首页论文 RSS 订阅公告更新日志 PPT

论文

解析模型

登录后可查看剩余解析次数。

分析完成后邮件通知提交成功后加入收藏夹不公开给未提交本论文的用户（仍保存为个人默认精读）

标签筛选

大语言模型微调

ModuLoRA: Finetuning 2-Bit LLMs on Consumer GPUs by Integrating with Modular Quantizers

发表：2023/9/28

大语言模型微调低秩适配微调方法量化方法2-bit LLMs 训练消费者 GPU 优化

本文提出的是一种内存高效的微调算法，能在24GB的消费级GPU上以2/3/4比特精度微调高达65亿参数的LLM。其模块化设计通过集成任意权重量化器与低秩适配器，首次实现了对2比特和3比特LLM的微调，显著降低内存消耗并在多个任务中表现优秀。

Jenga: Enhancing LLM Long-Context Fine-tuning with Contextual Token Sparsity

大语言模型微调长上下文建模稀疏注意力机制

本论文提出了Jenga，一个全新的大型语言模型（LLM）微调系统，通过上下文词元稀疏性优化长上下文应用中的激活值内存使用。Jenga利用三项技术：词元消除、模式预测和核优化，有效减少冗余词元，增强模型运算效率，内存消耗降低至1.93倍，同时实现1.36倍的加速，超越现有微调系统。

Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM

发表：2021/4/9

大语言模型强化学习训练大语言模型微调基于 transformer 的高效前向预测GPU集群训练管道并行训练

本文提出了一种新的交错流水线并行调度，结合张量、流水线和数据并行方法，有效提高了大规模语言模型在GPU集群上的训练效率。在3072个GPU上可达到502 petaFLOP/s的训练速度，吞吐量提高超过10%。

Recommender Systems in the Era of Large Language Models (LLMs)

发表：2023/7/5

基于大语言模型的推荐系统大语言模型微调生成式推荐系统推荐系统的预训练与调优大语言模型的提示方法

本文回顾了利用大型语言模型（LLMs）强化推荐系统的各类方法，包括预训练、微调和提示。通过综合分析这些技术，作者强调LLMs在编码用户和物品特征、提升理解和生成能力方面的潜力，以及其在未来推荐系统研究中可能的应用方向。

LoRA: Low-Rank Adaptation of Large Language Models

发表：2021/6/18

大语言模型低秩适配Transformer架构大语言模型微调参数效率优化RoBERTa及衍生模型

论文提出了一种名为LoRA的低秩适配方法，旨在解决大型语言模型的微调问题。该方法通过冻结预训练模型权重并在每层注入可训练的秩分解矩阵，显著减少了需要训练的参数数量，其效果在RoBERTa、DeBERTa、GPT2及GPT3模型上表现优异。

SCALING LARGE LANGUAGE MODELS FOR NEXT-GENERATION SINGLE-CELL ANALYSIS

发表：2025/4/17

大语言模型微调单细胞RNA测序细胞文本建模生物信息合成多细胞上下文推理

本研究提出了一种基于Cell2Sentence框架的新方法，将单细胞RNA测序数据转化为文本“细胞句子”，并在超过十亿个标记的语料库上训练大型语言模型。通过将模型规模扩展至270亿参数，观察到在多细胞信息整合及高级下游任务中的持续性能提升，最终为下一代单细胞分析和“虚拟细胞”的开发奠定了基础。

Pharmacist: Safety Alignment Data Curation for Large Language Models against Harmful Fine-tuning

发表：2025/10/11

有害微调风险缓解大语言模型安全机制大语言模型微调

本文提出Pharmacist，一种针对大型语言模型有害微调的安全对齐数据筛选方法。通过训练数据选择器，Pharmacist优先挑选高质量且安全关键的对齐数据，显著提升防御效果与推理性能，同时减少训练时间，优于现有防御策略。

Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning

发表：2024/8/19

有害微调风险缓解大语言模型微调大语言模型安全机制

针对大语言模型易被有害微调破坏安全对齐问题，提出Antidote，一种后微调阶段的安全恢复方法。通过一次性剪枝去除有害权重，无需依赖微调超参数。实验表明，Antidote有效降低有害输出，且保持任务准确率。代码已开源。

CrAM: Credibility-Aware Attention Modification in LLMs for Combating Misinformation in RAG

发表：2025/4/11

大语言模型微调检索增强推理大语言模型安全机制可信度感知注意力修改大语言模型推理能力增强

本文提出可信度感知注意力修改（CrAM）方法，通过调整大型语言模型关键注意力头的权重，减少低可信度文档对检索增强生成（RAG）的负面影响。实验证明，CrAM在多种模型和数据集上显著提升了对错误信息的抵抗力，优于监督微调。

A Survey on Generative Recommendation: Data, Model, and Tasks

发表：2025/10/31

生成式推荐系统大语言模型微调Diffusion模型多模态大语言模型基于大语言模型的推荐系统

本文综述生成式推荐的新范式，基于数据增强与统一、模型对齐训练及任务设计三个维度系统分析。重点探讨大型语言模型和扩散模型的创新应用，揭示生成推荐在知识整合、自然语言理解与个性化生成上的优势。

Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation

发表：2024/9/3

有害微调风险缓解大语言模型微调大语言模型安全机制权重扰动缓解方法模型对齐阶段优化

本文提出Booster方法，通过在对齐训练阶段引入损失正则化，有效减弱模型权重的有害扰动，缓解因有害微调造成的安全风险。实验证明该方法降低有害行为生成概率，同时保持下游任务性能，提升了大语言模型的安全微调能力。

Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs

发表：2025/10/29

大语言模型强化学习训练序列策略优化大语言模型微调

本文提出LearntoAsk框架，通过利用离线专家日志中的观察未来，重塑离线策略学习，实现无模拟器主动式大型语言模型训练。该方法精准推断逐轮奖励，有效分解长时程任务，并辅以自动化评分校准，在医疗领域展现优异性能，成功部署在线服务。

Large Language Models as Realistic Microservice Trace Generators

发表：2024/12/16

大语言模型微调微服务调用图生成合成工作负载追踪递归生成方法指令微调

本文提出利用大型语言模型微调通过递归方法生成逼真微服务调用图合成跟踪，结合指令调优增强约束学习，显著提升多样性和准确性，能有效替代真实数据并支持关键跟踪特征预测与数据补全等下游任务。

MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation

发表：2025/10/28

生成式推荐系统大语言模型微调大语言模型强化学习训练序列策略优化残差量化变分自编码器

提出MiniOneRec开源框架，实现生成式推荐端到端流程，利用残差量化VAE构建SID，针对0.5B7B参数Qwen模型进行后训练。验证了生成式推荐的规模效应及参数效率，通过全流程SID对齐和带约束强化学习显著提升排序精度和推荐多样性。

Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents

发表：2023/11/1

大语言模型微调大语言模型强化学习训练基于大语言模型的动作规划对话策略规划自回归强化学习自演练

提出PPDPP，一种可插拔对话策略规划器，通过监督微调与基于自玩模拟的强化学习提升大型语言模型在主动对话中的策略制定能力。该方法不仅增强了策略泛化和适应性，还在多场景主动对话任务中显著优于现有方案。

Training LLM Agents to Empower Humans

发表：2025/10/8

大语言模型微调基于大语言模型的动作规划无训练加速方法强化学习保持先验能力机制

本文提出一种基于最大化人类赋能的LLM微调方法，仅依赖离线文本数据，无需额外人类反馈，实现智能体更有效辅助人类。用户研究及编码环境评测显示，该方法显著提升用户接受度和编码任务成功率，缓解智能体过度独立完成任务的问题。

Self-Improving LLM Agents at Test-Time

发表：2025/10/8

大语言模型微调大语言模型强化学习训练大语言模型推理能力增强大语言模型置信度校准自我增强大语言模型

本文提出测试时自改进方法，通过不确定性检测、自我数据增强和测试时微调三步，实现大型语言模型智能体即时强化。TTSI显著提升准确率并大幅降低训练样本需求，TTD进一步优化复杂情境表现，展现了低成本高效自演化智能体新范式。

Spinning Straw into Gold: Relabeling LLM Agent Trajectories in Hindsight for Successful Demonstrations

发表：2025/10/8

大语言模型微调序列策略优化大语言模型强化学习训练长时序一致性建模大语言模型推理能力增强

本文提出事后监督学习(HSL)框架，通过辅助LLM重新标记智能体轨迹中的实际达成目标，结合不相关动作掩蔽和样本重加权，提升长时程部分可观环境中LLM智能体的微调效果。实验在ALFWorld和WebShop验证了HSL的高数据效率和兼容性，显著优于传统方法。

Chain of Strategy Optimization Makes Large Language Models Better Emotional Supporter

发表：2025/3/7

序列策略优化大语言模型微调情感支持对话偏好偏置缓解基于MCTS的策略数据构建

本文提出链式策略优化（CSO）方法，以蒙特卡洛树搜索构建偏好数据集ESCPro，实现细粒度回合级策略选择优化。CSO显著提升大型语言模型在情绪支持对话中的策略准确性与偏好偏差缓解，增强模型同理心与响应适切性。

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

发表：2024/2/6

大语言模型强化学习训练数学推理基准测试Group Relative Policy Optimization大语言模型微调公开数据驱动预训练

本文提出DeepSeekMath 7B，通过对1200亿数学相关词元的持续预训练及自然语言与代码数据结合，显著提升开放语言模型的数学推理能力。引入组相对策略优化（GRPO）算法，优化记忆并增强推理效果，实现在MATH基准上51.7%分数，接近GPT4水平。

1 - 20 / 26

跳转至

© 2025 AiPaper · 友情链接 · 站点地图