论文
登录后可查看剩余解析次数。
标签筛选
大语言模型强化学习训练
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization
发表:2025/5/18
大语言模型强化学习训练群体相对策略优化判别约束优化框架长推理模型数学推理能力增强
本文提出了一种新的判别约束优化(DisCO)框架,以增强大型推理模型(LRMs)的性能。相较于现有的群组相对策略优化(GRPO),DisCO通过引入判别目标和非裁剪评分函数,解决了难度偏差和熵不稳定的问题,从而实现长期稳定的训练动态,提升了模型的数学推理能力。
04
Grounded in Reality: Learning and Deploying Proactive LLM from Offline
Logs
发表:2025/10/29
大语言模型强化学习训练序列策略优化大语言模型微调
本文提出LearntoAsk框架,通过利用离线专家日志中的观察未来,重塑离线策略学习,实现无模拟器主动式大型语言模型训练。该方法精准推断逐轮奖励,有效分解长时程任务,并辅以自动化评分校准,在医疗领域展现优异性能,成功部署在线服务。
04
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory
发表:2025/9/30
大语言模型强化学习训练大语言模型推理能力增强序列策略优化大语言模型记忆机制测试时扩展技术
本文提出ReasoningBank记忆框架,通过提炼智能体自我评估的成功与失败经验,形成可泛化推理策略,并在测试时检索相关记忆辅助决策,支持持续自我演化。结合记忆感知测试时扩展MaTTS,显著提升智能体在连续任务中的学习效率和表现。
03
MiniOneRec: An Open-Source Framework for Scaling Generative
Recommendation
发表:2025/10/28
生成式推荐系统大语言模型微调大语言模型强化学习训练序列策略优化残差量化变分自编码器
提出MiniOneRec开源框架,实现生成式推荐端到端流程,利用残差量化VAE构建SID,针对0.5B7B参数Qwen模型进行后训练。验证了生成式推荐的规模效应及参数效率,通过全流程SID对齐和带约束强化学习显著提升排序精度和推荐多样性。
015
Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents
发表:2023/11/1
大语言模型微调大语言模型强化学习训练基于大语言模型的动作规划对话策略规划自回归强化学习自演练
提出PPDPP,一种可插拔对话策略规划器,通过监督微调与基于自玩模拟的强化学习提升大型语言模型在主动对话中的策略制定能力。该方法不仅增强了策略泛化和适应性,还在多场景主动对话任务中显著优于现有方案。
04
Self-Improving LLM Agents at Test-Time
发表:2025/10/8
大语言模型微调大语言模型强化学习训练大语言模型推理能力增强大语言模型置信度校准自我增强大语言模型
本文提出测试时自改进方法,通过不确定性检测、自我数据增强和测试时微调三步,实现大型语言模型智能体即时强化。TTSI显著提升准确率并大幅降低训练样本需求,TTD进一步优化复杂情境表现,展现了低成本高效自演化智能体新范式。
09
Spinning Straw into Gold: Relabeling LLM Agent Trajectories in Hindsight for Successful Demonstrations
发表:2025/10/8
大语言模型微调序列策略优化大语言模型强化学习训练长时序一致性建模大语言模型推理能力增强
本文提出事后监督学习(HSL)框架,通过辅助LLM重新标记智能体轨迹中的实际达成目标,结合不相关动作掩蔽和样本重加权,提升长时程部分可观环境中LLM智能体的微调效果。实验在ALFWorld和WebShop验证了HSL的高数据效率和兼容性,显著优于传统方法。
03
WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent
发表:2025/10/8
多模态大语言模型视觉语言动作模型大语言模型强化学习训练复杂信息检索基准视觉语言推理
WebWatcher提出一种多模态深度研究智能体,结合视觉语言推理能力,通过高质量合成轨迹冷启动训练和强化学习提升泛化性能。提出BrowseCompVL基准测试,验证其在复杂视觉文本信息检索中的领先表现,突破了传统文本中心限制。
01
RLPIR: Reinforcement Learning with Prefix and Intrinsic Reward
发表:2025/10/8
大语言模型强化学习训练序列策略优化无训练加速方法大语言模型推理能力增强
RLPIR提出一种无需验证器的强化学习框架,通过前缀推演和组内一致性奖励减少训练时长和推理序列长度。在数学与通用基准测试中,达到与依赖真实标注RLVR相当的效果,训练效率提升近7倍,显著优化大型语言模型推理性能。
01
JURY-RL: Votes Propose, Proofs Dispose for Label-Free RLVR
发表:2025/10/8
大语言模型强化学习训练无训练加速方法强化学习数学推理序列策略优化
JURYRL提出一种无标签可验证奖励强化学习框架,通过模型投票生成答案候选,由Lean定理证明器验证并决定奖励,结合ResZero机制处理不可验证情况,避免虚假共识,提升训练稳定性和推理性能,在数学推理和代码生成等任务上优于无标签基线,媲美甚至超越监督训练。
03
Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards
发表:2025/10/8
大语言模型强化学习训练序列策略优化强化学习数学推理
本文提出ROVER算法,基于数学推理中RLVR问题的特殊MDP结构,证明最优动作可由固定随机策略估值恢复,绕过复杂策略迭代。ROVER简洁高效,保持多样性,显著提升LLM数学推理质量与多样性。
02
Tree Search for LLM Agent Reinforcement Learning
发表:2025/10/8
大语言模型强化学习训练序列策略优化树搜索强化学习方法基于组的相对优势估计
本文提出基于树搜索的群组相对策略优化(TreeGRPO),解决大型语言模型多轮强化学习中推演预算有限和稀疏监督问题。该方法通过共享前缀提高采样效率,并利用树状轨迹生成步级监督信号,显著提升多数据集问答任务表现。
03
Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents
发表:2025/10/8
大语言模型强化学习训练序列策略优化跨层次偏差校正分层优势归一化基于结构异质性的强化学习
本文针对LLM搜索智能体轨迹的结构异质性问题,提出分层GRPO方法及分层优势标准化(SAN),通过将轨迹划分为同质层内计算优势值,消除跨层偏差,实现更稳定且无偏的信用分配。实验验证其在多步问答中显著优于传统方法,提高训练奖励和稳定性。
03
PEARL: Towards Permutation-Resilient LLMs
发表:2025/2/20
大语言模型强化学习训练大语言模型推理能力增强序列策略优化无训练加速方法
本文提出排列弹性学习(PEARL),通过分布鲁棒优化和排列提议网络结合最优传输算法,针对最坏排列情况提升大型语言模型的鲁棒性。PEARL有效抵御排列攻击,并在多样上下文场景下显著增强模型性能和泛化能力。
06
Learning to Reason without External Rewards
发表:2025/5/26
大语言模型强化学习训练序列策略优化无训练加速方法强化学习数学推理
本文提出InTuIToR,一种基于模型自我确信度的无外部奖励强化学习方法,实现大型语言模型的无监督复杂推理训练。利用组相对策略优化替代传统奖励函数,InTuIToR在数学和代码生成任务中展现优异泛化能力,免除对标注数据依赖。
03
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open
Language Models
发表:2024/2/6
大语言模型强化学习训练数学推理基准测试Group Relative Policy Optimization大语言模型微调公开数据驱动预训练
本文提出DeepSeekMath 7B,通过对1200亿数学相关词元的持续预训练及自然语言与代码数据结合,显著提升开放语言模型的数学推理能力。引入组相对策略优化(GRPO)算法,优化记忆并增强推理效果,实现在MATH基准上51.7%分数,接近GPT4水平。
03
LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language
Diffusion Models
发表:2025/5/26
大语言模型强化学习训练Masked Diffusion Models方差减少优化LLaDA模型
LLaDA 1.5提出了方差降低偏好优化(VRPO)方法,通过理论分析ELBO估计器方差并引入无偏方差降低策略如最优蒙特卡洛预算分配和对偶采样,显著提升了掩码扩散模型的人类偏好对齐效果,在数学、代码和对齐基准上均超越前代模型。
05
Segment Policy Optimization: Effective Segment-Level Credit Assignment
in RL for Large Language Models
发表:2025/5/29
序列策略优化大语言模型强化学习训练短链式思维链策略优化长链式思维链树状优化中间粒度优势估计
提出分段策略优化(SPO),在大语言模型强化学习中引入中间粒度的分段级优势估计,实现较轨迹级更精准、较词元级更稳定的信誉分配。SPO通过灵活分段、准确优势估计及新颖策略优化显著提升推理性能,在GSM8K和MATH500上均优于PPO和GRPO。
06
WebShop: Towards Scalable Real-World Web Interaction with Grounded
Language Agents
发表:2022/7/4
基于大语言模型的动作规划大语言模型强化学习训练语言-动作环境联网交互模拟电商环境人类演示强化学习
本文提出WebShop,一个包含118万真实商品及1.2万众包指令的模拟电商环境,针对语言接地网页交互训练智能体。通过强化学习和模仿学习提升智能体任务成功率至29%,显著优于基线,且具备模拟到真实网页的迁移能力。
03
Customer-R1: Personalized Simulation of Human Behaviors via RL-based LLM
Agent in Online Shopping
发表:2025/10/9
大语言模型强化学习训练基于大语言模型的动作规划个性化用户行为模拟在线购物行为建模基于奖励信号的行为生成
本文提出CustomerR1,基于强化学习的大语言模型智能体,针对在线购物环境中用户个性画像,实现个性化逐步行为模拟。方法结合用户画像信息,通过动作正确性奖励优化行为生成,在OPeRA数据集上显著优于提示和监督微调方法,提升个性化行为预测准确性和保真度。
019