论文
登录后可查看剩余解析次数。
标签筛选
序列策略优化
Grounded in Reality: Learning and Deploying Proactive LLM from Offline
Logs
发表:2025/10/29
大语言模型强化学习训练序列策略优化大语言模型微调
本文提出LearntoAsk框架,通过利用离线专家日志中的观察未来,重塑离线策略学习,实现无模拟器主动式大型语言模型训练。该方法精准推断逐轮奖励,有效分解长时程任务,并辅以自动化评分校准,在医疗领域展现优异性能,成功部署在线服务。
04
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory
发表:2025/9/30
大语言模型强化学习训练大语言模型推理能力增强序列策略优化大语言模型记忆机制测试时扩展技术
本文提出ReasoningBank记忆框架,通过提炼智能体自我评估的成功与失败经验,形成可泛化推理策略,并在测试时检索相关记忆辅助决策,支持持续自我演化。结合记忆感知测试时扩展MaTTS,显著提升智能体在连续任务中的学习效率和表现。
04
MiniOneRec: An Open-Source Framework for Scaling Generative
Recommendation
发表:2025/10/28
生成式推荐系统大语言模型微调大语言模型强化学习训练序列策略优化残差量化变分自编码器
提出MiniOneRec开源框架,实现生成式推荐端到端流程,利用残差量化VAE构建SID,针对0.5B7B参数Qwen模型进行后训练。验证了生成式推荐的规模效应及参数效率,通过全流程SID对齐和带约束强化学习显著提升排序精度和推荐多样性。
015
Spinning Straw into Gold: Relabeling LLM Agent Trajectories in Hindsight for Successful Demonstrations
发表:2025/10/8
大语言模型微调序列策略优化大语言模型强化学习训练长时序一致性建模大语言模型推理能力增强
本文提出事后监督学习(HSL)框架,通过辅助LLM重新标记智能体轨迹中的实际达成目标,结合不相关动作掩蔽和样本重加权,提升长时程部分可观环境中LLM智能体的微调效果。实验在ALFWorld和WebShop验证了HSL的高数据效率和兼容性,显著优于传统方法。
03
RLPIR: Reinforcement Learning with Prefix and Intrinsic Reward
发表:2025/10/8
大语言模型强化学习训练序列策略优化无训练加速方法大语言模型推理能力增强
RLPIR提出一种无需验证器的强化学习框架,通过前缀推演和组内一致性奖励减少训练时长和推理序列长度。在数学与通用基准测试中,达到与依赖真实标注RLVR相当的效果,训练效率提升近7倍,显著优化大型语言模型推理性能。
01
JURY-RL: Votes Propose, Proofs Dispose for Label-Free RLVR
发表:2025/10/8
大语言模型强化学习训练无训练加速方法强化学习数学推理序列策略优化
JURYRL提出一种无标签可验证奖励强化学习框架,通过模型投票生成答案候选,由Lean定理证明器验证并决定奖励,结合ResZero机制处理不可验证情况,避免虚假共识,提升训练稳定性和推理性能,在数学推理和代码生成等任务上优于无标签基线,媲美甚至超越监督训练。
03
Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards
发表:2025/10/8
大语言模型强化学习训练序列策略优化强化学习数学推理
本文提出ROVER算法,基于数学推理中RLVR问题的特殊MDP结构,证明最优动作可由固定随机策略估值恢复,绕过复杂策略迭代。ROVER简洁高效,保持多样性,显著提升LLM数学推理质量与多样性。
02
Tree Search for LLM Agent Reinforcement Learning
发表:2025/10/8
大语言模型强化学习训练序列策略优化树搜索强化学习方法基于组的相对优势估计
本文提出基于树搜索的群组相对策略优化(TreeGRPO),解决大型语言模型多轮强化学习中推演预算有限和稀疏监督问题。该方法通过共享前缀提高采样效率,并利用树状轨迹生成步级监督信号,显著提升多数据集问答任务表现。
03
Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents
发表:2025/10/8
大语言模型强化学习训练序列策略优化跨层次偏差校正分层优势归一化基于结构异质性的强化学习
本文针对LLM搜索智能体轨迹的结构异质性问题,提出分层GRPO方法及分层优势标准化(SAN),通过将轨迹划分为同质层内计算优势值,消除跨层偏差,实现更稳定且无偏的信用分配。实验验证其在多步问答中显著优于传统方法,提高训练奖励和稳定性。
03
Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks
发表:2025/10/8
序列策略优化基于层级分组的策略优化长时序任务强化学习大语言模型强化学习训练 (RL Training for Large Language Mode历史上下文一致性建模
本文针对长视界智能体任务中的上下文不一致问题,提出层级组策略优化(HGPO)方法。HGPO通过多层级划分步骤并自适应加权多组优势估计,有效平衡偏差与方差,无需额外模型,实现大幅提升策略优化效果,在复杂任务中超越现有方法。
01
Chain of Strategy Optimization Makes Large Language Models Better
Emotional Supporter
发表:2025/3/7
序列策略优化大语言模型微调情感支持对话偏好偏置缓解基于MCTS的策略数据构建
本文提出链式策略优化(CSO)方法,以蒙特卡洛树搜索构建偏好数据集ESCPro,实现细粒度回合级策略选择优化。CSO显著提升大型语言模型在情绪支持对话中的策略准确性与偏好偏差缓解,增强模型同理心与响应适切性。
02
PEARL: Towards Permutation-Resilient LLMs
发表:2025/2/20
大语言模型强化学习训练大语言模型推理能力增强序列策略优化无训练加速方法
本文提出排列弹性学习(PEARL),通过分布鲁棒优化和排列提议网络结合最优传输算法,针对最坏排列情况提升大型语言模型的鲁棒性。PEARL有效抵御排列攻击,并在多样上下文场景下显著增强模型性能和泛化能力。
06
Learning to Reason without External Rewards
发表:2025/5/26
大语言模型强化学习训练序列策略优化无训练加速方法强化学习数学推理
本文提出InTuIToR,一种基于模型自我确信度的无外部奖励强化学习方法,实现大型语言模型的无监督复杂推理训练。利用组相对策略优化替代传统奖励函数,InTuIToR在数学和代码生成任务中展现优异泛化能力,免除对标注数据依赖。
03
Segment Policy Optimization: Effective Segment-Level Credit Assignment
in RL for Large Language Models
发表:2025/5/29
序列策略优化大语言模型强化学习训练短链式思维链策略优化长链式思维链树状优化中间粒度优势估计
提出分段策略优化(SPO),在大语言模型强化学习中引入中间粒度的分段级优势估计,实现较轨迹级更精准、较词元级更稳定的信誉分配。SPO通过灵活分段、准确优势估计及新颖策略优化显著提升推理性能,在GSM8K和MATH500上均优于PPO和GRPO。
06
OneFlowSeq: Achieving One-Step Generation for Diffusion Language Models via Lightweight Distillation
发表:2025/10/8
Diffusion 模型微调自回归扩散模型大语言模型微调序列策略优化无训练加速方法
OneFlowSeq提出一种轻量蒸馏框架,将多步扩散教师模型精炼为单步生成器,利用MeanFlow监督和Jacobianvector乘积信号提高指导质量。显著提升生成速度和性能,参数量缩减1600倍,实验证明在多任务上超越传统方法。
016
Can LLM Agents Simulate Multi-Turn Human Behavior? Evidence from Real
Online Customer Behavior Data
发表:2025/3/27
大语言模型微调大语言模型强化学习训练序列策略优化基于大语言模型的动作规划真实用户行为模拟
本文首次基于3.1万真实购物会话大规模量化评估了LLM Agent多轮模拟人类行为的能力,发现基于提示的模型准确率仅11.86%。通过微调及合成推理轨迹增强,Qwen2.57B模型准确率提升至17.26%,显著改进了行为预测的实际准确性。
03
Elo-Evolve: A Co-evolutionary Framework for Language Model Alignment
发表:2025/10/8
大语言模型对齐序列策略优化多智能体博弈训练Elo排名机制基于比较的奖励学习
EloEvolve提出一种协同进化框架,通过直接利用成对输赢结果和基于Elo评分的动态对手选择,实现对大型语言模型的高效对齐。理论与实验表明该方法大幅降低噪声,提升样本利用率和训练稳定性,在多基准测试上优于传统绝对评分方法。
07
Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
发表:2025/10/8
大语言模型强化学习训练大语言模型微调序列策略优化大语言模型推理能力增强
本文提出GRAO统一框架,融合监督微调与强化学习优势,通过多样本生成、组直接对齐损失及成对偏好感知更新,提升模型对齐效率和稳定性。理论和实验证明,GRAO在复杂人类对齐任务中显著优于现有方法。
017
Preference-Based Process Reward Model for Robust Mathematical Reasoning
发表:2025/10/8
偏好驱动过程奖励模型强化学习数学推理基于MCTS的数据构建步骤级监督机制序列策略优化
本文提出基于偏好的过程奖励模型(PPRM),结合蒙特卡洛树搜索构建高质量偏好数据,利用BradleyTerry损失缓解启发式搜索偏见。通过改进组相对策略优化算法,实现稳定高效训练,在数学推理中提高中间步骤准确率23%。
06