论文

登录后可查看剩余解析次数。
标签筛选
强化学习数学推理
On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
发表:2025/12/9
大语言模型强化学习训练大语言模型推理能力增强序列策略优化长上下文建模强化学习数学推理
本文研究强化学习(RL)是否真正扩展了语言模型的推理能力,提出一个透明的合成推理框架,分析预训练、中期训练和RL的因果贡献。主要发现包括:RL仅在模型能力边缘时有效提升能力,且仅需1%的预训练种子数据即可实现跨场景迁移,而中期训练显著优于纯RL,并有效降低奖励作弊。
04
ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute
发表:2025/8/30
大语言模型推理能力增强强化学习数学推理
本文提出了‘ParaThinker’,一种新型的大语言模型(LLM)扩展范式,利用原生思维并行技术来克服测试时计算的‘隧道视野’瓶颈。通过并行生成多样化推理路径并综合结果,显著提升了推理能力,且在多个基准测试中显示出相较于传统顺序方法的显著准确性提升。
04
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
自验证数学推理大语言模型定理证明强化学习数学推理证明生成器与验证器量化推理能力提升
论文提出DeepSeekMathV2模型,解决了大型语言模型在数学推理中的有效性问题。通过强化学习训练的定理证明验证器,模型能够自我验证推理过程,生成更准确的证明。在IMO 2025等赛事中表现优异,表明自我可验证数学推理有助于更强大的数学AI发展。
042
SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
发表:2025/9/12
视觉语言动作模型强化学习数学推理大语言模型强化学习训练多环境渲染高效强化学习框架
本文提出了框架,通过强化学习提升视觉语言动作(VLA)模型的训练效率,解决了大规模人类操作数据的稀缺和泛化能力有限的问题。实验表明,该框架在模型上达到了最先进的性能,降低了对标注数据的依赖。
03
JURY-RL: Votes Propose, Proofs Dispose for Label-Free RLVR
发表:2025/10/8
大语言模型强化学习训练无训练加速方法强化学习数学推理序列策略优化
JURYRL提出一种无标签可验证奖励强化学习框架,通过模型投票生成答案候选,由Lean定理证明器验证并决定奖励,结合ResZero机制处理不可验证情况,避免虚假共识,提升训练稳定性和推理性能,在数学推理和代码生成等任务上优于无标签基线,媲美甚至超越监督训练。
04
Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards
发表:2025/10/8
大语言模型强化学习训练序列策略优化强化学习数学推理
本文提出ROVER算法,基于数学推理中RLVR问题的特殊MDP结构,证明最优动作可由固定随机策略估值恢复,绕过复杂策略迭代。ROVER简洁高效,保持多样性,显著提升LLM数学推理质量与多样性。
02
Learning to Reason without External Rewards
发表:2025/5/26
大语言模型强化学习训练序列策略优化无训练加速方法强化学习数学推理
本文提出InTuIToR,一种基于模型自我确信度的无外部奖励强化学习方法,实现大型语言模型的无监督复杂推理训练。利用组相对策略优化替代传统奖励函数,InTuIToR在数学和代码生成任务中展现优异泛化能力,免除对标注数据依赖。
05
Preference-Based Process Reward Model for Robust Mathematical Reasoning
发表:2025/10/8
偏好驱动过程奖励模型强化学习数学推理基于MCTS的数据构建步骤级监督机制序列策略优化
本文提出基于偏好的过程奖励模型(PPRM),结合蒙特卡洛树搜索构建高质量偏好数据,利用BradleyTerry损失缓解启发式搜索偏见。通过改进组相对策略优化算法,实现稳定高效训练,在数学推理中提高中间步骤准确率23%。
014