AiPaper

论文

登录后可查看剩余解析次数。
标签筛选
强化学习数学推理
JURY-RL: Votes Propose, Proofs Dispose for Label-Free RLVR
发表:2025/10/8
大语言模型强化学习训练无训练加速方法强化学习数学推理序列策略优化
JURYRL提出一种无标签可验证奖励强化学习框架,通过模型投票生成答案候选,由Lean定理证明器验证并决定奖励,结合ResZero机制处理不可验证情况,避免虚假共识,提升训练稳定性和推理性能,在数学推理和代码生成等任务上优于无标签基线,媲美甚至超越监督训练。
03
Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards
发表:2025/10/8
大语言模型强化学习训练序列策略优化强化学习数学推理
本文提出ROVER算法,基于数学推理中RLVR问题的特殊MDP结构,证明最优动作可由固定随机策略估值恢复,绕过复杂策略迭代。ROVER简洁高效,保持多样性,显著提升LLM数学推理质量与多样性。
02
Learning to Reason without External Rewards
发表:2025/5/26
大语言模型强化学习训练序列策略优化无训练加速方法强化学习数学推理
本文提出InTuIToR,一种基于模型自我确信度的无外部奖励强化学习方法,实现大型语言模型的无监督复杂推理训练。利用组相对策略优化替代传统奖励函数,InTuIToR在数学和代码生成任务中展现优异泛化能力,免除对标注数据依赖。
03
Preference-Based Process Reward Model for Robust Mathematical Reasoning
发表:2025/10/8
偏好驱动过程奖励模型强化学习数学推理基于MCTS的数据构建步骤级监督机制序列策略优化
本文提出基于偏好的过程奖励模型(PPRM),结合蒙特卡洛树搜索构建高质量偏好数据,利用BradleyTerry损失缓解启发式搜索偏见。通过改进组相对策略优化算法,实现稳定高效训练,在数学推理中提高中间步骤准确率23%。
06