论文
登录后可查看剩余解析次数。
标签筛选
数学推理基准测试
Self-Consistency Improves Chain of Thought Reasoning in Language Models
发表:2022/3/22
链式思维推理自一致性解码策略大语言模型推理能力增强复杂推理任务数学推理基准测试
本文提出了一种新的解码策略——自一致性,以改善大语言模型的链式思维推理能力。该方法通过采样多样化的推理路径,选取最一致的答案,显著提升了模型在数学和常识推理任务上的表现,如GSM8K提高17.9%。
02
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
发表:2025/4/19
强化学习验证奖励大语言模型推理能力增强数学推理基准测试编程任务推理能力RL算法对比分析
本研究探讨了强化学习与可验证奖励(RLVR)在提升大型语言模型(LLMs)推理能力中的有效性。尽管RLVR在数学和编程任务中展现了良好表现,研究发现当前的训练设置未能激发新的推理模式,基础模型在更大k值下表现更佳,强调了改进RL方法的必要性。
01
Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
发表:2025/10/9
大语言模型强化学习训练混合奖励优化数学推理基准测试基于奖励模型的学习稀疏奖励问题
本文提出的混合强化学习框架HERO结合了可验证奖励和奖励模型的优势,以解决稀疏奖励信号在大规模语言模型推理任务中的局限性。HERO采用分层归一化和方差感知加权方法,显著提升了模型在数学推理基准测试中的表现,证明了混合奖励设计能够保留稳定性与细致性。
03
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open
Language Models
发表:2024/2/6
大语言模型强化学习训练数学推理基准测试Group Relative Policy Optimization大语言模型微调公开数据驱动预训练
本文提出DeepSeekMath 7B,通过对1200亿数学相关词元的持续预训练及自然语言与代码数据结合,显著提升开放语言模型的数学推理能力。引入组相对策略优化(GRPO)算法,优化记忆并增强推理效果,实现在MATH基准上51.7%分数,接近GPT4水平。
03