Process Reinforcement through Implicit Rewards
TL;DR 精炼摘要
本文提出PRIME(通过隐式奖励进行过程强化),旨在提升大型语言模型(LLMs)在复杂多步推理任务中的强化学习效率。PRIME仅依赖策略推演和结果标签进行在线过程奖励模型(PRM)更新,解决了高质量过程标签收集成本高和奖励破解等问题。研究显示,PRIME在数学和编码基准任务中的平均性能提升了15.1%。
摘要
Dense process rewards have proven a more effective alternative to the sparse outcome-level rewards in the inference-time scaling of large language models (LLMs), particularly in tasks requiring complex multi-step reasoning. While dense rewards also offer an appealing choice for the reinforcement learning (RL) of LLMs since their fine-grained rewards have the potential to address some inherent issues of outcome rewards, such as training efficiency and credit assignment, this potential remains largely unrealized. This can be primarily attributed to the challenges of training process reward models (PRMs) online, where collecting high-quality process labels is prohibitively expensive, making them particularly vulnerable to reward hacking. To address these challenges, we propose PRIME (Process Reinforcement through IMplicit rEwards), which enables online PRM updates using only policy rollouts and outcome labels through implict process rewards. PRIME combines well with various advantage functions and forgoes the dedicated reward model training phrase that existing approaches require, substantially reducing the development overhead. We demonstrate PRIME's effectiveness on competitional math and coding. Starting from Qwen2.5-Math-7B-Base, PRIME achieves a 15.1% average improvement across several key reasoning benchmarks over the SFT model. Notably, our resulting model, Eurus-2-7B-PRIME, surpasses Qwen2.5-Math-7B-Instruct on seven reasoning benchmarks with 10% of its training data.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
通过隐式奖励进行过程强化 (Process Reinforcement through Implicit Rewards)
1.2. 作者
Ganqu Cui, Lifan Yuan, Zefan Wang, Hanbin Wang, Yuchen Zhang, Jiacheng Chen, Wendi Li, Bingxiang He, Yuchen Fan, Tianyu Vu, Qixin Xu, Weize Chen, Jiarui Yuan, Huayu Chen, Kaiyan Zhang, Xingtai Lv, Shuo Wang, Yuan Yao, Xu Han, Hao Peng, Yu Cheng, Zhiyuan Liu, Maosong Sun, Bowen Zhou, Ning Ding。 作者主要来自上海人工智能实验室 (Shanghai AI Lab)、北京大学 (Peking University) 和上海交通大学 (Shanghai Jiaotong University) 等机构。
1.3. 发表期刊/会议
预印本,发表于 arXiv。
1.4. 发表年份
2025年2月3日
1.5. 摘要
在大型语言模型 (Large Language Models, LLMs) 的推理时扩展中,密集的过程奖励 (process rewards) 被证明比稀疏的结果级奖励 (outcome-level rewards) 更有效,特别是在需要复杂多步推理的任务中。虽然密集奖励对于 LLMs 的强化学习 (Reinforcement Learning, RL) 也是一个有吸引力的选择,因为其细粒度的奖励有可能解决结果奖励的一些固有问题,例如训练效率和信用分配 (credit assignment),但这一潜力在很大程度上尚未实现。这主要归因于在线过程奖励模型 (Process Reward Models, PRMs) 训练的挑战,其中收集高质量的过程标签成本过高,使其特别容易受到奖励破解 (reward hacking) 的影响。为了应对这些挑战,本文提出了 PRIME (Process Reinforcement through IMplicit rEwards),它通过隐式过程奖励 (implicit process rewards),仅使用策略推演 (policy rollouts) 和结果标签即可实现在线 PRM 更新。PRIME 可以与各种优势函数 (advantage functions) 很好地结合,并且无需现有方法所需的专用奖励模型训练阶段,从而大大减少了开发开销。作者在竞争性数学和编码任务上验证了 PRIME 的有效性。从 Qwen2.5-Math-7B-Base 模型开始,PRIME 在几个关键推理基准上的平均性能比 监督微调模型 (Supervised Fine-Tuning, SFT) 提升了 15.1%。值得注意的是,最终模型 Eurus-2-7B-PRIME 在七个推理基准上超越了 Qwen2.5-Math-7B-Instruct 模型,且仅使用了其 10% 的训练数据。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2502.01456v2 PDF 链接: https://arxiv.org/pdf/2502.01456v2.pdf
2. 整体概括
2.1. 研究背景与动机
论文试图解决的核心问题: 本文旨在解决在大型语言模型 (LLMs) 的强化学习 (RL) 中有效利用密集过程奖励 (dense process rewards) 的挑战。尽管密集奖励在提升多步推理任务的训练效率和解决信用分配问题方面具有巨大潜力,但其大规模应用受到限制。
为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白 (Gap)?
- 推理时效用已被证实: 密集过程奖励在 LLMs 的推理时(如自修正、思维链)已展现出显著效果,但在训练时,尤其是在 RL 框架下,其潜力尚未完全发挥。
- 稀疏奖励的局限性: 传统的稀疏结果奖励 (sparse outcome rewards) 仅在整个生成过程结束时提供反馈,这导致训练效率低下、容易产生虚假解决方案(即过程错误但答案正确),并加剧了信用分配问题。
- 现有密集奖励方法的挑战:
- 过程奖励难以定义和标注 (C1. Process rewards are hard to define): 细粒度的步骤级甚至词元级 (token-level) 标签标注成本极高且模糊不清,难以定义中间步骤的绝对正确性。
- 过程奖励模型 (PRM) 在线更新不具可扩展性 (C2. PRM online updates are not scalable): 为避免奖励破解 (reward hacking) 和模型过拟合,奖励模型需要随策略模型一起在线更新。然而,现有 PRMs 的训练需要大量细致的步骤级标注,这在在线 RL 训练中是不可行的。
- 显式奖励建模带来额外成本 (C3. Explicit reward modeling brings extra cost): 训练一个独立的奖励模型需要大量标注数据和额外训练开销,特别是对于 PRMs,这增加了开发复杂性和成本。
这篇论文的切入点或创新思路是什么? PRIME 的核心创新在于利用隐式过程奖励建模 (implicit process reward modeling) (Yuan et al., 2024b) 的能力。这种方法允许仅仅通过结果级标签 (outcome-level labels) 来训练密集的奖励模型,从而解决了上述挑战。具体来说,它实现了:
- 在线 PRM 更新: 仅使用策略推演 (policy rollouts) 和结果标签即可在线更新 PRM,有效缓解奖励破解。
- 无需专用奖励模型训练阶段: 可以直接从 监督微调模型 (SFT model) 或基础模型初始化 PRM,大幅降低开发开销。
- 兼容性强: 能够灵活地将词元级密集奖励与稀疏结果奖励结合到各种 RL 算法中。
2.2. 核心贡献/主要发现
论文最主要的贡献:
- 提出 PRIME 框架: 引入 PRIME (Process Reinforcement through IMplicit rEwards),一个可扩展的在线强化学习框架,能够利用隐式过程奖励 (implicit process rewards) 提升 LLMs 的推理能力。
- 实现 PRM 在线更新: 利用隐式过程奖励建模,使 PRM 能够仅通过策略推演 (policy rollouts) 和结果标签进行在线更新,从根本上缓解了奖励破解 (reward hacking) 问题,同时计算成本与传统结果奖励模型 (ORM) 相同。
- 消除专用奖励模型训练阶段: PRM 可以直接从 SFT 模型或基础模型初始化,无需额外的奖励模型训练阶段,显著降低了开发成本和复杂性。
- 通用性强: PRIME 可以作为通用方法,将词元级密集奖励和稀疏结果奖励结合起来,兼容多种 RL 算法(如 REINFORCE, RLOO, GRPO, PPO)。
论文得出了哪些关键的结论或发现?这些发现解决了什么具体问题?
- 显著提升性能和样本效率: 在竞争性数学和编码任务上,PRIME 相较于仅使用结果奖励的 RL 方法,实现了 2.5 倍的样本效率提升和 6.9% 的性能提升。最终模型 Eurus-2-7B-PRIME 在数学推理基准上平均比 SFT 模型提高了 15.1%,并在七个基准上超越了 Qwen2.5-Math-7B-Instruct,且仅使用了其 10% 的训练数据。
- 在线 PRM 更新至关重要: 实验证明,在线更新 PRM 是 PRIME 成功的关键,它能有效缓解因分布偏移导致的奖励模型过优化问题。
- SFT 模型可作为优秀的 PRM 初始化: 直接使用 SFT 模型初始化 PRM 表现优于专门训练的 PRM,这简化了流程并减轻了分布偏移问题。
- PRIME 普适性强: PRIME 能够普遍提升 REINFORCE、GRPO 和 PPO 等多种 RL 算法的效率和性能,表明其作为通用插件的潜力。
- 过程奖励模型优于价值模型: 实验结果表明,在 LLM 的强化学习中,将隐式 PRM 用作奖励模型来计算回报优于将其用作价值模型来估计优势函数,这解决了如何有效结合密集监督的问题。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 大型语言模型 (Large Language Models, LLMs)
LLMs 是指拥有数亿甚至数千亿参数的深度学习模型,它们在海量文本数据上进行训练,能够理解、生成人类语言,并执行翻译、问答、推理等多种任务。本文主要关注 LLMs 在多步推理任务中的能力提升。
3.1.2. 强化学习 (Reinforcement Learning, RL)
强化学习 (Reinforcement Learning, RL) 是一种机器学习范式,智能体 (agent) 通过与环境交互来学习如何做出决策以最大化累积奖励。在 LLM 语境下,LLM 扮演智能体,生成文本是其动作,环境会根据生成的文本提供奖励。
- 策略 (Policy, ): 智能体的行为函数,描述在给定状态下选择动作的概率分布。在 LLM 中,策略 是一个参数为 的语言模型,它输出词元的概率。
- 状态 (State): 智能体在某一时刻的感知。在 LLM 中,状态通常是提示 (prompt) 和已生成词元序列 () 的拼接。
- 动作 (Action): 智能体在某一状态下采取的行为。在 LLM 中,一个动作通常是生成下一个词元 ()。
- 奖励 (Reward, ): 环境对智能体动作的反馈信号。奖励可以是正的、负的或零,用于指导智能体学习。
- 回报 (Return): 从某一时刻开始,未来所有折扣奖励的累积和。智能体的目标是最大化期望回报。
- 信用分配问题 (Credit Assignment Problem): 在长序列决策中,确定哪个具体动作对最终结果产生了贡献的挑战。稀疏奖励会加剧这个问题。
3.1.3. 奖励类型:稀疏奖励 vs. 密集奖励
- 稀疏结果级奖励 (Sparse Outcome-level Rewards): 仅在整个任务完成后(例如,LLM 生成完整响应后)提供一个单一的奖励信号。对于多步推理任务,这意味着只有最终答案的正确性才会被评估,而中间步骤的质量则不被直接奖励。这可能导致训练效率低、信用分配困难和奖励破解。
- 密集过程奖励 (Dense Process Rewards): 在任务的每个中间步骤或词元生成时都提供奖励反馈。这提供了更细粒度的指导,有助于智能体学习正确的推理过程,提升训练效率和信用分配。
3.1.4. 奖励模型 (Reward Model, RM)
奖励模型 (Reward Model, RM) 是一个独立训练的模型,用于评估智能体生成响应的质量并提供奖励信号。
- 结果奖励模型 (Outcome Reward Model, ORM): 专门用于评估整个响应的最终结果(例如,答案是否正确),提供稀疏奖励。
- 过程奖励模型 (Process Reward Model, PRM): 评估生成响应的中间步骤或词元,提供密集奖励。PRM 的训练通常需要步骤级的标注,成本高昂。
3.1.5. 奖励破解 (Reward Hacking) / 过度优化 (Overoptimization)
奖励破解 (Reward Hacking) 或过度优化 (Overoptimization) 是指智能体找到一种在奖励函数上得分很高,但实际任务性能不佳或不符合预期目标的方式。在 RL 中,如果奖励模型是静态的,策略模型可能会学会利用奖励模型中的漏洞或偏差来最大化奖励,而不是真正解决问题,尤其是在奖励模型与真实任务目标存在差异时。在线更新奖励模型是缓解这一问题的关键策略。
3.1.6. 策略梯度 (Policy Gradient)
策略梯度 (Policy Gradient) 是一系列直接优化策略函数 的 RL 算法。其目标是最大化期望累积折扣奖励。
- 优势函数 (Advantage Function, ): 衡量在给定状态下采取某个特定动作相对于平均或基线动作有多好。 其中, 是折扣因子 (discount factor),用于衡量未来奖励的重要性; 是在时间步 获得的奖励; 是一个基线 (baseline),用于减少优势函数估计的方差。
- Monte-Carlo (MC) 优势估计 (Monte-Carlo Advantage Estimate): 直接使用从当前时间步到轨迹结束的所有实际奖励计算优势,方差较高。
3.1.7. 价值模型 (Value Models)
价值模型 (Value Models, ) 是一种估计从给定状态开始的预期累积回报的模型。它们通常与策略模型一起训练,以帮助减少策略梯度估计的方差。
- 时间差分 (Temporal Difference, TD) 误差 (): 衡量当前状态的价值估计与基于下一个状态和即时奖励的价值估计之间的差异。
- 广义优势估计 (Generalized Advantage Estimation, GAE): 一种结合了 MC 和 TD 误差的优势函数估计方法,通过一个参数 平衡偏差和方差。
3.1.8. 代理策略优化 (Proximal Policy Optimization, PPO)
代理策略优化 (Proximal Policy Optimization, PPO) 是一种流行的 Actor-Critic 型 RL 算法。它通过剪辑 (clipping) 策略比率来限制每次策略更新的幅度,以确保训练的稳定性,同时利用价值模型来降低优势估计的方差。
3.1.9. Leave-One-Out (LOO) 基线
Leave-One-Out (LOO) 基线 是一种用于减少方差的基线方法。对于从同一提示 (prompt) 生成的 个响应,LOO 基线计算的是除了当前响应之外,其他 K-1 个响应的平均奖励,以此作为当前响应的比较基线。
3.2. 前人工作
3.2.1. 推理时 LLM 的密集奖励
- Uesato et al., 2022; Lightman et al., 2023; Wang et al., 2023; Yuan et al., 2024b: 这些工作证明了在 LLMs 推理时使用密集过程奖励的有效性,尤其是在复杂的推理任务中。例如,一些方法通过链式思维或逐步验证来提供中间反馈。
- 挑战: 尽管这些方法在推理时表现出色,但将其直接应用于 LLM 的 RL 训练面临如何大规模获取高质量密集奖励的挑战。
3.2.2. LLM 强化学习中的奖励挑战
- Setlur et al., 2024: 指出在 LLM 的 RL 中,密集奖励的成功应用有限。
- DeepSeek-AI et al., 2025; Team et al., 2025: 这些行业领先模型主要依赖可验证的结果奖励,尚未在密集奖励方面取得有意义的进展,并承认将 PRM 纳入大规模 RL 训练的困难。这与本文提出的挑战 (C1, C2, C3) 相符。
3.2.3. 隐式奖励 (Implicit Rewards)
- Rafailov et al., 2023 (DPO); Chen et al., 2024b; Azar et al., 2024; Ethayarajh et al., 2024; Rosset et al., 2024; Chen et al., 2024a: 隐式奖励在 LLM 对齐 (alignment) 中被广泛采用。例如,直接偏好优化 (Direct Preference Optimization, DPO) 表明,直接优化偏好目标可以隐式地学习一个 Q 函数。
- Zhou et al., 2024: 在 PPO 中利用了隐式奖励,并展示了密集隐式奖励的有效性。
- Yuan et al., 2024b: 进一步将结论推广到任何优化特定方程的损失函数,提出了隐式过程奖励建模。PRIME 的核心思想正是基于这一工作,即隐式 PRM 可以只用结果标签进行训练,但在推理时提供词元级过程奖励。
3.3. 技术演进
从早期 LLM 的监督微调 (SFT) 到通过人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF) 进行对齐,奖励模型在 LLM 发展中扮演了关键角色。最初的 RLHF 主要依赖于稀疏结果奖励模型 (ORM),因为它们易于收集和标注。然而,随着 LLM 处理多步复杂推理任务能力的增强,稀疏奖励的局限性变得突出。研究人员开始探索密集过程奖励模型 (PRM),以期提供更细粒度的反馈。
传统的 PRM 需要昂贵的步骤级标注 (step-level annotation),这在实际大规模在线 RL 训练中是不可行的。这导致了奖励破解 (reward hacking) 的问题,即策略模型会利用静态奖励模型的漏洞,而不是真正提升能力。解决这一问题的关键在于在线更新奖励模型。
PRIME 正是针对这一技术瓶络提出的解决方案。它基于隐式奖励建模的最新进展,使得 PRM 能够仅通过结果标签进行在线更新。这不仅降低了数据标注成本,还通过在线适应策略分布来缓解奖励破解,从而将密集过程奖励的优势引入到大规模 LLM 强化学习中。
3.4. 差异化分析
PRIME 与现有方法的核心区别和创新点体现在以下几个方面:
- PRM 在线更新的可扩展性:
- 现有 PRM: 需要昂贵的步骤级标注 (step-level annotation) 来进行训练和在线更新 (Lightman et al., 2023),这在在线 RL 训练中不具可扩展性。
- PRIME: 采用隐式过程奖励建模,仅使用结果级标签 (outcome-level labels) 即可训练和在线更新 PRM。这使得 PRM 的在线更新与策略模型的推演和结果标签收集并行进行,从根本上解决了可扩展性问题,并有效缓解了奖励破解。
- 奖励模型训练阶段:
- 现有方法: 通常需要一个独立的、耗时耗力的奖励模型训练阶段,以确保奖励模型具有良好的泛化能力和与策略分布的适应性。
- PRIME: 无需专用的奖励模型训练阶段。PRM 可以直接从 监督微调 (SFT) 模型 甚至 基础模型 (base model) 初始化,显著降低了开发开销和复杂性。
- 奖励粒度:
- 传统 PRM: 通常提供步骤级 (step-level) 奖励。
- PRIME: 隐式 PRM 能够以无额外成本的方式提供更细粒度的词元级 (token-level) 奖励,这解决了 LLM 响应中识别步骤的模糊性问题,并更容易与各种 RL 算法结合。
- 对 RL 算法的兼容性:
- PRIME: 设计为一个通用框架,能够灵活地将词元级密集奖励和稀疏结果奖励结合到任何 Monte-Carlo (MC) 优势估计器中,包括 REINFORCE, RLOO, GRPO, PPO 等,展现了其广泛的适用性。
- 克服奖励破解:
- 现有静态 PRM: 由于分布偏移,静态 PRM 容易导致奖励过优化或奖励破解。
- PRIME: 通过在线更新 PRM,使其能够适应策略模型的最新推演 (rollouts) 分布,从而有效防止奖励破解,确保 RL 训练的稳定性和有效性。
4. 方法论
4.1. 方法原理
PRIME 的核心思想是利用隐式过程奖励 (implicit process rewards) 来实现可扩展的 LLM 强化学习,特别是针对复杂的多步推理任务。其关键在于解决了传统过程奖励模型 (PRM) 在线更新的不可行性问题,即昂贵的步骤级标注和奖励破解的风险。PRIME 通过以下直觉实现这一目标:
-
隐式奖励建模的巧妙利用: 借鉴 Yuan et al. (2024b) 的工作,PRIME 采用一种特殊的奖励表示,使得一个语言模型 (作为 PRM) 仅通过结果级标签 (outcome-level labels) 就可以被训练,但在推理时能够提供词元级 (token-level) 的密集过程奖励。这避免了对细粒度过程标注的需求。
-
在线更新以对抗奖励破解: 由于 PRM 可以只用结果标签进行训练,因此它可以像策略模型一样,利用其在训练过程中生成的新推演 (rollouts) 和对应的结果标签进行在线更新。这确保了奖励模型与策略模型的分布保持同步,从而从根本上缓解了奖励破解 (reward hacking) 和过优化 (overoptimization) 的问题。
-
优势估计中的奖励融合: PRIME 设计了一个灵活的框架,将这种词元级隐式过程奖励与传统的稀疏结果奖励结合起来,用于计算优势函数。这种结合方式既能利用密集奖励的细粒度指导,又能保留结果奖励的最终正确性信号。
-
简化开发流程: PRIME 发现,可以直接使用 监督微调 (SFT) 模型 甚至基础模型来初始化 PRM,而无需一个额外的、专门的奖励模型训练阶段,大大降低了实现 RL 的开发开销。
通过这些机制,PRIME 使得大规模、高效且稳定的 LLM 强化学习成为可能,尤其适用于需要复杂推理能力的场景。
4.2. 核心方法详解 (逐层深入)
PRIME 的整体流程如 Figure 1 所示,并通过 Algorithm 1 详细阐述。
该图像是示意图,展示了PRIME的工作流程。图中包含多个组件,包括政策模型、隐式过程奖励模型(Implicit PRM)和结果验证器。流程从输入提示开始,生成响应并通过结果验证器进行评估。根据过程奖励和输出的准确性,更新政策模型和隐式PRM。图示清晰地展示了各个步骤之间的关系和反馈机制。
图 1: PRIME 的工作流程示意图。PRIME 遵循以下步骤:(1) 使用参考模型初始化策略模型和隐式 PRM;(2) 为每个提示采样多个响应并根据输出准确性进行筛选;(3) 由隐式 PRM 获取隐式过程奖励并通过交叉熵 (CE) 损失进行更新;(4) 计算优势函数和策略损失,然后更新策略模型。
4.2.1. 启用隐式奖励建模以实现可扩展的奖励更新 (Enabling Scalable Reward Update with Implicit Reward Modeling)
PRIME 使用隐式过程奖励模型 (Implicit PRM) 来提供密集奖励,其核心优势在于可扩展性。隐式 PRM 能够仅使用结果标签 (outcome labels) 训练一个结果奖励模型 (ORM),然后在推理时将其重新用作 PRM。其训练阶段与标准 ORM 管道相同,唯一的区别在于将奖励表示为 ,其中 是奖励模型, 是参考模型,两者都是因果语言模型 (causal LMs)。在推理时,词元级 (token-level) 过程奖励 通过以下公式获得:
其中:
-
表示在时间步 生成词元 时获得的隐式过程奖励。
-
是一个标量超参数,控制奖励的尺度。
-
是由隐式 PRM 给出的在给定历史词元序列 下生成词元 的概率。
-
是由参考模型 给出的在给定历史词元序列 下生成词元 的概率。
PRIME 通过这种方式解决了
C1. 过程奖励难以定义和C2. PRM 在线更新不具可扩展性:
- 防止奖励破解: 隐式 PRM 仅需要结果标签进行训练,因此可以方便地使用策略模型生成的推演 (rollouts) 和对应的结果标签进行在线更新,这正是策略模型更新所需的数据。这使得奖励模型能够动态适应策略的最新分布,从而有效避免了过度优化和奖励破解。
- 细粒度奖励: 隐式 PRM 提供细粒度的词元级 (token-level) 奖励,而无需额外的成本,这解决了 LLM 响应中识别“步骤”的模糊性问题。
4.2.2. 优势估计与策略更新 (Advantage Estimation and Policy Update)
在获得词元级密集奖励后,PRIME 需要计算优势函数 (advantage function) 来指导策略更新。PRIME 兼容多种优势估计器,作者在实验中比较了 REINFORCE、RLOO 和 GRPO 等 MC 估计器以及 GAE,发现 MC 估计器足够稳定有效。本文选择Leave-One-Out (LOO) 基线作为 Monte Carlo (MC) 估计器的一种实现,因为它在实验中表现更好。
优势函数的计算:
给定 个样本,LOO 基线计算当前样本的奖励与其余 K-1 个样本的平均奖励之间的差值作为优势函数。对于结果奖励,其优势为:
其中:
-
是第 个响应的优势值。
-
是第 个响应 的结果奖励。
-
是为每个提示 (prompt) 采样的响应数量。
-
是除第 个响应外,其他所有响应的结果奖励之和。
为了结合隐式过程奖励和稀疏结果奖励,PRIME 将它们的回报 (returns) 分别计算,然后相加。这是因为直接混合不同来源的奖励值可能导致数值不稳定。
-
隐式过程奖励的回报计算:
- 首先,使用所有样本的平均隐式过程奖励来计算 LOO 基线。
- 然后,通过减去基线来标准化每个时间步 的过程奖励。
- 最后,为每个响应计算折扣回报。
-
结果奖励的回报计算: 直接采用 LOO 基线,无需修改。
最终,将两种回报组合起来得到总的优势函数:
其中:
- 是第 个响应在时间步 的优势值。
- 是第 个响应的长度(词元数量)。
- 是折扣因子。
- 是第 个响应在时间步 的词元级隐式过程奖励。
- 是除第 个响应外,其他所有响应的平均词元级隐式过程奖励。需要注意的是,此处原文公式中 表示整个响应的隐式过程奖励和,而不是单个词元的。在实际实现中,通常会将每个词元奖励标准化后再计算其 LOO 基线,或者如原文附录 B.3 中 GRPO 的公式所示,使用平均奖励/长度进行标准化。根据上下文,此处 应该是指整个轨迹的累积隐式过程奖励。
- 是第 个响应的结果奖励。
- 是除第 个响应外,其他所有响应的平均结果奖励。
策略更新与 PPO 剪辑代理损失 (Updating Policy with PPO Loss): PRIME 采用 PPO 剪辑代理损失 (PPO clip surrogate loss) 进行策略更新,以提高训练稳定性:
其中:
- 是 PPO 剪辑代理损失函数,旨在更新策略参数 。
- 表示对时间步 的期望。
- 是当前策略 在给定历史词元 时生成词元 的概率。
- 是旧策略 (上一次迭代的策略)在给定历史词元 时生成词元 的概率。
- 是在时间步 计算的优势函数。
- 是一个剪辑函数,将 的值限制在 范围内。
- 是一个剪辑参数,控制新旧策略之间允许的最大偏差。此损失函数通过限制策略比率来防止策略更新幅度过大,从而提高训练稳定性。
4.2.3. 其他技术 (Other Techniques)
- PRM 与 SFT/基础模型初始化 (Initializing PRM with SFT/base model): PRIME 发现,策略模型本身(经过监督微调或作为基础模型)可以作为 PRM 的一个良好初始化,从而省略了传统方法中专门的 PRM 训练阶段,解决了
C3. 显式奖励建模带来额外成本。 - 在线提示过滤 (Online Prompt Filtering): 在每个推演 (rollout) 阶段,PRIME 会对生成响应的提示进行在线过滤。这有助于:
- 保留中等难度范围内的提示,避免过难或过简单的样本。
- 平衡数据分布,以利于隐式 PRM 的在线训练。
4.2.4. 算法流程 (Algorithm 1)
Algorithm 1 Process Reinforcement through Implicit Rewards (PRIME)
输入: 语言模型 ;结果验证器 ;数据集 ;采样数量 ;总迭代次数 。
1: 初始化 策略模型 ,隐式 PRM 和参考模型 2: for 迭代次数 do 3: 采样 批次提示 4: 生成 个响应: 对于 5: 计算 结果奖励: 6: 对所有提示应用准确性过滤器 (§3.3): 对于 7: 在 每个 上进行 前向传播,以通过 Eq. 3 获得隐式过程奖励 8: 通过 CE 损失更新隐式 PRM 在 上: 其中: * 是用于更新隐式 PRM 的交叉熵损失函数。 * 是经过过滤的提示和响应的集合。 * 是响应 的二元结果奖励(1 表示正确,0 表示错误)。 * 是 Sigmoid 函数,将隐式过程奖励 转换为一个介于 0 到 1 之间的概率值,表示响应是正确的概率。 * 表示模型预测响应正确的对数概率。 * 表示模型预测响应错误的对数概率。 * 这个损失函数旨在使隐式 PRM 输出的奖励信号能够准确预测响应的最终结果(正确或错误),从而学习到与结果标签一致的过程奖励。 9: 通过 Eq. 5 计算优势函数 10: 通过 Eq. 6 中的 PPO 损失更新策略 11: 更新旧参数: 12: end for
4.2.5. PRIME 如何解决挑战 (How PRIME addresses challenges)
- C1. 过程奖励难以定义: PRIME 通过隐式过程奖励建模,从结果标签中推断出词元级奖励,避免了对模糊且昂贵的步骤级或词元级过程标签的直接需求。
- C2. PRM 在线更新不具可扩展性: 隐式 PRM 仅需要结果标签进行训练,这些标签在策略推演 (rollouts) 过程中自然产生。因此,PRM 可以利用这些在线数据进行更新,避免了奖励破解,且计算成本与传统 ORM 相当。
- C3. 显式奖励建模带来额外成本: PRIME 允许直接使用 SFT 模型甚至基础模型初始化 PRM,从而消除了训练专用奖励模型所需的大量标注数据和额外训练阶段。
4.3. 隐式过程奖励的讨论 (Discussion on Implicit Process Reward)
4.3.1. 公式有效性 (Formulation Validity)
根据 Yuan et al. (2024b),隐式过程奖励是奖励建模的一种参数化。在这种参数化下,从词元 开始的累积奖励的期望(即 q 值) 可以表示为 。虽然这种形式与 DPO (Rafailov et al., 2023; 2024) 有关,但它并非源自熵正则化强化学习 (entropy-regularized RL) 的最优策略 (Ziebart et al., 2008; Haarnoja et al., 2017)。
4.3.2. 损失函数 (Loss Function)
由于 和 都是本质上自归一化的语言模型,使用交叉熵 (CE) 损失训练会导致一个微小问题:最小损失值 0 无法达到。因此,最优解将满足 ,而不是原始 PRM 的 。这意味着即使包含偏置项 ,它在优势函数计算中也会被抵消,因为偏置项只与提示 相关。
为了解决这个问题,可以简单地通过使用 DPO 损失来消除这个价值项。作者进行了初步实验比较 DPO 和 CE 损失,发现两者取得了相似的结果,并为了内存效率选择了 CE 损失。
4.3.3. 奖励塑形 (Reward Shaping)
PRIME 的另一种理解是基于潜能的奖励塑形 (potential-based reward shaping) (Ng et al., 1999)。如果将 q 值视为潜能函数,那么过程奖励恰好满足塑形奖励的定义 ()。基于潜能的奖励塑形不会改变最优策略,但能加速学习,这与 PRIME 的实验结果一致。
5. 实验设置
5.1. 数据集
PRIME 的实验分为两个主要阶段:监督微调 (SFT) 预热阶段和 强化学习 (RL) 训练阶段。
5.1.1. SFT 数据集 (Appendix D)
为了为 RL 训练提供一个良好的起点,作者首先对 Qwen2.5-Math-7B-Base 模型进行了监督微调。SFT 阶段主要关注数学和编码问题。
- 数据收集与构建: 作者收集了来自多个开源数据集的推理指令,并使用 LLaMA-3.1-70B-Instruct 模型生成遵循以动作为中心的思维链 (action-centric chain-of-thought) 推理框架的响应。
-
以动作为中心的思维链 (Action-centric chain-of-thought): 设计了一个推理框架,模型在生成答案时,在每个步骤中选择 7 种预定义动作之一(例如
ASSESS评估、ADVANCE推进、VERIFY验证、SIMPLIFY简化、SYNTHESIZE综合、PIVOT转向、OUTPUT输出)。响应以ASSESS开始,以OUTPUT结束。这有助于模型学习结构化的推理模式。以下是原文 Table 9 所示的以动作为中心的思维链推理框架中的动作:
Action Name Description ASSESSAnalyze current situation, identify key elements and goals ADVANCEMove forward with reasoning - calculate, conclude, or form hypothesis VERIFYCheck accuracy of current approach, look for errors SIMPLIFYBreak complex problems into simpler parts SYNTHESIZECombine multiple pieces of information into complete solution PIVOTChange strategy when current approach isn't working OUTPUTSummarize thought process and present final answer
-
以下是原文 Table 10 所示的 SFT 数据的统计信息:
| Task | Dataset | Size | Avg. Response Length | Source |
|---|---|---|---|---|
| Math | MathInstruct-MATH (Yue et al., 2023) | 12715 | 964.01 | https://huggingface.co/datasets/TIGER-Lab/MathInstruct |
| OpenMathIns-2-Aug_Math (Toshniwal et al., 2024) | 15086 | 1202.25 | https://huggingface.co/datasets/nvidia/OpenMathInstruct-2 | |
| Numina (Li et al., 2024) | 55845 | 1331.61 | https://huggingface.co/datasets/AI-MO/NuminaMath-CoT | |
| Reasoning-001 (SkunkworksAI, 2024) | 29831 | 1316.49 | https://huggingface.co/datasets/SkunkworksAI/reasoning-0.01 | |
| Coding | Code-Feedback (Zheng et al., 2024) | 27663 | 1805.16 | https://huggingface.co/datasets/m-a-p/Code-Feedback |
| Magicoder (Wei et al., 2024) | 24480 | 1828.72 | https://huggingface.co/datasets/ise-uiuc/Magicoder-Evol-Instruct-110K | |
| Magicoder-OSS (Wei et al., 2024) | 28980 | 1850.05 | https://huggingface.co/datasets/ise-uiuc/Magicoder-OSS-Instruct-75K | |
| Biomedicine | UltraMedical_mc (Zhang et al., 2024) | 35163 | 891.06 | https://huggingface.co/datasets/TsinghuaC3I/UltraMedical |
| Total / Avg. | 229763 | 1390.75 |
- 数据集特点: SFT 数据集总计 230K 条,平均响应长度为 1390 词元,涵盖数学、编码和生物医学领域。作者特意没有在 SFT 中包含大量带有真值 (ground-truth) 答案的数据集,而是将其保留用于后续的 RL 训练,以实现数据多样化和 RL 中真值奖励的重要性。
5.1.2. RL 训练数据集 (Appendix E)
RL 训练阶段使用了高质量的数学和编码问题,并配备了结果验证器 (outcome verifiers) (数学问题为 LaTeX 答案,编码问题为测试用例)。
- 数据来源:
- 数学: NuminaMathCoT (Li et al., 2024),包含约 860K 道数学问题,涵盖从中国高中数学到国际数学奥林匹克竞赛的题目。
- 编码: APPS (Hendrycks et al., 2021a), CodeContests (Li et al., 2022), TACO (Li et al., 2023), Codeforces。
- 数据预处理:
- 清洗和过滤: 移除了包含图形或图表的、以及需要证明的问题。
- 问题类型分类: 剩余问题被分类为问答、多项选择或填空题。主要关注多项选择题。
- 转换为直接问答格式: 通过规则过滤、LLM 过滤 (Llama-3.1-8B-Instruct) 和 LLM 格式化三阶段流程,将多项选择题转换为直接问答格式。
- 问题和解决方案验证: 使用 QwQ-32B-Preview (Team, 2024) 和 Qwen2.5-Math-72B-Instruct (Yang et al., 2024b) 等先进数学推理模型,通过自洽性 (self-consistency) 方法验证问题的可解性和解决方案的正确性。
- 最终规模: 保留了 457k 道数学问题和 27k 道编码问题。
5.1.3. PRM 训练数据集 (Appendix E.5)
为了比较,作者还训练了一个名为 EurusPRM 的独立 PRM,使用额外数据。 以下是原文 Table 11 所示的 EurusPRM 训练数据集统计信息:
| Dataset | Generator Model | Num. Inst | Resp/Inst | Step-level/Response-level |
|---|---|---|---|---|
| UltraInteract | Llama-3.1-8B-Inst | 20177 | 8 | Response-level |
| Llama-3.1-8B-Base | 13570 | 8 | Response-level | |
| Qwen2.5-72B-Inst | 4758 | 8 | Response-level | |
| Qwen2.5-Math-7B-Base | 25713 | 8 | Response-level | |
| Numina-SynMath | Llama-3.1-8B-Inst | 4783 | 8 | Response-level |
| Qwen2.5-Math-7B-Base | 5806 | 8 | Response-level | |
| Numina-Olympiads | Llama-3.1-8B-Inst | 2909 | 8 | Response-level |
| Qwen2.5-Math-7B-Base | 4739 | 8 | Response-level |
5.2. 评估指标
论文主要在竞争性数学和编程任务上进行评估,使用了以下指标:
- 准确匹配 (Exact Match, EM) / 通过率 (Pass Rate):
- 概念定义:
准确匹配或通过率是衡量模型生成答案与真实标注数据 (ground truth) 完全一致的程度。在数学任务中,通常要求最终数值答案完全一致;在编码任务中,则要求生成的代码能够通过所有测试用例。这是一个二元指标,通常用于衡量最终结果的正确性。 - 数学公式 (对于数学问题):
符号解释:
- :模型生成响应 的数学结果奖励。
1:如果模型生成的最终答案与真实标注数据 (ground truth) 完全匹配。0:否则。
- 数学公式 (对于编码问题):
符号解释:
- :模型生成响应 的编码结果奖励。
- :模型生成的代码通过的测试用例数量。
- :编码问题包含的总测试用例数量。
- 概念定义:
- PRM 分类准确率 (PRM Classification Accuracy):
- 概念定义: 在奖励模型 (RM) 的背景下,
分类准确率衡量 PRM 在区分正确和错误响应方面的能力。具体而言,它评估 PRM 的输出(例如,通过 Sigmoid 函数转换后的奖励值)与真实结果标签 (ground truth outcome labels) 的一致性。 - 数学公式: 虽然论文未直接给出此指标的数学公式,但在二分类任务中,其一般定义为:
符号解释:
Number of Correct Predictions:PRM 正确预测为正确或错误的响应数量。Total Number of Predictions:总共评估的响应数量。- 在文中 Figure 5 中,PRM 的分类准确率是通过将 PRM 预测的 经过 Sigmoid 函数后,与二元结果奖励 进行比较得到的。
- 概念定义: 在奖励模型 (RM) 的背景下,
- 平均提升 (Average Improvement):
- 概念定义: 衡量 PRIME 模型相对于基线模型(如 SFT 模型)在多个评估基准上的平均性能增益百分比。
- 数学公式: 假设有 个基准,基线模型在第 个基准上的性能为 ,PRIME 模型为 。
符号解释:
- :评估基准的数量。
- :PRIME 模型在第 个基准上的性能。
- :基线模型在第 个基准上的性能。
5.3. 对比基线
PRIME 方法与以下模型和设置进行了比较:
- 监督微调模型 (SFT Model): Eurus-2-7B-SFT,作为 RL 训练的起点和基本基线。
- 仅使用结果验证器 (OV Only) 的 RLOO: 传统的 RL 方法,仅使用稀疏的结果奖励进行训练。
- 其他 RL 算法:
- REINFORCE (Williams, 1992): 基础的策略梯度算法。
- GRPO (Shao et al., 2024): 一种基于组平均奖励的策略梯度算法。
- PPO (Schulman et al., 2017): 代理策略优化算法。
- VinePPO (Kazemnejad et al., 2024): 使用平均轨迹回报估计价值的策略梯度算法。
- DeepScaleR (Luo et al., 2025): 一种三阶段训练流水线,通过迭代增加允许的响应长度来提升性能。
- 指令微调模型 (Instruct Models):
- Qwen2.5-Math-7B-Instruct
- Llama-3.1-70B-Instruct
- GPT-4o
5.4. 硬件与超参数
- 硬件: 所有实验均在 GPU 上进行。
- SFT 训练:
- 学习率:le-05
- 优化器:AdamW
- 学习率调度:余弦退火 (cosine annealing),预热比率 0.1
- 批次大小:96
- 随机种子:42
- 训练轮次:3 轮 (对 230K 数据集)
- RL 训练:
- 框架: veRL (Sheng etet al., 2024)
- PRM 初始化: 默认使用 SFT 模型初始化隐式 PRM,并保留 SFT 模型用于参考对数概率 (reference logprobs)。
- 策略模型学习率: (常数)
- PRM 学习率:
- 优化器: AdamW (策略模型和 PRM)
- 批次大小: 256
- 微批次大小 (micro batchsize): 8
- 推演 (Rollout) 阶段: 收集 256 个提示,每个提示采样 4 个响应。
- 参数: PRM 训练中设置为 0.05。
- KL 系数: 所有实验中设置为 0。
- 结果验证器 (OV): 数学任务采用与真实答案的精确匹配;编码任务采用通过测试用例的比例。
5.5. 评估基准
作者在 7 个推理基准上进行了评估,主要关注竞赛级数学和编程任务:
- AIME 2024 (Li et al., 2024): 美国数学邀请赛,高难度数学推理。
- AMC (Li et al., 2024): 美国数学竞赛,中等难度数学推理。
- MATH-500 (Hendrycks et al., 2021b): 涵盖多级别数学竞赛问题。
- Minerva Math (Lewkowycz et al., 2022): 另一个数学推理基准。
- OlympiadBench (He et al., 2024): 奥林匹克竞赛级别的双语多模态科学问题。
- LeetCode (Guo et al., 2024): 流行编程竞赛平台的问题。
- LiveCodeBench (v2) (Jain et al., 2024): 用于代码生成任务的综合基准。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 主要结果
以下是原文 Table 1 所示的 PRIME 和仅带结果验证器 (OV) 的 RLOO 的详细结果:
| Method | Step | AIME 2024 | AMC | MATH-500 | MinervaMath | OlympiadBench | LeetCode | LiveCodeBench | Avg. |
|---|---|---|---|---|---|---|---|---|---|
| GPT-40 | - | 9.3 | 45.8 | 76.4 | 36.8 | 43.3 | 58.9 | 48.8 | 45.6 |
| Llama-3.1-70B-Inst. | - | 20.0 | 37.3 | 65.0 | 37.1 | 30.5 | 35.0 | 34.4 | 37.0 |
| Qwen2.5-Math-7B-Inst. | - | 13.3 | 50.6 | 79.8 | 34.6 | 40.7 | 31.7 | 11.3 | 34.6 |
| Eurus-2-7B-SFT | 0 | 3.3 | 30.1 | 66.2 | 32.7 | 29.8 | 21.7 | 17.8 | 28.8 |
| RLOO w/OV Only | 240 | 20.0 | 47.0 | 73.2 | 36.4 | 35.4 | 28.3 | 26.7 | 36.9 |
| Eurus-2-7B-PRIME | 80 | 20.0 | 41.0 | 68.2 | 38.2 | 37.0 | 26.7 | 26.6 | 36.8 |
| 160 | 13.3 | 42.2 | 72.0 | 37.1 | 38.7 | 26.7 | 25.6 | 36.5 | |
| 240 | 20.0 | 50.6 | 78.2 | 39.3 | 40.3 | 31.1 | 27.5 | 41.0 | |
| 320 | 16.7 | 51.8 | 77.8 | 39.7 | 41.5 | 36.1 | 28.5 | 41.7 | |
| 592 | 26.7 | 57.8 | 79.2 | 38.6 | 42.1 | 33.3 | 28.6 | 43.9 |
以下是原文 Table 12 所示的 PRIME 和仅带结果验证器 (OV) 的 RLOO 的 Avg@16 结果(温度为 0.3):
| Method | Step | AIME 2024 | AMC |
|---|---|---|---|
| Eurus-2-7B-SFT | 0 | 4.4 | 21.4 |
| RLOO w/ OV Only | 240 | 15.4 | 43.8 |
| Eurus-2-7B-PRIME | 240 | 17.3 | 49.2 |
| Eurus-2-7B-PRIME | 592 | 24.2 | 54.5 |
以下是原文 Figure 12 所示的整体数学性能图。
该图像是一个条形图,展示了不同模型在多个推理基准上的准确率。图中包含 Eurus-2-7B-PRIME、Eurus-2-7B-SFT、Qwen-2.5-Math-7B-Instruct、Llama-3.1-70B-Instruct 和 GPT-4o-2024-08-06 的表现,尤其在 MATH-500 基准中,Eurus-2-7B-PRIME 达到了 79.2%。
图 12: 整体数学性能。Eurus-2-7B-PRIME 在竞赛级数学基准测试中表现出色,超越了先进的数学模型和更大的模型。值得注意的是,PRIME 比 Eurus-2-7B-SFT 带来了显著的性能提升 (+16.7%)。
从结果可以看出:
-
PRIME 显著提升性能: Eurus-2-7B-PRIME 在 592 步训练后,在所有关键推理基准上相对于 SFT 模型实现了平均 15.1% 的显著提升,在 AMC 和 AIME 竞赛中提升超过 20%。
-
超越指令模型: 最终模型 Eurus-2-7B-PRIME 在 AIME 2024 上达到了 26.7% 的
pass@1,超越了 GPT-4o、Llama-3.1-70B-Instruct 和 Qwen2.5-Math-7B-Instruct,展示了卓越的推理能力。 -
数据效率高: 如 Table 3 所示,Eurus-2-7B-PRIME 仅使用 Qwen-Math 训练数据量的 10% (SFT 数据量 230K vs 2.5M,RM 数据量 0 vs 618K,RL 查询 150K vs 66K) 就超越了 Qwen2.5-Math-7B-Instruct 在七个推理基准上的表现。
以下是原文 Table 3 所示的 Eurus-2-7B-PRIME 和 Qwen2.5-Math-7B-Instruct 之间的资源要求比较:
Model Eurus-2-7B-PRIME Qwen2.5-Math-7B-Instruct Base Model Qwen2.5-Math-7B Qwen2.5-Math-7B SFT Data 230K (open-source) 2.5M (open-source & in-house) RM Data 0 618K (in-house) RM Eurus-2-7B-SFT Qwen2.5-Math-RM (72B) RL Data 150K queries × 4 samples 66K queries × 32 samples
6.1.2. 密集奖励 vs. 稀疏奖励
以下是原文 Figure 3 所示的密集奖励效果图:
该图像是图表,展示了PRIME与RLOO在结果训练奖励和测试准确度方面的比较。图中(a)部分显示,PRIME的结果训练奖励(蓝线)在步骤200时比RLOO高出6.9%,且表现出2.5倍的样本效率。图(b)部分则展示了在不同梯度步骤下的测试准确度,PRIME的准确度整体高于RLOO。
图 3: 密集奖励的效果。比较了 PRIME 和仅带结果验证器 (OV) 的 RLOO。PRIME 带来了 2.5 倍的样本效率(X 轴为实际时间,参见 Figure 17)和 6.9% 的性能提升。PRIME 在下游任务中也显著优于 RLOO。
-
性能提升: 与仅使用结果奖励的 RLOO 相比,PRIME 在相同训练步数 (240 步) 下,最终奖励提高了 6.9%,且方差更低。在下游任务中,PRIME 也始终优于仅使用 OV 的设置。
-
样本效率: 如 Figure 3 所示,PRIME 仅需 40% 的训练步数就能达到与 RLOO 相同的训练奖励。考虑到 PRIME 的每次迭代时间成本略高(见 Table 2),但整体训练效率仍是 RLOO 的 2 倍。
以下是原文 Table 2 所示的 PRIME 和 RLOO 的分步时间成本:
Time(s) Rollout Policy update PRM update Others Sum PRIME 281.7 156.6 150.9 91.1 680.3 RLOO 282.4 157.9 0 90.4 530.7 -
训练效率分析: PRIME 每次迭代比 RLOO 多花费 24% 的时间(主要用于 PRM 更新)。但由于其更快的收敛速度,PRIME 整体上仍比 RLOO 效率高 2 倍。此外,veRL 的单控制器设计意味着 PRM 更新时其他组件会卸载到 CPU,不额外增加 GPU 内存开销。
6.1.3. 隐式 PRM 的设计选择
6.1.3.1. SFT 模型初始化 PRM
以下是原文 Figure 4 所示的不同 PRM 比较图:
该图像是图表,展示了不同过程中获得的奖励与测试准确性的比较。图(a)中,PRIME使用在线SFT PRM的结果最佳;图(b)显示在不同梯度步骤下,各模型的测试准确度变化情况。数据表明,使用额外的离线EurusPRM训练会影响性能。
图 4: 不同 PRM 的比较。从 SFT 模型初始化的在线 PRM 取得了最佳结果。然而,使用在额外推演 (rollouts) 上训练的 PRM 会损害性能。
- SFT 模型作为良好初始化: 实验结果表明,直接使用 Eurus-2-7B-SFT 模型初始化 PRM 的效果,大大优于使用额外 500K 数据专门训练的 EurusPRM。作者推测,策略模型和 PRM 从同一模型初始化能很大程度上缓解分布偏移 (distribution shift) 问题。
6.1.3.2. PRM 在线更新的必要性
以下是原文 Figure 5 所示的 PRM 在线更新的影响图:
该图像是图表,展示了PRM的在线更新效果。线上PRM在训练过程中表现出更高的准确率,而离线PRM则逐渐被过度优化。图中显示了使用在线SFT PRM及在线EurusPRM的准确率变化趋势。
图 5: PRM 在线更新的影响。离线 PRM 逐渐被过度优化,而在线 PRM 在训练过程中实现了更高的准确率。
- 在线更新至关重要: 通过比较在线和离线 PRM 的分类准确率(图 5),发现离线 PRM 准确率在 RL 训练过程中逐渐下降(过优化),而在线 PRM 则能持续保持高准确率。这表明在线更新对于缓解奖励破解 (reward hacking) 和确保 PRM 质量至关重要。
6.1.4. PRIME 的可扩展性
以下是原文 Figure 6 所示的 PRM 在线更新的影响图:
该图像是图表,展示了PRIME训练过程的测试性能。左侧图为PRIME训练至800步的结果,右侧图为每个提示使用16次回滚的训练效果。蓝线表示PRIME模型的准确率,橙线表示仅使用输出标签的RLOO模型。整体趋势显示PRIME在训练中表现优于RLOO模型。
图 6: 随着训练步数增加(左)和推演 (rollout) 数量增加(右)的 RL 训练。
- 训练步数: 将 RL 训练延长至 800 个推演步(3200 梯度步),PRIME 始终保持稳定增长,并比基线高出 3.7%。
- 推演 (Rollout) 数量: 将每个提示的采样响应数量从 4 增加到 16,PRIME 带来了约 4.4% 的显著提升。这表明 PRIME 能够随着计算资源的增加而进一步扩展。
6.1.5. PRIME 与其他 RL 算法的兼容性
以下是原文 Figure 7 所示的 PRIME 与其他 RL 算法的兼容性图:
该图像是一个图表,展示了不同强化学习方法(REINFORCE、GRPO、PPO)在训练过程中的结果奖励变化,比较了使用PRIME的效果。随着步骤的增加,添加了PRIME的强化学习方法整体表现出更高的奖励,表明其对训练过程的积极影响。
图 7: PRIME 也普遍受益于 REINFORCE、GRPO 和 PPO。 以下是原文 Table 4 所示的不同 RL 算法的测试集结果:
| Method | Step | AIME 2024 | AMC | MATH-500 | MinervaMath | OlympiadBench | LeetCode | LiveCodeBench | Avg. |
|---|---|---|---|---|---|---|---|---|---|
| RLOO | 240 | 20.0 | 47.0 | 73.2 | 36.4 | 35.4 | 28.3 | 26.7 | 36.9 |
| RLOO w/PRIME | 240 | 20.0 | 50.6 | 78.2 | 39.3 | 40.3 | 31.1 | 27.5 | 41.0 |
| REINFORCE | 240 | 6.7 | 47.0 | 72.6 | 36.0 | 37.2 | 27.2 | 25.0 | 36.0 |
| REINFORCE w/PRIME | 240 | 6.7 | 50.0 | 76.4 | 36.8 | 39.1 | 27.8 | 27.5 | 37.8 |
| GRPO | 240 | 10.0 | 44.6 | 73.2 | 37.5 | 36.6 | 25.0 | 25.8 | 36.1 |
| GRPO w/PRIME | 240 | 16.7 | 47.0 | 75.0 | 34.9 | 38.2 | 28.9 | 23.9 | 37.8 |
| PPO | 240 | 10.0 | 41.0 | 73.6 | 36.0 | 36.3 | 28.3 | 25.7 | 35.8 |
| PRIME as Value Model | 240 | 16.7 | 44.6 | 72.6 | 34.6 | 35.7 | 27.8 | 24.6 | 36.6 |
| PPO w/ PRIME | 240 | 13.3 | 50.6 | 77.4 | 37.1 | 40.6 | 30.0 | 26.7 | 39.4 |
- 通用性: PRIME 作为一种通用插件,能够普遍提升 REINFORCE、GRPO 和 PPO 等多种 RL 算法的效率和性能。这意味着 PRIME 不依赖于特定的策略更新方法,可以广泛应用于 LLM 的 RL 训练中。
- PPO 变体: 值得注意的是,PPO 结合 PRIME 获得的性能增益并不如 RLOO 结合 PRIME 那么大,这可能表明 PPO 额外的价值模型计算成本在某些情况下是冗余的。
6.1.6. 价值模型 vs. 奖励模型:如何使用隐式 PRM
以下是原文 Figure 8 所示的价值模型和过程奖励模型比较图:
该图像是一个图表,展示了不同方法在训练过程中的结果奖励变化,横轴为步骤数量,纵轴为结果训练奖励。图中包含了 REINFORCE 方法及其与线性头价值模型、隐式过程奖励模型作为价值和奖励的对比。不同方法的曲线展示了奖励随着步骤增加的趋势。
图 8: 价值模型和过程奖励模型的比较。
- PRM 作为奖励模型更优: 实验比较了四种优势估计器变体,包括 REINFORCE、带有线性头价值模型的 PPO、带有隐式 PRM 作为价值模型的 PPO,以及带有隐式 PRM 作为奖励模型的 REINFORCE (即 PRIME 的默认设置)。结果 (Figure 8, Table 4) 表明,作为奖励模型使用的隐式 PRM 显著优于其他所有基线,包括两种价值模型设置。这证实了在 LLM 的 RL 中,将 PRM 作为奖励模型来计算回报比作为价值模型更有效。
6.1.7. “零”实验 (Zero Experiments)
以下是原文 Figure 13 所示的从 Qwen2.5-Math-7B 开始的“零”RL 训练图:
该图像是两个图表,展示了PRIME与PRIME-Zero在训练过程中的效果。第一个图表显示了在不同步数下的结果训练奖励,PRIME的表现低于PRIME-Zero。第二个图表展示了不同梯度步数下的数学测试准确率,PRIME同样表现不及Qwen2.5-Math-7B-Instruct。
图 13: 从 Qwen2.5-Math-7B 开始的“零”RL。从基础模型开始的 RL 收敛速度远快于 SFT 模型,在 32 步内超越了指令版本。 以下是原文 Figure 14 所示的从 Qwen2.5-32B-Base 开始的“零”RL 训练图:
该图像是图表,展示了PRIME-Zero在步骤数与训练奖励及数学测试准确率之间的关系。在(a)部分,展示了PRIME-Zero的结果随步骤的变化情况。在(b)部分,显示了不同梯度步骤下的数学测试准确率,在80步时达到52分以上。
图 14: 从 Qwen2.5-32B-Base 开始的“零”RL。从 32B 基础模型开始的 RL 显示出更有希望的收益,在 16 步内超越了指令版本。
- 从基础模型开始的 RL 效率高: 直接从 Qwen2.5-Math-7B-Base 或 Qwen2.5-32B-Base 模型开始 RL 训练(跳过 SFT 阶段),收敛速度远快于从 SFT 模型开始的 PRIME。在 32 步内,7B 模型甚至超越了指令版本。
- 大型模型收益更大: 32B 基础模型在训练奖励和测试性能上都获得了更大提升,这与 DeepSeek-AI et al. (2025) 的结论一致。
- 饱和问题: 尽管“零”RL 带来了显著性能提升,但它在非常早期的阶段(约 50 步)迅速达到饱和,阻碍了进一步的改进,这可能与响应多样性下降有关。
6.1.8. 奖励模型大小的影响
以下是原文 Table 5 所示的不同奖励模型性能比较(策略模型为 Qwen2.5-7B-Base):
| Reward Model | AIME 24 | AIME 25 | AMC | MATH | Minerva | OlympiadBench | Average |
|---|---|---|---|---|---|---|---|
| Qwen2.5-3B | 10.7 | 4.8 | 44.0 | 73.2 | 26.1 | 33.0 | 32.0 |
| Qwen2.5-7B | 13.2 | 6.4 | 42.9 | 73.4 | 26.5 | 33.1 | 32.6 |
| Qwen2.5-14B | 10.8 | 4.8 | 44.1 | 73.2 | 25.4 | 32.7 | 31.8 |
- 奖励模型大小影响有限: 实验结果表明,在策略模型为 Qwen2.5-7B-Base 的情况下,奖励模型的大小对性能影响有限。7B 的奖励模型取得了最佳的平均性能,而更大(14B)或更小(3B)的模型并没有带来明显的优势。
6.1.9. 与 VinePPO 的比较
以下是原文 Table 6 所示的 PRIME 和 VinePPO 比较:
| Steps | 16 | 32 | 48 | 64 | 80 | 96 |
|---|---|---|---|---|---|---|
| VinePPO Val Acc (%) | 15.7 | 16.3 | 17.2 | 17.6 | 17.7 | 18.4 |
| VinePPO Clock Time (Hours) | 2.23 | 4.57 | 7.23 | 9.86 | 11.96 | 13.94 |
| PRIME Val Acc (%) | 16.4 | 16.8 | 17.5 | 18.1 | 18.7 | 18.8 |
| PRIME Clock Time (Hours) | 0.22 | 0.41 | 0.60 | 0.80 | 1.01 | 1.22 |
以下是原文 Figure 15 所示的 PRIME 和 VinePPO 的验证准确率曲线:
该图像是图表,展示了在 MATH500 数据集上 PRIME 和 VinePPO 的验证准确率曲线。随着时间的推移,PRIME 的验证准确率显著优于 VinePPO,初始阶段的表现差异明显。
图 15: PRIME 和 VinePPO 的验证准确率曲线。
- 效率和性能优势: PRIME 比 VinePPO 效率高 11 倍(PRIME 训练 96 步仅需 1.22 小时,VinePPO 需 13.94 小时),并且在验证集上持续超越 VinePPO。
6.1.10. 与 DeepScaleR 的比较
以下是原文 Table 7 所示的 PRIME 和 DeepScaleR 比较:
| Model | Step | GPU Hour | AIME 2024 | MATH-500 | AMC | MinervaMath | OlympiadBench | Avg. |
|---|---|---|---|---|---|---|---|---|
| DeepScaleR-1.5B-Preview | 1750 | 3800 | 43.1 | 87.8 | 73.6 | 30.2 | 50.0 | 57.0 |
| DeepScaleR-1.5B-Stage1 | 1040 | ∼ 600 | 33.9 | - | - | - | - | - |
| DeepSeek-R1-Distill-Qwen-1.5B | - | - | 28.8 | 82.8 | 62.9 | 26.5 | 43.3 | 48.9 |
| PRIME-DeepScaleR-1.5B-Stage1 | 330 | 446.7 | 32.1 | 85.1 | 68.1 | 30.1 | 44.6 | 52.0 |
以下是原文 Figure 16 所示的 PRIME 和 DeepScaleR 的训练奖励曲线:
该图像是图表,展示了PRIME和DeepScaleR的训练奖励曲线。横轴表示训练步骤,纵轴表示训练奖励,PRIME的训练奖励曲线(蓝色)显示出逐步上升的趋势,而DeepScaleR(橙色)则相对平稳。
图 16: PRIME 和 DeepScaleR 的训练奖励曲线。
- 性能提升: PRIME 在 DeepScaleR 的设置下(使用相同的基模型、数据和超参数)也取得了令人印象深刻的结果。PRIME 在 330 步内达到了与 DeepScaleR 第一阶段(1040 步)相当的训练准确率,并在测试集上将 DeepSeek-R1-Distill-Qwen-1.5B 的性能提高了 3.1 个点。
- 效率: PRIME 消耗了 446.7 A800 GPU 小时,而 DeepScaleR 的第一阶段大约需要 600 A100 GPU 小时。考虑到硬件差异 (A800/A100),PRIME 仍比 DeepScaleR 快 25%。
- 计算开销: 对于长推理模型,生成阶段的开销更大,PRIME 带来的额外时间开销约为 18%,这表明 PRIME 更适用于长推理模型。
6.2. 消融实验/参数分析
6.2.1. 在线提示过滤效果
以下是原文 Figure 2 所示的在线提示过滤效果图:
该图像是一个折线图,展示了不同步长下的结果训练奖励变化情况。蓝色线条表示应用过滤器的结果,而橙色线条表示未应用过滤器的结果。随着步骤的增加,应用过滤器的奖励值整体保持在更高水平,表明过滤器的效果显著。
图 2: 在线提示过滤的效果。
- 降低训练方差: 在线提示过滤通过保留中等难度范围内的提示并平衡数据分布,大大降低了 RL 训练的方差,有助于稳定训练过程。
6.2.2. 参考模型选择 (Appendix B.1)
以下是原文 Figure 10 所示的不同参考策略实现比较:
该图像是图表,展示了不同参考策略实现的结果。蓝色线条表示使用运行策略的旧对数概率作为参考(policy ref),而橙色线条表示使用初始 SFT 模型作为参考(SFT ref)。在训练步骤上,两个参考的回报表现相似。
图 10: 不同 PRM 的参考模型。我们比较了 PRIME 的两种参考模型选择策略。使用策略模型作为参考和使用初始 SFT 模型作为参考。它们的回报相似。
- 策略参考 vs. SFT 参考: 比较了两种参考模型选择策略:一种是使用运行策略的旧对数概率作为参考 (
policy ref),另一种是使用初始 SFT 模型作为参考 (SFT ref)。实验结果 (Figure 10) 表明两种策略的训练奖励相似。使用策略模型作为参考更自然地适应更新策略的分布,而保留 SFT 模型作为参考则允许进行 KL 散度计算。
6.2.3. 单次前向 vs. 双次前向 (Appendix B.2)
以下是原文 Figure 11 所示的单次和双次前向的比较:
该图像是图表,展示了PRM分类准确度和训练奖励的变化情况。左侧图(a)显示了在训练样本上不同策略下的准确度,其中双向前推法在在线更新后准确度较高;右侧图(b)展示了训练过程中不同策略下的奖励变化,双向前推法的奖励总体上高于单向前推法。
图 11: 单次和双次前向。虽然双次前向方法在在线更新后获得了更高的准确率,但这两种变体在训练过程中取得了相似的奖励。
- PRM 更新频率:
双次前向 (double-forward)指在策略模型更新前先更新 PRM,然后使用更新后的 PRM 重新计算过程奖励。实验结果 (Figure 11) 表明,虽然双次前向可以提高 PRM 准确率,但两种方法在训练奖励方面保持相似。作者默认使用单次前向 (single-forward)。
6.2.4. PRM 更新损失函数 (Appendix C.2)
以下是原文 Table 8 所示的训练后使用 CE 或 DPO 损失更新 PRM 的测试准确率:
| Method | Step | AIME 2024 | AMC | MATH-500 | MinervaMath | OlympiadBench | Avg. |
|---|---|---|---|---|---|---|---|
| PRIME w. DPO loss | 96 | 7.7 | 39.3 | 66.2 | 17.3 | 31.3 | 32.4 |
| PRIME w. CE loss | 96 | 7.9 | 40.2 | 66.0 | 16.9 | 30.7 | 32.3 |
以下是原文 Figure 18 所示的训练过程中使用 DPO 或 CE 损失更新 PRM 的结果奖励和测试准确率:
该图像是图表,展示了 PRM 更新过程中使用 DPO 和 CE 损失的结果。左侧图表显示了不同迭代步数下的结果训练奖励,右侧图表展示了在不同梯度步数下的数学测试准确率。图中 DPO 损失和 CE 损失的表现随步数变化而异。
图 18: 训练过程中使用 DPO 或 CE 损失更新 PRM 的结果奖励和测试准确率。
- CE 损失与 DPO 损失: 比较了使用交叉熵 (CE) 损失和 DPO 损失更新 PRM 的效果。结果表明 (Table 8, Figure 18),两者取得了相似的结果。作者选择 CE 损失是为了内存效率。
7. 总结与思考
7.1. 结论总结
本文提出了 PRIME (Process Reinforcement through IMplicit rEwards) 框架,旨在解决大型语言模型 (LLMs) 在复杂多步推理任务中利用密集过程奖励 (dense process rewards) 进行强化学习 (RL) 的挑战。PRIME 的核心创新在于通过隐式过程奖励建模,实现了仅使用策略推演 (policy rollouts) 和结果标签 (outcome labels) 对过程奖励模型 (PRM) 进行在线更新。这一机制有效缓解了传统 PRM 所面临的奖励破解 (reward hacking) 和高昂标注成本的问题,并且无需专用奖励模型训练阶段,显著降低了开发开销。
实验结果证明了 PRIME 的有效性:
-
显著提升性能和样本效率: PRIME 相较于仅使用稀疏结果奖励的 RL 方法,实现了 2.5 倍的样本效率提升和 6.9% 的性能提升。其最终模型 Eurus-2-7B-PRIME 在数学和编码基准上取得了平均 15.1% 的性能增益,并以 10% 的训练数据量超越了 Qwen2.5-Math-7B-Instruct。
-
验证了在线 PRM 更新的重要性: 实验明确指出在线更新 PRM 是 PRIME 成功的关键,它能动态适应策略分布,防止奖励模型过优化。
-
通用性和易用性: PRIME 能够普遍提升包括 REINFORCE、GRPO 和 PPO 在内的多种 RL 算法的性能和效率,且可以直接从 SFT 或基础模型初始化 PRM,易于集成和使用。
-
过程奖励模型优于价值模型: 研究还发现,将隐式 PRM 作为奖励模型来计算回报比作为价值模型来估计优势函数,在 LLM 的 RL 中表现更佳。
PRIME 为 LLMs 的推理能力提升提供了一个可扩展、高效且稳定的 RL 解决方案,预示着 LLMs 在未来将更多地通过经验而非纯数据进行学习。
7.2. 局限性与未来工作
论文作者指出的局限性:
- 资源限制: 受限于计算资源,实验仅在最大 32B 参数的模型上进行。其他消融实验的训练步数也较少,尽管作者强调在相同步数下进行公平比较。
- “零”RL 实验的饱和问题: 虽然直接从基础模型开始的“零”RL 表现出高效率,但它在早期阶段迅速达到饱和,限制了进一步的性能提升。
作者提出的未来研究方向:
- 解决“零”RL 中的饱和问题: 深入研究导致“零”RL 快速饱和的原因(可能与响应多样性下降有关),并探索解决方案以实现持续改进。
- 探索更大规模模型的应用: 将 PRIME 扩展到更大规模的 LLMs 上,进一步验证其在资源充足情况下的可扩展性和有效性。
- 优化奖励模型大小选择: 尽管当前实验表明奖励模型大小影响有限,但仍可进一步研究在不同任务和模型规模下,奖励模型容量的最佳选择。
- 探索其他损失函数: 尽管 CE 损失在当前已证明有效,但仍可探索 DPO 损失或其他损失函数在内存效率和性能之间的权衡。
- 与其他 RL 算法的更深度融合: 尽管 PRIME 已证明通用性,但可以探索更深度地将隐式过程奖励机制融入各种 RL 算法的内部,而不仅仅是修改优势估计器。
7.3. 个人启发与批判
个人启发:
- 在线更新奖励模型的范式变革: PRIME 最具启发性的一点在于其通过隐式奖励实现了奖励模型的在线更新。这解决了强化学习中长期存在的“奖励破解”和静态奖励模型泛化性差的问题,为构建更鲁棒、自适应的 RL 系统提供了关键思路。这种在线、自适应的奖励机制,可能成为未来 RLHF 乃至更广义的 AI 对齐 (alignment) 的重要方向。
- “数据枯竭”背景下的“经验为王”: 论文提到“数据作为 LLMs 的燃料即将耗尽,我们正进入一个经验的新时代”。PRIME 正是这一理念的实践。通过高效利用模型自身的推演 (rollouts) 和结果反馈来生成密集奖励,它减少了对外部高成本标注数据的依赖,使得模型能够从自身经验中不断学习和改进,这对于 AI 发展到更智能的自主学习阶段至关重要。
- 简化 RL 开发流程: 直接使用 SFT 模型或基础模型作为 PRM 初始化,大大降低了 RL 的开发门槛和成本。这使得更多的研究者和开发者能够尝试将 RL 应用于 LLM 训练,加速了该领域的发展。
- 隐式奖励的巨大潜力: 隐式奖励建模的巧妙之处在于,它将一个看起来需要复杂人工标注的问题,转化为可以通过模型自身输出和最终结果进行学习的问题。这表明在 LLM 领域,许多看似需要显式、高成本监督的任务,可能存在更智能、更低成本的隐式学习路径。
批判与可以改进的地方:
- “零”RL 饱和的深层原因: 尽管论文提到了“零”RL 快速饱和可能与响应多样性下降有关,但缺乏更深入的机制分析和解决方案。这可能是一个关键的瓶颈,因为如果能有效解决,直接从基础模型开始 RL 将带来巨大的效率提升。未来的工作可以探索结合多样性鼓励机制或自适应探索策略。
- 隐式过程奖励的解释性: 隐式过程奖励虽然有效,但其内部机制和奖励信号的“正确性”可能不如人类标注那样直观。虽然论文指出了它是一种奖励塑形,但进一步分析这些隐式奖励的性质(例如,它们在多大程度上与人类直觉中的“正确步骤”一致,或者它们是否包含了一些非直觉但有效的“捷径”)将非常有价值。
- 计算成本与长上下文: 尽管 PRIME 在效率上优于某些基线,但 PRM 的更新和过程奖励的计算仍然是额外的开销。对于超长上下文的 LLMs,词元级的奖励计算可能会带来显著的性能瓶颈。虽然论文提到 PRIME 更适合长推理模型,但具体开销的边界和优化策略值得进一步探讨。
- 更复杂的任务和评估: 实验主要集中在数学和编码领域。未来可以探索 PRIME 在更开放、更主观的任务(如创意写作、复杂对话)中的表现,这可能需要更复杂的结果验证器 (outcome verifiers) 或甚至结合人类反馈。
- 参数的敏感性: 奖励公式中的 参数控制着奖励的尺度。论文中将其设置为 0.05,但未深入探讨其敏感性分析。 值对训练稳定性和最终性能可能产生重要影响,这值得在未来的工作中进行更详尽的超参数研究。
相似论文推荐
基于向量语义检索推荐的相关论文。