Preference-Based Process Reward Model for Robust Mathematical Reasoning
TL;DR 精炼摘要
本文提出基于偏好的过程奖励模型(PPRM),结合蒙特卡洛树搜索构建高质量偏好数据,利用Bradley-Terry损失缓解启发式搜索偏见。通过改进组相对策略优化算法,实现稳定高效训练,在数学推理中提高中间步骤准确率2-3%。
摘要
000 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 Under review as a conference paper at ICLR 2026 P REFERENCE -B ASED P ROCESS R EWARD M ODEL FOR R OBUST M ATHEMATICAL R EASONING Anonymous authors Paper under double-blind review A BSTRACT Process reward models (PRMs) have emerged as a promising approach to guide LLMs by providing step-wise supervision, but traditional methods often rely on heuristic search strategies like Monte Carlo Tree Search (MCTS), which introduce bias and limit generalization. In this work, we propose a reinforcement learning framework guided by a Preference-Based Process Reward Model (PPRM). We first employ MCTS to estimate and select chosen and rejected rollouts, thereby constructing a high-quality step-level dataset. Our PPRM is trained on Bradley- Terry loss function, which mitigates the bias introduced by the heuristic search strategies of MCTS by leveraging preference-based learning and offers a more robust and theoretically grounded approach to reward modeling. To enable
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Preference-Based Process Reward Model for Robust Mathematical Reasoning (基于偏好的过程奖励模型在鲁棒数学推理中的应用)
1.2. 作者
匿名作者 (Anonymous authors)。这表明该论文目前处于双盲评审阶段,作者身份暂未公开。
1.3. 发表期刊/会议
OpenReview。这是一个广泛用于学术会议(如 ICLR, NeurIPS 等)进行论文提交、评审和讨论的平台。论文的状态为“Paper under double-blind review”,意味着它正在接受同行评审,尚未正式发表。
1.4. 发表年份
2025
1.5. 摘要
过程奖励模型 (Process Reward Models, PRMs) 作为一种有前景的方法,通过提供分步监督来指导大型语言模型 (Large Language Models, LLMs)。然而,传统方法通常依赖启发式搜索策略,如蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS),这会引入偏差并限制泛化能力。在这项工作中,我们提出了一个由基于偏好的过程奖励模型 (Preference-Based Process Reward Model, PPRM) 指导的强化学习 (Reinforcement Learning, RL) 框架,该模型提供分步监督以优化推理轨迹。我们首先使用 MCTS 来估计和选择“选定”和“拒绝”的推演轨迹 (rollouts),从而构建一个高质量的步骤级数据集。我们的 PPRM 在 Bradley-Terry 损失函数上进行训练,通过利用基于偏好的学习来减轻 MCTS 启发式搜索策略引入的偏差,并提供一种更鲁棒且理论上更扎实的奖励建模方法。为了实现 PPRM 的有效 RL 训练,我们通过引入一个鲁棒的优势估计器来增强 Group Relative Policy Optimization (GRPO),该估计器能更好地捕捉基于偏好的过程奖励模型的结构,从而实现稳定高效的策略优化。在 ProcessBench 和 best-of-n 策略上的实验结果表明,与现有方法相比,我们的方法在复杂推理过程的中间步骤准确率上提高了 2-3%,从而提高了策略模型在多个关键推理基准上的推理准确率。
1.6. 原文链接
- OpenReview链接: https://openreview.net/forum?id=09Nj40ScvC
- PDF链接: https://openreview.net/pdf?id=09Nj40ScvC
- 发布状态: 论文处于双盲评审中。
2. 整体概括
2.1. 研究背景与动机
核心问题:
大型语言模型 (LLMs) 在数学推理方面展现出强大能力,但仍面临核心挑战:
- 计算错误和逻辑缺陷:
LLMs常常在复杂的数学推理中出现计算错误或逻辑推理上的缺陷。 - 幻觉问题: 模型可能生成虚假或不准确的中间步骤,这在需要高精度和一致性的数学等精确领域是不可接受的。
为什么这个问题在当前领域是重要的?
在数学这类对精确性要求极高的领域,即使最终答案正确,如果中间推理过程存在错误,也会严重影响 LLM 的可靠性和可信度。传统的 结果奖励模型 (Outcome Reward Model, ORM) 只能评估最终答案的正确性,无法识别并纠正中间步骤的错误,可能导致“殊途同归”(即通过错误推理得到正确答案)的问题。
过程奖励模型 (Process Reward Model, PRM) 旨在通过对推理的中间步骤提供监督来解决这一问题,但其自身也存在局限性:
- 标注挑战: 训练高质量
PRM需要准确的步骤级标注。虽然人工标注质量高,但成本昂贵且难以扩展;自动化标注方法(如基于Monte Carlo Tree Search, MCTS)虽然高效,但其启发式特性会引入偏差,限制了PRM的泛化能力。 MCTS的局限性:MCTS倾向于强化某些推理路径,可能导致模型过度学习次优或不合理的步骤,且对completer模型的性能高度依赖,易受噪声影响。
这篇论文的切入点或创新思路是什么?
本文旨在通过引入偏好学习 (Preference Learning) 来解决 PRM 训练中的偏差和泛化问题,提出了 Preference-Based Process Reward Model (PPRM)。其核心思路是:
- 去偏
PRM: 利用偏好学习(特别是Bradley-Terry模型)通过成对比较推理轨迹来学习奖励,从而减轻MCTS引入的偏差。 RL训练优化: 针对基于偏好的奖励模型,改进强化学习算法Group Relative Policy Optimization (GRPO)中的优势估计器,以实现更稳定和高效的策略优化。
2.2. 核心贡献/主要发现
- 引入基于偏好的过程奖励建模: 首次将偏好学习引入到数学推理任务中的过程奖励建模。通过
Bradley-Terry (BT)模型利用推理轨迹的成对比较,理论上证明了其能够有效缓解MCTS估值偏差,并降低过度拟合启发式搜索策略的风险。 - 构建高质量数据集并开发
PPRM: 构建了高质量的专家标注数据集,并基于此开发了PPRM。实验证明PPRM在识别和评分逻辑错误方面优于现有方法,并减少了对MCTS等启发式搜索策略的依赖。 - 改进
GRPO优势估计器: 针对PPRM的偏好奖励结构,增强了Group Relative Policy Optimization (GRPO),引入了一个鲁棒的优势估计器。该估计器能更好地捕捉偏好奖励的结构,从而实现稳定高效的策略优化。 - 显著提升性能: 在
ProcessBench和best-of-n策略上的实验结果表明,本文方法在复杂推理过程的中间步骤准确率上实现了2-3%的提升,从而提高了策略模型在多个关键数学推理基准上的整体推理准确率。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 大型语言模型 (Large Language Models, LLMs)
LLMs 是一种基于深度学习的语言模型,拥有数亿甚至数千亿的参数,通过在海量文本数据上进行预训练,学习语言的模式、语法、语义和世界知识。它们在自然语言处理任务(如文本生成、翻译、问答)中表现出色。在数学推理中,LLMs 能够将复杂问题分解为逻辑步骤,但容易出现计算错误、逻辑缺陷或生成虚构的中间步骤,这被称为“幻觉”。
3.1.2. 强化学习 (Reinforcement Learning, RL)
RL 是一种机器学习范式,智能体 (agent) 通过与环境的交互学习如何采取行动以最大化累积奖励。
- 马尔可夫决策过程 (Markov Decision Process, MDP):
RL问题的数学框架,由状态空间 ()、动作空间 ()、转移动力学 ()、奖励函数 () 和折扣因子 () 组成。 - 策略 (Policy, ): 智能体在给定状态下选择动作的规则或函数,通常表示为 ,即在状态 下采取动作 的概率。
- 奖励 (Reward): 环境对智能体行为的即时反馈信号,用于指导学习。
- 价值函数 (Value Function): 衡量从某个状态或状态-动作对开始,未来能够获得的期望累积奖励。
- 优势函数 (Advantage Function): 衡量在特定状态下,采取某个动作相比于该状态下平均行为的额外价值。其定义通常为 ,其中
Q(s,a)是状态-动作价值函数,V(s)是状态价值函数。
3.1.3. 奖励模型 (Reward Model, RM)
奖励模型是 RL 中用于评估智能体生成内容质量的组件,尤其在 LLMs 中,它被训练来预测人类对生成文本的偏好。
- 结果奖励模型 (Outcome Reward Model, ORM): 仅根据
LLM生成的最终结果(例如,数学问题的最终答案)来提供奖励。其局限性在于无法评估中间推理步骤的质量,可能导致“结果正确但过程错误”的问题。 - 过程奖励模型 (Process Reward Model, PRM): 对
LLM生成的推理过程中的每个中间步骤提供奖励。这使得RL智能体能够接收更细粒度的反馈,从而更好地识别和纠正推理过程中的错误。
3.1.4. 蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS)
MCTS 是一种启发式搜索算法,常用于决策过程,尤其在游戏 (Go) 和规划领域。其核心思想是通过模拟 (rollouts) 来评估不同决策路径的价值。
- 工作原理:
MCTS包含四个阶段:- 选择 (Selection): 从根节点开始,选择当前树中未完全展开的节点,通常使用
UCB(Upper Confidence Bound) 等策略平衡探索和利用。 - 扩展 (Expansion): 选定的节点被扩展,创建新的子节点。
- 模拟 (Simulation/Rollout): 从新创建的子节点开始,随机或使用启发式策略进行完整的模拟,直到达到终止状态,并获得一个奖励。
- 回溯 (Backpropagation): 将模拟获得的奖励沿搜索路径反向传播,更新所有访问节点的统计信息(访问次数和累积奖励)。
- 选择 (Selection): 从根节点开始,选择当前树中未完全展开的节点,通常使用
- 在
PRM标注中的应用:MCTS可以通过多次rollout来估计每个中间步骤的正确性概率。 - 局限性:
MCTS是一种启发式算法,其探索-利用策略可能引入偏差,尤其是在复杂语义或长依赖任务中,可能强化次优或不合理的步骤,影响PRM的泛化能力。
3.1.5. 偏好学习 (Preference Learning)
偏好学习是一种机器学习范式,其目标是学习一个能够预测用户偏好的模型,通常通过成对比较数据来训练。与直接给每个项目打分不同,偏好学习侧重于判断哪个项目更好。这种方法在人类反馈对齐 (RLHF) 中非常流行,因为它比直接对 LLM 输出进行绝对评分更容易获取高质量的人类反馈。
3.1.6. Bradley-Terry (BT) 模型
Bradley-Terry 模型是一种概率模型,用于从成对比较数据中估计每个项目(或选手)的相对实力或偏好。给定两个项目 和 ,BT 模型假设 击败 的概率取决于它们各自的潜在“实力”或“偏好分数”。如果项目 的实力为 ,项目 的实力为 ,那么 击败 的概率通常表示为 sigmoid 函数:
这个模型特别适用于本文中对推理轨迹进行成对比较,以学习其相对质量。
3.1.7. 策略优化 (Policy Optimization)
RL 中一类重要的算法,通过直接优化策略函数来最大化期望奖励。
- 近端策略优化 (Proximal Policy Optimization, PPO): 一种流行的策略优化算法,通过裁剪目标函数来限制策略更新的幅度,以保证训练的稳定性和样本效率。
- 群组相对策略优化 (Group Relative Policy Optimization, GRPO): 本文提到的
PPO的变体,它通过对一组轨迹进行比较来优化策略,旨在优先选择逻辑一致性高的解决方案。
3.2. 前人工作
3.2.1. 合成数据生成 (Synthetic Data Generation)
- 人工标注 (Human Expert Annotation):
Lightman et al. (2023)证明了使用人类专家标注中间推理步骤的有效性,能提供高质量的PRM训练监督,但成本高昂。 - 蒙特卡洛采样 (Monte Carlo Sampling):
Wang et al. (2024b)提出了可扩展的MC采样方法来近似步骤级正确性概率,通过牺牲一些精度换取更广泛的覆盖。 - 改进的
MC方法: 通过引入二叉树搜索,在采样过程中动态剪枝不正确的推理路径,以减少噪声。 - 混合方法:
Zhang et al. (2025)结合LLM判官模型和MC估计,用LLM判官过滤或重新加权采样轨迹。 - 本文的定位: 本文通过引入
BT模型和鲁棒的优势估计,为解决MC估计中的偏差问题提供了一个理论上更扎实、更具可扩展性的解决方案。
3.2.2. 偏好学习 (Preference Learning)
- 人类对齐 (Human Alignment):
Ouyang et al. (2022)和 在人类反馈对齐中探索了偏好模型,特别是在难以直接评分的场景。 - 减少偏差 (Bias Reduction): 提出了偏好学习可以有效减少人类反馈系统中的偏差。
- 本文的定位: 本文将偏好学习的思想应用于
PRM,以减少自动化MCTS标注中的偏差。
3.2.3. 数学推理中的 RL 算法 (RL Algorithm in Mathematical Reasoning)
PPO及其变体:PPO (Schulman et al., 2017)广泛用于LLM对齐。RLOO (Reinforcement Learning from Online Oracle) (Ahmadian et al., 2024)和Remax (Li et al., 2023)在PPO基础上改进,旨在减少多步推导中的错误传播。
- 直接偏好优化 (Direct Preference Optimization, DPO) 及其变体:
DPO (Rafailov et al., 2023)通过直接优化策略输出以与人类偏好对齐,无需显式奖励模型,简化了RL流程。Azar et al. (2024),Ethayarajh et al. (2024),Chen et al. (2024)提出了多种DPO变体。 - 群组相对策略优化 (Group Relative Policy Optimization, GRPO):
Shao et al. (2024)提出的方法,通过对推理轨迹进行群组比较,优先选择逻辑一致性高的解决方案。 - 本文的定位: 本文基于
GRPO框架,并对其进行了修改,以更好地适应PPRM的偏好奖励信号。
3.3. 技术演进与差异化分析
数学推理中 LLM 的训练数据生成和 RL 优化经历了从高成本人工标注到自动化 MC 采样,再到结合 LLM 判官的演进。这些方法都试图在标注质量、可扩展性和偏差之间找到平衡。
- 演进: 从最初依赖人工标注的
PRM(如Lightman et al.),到利用MC采样生成大规模伪标签 (如Wang et al.),再到通过二叉树搜索 (如Luo et al.) 或LLM判官 (如Zhang et al.) 减少MC噪声,技术一直在努力提高自动化标注的质量。 - 差异化分析:
-
与传统
MC驱动PRM的区别: 本文的核心创新在于认识到MCTS本身可能引入偏差,因此不是简单地改进MC采样过程,而是通过引入偏好学习来“去偏”。PPRM不要求奖励模型准确预测绝对的步骤正确性概率,而是更关注其在排序轨迹方面的可靠性,这在理论上和实践中都更具鲁棒性。 -
与
DPO的区别:DPO直接从偏好数据训练策略,不需要显式奖励模型。本文则保留了显式奖励模型 (PPRM),并将其与RL算法(改进的GRPO)结合,这使得奖励信号可以被更灵活地利用,例如在best-of-n采样中进行排序。 -
对
GRPO的增强: 本文的贡献不仅限于奖励模型,还针对PPRM的偏好奖励结构,专门设计并改进了GRPO的优势估计器。这种针对特定奖励形式的RL算法改进,使得RL训练能够更高效和稳定地进行。 -
理论基础: 本文提供了偏好标注在噪声条件下优于硬性标注的理论分析,这为
PPRM的有效性提供了坚实的支撑。总的来说,本文通过引入偏好学习的理念和改进的
RL算法,在生成鲁棒的步骤级监督方面迈出了重要一步,从而有效提升了LLMs在复杂数学推理任务中的表现。
-
4. 方法论
本节将详细阐述本文提出的 PPRM 框架及其与 RL 训练的结合。核心思想是通过偏好学习来去偏 PRM,并优化 RL 训练过程。
4.1. 方法原理
本文方法的核心思想是,传统的 蒙特卡洛树搜索 (MCTS) 在生成过程奖励模型 (PRM) 的步骤级标注时,由于其启发式性质和随机性,会引入不可避免的偏差和噪声,从而影响 PRM 的泛化能力。为了解决这个问题,本文提出了一种基于偏好的过程奖励模型 (Preference-Based Process Reward Model, PPRM)。
其主要原理包括:
-
偏好数据生成: 不再依赖
MCTS给出每个步骤的绝对正确性分数,而是利用MCTS来生成一对“选定”和“拒绝”的推理轨迹。这种成对比较的偏好数据,即便在底层MCTS估值存在偏差时,也能更鲁棒地捕获轨迹间的相对质量差异。 -
Bradley-Terry模型训练PPRM: 使用Bradley-Terry (BT)损失函数来训练PPRM。BT模型天生适用于处理成对比较,能够从有噪声的相对偏好中学习出更稳定的奖励函数,从而有效减轻MCTS偏差的影响。 -
适应偏好奖励的
RL优化: 由于PPRM输出的奖励具有偏好特性,传统的RL算法,特别是其优势估计器,可能无法有效处理。因此,本文对Group Relative Policy Optimization (GRPO)进行了增强,引入了一个新的鲁棒优势估计器,该估计器能更好地利用PPRM提供的偏好信号,从而实现更稳定和高效的策略优化。通过这种方式,本文旨在构建一个更可靠的过程级奖励模型,并用它来指导
LLMs学习生成更鲁棒的数学推理轨迹。
4.2. 核心方法详解
4.2.1. 基于蒙特卡洛方法的偏好对生成 (Preference Pair Generating with Monte Carlo Method)
尽管 蒙特卡洛树搜索 (MCTS) 在自动化标注任务中效率高且可扩展,但其依赖启发式策略和随机采样,可能导致结果不一致或次优。特别是在语义复杂或长依赖的任务中,MCTS 难以提供令人满意的性能,从而限制了自动化标注的效率和质量。
为了解决这些挑战,本文提出利用偏好标注来构建高质量的问题解决数据对,以训练基于偏好的过程奖励模型。
-
“完成器”策略 (Completer Policy) 建立: 首先,建立一个“
completer”策略(在实验中是Qwen2.5-Math-7B-Instruct),该策略能够接收一个问题 和一组包含前 步的解决方案前缀 ,并生成后续的完成内容。这确保了生成的数据对适用于偏好学习。 -
蒙特卡洛树构建: 为每个问题生成多个完成 (completions),并将它们组织成一个
蒙特卡洛树 (Monte Carlo tree)。树中的每个节点对应问题解决过程中的一个状态,每条边代表一个可能的动作或步骤。 -
Rollout评估与选择: 通过Monte Carlo估计、LLM判官和隐式 函数的组合方法来评估这些rollout(推演轨迹)。为了识别最具信息量的数据对,本文定义了一个评分机制,即 值,它平衡了解决方案的质量(通过Monte Carlo估计)和其复杂性。这确保了选择的数据对既高质量又简洁。具体来说,选择“
chosen” (选定) 轨迹 和“reject” (拒绝) 轨迹 的概率是根据以下 值公式计算的:
符号解释:
- : 当前状态 (state),表示推理过程中的某个中间节点。
- : 从状态 开始的推演轨迹 (rollout),即从当前步骤到最终答案的完整路径。
- : 一个超参数,用于调整
Monte Carlo估计的权重。通常 ,如果 接近 0,则MC(s)的影响更大;如果 接近 1,则MC(s)的影响较小。 MC(s): 状态 的Monte Carlo估计分数,它表示从状态 开始的正确rollout占总rollout的比例,可以看作是该状态下达到正确最终答案的概率。- : 一个超参数,用于调整轨迹长度的权重。通常 , 越小,对轨迹长度的惩罚越大。
- : 轨迹 的长度,即从状态 到轨迹结束所包含的步骤数量。
公式解释:
- : 用于选择“
chosen”轨迹。- :当
MC(s)越高(即从状态 开始的正确rollout越多,质量越好),1-MC(s)越小,则 越大(假设 ),这使得质量更好的轨迹更有可能被选为“chosen”。 - :对轨迹长度的惩罚项。轨迹越长, 越大, 越小(假设 ),这鼓励选择更简洁的推理路径。
- :当
- : 用于选择“
reject”轨迹。-
:当
MC(s)越低(即从状态 开始的正确rollout越少,质量越差), 越小,这使得质量更差的轨迹更有可能被选为“reject”。 -
:与
chosen轨迹相同,也惩罚过长的轨迹,但也可能意味着更长的错误轨迹可能被视为更差(更倾向于拒绝)。通过这种机制,系统能够识别出“最佳”的“
chosen-reject”对,这些数据对在质量和简洁性之间取得平衡,并用于训练后续的PPRM。
-
下图(原文 Figure 2)展示了基于蒙特卡洛方法的偏好对生成过程:
图2:基于蒙特卡洛方法的偏好对生成示意图。
- (a) 工作流程包含为每个问题生成多个完成 (Multiple Completions Generation),构建
MC树以评估这些完成 (MC Tree Construction),并使用MC估计、LLM判官和隐式 函数组合评估推演轨迹 (Rollouts Assessment)。 - (b) 应用选择公式
Q(s, r)来识别最优的“选定-拒绝”对,随后将其编译成结构化数据集。这种方法确保了所创建的数据集能够捕获多样且准确的问题解决过程,并在复杂性和正确性之间保持平衡,以用于下游任务。
4.2.2. 注释的公式化 (The Formulation of Annotation)
本节对比了传统的硬性 MC 估计和本文提出的偏好 MC 估计在处理标注噪声方面的差异。
4.2.2.1. 硬性 MC 估计 (Hard MC Estimation)
大多数过程监督奖励模型 (PRMs) 通常在 next token prediction 框架下训练,旨在预测序列中下一个词元 (token) 的可能性。PRM () 为每个推理步骤 分配一个分数 ,通常使用交叉熵损失函数进行训练:
符号解释:
-
: 推理轨迹 中推理步骤的数量。
-
:
PRM对给定步骤 的输出分数,表示该步骤正确的预测概率。 -
: 步骤 的真实标签 (ground truth label)。如果步骤正确,标签为 1;否则为 0。
与常见的数据标注不同,第 步的硬性
MC估计标注 实际上是根据从第 步开始的正确rollout占总rollout的比例来确定的: 符号解释: -
: 表示从第 步开始的正确
rollout占总rollout的比例。这是一个介于 0 和 1 之间的值。 -
: 一个预设的阈值,用于根据 的值将步骤区分为正标签(正确,1)或负标签(不正确,0)。
然而,这种估计的比例 引入了偏差 。这里的 是一个随机变量,取决于标注器 (例如,
MCTS的随机性或启发式偏差)。因此,为了使MC估计的标签有效,需要满足条件 ,即估计标签与真实标签的排序关系应保持一致。
这种排序关系可以映射到一个二值函数 。然而,由于偏差的存在,标签会包含噪声。这个噪声 服从 Bernoulli 分布 ,其中 由以下公式给出:
符号解释:
-
: 真实正确率 与阈值 之间的差值。
-
: 一个与 相关的函数,表示估计标签与真实标签一致的概率。
-
这个公式描述了噪声发生的概率,即当偏差 导致估计值 的符号与真实值 相反时。
因此,模型实际上是在嘈杂的训练数据集 上进行训练的,其中标签 受到上述噪声 的影响。这种损失函数在生成模型中常常面临高方差问题,特别是在需要精确上下文输出的任务中,可能导致次优性能。
4.2.2.2. 偏好 MC 估计 (Preference MC Estimation)
与硬性 MC 估计不同,偏好 MC 估计不要求奖励模型精确预测步骤级标签的概率,而是旨在提供一个可靠的信号来对 LLM 输出组进行排序。本文采用 Bradley-Terry (BT) 模型,它特别适合从成对比较中学习过程奖励。
在这个框架中,我们从第 3.1 节生成的 MATH 数据集 中选择“chosen-reject”对 和 。这些对共享相同的提示 ,但在响应 上有所不同。
BT 模型的损失函数定义如下:
符号解释:
-
: 表示对采样对的期望 (expectation)。
-
: 指示函数,当真实排序 时(即 优于 )为 1,否则为 0。
-
: 真实排序 (ground truth ordering),表示在真实正确性水平上 优于 。
-
: 奖励模型对输入
(p,s)的输出,表示该轨迹的潜在“实力”或“偏好分数”。 -
:
sigmoid函数,将奖励差值映射到偏好概率。。 -
损失函数目的: 该损失函数鼓励模型为被偏好的响应分配更高的奖励,为被拒绝的响应分配更低的奖励,从而学习潜在的偏好结构。
同样,估计的比例 仍然引入偏差。这导致了嘈杂的标签 ,其中噪声 的发生概率 由以下公式给出: 符号解释:
-
: 表示两个轨迹的偏差差值。
-
: 表示两个轨迹的真实正确性水平差值。
-
: 一个严格递增的函数,与 相关。
-
噪声解释: 这个公式捕捉了偏差差值 超过真实奖励差值 导致错误排序的可能性,这对于理解偏好数据中的噪声结构至关重要。
4.2.3. 再思考基于 MC 标注训练的偏好奖励模型 (Rethinking Preference Reward Model Trained on MC Annotations)
为了确保奖励模型获得高质量的训练数据,过滤掉那些真实比例差异 最大的偏好对至关重要。本文提出以下假设和命题来理论上证明偏好标注的优势:
假设 1 (Assumption 1):
通过 MCTS 方法选择的数据对 满足 和 。
- 解释: 这个假设确保了选择的“
chosen”轨迹 和“reject”轨迹 在通过MC估计后的分数 上是显著不同的,即一个高于阈值,一个低于阈值。这使得它们成为有意义的偏好对比。
假设 2 (Assumption 2):
在偏好标注中估计的 分布与硬性 MC 估计标注中估计的 分布一致,即 。
-
解释: 这个假设意味着无论是硬性标注还是偏好标注,其底层用于计算正确率的
MC估计值 是相同的。这允许我们直接比较两种标注方式如何处理这些估计值及其引入的偏差。在这些嘈杂的标注下,我们可以考虑与真实奖励函数的一致性: 命题 1 (Proposition 1): 假设估计的偏好 与排序模型 之间的期望一致性达到 的误差,即: 那么,以至少 的概率,我们可以推导出估计偏好正确性的以下概率保证: 符号解释:
-
: 由
BT模型输出的估计偏好, 表示 , 表示 。 -
: 两个轨迹的真实正确性水平差。 表示估计偏好与真实偏好方向一致。
-
: 真实正确性水平差。
-
: 一个函数,表示真实偏好与估计偏好一致的概率。
命题 1 解释: 这个结果表明,估计偏好 与真实奖励差值 一致的概率被一个依赖于 的函数下界限定,这表明对偏好正确性具有高置信度。其理论分析与 的工作密切相关。
此外,本文假设在偏好标注数据对中,由同一标注器 引入的偏差可以相互抵消:
假设 3 (Assumption 3):
对于偏好标注数据对 ,由同一标注器 引入的 MC 估计偏差可以相互抵消,这意味着 的分布集中在 0 附近。我们假设随机变量 的概率密度函数值在 时总是大于在 时的值,即:
解释: 这个假设意味着,当两个轨迹的真实正确性差异较大时,偏差的差值更有可能不改变它们的相对排序。换句话说,偏好比较对噪声的鲁棒性更强。
基于上述理论分析,本文比较了硬性标注和偏好标注在处理噪声排序时的准确率: 引理 1 (Lemma 1): 对于包含噪声的偏好数据集 (其中选择的数据对遵循假设 1)和硬性数据集 ,在整个数据集上,模型在 上训练的准确率高于在 上训练的准确率,即: 引理 1 解释: 这个引理是本文理论贡献的核心之一。它证明了在存在噪声的情况下,基于偏好标注的数据集训练出的模型比基于硬性标注的数据集训练出的模型具有更高的整体准确率。这意味着偏好训练能更好地捕捉整个数据集中解决方案的相对质量。在噪声标签下,成对比较能够提供比硬性标注标签更有信息量的学习信号。
4.2.4. RL 训练框架 (The Framework of RL Training)
本文将 PPRM (Preference Process Reward Model) 整合到 Group Relative Policy Optimization (GRPO) 框架中,以增强大型语言模型在数学推理任务中的训练。
-
MDP建模: 将数学智能体解决问题 的过程建模为一个马尔可夫决策过程 (MDP),定义为五元组 。- : 状态空间,表示推理过程中的不同阶段或中间步骤。
- : 动作空间,表示智能体可以采取的推理步骤或生成词元。
- : 转移动力学,描述了从一个状态采取某个动作后转移到下一个状态的概率。
- : 奖励函数,由
PPRM提供,评估每个推理步骤的质量。 - : 折扣因子,用于衡量未来奖励的重要性。
-
策略优化目标: 智能体的行为由策略 控制,其中 是策略的参数。目标是通过最大化期望折扣累积奖励来优化策略。对于每个问题 ,在旧策略 下生成 条轨迹 。
GRPO的优化目标函数公式化为: 符号解释:- : 为每个问题生成的轨迹数量。
- : 第 条轨迹。
- : 第 条轨迹的长度(即步数)。
- : 第 条轨迹在时间步 采取的动作。
- : 新策略 在给定问题 和前缀 的情况下选择动作 的概率。
- : 旧策略 在相同情况下选择动作 的概率。这两个项构成了重要性采样 (importance sampling) 的比率,用于修正策略更新。
- : 第 条轨迹在时间步 的优势函数估计器。
- :
KL散度 (Kullback-Leibler divergence) 的系数,用于平衡策略更新与旧策略的距离。 - : 策略 与参考策略 之间的
KL散度,防止策略更新过于激进,保持稳定性。
-
传统优势函数估计器的局限性: 常见的优势函数估计方法是归一化奖励: 符号解释:
- : 第 条轨迹在时间步 获得的奖励。
- : 在时间步 所有轨迹的平均奖励。
- : 在时间步 所有轨迹的奖励标准差。
- 问题: 优势函数通常定义为 。而上述归一化奖励 与此定义不完全一致。此外,如果奖励模型 本身包含偏差 ,并且组大小 有限,优势函数的估计会具有高方差,导致训练不稳定。
-
偏好式优势估计器 (Preference-Based Advantage Estimator): 为了解决传统优势估计器在高方差和不适应偏好奖励结构的问题,本文提出了一种新的优势估计器。该估计器利用
BT模型的目标函数结构,并通过sigmoid函数引入平滑效应,从而稳定优势估计。 符号解释:- : 动作 在时间步 的优势。
- : 第 条和第 条轨迹在时间步 获得的奖励。
- :
sigmoid函数。 - 公式解释:
- 第一项 :计算了第 条轨迹在时间步 相对于组内所有其他
G-1条轨迹的平均“偏好强度”。如果 明显高于 ,则 会接近 1。 - 第二项 :计算了组内所有可能轨迹对之间的平均偏好强度。这可以被视为一个基线,代表了组内奖励的整体水平。
- 整体意义: 衡量了第 条轨迹在时间步 相对于组内其他轨迹的相对优势,而不是其绝对奖励。通过专注于相对比较而非绝对奖励,该估计器减轻了传统优势估计方法中常见的高方差问题,从而在训练过程中实现更稳定和高效的策略更新。
sigmoid函数的使用进一步平滑了奖励差异,降低了离群值或极端奖励的影响。
- 第一项 :计算了第 条轨迹在时间步 相对于组内所有其他
5. 实验设置
本节详细介绍了用于评估 PPRM 及其 RL 训练框架的实验设置。
5.1. 数据集
5.1.1. PPRM 训练数据生成
- 基础模型: 使用
Qwen2.5-Math-7B-Instruct作为“completer”模型。 - 源数据集:
MATH dataset (Hendrycks et al.),这是一个知名的数学推理基准数据集,包含各种难度和类型的数学问题。 - 生成过程:
- 对于推理过程中的每个状态 ,生成 16 个
rollout(推演轨迹),以探索广泛的推理路径。 - 每个问题的搜索限制设置为 50 步。
- 数据过滤: 过滤掉对于
completer模型而言过简单或过难的问题,以确保生成的数据具有挑战性和信息量。 Monte Carlo估计参数: 在 值计算(公式 (1))中,设置 和 。
- 对于推理过程中的每个状态 ,生成 16 个
5.1.2. PPRM 评估和 RL 训练评估数据集
ProcessBench (Zheng et al., 2024): 作为主要的评估框架,它是一个综合性基准,用于评估模型预测逐步推理正确性的能力。ProcessBench包含了来自以下四个数学推理数据集的问题:- GSM8K (Cobbe et al., 2021): 包含小学水平的数学文字问题,主要考察基本的算术和逻辑推理。
- MATH (Hendrycks et al.): 包含高级竞赛级别的数学问题,难度更大,需要更深层次的数学知识和解题技巧。
- OlympiadBench (He et al., 2024): 包含奥林匹克风格的数学问题,通常涉及非常规的解题思路和高级数学概念。
- Omni-MATH: 包含多样化的数学推理任务,旨在全面评估模型在不同数学子领域的能力。
- 其他评估数据集 (用于
RL训练后的策略模型):- AMC (Li et al., 2024): 美国数学竞赛(American Mathematics Competitions)的数据集,通常包含中等至高等难度的数学问题。
- AIME: 美国邀请数学考试(American Invitational Mathematics Examination)的数据集,难度高于
AMC,通常是进入美国数学奥林匹克竞赛的门槛。
- 选择原因: 这些数据集涵盖了从小学到奥林匹克级别的广泛难度和问题类型,能够全面、鲁棒地评估模型的性能。
5.2. 评估指标
对论文中出现的每一个评估指标,详细说明如下:
5.2.1. 准确率 (Accuracy, acc)
- 概念定义: 准确率是分类或预测任务中最直观的指标之一,它衡量了模型正确预测的样本数量占总样本数量的比例。在数学推理任务中,它可以用于评估最终答案的正确性,也可以在过程监督中评估每个中间步骤的正确性。
- 数学公式:
- 符号解释:
Number of Correct Predictions: 模型正确预测的样本数量。Total Number of Predictions: 所有被预测的样本总数。
5.2.2. F1 分数 (F1 Score)
- 概念定义: F1 分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值。它被设计用于处理类别不平衡问题,或者当精确率和召回率都很重要时。在过程奖励模型中,
F1分数可以更好地衡量模型在识别正确和错误推理步骤时的平衡能力,因为它同时考虑了假阳性(错误地将不正确步骤标记为正确)和假阴性(错误地将正确步骤标记为不正确)。 - 数学公式:
其中,精确率
Precision和召回率Recall的计算公式为: - 符号解释:
True Positives (TP): 真阳性,实际为正类且被模型预测为正类的样本数量。False Positives (FP): 假阳性,实际为负类但被模型预测为正类的样本数量。False Negatives (FN): 假阴性,实际为正类但被模型预测为负类的样本数量。
5.2.3. Best-of-N (BoN) 策略
- 概念定义:
Best-of-N策略是一种常用的评估和利用LLMs的方法。它通过让LLM为同一个问题生成 N 个不同的响应或推理路径,然后使用一个奖励模型 (Reward Model) 或判官 (Judger) 来评估这 N 个响应,并最终选择评分最高(或最置信)的一个作为最终输出。这种策略用于评估奖励模型在实际应用中(即指导LLM选出最佳答案)的效用。 - 数学公式: 该策略本身没有一个单一的数学公式来表示其结果,而是通过选择 N 个样本中奖励最高的样本,然后计算所选样本的最终答案准确率。
- 符号解释:
- : 测试集中问题的总数量。
- : 测试集中的一个问题。
- : 指示函数,如果括号内的条件为真则为 1,否则为 0。
- : 对于问题 生成的第 个响应或推理路径。
- : 奖励模型对响应 的评分。
- : 从 N 个响应中选择奖励模型评分最高的那个响应。
- : 从所选响应中提取的最终答案。
- : 问题 的真实最终答案。
5.3. 对比基线
5.3.1. PPRM 训练(奖励模型评估)的基线
为了评估 PPRM 作为奖励模型的性能,本文将其与多个领先的 7B 参数量级的过程奖励模型进行了比较:
- Math-Shepherd-PRM-7B (Wang et al., 2024b): 一个基于
MC采样的PRM。 - Qwen2.5-Math-7B-Math-Shepherd (Zhang et al., 2025): 在
Qwen2.5-Math-7B模型上结合Math-Shepherd方法。 - MATH-PSA (Wang et al., 2024a): 该方法使用了
Omega PRM (Luo et al., 2024),后者通过二叉树搜索动态剪枝不正确的推理路径。 - Skywork-PRM-7B (Liu et al., 2024): 另一个
7B参数规模的PRM。 - EurusPRM-Stage2 (Cui et al., 2025): 该模型使用了
Implicit PRM (Yuan et al., 2024)进行训练,该方法旨在从隐式奖励中学习。 - 选择原因: 这些基线代表了当前领域中自动化标注和
PRM训练的最新进展,它们大多基于MC估计或其变体,是衡量PPRM相对优势的良好参照。
5.3.2. RL 训练(策略模型评估)的基线
为了评估 PPRM 在指导 LLM 策略训练方面的有效性,本文将其与多种 RL 算法和奖励模型进行了比较:
- ORM (Outcome Reward Model): 仅基于最终答案的奖励模型,作为过程监督的对照组。
- 其他
PRM基线: 上述Math-Shepherd、Math-PSA、Skywork-PRM和EurusPRM-Stage2模型,与GRPO结合进行RL训练,以评估不同PRM在RL框架下的表现。 - RLOO (Reinforcement Learning from Online Oracle) (Ahmadian et al., 2024): 一种减少多步推导中错误传播的
RL方法。 - ReMax (Li et al., 2023): 另一种用于
LLM对齐的RL方法。 - GRPO (Group Relative Policy Optimization): 标准的
GRPO算法,用于与本文提出的改进GRPO版本(GRPO-P)进行比较。 - GRPO-P: 本文提出的,结合
PPRM和改进的偏好式优势估计器的GRPO。 - 选择原因: 这些基线包括了
ORM(无过程监督)、多种先进的PRM(过程监督的替代方法)以及不同的RL算法,全面地评估了本文方法的有效性和在RL训练中的具体贡献。
5.4. RL 训练细节
- 策略模型: 选择了
Qwen2.5-Math-1.5B和Qwen2.5-Math-7B两个不同规模的策略模型进行RL训练,以验证方法在不同模型规模下的鲁棒性。 - 训练数据:
MATH dataset中的chain-of-thought格式问题,这种格式明确展示了推理步骤。 - 超参数:
- 策略模型的学习率设置为
1e-6。 KL散度系数设置为0.001,用于平衡策略探索和与参考策略的距离。
- 策略模型的学习率设置为
- 探索阶段:
- 在探索阶段,每个问题生成 8 个不同的输出 (推理路径)。
- 最大序列长度设置为 1024 词元 (token)。
- 批大小: 训练批次大小配置为 128,以平衡内存限制和训练效率。
- 优势估计器: 在
GRPO训练中,比较了传统的归一化估计器和本文提出的偏好式优势估计器(公式 (11))。 - 重复实验: 每个实验重复进行 10 次,并报告平均分数和标准差,以确保结果的统计可靠性。
- 硬件配置:
PPRM训练使用了 4 块A6000 GPU。RL训练使用了 8 块A6000 GPU。
- 框架: 实验采用了
verl framework (Sheng et al., 2024),该框架利用PyTorch FSDP(Fully Sharded Data Parallel) 实现多样化RLHF数据流和高吞吐量。同时,使用了vLLM (Kwon et al., 2023)来实现推理过程。
6. 实验结果与分析
本节将深入分析 PPRM 在奖励模型评估和 RL 训练中的实验结果,并与其他基线方法进行比较。
6.1. PPRM 训练结果 (ProcessBench 和 Best-of-N 评估)
6.1.1. ProcessBench 性能
以下是原文 Table 1 的结果,展示了不同 7B 参数量奖励模型在 PROCESSBENCH 上的性能,包括 GSM8K、MATH、OlympiadBench 和 Omni-MATH 四个数据集的准确率 (acc) 和 F1 分数。
| Model | GSM8K | MATH | OlympiadBench | Omni-MATH | ||||
|---|---|---|---|---|---|---|---|---|
| acc | F1 | acc | F1 | acc | F1 | |||
| Math-Shepherd-PRM-7B | 0.786 | 0.582 | 0.721 | 0.594 | 0.693 | 0.372 | 0.662 | 0.554 |
| Qwen2.5-Math-7B-Math-Shepherd | 0.785 | 0.585 | 0.715 | 0.588 | 0.691 | 0.413 | 0.674 | 0.546 |
| Math-PSA | 0.763 | 0.576 | 0.711 | 0.582 | 0.681 | 0.422 | 0.672 | 0.543 |
| Skywork-PRM-7B | 0.795 | 0.533 | 0.722 | 0.583 | 0.697 | 0.486 | 0.684 | 0.576 |
| EurusPRM-Stage2 | 0.784 | 0.521 | 0.708 | 0.502 | 0.701 | 0.417 | 0.664 | 0.556 |
| PPRM-7B | 0.776 | 0.512 | 0.733 | 0.612 | 0.734 | 0.577 | 0.712 | 0.645 |
分析:
从 Table 1 可以看出,PPRM-7B 在 MATH、OlympiadBench 和 Omni-MATH 这三个数据集上均取得了最高的准确率 (acc) 和 F1 分数。
-
在
MATH数据集上:PPRM-7B取得了 0.733 的准确率和 0.612 的F1分数,显著高于所有其他基线模型。这表明PPRM在评估中等偏高难度数学推理步骤的正确性方面具有优势。 -
在
OlympiadBench数据集上:PPRM-7B取得了 0.734 的准确率和 0.577 的F1分数,同样远超其他模型。OlympiadBench包含奥林匹克风格的复杂问题,PPRM在此上的优异表现暗示其在识别和评分高度复杂、非标准推理路径上的能力更强。 -
在
Omni-MATH数据集上:PPRM-7B达到了 0.712 的准确率和 0.645 的F1分数,再次位居榜首。Omni-MATH的多样性进一步验证了PPRM的泛化能力。 -
在
GSM8K数据集上:PPRM-7B的准确率 (0.776) 略低于Skywork-PRM-7B(0.795),F1分数 (0.512) 也相对较低。这可能表明在相对简单的数学问题上,PPRM的偏好学习机制可能不如直接的MC估计在某些简单任务上高效,或者其优势在区分更细微的逻辑错误时才完全体现。总体而言:
PPRM-7B展现了卓越的整体性能,尤其在处理复杂和高级数学推理任务时表现出色。这有力地支持了本文的论点,即在逐步评估中应用偏好标注,能够有效细化LLM的推理过程,从而实现更好的错误识别平衡和更高的准确率。
6.1.2. Best-of-N 策略评估
下图(原文 Figure 3)展示了不同模型在 GSM8K 和 MATH 数据集上,使用 Qwen2.5-Math-7B-Instruct 作为生成器时,Best-of-N 准确率随响应数(N)变化的趋势。
图3:在 GSM8K 和 MATH 数据集上,Best-of-N 评估结果。Qwen2.5-Math-7B-Instruct 作为生成器。
分析:
该图展示了随着每个问题生成的候选响应数量 (N) 从 4 增加到 64 时,各奖励模型在 Best-of-N 策略下的性能。
-
一致的性能提升: 随着 的增加,所有模型的
Best-of-N准确率都有所提高,这是预期的,因为有更多的候选答案可供选择,总会有一个更好的答案。 -
PPRM的持续领先:PPRM在两个数据集上都表现出持续的性能改进,并且在大多数 值下优于所有其他基线模型。 -
在
MATH数据集上的显著优势: 尤其是在更具挑战性的MATH数据集上,PPRM与其他训练方法之间的准确率差距非常显著。当 增加到 64 时,PPRM的准确率明显高于其他模型,这表明PPRM能够更准确地从大量候选答案中识别出最佳的推理路径。 -
鲁棒的偏好学习框架: 这种现象支持了“对于
MATH这样的挑战性数据集,PPRM可以提供方差更低、更鲁棒的奖励信号”的假设。它利用其鲁棒的偏好学习框架,有效地利用了更大的候选池。总体而言:
Best-of-N结果进一步强调了PPRM的强大泛化能力和在实际应用中的潜力,使其成为可靠数学推理的一个有前景的方法。PPRM能够更好地评估和排序不同的推理轨迹,从而在给定足够多的候选时,更有效地选出正确的答案。
6.2. RL 训练结果 (Qwen2.5-Math-7B 作为策略模型)
本节展示了使用 Qwen2.5-Math-7B 作为策略模型时,在不同 PRM 指导下,通过 GRPO 进行 RL 训练的性能。
6.2.1. Qwen2.5-Math-7B 策略模型在 GRPO 下的性能
以下是原文 Table 2 的结果,展示了由 Qwen2.5-Math-7B 初始化的策略模型在 GRPO 框架下,由不同 PRM 训练后的性能。报告了在 GSM8K、AMC、MATH、Olympiad Bench 和 AIME 数据集上的平均准确率和标准差。
| GSM8K | AMC | MATH | Olympiad Bench | AIME | |
|---|---|---|---|---|---|
| ORM | 93.24 ± 0.25 | 38.84 ± 0.55 | 70.78 ± 0.44 | 49.87 ± 0.83 | 10.31 ± 0.12 |
| Math-Shepherd-PRM-7B | 95.22 ± 0.11 | 44.47 ± 0.42 | 74.03 ± 0.27 | 52.46 ± 0.54 | 16.71 ± 0.26 |
| Math-PSA | 94.02 ± 0.07 | 21.49 ± 0.45 | 73.88 ± 0.29 | 52.55 ± 0.47 | 13.33 ± 0.21 |
| Skywork-PRM-7B | 94.36 ± 0.05 | 45.73 ± 0.47 | 74.47 ± 0.31 | 53.04 ± 0.19 | 15.82 ± 0.14 |
| EurusPRM-Stage2 | 94.52 ± 0.08 | 44.49 ± 0.64 | 73.80 ± 0.21 | 51.15 ± 0.15 | 16.24 ± 0.21 |
| PPRM | 95.83 ± 0.11 | 47.97 ± 0.42 | 70.44 ± 0.25 | 56.01 ± 0.34 | 18.87 ± 0.23 |
分析:
ORM的基线作用:ORM(Outcome Reward Model) 的性能远低于所有PRM方法,尤其在AIME等高难度数据集上仅有 10.31%,这再次强调了过程监督在复杂数学推理任务中的关键作用。PPRM的整体优势:PPRM在GSM8K(95.83%)、AMC(47.97%)、Olympiad Bench(56.01%) 和AIME(18.87%) 上均取得了最高准确率。这表明PPRM提供的奖励信号能够更有效地指导策略模型学习,尤其是在难度更高的数学竞赛 (AMC,Olympiad Bench,AIME) 中,其优势更为明显。MATH数据集上的表现: 值得注意的是,PPRM在MATH数据集上的准确率为 70.44%,略低于其他PRM(如Math-Shepherd的 74.03% 和Skywork-PRM的 74.47%)。这与 Table 1 中PPRM在MATH上作为奖励模型表现最佳的结论形成对比。这种差异可能暗示PPRM作为奖励模型本身的评估性能与它在RL训练中指导策略模型的能力之间存在细微差异,或者RL训练过程中的某些超参数或交互方式影响了在特定数据集上的最终表现。
6.2.2. Qwen2.5-Math-7B 策略模型在 GRPO 下的性能 (简化版)
以下是原文 Table 3 的结果,展示了由 Qwen2.5-Math-7B 初始化的策略模型在 GRPO 框架下,由不同 PRM 训练后的性能(此表未报告 AIME 数据集结果)。
| GSM8K | AMC | MATH | Olympiad Bench | |
|---|---|---|---|---|
| Math-Shepherd-PRM-7B | 95.1 | 45.2 | 74.4 | 52.6 |
| EurusPRM-Stage2 | 94.7 | 44.7 | 73.6 | 51.4 |
| Skywork-PRM-7B | 94.4 | 46.1 | 74.2 | 53.1 |
| Math-PSA | 94.1 | 21.7 | 73.5 | 52.3 |
| PPRM | 95.8 | 47.9 | 76.3 | 55.8 |
分析:
PPRM的全面领先: 在 Table 3 中,PPRM在所有列出的四个数据集 (GSM8K,AMC,MATH,Olympiad Bench) 上均达到了最高准确率。MATH结果的显著差异: 值得注意的是,PPRM在MATH数据集上的准确率是 76.3%,这比 Table 2 中报告的 70.44% 显著更高,并且高于所有其他基线。这种差异可能源于不同的实验设置、评估方式(例如,可能是 Table 2 报告了平均值和标准差,而 Table 3 报告了某个最佳运行的结果,或者进行了多次运行后的更优平均),但此表的结果无疑进一步强化了PPRM在指导策略模型进行复杂数学推理方面的强大能力。Math-PSA在AMC上的劣势:Math-PSA在AMC数据集上表现不佳(21.7%),远低于其他PRM和PPRM。
6.2.3. 结合不同优势估计器的 RL 性能 (Qwen2.5-Math-7B 策略模型)
以下是原文 Table 4 的结果,展示了由 Qwen2.5-Math-7B 初始化的策略模型在 RLOO、ReMax、标准 GRPO 和本文提出的 GRPO-P (结合偏好式优势估计器的 GRPO) 框架下的性能。
| GSM8K | AMC | MATH | Olympiad Bench | |
|---|---|---|---|---|
| RLOO | 95.4 | 48.3 | 76.8 | 54.5 |
| ReMax | 94.5 | 45.4 | 75.6 | 54.9 |
| GRPO | 95.8 | 47.9 | 76.3 | 55.2 |
| GRPO-P | 96.0 | 49.7 | 78.2 | 56.8 |
分析:
-
GRPO-P的全面优势:GRPO-P(即结合本文提出的偏好式优势估计器的GRPO)在所有四个数据集 (GSM8K,AMC,MATH,Olympiad Bench) 上都取得了最佳性能。 -
在复杂数据集上的提升:
GRPO-P在MATH(78.2%) 和AMC(49.7%) 上的准确率显著高于RLOO(MATH: 76.8%, AMC: 48.3%) 和标准GRPO(MATH: 76.3%, AMC: 47.9%)。这直接验证了本文提出的鲁棒优势估计器在捕获偏好式过程奖励模型结构方面的有效性,并能实现更稳定高效的策略优化。 -
标准
GRPO的竞争力: 标准GRPO表现也相当强大,在GSM8K上的准确率与GRPO-P非常接近。 -
RLOO和ReMax:RLOO在AMC和MATH上表现不错,但ReMax整体表现略逊一筹。总体而言: 这些结果突出表明,虽然
RL基线算法本身具有竞争力,但PPRM与增强型GRPO结合(即GRPO-P)在复杂推理场景中能够提供更鲁棒的性能,验证了本文在奖励模型和RL算法两方面的创新。
6.3. 消融实验/参数分析 (Qwen2.5-Math-1.5B 作为策略模型 - 附录结果)
本节分析了使用较小规模的策略模型 Qwen2.5-Math-1.5B 时,PPRM 及其改进 GRPO 的性能,这有助于验证方法在不同模型规模下的鲁棒性。
6.3.1. Qwen2.5-Math-1.5B 策略模型在 GRPO 下的性能
以下是原文 Table 5 的结果,展示了由 Qwen2.5-Math-1.5B 初始化的策略模型在 GRPO 框架下,由不同 PRM 训练后的性能。
| GSM8K | AMC | MATH | Olympiad Bench | |
|---|---|---|---|---|
| Math-Shepherd-PRM-7B | 88.4 | 23.6 | 50.2 | 25.1 |
| EurusPRM-Stage2 | 87.7 | 22.2 | 49.6 | 23.8 |
| Skywork-PRM-7B | 88.2 | 23.8 | 50.2 | 25.3 |
| Math-PSA | 88.0 | 21.7 | 50.6 | 24.3 |
| PPRM | 88.6 | 24.7 | 51.0 | 25.7 |
分析:
PPRM的持续领先: 即使在使用更小的策略模型Qwen2.5-Math-1.5B时,PPRM仍然在GSM8K(88.6%)、AMC(24.7%)、MATH(51.0%) 和Olympiad Bench(25.7%) 等所有数据集上取得了最高准确率。- 整体性能下降: 相比于
Qwen2.5-Math-7B作为策略模型的结果 (Table 2 和 Table 3),所有模型的性能都有所下降,这符合预期,因为模型规模减小通常会导致性能降低。 - 验证奖励模型有效性:
PPRM在小模型上的领先地位表明,其提供的优质奖励信号能够有效地指导不同规模的策略模型进行学习,验证了PPRM作为奖励模型的泛化性和鲁棒性。
6.3.2. 结合不同优势估计器的 RL 性能 (Qwen2.5-Math-1.5B 策略模型)
以下是原文 Table 6 的结果,展示了由 Qwen2.5-Math-1.5B 初始化的策略模型在 RLOO、ReMax、标准 GRPO 和 GRPO-P 框架下的性能。
| GSM8K | AMC | MATH | Olympiad Bench | |
|---|---|---|---|---|
| RLOO | 87.8 | 25.8 | 49.6 | 24.5 |
| ReMax | 87.5 | 25.2 | 50.4 | 24.9 |
| GRPO | 88.6 | 24.7 | 51.0 | 25.7 |
| GRPO-P | 88.8 | 26.0 | 53.2 | 26.2 |
分析:
-
GRPO-P的持续领先:GRPO-P在Qwen2.5-Math-1.5B策略模型上也继续表现出最佳性能,在所有四个数据集 (GSM8K,AMC,MATH,Olympiad Bench) 上均位居榜首。 -
在
AMC和MATH上的显著提升:GRPO-P在AMC上达到了 26.0%,在MATH上达到了 53.2%,这在小模型中是显著的提升,再次超越了RLOO、ReMax和标准GRPO。 -
验证优势估计器: 这些结果进一步证实了本文提出的偏好式优势估计器对于
RL训练的稳定性和效率至关重要。它能够有效地利用PPRM的偏好奖励信号,从而在复杂数学推理任务中提升策略模型的表现,无论策略模型的规模大小。总结: 实验结果全面地展示了
PPRM在作为奖励模型评估以及在RL训练中指导策略模型时的优越性。尤其是在处理复杂和高级的数学推理任务时,PPRM及其结合改进GRPO优势估计器的RL框架 (GRPO-P) 展现出显著的性能优势,验证了其在缓解MCTS偏差和提升LLM推理鲁棒性方面的有效性。
7. 总结与思考
7.1. 结论总结
本文提出了一种新颖的强化学习框架,其核心是基于偏好的过程奖励模型 (Preference-Based Process Reward Model, PPRM),旨在解决传统 PRM 在多步推理任务中因 MCTS 启发式搜索策略引入偏差和泛化能力受限的问题。
- 偏差缓解与偏好学习: 通过引入偏好标注,利用
Bradley-Terry (BT)模型进行训练,PPRM能够从推理轨迹的成对比较中学习奖励函数。理论分析(命题 1 和引理 1)证明了这种偏好学习方法在处理MC估值偏差和噪声标签方面,比传统的硬性标注更具鲁棒性和准确性。 - 高质量数据生成: 尽管仍依赖
MCTS来生成候选rollout,但PPRM通过一个精心设计的 值函数来选择“chosen”和“reject”轨迹,构建了高质量的步骤级数据集。 RL训练优化: 为了有效利用PPRM提供的偏好奖励信号,本文增强了Group Relative Policy Optimization (GRPO)算法,引入了一个鲁棒的偏好式优势估计器。该估计器通过聚合轨迹间的成对比较信息,降低了优势估计的方差,从而实现更稳定和高效的策略优化。- 显著的实验提升: 在
ProcessBench上的评估表明,PPRM作为奖励模型在MATH、OlympiadBench和Omni-MATH等复杂数据集上表现出卓越的错误识别和评分能力。在best-of-n策略下,PPRM显著提高了LLM的最终答案准确率。最重要的是,在RL训练中,结合PPRM和改进优势估计器 (GRPO-P) 的策略模型在GSM8K、AMC、MATH和Olympiad Bench等多个关键数学推理基准上,均取得了领先的性能,相比现有方法在中间步骤准确率上实现了2-3%的提升。
7.2. 局限性与未来工作
MCTS的计算开销: 尽管MCTS比人工标注更经济,但其计算开销仍然相当大。这限制了该方法在更复杂或需要更长推理视界任务中的可扩展性。- 未来研究方向: 作者指出,未来的工作将优先探索更高效的
MCTS变体,或者寻找替代的、基于模拟的方法,以进一步降低计算成本,从而使该框架能够应用于更广泛的复杂推理场景。
7.3. 个人启发与批判
7.3.1. 个人启发
- 偏好学习的强大通用性: 本文再次验证了偏好学习在处理“模糊”或“有噪声”的评估信号时的强大能力。在许多
LLM对齐任务中,直接对生成内容进行精确的绝对评分是极具挑战的,而判断哪个选项更好则相对容易且人类一致性更高。将这种思想从整体输出(如DPO)扩展到中间步骤的过程监督,是提升LLM鲁棒性的一个关键且有效的方向。 - 奖励模型与
RL算法的深度协同: 这篇论文不仅仅提出了一个新的奖励模型,更重要的是,它深入分析了新奖励模型的特性(基于偏好),并针对性地对RL算法中的核心组件(优势估计器)进行了改进。这种奖励模型设计与RL算法优化的深度协同是提升复杂任务性能的关键。它提醒我们,在RL应用中,奖励模型和优化算法应被视为一个整体进行设计和调优。 - 去偏方法的创新:
MCTS及其带来的偏差是PRM领域的一个长期痛点。本文通过引入偏好学习而非仅仅改进MCTS采样本身来“去偏”,提供了一种更具理论支撑和实践效果的解决方案,这对于其他依赖启发式采样的复杂决策任务也具有借鉴意义。
7.3.2. 批判
MCTS依赖性的根本性问题: 尽管PPRM通过偏好学习缓解了MCTS引入的偏差,但数据生成阶段仍然依赖MCTS。这使得整个系统仍然受到MCTS固有局限性(如计算开销、局部最优)的影响。未来的工作是否能完全脱离MCTS,或者找到一种更高效、更少偏差的rollout生成机制,是值得探索的更深层次问题。例如,能否利用其他基于模型(Model-based)的规划方法来代替MCTS。- 超参数敏感性与鲁棒性: 公式 (1) 中用于 值计算的超参数 和 对“
chosen”和“reject”数据对的质量有直接影响。论文中给出了实验使用的固定值 (),但缺乏对这些参数敏感性的深入分析。在不同任务、不同completer模型或不同MCTS配置下,这些参数的最佳选择可能不同,这可能影响PPRM的泛化能力和部署鲁棒性。 - 理论假设的现实性: 论文中为了理论证明
PPRM优于硬性标注而提出的假设 1、2、3 以及命题 1 和引理 1,虽然提供了坚实的理论基础,但在实际复杂场景中,这些假设的严格满足程度可能难以保证。例如,假设 3 中关于偏差相互抵消的条件,在面对极端或高度扭曲的MCTS偏差时,其有效性可能需要更细致的验证。 - 可解释性:
PPRM在性能上取得了显著提升,但BT模型作为一种统计模型,其在识别具体逻辑错误类型方面的可解释性可能不如某些显式错误分类模型。在数学推理中,了解模型为何失败与知道它失败同样重要。如何从PPRM的输出中提取更丰富的错误诊断信息,是一个可以改进的方向。 - 训练数据规模与成本: 尽管
MCTS自动化了部分标注,但生成高质量的“chosen-reject”对仍需要大量的计算资源和LLM调用。对于超大规模的数学推理数据集,这种方法的计算成本可能仍然是一个挑战。
相似论文推荐
基于向量语义检索推荐的相关论文。