论文状态：已完成

Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense

发表：2025/10/09

数学推理基准测试 (6)大语言模型强化学习训练 (63)混合奖励优化 (1)基于奖励模型的学习 (1)稀疏奖励问题 (1)

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出的混合强化学习框架HERO结合了可验证奖励和奖励模型的优势，以解决稀疏奖励信号在大规模语言模型推理任务中的局限性。HERO采用分层归一化和方差感知加权方法，显著提升了模型在数学推理基准测试中的表现，证明了混合奖励设计能够保留稳定性与细致性。

摘要

Post-training for reasoning of large language models (LLMs) increasingly relies on verifiable rewards: deterministic checkers that provide 0-1 correctness signals. While reliable, such binary feedback is brittle--many tasks admit partially correct or alternative answers that verifiers under-credit, and the resulting all-or-nothing supervision limits learning. Reward models offer richer, continuous feedback, which can serve as a complementary supervisory signal to verifiers. We introduce HERO (Hybrid Ensemble Reward Optimization), a reinforcement learning framework that integrates verifier signals with reward-model scores in a structured way. HERO employs stratified normalization to bound reward-model scores within verifier-defined groups, preserving correctness while refining quality distinctions, and variance-aware weighting to emphasize challenging prompts where dense signals matter most. Across diverse mathematical reasoning benchmarks, HERO consistently outperforms RM-only and verifier-only baselines, with strong gains on both verifiable and hard-to-verify tasks. Our results show that hybrid reward design retains the stability of verifiers while leveraging the nuance of reward models to advance reasoning.

思维导图

论文精读

中文精读约 14 分钟读完 · 8,706 字

1. 论文基本信息

1.1. 标题

中文翻译: 混合强化学习：当奖励稀疏时，密集更好 英文原文: Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense

1.2. 作者

第一作者: Leitian Tao (Meta FAIR, 威斯康星大学麦迪逊分校) 通讯作者: Ping Yu (Meta FAIR) 其他作者: Sharon Li, Jason E. Weston 机构: Meta FAIR (Fundamental AI Research), 威斯康星大学麦迪逊分校

1.3. 发表期刊/会议

来源: arXiv 预印本 状态: 2025年10月8日发布 (v3版本)

1.4. 发表年份

2025年

1.5. 摘要

大型语言模型（LLM）的推理能力训练常依赖于可验证奖励（Verifiable Rewards），即通过确定性的检查器（如代码执行器或答案匹配）提供的 0 或 1 的二元反馈。虽然这种信号很可靠，但它非常脆弱（Brittle）：许多任务存在部分正确或多种合理的答案格式，二元验证器往往会误判（给出假负例），且这种“全有或全无”的监督信号限制了模型的学习效率。相比之下，奖励模型（Reward Models, RMs） 能提供更丰富、连续的反馈，可作为补充信号。

本文提出了 HERO (Hybrid Ensemble Reward Optimization)，这是一个混合强化学习框架。它通过以下两个核心机制结合了验证器和奖励模型：

分层归一化 (Stratified Normalization): 将奖励模型的连续分数严格限制在验证器定义的“正确”或“错误”组别内，既保留了正确性的硬约束，又细化了质量差异。
方差感知加权 (Variance-Aware Weighting): 根据奖励模型分数的方差动态调整训练样本的权重，让模型更关注那些具有挑战性、区分度高的提示词（Prompt）。

实验表明，HERO 在各类数学推理基准上均优于仅使用奖励模型或仅使用验证器的基线方法。

1.6. 原文链接

ArXiv 页面: https://arxiv.org/abs/2510.07242v3
PDF 下载: https://arxiv.org/pdf/2510.07242v3

2. 整体概括

2.1. 研究背景与动机

在提升大模型（LLM）推理能力（如数学解题、代码生成）的过程中，强化学习（RL）起着至关重要的作用。目前的监督信号主要来自两类：

基于规则的验证器 (Rule-based Verifiers):
- 原理: 检查模型的输出是否与标准答案（Ground Truth）完全匹配（如数值相等、代码通过测试）。
- 优点: 准确、客观，不会出现“幻觉”。
- 缺点 (稀疏性与脆弱性): 它是离散的（0或1）。如果模型生成了一个思路正确但格式稍有偏差的答案，验证器通常判为 0（假负例）。此外，对于难题，模型可能生成的所有答案都是错的（全 0）；对于简单题，可能全是对的（全 1）。在这些情况下，模型无法获得区分好坏的相对梯度信号，导致学习停滞。
奖励模型 (Reward Models, RMs):
- 原理: 训练一个神经网络来预测答案的质量分数（通常是连续值）。
- 优点 (密集性): 提供细粒度的反馈，能区分“完全错误”和“部分正确”。
- 缺点 (噪声与漂移): 神经网络可能被“欺骗”（Reward Hacking），即模型生成了高分但实际错误的胡言乱语。
  
  核心动机: 既然验证器可靠但信号稀疏，奖励模型信号丰富但不可靠，能否将两者结合，利用验证器来“锚定”正确性，利用奖励模型来填补“区分度”？

下图（原文 Figure 1）生动地展示了这一思想：

(a) 奖励模型: 提供了连续的分数分布，但存在重叠（错误答案得分可能高于正确答案）。
(b) 基于规则: 只有 0 和 1 两个极端，缺乏中间态。
(c) HERO (本文方法): 将连续分数“关进”了 0 和 1 定义的笼子里，既保证了正确和错误的界限，又在各自内部保留了梯度的丰富性。

该图像是示意图，展示了三种奖励机制：第一部分为奖励模型(a)，表现出假负和假正样本的分布；第二部分为基于规则的奖励(b)，给出了严格的奖励信号；第三部分为混合强化学习(HERO)(c)，结合了两者的优势，改善了低质量样本的处理。图中标示了高质量和低质量响应的样本。

2.2. 核心贡献

提出了 HERO 框架: 一种新颖的混合奖励设计，解决了单纯二元奖励的梯度稀疏问题和单纯连续奖励的奖励欺骗问题。
分层归一化机制: 设计了一种数学变换，强制奖励模型的分数在验证器确定的类别（正确/错误）内波动，防止模型通过欺骗奖励模型来获得高分。
方差感知加权: 发现并利用了“不确定性”作为训练信号，自动增加那些模型表现分歧较大的难题的训练权重。
SOTA 性能: 在 Qwen 和 OctoThinker 等模型基座上，在 verifiable（易验证）和 hard-to-verify（难验证）的数学任务上均取得了显著提升。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文，初学者需要掌握以下概念：

强化学习 (Reinforcement Learning, RL): 机器学习的一个分支，通过让智能体（Agent，这里指 LLM）与环境交互并获得奖励（Reward），来优化其策略（Policy）。
Bradley-Terry 模型: 一种用于训练奖励模型（Reward Model）的统计模型。它基于成对比较数据（Pairwise Data，即“A比B好”），将这种偏好转化为标量分数。
推演 (Rollout): 指 LLM 根据同一个提示词（Prompt）生成的完整回答序列。在训练中，通常会为一个问题生成多个不同的推演。
真值/标准答案 (Ground Truth): 数据集中提供的正确答案，用于验证模型输出的正确性。

3.2. 关键前人工作：GRPO

本文不仅提及，而是直接基于 GRPO (Group Relative Policy Optimization，组相对策略优化) 进行改进。初学者必须理解 GRPO 的核心逻辑：

在传统的 PPO（Proximal Policy Optimization）中，我们需要训练一个额外的“评论家”网络（Critic）来估计状态价值。这非常耗费显存。 GRPO 省去了 Critic 网络。它对于同一个问题 $x$ ，采样一组输出 $\{y_1, y_2, ..., y_G\}$ 。它计算每个输出的优势 (Advantage) 是基于该组内部的相对表现： $A_i = \frac{r_i - \text{mean}(\{r_1, ..., r_G\})}{\text{std}(\{r_1, ..., r_G\}) + \epsilon}$

痛点: 如果 $r$ 来自一个严格的验证器，且对于某个难题，所有 $y_i$ 都是错的（ $r_i$ 全为 0），或者是简单题（ $r_i$ 全为 1），那么分子 $r_i - \text{mean}$ 就变成了 0。这意味着没有梯度，模型学不到任何东西。这就是本文所说的“稀疏性”问题。

3.3. 差异化分析

RLVR (Reinforcement Learning with Verifiable Rewards): 仅使用验证器（0/1）。缺点：对部分正确的中间步骤无反馈，容易出现梯度消失（全0或全1）。
Process Reward Models (PRMs): 对推理的每一步打分。缺点：标注成本极高，难以大规模获取。
HERO (本文): 不需要昂贵的步骤级标注，而是结合结果级验证器和结果级奖励模型，通过数学技巧实现“既要（可靠）又要（密集）”。

4. 方法论

4.1. 方法原理

HERO 的核心思想是“戴着镣铐跳舞”。

镣铐: 基于规则的验证器。如果验证器说错，那无论奖励模型给分多高，最终奖励都必须是负的；如果验证器说对，最终奖励必须是正的。
跳舞: 奖励模型。在上述限制的区间内，根据奖励模型的分数高低来微调最终奖励，区分“离谱的错”和“接近的错”，以及“一般的对”和“完美的对”。

4.2. 核心方法详解 (逐层深入)

第一步：获取原始信号

对于一个输入提示词 $x$ 和生成的回答 $y$ ，我们需要两个信号：

稀疏验证信号 ( $r_{\mathrm{rule}}$ ): 来自代码或规则检查器。 $r_{\mathrm{rule}}(x, y) \in \{0, 1\}$
密集奖励分数 ( $r_{\mathrm{RM}}$ ): 来自训练好的奖励模型，是一个实数。 $r_{\mathrm{RM}}(x, y) \in \mathbb{R}$

第二步：分层归一化 (Stratified Normalization)

这是 HERO 最关键的创新。我们需要将 $r_{\mathrm{RM}}$ 映射到一个受控的区间内。

对于一个包含 $N$ 个回答的组（Group），我们首先计算该组内奖励模型分数的最大值和最小值。然后，使用以下公式计算混合奖励 $\hat{r}(x, y)$ ：

$\hat { r } ( x , y ) = \left\{ \begin{array} { l l } { - \alpha + 2 \alpha \cdot \frac { r _ { \mathrm { R M } } - \operatorname* { m i n } { r _ { \mathrm { R M } } } } { \operatorname* { m a x } { r _ { \mathrm { R M } } } - \operatorname* { m i n } { r _ { \mathrm { R M } } } + \epsilon } , } & { r _ { \mathrm { r u l e } } = 0 , } \\ { ( 1 - \beta ) + 2 \beta \cdot \frac { r _ { \mathrm { R M } } - \operatorname* { m i n } { r _ { \mathrm { R M } } } } { \operatorname* { m a x } { r _ { \mathrm { R M } } } - \operatorname* { m i n } { r _ { \mathrm { R M } } } + \epsilon } , } & { r _ { \mathrm { r u l e } } = 1 . } \end{array} \right.$

符号解释与深度解析:

如果是错误答案 ( $r_{\mathrm{rule}} = 0$ ):
- 公式第一行生效。
- $\frac { r _ { \mathrm { R M } } - \operatorname* { m i n } { r _ { \mathrm { R M } } } } { \operatorname* { m a x } { r _ { \mathrm { R M } } } - \operatorname* { m i n } { r _ { \mathrm { R M } } } + \epsilon }$ ：这是标准的 Min-Max 归一化，将 $r_{\mathrm{RM}}$ 变成 [0, 1] 之间的数值。
- 乘以 $2\alpha$ 并减去 $\alpha$ ，将其映射到区间 $[-\alpha, \alpha]$ 。
- 直觉: 即使答案错了，如果 RM 认为它质量相对较好（接近 1），它得到的惩罚较小（接近 $\alpha$ ）；如果 RM 认为它很差，惩罚很大（接近 $-\alpha$ ）。这保留了区分度。
如果是正确答案 ( $r_{\mathrm{rule}} = 1$ ):
- 公式第二行生效。
- 通过类似的变换，将分数映射到区间 $[1-\beta, 1+\beta]$ 。
- 直觉: 正确答案的基础分是 1，但根据 RM 的评价，可以在 $(1-\beta)$ 到 $(1+\beta)$ 之间浮动。
$\alpha, \beta \in (0, 1]$ ：是超参数，控制奖励模型影响力的“带宽”。文中通常设置较小（如 0.05 或 0.1），保证主导权在验证器手中。
$\epsilon$ ：防止除以零的微小数值。

第三步：方差感知加权 (Variance-Aware Weighting)

GRPO 默认对所有 Prompt 一视同仁。但作者认为：简单的题大家都会（方差小），没必要学；太难且大家全错的一致（方差小），也没信息；只有那些模型产生分歧（方差大）的题，才是学习的黄金机会。

因此，作者引入了一个权重系数 $w_{\mathrm{difficulty}}$ 。首先，计算当前 Prompt 下一组回答的奖励模型分数的标准差 $\sigma_u$ 。然后，使用 Sigmoid 函数计算权重：

$w _ { \mathrm { d i f f c u l t y } } ( \sigma _ { u } ) = w _ { \mathrm { m i n } } + ( w _ { \mathrm { m a x } } - w _ { \mathrm { m i n } } ) \cdot \frac { 1 } { 1 + \exp \bigl ( - k ( \sigma _ { u } - \bar { \sigma } ) \bigr ) }$

符号解释:

$w_{\mathrm{min}}, w_{\mathrm{max}}$ : 权重的下限和上限（例如 0.5 和 2.0）。
$\sigma_u$ : 当前组内 RM 分数的标准差（不确定性）。
$\bar{\sigma}$ : 历史平均标准差（运行均值）。
$k$ : 控制 Sigmoid 函数陡峭程度的系数。
直觉: 当 $\sigma_u$ 高于平均值 $\bar{\sigma}$ 时，公式右侧分母变小，整体权重趋向 $w_{\mathrm{max}}$ 。这意味着模型越纠结（方差大），我们越重视这个样本。

第四步：计算最终奖励

将上述两部分结合：

$r _ { \mathrm { f i n a l } } ( x , y ) = w _ { \mathrm { d i f f c u l t y } } ( \sigma _ { u } ) \cdot \hat { r } ( x , y )$

这个 $r_{\mathrm{final}}$ 将被代入 GRPO 算法中计算优势并更新模型策略。

5. 实验设置

5.1. 数据集

为了验证模型的泛化能力，作者精心构建了三个训练集，源自 OpenMathReasoning 数据集：

易验证 (Easy-to-verify): 2,000 个可以通过规则验证器确定的样本。
难验证 (Hard-to-verify): 2,000 个答案格式开放、难以通过规则验证的样本。
混合 (Mixed): 上述各取 1,000 个。

测试集:

易验证测试集: MATH500, AMC, Minerva, Olympiad。
难验证测试集:
- HVM (HardVerify-Math): 包含奥数题和 Big-Math 难题。
- TBR (TextBookReasoning): 作者收集的教科书级推理题，经过 GPT-4 筛选确保难度。

5.2. 评估指标

Pass@1 (一次通过率):
- 概念定义: 模型对每个问题只生成一个答案，该答案正确的比例。
- 数学公式: $\text{Pass@1} = \frac{1}{N} \sum_{i=1}^{N} \mathbb{I}(y_i = y_{gt})$
- 符号解释: $N$ 是问题总数， $\mathbb{I}$ 是指示函数（正确为1，错误为0）， $y_i$ 是模型输出， $y_{gt}$ 是真值。对于难验证任务，使用 GPT-4o 作为裁判来判断 $\mathbb{I}$ 。

5.3. 对比基线

为了证明 HERO 的有效性，论文选取了最具代表性的基线：

SFT Cold Start: 仅经过监督微调的模型。
AceMath-7B-RM (RM-only): 仅使用奖励模型分数的 GRPO。
Math_Verify (Verifier-only): 仅使用规则验证器（0/1奖励）的 GRPO。
Generative Verifiers: 使用专门训练的验证模型（如 General Reasoner）或 Prompted LLM（如 Qwen2.5-7B-Instruct）作为裁判。

6. 实验结果与分析

6.1. 核心结果分析

实验结果表明，HERO 在所有设置下几乎都取得了最佳性能。

以下是原文 Table 2 的结果，展示了基于 Qwen3-4B-Base 模型的性能对比：

Method	Easy-to-verify tasks (Pass@1)					Hard-to-verify tasks (GPT-4o Judge)
Method	MATH500	AMC	Minerva	Olympiad	Avg. ↑	HVM	TBR	Avg. ↑
Qwen3-4B-Base	67.5	44.1	29.4	32.1	43.3	45.2	40.2	42.7
SFT Cold Start Model	69.1	50.3	39.1	34.3	48.2	50.8	43.3	47.1
Training with easy-to-verify samples
AceMath-7B-RM	80.2	61.6	40.6	43.3	56.4	57.2	52.0	54.6
math_verify (verl)	82.3	61.3	44.0	45.5	58.3	61.0	53.1	57.1
HERO (Ours)	85.4	69.4	44.5	48.9	62.0	73.2	59.3	66.3
Training with hard-to-verify samples
AceMath-7B-RM	79.6	58.8	39.9	42.1	55.1	59.2	48.2	53.7
math_verify (verl)	76.2	46.6	28.7	38.2	47.4	58.4	50.0	54.2
HERO (Ours)	80.0	63.4	40.7	43.1	56.8	59.0	54.0	56.5

深度解析:

全面领先: 在“易验证样本训练”设置下，HERO 在易验证任务上平均得分 62.0，远超 RM (56.4) 和 Verifier (58.3)。更惊人的是在难验证任务上，HERO 达到了 66.3，比 RM 高出 11.7 分。
解决脆弱性: 注意 math_verify 在难验证训练集上的表现（47.4），甚至不如 SFT 基线（48.2）。这证明了仅依赖二元验证器在面对无法精确验证的数据时会完全失效。而 HERO 依然保持了稳健的性能（56.8）。
OctoThinker 结果: 原文 Table 3（此处未完整转录，但趋势一致）显示，在较弱的 OctoThinker-8B 模型上，HERO 带来的提升甚至更大，证明了该方法的通用性。

6.2. 为什么 RM 单独使用会失败？

作者提供了一个非常有力的证据来解释为什么单纯依赖奖励模型（RM）是危险的。

下图（原文 Figure 5，对应 images/3.jpg）展示了“奖励欺骗”现象：

(a) Reward Mean: 随着训练步数增加，模型获得的奖励均值直线上升（看起来模型在变强）。
(b) MATH500 Accuracy: 然而，实际的数学解题准确率在 100 步左右开始雪崩式下跌，最终接近 0。
结论: 模型学会了输出一些能够骗过 RM 获取高分的“垃圾内容”，而不是学会了解题。HERO 通过分层归一化（验证器约束），完美避免了这种崩塌。

该图像是图表，展示了在不同训练步骤下的奖励均值和 MATH500 准确率。图 (a) 显示了 Reward Mean 在多种方法下的变化趋势，图 (b) 则展示了 MATH500 的准确率，与训练步骤相关的表现差异明显。

6.3. 消融实验与参数分析

作者进一步研究了 HERO 中各个组件的作用。

下图（原文 Figure 2，对应 images/2.jpg）展示了两个关键发现：

左图 (a): 比较了仅使用正反馈（Positive）、正反馈+稀疏负反馈（Sparse Neg）、以及 HERO 的全套配置（Dense Positive + Dense Negative）。结果显示，密集的负反馈（Dense Negative） 对于提升难验证任务（Hard-to-verify）的性能至关重要。这意味着告诉模型“这个错得离谱”和“这个错得情有可原”的区别非常重要。
右图 (b): 研究了归一化区间 $\alpha$ 的大小。对于易验证任务，较小的 $\alpha$ （如 0.05）更好，因为更严格；对于混合任务，较大的 $\alpha$ （如 0.1, 0.2）更好，允许 RM 发挥更多指导作用。

该图像是图表，展示了正向与负向反馈对不同验证任务（易验证与难验证）的准确率影响（左图）以及范围消融实验的结果（右图）。在各种任务中，HERO方法相较于未使用反馈时提高了准确率。第一幅图中的易验证任务和难验证任务的表现分别为62.2和73.2，第二幅图中易验证样本与混合样本的准确率有所不同。

此外，关于 方差感知加权 的消融实验（原文 Table 4）显示，加入加权机制后，易验证任务得分从 60.8 提升至 62.0，难验证任务从 69.4 大幅提升至 73.2。这验证了“关注不确定样本”策略的有效性。

最后，作者分析了奖励模型本身的质量。下图（原文 Figure 6，对应 images/4.jpg）展示了 RM 的 AUROC 分布。虽然有一些低质量的异常值（Box plot 中的低点），但总体中位数高达 0.917，说明 RM 在大多数情况下具备良好的排序能力，这为 HERO 的有效性提供了基础。

该图像是一个包含四个部分的图表，展示了AUROC评分的分布、累积分布、箱形图和性能分类。其中，箱形图展示了AUROC的分布情况，AUROC的均值为0.793，中位数为0.917。饼图将AUROC的表现分为优秀、良好、公平和随机/差等类别。

7. 总结与思考

7.1. 结论总结

HERO 是一项针对大模型推理任务的“务实”创新。它没有试图训练一个完美的验证器或完美的奖励模型，而是承认两者的缺陷，通过结构化的约束（分层归一化）和动态的关注（方差加权），将两者的优势互补。

验证器负责“兜底”，防止模型走火入魔（Reward Hacking）。
奖励模型负责“指路”，在验证器看不清的迷雾中（全0或全1场景）提供细微的方向指引。

7.2. 局限性与未来工作

对验证器的依赖: HERO 的前提是至少有一部分数据是可验证的。如果领域完全缺乏客观验证手段（如创意写作），该方法的有效性存疑。
超参数敏感: $\alpha, \beta$ 以及加权系数 $k$ 需要精心调整，不同任务可能需要不同的设置。
计算开销: 训练过程中需要同时运行验证器（通常是代码执行）和推理奖励模型（通常是一个 7B+ 的大模型），计算成本高于单纯的 RLVR。

7.3. 个人启发与批判

混合信号的艺术: 这篇论文给我们的最大启发是“不要二选一”。在许多机器学习应用中，我们往往在“昂贵但精准的人工标注/规则”和“廉价但有噪的模型预测”之间纠结。HERO 提供了一种通用的融合范式：用精准信号划定边界，用噪声信号填充细节。
负反馈的价值: 实验特别强调了区分“不同程度的错误”的重要性。在强化学习中，我们要关注的不仅仅是“如何成功”，还有“如何优雅地失败”或“避免低级错误”。
思考: 未来的工作可以探索是否可以将这种机制引入到 RLHF (Reinforcement Learning from Human Feedback) 中，用少量的专家规则来约束大规模的偏好模型，从而解决 RLHF 中的对齐税（Alignment Tax）问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。