论文状态：已完成

The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

发表：2025/06/02

数学推理数据集 (1)大语言模型强化学习训练 (66)负强化学习机制 (1)正负样本强化学习 (1)推理能力提升策略 (1)

价格：0.100000

已有 11 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文探讨了具有可验证奖励的强化学习（RLVR）的机制，将学习信号分解为正样本强化（PSR）和负样本强化（NSR）。研究发现，仅通过负样本训练模型，显著提升了多样性和推理能力，超越了传统的PPO和GRPO算法。基于此，提出了Weighted-REINFORCE算法，有效提升数学推理任务的表现。

摘要

Reinforcement learning with verifiable rewards (RLVR) is a promising approach for training language models (LMs) on reasoning tasks that elicit emergent long chains of thought (CoTs). Unlike supervised learning, it updates the model using both correct and incorrect samples via policy gradients. To better understand its mechanism, we decompose the learning signal into reinforcing correct responses and penalizing incorrect ones, referred to as Positive and Negative Sample Reinforcement (PSR and NSR), respectively. We train Qwen2.5-Math-7B, Qwen3-4B and Llama-3.1-8B-Instruct on a mathematical reasoning dataset and uncover a surprising result: training with only negative samples -- without reinforcing correct responses -- can be highly effective: it consistently improves performance over the base model across the entire Pass@ $k$ spectrum $k$ up to 256), often matching or surpassing PPO and GRPO. In contrast, reinforcing only correct responses improves Pass@1 but degrades performance at higher $k$ , due to reduced diversity. These inference-scaling trends highlight that solely penalizing incorrect responses may contribute more to performance than previously recognized. Through gradient analysis, we show that NSR works by suppressing incorrect generations and redistributing probability mass toward other plausible candidates, guided by the model's prior beliefs. It refines the model's existing knowledge rather than introducing entirely new behaviors. Building on this insight, we propose a simple variant of the RL objective that upweights NSR, and show that it consistently improves overall Pass@ $k$ performance on MATH, AIME 2025, and AMC23. Our code is available at https://github.com/TianHongZXY/RLVR-Decomposed.

思维导图

论文精读

中文精读约 9 分钟读完 · 5,596 字

1. 论文基本信息

1.1. 标题

大语言模型推理中负强化的惊人效果 (The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning)

1.2. 作者

Xinyu Zhu, Mengzhou Xia, Zhepei Wei, Wei-Lin Chen, Danqi Chen, Yu Meng 作者分别来自弗吉尼亚大学 (University of Virginia) 和普林斯顿大学 (Princeton University)。其中 Danqi Chen（陈丹琦）是自然语言处理领域的知名学者。

1.3. 发表期刊/会议

本论文发表于 arXiv 预印本平台，日期为 2025 年 6 月 2 日。该研究由普林斯顿 NLP 组等顶尖团队完成，探讨了当前大模型强化学习（如 DeepSeek-R1）背后的核心机制。

1.4. 发表年份

2025年

1.5. 摘要

具有可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR) 是训练推理模型的有效方法。本文将 RLVR 的学习信号分解为正样本强化 (Positive Sample Reinforcement, PSR) 和负样本强化 (Negative Sample Reinforcement, NSR)。研究发现：仅使用负样本训练（即仅惩罚错误答案）不仅高度有效，且在模型多样性（Pass@k）上优于传统的 PPO 和 GRPO 算法。相反，仅强化正确答案虽然能提高贪婪搜索准确率，但会导致模型输出多样性崩溃。基于此发现，作者提出了 Weighted-REINFORCE 算法，通过增加负强化的权重，显著提升了模型在数学推理任务上的表现。

1.6. 原文链接

PDF 链接: https://arxiv.org/pdf/2506.01347v2
发布状态: 预印本 (v2)

2. 整体概括

2.1. 研究背景与动机

近年来，大语言模型 (LLM) 在复杂推理任务（如数学和编程）中表现出色。其中一个核心技术是 具有可验证奖励的强化学习 (RLVR)。

核心问题: 传统的强化学习（如 PPO）通常需要一个复杂的奖励模型 (Reward Model) 来模拟人类偏好。但在数学等领域，我们可以直接通过结果是否正确来给出奖励（ $+1$ 或 -1）。
研究空白: 尽管 RLVR 效果很好，但我们并不清楚模型到底是从“正确答案”中学到的更多，还是从“错误答案”中学到的更多。
创新思路: 作者提出将学习信号拆解，通过实验发现，“告诉模型什么是错的” 竟然比 “告诉模型什么是对的” 更有助于模型在长推理链中保持探索能力和泛化性。

2.2. 核心贡献/主要发现

分解理论: 首次将 RLVR 分解为 PSR（学习对的）和 NSR（学习错的）两个独立组件。
惊喜发现: 仅靠负强化（NSR）就能达到甚至超过主流算法 PPO/GRPO 的效果，且能极好地保持模型的多样性。
机制分析: 通过梯度分析证明了 NSR 是在“重新分配”概率，而不是像 PSR 那样“死记硬背”特定的正确路径。
实用算法: 提出了 Weighted-REINFORCE，通过简单地调低正强化的权重，在多个基准测试中取得了最优结果。

3. 预备知识与相关工作

3.1. 基础概念

具有可验证奖励的强化学习 (RLVR): 一种强化学习范式，其奖励 $r$ 是由客观规则（如数学公式检查器、代码编译器）给出的。
词元 (token): 模型处理文本的最小单位，可以是一个字或一个单词片段。
推演 (rollout): 指模型根据提示词 (prompt) 生成一个完整回答的整个过程。
Pass@k: 衡量模型能力的指标。指对于一个问题，让模型生成 $k$ $k$ 个独立的回答，只要其中有一个是正确的，就认为该问题“通过”了。
- Pass@1: 反映模型的准确率（Exploitation，挖掘已知知识的能力）。
- Pass@k (k大): 反映模型的多样性和潜力（Exploration，搜索正确答案的能力）。

3.2. 前人工作

PPO (Proximal Policy Optimization): 一种经典的深度强化学习算法，通过限制策略更新的幅度来保证训练稳定性。
GRPO (Group Relative Policy Optimization): DeepSeek 提出的算法，通过一组推演 (rollout) 的相对奖励来取消对价值函数（Critic）的需求。
思维链 (Chain of Thought, CoT): 模型在给出最终答案前的一系列中间推理步骤。

3.3. 差异化分析

现有工作通常将正向奖励和负向奖励混合处理。本文的不同之处在于“洁癖式”的实验设计：强行关闭正强化或负强化，观察单一信号下模型行为的变化，从而揭示了负强化在维持“推理多样性”中的决定性作用。

4. 方法论

4.1. 方法原理

RLVR 的目标是最大化期望奖励。作者发现这个目标可以数学化地分解为两个部分：一部分负责增加正确样本的概率（PSR），另一部分负责降低错误样本的概率（NSR）。

4.2. 核心方法详解 (分解与梯度分析)

4.2.1. RLVR 目标的分解

在 RLVR 中，给定提示词 $\mathbf{x}$ ，模型生成回答 $\mathbf{y}$ ，其奖励 $r(\mathbf{x}, \mathbf{y}) \in \{-1, +1\}$ 。优化目标 $\mathcal{L}_{RLVR}(\theta)$ 是最小化负期望奖励： $\mathcal{L}_{RLVR}(\theta) = - \mathbb{E}_{\mathbf{x} \sim \mathcal{D}, \mathbf{y} \sim \pi_{\theta}(\cdot|\mathbf{x})} [ r(\mathbf{x}, \mathbf{y}) ]$ 将其展开并根据奖励的正负号拆分为两项： $\mathcal{L}_{RLVR}(\theta) = \underbrace{ - \mathbb{E}_{\mathbf{x} \sim \mathcal{D}} \left[ \sum_{\mathbf{y}: r=1} \pi_{\theta}(\mathbf{y}|\mathbf{x}) \right] }_{\mathcal{L}_{PSR}(\theta)} + \underbrace{ - \mathbb{E}_{\mathbf{x} \sim \mathcal{D}} \left[ \sum_{\mathbf{y}: r=-1} -\pi_{\theta}(\mathbf{y}|\mathbf{x}) \right] }_{\mathcal{L}_{NSR}(\theta)}$

PSR (Positive Sample Reinforcement): 类似于有监督微调 (SFT)，它强制模型提高生成那些已被证实的正确回答的概率。
NSR (Negative Sample Reinforcement): 类似于似然最小化，它强制模型降低生成错误推理路径的概率。

4.2.2. 词元级梯度动力学分析

为了理解这两个部分如何改变模型，作者分析了损失函数对词元逻辑值 (Logit) $z_v$ 的导数。

1. 正样本强化 (PSR) 的梯度: 对于正确的回答，PSR 的梯度下降方向倾向于： $-\frac{\partial \mathcal{L}_{PSR}}{\partial z_v} \propto \begin{cases} \pi_v \cdot (1 - \pi_v) & \text{如果 } v = y_t \text{ (被采样词元)} \\ -\pi_{y_t} \cdot \pi_v & \text{如果 } v \neq y_t \text{ (未被采样词元)} \end{cases}$

解释: PSR 会大幅度拉高已采样词元的概率，并压低所有其他词元（包括潜在的其他正确选项）。这会导致模型变得非常自负，输出分布变得陡峭，从而丧失了探索其他解法的能力。

2. 负样本强化 (NSR) 的梯度: 对于错误的回答，NSR 的梯度下降方向倾向于： $-\frac{\partial \mathcal{L}_{NSR}}{\partial z_v} \propto \begin{cases} -\pi_v \cdot (1 - \pi_v) & \text{如果 } v = y_t \\ \pi_{y_t} \cdot \pi_v & \text{如果 } v \neq y_t \end{cases}$

解释: NSR 压低错误词元的概率，并将其概率“重分配”给其他词元。关键点在于，重分配的幅度与该词元原本的概率 $\pi_v$ 成正比。这意味着 NSR 尊重模型的“先验知识”，它只是在剔除错误选项后，让模型在剩下的可能选项中继续寻找，这极大地保留了多样性。

4.2.3. 加权 REINFORCE 算法 (Weighted-REINFORCE)

基于上述分析，作者提出调低正强化的权重 $\lambda$ ，因为正强化太容易导致过拟合。 $\mathcal{L}_{W-REINFORCE}(\theta) = \lambda \cdot \mathcal{L}_{PSR}(\theta) + \mathcal{L}_{NSR}(\theta)$ 实验中设置 $\lambda = 0.1$ 。这种简单的修改既保留了正确答案的指引，又避免了多样性崩溃。

5. 实验设置

5.1. 数据集

MATH: 包含 7,500 个竞赛级数学问题。
AIME 2025: 美国数学邀请赛，难度极高。
AMC23: 美国数学竞赛。这些数据集需要模型具备极强的逻辑推理能力。

5.2. 评估指标

论文使用了 Pass@k 作为核心指标。

概念定义: Pass@k 衡量在给定 $k$ 次尝试机会时，模型至少答对一次的概率。它通过多次采样来估计模型的上限。
数学公式: $Pass@k = \mathbb{E}_{\mathbf{x} \sim \mathcal{D}} \left[ 1 - \frac{\binom{n-c}{k}}{\binom{n}{k}} \right]$
符号解释:
- $n$ : 总采样次数（实验中通常为 256）。
- $c$ : $n$ 次采样中正确的次数。
- $k$ : 我们关注的尝试次数（如 $k=1, 8, 256$ ）。

5.3. 对比基线

Base Model: 未经强化学习微调的原始模型。
PPO: 经典的在线强化学习算法。
GRPO: 专门为推理任务优化的组相对策略优化算法。
PSR-only / NSR-only: 本文分解出的单一强化组件。

6. 实验结果与分析

6.1. 核心结果分析

下图（原文 Figure 2）展示了 Qwen2.5-Math-7B 的实验结果：

$Figure 2: Pass `@ k` curves of Qwen2 . 5-Math-7B trained with PPO, GRPO, PSR, and NSR. NSR is comparable to other methods across different $k$ values and outperforms them at $k = 2 5 6$ .$ 该图像是一个线图，展示了 Qwen2.5-Math-7B 在不同样本数量 $k$ 下的 Pass@ $k$ 曲线。图中比较了多种训练方法，包括基模型、PPO、GRPO、PSR 和 NSR。可以看出，NSR 在 $k=256$ 时表现出色，整体性能超过其他方法，显示出负强化的有效性。

NSR 的惊人表现: NSR-only（深绿色线）在所有 $k$ 值上都显著优于基础模型。在 $k=256$ 时，它甚至超过了 PPO 和 GRPO。
PSR 的多样性崩溃: PSR-only（浅绿色线）在 $k=1$ 时表现不错，但随着 $k$ 增大，其表现迅速滑坡，最终甚至不如基础模型。这证明了只学“对的”会让模型变死板。

6.2. 实验结果表

以下是原文 Table 1 的结果（展示了 Qwen2.5-Math-7B 在不同数据集上的 Pass@k）：

方法 (Method)	MATH (Pass@k)
方法 (Method)	k=1	k=2	k=4	k=8	k=16	k=32	k=64	k=128	k=256
Base Model	63.2	76.0	83.7	88.4	91.6	93.7	95.2	96.2	96.9
PPO	76.6	82.6	86.7	89.6	91.7	93.4	94.7	95.6	96.3
GRPO	76.3	81.7	85.6	88.4	90.6	92.3	93.6	94.7	95.5
NSR (仅负强化)	75.7	82.4	86.9	90.1	92.4	94.1	95.3	96.2	96.9
W-REINFORCE (加权)	76.6	82.8	87.1	90.2	92.4	94.1	95.3	96.1	96.7

分析: 可以看出，W-REINFORCE 在 $k=1$ 到 $k=64$ 范围内几乎全面领先，平衡了准确率和多样性。

6.3. 训练动态与熵 (Entropy) 的变化

下图（原文 Figure 5）解释了为什么 NSR 更好：

该图像是图表，展示了Qwen2.5-Math-7B在MATH任务下的训练动态，包括(a) 测试集上的贪婪解码准确率，(b) 模型在测试集上的熵，(c) 训练集每批次正确响应比例，以及(d) 训练集每批次完全解决提示的比例。图中显示NSR在贪婪解码准确率上具有竞争力，同时在训练过程中保持较高的熵，表明探索性更强。

从 (b) 图可以看出，NSR（深绿色）在训练过程中保持了极高的熵 (Entropy)。熵代表了模型输出的不确定性/多样性。
PSR（浅绿色）的熵在训练开始后迅速暴跌，说明模型很快就只学会了一种固定的、可能并不完善的解题套路。

7. 总结与思考

7.1. 结论总结

本文通过严密的分解实验证明了：在推理任务的强化学习中，负样本强化 (NSR) 是维持模型推理潜力的功臣。它通过抑制错误答案并基于模型原有的先验知识重新分布概率，有效地提升了推理能力且没有损害多样性。单纯的正强化虽然见效快，但容易导致过拟合和多样性丧失。

7.2. 局限性与未来工作

训练稳定性: 作者观察到，如果长时间只进行 NSR 训练（几百步以后），性能会出现下降。这说明 NSR 虽然能保持多样性，但可能缺乏足够的拉力将模型引向最终的收敛，因此需要 PSR 的配合。
奖励类型: 目前仅讨论了二元奖励（对或错）。对于更复杂的中间步骤奖励（如 PRM 模型），这种正负分解的效应是否依然成立还有待研究。

7.3. 个人启发与批判

对 DeepSeek-R1 的理解: 这篇论文为理解 DeepSeek-R1 为什么能产生“自我反省”提供了理论支撑。负强化实际上是在逼迫模型寻找除了错误路径之外的其他可能，这种“排除法”的学习方式比单纯的“模仿正确答案”更能激发逻辑思考。
应用迁移: 在实际应用中，如果我们发现模型在微调后说话变得非常刻板、复读，或许可以参考本文的思路：降低正样本的权重，或者专门针对模型答错的 Case 进行负向强化，这比收集更多的正确数据可能更有效。
批判性思考: 论文中 $\lambda=0.1$ 的选择较为经验主义，未来是否可以根据训练进程动态调整正负强化的权重（例如前期多用 NSR 探索，后期多用 PSR 锁定胜局）？这可能是一个值得探索的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。