It Takes Two: Your GRPO Is Secretly DPO

Jian-Yun Nie

论文状态：已完成

It Takes Two: Your GRPO Is Secretly DPO

发表：2025/10/01

基于大语言模型的动作规划 (26)序列策略优化 (38)大语言模型强化学习训练 (54)

原文链接 PDF 下载

价格：0.10

已有 7 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文挑战了GRPO算法在大语言模型训练中对大组规模的传统假设，通过将其重新诠释为对比学习，揭示了其与DPO的深层联系。基于此，论文提出了仅需两个响应的`2-GRPO`方法，解决了GRPO高昂计算成本的问题。通过严谨的理论分析和实验验证，结果表明`2-GRPO`在性能上与使用16个响应的`16-GRPO`相当，但仅使用1/8的数据量，并减少了超过70%的训练时间，大幅提升了效率。

摘要

Group Relative Policy Optimization (GRPO) is a prominent reinforcement learning algorithm for post-training Large Language Models (LLMs). It is commonly believed that GRPO necessitates a large group size to ensure stable training via precise statistical estimation, which incurs substantial computational overhead. In this work, we challenge this assumption by reframing GRPO as a form of contrastive learning, which reveals a fundamental connection to Direct Preference Optimization (DPO). Motivated by DPO's empirical success, we investigate the minimal two-rollout case (2-GRPO), a configuration previously deemed infeasible. We provide a rigorous theoretical analysis to validate 2-GRPO and demonstrate empirically that it achieves performance on par with 16-GRPO, despite using only 1/8 of the rollouts and reducing training time by over 70%.

思维导图

论文精读

中文精读约 14 分钟读完 · 7,684 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): It Takes Two: Your GRPO Is Secretly DPO (成双入对：你的 GRPO 算法本质上是 DPO)
作者 (Authors): Yihong Wu, Liheng Ma, Lei Ding, Muzhi Li, Xinyu Wang, Kejia Chen, Zhan Su, Zhanguang Zhang, Chenyang Huang, Yingxue Zhang, Mark Coates, Jian-Yun Nie.
隶属机构 (Affiliations): 蒙特利尔大学、麦吉尔大学、Mila、曼尼托巴大学、香港中文大学、浙江大学、华为诺亚方舟实验室、阿尔伯塔大学、阿尔伯塔机器智能研究所 (Amii) 等多家顶尖学术和研究机构。
发表期刊/会议 (Journal/Conference): 本文目前发布在 arXiv 上，是一个预印本 (Preprint)，尚未经过同行评审。arXiv 是学术界用于快速分享最新研究成果的重要平台。
发表年份 (Publication Year): 2025 (根据 arXiv 编号推断，实际提交时间可能更早)。
摘要 (Abstract): 组相对策略优化 (GRPO) 是一种用于大语言模型 (LLM) 训练后阶段的重要强化学习算法。传统观点认为，GRPO 需要较大的组规模 (group size) 来保证统计估计的准确性，从而稳定训练过程，但这带来了巨大的计算开销。本文挑战了这一假设，通过将 GRPO 重新诠释为一种对比学习 (contrastive learning)，揭示了它与直接偏好优化 (DPO) 之间的深层联系。受 DPO 成功经验的启发，本文研究了仅使用两个响应 (rollout) 的极端情况 (即 2-GRPO)，这在以前被认为是不可行的。我们提供了严谨的理论分析来验证 2-GRPO 的有效性，并通过实验证明，尽管 2-GRPO 仅使用 16-GRPO 八分之一的响应数据，训练时间减少超过70%，但其性能与 16-GRPO 相当。
原文链接 (Source Link):
- ArXiv 链接: https://arxiv.org/abs/2510.00977
- PDF 链接: http://arxiv.org/pdf/2510.00977v1
- 发布状态: 预印本 (Preprint)

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题： 在大语言模型的强化学习后训练中，GRPO 算法被广泛使用，但其高昂的计算成本是一个主要障碍。这个成本主要来源于其核心机制：为每个训练样本（prompt）生成一个大组 (large group) 的响应（例如16个），以便进行可靠的奖励归一化。
- 重要性与挑战： GRPO 因其无需额外训练一个价值网络 (value network) 而备受青睐，但“大组”这个要求使得训练过程非常耗时和耗费计算资源。这限制了其在资源有限环境下的应用，也减慢了研究迭代的速度。现有研究普遍认为减小组规模会破坏 GRPO 的稳定性，导致训练失败。
- 创新切入点： 本文没有尝试设计一个全新的算法，而是从一个全新的视角——对比学习 (contrastive learning)——来重新审视 GRPO。作者发现，GRPO 内部的奖励归一化过程，本质上是在将响应分为“好”的（正样本）和“坏”的（负样本），并在此基础上进行优化。这个视角意外地将 GRPO 和另一个主流的对齐算法 DPO 联系了起来，因为 DPO 正是基于“好/坏”样本对进行学习的。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 1. 提出了对 GRPO 的对比学习新诠释： 首次将 GRPO 的目标函数形式化为一个对比学习损失。这个理论框架清晰地揭示了 GRPO 的工作机制：通过对比组内的正负样本来优化策略，而不仅仅是简单的奖励归一化。
- 2. 建立了 GRPO 与 DPO 的理论桥梁： 证明了 GRPO 和 DPO 在其梯度层面都遵循对比学习的范式，从而在理论上解释了为什么这两种看似不同的算法能够实现相似的对齐目标。
- 3. 提出并验证了 2-GRPO 的可行性： 基于与 DPO 的联系，大胆提出将组规模缩减到最小的可行情景，即 G=2（2-GRPO）。论文从理论上证明了 2-GRPO 仍然能够提供无偏的梯度估计，并保持了有效的优势估计 (advantage estimation)。
- 4. 实现了显著的效率提升： 实验证明，2-GRPO 在性能上与传统的 16-GRPO 相当，但训练时间减少了超过 70%，所需的计算资源（总响应生成量）仅为后者的 12.5%。这一发现颠覆了“GRPO 必须依赖大组”的传统认知。

基础概念 (Foundational Concepts):
- 强化学习 (Reinforcement Learning, RL): 一种机器学习范式，其中智能体 (agent) 通过与环境互动，根据收到的奖励 (reward) 或惩罚来学习如何做出最优决策。在 LLM 领域，LLM 就是智能体，它生成的文本是决策，而奖励则来自于人类反馈或自动评估。
- LLM 后训练 (LLM Post-training): 指在预训练之后，对 LLM 进行进一步的微调，以使其行为更符合人类的期望或在特定任务上表现更好。常见的方法包括监督微调 (SFT) 和强化学习。
- RLHF (Reinforcement Learning with Human Feedback): 利用人类对模型输出的偏好（例如，哪个回答更好）作为奖励信号，通过强化学习来对齐 LLM。
- RLVR (Reinforcement Learning with Verifiable Rewards): 本文的核心应用场景。这是一种特殊的强化学习设置，其中奖励是可自动验证的，通常是二元的（即正确=1，错误=0）。例如，在数学问题解答中，可以通过最终答案是否正确来给出奖励。
- PPO (Proximal Policy Optimization): 一种非常流行的强化学习算法，通过限制策略更新的幅度来保证训练的稳定性。在 LLM 中应用时，通常需要训练一个额外的价值网络 (value network) 来估计奖励，这增加了复杂性和计算开销。
- DPO (Direct Preference Optimization): 一种无需显式奖励模型、也无需强化学习采样的对齐算法。它直接在人类偏好数据（<问题, 更好的回答, 更差的回答>）上进行优化，目标是最大化模型对“更好回答”的偏好概率。
- GRPO (Group Relative Policy Optimization): 本文研究的主角。它是 PPO 的一种变体，巧妙地绕过了价值网络。其核心思想是：对于同一个问题，让模型生成一组（例如 G=16 个）不同的回答，然后计算这组回答的平均奖励和标准差，并用它们来对每个回答的奖励进行归一化，得到一个相对的优势 (advantage)。这个优势值指导着模型的后续优化。
- 对比学习 (Contrastive Learning): 一种自监督学习方法，核心思想是学习一个表示空间，在该空间中，相似的样本（正样本）被拉近，不相似的样本（负样本）被推远。
前人工作 (Previous Works):
- PPO (Schulman et al., 2017): 是 GRPO 的基础，但 PPO 对价值网络的依赖使其在 LLM 训练中显得笨重。
- GRPO (Shao et al., 2024): 解决了 PPO 对价值网络的依赖，通过组内奖励归一化实现了稳定训练，并在数学推理等任务上取得了顶尖性能。然而，其论文和社区普遍认为需要一个大组（G 通常为16或更大）才能获得准确的统计估计（均值和标准差），从而保证稳定性。
- DPO (Rafailov et al., 2023): 展示了仅使用一对正负样本就能有效进行偏好对齐，启发了本文作者思考：如果 GRPO 和 DPO 本质相似，那么 GRPO 是否也只需要一对样本就足够了？
技术演进 (Technological Evolution): LLM 的对齐技术从早期的 PPO（复杂、需要价值网络），演化出了两条更高效的路径：一条是像 DPO 这样完全摆脱 RL 采样的偏好优化方法；另一条是像 GRPO 这样简化 RL 过程（去除价值网络）的方法。本文的工作则是在这两条路径之间建立了一座桥梁。
差异化分析 (Differentiation): 本文与之前工作的最大不同在于其理论视角。它不是提出一个新算法，而是对现有算法 GRPO 提出了一个颠覆性的新理解。通过证明 GRPO 的对比学习本质，它从理论上合理化了使用极小组规模（G=2）的可行性，从而在不牺牲性能的前提下，极大地提升了 GRPO 的训练效率。

4. 方法论 (Methodology - Core Technology & Implementation Details)

本部分的核心是将 GRPO 与 DPO 通过对比学习的视角联系起来，并以此证明 2-GRPO 的合理性。

方法原理 (Methodology Principles):
- 核心思想： GRPO 的优势计算过程天然地将组内的响应分成了两类：奖励高于平均值的（被视为正样本）和奖励低于平均值的（被视为负样本）。因此，GRPO 的优化目标可以被看作是一个对比学习目标：提升正样本的概率，同时抑制负样本的概率。
方法步骤与流程 (Steps & Procedures):
1. 定义通用对比学习损失： 首先，论文给出了一个通用的对比学习损失的梯度形式（定义 3.1），其本质是梯度可以分解为对正样本的加权提升和对负样本的加权抑制。 $\nabla _ { \theta } { \mathcal L } = - \mathbb E _ { x , y ^ { + } , y ^ { - } } \left[ a ( x , y ^ { + } , { \mathcal D } ^ { - } ) \nabla _ { \theta } \pi _ { \theta } ( y ^ { + } | x ) - b ( x , y ^ { - } , { \mathcal D } ^ { + } ) \nabla _ { \theta } \pi _ { \theta } ( y ^ { - } | x ) \right]$
2. 证明 GRPO 是对比学习： 在 RLVR 场景下（奖励为0或1），GRPO 的目标函数梯度（公式 10）可以被精确地写成上述对比学习梯度的形式。其中，正样本是奖励为1的响应，负样本是奖励为0的响应。权重系数与组内奖励分布的标准差相关。 $\nabla _ { \theta } \mathcal { I } _ { \mathtt { G R P O } } = \mathbb { E } _ { q \sim \mathcal { Q } } \sqrt { \mathrm { V a r } ( q ) } \left( \mathbb { E } _ { o _ { j } \sim \pi _ { \theta } ^ { + } ( \cdot | q ) } \nabla _ { \theta } \pi _ { \theta } ^ { \mathrm { G R P O } } ( o _ { j } | q ) - \mathbb { E } _ { o _ { k } \sim \pi _ { \theta } ^ { - } ( \cdot | q ) } \nabla _ { \theta } \pi _ { \theta } ^ { \mathrm { G R P O } } ( o _ { k } | q ) \right)$
3. 证明 DPO 也是对比学习： 接着，论文展示了 DPO 的损失函数梯度（公式 11）同样符合通用对比学习损失的形式。这在理论上建立了 GRPO 和 DPO 的深刻联系。
4. 提出 2-GRPO 并分析其性质： 既然 DPO 仅用一对样本就能成功，而 GRPO 和它本质相同，那么 GRPO 是否也能用最小的组（G=2）？论文对此进行了深入分析：
  - 优势估计 (Advantage Estimate): 命题 4.1 指出，虽然 2-GRPO 中优势的取值只有-1, 0, 1，但在期望意义上，它仍然是对真实优势的一个无偏估计，只是与大组 GRPO 的估计值相差一个缩放因子。这意味着 2-GRPO 的优化方向是正确的。
  - 梯度方差 (Gradient Variance): 一个自然的担忧是 G=2 会导致梯度方差增大。论文反驳了这一点，指出在训练中，总的批大小 (batch size) 是 B = Q \times G，其中 Q 是 prompt 的数量，G 是组大小。当我们将 G 从16降到2时，我们可以将 Q 扩大8倍，保持总批大小 B 不变。这样，根据中心极限定理，总的梯度方差可以得到有效控制。
  - 难题探索 (Exploration on Hard Questions): 另一个担忧是对于难题（模型很难生成正确答案），G=2 的小样本可能永远也采不到正确答案。命题 4.4 从概率上证明，在总计算预算（即总生成响应数）相同的情况下，2-GRPO 因为更新次数更多，其在整个训练过程中遇到至少一个正确答案的概率不低于 16-GRPO。
数学公式与关键细节 (Mathematical Formulas & Key Details):
- GRPO 优势计算 (Advantage Calculation): $A _ { i , t } = \frac { r _ { i } - \mathrm { mean } ( \mathbf { r } ) } { \mathrm { s t d } ( \mathbf { r } ) + \epsilon }$
  - $A_{i,t}$ : 第 $i$ 个响应在 $t$ 时刻的优势。
  - $r_i$ : 第 $i$ 个响应的总奖励。
  - $\mathrm{mean}(\mathbf{r})$ : 组内所有响应奖励的平均值。
  - $\mathrm{std}(\mathbf{r})$ : 组内所有响应奖励的标准差。
  - $\epsilon$ : 防止除以零的小常数。
  - 目的： 这个公式将绝对奖励（如0或1）转换为相对的优势信号。奖励高于平均值的响应获得正优势，反之获得负优势。
- DPO 损失函数 (DPO Loss Function): $\mathcal { L } _ { \mathrm { D P O } } = - \mathbb { E } _ { ( q , o _ { + } , o _ { - } ) \sim \mathcal { D } _ { \mathrm { D P O } } } \left[ \log \sigma \left( \beta \log \frac { \pi _ { \theta } \left( o _ { + } | q \right) } { \pi _ { \mathrm { r e f } } \left( o _ { + } | q \right) } - \beta \log \frac { \pi _ { \theta } \left( o _ { - } | q \right) } { \pi _ { \mathrm { r e f } } \left( o _ { - } | q \right) } \right) \right]$
  - $o_+$ : 偏好的（正）响应。
  - o_-: 不偏好的（负）响应。
  - $\pi_\theta$ : 当前要优化的策略模型。
  - $\pi_{\mathrm{ref}}$ : 参考策略模型，通常是初始模型。
  - $\beta$ : 控制与参考模型偏离程度的超参数。
  - $\sigma$ : Sigmoid 函数。
  - 目的： 该损失函数旨在提高模型生成 $o_+$ 的相对概率，同时降低生成 o_- 的相对概率。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):
- 训练集: MATH 和 DAPO-Math-17k。这两个都是高质量的数学推理数据集，非常适合 RLVR 场景，因为答案的对错可以被程序自动验证。
- 评估集: MATH-500, AMC 2023, Minerva Math, AIME 2025, OlympiadBench。这些数据集覆盖了不同难度和类型的数学问题，用于测试模型的泛化能力。
评估指标 (Evaluation Metrics):
- Mean@32: 对每个问题独立采样32次，计算这32次回答的平均正确率。它衡量模型生成正确答案的平均能力。
- Pass@32: 对每个问题独立采样32次，只要其中有一次回答正确，就算通过。它衡量模型解决问题的峰值能力或上限。
对比基线 (Baselines):
- w/o (without post-training): 未经强化学习后训练的基础模型，用于展示后训练带来的提升。
- 16-GRPO: 标准的、被认为是性能和稳定性标杆的 GRPO 配置，组大小 G=16。
- 2-GRPO: 本文提出的高效配置，组大小 G=2。

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis):
- 引用论文中的 Table 1，实验结果清晰地表明：
  - 性能相当： 在所有模型（Qwen-1.5B, Qwen-7B, DS-1.5B）和所有评估基准上，2-GRPO 的 Mean@32 和 Pass@32 指标与 16-GRPO 几乎没有显著差异。在某些情况下，2-GRPO 的性能甚至略微超过 16-GRPO（例如 Qwen-7B 在 AIME 2025 上的 Pass@32 指标）。
  - 效率巨大提升： 最引人注目的结果是训练时间。2-GRPO 的训练时间普遍比 16-GRPO 减少了 70% 到 84%。例如，在 Qwen-1.5B/MATH 任务上，训练时间从 8.53 小时缩短到 2.05 小时。这强有力地证明了 2-GRPO 在保持性能的同时，极大地提高了计算效率。
可视化分析 (Visualization Analysis):
- 图 1 (Qwen-1.5B):
  
  该图像为两张折线图图表。左图展示不同组大小（G=2和G=16）下奖励值随训练时间（分钟）的变化曲线，显示G=2组在较短时间内迅速达到较高奖励水平。右图为验证得分随训练时间变化曲线，G=2组同样快速上升并接近G=16组表现，表明小组大小的GRPO在训练效率和效果上具备竞争力。
  - 左图 (奖励曲线): 绿色线 (G=2) 在非常短的时间内（约5000分钟）就迅速达到了与橙色线 (G=16) 相当的奖励水平。而 16-GRPO 则需要更长的时间缓慢爬升。这直观地展示了 2-GRPO 的收敛速度优势。
  - 右图 (验证得分曲线): 同样，2-GRPO 的验证集得分也更快地达到了高点，并最终与 16-GRPO 的性能持平。
- 图 2 (Qwen-7B):
  
  该图像为图表，包含两个子图。左侧图表显示不同组大小（G=2和G=16）下奖励值随时间变化的曲线，G=2在较短时间内迅速提升至高奖励，表现接近G=16。右侧图表展示评价分数随时间变化趋势，G=2组同样较快达到稳定且优于G=16组的得分，支持少量轮次训练效果良好观点。
  - 这两张图展示了在更大的 7B 模型上的类似趋势。2-GRPO 无论是在奖励还是验证得分上，都以更快的速度达到了与 16-GRPO 相当甚至略优的水平。这表明 2-GRPO 的有效性可以扩展到不同规模的模型。
- 总结： 这些可视化结果从训练动态的角度，进一步证实了 2-GRPO 不仅最终性能不输 16-GRPO，而且在训练效率（以时间计）上具有压倒性优势。

7. 总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary):
- 本文成功地将 GRPO 重新诠释为一种对比学习算法，并以此为基础建立了它与 DPO 的理论联系。
- 这一新颖的理论视角打破了“GRPO 必须依赖大组规模”的传统观念，并从理论上证明了使用极小组规模 G=2（即 2-GRPO）的可行性。
- 大量的实验结果无可辩驳地证明，2-GRPO 在性能上与 16-GRPO 相当，但训练效率提升了数倍，为在资源受限条件下应用强大的强化学习算法提供了切实可行的方案。
局限性与未来工作 (Limitations & Future Work):
- 数据效率问题： 作者坦诚地指出，2-GRPO 的一个潜在问题是数据效率。当模型能力很强（大部分响应都正确）或很弱（大部分都错误）时，G=2 的组中两个响应的奖励很可能相同，导致优势为零，这些生成的样本就被浪费了。而 16-GRPO 在这种情况下仍有较大概率产生有用的梯度信号。
- 未来方向： 基于上述局限性，一个自然的未来研究方向是设计自适应组大小 (adaptive group size) 的 GRPO 算法。例如，在训练初期或模型在某个任务上表现不佳时，使用较大的组规模以获得更稳定的信号；当模型性能提升后，逐渐减小组规模以提高效率。
个人启发与批判 (Personal Insights & Critique):
- 理论的价值： 这篇论文完美地展示了理论创新的巨大价值。它没有发明复杂的新模块，而是通过一个深刻的理论洞察（GRPO ≈ 对比学习 ≈ DPO），直接解锁了现有算法的巨大潜力。这提醒我们，有时候“换个角度看问题”比“埋头设计新模型”更具颠覆性。
- 实用性极强： 2-GRPO 的发现在工程实践上意义重大。它使得原本计算成本高昂的 GRPO 算法变得平易近人，能够极大地加速 LLM 强化学习的研究和应用落地。
- 潜在的疑问： 本文的理论和实验完全建立在 RLVR（二元奖励）的设定上。对于具有连续奖励值的任务（例如，文本摘要的质量评分），GRPO 的优势计算会更复杂。2-GRPO 的结论是否还能成立？在那种情况下，两个样本的奖励几乎不可能完全相同，但其均值和标准差的估计噪声可能会非常大。这是本文未探讨但值得进一步研究的问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

It Takes Two: Your GRPO Is Secretly DPO

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 14 分钟读完 · 7,684 字

1. 论文基本信息 (Bibliographic Information)

2. 整体概括 (Executive Summary)

3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

4. 方法论 (Methodology - Core Technology & Implementation Details)

5. 实验设置 (Experimental Setup)

6. 实验结果与分析 (Results & Analysis)

7. 总结与思考 (Conclusion & Personal Thoughts)

相似论文推荐