AiPaper
论文状态:已完成

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

发表:2025/05/18
原文链接PDF 下载
价格:0.10
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种新的判别约束优化(DisCO)框架,以增强大型推理模型(LRMs)的性能。相较于现有的群组相对策略优化(GRPO),DisCO通过引入判别目标和非裁剪评分函数,解决了难度偏差和熵不稳定的问题,从而实现长期稳定的训练动态,提升了模型的数学推理能力。

摘要

The recent success and openness of DeepSeek-R1 have brought widespread attention to Group Relative Policy Optimization (GRPO) as a reinforcement learning method for large reasoning models (LRMs). In this work, we analyze the GRPO objective under a binary reward setting and reveal an inherent limitation of question-level difficulty bias. We also identify a connection between GRPO and traditional discriminative methods in supervised learning. Motivated by these insights, we introduce a new Discriminative Constrained Optimization (DisCO) framework for reinforcing LRMs, grounded in the principle of discriminative learning. The main differences between DisCO and GRPO and its recent variants are: (1) it replaces the group relative objective with a discriminative objective defined by a scoring function; (2) it abandons clipping-based surrogates in favor of non-clipping RL surrogate objectives used as scoring functions; (3) it employs a simple yet effective constrained optimization approach to enforce the KL divergence constraint. As a result, DisCO offers notable advantages over GRPO and its variants: (i) it completely eliminates difficulty bias by adopting discriminative objectives; (ii) it addresses the entropy instability in GRPO and its variants through the use of non-clipping scoring functions and a constrained optimization approach, yielding long and stable training dynamics; (iii) it allows the incorporation of advanced discriminative learning techniques to address data imbalance, where a significant number of questions have more negative than positive generated answers during training. Our experiments on enhancing the mathematical reasoning capabilities of SFT-finetuned models show that DisCO significantly outperforms GRPO and its improved variants such as DAPO, achieving average gains of 7% over GRPO and 6% over DAPO across six benchmark tasks for an 1.5B model.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

中文翻译:DisCO:通过判别式约束优化增强大型推理模型

论文标题清晰地揭示了其核心内容:

  • DisCO: 提出了一个名为 DisCO 的新方法。
  • Large Reasoning Models (LRMs): 研究对象是大型推理模型,即专注于数学、逻辑等复杂推理任务的大语言模型。
  • Reinforcing: 表明该方法属于强化学习 (Reinforcement Learning, RL) 的范畴,通过奖励信号来“增强”模型能力。
  • Discriminative Constrained Optimization: 点明了方法的核心技术,即采用“判别式学习”的原则,并结合“约束优化”来保证训练的稳定性。

1.2. 作者

  • Gang Li, Tomer Galanti, Zhengzhong Tu, Tianbao Yang (Texas A&M University)

  • Ming Lin (linming04@gmail.com)

    作者主要来自德州农工大学(Texas A&M University),这是一个在机器学习和人工智能领域有较强研究实力的学术机构。这表明该研究具有坚实的学术背景。

1.3. 发表期刊/会议

本文目前是作为预印本 (pre-print) 发布在 arXiv 上。arXiv 是一个公开的学术论文存档平台,允许研究者在同行评审前分享他们的最新研究成果。根据论文编号 2505.12366,这篇论文很可能正在或将要投递到顶级的 AI 或机器学习会议,如 NeurIPS, ICML, ICLR 等。

1.4. 发表年份

  • 发表于 (UTC): 2025-05-18T11:08:32.000Z (根据原文元数据)

  • arXiv 版本: v3

    该论文在 arXiv 上的编号(2505)和元数据指向 2025 年,表明这是一项非常前沿的研究工作。

1.5. 摘要

论文的摘要概括了其研究的核心脉络。首先,它指出现有的用于增强大型推理模型 (LRMs) 的强化学习方法 GRPO(因 DeepSeek-R1 的成功而备受关注)存在一个固有的问题难度偏见 (difficulty bias)。通过分析,作者发现 GRPO 与传统的判别式学习方法存在联系。

受此启发,作者提出了一个全新的框架——DisCO (Discriminative Constrained Optimization)。该框架基于判别式学习的核心思想:提升正确答案的得分,同时降低错误答案的得分。DisCO 与 GRPO 及其变体的主要区别在于:

  1. 用一个由评分函数定义的判别式目标取代了 GRPO 的“群体相对”目标。

  2. 放弃了 GRPO 中基于裁剪 (clipping) 的代理目标,转而使用非裁剪的强化学习代理目标作为评分函数,以避免训练不稳定。

  3. 采用一种简单而有效的约束优化方法来处理 KL 散度约束,以确保训练稳定。

    这些设计使得 DisCO 具有三大优势:

  4. 完全消除了难度偏见

  5. 通过非裁剪评分函数和约束优化解决了 GRPO熵不稳定 (entropy instability) 问题,实现了长期稳定的训练。

  6. 可以引入先进的判别式学习技术来处理数据不平衡问题(即训练中生成的错误答案远多于正确答案)。

    实验结果表明,在提升 1.5B 模型的数学推理能力方面,DisCO 显著优于 GRPO 及其改进版 DAPO,在六个基准测试中平均性能提升分别达到 7% 和 6%。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 如何更有效地利用强化学习来提升大型推理模型(LRMs)在数学、科学等复杂领域的推理能力。
  • 重要性与挑战: 随着 DeepSeek-R1 的成功,GRPO 算法已成为训练 LRMs 的主流强化学习方法。然而,尽管其效果显著,GRPO 自身存在一些未被充分解决的内在缺陷。现有研究发现 GRPO 会导致熵崩溃 (entropy collapse),即模型变得过于确定性,失去探索能力,从而限制了性能的进一步提升。此外,研究者也观察到 GRPO 在训练过程中存在不稳定的问题。虽然出现了一些改进方法,如 DAPODr. GRPO,但这些方法通常是启发式的、零敲碎打的修补,未能从根本上解决问题。
  • 本文切入点 (创新思路): 本文没有在 GRPO 框架上进行小修小补,而是采取了一种更根本的思路。作者首先对 GRPO 的目标函数进行了深入的数学分析,揭示了其问题的根源:一个名为问题难度偏见 (question-level difficulty bias) 的现象。具体来说,GRPO 的目标函数会给那些模型已经基本能答对(太容易)或基本都答不对(太困难)的问题分配非常低的权重,导致模型训练时“忽视”了这些问题。同时,作者发现 GRPO 的目标函数在形式上与经典的判别式学习(特别是 AUC 最大化)有内在联系。基于这一洞察,作者决定彻底抛弃 GRPO 的“群体相对”框架,从判别式学习的第一性原理出发,重新设计一个更优、更稳定、更无偏的优化目标,这就是 DisCO 框架。

2.2. 核心贡献/主要发现

  1. 对 GRPO 的深刻理论分析: 论文首次从数学上揭示了 GRPO 目标函数中存在一个权重项 p(q)(1p(q))\sqrt{p(q)(1-p(q))}(其中 p(q) 是问题 qq 的答对概率),这个权重项正是导致“难度偏见”的根本原因。这一发现为后续方法的改进提供了坚实的理论基础。
  2. 提出 DisCO 框架: 论文提出了一个全新的、基于判别式学习和约束优化的强化学习框架 DisCO。该框架直接优化一个判别式目标,旨在最大化正确答案与错误答案之间的得分差距,从而彻底消除了难度偏见
  3. 解决训练不稳定性: DisCO 抛弃了 PPOGRPO 中使用的裁剪 (clipping) 操作,因为它被发现是导致熵崩溃的主要原因之一。取而代之,DisCO 使用非裁剪的评分函数,并通过一个严格的 KL 散度约束(而非简单的正则化)来确保训练的稳定性,从而实现了长期、平稳的训练过程
  4. 处理数据不平衡: DisCO 框架的灵活性使其能够轻松整合判别式学习领域的先进技术。论文引入了分布鲁棒优化 (Distributionally Robust Optimization, DRO) 的思想来解决强化学习中常见的数据不平衡问题(即对于难题,生成的错误答案远多于正确答案),使模型能更有效地从少数的正确答案中学习。
  5. 显著的性能提升: 实验证明,在数学推理任务上,DisCO 全面超越了 GRPODAPO 等现有最先进的方法。值得注意的是,使用 8k 上下文长度训练的 DisCO 模型,其性能甚至超过了使用 24k/32k 更长上下文训练的基线模型,展示了其卓越的算法效率和性能。

3. 预备知识与相关工作

3.1. 基础概念

  • 大型推理模型 (Large Reasoning Models, LRMs): 指的是一类经过特殊训练、专注于执行复杂推理任务(如数学解题、代码生成、逻辑推理)的大语言模型 (LLMs)。与通用 LLMs 相比,LRMs 强调生成逻辑清晰、步骤正确的思维链 (Chain-of-Thought)。
  • 强化学习 (Reinforcement Learning, RL): 一种机器学习范式。其中,一个智能体 (agent)(在本文中是 LRM)通过与环境 (environment)(在本文中是问题集)的交互来学习。智能体在每个状态下执行一个动作 (action)(生成答案),并从环境中获得一个奖励 (reward)(答案正确与否)。智能体的目标是学习一个策略 (policy)(即模型参数),以最大化累积奖励。
  • KL 散度 (KL Divergence): 全称为 Kullback-Leibler 散度,是衡量两个概率分布之间差异的一种非对称度量。在 RL 微调 LLMs 的背景下,KL 散度通常用于计算新模型策略 πθ\pi_{\theta} 与旧模型策略 πold\pi_{\mathrm{old}} 之间的“距离”。通过限制这个距离,可以防止模型在更新过程中发生剧烈变化,从而保证训练的稳定性。其公式为 DKL(PQ)=iP(i)logP(i)Q(i)D_{KL}(P || Q) = \sum_i P(i) \log \frac{P(i)}{Q(i)}
  • 判别式学习 (Discriminative Learning): 机器学习的两大范式之一(另一个是生成式学习)。判别式学习的目标是直接学习一个决策边界或条件概率 P(YX)P(Y|X),用于区分不同的类别。其核心思想是最大化不同类别样本之间的差异。一个典型的例子是支持向量机 (SVM)。在本文中,这个思想被应用为:最大化正确答案(正样本)和错误答案(负样本)的得分差距
  • AUC 最大化 (AUC Maximization): AUC (Area Under the ROC Curve) 是衡量二元分类器性能的常用指标。最大化 AUC 等价于最大化从正负样本中随机各抽取一个样本时,正样本得分高于负样本得分的概率。这与本文判别式学习的目标高度一致。

3.2. 前人工作

  • PPO (Proximal Policy Optimization): 这是现代 RL 算法的基石之一。PPO 的核心思想是通过一个裁剪的代理目标函数 (clipped surrogate objective function) 来限制每一步策略更新的幅度,从而在保证稳定性的同时实现高效的训练。GRPO 继承了 PPO 的这一核心设计。PPO 的目标函数大致形式如下: LCLIP(θ)=E^t[min(rt(θ)A^t,clip(rt(θ),1ϵ,1+ϵ)A^t)] L^{CLIP}(\theta) = \hat{\mathbb{E}}_t \left[ \min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t) \right] 其中,rt(θ)=πθ(atst)πθold(atst)r_t(\theta) = \frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} 是概率比,A^t\hat{A}_t 是优势函数,clip 操作将概率比限制在一个小区间 [1ϵ,1+ϵ][1-\epsilon, 1+\epsilon] 内,防止更新过大。
  • GRPO (Group Relative Policy Optimization): GRPOPPO 在 LRM 推理任务上的一个重要变种。其核心创新在于群体相对优势函数 (group relative advantage function)。对于一个给定的问题,GRPO 会让模型生成一组(例如 8 个)答案,然后计算每个答案的奖励(正确为 1,错误为 0)。优势函数 A(oq)A(o|q) 不再是与一个复杂的价值函数作比较,而是直接与这组答案的平均奖励作比较。具体来说,它将奖励减去组内平均奖励,并进行标准化。这种设计简化了训练过程,不再需要一个独立的价值模型(critic)。
  • DAPO (Decoupled Advantage Policy Optimization): DAPO 是对 GRPO 的一个改进,旨在解决熵崩溃问题。DAPO 发现 GRPO 的对称裁剪(对正负优势都用同一个 ϵ\epsilon)会过度惩罚高概率的正确词元,导致模型变得不自信和低熵。DAPO 提出解耦裁剪 (decoupled clipping),即对正优势(奖励高于平均值)和负优势(奖励低于平均值)使用两个不同的裁剪超参数 ϵhigh\epsilon_{high}ϵlow\epsilon_{low},以此来鼓励探索,维持较高的熵。
  • Dr. GRPO: Dr. GRPO 是另一个对 GRPO 的改进,它指出了 GRPO 存在响应长度偏见问题难度偏见。为了解决这些问题,Dr. GRPO 建议移除优势函数中的方差归一化操作。然而,本文分析指出,这种修改虽然有所缓解,但未能从根本上消除难度偏见。

3.3. 技术演进

LRM 的强化学习微调技术演进脉络如下:

  1. 通用 RLHF: 早期的工作主要使用 PPO 等标准 RL 算法,结合人类偏好数据进行对齐微调 (RLHF),主要用于提升模型的“有用性”和“无害性”。
  2. 面向推理的 RL: DeepSeek-R1 的成功标志着 RL 技术被大规模且有效地应用于可验证的推理任务(如数学)。其核心算法 GRPO 通过群体相对优势的设计,简化了 RL 流程,使其适用于大规模的合成数据训练。
  3. 对 GRPO 的增量改进:GRPO 成功后,社区迅速跟进,提出了一系列改进,如 DAPO 解决了熵崩溃问题,Dr. GRPO 尝试解决偏见问题。但这些方法都停留在 GRPO 的框架内部,属于“修补”性质的工作。
  4. 根本性重构 (DisCO): 本文的工作代表了一个新的方向。它不再满足于对 GRPO 的修补,而是通过深入的理论分析,找到了 GRPO 的根本缺陷,并从一个全新的视角(判别式学习)出发,设计了一个全新的、更优的 DisCO 框架。

3.4. 差异化分析

本文在 Table 1 中清晰地总结了 DisCO 与其他方法的区别,下面我们进行详细解读。

方法 难度偏见 裁剪 KL 散度 评分函数 处理不平衡推演
GRPO [23] 正则化, ref 裁剪的似然比
Dr. GRPO [40] 裁剪的似然比
DAPO [79] 裁剪的似然比
GPG [13] log-L
TRPA [61] 正则化, πold log L-ratio
DisCO 约束, πold 任意合适的评分函数
  • 难度偏见: GRPO 及其直接变体 (Dr. GRPO, DAPO, GPG) 都继承了导致难度偏见的群体相对优势结构。TRPADisCO 因为采用了不同的目标函数设计,避免了这个问题。
  • 裁剪 (Clipping): GRPO, Dr. GRPO, DAPO 沿用了 PPO 的裁剪机制,但这被证明是导致熵不稳定(崩溃或爆炸)的原因。GPG, TRPADisCO 都放弃了裁剪。
  • KL 散度:
    • GRPO 使用与一个固定的参考模型 (πrefπ_ref) 的 KL 散度作为正则项
    • TRPA 使用与上一步的模型 (πoldπ_old) 的 KL 散度作为正则项
    • DisCO 则将与 πoldπ_old 的 KL 散度作为一个硬性约束 (constraint),这种处理方式更严格,能更好地控制更新步长,保证稳定性。
  • 评分函数 (Score Function):
    • GRPO 系方法使用裁剪后的似然比 (clipped L-ratio)
    • DisCO 则是一个更通用的框架,可以使用任意合适的 (proper) 评分函数,如对数似然 (log-L)似然比 (L-ratio),且不进行裁剪。
  • 处理不平衡推演 (Tackles Imbalanced Rollouts): 这是 DisCO 独有的优势。通过引入 DRODisCO 能够有效处理训练过程中负样本远多于正样本的情况,而其他所有方法都没有专门针对此问题进行设计。

4. 方法论

4.1. GRPO 的分析:揭示内在缺陷

论文首先对 GRPO 的目标函数进行了深入剖析。为简化分析,作者考虑了不包含 KL 正则项的核心目标: I0(θ)=EqEoπold(q)[1ot=1of(πθ(otq,o<t)πold(otq,o<t),A(oq))] \mathcal { I } _ { 0 } ( \theta ) = \mathbb { E } _ { q } \mathbb { E } _ { o \sim \pi _ { o l d } ( \cdot | q ) } \left[ \frac { 1 } { | o | } \sum _ { t = 1 } ^ { | o | } f \left( \frac { \pi _ { \theta } ( o _ { t } | q , o _ { < t } ) } { \pi _ { o l d } ( o _ { t } | q , o _ { < t } ) } , A ( o | q ) \right) \right]

其中:

  • qq 是输入问题,oo 是生成的答案。
  • πθ\pi_\theta 是当前要优化的模型,πold\pi_{old} 是上一步的模型。
  • A(oq)=r(oq)Eo[r(oq)]varo[r(oq)]A(o|q) = \frac{r(o|q) - \mathbb{E}_{o'}[r(o'|q)]}{\sqrt{\mathrm{var}_{o'}[r(o'|q)]}} 是标准化的群体相对优势函数r(oq)r(o|q) 是奖励(正确为1,错误为0)。
  • f(x,y)PPO 风格的裁剪函数,对于 GRPOf(x,y)=min(xy,clip(x,1ϵ,1+ϵ)y)f ( x , y ) = \min ( x y , \mathrm{clip} ( x , 1 - \epsilon , 1 + \epsilon ) y )

核心洞察 (Proposition 1): 作者证明了在二元奖励设定下,上述目标 I0(θ)\mathcal{I}_0(\theta) 可以等价地重写为: I0(θ)=Eqp(q)(1p(q))Eoπodd+(q),oπodd(q)[sθ+(o,q)sθ(o,q)] \mathcal { I } _ { 0 } ( \theta ) = \mathbb { E } _ { q } \sqrt { p ( q ) ( 1 - p ( q ) ) } \mathbb { E } _ { o \sim \pi _ { o d d } ^ { + } ( \cdot \vert q ) , o ^ { \prime } \sim \pi _ { o d d } ^ { - } ( \cdot \vert q ) } [ s _ { \theta } ^ { + } ( o , q ) - s _ { \theta } ^ { - } ( o ^ { \prime } , q ) ]

这个公式的分解揭示了 GRPO 的两个关键组成部分:

  1. 判别式目标项: Eoπodd+(q),oπodd(q)[sθ+(o,q)sθ(o,q)]\mathbb { E } _ { o \sim \pi _ { o d d } ^ { + } ( \cdot \vert q ) , o ^ { \prime } \sim \pi _ { o d d } ^ { - } ( \cdot \vert q ) } [ s _ { \theta } ^ { + } ( o , q ) - s _ { \theta } ^ { - } ( o ^ { \prime } , q ) ]

    • 含义: 这个期望项的含义是,对于问题 qq,从所有正确答案的分布 πold+\pi_{old}^+ 中抽取一个答案 oo,并从所有错误答案的分布 πold\pi_{old}^- 中抽取一个答案 oo',然后最大化它们的得分差 sθ+(o,q)sθ(o,q)s_{\theta}^+(o,q) - s_{\theta}^-(o',q)
    • sθ+s_\theta^+sθs_\theta^- 是由裁剪函数 ff 导出的评分函数 (scoring functions)。最大化这个目标会驱使模型提高正确答案的生成概率,并降低错误答案的生成概率。这正是判别式学习(特别是 AUC 最大化)的核心思想。
  2. 问题权重项: ω(q)=p(q)(1p(q))\omega(q) = \sqrt{p(q)(1-p(q))}

    • 含义: p(q) 是在当前策略 πold\pi_{old} 下,问题 qq 被正确回答的概率。这个权重项 ω(q)\omega(q) 调制了每个问题的判别式目标在最终总目标中的重要性。

    • 问题根源 (难度偏见): 如下图(原文 Figure 1a)所示,函数 p(1p)\sqrt{p(1-p)} 的形状是一个倒U形。当 p(q)0p(q) \to 0(问题太难,几乎总答错)或 p(q)1p(q) \to 1(问题太简单,几乎总答对)时,权重 ω(q)\omega(q) 趋近于 0。这意味着 GRPO 在优化时,会自动忽略掉那些太难或太简单的问题,而将主要精力集中在难度适中(p(q)0.5p(q) \approx 0.5)的问题上。这严重影响了学习效率,因为模型本应从未攻克的难题和偶尔出错的易题中学习。

      Figure 1: (a) Weight on questions based on correctness probability \(p\) ; (b) Histogram of per-question accuracy evaluated in the GRPO learning; (c) Comparison of the ratio of questions with \(100 \\%\)… 该图像是图表,展示了基于正确概率pp的问卷权重(a),GRPO学习中每个问题准确性分布的直方图(b),100%正确解答的问题比例变化(c),以及0%正确解答的问题比例变化(d)。

这一分析精准地定位了 GRPO 的根本缺陷,并启发了 DisCO 的设计思路:保留其判别式学习的内核,并去除导致偏见的权重项

4.2. DisCO 框架详解

基于上述分析,DisCO 框架被设计出来,它包含一个基础版本和一个改进版本。

4.2.1. 基础方法 (DisCO-b)

DisCO-b 的设计遵循三个核心原则:

  1. 采用纯粹的判别式目标,消除难度偏见。
  2. 使用非裁剪的评分函数,避免熵不稳定。
  3. 使用约束优化,保证训练稳定。

1. 判别式目标: DisCO-b 的目标是最大化一个类似于 AUC 的代理损失,其形式如下: I1(θ)=EqEoπold+(q),oπold(q)(sθ(o,q)sθ(o,q)) \mathcal { I } _ { 1 } ( \theta ) = \mathbb { E } _ { q } \mathbb { E } _ { o \sim \pi _ { \mathrm { o l d } } ^ { + } ( \cdot | q ) , o ^ { \prime } \sim \pi _ { \mathrm { o l d } } ^ { - } ( \cdot | q ) } \ell ( s _ { \theta } ( o , q ) - s _ { \theta } ( o ^ { \prime } , q ) )

  • ()\ell(\cdot): 是一个代理函数。在论文中,作者为了与 GRPO 的内在形式对齐,简单地使用了恒等函数 (s)=s\ell(s) = s
  • sθ(o,q)s_\theta(o,q): 是一个统一的评分函数,用于评估模型 πθ\pi_\theta 对答案 oo 的“偏好”程度。这与 GRPO 中正负样本使用不同评分函数 (s+s^+ss^-) 不同,简化了设计。

2. 评分函数 (Scoring Functions): 作者提出了两种非裁剪的评分函数选择:

  • 对数似然 (log-likelihood): sθ(o,q)=1ot=1ologπθ(otq,o<t)s _ { \theta } ( o , q ) = \frac { 1 } { | o | } \sum _ { t = 1 } ^ { | o | } \log \pi _ { \theta } ( o _ { t } | q , o _ { < t } )
  • 似然比 (likelihood-ratio): sθ(o,q)=1ot=1oπθ(otq,o<t)πold(otq,o<t)s _ { \theta } ( o , q ) = \frac { 1 } { | o | } \sum _ { t = 1 } ^ { | o | } \frac { \pi _ { \theta } ( o _ { t } | q , o _ { < t } ) } { \pi _ { \mathrm { old } } ( o _ { t } | q , o _ { < t } ) } 这两种评分函数分别与经典的 REINFORCE 算法和 TRPO 算法的代理目标有内在联系。

3. 约束优化 (Constrained Optimization): 为了在不使用裁剪的情况下稳定训练,DisCO 采用了 TRPO 的思想,将 KL 散度作为一个硬性约束,而非软性的正则项。这构成了如下的约束优化问题: maxθI1(θ)s.t.DKL(πoldπθ)δ \begin{array} { r l } & { \underset { \theta } { \mathrm { m a x } } \mathcal { I } _ { 1 } ( \theta ) } \\ & { s . t . \quad \mathbb { D } _ { \mathrm { K L } } ( \pi _ { \mathrm { o l d } } | | \pi _ { \theta } ) \leq \delta } \end{array}

  • s.t. 是 "subject to" (受限于) 的缩写。

  • DKL(πoldπθ)\mathbb { D } _ { \mathrm { K L } } ( \pi _ { \mathrm { o l d } } | | \pi _ { \theta } ): 计算的是从旧策略到新策略的 KL 散度,限制了策略更新的步长不能超过一个预设的阈值 δ\delta

    为了高效地求解这个约束问题,作者没有使用 TRPO 复杂的二阶优化方法,而是采用了一种基于平方铰链惩罚函数 (squared-hinge penalty function) 的一阶方法。优化的目标变为: maxθEq,o,o(sθ(o,q)sθ(o,q))β[DKL(πoldπθ)δ]+2 \operatorname* { m a x } _ { \theta } \mathbb { E } _ { q , o, o' } \ell ( s _ { \theta } ( o , q ) - s _ { \theta } ( o ^ { \prime } , q ) ) - \beta [ \mathbb { D } _ { \mathrm { K L } } ( \pi _ { \mathrm { o l d } } | | \pi _ { \theta } ) - \delta ] _ { + } ^ { 2 }

  • [x]+=max(x,0)[x]_+ = \max(x, 0)

  • 工作机制: 这个惩罚项非常巧妙。当 KL 散度未超过阈值 δ\delta 时(即约束被满足),[]+[ \cdot ]_+ 内部为负,整个惩罚项为 0,优化器只专注于最大化判别式目标 I1(θ)\mathcal{I}_1(\theta)。只有当 KL 散度超过阈值 δ\delta 时,惩罚项才会被激活,其梯度会把模型参数“拉回”到约束区域内。这种动态的惩罚机制比固定的 KL 正则项更加灵活和有效。

4.2.2. 改进方法:处理不平衡推演 (DisCO)

基础方法 DisCO-b 解决了难度偏见和训练不稳定的问题,但还有一个挑战:数据不平衡。对于难题,模型生成的推演 (rollouts) 中,可能 100 个答案里只有 1 个是正确的。在这种情况下,最大化平均的成对得分差(即 AUC)可能不是最优选择。因为模型可能学会将 99 个错误答案的得分排在 1 个正确答案之后,但仍然将得分最高的那个错误答案排在正确答案之前,此时 AUC 依然很高(0.99),但模型在推理时仍会犯错。

为了解决这个问题,DisCO 引入了分布鲁棒优化 (Distributionally Robust Optimization, DRO) 的思想。其直觉是,不应平等对待所有负样本,而应更关注那些最难区分的负样本(即得分最高的那些错误答案)。

DRO 提供了一个数学工具来实现这一点。通过最小化在负样本分布的一个“不确定性集合”上的最坏情况损失,可以推导出如下更鲁棒的优化目标: I2(θ)=EqEoπodd+(q)τlog(Eoπodd(q)exp(sθ(o,q)sθ(o,q)τ)) \mathcal { I } _ { 2 } ( \theta ) = - \mathbb { E } _ { q } \mathbb { E } _ { o \sim \pi _ { \mathrm { o d d } } ^ { + } ( \cdot | q ) } \tau \log \left( \mathbb { E } _ { o ^ { \prime } \sim \pi _ { \mathrm { o d d } } ^ { - } ( \cdot | q ) } \exp \left( \frac { s _ { \theta } ( o ^ { \prime } , q ) - s _ { \theta } ( o , q ) } { \tau } \right) \right)

  • τ>0\tau > 0 是一个温度超参数。

  • 内在逻辑: 这个目标函数可以看作是 log-sum-exp 技巧的一个应用,它近似于一个“软最大化”操作。相比于 DisCO-b 中对所有负样本 oo' 的得分差进行平均,I2(θ)\mathcal{I}_2(\theta)更多地关注那些使指数项 exp()\exp(\dots) 值最大的负样本,即那些得分 sθ(o,q)s_\theta(o', q) 接近甚至超过正样本得分 sθ(o,q)s_\theta(o, q) 的“硬负例 (hard negatives)”。通过优化这个目标,模型被迫将所有负样本的得分都显著地压低到正样本得分之下。

    最终的 DisCO 方法就是将这个改进的 DRO 目标 I2(θ)\mathcal{I}_2(\theta) 与前面介绍的 KL 约束优化方法相结合。

5. 实验设置

5.1. 数据集

  • 训练数据集:

    • DeepScaleR-Preview-Dataset: 这是一个专门为数学推理构建的数据集,包含了约 40.3k 个高质量的问题-答案对。其来源包括:
      • AIME (American Invitational Mathematics Examination)
      • AMC (American Mathematics Competitions)
      • Omni-MATH
      • Still 这些都是具有挑战性的竞赛级数学问题。
  • 评估数据集:

    • 实验在六个不同的数学推理基准上进行评估,以测试模型的泛化能力:
      1. AIME 2024
      2. AIME 2025
      3. MATH 500
      4. AMC 2023
      5. Minerva
      6. Olympiad Bench (O-Bench) 这些数据集覆盖了从高中到奥林匹克竞赛级别的不同难度和类型的数学问题。

5.2. 评估指标

  • pass@k (本文变体): 论文中使用的评估指标是一种 pass@k 的变体,作者称之为 “pass@1 metric averaged over k=16k=16 responses”。

    1. 概念定义 (Conceptual Definition): 这个指标旨在衡量模型在多次尝试下解决一个问题的平均成功率。对于每个问题,模型会独立生成 kk (这里是 16) 个答案。指标计算的是在这 kk 次尝试中,答案正确的比例。最后,将所有测试问题的这个比例求平均,得到最终得分。它反映了模型生成正确答案的“概率”或“稳定性”,而不是仅仅衡量“能否至少答对一次”。

    2. 数学公式 (Mathematical Formula): 对于单个问题,该指标的计算公式为: Accuracy@k=1ki=1kI(oi is correct) \text{Accuracy}@k = \frac{1}{k} \sum_{i=1}^{k} \mathbb{I}(o_i \text{ is correct})

    3. 符号解释 (Symbol Explanation):

      • kk: 每个问题生成的答案数量,实验中为 16。

      • oio_i: 为该问题生成的第 ii 个答案。

      • I()\mathbb{I}(\cdot): 指示函数 (indicator function)。当条件为真时,其值为 1;否则为 0。

        最终报告的分数是所有测试问题 Accuracy@16 的平均值。

5.3. 对比基线

  • 核心对比方法:

    1. GRPO: DeepSeek-R1 使用的核心算法,是最重要的基线。
    2. GRPO-ER: GRPO 的一个变种,加入了熵正则化 (Entropy Regularization) 来防止熵崩溃,被 DeepScaleR 使用。
    3. Dr. GRPO: 旨在解决 GRPO 偏见问题的变种。
    4. DAPO: 旨在解决 GRPO 熵崩溃问题的变种。
    5. TRPA: 一个使用 DPO 目标和 KL 正则化的近期方法。
  • 参考模型:

    • 为了提供更广泛的性能参考,论文还列出了一些由其他研究团队使用相同基础模型训练的、已发布的模型,例如 STILL-3-1.5B-previewDeepScaleR(DSR)-1.5B-Preview。这些模型的一个关键区别是它们在训练和测试时使用了更长的最大响应长度 (Max Response Length, MRL)(如 24k/32k),而本文的实验(包括基线复现和 DisCO)统一使用了 8k 的长度,这使得 DisCO 在更短上下文长度下取得的优势更具说服力。

6. 实验结果与分析

6.1. 核心结果分析

实验在三种不同规模的基础模型上进行:Qwen-1.5B, Qwen-7B, 和 Llama-8B。

6.1.1. 1.5B 模型性能

以下是原文 Table 2 的结果,展示了在 1.5B 模型上的性能对比。

Model/Method MRL(Train/Test) AIME 2024 AIME 2025 MATH 500 AMC 2023 Minerva O-Bench Avg.
参考模型 (由其他工作训练)
OpenAI-o1-Preview 0.4 0.814 - - -
DS-Distill-Qwen-1.5B 32k+ / 32k 0.288 0.263 0.828 0.629 0.265 0.433 0.451
STILL-3-1.5B-preview 29k / 32k 0.325 0.248 0.844 0.667 0.290 0.454 0.471
DSR-1.5B-Preview 24k / 32k 0.431 0.304 0.878 0.736 0.302 0.500 0.525
本文复现和提出的方法 (在 DeepSeek-R1-Distill-Qwen-1.5B 上微调)
GRPO 8k / 8k 0.277 0.242 0.838 0.647 0.276 0.462 0.457
GRPO-ER 8k / 8k 0.298 0.242 0.839 0.649 0.279 0.452 0.460
Dr. GRPO 8k / 8k 0.252 0.238 0.831 0.631 0.268 0.440 0.443
DAPO 8k / 8k 0.310 0.252 0.848 0.675 0.296 0.456 0.473
TRPA 8k / 8k 0.354 0.235 0.835 0.653 0.283 0.458 0.470
DisCO (L-ratio) 8k / 8k 0.381 0.306 0.878 0.746 0.319 0.512 0.524
DisCO (log-L) 8k / 8k 0.404 0.317 0.876 0.758 0.333 0.509 0.533

分析:

  • DisCO 的绝对优势: DisCO 的两种变体(使用 L-ratio 和 log-L 评分函数)在平均分上都显著优于所有基线方法。DisCO (log-L) 达到了 0.533 的平均分,相比 GRPO (0.457) 提升了约 7.6%,相比 DAPO (0.473) 提升了约 6%
  • 超越更长上下文模型: 最引人注目的是,使用 8k 上下文长度训练和测试的 DisCO,其平均性能(0.533)甚至超过了使用 24k 训练 / 32k 测试的 DSR-1.5B-Preview 模型(0.525)。这强有力地证明了 DisCO 算法本身的优越性,而不仅仅是依赖更长的上下文。
  • 在难题上的表现:AIME 这种高难度数据集上,DisCO 的优势尤为明显,表明其消除难度偏见的设计确实让模型从难题中学到了更多。

6.1.2. 7B 和 8B 模型性能

在 7B 和 8B 模型上的实验(Table 3 和 Table 4)也呈现了同样的趋势。DisCO 始终在平均性能上处于领先地位,进一步验证了其方法的有效性和可扩展性。

6.1.3. 训练动态分析

下图(原文 Figure 2)展示了不同方法在训练过程中的奖励和熵的变化,这是理解 DisCO 为何优越的关键。

Figure 2: Training dynamics of different methods: left two are for fine-tuning DeepSeek-R1-DistillQwen-1.5B model and right two are for fine-tuning DeepSeek-R1-Distill-Qwen-7B model. (a), (c) plot th…

分析:

  • 熵崩溃 (Entropy Collapse): 观察图 (b) 和 (d) 中的蓝色、绿色、橙色曲线,GRPO, GRPO-ERDr. GRPO 的生成熵在训练初期迅速下降,最终趋近于 0。这意味着模型变得过于确定性,对于一个问题,它只会生成非常相似的少数几种答案,从而失去了探索更优解空间的能力。这导致它们的训练奖励(图 a, c)很快达到瓶颈,无法继续提升。
  • 熵爆炸 (Entropy Explosion): DAPO(紫色曲线)的设计虽然避免了熵崩溃,但却走向了另一个极端——熵过度增长。这导致模型生成的答案过于随机、缺乏连贯性,同样也限制了其性能。
  • 训练不稳定: TRPA(棕色曲线)虽然前期稳定,但在训练后期(如 1.5B 模型的 1100 步后)熵开始出现剧烈波动,表明其使用的 KL 正则化不足以保证长期训练的稳定性。
  • DisCO 的稳定性: 相比之下,DisCO 的两条曲线(红色和粉色)表现出极其稳定的训练动态。其生成熵一直维持在一个健康的水平(约 0.22),既不过高也不过低,保证了模型在探索和利用之间的良好平衡。同时,其训练奖励能够持续、稳定地增长,直到训练结束。这充分证明了 DisCO 采用非裁剪评分函数和 KL 约束优化的设计是成功的。

6.2. 消融实验/参数分析

消融实验旨在验证 DisCO 各个设计组件的有效性。

Figure 3: Ablation studies: left for comparing DisCO vs DisCO-b; middle and right for comparing clipping with non-clipping scoring functions. 该图像是图表,展示了不同模型和评分函数的对比结果。左侧部分比较了DisCO与其变种DisCO-b在五个任务及其平均表现(Pass@1)的效果;中间部分展示了不同的评分函数(如Clipped L-ratio和L-ratio)在相同条件下的表现;右侧展示了生成熵随训练步数变化的情况,并包含一个小图,上面有不同限制比率的生成熵数据。这些数据表明DisCO及其优化方法在数学推理能力上的优势。

Figure 4: Ablation studies: left for comparing KL regularization vs constrained optimization; middle for sensitivity of DisCO w.r.t. the hyperparameter \(\\tau\) ; right for contribution of each compone… 该图像是一个图表,展示了消融研究的结果,包括左侧对比 KL 正规化与约束优化的效果,中间展示了 DisCO 对超参数 au 的敏感性,右侧则呈现了各组成部分的贡献。

  • DisCO vs DisCO-b (Figure 3, 左): DisCO(绿色)在所有任务上,特别是在困难的 AIME 数据集上,都显著优于 DisCO-b(蓝色)。这证明了引入 DRO 来处理不平衡数据(硬负例)是有效且重要的,它能带来显著的性能提升。
  • 裁剪 vs 非裁剪 (Figure 3, 中和右): 实验对比了在 DisCO 框架下使用非裁剪评分函数和裁剪评分函数的效果。结果显示,裁剪评分函数(蓝色和绿色曲线)要么导致熵崩溃(ϵ=0.2\epsilon=0.2,类似 GRPO),要么导致熵爆炸(ϵ=0.28\epsilon=0.28,类似 DAPO),性能均不如非裁剪的 L-ratio(橙色)和 log-L(红色)。这证实了放弃裁剪是实现稳定训练的关键
  • KL 正则化 vs 约束优化 (Figure 4, 左): 实验将 DisCO 的 KL 约束替换为传统的 KL 正则化。结果表明,约束优化(蓝色)比 KL 正则化(橙色)在性能上更优,并且训练更稳定。
  • 超参数 τ\tau 的敏感性 (Figure 4, 中): 实验显示,在 {0.5,1,5,10}\{0.5, 1, 5, 10\} 这个范围内改变 DRO 目标中的超参数 τ\tauDisCO 的性能保持相对稳定。这表明该方法对这个关键超参数不敏感,具有较好的鲁棒性。
  • 各组件贡献分析 (Figure 4, 右): 这是一个非常重要的“剥洋葱”式分析。从 DisCO 出发,逐步替换掉其核心组件:
    1. DisCO (完整版)
    2. DisCO-b (去掉了 DRO 硬负例加权)
    3. DisCO-b + 难度偏见 (加上了 GRPOp(1p)\sqrt{p(1-p)} 权重)
    4. DisCO-b + KL 正则化 (将约束优化换成正则化)
    5. DisCO-b + 裁剪 (使用裁剪评分函数) 结果清晰地显示,每一步替换都会导致性能下降。其中,影响最大的是使用裁剪评分函数,其性能下降最为剧烈,这再次凸显了非裁剪设计对于 DisCO 成功至关重要。其次是消除难度偏见,也带来了显著的性能提升。

7. 总结与思考

7.1. 结论总结

本文提出了一种名为 DisCO 的新型判别式约束优化框架,用于通过强化学习增强大型推理模型。其核心贡献和发现如下:

  1. 通过对 GRPO 目标函数的严谨数学分析,首次揭示了其存在问题难度偏见的根本原因,为领域内的算法设计提供了新的理论洞见。
  2. DisCO 框架基于判别式学习原理,彻底消除了难度偏见,并能通过引入 DRO 有效处理训练中的数据不平衡问题。
  3. 通过放弃裁剪机制并采用KL 约束优化DisCO 成功解决了 GRPO 及其变体中普遍存在的训练不稳定性熵崩溃/爆炸问题,实现了长期稳定的高效训练。
  4. 在多个数学推理基准上的大量实验证明,DisCO 在性能上显著超越了 GRPODAPO 等现有最先进的方法,展示了其作为新一代 LRM 强化学习算法的巨大潜力。

7.2. 局限性与未来工作

尽管论文取得了显著成功,但仍存在一些潜在的局限性和未来研究方向:

  • 奖励信号的局限性: DisCO 依然依赖于一个二元的、基于最终答案正确与否的奖励信号。这种稀疏的奖励无法区分出推理过程的优劣(例如,一个答案错误但思路部分正确的解和一个完全胡乱猜测的解得到的奖励都是 0)。未来的工作可以探索将 DisCO 与更细粒度的过程级奖励 (process-based reward) 相结合。
  • 领域泛化性: 本文的实验完全集中在数学推理领域。虽然 DisCO 的设计原理是通用的,但其在其他需要复杂推理的领域(如代码生成、科学文献问答、法律文书分析)的效果仍有待验证。
  • 计算开销: DisCODRO 目标的计算涉及到对所有负样本的 log-sum-exp 操作,当每个问题的负样本数量非常大时,计算开销可能会高于 GRPO。虽然在当前实验设置下这不是问题,但在更大规模的推演场景下可能需要考虑优化。

7.3. 个人启发与批判

  • 从第一性原理出发的重要性: 这篇论文是“从第一性原理思考”的典范。它没有满足于对现有方法的修修补补,而是深入剖析了问题的根源,并基于更基本的机器学习原理(判别式学习)构建了一个全新的、更优越的解决方案。这种研究范式非常值得学习。
  • 交叉学科的启发: 论文成功地将传统判别式学习领域的思想(AUC 最大化、DRO)引入到前沿的 LLM 强化学习中,并取得了巨大成功。这提醒我们,很多看似全新的问题,其解决方案的“种子”可能早已存在于其他相关的经典领域中。
  • 理论分析驱动实践: 论文的强大说服力不仅来自其优异的实验结果,更来自其开篇对 GRPO 深入、坚实的理论分析。这种“理论分析发现问题 -> 设计新方法解决问题 -> 实验验证”的研究路径,使得整个工作的故事线非常完整和严谨。
  • 批判性视角:
    • DisCO 的成功在很大程度上依赖于一个可靠的、自动化的奖励机制(数学答案验证器)。在那些难以获得清晰二元奖励的、更开放的任务(如创意写作、策略规划)中,DisCO 的直接应用可能会面临挑战。
    • 虽然 DisCO 解决了难度偏见,但它仍然平等地对待所有问题(只要 p(q) 不为 0 或 1)。一个可能的改进方向是设计一种“课程学习”机制,动态地调整不同难度问题的权重,从而可能进一步加速学习过程。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。