论文状态:已完成

S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models

发表:2025/05/12
原文链接PDF 下载
价格:0.100000
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究提出串行组衰减奖励策略优化(S-GRPO),利用强化学习允许推理模型在思维链生成过程中进行“提前退出”,以提升推理效率。S-GRPO通过对中间推理步骤的评估,改善了传统强化学习中存在的冗余推理问题,展现出优于现有方法的潜力。

摘要

As Test-Time Scaling emerges as an active research focus in the large language model community, advanced post-training methods increasingly emphasize extending chain-of-thought (CoT) generation length, thereby enhancing reasoning capabilities to approach Deepseek R1-like reasoning models. However, recent studies reveal that reasoning models (even Qwen3) consistently exhibit excessive thought redundancy in CoT generation. This overthinking issue arises from the inherent limitations of conventional outcome-reward reinforcement learning, which systematically overlooks the regulation of intermediate reasoning processes. This paper introduces Serial-Group Decaying-Reward Policy Optimization (S-GRPO), a novel reinforcement learning paradigm that enables models to implicitly evaluate the sufficiency of intermediate reasoning steps, thereby facilitating early exit in CoT generation. Unlike GRPO, which samples multiple possible reasoning paths in parallel (parallel group), S-GRPO only samples one reasoning path and serially selects multiple temporal positions from the path to exit thinking and directly generate answers (serial group). For correct answers within a serial group, rewards gradually decrease based on the exit positions along the reasoning path from front to back. This design encourages the model to produce more accurate and concise thoughts, while also incentivizing early thinking termination when appropriate. Empirical evaluations demonstrate that S-GRPO is compatible with state-of-the-art reasoning models, including Qwen3 and Deepseek-distill. Across diverse benchmarks such as GSM8K, AIME 2024, AMC 2023, MATH-500, and GPQA Diamond, S-GRPO achieves a substantial reduction in sequence length (35.4% - 61.1%) while simultaneously improving accuracy (absolute 0.72% - 6.08%).

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models (S-GRPO:推理模型中通过强化学习实现的提前退出)

1.2. 作者

Muzhi Dai (戴沐质), Chenxu Yang (杨晨旭), Qingyi Si (司卿毅) 作者分别来自华为技术有限公司(Huawei Technologies Co., Ltd.)和中国科学院信息工程研究所(Institute of Information Engineering, CAS)。其中戴沐质和杨晨旭为共同第一作者。

1.3. 发表期刊/会议

本论文目前发布于 arXiv 预印本平台(arXiv:2505.07686v2),属于计算机科学与人工智能(cs.AI)领域。从论文格式来看,该研究目前处于审稿阶段(Preprint. Under review)。

1.4. 发表年份

2025年5月12日(提交至 arXiv)。

1.5. 摘要

随着大语言模型(LLM)社区对测试时扩展(Test-Time Scaling)的关注,通过延长思维链(Chain-of-Thought, CoT)来增强推理能力已成为主流。然而,即使是最先进的推理模型(如 Qwen3)也存在严重的“过度思考(Overthinking)”和思维冗余问题。本文提出了一种全新的强化学习范式:串行组衰减奖励策略优化 (Serial-Group Decaying-Reward Policy Optimization, S-GRPO)

不同于传统的 GRPO 并行采样多个完整路径,S-GRPO 在一条思维路径上串行选择多个时间点强制模型停止思考(提前退出)并生成答案。对于正确的提前退出答案,系统给予随位置靠后而逐渐衰减的奖励。实验证明,S-GRPO 能在提升模型准确率(提升 0.72%~6.08%)的同时,大幅缩减推理长度(缩减 35.4%~61.1%),实现了效率与精度的协同提升。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

当前大语言模型(LLM)的推理能力很大程度上依赖于思维链 (Chain-of-Thought, CoT) 技术。通过让模型在输出答案前进行长程的思考(“慢思考”),模型可以解决复杂的数学和逻辑问题。

然而,现有的推理模型面临一个尴尬的问题:过度思考 (Overthinking)。模型往往会生成大量冗余、甚至无关的推理步骤。这不仅浪费了宝贵的计算资源(词元 (token) 消耗大),有时甚至会因为推理路径太长而导致模型逻辑偏离,降低准确率。

现有的强化学习方法(如 DeepSeek 提出的 GRPO)通常只关注最终结果是否正确(0/1 奖励),并不限制推理过程的长度。因此,作者试图寻找一种方法,既能保留模型的深度思考能力,又能引导模型在“想清楚了”的时候立即结束,实现提前退出 (Early Exit)

2.2. 核心贡献/主要发现

  1. 提出 S-GRPO 算法: 改变了传统强化学习的采样方式,从并行路径对比转为在单条路径上进行串行的时间点采样(串行组 (Serial Group))。

  2. 设计指数级衰减奖励机制: 鼓励模型尽早完成有效推理。越早给出的正确答案,获得的奖励越高。

  3. 效率与精度的双赢: 在 GSM8K、AIME、MATH-500 等多个具有挑战性的基准测试中,S-GRPO 不仅显著降低了词元 (token) 消耗(最高降低超过 60%),还刷新了模型的准确率上限。

  4. 即插即用的后处理方案: S-GRPO 可以作为推理模型后训练(Post-training)阶段的最后一步,与 Qwen3、DeepSeek-R1-distill 等模型完美兼容。


3. 预备知识与相关工作

3.1. 基础概念

  • 思维链 (Chain-of-Thought, CoT): 一种提示技术,通过让模型生成中间推理步骤,显著提升其解决复杂问题的能力。
  • 强化学习 (Reinforcement Learning, RL): 一种机器学习方法,智能体 (agent) 通过与环境交互、根据获得的奖励 (reward) 来优化其行为策略 (policy)。
  • GRPO (Group Relative Policy Optimization): 由 DeepSeek 提出的一种改进的强化学习算法。它不依赖复杂的奖励模型,而是通过采样一组推理结果并根据组内相对表现(结果是否正确)来更新参数。
  • 测试时扩展 (Test-Time Scaling): 指在推理阶段投入更多计算资源(如生成更长的 CoT 或进行多次采样)来换取更优的性能。

3.2. 前人工作与技术演进

推理模型的发展正处于从“单纯追求规模”向“优化思考过程”转型的阶段。

  • 第一阶段(长推理): 以 DeepSeek-R1 和 OpenAI o1 为代表,通过强化学习极大地拉长了 CoT,让模型学会自我修正。
  • 第二阶段(效率优化): 研究者发现 CoT 并非越长越好,开始探索如何压缩冗余。此前的方法包括:
    • 训练后截断 (Post-hoc Truncation): 推理时强行中断。
    • 长度奖励 RL (Length-reward RL): 在奖励函数中加入负的长度惩罚。

3.3. 差异化分析

S-GRPO 与传统方法的本质区别在于采样逻辑

  • 传统 GRPO: 针对一个问题,同时生成 8 条独立的思维链。如果第 1 条对而第 2 条错,就奖励第 1 条。但它无法分辨第 1 条思维链内部哪些步骤是多余的。

  • S-GRPO: 针对一个问题,先生成 1 条完整的思维链。然后在这条思维链的中间点(例如第 10% 处、50% 处)强行插入“停止思考”的指令。如果模型在 50% 处就能给出正确答案,那么这半条思维链就被认为比全长思维链更高效。

    下图(原文 Figure 1)展示了这种采样逻辑的对比:

    Figure 1: Comparison of parallel-group-relative GRPO and our serial-group-relative S-GRPO. 该图像是示意图,展示了并行组相对的 GRPO 方法与串行组相对的 S-GRPO 方法的比较。GRPO 采用多个完整推理路径,而 S-GRPO 则在单一推理路径上进行多次选择,体现了衰减奖励的特征,其中奖励 ri=rac12i1r^i = rac{1}{2^{i-1}} 带有不同的退出位置。


4. 方法论

4.1. 方法原理

S-GRPO 的核心逻辑是:将推理步骤的“充分性”评估转化为一个强化学习任务。它通过在一个“串行组”内对比不同长度的推理路径,让模型意识到:如果简短的思考就能得到正确答案,那么后续的思考就是冗余的。

4.2. 核心方法详解 (逐层深入)

4.2.1. 串行组生成 (Serial-Group Generation)

这个过程分为两个阶段,旨在构造用于对比的训练样本。

第一阶段:全思维推演 (Full Thought Rollout) 模型根据查询 QQ,使用当前策略 πθ\pi_{\theta} 生成一条完整的推理路径 O0O^0O0={T1,T2,,Tn,</think>,C0}O^0 = \{T_1, T_2, \dots, T_n, \text{</think>}, C_0\}

  • TiT_i 代表思维链中的各个推理步骤(词元)。
  • C0C_0 是最终生成的结论。

第二阶段:提前退出思维推演 (Early-exit Thought Rollout) 为了训练模型“见好就收”的能力,算法在 O0O^0 的推理过程中随机选择 mm 个位置 PiP_i 进行截断。

  1. 随机采样 mm 个截断点 PiUniform(1,n)P_i \sim \text{Uniform}(1, n)
  2. 在每个截断点后面强行插入一个“催促”提示词 T</think>T_{\text{</think>}},原文中为:"Timeislimited,stopthinkingandstartanswering.\n</think>\n\n""Time is limited, stop thinking and start answering.\n</think>\n\n"
  3. 模型根据截断后的推理路径生成对应的答案 CiC_i。这样就得到了一组串行推演结果 {O1,O2,,Om,O0}\{O^1, O^2, \dots, O^m, O^0\}

4.2.2. 衰减奖励策略 (Decaying Reward Strategy)

这是 S-GRPO 的点睛之笔。传统的奖励是 0 或 1,而 S-GRPO 引入了位置相关的指数级衰减奖励

对于每一个输出 OiO^i,其奖励 rir^i 计算如下(原文公式 1): ri={12Nright1,if Ci is correct,0,if Ci is incorrect.r^i = \begin{cases} \frac{1}{2^{N_{\text{right}}-1}}, & \text{if } C^i \text{ is correct}, \\ 0, & \text{if } C^i \text{ is incorrect}. \end{cases}

  • NrightN_{\text{right}} 的含义: 在当前这个串行组中,按截断位置从前到后排序,当前位置是第几个正确的答案。
  • 设计目的: 如果你在推理路径的开头(非常短的步骤)就拿到了第一个正确答案,你的 Nright=1N_{\text{right}}=1,奖励是 1/211=11/2^{1-1} = 1(最大奖励)。如果你在思维链末尾才拿到正确答案,你的 NrightN_{\text{right}} 很大,奖励会变得非常微小。
  • 这种机制强迫模型将关键的逻辑判断前移,从而实现自然而然的提前退出。

4.2.3. 优势计算与参数更新 (Advantage Computation)

基于上述奖励,计算每个响应相对于组内平均水平的“优势”。

优势计算 (A^i\hat{A}_i): A^i=rimean(ri)\hat{A}_i = r_i - \text{mean}(r_i) 这里去掉了标准差项以提高训练稳定性。

优化目标 (JSGRPOJ_{S-GRPO}): 算法遵循 PPO 的裁剪策略来更新模型参数 θ\theta(原文公式 2): JSGRPO(θ)=E[1Gi=1G1oit=1oi{min[πθi,tπθoldi,tA^i,t,clip(πθi,tπθoldi,t,1ϵ,1+ϵ)A^i,t]}]J_{S-GRPO}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \{ \min [ \frac{\pi_{\theta}^{i,t}}{\pi_{\theta_{old}}^{i,t}} \hat{A}_{i,t}, \text{clip}(\frac{\pi_{\theta}^{i,t}}{\pi_{\theta_{old}}^{i,t}}, 1-\epsilon, 1+\epsilon) \hat{A}_{i,t} ] \} \right]

  • πθi,t\pi_{\theta}^{i,t} 是当前模型在位置 tt 生成词元的概率。

  • πθoldi,t\pi_{\theta_{old}}^{i,t} 是采样时旧模型的概率。

  • ϵ\epsilon 是裁剪超参数,防止更新步长过大。

  • GG 是组大小。

    下图(原文 Figure 2)详细展示了整个流程:

    Figure 2: The framework of S-GRPO. The complete answer inducer is omitted in the figure and is represented by </think> instead. The complete answer inducer is "Time is limited, stop thinking and start answering.\\n</think>\\n\\n" 该图像是S-GRPO框架的示意图,展示了全思维展开与早期退出思维的流程。关键的衰减奖励计算公式为 r=rac12Ng1r = rac{1}{2^{N_{g}-1}},其中 NgN_{g} 是在思维路径上选择的时间位置数量。图中使用了不同颜色表示思维过程中的各个阶段。


5. 实验设置

5.1. 数据集

实验采用了大规模数学竞赛数据集 DeepMath-103K

  • 特点: 包含约 10.3 万个精心挑选的数学题,难度跨越小学到高中(5-10级)。
  • 多样性: 涵盖代数、几何、数论等。
  • 评估基准: 在训练后,使用 GSM8K(基础小学数学)、AIME 2024(高级竞赛)、AMC 2023MATH-500GPQA Diamond(研究生级科学问题)进行测试。

5.2. 评估指标

作者采用了两个关键指标:

  1. 准确率 (Accuracy/Pass@1): 衡量模型一次生成结果中正确的比例。
  2. 词元计数 (Token Count): 推理过程中生成的总词元数,反映了推理效率。

5.3. 对比基线

  • Vanilla: 原始模型,不进行任何效率优化。

  • DEER: 一种基于置信度的推理时提前退出方法。

  • ConCISE: 通过特定词元引导模型生成简洁思维链。

  • GRPO: 原始的组相对策略优化,不包含长度奖励。

  • RL + Length Penalty: 在强化学习中加入简单的长度惩罚项。


6. 实验结果与分析

6.1. 核心结果分析

以下是原文 Table 1 的实验数据汇总,展示了 S-GRPO 在四大主流模型上的表现。

以下是原文 Table 1 的结果:

方法 (Method) GSM8K AIME 2024 AMC 2023 MATH-500 GPQA Diamond 综合 (Overall)
准确率 词元数 准确率 词元数 准确率 词元数 准确率 词元数 准确率 词元数 准确率 词元节省
DeepSeek-R1-Distill-Qwen-7B
Vanilla 92.4 1,833 55.4 13,232 77.2 9,693 85.8 5,590 50.1 15,385 70.02 基准
GRPO 93.2 1,767 55.0 13,451 87.5 9,887 93.6 5,317 50.7 15,817 76.00 +1.1%
S-GRPO (Ours) 93.8 906 56.0 7,377 87.5 3,494 92.4 2,252 50.8 3,751 76.10 -61.1%
Qwen3-8B
Vanilla 95.4 2,370 74.1 15,326 91.3 9,452 93.4 5,577 55.6 8,741 81.90 基准
S-GRPO (Ours) 96.1 1,292 77.3 8,810 95.0 5,962 95.2 3,166 57.7 5,271 84.26 -40.6%

深度分析:

  1. 极高的计算效率:Qwen-7B 上,S-GRPO 节省了 61.1% 的生成词元。这意味着在同等硬件下,模型的响应速度可以提升一倍以上,推理成本减半。
  2. 反直觉的准确率提升: 通常压缩长度会牺牲准确率,但 S-GRPO 反而提升了精度。这证明了作者的假设:去除思维链中的干扰性冗余步骤,能够帮助模型更专注地得出正确结论。
  3. 对不同难度的适配性: 即使是在极难的 GPQA Diamond 上,该方法依然稳健。

6.2. 消融实验

作者对比了不同的奖励设计(见 Table 2):

  • w/o. Decaying (All 1):所有正确的回答奖励都设为 1(不衰减)。结果:推理长度剧增,模型失去了提前退出的动力。
  • w/o. Serial:移除串行组,退化为普通 GRPO。结果:效率优势完全消失。 这证明了“串行对比”“衰减奖励”S-GRPO 成功的双支柱。

下图(原文 Figure 4)对比了不同方法在 GSM8K 上的具体生成表现:

Figure 4: Comparison of a generated content sample on GSM8K. 该图像是图表,展示了不同模型在GSM8K问题上的生成内容样本比较。左侧为Qwen3-8的生成过程,中央为Qwen3-8进行硬截断的生成,对应答案被标注为错误。右侧则展示了使用S-GRPO的Qwen3-8生成的正确答案,包含公式 180060=30\frac{1800}{60} = 30


7. 总结与思考

7.1. 结论总结

S-GRPO 是一项非常有实际工程意义的工作。它通过一种聪明的“串行对比”采样方式和“早到奖励”机制,成功地在不增加推理开销(甚至极大降低开销)的前提下,提升了大语言模型的推理质量。它有效地解决了推理模型“废话多”和“容易想偏”的顽疾。

7.2. 局限性与未来工作

  • 对首个推演路径的依赖: S-GRPO 的第二阶段采样是基于第一阶段生成的全量推演。如果第一条路径本身逻辑错误,采样出来的子路径质量也会受限。
  • 硬截断与自然退出的平衡: 实验中使用了强制提示词来诱导提前退出,未来可以探索如何让模型在没有任何外部提示的情况下,自发地生成 </think></think> 词元。

7.3. 个人启发与批判

  • 启发: 这篇论文让我们意识到,“思考的深度”不等于“思考的长度”。在强化学习中,奖励函数的微小改变(如引入指数衰减)可以引导模型产生截然不同的行为模式。
  • 批判: 虽然 S-GRPO 在数学和科学推理上表现优异,但在需要发散性思维或多方案比较的任务中,过分追求“提前退出”是否会压制模型的创造力?这是一个值得后续研究者探讨的课题。此外,论文中提到的“节省 61.1% 词元”是基于训练后的行为变化,而在实际推理场景中,如果不使用强制截断,模型是否能维持这种简洁性,仍需更多长期的在线评估支持。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。