AiPaper
论文状态:已完成

Group Sequence Policy Optimization

发表:2025/07/24
原文链接PDF 下载
价格:0.10
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出Group Sequence Policy Optimization (GSPO)强化学习算法,旨在解决大语言模型(LLM),特别是混合专家(MoE)模型训练中现有RL算法的不稳定性问题。GSPO创新性地基于序列似然定义重要性比例,并执行序列级的策略裁剪、奖励与优化。实验表明,GSPO相较于GRPO算法,在训练效率和性能上均表现更优,显著稳定了MoE模型的强化学习训练,且简化了RL基础设施设计,为最新Qwen3模型的显著提升做出了贡献。

摘要

This paper introduces Group Sequence Policy Optimization (GSPO), our stable, efficient, and performant reinforcement learning algorithm for training large language models. Unlike previous algorithms that adopt token-level importance ratios, GSPO defines the importance ratio based on sequence likelihood and performs sequence-level clipping, rewarding, and optimization. We demonstrate that GSPO achieves superior training efficiency and performance compared to the GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and has the potential for simplifying the design of RL infrastructure. These merits of GSPO have contributed to the remarkable improvements in the latest Qwen3 models.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): Group Sequence Policy Optimization (GSPO)
  • 作者 (Authors): Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen E, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin (均为 Qwen 团队,阿里巴巴)
  • 发表期刊/会议 (Journal/Conference): 本文目前发布在 arXiv 上,是一个预印本 (Preprint)。arXiv 是一个广泛用于物理学、数学、计算机科学等领域快速传播最新研究成果的平台,但上面的论文通常未经同行评审 (Peer Review)。
  • 发表年份 (Publication Year): 2025 (根据论文引用格式推断,arXiv 提交时间为 2024 年 7 月,但论文内引用格式写为 2025)
  • 摘要 (Abstract): 本文介绍了一种名为 GSPO 的强化学习算法,专为训练大语言模型设计,具备稳定性效率高性能的特点。与先前算法采用的 token 级别重要性比例不同,GSPO 基于序列似然来定义重要性比例,并进行序列级别的裁剪、奖励和优化。实验证明,GSPO 相比 GRPO 算法在训练效率和性能上更优,显著稳定了混合专家 (Mixture-of-Experts, MoE) 模型的强化学习训练,并有简化强化学习基础设施的潜力。这些优点为最新的 Qwen3 模型的显著提升做出了贡献。
  • 原文链接 (Source Link):

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 当前用于训练大语言模型的先进强化学习算法,如 GRPO,在训练大型模型(尤其是 MoE 模型)时存在严重的不稳定性,经常导致灾难性的、不可逆的模型崩溃。
    • 问题重要性: 这种不稳定性阻碍了通过持续的强化学习训练来进一步提升大语言模型能力的努力,限制了模型在解决复杂问题(如竞赛级数学和编程)上的潜力。
    • 切入点/创新思路: 论文作者发现 GRPO 的不稳定性根源在于其错误地应用了重要性采样权重GRPOtoken 级别计算重要性权重,但这在理论上是有问题的,因为它基于单个样本进行分布校正,引入了高方差的训练噪声。这种噪声会随着序列长度累积,并被裁剪机制放大,最终导致模型崩溃。作者提出,优化的基本单元应该与奖励的基本单元保持一致。既然奖励是给予整个序列的,那么优化和重要性采样也应该在序列层面进行。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 提出新算法 GSPO: 论文提出了组序列策略优化 (Group Sequence Policy Optimization, GSPO)。其核心创新在于:
      1. 序列级重要性比例 (Sequence-level Importance Ratio): GSPO 基于整个序列的似然概率来定义重要性比例,这在理论上更符合重要性采样的原则。
      2. 序列级优化 (Sequence-level Optimization): GSPO 在序列层面进行裁剪 (clipping) 和优化,将奖励、重要性校正和梯度更新统一在同一粒度上。
    • 关键发现:
      1. 性能与效率提升: GSPO 在训练稳定性、效率和最终性能上均显著优于 GRPO
      2. 稳定 MoE 训练: GSPO 从根本上解决了 MoE 模型在强化学习训练中的不稳定性问题,不再需要像 Routing Replay 这样的复杂稳定化策略。
      3. 简化基础设施: GSPO 对训练和推理引擎之间的精度差异容忍度更高,有潜力简化强化学习的系统架构。
      4. 实践验证: GSPO 已经成功应用于最新的 Qwen3 模型训练,并为其性能提升做出了重要贡献。

3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 强化学习 (Reinforcement Learning, RL): 一种机器学习范式,其中智能体 (Agent) 通过与环境 (Environment) 交互来学习。智能体执行动作 (Action),环境返回一个奖励 (Reward) 或惩罚,智能体的目标是最大化累积奖励。在 LLM 训练中,LLM 是智能体,生成的文本是动作,评估文本质量的打分器 (Verifier) 提供奖励。
    • 自回归语言模型 (Autoregressive Language Model): 一种语言模型,它通过一次预测一个 token 的方式来生成文本序列。每个 token 的生成都依赖于之前已经生成的所有 token
    • 策略 (Policy, πθ\pi_{\theta}): 在 RL 中,策略是指导智能体如何行动的函数。在 LLM 的语境下,策略就是语言模型本身,由参数 θ\theta 决定。它定义了在给定上下文(问题 xx 和已生成的文本 y<ty_{<t})的条件下,下一个 token yty_t 的概率分布 πθ(ytx,y<t)\pi_{\theta}(y_t | x, y_{<t})
    • 重要性采样 (Importance Sampling): 一种统计学技术,用于在从一个分布 πbeh\pi_{\mathrm{beh}}(行为分布)采样的情况下,估计另一个分布 πtar\pi_{\mathrm{tar}}(目标分布)下的期望值。其核心公式为:Ezπtar[f(z)]=Ezπbeh[πtar(z)πbeh(z)f(z)]\mathbb{E}_{z \sim \pi_{\mathrm{tar}}}[f(z)] = \mathbb{E}_{z \sim \pi_{\mathrm{beh}}}[\frac{\pi_{\mathrm{tar}}(z)}{\pi_{\mathrm{beh}}(z)}f(z)]。其中,比值 πtar(z)πbeh(z)\frac{\pi_{\mathrm{tar}}(z)}{\pi_{\mathrm{beh}}(z)} 称为重要性权重。在 RL 中,这被用于在“离策略” (off-policy) 情况下(即从旧策略 πθold\pi_{\theta_{\mathrm{old}}} 采样,但要优化当前策略 πθ\pi_{\theta})校正梯度估计。
    • 混合专家模型 (Mixture-of-Experts, MoE): 一种神经网络架构,它由多个“专家”子网络和一个“门控”网络组成。对于每个输入,门控网络会选择性地激活一小部分专家来处理,从而在保持计算成本相对较低的同时,极大地增加了模型的参数量和容量。
  • 前人工作 (Previous Works):

    • 近端策略优化 (Proximal Policy Optimization, PPO): 一种非常流行的 RL 算法。它通过在一个目标函数中引入“裁剪” (clipping) 机制来限制每次策略更新的幅度,从而确保训练的稳定性。PPO 的一个核心挑战是它依赖于一个价值模型 (value model) 来估计优势 (advantage),这个价值模型本身训练困难且占用大量计算资源。
    • 组相对策略优化 (Group Relative Policy Optimization, GRPO): GRPO 是对 PPO 的一种改进,它移除了对价值模型的依赖。其做法是:对同一个问题 (query) 生成一组(Group)回答,然后通过比较这些回答的奖励来计算相对优势。然而,GRPO 仍然在 token 级别计算重要性比例和进行裁剪,这正是本文认为导致其不稳定的根本原因。
  • 技术演进 (Technological Evolution):

    1. PPO: 引入裁剪机制稳定 RL 训练,但依赖价值模型。
    2. GRPO: 移除价值模型,通过组内奖励比较计算优势,但其 token 级别的设计存在理论缺陷,导致训练不稳定。
    3. GSPO (本文): 修正了 GRPO 的理论缺陷,将重要性采样和优化从 token 级别提升到序列级别,从根本上解决了不稳定性问题,并带来了效率和性能的提升。
  • 差异化分析 (Differentiation):

    • GSPO vs. GRPO: 核心区别在于操作粒度
      • 重要性比例定义: GRPO 在每个 token 上计算一个重要性比例 wi,t(θ)w_{i,t}(\theta)GSPO 则为整个序列计算一个单一的重要性比例 si(θ)s_i(\theta)
      • 裁剪对象: GRPO 裁剪每个 token 的梯度贡献。GSPO 裁剪整个序列的梯度贡献。
      • 理论基础: GSPO 的序列级方法更符合重要性采样的原理,因为它校正的是整个样本(序列)的概率,而不是样本的某个片段(token)的概率。

4. 方法论 (Methodology - Core Technology & Implementation Details)

  • 方法原理 (Methodology Principles):

    • 核心思想: 优化的单元应与奖励的单元对齐。由于奖励是针对整个生成序列 yy 评估的,因此用于离策略校正的重要性权重也应基于整个序列的似然 πθ(yx)\pi_{\theta}(y|x),而不是单个 token 的似然 πθ(ytx,y<t)\pi_{\theta}(y_t|x, y_{<t})。序列级别的重要性权重 πθ(yx)πθold(yx)\frac{\pi_{\theta}(y|x)}{\pi_{\theta_{\mathrm{old}}}(y|x)} 能够准确反映从旧策略采样的序列 yy 在当前策略下的“偏离程度”,是一个更稳定和有意义的指标。
  • 方法步骤与流程 (Steps & Procedures): GSPO 算法的优化流程如下:

    1. 采样 (Sampling): 对于每个问题 xx,使用旧策略 πθold\pi_{\theta_{\mathrm{old}}} 生成一组 GG 个回答 {yi}i=1G\{y_i\}_{i=1}^G
    2. 评估 (Evaluation): 使用一个奖励模型或验证器 rr 为每个回答 yiy_i 打分,得到奖励 r(x,yi)r(x, y_i)
    3. 计算优势 (Advantage Calculation): 在组内计算每个回答的标准化优势 A^i\widehat{A}_i。这个步骤与 GRPO 相同,通过将奖励减去组内均值并除以标准差得到。
    4. 计算序列级重要性比例 (Sequence-level Importance Ratio Calculation): 对于每个回答 yiy_i,计算当前策略 πθ\pi_{\theta} 和旧策略 πθold\pi_{\theta_{\mathrm{old}}} 对该序列的似然,并计算出经过长度归一化的重要性比例 si(θ)s_i(\theta)
    5. 优化 (Optimization): 使用裁剪后的目标函数进行梯度更新。如果一个序列的 si(θ)s_i(\theta) 过大或过小(表明它对于当前策略来说是一个“离策略”程度很高的样本),它的对梯度的贡献就会被裁剪。
  • 数学公式与关键细节 (Mathematical Formulas & Key Details):

    • GSPO 目标函数: IGSPO(θ)=ExD,{yi}i=1Gπθold(x)[1Gi=1Gmin(si(θ)A^i,clip(si(θ),1ε,1+ε)A^i)] \mathcal{I}_{\mathrm{GSPO}}(\theta) = \mathbb{E}_{x \sim \mathcal{D}, \{y_i\}_{i=1}^G \sim \pi_{\theta_{\mathrm{old}}}(\cdot|x)} \left[ \frac{1}{G} \sum_{i=1}^G \min\left(s_i(\theta)\widehat{A}_i, \mathrm{clip}(s_i(\theta), 1-\varepsilon, 1+\varepsilon)\widehat{A}_i\right) \right]

      • xDx \sim \mathcal{D}: 从问题集合 D\mathcal{D} 中采样一个问题 xx
      • {yi}i=1Gπθold(x)\{y_i\}_{i=1}^G \sim \pi_{\theta_{\mathrm{old}}}(\cdot|x): 使用旧策略 πθold\pi_{\theta_{\mathrm{old}}} 对问题 xx 生成 GG 个回答。
      • A^i\widehat{A}_i: 第 ii 个回答的优势,计算方式为: A^i=r(x,yi)mean({r(x,yj)}j=1G)std({r(x,yj)}j=1G) \widehat{A}_i = \frac{r(x, y_i) - \mathrm{mean}(\{r(x, y_j)\}_{j=1}^G)}{\mathrm{std}(\{r(x, y_j)\}_{j=1}^G)}
      • si(θ)s_i(\theta): GSPO 的核心,序列级重要性比例,定义为: si(θ)=(πθ(yix)πθold(yix))1yi=exp(1yit=1yilogπθ(yi,tx,yi,<t)πθold(yi,tx,yi,<t)) s_i(\theta) = \left( \frac{\pi_{\theta}(y_i|x)}{\pi_{\theta_{\mathrm{old}}}(y_i|x)} \right)^{\frac{1}{|y_i|}} = \exp\left(\frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \log \frac{\pi_{\theta}(y_{i,t}|x, y_{i,<t})}{\pi_{\theta_{\mathrm{old}}}(y_{i,t}|x, y_{i,<t})}\right)
        • πθ(yix)\pi_{\theta}(y_i|x): 当前策略生成整个序列 yiy_i 的概率。
        • πθold(yix)\pi_{\theta_{\mathrm{old}}}(y_i|x): 旧策略生成整个序列 yiy_i 的概率。
        • yi|y_i|: 序列 yiy_i 的长度。
        • 1yi\frac{1}{|y_i|} 指数项:这是一个长度归一化操作。它将重要性比例的尺度统一起来,避免长序列的似然比值因为连乘效应而产生剧烈波动,使得不同长度序列的裁剪范围 ε\varepsilon 可以统一。
      • clip(,1ε,1+ε)\mathrm{clip}(\cdot, 1-\varepsilon, 1+\varepsilon): 裁剪函数,将 si(θ)s_i(\theta) 限制在 [1ε,1+ε][1-\varepsilon, 1+\varepsilon] 区间内。
    • GSPO 的梯度: θIGSPO(θ)=E[][1Gi=1G(πθ(yix)πθold(yix))1yiA^i1yit=1yiθlogπθ(yi,tx,yi,<t)] \nabla_{\theta} \mathcal{I}_{\mathrm{GSPO}}(\theta) = \mathbb{E}[\dots] \left[ \frac{1}{G} \sum_{i=1}^G \left( \frac{\pi_{\theta}(y_i|x)}{\pi_{\theta_{\mathrm{old}}}(y_i|x)} \right)^{\frac{1}{|y_i|}} \widehat{A}_i \cdot \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \nabla_{\theta} \log \pi_{\theta}(y_{i,t}|x, y_{i,<t}) \right] GRPO 的梯度相比,GSPO 中一个序列内的所有 token 的梯度 θlogπθ(yi,t)\nabla_{\theta} \log \pi_{\theta}(y_{i,t}|\dots) 被一个共同的、序列级别的权重 (πθ(yix)πθold(yix))1yi\left( \frac{\pi_{\theta}(y_i|x)}{\pi_{\theta_{\mathrm{old}}}(y_i|x)} \right)^{\frac{1}{|y_i|}} 所缩放。而在 GRPO 中,每个 token 的梯度被其自身的、高方差的 token 级重要性权重所缩放,这是不稳定的来源。

    • GSPO-token 变体: GSPO 还提供了一个名为 GSPO-token 的变体,允许进行更细粒度的优势分配(例如,在多轮对话中给不同的轮次分配不同的奖励)。其目标函数在形式上是 token 级别的,但巧妙地使用了 stop-gradient 操作 sg[·] 来保持 GSPO 的核心稳定性。 si,t(θ)=sg[si(θ)]πθ(yi,tx,yi,<t)sg[πθ(yi,tx,yi,<t)] s_{i,t}(\theta) = \mathrm{sg}[s_i(\theta)] \cdot \frac{\pi_{\theta}(y_{i,t}|x, y_{i,<t})}{\mathrm{sg}[\pi_{\theta}(y_{i,t}|x, y_{i,<t})]} 在数值上,si,t(θ)s_{i,t}(\theta) 等于 si(θ)s_i(\theta),但在计算梯度时,梯度只通过 πθ(yi,t)\pi_{\theta}(y_{i,t}|\dots) 项传播,而序列级的权重 si(θ)s_i(\theta) 被视为常数。这使得其梯度形式与 GSPO 几乎一致,但允许每个 token 乘以一个不同的优势 A^i,t\widehat{A}_{i,t}

5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets): 实验主要在复杂的推理任务上进行,使用了以下三个基准:

    • AIME'24: 一个数学竞赛基准,测试模型的数学推理能力。
    • LiveCodeBench: 一个持续更新的编程竞赛基准,测试模型的代码生成和算法能力。
    • CodeForces: 一个流行的编程竞赛平台,模型的表现以 Elo 等级分来衡量。
    • 选择这些数据集是因为它们代表了当前 LLM 能力的前沿,需要模型进行长链条、深层次的推理,这正是 RL 训练不稳定性问题最容易暴露的场景。
  • 评估指标 (Evaluation Metrics):

    • Pass@1: 在给定问题下,模型采样一次就能生成正确答案的概率。这是评估代码生成和数学问题解决能力的常用指标。
    • Elo Rating: 一种衡量对象(这里是模型)在对抗性游戏中相对技能水平的评级系统。在 CodeForces 中,更高的 Elo 分代表更强的编程能力。
  • 对比基线 (Baselines):

    • GRPO: 作为当前最先进的、不依赖价值模型的 RL 算法之一,是本文最直接和最关键的比较对象。为了公平比较,作者为 GRPO 精心调整了超参数,并为其配备了在 MoE 模型上稳定训练所必需的 Routing Replay 策略。

6. 实验结果与分析 (Results & Analysis)

  • 核心结果分析 (Core Results Analysis):

    该图像为多子图表,展示了GSPO与GRPO算法在不同训练计算量下的表现比较。主图显示GSPO在训练奖励(Training Reward)上整体优于GRPO。三个子图分别展示了AIMET24、LiveCodeBench和Codeforces三个基准任务中,GSPO均显著领先GRPO,表现出更高的训练效率和性能提升。 该图像为多子图表,展示了GSPO与GRPO算法在不同训练计算量下的表现比较。主图显示GSPO在训练奖励(Training Reward)上整体优于GRPO。三个子图分别展示了AIMET24、LiveCodeBench和Codeforces三个基准任务中,GSPO均显著领先GRPO,表现出更高的训练效率和性能提升。

    上图(图像 1)展示了核心实验结果。

    • 训练奖励 (Training Reward): 顶部的图显示,在相同的训练计算量下,GSPO (红色曲线) 的训练奖励持续稳定上升,并且始终高于 GRPO (蓝色曲线)。这表明 GSPO 的学习过程更稳定、更高效。
    • 基准性能: 下方的三个子图分别展示了在 AIME'24LiveCodeBenchCodeForces 上的性能。结果非常一致:GSPO 在所有三个高难度基准上都取得了比 GRPO 更好的性能,并且达到相同性能水平所需的计算量更少。
    • 结论: 这些结果强有力地证明了 GSPO 在训练效率和最终模型性能上都优于 GRPO
  • 消融实验/参数分析 (Ablation Studies / Parameter Analysis):

    • 裁剪比例的惊人发现 (Curious Observation on Clipping Fractions):

      该图像为条形图,比较了GSPO和GRPO算法的Clipping Fraction值。图中显示GSPO的Clipping Fraction约为0.15,显著高于GRPO的0.0013,表明GSPO在序列级别裁剪中具有更高的比例,反映出其在训练中更稳定有效的优化性能。 该图像为条形图,比较了GSPO和GRPO算法的Clipping Fraction值。图中显示GSPO的Clipping Fraction约为0.15,显著高于GRPO的0.0013,表明GSPO在序列级别裁剪中具有更高的比例,反映出其在训练中更稳定有效的优化性能。

      上图(图像 2)揭示了一个反直觉的现象。

      • GSPO 的裁剪比例 (Clipped Fraction) 约为 0.15,而 GRPO 仅为 0.0013,两者相差两个数量级。这意味着 GSPO 在训练中“丢弃”了远多于 GRPO 的样本(序列)来进行梯度估计。
      • 分析与启发: 尽管 GSPO 使用了更少的样本进行训练,但其效率和性能反而更高。这恰恰说明了 GRPOtoken 级梯度估计是充满噪声且低效的GSPO 通过在序列层面进行更严格的筛选,虽然样本利用率看似降低,但实际上保证了用于学习的梯度信号质量更高、更可靠,从而实现了更高效的学习。
    • 对 MoE 训练的益处 (Benefit for MoE Training):

      该图像为折线图,横轴表示训练计算资源,纵轴表示训练奖励。图中对比了“GRPO带路由重放”和“不带路由重放”两种方法的训练效果,结果显示带路由重放的GRPO在训练奖励上表现更加稳定且逐渐提升,而不带路由重放的GRPO奖励整体呈下降趋势。该图体现了路由重放机制对训练稳定性和性能的积极影响。 该图像为折线图,横轴表示训练计算资源,纵轴表示训练奖励。图中对比了“GRPO带路由重放”和“不带路由重放”两种方法的训练效果,结果显示带路由重放的GRPO在训练奖励上表现更加稳定且逐渐提升,而不带路由重放的GRPO奖励整体呈下降趋势。该图体现了路由重放机制对训练稳定性和性能的积极影响。

      上图(图像 3)展示了 Routing ReplayGRPO 训练 MoE 模型的重要性。

      • 问题背景: MoE 模型在 RL 训练中存在“专家激活不稳定性” (expert-activation volatility) 问题。即在一次梯度更新后,模型参数发生微小变化,但对于同一个输入,激活的专家组合可能发生巨大变化。这会导致 GRPOtoken 级重要性权重剧烈波动,使训练无法收敛。
      • GRPO 的解决方案: GRPO 需要一种名为 Routing Replay 的策略:在计算重要性权重时,强制当前策略 πθ\pi_{\theta} 使用与旧策略 πθold\pi_{\theta_{\mathrm{old}}} 完全相同的专家激活路径。如图 3 所示,没有 Routing ReplayGRPO (橙色曲线) 训练会崩溃,而有 Routing ReplayGRPO (紫色曲线) 则能正常训练。
      • GSPO 的优势: GSPO 从根本上解决了这个问题,因此不需要 Routing Replay。因为 GSPO 关注的是整个序列的似然,它对单个 token 级别的专家选择变化不敏感。只要模型整体的语言建模能力保持稳定,序列似然就不会剧烈波动。这不仅简化了训练流程,降低了额外的内存和通信开销,还让 MoE 模型能够充分发挥其全部容量。

7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary):

    • 本文提出了 GSPO,一种新的、用于训练大语言模型的强化学习算法。
    • GSPO 的核心思想是遵循重要性采样的基本原则,将重要性比例的定义、裁剪和优化操作从 token 级别提升到序列级别,从而与序列级的奖励机制保持一致。
    • 实验证明,GSPO 在训练稳定性、效率和性能上均优于 GRPO,特别是在训练大型 MoE 模型时表现出巨大优势,并为 Qwen3 模型的成功做出了贡献。
  • 局限性与未来工作 (Limitations & Future Work):

    • 论文提及: 论文本身篇幅较短,未明确指出局限性,而是展望了 GSPO 作为未来大规模 RL 训练的可扩展算法基石的前景。
    • 潜在思考:
      • GSPO 的性能可能对裁剪范围 ε\varepsilon 的选择比较敏感,虽然论文给出了经验值,但其泛化性和调整策略值得进一步研究。
      • GSPO-token 变体虽然提供了灵活性,但在何种场景下(如复杂的交互式任务)能带来显著优于标准 GSPO 的效果,还需要更多实验验证。
      • 目前实验集中在代码和数学推理,GSPO 在其他类型任务(如长篇故事生成、创意写作)上的表现有待探索。
  • 个人启发与批判 (Personal Insights & Critique):

    • 启发:
      1. 回归第一性原理: GSPO 的成功体现了回归基本理论的重要性。作者通过重新审视重要性采样的原理,发现了 GRPO 设计中的根本缺陷,并提出了一个理论上更坚实、实践中更有效的解决方案。这种“大道至简”的思路非常有启发性。
      2. 粒度匹配的重要性: “优化的单元应与奖励的单元对齐”这一原则,可能不仅适用于 RL,也适用于其他机器学习领域。当系统的不同组件(如损失函数、评估指标、数据增强)操作粒度不一致时,可能就会隐藏着不稳定的风险。
      3. 对 MoE 训练的深刻洞见: 论文对 MoE 模型 RL 训练不稳定性的分析非常深刻,并提供了一个优雅的算法层面的解决方案,而不是复杂的工程 hack。这对于未来更大规模的稀疏模型训练具有重要指导意义。
    • 批判性思考:
      • 论文的成功在很大程度上依赖于其在 Qwen3 这种超大规模模型上的实践。对于中小型模型,GRPO 的不稳定性问题可能不那么突出,GSPO 的优势幅度可能会减小。
      • 论文将 GSPO 的成功归因于其理论上的正确性,而裁剪比例的巨大差异是一个强有力的旁证。但两者之间的因果链条是否还有其他未被发现的因素(例如梯度方差的降低程度等),可以进行更深入的量化分析。
      • GSPO 仍然继承了 GRPO 的组内奖励标准化方法,这种方法本身对组大小 (group size) GG 和组内样本的多样性可能存在依赖,这也是未来可以探索优化的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。