论文状态:已完成

ExGRPO: Learning to Reason from Experience

发表:2025/10/03
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 11 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

论文提出ExGRPO框架,通过识别推理经验的正确率与熵,优先利用高价值经验,实现对大语言模型推理能力的高效强化学习优化。实验证明,ExGRPO在多种模型上显著提升数学与通用推理表现,增强训练稳定性。

摘要

Reinforcement learning from verifiable rewards (RLVR) is an emerging paradigm for improving the reasoning ability of large language models. However, standard on-policy training discards rollout experiences after a single update, leading to computational inefficiency and instability. While prior work on RL has highlighted the benefits of reusing past experience, the role of experience characteristics in shaping learning dynamics of large reasoning models remains underexplored. In this paper, we are the first to investigate what makes a reasoning experience valuable and identify rollout correctness and entropy as effective indicators of experience value. Based on these insights, we propose ExGRPO (Experiential Group Relative Policy Optimization), a framework that organizes and prioritizes valuable experiences, and employs a mixed-policy objective to balance exploration with experience exploitation. Experiments on five backbone models (1.5B-8B parameters) show that ExGRPO consistently improves reasoning performance on mathematical/general benchmarks, with an average gain of +3.5/7.6 points over on-policy RLVR. Moreover, ExGRPO stabilizes training on both stronger and weaker models where on-policy methods fail. These results highlight principled experience management as a key ingredient for efficient and scalable RLVR.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): ExGRPO: Learning to Reason from Experience (ExGRPO:从经验中学习推理)
  • 作者 (Authors): Runzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng.
  • 隶属机构 (Affiliations): 澳门大学 (University of Macau), 上海人工智能实验室 (Shanghai AI Laboratory), 南京大学 (Nanjing University), 香港中文大学 (The Chinese University of Hong Kong). 作者团队来自学术界和顶尖研究机构,在人工智能,特别是自然语言处理和强化学习领域具有深厚背景。
  • 发表期刊/会议 (Journal/Conference): 本文目前为预印本 (Preprint),发布于 arXiv。arXiv 是一个主流的学术论文预印本平台,允许研究者在同行评审前分享其研究成果。
  • 发表年份 (Publication Year): 2025 (根据 arXiv 论文编号推断,实际提交日期在 2025 年之前,这里遵循原文标记)。
  • 摘要 (Abstract): 论文摘要指出,基于可验证奖励的强化学习 (RLVR) 是提升大语言模型推理能力的新兴范式,但标准的在策略 (on-policy) 训练方法因单次更新后即丢弃经验,导致计算效率低下且训练不稳定。论文首次探究了何为“有价值的”推理经验,并发现展开正确率 (rollout correctness) 和 (entropy) 是衡量经验价值的有效指标。基于这些发现,论文提出了 ExGRPO (Experiential Group Relative Policy Optimization) 框架,该框架能够组织和优先利用有价值的经验,并采用混合策略目标来平衡探索与经验利用。在五个不同规模 (1.5B-8B) 的骨干模型上的实验表明,ExGRPO 在数学和通用推理基准上,相较于在策略 RLVR 平均提升了 +3.5/+7.6+3.5 / +7.6 分。此外,ExGRPO 还能稳定在策略方法会失败的强、弱模型的训练。这些结果表明,有原则的经验管理是实现高效、可扩展 RLVR 的关键
  • 原文链接 (Source Link):

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 大语言模型 (LLMs) 在进行复杂推理任务时,普遍采用基于强化学习的方法进行优化。其中,一种名为可验证奖励的强化学习 (Reinforcement Learning from Verifiable Rewards - RLVR) 的技术范式表现出色。然而,当前主流的 RLVR 算法多为在策略 (on-policy) 类型,如 PPOGRPO。这类算法在每次模型参数更新后,就会丢弃之前为收集数据而产生的所有推理过程(即“经验”),造成巨大的计算资源浪费。
    • 重要性与挑战 (Gap): 这种“即采即弃”的模式极大地限制了训练的样本效率 (sample efficiency),并可能因探索不足导致训练不稳定,甚至崩溃。虽然在传统强化学习领域,经验回放 (experience replay) 是解决此问题的标准技术,但在大语言模型推理领域,如何定义、筛选和利用“有价值的”历史经验,仍然是一个未被充分探索的空白。简单地重放所有过去的经验可能引入过时或低质量的数据,反而会污染训练过程。
    • 切入点/创新思路: 本文的切入点是:并非所有经验都是平等的。论文假设,可以通过分析经验的某些可衡量属性来判断其“价值”。通过初步研究,作者发现对模型来说中等难度的问题低熵的成功推理路径是最有价值的训练信号。基于此,论文提出了一套完整的经验管理和优化框架 ExGRPO
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 首次系统性分析推理经验价值: 论文是首个深入研究“什么构成有价值的推理经验”的工作,并确定了两个关键的在线代理指标:
      1. 问题难度指标: 展开正确率 (rollout correctness),即模型对一个问题多次尝试的成功率。研究发现,中等正确率(25%-75%)的问题提供了最有效的学习信号。
      2. 轨迹质量指标: 轨迹熵 (trajectory entropy)。研究发现,熵更低的成功推理路径,其推理逻辑的正确性(由外部判断器评估)也更高。
    • 提出 ExGRPO 框架: 这是一个全新的、结合了经验管理的强化学习框架,其核心机制包括:
      1. 经验管理: 通过收集 (collection)、划分 (partition) 和选择 (selection) 三个阶段,建立一个优先处理有价值经验的回放缓冲区。
      2. 混合策略优化: 在训练时,同时使用新生成的在策略 (on-policy) 数据和从缓冲区中精心挑选的离策略 (off-policy) 经验,并通过重要性采样 (importance sampling) 和策略塑造 (policy shaping) 来平衡探索与利用。
    • 显著的性能提升和稳定性增强: 实验证明,ExGRPO 在多个模型和任务上,相比标准的在策略 RLVR 方法,取得了显著且一致的性能提升。更重要的是,它成功地稳定了在普通在策略训练下会崩溃的弱模型(如 Llama-3.1 8B)的训练过程,展示了其鲁棒性。

3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 强化学习 (Reinforcement Learning - RL): 一种机器学习范式。智能体 (agent) 在一个环境 (environment) 中通过执行动作 (action) 来获得奖励 (reward),其目标是学习一个策略 (policy) 来最大化累积奖励。在本文中,LLM 是智能体,推理问题是环境,生成思维链 (Chain-of-Thought - CoT) 的每一步(生成一个 token)是动作,最终答案是否正确决定了奖励。
    • 可验证奖励的强化学习 (RLVR): 一种特殊的 RL 应用,主要用于答案具有明确对错标准的任务(如数学、代码生成)。其奖励信号来自一个验证器 (verifier),该验证器能自动判断最终答案是否正确,从而提供稀疏但准确的二元(0或1)奖励。这避免了需要人工标注或训练一个复杂的奖励模型。
    • 在策略 (On-policy) 与离策略 (Off-policy):
      • 在策略: 用于更新模型的训练数据必须由当前最新的策略生成。每次更新后,旧数据即失效。优点是训练稳定,缺点是样本效率低。PPOGRPO 是典型的在策略算法。
      • 离策略: 能够使用由过去(旧)策略生成的数据进行训练。优点是样本效率高,缺点是可能因数据分布不匹配导致训练不稳定。经验回放是离策略学习的核心技术。
    • 经验回放 (Experience Replay): 一种离策略技术,将智能体过去的经验(状态-动作-奖励元组)存储在一个回放缓冲区 (replay buffer) 中。训练时,从缓冲区中采样数据进行学习。这打破了数据的时间相关性,并允许重复利用高价值经验。
    • 熵 (Entropy): 在信息论中,熵衡量一个概率分布的不确定性。在 LLM 中,模型在每个时间步生成下一个词元的概率分布也具有熵。高熵意味着模型对下一步的选择非常不确定(分布平坦);低熵意味着模型对下一步的选择非常确定(分布尖锐,有一个或几个词元的概率远高于其他)。本文发现,成功的推理路径往往是低熵的,即模型“胸有成竹”地生成出来的。
    • 组相对策略优化 (Group Relative Policy Optimization - GRPO): 一种 RLVR 算法。它通过对同一个问题生成一组(Group)候选答案,然后根据这组答案的平均表现来对每个答案的奖励进行归一化,从而得到一个更稳定的优势估计 (advantage estimation)。这避免了使用复杂的价值模型 (value model)。ExGRPO 正是建立在 GRPO 的基础之上。
  • 前人工作 (Previous Works):

    • RLVR 方法: 大多数方法如 DeepSeek-R1Oat-Zero 都采用在策略优化,虽然有效但计算成本高。一些工作尝试引入外部数据或专家演示来结合离策略学习,例如 LUFFY 使用离策略策略梯度,或通过监督微调 (SFT) 损失、知识蒸馏等方式混合数据。但这些工作忽略了回放缓冲区内部数据质量的异质性,即没有精细化管理和筛选经验。
    • 经验回放用于 LLMs: 近期一些工作开始在 LLM 中使用经验回放。例如,ReMixRePO 通过重放成功轨迹来加速训练,RLEP 重用来自更强策略的轨迹,RRL 动态地回顾有希望的早期状态。但这些方法大多忽略了重要性权重 (importance weighting) 来纠正离策略更新带来的分布不匹配问题,并且没有像本文一样系统地分析和利用经验的内在价值。
  • 技术演进 (Technological Evolution): LLM 推理能力的提升路径大致如下:

    1. 预训练 + 指令微调 (SFT): 通过海量文本预训练获得基础能力,再通过高质量的“问题-答案”对进行监督微调,使其遵循指令。
    2. 思维链 (CoT) + SFT: 在微调数据中加入详细的推理步骤,教会模型“思考过程”。
    3. 强化学习优化 (RLHF/RLVR): 在 SFT 之后,通过强化学习进一步优化。RLHF 依赖人类偏好,而 RLVR 适用于答案可自动验证的任务,更具可扩展性。
    4. 高效强化学习: 传统 RLVR 效率低下,本文的工作正处在提升 RLVR 样本效率和稳定性的技术前沿,通过引入并改进经典的经验回放技术,使其适用于大规模推理模型。
  • 差异化分析 (Differentiation): 与之前的经验回放工作相比,ExGRPO 的核心创新在于有原则的经验管理 (principled experience management)。它不是简单地存储和重放所有成功的经验,而是:

    1. 建立了经验价值的评估标准: 明确提出问题难度 (通过展开正确率衡量) 和轨迹质量 (通过熵衡量) 是两个关键维度。
    2. 设计了针对性的筛选机制: 基于上述标准,优先采样中等难度的问题和最低熵的轨迹,实现了对高价值经验的精确打击。
    3. 构建了更完备的优化框架: 结合了重要性采样校正、策略塑造延迟启动等机制,确保离策略学习的稳定性和有效性。

4. 方法论 (Methodology - Core Technology & Implementation Details)

本方法的核心思想是:通过一个精细的经验管理系统,筛选出最有价值的历史推理经验,并将其与实时探索的经验相结合,共同优化模型。

  • 方法原理 (Methodology Principles): 方法的直觉来源于教育学中的“最近发展区” (Zone of Proximal Development) 理论:对学习者而言,太简单的任务没有学习价值,太难的任务无法理解,只有那些处于其能力边缘、稍加努力就能掌握的任务才是最高效的学习材料。ExGRPO 将这个思想量化并应用到 LLM 的训练中。

    • 什么是有价值的经验? 论文通过一个初步研究(见 3.2 节)得出两个结论:
      1. 中等难度的问题最有价值: 完全掌握(Easy)或完全不会(Hard)的问题,提供的学习信号有限。而那些模型有时能做对,有时会做错的问题(Medium),最能促进模型能力提升。
      2. 低熵的成功轨迹质量更高: 在所有能得到正确答案的推理路径中,模型以更“自信”(低熵)的方式生成的路径,其推理逻辑往往也更正确,更值得学习,能避免模型学到“侥幸成功”的错误逻辑。
  • 方法步骤与流程 (Steps & Procedures): ExGRPO 的工作流程分为两大阶段:经验管理策略优化

    Figure 2: Overview of Experiential Group Relative Policy Optimization (ExGRPO). ExGRPO operates in two phases: (a) Experience Management and (b) Policy Optimization (cf. Algorithm 1). 图 2: ExGRPO 框架概览。左侧 (a) 为经验管理阶段,右侧 (b) 为策略优化阶段。

    阶段一:经验管理 (Experience Management) 该阶段负责维护一个高质量的回放缓冲区 (E\mathcal{E})。

    1. 经验收集 (Experience Collection):
      • 在每次在策略 (on-policy) 训练的 rollout 阶段,模型对一个问题 qq 产生 KK 个推理轨迹(答案)。
      • 使用验证器 (verifier) 判断每个轨迹的最终答案是否正确,计算出该问题的展开正确率 (rollout correctness),即 Acc(q)=k/K\text{Acc}(q) = k/K,其中 kk 是正确答案的数量。
      • 所有成功的轨迹 {o}\{o^*\} 连同其对应的问题 qq^* 和最新的正确率 Acc(q)\text{Acc}(q^*) 一起存入回放缓冲区 E\mathcal{E}
    2. 经验划分 (Experience Partition):
      • 缓冲区 E\mathcal{E} 内部不是一个扁平的列表,而是根据问题的最新正确率 Acc(q)\text{Acc}(q^*) 被动态地划分为不同的桶 (buckets)。例如,可以分为 Easy (75%-100%), Medium (25%-75%), Hard (0-25%) 三个桶。
      • 引入退休集合 (Retired Set): 如果一个问题的正确率达到 100%(即所有尝试都成功),它就会被移出缓冲区,放入退休集合。这确保了模型不再浪费计算资源在已经完全掌握的问题上。
    3. 经验选择 (Experience Selection):
      • 第一步:问题采样 (Question Sampling): 从缓冲区中采样问题时,不是均匀采样,而是带有偏好地采样。采样概率 pp 服从一个以 0.5 为中心的分布(如高斯分布),即中等正确率的桶(Medium 桶)被采样的概率最高。
      • 第二步:轨迹选择 (Trajectory Selection): 对于一个被选中的问题 qq^*,缓冲区中可能存储了它多个成功的轨迹。此时,选择其中熵最低的一个轨迹 oo^* 用于接下来的训练。熵是在当前策略 πθ\pi_\theta下计算的。

    阶段二:经验策略优化 (Experiential Policy Optimization) 该阶段负责使用管理好的经验来更新模型参数。

    1. 构建混合批次 (Mixed Mini-batch): 每一个训练批次 (mini-batch) B\mathcal{B} 由两部分数据构成:
      • 一部分是在策略样本 Bon\mathcal{B}_{\text{on}},即用当前策略实时生成的。
      • 另一部分是经验样本 Bexp\mathcal{B}_{\text{exp}},即从缓冲区中按上述流程精心挑选出来的。
      • 两者比例由一个超参数 ρ\rho 控制,例如 ρ=0.5\rho=0.5 表示经验样本占一半。
    2. 统一的优化目标 (Unified Objective):
      • ExGRPO 的总目标函数 IExGRPO(θ)\mathcal{I}_{\text{ExGRPO}}(\theta)在策略目标和离策略目标的加权和。
      • 对于在策略样本,使用标准的 GRPO 损失进行计算。
      • 对于离策略经验样本 oo^*,它是由过去的策略 πθpast\pi_{\theta_{\text{past}}} 生成的。为了在当前策略 πθ\pi_\theta 下进行无偏估计,需要引入重要性采样 (Importance Sampling) 权重。
    3. 关键机制确保稳定性:
      • 策略塑造 (Policy Shaping): 直接重放低熵经验可能导致模型过度自信,减少探索。为了缓解这个问题,论文对经验样本的梯度进行了一种非线性变换,它会放大低概率(新颖)信号的权重,同时抑制高概率信号,鼓励模型从经验中学习其“未知”的部分,而不是简单地模仿。
      • 延迟启动 (Delayed Start): 在训练初期,模型能力很弱,产生的“成功经验”质量很低,甚至可能是靠运气猜对的。因此,ExGRPO 的经验回放机制不是一开始就启动,而是等到模型的批次平均Pass@1超过一个预设阈值(如 35%)后才激活,确保了缓冲区的初始经验质量。
  • 数学公式与关键细节 (Mathematical Formulas & Key Details):

    • GRPO 优势估计 (Advantage Estimation): A^i=r(q,oi)μGqσGq \widehat{A}_i = \frac{r(q, o_i) - \mu_{\mathcal{G}_q}}{\sigma_{\mathcal{G}_q}}

      • A^i\widehat{A}_i: 第 ii 条轨迹 oio_i 的估计优势值。
      • r(q,oi)r(q, o_i): 轨迹 oio_i 的奖励(正确为1,错误为0)。
      • Gq\mathcal{G}_q: 针对问题 qq 生成的一组 KK 条轨迹。
      • μGq\mu_{\mathcal{G}_q}: 该组轨迹的平均奖励。
      • σGq\sigma_{\mathcal{G}_q}: 该组轨迹奖励的标准差。(注:论文提到他们遵循 Dr.GRPO 的做法,在实际计算中移除了标准差归一化 σGq\sigma_{\mathcal{G}_q})。
    • 轨迹熵 (Trajectory Entropy): H(o)=1otπ(otq,o<t)logπ(otq,o<t) H(o) = - \frac{1}{|o|} \sum_{t} \pi(o_t | q, o_{<t}) \log \pi(o_t | q, o_{<t})

      • H(o): 轨迹 oo 的平均熵。
      • o|o|: 轨迹 oo 的长度(token 数量)。
      • π(otq,o<t)\pi(o_t | q, o_{<t}): 在给定问题 qq 和已生成的前缀 o<to_{<t} 的条件下,模型生成下一个词元 oto_t 的概率。
    • ExGRPO 统一优化目标 (Unified Objective): IExGRPO(θ)=(1ρ)EqBon[]+ρEqBexp[] \mathcal{I}_{\mathrm{ExGRPO}}(\theta) = (1 - \rho) \cdot \mathbb{E}_{q \sim \mathcal{B}_{\text{on}}}[\dots] + \rho \cdot \mathbb{E}_{q^* \sim \mathcal{B}_{\text{exp}}}[\dots] 这是一个简化的形式,其完整形式(公式 4)如下: IExGRPO(θ)=(1ρ)EqBon[1Ki=1KCLIP(wi(θ),A^(oi,Gq))]+ρEqBexp[1K(CLIP(w(θ),A^(o,Gq))+i=1K1CLIP(wi(θ),A^(oi,Gq)))] \begin{aligned} \mathcal{I}_{\mathrm{ExGRPO}}(\theta) = & (1 - \rho) \cdot \mathbb{E}_{q \sim \mathcal{B}_{\text{on}}} \left[ \frac{1}{K} \sum_{i=1}^{K} \mathrm{CLIP}(w_i(\theta), \widehat{A}(o_i, \mathcal{G}_q)) \right] \\ & + \rho \cdot \mathbb{E}_{q^* \sim \mathcal{B}_{\text{exp}}} \left[ \frac{1}{K} \left( \mathrm{CLIP}(w^*(\theta), \widehat{A}(o^*, \mathcal{G}_{q^*})) + \sum_{i=1}^{K-1} \mathrm{CLIP}(w_i(\theta), \widehat{A}(o_i, \mathcal{G}_{q^*})) \right) \right] \end{aligned}

      • ρ\rho: 控制经验样本在批次中所占比例的超参数。
      • Bon\mathcal{B}_{\text{on}}, Bexp\mathcal{B}_{\text{exp}}: 分别为在策略样本批次和经验样本批次。
      • wi(θ)=πθπθoldw_i(\theta) = \frac{\pi_\theta}{\pi_{\theta_{\text{old}}}}: 在策略样本的重要性权重,πθold\pi_{\theta_{\text{old}}} 是 rollout 时的策略。
      • w(θ)=πθπθpastw^*(\theta) = \frac{\pi_\theta}{\pi_{\theta_{\text{past}}}}: 离策略经验样本的重要性权重πθpast\pi_{\theta_{\text{past}}} 是生成该经验时的旧策略。这是修正分布差异的关键。
      • Gq\mathcal{G}_{q^*}: 对于经验问题 qq^*,其优势估计组由 1 条经验轨迹 oo^*K-1 条新生成的轨迹 {oi}\{o_i\} 共同构成。
      • CLIP()\mathrm{CLIP}(\cdot): PPO 风格的裁剪函数,用于限制策略更新幅度,保证训练稳定。
    • 策略塑造 (Policy Shaping): 对于经验样本 oo^*,其对损失的贡献项被替换为: f(w(θ))A^(o,Gq)其中f(x)=xx+β f(w^*(\theta)) \cdot \widehat{A}(o^*, \mathcal{G}_{q^*}) \quad \text{其中} \quad f(x) = \frac{x}{x + \beta}

      • f(x): 一个非线性变换函数。
      • β\beta: 一个小的正常数(如 0.1)。当重要性权重 xx (即 w(θ)w^*(\theta)) 很小时, f(x)x/βf(x) \approx x/\beta 起到放大作用;当 xx 很大时,f(x)1f(x) \to 1 起到抑制作用。

5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):

    • 训练数据: OpenR1-Math 45k 子集,这是一个包含 4.5 万个数学问题的公开数据集,用于模型训练。
    • 评估数据:
      • 分布内 (In-Distribution) 数学推理基准: 这些任务与训练数据类型相似。包括 AIME 2024/2025AMCMATH-500MinervaOlympiadBench。这些数据集以其高难度和对复杂多步推理的要求而闻名。
      • 分布外 (Out-of-Distribution) 通用推理基准: 这些任务用于测试模型的泛化能力。包括 ARC-c (科学问答)、GPQA-Diamond (谷歌级别的难题问答) 和 MMLU-Pro (专业领域知识的多项选择题)。
  • 评估指标 (Evaluation Metrics):

    • Pass@1:

      1. 概念定义: Pass@k 指标衡量在 kk 次独立尝试中,模型至少有一次成功解决问题的概率。Pass@1 是其最严格的形式,衡量模型在单次尝试中就成功解决问题的比例。它直接反映了模型在实际应用中一次性给出正确答案的能力,是衡量推理模型性能最常用和最直观的指标之一。
      2. 数学公式: Pass@1=Number of problems solved in one attemptTotal number of problems \text{Pass@1} = \frac{\text{Number of problems solved in one attempt}}{\text{Total number of problems}} 对于一个问题,如果模型生成的单个答案被验证器判定为正确,则该问题被视为“解决”。
      3. 符号解释: 公示本身非常直观,无需额外符号解释。
    • Avg@BBZ:

      1. 概念定义: 该指标是为小样本测试集设计的。由于测试集问题数量有限(如 AIME 只有几十道题),单次 Pass@k 结果随机性很大。Avg@BBZ 通过在测试集上进行多次(如 32 次)独立的 Pass@k 评估,然后取平均值,来获得一个更稳定、更可信的性能估计。BBZ 可能代指某种特定的评估方案或工具集,但其核心是多次运行求平均。
      2. 数学公式: Avg@BBZ=1Nrunsi=1NrunsPass@ki \text{Avg@BBZ} = \frac{1}{N_{\text{runs}}} \sum_{i=1}^{N_{\text{runs}}} \text{Pass@k}_i
      3. 符号解释:
        • NrunsN_{\text{runs}}: 独立评估的总次数(例如 32)。
        • Pass@ki\text{Pass@k}_i: 第 ii 次独立评估得到的 Pass@k 分数。
  • 对比基线 (Baselines):

    • 基础模型: Qwen-Base (仅预训练) 和 Qwen-Instruct (经过指令微调),用于展示训练前的起点。
    • 主流零样本 RLVR 方法: PRIME-Zero, Oat-Zero, GPG-Zero, RePO-Zero。这些是近期的、有代表性的在策略或轻度离策略的 RLVR 方法。
    • 核心对比: On-Policy。这是本文最直接的对照组,即使用与 ExGRPO 相同的 GRPO 算法,但不使用任何经验回放机制。
    • 其他学习范式: SFT (仅监督微调) 和 SFT+RLSFT+RL (先 SFT 再 RL),用于与纯 RL 方法对比。
    • 持续学习场景: LUFFY,一个已经通过外部离策略数据训练过的强模型,用于测试 ExGRPO 在其基础上进行持续学习的能力。

6. 实验结果与分析 (Results & Analysis)

  • 核心结果分析 (Core Results Analysis):

    以下是论文中 Table 1 的转录结果,展示了基于 Qwen2.5-Math-7B 模型的主要性能对比。

    Model In-Distribution Performance Out-of-Distribution Performance
    AIME24 AIME25 AMC MATH-500 Minerva Olympiad Avg. ARC-c GPQA* MMLU-Pro Avg.
    Qwen-Base 11.5 4.9 31.3 43.6 7.4 15.6 19.0 18.2 11.1 16.9 15.4
    Qwen-Instruct 12.5 10.2 48.5 80.4 32.7 41.0 37.6 70.3 24.7 34.1 43.0
    Previous Zero RLVR Methods
    PRIME-Zero 17.0 12.8 54.0 81.4 39.0 40.3 40.7 73.3 18.2 32.7 41.4
    Oat-Zero 33.4 11.9 61.2 78.0 34.6 43.4 43.7 70.1 23.7 41.7 45.2
    GPG-Zero 29.8 12.1 67.8 80.8 30.9 44.7 44.4 70.3 40.4 50.5 41.6
    RePO-Zero 19.8 10.2 54.0 76.8 34.2 40.1 39.2 73.8 24.2 42.5 46.8
    Zero RLVR with ExGRPO
    On-Policy 24.9 15.5 59.2 84.8 38.2 49.3 45.3 82.6 37.4 49.2 56.4
    ExGRPO 31.6 18.7 66.3 87.4 36.0 50.1 48.3 84.7 37.4 52.9 58.3
    Continual RLVR with ExGRPO
    LUFFY 29.4 23.1 65.6 87.6 37.5 57.2 50.1 80.5 39.9 53.0 57.8
    → Continual LUFFY 30.7 22.5 66.2 86.8 41.2 55.3 50.4 81.8 49.0 54.7 61.8
    → On-Policy 24.8 17.8 67.5 88.4 38.6 55.3 48.7 81.9 47.0 53.3 60.7
    → ExGRPO 32.3 25.7 65.6 87.6 40.1 57.0 51.4 83.6 42.4 54.5 60.2
    • 主要发现: 从上表可以看出,ExGRPO 相比其直接对照组 On-Policy,在绝大多数基准上都取得了提升。
      • 分布内数学任务上,平均分从 45.3 提升到 48.3 ( +3.0 分,摘要中 +3.5+3.5 为多模型平均值)。尤其在最难的 AIME 基准上提升明显。

      • 分布外通用任务上,平均分从 56.4 提升到 58.3 ( +1.9 分,摘要中 +7.6+7.6 为多模型平均值),证明了其带来的泛化能力增益。

      • 在对已很强的 LUFFY 模型进行持续学习时,ExGRPO 依然能带来性能提升,而 On-Policy 反而导致了性能下降,这凸显了 ExGRPO 的稳定性和有效性。

        Figure 3: A comparison of benchmark performance for different backbone models and training variants, showing performance on both in-distribution and out-of-distribution tasks (cf. Section E.3). 图 3: 不同骨干模型的性能对比。此图展示了 ExGRPO 的普适性。无论是在 1.5B 的小模型还是 8B 的大模型上,也无论是基于 Qwen 还是 Llama 架构,ExGRPO (橙色条) 相比 On-Policy (蓝色条) 都有一致的性能优势。特别值得注意的是 Llama-3.1 8B Base 模型,On-Policy 方法直接训练失败 (灰色条,表示崩溃),而 ExGRPO 却能成功训练并取得不错的结果。

  • 训练动态分析与消融实验 (Analysis of Dynamics & Ablation Studies):

    Figure 4: Learning dynamics of On-Policy vs. ExGRPO during training Llama-3.1 8B. ExGRPO stabilizes training and achieves higher rewards, while on-policy suffers from training collapse. 图 4: On-Policy vs. ExGRPOLlama-3.1 8B 上的训练动态。此图完美诠释了 ExGRPO 的稳定性优势。对于能力较弱的 Llama-3.1 基础模型,On-Policy 方法(蓝色曲线)由于初期难以获得正确答案,导致奖励信号稀疏,模型陷入无效探索,最终 (Entropy) 爆炸,训练崩溃。而 ExGRPO (橙色曲线) 通过回放早期的“幸运成功”经验,为模型提供了宝贵的学习信号,使其奖励稳步提升,熵值保持在稳定水平,成功完成了训练。

    Figure 5: Dynamics of experience replay buffer and retried set. 图 5: 经验回放缓冲区和退休集合的动态。该图展示了在训练过程中,回放缓冲区(蓝色区域)和退休集合(粉色区域)的大小变化。随着训练进行,模型能力变强,越来越多的问题被完全掌握并进入退休集合,这使得训练可以更专注于尚未解决的难题,从而提高了数据效率。

    Figure 6: Dynamics of experience under different data conditions. 该图像是图表,展示了不同数据条件下的经验动态变化,分别以缓存量和保留量随训练步骤的变化趋势体现,比较了ExGRPO与去除问题筛选及不同  ho 值条件下的表现。 图 6: 不同数据条件下的经验动态。此图揭示了经验利用的效率比数量更重要。当 replay 比例过高 (ρ=75%\rho=75\%),模型过度沉溺于利用旧经验,探索不足,导致缓冲区和退休集增长缓慢,最终性能甚至低于基线。这说明了平衡探索与利用的重要性。ExGRPO 的设计(如 ρ=50%\rho=50\%)在这种平衡上做得很好。

    Figure 7: Comparison of validation performance of different ExGRPO variants. 该图像是论文中的图表,展示了不同ExGRPO变体在验证集上的性能对比。横轴为训练步数,纵轴为验证得分,曲线显示ExGRPO及其多个变体随训练进展的表现差异。 *图 7: ExGRPO 各组件消融实验。此图验证了 ExGRPO 每个设计模块的必要性。

    • ExGRPO (蓝色曲线) 效果最好。
    • w/o Shaping (移除了策略塑造):性能次之,说明策略塑造对于稳定学习、防止过度利用很重要。
    • w/o Ques. Sel. (随机选择问题):性能再次下降,证明了优先选择中等难度问题是有效的。
    • w/o Traj. Sel. (随机选择轨迹):性能进一步下降,说明了优先选择低熵轨迹是有效的。
    • On-Policy (绿色曲线) 是所有变体中最差的,这反向证明了经验回放本身的价值。*

7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary): 本文成功地论证了在面向大语言模型推理的强化学习中,有原则的经验管理 (principled experience management) 是一个被忽视但至关重要的环节。论文的核心贡献在于:

    1. 定义了价值经验: 首次提出并验证了展开正确率轨迹熵是判断推理经验价值的有效在线指标。
    2. 构建了 ExGRPO 框架: 基于上述发现,设计了一套包含经验划分、优先级采样和混合策略优化的新颖 RLVR 框架。
    3. 验证了有效性: 大量实验表明,ExGRPO 不仅能显著提升模型在各类推理任务上的性能和泛化能力,更能大幅增强训练的稳定性和样本效率,甚至能“拯救”在标准方法下训练失败的模型。
  • 局限性与未来工作 (Limitations & Future Work):

    • 局限性:
      • 作者在附录中提及了局限性(原文正文未展开)。根据方法推断,潜在局限性可能包括:1) 作为轨迹质量的代理指标可能不是完美的,某些复杂的正确推理也可能呈现高熵;2) 经验管理机制(如划分阈值、采样分布)引入了新的超参数,需要调试;3) 维护和采样经验缓冲区会带来额外的内存和计算开销。
    • 未来工作: 作者明确指出,未来的研究方向包括将 ExGRPO 的思想扩展到多模态推理和更复杂的智能体强化学习 (Agentic RL) 场景。
  • 个人启发与批判 (Personal Insights & Critique):

    • 个人启发:
      1. 从“炼丹”到“科学”: 这篇论文最大的启发在于它试图将 LLM 训练中一些模糊的直觉(如“给模型做难度适中的题”)转化为可量化、可操作的算法,是推动 LLM 训练从“艺术”走向“科学”的良好示范。
      2. 数据效率的重要性: 随着模型规模和训练成本的急剧增加,像 ExGRPO 这样关注样本效率和计算效率的研究变得越来越有价值。它证明了“聪明地学习”比“盲目地多学”更重要。
      3. 思想的可迁移性: “优先处理中等难度、高质量成功经验”的思想具有很强的普适性,不仅限于数学推理,很可能适用于代码生成、文本摘要、多步问答等几乎所有需要复杂生成的 LLM 任务。
    • 批判性思考:
      1. “正确性”判断的依赖: ExGRPO 的初步研究中,判断推理过程是否“逻辑正确”依赖于一个更强的模型 (Qwen3-32B) 作为裁判。这个裁判自身的判断可能存在偏差或错误,会给结论带来一定的噪声。
      2. 启发式规则的泛化性: 中等难度(25%-75%)和低熵这两个启发式规则虽然在本文的实验中表现优异,但它们是否在所有类型的数据集和模型架构上都绝对最优,仍有待商榷。例如,对于需要创造性探索的任务,过度偏爱低熵轨迹可能反而会抑制模型的创造力。
      3. 复杂性权衡: ExGRPO 相比纯在策略方法增加了系统的复杂性。在实际部署时,需要权衡其带来的性能提升与额外的实现和维护成本。尽管如此,其带来的稳定性和效率增益在许多场景下可能远超这些成本。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。