论文状态：已完成

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

发表：2025/05/29

序列策略优化 (40)大语言模型强化学习训练 (67)短链式思维链策略优化 (1)长链式思维链树状优化 (1)中间粒度优势估计 (1)

价格：0.100000

已有 6 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

提出分段策略优化(SPO)，在大语言模型强化学习中引入中间粒度的分段级优势估计，实现较轨迹级更精准、较词元级更稳定的信誉分配。SPO通过灵活分段、准确优势估计及新颖策略优化显著提升推理性能，在GSM8K和MATH500上均优于PPO和GRPO。

摘要

Enhancing the reasoning capabilities of large language models effectively using reinforcement learning (RL) remains a crucial challenge. Existing approaches primarily adopt two contrasting advantage estimation granularities: token-level methods (e.g., PPO) aim to provide fine-grained advantage signals but suffer from inaccurate estimation due to difficulties in training an accurate critic model. On the other extreme, trajectory-level methods (e.g., GRPO) solely rely on a coarse-grained advantage signal from the final reward, leading to imprecise credit assignment. To address these limitations, we propose Segment Policy Optimization (SPO), a novel RL framework that leverages segment-level advantage estimation at an intermediate granularity, achieving a better balance by offering more precise credit assignment than trajectory-level methods and requiring fewer estimation points than token-level methods, enabling accurate advantage estimation based on Monte Carlo (MC) without a critic model. SPO features three components with novel strategies: (1) flexible segment partition; (2) accurate segment advantage estimation; and (3) policy optimization using segment advantages, including a novel probability-mask strategy. We further instantiate SPO for two specific scenarios: (1) SPO-chain for short chain-of-thought (CoT), featuring novel cutpoint-based partition and chain-based advantage estimation, achieving $6$ - $12$ percentage point improvements in accuracy over PPO and GRPO on GSM8K. (2) SPO-tree for long CoT, featuring novel tree-based advantage estimation, which significantly reduces the cost of MC estimation, achieving $7$ - $11$ percentage point improvements over GRPO on MATH500 under 2K and 4K context evaluation. We make our code publicly available at https://github.com/AIFrameResearch/SPO.

思维导图

论文精读

中文精读约 20 分钟读完 · 11,857 字

论文基本信息 (Bibliographic Information)

标题 (Title): Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models (分段策略优化：大语言模型强化学习中有效的分段级信誉分配)
作者 (Authors): Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu
隶属机构 (Affiliations): 中国科学院软件研究所 (Institute of Software, Chinese Academy of Sciences), 中国科学院大学 (University of Chinese Academy of Sciences), 香港城市大学 (City University of Hong Kong)
发表年份 (Publication Year): 2025 (根据论文元数据，该论文提交于2025年，实际为2024年提交的预印本)
摘要 (Abstract): 使用强化学习 (RL) 有效提升大语言模型的推理能力仍是一个关键挑战。现有方法主要采用两种对比鲜明的优势估计粒度：词元级 (token-level) 方法（如 PPO）旨在提供细粒度的优势信号，但因难以训练准确的评论家模型而导致估计不准；另一个极端是轨迹级 (trajectory-level) 方法（如 GRPO），它仅依赖最终奖励的粗粒度优势信号，导致信誉分配不精确。为解决这些局限，我们提出了分段策略优化 (SPO)，一种新颖的 RL 框架，它利用中间粒度的分段级优势估计，通过比轨迹级方法更精确的信誉分配和比词元级方法更少的估计点，取得了更好的平衡，从而能够在没有评论家模型的情况下，基于蒙特卡洛 (MC) 方法实现准确的优势估计。SPO 包含三个具有创新策略的组件：(1) 灵活的分段划分；(2) 准确的分段优势估计；(3) 使用分段优势进行策略优化，包括一种新颖的概率掩码策略。我们进一步将 SPO 实例化为两种具体场景：(1) 用于短思维链 (CoT) 的 SPO-chain，其特点是新颖的基于切点的划分和基于链的优势估计，在 GSM8K 数据集上比 PPO 和 GRPO 取得 6-12 个百分点的准确率提升。(2) 用于长思维链的 SPO-tree，其特点是新颖的基于树的优势估计，显著降低了 MC 估计的成本，在 2K 和 4K 上下文评估下，于 MATH500 数据集上比 GRPO 取得 7-11 个百分点的提升。
原文链接 (Source Link):
- 原文链接: https://arxiv.org/abs/2505.23564
- PDF 链接: https://arxiv.org/pdf/2505.23564v2.pdf
- 发布状态: 预印本 (Preprint)，提交于 arXiv 平台。

整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why)

核心问题: 在利用强化学习 (RL) 提升大语言模型 (LLM) 的复杂推理能力（如数学、逻辑）时，如何进行有效且高效的信誉分配 (credit assignment) 是一个核心难题。信誉分配指的是，当模型生成一长串推理步骤（词元序列）并最终得到一个奖励（答案正确或错误）时，我们如何判断序列中的哪些步骤（词元）是“好”的，应该被鼓励，哪些是“坏”的，应该被抑制。
现有挑战与空白 (Gap):
1. 词元级 (Token-level) 方法的困境: 以 PPO 为代表的方法试图为每个生成的词元都计算一个优势值（即奖励信号）。这需要一个被称为评论家 (critic) 的模型来评估每个中间状态的价值。然而，在 LLM 中，状态（即已生成的文本）千变万化，训练一个能准确评估所有可能状态的评论家模型极其困难。这导致优势估计不准确，进而影响了学习效果。
2. 轨迹级 (Trajectory-level) 方法的局限: 以 GRPO 为代表的方法完全放弃了评论家模型，直接将最终的奖励（如答案正确得1分，错误得0分）作为整个生成序列（轨迹）的优势值，并平均分配给序列中的每一个词元。这种方法虽然简单高效，但过于粗糙。对于一个长推理过程，即使最终答案错误，其中也可能包含许多正确的中间步骤。反之，一个最终正确的答案也可能包含冗余或低效的步骤。轨迹级方法无法区分这些好坏，导致信誉分配不精确，模型学习效率低下，甚至容易过拟合。
本文切入点: 既然“太细”（词元级）和“太粗”（轨迹级）都有问题，那么能否找到一个中间粒度来平衡二者？本文的创新思路正是基于此，提出了分段级 (segment-level) 的信誉分配。即将一个完整的生成序列划分为若干个连续的片段 (segment)，并为每个片段计算优势值。

核心贡献/主要发现 (Main Contribution/Findings - What)

提出了 SPO 框架: 论文提出了分段策略优化 (Segment Policy Optimization, SPO)，一个全新的、模块化的 RL 框架。它通过在“分段”这一中间粒度上进行优势估计，实现了：
- 比轨迹级方法更精确的信誉分配，能够奖励正确的局部进展。
- 比词元级方法需要更少的估计点，因此可以放弃不稳定的评论家模型，转而使用更可靠的蒙特卡洛 (Monte Carlo, MC) 采样来直接估计优势，提高了估计的准确性。
引入了多种创新技术:
1. 自适应分段策略 (Cutpoint-based Partition): 提出一种基于“切点”（模型输出概率低的词元）的智能分段方法，使得分段边界更有可能落在推理的关键转折点上。
2. 高效优势估计 (Tree-based Estimation): 针对长推理链，设计了一种树状的蒙特卡洛采样结构，极大地提高了样本利用率和计算效率。
3. 概率掩码优化 (Probability-Mask Optimization): 在策略更新时，只将优势信号作用于分段内的关键“切点”词元，进一步聚焦信誉分配，提升学习效率。
验证了方法的有效性:
- 短思维链 (SPO-chain): 在 GSM8K (小学数学) 数据集上，准确率比 PPO 和 GRPO 高出 6-12 个百分点。
- 长思维链 (SPO-tree): 在 MATH (竞赛级数学) 数据集上，准确率比 GRPO 高出 7-11 个百分点，尤其在上下文长度受限的情况下优势明显。

基础概念 (Foundational Concepts)

马尔可夫决策过程 (Markov Decision Process, MDP): 这是将序列决策问题（如棋类游戏或机器人控制）数学化的标准框架，也是强化学习的理论基础。在 LLM 生成文本的场景下，可以这样理解：
- 状态 (State, $s_t$ ): 在 $t$ 时刻，状态就是已经生成的全部文本，包括初始的提示 (prompt) 和模型已输出的词元序列。
- 动作 (Action, $a_t$ ): 在 $t$ 时刻，动作就是从词汇表中选择下一个词元 $y_t$ 。
- 策略 (Policy, $\pi_\theta(a_t|s_t)$ ): 这是 LLM 的核心，即一个由参数 $\theta$ 控制的神经网络。它根据当前状态 $s_t$ （已生成的文本），计算出下一个词元为 $a_t$ 的概率。
- 奖励 (Reward, $\mathcal{R}$ ): 在 LLM 推理任务中，奖励通常是稀疏 (sparse) 且延迟 (delayed) 的。即在生成过程中间步骤没有奖励（奖励为0），只有在整个序列生成完毕后，根据最终答案是否正确，给予一个一次性的奖励（例如，正确为+1，错误为0）。
- 价值函数 (Value Function, V(s)): 从状态 $s$ 出发，遵循当前策略一直到结束，所能获得的期望累积奖励。它衡量了一个状态的“好坏”程度。
- 优势函数 (Advantage Function, A(s, a)): 在状态 $s$ 下，采取动作 $a$ 相对于遵循当前策略的平均表现有多大的“优势”。其定义为 $A(s, a) = Q(s, a) - V(s)$ ，其中 Q(s, a) 是在状态 $s$ 采取动作 $a$ 后的期望累积奖励。在 LLM 的确定性转移（即选择一个词元后，下一个状态是唯一确定的）和稀疏奖励设定下，它可以简化为 $A(s, a) = V(s') - V(s)$ ，其中 $s'$ 是执行动作 $a$ 后的新状态。这个简化的形式直观地表示了执行动作 $a$ 带来的价值提升。
蒙特卡洛估计 (Monte Carlo Estimation): 一种基于随机采样来估计期望值的方法。在 RL 中，要估计一个状态 $s$ 的价值 V(s)，我们可以从 $s$ 出发，让模型多次独立地生成完整的序列（即进行多次“模拟”或 rollout），然后计算这些序列最终获得的平均奖励。这个平均值就是对 V(s) 的一个无偏估计。它的主要缺点是方差较大，但本文指出，在 LLM 推理任务中，由于奖励是二元（0或1）的，方差被有效控制在了一个较小的范围内（最大为0.25）。

前人工作 (Previous Works)

近端策略优化 (Proximal Policy Optimization, PPO): 一种主流的词元级 (token-level) RL 算法。它使用一个评论家 (critic) 模型来估计每个词元位置的状态价值 $V(s_t)$ ，从而计算出每个词元的优势值 $\hat{A}_t$ 。为了稳定训练，它通过一个“裁剪”机制限制每次策略更新的幅度。其目标函数大致如下： $\mathcal{J}_{\mathrm{PPO}}(\theta) = \mathbb{E} \left[ \sum_t \min \left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right]$
- $r_t(\theta) = \frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}$ 是新旧策略的概率比。
- $\hat{A}_t$ 是在 $t$ 时刻的优势估计。
- $\epsilon$ 是一个超参数，用于定义裁剪范围。 核心问题： 如前所述，训练一个准确的评论家模型在 LLM 场景中非常困难，导致 $\hat{A}_t$ 不可靠。
组相对策略优化 (Group Relative Policy Optimization, GRPO): 一种轨迹级 (trajectory-level) RL 算法。它完全不使用评论家模型。对于同一个输入问题，它会生成多（组）个候选答案序列。然后，它根据每个序列的最终奖励（正确/错误）计算一个归一化的优势值，并将这个单一的优势值赋给该序列中的所有词元。 核心问题： 信誉分配过于粗糙，无法区分序列内部不同步骤的贡献，尤其在长序列中问题严重。论文的实验也发现 GRPO 容易过拟合。
VinePPO: 一篇与本文思路非常相似的近期工作。它也意识到了 PPO 评论家模型的问题，并提出使用蒙特卡洛估计来替代。它将一个推理序列按照启发式规则（如换行符 $\n$ ）分割成多个“步骤”，并为每个步骤计算优势值。 核心问题： VinePPO 的分步依赖于固定的、有语义的标记（如换行符），适用性受限。更重要的是，为了估计每个步骤的优势，它需要从每个步骤的边界重新进行多次采样，计算成本非常高，尤其不适用于长推理链。

差异化分析 (Differentiation)

特性	PPO	GRPO	VinePPO	SPO (本文)
优势粒度	词元级 (Token-level)	轨迹级 (Trajectory-level)	步骤级 (Step-level)	分段级 (Segment-level)
优势估计方法	评论家模型 (Critic Model)	最终奖励归一化	蒙特卡洛采样 (MC)	蒙特卡洛采样 (MC)
划分方式	无 (逐词元)	无 (整条轨迹)	启发式规则 (如换行符)	灵活划分 (固定长度或自适应切点)
采样效率	N/A (依赖评论家)	高 (仅需一次生成)	低 (需在各步骤边界重复采样)	中 (SPO-chain) 到高 (SPO-tree)
核心优势	细粒度反馈	简单、无评论家	无评论家、比 GRPO 精确	平衡精度与效率、无需评论家、更灵活
核心劣势	评论家不稳定、估计不准	信誉分配不精确、易过拟合	计算成本高、划分方式死板	/

总结： 本文的 SPO 框架可以看作是对 VinePPO 思想的泛化和改进。SPO 提出的“分段”概念比 VinePPO 的“步骤”更通用，不依赖于特定的语义符号。更关键的是，SPO-tree 提出的树状采样方法解决了 VinePPO 的核心痛点——高昂的采样成本，使其能高效应用于长序列推理任务。

方法论 (Methodology - Core Technology & Implementation Details)

SPO 框架的核心思想是在一个中间粒度上实现精确且高效的信誉分配。该框架由三个可定制的模块组成，如下图所示：

Figure 1: Overview of SPO framework. Our framework consists of three components: segment partition, segment advantage estimation, and policy optimization, each of which can be implemented in differen… 该图像是论文中图1的示意图，展示了SPO框架的三个核心组件：灵活的分段划分、准确的分段优势估计和基于分段优势的策略优化。图中具体说明了基于切点的分段方法和概率掩码策略对切点赋予分段优势的过程。

方法原理 (Methodology Principles)

SPO 框架包含三个关键组件，旨在解决分段优化的三个核心问题：(1) 如何划分分段？ (2) 如何估计分段的优势？ (3) 如何利用分段优势更新模型？

方法步骤与流程 (Steps & Procedures)

1. 灵活的分段划分 (Flexible Segment Partition)

给定一个模型生成的完整词元序列 $\pmb{y} = [y_1, y_2, \dots, y_T]$ ，SPO 将其划分为 $K$ 个连续的片段 $\pmb{y} = [\mathbf{seg}_1, \mathbf{seg}_2, \dots, \mathbf{seg}_K]$ 。论文提出了两种划分策略：

固定词元数划分 (Fixed Token Count Partition): 最简单直接的方法，将序列划分为若干个等长的片段。这种方法适用于长推理链场景 (SPO-tree)。
自适应切点划分 (Adaptive Cutpoint-based Partition): 一种更智能的策略，专为短推理链设计 (SPO-chain)。
- 切点 (Cutpoint): 首先定义“切点”，即模型在生成时不确定性较高的词元。具体来说，就是那些生成概率 $\pi_\theta(y_t|s_t)$ 低于某个阈值 $\rho$ 的词元。这些位置往往是推理路径可能发生分歧的关键点。
- 划分原则: 将序列划分为 $K$ 个分段，使得每个分段包含大致相同数量的“切点”。这确保了每个分段都含有相似数量的关键决策点，从而使后续的优势估计和信誉分配更有意义。

2. 基于蒙特卡洛的分段优势估计 (Segment Advantage Estimation via MC)

对于第 $k$ 个分段 $\mathbf{seg}_k$ ，其分段优势 (segment advantage) 被定义为生成该分段所带来的价值增量：

$A_k^{\mathrm{seg}} := V(s_{t_{k+1}}) - V(s_{t_k})$

$s_{t_k}$ 是第 $k$ 个分段开始前的状态（即已生成的文本）。
$s_{t_{k+1}}$ 是第 $k$ 个分段结束时的状态。
V(s) 是状态 $s$ 的价值（即从该状态出发最终能获得正确答案的期望概率）。

SPO 放弃了使用不稳定的评论家模型来估计 V(s)，而是采用蒙特卡洛 (MC) 采样。论文提出了两种具体的 MC 估计策略：
链式优势估计 (Chain-based Advantage Estimation): 这是 SPO-chain 使用的方法，适用于短推理链。其过程如下图 (a) 所示。对于每个分段的边界点 $s_{t_k}$ ，从该点开始，独立地让模型生成 $N$ 条完整的后续轨迹。将这 $N$ 条轨迹的最终奖励（0或1）取平均，就得到了对 $V(s_{t_k})$ 的估计值 $\hat{V}(s_{t_k})$ 。然后通过公式 $\hat{A}_k^{\mathrm{seg}} = \hat{V}(s_{t_{k+1}}) - \hat{V}(s_{t_k})$ 计算分段优势。 缺点: 用于估计一个点价值的 $N$ 条轨迹在估计完后就被丢弃，造成了样本浪费，在长序列中计算成本高昂。
树式优势估计 (Tree-based Advantage Estimation): 这是 SPO-tree 的核心创新，专为解决长推理链的效率问题而设计。其过程如下图 (b) 所示。它将采样过程组织成一棵树：
- 树的构建: 从一个问题（根节点）开始，模型生成 $B_1$ 个不同的第一分段，形成第一层的 $B_1$ 个子节点。然后，从每个子节点出发，再各自生成 $B_2$ 个不同的第二分段，以此类推，形成一棵分支树。
- 价值估计: 价值通过从叶子节点向根节点自底向上递归计算。一个叶子节点的价值就是其对应完整轨迹的最终奖励。一个非叶子节点 $n$ 的价值 $\hat{V}(n)$ 是其所有子节点价值的平均值。
- 优势估计: 节点 $n$ 的优势 $\hat{A}(n)$ 是其自身价值 $\hat{V}(n)$ 与其兄弟节点 (siblings) 平均价值的差值（或进行标准化后的值）。 优点: 树结构极大地复用了采样。一条从根到叶的路径就是一个完整的样本轨迹，但所有轨迹共享了前面的路径。这显著减少了总的生成词元数，提高了样本效率。
  
  该图像是论文中图5的图表，展示了SPO-tree与GRPO在MATH500及GSM8K数据集上的性能对比。包含三个子图：(a) SPO-tree(6-6-6)在MATH500上与GRPO的准确率随时间变化；(b) 不同树结构在GSM8K上的准确率变化；(c) SPO-tree在GSM8K上采用不同优势估计方法的准确率变化。

3. 使用分段优势进行策略优化 (Policy Optimization Using Segment Advantages)

得到每个分段的优势 $\hat{A}_k^{\mathrm{seg}}$ 后，最后一步是用它来更新模型策略。

标准策略梯度: 一个直接的方法是将分段优势 $\hat{A}_k^{\mathrm{seg}}$ 赋给该分段内的所有词元，然后使用类似 PPO 的目标函数进行优化。
带词元概率掩码的策略梯度 (Policy Gradient with Token-Probability Masks): 这是论文提出的一个改进策略。其直觉是，一个分段内的价值变化主要是由那些不确定性高的“切点”词元驱动的。因此，不应该将优势信号平均分配给所有词元，而应该只分配给这些关键的切点。具体实现是，创建一个掩码 $M_t$ ，当词元 $y_t$ 是一个切点时（即 $\pi_{\theta_{\text{old}}}(y_t|s_t) < \rho$ ）， $M_t=1$ ，否则为0。最终的优化目标函数（以 SPO-chain 为例）变为： $\mathcal{J}_{\mathrm{SPO}}^{\mathrm{chain}}(\theta) = \mathbb{E} \left\{ \frac{1}{Z} \sum_{k=1}^K \sum_{t=t_k}^{t_{k+1}-1} \left[ M_t \cdot \min \left( r_t(\theta) \hat{A}_k^{\mathrm{seg}}, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_k^{\mathrm{seg}} \right) \right] - \beta D_{\mathrm{KL}}(\pi_\theta \| \pi_{\mathrm{ref}}) \right\}$
- $M_t = \mathbb{I}(\pi_{\theta_{\text{old}}}(a_t|s_t) < \rho)$ 是概率掩码。
- $Z = \sum_t M_t$ 是归一化因子，保证总梯度幅度不变。
- $\hat{A}_k^{\mathrm{seg}}$ 是第 $k$ 个分段的优势。
- $D_{\mathrm{KL}}(\pi_\theta \| \pi_{\mathrm{ref}})$ 是一个KL散度惩罚项，防止模型偏离原始参考模型太远。这个掩码机制使得梯度更新只发生在那些“举棋不定”的关键决策点上，实现了更精细的信誉分配。

实验设置 (Experimental Setup)

数据集 (Datasets)

GSM8K: 一个包含约 8500 个高质量、需要 2-8 步推理的小学水平数学应用题的数据集。它被广泛用于评估模型的链式思维推理能力。
MATH: 一个包含 12500 个来自高中数学竞赛的难题数据集，涵盖代数、几何、数论等多个领域。题目难度远高于 GSM8K，用于评估模型在长且复杂的推理链上的能力。
- 数据样本示例 (来自附录J):
  
  Problem: What is the smallest positive integer $n$ such that $17n \equiv 1234 \pmod 7$ ?
  
  SPO-tree Model Output: Okay, so I need to find the smallest positive integer $n$ such that $17n \equiv 1234 \pmod 7$ . ... First, let me reduce 17 modulo 7. ... So, $17 \equiv 3 \pmod 7$ . The equation simplifies to $3n \equiv 1234 \pmod 7$ . Now, I need to find 1234 modulo 7. ... $1234 \equiv 2 \pmod 7$ . So, now the equation is $3n \equiv 2 \pmod 7$ . ... I need to find the multiplicative inverse of 3 modulo 7. ... $3 \times 5 = 15 \equiv 1 \pmod 7$ . Yes! So, 5 is the inverse. ... Multiplying both sides by 5 gives: $5 \times 3n \equiv 5 \times 2 \pmod 7$ , which simplifies to $n \equiv 10 \pmod 7$ . And $10 \equiv 3 \pmod 7$ . So, the smallest positive integer $n$ is 3. ... Final Answer The smallest positive integer $n$ is $\boxed{3}$ .
Knights-and-Knaves: 一个经典的逻辑谜题数据集，用于测试模型的逻辑演绎推理能力，以验证 SPO 在非数学领域的泛化性。

评估指标 (Evaluation Metrics)

Pass@1 (Accuracy):
1. 概念定义 (Conceptual Definition): Pass@k 是一个用于代码生成和数学推理等任务的常用指标。它衡量的是，对于一个问题，让模型独立尝试生成 $k$ 次答案，只要其中有至少一次是正确的，就算这个问题通过了。Pass@1 是其最严格的形式（ $k=1$ ），它衡量模型在单次生成（即不进行多次尝试，直接采用贪心解码或温度为0的采样）中就得到正确答案的概率。这通常被直接称为准确率 (Accuracy)。
2. 数学公式 (Mathematical Formula): $\text{Pass@k} = \mathbb{E}_{\text{problems}} \left[ 1 - (1 - \text{pass})^k \right]$ 当 $k=1$ 时，公式简化为： $\text{Pass@1} = \mathbb{E}_{\text{problems}}[\text{pass}] = \frac{\text{Number of correctly solved problems}}{\text{Total number of problems}}$
3. 符号解释 (Symbol Explanation):
  - $\text{pass}$ : 一个布尔变量，表示单次尝试是否成功解决了问题。
  - $k$ : 每次评估时允许的总尝试次数。

对比基线 (Baselines)

RestEM, DPO, RLOO, VinePPO: 这些是近期提出的用于提升 LLM 推理能力的代表性方法。
PPO: 词元级强化学习的经典代表。
GRPO: 轨迹级强化学习的经典代表，也是长序列推理模型（如 DeepSeekMath）采用的主流训练方法。

超参数与计算资源 (Hyperparameters & Compute Resources)

实验在单个 A100 GPU (40GB 或 80GB) 上进行。以下是部分关键实验的超参数设置（转录自原文附录 H）。

SPO-chain on RhoMath 1.1B for GSM8K:

Hyperparameter	Value
Target train batch size	64
Cutpoint interval	5
K (MC samples)	9
Learning rate	1e-6
Prob mask threshold	0.9

SPO-tree on DeepSeek-R1-Distill-Qwen 1.5B for MATH:

Hyperparameter	Value
Target train batch size	128
M (Tokens per level)	600
Branch factors	[6, 6, 6]
Learning rate	1e-6
Prob mask threshold	0.9

实验结果与分析 (Results & Analysis)

核心结果分析

SPO-chain 在短 CoT 场景 (GSM8K)

Figure 6: Validation accuracy on GSM8K using policy iteration optimizing method. 该图像是一个折线图，展示了SPO-chain方法在使用策略迭代优化时，GSM8K数据集上的验证准确率随迭代次数的变化趋势。随着迭代次数增加，验证准确率逐渐提升，最高达到约65%。

与基线对比 (图 3a): SPO-chain (int5)（每5个切点划分一段）在 GSM8K 测试集上达到了 56.7% 的准确率，显著优于所有基线方法，包括 PPO (44.6%) 和 GRPO (45.7%)，提升幅度分别达到 12.1 和 11.0 个百分点。这强有力地证明了分段级信誉分配的优越性。
训练效率 (图 3b): SPO-chain 的单轮生成时间比 VinePPO 更短，因为它采用了更高效的自适应切点划分，减少了不必要的优势估计点。
收敛性能 (图 3c): 在相同的训练时长下，SPO-chain 的验证集准确率持续稳定提升，而 GRPO 很快就达到了性能饱和点，这再次印证了 GRPO 粗粒度信号导致的学习瓶颈和过拟合问题。

SPO-tree 在长 CoT 场景 (MATH)

Figure 8: GRPO on GSM8K exhibits rapid overfitting: while training accuracy improves steadily (Fig. 8a), but the unique response number constantly drops (Fig. 8b), and validation accuracy saturates e… 该图像是三个折线图组成的图表，展示了GRPO算法在GSM8K任务上的训练过程表现。图(a)显示训练准确率随迭代提升，图(b)显示训练期间唯一响应数量持续下降，图(c)显示验证准确率早期达到饱和状态，反映出过拟合倾向。

与 GRPO 对比 (图 5a): 在 MATH500 数据集和 2K 上下文长度的设置下，SPO-tree 的准确率在整个训练过程中始终远高于 GRPO 和带有概率掩码的 GRPO。这表明即使在长推理链中，SPO 的分段优势信号依然比轨迹级信号有效得多。

不同上下文长度下的表现 (Table 1): 以下是原文 Table 1 的完整转录。

Dataset	Eval Context Size	Base	GRPO	SPO-tree	DeepScaleR*	STILL-3*
MATH500	2K	0.566	0.62	0.736	0.538	0.662
	4K	0.74	0.752	0.828	0.744	0.794
	32K	0.838	0.84	0.848	0.878	0.846
AIME24	2K	0.067	0.033	0.1	0	0.067
	4K	0.167	0.2	0.2	0.167	0.133
	32K	0.267	0.333	0.333	0.333	0.233

分析: SPO-tree 模型仅在最大 4K 的上下文长度下训练。

在 2K 和 4K 的评估中，SPO-tree 的性能远超所有其他方法，包括同样基于 GRPO 训练但使用了更大上下文和更多数据的 DeepScaleR 和 STILL-3。
这表明 SPO 的精确信誉分配显著提升了模型的词元效率 (token efficiency)，使其能用更短、更直接的推理路径得出正确答案，因而在上下文长度受限时表现更佳。
相比之下，基于 GRPO 的 DeepScaleR 在低上下文（2K/4K）下性能甚至不如基线模型，这可能是因为 GRPO 的粗糙信号使其学习了冗长、低效的推理模式，在上下文窗口被压缩时难以发挥。

消融实验/参数分析

Figure 7: Illustration of the replay buffer. In this example, in each iteration, we sample two questions, with each question generating four trajectories. These trajectories are distributed across fo… 该图像是论文中关于重放缓冲区的示意图，展示了在每次迭代中采样两个问题，每个问题生成四条轨迹，这些轨迹分布在四次迭代中进行优化。图中蓝色区域表示第i次迭代使用的轨迹，涵盖8个不同问题及其轨迹，保证样本分布均衡。

分段粒度影响 (图 4a): 实验比较了不同的切点间隔（2, 5, 100）。结果显示，过粗的粒度（间隔100，接近轨迹级）性能最差。适中的粒度（间隔5）在训练效率和最终性能之间取得了最佳平衡。这验证了“中间粒度”设计的有效性。
分段策略比较 (图 4b): SPO-chain 的自适应切点划分策略，即使在总采样预算更低的情况下，也取得了比固定词元数划分和 VinePPO 的启发式划分（按步骤）更好的性能，证明了其策略的先进性。
概率掩码策略消融 (图 4c):
- 移除概率掩码后，SPO-chain 的准确率从 56.7% 下降到 55.0%，证明了该技术的有效性。
- 令人惊讶的是，将该技术应用到 GRPO 上，使其准确率从 45.7% 大幅提升到 53.6%。这表明，即使对于粗粒度的轨迹级信号，将信号集中于关键决策点也能极大改善信誉分配，减少过拟合。这是一个非常有价值的发现。

总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary)

主要发现: 本文成功论证了在 LLM 的强化学习中，采用分段级 (segment-level) 的中间粒度进行信誉分配，是一种比现有词元级和轨迹级方法更优越的策略。
核心贡献: 提出了 SPO 框架，它通过放弃不稳定的评论家模型，转而使用高效的蒙特卡洛方法 (SPO-chain 和 SPO-tree) 来估计分段优势，实现了更精确的信誉分配和更高的学习效率。同时，创新的自适应切点划分和概率掩码优化技术进一步提升了性能。
意义: SPO 为解决 RL for LLM 中的核心难题——信誉分配，提供了一个有效、灵活且高效的新范式，实验结果在多个数学推理基准上取得了当前最佳（SOTA）水平，推动了该领域的发展。

局限性与未来工作 (Limitations & Future Work)

上下文长度限制: 作者承认，在长 CoT 场景的实验中，受限于计算资源，模型训练的最大上下文长度仅为 4K。未来计划扩展到更大的上下文尺寸。
任务泛化性: 目前的实验主要集中在数学推理任务上。未来需要将 SPO 应用于更广泛的领域，如代码生成和通用的 RLHF (基于人类反馈的强化学习)，以检验其泛化能力。
样本效率: SPO-tree 虽然比 SPO-chain 高效，但仍属于在线 (on-policy) 算法范畴，样本利用率有待进一步提升。未来可以探索与离线 (off-policy) 算法结合，更充分地复用高质量样本。

个人启发与批判 (Personal Insights & Critique)

个人启发:
1. “中间地带”的智慧: SPO 的核心思想——在两个极端之间寻找平衡点——是一种非常经典且强大的工程和科研思路。它提醒我们，在面对复杂问题时，不必拘泥于已有的、非此即彼的方案，探索“中间粒度”或“混合方案”往往能带来突破。
2. 简单而有效的创新: 概率掩码 策略非常巧妙。它没有引入复杂的结构，仅仅通过一个简单的掩码操作，就显著提升了信誉分配的精度，甚至能极大地赋能原本表现不佳的 GRPO 算法。这体现了“好的创新往往是简单的”这一原则。
3. 问题导向的研究: 论文从 PPO 的评论家不准和 GRPO 的分配不精这两个明确的痛点出发，提出的方案精准地解决了这些问题，研究逻辑清晰，论证扎实。
批判性思考:
1. 超参数敏感性: 自适应切点划分和概率掩码都依赖于一个关键的概率阈值 $\rho$ 。然而，论文并未深入探讨模型性能对这个超参数的敏感性。 $\rho$ 的选择是否具有普适性，或者是否需要针对不同模型和任务进行精细调整，这是一个悬而未决的问题。
2. “切点”假设的适用性: 该方法的核心假设是低概率词元是推理的关键转折点。这个假设在逻辑严密的数学推理中可能非常有效（如附录I的例子所示）。但在一些更具创造性、开放性的任务（如文学创作、对话）中，低概率词元可能代表的是“创新”或“惊喜”，而非“决策错误”，此时将负向优势信号施加于其上是否合适，值得商榷。
3. 成本与收益的权衡: SPO-chain 和 SPO-tree 虽然比 VinePPO 高效，但相比于 GRPO 这样只需一次前向传播的算法，其计算成本（尤其是 SPO-chain 的多次 rollout）仍然显著更高。在实际大规模部署时，这种性能提升是否值得其带来的额外计算开销，需要根据具体应用场景进行权衡。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。