论文状态：已完成

Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents

发表：2025/10/08

序列策略优化 (40)大语言模型强化学习训练 (67)跨层次偏差校正 (1)分层优势归一化 (1)基于结构异质性的强化学习 (1)

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文针对LLM搜索智能体轨迹的结构异质性问题，提出分层GRPO方法及分层优势标准化（SAN），通过将轨迹划分为同质层内计算优势值，消除跨层偏差，实现更稳定且无偏的信用分配。实验验证其在多步问答中显著优于传统方法，提高训练奖励和稳定性。

摘要

000 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 Under review as a conference paper at ICLR 2026 S TRATIFIED GRPO: H ANDLING S TRUCTURAL H ET - EROGENEITY IN R EINFORCEMENT L EARNING OF LLM S EARCH A GENTS Anonymous authors Paper under double-blind review A BSTRACT Large language model (LLM) agents increasingly rely on external tools such as search engines to solve complex, multi-step problems, and reinforcement learn- ing (RL) has become a key paradigm for training them. However, the trajectories of search agents are structurally heterogeneous, where variations in the number, placement, and outcomes of search calls lead to fundamentally different answer directions and reward distributions. Standard policy gradient methods, which use a single global baseline, suffer from what we identify and formalize as cross- stratum bias—an “apples-to-oranges” comparison of heterogeneous trajectories. This cross-stratum bias distorts credit assignment and hinders exploration of com- plex, multi-step search stra

思维导图

论文精读

中文精读约 34 分钟读完 · 22,834 字

1. 论文基本信息

1.1. 标题

Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents (分层 GRPO：处理大型语言模型搜索智能体强化学习中的结构异质性)

1.2. 作者

匿名作者 (Anonymous authors)

1.3. 发表期刊/会议

该论文目前处于双盲评审阶段 (Paper under double-blind review)，预期将于 2025 年 10 月 8 日正式发表。这意味着它已提交给一个重要的学术会议或期刊，并且正在经历同行评审过程。

1.4. 发表年份

2025年

1.5. 摘要

大型语言模型 (LLM) 智能体 (agent) 越来越依赖外部工具（如搜索引擎）来解决复杂的、多步骤的问题。强化学习 (Reinforcement Learning, RL) 已成为训练这些智能体的关键范式。然而，搜索智能体的轨迹 (trajectory) 具有结构异质性 (structural heterogeneity)，即搜索调用 (search calls) 的数量、位置和结果的变化会导致根本不同的回答方向和奖励分布。标准的策略梯度 (policy gradient) 方法使用单一的全局基线 (single global baseline)，我们将其识别并形式化为 cross-stratum bias（跨层偏差）——一种对异质轨迹进行“苹果与橘子”式比较的问题。这种 cross-stratum bias 扭曲了信用分配 (credit assignment)，并阻碍了对复杂多步搜索策略的探索。

为解决此问题，我们提出了 Stratified GRPO。其核心组件是 Stratified Advantage Normalization (SAN)（分层优势标准化），它根据轨迹的结构属性将其划分为同质层 (homogeneous strata)，并在每个层内部局部计算优势值 (advantage)。这确保了轨迹仅与其真正的同类进行比较。我们的分析证明，SAN 消除了 cross-stratum bias，在每个层内生成条件无偏 (conditionally unbiased) 且单位方差 (unit-variance) 的估计，并保留了标准标准化方法所享有的全局无偏性和单位方差特性，从而产生更纯净、更稳定的学习信号。为了提高有限样本 (finite-sample) 情况下的实际稳定性，我们进一步将 SAN 与全局估计器进行线性混合。

在各种单跳 (single-hop) 和多跳 (multi-hop) 问答基准测试 (question-answering benchmarks) 上的大量实验表明，Stratified GRPO 持续且显著地优于 GRPO 多达 11.3 分，实现了更高的训练奖励、更大的训练稳定性以及更有效的搜索策略。这些结果确立了分层 (stratification) 作为 RL 中处理 LLM 搜索智能体结构异质性的一个原则性补救措施。

1.6. 原文链接

论坛链接: https://openreview.net/forum?id=hqnGfzQQfa
PDF 链接: https://openreview.net/pdf?id=hqnGfzQQfa

2. 整体概括

2.1. 研究背景与动机

2.1.1. LLM 智能体的兴起与挑战

近年来，大型语言模型 (LLM) 在生成、理解和推理方面展现出惊人的能力。为了解决更复杂的、需要与外部世界交互的任务，研究者们开始将 LLM 增强为智能体 (agent)，使其能够调用外部工具 (external tools)，例如搜索引擎、计算器或代码解释器。其中，LLM 搜索智能体 (LLM search agents) 是一个重要的方向，它们通过 interleaving（交错）文本生成和搜索查询 (search queries) 来获取信息，以解决知识密集型和多步推理任务。

2.1.2. 强化学习在 LLM 智能体训练中的应用

强化学习 (Reinforcement Learning, RL) 作为一种通过与环境交互学习最优策略 (policy) 的范式，被广泛应用于训练这些 LLM 智能体，使其能够从任务的最终结果（奖励）中学习复杂的工具使用和推理策略。然而，将标准的 RL 方法直接应用于 LLM 搜索智能体面临着独特的挑战。

2.1.3. 核心问题：结构异质性与跨层偏差 (Cross-Stratum Bias)

本文指出，LLM 搜索智能体的轨迹 (trajectory) 具有显著的结构异质性 (structural heterogeneity)。这种异质性体现在多个方面：

搜索调用的数量 (Number of search calls): 智能体可能执行零次搜索、一次搜索或多次搜索。
搜索调用的位置 (Placement of search calls): 搜索可能发生在轨迹的不同阶段。
搜索调用的结果 (Outcomes of search calls): 搜索结果可能相关、不相关或无法获取。

这些结构上的差异会导致不同的行为模式、信息流，进而产生根本不同的奖励分布 (reward distributions)。例如，一个没有搜索的轨迹与一个包含多次搜索的轨迹在解决问题的方式和潜在的奖励期望上是完全不可比的。

然而，标准的策略梯度方法（如 REINFORCE 或 GRPO）通常使用一个单一的全局基线 (single global baseline) 来计算优势函数 (advantage function)，这意味着它隐式地假设所有轨迹都是可比较的。本文将这种错误的“苹果与橘子”式比较问题形式化为 cross-stratum bias（跨层偏差）。这种偏差会扭曲信用分配（即智能体无法准确判断哪些行为导致了高奖励），并阻碍智能体探索那些可能更有效但结构复杂的搜索策略，最终导致次优策略 (suboptimal policies)。

2.2. 核心贡献/主要发现

形式化 cross-stratum bias: 论文首次识别并形式化了 LLM 搜索智能体 RL 中 cross-stratum bias 这一根本性挑战。通过理论分解，证明了这种偏差源于对结构异质性轨迹使用全局基线。
提出 Stratified GRPO 算法: 针对 cross-stratum bias，论文提出了一种原则性的 RL 算法 Stratified GRPO。该算法的核心是 Stratified Advantage Normalization (SAN)（分层优势标准化），它将轨迹划分为同质层，并在层内局部计算优势值，从而确保公平和稳定的信用分配。
严格的理论分析: 论文提供了对 SAN 的严谨理论分析。证明了 SAN 消除了 cross-stratum bias，在每个层内实现了条件无偏和单位方差，并且在保持这些优越条件属性的同时，保留了标准标准化方法的全局无偏性和单位方差，从而提供了更纯净、更稳定的学习信号。
引入 Blended Advantage: 为了提高在有限样本情况下的实际稳定性，论文进一步提出了将 SAN 与全局估计器线性混合的 Blended Advantage。
全面的实验验证: 在各种单跳和多跳问答基准测试上进行的广泛实验证明，Stratified GRPO 持续显著优于 GRPO 多达 11.3 分。实验结果显示，该方法不仅获得了更高的训练奖励，还展现出更好的训练稳定性，并学习到了更有效的搜索策略。

这些发现共同确立了分层方法在处理 LLM 搜索智能体强化学习中结构异质性方面的有效性，为未来 LLM 智能体的 RL 训练提供了新的范式。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大型语言模型 (Large Language Models, LLMs)

LLMs 是指具有大量参数（通常数十亿到数千亿）的深度学习模型，通过在海量文本数据上进行预训练，学习语言的统计规律和世界知识。它们能够执行多种自然语言处理任务，如文本生成、问答、翻译等。

3.1.2. 智能体 (Agent)

在人工智能领域，智能体是指能够感知环境、做出决策并采取行动的实体。在本文中，LLM 智能体 (LLM agent) 是指以 LLM 为核心，能够通过调用外部工具（如搜索引擎）与环境交互、解决复杂问题的系统。

3.1.3. 强化学习 (Reinforcement Learning, RL)

强化学习是机器学习的一个分支，旨在训练智能体 (agent) 在与环境的交互中学习最优行为策略，以最大化累积奖励。RL 的核心组成部分包括：

智能体 (Agent): 学习者和决策者。
环境 (Environment): 智能体与之交互的外部世界。
状态 (State): 环境在某一时刻的描述。
动作 (Action): 智能体在某一状态下可以执行的操作。
奖励 (Reward): 环境对智能体执行动作的反馈信号，衡量动作的好坏。
策略 (Policy): 智能体从状态到动作的映射，决定智能体如何行动。
轨迹 (Trajectory): 智能体与环境交互的一个完整序列，通常表示为 $(s_0, a_0, r_1, s_1, a_1, r_2, s_2, \dots, s_T)$ 。

3.1.4. 策略梯度 (Policy Gradient) 方法

策略梯度方法是一类直接优化策略函数参数 $\theta$ 的强化学习算法，目标是最大化策略产生的期望奖励。其基本思想是通过计算奖励对策略参数的梯度，然后沿着梯度方向更新参数。最经典的策略梯度算法是 REINFORCE。

3.1.5. 优势函数 (Advantage Function)

在策略梯度算法中，为了减少方差并加速学习，通常会引入优势函数 A(s, a)。优势函数衡量在给定状态 $s$ 下采取某个动作 $a$ 比平均水平好多少。它通常定义为 $A(s, a) = Q(s, a) - V(s)$ ，其中 Q(s, a) 是状态-动作值函数（表示在状态 $s$ 采取动作 $a$ 后预期获得的累积奖励），V(s) 是状态值函数（表示在状态 $s$ 下预期获得的累积奖励）。在实际应用中，往往使用基线 (baseline) 来近似 V(s)。

3.1.6. 基线 (Baseline)

在策略梯度中，基线是一个用于减小优势函数估计方差的量。理论上，任何不依赖于动作的函数都可以作为基线，只要它不影响梯度的期望。一个常见的基线是状态值函数 V(s) 或批次内奖励的平均值。基线的作用是“中心化”奖励，使得正优势值鼓励该动作，负优势值抑制该动作，同时不改变梯度的期望方向，但显著降低了估计的方差。

3.1.7. 结构异质性 (Structural Heterogeneity)

本文的核心概念。指在 LLM 搜索智能体的强化学习中，不同轨迹 (trajectory) 之间由于其结构性特征（如执行搜索调用的次数、时机等）存在显著差异，导致它们在行为模式和奖励分布上不可直接比较的现象。

3.1.8. 跨层偏差 (Cross-Stratum Bias)

由结构异质性引起的问题。当标准的策略梯度方法使用单一的全局基线对这些结构异质的轨迹进行优势估计时，就会产生 cross-stratum bias。它会导致对不同结构轨迹的信用分配不公平，从而扭曲学习信号。

3.1.9. 分层 (Stratification)

一种统计学技术，将一个总体根据某些共同特征划分为若干个互不重叠的子组（称为“层”或“strata”），以确保每个子组内部具有相对的同质性。在本文中，分层用于根据搜索调用的次数等结构属性将轨迹进行分组。

3.1.10. 问答 (Question Answering, QA)

一种自然语言处理任务，系统需要回答用户提出的问题。

单跳 (Single-hop) QA: 问题可以直接通过一个信息片段（如一个文档或一个事实）来回答。
多跳 (Multi-hop) QA: 回答问题需要从多个信息片段中提取并整合信息，进行多步推理。

3.2. 前人工作与技术演进

3.2.1. RL 在 LLM 中的应用演进

早期探索 (Early RL): 传统的 RL 算法 (Kaelbling et al., 1996; Sutton et al., 1999) 在通用智能体中取得了成功。
RLHF (Reinforcement Learning from Human Feedback): 这是当前训练 LLM 的主流范式。通过人工标注偏好数据训练一个奖励模型 (reward model)，然后使用 RL 算法（最常见的是 PPO (Schulman et al., 2017)）优化 LLM 策略以最大化奖励模型给出的奖励 (Ouyang et al., 2022)。
DPO (Direct Preference Optimization): 为了减少 RLHF 的复杂性和成本，DPO (Rafailov et al., 2023; Zhu et al., 2025) 等直接对齐方法直接优化偏好数据，而无需训练单独的奖励模型。
RLVR (Reinforcement Learning with Verifiable Rewards): 另一条研究路线是利用可验证的结果进行训练 (DeepSeek-AI et al., 2025; Shao et al., 2024; Ahmadian et al., 2024; Yu et al., 2025)。这些方法直接使用任务的客观奖励（例如代码执行结果、数学问题答案的正确性）进行 RL 训练。

3.2.2. GRPO (Group Relative Policy Optimization)

GRPO (Shao et al., 2024) 是一种 RLVR 方法，它通过使用基于组的基线来移除 PPO 对学习值函数 (value function) 的依赖。这是本文 Stratified GRPO 的直接对比基线。GRPO 关注的是如何有效地利用奖励来优化策略，但它使用的“组”可能仍然面临结构异质性问题。

3.2.3. RLOO (REINFORCE with Leave-One-Out Baseline)

RLOO (Ahmadian et al., 2024) 重新审视了经典的 REINFORCE 算法 (Williams, 1992)，并针对 LLM 训练进行了简化和改进，通常也使用一种全局或半全局的基线。

3.2.4. LLM 搜索智能体

工具增强 LLM (Tool-augmented LLMs): 许多工作 (Schick et al., 2023; Yao et al., 2023) 通过赋予 LLM 调用外部工具的能力，使其能够解决更复杂的任务。
提示工程 (Prompt Engineering): 一些方法 (Trivedi et al., 2023; Yao et al., 2023) 通过精心设计的提示来引导 LLM 交错推理和检索 (reasoning and retrieval)。
监督微调 (Supervised Fine-Tuning, SFT): 另一些方法 (Schick et al., 2023; Asai et al., 2023) 通过收集包含推理和搜索混合的轨迹数据，然后进行监督微调。
RL 训练的搜索智能体: 最近的研究 (Chen et al., 2025; Jin et al., 2025; Song et al., 2025; Zheng et al., 2025) 表明，可以使用 PPO 或 GRPO 等 RL 算法直接从基于结果的奖励中学习复杂的搜索和推理行为。这些方法是本文的主要关注点。

3.3. 差异化分析

本文的工作与上述现有工作的核心区别和创新点在于：

聚焦特定挑战: 现有 RL 方法在应用于 LLM 搜索智能体时，大多采用通用算法，而没有深入解决该特定场景下的“结构异质性”问题。
识别并形式化 cross-stratum bias: 本文明确指出并形式化了由于结构异质性而导致的 cross-stratum bias，这是一个此前被“忽视”或未被充分解决的关键问题。
提出原则性解决方案 Stratified GRPO: 通过引入分层机制 (SAN)，Stratified GRPO 能够消除 cross-stratum bias，从而在 RL 训练中提供更准确、更稳定的学习信号，特别有利于学习复杂的、多步的搜索策略。
理论与实践结合: 论文不仅从理论上证明了分层方法的优势（方差减少、无偏性、稳定性），还通过在多个问答基准上的实验验证了其在实际性能、训练稳定性和搜索策略学习方面的显著提升。这使得 Stratified GRPO 成为为 LLM 搜索智能体量身定制的、更有效的 RL 训练方法。

4. 方法论

本节将详细阐述 Stratified GRPO 算法，从其解决的核心问题——cross-stratum bias 入手，逐步介绍其核心组件 Stratified Advantage Normalization (SAN) 的定义、理论性质，以及为实际应用而设计的 Blended Advantage。

4.1. RL 用于多轮搜索智能体

本文将多轮搜索智能体的训练任务建模为一个强化学习问题。智能体 (agent)，由参数为 $\theta$ 的策略 $p_{\theta}$ 表示，通过交错生成词元 (token generation) 和搜索查询 (search queries) 与搜索引擎交互。

对于给定的提示 $x \sim \mathcal{D}$ ，智能体生成一条轨迹 $\tau \sim p_{\theta}(\cdot \mid x)$ 。这条轨迹 $\tau$ 是一个序列，包含生成词元和发起搜索的动作。轨迹完成后，它会获得一个标量奖励 $R(\tau)$ ，这个奖励反映了最终响应的质量。强化学习的目标是最大化期望奖励：

$\max _{\theta} J(\theta)=\mathbb{E}_{x \sim \mathcal{D}, \tau \sim p_{\theta}(\tau \mid x)}[R(\tau)]$

这个目标通常使用策略梯度 (policy gradient) 方法进行优化。

4.2. 策略梯度基线中的跨层偏差 (Cross-Stratum Bias)

4.2.1. 轨迹异质性

在搜索智能体中，轨迹的异质性 (heterogeneity) 非常显著。搜索调用的数量、内容和结果各不相同，导致形成了具有系统性不同回答方向和奖励分布的“层” (strata)。一个全局基线 (global baseline) 无法很好地适应这种情况，因为它隐式地假设所有策略都是可比较的。在异质混合中使用全局基线会引入 cross-stratum bias（跨层偏差），强制进行“苹果与橘子”式的比较。

4.2.2. 符号定义

$B = \{\tau_1, \dots, \tau_K\}$ ：一个包含 $K$ 条轨迹的批次 (batch)，这些轨迹是针对固定提示 $x$ 从 $p_{\theta}$ 中独立同分布 (i.i.d.) 采样的。
批次 $B$ 根据预定义的结构（例如，搜索调用次数）被划分为 $I$ 个非空层 $B_0, \dots, B_{I-1}$ 。
$n_k = |B_k|$ ：层 $B_k$ 中轨迹的数量。
$R_i$ ：轨迹 $\tau_i$ 的奖励。
$\bar{R}_{\text {global }} = \frac{1}{K} \sum_{j=1}^{K} R(\tau_j)$ ：批次的全局平均奖励 (global mean reward)。
$\bar{R}_k = \frac{1}{n_k} \sum_{\tau_i \in B_k} R_i$ ：层 $k$ 的层内平均奖励 (stratum-specific mean reward)。

基于这些定义，有两种自然的优势估计器：
全局优势 (global advantage): $\hat{A}_{G}\left(\tau_{i}\right)=R_{i}-\bar{R}_{\text {global }}$
分层优势 (stratified advantage): 对于属于层 $B_k$ 的轨迹 $\tau_i$ ， $\hat{A}_{S}\left(\tau_{i}\right)=R_{i}-\bar{R}_{k}$

4.2.3. 优势分解 (Advantage Decomposition)

命题 1 (Advantage Decomposition): 对于任意轨迹 $\tau_i \in B_k$ ，全局优势可以分解为： $\hat{A}_{G}\left(\tau_{i}\right)=\hat{A}_{S}\left(\tau_{i}\right)+\underbrace{\left(\bar{R}_{k}-\bar{R}_{\text {global }}\right)}_{\text {cross-stratum bias }}$ 解释: 这个分解式揭示了结构性缺陷：cross-stratum bias 是一个确定性偏移量，在每个层内部均匀应用。它不公平地惩罚低奖励层的轨迹，同时偏袒高奖励层的轨迹。重要的是，这个偏移量正是导致 $\hat{A}_{G}$ 方差过高的原因。

4.2.4. 方差减少 (Variance Reduction)

定理 1 (Variance Reduction via Stratified Baselines): 分层优势估计器 $\hat{A}_{S}$ 和全局优势估计器 $\hat{A}_{G}$ 的经验方差 (empirical variances) 满足 $\operatorname{Var}\left[\hat{A}_{S}\right] \leq \operatorname{Var}\left[\hat{A}_{G}\right]$ 。此外，方差的减少量正好是由 cross-stratum bias 引起的方差： $\operatorname{Var}\left[\hat{A}_{G}\right]-\operatorname{Var}\left[\hat{A}_{S}\right]=\frac{1}{K} \sum_{k=0}^{I-1} n_{k}\left(\bar{R}_{k}-\bar{R}_{\text {global }}\right)^{2}$ 当且仅当所有层均值重合时（即 $\bar{R}_{0}=\bar{R}_{1}=\cdots=\bar{R}_{I-1}$ ），等式成立。否则，分层严格减少方差。 解释: 命题 1 和定理 1 共同揭示了全局基线的缺陷：cross-stratum bias 正是导致方差膨胀的项。分层通过确保只在同质的同类之间进行比较来纠正这一问题，从而产生一个方差严格更低的优势估计器。这一原则适用于许多常用的、未将基线基于层结构 $S$ 进行条件化的 LLM 策略梯度方法。

4.3. 分层优势标准化 (Stratified Advantage Normalization, SAN)

在分层原则的基础上，本文提出了 Stratified Advantage Normalization (SAN)，这是一个将分层与每层标准化 (per-stratum normalization) 结合起来的估计器，旨在创建一个稳定、尺度不变 (scale-invariant) 的学习信号。

4.3.1. SAN 定义

定义 1: 对于给定的提示 $x$ ，根据选定的分区函数（例如，搜索智能体的搜索调用次数）将轨迹批次划分为层 $\{B_k(x)\}$ 。对于层 $B_k(x)$ 中的轨迹 $\tau_i$ ，其 SAN 优势定义为： $A_{\mathrm{SAN}}\left(\tau_{i}\right)=\frac{R\left(\tau_{i}\right)-\widehat{\mu}_{k}(x)}{\widehat{\sigma}_{k}(x)+\varepsilon}$ 其中， $\widehat{\mu}_{k}(x)$ 和 $\widehat{\sigma}_{k}(x)$ 是层 $B_k(x)$ 中奖励的经验均值 (empirical mean) 和标准差 (standard deviation)， $\varepsilon > 0$ 是一个用于数值稳定性的微小常数。

4.3.2. 优势不变性和鲁棒性 (Advantage Invariance and Robustness)

命题 2 (Invariance to Positive Affine Reward Transforms): 假设 $\varepsilon=0$ 。SAN 优势 $A_{\mathrm{SAN}}(\tau)$ 在任何正仿射变换 (positive affine transformation) 的奖励下都是不变的，即 $R^{\prime}(\tau)=a R(\tau)+b$ 且 $a>0$ 时， $A_{\mathrm{SAN}}^{\prime}(\tau)=A_{\mathrm{SAN}}(\tau)$ 。 解释: 命题 2 所示的不变性使得 SAN 对奖励尺度的任意变化具有鲁棒性。虽然在实践中一个小量的 $\varepsilon > 0$ 会轻微破坏这种完美的不变性，但它确保了数值稳定性。

4.3.3. 方差分解 (Variance Decomposition)

定理 2 (Variance Decomposition for Normalized Stratified Advantage): 令 $A_{\mathrm{SAN}}(\tau_i)$ 为分层和标准化优势。它与全局优势 $\hat{A}_{G}$ 的关系可以通过以下精确分解来表示： $\operatorname{Var}\left[\hat{A}_{G}\right]-\operatorname{Var}\left[A_{\mathrm{SAN}}\right]=\underbrace{\frac{1}{K} \sum_{k=0}^{I-1} n_{k}\left(\bar{R}_{k}-\bar{R}_{\text {global }}\right)^{2}}_{ \text {Term A: Between-Stratum Variance }}+\underbrace{\frac{1}{K} \sum_{k=0}^{I-1} n_{k} \sigma_{k}^{2}\left(1-\frac{1}{\left(\sigma_{k}+\varepsilon\right)^{2}}\right)}_{ \text {Term B: Normalization Effect }}$ 解释:

项 A (Term A: Between-Stratum Variance): 量化了由于异质层均值而产生的层间方差。通过在每个层内中心化奖励，SAN 完全消除了这种结构偏差（如命题 1 所示），确保梯度估计不会被人为地夸大跨层差异。
项 B (Term B: Normalization Effect): 捕获了每层标准化 (per-stratum normalization) 的影响。它主要稳定了每个层内奖励的尺度，产生了更一致和数值上更鲁棒的学习信号。

4.3.4. 梯度偏差权衡 (Gradient Bias Trade-off)

尽管 SAN 消除了全局基线的结构偏差，但其期望梯度具有特别简洁的形式。具体来说，它分解为真实层内梯度 (true within-stratum gradients) 的加权和，权重由层概率决定并按其逆标准差进行缩放。

定理 3 (Population SAN Expectation): 令 $S=S(\tau ; \theta)$ 为可能依赖于 $\theta$ 的离散层分配，并定义每条轨迹的 SAN 优势： $A_{\mathrm{SAN}}(\tau):=\frac{R(\tau)-\mu_{S}(\theta)}{\sigma_{S}(\theta)+\varepsilon}$ 其中 $\mu_k(\theta)=\mathbb{E}_{\theta}[R \mid S=k]$ 和 $\sigma_k(\theta)>0$ 是层内的均值和标准差， $\varepsilon>0$ 是一个小的正则化项。那么，在允许在期望下进行微分的标准正则化条件下： $\mathbb{E}_{\theta}\left[A_{\mathrm{SAN}}(\tau) \nabla_{\theta} \log p_{\theta}(\tau)\right]=\sum_{k} \frac{p_{k}(\theta)}{\sigma_{k}(\theta)+\varepsilon} \nabla_{\theta} \mu_{k}(\theta), \quad p_{k}(\theta):=\operatorname{Pr}_{\theta}(S=k)$ 解释: 这个定理表明，即使层依赖于 $\theta$ ，群体 SAN 估计器也精确地针对层内梯度的加权和。其中， $\nabla_{\theta} \mu_{k}(\theta)$ 被证明精确地是真实的每层策略梯度： $\nabla_{\theta} \mu_{k}(\theta)=\mathbb{E}_{\theta}\left[\left(R(\tau)-\mu_{k}(\theta)\right) \nabla_{\theta} \log p_{\theta}(\tau \mid S=k) \mid S=k\right]$ 这意味着 SAN 估计器结合了这些按 $p_k(\theta) / (\sigma_k(\theta)+\varepsilon)$ 加权的每层梯度。因此，SAN 是一个有原则的估计器，它：

严格减少方差 (定理 1)。
因其不变性而鲁棒 (命题 2)。
渐近无偏：群体 SAN 梯度估计器精确地针对层内梯度的加权和，即使层依赖于 $\theta$ (定理 3)。

4.4. SAN 与全局标准化 (Global Normalization, GN) 的结构比较

本节对 SAN 和更简单、更常见的 Global Normalization (GN)（全局标准化）进行了严格的结构比较。

4.4.1. 全局标准化中的结构缺陷

GN 是 GRPO (Shao et al., 2024) 中定义的全局标准化优势： $A_{\mathrm{GN}}\left(\tau_{i}\right):=\frac{R\left(\tau_{i}\right)-\bar{R}_{\text {global }}}{\bar{\sigma}_{\text {global }}+\varepsilon}$ 其中， $\bar{R}_{\text {global }}$ 是全局平均奖励， $\bar{\sigma}_{\text {global }}$ 是全局标准差。与 2.2 节类似，GN 的核心问题在于它强制进行“苹果与橘子”的比较。

命题 3 (Exact Advantage Decomposition): 对于任何固定的批次分区 $\{B_k(x)\}_{k=0}^{I-1}$ 和任意 $\tau_i \in B_k(x)$ ， $A_{\mathrm{GN}}\left(\tau_{i}\right)=\underbrace{\frac{\widehat{\sigma}_{k}(x)+\varepsilon}{\widehat{\sigma}_{\text {global }}(x)+\varepsilon}}_{:=\alpha_{k}(x)} A_{\mathrm{SAN}}\left(\tau_{i}\right)+\underbrace{\frac{\widehat{\mu}_{k}(x)-\bar{R}_{\text {global }}(x)}{\bar{\sigma}_{\text {global }}(x)+\varepsilon}}_{:=\Delta_{k}(x)}$ 解释: 命题 3 的分解揭示了 GN 优势等于一个重缩放的 SAN 优势加上一个 cross-stratum offset（跨层偏移） $\Delta_k$ ，这是其系统偏差的根本来源。这个缺陷直接影响到策略梯度。

4.4.2. 跨层偏差引起的梯度偏差

方程 (5) 中的分解直接传递到梯度估计器。GN 梯度 $\widehat{g}_{\mathrm{GN}}(x)$ 分解为 SAN 样式的项和一个额外的引入偏差的项： $\widehat{g}_{\mathrm{GN}}(x)=\frac{1}{K} \sum_{k} \sum_{\tau_{i} \in B_{k}} \alpha_{k} A_{\mathrm{SAN}}\left(\tau_{i}\right) \nabla_{\theta} \log p_{\theta}\left(\tau_{i} \mid x\right)+\underbrace{\frac{1}{K} \sum_{k} \sum_{\tau_{i} \in B_{k}} \Delta_{k} \nabla_{\theta} \log p_{\theta}\left(\tau_{i} \mid x\right)}_{\text {Bias from Cross-Stratum Offset }}$ 解释: 方程 (6) 的分解揭示了 GN 梯度中的结构缺陷，这是由 cross-stratum offset $\Delta_k$ 驱动的。这一项将跨层奖励差异与策略的分数向量 (score vectors) 耦合起来，引入了系统性偏差，只要层之间存在异质性，这种偏差就会持续存在。这从根本上扭曲了学习信号，因为它使得局部信用分配依赖于全局统计量。

4.4.3. 跨层偏差阻碍探索

由于方程 (5) 中的 $\Delta_k$ 具有 $(\widehat{\mu}_{k}(x)-\hat{R}_{\text {global }})$ 的符号，GN 估计器会系统性地低估那些平均奖励低于全局平均奖励的层。结果，即使这些层可能包含未被探索的高奖励模式，GN 也可能对它们进行欠采样。这种结构偏差因此会阻碍探索。

4.4.4. 作为信号载体的分析 (Analysis as a Signal Carrier)

一个理想的“信号载体”应该在每个层内都是无偏的，并且具有一致的尺度，以确保公平的信用分配。

定理 4 (Conditional Properties of SAN and GN Advantages): 令 $\varepsilon=0$ ，对于给定的提示 $x$ 和层 $k$ ，群体奖励统计量定义为： $\begin{aligned} \mu_{k}(x): & =\mathbb{E}[R(\tau) \mid k, x], & \sigma_{k}^{2}(x): & =\operatorname{Var}(R(\tau) \mid k, x) \\ \mu(x): & =\mathbb{E}[R(\tau) \mid x], & \sigma^{2}(x): & =\operatorname{Var}(R(\tau) \mid x) \end{aligned}$ 在大量样本的极限下，分层 (SAN) 和全局 (GN) 标准化优势在任何层 $k$ 上表现出以下条件属性：

条件期望 (Bias): SAN 优势在每个层内是无偏的，而 GN 优势则带有一个与跨层均值差异成比例的系统性偏差： $\mathbb{E}\left[A_{\mathrm{SAN}} \mid k, x\right]=0, \quad \mathbb{E}\left[A_{\mathrm{GN}} \mid k, x\right]=\frac{\mu_{k}(x)-\mu(x)}{\sigma(x)}$
条件方差 (Conditional Variance): SAN 优势提供一致的单位方差，而 GN 优势的方差则按层与全局方差之比进行缩放： $\operatorname{Var}\left(A_{\mathrm{SAN}} \mid k, x\right)=1, \quad \operatorname{Var}\left(A_{\mathrm{GN}} \mid k, x\right)=\frac{\sigma_{k}^{2}(x)}{\sigma^{2}(x)}$ 解释: 因此，SAN 充当一个纯净且尺度稳定的信号载体，而 GN 则在奖励异质性存在时引入跨层偏差和不一致的缩放。

4.4.5. 全局矩 (Global Moments)

定理 5 (Global Moments of SAN and GN): 令 $\varepsilon=0$ 。固定提示 $x$ ，令 $S \in\{0, \ldots, I-1\}$ 表示层索引，混合权重为 $p_k(x)=\mathbb{P}(S=k \mid x)$ 。写出群体奖励矩 (population reward moments) 如定理 4： $\mu_{k}(x)=\mathbb{E}[R \mid S=k, x], \sigma_{k}^{2}(x)=\operatorname{Var}(R \mid S=k, x) ; \quad \mu(x)=\mathbb{E}[R \mid x], \sigma^{2}(x)=\operatorname{Var}(R \mid x)$ 考虑大量样本（群体）下的 SAN 和 GN 优势： $A_{\mathrm{SAN}}=\frac{R-\mu_{S}(x)}{\sigma_{S}(x)}, \quad A_{\mathrm{GN}}=\frac{R-\mu(x)}{\sigma(x)}$ 那么， (a) 全局均值 (Global Means): $\mathbb{E}\left[A_{\mathrm{SAN}} \mid x\right]=0, \mathbb{E}\left[A_{\mathrm{GN}} \mid x\right]=0$ 。 (b) 全局方差 (Global Variances): $\operatorname{Var}\left(A_{\mathrm{SAN}} \mid x\right)=\operatorname{Var}\left(A_{\mathrm{GN}} \mid x\right)=1$ 。 解释: 这个定理表明，尽管 SAN 在层内局部标准化，而 GN 全局标准化，但在理想情况下（ $\varepsilon=0$ ），这两个理想化的估计器都是全局无偏（均值为零）的，并达到完全相同的单位方差。然而，这种全局等价性掩盖了条件层面上根本的结构差异，而这正是真正控制学习动态的因素。定理 4 确立了 SAN 的条件纯粹性：它在每个单独的层内都提供零均值、单位方差的信号。相比之下，GN 具有条件偏差和不一致的缩放，这意味着其均值和方差在不同层之间波动。

4.5. 混合优势 (Blended Advantage) 用于有限样本稳定性

从定理 4 可以看出，SAN 产生了纯净、尺度稳定的学习信号：它在每个层内都是条件无偏的，并具有单位条件方差。相比之下，GN 重新引入了跨层偏移和不一致的缩放（定理 4），但它将信息耦合到所有层（命题 3）。在有限样本 (finite sample) 情况下，当某些层包含的轨迹数量非常少时，SAN 可能会面临实际挑战，可能导致噪声优势估计。为了解决这个问题，本文采用 SAN 和 GN 的凸组合 (convex combination)，这种组合保留了 SAN 的局部纯粹性，同时借用 GN 的全局信号来稳定小样本层。

定义 2 (Blended Advantage): 对于 $\tau \in B_k(x)$ ，定义 $A_{\text {blend }}(\tau)=\alpha A_{\mathrm{SAN}}(\tau)+(1-\alpha) A_{\mathrm{GN}}(\tau), \quad \alpha \in[0,1]$ 解释:

端点情况：当 $\alpha=1$ 时，产生 SAN；当 $\alpha=0$ 时，产生 GN。
将混合优势 (blended advantage) 纳入 Stratified GRPO 中，构成了本文的实用方法。

4.5.1. Stratified GRPO 算法流程

以下是 Stratified GRPO 的算法伪代码，它将上述概念整合到实际的策略梯度优化中：

Algorithm 1: Stratified GRPO
Require: Policy  $p_{\theta}$ , batch  $B=\left\{\tau_{1}, \ldots, \tau_{K}\right\}$  with rewards  $\left\{R_{i}\right\}$  ，blending  $\alpha \in[0,1]$ , stabilizer
     $\varepsilon>0$ .
    // 1. 计算全局统计量和全局标准化优势（GN）
    Compute global stats:  $\bar{R}_{\text {global }} \leftarrow \frac{1}{K} \sum_{i} R_{i}$ ; // 计算批次中所有轨迹的平均奖励
     $\widehat{\sigma}_{\text {global }} \leftarrow \sqrt{\frac{1}{K} \sum_{i}\left(R_{i}-\bar{R}_{\text {global }}\right)^{2}}$ . // 计算批次中所有轨迹奖励的标准差
    For all  $i$ , set  $A_{\mathrm{GN}}\left(\tau_{i}\right) \leftarrow\left(R_{i}-\bar{R}_{\text {global }}\right) /\left(\widehat{\sigma}_{\text {global }}+\varepsilon\right)$ . // 计算每条轨迹的GN优势

    // 2. 根据提示和结构属性（例如搜索调用次数）将轨迹分层
    Partition indices into per-prompt, per-stratum groups  $I_{k}(x)$  (e.g., by search count).

    // 3. 遍历每个提示和每个层，计算分层标准化优势（SAN）和混合优势
    for each prompt  $x$  do
        for each stratum  $k$  with index set  $I_{k}(x)$  do
             $n_{k} \leftarrow\left|I_{k}(x)\right| ; \quad \bar{R}_{k} \leftarrow \frac{1}{n_{k}} \sum_{i \in I_{k}(x)} R_{i} ; \quad \widehat{\sigma}_{k} \leftarrow \sqrt{\frac{1}{n_{k}} \sum_{i \in I_{k}(x)}\left(R_{i}-\bar{R}_{k}\right)^{2}}$ . // 计算层k的平均奖励和标准差
            for  $i \in I_{k}(x)$  do
                 $A_{\mathrm{SAN}}\left(\tau_{i}\right) \leftarrow\left(R_{i}-\bar{R}_{k}\right) /\left(\widehat{\sigma}_{k}+\varepsilon\right)$ . // 计算轨迹在层k内的SAN优势
                 $A_{\mathrm{blend}}\left(\tau_{i}\right) \leftarrow \alpha A_{\mathrm{SAN}}\left(\tau_{i}\right)+(1-\alpha) A_{\mathrm{GN}}\left(\tau_{i}\right)$ . // 计算混合优势
            end for
        end for
    end for
    Return gradient estimate  $\widehat{g}_{\text {blend }} \leftarrow \frac{1}{K} \sum_{i=1}^{K} A_{\text {blend }}\left(\tau_{i}\right) \nabla_{\theta} \log p_{\theta}\left(\tau_{i} \mid x\right)$ . // 返回最终的梯度估计，用于策略更新

算法流程解释:

全局统计量和 GN 优势计算: 首先，算法计算整个批次 $B$ 的全局平均奖励 $\bar{R}_{\text {global }}$ 和全局标准差 $\widehat{\sigma}_{\text {global }}$ 。然后，根据这些全局统计量，为批次中的每条轨迹 $\tau_i$ 计算 GN 优势 $A_{\mathrm{GN}}(\tau_i)$ 。
轨迹分层: 接下来，根据预定义的分层函数（例如，针对每个提示 $x$ ，将轨迹按其执行的搜索调用次数进行分组），将轨迹的索引划分为不同的层组 $I_k(x)$ 。
层内统计量、SAN 和 Blended Advantage 计算: 算法遍历每个提示 $x$ 下的每个层 $k$ 。对于每个层 $k$ ，它计算该层内的轨迹数量 $n_k$ 、层内平均奖励 $\bar{R}_k$ 和层内标准差 $\widehat{\sigma}_k$ 。然后，对该层内的每条轨迹 $\tau_i$ ，计算其 SAN 优势 $A_{\mathrm{SAN}}(\tau_i)$ 。最后，结合预设的混合参数 $\alpha$ ，计算混合优势 $A_{\text {blend }}(\tau_i)$ 。
梯度估计: 算法最终返回基于所有轨迹的混合优势和策略分数函数 (policy score function) $\nabla_{\theta} \log p_{\theta}(\tau_i \mid x)$ 计算的梯度估计 $\widehat{g}_{\text {blend }}$ 。这个梯度将被用于更新策略 $p_{\theta}$ 的参数。

通过这种方式，Stratified GRPO 能够在策略优化过程中有效地处理轨迹的结构异质性，提供更准确和稳定的学习信号。

5. 实验设置

本文通过在七个不同的问答基准测试上进行实验，验证了 Stratified GRPO 的性能，并与多种基线方法进行了比较。

5.1. 数据集

实验使用的问答数据集分为两类：单跳 (single-hop) 和多跳 (multi-hop)。

5.1.1. 单跳问答基准

Natural Questions (NQ) (Kwiatkowski et al., 2019): 一个大型、真实世界的问答数据集，问题通常可以通过从单个文档中提取短文本片段来回答。
TriviaQA (Joshi et al., 2017): 一个包含大量琐事问题的问答数据集，其答案通常可在 Wikipedia 或其他网页中找到。
PopQA (Mallen et al., 2023): 一个专注于“流行”事实的问答数据集，旨在测试模型对常见知识的掌握。

5.1.2. 多跳问答基准

HotpotQA (Yang et al., 2018): 一个需要多步推理和整合多个证据文档才能回答问题的多跳问答数据集。
2WikiMultiHopQA (Ho et al., 2020): 另一个多跳问答数据集，其问题设计旨在要求模型从两个不同的 Wikipedia 页面中提取信息并进行推理。
MuSiQue (Trivedi et al., 2022): 旨在通过分解复杂问题为多个单跳子问题来解决多跳问答，考验模型组合和推理能力。
Bamboogle (Press et al., 2023): 一个用于测量语言模型组合性差距的数据集，包含需要多步信息合成才能回答的问题。

5.1.3. 训练数据与检索器

训练集: 通过合并 Natural Questions (NQ) 和 HotpotQA 的训练集构建。
检索器 (Retriever): 使用 E5 (Wang et al., 2022) 模型作为检索器，其知识源是 2018 年的 Wikipedia 数据转储 (Karpukhin et al., 2020)。每次搜索调用检索前 3 个段落 (passages)。

5.2. 评估指标

本文使用精确匹配 (Exact Match, EM) 作为训练奖励和评估指标。

概念定义: 精确匹配 (EM) 是一种严格的评估指标，用于衡量模型生成的答案与参考答案是否完全相同。通常，当模型输出与任何一个正确答案字符串精确匹配时，得分为 1，否则为 0。它特别适用于那些答案有明确且唯一形式的任务，如事实性问答。
数学公式: $\mathrm{EM}(\text{prediction, reference}) = \begin{cases} 1 & \text{if cleaned}(\text{prediction}) = \text{cleaned}(\text{reference}) \\ 0 & \text{otherwise} \end{cases}$
符号解释:
- $\text{prediction}$ : 智能体生成的答案字符串。
- $\text{reference}$ : 提供的正确答案字符串（可能有一个或多个）。
- $\text{cleaned}(\cdot)$ : 一个预处理函数，通常用于标准化字符串，例如：移除标点符号、将所有文本转换为小写、移除冠词（a, an, the）等，以避免因格式差异而非语义错误导致的不匹配。

5.3. 对比基线

本文将 Stratified GRPO 与一系列非强化学习和强化学习方法进行了比较。

5.3.1. 非强化学习 (Non-RL) 方法

Direct Generation (直接生成): LLM 在没有外部工具辅助下直接生成答案。
SFT (Supervised Fine-Tuning): LLM 在监督数据上进行微调，学习直接生成答案或推理。
RAG (Retrieval-Augmented Generation) (Lewis et al., 2020): 一种检索增强生成模型，LLM 在生成答案前会检索相关文档。
Search-o1 (Li et al., 2025): 一种代理搜索增强型大型推理模型。
IRCoT (Interleaving Retrieval with Chain-of-Thought) (Trivedi et al., 2023): 一种结合检索和思维链推理的方法。

5.3.2. 强化学习 (RL) 方法

Search-R1 (Jin et al., 2025): 一种基于 PPO 的 RL 方法，用于训练 LLM 智能体推理和利用搜索引擎。
R1 (RL without search) (DeepSeek-AI et al., 2025): 同样是 RL 方法，但其智能体不具备搜索能力。
ReSearch (Chen et al., 2025): 另一种通过强化学习训练 LLM 进行搜索推理的方法。
GRPO (Group Relative Policy Optimization) (Shao et al., 2024): 这是本文的直接基线。它是一种 RL 方法，通过基于组的基线来优化策略。

大多数基线结果引用自 Jin et al. (2025)，因为他们的实验设置与本文一致。

5.4. 模型和训练设置

基础模型 (LLM Models): 使用 Qwen-2.5-3B Base 和 Qwen-2.5-3B Instruct 两种模型。
计算资源: 在 8 块 GPU 上进行训练。
批次大小 (Batch Size): 全局批次大小 (global batch size) 设定为 256，小批次大小 (mini-batch size) 也为 256。
序列长度 (Sequence Length): 最大序列长度设置为 4096 词元 (tokens)。
响应和检索内容长度: 每次交互回合中，最大响应长度和检索到的内容长度均为 500 词元。
采样参数 (Rollout Sampling):
- 温度 (Temperature): 1.0
- top-p: 1.0 (Top-p 采样是一种生成文本的方法，只考虑累积概率达到 $p$ 的词元，以增加多样性并避免低质量词元。)
优化器参数:
- 学习率 (Learning Rate): $1 \mathrm{e}-6$
- 预热比 (Warm-up Ratio): 0.1 (学习率在训练开始时从小值逐渐增加到设定值。)
训练步数 (Training Steps): 训练进行 200 步。
策略梯度参数:
- KL 散度系数 $\beta$ : 0.001 (用于平衡策略更新与旧策略的KL散度，防止策略更新过大。)
- 裁剪比 $\epsilon$ : 0.2 (在 PPO 等算法中用于限制策略更新的幅度。)
采样响应数量: 对于每个提示，采样 8 个响应 (responses)。
Stratified GRPO 特定参数:
- 混合参数 $\alpha$ : 对于 Qwen 2.5 3B Instruct 模型使用 0.8，对于 Qwen 2.5 3B Base 模型使用 0.6。
搜索交互设置:
- 最大交互回合数: 4 (智能体与环境的最大交互步数)。
- 检索段落数量: 每次搜索调用检索前 3 个段落。
实现框架: 实现基于 Verl 框架 (Sheng et al., 2025)。

6. 实验结果与分析

6.1. 核心结果分析

以下是原文 Table 1 的结果，展示了 Stratified GRPO 在七个问答基准测试上的性能，并与其他基线方法进行了比较：

Methods	Single-Hop QA			Multi-Hop QA				Avg.
Methods	NQ	TriviaQA	PopQA	HotpotQA	2Wiki	Musique	Bamboogle	Avg.
Non-RL Baselines
Direct Generation	10.6	28.8	10.8	14.9	24.4	2.0	2.4	13.4
SFT	24.9	29.2	10.4	18.6	24.8	4.4	11.2	17.6
RAG	34.8	54.4	38.7	25.5	22.6	4.7	8.0	27.0
Search-o1	23.8	47.2	26.2	22.1	21.8	5.4	32.0	25.5
IRCoT	11.1	31.2	20.0	16.4	17.1	6.7	24.0	18.1
Qwen2.5-3B-Base
Search-R1	40.6	58.7	43.5	28.4	27.3	4.9	8.8	30.3
R1	22.6	45.5	17.3	20.1	26.8	5.5	22.4	22.9
ReSearch	42.7	59.7	43.0	30.5	27.2	7.4	12.8	31.9
GRPO	45.2	61.2	43.8	32.6	29.7	7.8	12.9	33.3
Stratified GRPO	45.9	61.4	43.0	40.8	39.9	17.7	42.7	41.6
Qwen2.5-3B-Instruct
Search-R1	34.1	54.5	37.8	32.4	31.9	10.3	26.4	32.5
R1	21.0	44.9	17.1	20.8	27.5	6.0	19.2	22.4
ReSearch	36.5	57.1	39.5	35.1	27.2	9.5	26.6	33.1
GRPO	33.4	52.9	36.7	26.5	27.4	6.4	21.0	29.2
Stratified GRPO	44.5	60.9	44.3	41.0	37.3	16.9	38.7	40.5

分析:

显著超越基线: Stratified GRPO 在所有七个问答基准测试上始终优于所有其他基线方法，无论是基于 Qwen2.5-3B Base 模型还是 Instruct 模型。
平均性能提升: 相较于 GRPO，Stratified GRPO 的平均性能提升高达 11.3 分。与性能最佳的基线相比，提升也高达 8.3 分。
多跳任务优势明显: 在多跳问答基准测试（HotpotQA, 2Wiki, Musique, Bamboogle）上，Stratified GRPO 的优势尤为突出。例如，在 HotpotQA 上，Base 模型从 GRPO 的 32.6 提升到 40.8；在 Musique 上，从 7.8 提升到 17.7；在 Bamboogle 上，从 12.9 提升到 42.7。这表明 Stratified GRPO 在处理需要复杂、多步信息检索和推理的任务时，能够更有效地学习。
对 PPO 基线的启示: Stratified GRPO 持续优于基于 PPO 的 Search-R1，这暗示了 cross-stratum bias 的挑战可能也存在于 PPO 这样的算法中。尽管 PPO 使用值函数 (value function) 来估计优势，但如果值函数未能充分捕捉轨迹的结构异质性，同样可能导致类似的问题。这强调了在训练有效的搜索智能体时，对轨迹结构进行原则性处理的关键性。

6.2. 消融实验与参数分析

以下是原文 Table 2 的结果，展示了 Stratified GRPO 各组件的贡献：

Model Variants	Single-Hop QA			Multi-Hop QA				Avg.
Model Variants	NQ	TriviaQA	PopQA	HotpotQA	2wiki	Musique	Bamboogle	Avg.
Qwen2.5-3B-Base
GRPO	45.2	61.2	43.8	32.6	29.7	7.8	12.9	33.3
w/ SAN	43.7	59.3	41.1	36.6	38.4	12.6	25.0	36.7
Stratified GRPO	45.9	61.4	43.0	40.8	39.9	17.7	42.7	41.6
Qwen2.5-3B-Instruct
GRPO	33.4	52.9	36.7	26.5	27.4	6.4	21.0	29.2
w/ SAN	42.5	60.1	44.2	39.4	41.0	16.0	36.3	39.9
Stratified GRPO	44.5	60.9	44.3	41.0	37.3	16.9	38.7	40.5

分析:

SAN 的显著贡献: 仅使用 SAN (w/ SAN) 的变体就比基线 GRPO 取得了显著的性能提升。例如，在 Base 模型上，平均性能从 33.3 提升到 36.7；在 Instruct 模型上，从 29.2 提升到 39.9。这表明消除 cross-stratum bias 并进行分层标准化本身就带来了巨大的收益。
混合优势 (Advantage Blending) 的进一步提升: 完整的 Stratified GRPO（即包含 SAN 和 blending）进一步增强了性能。在 Base 模型上，平均性能从 36.7 提升到 41.6；在 Instruct 模型上，从 39.9 提升到 40.5。这证实了 blending 策略在有限样本条件下稳定估计的有效性，尤其是在复杂的多跳 QA 任务上。
组件的协同作用: 实验结果表明 SAN 和 blending 两个组件协同作用，共同提升了模型性能，特别是在处理需要更精细信用分配的多跳任务时，完整的 Stratified GRPO 表现最佳。

6.3. 训练动态分析

下图（原文 Figure 1）展示了 Stratified GRPO 和 GRPO 在训练过程中的奖励和搜索调用次数的动态变化。

该图像是多子图折线图，展示了Stratified GRPO与GRPO在Qwen 2.5 3B Base和Instruct模型上的训练奖励与搜索调用次数随训练步数的变化对比。总体体现Stratified GRPO在训练奖励和搜索策略上表现更优。 图 1: Stratified GRPO 和 GRPO 的训练动态。左侧图显示训练奖励，右侧图显示每个问题在训练步骤中搜索调用的次数。

分析:

奖励提升和训练稳定性 (左侧图):
- Base 模型 (Qwen2.5-3B-Base): Stratified GRPO 持续获得比标准 GRPO 基线更高的奖励。这表明其学习过程更有效率，能够找到更好的策略。
- Instruct 模型 (Qwen2.5-3B-Instruct): GRPO 出现了训练崩溃 (training collapse) 的问题，奖励曲线急剧下降，这是 RL 训练中常见的稳定性问题。相反，Stratified GRPO 保持了稳定且单调递增的奖励信号，证明了其卓越的稳定性和学习效率。这对于实际应用中 LLM 的训练至关重要。
学习有效的搜索策略 (右侧图):
- Base 模型: Stratified GRPO 成功学习了一种策略，该策略收敛到大约 2.5 次搜索调用。这表明智能体学会了执行迭代搜索，以更好地解决问题。
- Base 模型对比 GRPO: 基线 GRPO 的搜索调用次数停滞在 1 次左右，未能有效探索更复杂的搜索策略。
- Instruct 模型: GRPO 的训练崩溃也反映在其搜索策略的学习上，未能形成有效的搜索行为。
- 原因分析: GRPO 的 cross-stratum bias 阻止了它探索那些可能更好但需要更多搜索调用的策略。例如，如果包含多次搜索的轨迹平均奖励较低（可能是因为探索不充分导致），即使其中存在高潜力路径，cross-stratum bias 也会惩罚这些轨迹，导致智能体倾向于不进行或只进行少量搜索。Stratified GRPO 通过消除这种偏差，使得智能体能够更公平地评估和探索包含不同搜索次数的策略，从而学习到更有效的多步搜索行为。这直接解释了 Stratified GRPO 在多跳基准测试上表现出的优越性。

7. 总结与思考

7.1. 结论总结

本文深入探讨了在大型语言模型 (LLM) 搜索智能体强化学习 (RL) 训练中存在的一个关键挑战：cross-stratum bias（跨层偏差）。该偏差源于搜索智能体轨迹固有的结构异质性——不同轨迹在搜索调用次数、位置和结果上的差异导致其奖励分布的根本性不同。标准的策略梯度方法由于使用单一的全局基线，未能识别并公平处理这种异质性，从而扭曲了信用分配，阻碍了对复杂多步搜索策略的探索。

为解决此问题，论文提出了 Stratified GRPO，其核心组件是 Stratified Advantage Normalization (SAN)（分层优势标准化）。SAN 通过将轨迹根据结构属性划分为同质层，并在每个层内局部计算优势值，确保了轨迹仅与其真正的同类进行比较。理论分析证明，SAN 有效消除了 cross-stratum bias，在每个层内提供了条件无偏和单位方差的优势估计，同时保留了全局无偏性和单位方差的理想特性，从而生成了更纯净、更稳定的学习信号。为了提高在有限样本情况下的实际稳定性，Stratified GRPO 还引入了 Blended Advantage，将 SAN 与全局估计器进行线性混合。

通过在多种单跳和多跳问答基准测试上的广泛实验，Stratified GRPO 展现出显著的优越性，其性能比 GRPO 平均高出 11.3 分。实验结果不仅证实了更高的训练奖励和更强的训练稳定性（尤其是在 GRPO 出现训练崩溃的情况下），还表明 Stratified GRPO 能够学习到更有效、更复杂的搜索策略。这些发现共同确立了分层作为处理 LLM 搜索智能体 RL 中结构异质性问题的原则性补救措施。

7.2. 局限性与未来工作

论文明确指出了cross-stratum bias的存在与危害，并提出了一种有效的解决方案。然而，作为任何研究，仍存在一些潜在的局限性和未来可以探索的方向：

分层函数的选择: 目前的分层是基于“搜索调用次数”这一简单明确的结构属性。未来可以探索更复杂、更细粒度的分层函数。例如，是否可以根据搜索结果的质量、搜索内容的语义类别，甚至智能体内部的状态（例如，对当前问题自信程度）来动态或自适应地定义层？这可能需要更先进的聚类或表征学习技术。
混合参数 $\alpha$ 的调优: Blended Advantage 中的混合参数 $\alpha$ 目前是手动设定的。虽然它在实践中提供了稳定性，但其最优值可能因任务、模型或训练阶段而异。未来可以研究自适应调整 $\alpha$ 的机制，例如通过元学习 (meta-learning) 或基于不确定性 (uncertainty-based) 的方法。
泛化到其他异质性 RL 任务: 尽管本文专注于 LLM 搜索智能体，但结构异质性问题可能普遍存在于其他 RL 任务中，例如机器人操作中具有不同复杂度的任务序列、多模态智能体中不同模态的组合。未来的工作可以将 Stratified GRPO 的思想推广到这些更广泛的异质性 RL 设置中。
与其他先进 RL 算法的结合: 本文主要与 GRPO（一种基于策略梯度的算法）进行了比较。未来可以探讨 SAN 或分层思想如何与更先进的 RL 算法（如 PPO、SAC 或基于模型的 RL 方法）相结合，特别是在 PPO 需要训练值函数的情况下，如何确保值函数也能有效处理结构异质性。
计算成本: 分层和计算每层统计量会增加一定的计算开销。虽然在 LLM 训练的背景下，这可能不是主要瓶颈，但对于资源受限的环境，可能需要考虑优化分层过程的效率。

7.3. 个人启发与批判

7.3.1. 个人启发

“苹果与橘子”比喻的普适性: 论文将 cross-stratum bias 生动地比喻为“苹果与橘子”的比较，这不仅清晰地阐明了问题，也让我意识到在许多机器学习甚至更广泛的数据分析场景中，我们可能都在无意中进行着这种不公平的比较。识别并纠正这种潜在的异质性是提升模型性能和公平性的关键。
理论分析与实践效果的强大结合: 论文从理论上严谨地分析了 cross-stratum bias 的来源、分层如何减少方差、以及 SAN 在条件和全局层面的统计特性。这种深刻的理论洞察力为提出的方法提供了坚实的基础，并通过在实践中显著的性能提升和稳定性证明了其价值。这是一种非常值得学习的研究范式。
对 RL 领域细致入微的洞察: 强化学习在 LLM 领域是一个相对较新的应用方向，许多通用 RL 算法可能无法直接适应 LLM 特有的复杂性。本文的贡献在于，它没有简单地套用现有算法，而是深入分析了 LLM 搜索智能体这一特定场景的独特性（结构异质性），并针对性地提出了解决方案。这启发我们，在将通用 AI 方法应用于特定领域时，必须进行细致的领域分析，才能发现并解决深层次的问题。
分层思想的推广价值: 分层（stratification）作为一种统计学方法，其核心是“同类比较”。这个思想不仅限于奖励的优势估计，还可以推广到其他需要处理异质性数据的场景，例如在联邦学习中处理数据分布异质的客户端、在多任务学习中处理任务间差异等。

7.3.2. 批判性思考

分层判据的通用性与自动化: 论文成功地使用了“搜索调用次数”作为分层判据，这对于搜索智能体而言是直观且有效的。然而，在更广泛的 RL 任务中，如何自动或半自动地发现最适合进行分层的结构属性，可能是一个挑战。如果人工选择不当，错误的分层可能无法带来收益，甚至引入新的问题。
局部与全局信号的平衡: Blended Advantage 中的 $\alpha$ 参数旨在平衡 SAN 的局部纯粹性与 GN 的全局稳定性。但 $\alpha$ 的选择是经验性的，并且对性能有影响。尽管它在有限样本下提高了稳定性，但如果 $\alpha$ 过小，是否会重新引入部分 cross-stratum bias？未来可以探索更智能、自适应的 $\alpha$ 调整策略，例如基于层内样本量、层间方差或学习进度来动态调整 $\alpha$ 。
对 PPO 等值函数基线算法的深层影响: 论文指出 cross-stratum bias 也可能影响基于值函数 (value function) 的算法如 PPO。虽然本文提出了 Stratified GRPO，但并未直接修改 PPO 的值函数学习过程来解决这个问题。未来的工作可以探索如何使 PPO 的值函数在估计时也考虑到轨迹的结构异质性，例如通过分层的值函数或条件值函数，这将是更全面的解决方案。
计算效率与层数量: 随着任务复杂度的增加，如果分层粒度过细，层 (strata) 的数量可能会非常庞大，甚至出现许多样本量极小的层。这可能导致计算层内统计量变得不稳定或效率降低。如何在保证分层效果的同时，控制层的数量和样本分布，是实际部署时需要考虑的问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。