论文状态：已完成

Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks

发表：2025/10/08

序列策略优化 (40)大语言模型强化学习训练 (RL Training for Large Language Mode (3)基于层级分组的策略优化 (1)长时序任务强化学习 (1)历史上下文一致性建模 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文针对长视界智能体任务中的上下文不一致问题，提出层级组策略优化（HGPO）方法。HGPO通过多层级划分步骤并自适应加权多组优势估计，有效平衡偏差与方差，无需额外模型，实现大幅提升策略优化效果，在复杂任务中超越现有方法。

摘要

000 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 Under review as a conference paper at ICLR 2026 H IERARCHY - OF -G ROUPS P OLICY O PTIMIZATION FOR L ONG -H ORIZON A GENTIC T ASKS Anonymous authors Paper under double-blind review A BSTRACT Group-based reinforcement learning (RL), such as GRPO, has advanced the capa- bilities of large language models on long-horizon agentic tasks. To enable more fine-grained policy updates, recent research has increasingly shifted toward step- wise group-based policy optimization, which treats each step in a rollout trajectory independently while using a memory module to retain historical context. How- ever, we find a key issue in estimating stepwise relative advantages, namely con- text inconsistency , where steps within the same group may differ in their historical contexts. Empirically, we reveal that this issue can lead to severely biased advan- tage estimation, thereby degrading policy optimization significantly. To address the issue, in this paper, we propose

思维导图

论文精读

中文精读约 29 分钟读完 · 18,587 字

1. 论文基本信息

1.1. 标题

Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks （针对长视界智能体任务的层级组策略优化）

1.2. 作者

匿名作者 (Paper under double-blind review)。通常在 OpenReview 平台上的论文在评审阶段会匿名。

1.3. 发表期刊/会议

该论文发布于 OpenReview 平台，状态为 Paper under double-blind review，表明其正在接受双盲评审，通常是提交给如 ICLR, NeurIPS 等顶级会议的预印本。

1.4. 发表年份

2025年

1.5. 摘要

基于组的强化学习（Reinforcement Learning, RL）方法，如 GRPO，已显著提升了大型语言模型（Large Language Models, LLMs）在长视界（long-horizon）智能体（agentic）任务中的能力。为了实现更细粒度的策略更新，近期研究逐渐转向了步骤级（stepwise）基于组的策略优化（policy optimization），这种方法将轨迹（rollout trajectory）中的每一步独立对待，同时利用记忆模块（memory module）来保留历史上下文（historical context）。然而，我们发现估计步骤级相对优势（stepwise relative advantages）存在一个关键问题，即上下文不一致性（context inconsistency），即同一组中的步骤可能具有不同的历史上下文。经验研究表明，这个问题会导致优势估计（advantage estimation）出现严重偏差，从而显著降低策略优化的效果。

为了解决这个问题，本文提出了针对长视界智能体任务的层级组策略优化（Hierarchy-of-Groups Policy Optimization, HGPO）。具体来说，在一个轨迹组内，HGPO 根据历史上下文的一致性将每个步骤分配到多个层级组中。然后，对于每个步骤，HGPO 在每个层级组内计算不同的优势，并通过自适应加权方案（adaptive weighting scheme）对其进行聚合。通过这种方式，HGPO 能够在步骤级优势估计中实现有利的偏差-方差权衡（bias-variance trade-off），且无需额外的模型或推演（rollouts）。在 ALFWorld 和 WebShop 这两个具有挑战性的智能体任务上，使用 Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct 进行的评估表明，HGPO 在相同的计算约束下显著优于现有的智能体强化学习方法。

1.6. 原文链接

https://openreview.net/forum?id=T8Dev99qnz

1.7. PDF 链接

https://openreview.net/pdf?id=T8Dev99qnz

2. 整体概括

2.1. 研究背景与动机

核心问题： 大型语言模型（LLMs）作为通用智能体（versatile agents）在复杂开放环境中表现出强大的感知、推理和行动能力，尤其是在长视界（long-horizon）任务中。强化学习（RL）是提升这些智能体（agents）性能的关键范式。基于组的强化学习方法（group-based RL），如 GRPO、RLOO 等，因其计算效率高且资源需求少，在大规模 RL 训练中展现出优异性能。

现有研究的挑战或空白：

传统基于组的 RL 的局限性： 许多现有基于组的 RL 方法最初是为单轮任务设计的，难以直接扩展到多轮长视界任务。
轨迹级策略优化的限制： 传统的轨迹级（trajectory-wise）策略优化框架将整个交互历史连接起来，导致上下文长度随交互轮数迅速增长，引发严重的上下文爆炸（context explosion）问题，限制了可扩展性和可行性。
步骤级策略优化的新兴问题： 为解决上下文爆炸，研究转向步骤级（stepwise）策略优化，它独立处理每个步骤并使用记忆模块（memory module）保留历史上下文。然而，这种方法在估计步骤级相对优势（stepwise relative advantages）时，遇到了一个关键问题，即上下文不一致性 (context inconsistency)。具体来说，即使是共享相同当前状态的步骤，其记忆模块中可能包含不同的历史上下文，这会导致优势估计出现偏差（biased advantage estimation），从而严重损害策略优化的效果。
“Oracle”方法的低效性：理论上，只使用具有完全一致历史上下文的“Oracle”步骤可以消除偏差。但经验研究发现，“Oracle”步骤在轨迹中非常稀少（利用率低），且其组大小（group size）通常很小，这会增加优势估计的方差（variance），从而破坏 RL 训练的稳定性。

论文的切入点或创新思路： 针对步骤级基于组的 RL 中 上下文不一致性 导致的偏差问题以及 Oracle 方法的低效高方差问题，本文提出了一种新颖的策略优化算法 HGPO。其核心思想是，通过构建上下文感知的层级组 (context-aware hierarchical grouping) 来组织步骤，并结合自适应加权优势估计 (adaptive weighting advantage estimation)，在降低偏差的同时有效控制方差，从而实现更好的偏差-方差权衡。

2.2. 核心贡献/主要发现

揭示上下文不一致性问题： 首次明确指出并经验性地证明了步骤级基于组的强化学习中 上下文不一致性 的存在，并揭示了其如何导致优势估计的显著偏差，进而降低策略优化的效果。
提出新颖的策略优化算法 HGPO：
- 引入了 上下文感知的层级分组 机制，根据历史上下文的一致性将步骤分配到多层级组中。这使得更精细的比较和优势估计成为可能，提高了数据利用率并降低了方差。
- 设计了 自适应加权优势估计 方案，结合不同层级组的优势估计，并对历史上下文更一致的组赋予更大的权重，以降低估计偏差。
- 通过上述两点，HGPO 在无需额外模型或推演（rollouts）的情况下，实现了在步骤级优势估计中更好的偏差-方差权衡。
取得卓越的经验性能： 在 ALFWorld 和 WebShop 这两个具有挑战性的智能体（agentic）基准测试上，使用 Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct 作为基础模型进行评估，HGPO 持续显著优于现有的基线方法，且在相同的计算约束下表现更优，尤其是在 出分布 (out-of-distribution) 任务上展现出更好的泛化能力。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大型语言模型（Large Language Models, LLMs）与智能体（Agents）

大型语言模型 (LLMs) 是指具有数亿到数千亿甚至更多参数的深度学习模型，通过在海量文本数据上进行预训练而获得强大的语言理解和生成能力。近年来，LLMs 不仅用于文本生成、问答等传统任务，还被赋予了 感知 (perceive)、推理 (reason) 和 行动 (act) 的能力，从而成为 智能体 (agents)。智能体 (agents) 能够在一个复杂、开放的环境中与环境交互，执行多步骤决策以达成特定目标。

3.1.2. 长视界（Long-Horizon）任务

长视界任务 (long-horizon tasks) 指的是需要智能体（agent）进行多步决策、长期规划和持续交互才能完成的任务。与单步或短视界任务不同，这类任务通常涉及复杂的子目标分解、状态转换和延迟奖励，例如在虚拟环境中导航、完成在线购物或执行软件工程任务等。

3.1.3. 强化学习（Reinforcement Learning, RL）

强化学习 (RL) 是一种机器学习范式，其中一个 智能体 (agent) 通过与环境进行交互来学习最优行为策略。智能体在每个时间步观察环境的 状态 (state)，执行一个 动作 (action)，然后环境会根据动作给出 奖励 (reward) 并转移到新的状态。智能体的目标是学习一个 策略 (policy)，使得长期累积奖励最大化。

3.1.4. 策略优化（Policy Optimization）

策略优化 (policy optimization) 是强化学习中的一类方法，直接优化智能体（agent）的 策略 (policy) 函数。其目标是调整策略的参数，使得智能体在环境中采取的行动能够获得更高的预期累积奖励。常见的策略优化算法包括 PPO (Proximal Policy Optimization)、REINFORCE 等。

3.1.5. 基于组的强化学习（Group-based Reinforcement Learning）

基于组的强化学习 (Group-based RL) 是一类高效的强化学习算法，其特点是不依赖于额外的价值网络（value network） 来估计状态价值或优势。相反，它们通过从一组（或称为“批次”）采集到的 推演 (rollouts) 或 轨迹 (trajectories) 中直接计算 相对优势 (relative advantages) 来进行策略更新。这种方法通常通过比较组内不同轨迹或步骤的奖励来判断某个动作的好坏。例如，GRPO、RLOO 等。这种方法能够显著减少计算资源，提高大规模 RL 训练的效率。

3.1.6. 优势估计（Advantage Estimation）

在强化学习中，优势函数 (advantage function) $A(s, a) = Q(s, a) - V(s)$ 用于衡量在给定状态 $s$ 下，采取特定动作 $a$ 相对于该状态下平均行动的优劣程度。其中 Q(s, a) 是 动作价值函数 (action-value function)，表示在状态 $s$ 下采取动作 $a$ 后预期的累积奖励；V(s) 是 状态价值函数 (state-value function)，表示在状态 $s$ 下按照当前策略行动预期的累积奖励。优势估计 (advantage estimation) 是指计算这个优势函数的过程，它对于稳定和加速策略优化至关重要。

3.1.7. 轨迹级与步骤级策略优化（Trajectory-wise vs. Stepwise Policy Optimization）

轨迹级策略优化 (Trajectory-wise Policy Optimization): 将智能体（agent）与环境的整个交互历史，即一条完整的 轨迹 (trajectory)，视为一个整体进行优化。这意味着在计算优势和更新策略时，会考虑从任务开始到结束的所有状态-动作对。
- 优点: 能够捕捉全局依赖关系。
- 缺点: 在长视界任务中，整个轨迹的 上下文长度 (context length) 会迅速增长，导致 上下文爆炸 (context explosion) 问题，使得 LLM 难以处理，计算成本高昂。
步骤级策略优化 (Stepwise Policy Optimization): 将 轨迹 (trajectory) 中的每个 步骤 (step) 独立对待，进行单独的 策略优化 (policy optimization)。为了在独立处理步骤的同时保留历史信息，通常会利用 记忆模块 (memory module) 来存储和管理有限的历史上下文。
- 优点: 解决了上下文爆炸问题，使得长视界 RL 训练更具可扩展性。
- 缺点 (本文发现): 引入了 上下文不一致性 (context inconsistency) 问题，即即使当前状态相同，不同步骤的历史上下文可能不同，导致优势估计偏差。

3.1.8. 上下文不一致性（Context Inconsistency）

上下文不一致性 (context inconsistency) 是本文提出的在步骤级基于组的强化学习中发现的关键问题。它指的是，在进行优势估计时，属于同一组（例如，共享相同当前状态）的多个步骤，其各自关联的 历史上下文 (historical contexts)（由记忆模块维护）可能并不相同。这种不一致性使得基于这些步骤的组内比较无法准确反映在特定历史上下文下的动作价值，从而导致 优势估计 (advantage estimation) 出现偏差（biased），进而影响 策略 (policy) 的有效学习。

3.2. 前人工作

3.2.1. 基于 LLM 的决策智能体（LLM-based Decision-making Agents）

早期方法主要依赖于预训练 LLM 的能力，通过结构化 提示 (prompting)，如 ReAct (Yao et al., 2023) 和 Reflexion (Shinn et al., 2024)。这些方法可能还会通过 记忆 (memory) 和 检索 (retrieval) 机制或 工具集成 (tool integration) 来增强能力。虽然无需额外训练，但它们在特定领域任务上可能受限于基础模型缺乏专业知识。

3.2.2. 用于 LLM 智能体的强化学习（Reinforcement Learning for LLM Agents）

RL 在调整 LLM 智能体以适应动态开放环境方面发挥了核心作用。早期工作将 DQN 应用于文本游戏，随后 PPO 和 AWR 等 基于价值的方法 (value-based methods) 被用于 ALFWorld 等交互式领域。RL 也被整合到 LLM 训练中，如 RLHF (Reinforcement Learning from Human Feedback) 用于模型对齐。基于组的 RL (Group-based RL) 算法，如 GRPO (Shao et al., 2024)、Dr. GRPO、Clip-Cov、GSPO 和 DAPO，作为 PPO 的可扩展替代方案而出现，它们通过估计样本组的优势来避免价值网络。然而，这些方法大多设计用于单轮交互，难以处理长视界任务中的 上下文一致性 问题。

3.2.3. 长视界智能体强化学习（Long-horizon Agentic Reinforcement Learning）

这一领域旨在将 LLM 从单轮生成扩展到多轮决策。RL 为 LLM 提供了 规划 (planning)、推理 (reasoning) 和 记忆 (memory) 能力，以实现在动态环境中的持续交互。应用场景包括代码生成、软件工程和 GUI 交互。近期进展包括：

轨迹级策略优化框架 (Trajectory-wise Policy Optimization Frameworks): 如 RAGEN (Wang et al., 2025d) 和 $SearchR1 (Jin et al., 2025a)$ ，它们在多轮 推演 (rollouts) 上进行优化。但这些方法面临 上下文爆炸 (context explosion) 的挑战。
步骤级策略优化方法 (Stepwise Policy Optimization Methods): 如 Feng et al., 2025b (即 GiGPO)、Luo et al., 2025c 等，它们独立处理每个步骤，通过 记忆模块 (memory modules) 维持历史信息。然而，这些 步骤级方法 (stepwise methods) 经常面临 上下文不一致性 (context inconsistency) 问题，限制了它们在复杂智能体任务中的有效性。

3.3. 技术演进

LLM 智能体的发展经历了从基于 提示 (prompting) 的简单代理，到结合 记忆 (memory) 和 工具使用 (tool use) 的增强代理，再到利用 RL 进行后训练优化的过程。在 RL 方面，从 DQN、PPO 等经典算法，逐步发展到 RLHF 以及更高效的 基于组的 RL 方法。在处理 长视界任务 上，技术从 轨迹级优化 转向 步骤级优化 以缓解 上下文爆炸，但 步骤级优化 自身又带来了 上下文不一致性 这一新的挑战。本文的 HGPO 正是针对 步骤级优化 中的 上下文不一致性 问题，提出了一种更精细、更鲁棒的 优势估计 (advantage estimation) 机制。

3.4. 差异化分析

HGPO 与现有方法的核心区别和创新点在于：

与轨迹级 RL 区别： HGPO 采用 步骤级策略优化 (stepwise policy optimization) 框架，通过 记忆模块 (memory module) 管理上下文，避免了 轨迹级策略优化 中因 上下文爆炸 (context explosion) 导致的可扩展性问题。
与传统基于组的 RL (如 GRPO) 区别： GRPO 最初是为单轮任务设计的，当应用于长视界任务的步骤级优化时，其 轨迹级优势估计 (trajectory-level advantage estimation) 对轨迹内不同步骤一视同仁，无法提供细粒度的 信用分配 (credit assignment)。HGPO 则通过 上下文感知的层级分组 (context-aware hierarchical grouping) 和 自适应加权 (adaptive weighting) 实现细粒度的 步骤级优势估计。
与 GiGPO 区别： GiGPO (Feng et al., 2025b) 是最接近 HGPO 的方法，它也进行了 步骤级分组 (step-level grouping)，并估计了额外 步骤级优势 (step-level advantages)。然而，GiGPO 忽略了 上下文不一致性 (context inconsistency) 问题，即共享相同当前状态的步骤可能具有不同的历史上下文。这导致 GiGPO 的优势估计可能存在严重偏差，尤其是在 $K$ $K$ 值（历史上下文深度）增大时，偏差会更加显著。
- HGPO 的创新在于明确识别并解决了 上下文不一致性 问题。它通过构建多层级的上下文感知组，并采用自适应加权方案，优先考虑那些历史上下文更一致的组的优势估计，从而有效降低了偏差，并实现了更好的偏差-方差权衡。这使得 HGPO 在 $K$ 值增大时（即需要更长历史上下文时）仍能保持性能优势，而 GiGPO 则可能因偏差增大而受限。

4. 方法论

本节将详细阐述 Hierarchy-of-Groups Policy Optimization (HGPO) 的技术方案，包括其问题设定、核心思想、具体算法组件以及理论分析。

4.1. 方法原理

HGPO 的核心思想是解决 步骤级基于组的强化学习 (stepwise group-based RL) 中存在的 上下文不一致性 (context inconsistency) 问题。当来自不同轨迹的步骤共享相同的当前状态但具有不同的历史上下文时，传统的 步骤级优势估计 (step-level advantage estimation) 会产生偏差。HGPO 通过引入 上下文感知的层级分组 (context-aware hierarchical grouping) 来细化步骤的归类，并使用 自适应加权 (adaptive weighting) 机制聚合来自不同层级组的优势估计，从而在 偏差 (bias) 和 方差 (variance) 之间找到一个有利的权衡点，以获得更准确、更稳定的 优势估计 (advantage estimation)。

4.2. 核心方法详解

4.2.1. 问题设定

在 长视界智能体任务 (long-horizon agentic tasks) 中，一个 大语言模型智能体 (LLM-based agent) $\pi_{\theta}$ （由参数 $\theta$ 参数化）在每个时间步 $t$ 观察 环境状态 (environment state) $\boldsymbol{s}_t \in \mathcal{S}$ ，并生成一个 文本动作 (textual action) $\boldsymbol{a}_t \in \mathcal{V}^n$ 。这里， $\mathcal{V}$ 是 词元词汇表 (token vocabulary)， $n$ 是最大生成长度。任务通常是 稀疏延迟奖励 (sparse delayed reward) 设置，即环境只在 轨迹 (trajectory) $\tau=\{(\boldsymbol{s}_1, \boldsymbol{a}_1), \ldots, (\boldsymbol{s}_T, \boldsymbol{a}_T)\}$ 的最终步骤提供一个标量 奖励 (reward) $r_t \in \mathcal{R}$ 。

4.2.2. 轨迹级与步骤级策略优化

为了解决 轨迹级策略优化 (trajectory-wise policy optimization) 中 上下文爆炸 (context explosion) 的问题，步骤级策略优化 (stepwise policy optimization) 被提出。它将 轨迹 (trajectory) 分解为独立的步骤，并通过 记忆模块 (memory module) 维护一个有限的 历史上下文 (historical context) $K \ll T$ ，从而使 提示长度 (prompt length) 相对稳定，实现可扩展的 RL 训练。

4.2.3. 基于组的强化学习中的优势估计

基于组的强化学习 (Group-based RL) 算法（如 GRPO）不使用额外的价值函数，而是直接从 推演 (rollouts) 样本组 $G_{\tau}$ 的统计数据中计算优势。

4.2.3.1. 轨迹级优势估计

GRPO 最初设计用于单轮任务，其 轨迹级优势估计 (trajectory-level advantage estimation) 定义如下： $A^{T}\left(\tau_{i}\right)=\left(R\left(\tau_{i}\right)-1/\left|G_{\tau}\right| \sum_{j \in G_{\tau}} R\left(\tau_{j}\right)\right) / \sigma_{G_{\tau}} \quad \text{(1)}$ 符号解释：

$A^{T}(\tau_i)$ : 对于 轨迹 (trajectory) $\tau_i$ 的 轨迹级优势 (trajectory-level advantage)。
$R(\tau_i)$ : 轨迹 (trajectory) $\tau_i$ 的总 奖励 (reward)。
$G_{\tau}$ : 轨迹组 (group of trajectories)，包含所有采样的轨迹。
$|G_{\tau}|$ : 轨迹组 (group of trajectories) $G_{\tau}$ 中轨迹的数量。
$\sum_{j \in G_{\tau}} R(\tau_j)$ : 轨迹组 (group of trajectories) 中所有轨迹的总 奖励 (reward) 之和。
$\sigma_{G_{\tau}}$ : 轨迹组 (group of trajectories) $G_{\tau}$ 中 奖励 (reward) 的标准差。
该公式计算的是 轨迹 (trajectory) $\tau_i$ 的奖励与其所在组内平均奖励的相对差异，并进行标准化。这个优势值会被分配给 轨迹 (trajectory) $\tau_i$ 中的每一个步骤，但这种方式忽略了轨迹内部的细粒度 信用分配 (credit assignment) 需求。

4.2.3.2. 步骤级优势估计

为了更细粒度地分配信用，可以采用 步骤级组相对优势估计器 (step-level group relative advantage estimator)。它将所有组内轨迹中具有相同 当前状态 (current states) $\tilde{\boldsymbol{s}}_i$ 的步骤聚类成 步骤级组 (step-level groups) $G_{\tilde{\boldsymbol{s}}_i}$ ，并计算其优势： $A^{S}\left(\tilde{\boldsymbol{s}}_{i}\right)=\left(R\left(\tilde{\boldsymbol{s}}_{i}\right)-1/\left|G_{\tilde{\boldsymbol{s}}_{i}}\right| \sum_{j \in G_{\tilde{\boldsymbol{s}}_{i}}} R\left(\tilde{\boldsymbol{s}}_{j}\right)\right) / \sigma_{G_{\tilde{\boldsymbol{s}}_{i}}} \quad \text{(2)}$ 符号解释：

$A^{S}(\tilde{\boldsymbol{s}}_i)$ : 对于 步骤 (step) $\tilde{\boldsymbol{s}}_i$ 的 步骤级优势 (step-level advantage)。
$R(\tilde{\boldsymbol{s}}_i)$ : 步骤 (step) $\tilde{\boldsymbol{s}}_i$ 的 奖励 (reward)。
$G_{\tilde{\boldsymbol{s}}_i}$ : 包含所有 当前状态 (current state) 相同的步骤的 步骤级组 (step-level group)。
$|G_{\tilde{\boldsymbol{s}}_i}|$ : 步骤级组 (step-level group) $G_{\tilde{\boldsymbol{s}}_i}$ 中步骤的数量。
$\sum_{j \in G_{\tilde{\boldsymbol{s}}_i}} R(\tilde{\boldsymbol{s}}_j)$ : 步骤级组 (step-level group) 中所有步骤的总 奖励 (reward) 之和。
$\sigma_{G_{\tilde{\boldsymbol{s}}_i}}$ : 步骤级组 (step-level group) $G_{\tilde{\boldsymbol{s}}_i}$ 中 奖励 (reward) 的标准差。
步骤级估计器 (step-level estimator) 提供了比 轨迹级估计器 (trajectory-level estimator) 更细粒度的 信用分配 (credit assignment)。

4.2.4. 上下文不一致性问题

尽管 步骤级策略优化 (stepwise policy optimization) 解决了 上下文爆炸 (context explosion)，但它引入了 上下文不一致性 (context inconsistency) 问题。如图 1(b) 所示，在 步骤级锚定组 (step-level anchor group) 中，共享相同 当前状态 (current state) 的步骤，其 记忆模块 (memory modules) 中可能包含不同的 历史上下文 (historical contexts)。这导致在该 步骤级组 (step-level group) 内估计的优势 有偏差 (biased)，无法准确反映在给定 先验上下文 (prior context) 条件下 当前状态 (current states) 和 动作 (actions) 的真实效果。

图 2 的实验结果也表明，轨迹级优势 (trajectory-level advantages) 和 步骤级优势 (step-level advantages) 都存在显著的估计偏差。一个直接的解决方案是只使用 Oracle 步骤（即不仅当前状态相同，历史上下文也完全相同的步骤）进行策略优化。然而，Oracle 步骤在 轨迹 (trajectories) 中非常稀少（图 2(c) 和 2(d) 所示，比例低），使得这种方法效率低下。此外，Oracle 步骤的平均组大小很小，会增加优势估计的 方差 (variance)，从而破坏 RL 训练的稳定性。

4.2.5. 层级组策略优化（Hierarchy-of-Groups Policy Optimization, HGPO）

为了解决 上下文不一致性 导致的偏差问题以及 Oracle 方法的低效高方差问题，本文提出了 HGPO，其核心包含 上下文感知层级分组 和 自适应加权优势估计 两个组件。

4.2.5.1. 上下文感知层级分组 (Context-aware Hierarchical Grouping)

上下文感知层级分组 (context-aware hierarchical grouping) 的目的是根据 历史上下文 (historical contexts) 的一致性，将步骤组织成多层级的组。直观上，每个步骤的优势应该相对于不同的历史上下文进行评估，以获得更准确的估计。

定义 $k$ -步上下文操作符： 对于第 $i$ 条 轨迹 (trajectory) 中的第 $t$ 个步骤，其 $k$ -步上下文由操作符 $\mathcal{C}_k(\boldsymbol{s}_t^{(i)})$ 定义： $\mathcal{C}_{k}\left(\boldsymbol{s}_{t}^{(i)}\right)= \begin{cases}\left(\boldsymbol{s}_{t-k}^{(i)}, \boldsymbol{s}_{t-k+1}^{(i)}, \cdots, \boldsymbol{s}_{t}^{(i)}\right), t \geq k, \\ \left(\boldsymbol{s}_{0}^{(i)}, \boldsymbol{s}_{1}^{(i)}, \cdots, \boldsymbol{s}_{t}^{(i)}\right), t<k,\end{cases} \quad \text{(3)}$ 符号解释：
- $\mathcal{C}_k(\boldsymbol{s}_t^{(i)})$ : 对于第 $i$ 条 轨迹 (trajectory) 的第 $t$ 个步骤，其 k-步上下文 (k-step context)。
- $\boldsymbol{s}_t^{(i)}$ : 第 $i$ 条 轨迹 (trajectory) 在时间步 $t$ 的 状态 (state)。
- $k$ : 上下文深度 (context depth)，表示考虑的历史步骤数量，取值范围 $k \in [0, K]$ ，其中 $K$ 是最大上下文长度。
- 这个操作符返回当前状态 $\boldsymbol{s}_t^{(i)}$ 之前最近的 $k$ 个历史状态，包括当前状态本身。如果当前步骤 $t$ 小于 $k$ ，则返回从初始状态 $\boldsymbol{s}_0^{(i)}$ 到当前状态的所有历史状态。
定义 $k$ -th 层级组： 基于上述 上下文操作符 (context operator)，对于第 $i$ 条 轨迹 (trajectory) 中的第 $t$ 个步骤，其 $k$ -th 层级组 (hierarchical group) 定义为： $G_{k}^{H}\left(\boldsymbol{s}_{t}^{(i)}\right)=\left\{(j, n) \in \mathcal{I}: \mathcal{C}_{k}\left(\boldsymbol{s}_{t}^{(i)}\right)=\mathcal{C}_{k}\left(\boldsymbol{s}_{n}^{(j)}\right)\right\} \quad \text{(4)}$ 符号解释：
- $G_k^H(\boldsymbol{s}_t^{(i)})$ : 对于第 $i$ 条 轨迹 (trajectory) 的第 $t$ 个步骤，其 $k$ -th 层级组 (hierarchical group)。
- (j, n): 表示第 $j$ 条 轨迹 (trajectory) 的第 $n$ 个步骤。
- $\mathcal{I}$ : 所有 轨迹 (trajectory) 中所有步骤的索引集合，即 $\{(i, t) \mid 1 \leq i \leq N, 1 \leq t \leq T\}$ 。
- 这个组包含所有与 $\boldsymbol{s}_t^{(i)}$ 具有完全相同 $k$ -步上下文的步骤。
层级组结构： 上下文感知层级分组 (context-aware hierarchical grouping) 产生的 层级组 (hierarchy-of-groups) 结构满足： $G_{0}^{H}\left(\boldsymbol{s}_{t}^{(i)}\right) \supseteq G_{1}^{H}\left(\boldsymbol{s}_{t}^{(i)}\right) \supseteq \cdots \supseteq G_{K}^{H}\left(\boldsymbol{s}_{t}^{(i)}\right), \quad\left|G_{0}^{H}\left(\boldsymbol{s}_{t}^{(i)}\right)\right| \geq \cdots \geq\left|G_{K}^{H}\left(\boldsymbol{s}_{t}^{(i)}\right)\right| \quad \text{(5)}$ 解释：
- 当 $k=0$ 时，0-步上下文 (0-step context) $\mathcal{C}_0(\boldsymbol{s}_t^{(i)})$ 仅包含当前状态 $\boldsymbol{s}_t^{(i)}$ 本身。因此， $G_0^H(\boldsymbol{s}_t^{(i)})$ 对应于所有共享相同当前状态的步骤，这退化为 GiGPO 中使用的 步骤级分组 (step-level grouping)。
- 随着 $k$ 的增加，对历史上下文一致性的要求越高，因此满足条件的步骤会越来越少，导致组的大小逐渐减小（ $|G_k^H|$ 递减或保持不变）。
- $G_K^H(\boldsymbol{s}_t^{(i)})$ 包含与 $\boldsymbol{s}_t^{(i)}$ 具有最长 $K$ -步一致上下文的步骤，这最接近 Oracle 组。
- 优点： 这种层级结构：(i) 提高了 步骤利用率 (step utilization)，因为即使在长上下文下没有完全一致的组，也可以在较短上下文下找到更大的组；(ii) 减少了 估计优势的方差 (variance of estimated advantages)，因为在组大小较大时方差较小。
- 该分组过程是完全 离线 (offline) 的，仅需对现有 推演 (rollouts) 进行 哈希表查找 (hashmap lookups)，无需额外模型或数据采集。

4.2.5.2. 自适应加权优势估计 (Adaptive Weighting Advantage Estimation)

直观而言，层级 (higher-level) 组（具有更长、更一致的 历史上下文 (historical context)）能够提供更准确的优势比较。基于这一洞察，HGPO 引入了 自适应加权方案 (adaptive weighting scheme) 来整合所有层级组的信息。

定义 $k$ -th 层级组的优势估计： 对于 $k$ -th 层级组 (hierarchical group)，其优势估计定义为： $A_{k}^{H}\left(\boldsymbol{s}_{t}^{(i)}\right)=\left(R\left(\boldsymbol{s}_{t}^{(i)}\right)-1/\left|G_{k}^{H}\right| \sum_{j \in G_{k}^{H}} R\left(\boldsymbol{s}_{t}^{(i)}\right)\right) / \sigma_{G_{k}^{H}} \quad \text{(6)}$ 符号解释：
- $A_k^H(\boldsymbol{s}_t^{(i)})$ : 对于第 $i$ 条 轨迹 (trajectory) 的第 $t$ 个步骤，其 $k$ -th 层级组 (hierarchical group) 中的 优势估计 (advantage estimation)。
- $R(\boldsymbol{s}_t^{(i)})$ : 步骤 $(\boldsymbol{s}_t^{(i)}, \boldsymbol{a}_t^{(i)})$ 的 逐步奖励 (stepwise reward)。这里，作者指出，每个步骤的逐步奖励 $r_t^{(i)}$ 通过从该步骤开始的折扣累积奖励计算得到： $r_t^{(i)}=\sum_{j=t}^{T} \gamma^{j-t} r_j^{(i)}$ ，其中 $\gamma \in (0,1]$ 是 折扣因子 (discount factor)。
- $G_k^H$ : k-th 层级组 (k-th hierarchical group)，如方程 (4) 所定义。
- $|G_k^H|$ : k-th 层级组 (k-th hierarchical group) $G_k^H$ 中步骤的数量。
- $\sum_{j \in G_k^H} R(\boldsymbol{s}_t^{(i)})$ : k-th 层级组 (k-th hierarchical group) $G_k^H$ 中所有步骤的 逐步奖励 (stepwise reward) 之和。
- $\sigma_{G_k^H}$ : k-th 层级组 (k-th hierarchical group) $G_k^H$ 中 逐步奖励 (stepwise reward) 的标准差。
聚合优势估计： 最终，从 $K$ 个 层级组 (hierarchical groups) 聚合得到的优势 $A^H(\boldsymbol{s}_j^{(i)})$ 计算为： $A^{H}\left(\boldsymbol{s}_{j}^{(i)}\right)=\sum_{k=0}^{K} \boldsymbol{w}_{k} A_{k}^{H}\left(\boldsymbol{s}_{j}^{(i)}\right) \quad \text{(7)}$ 符号解释：
- $A^H(\boldsymbol{s}_j^{(i)})$ : 第 $i$ 条 轨迹 (trajectory) 的第 $j$ 个步骤的最终聚合 优势估计 (advantage estimation)。
- $\boldsymbol{w}_k$ : 自适应权重 (adaptive weight)，定义为 $\boldsymbol{w}_{k}=\frac{(k+1)^{\alpha}}{\sum_{k}(k+1)^{\alpha}}$ ，其中 $\alpha \geq 0$ 是一个控制权重锐度的参数。
- 这个公式融合了来自不同 层级组 (hierarchical groups) 的优势信息，并通过 自适应权重 (adaptive weight) $\boldsymbol{w}_k$ 赋予 上下文 (context) 更一致（即 $k$ 值更大）的 层级组 (higher-level groups) 更大的权重。

4.2.6. 策略优化目标

HGPO 的 策略优化目标 (policy optimization objective) 旨在最大化以下目标函数： $\begin{aligned} \mathcal{J}_{\mathrm{HGPO}}(\theta)= & \mathbb{E}\left[\frac{1}{N T} \sum_{i=1}^{N} \sum_{t=1}^{T} \min \left(\rho_{\theta}\left(\boldsymbol{a}_{t}^{(i)}\right) A^{H}\left(\boldsymbol{s}_{t}^{(i)}\right), \operatorname{clip}\left(\rho_{\theta}\left(\boldsymbol{a}_{t}^{(i)}\right), 1 \pm \epsilon\right) A^{H}\left(\boldsymbol{s}_{t}^{(i)}\right)\right)\right] \\ & -\beta \mathbb{D}_{\mathrm{KL}}\left(\pi_{\theta}(\cdot \mid x) \| \pi_{\mathrm{ref}}(\cdot \mid x)\right) \quad \text{(8)} \end{aligned}$ 符号解释：

$\mathcal{J}_{\mathrm{HGPO}}(\theta)$ : HGPO 的 策略优化目标函数 (policy optimization objective function)，参数为 $\theta$ 。
$\mathbb{E}[\cdot]$ : 期望。
$N$ : 推演组 (rollout group) 中 轨迹 (trajectory) 的数量。
$T$ : 轨迹 (trajectory) 的最大交互轮数。
$\rho_{\theta}(\boldsymbol{a}_t^{(i)}) = \frac{\pi_{\theta}(\boldsymbol{a}_t^{(i)} \mid \boldsymbol{s}_t^{(i)}, x)}{\pi_{\theta_{\text{old}}}(\boldsymbol{a}_t^{(i)} \mid \boldsymbol{s}_t^{(i)}, x)}$ : 重要性采样比 (importance sampling ratio)，衡量新 策略 (policy) $\pi_{\theta}$ 相对于旧 策略 (policy) $\pi_{\theta_{\text{old}}}$ 采取 动作 (action) $\boldsymbol{a}_t^{(i)}$ 的概率比。
$A^H(\boldsymbol{s}_t^{(i)})$ : 通过 HGPO 方法计算的 聚合优势估计 (aggregated advantage estimation)（如方程 (7) 所示）。
$\operatorname{clip}(\cdot, 1 \pm \epsilon)$ : 裁剪函数 (clipping function)，将 重要性采样比 (importance sampling ratio) 裁剪到 $[1-\epsilon, 1+\epsilon]$ 范围内，以限制 策略 (policy) 更新的幅度，防止过大的变化，其中 $\epsilon$ 是 裁剪参数 (clipping parameter)。
$\beta$ : KL 散度惩罚 (KL penalty) 的系数，控制 策略 (policy) 与 参考策略 (reference policy) $\pi_{\mathrm{ref}}$ 之间 KL 散度 (KL-divergence) 的强度。
$\mathbb{D}_{\mathrm{KL}}(\pi_{\theta}(\cdot \mid x) \| \pi_{\mathrm{ref}}(\cdot \mid x))$ : 新 策略 (policy) $\pi_{\theta}$ 与 参考策略 (reference policy) $\pi_{\mathrm{ref}}$ 之间的 KL 散度 (KL-divergence)，用于保持 策略 (policy) 的更新不会偏离原始 LLM 太远。
该目标函数结合了 PPO 风格的 裁剪目标 (clipped objective) 来稳定训练，并加入了 KL 散度惩罚 (KL-divergence penalty) 来约束 策略 (policy) 变化，使其不会过度偏离 参考策略 (reference policy)。

算法的伪代码在附录 A 的 Algorithm 1 中给出，它描述了 HGPO 的训练流程：首先更新旧策略，然后进行多步 推演 (multi-step rollout) 阶段，接着是 分组 (grouping) 阶段（上下文感知层级分组），再是 优势计算 (advantage computation) 阶段（自适应加权优势估计），最后是 策略更新 (policy update) 阶段。

4.2.7. 偏差-方差权衡分析 (Bias-variance Trade-off Analysis)

命题 4.1 (Bias-variance trade-off in HGPO) 令 $b_k$ 和 $v_k$ 分别表示第 $k$ -th 组 (group) $G_k^H$ 内 估计优势 (estimated advantage) $A_k^H$ 的 偏差 (bias) 和 方差 (variance)。在以下条件下： (1) 偏差 (Bias) 单调递减，即 $B_T \geq b_0 \geq b_1 \cdots \geq b_K \geq 0$ ； (2) 方差 (Variance) 单调递增且相互独立，即 $v_0 \leq v_1 \leq \cdots \leq v_K \leq V_T$ 。

估计器 (estimator) $A^H$ 的 偏差 (bias) 和 方差 (variance) 为： $\operatorname{Bias}\left[A^{H}\right]=\operatorname{Bias}\left[\sum_{k=0}^{K} w_{k} A_{k}^{H}\right]=\sum_{k=0}^{K} w_{k} b_{k} \quad \text{(9)}$ $\operatorname{Var}\left[A^{H}\right]=\operatorname{Var}\left[\sum_{k=0}^{K} w_{k} A_{k}^{H}\right]=\sum_{k=0}^{K} w_{k}^{2} \operatorname{Var}\left[A_{k}^{H}\right]=\sum_{k=0}^{K} w_{k}^{2} v_{k} \quad \text{(10)}$ 此外，偏差 (bias) 和 方差 (variance) 满足： $b_{K}=\sum_{k=0}^{K} w_{k} b_{K} \leq \operatorname{Bias}\left[A^{H}\right] \leq \sum_{k=0}^{K} w_{k} b_{0}=b_{0} \leq B_{T} \quad \text{(11)}$ $\frac{1}{K(K+1)^{2\alpha}} v_{0} \leq \sum_{k=0}^{K} w_{k}^{2} v_{0} \leq \operatorname{Var}\left[A^{H}\right] \leq \sum_{k=0}^{K} w_{k}^{2} v_{K} \leq \frac{(K+1)^{2\alpha}}{K} v_{K} \quad \text{(12)}$ 符号解释：

$B_T, b_0, b_K$ : 分别表示 轨迹级 (trajectory-level)、步骤级 (step-level) 和 Oracle 优势 (Oracle advantage) 的 偏差 (bias)。
$V_T, v_0, v_K$ : 分别表示 轨迹级 (trajectory-level)、步骤级 (step-level) 和 Oracle 优势 (Oracle advantage) 的 方差 (variance)。
HGPO 的 优势估计器 (advantage estimator) 的 偏差 (bias) 低于 轨迹级 (trajectory-level) 和 步骤级 (step-level) 估计器，并且与 Oracle 估计器 (Oracle estimators) 进行权衡。其 方差 (variance) 则根据 层级组 (hierarchical groups) 的数量 $K$ 和 权重参数 (weight parameter) $\alpha$ 在 步骤级 (step-level) 和 Oracle 估计器 (Oracle estimators) 之间进行权衡。
前提条件解释：
- 偏差单调递减 ( $B_T \geq b_0 \geq b_1 \cdots \geq b_K \geq 0$ )： 组内 历史上下文 (historical context) 的一致性越高（ $k$ 越大）， 估计偏差 (estimation bias) 越小。轨迹级 (trajectory-level) 的偏差最大 ( $B_T$ )，步骤级 (step-level) 次之 ( $b_0$ )，而完全一致的 Oracle 组 ( $b_K$ ) 偏差最小。
- 方差单调递增且独立 ( $v_0 \leq v_1 \leq \cdots \leq v_K \leq V_T$ )： 组大小越小， 估计方差 (estimation variance) 越大。步骤级组 (step-level group) $G_0^H$ (仅当前状态一致) 通常最大，因此方差 $v_0$ 最小。而 Oracle 组 $G_K^H$ (完全上下文一致) 通常很小，因此方差 $v_K$ 最大。轨迹级 (trajectory-level) 组的方差 $V_T$ 一般也很大。方差独立性 (variance independence) 指的是不同层级组的 优势估计 (advantage estimation) 误差是相互独立的。
这个命题表明，HGPO 通过 自适应加权 (adaptive weighting) 机制，能够系统地利用不同层级组的 偏差-方差 (bias-variance) 特性，实现整体上更优的 优势估计 (advantage estimation)。

5. 实验设置

5.1. 数据集

本文在两个具有挑战性的 智能体 (agentic) 基准测试上训练 LLM 智能体：ALFWorld 和 WebShop。

5.1.1. ALFWorld

来源与特点： ALFWorld (Shridhar et al., 2021) 是一个结合文本和具身环境的基准测试，旨在评估 LLM 智能体在 多步骤决策 (multi-step decision-making) 方面的能力。
任务类型： 包含 4,639 个任务实例，涵盖六大类常见的家庭活动：
- Pick & Place (Pick)：拾取并放置。
- Examine in Light (Look)：在光线下检查。
- Clean & Place (Clean)：清洁并放置。
- Heat & Place (Heat)：加热并放置。
- Cool & Place (Cool)：冷却并放置。
- Pick Two & Place (Pick2)：拾取两个并放置。
任务目标： 在每个 情景 (episode) 中，智能体（agent）接收一个文本目标，并通过与环境的多轮交互来完成它。

5.1.2. WebShop

来源与特点： WebShop (Yao et al., 2022) 是一个复杂、基于网络的交互式环境，旨在测试 LLM 智能体在真实在线购物场景中的能力。
任务规模： 包含超过 110 万种产品和 12,000 条用户指令，提供了丰富多样的 动作空间 (action space)。
任务目标： 智能体（agent）必须与模拟的基于 HTML 的购物网站进行交互，以搜索、导航并最终购买合适的商品。

5.1.3. LLM 基础模型

为了进行公平比较，所有实验都基于 Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct (Yang et al., 2024) 作为 基础模型 (base models)。

5.1.4. Prompt Template 示例

LLM 智能体使用的 提示模板 (prompt templates) 如下所示。这些模板通过 Python 风格的字符串格式化构建，其中 {} 包裹的占位符（如 {task_description}、{step_count}、{current_observation}）在运行时动态填充。为了丰富智能体的上下文，使用了历史信息，并将历史长度设置为 2。 $<think> </think>$ 标签指导智能体进行 逐步推理 (step-by-step reasoning)，而 $<action> </action>$ 标签用于指示最终的 动作决策 (action decision)。

ALFWorld Prompt Template (Figure 6):

You are an expert agent operating in the ALFRED embodied Environment. Your task is to: {task_description}. Prior to this step, you have already taken {step_count} step(s). Below are the most recent {history_length} observations and the corresponding actions you took: {action_history}. You are now at step {current_step} and your current observation is: {current_observation}. Your admissible actions of the current situation are: [[admissible_actions ]].
Now it's your turn to take an action. You should first reason step-by-step about the current situation. This reasoning process MUST be enclosed within <think> </think> tags. Once you've finished your reasoning, you should choose an admissible action for current step and present it within <action> </action> tags.

WebShop Prompt Template (Figure 7):

You are an expert autonomous agent operating in the WebShop e-commerce environment. Your task is to: {task_description}. Prior to this step, you have already taken {step_count} step(s). Below are the most recent {history_length} observations and the corresponding actions you took: {action_history}. You are now at step {current_step} and your current observation is: {current_observation}. Your admissible actions for the current situation are: [[available_actions ]].
Now it's your turn to take one action for the current step. You should first reason step-bystep about the current situation, then think carefully which admissible action best advances the shopping goal. This reasoning process MUST be enclosed within <think> </think> tags. Once you've finished your reasoning, you should choose an admissible action for current step and present it within <action> </action> tags.

5.2. 评估指标

5.2.1. ALFWorld

Overall Success Rate (总成功率): 衡量智能体在所有任务中成功完成的比例。
- 概念定义： 总成功率 用于量化智能体在给定任务集合中，能够按照任务指令正确执行并达到目标状态的频率。这是一个直接反映智能体任务完成能力的指标。
- 数学公式： $\text{Success Rate} = \frac{\text{Number of Successful Episodes}}{\text{Total Number of Episodes}}$
- 符号解释：
  - Number of Successful Episodes: 智能体成功完成任务的情景（episode）数量。
  - Total Number of Episodes: 智能体尝试完成任务的情景（episode）总数。
- In-Success (In-distribution Success Rate): 在训练数据分布内的任务上的成功率。
- Out-Success (Out-of-distribution Success Rate): 在训练数据分布之外的任务上的成功率，用于评估泛化能力。

5.2.2. WebShop

Average Task Score (平均任务分数): 衡量智能体在每个任务中获得的平均分数。
- 概念定义： 平均任务分数 用于量化智能体在 WebShop 购物场景中完成任务的质量。通常，任务完成度越高、越准确（例如找到完全符合描述的商品），得分就越高。这反映了智能体对任务目标的理解和执行的精确性。
- 数学公式： $\text{Average Task Score} = \frac{1}{\text{Total Number of Tasks}} \sum_{i=1}^{\text{Total Number of Tasks}} \text{Score}_i$
- 符号解释：
  - Total Number of Tasks: 任务的总数量。
  - $\text{Score}_i$ : 智能体在第 $i$ 个任务中获得的具体分数，分数的计算方式由 WebShop 环境定义。
Average Task Success Rate (平均任务成功率): 衡量智能体在每个任务中成功完成的比例。
- 概念定义： 平均任务成功率 直接衡量智能体能否在 WebShop 中成功购买到符合要求的商品。这通常是一个二元指标（成功或失败），用于评估智能体的基础任务完成能力。
- 数学公式： $\text{Average Task Success Rate} = \frac{1}{\text{Total Number of Tasks}} \sum_{i=1}^{\text{Total Number of Tasks}} \mathbb{I}(\text{Task}_i \text{ is successful})$
- 符号解释：
  - Total Number of Tasks: 任务的总数量。
  - $\mathbb{I}(\text{Task}_i \text{ is successful})$ : 指示函数，如果第 $i$ 个任务成功完成，则为 1，否则为 0。

5.2.3. 训练指标 (Training Metrics)

在附录 C.4 中，论文还提供了训练过程中的动态指标：

Mean Advantages (平均优势):
- 概念定义： 表示所选动作相对于平均动作的优越程度。
- 量化目标： 积极且稳定的值表明智能体通常选择更好的动作，而大幅波动则提示训练不稳定。
Policy Gradient Loss (策略梯度损失):
- 概念定义： 用于更新策略的主要信号。
- 量化目标： 平滑且逐渐减小的值表明学习稳定。过大或急剧变化表示更新过于激进，可能损害训练稳定性。
KL Divergence (KL 散度):
- 概念定义： 衡量新策略与旧策略之间的差异。
- 量化目标： 作为约束，防止策略变化过快。适中的 KL 值表示稳定学习，过高可能导致发散，过低则可能减缓学习。
Policy Gradient Clip Fraction (策略梯度裁剪比例):
- 概念定义： 显示优化过程中被裁剪的梯度比例。
- 量化目标： 适中的比例表示稳定训练，过高则意味着许多更新不稳定并受到限制。
Mean Reward (平均奖励):
- 概念定义： 智能体在每个 情景 (episode) 中获得的平均回报。
- 量化目标： 直接衡量进展：奖励越高表示性能越好。平稳增长表示有效学习，突然下降表明不稳定。
Episode Success Rate (情景成功率):
- 概念定义： 智能体成功完成任务的 情景 (episode) 百分比。
- 量化目标： 直观衡量智能体实现目标的程度。上升的成功率表明智能体正在改进，训练有效。

5.3. 对比基线

本文将 HGPO 与多种具有竞争力的基线方法进行了比较：

闭源 LLM (Closed-source LLMs):
- GPT-4o (Achiam et al., 2023): 领先的闭源 LLM，作为 多轮智能体任务 (multi-turn agentic tasks) 的基线。
- Gemini-2.5-Pro (Team et al., 2023): 另一个与 GPT-4o 规模和能力相当的闭源 LLM。
基于提示的智能体 (Prompting Agents):
- Qwen2.5 (Prompting): Qwen2.5 模型直接通过 提示 (prompting) 进行任务，不经过 RL 训练。
- ReAct (Yao et al., 2023): 一种基于 提示 (prompting) 的智能体，通过 思想链 (chain-of-thought) 框架整合 推理 (reasoning) 和 行动 (acting)。
- Reflexion (Shinn et al., 2024): 一种 提示 (prompting) 智能体，通过自我反思和迭代改进生成输出。
RL 训练方法 (RL Training Methods):
- PPO (with critic) (Schulman et al., 2017): 近端策略优化 (Proximal Policy Optimization)，一种经典的 RL 算法，通常使用一个 价值网络 (value network) (critic) 来估计优势。
- RLOO (Kool et al., 2019; Ahmadian et al., 2024): 离线观察强化学习 (Reinforcement Learning with Offline Observations)，一种 基于组的 RL (group-based RL) 方法，无需 价值网络 (value networks) 即可估计优势。
- GRPO (Shao et al., 2024): 基于组的 RL (Group-based RL)，使用 轨迹级优势估计 (trajectory-level advantage estimation)，旨在扩展 RL 到 多步任务 (multi-step tasks)。
- GiGPO (Feng et al., 2025b): 分组增量 GPO (Grouped Incremental GPO)，一种先前的 层级 RL (hierarchical RL) 方法，为 LLM 智能体执行 组内优势估计 (groupwise advantage estimation)。

5.4. 实现细节

基础模型： Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct。
超参数配置 (所有 RL 训练方法共享)：
- LLM 推演 (rollout) 组大小 (group size) $N=8$ 。
- 每个 推演 (rollout) 采样 16 个不同的组，总共 $16 \times 8 = 128$ 个环境。
- PPO 则使用 128 个独立环境进行 推演 (rollouts)。
- 权重系数 (weighting coefficient) $\alpha$ 在方程 (7) 中设置为 1。
ALFWorld 特有超参数：
- 最大 提示长度 (prompt length)：2048 词元 (tokens)。
- 最大 响应长度 (response length)：512 词元 (tokens)。
- 每个 情景 (episode) 最多 50 个环境步骤。
- 学习率 (learning rate)：actor 为 $1\text{e}-6$ ，critic (仅 PPO 使用) 为 $1\text{e}-5$ 。
- 奖励 (reward)：成功得 10，失败得 0，非法动作罚 -0.1。
- 推演温度 (rollout temperature)：1.0。
- 验证温度 (validation temperature)：0.4。
- 迷你批次大小 (mini-batch size)：256。
- KL 散度损失系数 (KL-divergence loss coefficient)：0.01。
- 折扣因子 (discount factor) $\gamma$ ：0.95。
WebShop 特有超参数：
- 最大 提示长度 (prompt length)：4096 词元 (tokens)。
- 最大 响应长度 (response length)：512 词元 (tokens)。
- 每个 情景 (episode) 最多 15 个环境步骤。
- 学习率 (learning rate)：actor 为 $1\text{e}-6$ ，critic (仅 PPO 使用) 为 $1\text{e}-5$ 。
- 奖励 (reward)：成功得 10，失败得 0，非法动作罚 -0.1。
- 推演温度 (rollout temperature)：1.0。
- 验证温度 (validation temperature)：0.4。
- 迷你批次大小 (mini-batch size)：64。
- KL 散度损失系数 (KL-divergence loss coefficient)：0.01。
- 折扣因子 (discount factor) $\gamma$ ：0.95。
计算细节：
- Qwen2.5-1.5B-Instruct 实验：两块 NVIDIA H100 GPU。
- Qwen2.5-7B-Instruct 实验：四块 NVIDIA H100 GPU。
- 每个实验共训练 160 个训练迭代。
- 在计算方程 (7) 中的权重时，会省略 优势 (advantage) 为零的组，以避免依赖不可用的估计。
- 验证数据集 (validation data) 大小：ALFWorld 为 128，WebShop 为 256。
评估： GiGPO 和 HGPO 均使用三个随机种子进行测试，并报告其性能的平均值和标准差。

6. 实验结果与分析

本节将详细解读 HGPO 在 ALFWorld 和 WebShop 两个基准任务上的实验结果，并与其他基线方法进行对比分析。

6.1. 核心结果分析

6.1.1. 整体性能对比

以下是原文 Table 1 的结果：

Model	Type	Method	ALFWorld		WebShop
Model	Type	Method	In-Success	Out-Success	Task Scores	Task Success Rates
Qwen2.5-1.5B-Instruct	Prompting	GPT-4o	48.0	46.0	31.8	23.7
		Gemini-2.5-Pro	60.3	50.5	42.5	35.9
		Qwen2.5	4.1	-	23.1	5.2
		ReAct	12.8	-	40.1	11.3
		Reflexion	21.8	-	55.8	21.9
	RL Training	PPO (with critic)	$54.4_{\text{x3.1}}$	-	$73.8_{\text{x3.0}}$	$51.5_{\text{x2.9}}$
		RLOO	$69.7_{\text{x2.5}}$	$68.7_{\text{x10.7}}$	$73.9_{\text{x5.6}}$	$52.1_{\text{x6.7}}$
		GRPO	$72.8_{\text{x3.6}}$	$70.1_{\text{x2.5}}$	$75.8_{\text{x3.5}}$	$56.8_{\text{x3.8}}$
		GiGPO $(K=2)$	$85.42_{\text{x1.32}}$	$80.72_{\text{x1.62}}$	$84.52_{\text{x0.98}}$	$69.79_{\text{x0.59}}$
		HGPO $(K=2)$	$89.58_{\text{x0.45}}$	$80.73_{\text{x2.38}}$	$87.53_{\text{x0.77}}$	$72.66_{\text{x1.78}}$
		GiGPO $(K=4)$	$85.15_{\text{x2.81}}$	$80.98_{\text{x0.45}}$	$88.5_{\text{x0.49}}$	$74.08_{\text{x0.98}}$
		HGPO $(K=4)$	$\mathbf{92.45}_{\text{x0.81}}$	$\mathbf{89.06}_{\text{x2.34}}$	$\mathbf{88.90}_{\text{x0.90}}$	$\mathbf{75.91}_{\text{x1.19}}$
Qwen2.5-7B-Instruct	Prompting	Qwen2.5	14.8	-	26.4	7.8
		ReAct	31.2	-	46.2	19.5
		Reflexion	42.7	-	58.1	28.8
	RL Training	PPO (with critic)	$77.08_{\text{x1.12}}$	$76.23_{\text{x1.46}}$	$81.4_{\text{x3.1}}$	$68.7_{\text{x5.1}}$
		RLOO	$77.86_{\text{x0.03}}$	$73.95_{\text{x0.05}}$	$80.3_{\text{x3.2}}$	$65.7_{\text{x4.0}}$
		GRPO	$78.64_{\text{x0.73}}$	$76.82_{\text{x1.47}}$	$79.3_{\text{x2.8}}$	$66.1_{\text{x3.7}}$
		GiGPO $(K=2)$	$89.84_{\text{x2.20}}$	$82.81_{\text{x5.46}}$	$86.23_{\text{x1.43}}$	$75.13_{\text{x1.37}}$
		HGPO $(K=2)$	$91.15_{\text{x1.19}}$	$84.89_{\text{x4.30}}$	$88.93_{\text{x0.84}}$	$76.43_{\text{x1.47}}$
		GiGPO $(K=4)$	$90.88_{\text{x0.90}}$	$87.76_{\text{x0.45}}$	$87.25_{\text{x1.02}}$	$76.18_{\text{x1.25}}$
		HGPO $(K=4)$	$\mathbf{94.79}_{\text{x0.90}}$	$\mathbf{93.22}_{\text{x1.62}}$	$\mathbf{87.88}_{\text{x0.41}}$	$\mathbf{77.21}_{\text{x0.22}}$

分析：

RL 训练方法的优越性： 无论是 Qwen2.5-1.5B-Instruct 还是 Qwen2.5-7B-Instruct，所有 RL 训练方法都显著优于 基于提示 (prompting-based) 的方法（包括 GPT-4o 和 Gemini-2.5-Pro 等闭源模型），这表明 RL 训练在增强 LLM 智能体 (agentic) 推理能力方面具有巨大潜力。
HGPO 的最佳性能： 在所有设置下，HGPO 始终表现出最佳性能。无论是在 ALFWorld 的 In-Success 和 Out-Success 指标，还是 WebShop 的 Task Scores 和 Task Success Rates 指标上，HGPO 都取得了最高分，这充分验证了其有效性。
模型规模的影响： Qwen2.5-7B-Instruct 作为 基础模型 (base model) 时，整体性能优于 Qwen2.5-1.5B-Instruct，这符合 LLM 规模越大性能越强的普遍规律。HGPO 在两种规模的模型上都保持了领先地位。

6.1.2. HGPO 性能随 $K$ 值的提升

分析：

HGPO 显著受益于更大的 $K$ ： 当 历史上下文深度 (context depth) $K$ 从 2 增加到 4 时，HGPO 的性能提升更为显著。例如，在使用 Qwen2.5-1.5B-Instruct 在 ALFWorld 上，HGPO 的 In-Success 从 89.58% 提高到 92.45%；在 Qwen2.5-7B-Instruct 上，In-Success 从 91.15% 提高到 94.79%。
GiGPO 性能提升有限： 相比之下，GiGPO 随着 $K$ 值的增加，性能提升幅度有限，甚至在某些情况下略有下降（如 Qwen2.5-1.5B-Instruct 在 ALFWorld 上，GiGPO In-Success 从 85.42 略降至 85.15）。
原因解释： 较大的 $K$ 值意味着需要考虑更长的 历史上下文 (historical contexts)。这会加剧 提示不一致性 (prompt inconsistency) 问题，使得 GiGPO 的 步骤级优势估计 (step-level advantage estimates) 更加 有偏差 (biased)，从而限制其性能提升。HGPO 则通过其 层级组优势计算 (hierarchical group advantage computation) 机制，有效缓解了这种 提示不一致性，专注于具有一致 提示 (prompts) 的步骤，从而降低了 估计偏差 (estimation bias)，使其能够更好地利用长上下文信息。

6.1.3. 泛化能力分析 (Out-of-distribution Tasks)

分析：

基线方法泛化能力差： 所有基线方法在 ALFWorld 的 出分布任务 (out-of-distribution tasks) 上性能显著下降。这表明 上下文不一致性 会严重损害 策略优化 (policy optimization) 和 泛化能力 (generalization)。
HGPO 保持优越泛化性能： HGPO 在 ALFWorld 的 Out-Success 指标上表现出更优越的性能，且性能下降幅度较小。例如，在使用 Qwen2.5-1.5B-Instruct 时， $HGPO (K=4)$ 的 Out-Success 达到 89.06%，远高于 $GiGPO (K=4)$ 的 80.98%。这表明 HGPO 的 层级分组机制 (hierarchical grouping mechanism) 提供了更 鲁棒 (robust) 和 稳定 (stable) 的 优势估计 (advantage estimation)，使其能够更好地泛化到未见过的任务。

6.2. 进一步分析

6.2.1. 训练动态

以下是原文 Figure 4 和 Figure 8 (附录 D.3) 的图像： ALFWorld Training Dynamics (Qwen2.5-1.5B-Instruct, Figure 4):

WebShop Training Dynamics (Qwen2.5-1.5B-Instruct, Figure 8):

分析：

整体稳定性与效率： HGPO（红色曲线）在所有指标上都表现出更稳定和高效的 策略优化 (policy optimization) 过程。
策略梯度裁剪比例 (Policy Gradient Clip Fraction)： HGPO 维持在一个适度的水平，表明训练稳定。而 GiGPO 和 GRPO 的裁剪比例更高，反映出训练存在一定的不稳定性，需要更频繁的梯度裁剪来限制更新幅度。
KL 散度损失 (KL Loss)： GRPO 的 KL 损失曲线过低，可能暗示学习过程过于缓慢或保守。GiGPO 的 KL 损失相对较高，可能表示学习过程过于激进，策略变化过大。HGPO 的 KL 损失轨迹则保持在一个平衡的水平，表明其 策略学习 (policy learning) 过程稳健且稳定。
平均优势 (Mean Advantages) 和平均奖励 (Mean Reward)： HGPO 通常能更快达到更高的平均奖励和优势，并保持更小的波动，这与其更准确的 优势估计 (advantage estimation) 相关。
情景成功率 (Episode Success Rate)： HGPO 的成功率通常上升更快，并最终达到更高水平，再次印证了其方法的优越性。

6.2.2. 层级组大小分布 (Distribution of Hierarchical Group Sizes)

以下是原文 Figure 5 和 Figure 9 (附录 D.4) 的图像： Hierarchical Group Sizes (K=2, ALFWorld & WebShop, Qwen2.5-1.5B-Instruct, Figure 5):

Hierarchical Group Sizes (K=4, ALFWorld & WebShop, Qwen2.5-1.5B-Instruct, Figure 9):

分析：

0-Context 组的特点： 0-context 组（即只要求当前状态一致，忽略历史上下文的组）倾向于拥有较高比例的 大组大小 (large group sizes)。这是因为对上下文一致性的要求最低，更多的步骤可以被归入同一组。
随着 $K$ 增大，组大小减小： 随着 上下文深度 (context depth) $K$ 的增加（例如从 0-context 到 1-context 再到 2-context），组大小的分布会向更小的组倾斜。即，大组 (large groups) 的比例减少，小组 (smaller groups) 变得更常见。
Oracle 步骤的稀缺性与高方差： 这一现象证实了 Oracle 步骤（对应于 $K$ 值最大时且完全一致的组）的稀缺性，它们通常形成 小组 (smaller groups)。根据 偏差-方差权衡 (bias-variance trade-off) 理论，小组会导致 优势估计 (advantage estimation) 的 方差 (variance) 增加，从而可能破坏 RL 训练的稳定性。这也进一步印证了 HGPO 兼顾偏差和方差的必要性。

6.2.3. 步骤利用率 (Step Utilization Ratio)

以下是原文 Table 5 的结果：

Dataset	0-Context	1-Context	2-Context	3-Context	4-Context
ALFWorld $(K=2)$	0.97	0.75	0.52	-	-
ALFWorld $(K=4)$	0.98	0.77	0.54	0.34	0.19
WebShop $(K=2)$	0.92	0.64	0.44	-	-
WebShop $(K=4)$	0.90	0.59	0.4	0.21	0.09

分析：

0-Context 组的高利用率： 几乎所有步骤都落入 0-context 组（即仅当前状态相同的组），其 利用率 (utilization ratio) 非常高（例如 ALFWorld 为 0.97-0.98，WebShop 为 0.90-0.92）。这表明，在不考虑历史上下文的情况下，大量步骤可以被分组。
高上下文组的利用率下降： 随着 历史上下文 (historical contexts) 数量（即 $K$ 值）的增加，步骤利用率 (step utilization ratio) 稳步下降。这意味着，只有越来越少的步骤能够被聚合成更高层级的组（具有更长、更一致上下文的组）。例如，在 $ALFWorld (K=4)$ 中，4-context 组的利用率仅为 0.19。
Oracle 步骤的稀缺挑战： 这一发现凸显了 Oracle 步骤（完全上下文一致的步骤）的稀缺性带来的挑战。如果仅依赖这些稀有的 Oracle 步骤进行 策略优化 (policy optimization)，将导致数据利用率极低，从而效率低下且不稳定。HGPO 通过 层级分组 (hierarchical grouping) 能够有效利用不同一致性级别的步骤，缓解了这一问题。

6.2.4. 参数分析 ( $\alpha$ )

以下是原文 Table 4 的结果：

Parameter	$\alpha=0$	$\alpha=1$	$\alpha=2$
ALFWolrd	$87.23_{ \pm 1.80}$	$89.58_{ \pm 0.45}$	$84.76_{ \pm 1.17}$
WebShop	$68.48_{ \pm 0.45}$	$72.66_{ \pm 1.78}$	$72.65_{ \pm 1.77}$

分析：

权重系数 (weighting coefficient) $\alpha$ 在方程 (7) 中控制 权重分布 (weight distribution) 的锐度。
$\alpha=0$ 的性能下降： 当 $\alpha=0$ 时，所有 层级组 (hierarchical groups) 的权重变为均匀分布（即 $w_k$ 相同），此时性能最差。这是因为均匀加权忽略了高层级组（上下文更一致）更准确的 优势信息 (advantage information)，从而引入了更大的 偏差 (bias)。
$\alpha=1$ 的最佳性能： 当 $\alpha=1$ 时，性能最佳。这表明 HGPO 的 自适应加权 (adaptive weighting) 机制能够通过赋予高层级组更大的权重来有效降低 估计偏差 (estimation bias)，同时保持较低的 方差 (variance)。
$\alpha=2$ 性能略有下降： 当 $\alpha=2$ 时，性能与 $\alpha=1$ 相当或略有下降。这可能意味着过高的 $\alpha$ 值会过度强调高层级组，导致其 小组大小 (small group sizes) 带来的 高方差 (high variance) 问题开始显现，或者使得低层级组的信息被过度忽略。
不需大量参数调优： 这一结果表明 HGPO 对 参数 (parameter) $\alpha$ 不敏感，且 $\alpha=1$ 是一个稳定且有效的选择，无需进行大量的参数调优。

6.3. 消融实验

以下是原文 Table 2 的结果：

Ablation	ALFWorld(%)	WebShop(%)
HGPO	$\mathbf{89.58}_{40.45}$	$\mathbf{72.66}_{41.78}$
W/o HoG-1	`13.50_{40.58}`	`10.13_{41.42}`
W/o HoG-2	`86.47_{41.89}`	`57.94_{41.02}`
W/o Ada. Weighting	`87.23_{41.80}`	`68.48_{40.45}`

分析：

“W/o HoG-1” (无层级分组，仅使用 Oracle 步骤)：这种设置下，策略学习 (policy learning) 几乎完全失败（ALFWorld 13.50%，WebShop 10.13%）。这强烈证实了 Oracle 步骤的稀缺性（利用率低），导致数据不足以进行有效的 策略优化 (policy optimization)。这验证了 层级分组 (hierarchical grouping) 在提高 数据利用率 (data utilization) 方面的必要性。
“W/o HoG-2” (无层级分组，Oracle 步骤使用 Oracle 优势，其余使用步骤级优势)：这种设置导致性能显著下降（ALFWorld 从 89.58% 降至 86.47%，WebShop 从 72.66% 降至 57.94%）。虽然 Oracle 步骤的 优势估计 (advantage estimation) 偏差最小，但其 小组大小 (small group sizes) 导致 高方差 (high variance)。当这些高方差的 Oracle 优势 (Oracle advantages) 与其他步骤的 步骤级优势 (step-level advantages) 混合使用时，整体 优化 (optimization) 过程变得不稳定。这验证了 层级分组 (hierarchical grouping) 在降低 方差 (variance) 和稳定 优化 (optimization) 方面的必要性。
“W/o Ada. Weighting” (无自适应加权，使用均匀权重)：这种设置通过将方程 (7) 中的 $\alpha$ 设为 0 来实现，即所有 层级组 (hierarchical groups) 获得相同的权重。性能有所下降（ALFWorld 从 89.58% 降至 87.23%，WebShop 从 72.66% 降至 68.48%）。这表明 均匀加权 (uniform weighting) 放弃了从高层级组（上下文更一致）获得的更准确 优势信息 (advantage information)，从而引入了更大的 估计偏差 (estimation bias)。自适应加权 (adaptive weighting) 通过优先考虑更一致的组，实现了更好的 偏差-方差权衡 (bias-variance trade-off)。

总结： 消融实验有力地证明了 HGPO 的每个核心组件——上下文感知层级分组 (context-aware hierarchical grouping) 和 自适应加权优势估计 (adaptive weighting advantage estimation)——对于实现高性能和稳定 策略优化 (policy optimization) 都是至关重要的。

7. 总结与思考

7.1. 结论总结

本文提出了 层级组策略优化 (Hierarchy-of-Groups Policy Optimization, HGPO)，这是一种新颖的 基于组的强化学习 (group-based RL) 算法，旨在解决 长视界大型语言模型 (LLM) 智能体 (agent) 训练中普遍存在的 上下文不一致性 (context inconsistency) 问题。HGPO 的核心创新在于引入了 上下文感知层级优势估计 (context-aware hierarchical advantage estimation) 机制。它通过根据 历史上下文 (historical context) 的一致性将步骤组织成多层级组，并采用 自适应加权方案 (adaptive weighting scheme) 来聚合这些层级组的优势，从而实现了细粒度的每步 信用分配 (credit assignment)。这种方法在 优势估计 (advantage estimation) 中取得了有利的 偏差-方差权衡 (bias-variance trade-off)。

在 ALFWorld 和 WebShop 这两个复杂的 智能体 (agentic) 环境上的广泛实验表明，HGPO 显著优于现有的 基于提示 (prompt-based) 和 RL 方法，并且在 出分布 (out-of-distribution) 任务上展现出更强的 泛化能力 (generalization)。HGPO 在不增加额外模型或 推演 (rollouts) 的情况下，以最小的额外时间成本实现了 最先进的 (state-of-the-art) 性能。

7.2. 局限性与未来工作

作者在论文中指出，未来的一个有趣方向是探索处理 上下文不一致性 (context inconsistency) 的其他策略。例如，在 推演 (rollout) 阶段 有条件地控制轨迹 (conditionally controlling trajectories)。这意味着除了在 优势估计 (advantage estimation) 阶段进行处理，也可以在数据生成阶段就尝试减少 上下文不一致性 的发生，例如通过设计更严格的 推演 (rollout) 机制来确保收集到的 轨迹 (trajectories) 具有更高的一致性。

7.3. 个人启发与批判

7.3.1. 个人启发

细粒度上下文的价值： 这篇论文深刻揭示了在 长视界 LLM 智能体 (long-horizon LLM agents) 中，历史上下文 (historical context) 的一致性对于 优势估计 (advantage estimation) 的关键作用。以往的 步骤级优化 (stepwise optimization) 仅关注当前状态，而忽略了历史上下文的差异，这本身就是一个值得深思的盲点。HGPO 通过多层级 上下文感知分组 (context-aware grouping)，为 LLM 智能体 (agent) 学习更精细、更准确的 信用分配 (credit assignment) 提供了可能。
偏差-方差权衡的实践范例： HGPO 提供了一个优秀的 偏差-方差权衡 (bias-variance trade-off) 实践案例。Oracle 组虽然偏差最小，但方差巨大且利用率低；0-context 组方差小但偏差大。HGPO 巧妙地通过 自适应加权 (adaptive weighting) 聚合不同 一致性层级 (consistency levels) 的组，使得整体估计在偏差和方差之间达到了一个理想的平衡点。这种思想可以推广到其他需要处理 异构数据 (heterogeneous data) 并进行 统计估计 (statistical estimation) 的场景。
计算效率的考量： HGPO 在不引入额外模型或 推演 (rollouts) 的前提下提高了性能，这对于 LLM 训练来说至关重要，因为它意味着可以在现有计算预算下获得显著的性能提升。离线分组 (offline grouping) 和 哈希表查找 (hashmap lookups) 确保了其高效性。
对泛化能力的贡献： 上下文不一致性 不仅影响训练，更损害 智能体 (agent) 的 泛化能力 (generalization)。HGPO 提升了 出分布任务 (out-of-distribution tasks) 上的表现，这表明其学习到的 策略 (policy) 更具鲁棒性和通用性，能更好地适应未见过的环境条件。

7.3.2. 批判

上下文定义与粒度： 论文中对 k-步上下文 (k-step context) 的定义是基于 状态 (states) 的序列。然而，在 LLM 智能体中，完整的上下文可能还包括 动作 (actions)、观察 (observations) 和 思考 (thoughts) 的序列。虽然论文提到了 记忆模块 (memory module) 维护上下文，但 k-步上下文操作符 (k-step context operator) 仅明确使用 状态 (states)。更全面的上下文定义可能会进一步提高 组 (groups) 的质量，但也可能导致 组 (group) 更小，增加 方差 (variance)。
参数 $\alpha$ 的敏感性： 尽管论文声称 $\alpha=1$ 是一个稳定且有效的选择，但其 参数分析 (parameter analysis) 仅在 $\alpha \in \{0, 1, 2\}$ 之间进行。更广泛的超参数搜索可能会发现更优的值，或者揭示在不同任务和 基础模型 (base models) 下 $\alpha$ 的敏感性。
对“独立性”的假设： 在 偏差-方差权衡 (bias-variance trade-off) 的理论分析中，论文假设不同 层级组 (hierarchical groups) 的 优势估计 (advantage estimation) 是独立的。然而，由于这些组是嵌套的 ( $G_0^H \supseteq G_1^H \supseteq \cdots$ )，它们之间存在共享的 步骤 (steps)，这可能导致 估计 (estimates) 之间存在一定的相关性。如果这种相关性很强，则 方差 (variance) 的计算可能会受到影响。
计算开销： 尽管 HGPO 声称没有额外模型或 推演 (rollouts)，但 上下文感知层级分组 (context-aware hierarchical grouping) 过程涉及到对所有 推演 (rollouts) 中的所有步骤进行 哈希表查找 (hashmap lookups)，这在 轨迹 (trajectory) 数量和长度非常大时，可能会带来显著的内存和计算开销，尤其是在进行 $K$ 次不同上下文深度的查找时。
未来工作方向的限制： 作者提出的未来工作方向是 有条件地控制轨迹 (conditionally controlling trajectories)。这固然是一个有前景的方向，但如何在实际 LLM 智能体 推演 (rollout) 过程中有效且高效地实现 条件控制 (conditional control) 以确保 上下文一致性，本身就是一个复杂的挑战。这可能需要更复杂的 采样策略 (sampling strategies) 或 环境交互协议 (environment interaction protocols)。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 29 分钟读完 · 18,587 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

1.7. PDF 链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大型语言模型（Large Language Models, LLMs）与智能体（Agents）

3.1.2. 长视界（Long-Horizon）任务

3.1.3. 强化学习（Reinforcement Learning, RL）

3.1.4. 策略优化（Policy Optimization）

3.1.5. 基于组的强化学习（Group-based Reinforcement Learning）

3.1.6. 优势估计（Advantage Estimation）

3.1.7. 轨迹级与步骤级策略优化（Trajectory-wise vs. Stepwise Policy Optimization）

3.1.8. 上下文不一致性（Context Inconsistency）

3.2. 前人工作

3.2.1. 基于 LLM 的决策智能体（LLM-based Decision-making Agents）

3.2.2. 用于 LLM 智能体的强化学习（Reinforcement Learning for LLM Agents）

3.2.3. 长视界智能体强化学习（Long-horizon Agentic Reinforcement Learning）

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 问题设定

4.2.2. 轨迹级与步骤级策略优化

4.2.3. 基于组的强化学习中的优势估计

4.2.3.1. 轨迹级优势估计

4.2.3.2. 步骤级优势估计

4.2.4. 上下文不一致性问题

4.2.5. 层级组策略优化（Hierarchy-of-Groups Policy Optimization, HGPO）

4.2.5.1. 上下文感知层级分组 (Context-aware Hierarchical Grouping)

4.2.5.2. 自适应加权优势估计 (Adaptive Weighting Advantage Estimation)

4.2.6. 策略优化目标

4.2.7. 偏差-方差权衡分析 (Bias-variance Trade-off Analysis)

5. 实验设置

5.1. 数据集

5.1.1. ALFWorld

5.1.2. WebShop

5.1.3. LLM 基础模型

5.1.4. Prompt Template 示例

5.2. 评估指标

5.2.1. ALFWorld

5.2.2. WebShop

5.2.3. 训练指标 (Training Metrics)

5.3. 对比基线

5.4. 实现细节

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 整体性能对比

6.1.2. HGPO 性能随 KKK 值的提升

6.1.3. 泛化能力分析 (Out-of-distribution Tasks)

6.2. 进一步分析

6.2.1. 训练动态

6.2.2. 层级组大小分布 (Distribution of Hierarchical Group Sizes)

6.2.3. 步骤利用率 (Step Utilization Ratio)

6.2.4. 参数分析 (α\alphaα)

6.3. 消融实验

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判

相似论文推荐

6.1.2. HGPO 性能随 $K$ 值的提升

6.2.4. 参数分析 ( $\alpha$ )