Tree Search for LLM Agent Reinforcement Learning
TL;DR 精炼摘要
本文提出基于树搜索的群组相对策略优化(Tree-GRPO),解决大型语言模型多轮强化学习中推演预算有限和稀疏监督问题。该方法通过共享前缀提高采样效率,并利用树状轨迹生成步级监督信号,显著提升多数据集问答任务表现。
摘要
000 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 Under review as a conference paper at ICLR 2026 T REE S EARCH FOR LLM A GENT R EINFORCEMENT L EARNING Anonymous authors Paper under double-blind review A BSTRACT Recent advances in reinforcement learning (RL) have significantly enhanced the agentic capabilities of large language models (LLMs). In long-term and multi-turn agent tasks, existing approaches driven solely by outcome rewards often suffer from the problem of sparse supervision. To address the challenge, we propose Tree-based Group Relative Policy Optimization (Tree-GRPO), a grouped agent RL method based on tree search, where each tree node represents the complete agent interaction step. By sharing common prefixes, the tree search sampling increases the number of rollouts achievable within a fixed budget of tokens or tool calls. Moreover, we find that the tree-structured trajectory naturally allows the construction of step-wise process supervised signals even using only the outcome reward.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Tree Search for LLM Agent Reinforcement Learning (用于大型语言模型智能体强化学习的树搜索)
1.2. 作者
匿名作者 (Paper under double-blind review)。通常在双盲评审的论文中,作者信息会被匿名化,以确保评审的公正性。
1.3. 发表期刊/会议
OpenReview, 预计发表于 2025 年 10 月 8 日。OpenReview 是一个用于会议或期刊评审的平台,允许在评审前发布论文,通常用于机器学习和人工智能领域。其声誉和影响力取决于最终接受论文的会议或期刊。
1.4. 发表年份
2025
1.5. 摘要
大型语言模型 (LLM) 在强化学习 (RL) 方面的最新进展显著增强了其智能体 (agentic) 能力。然而,在长期和多轮智能体任务中,仅由结果奖励 (outcome rewards) 驱动的现有方法常面临稀疏监督 (sparse supervision) 的问题。为了解决这一挑战,本文提出了 基于树的群组相对策略优化 (Tree-based Group Relative Policy Optimization, Tree-GRPO),这是一种基于树搜索 (tree search) 的群组智能体强化学习方法,其中每个树节点代表一个完整的智能体交互步骤。通过共享公共前缀,树搜索采样 (tree search sampling) 能够在固定词元 (tokens) 或工具调用 (tool calls) 预算内增加可实现的推演 (rollouts) 数量。此外,研究发现树状轨迹 (tree-structured trajectory) 即使仅使用结果奖励,也能自然地构建步级过程监督 (step-wise process supervised) 信号。在此基础上,Tree-GRPO 在树内 (intra-tree) 和树间 (inter-tree) 级别估计群组相对优势 (grouped relative advantages)。通过理论分析,本文证明了树内级别群组相对策略优化的目标等同于步级直接偏好学习 (step-level direct preference learning) 的目标。在 11 个数据集和 3 种问答任务上的实验表明,本文提出的基于树的强化学习方法优于基于链的强化学习方法。
1.6. 原文链接
https://openreview.net/forum?id=ZpQwAFhU13 PDF 链接: https://openreview.net/pdf?id=ZpQwAFhU13 发布状态: 预印本 (Preprint),目前处于双盲评审阶段。
2. 整体概括
2.1. 研究背景与动机
2.1.1. 论文试图解决的核心问题
当前的大型语言模型 (LLMs) 在强化学习 (RL) 的加持下,在单轮任务中表现出色,但在处理长期 (long-term) 和多轮 (multi-turn) 智能体 (agent) 任务时面临两大挑战:
- 高昂的推演 (rollout) 预算: 智能体任务涉及与环境进行多轮交互,生成包含大量词元 (tokens) 和多次工具调用 (tool-calls) 的轨迹。现有基于链式 (chain-based) 推演的方法效率低下,采样冗余,导致训练时间和计算成本(尤其是工具调用,如昂贵的搜索 API)极高。
- 稀疏监督 (sparse supervision): 尽管智能体轨迹随交互轮数增加而增长,但大多数现有智能体强化学习方法仍主要依赖结果奖励 (outcome rewards)。这种轨迹级别的稀疏信号难以识别多轮交互序列中哪些特定步骤或动作促成了成功或失败。这导致学习过程高度不平衡,甚至可能导致训练崩溃。
2.1.2. 为什么这个问题在当前领域是重要的?
随着大型语言模型能力不断提升,将其应用于更复杂、更开放的环境进行长期交互是未来发展的重要方向。这种“智能体式智能 (agentic intelligence)”对于下一代基础模型至关重要。解决上述挑战能够使LLMs更有效地在现实世界中执行复杂任务,并降低训练成本,推动智能体技术的发展。
2.1.3. 这篇论文的切入点或创新思路是什么?
论文的创新点在于提出了一种基于树搜索的采样策略 (tree-search based sampling strategy) 和一种新的优势估计方法 (advantage estimation method),以解决上述问题:
- 树搜索采样: 将传统的链式推演替换为树搜索过程,通过共享公共前缀来显著增加在相同预算(词元和工具调用)下可获得的推演数量。特别地,将树节点定义为完整的智能体交互步骤 (Thought-Action-Observation),而非更细粒度的词元或句子,这更适合智能体任务的结构。
- 细粒度过程监督: 利用树状轨迹的结构特点,即使仅从结果奖励出发,也能自然地构建步级过程监督信号 (step-wise process supervision signals)。通过估计树内 (intra-tree) 和树间 (inter-tree) 的群组相对优势,将轨迹级别的稀疏信号转化为更细粒度的过程级别监督。
2.2. 核心贡献/主要发现
2.2.1. 论文最主要的贡献
- 提出了一种基于树的推演策略 (tree-based rollout strategy),其节点锚定在智能体步骤级别,取代了多轮智能体强化学习中独立的链式推演方法。这种策略通过共享前缀显著减少了训练过程中的词元和工具调用预算。
- 引入了树内 (intra-tree) 和树间 (inter-tree) 级别的群组相对优势估计 (group-relative advantage estimation),从而在隐式中结合了步级偏好学习目标和相对稳定的基线估计。
- 通过理论分析和实证证据,证明了 Tree-GRPO 在智能体强化学习中优于基于链式的方法,能够在更少的推演预算下获得更高的性能。
2.2.2. 论文得出了哪些关键的结论或发现?
- 效率提升: 在相同的词元/工具调用预算下,Tree-GRPO 比链式方法能获得更多样本(约 1.5 倍),显著降低了多轮智能体强化学习的成本。
- 性能优越性: 在 11 个数据集和 3 种问答任务上,Tree-GRPO 持续优于链式强化学习方法,尤其在小模型(如 Qwen2.5-1.5b)和多跳问答 (Multi-Hop QA) 任务中表现出显著改进。
- 隐式步级偏好学习: 理论上证明了树内群组相对策略优化的目标等同于步级直接偏好优化 (step-level DPO),从而在在线强化学习中实现了细粒度的过程监督。
- 促进长期交互: Tree-GRPO 鼓励 LLM 智能体进行更长的交互(即进行更多的工具调用),这对于解决更复杂的长周期任务至关重要。
- 稳定性与灵活性: 结合树内和树间优势估计能提高训练稳定性。在不同预算下,树搜索提供了更大的参数选择灵活性,可以在探索和利用之间进行权衡。
- 节点粒度影响: 智能体步级节点 (agent step-level nodes) 的树搜索效果远优于词元/句子级节点,这表明针对智能体任务的结构化设计至关重要。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 大型语言模型 (Large Language Models, LLMs)
大型语言模型 (LLMs) 是指参数量巨大(通常数十亿到数千亿)、在海量文本数据上进行预训练的深度学习模型。它们能够理解、生成人类语言,并执行问答、文本摘要、翻译、代码生成等多种任务。在本文中,LLMs是作为智能体 (agent) 的大脑,负责生成思考和行动。
3.1.2. 强化学习 (Reinforcement Learning, RL)
强化学习 (RL) 是一种机器学习范式,智能体 (agent) 通过与环境的交互学习如何做出最优决策以最大化累积奖励。智能体在环境中执行行动 (action),环境根据行动返回状态 (state) 和奖励 (reward),智能体根据这些反馈调整其策略 (policy)。
3.1.3. 智能体 (Agent)
在人工智能和强化学习中,智能体 (agent) 是指能够感知环境并通过行动影响环境的实体。在本文语境下,智能体特指基于大型语言模型 (LLM) 构建的、能够与外部环境(如搜索引擎、工具)进行多轮交互以解决复杂任务的系统。
3.1.4. 马尔可夫决策过程 (Markov Decision Process, MDP)
马尔可夫决策过程 (MDP) 是一种用于对顺序决策进行数学建模的框架。一个 MDP 通常由以下五元组定义:
- : 状态空间 (State Space),表示环境所有可能的状态。
- : 行动空间 (Action Space),表示智能体所有可能的行动。
- : 状态转移概率 (Transition Probability), 表示在状态 采取行动 后,转移到状态 的概率。
- : 奖励函数 (Reward Function),
R(s, a, s')表示在状态 采取行动 转移到 后获得的即时奖励。 - : 折扣因子 (Discount Factor),用于衡量未来奖励的重要性。 在本文中,多轮交互的智能体过程被建模为 MDP,其中状态 是截至当前时间步的完整交互上下文,行动 是思考-行动对 。
3.1.5. 稀疏监督 (Sparse Supervision) 与结果奖励 (Outcome Rewards)
结果奖励 (Outcome Rewards) 指的是只在任务完成时(即轨迹结束时)才给予的单一标量奖励。 稀疏监督 (Sparse Supervision) 是指智能体在学习过程中接收到的奖励信号非常有限和不频繁。当奖励只在任务完成时才给出,且任务过程较长时,每个中间步骤对最终结果的贡献难以确定,导致智能体很难学习到有效的中间决策,这就是稀疏监督问题。
3.1.6. 群组强化学习 (Group-based Reinforcement Learning)
群组强化学习方法通过采样一组 (group) 候选推演 (candidate rollouts) 来估计组内基线 (ingroup baseline),从而指导策略优化方向,以减少方差并稳定梯度更新。与传统的 PPO (Proximal Policy Optimization) 等依赖额外价值函数 (value functions) 的方法不同,群组强化学习方法通常通过比较组内不同推演的奖励来估计优势 (advantage)。
3.1.7. 推演 (Rollout)
在强化学习中,推演 (rollout) 指的是智能体从某个初始状态开始,根据其当前策略 (policy) 与环境进行一系列交互,生成一条完整的状态-行动-奖励序列轨迹。在本文中,推演特指 LLM 智能体与环境进行多轮 Thought-Action-Observation (思考-行动-观察) 循环,直至任务完成或达到最大步骤数的整个过程。
3.1.8. 树搜索 (Tree Search)
树搜索 (Tree Search) 是一类算法,通过构建和遍历一棵搜索树来寻找解决问题的方法。树中的每个节点代表一个可能的决策点或状态,边代表行动或转换。著名的树搜索算法包括蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS)。在 LLM 领域,树搜索可用于探索不同的推理路径或生成序列。
3.1.9. 直接偏好优化 (Direct Preference Optimization, DPO)
直接偏好优化 (DPO) 是一种用于大型语言模型对齐 (alignment) 的方法。它通过直接优化策略以最大化偏好数据(例如,一对“优选 (preferred)”和“次优 (dispreferred)”响应)的对数似然差,而无需训练单独的奖励模型。DPO 旨在使模型生成更符合人类偏好的响应。
3.1.10. 监督微调 (Supervised Fine-Tuning, SFT)
监督微调 (SFT) 是一种常见的微调技术,通过在带有标注的下游任务数据集上继续训练预训练模型,使其适应特定任务。例如,在问答数据集上对 LLM 进行微调,使其更好地回答问题。
3.2. 前人工作
3.2.1. ReAct (Yao et al., 2023b)
ReAct (Reasoning and Acting) 是一种将推理轨迹 (Thought) 与行动 (Action) 交错进行的框架,使大型语言模型能够执行动态的、分步的问题解决。智能体在每个步骤生成一个 Thought (思考) 来规划、反思或推理,然后基于 Thought 生成一个 Action (行动),通常是工具调用(如搜索),环境返回 Observation (观察) 作为反馈。ReAct 框架是本文智能体模型的基础。
3.2.2. GRPO (DeepSeek-AI Team, 2025)
GRPO (Group Relative Policy Optimization) 是一种群组强化学习算法,通过计算同一提示 (prompt) 的多条轨迹之间的相对优势 (relative advantages) 来更新策略。与 PPO 不同,GRPO 放弃了价值函数 (value function) 和批评家模型 (critic model),简化了训练流程,只保留了策略 (policy) 优化。本文的方法是建立在 GRPO 之上的,并将其作为主要的链式强化学习基线。
3.2.3. GSPO (Zheng et al., 2025)
GSPO (Group Sequence Policy Optimization) 是 GRPO 的一个变体,它将重要性采样比 (importance ratio) 的计算和优势估计统一到轨迹级别 (trajectory-level),而不是词元级别 (token-level),从而提高了 LLM 强化学习训练的稳定性。
3.2.4. 树搜索在 LLM 领域中的应用
- 测试时扩展 (Test-time Scaling): 像 Tree-of-Thoughts (Yao et al., 2023a) 允许 LLM 在解决复杂任务时考虑多条推理路径。蒙特卡洛树搜索 (MCTS) 也被用于定理证明 (Xin et al., 2024; 2025) 等任务以生成多样化的证明路径。
- 构建偏好学习数据: 另一些工作 (He et al., 2024; Xie et al., 2024) 利用树搜索结构构建步级偏好学习数据,用于 DPO 或 SFT。
- 在线 RL 中的树搜索: 也有一些工作 (Hou et al., 2025; Zhang et al., 2024; Yang et al., 2025b) 在 LLM 在线强化学习中采用树搜索进行采样。然而,这些方法通常在词元/句子级别进行,不直接适用于智能体任务。
3.3. 差异化分析
本文提出的 Tree-GRPO 与现有方法的主要区别和创新点在于:
- 节点粒度: 现有在线强化学习中的树搜索方法多采用词元或句子级别作为树节点。Tree-GRPO 明确地将完整的智能体交互步骤 (Thought-Action-Observation) 作为树节点,这更符合智能体任务的语义结构,并通过实验证明了其优越性。
- 采样效率: 通过树搜索的共享前缀 (shared prefixes) 机制,Tree-GRPO 能在相同的词元/工具调用预算下,获得比链式推演方法更多的推演样本,从而提高训练效率,尤其降低了昂贵的工具调用成本。
- 细粒度监督: 传统的链式 RL (如 GRPO) 主要依赖轨迹级别的结果奖励,面临稀疏监督问题。Tree-GRPO 利用树状结构自然地构建步级过程监督信号。通过树内和树间优势估计,它将轨迹级别信号转化为更精细的过程级别监督,并理论上证明了其与步级 DPO 的等价性,这在在线 RL 中是一个显著优势。
- 鲁棒性与性能: 实验结果表明,Tree-GRPO 在各种模型规模和任务类型上均能持续超越链式方法,尤其在资源受限或复杂多轮任务中表现更为突出。它还能鼓励智能体进行更长的交互,这对于解决复杂长周期任务至关重要。
4. 方法论
4.1. 方法原理
Tree-GRPO (Tree-based Group Relative Policy Optimization) 旨在解决 LLM 智能体在长期、多轮任务中强化学习所面临的稀疏监督和高推演成本问题。其核心思想是:
-
采用树搜索进行推演采样: 替代传统的链式独立推演,通过树搜索的方式生成具有共享前缀的轨迹,从而在相同的词元和工具调用预算下,获得更多的训练样本。关键在于,树的每个节点代表一个完整的智能体交互步骤 (Thought-Action-Observation),这更符合智能体任务的结构。
-
构建树状群组相对优势: 利用树结构中自然的偏好信号,从轨迹级别的结果奖励中提取出步级 (step-level) 的过程监督信号。通过在树内 (intra-tree) 和树间 (inter-tree) 两个层次上估计群组相对优势,为策略优化提供更稳定和细粒度的反馈。
下图(原文 Figure 3)展示了 Tree-GRPO 的训练流程概览:
该图像是论文中提出的Tree-GRPO方法流程示意图,展示了基于树搜索的多步骤代理决策过程,包括策略模型与工具环境交互、树搜索采样、奖励与参考模型评估,以及组内和组间的相对优势计算,体现了通过共享前缀提升采样效率和细粒度过程监督信号的机制。
图 3:Tree-GRPO 训练流程概览。
该图展示了 Tree-GRPO 的训练流程。首先,策略模型 (Policy Model) 与工具环境 (Tool Env) 交互生成推演 (Rollout),这些推演以树搜索 (Tree Search) 的方式进行,每个节点对应一个完整的 Thought-Action-Observation 步骤。接下来,这些推演被用于计算群组相对优势 (Group Relative Advantages),包括树内 (Intra-tree) 和树间 (Inter-tree) 两个级别。这些优势信号进而用于优化策略模型。整个过程通过树结构实现了更精细的过程监督信号,并有效利用了推演预算。4.2. 核心方法详解
4.2.1. 智能体推演的树搜索 (Tree Search for Agent Rollout)
传统的强化学习方法通常通过独立采样完整的轨迹推演,这导致在多轮智能体任务中存在大量冗余和高昂的成本。Tree-GRPO 通过将链式采样逻辑替换为树搜索过程来解决此问题,从而生成具有共享前缀段的交错轨迹。与现有将词元 (token) 或句子 (sentence) 作为树节点的方法不同,Tree-GRPO 针对智能体任务的特点,将一个完整的思考-行动-观察 (Thought-Action-Observation) 步骤作为树节点,这在语义上更清晰,并更好地控制了词元和工具调用预算。
下图(原文 Figure 2)对比了不同粒度的树搜索节点:
该图像是展示Tree-GRPO中不同采样策略的示意图,包括链式采样、基于句子/标记的树搜索和基于完整代理步骤的树结构采样,突出树节点表示完整代理步骤,节点由思考(Thought)、动作(Action)、观察(Observation)组合构成。
图 2:不同级别链式推演与树式推演的比较。左图:链式推演,每个轨迹独立。中图:以词元/句子为节点的树搜索。右图(本文方法):以完整智能体步骤为节点的树搜索。
该图展示了三种不同的推演策略。左图是传统的链式推演,每个轨迹都是独立生成的,没有共享前缀。中图展示了以词元或句子作为节点的树搜索,即在更细粒度上进行分支。右图(本文方法)展示了以完整的智能体步骤(Thought-Action-Observation 循环)作为树节点的树搜索。这种设计更适合智能体任务的结构,具有清晰的上下文分割,并在预算控制和性能方面表现出优势。Tree-GRPO 采用一种“先初始化再扩展 (initialize-then-expand)”的方法,允许并行初始化多个链,然后迭代地采样节点进行扩展。具体采样过程如下:
-
初始化 (Initialization): 对于每个提示 ,首先通过当前策略模型 生成 条独立的链式轨迹 。这些轨迹作为 棵树 的初始骨架。
-
采样 (Sampling): 从每棵树 中随机采样 个非叶节点 ,这些节点将被用于扩展。
-
扩展 (Expansion): 对于每个选定的节点 ,将其从根节点到该节点的完整上下文 和原始提示 作为输入,继续生成响应的剩余部分 。然后,将新生成的轨迹作为新分支插入到源树 中。
通过迭代重复步骤 2 和 3 共 次,此树搜索过程将为单个提示生成总计 条推演轨迹,作为最终的群组大小 。这些推演均匀分布在 棵树中。
假设一条完整的智能体轨迹的预期推演预算(包括词元和工具调用)为 。对于每一次随机树扩展,所选节点的预期深度是最大深度的一半,因此相应的预期成本为 。 因此,树搜索采样的总预期预算 由以下公式确定: 其中:
-
: 初始化的独立链式轨迹(树)的数量。
-
: 单条完整智能体轨迹的预期推演预算(词元和工具调用)。
-
: 树扩展的迭代次数。
-
: 每次扩展中从每棵树采样的节点数量。
-
: 次扩展中,每次扩展 个节点,每个节点从平均深度 处开始扩展,所以总的扩展预算。
在固定采样预算下,减少树的数量 同时增加扩展次数
N, L可以增加推演数量,但这也会缩小探索范围,因为更多的轨迹会共享相同的前缀。
4.2.2. 基于树的群组相对优势 (Tree-based Group Relative Advantages)
除了在固定预算下获得更多推演样本,树搜索的另一个更重要的优势在于其结构中自然嵌入了过程监督信号。
对于基于每个提示的一组完整轨迹推演 ,将群组强化学习应用于智能体强化学习的朴素方法是将推演组织成轨迹级群组。对于每个推演,奖励 仅在结果处计算,因此优势估计也是轨迹级的。这意味着整个多轮智能体轨迹(包括多个步骤)都被赋予相同的信用,如: 由于信用分配粗糙,这种稀疏奖励严重影响了长周期多轮智能体强化学习的稳定性。
基于树的信用 (Tree-based Credit): 与独立的链式推演不同,具有共享前缀的树状推演自然地嵌入了过程信用信号。如下图(原文 Figure 4)所示,在树的每个分支点,从各自叶子节点反向传播的结果奖励之间的差异,自然构成了不同子树之间的偏好学习目标。这种形式的偏好学习产生了由子树深度调节的不同粒度的过程信号。
该图像是论文中的示意图,展示了基于链式(Chain-based)和基于树式(Tree-based)策略优化的对比。图中以树结构展示了代理动作序列及对应的轨迹信号和过程信号,其中基于树的方法通过分步偏好信号增强训练监督。
图 4:链式推演与树式推演的对比。右侧的树状结构展示了如何通过分支点(例如 Thought 1)的奖励差异构建偏好学习信号。
该图对比了链式推演和树式推演。在链式推演中,每条轨迹是独立的,奖励只在终点获得,所有中间步骤共享相同的最终奖励。而在树式推演中,不同分支(如 和 )在共同前缀(如 Thought 1)之后分叉,其各自的子树叶子节点(Reward 1, Reward 2)的奖励差异可以反向传播,为该分支点提供一个偏好信号,从而实现更细粒度的过程监督。为了实现这种基于树的信用分配,Tree-GRPO 在每棵树内部执行群组优势估计 ,其计算方式为: 其中:
-
: 第 条轨迹 的树内/树间相对优势估计。
-
: 轨迹 的最终结果奖励。
-
: 在树内群组 或所有树的群组 中所有轨迹奖励的平均值,作为基线。
-
: 相应群组中所有轨迹奖励的标准差,用于归一化。
虽然树内群组相对优势 (intra-tree group relative advantage) 包含了显式的偏好目标,但每棵树内部的推演数量有限可能导致基线估计不可靠。为了更好地稳定强化学习训练,本文还对树间 (inter-tree) 推演进行分组(即所有树中的推演),并将树内和树间群组相对优势结合起来,得到最终的优势估计: 其中:
-
: 第 条轨迹 的最终树式相对优势估计。
-
: 轨迹 在其所属树内的相对优势估计。
-
: 轨迹 在所有树构成的全局群组中的相对优势估计。
最终的基于树的群组相对策略优化目标 (Tree-based Group Relative Policy Optimization objective) 类似于 PPO (Proximal Policy Optimization) 的目标函数: 其中:
-
: 策略模型 的优化目标函数。
-
: 对从数据集 中采样的问题 和从旧策略 生成的树状推演 进行的期望。
-
: 群组中的总推演数量。
-
: 第 条轨迹的长度(词元数)。
-
: 词元级别 (token-level) 的重要性采样比 (importance sampling ratio),表示当前策略 下生成词元 的概率与旧策略 下生成该词元的概率之比。
-
: 第 条轨迹的最终树式相对优势估计。
-
: PPO 中的裁剪 (clip) 操作,用于限制策略更新的幅度,防止更新过大导致不稳定性。
-
: 裁剪超参数,通常是一个小值(如 0.2)。
-
: KL 散度 (KL divergence) 项的系数,用于控制新策略 与参考策略 之间的偏离程度。
-
: 当前策略 与参考策略 之间的 KL 散度,作为正则化项,防止策略过度偏离。
-
: 参考 LLM,通常是预训练模型或之前的一个检查点,用于稳定训练。
-
: 旧策略 LLM,用于计算重要性采样比和收集推演。
完整的 Tree-GRPO 算法流程如 Algorithm 1 所示 (详见附录 D)。
4.2.3. 隐式步级偏好学习 (Implicit Step-Level Preference Learning)
为了更好地理解 Tree-GRPO 在智能体强化学习中的作用,本文理论分析了树内 GRPO (intra-tree GRPO) 与步级 DPO (step-level DPO) 之间的等价性。
首先,引入一个二元偏好假设: 假设 3.1 (二元偏好设置 - Binary Preference Setting): 对于每个中间树节点 ,后续轨迹根据奖励分为两种类型,表示为 (获胜轨迹) 和 (失败轨迹),对应的奖励分别为 [1,0]。轨迹概率定义为: 在此假设下,步级 DPO 目标可以通过优化获胜和失败结果之间的 Bradley-Terry 似然来表示。其梯度 形式如下(推导见附录 C): 其中:
-
和 : 分别表示在当前策略 下,从节点 开始的获胜轨迹和失败轨迹的概率。
-
: Sigmoid 函数,。
-
: 温度参数。
-
: 对数概率对模型参数 的梯度,表示策略对生成特定轨迹的敏感度。
相应地,树内 GRPO 的梯度 可以推导为获胜轨迹和失败轨迹的组合形式(推导见附录 C):
命题 3.1 (步级 DPO 和树内 GRPO 的结构等价性 - Structural Equivalence of step-level DPO and Intra-tree GRPO): 在假设 C.1 下,步级 DPO 和树内 GRPO 都承认以下形式的梯度估计器: 其中唯一的区别在于权重项 的选择。 对于步级 DPO,权重项 为 (见附录 C 推导)。 对于树内 GRPO,权重项 为 (见附录 C 推导)。
命题 C.1 表明,树内 GRPO 可以被解释为隐式地执行步级偏好优化,从而在在线推演设置中继承了步级 DPO 的关键特性。这意味着 Tree-GRPO 能够从树结构中自动提取细粒度的偏好信号,而无需额外地构建偏好数据集。
5. 实验设置
5.1. 数据集
为了评估 Tree-GRPO 在 LLM 智能体强化学习中的有效性,实验在 11 个基准测试数据集上进行,这些数据集分为三类,每类使用不同的训练集:
5.1.1. 单跳问答 (Single-Hop Question Answering)
这类任务的问题通常可以通过检索单个文档中的信息来回答。
- 训练数据: 使用 NQ (Kwiatkowski et al., 2019) 的训练集,包含 79,168 对问答 (QA) 数据。
- 测试数据:
- Natural Questions (NQ) (Kwiatkowski et al., 2019): 测试集包含 3,610 对 QA 数据。
- TriviaQA (Joshi et al., 2017): 测试集包含 11,313 对 QA 数据。
- PopQA (Mallen et al., 2023): 测试集包含 14,267 对 QA 数据。
5.1.2. 多跳问答 (Multi-Hop Question Answering)
这类任务需要模型进行组合推理,聚合来自多个文档或实体的信息才能回答。
- 训练数据: 使用 HotpotQA (Yang et al., 2018) 的训练集,包含 90,447 对多跳 QA 数据。
- 测试数据:
- HotpotQA (Yang et al., 2018): 测试集包含 7,405 对 QA 数据。
- 2WikiMultiHopQA (Ho et al., 2020): 测试集包含 12,576 对 QA 数据。
- Musique (Trivedi et al., 2022): 这是一个具有挑战性的多跳基准测试,不仅需要信息检索能力,还需要更深层次的语义理解和逻辑推理。测试集包含 2,417 对 QA 数据。
- Bamboogle (Press et al., 2023): 一个包含 125 对 QA 数据的两跳手动制作数据集。
5.1.3. 网络智能体问答 (Web-Agent Question Answering)
这类任务发生在交互式网络环境中,智能体必须搜索、导航并执行单轮或多轮的探索和信息整合。
- 训练数据: 由两部分组成。
- 从 ASearcher-35K (Gao et al., 2025) 中抽取 2k 个样本,每个问题和答案都经过筛选和验证。
- 来自 WebDancer (Wu et al., 2025a) 发布的样本,包含 200 对高难度网络问答数据。
- 测试数据:
- SimpleQA (Press et al., 2023): 包含 500 对简短、事实性问答数据,通过对抗性方法针对 GPT-4 响应收集。
- GAIA (Mialon et al., 2023): 这是一个高难度的通用 AI 助手基准测试,包含真实世界问题,需要模型具备推理、多模态处理、网页浏览和通用工具使用能力。本文仅使用 103 个纯文本问题。
- WebWalkerQA (Wu et al., 2025b): 包含 680 个网页遍历 QA 任务,分为简单、中等和困难三个级别。
- BrowseComp (Wei et al., 2025): 这是一个挑战性的基准测试,用于衡量智能体浏览网页的能力。包含 1,266 个极其复杂、难以找到信息的问题。
5.2. 评估指标
实验中使用的评估指标包括 Exact Match (EM) 和 F1 Score。
5.2.1. 准确匹配 (Exact Match, EM)
- 概念定义: 准确匹配 (EM) 指的是模型生成的答案与参考答案完全一致的比例。它是一个严格的指标,通常用于衡量问答系统答案的精确性。如果模型答案与任何一个真实标注答案完全相同,则认为该问题回答正确,得分为 1,否则为 0。
- 数学公式:
- 符号解释:
- : 模型答案与真实标注答案完全一致的问题数量。
- : 所有问题的总数。
5.2.2. F1 分数 (F1 Score)
- 概念定义: F1 分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值,用于衡量模型在分类或信息抽取任务中的综合性能。它在评估答案的质量时,既考虑了模型答案的正确性(精确率),也考虑了模型答案的完整性(召回率)。
- 数学公式: 其中,
- 符号解释:
- : 精确率,表示模型识别出的所有答案中,正确答案所占的比例。
- : 召回率,表示所有正确答案中,模型正确识别出的比例。
- : 真正例,模型正确识别出的答案部分。
- : 假正例,模型错误识别出的答案部分。
- : 假反例,模型未能识别出的正确答案部分。 在问答任务中,这些通常通过将模型答案和真实答案分解为词元 (tokens) 来计算重叠度。
EM 用于单跳问答 (Single-Hop QA) 和多跳问答 (Multi-Hop QA) 的训练和测试评分。F1 分数用于网络智能体问答 (Web-Agent QA) 的训练和测试评分。
5.3. 对比基线
本文将 Tree-GRPO 与以下基线方法进行了比较:
5.3.1. 直接提示方法 (Direct Prompting Methods)
- 直接推理 (Direct Inference): 直接使用指令模型 (instruct model) 回答问题,不包含任何工具使用指令,只要求模型将答案放在 和 标签内。
- ReAct (Yao et al., 2023b): 将推理轨迹 (Thought) 与行动 (Action)(工具调用)交错进行,以实现分步问题解决。模型决定何时思考、何时行动,并利用观察 (observation) 来完善后续推理。所有基于强化学习的方法也都基于 ReAct 框架。
5.3.2. 高级检索增强生成 (Advanced RAG Method)
- Search-o1 (Li et al., 2025a): 一种搜索增强的推理框架,集成了智能体式 RAG (Retrieval Augmented Generation) 机制和文档内推理模块。
5.3.3. 基于强化学习的方法 (RL-based Methods)
- GRPO (DeepSeek-AI Team, 2025): 群组相对策略优化方法,使用同一提示的多个轨迹计算相对优势来更新策略,不依赖价值函数。本文将 GRPO 作为链式强化学习的主要基线。
- GSPO (Zheng et al., 2025): GRPO 的一个变体,它将重要性采样比 (importance ratio) 计算和优势估计统一到轨迹级别,以提高 LLM 强化学习训练的稳定性。
5.4. 实验设置
- 实现基础: 本文的实现基于 Search-R1 (Jin et al., 2025b) 仓库,并使用 VeRL (Virtual Environment for Reinforcement Learning) 框架。
- 工具: 所有实验设置中,唯一指定的工具是搜索引擎。
- 单跳问答 (Single-Hop QA) 和多跳问答 (Multi-Hop QA): 使用基于 E5 的本地检索服务器 (Wang et al., 2024),构建在维基百科转储 (Karpukhin et al., 2020) 上。
- 网络智能体问答 (Web-Agent QA): 使用真实的网页搜索 API 进行检索。
- 模型: 使用 Qwen-2.5 (Base/Instruct) (Qwen et al., 2025) 和 Llama-3.2 (Base/Instruct) (Llama Team, 2024) 两个系列的语言模型,包括 1.5b, 3b, 7b, 和 14b 等不同参数规模。
- 默认推演预算: 在训练期间,每个提示的默认推演预算为 4 条。
- 训练超参数 (详见附录 B.1 和 Table 5):
- 优化器 (optimizer): AdamW
- 学习率 (learning rate): 1e-6
- 学习率预热比 (learning rate warmup ratio): 0.285 / 0.5 (单跳/多跳 QA), 0 (网络智能体 QA)
- KL 类型 (KL type): K3
- KL 系数 (KL coefficient): 0.001
- 格式分数 (format scores): 。训练奖励函数
r(y)中,如果模型生成的响应格式不正确,则会扣除 分数,以惩罚不符合预设格式的回答: 其中, 是根据 EM 或 F1 计算的原始奖励。
- 具体任务设置:
- 单跳 QA 和多跳 QA:
- 总训练步数: 180
- 训练批次大小: 512
- PPO 迷你批次大小: 64
- 最大响应长度: 4096 词元 (tokens)
- 本地检索服务器返回前 3 个段落 (top 3 passages) 给智能体。
- 网络智能体 QA:
- 总训练步数: 34 (对应 2 个 epoch)
- 训练批次大小: 128
- PPO 迷你批次大小: 64
- 最大响应长度: 8000 词元 (tokens)
- 最大工具调用次数: 5
- 网页搜索 API 返回前 10 个段落 (top 10 passages) 给智能体。
- 单跳 QA 和多跳 QA:
- 提示模板 (Prompt Template):
其中, 标签内的内容被解析为搜索查询,对应智能体行动 (Action) 。返回的搜索结果被 标签包裹,形成观察 (Observation) ,从而完成 ReAct 元组 。Answer the given question. You must conduct reasoning inside <think> and </think> first every time you get new information. After reasoning, if you find you lack some knowledge, you can call a search engine by <search> query </search> and it will return the top searched results between <information> and </information>. You can search as many times as your want. If you find no further external knowledge needed, you can directly provide the answer inside <answer> and </answer>, without detailed illustrations. For example, <answer> Beijing </answer>. Question:
6. 实验结果与分析
6.1. 核心结果分析
实验结果在 11 个数据集上进行了评估,涵盖单跳问答 (Single-Hop QA)、多跳问答 (Multi-Hop QA) 和网络智能体问答 (Web-Agent QA) 三类任务,并使用 Qwen-2.5 和 Llama-3.2 两个系列的多种模型规模进行测试。
6.1.1. 多跳问答 (Multi-Hop QA)
以下是原文 Table 1 的结果,展示了单跳 QA 和多跳 QA 的整体性能:
| Method | Single-Hop QA | Multi-Hop QA | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| NQ | Trivia | PopQA | Avg./ | Hotpot | 2wiki | Musiq | Bamb | Avg./ | ||
| Qwen2.5-1.5b | Direct Inference | 7.1 | 22.4 | 9.9 | 13.1 | 5.9 | 4.3 | 2.6 | 8.0 | 5.2 |
| Search-o1 | 10.2 | 30.9 | 15.0 | 15.4 | 11.6 | 12.2 | 3.1 | 13.0 | 10.0 | |
| ReAct | 9.5 | 22.1 | 13.8 | 15.1 | 7.3 | 8.0 | 1.9 | 11.2 | 7.1 | |
| + GRPO | 39.4 | 51.0 | 39.7 | 43.4 | 14.6 | 24.4 | 2.2 | 4.0 | 11.3 | |
| + GSPO | 36.8 | 48.9 | 37.3 | 41.0 -5.5% | 15.8 | 23.7 | 2.5 | 4.8 | 11.7 +0.5% | |
| + Tree-GRPO | 43.6 | 57.3 | 41.6 | 47.5 +0.5% | 29.5 | 26.8 | 6.6 | 13.6 | 19.1 +69% | |
| Qwen2.5-3b | Direct Inference | 10.6 | 28.8 | 10.8 | 16.7 | 14.9 | 24.4 | 2.0 | 2.4 | 10.9 |
| Search-o1 | 15.1 | 44.3 | 13.1 | 24.2 | 18.7 | 17.6 | 5.8 | 29.6 | 17.9 | |
| ReAct | 21.1 | 43.5 | 28.3 | 31.0 | 19.2 | 19.1 | 4.8 | 20.0 | 15.8 | |
| + GRPO | 44.4 | 58.0 | 42.0 | 48.1 | 39.0 | 36.3 | 15.2 | 36.8 | 31.8 | |
| + GSPO | 43.0 | 58.8 | 42.5 | 48.1 +0.0% | 40.2 | 39.8 | 17.0 | 36.8 | 33.5 +0.3% | |
| + Tree-GRPO | 46.8 | 59.7 | 43.6 | 50.0 +4.0% | 42.4 | 43.7 | 17.8 | 43.2 | 36.8 +16% | |
| Llama3.2-3b | Direct Inference | 16.2 | 29.6 | 7.4 | 17.7 | 12.6 | 9.2 | 2.0 | 8.0 | 8.0 |
| Search-o1 | 24.2 | 48.4 | 8.8 | 27.1 | 19.4 | 17.4 | 6.0 | 32.0 | 14.1 | |
| ReAct | 23.9 | 42.4 | 21.7 | 29.3 | 16.2 | 10.4 | 3.5 | 23.2 | 13.3 | |
| + GRPO | 45.5 | 58.2 | 42.4 | 48.7 | 36.0 | 26.9 | 11.8 | 32.0 | 26.7 | |
| + GSPO | 41.2 | 57.8 | 40.8 | 46.6 -4.3% | 28.1 | 24.5 | 8.6 | 32.0 | 23.3 -13% | |
| + Tree-GRPO | 47.7 | 59.9 | 42.3 | 50.0 +2.7% | 44.6 | 38.4 | 17.6 | 46.4 | 36.8 +36% | |
| Qwen2.5-7b | Direct Inference | 13.4 | 40.8 | 14.0 | 22.7 | 18.3 | 25.0 | 3.1 | 12.0 | 14.6 |
| Search-o1 | 23.8 | 47.2 | 26.2 | 32.4 | 22.1 | 21.8 | 5.4 | 32.0 | 20.3 | |
| ReAct | 30.6 | 56.3 | 34.6 | 40.5 | 27.9 | 25.3 | 11.3 | 28.8 | 23.3 | |
| + GRPO | 45.8 | 61.5 | 44.3 | 50.5 | 42.5 | 40.7 | 19.1 | 43.2 | 36.4 | |
| + GSPO | 47.0 | 64.5 | 46.1 | 52.5 +4.0% | 40.0 | 38.2 | 19.2 | 44.0 | 35.4 -2.8% | |
| + Tree-GRPO | 48.1 | 63.3 | 45.2 | 52.2 +3.4% | 44.6 | 42.3 | 20.2 | 44.0 | 37.8 +3.0% | |
| Qwen2.5-14b | Direct Inference | 19.8 | 53.1 | 18.4 | 30.4 | 21.7 | 25.3 | 4.5 | 16.0 | 16.9 |
| Search-o1 | 34.7 | 63.5 | 24.1 | 40.8 | 26.8 | 16.1 | 9.9 | 41.6 | 23.6 | |
| ReAct | 36.1 | 64.2 | 39.3 | 46.5 | 39.1 | 33.8 | 15.0 | 43.2 | 32.8 | |
| + GRPO | 51.3 | 67.2 | 46.7 | 55.1 | 47.7 | 42.6 | 23.2 | 53.6 | 41.8 | |
| + GSPO | 50.7 | 67.4 | 47.1 | 55.1 +0.0% | 50.1 | 50.2 | 23.8 | 52.8 | 44.2 +5.7% | |
| + Tree-GRPO | 51.7 | 68.1 | 47.3 | 55.7 +1.1% | 50.2 | 50.5 | 25.9 | 54.4 | 45.3 +6.4% | |
表 1:单跳 QA 和多跳 QA 的整体性能,显示每个数据集的 EM 分数。最佳结果以粗体表示。
在多跳 QA 设置中,需要多轮交互才能解决问题。 * **小模型表现:** ReAct 框架下的模型,尤其是小于 7b 参数的小模型,与直接推理相比改进不显著,表明仅凭提示 (prompting) 不足以让模型完成长周期智能体任务。 * **Tree-GRPO 的显著优势:** Tree-GRPO 方法在 3b 以下模型上对链式 GRPO 基线实现了显著提升,在 Llama 和 Qwen 系列模型上相对改进范围从 16% 到 69%。例如,Qwen2.5-1.5b 模型,Tree-GRPO 实现了 19.1 的平均 EM 分数,而 GRPO 仅为 11.3,相对提升高达 69%。这表明 Tree-GRPO 提供的过程信号 (process signal) 对于小模型学习复杂的多轮交互至关重要。 * **大模型效果:** 即使对于 Qwen2.5-14b 这样已展现出良好智能体能力的大模型,Tree-GRPO 依然实现了平均 8.4% 的相对改进(Multi-Hop QA 平均 EM 达到 45.3 vs GRPO 的 41.8),进一步验证了其优越性。6.1.2. 单跳问答 (Single-Hop QA)
在单跳 QA 设置中,所需交互轮次较少,14b 模型在 ReAct 框架下已能很好地完成任务。
- 稳定提升: Tree-GRPO 相较于链式强化学习方法仍显示出稳定的改进,尤其对于 Qwen2.5-1.5b 和 Qwen2.5-3b 等小模型。
- 有限增益: 由于大多数单跳问题不需要多轮 ReAct 式交互,通常只需一轮检索和一轮回答即可解决(即树深度有限,通常为 2),因此过程级别信号相较于轨迹级别信号的增益也相对有限。尽管如此,Tree-GRPO 仍能带来小幅提升,例如 Qwen2.5-3b 在 Single-Hop QA 上的平均 EM 从 GRPO 的 48.1 提升到 Tree-GRPO 的 50.0。
6.1.3. 网络智能体问答 (Web-Agent QA)
以下是原文 Table 2 的结果,展示了网络智能体 QA 的整体性能:
| Method | GAIA | SimpleQA Lv. 1 | WebWalkerQA | BrowseComp Avg. | |||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Lv. 1 | Lv. 2 | Lv. 3 | Avg. | Avg. | Easy | Med. | Hard | Avg. | |||
| Qwen2.5-3b | Qwen2.5-32b-Instruct | 7.7 | 8.8 | 7.7 | 3.0 | 7.6 | 6.2 | 9.4 | 5.8 | 7.4 | 2.2 |
| DeepSeek-R1-Distill-32b | 12.6 | 19.2 | 7.8 | 4.1 | 11.7 | 9.4 | 13.3 | 9.4 | 11.0 | 2.4 | |
| ReAct | 25.1 | 6.2 | 3.5 | 1.1 | 4.2 | 8.0 | 9.2 | 5.6 | 7.6 | 1.3 | |
| + GRPO | 61.5 | 17.7 | 14.9 | 4.5 | 14.7 | 8.9 | 11.4 | 11.6 | 10.9 | 2.3 | |
| + Tree-GRPO | 62.4 | 19.3 | 17.5 | 5.7 | 16.8 | 9.3 | 11.8 | 11.9 | 11.2 | 2.7 | |
| Qwen2.5-7b | ReAct | 43.3 | 11.4 | 7.1 | 0.9 | 8.0 | 9.5 | 11.3 | 7.4 | 9.5 | 1.2 |
| + GRPO | 65.4 | 21.6 | 15.0 | 5.5 | 16.4 | 11.4 | 14.8 | 10.3 | 12.4 | 2.4 | |
| + Tree-GRPO | 67.8 | 20.8 | 24.3 | 7.3 | 21.0 | 11.1 | 15.5 | 10.8 | 12.8 | 2.6 | |
表 2:网络智能体 QA 的整体性能,显示每个数据集的 F1 分数。最佳结果以粗体表示。
* **训练数据限制:** 现有开源的网络智能体 QA 基准测试大多是测试集,训练数据匮乏且任务难度极高(有些任务需要数十次网络交互)。有限的训练数据难以匹配这些高难度任务。 * **Tree-GRPO 持续优于 GRPO:** 尽管强化学习带来的性能提升相对有限,但 Tree-GRPO 在四个测试数据集上持续优于链式 GRPO。最显著的提升体现在 GAIA 数据集上,平均改进高达 28% (Qwen2.5-3b,Tree-GRPO 的 GAIA Avg. 为 5.7 vs GRPO 的 4.5)。 * **挑战性基准:** 在 BrowseComp 等更具挑战性的基准测试中,强化学习的收益微乎其微,这主要受限于训练数据的质量和规模。6.2. 定量分析
6.2.1. 不同训练预算下的性能 (Performance with Different Training Budget)
以下是原文 Table 3 的结果,展示了不同训练预算下的性能(Qwen2.5-3b 模型):
| Method | Single-Hop QA | Multi-Hop QA | |||||||
|---|---|---|---|---|---|---|---|---|---|
| NQ | Trivia | PopQA | Avg./ | Hotpot | 2wiki | Musiq | Bamb | Avg./ | |
| Rollout Token/Tool Budget 2/per prompt | |||||||||
| Chain-based | 42.0 | 56.7 | 40.8 | 46.5 | 17.9 | 25.6 | 3.3 | 12.8 | 14.9 |
| Tree-based | 46.1 | 59.4 | 43.6 | 49.7 | 39.5 | 40.2 | 13.7 | 32.8 | 31.6 +112% |
| Rollout Token/Tool Budget 4/per prompt | |||||||||
| Chain-based | 44.4 | 58.0 | 42.0 | 48.1 | 39.0 | 36.3 | 15.2 | 36.8 | 31.8 |
| Tree-based | 46.8 | 59.7 | 43.6 | 50.0 +4.0% | 42.4 | 43.7 | 17.8 | 43.2 | 36.8 +16% |
| Rollout Token/Tool Budget 8/per prompt | |||||||||
| Chain-based | 46.5 | 59.2 | 44.3 | 50.0 | 39.4 | 36.4 | 16.1 | 33.6 | 31.4 |
| Tree-based | 47.6 | 60.8 | 44.2 | 50.8 +1.6% | 42.0 | 42.9 | 19.5 | 36.0 | 35.1 +11.8% |
| Rollout Token/Tool Budget 16/per prompt | |||||||||
| Chain-based | 47.8 | 61.1 | 44.7 | 51.2 | 40.1 | 38.8 | 17.5 | 39.2 | 33.9 |
| Tree-based | 48.6 | 61.7 | 44.9 | 51.7 +1.0% | 44.6 | 43.2 | 18.2 | 38.4 | 36.1 +6.5% |
| Tree-based | 48.5 | 61.6 | 45.0 | 51.7 +1.0% | 45.3 | 44.1 | 18.8 | 37.6 | 36.5 +7.7% |
| Tree-based | 48.4 | 61.3 | 43.8 | 51.2 +0.0% | 45.0 | 43.9 | 18.5 | 41.6 | 37.3 +10.0% |
表 3:不同训练预算(定义为每个提示的几条完整智能体轨迹成本)下的性能。基础模型为 Qwen2.5-3b。最佳结果以粗体表示。
* **高约束预算下优势显著:** 在高度受限的推演预算下(例如,每个提示仅有 2 条完整推演的预算),链式强化学习难以学习多轮交互,而基于树的方法取得了显著更好的结果(多跳 QA 平均相对改进 112%)。这表明 Tree-GRPO 在资源稀缺时能更有效地引导模型学习。 * **预算增加后的趋势:** 随着推演预算的增加,基于树的方法在单跳任务中的优势(由于更多训练轨迹)逐渐减弱。然而,在多跳任务中,细粒度过程监督信号带来的益处依然存在。 * **效率亮点:** 值得注意的是,Tree-GRPO 可以在仅使用链式方法四分之一的推演预算下,实现优于链式方法的性能。 * **参数灵活性:** 当推演预算较大时,基于树的采样在参数选择上提供了更大的灵活性(如 `M, N, L` 的不同组合),可以在探索和利用之间进行权衡。6.2.2. 链式与树式超越性能 (Chain-based vs. Tree-based Beyond Performance)
下图(原文 Figure 5)比较了树式与链式强化学习在奖励和行动数量上的表现:
该图像是图表,比较了Tree-based RL与Chain-based RL在Qwen2.5-3b和Llama3.2-3b模型上的表现,横轴为步骤数,纵轴分别为奖励和动作数量,显示Tree-based RL整体优于Chain-based RL。
图 5:树式与链式强化学习在奖励和行动数量上的比较。左图显示训练奖励(EM 分数)随训练步骤的增长,右图显示每次推演的平均行动(工具调用)数量。
该图展示了 Tree-GRPO 与链式强化学习在 Qwen2.5-3b 和 Llama3.2-3b 模型上的训练奖励和平均行动数量的对比。 * **性能改进:** 左图显示,Tree-GRPO 在训练奖励(EM 分数)方面持续优于链式方法,尤其是在多跳 QA 任务中,这与表 1 和表 3 的结果一致。 * **鼓励更长交互:** 右图显示,在多跳 QA 任务中,基于树的方法鼓励 LLM 智能体进行更长的交互(即进行更多的工具调用),平均每次推演的工具调用次数从 2.4 增加到 3.0。这对于训练能够解决更复杂长周期任务的智能体特别有意义,因为它克服了稀疏奖励下模型倾向于选择较短交互路径的问题。6.2.3. 学习率预热比 (LR Warmup Ratio) 的影响
下图(原文 Figure 6)展示了学习率预热比的消融研究:
该图像是包含两组折线柱状图的图表,展示了在不同LR Warmup Ratio下,Tree-based RL与Chain-based RL方法在Qwen和Llama模型上的平均测试得分比较,揭示了Tree-based RL在多数情况下表现较优。
图 6:学习率预热比 (LR warmup ratio) 的消融研究。在不同预热比设置下,Tree-based RL 与 Chain-based RL 方法在 Qwen 和 Llama 模型上的平均测试得分比较。
该图显示,学习率预热是训练 3b 以下小模型时一个特别敏感的超参数。在所有学习率预热比设置下,基于树的方法都优于链式方法,这表明 Tree-GRPO 具有更好的鲁棒性。6.2.4. 基于树的优势 (Tree-based Advantage) 的消融研究
以下是原文 Table 4 的结果,展示了基于树的优势的消融研究:
| Advantage | Hotpot | 2wiki | Musiq | Bamb | Avg. |
|---|---|---|---|---|---|
| Qwen2.5-3b w. Chain-based | |||||
| GRPO | 39.0 | 36.3 | 15.2 | 36.8 | 31.8 |
| Qwen2.5-3b w. Tree-based | |||||
| 1.1 | 1.7 | 0.2 | 1.6 | 1.2 | |
| 40.6 | 41.3 | 16.5 | 36.8 | 33.8 | |
| 42.4 | 43.7 | 17.8 | 43.2 | 36.8 | |
表 4:基于树的优势的消融研究。
* **仅使用 的不稳定性:** 仅使用树内相对优势 () 进行训练时,性能极差(平均 EM 仅为 1.2),甚至导致训练崩溃。这证实了树内群组样本数量有限可能导致基线估计不可靠,从而影响训练稳定性。 * **仅使用 也能带来提升:** 即使仅使用全局群组相对优势 (),基于树的方法(平均 EM 33.8)也优于链式 GRPO(平均 EM 31.8)。这表明树搜索的更高效采样本身就能带来性能提升。 * **组合优势的最优表现:** 当 和 结合使用时,模型表现最佳(平均 EM 36.8)。这说明结合树内提供的步级偏好学习特性和树间提供的稳定全局基线,能够实现最佳的训练效果和稳定性。6.2.5. 不同级别的树搜索 (Tree Search at Different Levels)
以下是原文 Table 6 的结果,展示了不同粒度树搜索的比较:
| Method | Single-Hop QA | Multi-Hop QA | |||||||
|---|---|---|---|---|---|---|---|---|---|
| NQ | Trivia | PopQA | Avg. | Hotpot | 2wiki | Musiq | Bamb | Avg. | |
| GRPO | 44.4 | 58.0 | 42.0 | 48.1 | 39.0 | 36.3 | 15.2 | 36.8 | 31.8 |
| Token/sentence level | 42.1 | 56.0 | 40.6 | 46.2 | 32.0 | 30.8 | 8.4 | 17.6 | 22.2 |
| Agent step level | 46.8 | 59.7 | 43.6 | 50.0 | 42.4 | 43.7 | 17.8 | 43.2 | 36.8 |
表 6:词元/句子级别与智能体步级树搜索的测试分数比较。基础模型为 Qwen2.5-3b。推演预算为 4/每个提示。树搜索参数为 。
下图(原文 Figure 7)展示了不同粒度树搜索在多跳 QA 上的训练奖励比较:
该图像是图表,展示了三种方法在不同训练步骤(Step)下的奖励(Reward)变化趋势。其中,基于树搜索的代理步骤层面方法表现最好,图中用橙色曲线表示。奖励随训练步骤增加整体上升,表明模型性能提升。
图 7:词元/句子级别与智能体步级树搜索在多跳 QA 上的训练奖励比较。
* **智能体步级优越性:** 词元/句子级别的树搜索在单跳和多跳 QA 任务中表现都劣于智能体步级(Agent step level)树搜索,甚至低于链式 GRPO 的性能。 * **原因分析:** 作者将此归因于两个因素: 1. 在智能体步骤中间探索分支缺乏清晰的目的,可能导致推演预算浪费。 2. 词元/句子级别的树结构所衍生的信用破坏了智能体步骤的完整性,生成的过程信号反而阻碍了学习性能。 * **结论:** 树搜索在词元或句子级别不适合智能体强化学习任务,智能体步级设计至关重要。6.2.6. 不同树结构下的性能 (Performance with Different Tree Structures)
以下是原文 Table 7 的结果,展示了不同树结构下的性能:
| M, N, L | Hotpot | 2wiki | Musiq | Bamb | Avg. |
|---|---|---|---|---|---|
| Rollout Token/Tool Budget 2/per prompt | |||||
| (M=2, N=0, L=0) | 39.0 | 36.3 | 15.2 | 36.8 | 31.8 |
| (M=2, N=2, L=1) | 42.4 | 43.7 | 17.8 | 43.2 | 36.8 |
| (M=2, N=1, L=2) | 42.3 | 43.2 | 17.6 | 41.9 | 36.3 |
| (M=1, N=5, L=1) | 41.5 | 39.3 | 15.8 | 37.6 | 33.6 |
| Rollout Token/Tool Budget 16/per prompt | |||||
| (M=16, N=0, L=0) | 40.1 | 38.8 | 17.5 | 39.2 | 33.9 |
| (M=8, N=2, L=1) | 44.6 | 43.2 | 18.2 | 38.4 | 36.1 |
| (M=6, N=3, L=1) | 45.3 | 44.1 | 18.8 | 37.6 | 36.5 |
| (M=4, N=5, L=1) | 45.0 | 43.9 | 18.5 | 41.6 | 37.3 |
| (M=2, N=11, L=1) | 43.0 | 42.2 | 16.1 | 40.0 | 35.3 |
| (M=2, N=6, L=2) | 43.2 | 43.1 | 17.0 | 40.0 | 35.8 |
| (M=5, N=2, L=2) | 44.6 | 43.8 | 17.9 | 36.8 | 35.8 |
| (M=2, N=4, L=3) | 43.6 | 43.1 | 16.8 | 40.8 | 36.1 |
表 7:不同树结构在多跳 QA 上的性能。基础模型为 Qwen2.5-3b。最佳结果以粗体表示。
* **退化为 GRPO:** 当 时 (例如 (M=2, N=0, L=0) 或 (M=16, N=0, L=0)),Tree-GRPO 退化为香草 (vanilla) GRPO,性能与链式方法一致。 * **L 和 N 的影响:** (扩展迭代次数) 和 (每次扩展的采样节点数) 的影响差异不大。考虑到 直接影响推演效率(因为迭代是串行执行的),在大多数实验中,作者倾向于使用较大的 并设置 。 * **M 的影响:** 减少树的数量 可以节省推演预算,但会限制树搜索的探索范围,对强化学习性能产生不利影响。 * **平衡探索与利用:** 结果表明,对于不同的推演预算,平衡 和 可以在树搜索中的探索 (exploration) 和利用 (exploitation) 之间取得权衡,从而获得更好的性能。例如,在 16/prompt 的预算下,(M=4, N=5, L=1) 实现了最好的平均 EM 分数 37.3。6.3. 案例研究 (Case Study)
附录 E 提供了 Tree-GRPO 的案例研究,包括成功和失败的例子。
6.3.1. 成功案例 (Successful Cases)
案例 8 (多跳 QA - Musique 数据集):
- 问题: Who is the owner of the record label of the performer of Groovy Little Summer Song?
- 模型表现: 模型通过多轮搜索(先找表演者,再找唱片公司,最后找唱片公司所有者),成功地迭代执行工具调用和信息聚合,最终找到了正确答案 “Warner Music Group”。这展示了 Tree-GRPO 训练的模型在复杂多跳推理任务中的多轮智能体能力。
案例 9 (网络智能体 QA - GAIA 数据集):
- 问题: 一个复杂的多条件企鹅人口统计问题,需要从维基百科和 Nature.com 两个来源获取数据,并进行计算。
- 模型表现: 模型通过两次成功的搜索(一次搜索维基百科上的 2018 年种群数据,一次搜索 Nature.com 上的 2020 年种群数据),并结合问题中的“每对繁殖企鹅两只”条件进行计算,最终得出正确答案 116。这体现了 Tree-GRPO 模型在复杂网络交互和多源信息整合方面的能力。
6.3.2. 失败案例 (Failed Cases)
案例 10 (多跳 QA - Musique 数据集):
- 问题: Who is a cast member of the show that contains the character Michael Knight?
- 模型表现: 模型正确识别了 Michael Knight 是电视剧 “Knight Rider” 的角色,并找到了演员 David Hasselhoff。然而,真实标注答案包含 “Deanna Russo, Bruce Davison”,因为 Michael Knight 也出现在 2008 年的 “Knight Rider” 电视剧中,该剧有 Deanna Russo 和 Bruce Davison 参演。模型在第一次搜索“Cast members of Knight Rider”后,可能在多个潜在的“Knight Rider”系列中选择了其一,但没有进一步探索其他系列或验证其选择,导致未能找到所有相关的演员。
案例 11 (网络智能体 QA - WebWalkerQA 数据集):
-
问题: 一个极其复杂的教练身份识别问题,涉及足球队成立年份、改名、联赛四连冠、教练第三次夺冠、教练背部受伤手术年份等多个时间点和条件。
-
模型表现: 模型尝试通过多个搜索查询(如“football team social club 1995”、“manchester city coach won league title four consecutive times between 2020 and 2023, coach surgery 2018”)来聚合信息。在搜索到曼城俱乐部在 2020-2023 期间四连冠后,模型错误地将教练识别为 Pep Guardiola,并给出了这个答案。但根据真实标注,正确答案是 Norman Takanyariwa Mapeza。这表明模型在面对高度复杂的、需要精细多跳逻辑和多重条件匹配的查询时,可能会过早地选择一个看似合理的路径而未能充分探索其他可能性,导致错误答案。
失败案例的启发: 这些失败案例表明,尽管 Tree-GRPO 提升了性能和探索能力,但在某些情况下,模型仍可能在早期就从几个部分符合要求的候选路径中选择一个,而没有进行进一步的探索。在后续推理中,它未能根据新获取的信息重新考虑或验证其选择。这激励了未来的工作,需要将更强的反思推理 (reflective reasoning) 和更丰富的探索机制整合到复杂开放域智能体的训练循环中。
7. 总结与思考
7.1. 结论总结
本文提出了 Tree-GRPO (Tree-based Group Relative Policy Optimization),一种新颖的用于大型语言模型智能体强化学习的方法。通过将树搜索推演策略应用于智能体步骤级别节点,Tree-GRPO 显著降低了训练过程中词元和工具调用的预算,因为它能够共享公共前缀以增加推演样本。更重要的是,它利用树结构自然地构建了步级过程监督信号,即使仅依赖于结果奖励。通过在树内和树间级别估计群组相对优势,Tree-GRPO 引入了一个隐式的步级偏好学习目标。理论分析表明,树内群组相对策略优化的目标与步级直接偏好学习的目标在结构上是等价的。在 11 个数据集和 3 种问答任务上的广泛实验证明了 Tree-GRPO 在性能上的优越性,尤其是在资源受限和复杂多轮任务中,并且能够鼓励智能体进行更深度的交互。
7.2. 局限性与未来工作
- 现有训练数据的限制: 尤其是在网络智能体问答任务中,高质量、大规模的训练数据仍然稀缺,限制了强化学习方法的整体性能提升。这表明模型能力受到训练数据质量和复杂度的直接影响。
- 深度探索不足: 尽管 Tree-GRPO 鼓励更长的交互,但在面对高度复杂、模糊或多重可能性的任务时,模型可能过早地锁定一个解决方案路径,未能进行充分的、批判性的多路径探索和验证。案例研究中的失败案例体现了这一点,模型未能根据新信息重新评估其选择。
- 理论假设的简化: 隐式步级偏好学习的理论分析基于二元偏好假设,即轨迹只有“获胜”和“失败”两种情况。实际任务中的奖励可能更复杂,存在多种程度的“好”与“坏”,这可能需要更精细的理论框架来捕捉。
未来工作方向:
- 整合反思推理: 将反思推理 (reflective reasoning) 机制整合到智能体训练循环中,使模型能够批判性地评估其当前的思考和行动路径,并在必要时回溯和探索替代方案。
- 增强探索能力: 引入更丰富的探索策略,例如在树搜索中结合蒙特卡洛树搜索 (MCTS) 的更高级策略,或者设计奖励函数来显式奖励多样化的探索行为。
- 利用更复杂的奖励信号: 探索如何从非二元的、更细粒度的过程奖励中学习,或者结合人类反馈 (Human Feedback) 来提供更丰富的监督信号。
- 泛化性与可迁移性: 进一步研究 Tree-GRPO 在更广泛的智能体任务(例如,代码生成、机器人控制等)上的泛化能力,并探索如何将其推广到需要更长远规划和更复杂环境交互的场景。
7.3. 个人启发与批判
7.3.1. 个人启发
- 结构化采样的强大潜力: 这篇论文强调了在强化学习中,不仅要关注如何优化策略,还要关注如何高效、有意义地采样数据。树搜索作为一种结构化采样方法,通过共享前缀和引入过程监督,解决了传统链式推演在成本和稀疏性上的两大痛点,这对于未来 LLM 智能体的训练具有非常大的启发意义。
- 细粒度监督的重要性: 从结果奖励中提取步级过程监督是解决稀疏奖励问题的优雅方式。理论分析将其与 DPO 联系起来,为在线强化学习引入了偏好学习的强大机制,这对于提高模型在复杂任务中的决策质量至关重要。
- 智能体任务的特殊性: 论文通过实验证明了智能体步骤粒度 (agent step-level granularity) 的树节点设计远优于词元/句子级别。这提醒我们,在设计 LLM 训练方法时,必须充分考虑任务本身的结构和语义特性,而非盲目套用通用范式。
- 小模型的潜力: Tree-GRPO 在小模型(如 Qwen2.5-1.5b/3b)上的显著提升,表明通过高效的训练方法,即使是参数量较小的模型也能被赋予强大的智能体能力,这对于资源受限的研究者和企业具有重要意义。
7.3.2. 批判
- 二元偏好假设的局限性: 论文的理论分析依赖于二元偏好假设 (Binary Preference Setting),即将轨迹奖励简化为 [1, 0]。尽管这有助于理论推导,但在许多真实世界的智能体任务中,奖励可能是一个连续值,或者具有更复杂的结构(例如,部分成功、不同程度的失败等)。这种简化可能无法完全捕捉真实奖励信号的丰富性,未来的工作可能需要扩展此理论框架以处理更复杂的奖励模式。
- 树搜索参数的敏感性: 论文在附录中提到,树搜索的参数 (
M, N, L) 对性能有影响,需要权衡探索和利用。虽然提供了一些指导,但在实际应用中,如何根据具体任务和预算自适应或鲁棒地选择这些参数仍是一个挑战,可能需要额外的超参数调优。 - 失败案例的深层原因: 尽管论文分析了失败案例,指出模型未能进行充分探索或验证,但更深层的问题在于,目前的 LLM 可能在内在的反思和自我修正机制上仍有欠缺。Tree-GRPO 提供了更好的外部监督信号,但模型内部如何消化和利用这些信号进行更“智能”的决策,仍是一个开放的研究问题。简单地增加推演次数和多样性,并不能完全替代智能体进行高质量的“思考”和“判断”。
- 通用性和复杂性: 尽管 Tree-GRPO 在 QA 任务上表现出色,但对于更复杂、开放性更强的智能体任务(如需要长期规划、世界模型构建、多模态交互等),其“智能体步骤”的定义和树搜索的扩展逻辑是否依然适用,以及如何处理状态空间急剧膨胀的问题,仍有待进一步探讨。
相似论文推荐
基于向量语义检索推荐的相关论文。