Training-Free Group Relative Policy Optimization
TL;DR 精炼摘要
LLM Agent在专业领域常因工具集成不佳而性能受限,现有强化学习方法需昂贵参数更新。本文提出免训练的组相对策略优化(Training-Free GRPO),通过从少量经验轨迹中提炼“相对语义优势”作为“令牌先验”来指导模型。该方法无需参数更新,有效解决数据稀缺和过拟合,以极低成本显著提升LLM在数学推理和网页搜索等任务上的域外性能。
摘要
Recent advances in Large Language Model (LLM) agents have demonstrated their promising general capabilities. However, their performance in specialized real-world domains often degrades due to challenges in effectively integrating external tools and specific prompting strategies. While methods like agentic reinforcement learning have been proposed to address this, they typically rely on costly parameter updates, for example, through a process that uses Supervised Fine-Tuning (SFT) followed by a Reinforcement Learning (RL) phase with Group Relative Policy Optimization (GRPO) to alter the output distribution. However, we argue that LLMs can achieve a similar effect on the output distribution by learning experiential knowledge as a token prior, which is a far more lightweight approach that not only addresses practical data scarcity but also avoids the common issue of overfitting. To this end, we propose Training-Free Group Relative Policy Optimization (Training-Free GRPO), a cost-effective solution that enhances LLM agent performance without any parameter updates. Our method leverages the group relative semantic advantage instead of numerical ones within each group of rollouts, iteratively distilling high-quality experiential knowledge during multi-epoch learning on a minimal ground-truth data. Such knowledge serves as the learned token prior, which is seamlessly integrated during LLM API calls to guide model behavior. Experiments on mathematical reasoning and web searching tasks demonstrate that Training-Free GRPO, when applied to DeepSeek-V3.1-Terminus, significantly improves out-of-domain performance. With just a few dozen training samples, Training-Free GRPO outperforms fine-tuned small LLMs with marginal training data and cost.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Training-Free Group Relative Policy Optimization
中文可译为:免训练的组相对策略优化。
标题直接点明了论文的核心:提出了一种无需更新模型参数(免训练)的方法,该方法借鉴了强化学习领域中组相对策略优化 (Group Relative Policy Optimization, GRPO) 的思想,来提升大型语言模型智能体 (LLM agents) 的性能。
1.2. 作者
Youtu-Agent Team
作者团队来自腾讯优图实验室 (Tencent Youtu Lab),并与复旦大学 (Fudan University) 和厦门大学 (Xiamen University) 有合作。这表明该研究是工业界研究实验室与学术界合作的产物,通常这类研究兼具前沿的学术视野和解决现实问题的实用性。
1.3. 发表期刊/会议
该论文目前发布在 arXiv 预印本服务器上。
- 预印本 (Preprint): 指的是尚未经过同行评审 (peer review) 的学术论文草稿。科研人员通常会将他们的最新研究成果发布在 arXiv 上,以便快速与全球同行交流。虽然未经正式评审,但 arXiv 是计算机科学和人工智能领域交流最新思想的重要平台。
1.4. 发表年份
2025年 (根据论文中标注的日期 2025-10-09T13:18:17.000Z)
1.5. 摘要
论文的摘要精炼地概括了其研究的全貌:
- 问题: 尽管大型语言模型 (LLM) 智能体潜力巨大,但在需要集成外部工具或特定提示策略的专业领域,其性能往往会下降。
- 现有方案的弊端: 现有的解决方案,如智能体强化学习 (Agentic RL),通常依赖于代价高昂的参数更新(即微调模型),例如通过监督微调 (SFT) 和组相对策略优化 (GRPO) 的组合来调整模型。这种方法不仅成本高、数据需求大,还容易产生过拟合问题。
- 本文论点与创新: 作者认为,LLM 可以通过将经验性知识 (experiential knowledge) 作为一种词元先验 (token prior) 来学习,从而实现与参数更新相似的输出分布调整效果。这是一种更轻量级的方法,能有效解决数据稀缺和过拟合问题。
- 核心方法: 基于此,论文提出了免训练的组相对策略优化 (Training-Free Group Relative Policy Optimization)。该方法在不更新任何模型参数的情况下,利用大语言模型在多轮学习中,从一小组真实标注数据 (ground-truth data) 中迭代地提炼高质量的经验知识。它使用语义优势 (semantic advantage) 而非传统 GRPO 中的数值优势,来指导知识的提炼。这些提炼出的知识作为词元先验,在模型推理时被无缝集成,以引导模型行为。
- 主要结果: 在数学推理和网页搜索任务上的实验表明,该方法应用于
DeepSeek-V3.1-Terminus模型后,显著提升了其在未知领域(out-of-domain)的性能。仅用几十个训练样本,其效果就超过了使用少量数据微调的小型 LLM,且成本极低。
1.6. 原文链接
-
arXiv 链接: https://arxiv.org/abs/2510.08191
-
发布状态: 预印本 (Preprint)。
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题
通用的大型语言模型 (LLM) 在被用作智能体 (agent),去解决需要与外部环境(如网页、代码解释器)交互的专业任务时,表现往往不尽如人意。这些任务通常需要精确地使用工具和遵循特定的领域策略,而通用的 LLM 对这些“潜规则”并不熟悉。
2.1.2. 问题的重要性与现有挑战
为了让 LLM 智能体在专业领域变得可靠和高效,研究者们转向了智能体训练 (agentic training),尤其是强化学习 (Reinforcement Learning, RL)。然而,当前主流的基于 RL 的微调方法(即更新模型参数)面临四大挑战:
- 计算成本高昂 (Computational Cost): 微调即使是中等规模的模型也需要大量的计算资源,成本高昂且不环保。部署微调后的专用模型也需要独立的硬件,对于低频应用场景来说非常浪费。
- 泛化能力差 (Poor Generalization): 为特定任务微调的模型,其能力往往被“固化”在该任务上,一旦换到其他领域,性能就会急剧下降。这导致需要为每个任务维护一个专用模型,系统复杂度和维护成本极高。
- 数据稀缺性 (Data Scarcity): 微调 LLM 通常需要大量高质量、人工标注的训练数据,这在许多专业领域是难以获取的。在数据量少的情况下,模型极易过拟合 (overfitting),即“死记硬背”训练数据,而丧失了对新问题的解决能力。
- 收益递减 (Diminishing Returns): 由于训练成本的限制,研究者往往只能选择微调参数量较小的模型(如 320亿参数以下)。然而,更大、能力更强的模型(通过 API 调用)虽然本身性能更好,但无法被轻易微调。这就造成了一个两难困境:要么花大价钱微调一个能力较弱的模型,要么使用一个能力更强但无法适应特定领域的通用模型。
2.1.3. 论文的切入点与创新思路
面对上述困境,作者提出了一个根本性的问题:“在参数空间中应用强化学习是唯一可行的方法吗?我们能否以一种非参数化的方式,用更低的数据和计算成本来提升 LLM 智能体的性能?”
这篇论文给出了肯定的回答。其核心创新思路是:将策略优化的战场从模型的“参数空间”转移到“上下文空间”。
-
参数空间 (Parameter Space) 优化: 通过计算梯度来调整模型内部数以亿计的权重参数,将知识“烘焙”到模型本身。这是传统微调的思路。
-
上下文空间 (Context Space) 优化: 保持模型参数完全不变(冻结),而是通过在输入提示 (prompt) 中提供高质量的“经验性知识 (experiential knowledge)”,来引导模型的行为。这些知识就像一本“攻略手册”,告诉模型在特定情境下应该如何思考和行动。
这种方法的核心假设是:强大的 LLM 本身已经具备了解决问题的潜在能力,只是缺少实践经验。因此,我们不需要重塑它的“大脑”(参数),只需要给它看几份高质量的“案例分析”(经验知识),它就能举一反三。
2.2. 核心贡献/主要发现
论文的主要贡献可以总结为以下四点:
-
提出了一种全新的免训练 RL 范式: 论文引入了
Training-Free GRPO,它通过将不断演进的经验知识作为词元先验 (token priors),将策略优化从参数空间转移到了上下文空间,整个过程无需梯度更新。 -
定义了语义组优势 (Semantic Group Advantage): 论文用“语义组优势”取代了传统 GRPO 中的“数值组优势”。它让 LLM 能够自我反思一组不同的尝试(推理轨迹),并从中提炼出自然语言形式的、可泛化的经验,从而持续优化知识库。
-
实现了极高的数据和计算效率: 实验证明,
Training-Free GRPO仅用极少的训练样本(几十到一百个)就能有效提升冻结模型的性能,为在不同领域应用 LLM 智能体提供了一种经济、实用的替代方案。 -
实现了卓越的泛化能力: 由于模型参数保持不变,可以通过插入不同的领域知识库,让同一个模型化身为多个领域的专家,而不会出现传统微调方法中的灾难性遗忘问题。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 大型语言模型智能体 (LLM Agent)
传统的 LLM 像一个只懂语言的“书呆子”,它能读会写,但无法与真实世界互动。LLM 智能体则是在 LLM 的基础上,赋予其使用工具 (tools) 的能力。这些工具可以是代码解释器、计算器、搜索引擎、API 等。智能体通过一种被称为“思考-行动”循环的模式工作:LLM 首先进行思考 (Thought),分析问题并决定下一步该做什么;然后生成一个行动 (Action),比如调用某个工具;最后观察工具返回的结果 (Observation),并基于新信息继续下一轮的“思考-行动”循环,直到问题解决。
3.1.2. 强化学习 (Reinforcement Learning, RL)
强化学习是机器学习的一个分支,它研究智能体如何在环境中通过与环境的交互来学习,以最大化其获得的累积奖励 (reward)。
- 智能体 (Agent): 学习者和决策者,在本文中指 LLM。
- 环境 (Environment): 智能体交互的对象,如一个网页或一个数学问题。
- 行动 (Action): 智能体可以执行的操作,如点击按钮或编写代码。
- 策略 (Policy): 智能体的“大脑”,决定了在特定状态下应该采取哪个行动。在 LLM 中,策略就是模型生成下一个词元的概率分布。
- 奖励 (Reward): 一个标量信号,用来评价智能体在某一步行动的好坏。例如,解对一道数学题得到 +1 的奖励,解错得到 -1 的奖励。 策略优化 (Policy Optimization) 的目标就是调整策略,使得智能体能够获得尽可能多的累积奖励。
3.1.3. 上下文学习 (In-context Learning, ICL)
这是大型语言模型特有的一种学习方式。与需要更新模型参数的微调不同,ICL 是通过在模型的输入提示中提供一些示例(demonstrations)来引导模型在没有参数更新的情况下执行新任务。例如,要让模型做法语翻译,你可以在提示中先给出几个“英语->法语”的例子,然后给出新的英语句子,模型就会模仿这些例子,输出法语翻译。本文的方法可以看作是一种更高级、更自动化的 ICL。
3.2. 前人工作
3.2.1. ReAct 框架
ReAct 是一个 foundational 的 LLM 智能体框架,它巧妙地将“推理 (Reasoning)”和“行动 (Acting)”结合起来。LLM 不再是直接输出答案,而是生成一种交错的文本序列,其中包含了它的思考过程 (Thought)、要执行的行动 (Action) 以及从工具中得到的观察结果 (Observation)。这种显式的思考过程极大地提升了 LLM 解决复杂问题的能力。
3.2.2. 组相对策略优化 (Group Relative Policy Optimization, GRPO)
GRPO 是传统强化学习中一种用于优化 LLM 策略的算法,也是本文方法思想的来源。其核心流程如下:
-
分组生成 (Group Generation): 对于一个给定的问题(查询 ),使用当前的策略模型 生成一组(例如 个)不同的输出 。这被称为推理轨迹 (rollout)。
-
奖励评分 (Reward Scoring): 使用一个奖励模型 (或基于规则的检查)为每个输出 打分,得到奖励 。
-
计算数值优势 (Numerical Advantage Calculation):
GRPO的关键在于它不评估单个输出的绝对好坏,而是评估其在组内的相对好坏。它为每个输出 计算一个优势 (advantage) 值 ,公式通常是: 其中, 是该组所有输出的奖励集合, 是平均奖励, 是奖励的标准差。这个公式的直觉是:- 如果一个输出的奖励远高于平均值,它会得到一个大的正优势值。
- 如果一个输出的奖励远低于平均值,它会得到一个大的负优势值(惩罚)。
-
参数更新 (Parameter Update): 算法使用这些优势值来更新策略模型 的参数。它会增加获得正优势值的输出的生成概率,同时降低获得负优势值的输出的生成概率。这个更新过程通常通过最大化一个目标函数(如 PPO-clipped objective)来实现,以确保学习过程的稳定。
与本文的联系: 本文的
Training-Free GRPO借鉴了GRPO的“组内相对比较”思想,但将第3步的数值优势替换为语义优势,并将第4步的参数更新替换为上下文知识库更新。
3.3. 技术演进
该领域的技术演进路线大致如下:
- 通用 LLM: 具备强大的语言能力,但无法与外部世界交互。
- LLM 智能体 (如 ReAct): 通过提示工程,让 LLM 能够使用工具,解决更复杂的任务。
- 参数化智能体训练 (如 ReTool, AFM): 发现通用 LLM 在专业领域能力不足,开始使用强化学习等方法对模型进行微调,使其成为领域专家。但这带来了高成本、差泛化等新问题。
- 免训练/上下文空间优化 (本文): 试图在不微调模型的情况下,达到甚至超越领域专家的性能,从而解决参数化训练的固有弊端。
3.4. 差异化分析
本文方法与相关工作的主要区别如下:
- 与参数化 RL 方法 (如 Vanilla GRPO, ReTool) 的区别: 最大的区别在于优化空间不同。前者在参数空间进行优化(修改模型权重),而本文在上下文空间进行优化(修改输入提示中的经验知识),从而避免了微调带来的所有问题。
- 与其他免训练方法 (如 Self-Refine, Reflexion) 的区别:
-
学习范式:
Self-Refine等方法通常是样本内 (within-sample) 的迭代改进,即针对单个查询,生成一个初始答案,然后自我反思并修正。而Training-Free GRPO更像传统的机器学习,它在一个训练集上进行多轮 (multi-epoch) 学习,提炼出一个通用的、可应用于未知 (out-of-domain) 查询的经验知识库。 -
比较机制:
Training-Free GRPO显式地对每个查询生成多个推理轨迹并进行组间比较来提炼“语义优势”,而Self-Refine等方法通常只对单个轨迹进行自我批判。实验证明,组间比较是提升性能的关键。
-
4. 方法论
4.1. 方法原理
Training-Free GRPO 的核心思想是用上下文引导代替参数更新。它模拟了传统 GRPO 算法的对齐 (alignment) 效果,但整个过程完全在推理阶段完成,不涉及任何梯度计算或模型权重修改。
其关键在于维护一个外部的经验知识库 (experiential knowledge),记为 。这个知识库在初始时为空。算法的目标就是通过在少量训练数据上进行多轮学习,不断地丰富和优化这个知识库 。在实际解决问题时,这个知识库 会被作为上下文信息一起输入给一个冻结的 (frozen) LLM,其策略可以表示为 ,即模型在给定查询 和经验知识 的条件下生成输出 。
下图(原文 Figure 2)直观地对比了传统 GRPO 和 Training-Free GRPO 的流程。
该图像是图2,对比了香草GRPO(Vanilla GRPO)和免训练GRPO(Training-Free GRPO)的系统架构。图(a)展示了Vanilla GRPO通过策略模型、参考模型和奖励模型进行组计算并更新策略模型的过程。图(b)描绘了Training-Free GRPO,其策略模型结合了经验知识,并通过一个控制器和大型语言模型(LLMs)在组计算中实现总结和经验提取,最终更新经验库。这种方法避免了模型参数更新,而侧重于经验知识的迭代学习。
4.2. 核心方法详解 (逐层深入)
Training-Free GRPO 的学习过程可以分解为以下四个核心步骤,循环往复进行多轮(epoch)。
4.2.1. 第1步: 推理轨迹生成与奖励评分 (Rollout and Reward)
这一步与传统 GRPO 完全相同。
- 推理轨迹生成 (Rollout): 对于训练集中的一个查询 ,使用当前策略 并行生成一组 个不同的输出(或称为推理轨迹) 。
- 奖励评分 (Reward): 使用一个外部的奖励模型 (在实验中,这通常是一个能判断答案是否正确的脚本)为每个输出 打分,得到一个标量奖励 。
4.2.2. 第2步: 组优势计算 (Group Advantage Computation)
这是 Training-Free GRPO 的核心创新所在,它用语义优势 (semantic advantage) 取代了数值优势。这个过程只在组内各个输出的奖励不完全相同时(即有优劣之分时)触发。
-
轨迹总结 (Summarization): 对于组内的每一个输出 ,调用 LLM 自身,使用一个总结提示模板 ,来生成该轨迹的摘要 。这个摘要会概括该次尝试的关键步骤和决策。
-
经验提取 (Experience Extraction): 接下来,再次调用 LLM ,提供查询 、所有轨迹的摘要 以及当前的经验知识库 。LLM 被要求(通过一个提取提示模板 )反思这些成功和失败的尝试,并提炼出一条或多条自然语言形式的、可泛化的经验。这条文本形式的经验 就是语义优势。它编码了“什么样的行为能够导致高奖励”的关键知识。
下图(原文 Figure 3)生动地展示了一个学习步骤的例子。
该图像是图3,展示了Training-Free GRPO的一个学习步骤示例。它以一个几何问题开始,接着展示了G个轨迹(Rollout x G),其中轨迹1失败而轨迹2成功地找到了线段 。每个轨迹随后被详细总结,并进行优势计算。通过比较不同尝试,该过程学习到经验知识,例如在几何问题中数学解需满足几何约束,从而指导LLM行为,实现无参数更新的学习。
从图中可以看到,对于一个几何问题,模型进行了两次尝试(Rollout 1 失败,Rollout 2 成功)。通过对这两个轨迹进行总结和比较,LLM 提炼出了一条宝贵的经验:“在几何问题中,数学解必须满足几何约束”,这构成了语义优势。
4.2.3. 第3步: 优化 (Optimization)
传统 GRPO 在这一步使用梯度上升来更新模型参数 。而 Training-Free GRPO 则是更新它的经验知识库 。
- 更新操作生成: 收集当前批次 (batch) 中所有查询产生的所有语义优势 。然后,提示 LLM 基于这些新提炼的经验,对现有的知识库 生成一系列操作。每个操作可以是以下四种之一:
- Add: 将新的经验 直接添加到知识库 中。
- Delete: 根据 的洞见,从知识库 中删除一条质量较低或错误的旧经验。
- Revise: 结合 ,修改知识库 中的一条现有经验,使其更精确或更通用。
- Keep: 保持知识库 不变。
4.2.4. 第4步: 迭代学习
在执行完上述操作,更新了知识库 之后,一个轮次 (epoch) 的学习就完成了。在下一轮或后续的推理中,新的、经过优化的知识库 将被用于指导 LLM ,使其生成更高质量输出的概率增加。
这个过程巧妙地模拟了传统 RL 的效果:通过迭代学习,策略(由冻结的 LLM + 变化的上下文知识构成)不断向着高奖励的方向优化。同时,冻结的基础模型 扮演了一个强大的先验角色,确保了输出的连贯性和稳定性,这类似于传统 GRPO 中防止策略偏离过远的 KL 散度约束。
5. 实验设置
5.1. 数据集
实验在两个不同的领域进行,以验证方法的有效性和泛化性。
-
数学推理 (Mathematical Reasoning):
- 训练集: 从
DAPO-Math-17K数据集中随机抽取了 100 道数学题,构成DAPO-100训练集。这是一个极小的数据集,用以模拟真实世界中训练数据稀缺的场景。 - 评估集: 使用了
AIME24和AIME25两个基准测试集。AIME (American Invitational Mathematics Examination) 是美国的高水平数学竞赛,其题目具有很高的挑战性,非常适合用来测试模型的域外泛化 (out-of-domain generalization) 能力。
- 训练集: 从
-
网页搜索 (Web Searching):
- 训练集: 从
AFM(Chain-of-Agents) 数据集中随机抽取了 100 个查询,构成AFM-100训练集。该数据集包含了高质量的、智能体与网页环境进行多轮交互的轨迹。 - 评估集: 使用了
WebWalkerQA基准测试集。这是一个广泛用于评估网页智能体性能的数据集,任务要求智能体理解自然语言指令和复杂的网页结构,对通用智能体的能力构成了严格的考验。
- 训练集: 从
5.2. 评估指标
5.2.1. Mean@k
- 概念定义 (Conceptual Definition):
Mean@k或Pass@k是用于评估代码生成或数学解题等任务的常用指标。它衡量的是,对于一个给定的问题,如果允许模型生成 个不同的答案,其中至少有一个是正确的概率。这个指标比Pass@1(只生成一个答案的正确率)更能反映模型解决问题的潜在能力,因为它考虑了多次尝试的可能性。论文中提到的Mean@32指的就是为每个问题生成 32 个解,并评估其中是否存在正确解的成功率。 - 数学公式 (Mathematical Formula): 对于一个问题,如果生成了 个解,其中有 个是正确的,那么无偏估计的
Pass@k计算公式为: - 符号解释 (Symbol Explanation):
- : 为单个问题生成的总样本数。
- : 在 个样本中,正确的样本数。
- : 我们希望评估的尝试次数 ()。
- : 组合数,表示从 个元素中取出 个的组合方式数。
在实践中,如果直接生成 个样本进行评估,
Pass@k就是所有问题中,至少有一个答案正确的比例。
5.2.2. Pass@1
- 概念定义 (Conceptual Definition): 这是最直观的正确率指标。它衡量的是,对于一个问题,模型第一次生成的答案就是正确的概率。
Pass@1反映了模型的单次尝试成功率。 - 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation): 无。
5.3. 对比基线
论文将自己的方法与多种基线进行了比较,以全面展示其优势。
- 基础方法 (Basic Methods):
Direct Prompting: 不使用任何工具的直接问答。ReAct: 当前主流的、结合了思维链和工具使用的强大基线。
- 参数化 RL 微调模型 (Parameter-Tuned RL Models):
ReTool,AFM,ZeroTIR,SimpleTIR: 这些是最先进的 (state-of-the-art) 通过强化学习微调模型参数来提升智能体性能的方法。它们通常在Qwen2.5-32B-Instruct等中等规模模型上进行训练。
- 不同基础模型 (Base Models):
-
DeepSeek-V3.1-Terminus: 本文方法主要应用的强大基础模型。 -
Qwen3-32B,Qwen2.5-72B-Instruct: 用于验证本文方法在不同规模模型上的普适性。
-
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 数学推理任务
实验结果有力地证明了 Training-Free GRPO 的有效性和高效率。
以下是原文 Table 1 和 Table 3 的结果:
原文 Table 1: 在 AIME 2024 和 AIME 2025 基准上的 Mean@32 结果 (%)
| Method | Learning Cost | Training Set | Model | Tool | AIME24 | AIME25 | ||||
| Direct | - | - | DeepSeek-V3.1-Terminus | - | 68.6 | 52.9 | ||||
| + Training-Free GRPO | ≈ \$8 | DAPO-100 | DeepSeek-V3.1-Terminus | - | 72.6 (↑4.0) | 54.0 (↑1.1) | ||||
| ReAct | - | - | DeepSeek-V3.1-Terminus | CI | 80.0 | 67.9 | ||||
| + Training-Free GRPO | ≈ \$18 | DAPO-100 | DeepSeek-V3.1-Terminus | CI | 82.7 (↑2.7) | 73.3 (↑5.4) | ||||
| ReAct | - | - | DeepSeek-V3.2-Exp | CI | 71.0 | 61.8 | ||||
| + Training-Free GRPO | ≈ \$8 | DAPO-100 | DeepSeek-V3.2-Exp | CI | 73.1 (↑2.1) | 63.2 (↑1.4) | ||||
原文 Table 3: 与小型 LLM 在 AIME 2024 和 AIME 2025 基准上的 Mean@32 对比 (%)
| Method | Learning Cost | Model | Tool | AIME24 | AIME25 |
| ReAct | - | Qwen2.5-32B-Instruct | CI | 29.6 | 23.1 |
| ZeroTIR | ≈ \$20,000 | Qwen2.5-32B-Instruct | CI | 56.7 | 33.3 |
| SimpleTIR | ≈ \$20,000 | Qwen2.5-32B-Instruct | CI | 59.9 | 49.2 |
| ReTool | ≈ \$10,000 | Qwen2.5-32B-Instruct | CI | 67.0 | 49.3 |
| AFM | ≈ \$10,000 | Qwen2.5-32B-Instruct | CI | 66.7 | 59.8 |
| ReAct | - | Qwen3-32B (Non-Thinking) | CI | 29.1 | 19.5 |
| + Training-Free GRPO | ≈ \$4 | Qwen3-32B (Non-Thinking) | CI | 33.5 (↑4.4) | 25.4 (↑5.9) |
| ReAct | - | Qwen2.5-72B-Instruct | CI | 13.5 | 9.6 |
| + Training-Free GRPO | ≈ \$3 | Qwen2.5-72B-Instruct | CI | 14.9 (↑1.4) | 11.4 (↑1.8) |
| ReAct | - | DeepSeek-V3.1-Terminus | CI | 80.0 | 67.9 |
| + Training-Free GRPO | ≈ \$18 | DeepSeek-V3.1-Terminus | CI | 82.7 (↑2.7) | 73.3 (↑5.4) |
关键分析:
- 显著的性能提升: 从 Table 1 可以看到,无论是无工具的
Direct模式还是带工具的ReAct模式,Training-Free GRPO都带来了显著的性能提升。在ReAct+DeepSeek-V3.1-Terminus的强大基线上,AIME24 和 AIME25 分别提升了 2.7% 和 5.4% 的绝对分数。 - 极高的性价比: 这一显著提升是在仅使用 100 个训练样本、花费约
18** 的情况下实现的。相比之下,从 Table 3 可以看到,传统的 RL 微调方法(如ReTool,AFM)需要数千甚至上万的训练数据,花费超过 **10,000,但它们在 32B 模型上取得的最好成绩(AIME24 约 67.0%,AIME25 约 59.8%)仍远低于Training-Free GRPO在更强基础模型上取得的成绩(82.7% 和 73.3%)。 - 支持核心论点: 这个对比有力地支持了论文的核心论点——在资源有限的现实世界应用中,通过上下文空间优化来引导一个强大的冻结模型,比在参数空间中竭力微调一个能力较弱的模型,是更有效、更经济的选择。
6.1.2. 网页搜索任务
在网页搜索任务上,也观察到了类似的结果。
原文 Table 4: 在 WebWalkerQA 上的 Pass@1 结果 (%)
| Method | Training Set | Model | pass@1 |
|---|---|---|---|
| ReAct | - | DeepSeek-V3.1-Terminus | 63.2 |
| + Training-Free GRPO | AFM-100 | DeepSeek-V3.1-Terminus | 67.8 (↑4.6) |
关键分析:
Training-Free GRPO在WebWalkerQA测试集上实现了 4.6% 的Pass@1提升,证明该方法不仅仅局限于数学领域,在需要与真实网页环境交互的复杂任务中同样有效。
6.1.3. 跨领域迁移分析
原文 Table 6: 跨领域迁移能力 (平均 pass@1, %)
| Method | Learned Domain | Math Reasoning | Web Searching | |
| AIME24 | AIME25 | WebWalker | ||
| ReAct (Qwen2.5-32B-Instruct) | - | 29.6 | 23.1 | 31.9 |
| ReTool (Qwen2.5-32B-Instruct) | Math | 67.0 | 49.3 | **18.3** |
| MiroThinker (Qwen3-32B) | Web | **43.5** | **36.8** | 53.6 |
| Training-Free GRPO (DeepSeek-V3.1-Terminus) | Math / Web | **82.7** | **73.3** | **67.8** |
关键分析:
- 参数微调的局限性: 专门为数学任务微调的
ReTool模型,在网页搜索任务上的表现(18.3%)甚至远不如未经微调的ReAct基线(31.9%)。同样,为网页任务优化的MiroThinker在数学任务上的表现也大幅下滑。这暴露了参数化微调的灾难性遗忘 (catastrophic forgetting) 问题,即模型为了适应新任务而忘记了在其他领域的通用能力。 - 免训练方法的优越性:
Training-Free GRPO通过保持基础模型不变,仅在推理时“插入”对应领域的经验知识库,从而在两个领域都达到了最先进的性能。这证明了其卓越的跨领域鲁棒性和泛化能力,使其非常适合需要处理多样化任务的现实应用。
6.2. 消融实验/参数分析
消融实验旨在验证方法中各个组件的必要性。
原文 Table 2: 在 DeepSeek-V3.1-Terminus 上的消融研究 (Mean@32, %)
| Method | Training Set | AIME24 | AIME25 |
|---|---|---|---|
| ReAct | 80.0 | 67.9 | |
| ReAct + Directly Generated Experiences | 79.8 | 67.3 | |
| ReAct + Training-Free GRPO (w/o ground truths) | DAPO-100 | 80.7 | 68.9 |
| ReAct + Training-Free GRPO (w/o group computation) | DAPO-100 | 80.4 | 69.3 |
| ReAct + Training-Free GRPO | DAPO-100 | 82.7 | 73.3 |
关键分析:
-
经验学习过程的必要性: 第二行实验(
Directly Generated Experiences)表明,仅仅是简单地让 LLM 生成一些经验并放入上下文中,并不能提升性能,甚至有轻微下降。这证明了本文提出的通过组相对比较和迭代优化来提炼高质量经验的过程是至关重要的。 -
对奖励信号的鲁棒性: 第三行实验(
w/o ground truths)去掉了真实答案作为奖励信号,模型只能依靠自我反思和多数投票等隐式信号来优化经验。尽管性能不如使用真实答案的版本,但依然比基线有所提升。这表明该方法具有很强的鲁棒性,即使在缺少真值标注的领域也具备应用潜力。 -
组计算的必要性: 第四行实验(
w/o group computation)将组大小设为1,即模型只能从单个推理轨迹中提炼经验。结果显示性能大幅下降,这有力地证明了“组相对比较”是该方法成功的核心机制之一。通过比较多条不同的路径,LLM 才能更有效地识别出哪些决策是关键的,从而提炼出真正有价值的经验。
7. 总结与思考
7.1. 结论总结
本文成功地提出并验证了一种名为 Training-Free GRPO 的新颖范式,旨在解决当前 LLM 智能体在适应专业领域时面临的高成本、数据依赖和泛化能力差的核心痛点。
其核心贡献在于,它巧妙地将强化学习中的策略优化思想从参数空间迁移到了上下文空间。通过利用一个冻结的、强大的 LLM,在一个极小的训练集上进行多轮学习,该方法能迭代地提炼出一个高质量的经验知识库。这个知识库作为一种词元先验,在推理时引导模型的行为,从而达到与参数微调相似甚至更好的效果。
实验结果强有力地证明,该方法不仅在数学推理和网页搜索任务上取得了显著的性能提升,而且其训练成本和数据需求比传统微调方法低了几个数量级。更重要的是,它通过保持模型参数不变,展现了卓越的跨领域泛化能力。这项工作为开发更经济、更实用、更易于部署的专业领域 LLM 智能体开辟了一条全新的、高效的路径。
7.2. 局限性与未来工作
尽管论文取得了令人印象深刻的成果,但仍存在一些潜在的局限性和值得探索的未来方向:
- 对基础模型的依赖: 实验表明,该方法在能力较弱的模型(如
QwQ-32B)上效果不佳。这说明Training-Free GRPO的成功高度依赖于基础模型本身强大的泛化和推理能力。它更像是一个“催化剂”,激发和引导模型已有的潜能,而不是从零开始教授新能力。 - 上下文长度的限制: 该方法将经验知识库注入到模型的上下文中,这会占用宝贵的上下文窗口长度。对于需要处理超长历史记录的任务,或者在上下文窗口较小的模型上,这可能会成为一个瓶颈。
- 经验知识库的管理: 随着任务变得越来越复杂,经验知识库可能会变得非常庞大。如何高效地从一个大型知识库中检索出与当前问题最相关的几条经验,以及如何处理可能出现的经验冲突,是未来需要研究的重要问题。
- “学习”过程的成本: 尽管被称为“免训练”,其学习过程(包括多次生成、总结、提取和更新)仍然需要相当多的 LLM API 调用,这在学习阶段会产生一定的成本和时间延迟。
7.3. 个人启发与批判
这篇论文给我带来了深刻的启发,它体现了一种非常务实且优雅的工程与研究哲学。
-
启发点:
- “杠杆”思维: 与其耗费巨大资源去从根本上改变一个庞然大物(微调 LLM),不如聪明地利用一个“杠杆”(上下文提示),来引导它的行为。这在许多资源受限的实际应用场景中具有极高的价值。
- 自动化提示工程: 该方法可以看作是“提示工程”的自动化和系统化。它不再依赖人类专家手动设计和迭代提示,而是建立了一套从数据中自动学习和优化“提示组件”(即经验知识)的闭环流程。
- 知识的可解释性与可迁移性: 与被“黑箱化”的模型参数不同,本文方法产生的经验知识库是人类可读的自然语言文本。这不仅增强了模型决策过程的可解释性,也使得这些知识可以被方便地迁移、编辑和复用。
-
批判性思考:
- “免训练”的定义: 论文标题中的 “Training-Free” 可能会引起一些误解。实际上,它有一个不涉及梯度更新的“学习”或“优化”阶段。称之为 “Parameter-Free”(无参数)或 “Gradient-Free”(无梯度)优化可能更为准确,因为它确实通过一个学习过程来优化一个外部知识资产。
- 实验领域的广度: 尽管在数学和网页搜索两个具有挑战性的领域取得了成功,但方法的普适性仍需在更多样化的任务上进行验证,例如代码生成、科学文献综述或更复杂的机器人控制任务。
- 语义优势的稳定性: 整个方法的核心依赖于 LLM 能够稳定、可靠地从成功和失败的案例中提炼出高质量的、泛化的经验。这个提炼过程本身的稳定性和质量如何保证,是一个值得深入探讨的问题。如果 LLM 在这一步产生幻觉或错误的归因,可能会污染整个知识库。
相似论文推荐
基于向量语义检索推荐的相关论文。