论文状态：已完成

Tongyi DeepResearch Technical Report

发表：2025/10/29

大型语言模型的深度研究代理 (1)长远信息寻求任务 (1)自动化数据合成管道 (1)深度研究基准测试 (1)自主研究能力增强 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本技术报告介绍了Tongyi DeepResearch，一种专为长周期深度研究任务设计的代理式大型语言模型。通过端到端的训练框架，该模型结合了中期和后期训练，促进自主深度研究能力，并设计了一个无需人工标注的全自动数据合成流水线，从而在多个基准测试中取得了最先进的表现。

摘要

We present Tongyi DeepResearch, an agentic large language model, which is specifically designed for long-horizon, deep information-seeking research tasks. To incentivize autonomous deep research agency, Tongyi DeepResearch is developed through an end-to-end training framework that combines agentic mid-training and agentic post-training, enabling scalable reasoning and information seeking across complex tasks. We design a highly scalable data synthesis pipeline that is fully automatic, without relying on costly human annotation, and empowers all training stages. By constructing customized environments for each stage, our system enables stable and consistent interactions throughout. Tongyi DeepResearch, featuring 30.5 billion total parameters, with only 3.3 billion activated per token, achieves state-of-the-art performance across a range of agentic deep research benchmarks, including Humanity's Last Exam, BrowseComp, BrowseComp-ZH, WebWalkerQA, xbench-DeepSearch, FRAMES and xbench-DeepSearch-2510. We open-source the model, framework, and complete solutions to empower the community.

思维导图

论文精读

中文精读约 47 分钟读完 · 27,250 字

1. 论文基本信息

1.1. 标题

Tongyi DeepResearch 技术报告 (Tongyi DeepResearch Technical Report)

1.2. 作者

Tongyi DeepResearch 团队 (Tongyi DeepResearch Team)

1.3. 发表期刊/会议

该论文以技术报告 (Technical Report) 的形式发表，目前是预印本 (arXiv preprint)，尚未正式发表在特定的期刊或会议上。考虑到阿里巴巴 (Alibaba Group) 在人工智能领域的强大背景和其自研模型（如通义千问 Qwen）的知名度，这份技术报告在预印本阶段也具有较高的关注度和影响力。

1.4. 发表年份

2025年10月28日 (Published at 2025-10-28T17:53:02.000Z)

1.5. 摘要

本文介绍了 Tongyi DeepResearch，一个专为长周期 (long-horizon)、深度信息寻求 (deep information-seeking) 研究任务设计的代理式大型语言模型 (agentic large language model)。为了激励自主深度研究能力，Tongyi DeepResearch 通过一个端到端 (end-to-end) 的训练框架开发，该框架结合了代理式中期训练 (agentic mid-training) 和代理式后期训练 (agentic post-training)，从而实现了跨复杂任务的可扩展推理和信息寻求。研究团队设计了一个高度可扩展的、全自动的数据合成 (data synthesis) 流水线，无需昂贵的人工标注，并支持所有训练阶段。通过为每个阶段构建定制的环境，该系统在整个过程中实现了稳定且一致的交互。Tongyi DeepResearch 总参数量为 305 亿 (30.5 billion)，每词元 (per token) 仅激活 33 亿 (3.3 billion) 参数，在一系列代理式深度研究基准测试中达到了最先进的 (state-of-the-art) 性能，包括 Humanity's Last Exam、BrowseComp、BrowseComp-ZH、WebWalkerQA、xbench-DeepSearch、FRAMES 和 xbench-DeepSearch-2510。研究团队开源了模型、框架和完整的解决方案，以赋能社区。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2510.24701 PDF 链接: https://arxiv.org/pdf/2510.24701v2.pdf

2. 整体概括

2.1. 研究背景与动机

随着人工智能 (AI) 向通用人工智能 (AGI) 迈进，深度研究智能体 (Deep Research agents) 的出现为增强甚至解放人类智力生产力提供了一个有前景的范式。深度研究是一种新型的代理式能力，它能自主地在互联网上进行多步骤推理和信息寻求，以完成复杂的科研任务。这些任务可能需要人类数小时才能完成，而智能体可以在几十分钟内完成。

核心问题与挑战： 尽管深度研究智能体展现出巨大潜力，但目前大多数深度研究系统仍是闭源的，其内部研究过程也无法访问。这限制了社区对该领域进行深入探索和共享。现有的通用基础模型通常缺乏代理式归纳偏差 (agentic inductive bias)，它们在大量纯文本上进行预训练，然后通过指令遵循数据进行后期训练。这些数据集通常缺乏研究级别的复杂问题和代理式行为轨迹，导致模型在后期训练阶段需要同时学习代理式能力和对齐，这可能导致次优结果和固有的优化冲突。因此，如何构建一个完全开源、可扩展且能有效执行深度研究任务的智能体，是当前领域面临的重要挑战。

本文的切入点与创新思路： 本文旨在通过引入 Tongyi DeepResearch，开启开源 AI 研究员的时代。目标是赋予大型语言模型 (LLM) 自主研究能力，使其能够跨越扩展的动作序列和多样化的信息源进行规划、搜索、推理和知识合成。研究团队提出了一种端到端 (end-to-end) 的训练范式，通过结合代理式中期训练 (agentic mid-training) 和代理式后期训练 (agentic post-training) 来解决上述挑战，并设计了一个高度可扩展、全自动的数据合成流水线来支持所有训练阶段。

2.2. 核心贡献/主要发现

Tongyi DeepResearch 实现了以下几个关键进展：

端到端代理式训练范式： 提出了一个统一代理式中期训练和代理式后期训练的端到端范式。中期训练通过大规模、高质量的代理式数据培养模型固有的代理式偏见，作为从预训练到后期训练的渐进过渡。后期训练通过可扩展的多轮强化学习 (reinforcement learning, RL) 进一步释放模型潜力，使其逐步发展出从基本交互技能到高级自主研究行为的能力。
全自动化、高度可扩展的数据合成流水线： 设计了一个无需人工标注即可生成多样化、高质量代理式轨迹的流水线。该流水线为每个训练阶段定制了数据合成策略，确保每个阶段都能获得结构适当、目标明确的数据。合成数据具有高度可扩展性、快速验证的特点，并能构建具有稳定分布的超人类水平数据集，是智能体训练不可或缺的引擎。
定制化的阶段专用环境： 构建了阶段专用、定制化的环境，这些环境依赖于健壮的基础设施，为数据合成提供一致的交互。这些环境允许智能体进行丰富、专业的交互，并与其发展阶段紧密对齐。环境形式多样，包括先验世界模型 (prior world models)、模拟环境 (simulated environments) 和真实世界交互上下文 (real-world interactive contexts)。
领先的性能表现： Tongyi DeepResearch 基于 Qwen3-30B-A3B-Base 模型，总参数量 305 亿，每词元仅激活 33 亿参数，在多个深度研究基准测试（如 Humanity's Last Exam、BrowseComp、BrowseComp-ZH、WebWalkerQA、xbench-DeepSearch、FRAMES 和 xbench-DeepSearch-2510）中取得了最先进的性能，超越了包括 OpenAI-o3 和 DeepSeek-V3.1 在内的强大基线模型。
开源贡献： 模型、框架和完整的解决方案都已开源，以支持和加速社区研究，推动可扩展、有能力的代理式系统发展。

3. 预备知识与相关工作

3.1. 基础概念

代理式大型语言模型 (Agentic Large Language Model, LLM)： 指的是那些不仅能生成文本，还能通过规划 (planning)、感知环境 (perceiving environments)、采取行动 (taking actions) 并通过环境反馈 (feedback) 进行迭代优化的 LLM。它们能够自主地完成复杂的、多步骤的任务，就像一个“智能体”一样。
长周期 (Long-horizon) 任务： 指需要多步骤、长时间、可能需要多次与环境交互才能完成的任务。在深度研究领域，这通常意味着需要进行多次搜索、阅读、分析和综合信息才能得出结论。
深度信息寻求 (Deep Information-Seeking)： 区别于简单的信息检索，深度信息寻求要求智能体能够理解复杂的问题、从多个来源获取和整合信息、进行交叉验证、甚至识别信息中的不确定性，最终形成一个全面、准确的答案或报告。
端到端训练 (End-to-End Training)： 指整个系统或模型从输入到输出的所有阶段都作为一个整体进行训练和优化。在这个过程中，中间层的表示和转换也是通过学习得到的，而不是手动设计的。
归纳偏差 (Inductive Bias)： 在机器学习中，指学习算法在面对从未见过的数据时所做出的假设。一个具有特定归纳偏差的模型，更容易学习到某种类型的模式。对于代理式模型，这意味着模型在设计上就倾向于学习和执行代理式行为。
监督微调 (Supervised Fine-Tuning, SFT)： 在预训练模型的基础上，使用带有标签 (labeled) 的特定任务数据进行进一步训练的过程，目的是让模型更好地适应某个具体任务。在此语境下，SFT 用于让模型学习模仿高质量的代理式行为轨迹。
强化学习 (Reinforcement Learning, RL)： 一种机器学习范式，智能体通过与环境交互来学习如何做出决策以最大化累积奖励。智能体执行动作，环境返回奖励和新的状态，智能体根据这些反馈调整其行为策略 (policy)。
ReAct 框架 (Reasoning and Acting)： 由 Yao 等人（2023）提出的一种框架，它通过交错生成“思考 (Thought)”和“行动 (Action)”来增强 LLM 的推理和行动能力。Thought 阶段模型进行内部推理，生成下一步行动的理由；Action 阶段模型执行外部操作，如调用工具；Observation 阶段模型接收环境反馈。这个循环使得模型能够进行多步骤的复杂任务。
上下文管理范式 (Context Management Paradigm)： 针对长周期任务中上下文窗口 (context window) 有限的问题，通过动态地重构工作空间，只保留核心信息（问题、不断演进的报告摘要、最近的交互上下文），从而缓解上下文溢出 (context overflow) 的风险，并维持推理的一致性。
数据合成 (Data Synthesis)： 通过算法或模型自动生成训练数据，而不是依赖人工收集或标注。对于代理式任务，这意味着自动生成复杂的问题、智能体行为轨迹、工具调用序列以及对应的观察结果。
“风洞实验室” (Wind Tunnel Laboratory)：类比于工程学中的风洞测试，这里指一种受控的、可复现的模拟环境，用于快速测试和迭代算法，成本低廉，效率高。

3.2. 前人工作

论文中提及了一些关键的前人工作和相关系统：

闭源深度研究系统： OpenAI (2025a)、Claude Team (2025)、Grok Team (2025)、Gemini Team (2025) 等团队已经开发了深度研究系统，但这些系统大多是闭源的，其内部机制和中间研究过程对外部不可见。
ReAct 框架： Yao 等人 (2023) 提出的 ReAct (Reasoning and Acting) 框架，是 Tongyi DeepResearch 基础架构的灵感来源。ReAct 通过交错的“思考”和“行动”过程，增强了语言模型进行复杂任务的能力。
强化学习在 LLM 中的应用： Guo 等人 (2025) 提出的 RLVR (Reinforcement Learning with Value Regularization) 或类似的强化学习方法，以及 Yu 等人 (2025) 提出的 DAPO (Data-driven Policy Optimization) 等，为 LLM 的强化学习训练提供了算法基础。这些工作展示了通过 RL 激励模型推理能力的潜力。
Agentic Continual Pre-training (Agentic CPT)： Su 等人 (2025) 的工作可能为本论文的代理式中期训练提供了思路，旨在通过持续预训练的方式，逐步赋予模型代理式能力。
环境扩展与函数调用数据合成： Fang 等人 (2025) 的工作强调了通过环境扩展来提升通用代理式智能体能力的途径，这与本文通过环境扩展来合成函数调用数据以增强模型通用代理式能力的目标一致。
长文本上下文管理： Qiao 等人 (2025) 和 Wu 等人 (2025c) 的工作可能涉及更高级的上下文管理机制，旨在解决长周期任务中上下文窗口有限的问题，本文的上下文管理范式也受到了类似思想的启发。
模型合并 (Model Merging)： Wang 等人 (2025) 的工作讨论了如何通过参数平均或插值来合并来自相同预训练模型的不同变体，以结合它们的优势，本文也采用了这种技术。

3.3. 技术演进

早期的大型语言模型主要专注于文本生成和理解。随着能力的增强，研究者开始探索如何让 LLM 不仅仅是“说话”，还能“行动”。这导致了智能体 (agent) 范式的兴起，即 LLM 能够感知环境、规划行动、使用工具并从环境中学习。

从文本理解到指令遵循： 最早的 LLM 主要进行无监督预训练，然后在下游任务上进行微调。后来，通过指令微调 (instruction tuning) 和人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF)，LLM 能够更好地遵循人类指令。
从指令遵循到工具使用： 进一步发展，LLM 被赋予了使用外部工具的能力，例如搜索 (Search)、代码解释器 (Python Interpreter) 等，这大大扩展了它们的边界，使其能够获取最新信息、执行复杂计算等。ReAct 框架是这一阶段的代表，它将推理和行动结合起来。
从工具使用到自主代理： 最新的进展是构建能够自主进行多步骤、长周期任务的智能体，即所谓的“深度研究智能体”。这些智能体不仅能使用工具，还能进行复杂的规划、自我反思、信息整合和验证。Tongyi DeepResearch 正是这一演进路径上的最新成果，它通过创新的训练范式和数据合成策略，推动了开源深度研究智能体的发展。

3.4. 差异化分析

Tongyi DeepResearch 与现有工作的主要区别和创新点在于：

开源与可访问性： 大多数领先的深度研究系统是闭源的，而 Tongyi DeepResearch 是完全开源的，包括模型、框架和解决方案，这极大地促进了社区的参与和研究。
端到端训练范式： 创新性地结合了代理式中期训练和代理式后期训练。中期训练旨在为基础模型注入代理式归纳偏差，弥补了预训练模型缺乏代理式能力的空白，为后期强化学习奠定坚实基础。这与大多数仅关注后期训练 (post-training) 的工作不同。
全自动数据合成： 设计了一个高度可扩展、无需人工标注的自动数据合成流水线。这解决了代理式数据稀缺且标注成本高昂的问题，使得能够生成超人类水平的复杂问题和行为轨迹，是传统方法难以匹敌的。
定制化环境设计： 为不同训练阶段构建了定制化的环境（先验世界、模拟环境、真实环境），实现了训练的稳定性和一致性，并能高效地进行算法迭代。特别是模拟环境作为“风洞实验室”，极大地加速了开发进程。
参数效率： 尽管在多个基准测试中取得了最先进的性能，但 Tongyi DeepResearch 仅激活了 33 亿参数每词元，总参数量为 305 亿，这表明其在效率和可扩展性方面的优势。

4. 方法论

本文提出的 Tongyi DeepResearch 旨在为大型语言模型 (LLM) 赋予自主研究能力，使其能够规划、搜索、推理和合成知识，以完成长周期、深度信息寻求任务。其核心在于一个端到端 (end-to-end) 的训练框架，结合了代理式中期训练 (agentic mid-training) 和代理式后期训练 (agentic post-training)，并通过全自动、高度可扩展的数据合成流水线和定制化的训练环境提供支持。

4.1. 方法原理

Tongyi DeepResearch 的设计遵循以下核心原则：

代理训练流水线 (Agent Training Pipeline)： 将代理训练分解为中期训练和后期训练两个阶段，旨在逐步构建和完善模型的代理式能力。中期训练弥补了通用基础模型缺乏代理式归纳偏差 (agentic inductive bias) 的问题，而后期训练则通过强化学习 (RL) 进一步提升其深度研究能力。
合成数据为中心的可扩展性 (Synthetic Data Centric Scaling)： 鉴于深度研究任务数据收集的困难性，论文强调以合成数据作为训练的基石。合成数据具有易扩展、易验证、可针对特定能力增强的优点，并能形成数据飞轮 (data flywheel) 效应。
通过环境交互学习 (Learning Through Environmental Interaction)： 智能体的智能涌现离不开与环境的交互。论文将环境分为先验世界环境 (Prior World Environment)、模拟环境 (Simulated Environment) 和真实世界环境 (Real-world Environment) 三种形式，并根据训练阶段自适应选择，以平衡稳定性、保真度和成本。

4.2. 整体架构与公式化

Tongyi DeepResearch 的架构基于 ReAct 框架，并引入了上下文管理 (Context Management) 机制来处理长周期任务。

4.2.1. 形式化定义

在每个时间步 $t$ ，Tongyi DeepResearch 的运行通过以下三个基本组件进行形式化定义：

思考 (Thought) $\boldsymbol{\tau}_t$ ： 智能体的内部认知过程。这包括分析当前上下文、从记忆中回忆信息、规划后续步骤以及进行自我反思以调整其策略。
行动 (Action) $a_t$ ： 智能体执行的外部操作，以与其环境交互。Tongyi DeepResearch 配备了一套多功能的工具集，定义了其行动空间，使其能够与各种信息源交互，包括：Search（搜索）、Visit（访问网页）、Python Interpreter（Python 解释器）、Google Scholar（谷歌学术）和 File Parser（文件解析器）。行动包括所有中间工具调用 ( $\dot{\boldsymbol{a}}_t$ , 其中 $t < T$ ) 和对用户的最终响应。在给定的轨迹中，最终行动 $a_T$ 构成生成给用户的深入报告。
观察 (Observation) $\boldsymbol{o}_t$ ： 在执行行动后从环境接收到的反馈。这些新信息用于更新智能体的内部状态并指导其下一步思考。

基于上述基本组件，定义了两种不同的运行 (rollout) 类型：

ReAct 框架

Tongyi DeepResearch 的架构基础是 ReAct 框架，该框架协同推理 (Reasoning) 和行动 (Acting)。在这个范式中，智能体以交错的方式生成推理轨迹 (Thought) 和随后的行动 (Action)。这个过程形成一个轨迹 (trajectory) $\mathcal{H}_T$ ，它是一个思考-行动-观察三元组的序列： $\mathcal{H}_T = (\boldsymbol{\tau}_0, a_0, o_0, \ldots, \boldsymbol{\tau}_i, a_i, o_i, \ldots, \boldsymbol{\tau}_T, a_T)$ 其中 $a_T$ 表示对给定任务的最终答案。在任何给定步骤 $t \leq T$ 时，智能体的策略 $\pi$ 根据所有先前交互的历史 $\mathcal{H}_{t-1}$ 生成当前的思考 $\boldsymbol{\tau}_t$ 和行动 $a_t$ ： $\boldsymbol{\tau}_t, a_t \sim \pi(\cdot | \mathcal{H}_{t-1})$ 这种选择强调了 ReAct 的简洁性及其与“苦涩教训 (The Bitter Lesson)”原则的对齐，即通用方法利用可扩展计算最终优于依赖复杂、人工工程化知识和复杂设计的方法。

上下文管理 (Context Management)

长周期任务的执行受限于智能体上下文窗口的有限长度。为缓解上下文溢出风险并确保任务焦点，提出了上下文管理范式，该范式采用基于马尔可夫状态重构 (Markovian state reconstruction) 的动态上下文管理机制。在该框架内，智能体并非以完整的历史为条件，而是在每个步骤 $t$ ，以一个策略性重构的工作空间为条件，该工作空间仅包含必要元素：问题 $q$ 、不断演进的报告 $S_t$ （作为压缩记忆）、以及最近交互的即时上下文 $a_t$ 和 $o_t$ 。这种马尔可夫结构使得智能体能够在任意探索深度下保持一致的推理能力，并自然地规避性能下降。对于每一步 $0 < t < T$ ，这个核心更新过程可以形式化为： $S_t, \boldsymbol{\tau}_{t+1}, a_{t+1} \sim \pi(\cdot | S_{t-1}, a_t, o_t)$ 此上下文管理范式至关重要，它不仅防止了上下文窒息，还通过要求智能体在每个步骤明确合成和优先级排序信息，强制实现了结构化推理。

4.3. 整体训练流程

整个系统基于预训练的基础模型 Qwen3-30B-A3B-Base1 初始化。Tongyi DeepResearch 通过一个端到端训练框架开发，该框架整合了代理式中期训练 (agentic mid-training) 和代理式后期训练 (agentic post-training)，实现了跨复杂研究任务的可扩展推理和信息寻求。这为训练代理式模型建立了一个新范式。

以下是原文 Figure 2 的内容，展示了 Tongyi DeepResearch 的训练流水线：

Figure 2: Training pipeline of Tongyi DeepResearch. 该图像是图示，展示了Tongyi DeepResearch的训练管道。图中包含三个主要阶段：预训练、 mid-training和后训练，具体的训练阶段和参数数量分别为Agentic CPT Stage 1（32K）、Agentic CPT Stage 2（128K）和Agentic SFT及Agentic RL。

图 2: Tongyi DeepResearch 的训练流水线。

4.3.1. 代理式中期训练 (Agentic Mid-training)

代理式中期训练是整个训练流程中的关键桥梁阶段，旨在赋予基础模型强大的代理式归纳偏差，同时保持广泛的语言能力。

4.3.1.1. 训练配置

Tongyi DeepResearch 采用了两阶段的代理式持续预训练 (Agentic Continual Pre-training, Agentic CPT) 作为其核心中期训练阶段。

优化目标： 优化过程由标准的下一个词元预测 (Next-Token Prediction) 损失函数驱动。
阶段一： 以 32K 的上下文长度开始。
阶段二： 扩展到 128K 的上下文长度，并引入大量长序列（64K-128K）代理式行为数据。这对于增强模型进行连贯、长周期推理和行动的能力至关重要。
数据混合： 在两个阶段中，都穿插了少量通用预训练数据，以确保模型在获得专门代理式能力的同时，不牺牲其基础泛化能力。

4.3.1.2. 大规模代理行为数据合成

以下是原文 Figure 3 的内容，展示了代理式持续预训练的大规模代理行为数据合成：

Figure 3: Large-scale agent behavior data synthesis for agentic continual pre-training. 该图像是一个示意图，展示了任务规划和决策制定的流程。图中显示了从任务到回答的各个环节，包括问题合成、规划、决策制定及推理等步骤，强调了决策过程中的潜在路径和隐藏过程。

图 3: 代理式持续预训练的大规模代理行为数据合成。

在 Agentic CPT 阶段，数据合成涵盖了智能体工作流的整个生命周期。一个典型的智能体工作流从一个问题开始，迭代地经历反思和行动，最终收敛于一个最终解决方案。为了全面捕捉这个过程，我们为构成智能体操作循环的关键步骤合成数据：

大规模多风格问题合成 (Large-scale Multi-style Question Synthesis)：
- 构建一个基于不断更新的开放世界知识的实体锚定开放世界记忆 (entity-anchored open-world memory)。该记忆将网络爬取数据和智能体交互轨迹等多样化的真实世界知识源整合为实体及其相关知识的结构化表示。
- 在此基础上，采样实体及其相关知识，生成嵌入特定行为模式要求（如多跳推理问题和数值计算问题）的多样化问题。
规划行动 (Planning Action)：
- 规划是指问题分解和第一步行动预测。规划的准确性与智能体能否成功完成任务高度相关。
- 利用开源模型分析、分解合成的问题并预测初始行动。
- 利用问题构建中使用的实体和相关知识作为拒绝采样 (rejection sampling) 的基础，以确保高质量的规划输出。
推理行动 (Reasoning Action)：
- 在异构数据上进行逻辑推理和知识整合是智能体解决复杂任务的基础。
- 当外部工具返回大量非结构化响应时，模型能否从噪声中提取关键知识并构建连贯的推理路径直接决定任务结果。
- 为此，给定一个问题及其依赖知识，引导大型模型通过两阶段过程生成完整的推理链，并采用基于推理长度和答案一致性的双重过滤机制来确保质量。
决策行动 (Decision-Making Action)：
- 智能体思考和行动的每一步本质上都是一个隐含的决策过程。
- 每个决策点都包含多个潜在的推理和行动路径，智能体必须从中选择最有前景的解决方案。
- 明确地建模这个决策过程：首先，基于现有演示轨迹，全面探索每个步骤的可行行动空间。其次，将原始轨迹重构为多步决策序列，同时保留原始决策选择。
通过环境扩展合成通用函数调用数据 (General Function-calling Data Synthesis via Environment Scaling)：
- 通过环境扩展系统地扩展函数调用数据，以增强模型的通用代理式能力。函数调用能力的广度与智能体训练所处环境的多样性密切相关。
- 遵循的核心原则是智能体的核心在于其与环境交互的能力，每个环境都被实例化为一个读写数据库。
- 设计一个可扩展的框架，自动构建完全模拟的异构环境，系统地拓宽函数调用场景空间。生成的数据被纳入模型的中期训练阶段。

4.3.2. 代理式后期训练 (Agentic Post-training)

后期训练流水线包括三个阶段：数据合成、用于冷启动 (cold start) 的监督微调 (SFT) 和代理式强化学习 (agentic reinforcement learning)。

4.3.2.1. 高质量数据合成 (High-quality Data Synthesis)

以下是原文 Figure 4 的内容，展示了高质量数据合成流水线：

Figure 4: High-quality data synthesis pipeline. 该图像是插图，展示了三个阶段的图形处理过程：1）图的构建、2）子图采样和3）不确定性注入。这些过程在研究中起到关键作用，旨在优化信息获取和处理的效率。

图 4: 高质量数据合成流水线。

开发了一个端到端的数据合成解决方案，用于生成复杂、高不确定性 (high-uncertainty) 和超人类水平 (super-human level) 的问答对。这个全自动过程无需人工干预即可构建超人类质量的数据集，旨在突破智能体性能的边界。

构建知识图谱： 首先通过随机游走构建高度互联的知识图谱，利用网络搜索获取相关知识，并从真实世界网站获取同构表格，确保真实的信息结构。
采样和问题生成： 随后采样子图和子表，生成初始问题和答案。
注入不确定性以增加难度： 关键步骤是策略性地增加问题中的不确定性，以提高其难度。这种实用方法基于一个完整的理论框架，其中将问答难度正式建模为一系列可控的“原子操作 (atomic operations)”（例如，合并具有相似属性的实体）在实体关系上，从而系统地增加复杂性。
信息寻求问题形式化： 为了进一步减少组织信息结构与问答推理结构之间不一致性，并实现对推理难度和结构的可控扩展，提出了基于集合论 (set theory) 的信息寻求问题的形式化建模。通过这种形式化，开发了能够以受控方式扩展问题、最小化推理捷径 (reasoning shortcuts) 和结构冗余的智能体，从而进一步提高了问答质量。此外，这种形式化还允许高效验证问答的正确性，有效解决了后期训练中验证合成信息寻求数据所面临的挑战。
博士级研究问题生成： 还开发了一个自动化数据引擎来大规模生成博士级研究问题。从多学科知识库开始，它创建了需要多源推理的种子问答对。这些种子经过迭代的复杂性升级，其中一个配备相应工具的问题生成智能体 (question-crafting agent) 逐步扩展范围和抽象级别。每次迭代都会细化和复合先前的输出，从而实现任务难度系统化和可控的升级。

4.3.2.2. 用于冷启动的监督微调 (Supervised Fine-tuning for Cold Start)

代理式后期训练流水线的初始阶段是监督微调 (SFT)，旨在在强化学习之前为基础模型提供一个稳健的初始策略。

数据来源： 从合成的高质量问答数据中获取训练轨迹，这些轨迹涵盖了高性能开源模型生成的完整思维过程和工具响应。
拒绝采样： 这些轨迹经过严格的拒绝采样 (rejection sampling) 协议，以确保只保留展现出多样化问题解决模式的高质量轨迹。
混合训练范式 (Mixed Training Paradigm)： 冷启动阶段的训练利用两种不同形式的数据，以增强模型的鲁棒性 (robustness) 和泛化能力 (generalization)。
- ReAct 模式： 训练样本将历史状态 $\mathcal{H}_{t-1}$ 作为输入，并输出当前步骤对应的思考 $\boldsymbol{\tau}_i$ 和工具调用 $a_i$ 。
- 上下文管理模式 (Context Management Mode)： 训练样本将前一步骤的轨迹摘要 $S_{t-1}$ 、工具调用 $a_{i-1}$ 和工具响应 $o_{i-1}$ 作为输入，并输出当前步骤的轨迹摘要、思考 $\boldsymbol{\tau}_i$ 和工具调用 $a_i$ 。上下文管理模式数据特别增强了智能体在状态分析和战略决策方面的能力，因为它要求模型将复杂的观察结果合成为连贯的摘要，同时在扩展轨迹中保持任务焦点。这种面向合成的训练相比纯 ReAct 模式能够实现更深思熟虑的推理模式。
两阶段训练策略： 采用基于上下文长度的两阶段训练策略。
- 第一阶段： 上下文长度设置为 40K，训练数据包含上下文长度小于 40K 的 ReAct 模式样本，以及所有上下文管理模式样本（因为它们都在 40K 以内）。
- 第二阶段： 上下文长度扩展到 128K，训练数据包括上下文长度在 40K 到 128K 之间的 ReAct 模式样本，以及少量 40K 数据以保证稳定性。

4.3.2.3. 代理式强化学习 (Agentic Reinforcement Learning)

为了提升模型在复杂网络环境中进行稳健可靠规划和搜索的能力，应用了一个代理式 RL 框架。以下是原文 Figure 5 的内容，展示了代理式强化学习框架概述：

Figure 5: An overview of our agentic reinforcement learning framework. 该图像是一个示意图，展示了自动合成数据的框架，包含异步回放服务、回放工作者、轨迹收集和奖励服务等组成部分。图中同时表示了模拟环境与真实环境的结合，以及相应的操作与观测流程。

图 5: 我们的代理式强化学习框架概述。

在该框架中，模型生成一次完整的任务尝试（一个“推演 (rollout)”），如果其最终答案与真值 (ground truth) 匹配，则会收到奖励 (RLVR)。在整个代理式 RL 过程中，模型不断与环境（模拟或真实世界）交互，每次迭代都会反复调整其策略，反过来，又利用改进后的策略来整理一套新的、更高质量的训练数据。

真实世界环境 (Real-world Environment)：
- 智能体的工具包是一个集成了多个专门工具的复杂系统：(1) Search (搜索), (2) Visit (访问), (3) Python Interpreter (Python 解释器), (4) Google Scholar (谷歌学术), (5) File Parser (文件解析器)。
- 这个系统的端到端可靠性至关重要。外部 API 固有的不稳定性（包括高延迟、不准确的响应和数据污染）使得诊断性能问题变得几乎不可能，模糊了是智能体策略的弱点还是环境本身的不稳定性导致了糟糕的结果。
- 为了确保在智能体训练和评估期间工具使用的可靠性，开发了一个统一沙盒 (unified sandbox)。这个接口围绕一个中央调度和管理层构建，负责协调每次工具调用。
- 对于每个工具，都实现了稳健的并发控制和容错机制，例如主动的 QPS 速率限制、结果缓存、自动超时重试协议、非关键故障的优雅降级以及无缝故障转移到备份数据源（例如，备份搜索 API）。这种设计将工具调用抽象为智能体的确定性 (deterministic) 和稳定接口，从而使训练循环与真实世界的不确定性隔离，同时显著降低了运营成本。
模拟环境 (Simulated Environment)：
- 直接使用真实世界网络环境 API 存在许多实际问题。
- 首先，构建了一个基于 2024 年维基百科数据库的离线环境，并开发了一套本地 RAG 工具来模拟网络环境。
- 然后，重用数据合成流水线来创建专门针对此离线环境的高质量、结构复杂的问答数据。
- 这提供了一个低成本、高效率、完全可控的平台，能够进行高频、快速的实验，从而极大地加速了开发和迭代过程。
在策略异步推演框架 (On-Policy Asynchronous Rollout Framework)：
- 代理式推演的迭代性质（需要与环境进行大量交互）造成了显著的瓶颈，减缓了整个 RL 训练过程。
- 为了克服这一问题，实现了一个基于 rLLM 框架 (Tan 等人，2025) 的自定义、步骤级异步 RL 训练循环。
- 解决方案使用了两个独立的异步在线服务器，一个用于模型推理，另一个用于工具调用。一个集中式交互处理程序然后处理两者的输出，将反馈格式化为一个统一的消息列表。
- 这种架构允许多个智能体实例并行地与环境交互，每个实例独立完成其推演。
RL 训练算法： RL 算法是 GRPO (Shao 等人，2024) 的定制化改编： $\begin{array}{r l} \mathcal{I}(\boldsymbol{\theta}) = & \mathbb{E}_{(\boldsymbol{q}, \boldsymbol{y}) \sim \mathcal{D}, \{\mathcal{H}_i^i\}_{i=1}^G \sim \pi_{\theta_{\mathrm{old}}}(\cdot \vert context)} \\ & \left[ \frac{1}{\sum_{i=1}^G \vert \mathcal{H}^i \vert} \sum_{i=1}^G \sum_{j=1}^{\vert \mathcal{H}^i \vert} \operatorname{min}\left( r_{i,j}(\boldsymbol{\theta}) \hat{A}_{i,j}, ~ \mathrm{clip}\left( r_{i,j}(\boldsymbol{\theta}), 1 - \varepsilon_{low}, 1 + \varepsilon_{high} \right) \hat{A}_{i,j} \right) \right], \end{array}$ 其中，
- $(\boldsymbol{q}, \boldsymbol{y})$ 是问答对。
- $r_{i,j}(\theta)$ 是重要性采样比 (importance sampling ratio)，对于严格的在策略训练 (on-policy training) 保持 1.0。
- $\hat{A}_{i,j}$ 是在词元 $j$ 处的优势 (advantage) 估计器。
- $r_{i,j}(\theta) = \frac{\pi_{\theta}(\mathcal{H}^{i,j} \mid context)}{\pi_{\theta_{\mathrm{old}}}(\mathcal{H}^{i,j} \mid context)}$ ，表示新策略 $\pi_{\theta}$ 相对于旧策略 $\pi_{\theta_{\mathrm{old}}}$ 在生成轨迹 $\mathcal{H}^{i,j}$ 上的概率比率。
- $\hat{A}_{i,j} = R_i - \mathrm{mean}(\{R_i\}_{i=1}^G)$ ，是优势估计器，其中 $R_i$ 是轨迹 $i$ 的总奖励， $\mathrm{mean}(\{R_i\}_{i=1}^G)$ 是所有轨迹奖励的平均值，用于减少方差。
- $\mathrm{clip}(\cdot, 1 - \varepsilon_{low}, 1 + \varepsilon_{high})$ 函数用于裁剪重要性采样比，将其限制在一个区间内，以保证训练的稳定性，防止策略更新过大。 $\varepsilon_{low}$ 和 $\varepsilon_{high}$ 是裁剪系数。
  
  采用严格的在策略 (on-policy) 方案，轨迹始终使用最新的策略进行采样，确保学习信号始终与模型当前能力相关。奖励是纯粹的 0 或 1 信号，表示答案的正确性。不包括格式奖励（例如，格式正确得 0.1），因为前期的冷启动阶段已确保模型熟悉所需的输出格式。遵循 DAPO (Yu 等人，2025) 的方法，在训练目标中应用了词元级策略梯度损失 (token-level policy gradient loss) 和剪切-更高 (clip-higher) 策略来鼓励更多探索。为了进一步减少优势估计的方差，采用了留一法 (leave-one-out) 策略 (Chen 等人，2025)。此外，在初步实验中观察到，直接优化未经筛选的负推演集会显著降低训练稳定性，并在长时间训练后导致策略崩溃。为了缓解这种情况，选择性地从损失计算中排除了某些负样本。这些修改的目的不是算法新颖性，而是务实地追求更高效和稳定的训练范式。
自动数据管理 (Automatic Data Curation)：
- 在实时优化数据，在训练动态的指导下，通过自我探索泛化到分布外 (out-of-distribution) 场景。这种优化通过一个完全自动化的数据过滤流水线实现，该流水线根据改进的策略模型动态调整训练集。
- 具体过程：
  1. 从一个大型数据集 $\mathcal{D}$ 开始。
  2. 使用初始 SFT 模型作为基线策略，为每个问题采样多个解决方案尝试（即推演）。
  3. 通过过滤掉模型总是失败或总是成功的问题，创建一个初始训练集 $\mathcal{D}'$ ，因为这些问题不会为 RL 训练提供学习信号。这留下了一个中等难度的问题子集。
  4. 在 RL 训练期间，持续监控 $\mathcal{D}'$ 中的问题，通过其最新的推演来判断它们是否对改进后的策略模型来说变得过于容易。
  5. 同时，一个单独的进程使用策略模型的中间检查点，从整个原始数据集 $\mathcal{D}$ 中采样。这个后台进程识别并收集一个新的问题备用池，这些问题对于现在更强的模型来说已变得中等难度。
  6. 当训练达到一定的步骤计数或奖励趋于平稳时，通过移除已掌握的问题并从备用池中纳入新的、有挑战性的问题来刷新活跃的训练集 $\mathcal{D}'$ 。
- 整个数据过滤和刷新流水线独立运行，从不中断主 RL 训练循环。这种设计使得策略模型及其训练数据能够自动演进，确保始终保持高训练效率和稳定性。

4.3.3. 模型合并 (Model Merging)

在流水线的最后阶段采用了模型合并。这种方法基于一个关键洞察：当不同的模型变体源自同一个预训练模型时，它们的参数可以通过平均或插值有效地结合起来。

具体过程： 选择几个源自相同基础模型但具有不同能力偏好的模型变体。然后通过计算它们的参数的加权平均值来创建最终的合并模型： $\boldsymbol{\theta}_{\mathrm{merged}} = \sum_k \alpha_k \cdot \boldsymbol{\theta}^{(k)}, \quad \mathrm{s.t.} \sum_k \alpha_k = 1, \alpha_k \geq 0.$ 其中 $\boldsymbol{\theta}^{(k)}$ 表示第 $k$ 个模型变体的参数， $\alpha_k$ 是其对应的合并权重。
优势： 经验表明，这种插值策略不仅保留了每个贡献模型的核心优势，而且赋予了合并模型强大的泛化能力。在需要综合这些不同能力的复杂场景中，合并模型在各自的优势领域表现与最佳源模型相当，而且不产生额外的优化成本。

5. 实验设置

5.1. 数据集

Tongyi DeepResearch 在七个公共信息寻求基准测试上进行了评估，这些基准测试涵盖了长周期推理和长周期工具使用。

Humanity's Last Exam (HLE)： (Phan 等人，2025) 一个旨在评估通用人工智能的综合性基准，包含需要深度理解和多步骤推理的问题。本文评估了其中的 2,154 个纯文本问题。
BrowseComp 和 BrowseComp-ZH： (Wei 等人，2025; Zhou 等人，2025) 针对浏览智能体的基准测试，评估智能体在网页上导航、信息提取和综合的能力。其中 BrowseComp-ZH 是其中文版本。
GAIA： (Mialon 等人，2023) 一个用于评估通用 AI 助手的基准，通常涉及多模态和需要外部工具协助的任务。
xbench-DeepSearch 和 xbench-DeepSearch-2510： (Xbench Team, 2025) 专门为深度搜索设计的基准，评估智能体执行复杂搜索任务和信息综合的能力。xbench-DeepSearch-2510 是其更新版本。
WebWalkerQA： (Wu 等人，2025b) 评估 LLM 在网络遍历 (web traversal) 任务中的能力，即如何在网页之间导航以回答问题。
FRAMES： (Krishna 等人，2025) 一个统一评估检索增强生成 (retrieval-augmented generation) 的基准，涉及事实提取、检索和推理。

此外，还在三个通用基准上进行了评估：
AIME25 和 HMMT25： (OpenAI, 2025c) 通常是数学推理相关的基准测试，评估模型解决复杂数学问题的能力。
SimpleQA： (OpenAI, 2025c) 一个知识密集型问答基准，评估模型检索和回答事实性问题的能力。

数据集样本示例： 在 Post-training Synthetic Data Case 部分提供了合成数据的问答示例，这些问题展示了合成数据的复杂性和超人类水平：

问题示例 1 (高质量、高不确定性、超人类问答对):

A military officer, who also served as governor in a western North American territory, commanded a mounted infantry unit during a period of significant mineral discovery in the region. His official report on the discovery prompted the minting of a special commemorative coin in a certain year in the mid-19th century. During that same year, the unit he commanded was involved in a military conflict against a neighboring country. Just over a decade later, this unit was officially redesignated and would be assigned to a new division in the early 1920s. In the 1930s, this redesignated regiment was involved in an organizational swap. Which other regiment was it exchanged for?

答案: 12th Cavalry Regiment

问题示例 2 (高质量、高不确定性、超人类问答对):

An 18th-century travelogue, later adapted for a radio series, describes a port town in southeastern England as notable for its rampant illicit trade. This town was also the home of a 16th-century gentleman whose murder led to his wife's execution. Centuries later, another resident of the same town was granted letters patent providing special commercial privileges in a particular year of the early 19th century. During that same year, a collector, whose large collection of manuscript poems was later auctioned, secured a patent for a method of grinding inks. In that year, a patent of nobility was issued to a German family; what is the German term for the princely status it conferred?

答案: Fürstenstand

问题示例 3 (博士级研究问题):

In trisilylamine $(\mathbb{N}(\mathbb{S}\mathrm{i}\mathtt{H}_3)_3)$ , the Si-N bond length is $1.736 \mathrm{~\AA~}$ . Substituting one silyl group with methyl to form $(\mathrm{CH}_3)\mathtt{N}(\mathtt{S}\mathrm{i}\mathtt{H}_3)_2$ elongates the Si-N bond to 1.752 $\breve{\tt A}$ . Calculate the percentage increase in bond length due to diminished hyperconjugation, and identify which specific orbital interaction weakens most significantly. Use covalent radii: $\mathsf{S}\mathrm{i}\mathsf{=}\dot{1}\ldots 11\mathrm{~\AA~}$ , $\scriptstyle \mathtt{N=0}.70\mathrm{~\AA~}$ , $\scriptstyle \mathtt{C=0}.77\mathrm{~\AA~}$ .

答案: n → σiC

这些示例表明，数据集不仅包含了多跳推理和交叉引用信息的问题，还包含了需要特定领域知识（如化学）和计算能力的博士级别问题，验证了合成数据能够达到极高的复杂度和专业水平。

5.2. 评估指标

论文主要采用最终答案正确性作为评估指标。对于不同的基准测试，具体评估方式略有不同：

Avg@3 (Average over 3 runs)： 表示在独立运行 3 次后，模型性能的平均值。这是论文报告的主要指标，用于衡量模型在动态复杂环境中的稳健性和一致性。
Pass@1 (Best result over 3 runs)： 表示在 3 次运行中取得的最佳结果。
Pass@3： 表示在 3 次运行中，至少有 1 次成功解决任务的概率（有时也指 3 次运行的平均成功率，具体取决于上下文，本文中更倾向于前者，即“能通过”的潜力）。

对于不同的基准，采用了不同的评估模型：
GAIA 和 WebWalkerQA： 使用 Qwen2.5-72B-Instruct 作为评判模型。
xbench-DeepSearch 和 xbench-DeepSearch-2510： 使用 Gemini-2.0-Flash-001 作为评判模型。
BrowseComp 和 BrowseComp-ZH： 使用 GPT-4o-2024-08-06 作为评判模型。
Humanity's Last Exam： 评估 2,154 个纯文本问题，使用 GPT-3-mini 作为评估器。

对于通用基准：
AIME25 和 HMMT25 (数学问题)： 由于系统输出详细报告且数据集规模相对较小，采用人工评估以确保准确性和公平性。
SimpleQA (知识密集型问题)： 采用其官方评估脚本来保持与既定基准的一致性。

评估指标概念定义、公式及符号解释： 由于论文并未给出这些评估指标的详细数学公式，这里根据其通用定义进行补足。这些指标通常衡量任务完成的成功率。

准确率 (Accuracy)
- 概念定义： 准确率衡量模型正确回答或解决任务的比例。对于二元分类（成功/失败）任务，它表示所有预测正确的样本占总样本数的比例。在代理任务中，通常指最终答案与真值完全匹配的任务所占的百分比。
- 数学公式： $\mathrm{Accuracy} = \frac{\text{Number of Correct Answers}}{\text{Total Number of Questions}}$
- 符号解释：
  - $\text{Number of Correct Answers}$ ：模型给出正确答案的问题数量。
  - $\text{Total Number of Questions}$ ：总问题数量。
Avg@K (Average Success Rate over K runs)
- 概念定义： 指在 K 次独立运行（或尝试）中，模型在特定任务上获得成功的平均概率。这通常用于评估模型在具有一定随机性或动态环境中的平均性能。
- 数学公式： $\mathrm{Avg@K} = \frac{1}{K} \sum_{i=1}^{K} \mathrm{Success}_i$ 其中， $\mathrm{Success}_i$ 是一个二元变量，如果第 $i$ 次运行成功则为 1，否则为 0。
- 符号解释：
  - $\mathrm{Avg@K}$ ：在 K 次运行中的平均成功率。
  - $K$ ：独立运行的次数，本文中 $K=3$ 。
  - $\mathrm{Success}_i$ ：第 $i$ 次运行的成功指示器（1 表示成功，0 表示失败）。
Pass@1 (Success Rate of the Best Run)
- 概念定义： 指在 K 次独立运行中，模型在至少一次运行中取得成功的概率。或者，在 K 次运行中，取最好的那一次运行的结果。本文中更倾向于“3次运行中的最佳结果”。
- 数学公式： $\mathrm{Pass@1} = \mathrm{MaxSuccessRate}$ 如果指最佳结果，则简单取几次运行中最好的那次准确率。如果指 K 次中至少成功 1 次的概率，则可以表示为 $1 - \prod_{i=1}^{K} (1 - \mathrm{SuccessRate}_i)$ 。但本文的上下文更可能是指 K 次运行中最高的那次成功率。
- 符号解释：
  - $\mathrm{Pass@1}$ ：K 次运行中的最佳成功率。
  - $\mathrm{MaxSuccessRate}$ ：K 次运行中，最高的单次运行成功率。
Pass@K (Success Rate over K runs)
- 概念定义： 本文的 Pass@3 指的是在 3 次运行中，至少有一次成功完成任务的概率。这反映了模型在多次尝试下的潜在能力。
- 数学公式： $\mathrm{Pass@K} = 1 - \prod_{i=1}^{K} (1 - \mathrm{SuccessRate}_i)$ 其中 $\mathrm{SuccessRate}_i$ 为第 $i$ 次独立运行的成功率（例如，如果任务是二元判断，则为 0 或 1）。
- 符号解释：
  - $\mathrm{Pass@K}$ ：在 K 次运行中，至少有一次成功的概率。
  - $K$ ：独立运行的次数，本文中 $K=3$ 。
  - $\mathrm{SuccessRate}_i$ ：第 $i$ 次运行的成功率。

5.3. 对比基线

论文将 Tongyi DeepResearch 与两类广泛的系统进行了比较：

基于 LLM 的 ReAct 智能体 (LLM-based ReAct agents)：
- GLM-4.5 (Zeng 等人，2025)
- Kimi-K2 (Team 等人，2025)
- DeepSeek-V3.1 (DeepSeek Team, 2025)
- Claude-4-Sonnet (anthropic, 2025)
- OpenAI o3 (OpenAI, 2025b)
- OpenAI o4-mini (OpenAI, 2025b) 这些基线代表了当前主流的、采用 ReAct 或类似框架、能够进行多步推理和工具使用的 LLM。
端到端深度研究智能体 (End-to-end deep-research agents)：
- OpenAI DeepResearch (OpenAI, 2025a)
- Gemini DeepResearch (Gemini Team, 2025)
- Kimi Researcher (Kimi, 2025) 这些基线是专门为深度研究任务设计的，通常是闭源的、综合能力更强的系统。

推理参数设置：

温度 (temperature)：0.85
重复惩罚 (repetition penalty)：1.1
Top-p：0.95
每次任务允许的最大工具调用次数：128
上下文长度限制：128K 词元

所有结果均在 2025 年 9 月 16 日获取，除了 xbench-DeepSearch-2510 的结果是在 2025 年 10 月 28 日获取。

6. 实验结果与分析

6.1. 核心结果分析

Tongyi DeepResearch 在多个深度研究基准测试中取得了最先进的性能，并在大多数评估基准中获得了最高分数，展现了在英语和中文任务上的强大泛化能力。它持续超越了包括 OpenAI o3、DeepSeek-V3.1 和 Gemini DeepResearch 在内的开源和商业系统。

以下是原文 Table 1 的结果：

Benchmarks	Humanity's Last Exam	Browse Comp	Browse Comp-ZH	GAIA	xbench DeepSearch	WebWalker QA	FRAMES
LLM-based ReAct Agent
GLM 4.5	21.2	26.4	37.5	66.0	70.0	65.6	78.9
Kimi K2	18.1	14.1	28.8	57.7	50.0	63.0	72.0
DeepSeek-V3.1	29.8	30.0	49.2	63.1	71.0	61.2	83.7
Claude-4-Sonnet	20.3	12.2	29.1	68.3	65.0	61.7	80.7
OpenAI o3	24.9	49.7	58.1		67.0	71.7	84.0
OpenAI o4-mini	17.7	28.3		60.0
DeepResearch Agent
OpenAI DeepResearch	26.6	51.5	42.9	67.4
Gemini DeepResearch	26.9
Kimi Researcher	26.9				69.0		78.8
Tongyi DeepResearch (30B-A3B)	32.9	43.4	46.7	70.9	75.0	72.2	90.6

表 1: 各基准测试的性能比较。

主要观察：

Humanity's Last Exam： Tongyi DeepResearch 达到 32.9%，显著高于所有基线模型（如 DeepSeek-V3.1 的 29.8%，OpenAI DeepResearch 的 26.6%）。
BrowseComp： 获得 43.4%，虽然略低于 OpenAI DeepResearch 的 51.5% 和 OpenAI o3 的 49.7%，但仍远超其他开源和部分商业模型。
BrowseComp-ZH： 获得 46.7%，表现稳健，但略低于 DeepSeek-V3.1 的 49.2% 和 OpenAI o3 的 58.1%。
GAIA： 取得 70.9%，是所有列出模型中的最高分，超过了 Claude-4-Sonnet 的 68.3% 和 OpenAI DeepResearch 的 67.4%。
xbench-DeepSearch： 获得 75.0%，明显领先于 DeepSeek-V3.1 的 71.0% 和 Kimi Researcher 的 69.0%。
WebWalkerQA： 达到 72.2%，略高于 OpenAI o3 的 71.7%，表现出色。
FRAMES： 取得 90.6%，显著高于所有基线模型，包括 DeepSeek-V3.1 的 83.7% 和 OpenAI o3 的 84.0%。

在最新发布的 xbench-DeepSearch-2510 上，Tongyi DeepResearch 的排名仅次于 ChatGPT-5-Pro，这表明其在该领域的前沿竞争力。值得注意的是，这些性能提升是在每词元仅激活 33 亿参数的情况下实现的，这凸显了模型的效率和可扩展性。

以下是原文 Figure 1 的内容，展示了 Tongyi DeepResearch 的基准性能：

Figure 1: Benchmark performance of Tongyi DeepResearch. 该图像是一个图表，展示了Tongyi DeepResearch在多个基准任务上的性能，包括Humanity's Last Exam和BrowseComp等。各任务的平均分数被直观地对比，Tongyi DeepResearch在多个任务中表现出色，标示为最高分。整体性能显示了模型的优越性和有效性。

图 1: Tongyi DeepResearch 的基准性能。

6.1.1. 重型模式 (Heavy Mode)

为了进一步释放深度研究智能体的潜力，论文引入了重型模式 (Heavy Mode)，该模式利用基于上下文管理范式的“研究-合成 (Research-Synthesis)”框架进行测试时扩展 (test-time scaling)。

重型模式的工作原理： 由于深度研究涉及多轮工具调用和密集的推理，直接聚合多条轨迹的上下文计算成本高昂。重型模式通过战略性并行化和合成来解决这一挑战。

并行研究阶段 (Parallel Research Phase)： 部署 $n$ 个并行智能体，每个智能体遵循上下文管理范式，但通过不同的工具使用和推理策略探索多样化的解决方案路径。每个智能体 $u$ 独立处理问题 $q$ 并生成最终报告和答案： $(S_T^u, \mathrm{answer}_u) = \mathrm{Agent}_u(q), \quad u \in [1, n]$ 其中 $S_T^u$ 表示智能体 $u$ 在 $T$ 次迭代后得到的最终报告摘要，以压缩形式封装了完整的推理轨迹。
整合合成阶段 (Integrative Synthesis Phase)： 一个合成模型整合所有并行发现以生成最终答案： $\mathrm{answer}_{\mathrm{final}} = \mathrm{Synthesis}\left( \left\{ \left(S_T^u, \mathrm{answer}_u\right) \right\}_{u=1}^n \right)$ 这种方法的关键优势在于上下文管理报告 $S_T^u$ 的压缩性质。与需要聚合完整轨迹（可能仅 2-3 个智能体就会超出上下文限制）的传统方法不同，我们的方法使得合成模型能够在可管理的上下文窗口内评估 $n$ 种多样化的解决方案策略。每份报告 $S_T^u$ 都保留了必要的推理逻辑和发现，同时丢弃了冗余的中间步骤，从而实现了有效的测试时扩展。

以下是原文 Figure 6 的内容，展示了 Tongyi DeepResearch 重型模式与最先进模型的性能比较：

Figure 6: Performance comparison between Tongyi DeepResearch Heavy Mode and state-of-the-art models. 该图像是图表，展示了Tongyi DeepResearch在多个基准测试上的表现，包括Humanity's Last Exam、BrowseComp和BrowseComp-ZH。图表中的通过率数据表明，Tongyi DeepResearch在这些任务中的表现优于其他对比模型。

图 6: Tongyi DeepResearch 重型模式与最先进模型的性能比较。

重型模式性能分析： 如 Figure 6 所示，重型模式在 Humanity's Last Exam (38.3%) 和 BrowseComp-ZH (58.1%) 上实现了最先进的性能，并在 BrowseComp (58.3%) 上保持高度竞争力。这些显著的改进验证了基于上下文管理的重型模式在通过并行探索和智能聚合来利用测试时计算的有效性。在 Humanity's Last Exam 上，重型模式从 32.9% 提升到 38.3%；在 BrowseComp-ZH 上，从 46.7% 提升到 58.1%。这些提升展示了在测试时通过多智能体协作和信息整合的强大潜力。

6.2. 详细分析

6.2.1. Pass@1 和 Pass@3 性能

鉴于智能体环境的动态和复杂性，论文进一步对 Pass@1（3 次运行中的最佳结果）和 Pass@3 进行了细致分析。

以下是原文 Figure 7 的内容，展示了使用 Avg@3、Pass@1 和 Pass@3 指标的详细评估结果：

$Figure 7: Detailed evaluation results using $\\mathtt { A v g @ } \\varnothing 3$ , Pass `@ 1` and Pass `@ 3` metric.$ 该图像是一个条形图，展示了不同基准测试（如 HLE、BrowseComp、WebWalkerQA 等）在 ext{Avg}@3、ext{Pass}@1 和 ext{Pass}@3 指标上的详细评估结果。每个基准的得分以条形的高度显示，方便比较它们的性能表现。

图 7: 使用 Avg@3、Pass@1 和 Pass@3 指标的详细评估结果。

分析： 尽管评估环境不稳定，但最终的 Avg@3 结果与 Pass@1 结果一致，这证明了深度研究方法的鲁棒性。Pass@3 性能展示了智能体的强大潜力。具体而言，它在 BrowseComp 上达到 59.64%，在 BrowseComp-ZH 上达到 63.67%，在 Humanity's Last Exam 上达到 45.9%。这表明，即使在多次尝试中，模型也有很高的概率成功解决任务，这对于实际应用至关重要。

6.2.2. 训练奖励和熵 (Training Rewards and Entropy)

以下是原文 Figure 8 的内容，展示了代理式强化学习训练的奖励和熵损失：

Figure 8: Reward and entropy loss of agentic RL training. 该图像是一个图表，展示了代理强化学习训练过程中的奖励和熵损失的变化。左侧图表示奖励随着训练步骤的变化情况，右侧图则显示熵损失的变化趋势。两图均包含原始值和经过EMA平滑处理的曲线。

图 8: 代理式强化学习训练的奖励和熵损失。

分析： Figure 8 显示，智能体的性能在训练过程中呈现出清晰而显著的上升趋势，证实了有效的策略学习。这种持续改进的性质强调了动态数据管理 (dynamic data curation) 的成功，它通过不断提供具有挑战性的材料来防止学习停滞。同时，策略熵 (policy entropy) 表现出卓越的稳定性，在短暂的初始增加后收敛到一个一致的值，从而避免了崩溃和爆炸。这一结果为环境设计和算法修改中的方法学贡献提供了强有力的证据，这些贡献共同为卓越稳定和有效的 RL 训练范式创造了必要条件。

6.2.3. RL 的上下文长度 (Context Length of RL)

以下是原文 Figure 9 的内容，展示了 RL 训练中不同上下文长度限制的比较：

Figure 9: Comparison of different context length limits for RL training. 该图像是一个图表，展示了不同上下文长度限制对强化学习训练奖励和平均响应长度的影响。左侧图表显示了不同步骤下的奖励值变化，右侧图表展示了平均响应长度的变化，两图均包含32k、48k和64k的曲线对比。

图 9: RL 训练中不同上下文长度限制的比较。

分析： Figure 9 分析了模型上下文长度对代理式 RL 训练过程的影响，比较了具有 32k、48k 和 64k 上下文限制的模型。值得注意的是，所有三种实验变体的动态数据管理都是使用具有 64k 上下文的模型进行的。

奖励动态 (左图)： 所有三种模型都展示了有效且稳定的策略学习，表现为奖励的单调增加。然而，它们的性能上限存在显著差异，这是数据管理方法预期的结果。由于课程由 64k 上下文模型认为中等难度的问题组成，其中许多问题本质上需要漫长而复杂的推理才能解决。因此，出现了清晰的层次结构：与自身数据完美匹配的 64k 模型获得了最高的奖励。48k 和 32k 模型受到越来越多的限制，无法解决课程中最复杂的问题，从而限制了它们的最高潜在奖励。
训练动态 (右图)： 具有 64k 上下文的模型显示平均响应长度稳步增加，它学习利用其广阔的上下文来构建更精细的解决方案。相反，具有 48k 上下文的模型保持一致的平衡，在稳定的复杂性预算内改进其策略。最令人惊讶的是，具有 32k 上下文的模型显示响应长度呈明显的下降趋势。这一观察提供了一个关键洞察：对于上下文受限的模型，在为能力更强的模型设计的课程上进行 RL 训练可以迫使它发现更高效的解决方案。这种效应的产生是因为动态数据课程由 64k 上下文模型不断更新，这一过程使训练集充满了最佳解决方案可能长于 32k 词元的问题。对于具有 32k 上下文的模型，尝试这些问题很可能导致零奖励信号。这产生了一个强大的隐式激励，促使它发现更简洁、更有力的行动序列，以适应其限制，从而随着时间的推移变得更高效。

6.2.4. 交互测试时扩展 (Interaction Test-time Scaling)

以下是原文 Figure 10 的内容，展示了交互扩展和模拟环境的详细分析：

Figure 10: Detailed analysis on interaction scaling and simulated environments. 该图像是图表，展示了在BrowseComp上交互回合与上下文长度的关系（图a）及在模拟环境中的奖励变化（图b）。图a中，随着上下文长度增加，准确率呈现上升趋势；图b展示了在不同步骤下奖励的变化，呈现出平稳增长的趋势。

图 10: 交互扩展和模拟环境的详细分析。

分析 (Figure 10a)： 与传统模型不同，深度研究智能体主要依靠与环境的交互来获取信息和完成任务。因此，与环境交互的回合数至关重要。虽然推理模型可以通过增加输出词元数量来扩展，但论文的方法沿着不同的维度进行扩展，即环境交互次数。自然地，随着交互次数的增加，智能体从环境中获得更多的观察结果，从而导致更长的上下文。Figure 10a 展示了扩展曲线：随着上下文长度和交互次数的增长，模型在 BrowseComp 数据集上的性能持续改进。这验证了通过更多交互来增强智能体性能的有效性。

6.2.5. 超人类水平合成数据 (Super-human Level Synthetic Data)

为了验证合成数据的有效性，对 SFT 数据集进行了统计分析。

复杂性和丰富性： 超过 20% 的样本超过 32k 词元，涉及 10 次以上的工具调用。这表明合成数据具有高度复杂性和丰富性。
强大基础： 这种高质量的冷启动数据为模型提供了深度推理和研究能力的强大基础，为 RL 阶段提供了出色的初始化。
强化学习阶段： 在强化学习期间，利用自动化数据管理来更有效地利用合成数据。

6.2.6. 从模拟到现实 (From Simulation to Reality)

为了快速验证算法，构建了一个模拟 Wiki 环境来镜像真实世界条件。 分析 (Figure 10b)： 在 Figure 10b 中，测试了在此环境中改编的 GRPO 算法，结果奖励曲线与 Figure 8 中在真实环境中观察到的曲线非常吻合。这个 Wiki 模拟环境提供了类似于“风洞实验室”的功能，实现了快速算法迭代，显著提高了开发效率。这证明了模拟环境的有效性，可以作为真实环境的低成本、高效率替代品，用于算法开发和验证。

6.2.7. 通用基准性能 (Performance on General Benchmark)

以下是原文 Figure 11 的内容，展示了通用基准的性能：

Figure 11: Performance on general benchmarks. 该图像是图表，展示了不同模型在多个基准任务上的性能得分，包括AIME25、HMMT25和SimpleQA。Tongyi DeepResearch在HMMT25和AIME25中均取得了100分的最佳成绩，而在SimpleQA中的得分为98.6。

图 11: 通用基准的性能。

分析： Figure 11 展示了在三个通用基准 (AIME25、HMMT25 和 SimpleQA) 上的评估结果。实验结果表明，Tongyi DeepResearch 比仅依赖推理而不使用任何工具的基础模型有显著改进。

知识密集型任务： 系统可以通过搜索检索外部信息，这对于知识密集型基准（如 SimpleQA 上的 98.6%）特别有效。
数学推理任务： Python Interpreter 工具使得它能够通过原生的计算支持增强数学推理任务的性能（如在 AIME25 和 HMMT25 上达到 100%）。

这表明模型训练越来越多地与智能体训练融合，解决范式正在向整合工具调用和环境交互的代理式架构演变，反映了更像人类的问题解决过程。

7. 总结与思考

7.1. 结论总结

本文介绍了 Tongyi DeepResearch，一个开源的深度研究智能体，它通过将代理式中期训练和后期训练统一到一个可扩展的端到端范式中。通过自动化数据合成和阶段专用环境，该模型学会了自主地规划、搜索、推理和合成信息。尽管其效率高（每词元仅激活 33 亿参数），Tongyi DeepResearch 在多个深度研究基准测试中取得了最先进的成果，超越了强大的专有系统。这项工作为开放、可复现的自主 AI 智能体研究奠定了基础，并标志着朝着更通用、自改进智能迈出了一步。

7.2. 局限性与未来工作

论文作者指出了当前工作的几个局限性：

上下文长度限制： 当前 128K 的上下文长度仍不足以处理最复杂的长周期任务，这促使未来进一步探索扩展上下文窗口或更高级的上下文管理机制。
模型规模： 目前尚未发布更大规模的模型。尽管现有较小规模模型已展现出强大性能，但更大规模的模型正在开发中。
报告生成保真度和用户偏好： 正在持续改进报告生成保真度，并根据用户偏好进行优化，以确保输出更忠实、有用且符合偏好。
强化学习效率： 计划通过探索部分推演 (partial rollouts) 等技术来提高强化学习框架的效率，这将需要解决离策略训练 (off-policy training) 挑战，包括分布偏移 (distributional shift)。
泛化到更广泛的工具使用场景： 当前的深度研究训练侧重于特定的提示指令和预定义工具集。未来计划增强其鲁棒性，并将框架从深度研究扩展到更广泛的代理式工具使用场景。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一个全面且创新的框架，用于构建能够进行深度研究的 AI 智能体，给我带来了以下启发：

分阶段训练的有效性： 代理式中期训练的引入是一个非常关键的创新点。它解决了通用基础模型缺乏代理式归纳偏差的问题，为后续的强化学习提供了更好的起点。这表明在复杂能力学习中，渐进式、有针对性的预训练/中期训练可能比直接进行端到端学习更有效。
合成数据的力量： 论文高度依赖全自动、大规模的合成数据，这解决了高质量代理式数据稀缺的根本问题。尤其是在复杂、多步推理任务中，人工标注几乎不可行。合成数据不仅解决了数据量问题，还能通过设计来注入不确定性、复杂性和特定能力，生成“超人类”水平的数据，推动模型能力上限。这对于未来需要大量高质量、特定领域数据的 AI 任务具有普遍的指导意义。
环境设计的关键作用： 将环境分为先验世界、模拟和真实世界，并根据训练阶段灵活选择，这种策略有效地平衡了训练成本、稳定性和保真度。特别是模拟环境作为“风洞实验室”的概念，对于快速迭代和验证算法至关重要。这强调了在开发复杂智能体时，环境本身的设计和管理与模型架构同样重要。
效率与性能的平衡： Tongyi DeepResearch 在较少的激活参数下达到了最先进的性能，这预示着未来 AI 智能体可能不再单纯追求大模型，而是更注重模型结构、训练范式和数据效率。这对于边缘部署和更广泛的应用场景具有重要意义。
开源的价值： 模型的开源对于加速整个 AI 社区的发展是不可或缺的。它降低了研究门槛，促进了技术交流和创新。

7.3.2. 潜在问题、未经验证的假设或可改进之处

合成数据偏差： 尽管论文强调合成数据可以达到“超人类”水平并减少人工标注偏差，但合成过程本身的偏差（例如，LLM 作为数据生成器可能存在的偏见或生成模式的局限性）仍然可能存在。如何确保合成数据能充分覆盖真实世界的复杂性和多样性，以及如何量化这种偏差，是值得进一步探讨的问题。
“苦涩教训”与 ReAct 的权衡：论文提及 ReAct 框架与“苦涩教训”的对齐，强调通用方法的可扩展性。然而，随着任务复杂度的增加，纯粹的 ReAct 结构是否能一直保持最优，或者是否需要结合更复杂的规划、记忆和反射机制（如重型模式所示），是值得思考的。尤其在长周期任务中，如何有效地进行长期规划和全局优化，ReAct 结构可能仍有局限。
模型合并的鲁棒性： 模型合并策略能有效结合不同模型变体的优势，但其效果可能依赖于选择的模型变体和合并权重。如何系统性地选择最佳变体组合，以及这种合并是否会引入新的不确定性或在某些边缘情况下表现不佳，需要更深入的分析。
环境模拟的真实性差距 (Sim-to-Real Gap)： 模拟环境虽然高效，但始终存在与真实世界的差距。尽管论文强调其模拟环境与真实环境的奖励曲线吻合，但在更复杂的、未预见的真实世界场景中，这种映射关系是否依然成立？如何在模拟环境中训练的模型能更无缝地迁移到真实世界，仍是代理式 AI 的核心挑战。
通用代理的边界： 论文提出了从特定领域智能体向通用智能体演进的愿景。然而，“通用”的定义是什么？一个智能体如何能推理、规划和行动跨越完全不相关的领域，并具有最小的人类监督，这仍然是一个巨大的挑战。目前的深度研究智能体虽然功能强大，但其“研究”的范畴可能仍然相对有限。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。