论文状态:已完成

MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

发表:2001/11/14
原文链接
价格:0.10
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文介绍了MiroThinker v1.0,一种开源研究智能体,通过交互扩展提高推理和信息检索能力。与传统模型扩展不同,MiroThinker利用系统性模型训练处理更密集的智能体-环境交互,经过强化学习在多项基准测试中显著提升性能,展示了交互深度作为新维度的重要性。

论文精读

中文精读

1. 论文基本信息

1.1. 标题

MiroThinker: 通过模型、上下文和交互扩展突破开源研究智能体的性能边界 (MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling)

1.2. 作者

MiroMind Team

1.3. 发表期刊/会议

预印本 (arXiv preprint)。该论文于 2025 年 11 月 13 日发布在 arXiv 上。

1.4. 发表年份

2025

1.5. 摘要

本文介绍了 MiroThinker v1.0,一个开源研究智能体 (open-source research agent),旨在提升工具增强推理 (tool-augmented reasoning) 和信息检索 (information-seeking) 能力。与以往仅通过扩展模型规模 (model size) 或上下文长度 (context length) 的智能体不同,MiroThinker 探索了模型层面的交互扩展 (interaction scaling),即系统性地训练模型以处理更深层次和更频繁的智能体-环境交互,将其作为性能提升的第三个维度。与在隔离环境中操作且可能因更长推理链而性能下降的 LLM 测试时扩展 (test-time scaling) 不同,交互扩展利用环境反馈和外部信息获取来纠正错误并优化轨迹 (trajectories)。通过强化学习 (reinforcement learning),该模型实现了高效的交互扩展:在 256K 的上下文窗口 (context window) 下,它能够每个任务执行多达 600 次工具调用 (tool calls),从而支持持续的多轮推理 (multi-turn reasoning) 和复杂的真实世界研究工作流 (research workflows)。在四个代表性基准测试——GAIA、HLE、BrowseComp 和 BrowseComp-ZH 上,72B 变体分别达到了 81.9%、37.7%、47.1% 和 55.6% 的准确率,超越了先前的开源智能体,并接近了 GPT-5-high 等商业系统。我们的分析表明,MiroThinker 一直受益于交互扩展:研究性能随着模型参与更深层次和更频繁的智能体-环境交互而可预测地提高,这表明交互深度 (interaction depth) 表现出与模型规模和上下文长度相似的扩展行为。这些发现确立了交互扩展作为构建下一代开源研究智能体的第三个关键维度,补充了模型容量 (model capacity) 和上下文窗口。

1.6. 原文链接

原文链接: https://huggingface.co/papers/2511.11793 PDF 链接: https://arxiv.org/pdf/2511.11793.pdf 发布状态:预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

大型语言模型 (LLMs) 的快速发展使得人工智能从静态文本生成器演变为动态的、工具增强的智能体 (tool-augmented agents),能够进行推理并与现实世界交互。在这一新兴范式中,研究能力已成为智能的新前沿。实现研究级别的推理不仅需要语言流畅性,还需要制定假设、检索和验证证据以及综合来自不同信息源的洞察的能力。虽然 ChatGPT Agent 和 Claude Research 等专有系统展示了这种能力(例如在文献综述、比较分析和推理驱动的知识发现方面),但它们是闭源的,限制了透明度、可复现性和社区驱动的创新。

开源社区在缩小与专有系统差距方面取得了显著进展。虽然一些开源 LLMs 已内置了搜索、浏览和编码等智能体技能,但它们通常只发布模型权重,缺乏端到端研究推理所需的完整工具集或智能体框架。另一些开源工作则专注于开发专门的研究智能体模型及其工具链和框架,但这些模型通常规模较小,上下文长度和交互深度受限,与领先的商业研究智能体存在明显的性能差距。

因此,论文的核心问题是:如何突破开源研究智能体的性能边界,使其在研究级别的推理能力上匹敌甚至超越专有系统?

2.2. 核心贡献/主要发现

本文提出了 MiroThinker v1.0,一个开源、高性能的研究智能体模型,它在三个关键维度上推动了开源系统的性能边界:

  1. 模型规模 (Model Size):发布了 8B、30B 和 72B 三种规模的变体,以适应不同的计算预算。
  2. 上下文长度 (Context Length):模型配备了 256K 的上下文窗口,显著超越了以往开源模型的限制,支持更长的推理链。
  3. 交互深度 (Interaction Depth) 与交互扩展 (Interactive Scaling):这是本文的核心创新点。MiroThinker 系统性地训练模型处理更深层次、更频繁的智能体-环境交互。通过强化学习,模型能够执行多达 600 次工具调用,实现持续的多轮推理和复杂的真实世界研究工作流。
    • 主要发现:研究性能随着模型参与更深层次和更频繁的智能体-环境交互而可预测地提高,证明交互深度与模型规模和上下文长度一样,是构建下一代开源研究智能体的第三个关键维度。

      主要结果

  • MiroThinker v1.0-72B 在四个代表性基准测试(GAIA、HLE、BrowseComp 和 BrowseComp-ZH)上取得了最先进的开源性能,甚至在某些基准上接近或超越了 GPT-5-high 等商业系统。
    • GAIA:81.9%
    • HLE:37.7%
    • BrowseComp:47.1%
    • BrowseComp-ZH:55.6%
  • 模型表现出强大的多语言推理能力。
  • RL 训练显著增加了智能体-环境交互的数量和深度,从而一致地提高了任务性能。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大型语言模型 (Large Language Models, LLMs)

LLMs 是指参数量巨大,通常基于 Transformer 架构的深度学习模型。它们通过在海量文本数据上进行预训练,学习语言的统计规律和语义信息,从而能够执行文本生成、问答、翻译等多种自然语言处理任务。近年来,LLMs 的能力已经从纯文本生成扩展到复杂的推理和与外部工具的交互。

3.1.2. 智能体 (Agent)

在人工智能领域,智能体是指能够感知环境、进行推理、并采取行动以实现特定目标的实体。LLM 智能体 (LLM Agent) 结合了 LLM 的语言理解和推理能力,并通过工具使用 (tool use) 等方式,使其能够与外部环境进行交互,执行复杂任务。

3.1.3. 工具增强推理 (Tool-Augmented Reasoning)

指 LLM 智能体在推理过程中能够调用外部工具(如搜索引擎、代码解释器、日历等)来获取信息、执行计算或与环境交互,从而克服自身知识和计算的限制,增强推理能力。

3.1.4. 上下文窗口 (Context Window)

LLM 能够同时处理的输入序列的最大长度,通常以词元 (tokens) 数量表示。上下文窗口的长度直接影响模型处理长文本、多轮对话和复杂任务的能力。

3.1.5. 交互扩展 (Interactive Scaling)

本文提出的新概念,指的是通过系统性地训练模型来处理更深层次和更频繁的智能体-环境交互,从而提升智能体性能。它强调智能体在任务执行过程中与环境进行多次迭代、获取反馈、纠正错误和优化策略的能力。

3.1.6. ReAct 范式 (Reasoning and Acting)

ReAct 是一种流行的智能体范式,它将推理 (Reasoning) 和行动 (Acting) 结合起来。智能体在每个步骤中先产生一个思考 (Thought),然后基于思考选择一个行动 (Action)(如调用工具),环境执行行动后返回一个观察 (Observation)。智能体再根据新的观察进行下一个思考,如此循环直到任务完成。这使得智能体能够进行动态推理和规划。

3.2. 前人工作

3.2.1. 智能体基础模型 (Agent Foundation Models, AFMs)

近期的研究越来越强调通过赋予 LLMs 智能体能力来增强其性能,即在复杂环境中自主规划、推理和行动的能力。AFMs 是一种新型的基础模型,它们在基础模型训练阶段就明确地融入了面向智能体的能力,如决策、工具使用和与外部环境的交互。

  • 代表性模型:GPT-5 [1]、Claude-4.5 [7]、Grok-3 [29]、Kimi K2 [2]、MiniMax M2 [3]、GLM-4.6 [4]、DeepSeek-V3.1 [5] 等。
  • 关注点:这些模型主要关注代码和搜索智能体,旨在增强基于工具的问题解决、检索增强推理和自主任务执行能力。

3.2.2. 深度研究模型 (Deep Research Models)

这类模型是专门针对复杂多跳推理 (multi-hop reasoning) 和长上下文、检索密集型任务的 LLM 智能体。它们将动态信息检索 (dynamic information-seeking) 和迭代规划 (iterative planning) 整合到工作流中,从而能够自主获取知识并将其综合成全面的答案。

  • 专有系统:OpenAI Deep Research [24]、Claude Research [9]、Kimi-Researcher [23]、Grok DeepSearch [29] 等,它们通过智能体工具使用和长程推理来深入研究。
  • 开源系统:WebThinker [12]、WebSailor [13]、WebShaper [14]、Tongyi DeepResearch [11] 等利用 LLMs 进行迭代式网页浏览。Cognitive Kernel-Pro [15]、AFM [16]、WebDancer [18]、DeepMiner [17] 等探索了新颖的训练算法和动态记忆机制。
  • 共同趋势:这些工作都指向将 LLMs 发展成为专业的科研助理,结合高级推理和实时信息检索来解决开放式、知识密集型任务。

3.3. 差异化分析

MiroThinker 的核心创新和差异化体现在其对“交互扩展”这一新维度的探索。

  • 现有智能体:主要通过增加模型规模 (model size)(如更大的 LLM 参数量)和上下文长度 (context length)(如更长的输入历史)来提升性能。
  • MiroThinker 的创新:除了模型规模和上下文长度,MiroThinker 还系统地训练模型以处理更深层次和更频繁的智能体-环境交互 (deeper and more frequent agent-environment interactions)。它通过强化学习使模型能够执行多达 600 次工具调用,这远超现有开源模型。这种“交互扩展”不仅仅是简单地允许更多的交互次数,而是通过训练让模型更有效地利用这些交互,从环境反馈中学习并纠正错误,从而提高复杂任务的解决能力。这种方法被证明是性能提升的第三个关键维度,与模型规模和上下文长度并行。

4. 方法论

MiroThinker v1.0 模型是在单智能体设置的 ReAct 范式下开发的。其核心思想是通过迭代的思考 (Thought)、行动 (Action)、观察 (Observation) 循环来解决复杂任务。本文还引入了独特的上下文管理策略,并采用三阶段训练流水线来优化智能体的行为。

4.1. 智能体工作流 (Agentic Workflow)

4.1.1. 公式化 (Formulation)

给定一个查询 qq,智能体在推理、工具调用和观察之间进行迭代循环,直到任务终止。在步骤 tt,智能体维护一个轨迹 HtH_t

Ht={(T1,A1,O1),,(Tt1,At1,Ot1)} H _ { t } = \{ ( T _ { 1 } , A _ { 1 } , O _ { 1 } ) , \dots , ( T _ { t - 1 } , A _ { t - 1 } , O _ { t - 1 } ) \}

其中:

  • TiT_i 表示智能体在第 ii 步的内部思考 (thought)

  • AiA_i 表示智能体在第 ii 步选择的行动 (action)

  • OiO_i 表示智能体在第 ii 步执行行动后从环境获得的观察 (observation)

    思考模型 fθf_\theta 生成一个内部思考上下文 TtT_t

Tt=fθ(q,Ht) T _ { t } = f _ { \theta } ( q , H _ { t } )

其中:

  • fθf_\theta 是智能体的思考模型,参数为 θ\theta

  • qq 是初始查询。

  • HtH_t 是截至当前步骤 tt 的历史轨迹。

    接着,一个行动策略 πθ\pi_\theta 生成一个结构化的工具调用 AtA_t

At=πθ(Ht,Tt) A _ { t } = \pi _ { \theta } ( H _ { t } , T _ { t } )

其中:

  • πθ\pi_\theta 是智能体的行动策略,参数为 θ\theta

  • HtH_t 是历史轨迹。

  • TtT_t 是当前思考。

  • AtA_t 指定要使用哪个外部工具以及如何查询它。

    环境执行该工具调用并返回一个工具响应 OtO_t

Ot=Tool(At) O _ { t } = { \mathrm { T o o l } } ( A _ { t } )

这个响应 OtO_t 被附加到轨迹中,形成下一步的轨迹 Ht+1H_{t+1}

Ht+1=Ht{(Tt,At,Ot)} H _ { t + 1 } = H _ { t } \cup \{ ( T _ { t } , A _ { t } , O _ { t } ) \}

这个“思考-行动-观察” (ReAct) 循环持续进行,直到模型不再输出任何行动(即 At=O\mathbf { \nabla } \cdot \mathbf { A } _ { t } = \mathbb { O } ),此时一个总结阶段会生成最终答案 yy

y=gθ(Ht) y = g _ { \boldsymbol { \theta } } ( H _ { t } )

其中 gθg_\theta 是生成最终答案的模型部分。这种迭代工作流实现了基于外部证据的动态推理,提供了比静态单次 LLMs 更具解释性和适应性的决策能力。

下图(原文 Figure 2)展示了 MiroThinker v1.0 智能体架构的概览,以及一个交互式扩展的上下文管理示例:

Figure 2: Overview of the MiroThinker v1.0 agent architecture. The framework integrates a structured tool interface, i.e., execution environment, file management, and information retrieval, with a simple recency-aware context management to support interactive scaling. On the right, an agentic trajectory example illustrates the recency-based context retention mechanism, where tool outputs from earlier turns are omitted to maintain context efficiency. 该图像是 MiroThinker v1.0 代理架构的示意图,展示了工具接口、上下文管理和交互式扩展的整合。右侧的示例说明了基于最近上下文的保留机制,工具输出的早期结果被省略以提高上下文效率。

4.1.2. 工具接口 (Tool Interface)

为了实现与外部环境的交互,模型配备了一个模块化的工具接口,提供多种功能,使其能够超越纯文本生成的能力。

  • 执行环境 (Execution Environment)

    • 模型使用一个 Linux 沙箱 (sandbox),为命令和代码执行提供隔离的运行时环境。
    • 智能体可以通过 create_sandbox 创建沙箱实例。
    • 在沙箱内,智能体可以执行 shell 命令 (run_command) 或 Python 代码 (run_python_code)。这确保了与系统级资源交互的安全性和灵活性。
  • 文件管理工具 (File Management Tools)

    • 为了在沙箱和外部世界之间移动文件,提供了 upload_file_from_local_to_sandboxdownload_file_from_sandbox_to_local 工具,支持双向文件传输。
    • download_file_from_internet_to_sandbox 工具可以直接从给定 URL 检索远程资产到沙箱中。
  • 信息检索 (Information Retrieval)

    • 对于知识密集型推理,智能体配备了两个检索工具:
      • google_search:一个基于 Google 的网页搜索工具,返回结构化的搜索结果。
      • scrape_and_extract_info:一个网页抓取工具,用于从目标 URL 有条件地提取信息。与简单的网页抓取不同,该工具内部利用一个轻量级 LLM (例如 Qwen3-14B) 来提取智能体在调用时指定的与任务相关的信息。这种机制作为一种高效的上下文管理形式,允许工具将冗长的网页或文档内容浓缩为集中的文本证据,以供后续推理。
    • 注意:为了防止潜在的信息泄露(例如从 HuggingFace 搜索基准测试答案),这些工具已明确禁用对 HuggingFace 的访问。

4.1.3. 上下文管理 (Context Management)

为了高效利用模型的上下文窗口,本文采用了两种策略来管理工具响应,使模型能够在 256K 的上下文窗口内执行多达 600 次工具调用。

  • 基于时近性 (Recency-Based) 的上下文保留: 在标准的 ReAct 范式中,所有工具输出都保留在消息历史中,这通常导致上下文利用效率低下。经验观察表明,后续的行动主要依赖于最近的观察,而不是久远的观察。为了利用这种时近性偏差并提高上下文效率,模型仅保留最近的工具响应,同时保留完整的思考和行动序列。

    给定用于保留工具响应的保留预算 KNK \in \mathbb { N },定义在步骤 tt 时最近响应的索引集 St(K)S_t(K) 为: St(K)={i{1,,t1}itK} S _ { t } ( K ) = \{ i \in \{ 1 , \ldots , t - 1 \} \mid i \geq t - K \} 其中:

    • ii 是历史轨迹中的步骤索引。

    • t-1 是当前步骤之前的最后一个步骤。

    • KK 是保留的最近工具响应的数量。

      通过掩盖 St(K)S_t(K) 之外的工具响应,构建一个时近性过滤后的历史 H^t\widehat { H } _ { t }H^t={(Ti, Ai, O^i)}i=1t1,O^i{Oi,iSt(K),,otherwise, \widehat { H } _ { t } = \left\{ \left( T _ { i } , \ A _ { i } , \ \widehat { O } _ { i } \right) \right\} _ { i = 1 } ^ { t - 1 } , \quad \widehat { O } _ { i } \triangleq \left\{ \begin{array} { l l } { O _ { i } , } & { i \in S _ { t } ( K ) , } \\ { \varnothing , } & { \mathrm { o t h e r w i s e } , } \end{array} \right. 其中:

    • O^i\widehat{O}_i 是过滤后的观察结果。

    • OiO_i 是原始观察结果。

    • \varnothing 表示该早期工具响应已从上下文中省略。

      后续推理在时近性过滤后的历史 H^t\widehat { H } _ { t } 上执行: Tt=fθ(q,H^t),At=πθ(H^t,Tt) T _ { t } = f _ { \theta } ( q , \widehat { H } _ { t } ) , A _ { t } = \pi _ { \theta } ( \widehat { H } _ { t } , T _ { t } ) 接收到新的工具响应 Ot=Tool(At)O _ { t } = \operatorname { Tool } ( A _ { t } ) 后,通过以下方式更新: Ht+1={(T1,A1,O1),,(Tt,At,Ot)},H^t+1=RetainK(Ht+1) H _ { t + 1 } = { \big \{ } { \big ( } T _ { 1 } , A _ { 1 } , O _ { 1 } { \big ) } , \ldots , { \big ( } T _ { t } , A _ { t } , O _ { t } { \big ) } { \big \} } , \qquad { \widehat { H } } _ { t + 1 } = \operatorname { Retain } _ { K } ( H _ { t + 1 } ) 其中 RetainK()\operatorname { Retain } _ { K } ( \cdot ) 应用上述带有预算 KK 的掩码规则。这种基于时近性的保留策略通过优先保留最相关的观察,从而释放额外的上下文空间以支持扩展推理和更深层次的工具使用轨迹。实验发现,这种简单的上下文管理策略作为强大的基线,并不会导致性能下降,反而为模型的交互扩展提供了更多的上下文空间。

  • 结果截断 (Result Truncation): 某些工具(如 run_commandrun_python_code)可能会产生过长的输出,轻易超出模型的上下文。为缓解此问题,超出预定义长度限制的工具响应会被截断,并在末尾附加标签 "[Result truncated]",以表明内容已被缩短。

4.2. 数据构建 (Data Construction)

为了有效训练 MiroThinker,本文构建了一个包含两个主要组成部分的大规模合成数据集:(1) 多文档问答 (MultiDocQA) 合成,以及 (2) 智能体轨迹合成。这两个阶段共同使模型能够获得事实基础 (factual grounding) 和推理能力。

下图(原文 Figure 3)展示了数据构建流程概览:

Figure 3: Overview of the data construction pipeline. Public datasets from platforms such as HuggingFace and GitHub are filtered and verified, while raw internet data are processed through knowledge graph generation and a data engine. The resulting QA pairs from both sources are then converted into agentic trajectories, forming the complete MiroVerse v1.0 dataset used for training MiroThinker v1.0. 该图像是示意图,展示了数据构建流程。公共数据集来源于 Hugging Face 和 GitHub,经过质量筛选和可验证检查,而原始互联网数据则通过概念图生成和数据引擎处理。两者生成的问答对最终转化为代理轨迹,形成用于训练 MiroThinker v1.0 的 MiroVerse v1.0 数据集。

4.2.1. 多文档问答合成 (MultiDocQA Synthesis)

设计了一个问答合成流水线,将相互关联的网页文档转换为复杂的多跳问答对。整个过程分为多个阶段:

  • 文档语料库构建 (Document Corpus Construction)

    • WikipediaCommon Crawl 和精选网页存储库等多样化、高度互联的来源构建文档语料库,这些来源因其丰富的超链接结构和事实可靠性而被选中。
    • 预处理期间,清理文本内容,同时保留超链接,这些超链接构成了构建多文档推理链的基础。
    • 文档通过结合元数据提取和主题建模的混合方法分类到广泛的知识领域中,以便在后续阶段进行类别感知采样。
  • 文档采样和图构建 (Document Sampling and Graph Construction)

    • 从语料库中采样文档节点,同时保持不同类别之间的平衡表示,确保对各种知识领域的全面覆盖,并防止对过度代表主题的偏见。
    • 对于每个采样的种子文档,通过跟随内部超链接构建知识图。具体而言,从每个文档中随机选择一个内部链接,并多次递归重复此过程,以构建一个相关的文档子图。
  • 文档整合 (Document Consolidation)

    • 构建文档图后,将每个文档转换为 markdown 格式并执行链接修剪。移除所有指向所选子图之外文档的超链接,确保整合后的文章仅在当前上下文中保持连贯的引用。
    • 然后将这些预处理的文档连接成一篇全面的文章,涵盖多个相关主题,同时通过保留的内部引用保持逻辑流畅性。
  • 事实提取 (Fact Extraction)

    • 对于构建图中的每个文档,识别与种子文档建立的中心主题相关联的关键事实陈述。这种有针对性的提取过程确保收集到的事实形成一个连贯的知识网络,而不是孤立的信息片段。
    • 优先考虑那些需要跨文档推理才能发现或验证的陈述,从而为无法仅从单一来源回答的问题建立基础。这些提取的事实共同代表了数据集中回答复杂问题所需的多跳知识。
  • 约束混淆 (Constraint Obfuscation)

    • 为了创建具有挑战性的推理场景,系统地混淆提取的事实,将其转换为需要更深层次推理才能解决的间接约束。
    • 混淆策略根据信息类型以不同方式操作:时间性 (temporal) 和空间性 (spatial) 细节被泛化为更广泛的类别(例如,“2023 年 3 月 15 日”泛化为“2020 年代春季”;“巴黎”泛化为“一个欧洲首都”),而其他实体和概念通过使用相关属性或上下文描述的指代间接性来表达。这种转换迫使模型执行多步联想推理,整合来自多个来源的知识,而不是依赖直接的事实检索。
  • 问题生成 (Question Generation)

    • 最后,提示一个大型语言模型通过从事实池中选择和组合多个混淆约束来合成问题。LLM 被指示生成跨越图形不同部分之间链条的问题。这确保了生成的问题需要真正的多跳推理能力,并且不能通过简单的模式匹配或单文档检索来回答。

4.2.2. 智能体轨迹合成 (Agentic Trajectory Synthesis)

为了生成高质量和多样化的智能体轨迹数据,本文设计了一个多层合成框架,整合了多种智能体范式、工具调用机制和最先进的 LLMs。

  • 智能体范式 (Agent Paradigms)

    • ReAct 单智能体 (ReAct Single-Agent) [30]:通过迭代的“思考-行动-观察”循环解决复杂任务。智能体首先分析当前状态并推理下一个行动,然后执行工具调用,最后根据观察更新其内部理解。这种方法特别适用于需要多步推理和自适应决策的任务。
    • MiroFlow 多智能体 (MiroFlow Multi-Agent) [31]:该框架协调多个专业智能体来管理复杂工作流。每个智能体处理不同的子任务或领域,通过结构化协议进行通信。这种范式产生复杂的协作轨迹,展现出劳动分工、协调和涌现的集体推理。
  • 工具调用机制 (Tool Invocation Mechanisms)

    • 函数调用 (Function Calling):一种传统的、结构化的工具调用方法,智能体通过预定义的函数接口与外部工具交互。该方法提供清晰的输入-输出规范,适用于标准化工具使用场景。
    • 模型上下文协议 (Model Context Protocol, MCP):一种更灵活的工具调用协议,使智能体能够通过上下文协商更自然地与工具交互。MCP 支持更复杂的工具组合和动态工具发现,使合成轨迹更接近真实的人机交互模式。
  • 多样化数据合成 (Diverse Data Synthesis)

    • 使用多个领先的 LLMs 来驱动轨迹合成过程,包括 GPT-OSS [32]、DeepSeek-V3.1 [5] 和其他最先进的模型。通过使用多样化的模型生成轨迹,获得了具有不同风格的训练数据,从而缓解了单一模型偏差,并确保了丰富性和覆盖范围。

4.2.3. 开源数据收集 (Open-Source Data Collection)

本文通过补充多样化的开源问答数据集来拓宽覆盖范围并增强推理多样性。

  • 纳入的数据集MuSiQue [33]HotpotQA [34]WebWalkerQASilver [35]MegaScience [36]TaskCraft [37]QA-Expert-Multi-Hop-V1.0 [38]OneGen-TrainDatasetMultiHopQA [39]2WikiMultihopQA [40]WikiTables [41]WebShaper [14]WebDancer [18]Toucan1.5M [42]
  • 处理方式:仅保留这些数据集中的问答对,并通过第 4.2.2 节所述的合成流水线将其转换为智能体轨迹。
  • 通用对话能力:为了保留通用的对话能力,还纳入了训练后的语料库,如 AM-Thinking-v1-Distilled [43]Nemotron-Post-Training-Dataset [44],以提供广泛的推理风格和对话形式覆盖。

4.3. 训练流水线 (Training Pipeline)

MiroThinker 基于开源的 Qwen2.5 和 Qwen3 模型 [6],采用三阶段流水线进行训练:

  1. 监督微调 (Supervised Fine-tuning, SFT):建立基本的智能体行为。
  2. 偏好优化 (Preference Optimization):将决策与任务目标对齐。
  3. 强化学习 (Reinforcement Learning, RL):驱动真实世界环境中的创造性探索和泛化。

4.3.1. 智能体监督微调 (Agentic Supervised Fine-tuning)

第一阶段执行监督微调 (SFT),为 MiroThinker 赋予智能体行为。模型学习模仿涉及多跳推理和工具使用的专家轨迹。

  • SFT 数据集DSFT={(xi,Hi)}i=1N\mathcal { D } _ { \mathrm { SFT } } = \{ ( x _ { i } , H _ { i } ) \} _ { i = 1 } ^ { N },其中 xix_i 是任务指令,而 Hi={(Ti,t,Ai,t,Oi,t)}t=1TiH _ { i } = \{ ( T _ { i , t } , A _ { i , t } , O _ { i , t } ) \} _ { t = 1 } ^ { T _ { i } } 是由思考、行动、观察三元组组成的专家轨迹。
  • 数据清洗:尽管轨迹是使用领先的 LLMs 合成的,但原始轨迹通常包含大量噪声,例如响应内部重复、跨响应重复以及无效调用(如不正确的工具名称或参数)。为缓解这些问题,本文应用了严格的过滤和数据修复程序,以确保最终 SFT 语料库的一致性和可靠性。
  • 训练目标:每个轨迹都被视为用户和智能体之间的多轮对话。用户提供初始任务指令 xx 和随后的工具观察 OtO_t,而智能体产生推理思考 TtT_t 和工具调用 AtA_t。训练期间,不实际执行工具;观察结果是预先记录的,并用作上下文输入。 给定 (x,H)DSFT( x , H ) \sim { \mathcal { D } } _ { \mathrm { SFT } },模型被训练来预测专家的思考和行动序列: LSFT(θ)=E(x,H)[t=1THlogπθ(Tt,Atx,H<t)] \mathcal { L } _ { \mathrm { SFT } } ( \theta ) = - \mathbb { E } _ { ( x , H ) } \left[ \sum _ { { t = 1 } } ^ { T _ { H } } \log \pi _ { \theta } ( T _ { t } , A _ { t } \mid x , H _ { < t } ) \right] 其中:
    • θ\theta 是模型参数。
    • E(x,H)\mathbb{E}_{(x,H)} 表示对 SFT 数据集中的任务指令和专家轨迹对进行期望。
    • THT_H 是轨迹 HH 的总长度。
    • πθ(Tt,Atx,H<t)\pi_\theta(T_t, A_t \mid x, H_{<t}) 是模型在给定初始指令 xx 和历史 H<tH_{<t} 的情况下,预测当前思考 TtT_t 和行动 AtA_t 的概率。 这种公式将智能体的模仿学习与标准对话式 SFT 对齐,其中工具响应被视为用户回合,智能体学习相应地生成下一个推理或工具调用。

4.3.2. 智能体偏好优化 (Agentic Preference Optimization)

第二阶段通过直接偏好优化 (Direct Preference Optimization, DPO) [45] 精炼决策,使用从 SFT 模型合成的偏好数据。

  • 数据收集:构建了一个成对偏好数据集 DPO={(xi,Hi+,Hi)}i=1M\mathcal { D } _ { \mathrm { PO } } = \{ ( x _ { i } , H _ { i } ^ { + } , H _ { i } ^ { - } ) \} _ { i = 1 } ^ { M },其中每个任务指令 xix_i 都与一个首选轨迹 Hi+H _ { i } ^ { + } 和一个非首选轨迹 HiH _ { i } ^ { - } 相关联。每个轨迹代表在思考-行动-观察空间中的完整多步交互。
  • 偏好准则
    • 基于正确性的判断:偏好对主要基于最终答案的正确性构建。与依赖手工启发式规则或固定智能体模式的方法不同,本文避免强加僵化的结构格式,而是依赖答案的正确性来排名偏好,以避免引入系统偏差并阻碍在多样化任务和领域中的可扩展性。
    • 质量控制:严格过滤以确保选择和拒绝轨迹的质量和忠实性。对于一个被选择的样本,推理轨迹必须连贯,包含明确的规划过程,并得出清晰正确的最终答案。对于一个被拒绝的样本,同样要求轨迹产生一个有效的最终答案。此外,还应用了进一步的过滤,仅保留高质量的轨迹。
  • 训练目标:使用 DPO 细化 SFT 模型,并辅以在首选轨迹上的辅助 SFT 损失 [46, 47],以增强稳定性和保持行为一致性。 给定任务指令 xx 和偏好对 (H+,H)( H ^ { + } , H ^ { - } ),DPO 目标鼓励模型为首选轨迹分配更高的似然,同时保持与参考 SFT 模型的接近。DPO 损失 LDPOL_{\mathrm{DPO}} 定义为: LDPO(x,H+,H)=logσ(β[(logπθ(H+x)logπθ(Hx))(logπref(H+x)logπref(Hx))]) L _ { \mathrm { DPO } } ( x , H ^ { + } , H ^ { - } ) = - \log \sigma \big ( \beta \big [ ( \log \pi _ { \theta } ( H ^ { + } | x ) - \log \pi _ { \theta } ( H ^ { - } | x ) \big ) - ( \log \pi _ { \mathrm { r e f } } ( H ^ { + } | x ) - \log \pi _ { \mathrm { r e f } } ( H ^ { - } | x ) ) \big ] \big ) 其中:
    • σ()\sigma(\cdot) 是 Sigmoid 函数。

    • πθ\pi_\theta 是当前模型的策略。

    • πref\pi_{\mathrm{ref}} 是冻结的参考模型(通常是 SFT 阶段的模型)。

    • β\beta 控制与参考模型的偏差强度。

    • logπθ(Hx)\log \pi _ { \theta } ( H | x ) 表示在给定指令 xx 的情况下,模型 πθ\pi_\theta 生成轨迹 HH 的对数似然。

      完整的训练目标将 DPO 损失与应用于首选样本的 SFT 损失结合: LPO(θ)=E(x,H+,H)[LDPO(x,H+,H)]+λLSFT(+)(θ) \mathcal { L } _ { \mathtt { PO } } ( \theta ) = \mathbb { E } _ { ( x , H ^ { + } , H ^ { - } ) } [ L _ { \mathrm { DPO } } ( x , H ^ { + } , H ^ { - } ) ] + \lambda \mathcal { L } _ { \mathtt { SFT } } ^ { ( + ) } ( \theta ) 其中:

    • LSFT(+)(θ)\mathcal { L } _ { \mathtt { SFT } } ^ { ( + ) } ( \theta ) 表示应用于首选样本的 SFT 损失。

    • λ\lambda 控制 SFT 损失的权重。

4.3.3. 智能体强化学习 (Agentic Reinforcement Learning)

最终阶段利用强化学习,使智能体能够通过直接交互和探索发现创造性解决方案并适应多样的真实世界环境。本文采用了组相对策略优化 (Group Relative Policy Optimization, GRPO) [48],并使用 rollout 轨迹进行完全在线策略训练,策略模型只更新一次。

下图(原文 Figure 4)展示了 MiroThinker-v1.0-30B 在 GRPO 智能体强化学习中的训练动态:

Figure 4: Training dynamics of MiroThinker-v1.0-30B for GRPO Agentic RL. Since the RL environment i not exactly the same as the final evaluation environment, there will be slight differences in performance. 该图像是图表,展示了 MiroThinker-v1.0-30B 在训练步骤中的动态表现。图 (a) 显示了训练奖励随步骤变化的趋势,图 (b) 则展现了在 GAIA-Text-103 上的验证准确率如何随着训练步骤逐渐上升,强调了模型的有效性与逐步提升的性能。

  • 环境设置 (Environment Setup)

    • 构建了一套可扩展的环境,能够支持数千个并发的智能体 rollout (推演/模拟),包括实时多源搜索、网页抓取和摘要、Python 代码执行以及 Linux VM 操作。
    • 还构建了一个强大且知识渊博的 LLM 评分系统,用于低延迟地验证有噪声的智能体预测与真值答案。
  • 流式 Rollout 加速 (Streaming Rollout Acceleration)

    • 与数学或推理等单轮强化学习任务不同,智能体强化学习需要 LLMs 和环境之间的多轮往复,导致不同轨迹的完成时间呈现重尾分布。MiroThinkers 能够与环境交互数百轮,进一步加剧了这种重尾问题。
    • 实施了一种 rollout 机制,其中每个智能体工作器以流式方式从任务队列接收提示,直到为该批次收集到足够的完成轨迹。所有未完成的任务都会被推回任务队列,等待下一次迭代。
  • 奖励设计 (Reward Design): 轨迹 H={(Tt,At,Ot)}t=1THH = \{ ( T _ { t } , A _ { t } , O _ { t } ) \} _ { t = 1 } ^ { T _ { H } } 在给定问题 xx 的奖励函数 R ( x , H ) 结合了多个组成部分: R(x,H)=αcRcorrect(H)αfRformat(H) R ( x , H ) = \alpha _ { c } R _ { \mathrm { c o r r e c t } } ( H ) - \alpha _ { f } R _ { \mathrm { f o r m a t } } ( H ) 其中:

    • Rcorrect(H)R _ { \mathrm { c o rrect } } ( H ) 衡量解决方案的正确性。
    • Rformat(H)R _ { \mathrm { format } } ( H ) 惩罚模型未能遵循格式指令。
    • 系数 {αc,αf}\{ \alpha _ { c } , \alpha _ { f } \} 用于平衡对新解决方案的持续探索能力和指令遵循能力。
  • 轨迹剪枝 (Trajectory Curation)

    • 为了确保强化学习的高质量学习,实施了一个全面的轨迹剪枝流水线,以移除嘈杂的正确轨迹和琐碎不正确的轨迹。
    • 对于正确轨迹,过滤掉表现出病态行为的样本,例如连续的 API 调用失败(例如,超过 5 次连续的网络异常)、对相同行动的冗余重试,或过度的环境超时错误。因为这些模式不反映真正的解决问题策略,而是环境遗漏(如缺少所需的答案格式)或表现出退化行为(如行动重复循环或在没有有意义探索的情况下过早终止)。
  • 训练目标 (Training Objective)GRPO 通过对每个提示采样多条轨迹,并计算相对于组平均值的优势来优化策略。 对于每个提示 xx,从当前策略 πθ\pi _ { \theta } 中采样一组 GG 条轨迹 {H1,,HG}\{ H _ { 1 } , \dots , H _ { G } \},其中 Hi={(Ti,t,Ai,t,Oi,t~)}t=1T^iH _ { i } = \{ ( T _ { i , t } , A _ { i , t } , \tilde { O _ { i , t } } ) \} _ { t = 1 } ^ { \hat { T } _ { i } }。 轨迹 HiH_i 的优势 A^i\hat{A}_i 计算为: A^i=R(x,Hi)1Gj=1GR(x,Hj) \hat { A } _ { i } = R ( x , H _ { i } ) - \frac { 1 } { G } \sum _ { j = 1 } ^ { G } R ( x , H _ { j } ) 其中:

    • R(x,Hi)R(x, H_i) 是轨迹 HiH_i 的奖励。

    • 1Gj=1GR(x,Hj)\frac { 1 } { G } \sum _ { j = 1 } ^ { G } R ( x , H _ { j } ) 是该组中所有轨迹的平均奖励。

      GRPO 目标在最大化预期优势的同时,保持与参考策略的接近性: LGRPO(θ)=ExDEHπθ(x)[A^(x,H)logπθ(Hx)βKLDKL(πθ(x)πref(x))] \mathcal { L } _ { \mathrm { G R P O } } ( \theta ) = \mathbb { E } _ { x \sim \mathcal { D } } \mathbb { E } _ { H \sim \pi _ { \theta } ( \cdot \vert x ) } \left[ \hat { A } ( x , H ) \cdot \log \pi _ { \theta } ( H \mid x ) - \beta _ { \mathrm { K L } } \cdot D _ { \mathrm { K L } } ( \pi _ { \theta } ( \cdot \mid x ) \parallel \pi _ { \mathrm { r e f } } ( \cdot \mid x ) ) \right] 其中:

    • ExD\mathbb{E}_{x \sim \mathcal{D}} 表示对任务分布 D\mathcal{D} 中的提示进行期望。

    • EHπθ(x)\mathbb{E}_{H \sim \pi_\theta(\cdot \mid x)} 表示对当前策略 πθ\pi_\theta 在给定提示 xx 下生成的轨迹进行期望。

    • A^(x,H)\hat{A}(x,H) 是轨迹 HH 的优势。

    • logπθ(Hx)\log \pi_\theta(H \mid x) 是轨迹 HH 在策略 πθ\pi_\theta 下的对数似然。

    • πref\pi_{\mathrm{ref}} 是参考策略(通常是偏好优化检查点)。

    • βKL\beta_{\mathrm{KL}} 控制 KL 惩罚的强度。

    • DKL(πθ(x)πref(x))D _ { \mathrm { K L } } ( \pi _ { \theta } ( \cdot \mid x ) \parallel \pi _ { \mathrm { r e f } } ( \cdot \mid x ) ) 是当前策略 πθ\pi_\theta 和参考策略 πref\pi_{\mathrm{ref}} 之间的 KL 散度,用于限制策略更新的幅度,防止策略偏离太多。

5. 实验设置

5.1. 数据集

MiroThinker v1.0 模型以 Qwen2.5 和 Qwen3 模型 [6] 作为初始化。训练完成后,在多样化的智能体基准套件上进行评估。

  • 评估基准

    • Humanity's Last Exam (HLE) [27]:一个极具挑战性的基准。
    • BrowseComp [25]BrowseComp-ZH [26]:分别针对英语和中文的浏览智能体基准。
    • GAIA [28]:一个通用 AI 助手基准。
    • xBench-DeepSearch [51]:专注于深度搜索能力的基准。
    • WebWalkerQA [35]:评估网络遍历能力的基准。
    • FRAMES [52]:评估检索增强生成 (Retrieval-Augmented Generation, RAG) 的统一评估基准。
    • SEAL-0 [53]:针对搜索增强语言模型中推理能力的基准。
  • 数据特点

    • 为了与之前的研究进行公平比较,HLE 使用了 2,158 个仅文本子集,GAIA 使用了 103 个仅文本子集。
    • 对于其他基准,报告模型在完整测试集上的表现。
    • 注意:为了防止潜在的信息泄露(例如从 HuggingFace 搜索基准答案),这些工具已明确禁用对 HuggingFace 的访问。

5.2. 评估指标

论文中所有基准测试的结果均使用简单的 ReAct 风格智能体报告,以充分展示 MiroThinker 的能力。

  • 统一推理设置:为了保证稳定性和可复现性,采用了固定的推理设置:
    • temperature=1.0temperature = 1.0
    • topp=0.95top_p = 0.95
    • maximumturns=600maximum turns = 600
    • contextlength=256Ktokenscontext length = 256K tokens
    • maximumoutputlength=16,384tokensmaximum output length = 16,384 tokens
  • 上下文管理:保留预算 (retention budget) 设置为 5。这意味着在上下文管理中,模型会保留最近 5 个工具响应。
  • 结果报告:对于每个基准,报告了平均分数和误差范围,以最小化智能体-环境交互随机性对性能评估的影响。
    • HLE、BrowseComp、BrowseComp-ZH、WebWalkerQA 和 FRAMES 使用 avg@3(3 次独立运行的平均分)。
    • GAIA、xbench-DeepSearch 和 SEAL-0 使用 avg@8(8 次独立运行的平均分)。
  • 评估方式:所有基准测试性能均使用 LLM-as-a-Judge (LLM 作为评判者) 进行评估。具体来说:
    • GAIA、WebWalkerQA、xBench-DeepSearch、BrowseComp 和 BrowseComp-ZH 使用 gpt-4.1-2025-04-14 进行评判。

    • Humanity's Last Exam 遵循其官方设置,使用 03-mini-2025-01-31 进行评判。

      本文的评估指标主要是准确率 (Accuracy)准确率 (Accuracy)

  1. 概念定义 (Conceptual Definition): 准确率衡量模型在给定任务中正确做出预测或回答问题的比例。对于问答任务,它通常指模型给出的答案与真实答案完全匹配或在语义上等效的比例。其设计目标是量化模型解决任务的整体能力。
  2. 数学公式 (Mathematical Formula): Accuracy=Number of Correct PredictionsTotal Number of Predictions \text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}
  3. 符号解释 (Symbol Explanation):
    • Number of Correct Predictions\text{Number of Correct Predictions}: 模型在所有预测中正确分类或回答的样本数量。
    • Total Number of Predictions\text{Total Number of Predictions}: 模型进行预测的总样本数量。

5.3. 对比基线

论文将 MiroThinker 与以下两类模型进行了比较:

  • 带有工具的基础模型 (Foundation Models with Tools)

    • GLM-4.6 [4]
    • Minimax-M2 [3]
    • DeepSeek-V3.1 [5]
    • DeepSeek-V3.2 [5]
    • Kimi-K2-0905 [2]
    • Claude-4-Sonnet [7]
    • Claude-4.5-Sonnet [7]
    • OpenAI-o3 [49]
    • OpenAI-GPT-5-high [1]
  • 研究智能体 (Research Agents)

    • OpenAI DeepResearch [24]

    • ChatGPT-Agent [8]

    • Kimi-Researcher [23]

    • WebExplorer-8B-RL [21]

    • DeepMiner-32B-RL [17]

    • AFM-32B-RL [16]

    • SFR-DeepResearch-20B [50]

    • Tongyi-DeepResearch-30B [11]

      这些基线模型代表了当前智能体领域最先进的开源和闭源系统,涵盖了不同模型规模、训练方法和智能体能力。通过与这些基线的比较,可以全面评估 MiroThinker 的性能和优势。

6. 实验结果与分析

6.1. 核心结果分析

MiroThinker 在多个基准测试中取得了显著的性能提升,尤其是在开源智能体中达到了新的最先进水平,并且在某些情况下接近甚至超越了专有系统。

关键结果概览

  • GAIA 基准:MiroThinker 达到了 81.9% 的分数,超越了此前领先的 MiniMax-M2 (75.7%) 达 6.2 个百分点。这表明 MiroThinker 在通用 AI 助手任务中拥有卓越的推理能力。

  • Humanity's Last Exam (HLE):MiroThinker 在 HLE 上取得了 37.7% 的分数,甚至比专有模型 GPT-5-high (35.2%) 高出 2.5 个百分点,尽管使用了相同的 Python 和搜索工具集。这凸显了 MiroThinker 在极端复杂任务上的强大解决能力。

  • BrowseComp 和 SEAL-0:分别取得了 47.1% 和 51.0% 的高分,与 OpenAI DeepResearch、OpenAI 03 和 Anthropic Claude 4.5 等先进专有系统不相上下。

  • 多语言能力:在中文基准测试中表现出色,BrowseComp-ZH 达到 55.6%,xbench-DeepSearch 达到 77.8%,创下开源新纪录,证明了其强大的多语言推理能力。

  • 模型规模效应:MiroThinker 的 8B 和 30B 变体在其各自规模类别中也达到了最先进的性能,为社区提供了不同计算预算下的强大深度研究模型。

    这些结果强有力地验证了 MiroThinker 方法的有效性,尤其是其在交互扩展方面的优势。它不仅在多个基准上显著超越了现有开源智能体,而且在某些最复杂的任务上展现出与顶尖商业系统竞争的能力。

6.2. 数据呈现 (表格)

以下是原文 Table 1 的结果:

Benchmarks Humanity's Last Exam Browse Comp Browse Comp-ZH GAIA xbench DeepSearch WebWalker QA FRAMES SEAL-0
Foundation Models with Tools
GLM-4.6 [4] 30.4 45.1 49.5 71.9 70.0
Minimax-M2 [3] 31.8 44.0 48.5 75.7 72.0
DeepSeek-V3.1 [5] 29.8 30.0 49.2 63.1 71.0 61.2 83.7
DeepSeek-V3.2 [5] 27.2 40.1 47.9 63.5 71.0 80.2 38.5
Kimi-K2-0905 [2] 21.7 7.4 22.2 60.2 61.0 58.1 25.2
Claude-4-Sonnet [7] 20.3 12.2 29.1 68.3 64.6 61.7 80.7
Claude-4.5-Sonnet [7] 24.5 19.6 40.8 71.2 66.0 85.0 53.4
OpenAI-o3 [49] 24.9 49.7 58.1 67.0 71.7 84.0 17.1
OpenAI-GPT-5-high [1] 35.2 54.9 65.0 76.4 77.8 51.4
Research Agents
OpenAI DeepResearch [24] 26.6 51.5 42.9 67.4
ChatGPT-Agent [8] 41.6 68.9
Kimi-Researcher [23] 26.9 69.0 78.8 36.0
WebExplorer-8B-RL [21] 17.3 15.7 32.0 50.0 53.7 62.7 75.7
DeepMiner-32B-RL [17] 33.5 40.1 58.7 62.0
AFM-32B-RL [16] 18.0 11.1 55.3 63.0
SFR-DeepResearch-20B [50] 28.7 66.0 82.8
Tongyi-DeepResearch-30B [11] 32.9 43.4 46.7 70.9 75.0 72.2 90.6
MiroThinker-v1.0-8B 21.5±0.4 31.1±1.6 40.2±2.9 66.4±3.2 60.6±3.8 60.6±0.8 80.6±0.5 40.4±2.6
MiroThinker-v1.0-30B 33.4±0.2 41.2±1.3 47.8±1.1 73.5±2.6 70.6±2.2 61.0±0.2 85.4±0.8 46.8±3.2
MiroThinker-v1.0-72B 37.7±0.5 47.1±0.7 55.6±1.1 81.9±1.5 77.8±2.6 62.1±0.6 87.1±0.9 51.0±2.0

6.3. 交互扩展 (Interactive Scaling)

论文深入探讨了强化学习如何重塑智能体-环境交互模式。

下图(原文 Figure Illustration interactive scaling.)展示了交互扩展的图示。

Figure Illustration interactive scaling.Reiforcement learning training leads to substantialrease in the number and depth of agentenvironment interactions, resulting in consistently improved task performance across benchmarks. All results are from MiroThinker-v1.0-30B. 该图像是示意图,展示了四个不同任务(BrowseComp、BrowseComp-ZH、HLE、GAIA)的回合分布和累积分布函数。图中展示了强化学习(RL)和监督微调(SFT)的表现,通过频率和累积概率展示每个任务的回合数变化,以及相应的准确率。所有数据均来源于实验结果。

从上图(原文 Figure 5)可以看出:

  • 经过 RL 微调的 MiroThinker-v1.0-30B 模型比其 SFT 版本在 BrowseCompBrowseComp-ZHHLEGAIA 等基准上表现出更长、更深层次的交互轨迹。

  • 在可验证奖励的引导下,RL 使模型能够探索更详尽的解决方案路径,具有显著更大的交互深度,系统地探测多种策略并验证中间结果,最终得出结论。

  • 这种行为转变与准确性的提高直接相关,平均带来了 8-10 个百分点的提升。

    本文将这种交互深度和性能之间的一致关系称为交互扩展 (interactive scaling):随着工具增强交互的频率和深度增加,研究推理能力也相应提高。这形成了继模型规模和上下文长度之后的第三个扩展维度,定义了 MiroThinker 通向更通用智能体智能的途径。

6.4. 局限性

论文指出了当前版本模型存在的几个局限性,并计划在未来的更新中解决这些问题:

  • 交互扩展下工具使用质量:交互扩展虽然能够实现更丰富、更复杂的工具交互,但也暴露了工具使用质量的局限性。RL 微调的模型比 SFT 模型更频繁地调用外部工具,但其中一部分调用产生的贡献很小或冗余。这表明虽然扩展提高了智能体性能,但仍需要进一步优化以提高工具使用效率和行动质量。

  • 过长的思维链 (Chain-of-Thought):强化学习倾向于鼓励模型生成更长的响应以提高准确性,这可能导致过长、重复且可读性较差的推理链。这反过来会减慢任务完成速度并降低用户体验。

  • 语言混合 (Language Mixing):对于非英语输入,模型的响应可能出现多语言混合。例如,当用户查询是中文时,模型的内部推理或中间输出可能包含英语和中文元素的混合,这可能导致中文任务性能不佳。

  • 有限的沙箱能力 (Limited Sandbox Capability):模型在使用代码执行和文件管理工具方面尚未完全熟练。它可能偶尔生成导致沙箱超时的代码或命令,或者错误地使用代码执行工具来读取网页或 PDF,这些任务本可以通过专用网页抓取工具更高效地处理。此外,模型有时表现出对沙箱 ID 管理的不熟悉,经常忘记在调用相关操作之前初始化沙箱。

7. 总结与思考

7.1. 结论总结

本文介绍了 MiroThinker v1.0,一个开源的研究智能体,通过模型规模 (model size)上下文长度 (context length)交互深度 (interaction depth) 三个维度共同推动了工具增强推理的边界。最重要的是,MiroThinker 提出了“交互扩展”这一概念,并表明研究能力不仅随着更大的模型或更长的上下文而提高,还随着更深层次和更频繁的智能体-环境交互而提升,这使得模型能够进行错误纠正和知识获取。实验结果证明了交互扩展在各种基准测试中带来可预测的性能增益,从而确立了交互深度作为构建下一代研究智能体的第三个关键轴。MiroThinker 在多个基准测试中超越了现有开源智能体,并在某些复杂任务上达到了与顶尖商业系统匹敌的水平,特别是在中文任务上表现出色。

7.2. 局限性与未来工作

论文作者指出的局限性包括:工具使用效率仍有提升空间(存在冗余调用)、推理链可能过长影响用户体验、非英语任务中可能出现语言混合问题、以及沙箱工具使用尚不熟练(如错误地使用代码执行工具进行网页抓取,或忘记初始化沙箱)。

未来工作方向可能包括:

  • 优化工具使用效率:开发更智能的工具调用策略,减少冗余或低效的工具调用,提高智能体在复杂交互中的行动质量。
  • 精炼思维链:研究方法以生成更简洁、更可读的推理链,同时不牺牲准确性,从而改善用户体验和任务完成速度。
  • 增强多语言支持:改进模型在多语言环境中的表现,特别是解决语言混合问题,确保在非英语任务中也能达到最优性能。
  • 提升沙箱和代码工具熟练度:通过专门的训练和优化,使模型更熟练地使用 Linux 沙箱、代码执行和文件管理工具,避免常见错误,并确保工具的恰当使用。
  • 进一步探索交互扩展机制:深入研究交互深度的机制,例如如何更有效地从环境反馈中学习,以及如何设计更复杂的交互模式来解决开放性问题。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文的核心思想“交互扩展”为 LLM 智能体的发展指明了一个非常重要的方向。以往研究更多关注于模型本身的内部能力(参数量、上下文长度),而 MiroThinker 强调了智能体与外部环境的动态交互所带来的性能飞跃。这与人类解决问题的过程不谋而合:我们并非一次性思考出所有答案,而是通过与环境互动、获取反馈、迭代修正来逐步达成目标。

对我而言,最大的启发是:

  1. 系统级智能体的设计思路:构建一个高性能智能体,不仅仅是训练一个强大的 LLM,更需要一个精巧的智能体工作流、模块化的工具接口、高效的上下文管理,以及多阶段的训练策略(SFT -> DPO -> RL)。这是一个复杂的系统工程。
  2. 强化学习在复杂推理中的潜力RL 不仅可以优化简单的游戏或控制任务,在复杂的、知识密集型的研究任务中,RL 能够引导模型探索更深更广的解决方案空间,从错误中学习,从而实现“创造性探索”和“泛化”。
  3. 开源社区的力量:MiroThinker 作为开源项目,不仅提供了强大的模型和工具,更提供了关于“交互扩展”这一新维度的实践经验,这对于推动整个智能体领域的发展具有重要意义。

7.3.2. 批判

尽管 MiroThinker 取得了令人瞩目的成就,但论文中提及的局限性也提供了一些批判性思考点:

  1. 工具使用效率与“探索成本”:论文提到 RL 训练的模型会更频繁地调用工具,但部分调用是冗余或贡献微小的。这引出一个问题:在真实世界场景中,每次工具调用(特别是涉及外部 API 或计算资源的)都有其成本(时间、金钱、计算资源)。如果智能体为了提高准确率而过度调用工具,是否会带来不可接受的成本?未来的研究需要在这之间找到一个平衡点,可能需要引入工具调用成本感知的奖励机制。

  2. “思维链”的可解释性与效率:过长的、重复的推理链虽然可能提高准确性,但对于需要人工审查或干预的场景来说,这会降低智能体的实用性。人类的有效推理通常是高效且聚焦的。如何让智能体在保持准确性的同时,生成更精炼、更具洞察力的思维链,是一个重要的研究方向。这可能需要更复杂的奖励设计,或者结合人类反馈 (Human Feedback) 来优化推理过程的简洁性。

  3. 沙箱能力的泛化性:模型在使用沙箱工具时仍存在一些基本问题(如忘记初始化),这表明其对“环境状态”和“工具使用前提”的理解可能还不够鲁棒。这在安全关键或高风险的应用中可能是一个严重的问题。这暗示了智能体对工具的“概念理解”和“环境交互常识”还需要进一步增强。

  4. 交互扩展的理论边界:交互扩展被提出作为第三个维度,但其理论上限和收敛性如何?是否存在一个“最优”的交互深度,超过这个深度就会出现边际效益递减甚至负面影响(如陷入循环、过度探索)?这可能需要更严谨的理论分析和大规模实验来探索。

  5. LLM-as-a-Judge 的可靠性:论文在多个基准上使用 LLM-as-a-Judge 进行评估。虽然这在评估智能体复杂输出时是常见的做法,但 LLM-as-a-Judge 本身也存在偏见和不稳定性。如何确保评估的公正性和鲁棒性,仍然是一个开放问题。例如,当评估模型在特定领域(如法律、医学)的表现时,由通用 LLM 评判的准确性可能不足以令人信服。

    总的来说,MiroThinker 为开源研究智能体的发展做出了重要贡献,并提出了一个引人深思的新研究方向。但其局限性也为未来的研究提供了明确的路径,即如何在性能、效率和鲁棒性之间找到更优的平衡。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。