WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent
TL;DR 精炼摘要
WebWatcher提出一种多模态深度研究智能体,结合视觉-语言推理能力,通过高质量合成轨迹冷启动训练和强化学习提升泛化性能。提出BrowseComp-VL基准测试,验证其在复杂视觉文本信息检索中的领先表现,突破了传统文本中心限制。
摘要
000 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 Under review as a conference paper at ICLR 2026 W EB W ATCHER : B REAKING N EW F RONTIERS OF V ISION -L ANGUAGE D EEP R ESEARCH A GENT Anonymous authors Paper under double-blind review A BSTRACT Web agents such as deep research have demonstrated superhuman cognitive abili- ties, capable of solving highly challenging information-seeking problems. However, most research remains largely text-centric, overlooking visual information in the real world. This makes multimodal deep research highly challenging, as such agents require much stronger perceptual, logical, and knowledge-based reason- ing abilities, as well as proficiency in more sophisticated tools. To address this limitation, we introduce WebWatcher, a multimodal agent for deep research with enhanced visual-language reasoning capabilities. It uses high-quality synthetic trajectories for efficient cold start training, utilizes various tools for deep reasoning, and further enhances generalization t
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
WebWatcher: 开启视觉-语言深度研究智能体的新篇章 (WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent)
1.2. 作者
匿名作者 (Anonymous authors)
1.3. 发表期刊/会议
这是一篇提交给 ICLR (International Conference on Learning Representations) 进行双盲评审的论文。ICLR 是机器学习和人工智能领域的顶级会议之一,以其对深度学习理论和应用研究的关注而闻名,具有很高的学术声誉和影响力。
1.4. 发表年份
2025年10月8日 (UTC)
1.5. 摘要
网络智能体 (Web agents),例如深度研究 (deep research) 智能体,已经展现出超人的认知能力,能够解决极具挑战性的信息搜寻 (information-seeking) 问题。然而,大多数研究仍主要以文本为中心 (text-centric),忽视了现实世界中的视觉信息。这使得多模态深度研究 (multimodal deep research) 极具挑战性,因为这类智能体需要更强的感知 (perceptual)、逻辑 (logical) 和基于知识的推理 (knowledge-based reasoning) 能力,以及掌握更复杂的工具。为了解决这一局限性,本文引入了 WebWatcher,一个具有增强视觉-语言推理 (visual-language reasoning) 能力的多模态深度研究智能体。它利用高质量的合成轨迹 (synthetic trajectories) 进行高效的冷启动训练 (cold start training),利用各种工具进行深度推理,并通过强化学习 (reinforcement learning) 进一步增强泛化能力 (generalization)。为了更好地评估多模态智能体的能力,本文提出了 BrowseComp-VL,一个延续 BrowseComp 风格的基准测试 (benchmark),它要求进行涉及视觉和文本信息的复杂信息检索。实验结果表明,WebWatcher 在四个具有挑战性的视觉问答 (Visual Question Answering, VQA) 基准测试中优于或与专有基线 (proprietary baselines)、检索增强生成 (Retrieval-Augmented Generation, RAG) 工作流和开源智能体持平,这为解决复杂的多模态信息搜寻任务铺平了道路。
1.6. 原文链接
- OpenReview 链接: https://openreview.net/forum?id=8jsaazdAb3
- PDF 链接: https://openreview.net/pdf?id=8jsaazdAb3
- 发布状态: 论文处于双盲评审阶段 (Paper under double-blind review),尚未正式发表。
2. 整体概括
2.1. 研究背景与动机
论文试图解决的核心问题: 当前的深度研究智能体,尽管在解决复杂信息搜寻问题上表现出色,但主要局限于处理文本信息,严重忽视了现实世界中无处不在且至关重要的视觉信息。这种“文本中心”的局限性使得它们难以应对需要视觉与文本信息融合推理的多模态任务。
为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白(Gap)?
- 现实世界任务的多模态性: 许多现实世界的任务,如解读科学图表、分析图表或导航可视化网页界面,都强烈依赖于视觉和语言的联合推理。忽视视觉信息会显著限制智能体的应用范围和能力。
- 现有方法不足:
- 模版驱动的视觉语言智能体: 大多数现有的视觉语言智能体 (VL Agents) 依赖于模版驱动的流水线,仅限于特定场景。它们通常专注于图像感知工具(如 OCR、边界框提取),但在结合视觉推理与深度文本理解、跨模态推理以及处理高难度任务方面表现不足。例如,它们可能无法解决需要超越感知范围的复杂推理问题(如 GAIA 基准中的案例)。
- 仅限搜索的智能体: 仅依赖搜索的智能体 (search-only agents) 解决问题范围非常有限。尽管检索增强推理 (retrieval augmented reasoning) 可以处理许多基于知识的问题,但当答案是隐含的、需要交互或额外计算时,它们往往会失败。
- 缺乏评估基准: 当前的视觉问答 (VQA) 数据集主要关注视觉感知和两跳推理,缺乏深度研究智能体所需的多步规划复杂性和推理深度。
这篇论文的切入点或创新思路是什么? 论文旨在通过引入 WebWatcher 智能体来弥补这一空白。其创新思路在于:
- 增强视觉-语言推理能力: 使智能体能够有效结合文本和视觉信息进行推理。
- 有效利用多模态工具: 不仅限于单一模态工具,而是集成并协调多种外部工具(如图像搜索、文本搜索、网页访问、代码解释器和 OCR)。
- 高质量数据驱动: 通过生成高质量的合成轨迹 (synthetic trajectories) 进行高效的冷启动训练,并利用强化学习 (reinforcement learning) 进行进一步优化,以增强泛化能力。
- 专业评估基准: 提出 BrowseComp-VL,一个专门设计用于评估复杂多模态信息检索和推理能力的基准测试。
2.2. 核心贡献/主要发现
论文最主要的贡献是什么?
- 提出 WebWatcher 智能体: 一个统一的框架,结合了复杂的视觉-语言推理和多工具交互能力,旨在解决多模态深度研究领域的问题。
- 创建 BrowseComp-VL 基准测试: 一个具有挑战性的数据集,专门为评估深度多模态推理和战略规划能力而设计。
- 开发可扩展的数据生成流水线: 能够将复杂的文本问答 (QA) 示例转化为视觉问答 (VQA) 形式,并进行严格的质量控制。
- 构建自动化轨迹生成流水线: 基于行动-观察轨迹 (action-observation traces) 为智能体生成高质量的工具使用轨迹,并通过冷启动 (cold start) 和强化学习算法
GRPO进行后训练优化。
论文得出了哪些关键的结论或发现?这些发现解决了什么具体问题?
- WebWatcher 的优越性能: WebWatcher 在多个高难度基准测试(包括
HLE、LiveVQA、BrowseComp-VL和MMSearch)上取得了强大的表现,超越了现有开源和专有研究智能体。在偏感知型的SimpleVQA基准上,也取得了有竞争力的结果。这表明 WebWatcher 能够有效解决复杂的跨模态信息搜寻任务。 - 工具使用灵活性: 实验分析显示,WebWatcher 能够根据不同基准测试的需求灵活调整工具的使用频率和类型,而非过度依赖单一工具,这证明了其在工具链组合方面的灵活性和成本/上下文感知能力。
- 冷启动训练的重要性: 对强化学习训练进行冷启动(即先进行监督微调)对于视觉-语言智能体的鲁棒性至关重要,能有效避免工具调用格式错误和奖励稀疏问题,从而稳定提升性能。
- 代理范式的可扩展性:
Pass@k分析表明,通过系统地探索推理路径,代理范式在具有挑战性的多模态基准上可以带来持续且稳健的性能提升,且边际收益在一定尝试次数后趋于平稳。
3. 预备知识与相关工作
本节旨在为读者铺垫理解论文所需的前置知识。
3.1. 基础概念
- 网络智能体 (Web agents) / 深度研究智能体 (Deep research agents): 指的是能够自主地在开放网络上搜索、阅读、推理和综合知识的人工智能系统。它们超越了简单的静态提示 (static prompts),能够规划多步骤任务,以解决复杂的信息搜寻问题。
- 大型语言模型 (Large Language Models, LLMs): 指的是拥有数亿甚至数千亿参数的深度学习模型,通过在海量文本数据上进行训练,学习语言的模式、语法、语义和世界知识。它们能够生成连贯、有意义的文本,并执行各种自然语言处理任务,是当前智能体技术的核心组成部分。
- 多模态 (Multimodal): 指的是系统能够处理和理解多种类型的数据模态,例如文本、图像、音频、视频等。在这篇论文中,特指结合视觉信息 (visual information) 和语言信息 (language information) 进行处理和推理的能力。
- 视觉问答 (Visual Question Answering, VQA): 是一种人工智能任务,要求模型根据给定的图像和自然语言问题,生成一个相关的自然语言答案。这需要模型具备图像理解、自然语言理解和推理的能力。
- 强化学习 (Reinforcement Learning, RL): 是一种机器学习范式,智能体 (agent) 通过与环境 (environment) 交互来学习最佳行为策略 (policy)。智能体根据执行的动作 (action) 收到奖励 (reward) 或惩罚,并通过最大化累积奖励来学习如何做出决策。
- 策略 (Policy): 在强化学习中,策略定义了智能体在给定状态下选择动作的方式。通常表示为一个函数,将状态映射到动作的概率分布。
- 奖励 (Reward): 环境对智能体执行某个动作的反馈信号,可以是正向的(奖励)或负向的(惩罚)。智能体的目标是最大化长期累积奖励。
- 监督微调 (Supervised Fine-Tuning, SFT): 是一种迁移学习技术,首先在一个大型数据集上预训练一个模型(例如
LLM),然后在一个较小但与特定任务相关的数据集上使用有标签数据对其进行进一步训练,以使其适应特定任务。这通常作为智能体冷启动 (cold start) 训练的一种方式。 - 冷启动训练 (Cold start training): 在强化学习或智能体训练中,指在模型尚未有任何有效策略或工具使用经验时进行的初始训练阶段。通常通过监督微调 (SFT) 在高质量的示范数据(如合成轨迹)上进行,为模型提供一个良好的初始策略,以避免在复杂的任务中因随机探索而效率低下。
- 检索增强生成 (Retrieval-Augmented Generation, RAG): 是一种结合了信息检索和文本生成的技术。在生成答案之前,模型会先从一个外部知识库中检索相关信息,然后利用这些检索到的信息来指导答案的生成,从而提高生成内容的准确性和事实性。
- 思维链 (Chain of Thought, CoT): 是一种提示工程技术,通过引导
LLM逐步思考问题并输出中间推理步骤,而不是直接给出最终答案,从而提高其在复杂推理任务上的表现。 ReAct框架: 结合了“Reasoning”(思考)和“Acting”(行动)的框架。智能体在每一步都先进行内部思考(生成Thought),然后决定采取何种行动(生成Action,例如调用工具),再观察行动的结果(获得Observation),并根据观察结果继续思考和行动,直至完成任务。这模仿了人类解决问题的循环过程。
3.2. 前人工作
论文在“相关工作”部分(Appendix C)详细列举了当前的深度研究智能体和多模态 VQA 基准。
深度研究智能体 (Deep Research Agents):
- 专有解决方案:
DeepResearch(OpenAI, 2025a)Gemini Deep Research(Google, 2024)Perplexity Deep Research(Perplexity, 2025) 这些专有智能体在事实查找、议论性写作和探索性分析方面表现出接近专家水平的性能。然而,它们的模型架构和数据策展流程不透明,难以进行严格的消融研究和复现。
- 开源文本中心智能体:
WebDancer(Wu et al., 2025a):通过课程驱动的SFT在ReAct轨迹上进行训练。WebThinker(Li et al., 2025c):在SFT的基础上增加了策略梯度 (policy-gradient) 优化。R1-Searcher(Song et al., 2025):利用自博弈 (self-play) 学习树结构探索策略。WebSailor(Li et al., 2025a):通过结构化任务模糊处理、RFT冷启动和DUPO算法来减少不确定性。WebShaper(Tao et al., 2025b):通过引入知识投影 (Knowledge Projections) 和代理扩展器 (agentic Expander) 提出了一个形式化驱动的数据合成流水线。 局限性: 论文指出,几乎所有这些领先的深度研究智能体仍然是文本受限的 (text-bound)。本文工作旨在通过整合视觉、布局和跨模态基础来弥补这一空白。
多模态 VQA 基准 (Multimodal VQA Benchmark):
- 早期基准:
OK-VQA和A-OKVQA:主要评估单步感知或浅层检索,或侧重静态知识基础和启发式答案预测,缺乏对集成多模态推理和规划的支持。
- 近期扩展:
MMT-Bench(Ying et al., 2024):提供了大规模的规划导向任务覆盖,但其多项选择格式限制了对程序推理和丰富文本输出的评估。MicroVQA(Burgess et al., 2025) 和Open3DVQA(Zhang et al., 2025):探索特定领域和空间推理,但受限于规模、人工标注或缺乏复杂规划结构。Dyn-VQA(Li et al., 2025d; Chen et al., 2025):引入了自适应查询任务,但在多模态范围和规模上仍然狭窄。MMMU-Pro(Yue et al., 2024)、MMSearch-Plus(Tao et al., 2025a) 和MM-BrowseComp(Li et al., 2025b):进一步探索了当前MLLMs(Multimodal Large Language Models) 在特定领域和困难信息搜寻任务上的性能局限性。 局限性: 现有基准很少能全面支持多步推理、跨模态集成、大规模和通过严格质量控制实现完全自动化。 本文贡献: 为了解决这些空白,本文引入了一个大规模、自动化的VQA基准 BrowseComp-VL,旨在推动规划导向、多跳和上下文丰富的多模态推理。
3.3. 技术演进
该领域的技术演进可以概括为从“文本中心化”到“多模态整合”的转变。
- 早期文本智能体: 早期的人工智能研究主要集中在自然语言处理,产生了大量文本处理和推理模型。随着大型语言模型 (LLMs) 的兴起,能够执行复杂文本任务的深度研究智能体逐渐出现,它们能够进行多步规划和信息搜寻。
- 视觉模态的崛起: 计算机视觉领域也取得了巨大进展,产生了强大的图像识别、目标检测和图像生成模型。随之而来的是视觉问答 (VQA) 等任务,尝试将视觉信息与语言信息结合。
- 多模态的初步尝试与局限: 最初的多模态智能体通常采用模板驱动或仅限感知工具的方案,无法进行深层次的跨模态推理或灵活地使用多种工具。例如,它们可能能识别图像中的对象,但难以将这些视觉信息与复杂的文本背景知识结合起来解决一个多步推理问题。
- WebWatcher 的突破: 本文的
WebWatcher代表了这一领域的最新进展,它通过将强大的视觉-语言推理能力与多样化的外部工具(Web 图像搜索、Web 文本搜索、网页访问、代码解释器和 OCR)有效集成,并利用高质量的合成轨迹进行训练,从而弥补了现有智能体在处理复杂多模态深度研究任务方面的不足。这标志着从简单拼接模态信息到深度融合和灵活交互的演进。
3.4. 差异化分析
本文的 WebWatcher 方法与相关工作中的主要方法相比,核心区别和创新点在于:
- 全面的多模态集成: 现有的大多数深度研究智能体(如
WebDancer,WebThinker等)主要关注文本信息处理。虽然有一些VL Agents(如PyVision,OpenThinkImg)也涉及视觉,但它们往往侧重于图像内的推理或特定视觉工具,缺乏将视觉推理与深度文本理解和跨模态推理相结合的能力,难以处理高难度任务。WebWatcher则旨在提供一个统一的框架,将强大的视觉-语言推理能力与多样的外部工具(包括文本和视觉工具)进行深度整合,从而能够处理涉及复杂视觉和文本信息的任务。 - 灵活的工具使用范式: 许多
VL Agents依赖于模板驱动的流水线,工具使用方式僵化。WebWatcher通过自动化轨迹生成流水线来构建真实的工具使用行为轨迹,并结合ReAct框架,使其能够灵活地协调输入输出格式各异的工具,并根据任务需求动态地选择和组合工具。 - 高质量数据驱动的训练范式: 针对现有
VQA数据集缺乏多步推理和规划复杂性的问题,WebWatcher引入了一个创新的数据生成流水线,能够从真实网络资源中生成结合视觉内容和复杂推理的高质量VQA数据。这包括通过“模糊化实体”来增加推理难度。 - 冷启动与强化学习结合:
WebWatcher采用监督微调 (SFT) 作为冷启动,为智能体提供了强大的初始工具使用能力和多步推理结构,然后通过GRPO强化学习进一步优化决策过程,增强泛化能力。这种分阶段训练策略在处理复杂且奖励稀疏的多模态工具使用任务中被证明是极其有效的。 - 专门的评估基准: 论文提出了
BrowseComp-VL,一个专门为评估多模态深度研究智能体能力而设计的基准测试,它继承了BrowseComp的风格,强调复杂的信息检索、视觉与文本信息的整合以及高难度、模糊不清的查询,填补了现有基准的空白。
4. 方法论
本部分详细拆解 WebWatcher 的技术方案,从数据准备到轨迹生成和模型训练。
4.1. 方法原理
WebWatcher 的核心思想是构建一个能够进行强大视觉-语言推理,并灵活利用多种外部工具的深度研究智能体。其背后的理论基础和直觉在于:
- 模仿人类研究过程: 人类在进行深度研究时,不仅会阅读文本,还会观察图像、图表,并根据需要使用各种工具(如搜索引擎、计算器、网页浏览器)来收集、分析和综合信息。WebWatcher 旨在通过其多模态能力和工具集来模拟这一过程。
- 数据驱动学习: 通过高质量的数据进行监督学习,为智能体提供基础的工具使用和推理能力(冷启动)。
- 通过交互优化: 利用强化学习,让智能体在与环境的交互中学习更优的决策策略,尤其是在面对复杂、多步任务时,能够更好地规划和适应。
- 应对现实世界复杂性: 现实世界的信息搜寻任务往往涉及不明确的查询、分散的信息和跨模态的依赖。WebWatcher 通过引入模糊化实体、多跳推理和多模态工具来应对这些挑战。
4.2. 核心方法详解
4.2.1. 数据准备 (Data Preparation)
本研究强调构建结合高质量视觉内容和复杂推理的数据,以弥补现有 VQA 数据集在规划复杂性和推理深度上的不足。
4.2.1.1. 数据概览 (Data Overview)
数据集为多模态深度研究智能体设计。每个示例包含:
-
事实图像 (factual image)
-
需要跨模态推理的相关问题 (associated question requiring cross-modal reasoning)
-
对应的答案 (corresponding answer)
-
关于底层实体和关系 (underlying entities and relations) 的辅助元数据 (auxiliary metadata)
数据集覆盖了5个主要领域(娱乐、人文学科、技术、自然科学和其他),包括17个细分领域(详见附录 D)。此外,定义了两个难度级别:
-
级别 1 (Level 1): 需要多跳推理 (multi-hop reasoning),但仍引用明确实体 (explicit entities)。答案可以通过迭代检索步骤获得,但推理过程因需要整合多个来源的信息而变得复杂。
-
级别 2 (Level 2): 问题由模糊实体 (obfuscated entities) 和属性 (attributes) 构建。例如,具体的日期被模糊的时间段取代,名称被掩盖,定量属性被模糊化。这种设计引入了不确定性,要求智能体进行规划、比较和综合信息,而非直接检索。
数据集分为训练集和
BrowseComp-VL基准测试集。BrowseComp-VL测试集包含 199 个级别 1 和 200 个级别 2 的VQA对,由三位博士级人类专家验证以确保高质量和可靠性。
4.2.1.2. QA 对生成 (QA Pairs Generation)
本阶段首先构建强调多跳和知识密集型推理的文本 QA 对,然后将其与相关图像结合形成 VQA 任务。
-
级别 1 (Level 1):
- 受
WebDancer的CRAWL-QA启发,通过以下方式增强推理深度和广度:- 从权威来源(如
arXiv、GitHub和Wikipedia)收集根 URL。 - 递归遍历其超链接,模拟人类浏览行为。
- 使用
GPT-4o从聚合内容中合成问答对。
- 从权威来源(如
- Prompt 示例(QA to VQA):
以下是原文 Appendix E.1 中用于处理级别 1 QA 数据并转换为 VQA 的提示示例:
## Prompt: VQA Generation for Level 1 Task: Extract the main keyword from the input question and use the extracted keyword to reconstruct the vqa_query, replacing the keyword with a pronoun. ## Rules: 1. keyword: <The keyword extracted from the question> - A noun or an adjective + noun - The main subject of the question 2. vqa_query: <The query with the keyword information removed> - Rewrite the original question by replacing the keyword with a pronoun. - Replace the keyword with "this + a noun that summarizes the keyword." # Examples: Input: - question: "What is the tallest building in New York?" ## Output: {"keyword": "New York", "vqa_query": "What is the tallest building in this city?"} Input: - question: "What is Qin Shi Huang's surname?" ## Output: {"keyword": "Qin Shi Huang", "vqa_query": "Who is this?"} ## Now, you need to process the input: - question: {query} Output Format: {"keyword": "", "vqa_query": ""}
- 受
-
级别 2 (Level 2):
- 遵循
WebSailor的方法,通过模糊化实体 (fuzzed entities) 构建查询,将精确引用替换为部分或模糊的描述。答案无法通过直接查找获得,需要跨模态的上下文推理和综合。 - 设计了一个两阶段生成框架:
- 节点选择 (Nodes Selecting):
- 从初始
Wikipedia页面开始,提示GPT-4o生成一个基础QA对,使用页面标题作为根实体节点 。 - 通过递归遍历出站链接,形成深度为 、分支因子为 的超链接图 (hyperlink graph),产生 个节点。实践中,, 以获得足够覆盖。
- 采样 个实体的子图,每个子图定义从 到目标实体 的路径。这些子图为生成不同的多跳
QA对提供了基础。 - 数学符号解释:
- :作为根实体节点的页面标题 (The page title, serving as the root entity node)。
- :树的深度 (Depth of the tree)。
- :树的分支因子 (Branching factor of the tree)。
- :每个子图包含的实体数量 (Number of entities contained in each subgraph)。
- :新选择的目标实体节点 (Newly selected target entity node)。
- 从初始
- 查询生成和实体掩蔽 (Query Generating and Entity Masking):
- 基于每个子图及其真实标注 (ground truth),首先提示
GPT-4o生成一个明确引用推理路径上的实体和关系的标准问题。 - 然后通过替换关键引用为部分或模糊描述来创建模糊版本,防止智能体通过搜索结果中的简单字符串匹配来走捷径,强制其执行跨模态推理。
- 基于每个子图及其真实标注 (ground truth),首先提示
- 节点选择 (Nodes Selecting):
- Prompt 示例(QA to VQA):
以下是原文 Appendix E.1 中用于处理级别 2 QA 数据并转换为 VQA 的提示示例:
## Prompt: VQA Generation for Level 2 Task: Given a question with an entity that has been obfuscated, and a specific entity span that is obfuscated, rewrite only that obfuscated entity portion by adding a transition phrase such as "in the image," so that it becomes a VQA (Visual Question Answering) question. Do not rewrite other obfuscated entity segments. ## Examples: Input: - question: "In a recent House election in a northeastern state in the United States, a Republican candidate won an upset victory in a traditionally Democratic-leaning district by a 7% margin. In another district in the same state, a Republican also won by a significant majority, maintaining the party's hold in the region. A political figure previously involved in local governance had served on a community board in a major city in that state. What position did he hold on the community board?" - entity: "In a recent House election in a northeastern state in the United States" ## Output: {"vqa_query": "In the recent House election in this state in the image, a Republican candidate won an upset victory in a traditionally Democratic-leaning district by a 7% margin. In another district in the same state, a Republican also won by a significant majority, maintaining the party's hold in the region. A political figure previously involved in local governance served on a community board in a major city in that state. What position did he hold on the community board?"} Input: - question: "A man born in the mid-18th century on a large plantation in a southeastern Virginia county served in a major legislative body representing his county from the early 1760s to the late 1770s. In the early 1760s, with whom did he serve in that legislative body?" - entity: "A man born in the mid-18th century on a large plantation in a southeastern Virginia county" # Output: {"vqa_query": "In the image, this man born in the mid-18th century on a large plantation in a southeastern Virginia county served in a major legislative body representing his county from the early 1760s to the late 1770s. In the early 1760s, with whom did he serve in that legislative body?"} ## Here is the input you need to process: - question: {query} - image entity: {image_entity} Output format: {"vqa_query": " " }
- 遵循
4.2.1.3. QA-TO-VQA 转换 (QA-TO-VQA Conversion)
- 视觉上下文构建 (Visual Context Construction):
- 丢弃琐碎或过于模糊的目标实体 (例如,时间引用或领域外概念),这些实体缺乏足够的视觉基础。
- 对于每个保留的实体 ,通过
Google SerpApi(Google, 2025) 检索一组网络图像 ,其中实现中 。这些图像 作为视觉基础,用于构建多模态推理示例。 - 与现有
VQA基准中常见的合成或复合图像不同,这里的图像是严格真实的,最大限度地减少了噪声并最大化了与现实世界任务的相关性。 - 数学符号解释:
- :过滤后保留的目标实体 (Retained target entity after filtering)。
- :为实体 检索的网络图像集 (Set of web images retrieved for entity )。
- :每个实体集中的图像数量 (Number of images per entity set)。
- 问题转换 (Question Transformation):
- 为了从每个文本
QA对 构建图像关联的VQA对,使用GPT-4o进行基于提示的重写。 - 中的目标实体 被视觉引用标记 (例如,“this entity”,“the object in the image”)掩蔽,生成转换后的
VQA查询 。 - 同时,创建一个图像查询字符串 ,以指导对 的过滤。
- 每个保留的图像 都与
(q, a)配对,因此一个文本QA对会产生 个多模态示例,即从 个问题中产生 个VQA项。 - 数学符号解释:
- :原始文本问题和答案对 (Original text question and answer pair)。
- :替换实体提及的视觉引用标记 (Visual reference token replacing the entity mention)。
- :转换后的
VQA查询 (Transformed VQA query)。 - :用于过滤 图像的图像查询字符串 (Image query string for filtering images of )。
- :原始文本
QA对的数量 (Number of original textual QA pairs)。
- Prompt 示例 (Image_Query_Generation):
以下是原文 Appendix E.1 中用于生成图像查询的提示示例:
## Prompt: Image_Query_Generation You are a rewriting system for a VQA chatbot. You will receive the following information: - question - image_entity - gold_query Task: Based on the following rules, generate an image query for the image-related question: ## Rules: 1. Compare the "question" and "gold_query" to identify information that is included in "gold_query" but missing from "question." Based on this missing information, generate an image query called "image_query," where the answer should be "image_entity." 2. The composition rules for "image_query": - If "question" contains "this"/"that"/"the" followed by a noun, use "Who is that noun?" or "What is that noun?" - If "this" or "that" is not followed by a noun, the "image_query" should be "What is this?" - If there are no obvious demonstrative pronouns like "this" or "that," use "What is this?" 3. Output only one image query in the format of a string, without any irrelevant content. ## Examples: Input: - question: When did Epic Gaming first release this? - gold_query: When did Epic Gaming first release Minecraft? - image_entity: Minecraft Output: "What is this?" Input: - question: Who is the current CTO of this organization? - gold_query: Who is the CTO of Alibaba Cloud? - image_entity: Alibaba Cloud Output: "What is this organization?" Input: - question: How much greater is this figure than 4? - gold_query: How much greater is 3 than 4? - image_entity: 3 Output: "What is this?"
- 为了从每个文本
4.2.1.4. 质量控制 (Quality Control)
为确保高质量的 VQA 样本,采用两阶段过滤流水线:
- 选择器 (Selector):
- 首先,丢弃转换后的
VQA查询 与 相同,或实体名称 及其别名出现在 中的情况,这表明掩蔽和问题重写失败。 - 然后,
GPT-4o评估每个图像 与 和(q, a)的匹配程度,评分上下文对齐 (contextual alignment)、语义契合度 (semantic fit) 和视觉推理合理性 (visual reasoning plausibility)。低分的案例被移除。 - Prompt 示例 (Judge the Quality of VQA):
以下是原文 Appendix E.1 中用于判断 VQA 质量的提示示例:
# Prompt: Judge the Quality of VQA Task: You are given a list of candidate images and two versions of a question-answer pair: the original QA and a rewritten VQA question. Your job is to look at each image and decide whether it's relevant enough to keep. ## How to decide: - Context match: Does the image clearly show the scene or objects mentioned in either the original or the VQA question? - Answer fit: Could someone use this image to arrive at the given answer? - Reasoning check: Is it plausible to reason from the image to the answer for the VQA question? After scoring each image from 0 (irrelevant) to 1 (perfect match), drop any image scored below 0.5 and keep the rest in their original order. ## Input variables: - images: a list of images to evaluate - original_qa: the original question and answer - vqa_query: the rewritten VQA question and the same answer ## Output format: {"filtered_images": [list of images you kept]}
- 首先,丢弃转换后的
- 检查器 (Examiner):
- 对于每个保留的图像-查询对 ,
GPT-4o尝试仅使用视觉内容和相关标题来回答 。 - 如果无法准确回答,则表示视觉上下文不当,此类案例被丢弃。标题的包含是为了减少因缺少世界知识而导致的假阴性 (false negatives)。
- Prompt 示例 (Answer Image Query as Judge):
以下是原文 Appendix E.1 中用于判断图像查询的提示示例:
## Prompt: Answer Image Query as Judge Task: Determine whether the input image and its description match the given keyword. If they match, output 1 ; otherwise, output 0 . Use strict criteria: the image and description must clearly represent the keyword to output 1 . Output only 0 or 1 , with no additional text. Keyword: {keyword} Image Caption: {image_caption}
- 对于每个保留的图像-查询对 ,
下图(原文 Figure 3)展示了生成 VQA 数据的流水线,其中多跳 VQA 对从超链接图构建,与网络图像关联,通过选择器-检查器验证,并转换为级别 1(明确)和级别 2(模糊)问题以进行多模态推理。
该图像是一个示意图,展示了针对问题“以詹姆斯·罗伊·金霍恩命名的蛇种是什么?”的多层次信息检索和推理流程,包含图搜索、图像检索、选择器和检查器模块,以及基于图结构的层级推理过程。
图1: 数据生成流水线示意图
4.2.2. 轨迹生成与后训练 (Trajectory Generation and Post-Training)
本研究使用监督微调 (SFT) 作为冷启动,基于自动化流水线生成的高质量轨迹来训练 WebWatcher 的工具增强推理能力。随后,应用强化学习进一步优化工具使用和决策制定。
4.2.2.1. 多模态工具 (Multimodal Tools)
WebWatcher 配备了五种工具:
- Web 图像搜索 (Web Image Search): 通过
Google SerpApi(Google, 2025) 检索带标题和 URL 的相关图像。- 描述: 使用一个或多个图像
URL从Google的图像搜索引擎检索前 10 张图像和描述。应只使用一次。 - 参数:
image_urls(字符串数组):用于搜索的图像URL列表。(必填)
- 描述: 使用一个或多个图像
- Web 文本搜索 (Web Text Search): 用于开放域的信息搜寻。
- 描述: 使用一个或多个搜索查询从
Google的文本搜索引擎检索前 10 个文本摘录。 - 参数:
queries(字符串数组):搜索查询列表。(必填)
- 描述: 使用一个或多个搜索查询从
- 访问 (Visit): 通过
Jina(Jina.ai, 2025) 导航特定 URL 并根据智能体的目标总结页面。- 描述: 访问给定网页并根据指定目标返回摘要。
- 参数:
url(字符串):目标网页URL。(必填);goal(字符串):智能体从网页寻求的目标或信息。(必填)
- 代码解释器 (Code Interpreter): 用于符号计算 (symbolic computation) 和数值推理 (numerical reasoning) (Cheng et al., 2024)。
- 描述: 执行
Python代码进行计算、数据分析或内容提取。 - 参数:
code(字符串):要执行的Python代码。(必填)
- 描述: 执行
- 光学字符识别 (OCR): 一个内部工具,通过提示和
SFT数据调用,从输入图像中提取文本 (Huang et al., 2025)。- 描述: 使用内部
OCR引擎从给定图像中提取文本内容。对于读取嵌入式视觉信息(如图表、屏幕截图或扫描文档)非常有用。 - 参数:
image_url(字符串):要提取文本的图像URL。(必填)
- 描述: 使用内部
4.2.2.2. 自动化轨迹标注 (Automated Trajectory Annotation)
给定来自 BrowseComp-VL 的 VQA 实例 (I, q, a),使用 GPT-4o 构建模拟逐步人类推理的工具使用轨迹。遵循 ReAct (Yao et al., 2023) 框架,每个轨迹 包含多个“思考-行动-观察” (think-act-observe) 循环。在每个步骤 ,模型以累积上下文历史 (accumulated context history) 作为输入,并生成:
-
思想 (Thought): 智能体的中间推理或计划,封装在 标签中。
-
行动 (Action): 工具调用,封装在
<tool_call>...</tool_call>中,以及最终答案,封装在 中。 -
观察 (Observation): 环境返回的结果,封装在
<tool_response>...</tool_response>标签中。行动空间 由离散的工具使用行动 组成,使智能体能够检索信息、导航网页或执行计算。
Finish行动标志着任务完成,通过返回最终答案并结束回合。长度为 的轨迹定义如下:
符号解释:
-
:一个工具使用轨迹,包含一系列“思考-行动-观察”循环 (A tool-use trajectory: sequence of think-act-observe cycles)。
-
:轨迹中第 次迭代的行动 (Action at iteration in the trajectory),属于行动空间 (Set of all tool-use actions)。
-
:执行行动 后环境返回的观察结果 (Observation returned after executing )。
-
:轨迹的长度 (Length of the trajectory)。
每个轨迹都提供了规划和工具选择的内容关联演示。
4.2.2.3. 轨迹过滤与质量保证 (Trajectory Filtering and Quality Assurance)
为确保鲁棒和有指导意义的监督,应用三阶段轨迹选择:
- 最终答案匹配 (Final Answer Matching): 保留最终答案与真实标注 匹配的轨迹 ,确保整个工具使用步骤序列导向正确且完整的解决方案。
- 逐步一致性检查 (Step-by-Step Consistency Check): 使用
GPT-4o验证 中每个中间步骤的逻辑一致性。丢弃包含幻觉内容 (hallucinated content)、矛盾或不合理工具调用的轨迹。这避免了通过幸运猜测而非有意义的工具使用达到正确答案的常见失败模式。- Prompt 示例 (Tool Call Rationality Evaluation):
以下是原文 Appendix E.2 中用于评估工具调用合理性的提示示例:
# Prompt: Tool Call Rationality Evaluation Role: You are a professional AI interaction quality assessor. Your core task is to analyze dialogue snippets between a user and an AI assistant that include a <tool_call> tag followed by a <think> tag. Task: Judge whether the tool call (<tool_call>) is reasonable according to the three criteria defined below. "Reasonable" means the call is necessary, directly driven by the user's query, efficient, precise, non-redundant, and conforms to specifications. Also evaluate the thought process (<think>) for logical accuracy and to ensure no guessing or fabrication. ## Evaluation Criteria: 1. Information Non-Redundancy: The requested information or action in the tool call is not already provided or easily derivable from prior dialogue, the user's current question, or the assistant's previous answers. Check: Is there any overlap or repeated request? 2. Goal Alignment: The tool call's purpose and expected result directly serve the user's explicit intent or core need in this turn. Check: Does it advance the user's main objective? 3. Logical Reasoning and Accuracy: The assistant's thought process shows clear, correct logic and reliable grounding-no unfounded guesses or fabrications. The <think> section should be concise. Check: Is the reasoning well-structured and evidence-based? Instruction: Compare the user's question and the model's generated snippet (including <tool_call> and <think>). If all criteria are met, output: A Otherwise (any criterion unmet or room for improvement), output: B User Question: {query} Model Generation: {model_gen}
- Prompt 示例 (Tool Call Rationality Evaluation):
以下是原文 Appendix E.2 中用于评估工具调用合理性的提示示例:
- 最小工具使用要求 (Minimum Tool Usage Requirement): 移除工具调用少于三次的轨迹 。这确保训练数据反映实质性的、过程驱动的工具交互和推理,而非一步完成。
4.2.2.4. 作为冷启动的监督微调 (Supervised Fine-Tuning as Cold Start)
过滤后,数据集包含 个高质量的工具使用轨迹。在轨迹 的每个步骤 ,WebWatcher 训练模型在给定图像 、问题 以及先前的行动和观察 的情况下,预测正确的行动 。监督微调 (SFT) 最大化 的对数似然 (log-likelihood):
符号解释:
-
:模型参数 (Model parameters)。
-
:高质量工具使用轨迹的数量 (Number of high-quality tool-use trajectories)。
-
:第 个轨迹的长度 (Length of the -th trajectory)。
-
:模型参数为 时,预测某个行动的概率。
-
:第 个轨迹中第 个步骤的行动 (Action at step of trajectory )。
-
:第 个轨迹对应的图像 (Image for trajectory )。
-
:第 个轨迹对应的问题 (Question for trajectory )。
-
:第 个轨迹中在第 个步骤之前的所有行动 (Actions before step of trajectory )。
-
:第 个轨迹中在第 个步骤之前的所有观察结果 (Observations before step of trajectory )。
这个冷启动阶段教会智能体有效地使用工具并遵循结构化的多步推理。
4.2.2.5. 强化学习 (Reinforcement Learning)
在 SFT 提供冷启动初始化后,应用群体相对策略优化 (Group-Relative Policy Optimization, GRPO) (Guo et al., 2025) 来改进复杂任务的决策制定。对于 VQA 查询 ,当前策略 生成一组 的 条完整轨迹,每条轨迹都有一个回报 。群体相对优势 (group-relative advantage) 定义如下:
符号解释:
-
:轨迹 的群体相对优势 (Group-relative advantage for trajectory )。
-
:分配给轨迹 的标量回报(总奖励)(Scalar return (total reward) assigned to trajectory )。
-
:由策略生成的 条完整轨迹组成的群体 (Group of complete trajectories generated by the policy)。
-
:群体中所有轨迹的平均回报。
这通过在群体内标准化奖励来消除对单独价值函数 (value function) 的依赖。
GRPO目标定义为一个裁剪的替代损失 (clipped surrogate loss):
符号解释:
-
:
GRPO目标函数 (GRPO objective function)。 -
:对群体 中所有轨迹的期望值 (Expectation over trajectories in group )。
-
:当前策略 和前一策略 之间的重要性采样比 (Importance sampling ratio between the current and previous policy)。
-
:由 参数化的当前策略 (Current policy parameterized by )。
-
:由 参数化的前一策略 (Previous policy parameterized by )。
-
:裁剪阈值 (Clipping threshold)。
-
:裁剪函数,将重要性采样比限制在 范围内。
-
:群体相对优势,如方程3定义。
-
:当前策略和前一策略之间的 Kullback-Leibler (KL) 散度 (Kullback-Leibler divergence between successive policies)。
-
:控制
KL惩罚强度的系数 (Coefficient for the KL penalty in GRPO objective)。这个目标函数促进了稳定的更新,同时鼓励探索具有更高相对回报的轨迹。每条轨迹 首先获得一个二元格式分数 ,如果所有工具调用都遵循规范,则为1。然后,一个
LLM评分器 (LLM grader) 通过将最终答案与真实标注进行比较,提供一个语义准确性分数 。总奖励定义如下:
符号解释:
-
:总奖励 (Total reward)。
-
:工具调用合规性的二元格式分数 (Binary format score for conformance of tool calls),取值 。
-
:来自
LLM评分器的语义准确性分数 (Semantic accuracy score from LLM grader),取值[0,1]。 -
:在总奖励中平衡格式分数和准确性分数的权重 (Weight balancing format and accuracy scores in total reward)。
由于 仅在回合结束时给出,方程3中的群体相对排名能够实现有效的信用分配 (credit assignment),而无需依赖每一步的奖励塑形 (per-step shaping)。Rollout 轨迹以 为一组收集,以确保在计算相对优势时的多样性,同时保持训练期间的计算效率。
5. 实验设置
5.1. 数据集
5.1.1. 训练数据构建 (Training Data Construction)
训练数据来自三个来源:
-
BrowseComp-VL 训练集: 包含 110,000 个级别 1 和 70,000 个级别 2 的
QA对。经过VQA转换和过滤后,保留了 60,000 个级别 1 和 40,000 个级别 2 的高质量示例。 -
长尾 QA 对 (long-tail QA pairs): 从与
SimpleVQA具有相似分布的训练实例中采样,转换为 4,000 个VQA示例。 -
困难
VQA样本 (hard VQA samples): 来自InfoSeek(Chen et al., 2023)、VQAv2.0(Goyal et al., 2017)、LogicVista(Xiao et al., 2024) 和Encyclopedic VQA(Mensink et al., 2023),并增加了 (Huang et al., 2025) 以激活OCR。通过拒绝采样 (Rejection sampling) 确保难度。经过轨迹生成和过滤后,获得了 8,000 条高质量工具使用轨迹用于
SFT,另有 2,000 条样本用于GRPO。最终数据源的比例为BrowseComp-VL、长尾VQA和困难VQA数据分别为 5:3:2。
5.1.2. 评估基准 (Evaluation Benchmarks)
论文在五个具有挑战性的基准上进行了评估:
- BrowseComp-VL: 从级别 1 抽取 100 个实例,从级别 2 抽取 200 个实例,构成评估集。所有示例均由
AI领域的博士级专家手动验证,以确保高准确性和一致性。这个基准要求强大的规划能力和熟练使用外部工具来成功解决问题。 - HLE (Humanity's Last Exam) (Phan et al., 2025): 一个由 2,500 个专家编写的问题组成的挑战性基准,涵盖科学、工程和人文学科等多个学术领域。问题设计超越了简单的检索,要求模型从模糊或分散的来源综合证据,并通过抽象的学术问题进行推理。评估使用了 330 个多模态问题的子集,以评估视觉-文本推理能力。
- LiveVQA (Fu et al., 2025): 评估模型基于最新视觉知识回答问题的能力。它包含来自六个来源和十四个主题的 3,602 个多跳
VQA实例,数据来源于最新的全球新闻。评估使用了 300 个示例的子集。 - SimpleVQA (Cheng et al., 2025): 一个事实
VQA基准,包含 2,025 个英语和中文示例。它结合了来自最新VQA数据集的精选图像-问题对和专家标注的网络图像。评估使用了从 1,013 个英语QA对中随机抽样的 300 个示例。 - MMSearch (Jiang et al., 2024): 包含 300 个手动标注的示例,涵盖 14 个子领域,包括最新新闻和稀有知识。其中 171 个配有图像。评估使用了这个视觉子集。
数据集示例: 以下是原文 Appendix F.6 中提供的 HLE 基准的一个案例轨迹示例,包含一个 Kenken 谜题的图像:
该图像是一张数独类逻辑游戏的示意图,包含带有加号和星号符号的数字线索框,用于提示相邻方块的数字和或乘积关系。图中包含多个不同大小的黑色边界区域,划分数字约束区域。
图2: Kenken 谜题图像示例 (来自 HLE 基准)
问题 (Question): State four numbers that would be present on the top horizontal line of the square after this Kenken puzzle is solved. Example of answer formatting: 1583
5.2. 评估指标
论文中主要使用了 Accuracy (准确率) 和 pass@k 作为评估指标。答案正确性通过 LLM-as-Judges 方法判断。
-
准确率 (Accuracy):
- 概念定义: 准确率是最常见的分类评估指标,表示模型正确预测的样本比例。在
VQA任务中,它量化了模型正确回答问题的百分比。该指标关注模型在所有任务尝试中,给出正确答案的频率。 - 数学公式:
- 符号解释:
Number of Correct Predictions:模型正确回答的问题数量。Total Number of Predictions:总共评估的问题数量。
- 概念定义: 准确率是最常见的分类评估指标,表示模型正确预测的样本比例。在
-
pass@k:-
概念定义:
pass@k是一个用于评估生成式任务(特别是需要多步推理或代码生成)性能的指标。它衡量模型在 次独立尝试中,至少有一次生成出正确结果的概率。当 时,它等同于单次尝试的准确率。pass@k考虑了模型通过多次尝试探索不同解决方案路径的能力,反映了其在给定多次机会时找到正确答案的可能性。 -
数学公式: 论文中给出的
pass@1公式为: 对于更一般的pass@k,虽然论文未给出直接公式,但其概念通常基于以下无偏估计: 其中, 是总的生成样本数, 是正确的样本数。 然而,论文中提到 "We repeatedly generate for times to get pass@k",并计算pass@1,暗示其pass@k更可能是指在 次生成中至少有一次正确的比例。如果假设每次生成是独立的,并且目标是计算给定一个问题生成 个答案中至少有一个正确的概率,那么pass@k可以这样计算:如果单次尝试的成功率是 ,那么 次尝试都失败的概率是 ,所以至少一次成功的概率是 。但论文实际使用的是pass@1的求和平均形式,这通常是用于在给定 次尝试中,评判一次通过的情况。考虑到论文中给出的公式是针对
pass@1的,并且其描述为“pass@1 is computed as: pass@1 ”,此处将严格遵循原文给出的形式,并解释其在评估单次尝试准确性上的作用。 对于更高 值的pass@k,原文未提供明确公式,但从其分析来看,它反映的是多次尝试后的正确率。 -
符号解释:
- :问题总数 (Total number of questions)。
- :第 个预测的二元正确性 (Binary correctness of the -th prediction)。如果预测正确则 ,否则 。
-
-
LLM-as-Judges(LLM 作为评判者):- 概念定义: 这是一种新兴的评估方法,利用大型语言模型 (LLM) 作为评估器,来判断另一个模型生成答案的质量和正确性。这种方法尤其适用于开放式问题或生成式任务,因为传统的基于关键词匹配的指标可能无法完全捕捉语义的正确性。
LLM评判者能够理解上下文和推理,从而提供更接近人类判断的评估结果。 - 数学公式:
LLM-as-Judges本身不是一个数学公式,而是一种评估范式。它通过LLM对模型输出进行文本分析和评分,最终输出一个二元的正确性判断 (correct/incorrect) 或一个分数。 - 符号解释: 论文中提及使用
LLM-as-Judges(Liu et al., 2024) 方法,并详见附录 F.5 中的提示。例如,LLM评判者会根据问题、模型响应和标准答案,输出extracted_final_answer、reasoning、correct(yes/no) 和confidence。
- 概念定义: 这是一种新兴的评估方法,利用大型语言模型 (LLM) 作为评估器,来判断另一个模型生成答案的质量和正确性。这种方法尤其适用于开放式问题或生成式任务,因为传统的基于关键词匹配的指标可能无法完全捕捉语义的正确性。
5.3. 对比基线 (Baselines)
论文将 WebWatcher 的性能与以下几种范式进行了比较:
- 直接推理 (Direct Inference): 模型仅依靠其内部知识直接生成答案,不使用外部工具。
GPT-4o(OpenAI, 2024)Gemini-2.5-flash(DeepMind, 2025)Claude-3.7-Sonnet(Anthropic, 2025)Qwen-2.5-VL系列 (7B/32B/72B)
- 提示工作流 (Prompt Workflow): 这些模型通过提示词引导工作流,使用与
WebWatcher相同的工具集。这可以看作是一种检索增强生成 (RAG) 的方式,但工具的使用由提示词间接控制。GPT-4oGemini-2.5-flashClaude-3.7-SonnetQwen-2.5-VL系列 (7B/32B/72B)
- 推理基线 (Reasoning Baselines): 具有多步推理能力或搜索能力的智能体。
OmniSearch(Li et al., 2025d):一个基于GPT-4o的面向搜索的开源智能体。Gemini-2.5-Pro(DeepMind, 2025):多步推理模型,结合提示驱动工作流。o4-mini(OpenAI, 2025b):多步推理模型,结合提示驱动工作流。
5.4. 模型与超参数
- 训练模型 (Models): 在
Qwen2.5-VL-7B和Qwen2.5-VL-32B(Bai et al., 2025) 上进行后训练 (post-training)。 - 训练框架: 使用
Llama-Factory(Zheng et al., 2024) 进行SFT,使用Verl(Sheng et al., 2025) 进行RL训练。 SFT超参数:- 批量大小 (batch size):32
- 学习率 (learning rate):
- 最小学习率 (minimum learning rate):
- 学习率调度器 (scheduler):预热 (warmup) 加余弦衰减 (cosine decay)
- 权重衰减 (weight decay):0.1
RL训练超参数:- 群体中的
rollout数量 (rollout number in a group):8 - 温度 (temperature):1.0
- :1.0
- 批量大小 (batch size):128
- 迷你批量大小 (mini batch size):32
- 学习率 (learning rate):
- 群体中的
- 推理超参数:
pass@k评估:重复生成 次,温度 (temperature) 为 0.6, 为 0.95。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. Humanity's Last Exam (HLE) 上的结果
以下是原文 Table 1 的结果,展示了 HLE 基准测试上的主要结果。所有准确率分数均以百分比报告。Avg 表示在不同子主题上三次推理运行的平均准确率分数。
| Backbone | Humanity's Last Exam (HLE-VL) | ||||||||
|---|---|---|---|---|---|---|---|---|---|
| Bio. | Chem. | CS/AI | Engineer. | Human. | Math | Physics | Other | Avg. | |
| Direct Inference | |||||||||
| GPT-4o | 13.8 | 0.0 | 0.0 | 3.9 | 12.0 | 6.8 | 7.1 | 7.0 | 6.5 |
| Gemini-2.5-flash | 12.1 | 1.6 | 0.0 | 0.0 | 4.0 | 0.0 | 14.3 | 0.0 | 4.9 |
| Claude-3.7-Sonnet | 1.7 | 4.8 | 0.0 | 2.0 | 0.0 | 0.0 | 0.0 | 12.3 | 2.8 |
| Qwen-2.5-VL-7B | 3.4 | 3.2 | 7.1 | 0.0 | 4.0 | 2.3 | 7.1 | 0.0 | 2.6 |
| Qwen-2.5-VL-32B | 3.4 | 6.5 | 0.0 | 3.9 | 8.0 | 2.3 | 7.1 | 0.0 | 3.7 |
| Qwen-2.5-VL-72B | 3.4 | 8.0 | 0.0 | 5.9 | 8.0 | 0.0 | 0.0 | 7.0 | 4.9 |
| Prompt Workflow | |||||||||
| GPT-4o | 9.8 | 24.1 | 4.8 | 0.0 | 2.0 | 4.0 | 9.1 | 14.3 | 12.3 |
| Gemini-2.5-flash | 25.9 | 3.2 | 7.1 | 0.0 | 8.0 | 9.1 | 3.5 | 14.0 | 11.4 |
| Claude-3.7-Sonnet | 4.3 | 5.2 | 4.8 | 0.0 | 0.0 | 0.0 | 9.1 | 14.3 | 3.5 |
| Qwen-2.5-VL-7B | 4.3 | 6.9 | 3.2 | 7.1 | 0.0 | 4.0 | 4.5 | 7.1 | 5.3 |
| Qwen-2.5-VL-32B | 5.2 | 10.3 | 3.2 | 7.1 | 0.0 | 0.0 | 4.5 | 7.1 | 8.8 |
| Qwen-2.5-VL-72B | 15.8 | 10.3 | 8.1 | 0.0 | 2.0 | 8.0 | 6.8 | 14.3 | 8.6 |
| Reasoning Model | |||||||||
| o4-mini | 12.1 | 23.7 | 17.7 | 0.0 | 5.8 | 0.0 | 33.3 | 21.4 | 16.0 |
| Gemini-2.5-Pro | 23.7 | 17.7 | 13.3 | 11.5 | 8.0 | 13.3 | 14.3 | 15.5 | 15.8 |
| Open Source Agents | |||||||||
| OmniSearch (GPT-4o) | 15.5 | 8.2 | 0.0 | 2.2 | 8.0 | 6.8 | 21.4 | 12.1 | 9.3 |
| WebWatcher-7B | 18.6 | 6.5 | 6.7 | 7.7 | 4.0 | 6.7 | 7.1 | 17.2 | 10.6 |
| WebWatcher-32B | 33.8 | 9.7 | 0.0 | 5.8 | 8.0 | 8.9 | 14.3 | 13.8 | 13.6 |
表1: HLE 上的主要结果
分析:
- 直接推理 (Direct Inference) 模型的表现最差,平均准确率低于 10%,揭示了朴素多模态大型语言模型 (MLLMs) 在复杂、知识密集型
VQA任务中的局限性。 - 提示工作流 (Prompt Workflow) 方法展现出中等程度的提升,特别是在化学 (Chemistry) 领域。这表明即使是强大的
MLLMs,在面对复杂任务时,通过外部工具辅助推理也能带来收益。 - WebWatcher-32B 在整体平均准确率上略低于一些推理模型(如
o4-mini和Gemini-2.5-Pro),但其参数效率更高(32B 参数)。 - WebWatcher-32B 在特定领域展现出明显优势,例如在生物学 (Biology) 中达到了 33.8% 的最高分数,并在数学 (Mathematics) 和人文学科 (Humanities) 中表现出有竞争力的性能。这表明
WebWatcher的多模态工具使用和推理能力在某些领域具有强大的适用性。
6.1.2. 四个挑战性基准上的结果
以下是原文 Table 2 的结果,展示了在四个挑战性基准(BrowseComp-VL、LiveVQA、MMSearch、SimpleVQA)上的主要结果。所有准确率分数均以百分比报告。Avg 表示两个难度级别上的三次推理的平均分数。
| Backbone | BC-VL | LiveVQA | MMSearch | SimpleVQA | ||
|---|---|---|---|---|---|---|
| Level1 | Level2 | Avg. | ||||
| Direct Inference | ||||||
| GPT-4o | 6.4 | 4.0 | 5.5 | 29.7 | 18.7 | 47.0 |
| Gemini-2.5-flash | 11.6 | 6.0 | 9.6 | 35.0 | 19.6 | 63.0 |
| Claude-3.7-Sonnet | 8.8 | 4.0 | 7.1 | 23.7 | 12.3 | 42.7 |
| Qwen-2.5-VL-7B | 0.8 | 0.0 | 0.5 | 22.7 | 4.09 | 30.7 |
| Qwen-2.5-VL-32B | 3.2 | 1.0 | 2.4 | 26.3 | 7.60 | 40.7 |
| Qwen-2.5-VL-72B | 9.2 | 3.0 | 7.1 | 30.3 | 11.7 | 51.3 |
| Prompt Workflow | ||||||
| GPT-4o | 16.8 | 7.0 | 13.4 | 34.0 | 24.1 | 61.6 |
| Gemini-2.5-flash | 15.2 | 9.0 | 13.0 | 41.3 | 43.9 | 68.6 |
| Claude-3.7-Sonnet | 13.9 | 6.0 | 11.2 | 30.3 | 32.7 | 59.3 |
| Qwen-2.5-VL-7B | 3.6 | 1.0 | 2.7 | 21.7 | 9.94 | 21.0 |
| Qwen-2.5-VL-32B | 9.4 | 3.0 | 7.2 | 30.5 | 17.5 | 44.6 |
| Qwen-2.5-VL-72B | 14.4 | 6.0 | 11.5 | 35.7 | 29.2 | 58.6 |
| Agents | ||||||
| OmniSearch (GPT-4o) | 19.7 | 10.0 | 16.3 | 40.9 | 49.7 | 63.0 |
| WebWatcher-7B | 23.6 | 17.0 | 21.2 | 51.2 | 49.1 | 54.3 |
| WebWatcher-32B | 28.4 | 25.0 | 27.0 | 58.7 | 55.3 | 59.0 |
表2: 四个挑战性基准上的主要结果
分析:
-
整体趋势: 同样,直接推理模型性能受限,提示工作流带来适度提升。
WebWatcher持续超越这两种范式。 -
BrowseComp-VL (BC-VL):
BC-VL要求多页浏览和细粒度视觉基础,导致大多数基线模型得分低于 20%。WebWatcher-32B在此基准上表现突出,平均得分达到 27.0% (Level 1: 28.4%, Level 2: 25.0%),证明了其动态工具使用循环的有效性,尤其在处理复杂和模糊信息方面。值得注意的是,Level 2的分数与Level 1非常接近,表明其对模糊实体的处理能力。 -
LiveVQA 和 MMSearch:
WebWatcher-32B在LiveVQA(58.7%) 和MMSearch(55.3%) 上取得了最先进 (state-of-the-art) 的结果,这表明其在处理最新视觉知识和多模态搜索任务方面的卓越能力。 -
SimpleVQA: 即使在强调视觉推理而非外部知识的
SimpleVQA基准上,WebWatcher也表现良好,得分 59.0%。这凸显了WebWatcher不仅在知识密集型任务中表现出色,在视觉推理方面也具有广泛适用性。这些结果共同证明了
WebWatcher在跨多个VQA基准上的强大性能,尤其是在需要复杂多模态信息搜寻和推理的挑战性任务中。
6.2. 消融实验/参数分析
6.2.1. 工具调用数量 (Number of Tool Calls)
下图(原文 Figure 4)展示了在四个基准测试中外部工具调用的百分比。每个条形的高度表示在相应基准测试中对该工具进行的调用占总调用的比例。内部 OCR 未包含在内,因为此处仅统计外部工具。
该图像是柱状图,展示了WebWatcher在五个多模态数据集(HLE、BC-VL、MMsearch、LiveVQA和SimpleVQA)及综合评估中的四类操作(文本搜索、图像搜索、代码使用、访问页面)的占比情况,反映了不同任务中各操作的使用频率差异。
图3: 四个基准测试中外部工具调用的百分比
分析:
-
HLE (Humanity's Last Exam):
HLE需要多模态搜索、计算和推理,因此工具使用在Web Text Search、Web Image Search和Code Interpreter之间平衡。Visit工具用于处理网页导航。 -
BrowseComp-VL (BC-VL) 和 MMSearch: 这两个基准更侧重信息搜寻和推理,因此检索操作占据主导地位。
Web Text Search占总调用的 62%,其他工具作用较小。 -
SimpleVQA: 对于
SimpleVQA,重点回到视觉内容,Web Image Search占总调用的三分之一或更多,而Web Text Search和Visit则作为辅助工具。 -
Code Interpreter:
Code Interpreter仅在实际需要计算时使用,这证实了WebWatcher具有成本和上下文感知能力。结论: 整体而言,工具使用的分布反映了基准测试的需求,强调了
WebWatcher在组合工具链方面的灵活性,而非过度依赖任何单一工具。
6.2.2. RL 训练的冷启动 (Cold Start for RL Training)
下图(原文 Figure 5)展示了在三个基准测试中 RL 训练中使用冷启动和指令(Instruct)两种不同初始化方法的性能比较。
该图像是三幅折线图,展示了WebWatcher在不同训练步骤下Cold-start与Instruct两种训练方式在HLE、BC-VL和LiveVQA三个基准测试中的得分情况,横轴为训练步骤,纵轴为得分,反映Instruct训练表现普遍优于Cold-start。
图4: RL 训练中冷启动的性能比较
分析:
-
Instruct 初始化: 仅使用公共指令遵循数据进行暖启动的
Instruct初始化,其性能在接近零的水平停滞不前。这是因为频繁的工具调用格式错误会消除奖励,并且严格的Qwen-2.5-72B评分器会抑制部分答案。 -
Cold-start 初始化: 包含明确展示工具使用和逐步视觉推理轨迹的额外
SFT阶段(冷启动),显著提升了初始分数。 -
GRPO 趋势: 随后的
GRPO趋势出现分化:HLE和BC-VL的性能出现波动但未明显改善,而LiveVQA则稳步上升,始终保持 0.06-0.18 的优势。 -
推理链 (CoT) 的影响: 从更大的推理器注入
CoT链使得小模型不稳定,格式违规、重复和上下文溢出激增。这证实了在严格的RL设置下,推理轨迹不能替代SFT冷启动。结论: 冷启动对于
WebWatcher这样的视觉-语言智能体至关重要,因为任务需要通过持续的工具交互进行鲁棒的多跳推理。它为RL训练提供了必要的初始稳定性和性能基础。
6.2.3. HLE 上的 Pass@k 分析 (Pass@k Analysis on HLE)
虽然原文未提供 Pass@k 曲线的图像,但文字描述了其分析结果。
-
单次尝试 (k=1):
WebWatcher在HLE上的pass@1达到了 13.6%。 -
性能随 k 增加而提升:
- 随着 的增加,性能最初急剧上升:三次
roll-out后达到 20.3%,表明少量多样化的轨迹能带来显著增益。 - 准确率持续提升,在 时达到 35.7%,在 时达到 41.9%,几乎是单次推理的四倍,超越了
Gemini-2.5-Pro和o4-mini等推理模型。
- 随着 的增加,性能最初急剧上升:三次
-
边际收益趋于平稳: 曲线平滑表明其去相关采样避免了冗余
roll-out并捕获了互补知识。由于边际收益在 后趋于平稳,实践中可以在 8-16 次roll-out处设置上限,以适度成本获得 2-3 倍的提升。结论:
Pass@k分析展示了代理范式的可扩展性。系统性地探索推理路径可以在具有挑战性的多模态基准上带来持续、稳健的改进。
7. 总结与思考
7.1. 结论总结
本文通过设计 WebWatcher 框架,探索并推动了多模态深度研究领域的发展。WebWatcher 巧妙地结合了复杂的视觉-语言推理能力和灵活的多工具交互。为了支持这一框架,研究者提出了 BrowseComp-VL,一个专门针对深度多模态推理和战略规划的挑战性数据集,并开发了一个可扩展的流水线,能够将复杂的文本 QA 示例转化为 VQA 形式。为了赋予智能体强大的工具使用能力,论文还构建了一个基于行动-观察轨迹的自动化轨迹生成流水线,并通过冷启动 SFT 和 GRPO 强化学习进行优化。实验结果表明,WebWatcher 在 HLE、LiveVQA、BrowseComp-VL 和 MMSearch 等多个高难度基准测试中取得了强大的性能,超越了许多开源和专有研究智能体,同时在偏向感知的 SimpleVQA 基准上也展现出有竞争力的结果。总体而言,WebWatcher 为未来能够自主、灵活且深度推理解决现实世界问题的多模态深度研究智能体奠定了坚实基础。
7.2. 局限性与未来工作
局限性:
- 合成数据依赖: 尽管高质量的合成轨迹对冷启动训练至关重要,但合成数据可能无法完全捕捉真实世界人类生成轨迹的全部复杂性和多样性。这可能在部署到更广泛、更不可预测的实际场景时导致潜在的域漂移 (domain shift) 问题。
LLM-as-Judges的局限性: 论文依赖LLM-as-Judges进行答案评估和轨迹一致性检查。虽然这种方法很流行,但LLM自身可能存在偏差或幻觉问题,尤其是在评估复杂的、模糊的或需要深层理解的推理链时,这可能会影响评估的客观性和可靠性。- 专有基线的透明度问题: 与专有模型(如
GPT-4o、Gemini、Claude)的比较虽然有价值,但这些基线模型的内部工作原理和训练数据是不透明的,使得难以进行深入的方法学比较和归因分析。 - 轨迹生成成本: 自动化轨迹生成流水线依赖于像
GPT-4o这样强大的LLM。生成大规模、高质量的多模态工具使用轨迹可能涉及显著的计算资源和成本。 - 泛化到全新工具或领域: 虽然
WebWatcher展示了工具使用的灵活性,但其在不进行大量再训练或数据生成的情况下,能否轻松适应全新的工具集或截然不同的应用领域,仍是一个开放性问题。 - 推理成本:
Pass@k分析显示,为了获得更高的准确率(例如,在HLE上),需要进行多次rollout(例如 16 次或 32 次),这会显著增加推理时间成本,对于实时应用可能是一个挑战。
未来工作:
论文明确指出“多模态深度研究仍是一个尚未充分开发的领域”,并表示 WebWatcher “为未来的多模态深度研究智能体奠定了坚实基础”。这暗示未来的研究方向可能包括:
- 更强的泛化能力: 探索如何使智能体更好地泛化到未见过的新任务、新工具和新领域,减少对特定任务轨迹生成的依赖。
- 效率提升: 优化轨迹生成和
RL训练过程,降低计算成本,提高训练效率。 - 鲁棒性增强: 提高智能体对模糊信息、矛盾信息和对抗性输入的鲁棒性。
- 更复杂的推理模式: 探索超越当前多跳推理的更深层次、更抽象的推理能力,例如因果推理、常识推理等。
- 人机协作: 研究如何更好地结合人类的洞察力和智能体的自动化能力,实现更高效的人机协作研究范式。
7.3. 个人启发与批判
个人启发:
- 多模态的必然性: 这篇论文进一步强调了多模态在构建真正智能的
AI智能体方面的不可或缺性。现实世界信息本就是多模态的,忽视视觉信息无疑是自我设限。WebWatcher提供了一个令人信服的证据,证明将视觉与语言深度融合,并通过工具增强,可以显著提升智能体解决复杂问题的能力。 - 数据质量的重要性: 论文在数据准备阶段的投入令人印象深刻,特别是通过“模糊化实体”来提高问题难度,以及两阶段的质量控制。这表明高质量、有挑战性、与真实场景匹配的数据集是训练强大智能体的基石。
- 冷启动 + 强化学习的范式:
SFT作为RL的冷启动被证明是解决复杂任务中奖励稀疏和探索效率低下问题的有效策略。这种分阶段训练的方法对于引导智能体学习复杂的工具使用和多步推理至关重要。 - 工具使用范式的灵活性:
WebWatcher能够根据任务需求灵活选择和组合工具,这表明构建一个拥有多样化且可动态调用的工具库,并让智能体学会“何时使用何种工具”是智能体设计中的核心能力。
批判:
- 计算资源门槛: 尽管
WebWatcher-32B相对于一些专有模型具有参数效率,但整个训练过程,特别是高质量合成轨迹的生成(依赖GPT-4o),以及GRPO强化学习,可能需要大量的计算资源。这对于一般的学术研究团队或开源社区而言,可能仍然是一个较高的门槛。 - “黑箱”问题: 像
WebWatcher这样的复杂智能体,其内部的推理过程(尤其是在LLM驱动下)仍然具有一定的“黑箱”性质。虽然ReAct框架提供了Thought来记录思考过程,但这些Thought本身也是LLM生成的,其是否完全忠实于模型内部的决策逻辑,以及在出错时如何进行有效的调试,仍然是挑战。 - 评估指标的局限: 虽然
LLM-as-Judges是评估开放式生成任务的进步,但其自身的可靠性和一致性仍是研究热点。不同的LLM评判者可能给出不同结果,且它们可能受限于评判提示的质量和自身的世界知识。对于“模糊实体”这类需要深层语义理解和上下文推理的问题,LLM评判者是否总能做到绝对公正和准确,值得进一步探讨。 - 真实世界部署的挑战: 论文中的基准测试虽然具有挑战性,但现实世界的网页环境更加动态和复杂,例如网页布局的变化、
CAPTCHA验证、不规范的交互元素等。WebWatcher在这些极端情况下的鲁棒性和泛化能力如何,需要进一步验证。 - 伦理和社会影响: 论文的“伦理声明”部分提到“我们不知道任何潜在的误用、危害或偏见”,这是一种常见的免责声明。然而,随着深度研究智能体能力的增强,其在信息传播、事实核查、甚至舆论引导方面可能产生的社会影响需要更深入的探讨和风险评估。例如,一个强大的深度研究智能体如果被恶意利用,可能会生成误导性信息或进行大规模自动化信息战。
相似论文推荐
基于向量语义检索推荐的相关论文。