AiPaper
论文状态:已完成

Browsing Like Human: A Multimodal Web Agent with Experiential Fast-and-Slow Thinking

发表:2025/07/01
原文链接PDF 下载
价格:0.10
价格:0.10
已有 8 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出WebExperT多模态网页智能体,模拟人类快慢思考机制,有效分解复杂指令,并通过经验性学习从失败中反思,持续优化规划与决策。实验表明其在Mind2Web基准下超越现有方法,具备更接近人类的推理能力。

摘要

Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) , pages 14232–14251 July 27 - August 1, 2025 ©2025 Association for Computational Linguistics Browsing Like Human: A Multimodal Web Agent with Experiential Fast-and-Slow Thinking Haohao Luo 1 * , Jiayi Kuang 1 , Wei Liu 2 , Ying Shen 1 , 4 † , Jian Luan 2 , Yang Deng 3 1 Sun Yat-sen University 2 MiLM Plus, Xiaomi Inc 3 Singapore Management University 4 Guangdong Provincial Key Laboratory of Fire Science and Intelligent Emergency Technology {luohh5,kuangjy6}@mail2.sysu.edu.cn {liuwei40,luanjian}@xiaomi.com sheny76@mail.sysu.edu.cn ydeng@smu.edu.sg Abstract Automating web navigation which aims to build a web agent that follows user instructions to complete tasks like booking flights by inter- acting with websites, has received increasing attention due to its practical value. Although existing web agents are mostly equipped with visual perception, planning, and memory abil- ities, their reasoning process are still deviate from human cognition. In this work, we study the human thought pattern to empower agent with more human-like abilities in web navi- gation. To

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Browsing Like Human: A Multimodal Web Agent with Experiential Fast-and-Slow Thinking (像人类一样浏览:一种具有经验性快慢思考能力的多模态网页智能体)。

1.2. 作者

Haohao Luo, Jiayi Kuang, Wei Liu, Ying Shen, Jian Luan, Yang Deng。 主要隶属机构包括:中山大学 (Sun Yat-sen University)、小米公司 (Xiaomi Inc) 旗下的 MiLM Plus、新加坡管理大学 (Singapore Management University),以及广东省消防科学与智能应急技术重点实验室 (Guangdong Provincial Key Laboratory of Fire Science and Intelligent Emergency Technology)。

1.3. 发表期刊/会议

ACL 2025 Long Papers。 ACL (计算语言学协会年会 (Association for Computational Linguistics)) 是计算语言学和自然语言处理领域最顶级的国际会议之一,享有极高的学术声誉和影响力。在该会议上发表长论文 (Long Papers) 表明研究工作具有创新性、深度和高质量。

1.4. 发表年份

2025年。

1.5. 摘要

本文提出了一种名为 WebExperT 的多模态网页智能体 (multimodal web agent) 框架,旨在通过模拟人类“快慢思考 (thinking fast and slow)”的规划过程和利用经验性学习 (experiential learning) 从失败中反思来自动完成网页导航任务。现有网页智能体虽然具备视觉感知 (visual perception)、规划 (planning) 和记忆 (memory) 能力,但其推理过程仍与人类认知存在偏差。WebExperT 通过双重过程规划机制有效地分解复杂的用户指令,并通过从失败中吸取教训来不断完善规划和决策。在 Mind2Web 基准测试上的实验结果表明,WebExperT 在监督 (supervised) 和无监督 (unsupervised) 设置下均优于现有方法,展示了其卓越的性能。

1.6. 原文链接

https://aclanthology.org/2025.acl-long.697.pdf 发布状态:已正式发表。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 自动化网页导航 (Automating web navigation) 旨在构建能够根据用户指令与网站交互以完成任务(如预订航班)的网页智能体 (web agent)。尽管现有网页智能体大多具备视觉感知 (visual perception)、规划 (planning) 和记忆 (memory) 能力,但它们的推理过程仍然与人类认知存在较大偏差,导致在处理复杂网页任务时效果不佳。

为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白?

  • 实用价值: 自动化网页导航具有巨大的实际应用价值,可以显著提高效率并改善用户体验。
  • 人类认知偏差: 现有网页智能体在推理模式上与人类差异大。人类在面对复杂任务时,会进行多步的深思熟虑 (deliberate reasoning) 和规划,并从经验中学习和反思;而在熟悉场景中则能快速做出直观判断。现有智能体往往依赖于单步推理 (single-step reasoning) 或短期记忆 (short-term memory),难以有效分解复杂指令,也缺乏长期学习和泛化能力。
  • 规划机制局限: 现有智能体的规划机制通常依赖于多模态大语言模型 (multimodal LLMs) 的零样本提示 (zero-shot prompting) 或上下文学习 (in-context learning),这通常局限于单步推理,与人类的认知过程相去甚远。
  • 记忆与学习不足: 多数网页智能体仅限于短期记忆(如前序轨迹),而缺乏人类那种从经验中提取洞察、通过试错和反思分析来巩固知识的长期记忆和经验性学习 (experiential learning) 能力,这限制了它们向新情境的泛化能力。

这篇论文的切入点或创新思路是什么? 本文的创新切入点在于深入研究人类的思维模式,特别是借鉴了丹尼尔·卡尼曼 (Daniel Kahneman) 的“快慢思考 (thinking fast and slow)”双过程理论 (dual-process theory),以及人类从失败中学习和反思的经验性学习机制,以赋予网页智能体更具“人情味”的能力。通过模拟人类的规划和学习过程,旨在弥合现有智能体与人类认知模式之间的差距。

2.2. 核心贡献/主要发现

论文最主要的贡献:

  • 提出 WebExperT 框架: 提出了一种新颖的多模态网页智能体框架 WebExperT,旨在模拟人类的规划过程。
  • 引入双重过程规划机制 (Dual-Process Planning Mechanism): 该机制包含“快思考 (fast thinking)”和“慢思考 (slow thinking)”两种模式,使智能体能够有效地分解复杂的多模态任务。其中,慢思考用于深思熟虑地逐步生成全面计划,并通过监督微调 (supervised fine-tuning) 将知识转移到轻量级模型中,实现快思考的直观判断。
  • 整合经验性学习 (Experiential Learning): WebExperT 通过试错过程和反思分析来巩固经验知识,从而增强其规划能力。当出现失败时,智能体能够通过自我反思 (self-reflection) 从历史失败中学习,持续改进其规划和决策结果。
  • SOTA 性能: 在 Mind2Web 基准测试中,WebExperT 在监督和无监督设置下均超越了现有方法,实现了当前最先进的性能。
  • 代码开源: 作者承诺将开源代码,促进社区进一步研究和复现。

论文得出了哪些关键的结论或发现?

  • 双重过程规划的有效性: 实验结果和消融研究证实,结合“快思考”和“慢思考”的规划机制能够显著提升智能体在复杂网页导航任务中的性能,并且“快思考”能够有效继承“慢思考”的能力,实现效率与准确性的平衡。
  • 经验性学习的重要性: 从失败中学习和反思的机制 (experiential learning) 能够帮助智能体避免重复错误,持续优化其决策和规划,进一步提高任务成功率。
  • 多模态感知的必要性: 结合网页截图 (screenshot) 和 HTML 文档 (HTML document) 的多模态感知对于网页智能体至关重要,两者缺一不可,尤其 HTML 在提供准确信息方面更为关键。
  • 泛化能力强: WebExperT 在跨任务 (Cross-Task)、跨网站 (Cross-Website) 和跨领域 (Cross-Domain) 的设置下均表现出一致的优越性能,证明了其良好的泛化性和可扩展性。
  • 计算效率与实用性: 虽然引入复杂的机制会增加计算开销,但通过“快思考”的优化,WebExperT 可以在可接受的延迟范围内(约15秒)实现最佳决策性能,具有实际可用性。

3. 预备知识与相关工作

3.1. 基础概念

  • 网页智能体 (Web Agent): 一种能够通过模拟人类在网页浏览器上的操作(如点击、输入、选择等)来执行用户指令并完成特定任务的智能系统。它通常需要感知网页内容、理解用户意图、规划行动步骤并执行操作。
  • 多模态大语言模型 (Multimodal Large Language Models, MLLMs): 结合了视觉和语言处理能力的大型语言模型。它们能够理解和生成文本,同时也能处理图像、视频等视觉信息,从而更好地理解多模态输入(如网页截图和文本描述)来做出决策。
  • 自动化网页导航 (Automating Web Navigation): 构建能够自主地在互联网上浏览和操作,以完成复杂任务(如预订机票、在线购物)的智能体。这是一个序列决策问题 (sequential decision-making problem),智能体需要在不断变化的网页环境中做出连续的行动选择。
  • 规划 (Planning): 智能体根据用户指令,将复杂任务分解为一系列更小、可管理的子任务或行动步骤的能力。有效的规划是解决复杂任务的关键,它决定了智能体能否按逻辑顺序执行操作以达到目标。
  • 记忆 (Memory): 智能体存储和检索过去信息的能力,这些信息可以是过去的行动轨迹、观察结果或学习到的经验。记忆可以帮助智能体避免重复错误,应用学到的策略,并在长期任务中保持上下文。
    • 短期记忆 (Short-term memory): 通常指当前任务的最近历史记录或上下文信息,如之前的几次操作。
    • 长期记忆 (Long-term memory): 存储经过提炼的、可泛化的经验和知识,可以跨任务、跨时间进行检索和应用。
  • “快慢思考 (Thinking Fast and Slow)” (双过程理论 (Dual-Process Theory)): 这是一个源自心理学 (psychology) 的认知理论,由丹尼尔·卡尼曼 (Daniel Kahneman) 提出。它将人类的认知过程分为两种模式:
    • 系统1 (System 1) / 快思考 (Fast Thinking): 快速、直观、无意识、启发式的思维模式。它依赖于经验和“肌肉记忆”,在熟悉情境下能迅速做出反应,但可能容易出错。
    • 系统2 (System 2) / 慢思考 (Slow Thinking): 缓慢、深思熟虑、有意识、分析性的思维模式。它需要集中注意力和努力,用于解决复杂问题和新情境,但效率较低。
    • 本文将这两种思维模式应用于智能体规划:慢思考用于复杂任务的初始阶段和训练中生成高质量计划;快思考则通过知识蒸馏 (knowledge distillation) 学习慢思考的经验,在推理阶段快速执行。
  • 经验性学习 (Experiential Learning): 通过从实践经验中,特别是从成功和失败的尝试中学习和反思,从而获得知识、技能和洞察力的过程。在本文中,智能体通过记录失败案例,并对其进行反思,从而生成改进策略,避免未来再次犯错。
  • 监督微调 (Supervised Fine-Tuning, SFT): 使用带有标签的训练数据来进一步训练预训练模型,使其适应特定任务。SFT 通常能让模型在特定任务上表现得更好。
  • 上下文学习 (In-Context Learning, ICL): 在不更新模型参数的情况下,通过向大语言模型提供少量示例 (few-shot examples) 作为输入提示 (prompt),引导模型在新的任务上生成相应输出。
  • 链式思考 (Chain-of-Thought, CoT): 一种提示策略 (prompting strategy),通过引导大语言模型生成一系列中间推理步骤,从而解决复杂问题。它模仿了人类逐步思考的过程。

3.2. 前人工作

  • 网页环境和数据集:
    • 早期:模拟网页环境 (Liu et al., 2018; Mazumder and Riva, 2021; Wang et al., 2024b)。
    • 近期:高质量真实世界数据,如 MinD2WEB (Deng et al., 2023),专注于广泛的网页领域和任务类型。
    • 视觉 UI 理解:Zheng et al., 2024a。
    • 这些数据促进了基于 LLM 大规模微调 (Gur et al., 2024)、LLM 提示 (Kim et al., 2023b) 和强化学习 (Humphreys et al., 2022) 的智能体发展。
  • 多模态网页智能体:
    • 从基于文本 (Yao et al., 2022; Ma et al., 2023) 到多模态 (Zhou et al., 2024; Lee et al., 2023) 感知范式转变。
    • 纯截图输入 (Shaw et al., 2023)。
    • 结合截图和 HTML 数据增强理解 (Furuta et al., 2024)。
    • 在截图中标记交互式网页元素 (He et al., 2024)。
    • MiNDACT (Deng et al., 2023): 一个重要的基线框架,本文在元素定位 (element grounding) 模块上采用了其思想,即使用预训练的语言模型(如 DeBERTa)对 DOM 元素进行排名,选出最相关的候选元素。
    • SEEACT (Zheng et al., 2024b): 另一个重要的基线,其在在线评估中表现出色,通过良好设计的框架优于纯 LLM 方法。
    • Auto-Intent (Kim et al., 2024): 扩展了网页智能体,使其具备意图发现能力。
    • WebGUM (Furuta et al., 2024): 强调更好的感知和多步推理能力。
  • 智能体规划机制:
    • 分治法 (divide-and-conquer) (Shen et al., 2023; Yao et al., 2023b)。
    • 基于搜索:蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS) (Zhao et al., 2023)、A\mathrm{A}^{*} 搜索算法 (Xiao and Wang, 2023)、广度优先搜索 (Breadth-First Search, BFS) (Yao et al., 2023a)。
    • 结合符号规划器 (symbolic planners) 与 LLM 智能体生成自然语言计划 (Guan et al., 2023; Dagan et al., 2023)。
    • LLM 驱动:通过微调和提示策略增强规划能力 (Kim et al., 2023b; Xie and Zou, 2024)。
  • 智能体记忆机制:
    • 短期记忆:上下文学习 (in-context learning) (Fischer, 2023; Song et al., 2023; Wang et al., 2024a)。
    • 长期记忆:存储经验的记忆池 (memory pool) (Park et al., 2023; Zhu et al., 2023; Lin et al., 2023),用作行动范例 (exemplars) (Zheng et al., 2024c; Luo et al., 2024) 或从试错中学习 (Shinn et al., 2023; Zhao et al., 2024a)。

3.3. 技术演进

网页智能体的技术演进大致经历了以下几个阶段:

  1. 早期基于规则或模仿学习: 最初的网页自动化可能依赖于预定义的脚本或模仿用户操作。
  2. 基于文本的网页智能体: 随着自然语言处理技术的发展,智能体开始能够处理网页的文本内容(如 HTML 文档),通过文本分析来理解网页结构和用户指令。然而,纯文本信息往往不足以捕捉复杂的视觉布局和交互上下文。
  3. 多模态感知: 随着多模态大语言模型 (MLLMs) 的兴起,智能体开始整合视觉信息(如网页截图)和文本信息(HTML、DOM 树),从而获得更全面的网页环境理解。这使得智能体能够更准确地识别交互元素和理解用户意图。
  4. 引入规划和记忆: 为了应对复杂任务,研究开始关注为智能体赋予规划能力,将复杂任务分解为子任务。同时,记忆机制被引入,使智能体能够利用历史经验。
  5. 模拟人类认知: 最新的进展,如本文 WebExperT,开始深入探索人类的认知模式(如“快慢思考”),并将其应用于智能体设计,以期在效率、准确性和泛化性方面进一步接近人类水平。这包括了更精细的规划策略和从失败中反思的经验性学习机制。

3.4. 差异化分析

WebExperT 与相关工作中的主要方法相比,核心区别和创新点在于:

  • 双重过程规划机制 (Dual-Process Planning): 现有规划机制多依赖于单步推理或简单的多步分解。WebExperT 首次将人类“快慢思考”的双过程理论引入网页智能体的规划中:
    • 慢思考 (Deliberate Thinking): 在训练阶段使用强大的多模态 LLM 进行深思熟虑的、多步骤的规划,以生成高质量的“黄金计划 (golden plan)”,确保复杂指令的准确分解和理解。
    • 快思考 (Intuitive Thinking): 通过监督微调,将慢思考学到的知识蒸馏到一个轻量级模型中。在推理阶段,这个轻量级模型能够进行快速、直观的单步推理,大大降低了延迟,提高了实时性。这种知识蒸馏 (knowledge distillation) 范式在规划领域是新颖的,有效平衡了准确性和效率。
  • 经验性学习 (Experiential Learning): 现有记忆机制多侧重于短期记忆或简单地复用历史轨迹作为范例。WebExperT 则更进一步,通过构建一个失败历史池 (failure history pool),并利用自我反思 (self-reflection) 机制从失败中提取自然语言洞察 (natural language insights)。这些洞察不仅用于优化规划过程,还直接指导未来的决策,使智能体能够真正地“吃一堑长一智”,避免重复错误,实现长期能力的持续提升。
  • 综合性框架: WebExperT 将多模态感知、双重规划和经验性学习这三个核心组件有机地整合到一个统一的框架中,形成了一个闭环的学习和决策系统,使其在处理真实世界复杂网页任务时更具鲁棒性和适应性。
  • 优越性能与泛化性: 实验结果表明,WebExperT 不仅在各项指标上超越了包括 MiNDACT, SEEACT, Auto-Intent, WebGUM 在内的最新方法,还在跨任务、跨网站、跨领域等泛化性测试中表现出显著优势,尤其在在线评估中也展现了出色的真实世界可用性。

4. 方法论

4.1. 方法原理

WebExperT 的核心思想是模拟人类的认知模式,特别是“快慢思考”的双过程理论 (dual-process theory) 和从失败中学习的经验性学习 (experiential learning)。

  1. 感知与元素定位 (Perception and Element Grounding): 智能体首先处理网页的视觉和文本信息。通过简化 HTML 内容并识别屏幕截图上的交互元素,将这些元素与边界框 (bounding box) 和标签 (label) 绑定。一个轻量级语言模型会筛选出与任务最相关的候选 DOM 元素。
  2. 双重过程规划 (Dual-Process Planning):
    • 慢思考 (Deliberate Thinking): 模拟人类的深思熟虑。在训练阶段,一个强大的多模态大语言模型 (MLLM) 被用于逐步分解复杂的用户指令。它首先提取指令中的关键要求 (keypoints),然后根据人类浏览习惯(从上到下,从左到右)生成粗略的路径 (rough route),最后补充操作和细节形成详细的“黄金计划 (golden plan)”。这个过程是耗时但准确的。
    • 快思考 (Intuitive Thinking): 模拟人类的直觉反应。通过监督微调 (supervised fine-tuning),慢思考阶段生成的“黄金计划”被用来训练一个轻量级模型。这个轻量级模型在推理阶段能够快速、高效地生成计划,就像人类形成“肌肉记忆 (muscle memory)”一样,在熟悉任务中迅速做出判断。
  3. 动作执行 (Action Execution): 根据快思考生成的计划,以及当前网页观察,动作执行器 (action executor) 生成具体的浏览器操作(如点击、输入、选择)。
  4. 经验性学习 (Experiential Learning): 模拟人类从错误中学习。当智能体在训练过程中执行动作失败时,失败的轨迹会被记录在一个失败历史池 (failure history pool) 中。智能体可以从这些失败案例中检索出相关的经验,并通过自我反思 (self-reflection) 模块生成自然语言的洞察 (insights)。这些洞察会用于两个方面:
    • 改进规划: 反思中关于规划的洞察可以用于精炼未来的“黄金计划”。

    • 指导决策: 其他关于决策的洞察会添加到动作执行器的提示 (prompt) 中,帮助智能体避免重复错误。

      通过这种结合了深思熟虑、直觉判断和持续学习的机制,WebExperT 旨在实现更像人类的、高效且鲁棒的网页导航能力。

4.2. 方法步骤与流程

WebExperT 的整体架构如 Figure 2 所示,其工作流程可以分解为以下主要步骤和模块:

核心组件:

  1. 环境感知与元素定位 (Environment Perception & Element Grounding):
    • 输入: 真实世界的网页 W\mathcal{W}、用户指令 qq
    • 环境观察 wtw_t 包括屏幕截图 ss 和 HTML 文本 hh
    • HTML 简化与候选元素识别: 遵循 MiNDACT 框架,使用一个预训练的语言模型(如 DeBERTa)对 HTML 内容进行简化,并根据任务和当前状态,排名并选择出最相关的 NN 个候选 DOM 元素 C={c1,c2,...,cN}\mathcal{C} = \{c_1, c_2, ..., c_N\}
    • 元素视觉定位: 遵循 Zheng et al., 2024b 的方法,在渲染后的屏幕截图 ss 上,为每个候选元素叠加一个带有标签的边界框 (bounding box),生成 sboxs^{box}
  2. 双重过程规划 (Dual-Process Planning) Fplan={Ffast,Fslow}\mathcal{F}_{plan} = \{\mathcal{F}_{fast}, \mathcal{F}_{slow}\}
    • 目标: 将复杂用户指令分解为子任务或计划。
    • Deliberate Thinking Process (慢思考) Fslow\mathcal{F}_{slow} (主要在训练阶段触发)
      • 键点提取器 (Keypoints Extractor) GKE\mathcal{G}_{KE} 从用户指令 qq 和屏幕截图 ss 中识别出需要智能体考虑的关键要求 (key requirements) 作为键点 (keypoints) K={k1,k2,...,km}\boldsymbol{K} = \{k_1, k_2, ..., k_m\}K=GKE(q,s)K = \mathcal{G}_{KE}(q, s)
      • 路径查找器 (Path Finder) GPF\mathcal{G}_{PF} 基于识别出的键点 K\boldsymbol{K} 及其在屏幕截图 ss 中的位置,生成一个粗略的导航路径 (rough route) κr\boldsymbol{\kappa}_r。这模拟了人类从上到下、从左到右的网页浏览习惯。 Kr=GPF(K,s)K_r = \mathcal{G}_{PF}(K, s)
      • 推理规划器 (Reasoning Planner) GRP\mathcal{G}_{RP} 进一步完善粗略路径 κr\boldsymbol{\kappa}_r,为每个键点补充相应的操作 (operation) 和其他必要信息,生成一个详细的“黄金计划 (golden plan)” p^\widehat{p}。这个过程采用链式思考 (Chain-of-Thought) 策略逐步进行。 p^=Fslow(q,s)=GRP(Kr,s) \widehat{p} = \mathcal{F}_{slow}(q, s) = \mathcal{G}_{RP}(K_r, s)
      • 实现: 慢思考模块由现成的多模态大语言模型 (off-the-shelf multimodal language models) 驱动,利用其世界知识 (world knowledge) 来执行上述三个子模块。
    • Intuitive Thinking Process (快思考) Ffast\mathcal{F}_{fast} (在推理阶段使用)
      • 目标: 实现高效的单步推理。
      • 经验规划器 (Empirical Planner) GEP\mathcal{G}_{EP} 这是一个轻量级模型,通过监督微调 (supervised fine-tuning) 继承慢思考阶段生成的“黄金计划” p^\widehat{p} 的规划能力,从而在推理时快速生成计划 ppp=Ffast(q,s)=GEP(q,s) p = \mathcal{F}_{fast}(q, s) = \mathcal{G}_{EP}(q, s)
  3. 动作执行器 (Action Executor) Faction\mathcal{F}_{action}
    • 输入: 用户指令 qq、当前环境观察 sboxs^{box}、候选元素 C\mathcal{C}、快思考生成的计划 pp、以及经验性学习生成的反思 rr(如果存在)。
    • 输出: 可执行的动作序列 A=[a1,a2,...,an]\boldsymbol{\mathcal{A}} = [a_1, a_2, ..., a_n]。每个动作 a={e,o,v}a = \{e, o, v\} 包含:
      • eEe \in \mathcal{E}:交互元素 (interactive element)。
      • oOo \in \mathcal{O}:操作类型 (operation),如 Click (点击) 或 Type (输入)。
      • vv:操作的附加值 (additional value),如输入文本。
    • 执行: 动作执行器根据这些输入生成当前时间步 tt 的动作 ata_tat=Faction(At1,q,sbox,C,p,r) a_t = \mathcal{F}_{action}(\mathcal{A}_{t-1}, q, s^{box}, \mathcal{C}, p, r)
  4. 经验性学习 (Experiential Learning) Freflect\mathcal{F}_{reflect}
    • 目标: 通过从失败中反思来持续改进规划和决策。
    • 失败历史池 M\mathcal{M} 在训练过程中,当动作执行器未能生成正确的动作(即 atat^a_t \neq \widehat{a_t})时,会将失败的尝试 m={At1,q,p^}m = \{\mathcal{A}_{t-1}, q, \widehat{p}\}(包括用户指令、之前动作序列和黄金计划)存储到这个池中。
    • 相关失败检索: 当发生新失败时,智能体会从 M\mathcal{M} 中检索出与当前任务最相关的 kk 个失败案例 {m1,...,mk}\{m_1, ..., m_k\}。这通过将失败尝试编码为语义向量 (semantic vector) 并计算余弦相似度 (cosine similarity) 来实现。
    • 反思生成 Freflect\mathcal{F}_{reflect} 使用一个 LLM(如 GPT-4o)根据检索到的失败案例生成自然语言的反思 (reflection) rrr=Freflect(m1,m2,...,mk) r = \mathcal{F}_{reflect}(m_1, m_2, ..., m_k)
    • 反馈机制: 生成的反思 rr 会用于:
      • 精炼黄金计划: 针对规划相关的反思,用于指导慢思考模块,生成更优的黄金计划 p^r=Fslow(q,s,r)\widehat{p}_r = \mathcal{F}_{slow}(q, s, r)
      • 指导动作执行: 其他反思则直接添加到动作执行器的提示中,以引导未来的决策。

两阶段训练程序 (Two-Stage Training Procedure) (Algorithm 1):

  1. 阶段1:微调动作执行器 (Finetuning Action Executor)
    • 输入: 训练数据集 D\mathcal{D} 中的每个样本 {At1,q,sbox,C,at^}\{\mathcal{A}_{t-1}, q, s^{box}, \mathcal{C}, \widehat{a_t}\}
    • 慢思考生成黄金计划: 对于每个样本,通过慢思考模块 Fslow\mathcal{F}_{slow} 生成黄金计划 p^\widehat{p}
      • p^Fslow(q,s) \widehat{p} \gets \mathcal{F}_{slow}(q, s)
    • 微调动作执行器: 使用用户输入 Ut={At1,q,sbox,C}U_t = \{\mathcal{A}_{t-1}, q, s^{box}, \mathcal{C}\} 和黄金计划 p^\widehat{p} 来监督微调动作执行器 Faction\mathcal{F}_{action},使其预测动作 ata_t 接近真实动作 at^\widehat{a_t}
    • 损失函数: 最小化负对数似然损失 (negative log-likelihood loss)。
    • 记录失败: 如果预测动作 ata_t 不等于真实动作 at^\widehat{a_t},则将该失败尝试 m=(At1,q,p^)m = (\mathcal{A}_{t-1}, q, \widehat{p}) 添加到失败历史池 M\mathcal{M}
  2. 阶段2:微调经验规划器 (Finetuning Empirical Planner)
    • 输入: 训练数据集 D\mathcal{D} 中的每个样本。
    • 检索失败经验与生成反思: 如果失败历史池 M\mathcal{M} 非空,则检索出与当前任务最相关的 kk 个失败尝试 {m1,...,mk}\{m_1, ..., m_k\},并通过反思生成模块 Freflect\mathcal{F}_{reflect} 生成反思 rr
    • 精炼黄金计划: 利用反思 rr 精炼黄金计划,得到 p^r=Fslow(q,s,r)\widehat{p}_r = \mathcal{F}_{slow}(q, s, r)
    • 微调经验规划器: 使用精炼后的黄金计划 p^r\widehat{p}_r 来监督微调经验规划器 Ffast\mathcal{F}_{fast},使其预测计划 pp 接近 p^r\widehat{p}_r
    • 损失函数: 最小化负对数似然损失。

推理程序 (Inference Procedure) (Algorithm 2):

  1. 输入: 用户输入 {At1,q,sbox,C}\{\mathcal{A}_{t-1}, q, s^{box}, \mathcal{C}\}
  2. 快思考生成计划: 通过经验规划器 Ffast\mathcal{F}_{fast} 生成计划 pppFfast(q,s) p \gets \mathcal{F}_{fast}(q, s)
  3. 检索失败经验与生成反思: 从训练阶段累积的失败历史池 M\mathcal{M} 中检索出最相关的 kk 个失败尝试,并生成反思 rr
  4. 动作执行: 动作执行器 Faction\mathcal{F}_{action} 利用当前输入、计划 pp 和反思 rr 生成最终动作 ata_tat=Faction(At1,q,sbox,p,r) a_t = \mathcal{F}_{action}(A_{t-1}, q, s^{box}, p, r)
    • 注意: 在推理阶段,失败历史池 M\mathcal{M} 不会更新,以降低实际应用的延迟。

4.3. 数学公式与关键细节

4.3.1. 键点提取器 (Keypoints Extractor)

用于从用户指令 qq 和屏幕截图 ss 中识别关键要求,生成键点 KKK=GKE(q,s)K = \mathcal{G}_{KE}(q, s)

  • KK: 提取出的关键点集合。
  • GKE\mathcal{G}_{KE}: 键点提取器模块。
  • qq: 用户指令。
  • ss: 当前网页的屏幕截图。

4.3.2. 路径查找器 (Path Finder)

用于基于键点 KK 及其在屏幕截图 ss 中的位置,生成粗略的导航路径 KrK_rKr=GPF(K,s)K_r = \mathcal{G}_{PF}(K, s)

  • KrK_r: 生成的粗略路径。
  • GPF\mathcal{G}_{PF}: 路径查找器模块。
  • KK: 键点提取器提取出的关键点集合。
  • ss: 当前网页的屏幕截图。

4.3.3. 推理规划器 (Reasoning Planner) (慢思考模块)

用于将粗略路径 KrK_r 完善为详细的黄金计划 p^\widehat{p}p^=Fslow(q,s)=GRP(Kr,s) \widehat{p} = \mathcal{F}_{slow}(q, s) = \mathcal{G}_{RP}(K_r, s)

  • p^\widehat{p}: 生成的黄金计划。
  • Fslow\mathcal{F}_{slow}: 慢思考模块(包含推理规划器)。
  • GRP\mathcal{G}_{RP}: 推理规划器模块。
  • qq: 用户指令。
  • ss: 当前网页的屏幕截图。
  • KrK_r: 路径查找器生成的粗略路径。

4.3.4. 经验规划器 (Empirical Planner) (快思考模块)

用于在推理阶段快速生成计划 pp,通过监督微调从慢思考中学习。 p=Ffast(q,s)=GEP(q,s) p = \mathcal{F}_{fast}(q, s) = \mathcal{G}_{EP}(q, s)

  • pp: 经验规划器生成的计划。
  • Ffast\mathcal{F}_{fast}: 快思考模块(包含经验规划器)。
  • GEP\mathcal{G}_{EP}: 经验规划器模块。
  • qq: 用户指令。
  • ss: 当前网页的屏幕截图。

4.3.5. 反思生成 (Reflection Generation)

用于从检索到的失败尝试中生成自然语言反思 rrr=Freflect(m1,m2,...,mk) r = \mathcal{F}_{reflect}(m_1, m_2, ..., m_k)

  • rr: 生成的反思。
  • Freflect\mathcal{F}_{reflect}: 反思生成模块。
  • m1,m2,...,mkm_1, m_2, ..., m_k: 检索到的 kk 个相关失败尝试。

4.3.6. 动作执行器 (Action Executor)

根据用户指令、环境观察、计划和反思生成动作 ata_tat=Faction(At1,q,sbox,C,p,r) a_t = \mathcal{F}_{action}(A_{t-1}, q, s^{box}, \mathcal{C}, p, r)

  • ata_t: 在时间步 tt 生成的动作。
  • Faction\mathcal{F}_{action}: 动作执行器模块。
  • At1A_{t-1}: 时间步 t-1 之前的动作序列。
  • qq: 用户指令。
  • sboxs^{box}: 带有边界框标记的屏幕截图。
  • C\mathcal{C}: 候选 DOM 元素集合。
  • pp: 快思考模块生成的计划。
  • rr: 经验性学习生成的反思。

4.3.7. 训练目标 (Training Objective)

最小化负对数似然损失 (negative log-likelihood loss)。 L(y,y^)=1Ll=1Lyl^log(exp(yl)ilexp(yi)) \mathcal{L}(y, \widehat{y}) = - \frac{1}{L} \sum_{l=1}^L \widehat{y_l} \log\left(\frac{\exp{(y_l)}}{\sum_i^l \exp{(y_i)}}\right)

  • L\mathcal{L}: 损失函数。
  • yy: 模型生成的序列(或预测的 token 分布)。
  • y^\widehat{y}: 真实的(地面真值)序列。
  • LL: 输出序列的最大长度。
  • ll: 序列中的 token 索引。
  • yl^\widehat{y_l}: 真实序列 y^\widehat{y} 中第 ll 个 token 的 one-hot 编码(或其概率为1)。
  • yly_l: 模型预测的第 ll 个 token 的对数几率 (logit)。
  • exp(yl)/ilexp(yi)\exp{(y_l)} / \sum_i^l \exp{(y_i)}: 模型预测的第 ll 个 token 为真实 token 的概率(经过 softmax 归一化)。
  • 这个公式计算的是模型预测概率分布与真实概率分布之间的交叉熵 (cross-entropy),目标是使模型输出的 token 序列与地面真值序列尽可能一致。

4.3.8. 失败尝试的语义编码 (Semantic Encoding of Failure Trials)

将失败尝试 mm 编码为语义向量 V\mathcal{V}V=Fencode(m) \mathcal{V} = \mathcal{F}_{encode}(m)

  • V\mathcal{V}: 失败尝试 mm 的语义向量表示。
  • Fencode()\mathcal{F}_{encode}(\cdot): 编码器,这里是 DeBERTa-v3-base。
  • mm: 失败尝试,包括用户指令、之前动作序列和黄金计划。

4.3.9. 相关失败尝试检索 (Retrieval of Relevant Failure Trials)

通过计算当前实例与失败历史池中所有失败尝试的语义向量之间的余弦相似度 (cosine similarity) 来检索最相关的失败尝试。 T=argmaxi{1,2...,T}((Vi)TVVi2V2) \mathcal{T} = \arg\max_{i \in \{1, 2..., T\}} \left( \frac{(\mathcal{V}^i)^T \mathcal{V}}{\|\mathcal{V}^i\|_2 \|\mathcal{V}\|_2} \right)

  • T\mathcal{T}: 最相关失败尝试的索引。
  • TT: 失败历史池中失败尝试的总数。
  • Vi\mathcal{V}^i: 失败历史池中第 ii 个失败尝试的语义向量。
  • V\mathcal{V}: 当前失败尝试的语义向量。
  • ()T(\cdot)^T: 向量转置。
  • 2\|\cdot\|_2: 向量的 L2 范数(欧几里得范数)。
  • 这个公式计算的是两个向量之间的点积除以它们 L2 范数的乘积,结果是余弦相似度,值越接近 1 表示两个向量方向越一致,即语义越相关。

5. 实验设置

5.1. 数据集

实验主要在 MinD2WEB (Deng et al., 2023) 数据集上进行评估。

  • 来源与特点: MinD2WEB 是一个为真实世界网页导航设计的综合性数据集,包含超过 2,000 个复杂网页任务。这些任务从 137 个真实世界网站收集,涵盖 31 个不同的领域,如旅行和购物。该数据集支持核心操作如 Click (点击)、Type (输入) 和 Select (选择),并将 Hover (悬停) 和 Press Enter (按回车) 操作集成到 Click 中以减少歧义。

  • 评估泛化能力: 该数据集的测试集设计旨在评估网页智能体在任务、网站和领域方面的泛化能力,分为以下三种设置:

    • 跨任务 (Cross-Task): 在已包含的领域和网站内,测试智能体处理未见过任务的能力。
    • 跨网站 (Cross-Website): 引入来自每个顶级域名的 10 个新网站的任务,测试智能体对新网站的泛化能力。
    • 跨领域 (Cross-Domain): 评估智能体在两个完全未见的顶级域名中的任务性能,测试其对新领域的泛化能力。
  • 数据集统计: 以下是原文 Table 1 的结果:

    Split # Tasks # Domains # Websites Avg # Actions
    Train 1,009 17 73 8.0
    Cross-Task 177 17 64 7.2
    Cross-Website 142 9 10 7.5
    Cross-Domain 694 13 53 8.1
  • 为什么选择这些数据集进行实验? MinD2WEB 因其真实世界任务的复杂性、广泛的领域覆盖、多样化的网站和严格的泛化能力测试设置,成为评估通用网页智能体的理想选择。它能够全面测试智能体在感知、规划、执行和适应新环境方面的能力。

5.2. 评估指标

对论文中出现的每一个评估指标,进行以下说明:

  1. 时间成本 (Time Cost)

    • 概念定义 (Conceptual Definition): 指智能体在执行任务过程中,从接收指令到生成下一个动作所需的平均推理时间,通常以秒为单位。它量化了智能体的响应速度和计算效率,是衡量其在实际应用中可用性的关键指标。
    • 数学公式 (Mathematical Formula): 论文未给出具体公式,通常为所有步骤推理时间的总和除以总步数。 Time Cost=i=1NTiN \text{Time Cost} = \frac{\sum_{i=1}^{N} T_i}{N}
      • 符号解释 (Symbol Explanation):
        • TiT_i: 第 ii 个推理步骤所需的时间。
        • NN: 总推理步骤数。
    • 关注点: 智能体在实际应用中的响应速度和效率。
  2. 元素准确率 (Element Accuracy, Ele. Acc)

    • 概念定义 (Conceptual Definition): 衡量智能体在每个时间步中,选择的交互式网页元素(如按钮、输入框)与地面真值 (ground-truth) 元素匹配的准确程度。它关注的是智能体能否正确识别和定位用户需要操作的网页元素。
    • 数学公式 (Mathematical Formula): 论文未给出具体公式,通常为正确选择的元素数量占总步骤数的比例。 Ele. Acc=Number of Correctly Selected ElementsTotal Steps \text{Ele. Acc} = \frac{\text{Number of Correctly Selected Elements}}{\text{Total Steps}}
    • 关注点: 智能体对网页元素的识别和定位能力。
  3. 操作 F1 值 (Operation F1, Op. F1)

    • 概念定义 (Conceptual Definition): 衡量智能体预测的操作类型(如 ClickTypeSelect)及其附加值(如输入文本、选择项)与地面真值操作匹配程度的 F1 分数。F1 分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值,能综合评估模型在操作预测上的表现。这里是 token 级别的 F1,意味着不仅操作类型要对,其附加值(如输入文本的每个词元)也要准确。
    • 数学公式 (Mathematical Formula): F1 分数由精确率 (Precision) 和召回率 (Recall) 计算得出。 P=True PositivesTrue Positives+False Positives P = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}} R=True PositivesTrue Positives+False Negatives R = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}} F1=2×P×RP+R \text{F1} = 2 \times \frac{P \times R}{P + R}
      • 符号解释 (Symbol Explanation):
        • PP: 精确率,模型预测为正例中真正为正例的比例。
        • RR: 召回率,所有正例中被模型正确预测为正例的比例。
        • True Positives (TP): 模型正确预测为正例的数量。
        • False Positives (FP): 模型错误预测为正例的数量。
        • False Negatives (FN): 模型错误预测为负例的数量。
    • 关注点: 智能体对操作类型和附加值的准确预测能力。
  4. 步骤成功率 (Step Success Rate, Step SR)

    • 概念定义 (Conceptual Definition): 衡量智能体在每个时间步中,同时正确选择了交互式元素和预测了正确操作的步骤比例。只有当元素和操作都正确时,该步骤才被认为是成功的。该指标是 Ele. Acc 和 Op. F1 的更严格组合,直接反映了智能体在单步决策上的整体有效性。论文设定,每个步骤的评估都基于“假设模型成功完成了所有前一步骤”的前提,即提供前一步骤的“地面真值”动作。
    • 数学公式 (Mathematical Formula): 论文未给出具体公式。 Step SR=Number of Steps with Correct Element AND Correct OperationTotal Steps \text{Step SR} = \frac{\text{Number of Steps with Correct Element AND Correct Operation}}{\text{Total Steps}}
    • 关注点: 智能体在每个时间步中决策的整体准确性和有效性。
  5. 整体任务成功率 (Whole Task Success Rate, Whole Task SR)

    • 概念定义 (Conceptual Definition): 在在线评估 (online evaluation) 中使用,衡量智能体从开始到结束成功完成整个复杂网页导航任务的比例。这通常需要人工评估员监控智能体的行为,并判断整个任务是否按用户指令完成。这是最能反映智能体在真实世界中实用性的指标。
    • 数学公式 (Mathematical Formula): 论文未给出具体公式。 Whole Task SR=Number of Successfully Completed Whole TasksTotal Tasks \text{Whole Task SR} = \frac{\text{Number of Successfully Completed Whole Tasks}}{\text{Total Tasks}}
    • 关注点: 智能体在真实复杂任务中端到端 (end-to-end) 的完成能力。

5.3. 对比基线

论文将 WebExperT 与以下两种设置下的基线模型进行了比较:

  1. 上下文学习 (In-Context Learning, ICL) 设置:

    • GPT-3.5 (Few-shot): OpenAI 的 GPT-3.5 模型,通过提供少量示例进行上下文学习。
    • GPT-4 (Few-shot): OpenAI 的 GPT-4 模型,通过提供少量示例进行上下文学习。
    • GPT-4o (Few-shot): OpenAI 的 GPT-4o 模型,通过提供少量示例进行上下文学习,具有多模态推理能力。
    • CogAgent (Hong et al., 2024): 一个基于 CogAgent18B 模型的视觉语言模型 (visual language model),专为 GUI (图形用户界面) 智能体设计。
    • WebExperT (GPT-4o): WebExperT 框架使用 GPT-4o 作为其骨干模型进行 ICL 设置下的评估,以便与纯 ICL 方法进行公平比较,展示其架构带来的提升。
  2. 监督微调 (Supervised Fine-Tuning, SFT) 设置:

    • MinDACT (Deng et al., 2023): 一个基础的网页智能体框架,利用 DeBERTa 进行元素排名。
    • SEEACT (Zheng et al., 2024b): 最先进的多模态网页智能体框架之一,以其在在线评估中的出色表现而闻名。
    • Auto-Intent (Kim et al., 2024): 扩展了网页智能体,使其具有意图发现和自我探索能力。
    • WebGUM (Furuta et al., 2024): 强调更好的感知和多步推理能力的多模态网页智能体。
    • WebExperT (Flan-T5Base, Flan-T5Large, Flan-T5xL): WebExperT 框架在不同大小的 Flan-T5 模型(Flan-T5Base, Flan-T5Large, Flan-T5xL)上进行监督微调,以展示其性能与骨干模型规模的关系。

为什么选择这些基线? 这些基线模型代表了当前网页智能体领域最先进或具有代表性的方法,涵盖了不同的技术范式(ICL 与 SFT)和骨干模型(GPT 系列、CogAgent、Flan-T5)。通过与这些模型进行比较,可以全面评估 WebExperT 的优势,并验证其在不同设置下的有效性和竞争力。特别地,为了公平比较 SFT 方法,所有 SFT 基线都统一使用 Flan-T5 (Chung et al., 2024) 作为骨干模型,以避免模型能力差异带来的影响。

5.4. 实现细节 (Implementation Details)

5.4.1. HTML 简化 (HTML Simplification)

  • 方法: 遵循 MiNDACT (Deng et al., 2023) 框架。
  • 模型: 使用 Sentence-Transformers 和微调后的 DeBERTa-v3-base (He et al., 2021) 作为骨干模型,用于排名最相关的 DOM 元素。
  • 候选池: 选择排名前 26 位的 DOM 元素作为候选池,并用 A 到 Z 的标签进行标记。
  • 训练参数: 批量大小 (batch size) 为 32,学习率 (learning rate) 为 3×1053 \times 10^{-5},训练 5 个 epoch。

5.4.2. 动作生成 (Action Generation)

  • 上下文学习 (In-Context Learning, ICL):
    • 模型: 使用 OpenAI API 访问 gpt-4o
    • 示例: 包含 3 个演示示例 (demonstration examples)。
    • 注意: 在 ICL 设置下,动作执行器 Faction\mathcal{F}_{action} 仅用于生成动作,其参数不会更新。
  • 监督微调 (Supervised Fine-Tuning, SFT):
    • 骨干模型: 使用 Flan-T5 (Chung et al., 2024) 系列(Flan-T5-BaseFlan-T5-LargeFlan-T5-XL)。
    • 序列长度: 输入和输出序列的最大长度均设置为 2048。
    • 微调策略: 由于 CUDA 内存限制,采用 Q-LoRA (Dettmers et al., 2023) 作为微调策略。
    • 训练参数: 批量大小减小到 1,学习率为 1×1041 \times 10^{-4},预热比 (warmup ratio) 为 0.03。模型只微调 1 个 epoch。
    • 视觉编码器 (Vision Encoder): 采用 ViT-L/14 336px,该模型经过 CLIP (Radford et al., 2021) 预训练,图像分辨率为 2048。

5.4.3. 双重过程规划 (Dual-Process Planning)

  • 慢思考 (Deliberate Thinking):
    • 模块实现: 键点提取器 (Keypoints Extractor)、路径查找器 (Path Finder) 和推理规划器 (Reasoning Planner) 均由 GPT-4o API 驱动。
  • 快思考 (Intuitive Thinking):
    • 模型: 经验规划器 (Empirical Planner) 使用 InternVL2-8B (Chen et al., 2024) 作为骨干多模态 LLM。
    • 微调配置: 采用 SWIFT 框架 (Zhao et al., 2024b) 的默认微调配置。

5.4.4. 经验性学习 (Experiential Learning)

  • 反思生成 (Reflection Generation): 同样使用现成的 GPT-4o API 来从失败历史中提取洞察。
  • 任务相关失败检索 (Task-relevant Trial Retrieval):
    • 编码器: 使用 DeBERTa-v3-base (He et al., 2021) 将每个失败尝试 mm 编码成语义向量 V\mathcal{V}
    • 检索方式: 计算当前实例与失败历史池中所有失败尝试的语义向量之间的余弦相似度,检索出最邻近的 kk 个(这里指 kk 个最相关)尝试作为最相关的示例。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 离线评估结果 (Offline Evaluation Results)

以下是原文 Table 2 的结果:

Method Base Model Time Cost Cross-Task Cross-Website Cross-Domain
Ele.Acc Op. F1 Step SR Ele.Acc Op. F1 Step SR Ele.Acc Op. F1 Step SR
In-Context Learning
Few-shot GPT-3.5 0.9s 19.4 59.2 16.8 14.9 56.5 14.1 25.2 57.9 24.1
Few-shot GPT-4 1.3s 40.8 63.1 32.3 30.2 61.0 27.0 35.4 61.9 29.7
Few-shot GPT-4o 3.5s 42.0 63.9 32.8 31.5 61.3 27.9 36.6 62.1 30.5
CogAgent (Hong et al., 2024) CogAgent18B 4.7s 22.4 53.0 17.6 18.4 42.2 13.4 20.6 42.0 15.5
WebExperT GPT-4o 16.2s 45.6 67.4 39.2 39.3 63.5 36.4 42.9 64.9 37.1
Supervised Fine-Tuning
MinDACT (Deng et al., 2023) Flan-T5xL 9.5s 55.1 75.7 52.0 42.0 65.2 38.9 42.1 66.5 39.6
SEEACT (Zheng et al., 2024b) Flan-T5xL 10.7s 52.9 74.9 50.3 41.7 74.1 38.3 43.8 73.4 39.6
Auto-Intent (Kim et al., 2024) Flan-T5xL - 55.8 73.3 50.1 47.6 64.0 40.0 47.3 66.3 42.5
WebGUM (Furuta et al., 2024) Flan-T5xL - 57.2 80.3 53.7 45.3 70.9 41.6 43.9 72.2 41.4
WebExperT Flan-T5Base 14.9s 45.2 81.5 41.1 44.9 77.0 39.4 38.3 78.1 33.9
WebExperT Flan-T5Large 15.1s 55.0 83.1 49.9 49.1 78.2 43.7 44.8 81.0 40.4
WebExperT Flan-T5xL 15.4s 60.3 84.4 54.9 53.9 79.6 49.0 48.5 81.5 44.0

分析:

  • WebExperT 的优越性:
    • WebExperT 在所有测试分割(跨任务、跨网站、跨领域)上都始终优于现有最先进的模型。
    • 在 ICL 设置下,WebExperT (GPT-4o) 的 Step SR 比纯 GPT-4o (Few-shot) 高出 6.4% (跨任务)、8.5% (跨网站) 和 6.6% (跨领域),表明其精心设计的规划和经验性学习机制即使在强大的基础模型上也能带来显著提升。
    • 在 SFT 设置下,WebExperT (Flan-T5xL) 相较于 WebGUM 在跨任务设置中 Step SR 提升 1.2%,在跨网站和跨领域设置中分别提升 7.4% 和 4.4%。这验证了 WebExperT 框架的有效性。
  • 基础模型规模的影响: WebExperT 的性能随着骨干模型(Flan-T5Base 到 Flan-T5xL)的增大而提升,这表明其框架能够很好地利用更强大的多模态 LLM 的能力。
  • SFT 与 ICL 的比较: 所有 ICL 方法的性能都显著落后于 SFT 方法,强调了 SFT 在网页智能体任务中的优越性。
  • 泛化能力: WebExperT 在跨任务、跨网站、跨领域三个分割上均表现出一致的高性能,尤其在跨领域分割上的相对提升高于其他分割,这突出了其框架的通用性和可扩展性。
  • 时间成本:
    • 虽然 WebExperT 的时间成本(15.4s 使用 Flan-T5xL,16.2s 使用 GPT-4o)高于一些 Few-shot 方法(如 GPT-4o Few-shot 的 3.5s),但这是因为其复杂而有效的子模块(如元素定位、双重规划和经验性学习)带来了计算开销。
    • 然而,论文认为大约 15 秒的延迟在现有自动化网页导航研究中是可接受的,并具有良好的实际可用性。

6.1.2. 在线评估结果 (Online Evaluation Results)

以下是原文 Table 4 的结果:

Method Whole Task SR(%)
FLAN-T5-XL 8.9
GPT-4 13.3
SEEACT 31.5
WebExperT 33.2

分析:

  • 真实世界适用性: 在真实浏览器环境中进行的在线评估显示,WebExperT 实现了 33.2% 的整体任务成功率 (Whole Task SR),略高于 SEEACT (31.5%),并远超 GPT-4 (13.3%) 和 FLAN-T5-XL (8.9%)。
  • 这进一步证明了 WebExperT 框架的实际可用性,即使是微调模型,只要配备了足够精良的可扩展性增强模块,也能在真实世界场景中表现出色。

6.2. 消融实验/参数分析

6.2.1. SFT 设置下的消融研究

以下是原文 Table 3 的结果:

Method Cross-Task Cross-Website Cross-Domain
Ele.Acc Op. F1 Step SR Ele.Acc Op. F1 Step SR Ele.Acc Op. F1 Step SR
WebExperT 60.3 84.4 54.9 53.9 79.6 49.0 48.5 81.5 44.0
- w/o Intuitive Thinking 60.1 84.4 54.8 53.8 79.6 48.9 48.3 81.4 43.9
- w/o Deliberate Thinking 57.6 82.6 53.7 47.0 77.1 43.0 45.3 80.2 42.5
- w/o Dual-Process Planning 56.1 82.4 53.6 46.5 76.1 42.2 44.9 79.8 42.5
- w/o Experiential Learning 59.3 84.1 54.2 52.7 77.9 48.1 47.3 80.4 43.2
- w/o Screenshot 58.4 83.2 52.6 52.5 79.4 46.7 47.9 79.5 43.2
- w/o HTML 34.0 82.3 29.6 33.9 78.4 29.7 29.0 79.8 25.1

分析:

  • 双重过程规划 (Dual-Process Planning) 的有效性:
    • “无直觉思考 (w/o Intuitive Thinking)”: 在推理阶段使用慢思考代替直觉思考,性能略有下降,这表明直觉思考很好地继承了慢思考的能力,并成功发展了“肌肉记忆”,验证了快慢思考协同工作的有效性。
    • “无深思熟虑 (w/o Deliberate Thinking)”: 在训练阶段移除深思熟虑模块导致 Step SR 在跨任务、跨网站和跨领域分割上分别下降 1.2%、6.0% 和 1.5%。这表明深思熟虑的规划对于构建高质量的训练数据和智能体的长期能力至关重要。
    • “无双重过程规划 (w/o Dual-Process Planning)”: 完全移除规划模块导致性能急剧下降,尤其在跨网站性能上下降 6.8%,进一步验证了“快慢思考”规划机制的有效性。
  • 经验性学习 (Experiential Learning) 的影响: 移除经验性学习机制导致 Step SR 在三个测试分割上分别下降 0.7%、0.9% 和 0.8%。这表明从失败历史中提取的经验和反思确实有助于 WebExperT 避免重复错误并改进决策。
  • 多模态环境观察 (Multimodal Environment Observation) 的重要性:
    • 移除渲染后的屏幕截图 (w/o Screenshot) 导致性能大幅下降,在跨任务分割上 Step SR 下降 2.3%。
    • 移除 HTML 文档 (w/o HTML) 导致性能急剧下降,在跨任务分割上 Step SR 下降 25.3%。这突出强调了在自动化网页导航任务中,视觉信息和文本信息(特别是 HTML)都不可或缺,并且 HTML 提供的信息对于智能体理解网页结构和上下文更为关键。

6.2.2. ICL 设置下的消融研究 (GPT-4o Based WebExperT)

以下是原文 Table 7 的结果:

Method Cross-Task Cross-Website Cross-Domain
Ele.Acc Op. F1 Step SR Ele.Acc Op. F1 Step SR Ele.Acc Op. F1 Step SR
WebExperT 45.6 67.4 39.2 39.3 63.5 36.4 42.9 64.9 37.1
- w/o Intuitive Thinking 45.5 67.4 39.1 39.2 63.5 36.2 42.9 64.8 37.0
- w/o Deliberate Thinking 44.0 67.0 38.5 35.4 61.9 32.8 39.3 62.7 35.0
- w/o Dual-Process Planning 43.1 66.8 38.2 35.0 61.7 32.6 38.8 62.6 34.9
- w/o Experiential Learning 44.7 67.0 38.4 37.5 62.3 32.9 40.2 63.7 35.5
- w/o Screenshot 43.3 66.9 38.6 36.1 63.0 35.7 39.5 64.5 36.1
- w/o HTML 23.2 60.5 27.0 20.7 55.3 25.3 22.5 57.0 27.4

分析:

  • 即使以强大的 GPT-4o 作为基础模型,移除 WebExperT 的任何组件(如双重过程规划、经验性学习、截图或 HTML)都会导致性能下降,这与 SFT 设置下的观察结果一致。
  • 这进一步证实了 WebExperT 中所有子模块的必要性和通用性,无论是在 SFT 还是 ICL 设置下,它们都对提高智能体的性能起着关键作用。

6.3. 进一步分析 (Further Analysis)

6.3.1. 深思熟虑 (Deliberate Thinking) 分析

以下是原文 Table 5 的结果:

Modules Rel. Coh. Mat. Overall
RP 3.82 3.91 4.07 3.94
KE + RP 4.64 4.02 4.18 4.19
PF + RP 4.01 4.19 4.03 4.13
KE + PF + RP 4.64 4.23 4.31 4.59

分析:

  • 黄金计划 (Golden Plan) 质量: 人工评估结果显示,WebExperT 的慢思考模块,在结合了键点提取器 (KE)、路径查找器 (PF) 和推理规划器 (RP) 所有三个模块后,生成的黄金计划取得了令人印象深刻的 4.59 总体 (Overall) 评分(满分 5 分),验证了其生成计划的高质量。
  • 各模块的重要性: 移除任何一个模块都会导致各项指标(关联性 Rel.、连贯性 Coh.、匹配性 Mat.、总体 Overall)的性能下降。这表明每个模块都对生成高质量的黄金计划至关重要。
  • 组合优势: 单独依赖推理规划器 (RP) 进行单步推理时,性能最差,凸显了键点提取和路径查找在复杂规划中的价值。

6.3.2. 直觉思考 (Intuitive Thinking) 分析

以下是原文 Table 6 的结果:

Base Model Cross-Task Cross-Website Cross-Domain
B-4 R-L B-4 R-L B-4 R-L
Empirical Planner
- InternVL2 75.8 74.2 83.2 83.6 80.1 79.8
- Qwen-VL 74.9 74.2 75.2 73.5 78.3 75.0
- LLaVA 74.8 73.9 78.5 78.1 76.3 74.5
- InstructBLIP 71.2 70.5 69.1 69.7 68.8 67.7

分析:

  • 知识转移的有效性: 经验规划器在跨网站分割上取得了 83.2 的 BLEU-4 和 83.6 的 ROUGE-L 分数(与黄金计划的匹配度),这表明它有效地继承了推理规划器的能力,通过实践形成了“肌肉记忆”,验证了知识蒸馏的成功。
  • 骨干模型的选择: 比较不同的视觉语言模型 (VLM) 作为经验规划器的骨干模型,InternVL2 (Chen et al., 2024) 表现最佳,验证了其适用于经验规划器。
  • 框架通用性: 尽管不同基础模型之间存在细微性能差异,但所有模型在测试分割上都表现出强劲结果,进一步确认了 WebExperT 双重过程规划框架的有效性和通用性。

6.3.3. 时间成本分析 (Time Cost Analysis)

下图(原文 Figure 3)展示了快思考与慢思考的响应时间:

Figure 3: The response time of fast-and-slow thinking. 分析:

  • 效率提升: 深思熟虑 (deliberate thinking) 通常需要 7.5 到 10 秒进行多步规划,平均响应时间为 8.5 秒。相比之下,直觉思考 (intuitive thinking) 的响应时间始终低于 3 秒,平均响应时间为 2.6 秒,比慢思考快 3 倍以上。这证明了直觉思考在加速规划过程和提高推理效率方面的有效性。

    下图(原文 Figure 4)展示了 WebExperT 中所有模块的响应时间:

    Figure 4: The response time of all modules in WebExperT. 分析:

  • 模块耗时分布: 在推理过程中,元素定位 (Element Grounding) 模块的耗时最高(7.8秒),这与 MiNDACT 和 SEEACT 等框架的设计思路一致,也解释了这些框架较高的响应延迟。双重规划模块耗时 2.6 秒,经验性学习模块耗时 3.5 秒,动作执行模块耗时 1.0 秒。

  • 实用性平衡: 虽然 WebExperT 的总时间成本(约 15 秒)较高,但这是在多个复杂模块协同工作下实现的最佳决策性能,并且在现有自动化网页导航研究中被认为是可接受的延迟范围,具有实际可用性。

6.3.4. 检索失败尝试数量的影响 (Effect of Number of Retrieved Failure Trial)

下图(原文 Figure 5)展示了不同数量的检索失败尝试对整体性能的影响:

Figure 5: The overall performance with varying number of retrieved failure trials. 分析:

  • 负面影响: 当检索到的任务相关失败尝试数量 kk 从 1 增加到 3 时,元素准确率 (Ele. Acc) 和步骤成功率 (Step SR) 均出现急剧下降。
  • 原因: MinD2WEB 数据集中的任务之间相关性并不高。检索过多的失败经验会导致冗余和不相关的知识,反而分散了智能体的决策注意力,说明在经验性学习中,高质量、高度相关的经验比数量更重要。

6.4. 案例研究 (Case Study)

6.4.1. 双重过程规划案例 (Dual-Process Planning Case Study)

下图(原文 Figure 6)展示了双重过程规划的案例研究:

Figure 6: Case study about the dual-process planning. 分析:

  • 复杂指令分解: 案例中用户指令“Add my birthday detail, January 5, 1980, and dairy and peanut allergy in my profile, also add love ramen noodles to my bio.”包含 6 个约束要求。
  • 键点提取器 (Keypoints Extractor): 成功识别并提取了所有关键要求,如“Month: January”, “Date: 5”, “Year: 1980”, “Allergies: dairy”, “Allergies: peanut”, “Bio: love ramen noodles”。
  • 路径查找器 (Path Finder): 根据人类浏览习惯(从上到下、从左到右)生成了粗略的关键字路径,如“The 1st requirement: January; The 2nd requirement: 5; The 3rd requirement: 1980; ...”。
  • 推理规划器 (Reasoning Planner): 基于粗略路径,进一步生成了详细的黄金计划,为每个键点补充了具体操作和元素,如“1. Click "Month" to display the drop-down menu and select "January"; 2. Click "Date" to display the drop-down menu and select "5"; 3. Click "Year" to display the drop-down menu and select "1980" ...”。
  • 经验规划器 (Empirical Planner): 经过微调后,其生成的计划(如“Step 1: Select "January" on the "Month" drop-down menu; Step 2: Select "5" on the "Date" drop-down menu; Step 3: Select "1980" on the 'Year" drop-down menu; ...”)基本覆盖了黄金计划中的所有重要信息。
  • 优势: 双重过程规划机制通过识别所有约束要求并基于网页设计逻辑生成计划,有效地增强了对复杂用户指令的理解,并优化了网页智能体的浏览习惯。

6.4.2. 经验性学习案例 (Experiential Learning Case Study)

下图(原文 Figure 7)展示了经验性学习的案例研究:

Figure 7: Case study regarding the experiential learing. 分析:

  • 识别相似元素时的挑战: 当网页中存在多个描述相似甚至完全相同的交互元素(如案例中三个红框标记的“Schedule”)时,网页智能体常常难以识别正确的元素。

  • 反思的指导作用: 引入经验性学习机制后,从失败历史中生成的反思,如“I didn't distinguish the three identical 'Schedule' in the screenshot ...”(我未能区分屏幕截图中三个相同的“Schedule”),帮助智能体更加重视这三个“Schedule”元素之间的上下文差异。这种反思促使智能体生成更好的决策(例如“ELEMENT: A ...”),从而避免重复犯错。

  • 纠正错误规划: 类似地,如果错误的计划导致决策失误,反思如“When planning, I didn't see the 'Adult' element due to its small size ...”(在规划时,我因为“Adult”元素太小而没有看到它...)可以纠正规划错误,从而引导生成更好的计划。

  • 反思质量: 原文 Table 9 展示了反思的案例,它们清晰地包含了失败原因(“I made mistakes in ...”)和指导(“Next time, I will ...”)。通过对生成反思的人工评估,其准确率 (Reflection Accuracy) 达到 84.4%,行为改进率 (Action Refinement Rate) 达到 91.1%,即使反思不完全正确,也能有效促使智能体意识到错误并改进决策。

    以下是原文 Table 9 的结果:

    Task Action Reflection
    Search for used Jaguar XFs with no black exterior color and save the search as Jaguar to get a notification daily. Type "Jaguar" In this attempt, I was unsuccessful. The mistake occurred in selecting the incorrect VALUE, "jaguar", instead of the specific "jaguar xf," which is essential for accurately executing the user's requirement to search for right models. Next time, I will pay closer attention to the details of the user's plan to ensure that I select and input the precise make and model specified, reducing the chance of errors in task completion.
    Find the location and operating hours of the nearest CVS pharmacy to zip code 90028. Click "Element K" In this attempt, I was unsuccessful. I made mistakes in selecting an element that represented a location result, rather than choosing an element related to submitting the search query. I incorrectly chose an initially displayed option rather than verifying the need to complete the search action tied to the entered zip code. Next time, I will focus on identifying the step within the process that requires user interaction to execute a search, especially after entering search criteria, to find the necessary information like operating hours or locations tied to that query.

分析:

  • 反思内容: 案例中的反思明确指出了失败的原因(如“选择错误的 VALUE”或“选择了位置结果而非提交搜索查询的元素”),并提出了具体的改进策略(如“下次会更关注用户计划的细节,确保输入精确的模型”或“下次会识别需要用户交互执行搜索的步骤”)。
  • 反思质量高: 这表明经验性学习模块能够生成高质量、可解释的反思,这些反思对于智能体理解其错误并进行自我纠正至关重要。

6.3.5. 模型规模的进一步分析

以下是原文 Table 8 的结果:

Base Model Size Cross-Task Cross-Website Cross-Domain
Ele.Acc Op. F1 Step SR Ele.Acc Op. F1 Step SR Ele.Acc Op. F1 Step SR
Flan-T5Base 250M 45.2 81.5 41.1 44.9 77.0 39.4 38.3 78.1 33.9
Flan-T5Large 780M 55.0 83.1 49.9 49.1 78.2 43.7 44.8 81.0 40.4
Flan-T5xL 3B 60.3 84.4 54.9 53.9 79.6 49.0 48.5 81.5 44.0
Qwen2.5-VL 3B 62.8 86.6 56.5 56.1 82.3 51.3 52.1 84.0 46.2
Qwen2.5-VL 7B 71.4 93.0 63.8 65.1 91.4 57.7 61.5 92.9 55.7

分析:

  • 模型规模与性能: 随着基础模型尺寸的增加(从 250M 到 7B),WebExperT 的性能也显著提高。这表明 WebExperT 框架能够很好地适应和利用更先进、参数量更大的多模态 LLM 的能力。
  • 基础模型的选择: Qwen2.5-VL (3B 和 7B) 的性能优于同等参数量的 Flan-T5,这得益于更好的预训练。尽管如此,作者仍选择 Flan-T5 作为主要 SFT 基线模型的骨干,以确保与现有大多数基于微调的方法进行公平比较,避免因基础模型能力差异而产生偏差。
  • 这进一步验证了 WebExperT 框架的鲁棒性,它不仅适用于资源受限的场景,也能充分利用先进的多模态 LLM 来进一步提升性能。

7. 总结与思考

7.1. 结论总结

本文提出了一种新颖的多模态网页智能体框架 WebExperT,旨在通过模拟人类的认知模式来自动化网页导航任务。WebExperT 的核心创新点在于:

  1. 双重过程规划机制 (Dual-Process Planning): 借鉴了人类“快慢思考”的模式。在训练阶段,利用强大的多模态大语言模型进行深思熟虑 (deliberate thinking),逐步生成高质量的“黄金计划”。在推理阶段,通过知识蒸馏将这些知识转移到一个轻量级模型中,实现直觉思考 (intuitive thinking),从而在保证性能的同时显著提高推理效率。

  2. 经验性学习 (Experiential Learning): 通过构建失败历史池和自我反思 (self-reflection) 机制,使智能体能够从过去的失败经验中学习并提取自然语言洞察。这些洞察用于持续改进其规划和决策过程,避免重复犯错。

    在 MinD2WEB 基准测试上进行的广泛实验表明,WebExperT 在监督微调 (SFT) 和上下文学习 (ICL) 设置下均超越了现有最先进的方法,并在跨任务、跨网站、跨领域等泛化性测试中表现出卓越的性能。在线评估结果也进一步证实了 WebExperT 在真实世界场景中的实用性和有效性。这些结果共同证明了模拟人类认知模式对于构建高效、鲁棒网页智能体的巨大潜力。

7.2. 局限性与未来工作

局限性:

  • 操作类型 (Operation Types): 当前框架尚未支持所有真实世界网页浏览中可能遇到的操作类型,例如缩放操作 (scaling operation) 和标签页相关操作 (tab-related operations)。这限制了其在某些复杂网页交互场景中的适用性。
  • 元素定位 (Element Grounding): 现有的元素定位策略(通过在截图上叠加边界框)存在局限性。当大量元素密集排列时,边界框和标签可能会重叠,导致小型图标和标签被遮挡,从而影响智能体识别和解释元素的能力。这并非 WebExperT 独有的问题,而是该领域普遍面临的挑战。
  • 预定义失败标准 (Predefined Criteria): 严格依赖预定义的失败标准可能会限制智能体的自主探索能力或抑制创造力。在许多情况下,“条条大路通罗马”,即使某个步骤与地面真值 (groundtruth) 不同,整个任务仍可能成功。然而,由于网页树结构的复杂性,在离线数据集中评估这种“灵活成功”具有挑战性。
  • 可迁移性与泛化性 (Transferability and Generalization): 框架目前仅在 Mind2WEB 数据集上的自动化网页导航任务中进行了评估。虽然其模块(双重规划、经验性学习)设计上独立于 HTML 文本,理论上具有较高的可迁移性,但尚未在其他任务和领域进行验证。此外,快慢思考的固定切换模式而非动态适应也可能限制其灵活性。

未来工作:

  • 扩展操作类型: 支持更多的操作类型,例如缩放操作以更好地识别微小元素,以及标签页相关操作以更真实地复制人类浏览习惯。
  • 改进元素定位策略: 探索更先进的元素定位方法,以解决边界框重叠和元素遮挡的问题,确保智能体能够准确感知所有交互元素。
  • 平衡地面真值与灵活性: 探索如何在评估中平衡对地面真值的遵守与允许替代解决方案的灵活性,从而更好地评估智能体的真实世界表现。
  • 扩展应用领域: 将 WebExperT 框架应用到其他领域,如机器人流程自动化 (robotic process automation, RPA) 或基于 GUI (Graphical User Interface) 的软件交互,以验证其模块的通用性和可迁移性。
  • 更灵活的快慢思考策略: 探索动态切换快慢思考模式的策略,使智能体能够根据任务的复杂性、熟悉程度或实时反馈来灵活调整其思考模式。

7.3. 个人启发与批判

个人启发:

  • 人类认知启发的重要性: 这篇论文再次强调了从人类认知心理学中汲取灵感来设计人工智能系统的巨大潜力。“快慢思考”的双过程理论和经验性学习机制,是智能体从“执行指令”迈向“真正理解和学习”的关键一步。将这种复杂的认知过程分解并映射到智能体架构中,是该研究的显著贡献。
  • 多模态融合的深度和广度: 论文不仅利用了视觉和文本信息,更深入探讨了如何有效利用这些模态的优势,例如 HTML 在理解结构上的关键作用,以及截图在视觉定位上的补充。这提示我们在多模态研究中,不仅仅是简单地拼接不同模态,更要理解它们各自的优势和如何协同工作。
  • 知识蒸馏的创新应用: 将“慢思考”中强大的 LLM 获得的规划知识蒸馏给“快思考”中更轻量级的模型,这是一种非常高效且实用的策略。它解决了高性能模型计算开销大与实时性要求之间的矛盾,为部署复杂 AI 智能体提供了有益的思路。
  • 从错误中学习的实用价值: 经验性学习模块的引入,使得智能体具备了自我纠正和迭代优化的能力。这比传统的监督学习或强化学习更能模拟人类的实际学习过程,尤其是在复杂、多变的真实世界环境中,能够有效提升智能体的鲁棒性和适应性。
  • 分阶段训练的有效性: 两阶段训练过程设计巧妙,首先训练动作执行器,并收集失败经验,再利用这些经验来微调规划器,形成了一个相互促进的训练闭环,有效提升了整体性能。

批判与潜在改进:

  • 对黑盒 LLM 的依赖: 论文在“慢思考”和“反思生成”模块中高度依赖 GPT-4o 这样的黑盒商业 LLM。虽然这带来了强大的能力,但也引入了成本高昂、API 限制、响应延迟(在慢思考中尤为明显)以及潜在的模型偏见和稳定性问题。如果底层 GPT-4o 模型发生更新,WebExperT 的行为可能会发生不可预测的变化,影响其鲁棒性和复现性。未来的研究可以探索如何用更可控、更透明、更经济的开源模型来替代或改进这些组件。
  • 检索机制的局限性: 实验结果(Figure 5)显示,检索过多的失败尝试反而会降低性能,这表明当前的语义相似度检索机制可能无法有效过滤掉“不相关”或“误导性”的经验。这可能是因为仅仅基于语义向量的相似度不足以捕捉经验的真正“可迁移性”和“指导价值”。可以考虑引入更复杂的经验排序、筛选机制,或者结合任务类型、上下文相关性等进行多维度检索。
  • 固定模式切换的灵活性: 论文提到“快慢思考”的固定使用模式是其局限性之一。人类在任务复杂性、时间压力或熟悉程度不同时,会动态调整思考模式。一个更先进的 WebExperT 应该具备动态判断何时启用慢思考、何时依赖快思考的能力,甚至在任务进行中根据反馈进行模式切换。这可能需要额外的元学习 (meta-learning) 或强化学习组件来学习这种策略。
  • 元素定位的根本性挑战: 元素定位中边界框重叠和遮挡的问题是一个深层挑战。虽然论文指出这是普遍问题,但这仍然是制约智能体性能的关键瓶颈。未来的工作可能需要探索更先进的视觉感知技术(如基于语义分割的元素识别),或者结合更丰富的 DOM 树结构信息来解决这一问题,而不仅仅是依赖截图和 HTML 的简单叠加。
  • 泛化能力的更严格验证: 尽管在 MinD2WEB 上表现出色,但该数据集毕竟是有限的。未来的工作需要在一个更广泛、更多样化、包含更多极端情况(如低质量网站、动态内容、复杂表单)的真实世界场景中进行测试,以全面验证其泛化能力。例如,评估其在对未见过网站的零样本适应能力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。