AiPaper
论文状态:已完成

ATLAS: Actor-Critic Task-Completion with Look-ahead Action Simulation

发表:2025/10/08
原文链接PDF 下载
价格:0.10
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

提出了ATLAS,一种结合记忆增强和前瞻动作模拟的Actor-Critic智能体,通过构建认知地图并基于环境模型在认知空间中模拟动作后果,实现无微调适应新环境。在WebArena-Lite基准中,成功率达63%,显著优于现有方法。

摘要

000 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 Under review as a conference paper at ICLR 2026 ATLAS: A CTOR -C RITIC T ASK -C OMPLETION WITH L OOK - AHEAD A CTION S IMULATION Anonymous authors Paper under double-blind review A BSTRACT We observe that current state-of-the-art web-agents are unable to effectively adapt to new environments without neural network fine-tuning, without which they pro- duce inefficient execution plans due to a lack of awareness of the structure and dynamics of the new environment. To address this limitation, we introduce ATLAS ( A ctor-Critic T ask-completion with L ook-ahead A ction S imulation), a memory- augmented agent that is able to make plans grounded in a model of the environment by simulating the consequences of those actions in cognitive space . Our agent starts by building a "cognitive map" by performing a lightweight curiosity driven explo- ration of the environment. The planner proposes candidate actions; the simulator predicts their conseq

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

ATLAS:带有前瞻动作模拟的 Actor-Critic 任务完成系统 (ATLAS: Actor-Critic Task-Completion with Look-ahead Action Simulation)

1.2. 作者

匿名作者 (Anonymous authors)。论文在双盲评审中。

1.3. 发表期刊/会议

OpenReviewOpenReview 是一个在学术界广泛使用的平台,通常用于管理会议和期刊的审稿过程,并发布预印本论文。这意味着该论文目前可能正在审阅中,或已作为预印本公开。

1.4. 发表年份

2025年。根据 Published at (UTC):2025-10-08T00:00:00.000Z 信息。

1.5. 摘要

当前最先进的 Web 智能体(web-agents)在没有神经网络微调 (neural network fine-tuning) 的情况下,无法有效适应新环境。由于缺乏对新环境结构和动态的认知,它们会生成低效的执行计划。为解决这一局限性,本文提出了 ATLAS (Actor-Critic Task-completion with Look-ahead Action Simulation)。ATLAS 是一种记忆增强型智能体,能够通过在认知空间 (cognitive space) 中模拟动作的后果,从而基于环境模型 (model) 制定接地气的计划。该智能体首先通过进行轻量级好奇心驱动的探索 (curiosity driven exploration) 来构建认知地图 (cognitive map)。规划器 (planner) 提出候选动作;模拟器 (simulator) 预测这些动作在认知空间中的后果;评论家 (critic) 分析这些选项以选择最佳的推演 (roll-out) 并更新原始计划;浏览器执行器 (browser executor) 执行所选动作。在 WebArena-Lite 基准测试中,ATLAS 取得了 63% 的成功率,而此前已发布的 state-of-the-art 模型成功率约为 53.9%。与现有系统不同,ATLAS 的模块化架构无需针对特定网站进行 LLM 微调。消融实验 (ablations) 表明,在没有世界模型 (world-model)分层规划器 (hierarchical planner) 和基于前瞻的重规划器 (replanner) 的情况下,性能会显著下降,这证实了它们在系统设计中的互补作用。

1.6. 原文链接

https://openreview.net/forum?id=hwwn9hAAo5 PDF 链接: https://openreview.net/pdf?id=hwwn9hAAo5 发布状态:论文正在 OpenReview 平台上进行双盲评审。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

当前 Web 智能体在面对新环境时,普遍存在适应性差的问题。具体而言,它们通常需要对神经网络进行微调才能在新网站上有效工作,否则会因为缺乏对环境结构和动态的理解而生成低效或错误的执行计划。这导致在执行诸如信息收集、交易或网站配置等复杂、长周期任务时,这些智能体的可靠性远低于人类水平。挑战包括:部分可观察性(partial observability)、巨大的动作空间(vast action spaces)、以及在 Web 环境中进行多步规划和记忆的需求。

2.1.2. 现有研究的挑战与空白

  • 缺乏环境理解: 现有 LLM 智能体往往是反应式的,缺乏结构化记忆和显式规划能力,难以建立对 Web 网站结构和动态的深度理解。
  • 依赖微调: 许多先进的 Web 智能体(如 Plan-and-Act)需要针对特定网站进行模型微调,才能使规划器 (planner) 和执行器 (executor) 接地气(grounded),这限制了其泛化能力和在新场景下的应用。
  • 规划的局限性: 现有规划器模块通常没有真正地根植于网站的结构,并且缺乏前瞻性,难以预测动作的后果。
  • 长周期任务的可靠性:WebArena 等基准测试中,需要跨越多页面导航和内容推理的任务,如查询订单或修改个人资料,对 LLM 智能体来说仍是巨大挑战。

2.1.3. 论文的切入点与创新思路

ATLAS 的创新点在于引入了一个记忆增强型 (memory-augmented) 智能体架构,该架构通过认知空间 (cognitive space) 中的前瞻动作模拟 (Look-ahead Action Simulation),使其计划能够基于环境模型 (model of the environment)。核心思想是让智能体在实际执行动作之前,先在内部模拟其可能的后果,并通过构建和利用认知地图 (cognitive map)世界知识 (world knowledge) 来实现对环境动态的理解,从而无需特定网站的微调即可适应新环境。

2.2. 核心贡献/主要发现

  • 提出了带有 LLM 前瞻功能的 Actor-Critic 规划器: 该规划器通过模拟动作结果来评估动作,增强了规划的可靠性和效率。
  • 构建了多层记忆系统: 包括通过探索和智能体总结构建的认知地图,用于在线检索和重新规划。
  • 设计了实用的模块化架构: 将规划、记忆和模拟集成在一起,将高级指令转化为安全、可执行的动作序列,以完成长周期 Web 任务。
  • 无需特定网站的 LLM 微调: ATLAS 采用模块化架构,无需针对特定网站对 LLM 进行微调,使其能够轻松地移植到新的网站和底层 LLM
  • 显著提升了 Web 任务完成率:WebArena-Lite 基准测试中,ATLAS 实现了 63% 的成功率,显著高于之前 state-of-the-art 模型的 53.9%
  • 验证了关键组件的有效性: 消融实验表明,世界模型 (world-model)分层规划器 (hierarchical planner) 和基于前瞻的重规划器 (replanner) 在系统中发挥着互补的关键作用。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 ATLAS,读者需要了解以下核心概念:

  • 大型语言模型 (Large Language Models, LLMs): LLM 是具有数亿甚至数万亿参数的深度学习模型,通过在海量文本数据上进行预训练,学习了丰富的语言知识和模式。它们能够理解、生成、总结和翻译文本,并在一定程度上进行推理。在 ATLAS 中,LLM 被用作智能体的核心大脑,驱动规划器、行动者和评论家。
  • 智能体 (Agent): 在人工智能中,智能体是一个能够感知环境并通过执行动作来影响环境的实体。Web 智能体特指在 Web 浏览器环境中操作的智能体。
  • 部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP): POMDP 是一种数学框架,用于对智能体在不确定环境中的决策过程进行建模。它假设智能体无法完全观察环境的真实状态,而只能获得部分、带有噪声的观察。
    • 状态集 (S\mathcal{S}): 环境中所有可能的状态。
    • 动作集 (A\mathcal{A}): 智能体可以执行的所有可能动作。
    • 观察集 (O\mathcal{O}): 智能体在每个时间步接收到的观察。
    • 状态转移函数 (TT): 描述了在给定当前状态和智能体执行动作的情况下,环境如何转移到下一个状态的概率。
    • 奖励函数 (RR): 智能体在执行动作后,根据环境状态变化获得的即时反馈。 在 Web 导航中,Web 页面的 HTML 内容、URL 等可以视为观察,而真实的用户界面状态(如某个元素是否可点击、是否已加载完成)则可能是智能体无法直接感知的隐含状态。
  • Actor-Critic 方法: 一类强化学习算法,结合了两种不同的学习组件:
    • 行动者 (Actor): 负责选择动作,即学习一个策略 (policy),映射状态到动作。
    • 评论家 (Critic): 负责评估行动者的动作,通过估计状态价值或动作价值来指导行动者的学习。评论家提供一个价值函数 (value function),评估特定状态的好坏,或者在特定状态下执行某个动作的好坏。 在 ATLAS 中,Actor 提出候选动作,Critic 则通过模拟这些动作的后果来评估并选择最佳动作。
  • 世界模型 (World Model): 智能体对环境动态的内部表征或模拟器。它允许智能体在不实际与环境交互的情况下,预测其动作的后果。一个好的世界模型可以帮助智能体进行规划、前瞻和理解因果关系。
  • 好奇心驱动探索 (Curiosity-Driven Exploration): 一种内在激励机制,促使智能体探索环境中的未知或新奇部分,即使没有外部奖励。智能体通过预测误差或状态变化的不可预测性来产生好奇心,从而发现新的状态和动作。在 ATLAS 中,它用于初期构建认知地图
  • 前瞻规划 (Look-ahead Planning): 智能体在执行实际动作之前,通过模拟未来可能的状态和动作序列来评估当前动作的方法。它可以帮助智能体避免短视行为,选择能够带来长期效益的动作。

3.2. 前人工作

论文在“Related Work”部分总结了与 ATLAS 相关的多个研究方向和关键工作:

  • 基于 LLM 的自主智能体 (LLM-Based Autonomous Agents):

    • ReAct (Yao et al., 2023): 率先展示了 LLM 如何有效结合推理 (Reasoning) 和行动 (Acting),是许多后续 LLM 智能体设计的基础。
    • Reflexion (Shinn et al., 2024):ReAct 基础上引入了自省机制 (self-reflection),以改进长周期任务的决策能力。
  • Web 导航智能体 (Web Navigation Agents):

    • 早期系统 (Liu et al., 2018): 依赖基于规则的方法和预定义脚本,缺乏适应动态 Web 环境的能力。
    • WebArena (Zhou et al., 2024): 一个用于评估 Web 智能体的综合基准,包含真实的、多步 Web 任务。
    • WebArena-Lite (Liu et al., 2024a): WebArena 的一个精选子集,解决了原始基准的质量和可伸缩性问题,被 WebRLPlan-and-Act 等工作采纳。
    • WebPilot (Zhang et al., 2025): 专注于 Web 内容的多模态理解。
    • Plan-and-Act (Erdogan et al., 2025): 强调分层任务分解,但其规划器模块未完全接地气,且需要网站特定模型微调。
    • Agent Workflow Memory (AWM) (Wang et al., 2024b): 强调持久性记忆在多步 Web 任务中的重要性。
    • AgentOccam (Yang et al., 2024): 通过简化动作空间到自然语言来提高效率。
  • 记忆增强型智能体 (Memory-Augmented Agents):

    • Memory Networks (Weston et al., 2014): 记忆网络的基础工作,被应用于序列决策。
    • MemoryBank (Zhong et al., 2023): 一个用于管理 LLM 智能体中情景记忆 (episodic memory)语义记忆 (semantic memory) 的框架。
    • 认知地图 (Cognitive Maps) (Tolman, 1948): 源自认知科学的概念,已被应用于人工智能。
      • Neural Cognitive Mapping (Wayne et al., 2018): 强化学习中认知地图的神经网络实现。
      • LLM Spatial-Temporal Memory (Park et al., 2023): LLM 如何维护和利用时空记忆进行复杂行为模拟。
  • AI 智能体中的规划与模拟 (Planning and Simulation in AI Agents):

    • 蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS) (Browne et al., 2012): 在离散领域中有效的树搜索方法。
    • 思维树 (Tree of Thoughts) (Yao et al., 2024): 使 LLM 能够通过结构化搜索探索多种推理路径。
    • 世界模型 (World Models):
      • Learned World Models (Ha & Schmidhuber, 2018): 学习型世界模型的基础工作。
      • Transformer as World Models (Micheli et al., 2022): Transformer 架构作为序列决策有效世界模型的研究。
  • Actor-Critic 方法和前瞻规划 (Actor-Critic Methods and Look-ahead Planning):

    • 传统 Actor-Critic (Sutton & Barto, 2018): 强化学习训练中的策略学习与价值估计。
    • AlphaGo (Silver et al., 2016): 将树搜索与学习到的价值函数相结合,展示了强大能力。
  • 好奇心驱动探索 (Curiosity-Driven Exploration):

    • Intrinsic Curiosity Modules (Pathak et al., 2017): 通过预测误差驱动探索的内在好奇心模块。
    • Curiosity in Embodied AI (Mu et al., 2024): 在具身 AI 环境中应用好奇心驱动探索。

3.3. 技术演进与差异化分析

Web 智能体的技术演进从早期的规则驱动和脚本执行,发展到基于学习的方法,特别是近年来随着 LLM 的兴起,涌现出大量利用 LLM 语义理解和生成能力的智能体。然而,这些 LLM 智能体虽在语义理解上表现出色,但在长周期、复杂 Web 任务中仍面临可靠性问题,主要原因在于它们通常是反应式的,缺乏对环境结构和动态的深层理解,且往往需要针对特定网站进行大量微调。

ATLAS 的核心创新和与前人工作的差异化体现在:

  • 显式世界模型与认知地图: 不同于多数依赖 LLM 隐式世界知识或通过微调学习隐式世界模型的方法(如 Chae, 2024 中提到的),ATLAS 通过好奇心驱动探索构建一个显式的认知地图,作为环境动力学的模型 (model)。这使得智能体能够进行更可靠的前瞻模拟 (look-ahead simulation),减少幻觉 (hallucination)
  • 前瞻动作模拟 (Look-ahead Action Simulation, LAS): 现有方法常依赖 LLM 直接想象动作结果,或进行贪婪的一步搜索。ATLAS 则利用认知地图提供的真实观察来模拟多步推演 (roll-outs),从而进行更全面、更可靠的多步规划 (multi-step planning),避免了短视行为。这种在认知空间 (cognitive space) 中的模拟比实际执行动作更高效、更安全。
  • 模块化与免微调: ATLAS 采用模块化架构,将规划、动作提议、评估和记忆管理分离。最重要的是,它无需针对特定网站进行 LLM 微调。这意味着 ATLAS 具有更好的泛化能力,可以轻松移植到新的 Web 环境和不同的底层 LLM。这与 Plan-and-Act 等需要微调的方法形成了鲜明对比。
  • 多层记忆系统: ATLAS多层记忆 (multi-layered memory)工作记忆 (Working Memory)认知地图 (Cognitive Map)语义记忆 (Semantic Memory))提供了一个结构化的框架,用于存储近期上下文、环境动态和世界知识,并支持在线检索和重规划,使得智能体在长时间交互中保持目标导向。

4. 方法论

4.1. 方法原理

ATLAS 旨在解决 Web 智能体在新环境中适应性差、需要微调的问题。其核心思想是让智能体在实际执行动作之前,先在认知空间 (cognitive space) 中通过前瞻动作模拟 (Look-ahead Action Simulation, LAS) 来预测动作的后果。这通过构建一个环境模型 (model of the environment),即认知地图 (cognitive map) 来实现。

整个系统在一个推理时 (inference-time)Actor-Critic 循环中运行:

  1. 构建环境模型: 智能体首先通过轻量级的好奇心驱动探索 (curiosity-driven exploration) 来构建其认知地图,记录环境的状态转换和重要规则。

  2. 规划: Planner 将高级任务分解为子目标,并生成一个初始计划。在执行过程中,如果观察与预期不符,规划器会根据新的证据进行动态重规划 (replanning)

  3. 动作提议: Actor 模块根据当前计划、上下文和记忆,提出一组候选动作。

  4. 前瞻模拟与评估: Critic 模块利用认知地图,对每个候选动作进行前瞻模拟,预测其可能带来的环境变化和后果。这使得智能体能够在认知空间中“试探”动作,评估它们的潜在价值和风险。

  5. 动作选择与执行: Critic 根据模拟结果,选择最安全、最能推进目标且具有最佳价值函数 (value function) 的动作。选定的动作由浏览器执行器执行。

  6. 记忆更新: 记忆系统根据新的经验(包括成功和失败的探索轨迹)进行在线更新,不断完善认知地图语义记忆 (Semantic Memory)

    这种方法使得 ATLAS 能够在无需特定网站微调的情况下,理解并适应新的 Web 环境,通过内部模拟进行更明智的决策。

4.2. 核心方法详解 (逐层深入)

4.2.1. 问题形式化

论文将 Web 导航任务形式化为一个部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP)POMDP 由一个元组 (S,A,O,T,R)(\mathcal{S}, \mathcal{A}, \mathcal{O}, T, R) 定义:

  • S\mathcal{S} 表示状态集 (state set)

  • A\mathcal{A} 表示动作集 (action set)

  • O\mathcal{O} 表示观察集 (observation set)

  • TT 表示状态转移函数 (state transition function)

  • RR 表示奖励函数 (reward function)

    给定一个自然语言的目标 qq,智能体需要合成一个计划并执行一个动作序列 (a0,,aT)(a_0, \ldots, a_T),以达到目标一致的终止状态。在每个时间步 tt,智能体接收到部分观察 otOo_t \in \mathcal{O}。基于观察 oto_t,智能体选择一个动作 atAa_t \in \mathcal{A}(例如点击或输入)。智能体的目标是最大化奖励,即完成任务 qq

4.2.2. 架构概览

ATLAS 包含四个模块,在一个推理时 (inference-time)Actor-Critic 循环中运行,并在概念空间 (conceptual space) 中进行动作模拟,如图1(a)所示。

以下是原文 Figure 1(a) 的图片:

img-0.jpeg 该图像是图1,展示了ATLAS系统的整体架构与流程示意,包括(a)系统流程,(b)基于好奇心驱动的记忆构建,以及(c)前瞻动作模拟(Look-ahead Action Simulation)的关键模块和信息流。

图 1: ATLAS 架构。(a) ATLAS 整体流程:原始观察 oto_t 被概括以降低认知负荷。然后规划器基于概括后的观察 oto_t' 制定计划 PtP_t。行动者提出 NN 个可能的下一步候选动作。评论家根据从认知地图获取的动作结果对动作候选进行判断,并选择最佳动作 ata_t。(b) 好奇心驱动探索的记忆构建:我们通过部署探索性轻量级智能体与环境交互来构建认知地图。(c) 前瞻动作模拟 (LAS):在每一步,ATLAS 使用来自认知地图的观察模拟所有候选动作,提供前瞻能力。我们利用记忆智能体从 LAS 轨迹中学习以制定更好的计划,并在必要时更新记忆。

1. 规划器 (Planner): 规划器分析并将自然语言任务 qq 分解为带有子任务的结构化计划。

  • 给定初始观察 o0o_0,规划器生成一个初始计划 P0P_0
  • 在时间步 tt,规划器根据新的证据动态决定是否需要更新计划(重规划 (replanning))。 公式表示为: P0=Planner(q,o0) P_{0}=\operatorname{Planner}\left(q, o_{0}\right) Pt=Planner(q,ot,st,M) P_{t}=\operatorname{Planner}\left(q, o_{t}, s_{t}, M\right) 其中:
  • qq: 自然语言任务目标。
  • o0o_0: 初始观察。
  • oto_t: 当前时间步 tt 的观察。
  • sts_t: 当前时间步 tt 的状态(可能包含内部状态或总结信息)。
  • MM: 多层记忆系统,包含了认知地图和世界知识。
  • Planner()\operatorname{Planner}(\cdot): 规划器函数。 计划是带有成功谓词的简洁子目标列表(例如,“报告 → 销售 → 设置日期 → 阅读表格”)。规划器的输出作为上下文包含在行动者和评论家的输入中。该规划器是 Chae et al. (2025) 风格的实现,并进行了扩展。

2. Actor-Critic 与前瞻交互:ATLAS 框架中,在每个时间步 tt行动者 (Actor) 提出 NN 个可执行的候选动作及相应的推理。

  • 行动者生成候选动作集 CtC_t: Ct=Actor(q,Pt,ot,st,M),Ct=N C_{t}=\operatorname{Actor}\left(q, P_{t}, o_{t}, s_{t}, M\right), \quad\left|C_{t}\right|=N 其中:

    • qq: 自然语言任务目标。
    • PtP_t: 当前计划。
    • oto_t: 当前观察。
    • sts_t: 当前状态。
    • MM: 多层记忆。
    • Actor()\operatorname{Actor}(\cdot): 行动者函数,生成 NN 个候选动作。
    • Ct=N|C_t|=N: 候选动作的数量。
  • 评论家 (Critic) 评估每个候选动作 atiCta_t^i \in C_t 并选择最佳的下一个动作: at=argmaxaCtV(aq,Pt,ot,st,M) a_{t}=\arg \max _{a \in \mathrm{C}_{t}} V\left(a \mid q, P_{t}, o_{t}, s_{t}, M\right) 其中:

    • ata_t: 最终选定的动作。

    • V(a)V(a \mid \cdot): 动作 aa 的效用估计(价值函数)。

    • argmax\arg \max: 选择使 VV 值最大的动作。

      效用估计 V(a) 通过基于 LLM 的评估得出,该评估结合了目标对齐、状态可行性(可恢复性)、动作连贯性、计划一致性以及结果风险(例如,破坏性或死胡同的转换)。与之前试图通过微调神经网络模型(如 Chae, 2024)来学习环境隐式世界模型的方法不同,ATLAS 利用认知地图 (cognitive map) 来检索每个候选动作的结果。这赋予了智能体系统前瞻 (look ahead) 当前步骤的能力。这种行为在 3.4 节中通过模拟树搜索 (simulated tree search) 进一步增强,以提高探索能力。

3. 多层记忆 (Multi-layered memory): ATLAS 使用三种互补的记忆:

  • 工作记忆 (Working Memory): 特定于任务的记忆,其中事实和观察结果可选地存储到 LLM 上下文中,以供特定情景 (episode) 使用。
  • 认知地图 (Cognitive Map): 状态转换图 M={(o,a,o)}M=\left\{\left(o, a, o^{\prime}\right)\right\},其中包含智能体总结(agentic summaries),记录增量 (deltas) 和新功能 (affordances)(例如,“点击 Reports 会显示 {Sales, Products,...}”),而不是原始 HTML。该地图支持检索 o^t+1=M(ot,a)\hat{o}_{t+1}=M\left(o_{t}, a\right) 用于模拟和规划。
  • 语义记忆 (Semantic Memory, World Knowledge): 学习到的环境动态(例如,日期/格式规则、不可恢复的状态),用于惩罚有风险的动作并为模拟提供信息。

4.2.3. 通过好奇心驱动探索构建记忆

动机: 现有智能体可能失败的原因是:

  1. 它们不知道潜在的动作结果,例如在购物网站上下订单可能导致难以取消和退款。
  2. 它们不熟悉特定环境的要求,例如日期格式和搜索格式(例如 WebArena-Lite 任务0上的 AgentOccam-Judge)。 这是 LLM 智能体与人类智能之间的主要差距,因为人类可以轻松地利用世界知识预测动作的结果。鼓励智能体探索环境并将发现存储在记忆中,可以有效避免导致不良结果的动作。

记忆构建过程:

  • 探索策略 (Exploration policies): 首先启动一系列轻量级探索子智能体,它们具有不同的 LLM 生成温度和探索策略。探索智能体的提示中嵌入了覆盖激励。不使用任务完成奖励,以避免测试集的信息泄露。在固定记忆预算内,平衡广度、深度和熵,限制探索者访问最有希望的状态。
  • 基于 LLM 的轨迹挖掘 (LLM based trajectory-mining): 给定探索轨迹,使用 LLM 将轨迹转换为环境转换的智能体总结 (agentic summaries),并将其存储为认知地图。此外,使用 LLM 生成网站特定规则、约束和危害的智能体总结,存储在语义记忆中。

记忆层 1: 认知地图 (Cognitive Map) 认知地图编码了关于环境动态的结构化知识,包括状态转换和因果关系。概念上,它类似于强化学习中学习到的世界模型或转换模型,捕捉动作如何改变观察。例如,“在产品页面上点击 Add to Cart”会导致购物车更新通知,而“在搜索栏中输入文本”则会导向结果页面。 形式上,认知地图由元组 (ot,at,ot+1)\left(o_{t}, a_{t}, o_{t+1}\right) 表示,其中 oto_tot+1o_{t+1} 表示时间步 ttt+1t+1 的观察(例如,文本 Web 环境中的 HTML 内容或 URL),ata_t 是在时间步 tt 执行的动作。 在探索的每一步,记录当前观察 oto_t、执行的动作 ata_t 和随后的观察 ot+1o_{t+1}。为了增强可解释性并降低智能体的认知负荷,采用智能体记忆策略 (agentic memory strategy),即由一个 LLM 智能体策划写入记忆的内容。具体来说,记忆智能体生成简洁的总结,强调(除了原始观察):

  • 连续观察 (ot,ot+1)\left(o_{t}, o_{t+1}\right) 之间的差异。
  • 执行 ata_tot+1o_{t+1} 中新可用的动作。 对于检索,认知地图通过 (ot,at)\left(o_{t}, a_{t}\right) 进行查询,返回下一个原始观察 ot+1o_{t+1},以及 LLM 总结。这种设计平衡了保真度(保留原始状态)和抽象(总结转换),从而能够对复杂、基于文本的环境进行高效推理。当检索命中认知地图中未探索的节点时,会返回一个通用占位符观察。

记忆层 2: 语义记忆 (Semantic Memory, World Knowledge) 这种记忆捕捉了环境特定的知识,例如每个网站特有的约束、格式和特殊行为。例如,它编码了“日期选择器只接受 MM/DD/YYYYMM/DD/YYYY 格式的输入”或“管理门户不支持将表格导出为 CSV 文件”等事实。通过记录先前探索中的这些细节,语义记忆充当了特定过往经验和工作记忆 (working memory) 之间的桥梁,后者维持对即时环境上下文的认知。这种集成使得智能体能够更有效地适应重复的界面模式和网站特定的限制。认知地图和语义记忆也可以在执行遇到未曾见过的转换或世界动态时在线更新。

4.2.4. 前瞻动作模拟 (Look-ahead Action Simulation, LAS)

标准的 Actor-Critic 交互(3.2 节)是一个很好的基线,但可能存在探索不足和缺乏远见的问题。为了缓解这个问题,论文提出了前瞻动作模拟 (Look-ahead Action Simulation, LAS)

在时间步 tt,行动者首先生成候选动作 CtC_t,如等式 (2) 所述。对于每个候选动作 atiCta_t^i \in C_t,评论家假设选择 atia_t^i 作为最终要执行的动作并提供评论。由此产生的观察变化从认知地图 (cognitive map) 中检索: o^t+1i=M(ot,ati) \hat{o}_{t+1}^{i}=M\left(o_{t}, a_{t}^{i}\right) 其中:

  • o^t+1i\hat{o}_{t+1}^{i}: 模拟的下一个观察,即如果执行动作 atia_t^i 后会观察到的结果。

  • M()M(\cdot): 认知地图函数,根据当前观察 oto_t 和动作 atia_t^i 预测下一个观察。

  • oto_t: 当前观察。

  • atia_t^i: 在时间步 tt 的第 ii 个候选动作。

    重复这个过程 DD 次,从而得到一组长度为 DD推演轨迹 (rolled-out trajectories)。设 τ^\hat{\tau} 表示一个模拟轨迹(长度为 DD),其价值为 V(τ^)V(\hat{\tau})。 应用基于转换不确定性 U(s, a) 的置信度加权: V^(τ^)=V(τ^)(s,a)τ^(1U(s,a)) \hat{V}(\hat{\tau})=V(\hat{\tau}) \cdot \prod_{(s, a) \in \hat{\tau}}(1-U(s, a)) 其中:

  • V^(τ^)\hat{V}(\hat{\tau}): 经过不确定性加权后的模拟轨迹 τ^\hat{\tau} 的总价值。

  • V(τ^)V(\hat{\tau}): 模拟轨迹 τ^\hat{\tau} 的原始价值,由 LLM 评估得出,结合了目标对齐、状态可行性、动作连贯性、计划一致性等。

  • (s,a)τ^(1U(s,a))\prod_{(s, a) \in \hat{\tau}}(1-U(s, a)): 对轨迹中所有状态-动作对的不确定性进行乘积加权。

  • U(s, a): 在状态 ss 执行动作 aa 时的转换不确定性 (transition uncertainty)。这个值通常表示智能体对认知地图中某个转换预测的置信度。如果转换是未探索的或不确定的,则 U(s,a) 会较高,导致轨迹的加权价值降低。

    最佳轨迹决定了实际动作 ata_t

与以往工作的比较: 现有智能体使用 LLM 作为奖励函数或世界模型进行树搜索,并用数值分数衡量每个可能的动作候选的质量。然后,智能体只执行分数高于某个阈值的动作。ATLAS 的模拟树搜索相比现有方法有三个优势:

  1. 可信度 (Trustworthiness): 以前的工作依赖 LLM 来设想动作结果。由于 LLM 未明确训练为世界模型,这种行为容易产生幻觉 (hallucination) 且不够鲁棒。相比之下,ATLAS 的方法利用真实的观察结果,更值得信赖。
  2. 全面性 (Comprehensiveness): 以前的工作本质上是贪婪搜索(一步),低分分支直接被剪除,不予进一步考虑。有些动作在即时步骤 tt 可能不好,但在下一步 t+1t+1 可能有用。这样的动作在现有智能体系统中可能被忽略。ATLAS 的方法类似于束搜索 (beam search)(多步),考虑一系列动作的联合结果。
  3. 效率 (Efficiency): ATLAS 的探索是概念空间 (conceptual space) 中的模拟,比实际执行动作效率高得多。它还避免了不可恢复的有状态动作,因为没有实际执行任何动作。

4.2.5. 基于前瞻动作模拟的动态重规划和记忆更新

重规划 (Replanning): 当观察结果与预期不符时,ATLAS 会动态触发重规划: replan=1[otobs o^texp >ε] \text {replan} = 1\left[\left\|o_{t}^{\text {obs }}-\hat{o}_{t}^{\text {exp }}\right\|>\varepsilon\right] 其中:

  • replan\text{replan}: 一个二元变量,指示是否需要重规划(1 表示需要,0 表示不需要)。

  • otobso_{t}^{\text {obs}}: 实际观察到的在时间步 tt 的环境状态。

  • o^texp\hat{o}_{t}^{\text {exp}}: 基于认知地图和之前计划,智能体在时间步 tt 期望观察到的环境状态。

  • \|\cdot\|: 衡量两个观察之间差异的距离或相似度函数。

  • ε\varepsilon: 一个阈值,如果实际观察与期望观察之间的差异超过此阈值,则认为需要重规划。

    一个与任务相关的计划需要对环境有高层次的视图,并能预见未来步骤会发生什么。ATLAS 试图通过使用模拟树搜索(3.4 节)的结果来更新规划器,从而提炼出这种由模拟带来的远见。 如图1(c)所示,规划器整合了由记忆写入器 (memory writer) 提炼出的简要探索摘要(哪些成功/失败,新暴露的功能,发现的先决条件),然后更新 PtP_t。这可以看作是 Sontakke et al. (2021) 提出的概念流的简化实现,即一个基本因果学习模块 (causal learning module) 的高度简化实现,它试图更新智能体的因果模型 (causal model)。这种机制还防止了重要上下文的灾难性遗忘,这可能发生在每次执行步骤都运行重规划器的情况下。

记忆更新 (Memory Update): 除了重规划,智能体还必须能够在动作模拟期间更新其记忆。这个过程适用于认知地图 (cognitive map)情景记忆 (episodic memory),确保新遇到的模式、约束或动态被纳入长期知识。关键是,关于保留、更新或遗忘什么的决策被委托给记忆智能体 (memory agent),它根据任务相关性和环境新颖性来策划信息。这种选择性更新在好奇心驱动探索 (curiosity-driven exploration) 期间尤为重要,其中新奇经验可以完善智能体对环境的表征,同时防止记忆因冗余或无关细节而超载。

4.2.6. 智能体提示 (Agent Prompts)

论文的附录 AA 中提供了 ATLAS 中不同模块使用的 LLM 提示的简要说明,它们是指导 LLM 行为的关键组成部分:

  • 规划器提示 (PLANNER PROMPT): 引导 LLM 作为 AI 助手,生成结构化的清单,突出完成任务所需的子目标。它强调识别必要的高级子目标、提供简洁的子目标分析、确保清晰的目标,并限制清单的长度和内容。
  • 重规划提示 (REPLANNING PROMPT): 引导 LLM 在必要时修改或更新现有计划。
  • 行动者提示 (ACTOR PROMPT): 引导 LLM 作为 Web 浏览器上的 AI 助手,生成下一步的候选动作。它规定了可用的动作命令(branch, prune, click, go_back, go_home, note, stop, type)和输出格式。
  • 评论家提示 (CRITIC PROMPT): 引导 LLM 作为经验丰富的 Web 导航员,评估多个 Web 动作的价值和风险。它也规定了输出格式。
  • 认知地图提示 (COGNITIVE MAP PROMPT): 引导 LLM 作为一个总结专家,根据探索轨迹和之前的环境动态总结,更新环境动态摘要。它要求总结允许的动作、禁止/无效的动作、环境特定格式、新暴露的选项、环境可靠性和覆盖范围/未知项,并强调简洁性和精确性。
  • 情景记忆提示 (EPISODIC MEMPTORY PROMPT): 未在原文中提供具体内容,但其作用应是指导 LLM 记录和管理智能体在特定任务或情景中的详细交互序列和关键事件。

5. 实验设置

5.1. 数据集

  • WebArena (Zhou et al., 2024): 这是一个现实的模拟环境,包含广泛的 Web 导航任务,如内容检索、任务执行和表单填写。任务复杂性各异,以彻底测试智能体在现实场景中的能力,包括电子商务购物和 GitLab 代码仓库更新。原始 WebArena 包含 811 个任务,但其中许多任务无法执行(人类只能完成 78%)。
  • WebArena-Lite (Liu et al., 2024b): WebArena 的一个质量控制较小子集,包含 165 个任务。它被 WebRL (Qi et al., 2024)Plan-and-Act (Erdogan et al., 2025) 等先前工作采纳,作为评估 Web 智能体在最现实环境(例如意外环境故障)中更高质量和可扩展的基准。

5.2. 评估指标

论文中明确提到了成功率 (success rate) 作为主要的评估指标。

  • 概念定义 (Conceptual Definition): 成功率衡量了智能体在给定任务上成功完成的比例。在 Web 导航任务中,这意味着智能体必须能够按照用户的指令,在 Web 环境中执行一系列正确的动作,最终达到目标状态或获取到目标信息。例如,如果任务是“购买一件商品”,成功率就衡量了智能体是否完成了从搜索商品、添加到购物车、结算到最终支付的所有步骤。
  • 数学公式 (Mathematical Formula): 假设我们有一个任务集合 T={T1,T2,,TN}T = \{T_1, T_2, \ldots, T_N\},其中 NN 是任务的总数。对于每个任务 TiT_i,智能体执行后会得到一个结果,该结果可以被判断为成功或失败。我们定义一个指示函数 I(Ti)I(T_i)I(Ti)={1如果任务 Ti 成功完成0如果任务 Ti 未成功完成 I(T_i) = \begin{cases} 1 & \text{如果任务 } T_i \text{ 成功完成} \\ 0 & \text{如果任务 } T_i \text{ 未成功完成} \end{cases} 那么,成功率 (Success Rate) SR 可以计算为: SR=i=1NI(Ti)N×100% SR = \frac{\sum_{i=1}^{N} I(T_i)}{N} \times 100\%
  • 符号解释 (Symbol Explanation):
    • SR: 智能体在给定任务集上的成功率。
    • NN: 任务的总数。
    • TiT_i: 任务集合中的第 ii 个任务。
    • I(Ti)I(T_i): 指示函数,当任务 TiT_i 成功完成时取值为 1,否则取值为 0。

5.3. 对比基线

论文将 ATLAS 与以下已在 WebArena-Lite 数据集上发布结果的模型进行了比较:

  • WebPilot + GPT-4o (Zhang et al., 2025): 一个多功能自主多智能体系统,用于 Web 任务执行和战略探索,这里使用了 GPT-4o 作为底层 LLM
  • AWM + GPT-4-0613 (Wang et al., 2024a): Agent Workflow Memory,强调持久性记忆在多步 Web 任务中的作用,这里使用了 GPT-4-0613 作为底层 LLM
  • WebRL (Qi et al., 2024): 通过自进化在线课程强化学习训练 LLM Web 智能体。
  • Plan-and-Act (Erdogan et al., 2025): 一个强调长周期任务规划的智能体,但需要网站特定的 LLM 微调。
  • AgentOccam (Yang et al., 2024): 一个 LLM 驱动的 Web 智能体基线,以其简化动作空间到自然语言而闻名。ATLAS 的工作是在 AgentOccam 基础上进行的,实验中使用了 Claude-4-Sonnet 作为底层 LLM

6. 实验结果与分析

6.1. 核心结果分析

ATLASWebArena-Lite 基准测试上取得了显著的性能提升,整体成功率达到 63.0%。这比之前已发布的 state-of-the-art 模型 Plan-and-Act53.9% 成功率高出近 10 个百分点。

以下是原文 Table 1 的结果:

Agent Avg w/
Multi-site
Avg w/o
Multi-site
Gitlab Reddit Shopping Shopping
Admin
Maps Multi-
Site
WebPilot + GPT-4o - 35.3 39.4 65.1 36.9 24.7 33.9 -
AWM + GPT-4-0613 - 33.0 31.8 50.9 30.8 29.1 43.3 -
WebRL - 48.1 50.0 78.9 44.4 54.3 40.0 -
Plan-and-Act 53.9 57.5 53.3 84.2 55.6 48.6 46.6 30.0
AgentOccam
(Claude-4-Sonnet)
47.9 51.0 66.7 63.2 40.0 54.3 23.1 40.0
ATLAS (Ours) 63.0 67.1 73.3 84.2 53.3 77.1 42.3 40.0

Table 1 可以看出:

  • 整体性能提升: ATLAS 在“Avg w/ Multi-site”(包含多网站任务的平均成功率)和“Avg w/o Multi-site”(不含多网站任务的平均成功率)两个总平均指标上都达到了最佳,分别为 63.0%67.1%
  • 在多数子类别中领先: ATLASGitlab (73.3%)、Reddit (84.2%)、Shopping Admin (77.1%) 和 Maps (42.3%) 这几个任务类别上取得了最高成功率。这表明其方法在处理不同类型的 Web 环境和任务时具有广泛的有效性。
  • Plan-and-Act 比较: Plan-and-ActShopping 类别上略高于 ATLAS (55.6% vs 53.3%),但在整体平均和多个其他类别上被 ATLAS 超越。值得注意的是,Plan-and-Act 需要网站特定微调,而 ATLAS 不需要,这突出了 ATLAS 在泛化能力上的优势。
  • AgentOccam 比较: ATLAS 是在 AgentOccam 基础上构建的,并在相同 LLM (Claude-4-Sonnet) 下进行了实验。 ATLAS 的性能显著优于 AgentOccam (63.0% vs 47.9%Avg w/ Multi-site 上),证明了 ATLAS 新引入的组件(如认知地图分层规划器前瞻模拟)的有效性。

6.2. 消融实验/参数分析

消融实验 (ablation study) 旨在评估 ATLAS 系统中各个组件的贡献。实验从 AgentOccam (Base) 开始,逐步添加 ATLAS 的组件。

以下是原文 Table 2 的结果:

Agent Avg w/
Multi-site
Avg w/o
Multi-site
Gitlab Reddit Shopping Shopping
Admin
Maps Multi-
site
Plan-and-Act 53.9 57.5 53.3 84.2 55.6 48.6 46.6 30
AgentOccam (Base) 47.9 46.7 66.7 68.4 40 42.9 30.8 30
Cognitive Map
Base + CM-Raw 44.8 47.1 70 68.4 35.6 51.4 19.2 0
Base + CM 57.4 55.8 76.7 78.9 46.7 71.4 19.2 30
Planning
Base + HL 50.9 54.2 63.3 78.9 53.3 57.1 15.4 20
ATLAS
Base + CM + HL + LA 63.0 67.1 73.3 84.2 53.3 77.1 42.3 40.0

Table 2 的消融研究结果中可以得出以下分析:

  • AgentOccam (Base) 性能: AgentOccam 作为基线模型,在 Avg w/ Multi-site 上取得了 47.9% 的成功率,在 Avg w/o Multi-site 上取得了 46.7% 的成功率。

  • 认知地图 (Cognitive Map) 的影响:

    • Base + CM-Raw 将原始 HTML 认知地图 (CM-Raw) 直接集成到基线模型中,导致性能下降44.8% vs 47.9%)。这表明直接使用原始 HTML 作为记忆会增加认知负荷,可能引入噪声或冗余信息,反而阻碍了智能体的决策。在 MapsMulti-site 类别中表现尤其差。
    • Base + CMCM-Raw 的基础上引入了智能体总结 (agentic summarization),将原始 HTML 提炼成更简洁、有意义的认知地图。这带来了显著的性能提升,达到 57.4%Avg w/ Multi-site),甚至超过了 Plan-and-Act53.9%。这强烈证实了认知地图智能体总结对智能体理解环境动态和降低认知负荷的重要性。
  • 分层规划器 (Hierarchical Planner, HL) 的影响:

    • Base + HL 在基线模型上集成分层规划器 (HL)Chae et al., 2025 风格),将性能提升到 50.9%Avg w/ Multi-site)。这表明将高层次规划能力引入智能体有助于任务分解和长期目标管理,即使没有认知地图的支持,也能带来改善。
  • ATLAS 完整系统 (Base + CM + HL + LA) 的表现:

    • Base + CM + HL + LA 这是 ATLAS 的完整形态,集成了认知地图 (CM)分层规划器 (HL)前瞻动作模拟 (Look-ahead Action Simulation, LA)(包括基于前瞻的重规划器)。该系统取得了最高的性能,达到 63.0%Avg w/ Multi-site)和 67.1%Avg w/o Multi-site)。这表明这些组件并非简单地线性叠加,而是通过协同作用,发挥了互补优势,共同实现了 state-of-the-art 的性能。特别是前瞻动作模拟 (LA) 结合了认知地图的真实环境模型和分层规划器的宏观指导,使得智能体能够进行更深层次、更可靠的决策。

      总结来说,消融实验清晰地展示了认知地图(尤其是经过智能体总结的)分层规划器前瞻动作模拟ATLAS 系统中的关键作用,并验证了它们在共同作用下能够显著提升 Web 智能体的任务完成能力。

7. 总结与思考

7.1. 结论总结

本文提出了 ATLAS,一个创新的 Web 导航智能体,它通过将显式的结构化记忆与分层规划相结合,将开放式浏览转化为一系列可验证、低熵的决策。ATLAS 利用当代大型语言模型在一个模块化的控制循环中,使其能够在不同页面之间保持情境感知,将目标分解为中间子目标,并随着界面或任务约束的变化调整其策略。该系统不仅在探索过程中具有更高的样本效率和时间效率,而且更具可解释性:中间记忆、子计划和决策理由揭示了智能体何时何地以及为何改变路线。 ATLAS 的核心贡献在于其无需网站特定 LLM 微调的能力,通过构建认知地图和进行前瞻动作模拟,显著提高了在 WebArena-Lite 基准测试上的任务成功率,达到了 63%

7.2. 局限性与未来工作

论文作者指出了当前工作的局限性,并提出了以下未来研究方向:

  • 世界模型表示的成熟度: 当前 Web世界模型 (world-model) 表示仍处于初级阶段。作者希望未来能开发出能够将重复模式(如过滤器、表格、表单)抽象为子程序,并支持反事实“假设”推理,而不仅仅是检索的 Web 原生世界模型。

  • 预算和安全意识规划: 下一代规划应该在设计上就具有预算意识 (budget-aware)安全意识 (safety-aware),通过校准不确定性和约束处理来权衡成功、延迟和风险。

  • 系统鲁棒性测量: 系统的鲁棒性不应被假设,而应通过压力测试来衡量,包括 UI 漂移、认证流程、随机故障和长周期、多会话任务。

  • 超越通过/失败的评估: 随着智能体系统逐渐接近人类性能,未来的评估必须超越简单的通过/失败,纳入计算成本、副作用惩罚、跨种子重现性以及中间状态的透明度。

    作者认为,记忆、规划和控制的这种分离,为下一代可靠、适应性强的 Web 智能体提供了一个持久的支架。

7.3. 个人启发与批判

7.3.1. 个人启发

ATLAS 的设计理念,特别是其认知地图前瞻动作模拟的结合,为构建更通用、更智能的自主智能体提供了重要启发。

  1. 显式世界模型的重要性: LLM 智能体虽然拥有强大的语言理解和推理能力,但其内在的世界知识往往是隐式的,容易产生幻觉 (hallucination)ATLAS 通过好奇心驱动探索构建一个显式的认知地图,作为环境的模型 (model),这极大地增强了智能体决策的可靠性。这种“学习环境规则”而非“凭空想象”的模式,是提升 LLM 智能体在复杂、动态环境中表现的关键。
  2. 认知空间模拟的效率与安全性:认知空间 (cognitive space) 中进行前瞻模拟 (look-ahead simulation),而不是在真实环境中进行试错,显著提高了效率并降低了风险。这对于 Web 任务尤其重要,因为某些操作(如购买、删除数据)可能是不可逆的。这种模拟能力使得智能体可以在“头脑中”进行沙盘推演,选择最优路径。
  3. 模块化架构的泛化能力: ATLAS 的模块化设计,特别是其无需网站特定 LLM 微调的特点,是其最具吸引力的优势之一。这使得智能体能够更广泛地应用于新场景和新 LLM,大大降低了部署成本和时间。这种通用性是 Web 智能体从实验室走向实际应用的关键一步。
  4. 分层记忆与规划的协同作用: ATLAS 的多层记忆(工作记忆认知地图语义记忆)与分层规划器的结合,使得智能体能够同时处理短期上下文和长期环境知识,并在宏观和微观层面进行规划。这种协同作用是应对长周期、多步骤任务的有效策略。

7.3.2. 批判

尽管 ATLAS 取得了显著进步,但仍存在一些潜在的问题或可以改进的地方:

  1. 认知地图的构建与维护成本: 尽管论文称好奇心驱动探索 (curiosity-driven exploration) 是轻量级的,但在面对极其庞大和复杂的 Web 网站时,构建一个全面、准确的认知地图仍然可能需要大量的探索时间和计算资源。此外,Web 环境是动态变化的,如何高效地在线更新和维护这个认知地图,以应对 UI 变化或功能更新,是一个持续的挑战。智能体总结 (agentic summarization) 的质量也高度依赖于底层 LLM 的能力。

  2. 模拟深度和广度的权衡: 前瞻动作模拟 (Look-ahead Action Simulation, LAS) 的深度 DD 和每一步候选动作 NN 的选择,会直接影响模拟的计算成本和规划的质量。过小可能导致短视,过大则会带来巨大的计算开销。如何在复杂任务中动态调整这些参数,以实现效率和效果的最佳平衡,是一个值得探讨的问题。

  3. 不确定性量化与利用: 公式 V^(τ^)=V(τ^)(s,a)τ^(1U(s,a))\hat{V}(\hat{\tau})=V(\hat{\tau}) \cdot \prod_{(s, a) \in \hat{\tau}}(1-U(s, a)) 中引入了转换不确定性 (U(s, a)),这很合理。然而,如何准确地量化这种不确定性,以及 LLM 评估的原始价值 V(τ^)V(\hat{\tau}) 的可靠性,都可能影响最终决策的质量。论文中未详细说明 U(s, a) 的具体计算方法。

  4. LLM 幻觉的根本性挑战: 尽管认知地图减少了 LLM幻觉 (hallucination),但 LLM 在生成动作、进行总结和评估价值时,仍有可能产生不准确或不符合现实的内容。这可能会导致认知地图被污染,或者评论家 (Critic) 做出错误的评估。如何进一步提高 LLM 在这些关键环节的可靠性,是一个持续的研究方向。

  5. 隐私和安全性: Web 智能体与真实 Web 环境交互,不可避免地会涉及用户数据和敏感操作。虽然论文提到了避免不可逆操作,但在实际部署中,如何确保 ATLAS 在执行任务时遵守隐私协议、不滥用权限,并有效抵御恶意攻击,是需要深入研究的伦理和安全问题。

    总的来说,ATLAS 提供了一个强大且有前景的框架,特别是其免微调的特性和显式世界模型的构建,为 Web 智能体领域带来了重要的突破。未来的研究可以在提升其世界模型的精细度、优化模拟策略以及增强鲁棒性方面进行。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。