论文状态：已完成

Agent Workflow Memory

发表：2024/09/12

Agent Workflow Memory (1)在线任务工作流学习 (1)网页导航基准测试 (1)复杂动作轨迹优化 (1)经验驱动的代理决策 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出智能体工作流记忆（AWM），通过自动诱导并复用任务工作流，有效提升基于大型语言模型智能体在长时程复杂网络导航任务中的表现。在Mind2Web和WebArena两大基准上，AWM显著提高成功率并减少操作步骤，展现强泛化能力。

摘要

Despite the potential of language model-based agents to solve real-world tasks such as web navigation, current methods still struggle with long-horizon tasks with complex action trajectories. In contrast, humans can flexibly solve complex tasks by learning reusable task workflows from past experiences and using them to guide future actions. To build agents that can similarly benefit from this process, we introduce Agent Workflow Memory (AWM), a method for inducing commonly reused routines, i.e., workflows, and selectively providing workflows to the agent to guide subsequent generations. AWM flexibly applies to both offline and online scenarios, where agents induce workflows from training examples beforehand or from test queries on the fly. We experiment on two major web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover 1000+ tasks from 200+ domains across travel, shopping, and social media, among others. AWM substantially improves the baseline results by 24.6% and 51.1% relative success rate on Mind2Web and WebArena while reducing the number of steps taken to solve WebArena tasks successfully. Furthermore, online AWM robustly generalizes in cross-task, website, and domain evaluations, surpassing baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps widen.

思维导图

论文精读

中文精读约 36 分钟读完 · 20,931 字

1. 论文基本信息

1.1. 标题

智能体工作流记忆 (Agent Workflow Memory)

1.2. 作者

Zora Zhiruo Wang, C Jiayuan Mao, m Daniel Fried, C Graham Neubig。所属机构：卡内基梅隆大学 (Carnegie Mellon University) 和麻省理工学院 (Massachusetts Institute of Technology)。

1.3. 发表期刊/会议

该论文以预印本 (preprint) 形式发布在 arXiv 上。虽然尚未指明具体的期刊或会议，但 arXiv 是一个广受认可的学术论文预印本平台，对于计算机科学，尤其是人工智能领域的研究者来说，其上的论文通常具有较高的参考价值和影响力。

1.4. 发表年份

2024年

1.5. 摘要

尽管基于大型语言模型 (Language Model-based, LLM) 的智能体在解决网络导航等现实世界任务方面具有潜力，但当前方法在处理具有复杂行动轨迹的长时程任务 (long-horizon tasks) 时仍面临挑战。与此不同，人类能够通过从过往经验中学习可重用任务工作流 (reusable task workflows) 并利用它们指导未来的行动，从而灵活地解决复杂任务。为了构建能够同样受益于这一过程的智能体，本文引入了 智能体工作流记忆 (Agent Workflow Memory, AWM)，这是一种用于诱导 (inducing) 常用例程（即工作流）并选择性地将这些工作流提供给智能体以指导后续生成的通用方法。

AWM 灵活适用于离线 (offline) 和在线 (online) 场景，其中智能体可以预先从训练示例中诱导工作流，或在运行时 (on the fly) 从测试查询中诱导工作流。研究团队在两个主要的网络导航基准测试——Mind2Web 和 WebArena 上进行了实验，这两个基准测试共涵盖了来自旅行、购物和社交媒体等 200 多个领域的 1000 多个任务。结果显示，AWM 在 Mind2Web 和 WebArena 上分别将基线方法的相对成功率提高了 24.6% 和 51.1%，同时成功解决了 WebArena 任务所需的步骤数。此外，在线 AWM 在跨任务、跨网站和跨领域评估中展现出强大的泛化能力，随着训练-测试任务分布差距的扩大，其绝对得分比基线高出 8.9 到 14.0 个百分点。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2409.07429 PDF 链接: https://arxiv.org/pdf/2409.07429v1.pdf 发布状态: 预印本 (UTC): 2024-09-11T17:21:00.000Z

2. 整体概括

2.1. 研究背景与动机

当前基于大型语言模型 (LLM) 的智能体在执行网络导航等复杂现实任务时，面临着长时程任务 (long-horizon tasks) 和复杂行动轨迹 (complex action trajectories) 的挑战。现有方法通常依赖固定示例进行训练或上下文学习 (in-context learning)，这导致它们在任务背景或环境发生变化时缺乏鲁棒性 (robustness)。核心问题在于，这些智能体难以从经验中提取和学习可重用的任务工作流 (reusable task workflows)，也无法从过去的成功和失败中学习并随时间适应。这使得它们在面对日益复杂的任务时显得力不从心。

论文的切入点是借鉴人类的认知方式：人类能够从过去的经验中抽象出常见的任务例程，并将这些知识应用于指导未来的活动。这种能力使得人类能够灵活高效地解决复杂问题。

2.2. 核心贡献/主要发现

本文的核心贡献在于提出了 智能体工作流记忆 (Agent Workflow Memory, AWM) 方法，旨在赋予智能体类似人类的学习和适应能力。

主要发现包括：

引入 AWM 框架： AWM 能够从智能体轨迹中诱导 (induce) 可重用的例程（即工作流），并将其整合到智能体的记忆中，以指导未来的任务解决过程。每个工作流代表一个目标，其附带的通用例程是从可用的行动轨迹中提取的，有效捕捉了智能体成功解决复杂任务所需的最基本和可重用技能。
灵活的适用场景： AWM 可以在离线 (offline) 场景中使用，即从预先准备好的训练示例中诱导工作流；也可以在在线 (online) 场景中使用，即在运行时 (on the fly) 从自生成的并被评估为正确的测试查询中迭代诱导工作流，无需额外标注。
显著提升任务成功率： 在两个主要的网络导航基准测试 Mind2Web 和 WebArena 上，AWM 相较于基线方法，相对成功率分别提升了 24.6% 和 51.1%。
提高任务执行效率： AWM 成功解决了 WebArena 任务所需的平均步骤数，表明其不仅提高了成功率，还提升了效率。
强大的泛化能力： 在线 AWM 在跨任务、跨网站和跨领域评估中展现出强大的泛化能力。随着训练-测试任务分布差距的扩大，其绝对得分比基线高出 8.9 到 14.0 个百分点，这表明 AWM 能够有效应对不同任务类型、不同网站以及不同领域带来的挑战。
学习复杂工作流的能力： AWM 能够通过从新经验和先前习得的工作流中不断学习，逐步构建出越来越复杂的工作流，形成“滚雪球效应”，持续提升性能。
对抽象表示的验证： 实验结果表明，AWM 中抽象、可重用的工作流性质优于具体、完整的示例，尤其是在元素选择准确性方面。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文，需要了解以下基础概念：

语言模型 (Language Model, LM)： 能够理解和生成人类语言的人工智能模型，如 GPT-4。在基于 LM 的智能体中，LM 通常作为其“大脑”，负责根据观察和指令生成行动。
基于 LM 的智能体 (LM-based Agents)： 结合语言模型，使其能够理解自然语言指令，并在数字环境中（如网页）执行一系列操作以完成任务的智能体。
网络导航任务 (Web Navigation Tasks)： 指在网页环境中，根据自然语言指令，通过点击、输入、滚动等操作来完成特定目标的任务，例如在购物网站上搜索商品、在社交媒体上发帖等。
长时程任务 (Long-horizon Tasks)： 需要执行一系列连续的、往往是多步骤的操作才能完成的任务，与只需一步或几步即可完成的短时程任务相对。
行动轨迹 (Action Trajectory)： 智能体从起始状态到终止状态所执行的一系列观察-行动对 (observation-action pairs) 的序列。
工作流 (Workflow)： 在本文中特指从智能体行动轨迹中提取出的、可重用的子例程或子任务序列。它封装了完成特定高层目标所需的一系列步骤。
离线学习 (Offline Learning)： 智能体在预先收集的、通常是高质量的静态数据集上进行学习，然后将学到的知识应用于推理阶段。
在线学习 (Online Learning)： 智能体在与环境交互的过程中，实时地从新的经验中学习和适应，其知识库会随着时间的推移而不断更新。
上下文学习 (In-context Learning)： 大型语言模型的一种能力，它可以通过在输入提示中提供少量示例来学习执行新任务，而无需进行模型参数更新（微调）。
评估指标：
- 成功率 (Success Rate, SR)： 衡量智能体成功完成任务的百分比。在 Mind2Web 中，分为步骤成功率 (Step SR) 和任务级成功率 (Task-level SR)。
- 元素准确率 (Element Accuracy, Elem Acc)： 衡量智能体选择正确页面元素的准确性。
- 动作 F1 (Action F1)： 衡量智能体执行动作的准确性，F1分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值，综合考虑了漏报和误报。

3.2. 前人工作

论文在“相关工作”部分总结了以下几类关键先前研究：

网络智能体基准测试 (Web Agent Benchmarks)：
- MiniWob (Shi et al., 2017) 及其扩展 $MiniWob++$ (Liu et al., 2018)：早期的网络代理基准，评估飞行预订等各种场景。
- WebShop (Yao et al., 2022)：一个模拟的电子商务网站和众包文本指令。
- WebArena (Zhou et al., 2024)：本文主要使用的基准之一，集成了四个额外的网站，并实现了真实的基于执行的评估。
- VisualWebArena (Koh et al., 2024)：扩展了需要视觉输入的任务。
- Mind2Web (Deng et al., 2023)：本文主要使用的基准之一，提出了多功能任务，强调智能体在跨网站和跨领域的泛化能力。
增强复杂任务智能体的方法 (Enhancing Agents for Complex Tasks)：
- 修改行动空间： 例如限制行动搜索空间 (Liu et al., 2018)，使 LLM 进行自反馈以优化预测行动 (Sun et al., 2023)，或整合人类设计的特定任务行动 (Sodhi et al., 2023)。
- 增强智能体记忆： 例如在上下文中添加示例演示 (Haluptzok et al., 2023; Zheng et al., 2024; Fu et al., 2024)。
- 本文的观点： 指出高质量示例并非总是可用或易于收集，而 AWM 即使在辅助示例不存在、只有测试查询可用时也能灵活操作。
从经验中学习通用程序 (Learning Common Procedures from Experiences)：
- 使用完整示例作为上下文 (Zheng et al., 2024) 存在与示例特定上下文纠缠、难以泛化到其他任务或领域的挑战 (Majumder et al., 2023)。
- 提取频繁重用的子例程： 通过基于规则 (rule-based) 的方法 (Ellis et al., 2023; Bowers et al., 2023; Grand et al., 2023) 或基于 LM 的方法 (Cai et al., 2023; Wang et al., 2024c;a) 来提取，并将其作为辅助技能以简化未来的任务解决 (Oh et al., 2017; Liang et al., 2023; Yu et al., 2023; Mao et al., 2023)。
- 本文的贡献： 探索了基于规则和基于 LM 的方法来诱导可重用工作流，并将其灵活地用作上下文指导，避免了环境接地问题。

3.3. 技术演进

网络智能体领域的技术演进经历了从早期特定场景（如 MiniWob）到模拟真实世界（如 WebShop），再到追求真实执行和广泛任务覆盖（如 WebArena 和 Mind2Web）的过程。在智能体增强方面，研究从直接修改行动空间或简单地增加记忆中的示例，逐步发展到更精细地从经验中提取可重用知识。早期的示例增强方法虽然有效，但其“上下文”往往过于具体，难以泛化。本文的 AWM 代表了这一演进中的一个重要步骤，它专注于从具体的经验中抽象出通用的、可参数化的工作流 (workflows)，以更高效和灵活地指导智能体，从而超越了简单地提供完整示例或人工编写规则的限制。

3.4. 差异化分析

本文的 AWM 方法与相关工作中的主要方法相比，核心区别和创新点在于：

抽象与重用： 现有方法多采用固定示例进行训练或上下文学习，这些示例通常是具体的、完整的行动轨迹。AWM 则从这些经验中诱导 (induce) 出抽象的、可重用的子例程，即工作流 (workflows)。这些工作流通过抽象出示例特定的上下文（例如，将“干猫粮”替换为“{product-name}”），使其能更灵活地应用于多种类似任务。
学习机制的动态性：
- 区别于固定示例： 许多方法集成固定示例，而 AWM 能够持续诱导和应用工作流，从而在性能上实现持续提升，尤其是在在线学习场景中，智能体能够随着任务的解决不断更新和扩展其工作流记忆。
- 区别于人工编写工作流： 像 SteP (Sodhi et al., 2023) 这样的方法依赖于人类专家编写的工作流，具有领域特定性且需要大量人工投入。AWM 则是自主诱导 (autonomous induction) 工作流，无需人工监督，并且能够超越这些人工编写工作流的性能。
泛化能力： AWM 的抽象工作流设计使其在跨任务、跨网站和跨领域评估中展现出更强的泛化能力。与仅在相同任务模板内提供帮助的工作流不同，AWM 诱导的工作流能够有效泛化到由不同任务模板实例化的任务中。
离线与在线的灵活性： AWM 灵活支持离线和在线两种模式。离线模式利用现有高质量标注数据提取工作流，而在线模式则在无监督情况下，通过智能体自身在测试查询上的成功经验来迭代诱导和更新工作流，这解决了高质量辅助示例不易获取的问题。
效率： AWM 不仅提高了任务成功率，还减少了解决任务所需的步骤数，这表明其学习到的工作流是高效的。

4. 方法论

4.1. 方法原理

AWM (Agent Workflow Memory) 的核心思想是模拟人类从过往经验中学习和抽象出可重用任务例程（即工作流），并利用这些工作流来指导未来复杂任务的解决。其直觉在于，许多复杂任务可以分解为一系列常见的、重复出现的子任务。如果智能体能够识别并记住这些子任务的执行流程，那么在遇到新任务时，它就可以调用这些预定义的工作流来快速完成部分甚至大部分任务，从而提高效率和成功率。

AWM 的关键创新在于其工作流诱导 (workflow induction) 机制，它能够从智能体的行动轨迹中自动提取这些可重用的子例程，并将其整合到智能体的记忆中。这种记忆是动态的，可以在离线阶段预先构建，也可以在在线阶段随着智能体解决新任务而不断更新和扩展。

4.2. 核心方法详解

4.2.1. 问题定义

在本文中，智能体被设定为具有语言模型 (LM) 骨干网络 (backbone) $L$ 和文本记忆 (text-based memory) $M$ 的系统。初始记忆 $M$ 包含内置动作（如 CLICK 和 TYPE）的文档。为了解决由自然语言 (NL) 指令 (instruction) $q$ 指定的任务，智能体在由转换函数 (transition function) $T$ 定义的环境中采取行动。

对于每个时间步 $t_i$ ：

环境状态 $s_i$ 提供观察 (observation) $o_i$ 。
智能体使用其 LM 骨干网络 $L$ $L$ 和记忆 $M$ $M$ 生成行动 $a_i$ $a_{i}$ ： $L(q, M, o_i) \to a_i$ $L (q, M, o_{i}) \to a_{i}$
- $q$ : 当前任务的自然语言指令。
- $M$ : 智能体的当前记忆，包括内置动作文档和诱导的工作流。
- $o_i$ : 当前环境的观察。
- $a_i$ : 智能体生成的行动。
行动 $a_i$ $a_{i}$ 在环境中执行，并改变环境状态： $T(s_i, a_i) \to s_{i+1}$ $T (s_{i}, a_{i}) \to s_{i + 1}$
- $s_i$ : 当前环境状态。
- $a_i$ : 执行的行动。
- $s_{i+1}$ : 行动执行后的新环境状态。
  
  这个“观察-行动循环” (observe-act loop) 持续迭代，直到模型预测停止动作 $a_i = \mathrm{STOP}$ ，或者达到任务终止条件（例如，预设的最大步骤数）。

每个已完成的任务形成一个经验 (experience) $e$ ，它包含：

一个 NL 指令 $q$ 。
一个试图解决该任务的步骤轨迹 (trajectory of steps)，其中每个步骤 $p$ 包含从当前状态获得的智能体观察 $o$ 和智能体采取的行动 $a$ 。一个步骤表示为 $\bar{p} = (o, a)$ 。

本文的目标是：从由过去或收集到的示例构建的经验集合 $\mathcal{E} = \{e\}$ 中，使用诱导模块 (induction module) $I$ 诱导有用的工作流 (workflows) $\mathcal{W} = \{w\}$ ： $I(\mathcal{E}) \to \mathcal{W}$ 然后，将这些诱导出的工作流添加到智能体记忆 $M$ 中，作为后续任务解决过程的指导。

4.2.2. 工作流表示 (Workflow Representation)

工作流的表示方式与经验类似，包含两个主要组成部分：

工作流描述 (Workflow Description) $d$ ： 一段自然语言文本，描述工作流的高层目标或功能。这通过启发式地从经验指令中提取，或使用语言模型进行总结（参见 §2.3）。
工作流轨迹 (Workflow Trajectory) $P^d = (p_1, p_2, \dots)$ ： 完成 $d$ $d$ 中描述过程的一系列步骤。每个步骤 $p$ $p$ 包含三部分（如图 2 所示的 $p_n$ $p_{n}$ ）：
- 当前环境状态的 NL 描述： 例如“订单 {id} 已显示”。
- 智能体决定生成哪个行动的推理过程： 例如“订单 {id} 已找到，我现在将终止任务。”
- 作为环境中可执行程序的行动： 例如 stp() 实现终止动作。

4.2.3. 诱导与使用工作流 (Inducing and Using Workflows)

AWM 的核心是诱导模块 $I$ ，它从一个或多个过去的智能体经验 $\mathcal{E} = \{e_i\}_{i=1}^m$ 中诱导出一组工作流 $\mathcal{W}$ 。每个经验 $e = (q, P^e)$ 包含一个 NL 任务指令 $q$ 和一个由一系列步骤（观察和行动）组成的行动轨迹 $P^e = (p_1^e, \dots, p_n^e)$ ，这些步骤用于解决 $q$ 。工作流诱导模块通过接收 $\mathcal{E}$ 并生成一组工作流： $I(\mathcal{E}) \to \mathcal{W} = \{w\} = \{(d_j, P_j^d)\}$ 其中 $d_j$ 是工作流的描述， $P_j^d$ 是其行动轨迹。

4.2.3.1. 基于 LM 的工作流诱导 (LM-based Workflow Induction)

为了生成能更准确捕捉跨任务可重用轨迹的工作流，本文提出了一个基于 LM 的诱导模块 $I$ 。它提示智能体从一个或多个输入经验中提取通用子例程。

细粒度诱导： 与指定具体、不常重复的任务指令（例如“在亚马逊购买干猫粮并送到我的地址”）不同，LM 被提示诱导更细粒度的工作流，即作为多个类似指令的一部分频繁出现的子任务（例如“在亚马逊搜索产品”）。
抽象上下文： 为了增强工作流的通用性，通过在工作流诱导提示中指定，将示例特定值（例如“干猫粮”）抽象为更通用的名称（例如“{product-name}”）。
存储： 这些工作流根据模型输出中的双行分隔符进行分段，并单独存储在工作流记忆中。

诱导工作流 $\mathcal{W}$ 后，它们被整合到智能体中作为辅助记忆 (auxiliary memory)： $M + \mathcal{W} \to M_w$ 其中 $M$ 是原始智能体记忆， $M_w$ 是增强了诱导工作流的智能体记忆。当解决给定指令 $q$ 时，智能体现在通过以下方式生成一系列行动： $\mathcal{L}(q, \overline{M}_w, o) \to a$

AWM 在两种主要场景中应用：

4.2.3.2. 离线场景 (Offline Scenario - $\mathbf{AWM}_{offline}$ )

当存在额外的规范经验（例如，人类标注或模型合成的数据）时，AWM 可以在离线场景中操作。如图 3 所示，流程分为两个独立的过程：

工作流诱导 (Workflow Induction)： 在“训练”时，AWM 接收来自一个网站的所有训练示例，将它们连接成一个单一的提示，并将其输入到 LM 中以创建一组工作流。 $I(\mathcal{E}_{train}) \to \mathcal{W}_{offline}$
- $\mathcal{E}_{train}$ : 训练经验集合。
- $\mathcal{W}_{offline}$ : 离线诱导的工作流集合。
工作流利用 (Workflow Utilization)： 在推理时，AWM 将所有诱导的工作流整合到智能体记忆中，以解决测试指令。智能体使用相同的 $\mathcal{W}_{offline}$ $W_{o ff l in e}$ 来解决每个测试任务。 $L(q, \overline{M} + \mathcal{W}_{offline}, o_i^{test}) \to a_i^{test}$
- $q$ : 测试指令。
- $\overline{M} + \mathcal{W}_{offline}$ : 增强了离线工作流的智能体记忆。
- $o_i^{test}$ : 测试任务的观察。
- $a_i^{test}$ : 智能体生成的行动。
  
  $Figure 3: Illustration of $\\mathbf { A W M } _ { o f f i n e }$$ 该图像是图3的示意图，展示了AWM offline方法的工作流程。步骤包括①从“训练”阶段带有额外示例中归纳工作流，将其加入记忆，②在测试推理阶段应用这些工作流指导任务执行。

4.2.3.3. 在线场景 (Online Scenario - $\mathbf{AWM}_{online}$ )

当规范经验不可用或难以收集时，AWM 也可以在无监督的在线设置中运行，仅需测试查询。如图 4 所示，智能体以流式方式处理测试查询，在运行每个测试任务的推理后，进行工作流的诱导、整合和利用循环：

初始状态： 智能体从默认记忆 $M$ 开始。
处理测试指令： 给定第 $t$ 个测试指令 $q_t$ ，智能体尝试通过生成行动轨迹 $(p_1^t, p_2^t, \dots)$ 来解决任务，这共同构成一个经验 $e_t = (q^t, \{p^t\})$ 。
成功判断： 采用 Pan et al. (2024) 的基于 LM 的评估模型，输出一个二元标签 $L_{eval}(e^t) \in \{0, 1\}$ ，判断 $e^t$ 是否成功解决了 $q^t$ 。
工作流诱导与记忆更新： 如果 $e^t$ 被预测为成功（即 1），则将其转换为一个或多个工作流 $I(e^t) \to \{w^t\}$ ，并将 $\{w^t\}$ 添加到智能体记忆中，形成 $M^{t+1}$ ，用于处理第 $t+1$ 个指令。 $M^t + \{w^t\} \to M^{t+1}$
- $M^t$ : 处理第 $t$ 个指令前的记忆。
- $w^t$ : 从第 $t$ 个成功经验诱导的工作流。
- $M^{t+1}$ : 更新后的记忆。
迭代： 持续这个记忆更新过程，迭代地预测行动并从流式测试指令中诱导工作流，直到所有测试都处理完毕。

$Figure 4: Illustrations of $\\mathbf { A W M } _ { o n l i n e }$$ 该图像是论文中图4的示意图，展示了在线版Agent Workflow Memory（AWM_online）的工作流程，包括如何从测试样例流中诱导(workflows induce)、存储(grow over time)、应用(apply)工作流，指导测试推断。

4.2.4. 规则-基于工作流诱导 (Rule-based Workflow Induction)

除了基于 LM 的诱导，本文还探索了基于规则的工作流诱导方法 (在 §4.1 和附录 B 中详述)。该方法包含两个步骤：

经验去重 (experience deduplication)： 提取经验的行动序列（例如 CLICK -> CLICK -> TYPE），并根据行动序列去重。对于 WebArena，还额外根据任务模板进行去重。
无效行动过滤 (invalid action filtering)： 移除行动轨迹中无法成功执行的步骤（例如，由于输入参数不符合要求）。

4.2.5. 工作流描述方式的探索 (Exploring Workflow Representation)

在 §4.2 中，本文将工作流步骤表示为程序格式。作为替代，本文也探索了文本格式 (textual format) 的工作流。通过提示 gpt-3.5-turbo 将程序动作（如 $CLICK({submit-id})$ ）转化为自然语言描述（如“点击提交按钮”）。

4.2.6. 工作流中的环境抽象 (Environment Abstraction in Workflows)

AWM 默认使用 NL 描述中间网页状态。在 §4.3 中，本文探索了通过添加过滤后的网页 HTML 来强化观察 (strengthened observations)。使用 Deng et al. (2023) 的相关性预测器来过滤 HTML，只保留被预测为相关的元素。

4.2.7. 上下文和行动中的工作流利用 (Workflow Utilization in Context and in Action)

除了将工作流作为智能体记忆进行整合外，本文还在 §5 探索了将工作流扩展到智能体行动空间 (agent action space) 的变体，称为 $\mathbf{AWM}_{AS}$ 。

高层函数封装： 利用工作流的程序性，将每个工作流封装成一个高层函数，类似于智能体可以调用的快捷工具。
扩展行动空间： 智能体最初配备有默认的基本行动 (primitive actions) $P$ （例如 click, type）。 $\mathbf{AWM}_{AS}$ 将诱导的工作流行动 $W$ （例如 find-place, get-place_zipcode）添加到其行动空间中。
执行逻辑： 智能体可以在每一步调用基本行动或工作流行动。调用基本行动时立即执行。调用工作流行动时，会触发工作流中预先确定的一系列步骤。例如，调用 login(username, password) 工作流行动会导致按顺序执行 click(box1-id), type(box1-id, username), click(box2-id), type(box2-id, password), click(submit-id)。当所有中间基本行动完成时，工作流行动完成。

5. 实验设置

5.1. 数据集

本文在两个主要的网络导航基准测试上进行了实验：

5.1.1. WebArena

来源： (Zhou et al., 2024)
规模与特点： 包含 812 个网络导航任务，涵盖五个网站和四个常见的应用领域：电子商务 (e-commerce)、社交论坛讨论 (social forum discussions)、协作软件开发 (collaborative software development) 和内容管理 (content management)。
评估特点： 最重要的是，WebArena 支持对智能体轨迹的功能正确性进行严格的基于执行的评估 (rigorous execution-based evaluation)。
样本示例： 论文未直接提供具体任务的样本示例，但提及了诸如“在亚马逊购买干猫粮”等类型的任务。

5.1.2. Mind2Web

来源： (Deng et al., 2023)
特点与领域： 强调跨任务 (cross-task)、跨网站 (cross-website) 和跨领域 (cross-domain) 的网络导航，旨在测试智能体在多功能操作和环境中的通用性。每个任务都具有固定数量的步骤。
样本示例： 论文未直接提供具体任务的样本示例，但提到了训练示例可能涵盖“如何在亚马逊购买物品”，而测试示例可能涉及“向亚马逊招聘部门申请工作”。

5.2. 评估指标

为了全面评估智能体性能，本文使用了以下评估指标：

5.2.1. WebArena 评估指标

任务成功率 (Task Success Rate, SR)： 衡量智能体成功完成整个任务的百分比。
步骤数 (# Steps)： 衡量智能体完成任务所需的平均行动步骤数，越少越好。

5.2.2. Mind2Web 评估指标

Mind2Web 的评估更为细致，每个任务在每个步骤都会进行评估，最终综合得出任务级别的指标。

元素准确率 (Element Accuracy, Elem Acc)
- 概念定义： 衡量智能体在当前步骤中是否选择了正确的页面元素。它关注智能体对页面交互目标的识别能力。
- 数学公式： $\text{Elem Acc} = \frac{\sum_{i=1}^{N} \mathbb{I}(\text{Element Selection}_i = \text{Ground Truth Element}_i)}{N}$
- 符号解释：
  - $N$ : 总步数（或评估的样本数）。
  - $\mathbb{I}(\cdot)$ : 指示函数，如果括号内的条件为真则为 1，否则为 0。
  - $\text{Element Selection}_i$ : 智能体在第 $i$ 步选择的元素。
  - $\text{Ground Truth Element}_i$ : 第 $i$ 步应该选择的真实页面元素。
动作 F1 (Action F1)
- 概念定义： 衡量智能体在当前步骤中对所选元素执行的动作的正确性。F1 分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值，对于分类或序列生成任务中的动作类型识别非常有用，因为它同时考虑了误报和漏报。
- 数学公式： $\text{F1} = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$ 其中， $\text{Precision} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}}$ $\text{Recall} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}}$
- 符号解释：
  - $\text{True Positives}$ : 智能体正确预测了动作类型（例如，应该 CLICK，智能体也预测 CLICK）。
  - $\text{False Positives}$ : 智能体错误地预测了某个动作类型（例如，不应该 TYPE，智能体却预测 TYPE）。
  - $\text{False Negatives}$ : 智能体未能预测出应该执行的动作类型（例如，应该 CLICK，但智能体预测了其他动作或无动作）。
  - （注：在单个步骤的动作评估中，通常会简化为比较预测动作与真实动作是否完全一致。若只评估动作类型的正确性，则可以将其视为一个多分类问题，然后计算微平均或宏平均 F1。论文中没有给出具体计算方式，此处采用标准 F1 定义。）
步骤成功率 (Step Success Rate, Step SR)
- 概念定义： 衡量在当前步骤中，智能体是否同时选择了正确的页面元素并执行了正确的动作。它是元素准确率和动作正确性的综合衡量。
- 数学公式： $\text{Step SR} = \frac{\sum_{i=1}^{N} \mathbb{I}(\text{Element Selection}_i = \text{Ground Truth Element}_i \land \text{Action}_i = \text{Ground Truth Action}_i)}{N}$
- 符号解释：
  - $N$ : 总步数（或评估的样本数）。
  - $\mathbb{I}(\cdot)$ : 指示函数。
  - $\text{Element Selection}_i$ : 智能体在第 $i$ 步选择的元素。
  - $\text{Ground Truth Element}_i$ : 第 $i$ 步应该选择的真实页面元素。
  - $\text{Action}_i$ : 智能体在第 $i$ 步执行的动作。
  - $\text{Ground Truth Action}_i$ : 第 $i$ 步应该执行的真实动作。
  - $\land$ : 逻辑“与”运算符。
任务级成功率 (Task-level Success Rate, SR)
- 概念定义： 衡量智能体是否成功完成了整个任务，即任务中的所有中间步骤都必须成功执行。这是一个更严格的指标，要求端到端的准确性。
- 数学公式： $\text{Task SR} = \frac{\sum_{j=1}^{M} \mathbb{I}(\text{All steps in Task}_j \text{ are successful})}{M}$
- 符号解释：
  - $M$ : 总任务数。
  - $\mathbb{I}(\cdot)$ : 指示函数。
  - “All steps in Task_j are successful”：表示任务 $j$ 中的所有步骤都达到了步骤成功率的条件（即元素和动作都正确）。

5.3. 对比基线

5.3.1. WebArena 基线

BrowserGym (Drouin et al., 2024)： 当前最先进的自主方法，它改变了智能体的默认行动空间。
BrowserGym_ax-tree： BrowserGym 的一个变体，仅使用辅助树 (accessibility tree) 表示网页，而不是同时使用 HTML 和辅助树。这用于与 AWM 进行公平比较，因为 AWM 也主要依赖文本表示。
SteP (Sodhi et al., 2023)： 使用 14 个人工专家编写的工作流来解决 WebArena 任务的方法。这个基线代表了带有强领域特定人类监督的方法。
WebArena (Zhou et al., 2024)： WebArena 基准的原始基线方法。
AutoEval (Pan et al., 2024)： 一种需要额外评估和优化步骤来正确解决任务的方法。

5.3.2. Mind2Web 基线

MindAct (Deng et al., 2023)： 引入了网页元素过滤和多选任务格式以简化观察处理的方法。
Synapse (Zheng et al., 2024)： 将任务格式改为轨迹样式，并用检索到的相关示例进行增强的方法。本文将 AWM 集成了元素过滤，并用工作流代替了 Synapse 中检索到的示例，以验证可重用工作流的优越性。

5.3.3. 模型配置

语言模型： gpt-4 (gpt-4-0613) 和 gpt-3.5-turbo。
温度参数： 0.0，以确保模型输出的稳定性。
使用方式： 在 AWM 中，相同的模型用于神经工作流诱导和智能体行动生成。

6. 实验结果与分析

6.1. WebArena 主要结果分析

以下是原文 Table 1 的结果：

Method	Total SR	Shopping	CMS	Reddit	GitLab	Maps	# Steps
	With human engineered workflows
*SteP (Sodhi et al., 2023)	33.0	37.0	24.0	59.0	32.0	30.0	-
Autonomous agent only
WebArena (Zhou et al., 2024)	14.9	14.0	11.0	6.0	15.0	16.0	-
AutoEval (Pan et al., 2024)	20.2	25.5	18.1	25.4	28.6	31.9	46.7
BrowserGym (Drouin et al., 2024)	23.5	-	-	-	-	-	-
BrowserGymax-tree	15.0	17.2	14.8	20.2	19.0	25.5	7.9
AWM (OURS)	35.5	30.8	29.1	50.9	31.8	43.3	5.9

AWM 显著超越基线：
- AWM 在 WebArena 上取得了最佳的公开结果，总成功率 (Total SR) 达到 35.5%。
- 相较于 BrowserGym 基线 (23.5%)，AWM 绝对提升了 12.0 个百分点，相对提升了 51.1%。
- 更值得注意的是，AWM 甚至超越了使用人类专家编写工作流的 SteP 方法 (33.0%)，相对提升了 7.6%。这表明 AWM 能够在无人类监督的情况下，诱导出比人类专家编写的更有效的工作流。
广泛适用性： AWM 在所有五个网站（Shopping, CMS, Reddit, GitLab, Maps）上都显著提升了智能体性能，绝对提升了 11.8 到 30.7 个百分点，这表明其在不同领域和任务中具有通用适用性。
效率提升： AWM 解决了任务所需的平均步骤数更少（5.9 步），比 BrowserGym_ax-tree 少了约 2.0 步 (7.9 vs 5.9)。与 AutoEval (46.7 步) 相比，AWM 更是大幅减少了 40.8 步。这表明 AWM 不仅提高了成功率，还通过更精简的轨迹提升了执行效率。

6.1.1. 从少量数据中高效学习

Figure 5: AWM enables rapid learning from a small amount of data, i.e., about 40 queries, using WebArena map test split as an example. 该图像是图表，展示了图5中AWM在WebArena地图测试集上通过约40个查询实现的快速学习能力。横轴为示例数量，纵轴为累计成功率（%），图中标注了快速学习阶段和稳定推理阶段。

上图 (Figure 5) 展示了 AWM_online 方法在 WebArena 地图测试集上的累积成功率曲线：

快速学习阶段： 在初期（0-40 个示例之间），智能体表现出快速学习曲线，通过获取最基本的工作流，成功率显著提高。
稳定推理阶段： 之后，随着智能体学习更高级的工作流（如图 1 所示），成功率逐渐稳定在早期学习阶段的最高点。
结论： 这表明 AWM 具有高效的学习过程，仅通过几十个示例就能大幅提升性能，证明了其在数据量有限的情况下也能实现快速且有效的知识积累。

6.1.2. 跨模板工作流泛化

以下是原文 Table 2 的结果：

Method	Total SR	Shopping (51	CMS (45)	Reddit (24)	GitLab (45)	Maps (32)
With human engineered workflows
*SteP (Sodhi et al., 2023)	32.1	26.5	29.3	52.2	27.3	36.4
Autonomous agent only
AutoEval (Pan et al., 2024)	23.2	12.2	17.1	21.7	31.8	36.4
BrowserGymax-tree	20.5	10.4	17.8	23.1	27.3	28.6
AWM (OURS)	33.2	24.5	29.3	52.2	31.8	39.4

为了验证 AWM 的益处并非仅限于在同一任务模板内学习工作流，而是能实现跨模板（即近似跨任务）泛化，作者从 WebArena 中提取了一个由非重叠模板组成的子集进行实验。

持续领先： AWM 在这个跨模板子集上仍然取得了最高的整体成功率 (33.2%)，并且在每个网站拆分上都表现出色。
结论： 这些结果证明了 AWM 诱导的工作流能够有效泛化到不同的任务中，即那些由不同任务模板实例化的示例，这凸显了其强大的通用性和适应性。

该图像是示意图，展示了AWM如何通过借鉴早期工作流的前几个步骤，构建越来越复杂的任务流程，示例涉及按名称查找地点及获取邮政编码的两种任务。

上图 (Figure 6) 通过一个案例研究直观地展示了 AWM 能够构建越来越复杂的工作流：

早期学习： 在线过程的早期阶段，智能体通过总结过去的示例，创建并学习了“按名称查找地点”的工作流。
复杂化构建： 之后，当遇到一个进一步要求获取该地点邮政编码的示例时，AWM 智能体学会了首先遵循现有工作流的前几个步骤来查找地点，然后执行额外步骤以获取邮政编码。
结果： 通过在香草（vanilla）查找地点任务上整合这些新步骤，智能体成功构建了一个更复杂的工作流，即“获取地点邮政编码”。这体现了 AWM 能够从现有工作流的基础上逐步构建更高级技能的能力。

6.2. Mind2Web 主要结果分析

6.2.1. 离线 AWM (AWM_offline) 结果

以下是原文 Table 3 的结果：

Method	Elem Acc	Action F1	Step SR	SR
MindAct3.5 CogAgent3.5 Synapse3.5 AWM3.5	20.3	56.6	17.4	0.8
	-	-	18.6	-
	34.0	-	30.6	2.4
	39.0	52.8	34.6	2.8
MindAct4 AWM4	41.6	60.6	36.2	2.0
MindAct4 AWM4	50.6	57.3	45.1	4.8

AWM 持续领先： AWM_offline 在使用 GPT-3.5-turbo 和 GPT-4 两种模型时，在步骤级别和任务级别都持续取得了最高的成功率。
- 与 Synapse (GPT-3.5-turbo) 和 MindAct (GPT-4) 等基线相比，AWM 在步骤成功率和任务成功率上分别带来了 4.0-8.9% 的相对提升和 0.4-2.8 个百分点的绝对提升。
主要来自元素选择准确性： 成功率的提高主要源于更准确的元素选择，元素准确率提升了 5.0-9.0 个百分点。
抽象子例程优于具体经验：
- 与 Synapse 方法（检索最相关的训练示例）相比，AWM 实现了 +5.0 的元素准确率提升和 +4.0 的步骤成功率提升。
- Synapse 增强具体的完整示例可能导致智能体偏向于选择与示例中呈现的元素相似的元素，而 AWM 通过工作流中对示例特定上下文的抽象表示，减少了这种元素选择上的偏差，从而实现了更高的步骤成功率。
- AWM 整合了频繁使用的子例程，这些子例程可以更灵活、更容易地在测试示例中复用，而 Synapse 使用的完整示例轨迹不太可能多次出现。
- 结论： 抽象、可重用的工作流性质是 AWM 优越性的关键。
工作流指南的权衡： 尽管元素选择更准确，AWM 的动作 F1 分数略低于 MindAct。这可能是因为增强的工作流可能会引导智能体采取与工作流一致的特定动作，但这并不总是与当前环境状态相关。虽然遵循工作流通常会导致更成功的任务轨迹，但智能体在识别何时需要偏离工作流指南方面仍面临一些挑战。

6.2.2. 在线 AWM (AWM_online) 泛化能力

以下是原文 Table 4 的结果：

Method	Cross-Task				Cross-Website					Cross-Domain
Method	EA	AF1	Step SR	SR	EA	AF1	Step SR	SR		EA	AF1	Step SR	SR
MindAct*	41.6	60.6	36.2	2.0	35.8	51.1	30.1	2.0	21.6		52.8	18.6	1.0
AWMoffline	50.6	57.3	45.1	4.8	41.4	46.2	33.7		2.3	36.4	41.6	32.6	0.7
AWMonline	50.0	56.4	43.6	4.0	42.1	45.1	33.9		1.6	40.9	46.3	35.5	1.7

显著超越基线： AWM_online 和 AWM_offline 都以显著的优势超越了 MindAct 基线。在跨任务、跨网站和跨领域场景中，步骤成功率分别提高了 7.4-8.9、3.6-3.8 和 14.0-16.9 个绝对百分点。
域内、跨任务场景： 在域内测试时，AWM_online 和 AWM_offline 的性能相当。
- AWM_online 的缺点：从模型预测轨迹中诱导工作流，可能导致不正确的工作流，从而降低模型性能。
- AWM_online 的优点：能够自然地解决训练-测试分布差距，因为它仅涉及测试查询和环境，从而产生更针对测试分布的工作流，带来更高的整体成功率。
- AWM_offline 的优点：如果存在高质量、分布匹配的训练示例，AWM_offline 可以通过缓解差距问题带来更多益处，如表 4 中 AWM_offline 略高的跨任务分数所示。
泛化到未见网站和领域： 当应用于未见网站或领域时，AWM_online 展现出更强的泛化能力，优于 AWM_offline。
- 随着训练和测试数据之间的领域差距从不同网站（例如 apple 到 bestbuy）扩大到不同领域（例如购物领域的 macys 到社交媒体领域的 reddit），AWM_online 相对于 AWM_offline 的性能差距也随之扩大。
- 结论： 由于 AWM_online 不依赖于训练数据信息，它不受任何领域差距的影响。然而，AWM_offline 对 MindAct 基线的显著改进表明，模型仍然可以从之前诱导的工作流库中机械上相似的工作流中受益。

6.3. 工作流表示方式的消融实验

6.3.1. 子例程、抽象格式的贡献

以下是原文 Table 5 的结果 (WebArena)：

Method	Total SR	# Steps
AWMrule	35.6	6.3
AWMlm	35.5	5.9

以下是原文 Table 6 的结果 (Mind2Web)：

Method	Elem Acc	Action F1	Step SR	SR
MindAct4	41.6	60.6	36.2	2.0
AWM4,rule	49.5	57.0	43.4	2.0
AWM4,lm	50.6	57.3	45.1	4.8

WebArena 上的 LM-based vs Rule-based：
- AWM_rule (基于规则) 和 AWM_lm (基于 LM) 的成功率 (Total SR) 相当，仅有 0.1 个百分点的差距。
- AWM_lm 在效率上略胜一筹，平均步骤数减少了 0.4 步 (5.9 vs 6.3)。
- 分析： 手动分析发现，LM-based 诱导模块生成的工作流更细粒度，可以防止智能体遵循有时出现在规则诱导工作流中的不必要步骤，从而使任务解决过程略微更高效。
Mind2Web 上的 LM-based vs Rule-based：
- AWM_lm 相较于 AWM_rule 提升了 2.8 个步骤成功率百分点 (45.1 vs 43.4)。
- 分析： 再次确认了抽象、可重用的工作流性质对于 AWM_lm 方法的有效性至关重要。LM-based 的抽象表示减少了元素选择上的偏差，而 rule-based 诱导的完整示例轨迹则更难在多个测试示例中重复出现。

6.3.2. 描述性文本中的工作流

以下是原文 Table 7 的结果：

Method	Elem Acc	Action F1	Step SR	SR
MindAct	41.6	60.6	36.2	2.0
AWM	50.6	57.3	45.1	4.8
AWMtext	51.2	57.4	45.4	3.6

文本格式 vs 程序格式： AWM_text (文本格式) 相较于 AWM (程序格式) 在元素选择准确率和步骤成功率上略有提高（分别提高 0.6 和 0.3 个百分点），但在任务成功率上有所下降（3.6 vs 4.8）。
结论： 总体而言，文本和程序格式的工作流在性能上没有显著差异，表明两种形式都能有效增强智能体记忆。

6.3.3. 工作流中的环境抽象

以下是原文 Table 8 的结果：

Desc.	HTML	Elem Acc	Act F1	Step SR	SR
		39.0	52.8	34.6	2.8
>×>		38.1	54.0	33.8	2.8
	×>>	37.1	51.3	32.9	2.0

（注：表格中 Desc. 代表仅使用描述性文本，HTML 代表仅使用 HTML， $>x>$ 和 $x>>$ 可能表示结合使用，但从结果看，作者可能只展示了两种情况：仅描述，和仅 HTML，以及两种结合但效果不好的情况。根据描述，表格第一行应是仅描述，第二行是仅 HTML，第三行是结合。）

NL 描述的有效性： 仅使用 NL 描述状态（表格第一行，假设其代表仅描述）比使用 HTML 更有效。将 NL 替换为 HTML 导致步骤成功率略微下降 0.8 个百分点 (33.8 vs 34.6)。
结合 NL 和 HTML 的挑战： 有趣的是，同时使用 NL 和过滤后的 HTML 反而导致更差的结果。
原因推测：
1. 上下文长度增加： 添加 NL 和 HTML 会显著增加上下文长度，使得模型更难正确处理。
2. 不相关信息和矛盾： 过滤后的 HTML 仍包含大量不相关项（47% 的时间缺少所有正确元素），这可能与 NL 描述相矛盾，从而损害智能体的能力。

6.4. 在上下文和行动中利用工作流

以下是原文 Table 9 的结果：

Method	Elem Acc	Action F1	Step SR	SR
MindAct	41.6	60.6	36.2	2.0
AWM	50.6	57.3	45.1	4.8
AWMAS	51.8	56.7	46.4	3.6

扩展行动空间 (AWM_AS) 的效果： 将工作流扩展到智能体行动空间 (AWM_AS) 略微提高了步骤成功率 1.3 个百分点 (46.4 vs 45.1)，但整体任务成功率与基础记忆增强的 AWM 相同 (3.6)。
智能体使用工作流行动的意愿： 对智能体预测的分析发现，它们仅在 18.5% 的任务中调用工作流行动，这表明当前智能体对使用新添加的行动存在阻力。
结论： 总体而言，通过工作流扩展行动空间似乎强化了记忆中的工作流，并作为辅助行动带来了一些额外的增益，但并不显著。

该图像是示意图，展示了图7中动态环境变化对流程动作利用的挑战。图中左侧为初始航班搜索界面，右侧显示输入地点后弹出的选项列表，强调选择动作依赖弹出选项。

上图 (Figure 7) 展示了一个动态环境变化对工作流行动利用构成挑战的示例：

挑战： 在预订航班时，用户通常输入城市名称（如“纽约”），但系统可能会弹出一些附近的机场选项以支持下一步搜索。
工作流局限： 尽管可以诱导一个 book_flight 工作流，通过预定的行动序列输入所有必需数据，但选择弹出机场的行动是在没有看到带有可用弹出选项的中间状态的情况下执行的，因此不够灵活。
未来方向： 这类问题需要更先进的技术，例如授予实时状态访问权限或动态执行循环，这为未来的研究提供了方向。

6.5. 综合 AWM 离线和在线 (AWM_off+on)

以下是原文 Table 11 的结果：

Method	EA	Cross-Task		SR	EA	Cross-Website		SR	EA	Cross-Domain		SR
Method	EA	AF1	Step SR	SR	EA	AF1	Step SR	SR	EA	AF1	Step SR	SR
MindAct*	41.6	60.6	36.2	2.0	35.8	51.1	30.1	2.0	21.6	52.8	18.6	1.0
AWMofffline	50.6	57.3	45.1	4.8	41.4	46.2	33.7	2.3	36.4	41.6	32.6	0.7
AWMonline	50.0	56.4	43.6	4.0	42.1	45.1	33.9	1.6	40.9	46.3	35.5	1.7
AWMoff +on	50.0	57.0	44.5	1.6	41.8	45.5	33.3	1.1	39.3	44.3	34.1	1.5

AWM_off+on 的表现： AWM_off+on（结合离线和在线工作流）在三个测试拆分上的得分介于 AWM_offline 和 AWM_online 之间。
分析： 离线和在线诱导的工作流并非完全兼容。特别是，离线工作流似乎会损害在线工作流的生成质量和效用效率，因此导致总体结果居中。这表明简单地叠加两种工作流可能不是最优策略，可能需要更复杂的机制来协调和整合不同来源的工作流。

6.6. 工作流质量分析 (附录 A.3)

以下是原文 Table 10 的结果：

Metric	# Workflows	Coverage	Function Overlap	Utility Rate
WebArena	7.4	-	0.08	0.94
Mind2Web	7.3	0.40	0.20	0.91

工作流数量： 神经诱导方法为每个示例平均产生 7.3-7.4 个工作流，这被认为是高效的，不会给记忆增加过多内容。
效用率 (Utility Rate)： 在 WebArena 上，诱导的工作流被 94% 的测试示例使用，表明其在各种任务中的广泛适用性。在 Mind2Web 上，效用率也高达 91%。
功能重叠 (Function Overlap)： WebArena 的工作流之间只有 0.08 的步骤重叠，表明工作流在解决各自任务方面的效率很高，管理良好。Mind2Web 的工作流有略多的功能重叠 (0.20)。
覆盖率 (Coverage)： Mind2Web 的工作流对测试示例的覆盖率仅为 0.40。作者解释说，这是因为用于诱导工作流的训练示例与跨任务测试示例之间存在显著的任务分布差异，因此较低的覆盖率是合理的。对于 WebArena，由于没有规范轨迹，因此未评估覆盖率。

7. 总结与思考

7.1. 结论总结

本文提出了智能体工作流记忆 (Agent Workflow Memory, AWM)，一种通过诱导、增强和利用工作流 (workflows) 来提升基于语言模型 (LM) 的智能体在复杂网络导航任务中性能的方法。AWM 具有高度灵活性，既可以从现有示例中离线 (offline) 诱导工作流，也可以在推理时完全在线 (online) 诱导和更新工作流。

实验结果表明，AWM 在 WebArena 和 Mind2Web 这两个主要的网络导航基准测试上均取得了显著的性能提升，相对成功率分别提高了 24.6% 和 51.1%，并且减少了 WebArena 任务的解决步骤。AWM 还展示了其卓越的泛化能力，在跨任务、跨网站和跨领域的评估中均超越了基线方法，尤其是在训练-测试分布差距扩大时，其优势更为明显。此外，论文通过消融实验验证了 LM-based 抽象子例程优于具体示例，并探讨了不同工作流表示方式和利用策略的效果。

7.2. 局限性与未来工作

论文中明确指出或暗示的局限性：

智能体调用工作流行动的意愿： 在 AWM_AS 变体中，智能体在任务中调用工作流行动的比例较低（仅 18.5%），这表明当前智能体可能存在对新添加的、高层级行动的“抵触”或不充分利用。
动态环境挑战： 工作流行动在动态环境变化（例如，弹出选项）时可能不够灵活。当中间状态没有被明确观察到时，预设的行动序列可能无法适应。
离线与在线工作流的兼容性： 实验发现简单地组合离线和在线工作流 (AWM_off+on) 并未产生累加效果，反而可能因为不兼容而互相削弱，表明不同来源工作流的整合仍需优化。
在线 AWM 对评估模块的依赖： 在线 AWM 依赖于一个 LM-based 的评估模块来判断智能体自生成轨迹的成功与否。如果评估模块不准确，可能会诱导出错误的工作流，从而降低模型性能。

未来工作方向：
动态执行循环和实时状态访问： 针对动态环境挑战，可以探索更先进的技术，例如授予智能体实时状态访问权限或实现动态执行循环，以提高工作流的适应性。
优化工作流利用策略： 需要研究更有效的机制来引导智能体更频繁、更智能地利用诱导出的工作流，尤其是在扩展行动空间时。
更复杂的记忆管理和整合： 探索如何更有效地整合不同来源（离线、在线）或不同粒度的工作流，避免它们之间的冲突和性能下降。
动态记忆构建和智能体适应： AWM 为动态记忆构建和智能体在各种数字任务中的适应性提供了新的视角，鼓励未来研究在此基础上进一步推进。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一个非常直观且强大的思路：将人类学习经验中“抽象化-重用”的核心机制应用于智能体。其启发性体现在：

分层智能体的潜力： AWM 提出了一种构建分层智能体 (Hierarchical Agents) 的有效方法，通过将低级原子操作封装成高级工作流，智能体可以更高效地规划和执行复杂任务，这对于解决长时程决策问题至关重要。
无需人工监督的知识发现： 在线 AWM 模式能够在无监督情况下从智能体自身的成功经验中学习并诱导工作流，这大大降低了对高质量标注数据的依赖，对于现实世界中数据获取成本高昂的场景具有重要意义。
泛化性的提升： 抽象工作流的设计使其不仅在相似任务上表现出色，还能跨越网站和领域，这对于构建通用型智能体 (Generalist Agents) 是一个关键步骤。
持续学习的范式： AWM 能够通过“滚雪球效应”持续学习和构建更复杂的工作流，为智能体的终身学习 (Lifelong Learning) 提供了一个有效的框架。

7.3.2. 批判性思考

LM 评估模块的可靠性： 在线 AWM 严重依赖于一个 LM-based 的评估模块来判断自生成轨迹的成功与否。这个评估模块本身的准确性和鲁棒性直接影响了诱导工作流的质量。如果评估模块出错，可能会导致智能体学习到不正确或次优的工作流，形成负面反馈循环。未来的工作可能需要对评估模块进行更严格的验证或引入人类反馈 (Human-in-the-Loop) 机制来纠正。
工作流诱导的粒度控制： 论文提到 LM 诱导的工作流比规则诱导的更细粒度，但如何最优地控制工作流的粒度仍是一个开放问题。过细可能导致工作流数量庞大且通用性不足；过粗则可能导致工作流不够灵活，难以适应细微的环境变化。这可能需要更智能的聚类或分层诱导策略。
“不愿”使用工作流行动的现象： AWM_AS 中智能体不常用工作流行动的现象值得深入探讨。这可能是由于：
- 指令理解问题： 智能体可能未能完全理解何时应该调用高级工作流。
- 上下文窗口限制： 大模型上下文窗口的限制可能导致智能体在决策时未能充分考虑所有可用的工作流行动。
- 成本函数/奖励机制： 当前的奖励机制可能不足以鼓励智能体探索和利用高层工作流，或者模型本身具有偏好使用原子操作的倾向。
- 动态环境： 如图 7 所示，如果工作流不能动态适应环境，智能体可能“本能”地避免使用它。
工作流冲突与冗余： 尤其是在在线学习场景中，随着记忆中工作流数量的增加，可能会出现功能重叠、相互冲突或冗余的工作流。如何有效地管理、去重、合并或筛选这些工作流，保持记忆的精简和高效，是未来需要解决的问题。
可解释性与安全性： 虽然工作流本身具有一定的可解释性，但其诱导过程和智能体决策过程仍然是由黑箱的 LLM 完成的。对于关键任务，如何确保诱导的工作流是安全、可靠且可审计的，是一个重要的挑战。

总而言之，AWM 提供了一个令人兴奋的框架，将记忆、学习和泛化能力结合起来，以解决复杂的数字任务。它为智能体的自主学习和适应开辟了新的途径，但同时也提出了许多引人深思的挑战和未来研究方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。