论文状态：已完成

On the Multi-turn Instruction Following for Conversational Web Agents

发表：2024/08/01

多轮指令跟踪 (1)对话式网页导航 (1)多轮交互数据集MT-Mind2Web (1)Memory-Augmented Planning (1)大语言模型多轮对话能力 (1)

原文链接 PDF 下载

价格：0.100000

已有 8 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了对话式网页导航新任务，基于MT-Mind2Web数据集，针对LLM上下文长度限制和对话依赖问题，创新性设计自反记忆增强规划框架(Self-MAP)，通过记忆利用与自反思提升多轮指令遵循能力，实验验证方法有效性。

摘要

Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) , pages 8795–8812 August 11-16, 2024 ©2024 Association for Computational Linguistics On the Multi-turn Instruction Following for Conversational Web Agents Yang Deng 1 ∗ , Xuan Zhang 2 ∗ , Wenxuan Zhang † , Yifei Yuan 3 , See-Kiong Ng 2 , Tat-Seng Chua 2 1 Singapore Management University, 2 National University of Singapore, 3 University of Copenhagen ydeng@smu.edu.sg xuanzhang@u.nus.edu Abstract Web agents powered by Large Language Mod- els (LLMs) have demonstrated remarkable abilities in planning and executing multi-step interactions within complex web-based envi- ronments, fulfilling a wide range of web nav- igation tasks. Despite these advancements, the potential for LLM-powered agents to effec- tively engage with sequential user instructions in real-world scenarios has not been fully ex- plored. In this work, we introduce a new task of Conversational Web Navigation, which ne- cessitates sophisticated interactions that span multiple turns with both the users and the envi- ronment, supported by a specially developed dataset named Multi-Turn Mind2Web (M

思维导图

论文精读

中文精读约 33 分钟读完 · 22,703 字

1. 论文基本信息

1.1. 标题

关于对话式网页智能体中多轮指令遵循的研究 (On the Multi-turn Instruction Following for Conversational Web Agents)

1.2. 作者

Yang Deng (新加坡管理大学, Singapore Management University)
Xuan Zhang (新加坡国立大学, National University of Singapore)
Wenxuan Zhang (新加坡国立大学, National University of Singapore)
Yifei Yuan (哥本哈根大学, University of Copenhagen)
See-Kiong Ng (新加坡国立大学, National University of Singapore)
Tat-Seng Chua (新加坡国立大学, National University of Singapore)

1.3. 发表期刊/会议

该论文发表于 ACL 2024 (Association for Computational Linguistics)。ACL 是自然语言处理 (Natural Language Processing, NLP) 领域最具影响力的顶级学术会议之一，以其严格的审稿标准和高质量的研究成果而闻名。

1.4. 发表年份

2024年

1.5. 摘要

大型语言模型 (Large Language Models, LLMs) 驱动的网页智能体 (Web agents) 在复杂网页环境中规划和执行多步骤交互、完成广泛网页导航任务方面展现了卓越的能力。然而，LLM 驱动的智能体在真实场景中有效处理顺序用户指令的潜力尚未得到充分探索。本文引入了一种名为对话式网页导航 (Conversational Web Navigation) 的新任务，该任务需要与用户和环境进行多轮复杂交互，并由专门开发的数据集 Multi-Turn Mind2Web (MT-Mind2Web) 提供支持。为了解决 LLMs 有限的上下文长度 (context length limitation) 和对话任务的上下文依赖问题，我们进一步提出了一种新颖的框架，名为自反记忆增强规划 (self-reflective memory-augmented planning, Self-MAP)，该框架采用了记忆利用 (memory utilization) 和自反思 (self-reflection) 技术。我们进行了广泛的实验来对 MT-Mind2Web 数据集进行基准测试，并验证了所提出方法的有效性。

1.6. 原文链接

原文链接 (Official Paper Link): https://aclanthology.org/2024.acl-long.477/ (已正式发表)
PDF 链接 (PDF Link): https://aclanthology.org/2024.acl-long.477.pdf (已正式发表)

2. 整体概括

2.1. 研究背景与动机

研究背景： 人工智能 (Artificial Intelligence, AI) 领域的一个长期目标是开发能够执行复杂任务的 AI 智能体 (AI agents)，以最大限度地减少人类在日常活动中的努力。随着大型语言模型 (Large Language Models, LLMs) 的出现，由 LLM 驱动的智能体 (LLM-powered agents) 在与多样化环境进行多轮交互方面展示了出色的规划能力，这有助于解决各种现实世界问题。例如，网页智能体 (Web agents) 能够解释网页状态，并通过键盘和鼠标输入执行一系列操作，以完成自然语言定义的任务，例如预订票务。

动机与研究空白 (Gap)： 尽管现有的网页智能体在执行单个指令方面表现出色，但它们处理多轮用户指令的能力尚未得到充分探索。这对于将 LLM 驱动的智能体应用于真实世界场景至关重要。在现实世界的对话式网页导航会话中，用户通常会提出后续指令 (follow-up instructions) 或指示代词指令 (co-referencing instructions)，而不会重复之前的信息。他们也可能提供简洁或简短的指令，这与其他对话问题类似。现有的对话式 LLM 任务（例如对话式问答）通常依赖于模型固有的知识或一次性从外部环境请求信息，而无需多次访问动态环境。

核心挑战：

上下文长度限制 (Limited Context Length)： LLMs 的输入长度存在限制，而对话式网页导航会话中的历史上下文可能非常长且嘈杂，包含了用户-智能体交互历史和智能体-环境交互历史。
上下文依赖问题 (Context-Dependency Issue)： 对话任务的理解和完成高度依赖于之前的交互历史，且网页环境是动态变化的，这增加了任务的复杂性。

为了解决这些挑战，本文提出了一个新任务和一套解决方案。

2.2. 核心贡献/主要发现

本文的主要贡献总结如下：

定义新任务与引入新数据集： 首次定义了对话式网页导航 (Conversational Web Navigation) 问题，该问题要求网页智能体具备与用户和环境进行多轮交互的能力。为此，作者创建了一个名为 MT-Mind2Web 的新数据集，该数据集基于专家标注的 Mind2Web 数据集构建，并引入了对话会话。
提出新颖框架 Self-MAP： 提出了自反记忆增强规划 (Self-reflective memory-augmented planning, Self-MAP) 方法。该框架结合了记忆利用 (memory utilization) 和自反思 (self-reflection) 技术，旨在解决对话式网页导航任务中 LLMs 上下文长度限制和上下文依赖性问题。
全面基准测试与验证： 对 MT-Mind2Web 数据集进行了广泛的基准测试，并提供了在不同设置下的综合评估。实验结果验证了所提出方法 Self-MAP 的有效性，尤其在各项成功率指标上显著优于基线模型。

3. 预备知识与相关工作

3.1. 基础概念

大型语言模型 (Large Language Models, LLMs)： 指的是参数量巨大、在海量文本数据上进行预训练的深度学习模型，如 GPT 系列、Flan-T5 等。它们具备强大的自然语言理解、生成、推理和遵循指令的能力。
网页智能体 (Web Agents)： 一类能够理解网页内容（通常是 HTML 文档对象模型 (Document Object Model, DOM) 树结构），并模拟人类用户通过鼠标点击、键盘输入等方式与网页进行交互，以完成特定任务的自动化程序。
上下文长度限制 (Context Length Limitation)： LLMs 在处理输入时，能够接受的词元 (token) 数量是有限的。当输入文本（包括指令、历史对话、网页状态等）超过这个限制时，LLM 将无法处理或会丢失一部分信息。
多轮交互 (Multi-turn Interactions)： 指的是系统与用户或环境之间进行多次来回的对话或操作。在本文中，它特指两种情况：
- 用户-智能体多轮交互： 用户通过连续的、相互关联的指令来指导智能体，智能体需要理解这些指令之间的上下文关系。
- 智能体-环境多轮交互： 智能体为了完成一个任务，可能需要在网页上执行一系列操作（如点击、输入、滚动等），这些操作构成了智能体与环境的多轮交互。
HTML 文档对象模型 (HTML DOM)： 网页的结构化表示。它将网页视为一个由节点（元素、属性、文本）组成的树形结构，允许程序通过编程方式访问和修改网页内容、结构和样式。在网页智能体中，智能体通常会接收 HTML DOM 信息来理解当前网页的状态。
自反思 (Self-reflection)： 指的是智能体通过回顾自身过去的经验、行为或思维过程，从中学习、评估并改进自身能力或决策过程的技术。在本文中，它用于生成决策理由来增强记忆信息。

3.2. 前人工作

3.2.1. 网页智能体 (Web Agents)

早期的网页智能体主要依赖于简化环境模拟 (simplified environment simulation) 或特定领域的规则。近年来，研究方向转向在更实际和复杂的设置下解决网页导航问题，包括多领域 (multi-domain) 任务 (Deng et al., 2023 的 Mind2Web 数据集)、实时交互 (Zhou et al., 2024) 和视觉 UI 理解 (Zheng et al., 2024a)。

为了应对这些高级网页导航问题，人们越来越关注构建由 LLMs 驱动的自主网页智能体。各种基于提示 (prompt-based) 的方法被提出以增强 LLM 驱动的网页智能体，例如递归自校正提示 (recursive self-correction prompting, Kim et al., 2023)、基于代码的提示 (code-based prompting, Sun et al., 2023) 和轨迹增强提示 (trajectory-augmented prompting, Zheng et al., 2024b 的 Synapse 方法)。然而，在 Mind2Web 等高级设置中，基于提示的方法通常不如微调 (fine-tuned) 方法。

与本文差异： 现有工作主要关注完成独立的单轮用户指令，而本文引入了对话式网页导航任务，需要处理多轮用户和环境交互。

3.2.2. 与环境的多轮交互 (Multi-turn Interactions with Environment)

LLM 驱动的智能体通过与外部环境交互来处理具有挑战性的任务。例如，智能体可以与基于代码的环境交互来访问数据库或执行编程 (Xu et al., 2024)，与基于游戏的娱乐环境交互 (Shridhar et al., 2021)，以及与基于网页的环境交互以导航网页 (Deng et al., 2023) 或进行在线购物 (Yao et al., 2022)。

与本文差异： 这些工作主要关注通过规划一系列动作来完成一个独立的 (standalone) 用户指令。一些最新研究 (Wang et al., 2024; Xie et al., 2023) 探索了利用多轮用户反馈来解决给定任务，但这通常是指针对同一任务的迭代反馈，而不是用户在对话会话中发出连续的、可能互相指代或演进的指令。在真实世界应用中，用户可能不会总是只寻求单个任务的帮助，后续指令和多轮请求在对话会话中很常见。

3.2.3. 与用户的多轮交互 (Multi-turn Interactions with Users)

广泛的研究表明，LLMs 在与人类用户进行无缝多轮交互方面具有卓越的能力，以完成各种对话任务，例如推荐 (He et al., 2023)、辅导 (Dan et al., 2023)、咨询 (Zheng et al., 2023b)。例如，MT-Bench (Zheng et al., 2023a) 是评估 LLMs 多轮指令遵循能力最流行的基准之一，它包含 80 个高质量的多轮问题，涵盖 8 种常见的指令遵循能力。

与本文差异： 这些对话任务主要依赖于 LLMs 固有的知识，或者仅仅为每个回合执行一次对外部环境的请求（例如对话式信息检索 Pan et al., 2023），而无需多次访问动态环境。相比之下，对话式网页导航的对话历史包含了之前的用户-智能体和智能体-环境交互，指令的完成依赖于动态的环境状态。因此，其历史上下文可能比传统对话问题中的上下文更长、更嘈杂。

3.3. 差异化分析

本文的核心创新在于将多轮用户指令遵循的能力与动态的网页环境交互相结合，解决了现有研究的以下空白：

整合多轮用户指令与动态环境： 现有网页智能体主要关注单轮指令，而对话式 LLM 任务则不涉及复杂的动态环境交互。本文首次提出了对话式网页导航任务，要求智能体同时处理这两种复杂性。
应对长而嘈杂的上下文： 由于结合了用户对话历史和智能体-环境交互历史，对话式网页导航的上下文远比传统任务更长且更嘈杂。本文提出的 Self-MAP 框架通过多方面匹配 (Multifaceted Matching) 进行记忆检索，并结合记忆简化 (Memory Simplification) 和记忆精炼 (Memory Refinement) 来有效管理有限的上下文长度，同时最大化记忆的效用。
数据稀缺性： 缺乏专门用于对话式网页导航的基准数据集。本文通过构建 MT-Mind2Web 数据集填补了这一空白，为后续研究提供了基础。

4. 方法论

4.1. 方法原理

本文提出的 Self-MAP (Self-reflective Memory-Augmented Planning) 框架旨在解决对话式网页导航任务中 LLMs 有限的上下文长度和上下文依赖性问题。其核心思想是通过有效的记忆管理和自反思机制，最大化有限记忆空间（即输入长度限制）的效用。Self-MAP 包含三个主要组件：记忆模块 (Memory Module)、反思模块 (Reflection Module) 和规划模块 (Planning Module)。

4.2. 核心方法详解

下图（原文 Figure 3）展示了 Self-MAP 的整体架构：

Figure 3: Overview of Self-MAP. 该图像是图3中Self-MAP框架的示意图，展示了基于记忆的交互历史检索、记忆精炼与简化的反思过程，形成自反记忆后指导规划与操作执行的流程。

4.2.1. 记忆模块 (Memory Module)

记忆模块负责构建和检索相关的历史交互信息。

记忆库构建： 网页智能体的记忆库由对话交互历史 $C_t$ 构成。每个记忆片段 $M_t^k$ 被表示为一个元组： $M_t^k = \{q_t, A_t^{k-1}, E_t^{\hat{k}}, a_t^k\}$
- $q_t$ : 当前的用户指令 (user instruction)。
- $A_t^{k-1}$ : 在当前对话回合中，智能体与环境的交互历史（一系列已执行的动作）。
- $E_t^{\hat{k}}$ : 对应于该记忆片段中动作 $a_t^k$ 发生时的环境状态（例如 HTML 网页）。
- $a_t^k$ : 在特定情境下智能体执行的动作。
  
  将每个记忆片段完整地注入到 LLM 的运行内存中需要大量的词元 (token)，这受限于 LLM 的最大输入长度。同时，一些记忆片段可能与当前任务不相关，无法为智能体预测后续动作提供有用指导。因此，需要一种机制来检索最相关的记忆片段。
多方面匹配 (Multifaceted Matching)： 提出了一种多方面匹配方法，用于在动作层面 (action level) 从记忆库中检索出 top- $K$ 个相关片段。
- 查询构建： 给定一个正在进行的对话交互 $C_t^k = \{q_1, A_1, \dots, q_t, A_t^{k-1}\}$ ，其中 $A_t^{k-1} = \{a_t^1, a_t^2, \ldots, a_t^{k-1}\}$ 表示当前对话回合中智能体-环境的交互轨迹，查询 (query) 是使用当前用户指令和当前智能体动作序列 $(q_t, A_t^{k-1})$ 构建的。
- 语义编码： 这种查询编码方式不仅包含了当前指令与对话上下文的语义相关性 (semantic relevance)，还包含了动作轨迹与历史交互的相似性 (similarity)。
- 嵌入方法： 使用 OpenAI's text-embedding-ada-002 模型将查询和记忆片段转换为向量表示。
- 相似度计算与检索： 在嵌入空间中计算余弦相似度 (cosine similarity)，以检索出 top- $K$ 个最相关的记忆片段。

4.2.2. 反思模块 (Reflection Module)

反思模块旨在优化有限的内存空间利用率，并增强记忆片段的信息量，包含两个步骤：记忆简化和记忆精炼。

记忆简化 (Memory Simplification)：
- 背景： MINDACT 框架的候选元素生成过程采用小型预训练语言模型 (如 DeBERTa) 来对与指令和当前步骤相关的 top- $N$ 个候选 DOM 元素进行排序。
- 方法： Self-MAP 对每个检索到的记忆片段应用相同的过程，从环境状态（即 HTML）中移除与任务无关和噪声元素。这有助于节省内存空间，以便保留更广泛的对话历史。
- 结果： 简化后的记忆片段中的环境状态 $E_t^k$ 被表示为 $e_t^k$ 。
记忆精炼 (Memory Refinement)：
- 灵感来源： 借鉴了自反思技术 (Shinn et al., 2023; Asai et al., 2024)。
- 方法： 与传统自反思方法不同，此模块不收集错误的轨迹进行分析（因为评估设置静态且上下文长度有限，无法完整呈现网页）。相反，它利用 LLMs 卓越的推理能力来生成中间推理理由 (intermediate reasoning rationale)，作为监督信号来丰富记忆信息。
- 过程： 对于每个检索到的记忆片段 $(q_t, A_t^{k-1}, e_t^k, a_t^k)$ ，LLM 生成一个深入的理由 $r_t^k$ ，解释决策过程以及为何执行下一个动作 $a_t^k$ 。
自反记忆片段 (Self-reflective Memory Snippet)： 经过上述两个步骤，得到的记忆片段不仅过滤掉了环境状态中的无关和噪声信息，还整合了额外的有信息量的理由。
- 自反记忆片段表示为： $\hat{M}_t^k = \{q_t, A_t^{k-1}, e_t^k, a_t^k, r_t^k\}$

4.2.3. 规划与自反记忆 (Planning with Self-reflective Memory)

对于当前对话回合 $t$ 的每个交互步骤 $k$ ，给定当前用户指令 $q_t$ 和之前的动作序列 $A_t^{k-1}$ ：

检索自反记忆： 从反思模块获取 top- $K$ 个检索到的自反记忆片段 $\mathcal{M}_t^k = \{\hat{M}\}^K$ 。
获取候选元素： 使用与记忆简化相同的排序器，从当前环境状态 $E_t^k$ 中简化并得到 top- $N$ 个候选元素 $e_t^k$ 。
LLM 微调规划： 对 LLM 进行微调，使其基于输入 $(q_t, A_t^{\bar{k}-1}, e_t^k, \mathcal{M}_t^k)$ 规划下一个动作 $a_t^k$ ，包括目标元素和操作。

本文采用了两种规划范式（详细信息见附录 B.2）：

多项选择问答 (Multi-choice Question Answering, MCQ-based)： LLM 从给定选项中选择目标元素和操作。
直接生成 (Direct Generation)： LLM 直接生成目标元素和操作。

5. 实验设置

5.1. 数据集

本文引入了专门为对话式网页导航任务设计的 MT-Mind2Web 数据集。

5.1.1. 数据集构建过程

MT-Mind2Web 的构建灵感来源于现有对话数据集的典型构建过程，例如从 OTTQA 构建 HybriDialogue，从 MMQA 构建 MMCoQA，以及从 TAT-QA 构建 PACIFIC。它基于 Mind2Web 数据集 (Deng et al., 2023) 的单轮交互数据作为指导，来构建对话会话。为了重用 Mind2Web 中专家标注的动作序列以确保系统响应质量，对话构建过程主要关注用户指令。具体包含三个主要步骤：

组织会话会话 (Organize Conversation Sessions)：
- 在相同的上下文（即 Mind2Web 中相同的领域和网站）下，根据多个独立任务指令设置具有连续主题的对话会话。
- 如果两个指令共享相同的实体或意图，则认为它们讨论的是同一主题。
- 示例 (原文 Figure 2)： 原始的 Instruction 1 和 Instruction 2 都涉及在相同的 Event 领域和 TicketCenter 网站上预订票务任务，可以自然地组合成一个对话会话。
分解复杂指令 (Decompose Complex Instructions)：
- Mind2Web 中的一些指令表现出复杂的动作序列，这在日常对话中并不常见。然而，复杂指令可以作为构建多轮交互中后续指令的良好起点。
- 方法： 采用人机协作标注 (human-AI collaborative annotation)。ChatGPT 擅长确定如何将长动作序列划分为多个可执行的子序列，而人类可以更自然地将指令分解为多轮指令。
- 具体步骤：
  - 首先，使用 ChatGPT 将具有复杂动作序列的原始指令分解为 $N$ 个子任务，并附带相应的动作子序列。
  - 目标子任务数量设置为 $N = \lceil N' / 4 \rceil$ ，其中 $N'$ 是原始指令中的动作数量。
  - 提示 (Prompt) 示例：
```
Analyze the instruction and corresponding actions provided for <domain> website, organize these actions into <N> distinct steps.
### Requirements
1. Review the instruction and related actions for completing a task on the specified website.
2. Divide actions into logical, sequential steps.
3. Format your response as a JSon array, with each object labeled as "step i" and containing an array of the sequential numbers of the actions that belong to each step.
### Example
{ "step 1": [1, 2, 3], "step 2": [...], ... }
### Instruction <original instruction>
```
  - 人工验证： 人工标注员被要求验证这些子任务是否合理且可执行。如果不合理，他们可以根据导航网页的经验重新安排分解。
- 分解示例 (原文 Figure 2)： 动作序列 1 被顺序分解为两个动作子序列：动作子序列 1-1 和动作子序列 1-2。
- 质量： ChatGPT 在分解动作序列方面的通过率达到 $98.5\%$ 。
重写对话指令 (Rewrite Conversational Instructions)：
- 通过使用指示代词 (anaphora) 和省略 (ellipsis)，将原始的独立指令修改为对话式指令，尤其当对话会话中连续的指令涉及相同的实体或动作时。
- 示例 (原文 Figure 2)： T2 使用 "one" 指代 T1 中提到的 WWE 票务。T3 切换到另一个任务，但省略了重复的动词 "book"。类似地，T4 中也省略了 T3 中的重复内容。

5.1.2. 数据集统计

经过数据集创建，MT-Mind2Web 包含：

总计： 720 个网页导航对话会话。
指令-动作对： 3,525 个对应的指令和动作序列对。
平均回合数： 每个对话会话平均包含 5 轮用户-智能体交互。

训练/测试集划分： 遵循 Mind2Web 的评估设置，测试集被分为三个子集，用于评估智能体在跨任务、跨网站和跨领域 (cross-task, cross-website, cross-subdomain) 方面的泛化能力。
跨子领域 (Cross-subdomain)： 44 个样本（来自 "Digital" 和 "Hotel"）。
跨网站 (Cross-website)： 42 个样本（来自 "redbox", "viator", "nfl", "exploretock", "rentalcars", "cabelas", "bookdepository"）。
跨任务 (Cross-task)： 34 个样本。

训练集： 剩余的 600 个样本作为训练集。

以下是原文 Table 1 的结果：

	Train	Test (Cross-X)
	Train	Task	Website	Subdomain
# Conversations	600	34	42	44
# Turns	2,896	191	218	216
Avg. # Turn/Conv.	4.83	5.62	5.19	4.91
Avg. # Action/Turn	2.95	3.16	3.01	3.07
Avg. # Element/Turn	573.8	626.3	620.6	759.4
Avg. Inst. Length	36.3	37.4	39.8	36.2
Avg. HTML Length	169K	195K	138K	397K

Table 1: Statistics of the MT-Mind2Web dataset.

数据集特点： 相较于传统的网页导航和对话任务，MT-Mind2Web 中的对话历史记录可能极长，因为它包含多轮用户-智能体对话历史和每个对话回合内的多轮智能体-环境交互历史。

5.2. 评估指标

本文采用以下指标进行评估，这些指标遵循了单轮设置 (Deng et al., 2023)：

元素准确率 (Element Accuracy, Ele. Acc)：
- 概念定义： 量化模型正确识别目标元素的能力。它衡量模型选择的元素与所有必需的目标元素匹配的程度。
- 数学公式： $\text{Element Accuracy} = \frac{\text{Number of correctly identified elements}}{\text{Total number of elements to identify}}$
- 符号解释：
  - Number of correctly identified elements: 模型正确识别并选择的网页元素数量。
  - Total number of elements to identify: 当前任务或步骤中所有需要被识别的网页元素总数。
操作 F1 (Operation F1, Op. F1)：
- 概念定义： 衡量模型预测操作的精确性，它是一个基于词元 (token-level) 的 F1 分数。F1 分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值，用于综合评估分类或序列生成任务的性能。
- 数学公式： 首先定义精确率 (Precision) 和召回率 (Recall)： $\text{Precision} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}}$ $\text{Recall} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}}$ 然后计算 F1 分数： $\text{F1 Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$
- 符号解释：
  - True Positives (TP): 模型正确预测的实际为正例的操作词元（例如，如果操作是 "TYPE"，模型也预测 "TYPE"）。
  - False Positives (FP): 模型错误预测为正例但实际为负例的操作词元（例如，实际是 "CLICK"，模型预测 "TYPE"）。
  - False Negatives (FN): 模型错误预测为负例但实际为正例的操作词元（例如，实际是 "TYPE"，模型预测 "CLICK"）。
步骤成功率 (Step Success Rate, SSR)：
- 概念定义： 评估单个交互步骤的成功程度。一个交互步骤只有在同时正确选择了目标元素和预测了正确的操作时才被认为是成功的。
- 数学公式： $\text{SSR} = \frac{\text{Number of successful interaction steps}}{\text{Total number of interaction steps}}$
- 符号解释：
  - Number of successful interaction steps: 元素准确率和操作 F1 都达到成功的交互步骤数量。
  - Total number of interaction steps: 所有交互步骤的总数。
回合成功率 (Turn Success Rate, TSR)：
- 概念定义： 评估整个对话回合的成功程度。一个对话回合只有在该回合中的所有交互步骤都成功时才被认为是成功的。这是衡量智能体在对话场景中完成任务的关键指标。
- 数学公式： $\text{TSR} = \frac{\text{Number of successful conversation turns}}{\text{Total number of conversation turns}}$
- 符号解释：
  - Number of successful conversation turns: 所有步骤都成功的对话回合数量。
  - Total number of conversation turns: 所有对话回合的总数。
    
    所有指标均报告为宏平均 (macro average) 值，即先计算每个任务的平均值，然后对所有任务的平均值再取平均。

5.3. 对比基线

本文将 Self-MAP 方法与以下几种最先进的网页导航方法以及对话任务的经典基线进行了比较：

DeBERTa (He et al., 2021)： 遵循 Deng et al., 2023 的设置，DeBERTa 被微调用作仅用于选择目标元素的排序器。它主要评估元素选择能力，不涉及操作预测或对话上下文理解。
MINDACT (Deng et al., 2023)： 原始的 MINDACT 是单轮网页导航任务的基线方法。在对话设置下，其输入包含完整的对话交互历史，并执行多项选择问答来选择目标元素。
MINDACT + CAR (Anand et al., 2023)： Context-Aware Rewriting (CAR) 是一种针对对话任务的经典基线。本文使用 ChatGPT 对话上下文，将对话式指令重写为独立的、自包含的指令，然后将这些重写后的指令作为 MINDACT 的输入。
MINDACT + Fixed (Huq et al., 2023)： 该方法基于经验观察，即固定示例在网页导航任务中优于基于相关性的示例选择。本文将对话历史中前 3 轮的固定按时间顺序的交互作为记忆。
Synapse (Zheng et al., 2024b)： Synapse 是一种利用元数据（包括网站、领域、子领域和任务）进行 kNN (k-Nearest Neighbors) 检索的提示方法。由于本文任务中每个对话回合共享相同的网站、领域和子领域信息，因此仅保留任务作为元数据，并执行回合层面的 kNN 检索。

基础模型 (Base Models)： 实验中使用了 Flan-T5base 和 Flan-T5large (Chung et al., 2022) 作为生成模型来规划下一个动作。

5.4. 实现细节

记忆简化： 使用 SentenceTransformers 和微调的 DeBERTa-v3-base (He et al., 2021) 作为多轮任务的 HTML 元素排序器。训练时选择 5 个随机元素（包括一个正例候选），评估时选择按 5 个一组进行比较的 top-50 元素。批大小 (batch size) 32，学习率 (learning rate) 3e-5，训练 5 个 epoch。
动作规划： Flan-T5base 和 Flan-T5large 用于基于 MCQ 和基于生成的动作规划。最大序列长度 (maximum sequence length) 设置为 2,048。由于词元化器 (tokenizer) 的最大上下文长度是 512，系统消息、HTML、用户输入和智能体响应是分开词元化的。批大小分别为 8 (Flan-T5base) 和 4 (Flan-T5large)，学习率 5e-5，训练 5 个 epoch。
多方面匹配： 使用 OpenAI 嵌入模型 text-embedding-ada-002 进行匹配，采用余弦相似度计算。检索记忆的数量 $K$ 设置为 3。
记忆精炼： 使用 ChatGPT (gpt-3.5-turbo-1106)，最大生成词元 (maximum new tokens) 100，温度 (temperature) 0。仅提取正向元素的 HTML 片段供 ChatGPT 生成理由。如果没有正向元素，则使用默认理由：“The assistant's answer is derived from the absence of a specific option in the provided HTML content, leading to the conclusion that none of the options provided are suitable for the user's task.”

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 总体评估

以下是原文 Table 2 的结果：

	Cross-Task				Cross-Website				Cross-Subdomain
	Ele. Acc	Op. F1	SSR	TSR	Ele. Acc	Op. F1	SSR	TSR	Ele. Acc	Op. F1	SSR	TSR
DeBERTa (He et al., 2021)	36.8	-	-	-	31.7	-	-	-	27.7	-	-	-
MINDACT (GPT-3.5) (Deng et al., 2023)	4.3	27.6	1.9	1.0	6.7	22.2	2.1	1.7	4.0	22.9	1.5	1.1
Base Model: Flan-T5base
MiNDAct (Deng et al., 2023)	43.2	79.1	36.6	14.2	38.8	69.4	29.2	15.2	41.9	77.2	35.5	15.7
MINDACT + CAR (Anand et al., 2023)	47.8	78.8	41.4	16.1	37.0	67.5	32.2	9.6	41.2	75.3	35.4	13.2
MINDACT + Fixed (Huq et al., 2023)	51.0	80.8	42.6	18.4	42.4	70.0	35.4	15.3	43.1	77.6	37.5	17.7
Synapse (Zheng et al., 2024b)	49.6	79.9	41.9	18.4	43.1	70.6	33.1	13.7	41.7	77.8	35.9	16.0
Self-MAP	56.2	82.5	47.1	24.7	48.3	71.8	40.6	18.2	46.4	79.1	38.3	20.8
Base Model: Flan-T5large
MinDAct (Deng et al., 2023)	59.0	80.6	53.2	26.0	43.6	67.6	36.5	12.4	46.8	74.0	38.9	21.8
MINDACT + CAR (Anand et al., 2023)	54.5	79.5	47.8	19.8	43.2	69.2	36.1	12.2	44.5	75.0	40.2	15.6
MINDACT + Fixed (Huq et al., 2023)	58.0	79.7	51.3	26.4	46.2	69.7	37.6	15.2	47.4	74.9	38.8	21.4
Synapse (Zheng et al., 2024b)	57.5	82.0	50.0	23.2	45.1	69.0	37.1	13.0	47.4	74.1	39.3	19.4
Self-MAP	58.1	80.5	51.7	26.6	44.8	68.8	36.8	15.7	52.0	77.1	43.6	25.4

Table 2: Experimental results on MT-Mind2Web. TSR can be regarded as the main metric.

基线模型表现：
- DeBERTa 和 MINDACT (GPT-3.5) 表现不佳，这与 Deng et al., 2023 的发现类似。DeBERTa 仅执行元素选择，而 MINDACT (GPT-3.5) 依赖 LLM 的上下文学习能力而未进行微调。
- MINDACT + CAR 的性能甚至比香草版 MINDACT 更差（除了 Flan-T5base 的 Cross-Task），这表明 GPT-3.5 在重写当前对话指令时可能未能有效工作，反而模糊了原始指令。
- MINDACT + Fixed 和 Synapse 通常优于 MINDACT，这验证了从对话交互历史中检索记忆的必要性。
- 令人惊讶的是，Synapse (Mind2Web 中的 SOTA 方法) 表现甚至不如 MINDACT + Fixed。这表明 Synapse 中粗粒度的 kNN 匹配在本文的对话设置中未能有效衡量当前对话状态与候选记忆片段之间的相关性。
基础模型影响： 使用更强的基础模型（例如 Flan-T5large）通常会提高最终性能。
Self-MAP 优势： Self-MAP 持续且显著优于所有基线模型。例如，在使用 Flan-T5base 时，相比最强基线，TSR 分数分别提高了 +6.3 (Cross-Task), +2.9 (Cross-Website), +3.1 (Cross-Subdomain)。这表明所提出的记忆增强规划框架以及用于增强记忆利用的自反思策略的有效性。

6.1.2. 消融研究

为了验证 Self-MAP 框架中各个特定设计的有效性，作者进行了消融实验。以下是原文 Table 3 的结果：

	Cross-Task				Cross-Website				Cross-Subdomain
	Ele. Acc	Op. F1	SSR	TSR	Ele. Acc	Op. F1	SSR	TSR	Ele. Acc	Op. F1	SSR	TSR
Self-MAP	56.2	82.5	47.1	24.7	48.3	71.8	40.6	18.2	46.4	79.1	38.3	20.8
w/o Generation-based Planning	51.7	79.4	43.5	22.2	43.1	69.5	34.9	15.5	44.8	77.2	37.3	17.7
w/o Memory Simplification	50.5	80.7	41.0	20.7	44.9	69.6	36.9	16.6	42.3	79.2	36.4	15.9
w/o Memory Refinement	52.1	81.3	43.0	23.2	48.9	70.8	39.1	18.1	46.3	78.7	37.2	17.8
w/o Multifaceted Matching	52.6	80.6	44.3	21.6	46.9	71.2	37.9	17.2	44.8	78.6	35.8	17.8

Table 3: Ablation study. "w/o Generation-based Planning" denotes that we use MCQ-based Planning, while "w/o Multifaceted Matching" denotes that we prepend the chronological conversation context without retrieval.

生成式规划 (Generation-based Planning) 的重要性： "w/o Generation-based Planning" 表示使用基于 MCQ (Multi-choice Question Answering) 的规划。结果显示，生成式规划显著优于基于 MCQ 的规划。这不仅归因于大型语言模型先进的生成能力，还在于其在节约上下文空间用于记忆利用方面的效率。
记忆简化 (Memory Simplification) 的关键性： 记忆简化被证明是提升整体性能最关键的因素。这一发现强调了优化有限上下文空间使用的重要性，凸显了高效记忆管理的必要性。
记忆精炼 (Memory Refinement) 的贡献： 记忆精炼的贡献在跨任务 (Cross-Task) 场景中比其他设置更为显著。这表明它在建模决策过程方面的泛化能力相对较低，不如框架的其他组件。
多方面匹配 (Multifaceted Matching) 的必要性： 用于记忆检索的多方面匹配显著优于简单的记忆预置 (vanilla memory prepending，即按时间顺序附加上下文而不进行检索)。这表明过滤掉嘈杂的对话交互历史并专注于相关部分的必要性。

6.1.3. 检索记忆数量的影响

以下是原文 Figure 4 的结果：

Figure 4: Performance in terms of different number of retrieved memory snippets.

趋势： 检索记忆片段数量 ( $K$ ) 从 1 增加到 3 时，性能随之提升。这表明精炼记忆效用以利用更多相关信息的价值。
饱和与下降： 然而，当 $K$ 继续增加时，性能未能进一步提升，甚至在某些子集（例如跨任务和跨网站）中有所下降。
原因分析： 根据数据集统计（Table 1），平均对话回合数约为 5 轮。因此，增加检索记忆片段的数量可能会引入来自不相关回合的噪声信息。

6.1.4. 泛化能力分析

以下是原文 Figure 5 的结果：

该图像是一个柱状图，展示了多个品牌或网站在不同类别（如旅游、购物、餐厅等）下的某种指标表现，柱形高度代表指标值，类别通过颜色区分。图中品牌排列较为密集，反映了多领域网站的对比情况。 Figure 5: Performance in terms of different types of generalizability: Cross-Task (from Sea to Yellowpages), Cross-Website (from Exploretock to Redbox), and Cross-Subdomain (from Koa to Airbnb).

共性观察： 与 Mind2Web (Deng et al., 2023) 中的泛化能力分析相似，本文在对话设置中也得出了一些类似的观察：
- 所有模型在跨任务 (Cross-Task) 设置上的表现优于其他两种设置。
- 跨网站 (Cross-Website) 和跨子领域 (Cross-Subdomain) 设置之间没有显著差异，这表明挑战主要来自于网站设计和交互逻辑的多样性，而非领域特定性。
独特发现： 跨任务设置与其他两种设置之间的性能差距比 Mind2Web 中更大（10% vs 20%）。这表明，引入多轮用户-智能体交互后，交互逻辑变得更加复杂。

6.1.5. 对话提示设计分析

以下是原文 Figure 6 的结果：

Figure 6: Performance in terms of different Conversation Prompt Designs.

记忆片段顺序： 比较了对话提示中记忆片段顺序的影响，包括本文采用的基于相关性的顺序 (relevance-based order) 和典型的按时间顺序 (chronological order)。
- Synapse 和 Self-MAP 两种方法在使用基于相关性的顺序时，通常比按时间顺序表现更好。
状态信息： 在 Self-MAP 中，作者尝试在多方面匹配方法中引入基于状态的信息。在 Self-MAP 中，作者在 $M_t^k$ $M_{t}^{k}$ 中省略了 $A_t^{k-1}$ $A_{t}^{k - 1}$ 。在实际对话语境中，序列有序的轨迹中明确识别状态并非必要。然而，在缺乏序列框架的动作层面匹配中，状态信息无法从轨迹中推断。
- 结果表明，多方面匹配在不包含状态信息的检索记忆中通常能实现更好的性能。

6.1.6. 运行时分析

以下是原文 Table 4 的结果：

Methods	Flan-T5base	Flan-T5large
Mind2Act	1.90s	3.43s
Mind2Act + CAR	1.23s	2.11s
Mind2Act + Fixed	1.69s	3.35s
Synapse	1.95s	3.58s
Self-MAP	2.56s	4.29s

Table 4: Runtime analysis

Mind2Act + CAR： 该方法的运行时较短，因为它丢弃了所有历史轨迹，从而显著缩短了输入词元长度。但这以牺牲性能为代价（如 Table 2 所示）。
Self-MAP： Self-MAP 的运行时间比基线略长。然而，其运行时仍在可行的范围内，可以部署在复杂任务环境中。
权衡： 运行时的轻微增加被 Self-MAP 增强的准确性和适应性所抵消，使其成为实际应用中有价值的工具。

6.2. 案例分析

原文附录 C 提供了案例分析，重点关注 MINDACT + CAR、Synapse 和 Self-MAP 在一个特定对话场景下的响应。

6.2.1. 对话描述

案例研究的对话历史包含七个轨迹。当前指令是 "Search 'xbox series x console'."，之前没有执行动作。

6.2.2. 分析与比较

以下是原文 Table 11 展示的 Self-MAP 增强记忆和自反思的示例：

Previous Instruction	Action Representations
Search for new laptops.	[combobox] Search for anything -> TYPE: laptop [button] Search -> CLICK
Set price from `400 to`500.	[input] -> CLICK [textbox] Minimum Value in `-> TYPE: 400 [textbox] Maximum Value in` -> TYPE: 500 [button] Submit price range -> CLICK
Search for free shipping.	[input] -> CLICK

Table 10: Conversation History (Excerpt from original table, full table is much longer)

History Trajectory 2 (from Self-MAP's augmented memory):

(html (body (header banner (input id=0 submit search ) ) (div main (div group - [ul id=1 (a (img nintendo switch red / blue ) (span `166.00` ) ) (a (img nintendo switch hac-001 neon yellow! ) (span `99.99` ) )[ . .]
Based on the HTML webpage above, try to complete the following task: Task: Search for new laptops.
please select A. 'None of the above'):
A. None of the above   
B. (input id=0 submit search )   
C. (ul id=1 (a (img nintendo switch red / blue )   
D. (div id=2 (button button go to previous slide - )   
E. (a id=3 eBay Community )   
F. (a id=4 Accessibility )

### Assistant: B. Action: CLICK
Rationale: The assistant determines to CLICK on the search button (id=0) after a search term would have been entered, based on the HTML structure provided.

History Trajectory 1 (from Self-MAP's augmented memory):

(html (body (header banner (td (input id=0 coboox text search for anything _nkw  (ul listbox (l i i d=1 (a option vintage (span `34.99` )))[. . .]
Based on the HTML webpage above, try to complete the following task:
Task: Search for new laptops.
please select A. 'None of the above'):
A. None of the above   
B. (input id=0 combobox text search for anything _nkw )   
C. (li id=1 (a option vintage clothing recent searches (b vintage   
D. (img id=2 diamond stripe comforter set by )   
E. (a id=3 (img down alternative forget me not ) (span   
F. (li id=4 (a Contact Us ) )

### Assistant: B. Action: TYPE Value: laptop
Rationale: The assistant chose to TYPE "laptop" into the input field (id=0) because the HTML contains an input element with the ID "0" and the type "combobox text" for searching.

History Trajectory 7 (from Self-MAP's augmented memory):

[. . ] (i h_fs div (input id=1 id=2 (div (img shop on ebay ) (div (a (span heading Shop on eBay ) (span Opens in a new window or tab ) ) (span Brand New ) [ .]
Based on the HTML webpage above, try to complete the following task: Task: Search for free shipping.
W please select A. 'None of the above'):
A. None of the above B. (li id=0 (div button (h3 Buying Format ) ) (ul C. (input id=1 checkbox free shipping on ) D. (div id=2 (div (img shop on ebay ) (div (a E. (a id=3 (div 64 GB (span - apply Shop by F. (a id=4 Your Privacy Choices )

### Assistant: C. Action: CLICK
Rationale: The assistant's action to CLICK on the checkbox (id=1) is to filter for products with free shipping.

Table 11: Augmented memory and self-reflection from Self-MAP.

以下是原文 Table 12 的结果（仅展示与案例分析相关的部分）：

	Current Instruction	Previous Actions	Model Output	Correctness
MindAct + CAR	Search for the 'xbox series x console' with free shipping and a price range from `400 to`500.	None	Action: CLICK Element: (input id=3 submit search )	Incorrect
Synapse	Search 'xbox series x console'.	None	Action: CLICK Element: (input id=1 submit search )	Incorrect
Self-MAP	Search 'xbox series x console'.	None	Action: TYPE Value: xbox series x console Element: (input id=0 combobox text search for anything _nkw )	Correct

Table 12: Analysis of different final evaluation steps for the current conversation (Excerpt from original table).

MINDACT + CAR：
- 该模型将对话指令重写为："Search for the 'xbox series x console' with free shipping and a price range from 400 to500."。
- 然后它直接执行 CLICK 动作在搜索提交按钮上，而没有先输入搜索关键词。
- 分析： 如同在 6.1.1 节中的发现，MINDACT + CAR 未能有效处理对话上下文，导致生成了不正确的动作序列。重写的查询虽然包含了所有信息，但模型未能正确规划其执行顺序。
Synapse：
- Synapse 直接执行 CLICK 动作在搜索提交按钮上，同样没有输入搜索关键词。
- 分析： Synapse 使用粗粒度的 kNN 匹配，保留了所有历史对话回合。这可能导致其检索到的记忆中包含噪声信息，使其无法正确识别当前任务的正确动作顺序（即应先输入再点击）。
Self-MAP：
- Self-MAP 正确识别了第一个动作应该是 TYPE，输入 "xbox series x console" 到搜索框中。
- 分析： Self-MAP 通过其多方面匹配（选择轨迹 2, 1, 7）和自反思（生成决策理由）机制，有效地理解和结合了相关的对话历史。例如，轨迹 1 清晰地展示了先 TYPE 关键词再 CLICK 搜索按钮的模式。这凸显了其方法的有效性，即能够过滤噪声、聚焦相关信息并生成正确的动作序列。

6.3. 定性分析（从附录 B.1、B.2、B.3 提取的提示示例）

6.3.1. Context-aware Rewriting 提示 (MINDACT + CAR)

以下是原文 Table 5 的结果：

Role	Content
system	You are a helpful assistant adept at understanding and rewriting user queries. Your task is to evaluate the relevance of previous queries, add any relevant missing details from the previous queries, and rewrite the current query.
user	Rewrite: Help me check the popularity in 2015. Previous queries: Find the baby girl's name. Show me the most popular one.
assistant	Show me the popularity in 2015 of the current most popular baby girl name.
user	Rewrite: List the best rated for me. Previous queries: Search for pizza recipes for me. I want the ones that take 30 minutes or less. Show me the vegan option.
	Find Halloween dishes. Help me sort by rating. Find pie recipes. Show me all the content.
assistant	Find pie recipes and show the best rated ones.
	Previous queries: Find me a gluten-free diet to lose weight for a pregnant woman.
user	Rewrite: How about a list of CDB product reviews.

Table 5: Prompts for context-aware rewriting.

分析： CAR 方法通过一个专门设计的 system prompt 来指导 LLM (ChatGPT) 重写用户查询。这个 prompt 明确要求 LLM 评估前一查询的相关性，并从历史查询中添加任何缺失的相关细节来重写当前查询。尽管这种方法在传统对话任务中有效，但对于复杂且动态的网页导航任务，其性能可能受限于 LLM 对上下文的深度理解和对重写后指令的准确执行能力。实验结果显示其性能不佳，可能在于重写过程未能充分捕捉网页交互所需的精细语义和动作顺序。

6.3.2. Planning 提示 (Self-MAP)

以下是原文 Table 7 的结果（用于生成式规划）：

System Message	Content
You are a helpful assistant that is great at website design, navigation, and executing tasks for the user.
Conversation History	### Human:
	{HTML snippets including 5 elements}
	Based on the HTML webpage above, try to complete the following task:
	Task: {instruction}
	W type in or select. If the task cannot be completed, output None:
	### Assistant: {response}
	{Optional: Reflection}
	. . .
Current Conversation	### Human:
	{HTML snippets including 5 elements}

	Based on the HTML webpage above, try to complete the following task:

	Task: {instruction}
	Previous actions:

	{last 5 action representations}


	type in or select. If the task cannot be completed, output None:



	### Assistant: {response}

Table 7: Prompt Templates for Generation-based Flan-T5 Planning

分析： Self-MAP 的规划阶段采用了一个结构化的提示模板。它将以下信息提供给基础 LLM (Flan-T5)：
- 系统消息 (System Message)： 定义 LLM 的角色是“一个擅长网站设计、导航和为用户执行任务的助手”。
- 对话历史 (Conversation History)： 包含 HTML 片段、用户指令、LLM 响应以及可选的自反思理由。这部分通过记忆检索和精炼机制进行管理，只包含最相关的历史信息。
- 当前对话 (Current Conversation)： 包含当前 HTML 片段、当前用户指令和最近的动作表示。
优势： 这种提示设计能够有效地整合多轮对话上下文、当前的网页状态以及经过筛选和增强的历史经验。特别是“{Optional: Reflection}”的加入，允许 LLM 在规划时利用过去的决策理由，从而提高决策的透明度和准确性。生成式规划允许模型直接输出复杂动作序列，而非仅限于多选。

以下是原文 Table 9 的结果：

Role	Content
system	You are an advanced reasoning agent who specializes in analyzing conversational web navigation. You will be presented with a conversation between users and assistants involving a webpage's HTML content, a user's query, and an AI assistant's response.Your objective is to provide a concise and clear one-sentence ratinale that explains how the assistant's response is derived from the HTML content in relation to the user's spe
user	query. ### Conversation Webpage: <select id=1 type> <option reservations true> Dine in </option> <option pickup> Pickup </option>
	<option delivery> Delivery </option> <option events> Events </option> <option wineries> Wineries </option> <option all> Everything </option> </select>
	User: Based on the HTML webpage above, try to complete the following task: Task: Check for pickup restaurant available in Boston, NY on March 18, 5pm with just one guest. Previous actions:
	None What should be the next action?
	Assistant: Action: SELECT Value: Pickup
	### Rationale
assistant	Thnos e "c" he e pic This action is informed by the HTL structure of the webpage, which contains a dropdown menu (
user	### Conversation Webpage: <button id=2 selected pick-up date 03/19/2023> <span> <span> 19 </span> <div> <span> Mar
	</span> <span> 2023 </span> </div> </span> </button> User: Based on the HTML webpage above, try to complete the following task:
	Task: Find a mini van at Brooklyn City from April 5th to April 8th for a 22 year old renter. Previous actions: [searchbox] Pick-up & Return Location (ZIP, City or Airport) (.. -> TYPE: Brooklyn
	[option] Brooklyn, NY, US Select -> CLICK What should be the next action?
	Assistant: Action: CLICK
	### Rationale
	The assistant's response to perform a "CLK" action is given the user's progress in the task. The user has already elected a location (Brooklyn) for picking up a minivan. The next logical step in the process would be






assistant

Table 9: Prompts for Memory Refinement

分析： 记忆精炼模块通过向 GPT-3.5 提供一个明确的 system prompt 来生成理由。prompt 要求 GPT-3.5 作为“一个专注于分析对话式网页导航的高级推理智能体”，目标是“提供一个简洁明了的单句理由，解释助手如何根据网页的 HTML 内容以及用户查询来得出其响应”。
示例： GPT-3.5 能够根据 HTML 结构 ( $<select id=1 type>$ ) 和用户指令 ("pickup restaurant")，生成“选择 'Pickup' 动作是因为 HTML 包含一个下拉菜单，其中包含 'Pickup' 选项”的理由。
优势： 通过这种方式生成的理由，为记忆片段增加了高级语义信息和决策逻辑，使得这些记忆片段在后续规划中更具指导性，尤其是在处理相似但非完全相同的任务时，有助于 LLM 更好地理解“为什么”执行某个动作，从而增强泛化能力和决策准确性。

7. 总结与思考

7.1. 结论总结

本文针对大型语言模型 (LLMs) 驱动的网页智能体在处理多轮用户指令方面的不足，提出了对话式网页导航 (Conversational Web Navigation) 这一新任务。为支持该任务，作者构建了一个名为 MT-Mind2Web 的高质量数据集，该数据集通过对现有 Mind2Web 数据集进行精心的人机协作标注和重写，整合了多轮用户指令和智能体与环境的交互历史。

为应对 LLMs 有限的上下文长度和对话任务的上下文依赖问题，本文提出了一种新颖的框架：自反记忆增强规划 (Self-reflective Memory-Augmented Planning, Self-MAP)。Self-MAP 通过以下关键机制提升了智能体的性能：

多方面匹配 (Multifaceted Matching)： 有效地从嘈杂的对话交互历史中检索与当前任务语义和轨迹相关的记忆片段。
记忆简化 (Memory Simplification)： 通过移除 HTML 中的无关信息，优化了有限的上下文空间利用。
记忆精炼 (Memory Refinement)： 利用 LLMs 的推理能力为检索到的记忆片段生成决策理由，增强了记忆的信息量和指导性。

实验结果表明，Self-MAP 在 MT-Mind2Web 数据集上显著优于各种强基线模型，特别是在回合成功率 (TSR) 等关键指标上取得了显著提升，验证了其在对话式网页导航任务中的有效性。

7.2. 局限性与未来工作

论文作者指出了以下局限性并展望了未来工作：

多模态环境 (Multimodal Environment)： 当前工作主要关注基于 HTML 的方法。随着多模态 LLMs 的兴起，未来的研究可以将 MT-Mind2Web 数据集应用于多模态环境，结合视觉 UI 理解来进一步提升网页智能体的能力。
在线评估 (Online Evaluation)： 本文采用了与现有对话任务和单轮网页导航任务类似的离线评估设置。虽然这有助于研究人员高效地评估智能体，但也继承了离线评估的缺点，即无法完全捕捉动态交互的复杂性。未来的工作可以探索更真实的在线评估方法。

7.3. 个人启发与批判

7.3.1. 个人启发

记忆管理的艺术： 这篇论文深刻地揭示了在大语言模型 (LLMs) 应用中，有效的记忆管理（包括检索、简化和精炼）是克服上下文长度限制和提升复杂任务性能的关键。尤其是在多轮对话场景下，如何从冗长且可能包含噪声的历史信息中提取并整合出高质量的上下文，是一门艺术。
自反思的价值： 引入自反思机制来为决策生成理由，不仅为模型提供了额外的监督信号，还有助于提高模型决策的透明度和可解释性。这种“为什么这样做”的理由，对于模型在相似但非完全相同情境下的泛化能力，起到了至关重要的作用。
数据集构建的精妙： MT-Mind2Web 数据集的构建过程展示了如何通过人机协作（ChatGPT 分解任务，人类验证和重写）高效且高质量地将单轮任务扩展为复杂的对话式任务。这种方法对于未来构建其他复杂交互式任务的数据集具有很强的指导意义。
挑战与机遇并存： 对话式网页导航是一个极具挑战性但充满应用前景的方向。它连接了自然语言理解、人机交互和自动化任务执行，是实现真正通用智能体 (generalist agent) 的重要一步。

7.3.2. 批判与潜在改进

运行时成本： 尽管 Self-MAP 性能显著提升，但其运行时相比基线有所增加（如 Table 4 所示）。在对延迟敏感的实时应用场景中，如何进一步优化推理速度将是关键。例如，可以通过蒸馏 (distillation) 将 Self-MAP 的能力迁移到更小、更快的模型中。
对专有 LLM 的依赖： 记忆精炼阶段依赖 ChatGPT (gpt-3.5-turbo-1106) 生成决策理由。这引入了对外部专有模型的依赖，可能带来成本、数据隐私和模型可用性方面的问题。未来研究可以探索使用开源 LLM 或通过其他无模型方式实现记忆精炼，以提高框架的自主性和可控性。
记忆片段数量 $K$ 的固定性： 实验中将检索记忆片段的数量 $K$ 固定为 3。然而，最佳 $K$ 值可能因任务复杂性、对话长度和特定网页环境而异。自适应地确定 $K$ 值，例如通过强化学习或元学习 (meta-learning) 方法，可能会进一步提升性能并提高鲁M性。
多方面匹配的“状态信息”： 论文提到多方面匹配在检索记忆中不包含状态信息时表现更好，因为“动作层面匹配缺乏序列框架，状态信息无法从轨迹中推断”。这有些模糊。如果一个记忆片段本身是 $\{q_t, A_t^{k-1}, e_t^k, a_t^k, r_t^k\}$ ，其中 $e_t^k$ 已经是简化后的环境状态，那么这里讨论的“状态信息”是否指更完整的原始环境状态？更清晰的解释和实验将有助于理解这种设计选择的深层原因。
泛化能力的局限： 尽管 Self-MAP 在 Cross-Website 和 Cross-Subdomain 上有提升，但与 Cross-Task 相比，性能差距仍然较大，且对话设置下这种差距比单轮任务更大。这表明模型在面对完全陌生的网站布局和交互逻辑时，仍然面临挑战。未来的工作可以探索更强大的视觉理解能力或更通用的网页交互模式学习，以进一步缩小这种泛化差距。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。