论文状态：已完成

WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents

发表：2022/07/04

基于大语言模型的动作规划 (27)大语言模型强化学习训练 (67)语言-动作环境联网交互 (1)模拟电商环境 (1)人类演示强化学习 (1)

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出WebShop，一个包含118万真实商品及1.2万众包指令的模拟电商环境，针对语言接地网页交互训练智能体。通过强化学习和模仿学习提升智能体任务成功率至29%，显著优于基线，且具备模拟到真实网页的迁移能力。

摘要

Existing benchmarks for grounding language in interactive environments either lack real-world linguistic elements, or prove difficult to scale up due to substantial human involvement in the collection of data or feedback signals. To bridge this gap, we develop WebShop -- a simulated e-commerce website environment with $1.18$ million real-world products and $12,087$ crowd-sourced text instructions. Given a text instruction specifying a product requirement, an agent needs to navigate multiple types of webpages and issue diverse actions to find, customize, and purchase an item. WebShop provides several challenges for language grounding including understanding compositional instructions, query (re-)formulation, comprehending and acting on noisy text in webpages, and performing strategic exploration. We collect over $1,600$ human demonstrations for the task, and train and evaluate a diverse range of agents using reinforcement learning, imitation learning, and pre-trained image and language models. Our best model achieves a task success rate of $29\%$ , which outperforms rule-based heuristics ( $9.6\%$ ) but is far lower than human expert performance ( $59\%$ ). We also analyze agent and human trajectories and ablate various model components to provide insights for developing future agents with stronger language understanding and decision making abilities. Finally, we show that agents trained on WebShop exhibit non-trivial sim-to-real transfer when evaluated on amazon.com and ebay.com, indicating the potential value of WebShop in developing practical web-based agents that can operate in the wild.

思维导图

论文精读

中文精读约 25 分钟读完 · 14,700 字

论文基本信息 (Bibliographic Information)

标题 (Title): WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents (WebShop: 面向可扩展真实世界网页交互的接地语言智能体)
作者 (Authors): Shunyu Yao, Howard Chen, John Yang, Karthik Narasimhan (均来自普林斯顿大学计算机科学系)
发表期刊/会议 (Journal/Conference): 该论文为预印本 (Preprint)，发布于 arXiv。根据发表时间，通常这类工作会投递到顶级的机器学习或自然语言处理会议（如 NeurIPS, ICML, ICLR, ACL 等）。
发表年份 (Publication Year): 2022
摘要 (Abstract): 现有的语言接地交互环境基准，要么缺乏真实的语言元素，要么因需要大量人工收集数据或反馈而难以扩展。为了解决这一差距，作者开发了 WebShop——一个拥有 118 万真实商品和 12,087 条众包文本指令的模拟电子商务网站环境。在 WebShop 中，一个智能体需要根据描述产品需求的文本指令，在多种类型的网页中导航、发出多样化的动作，以寻找、定制并购买商品。WebShop 为语言接地带来了多重挑战，包括理解组合式指令、查询构建与重构、理解并操作网页中的嘈杂文本以及进行策略性探索。作者收集了超过 1600 条人类演示轨迹，并使用强化学习、模仿学习以及预训练的图像和语言模型，训练并评估了多种智能体。最佳模型取得了 29% 的任务成功率，远超基于规则的启发式方法 (9.6%)，但仍远低于人类专家水平 (59%)。通过对智能体和人类轨迹的分析及模型组件的消融实验，作者为未来开发具有更强语言理解和决策能力的智能体提供了见解。最后，作者证明了在 WebShop 上训练的智能体在 amazon.com 和 ebay.com 上进行评估时，表现出不可忽视的“模拟到真实” (sim-to-real) 迁移能力，这表明 WebShop 在开发可用于真实世界的实用网页智能体方面具有潜在价值。
原文链接 (Source Link):
- arXiv 链接: https://arxiv.org/abs/2207.01206
- PDF 链接: https://arxiv.org/pdf/2207.01206v4.pdf
- 发布状态: 预印本 (Preprint)

整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why)

核心问题： 当前人工智能领域，特别是语言接地 (Language Grounding) 研究，缺乏一个既能反映真实世界复杂性、又具备良好扩展性的交互式基准环境。
现有研究的空白 (Gap)：
1. 缺乏真实性： 许多交互环境（如游戏或简单的导航任务）中的语言指令过于简单，无法体现真实世界中语言的丰富性、组合性和模糊性。
2. 扩展性差： 另一些试图模拟真实场景的基准，往往需要大量人工参与来标注数据或提供实时反馈（奖励信号），这使得它们成本高昂，难以大规模应用于训练数据驱动的模型（尤其是强化学习）。
本文的切入点： 作者认为，万维网 (WWW) 是一个天然的、大规模的、充满真实语言和视觉元素的交互环境。然而，直接在真实网站上训练智能体既不安全也不可控。因此，本文的创新思路是创建一个高度逼真且可控的模拟网页环境，专门模拟电子商务网站的购物流程。这个环境需要满足两个关键条件：
1. 包含真实世界的元素：使用真实的商品数据和人类编写的自然语言购物指令。
2. 可扩展的训练机制：设计一个自动计算的奖励函数，使智能体可以在没有人类持续监督的情况下通过与环境交互进行学习（如强化学习）。

核心贡献/主要发现 (Main Contribution/Findings - What)

提出了 WebShop 环境： 这是一个全新的、大规模的、模拟电子商务网站的交互式基准。它具备以下特点：
- 大规模与真实性： 包含从 amazon.com 抓取的 118 万件真实商品和超过 1.2 万条由人类撰写的购物指令。
- 复杂的交互流程： 智能体需要执行搜索、浏览搜索结果、查看商品详情、选择商品选项（如颜色、尺寸）、最终购买等一系列连贯动作。
- 自动奖励机制： 任务完成度（奖励）是根据智能体最终购买的商品是否满足指令中的属性、选项和价格等要求来自动计算的，这为大规模强化学习训练铺平了道路。
全面的智能体评测与分析：
- 论文训练并评估了多种智能体，包括基于规则的简单基线、模仿学习 (Imitation Learning, IL) 和 强化学习 (Reinforcement Learning, RL) 方法，并与人类表现进行了对比。
- 最佳智能体（ $IL+RL$ ）取得了 29% 的成功率，证明了学习方法相较于简单规则的巨大优势，但与人类专家 59% 的成功率相比仍有巨大差距，揭示了任务的挑战性。
证明了“模拟到真实” (Sim-to-Real) 的迁移潜力：
- 论文最令人兴奋的发现之一是，在 WebShop 模拟环境中训练的智能体，无需额外微调，直接部署到真实的电子商务网站（amazon.com 和 ebay.com）上时，依然能有效完成任务，并且性能远超基线方法。这证明了 WebShop 作为训练平台在开发实用网页智能体方面的巨大价值。

基础概念 (Foundational Concepts)

语言接地 (Language Grounding): 指将抽象的语言符号（如单词、句子）与物理世界或虚拟环境中的具体事物、概念、状态和动作联系起来的过程。例如，当智能体听到指令“给我拿那个红色的杯子”，它需要理解“红色”和“杯子”的含义，并在环境中找到对应的物体，这就是语言接地。WebShop 要求智能体将购物指令（如“轻便的黑色双肩包”）与网页上的商品信息和操作（如点击“黑色”选项）对应起来。
强化学习 (Reinforcement Learning, RL): 一种机器学习范式。其核心思想是让一个智能体 (agent) 在一个环境 (environment) 中通过不断试错来学习。智能体在每个状态 (state) 下选择一个动作 (action)，环境会根据该动作给予一个奖励 (reward) 并进入下一个状态。智能体的目标是学习一个策略 (policy)，以最大化其长期累积奖励。在 WebShop 中，智能体是购物机器人，环境是模拟网站，状态是当前网页，动作是点击或搜索，奖励在购买商品后根据匹配度给出。
模仿学习 (Imitation Learning, IL): 一种通过模仿专家演示来学习策略的方法。与 RL 的试错探索不同，IL 直接学习专家的行为模式。这在 RL 探索成本高或奖励稀疏的环境中非常有效。在 WebShop 中，作者收集了人类专家的购物轨迹，并训练智能体模仿这些轨迹中的搜索和点击行为。
部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP): 这是对 RL 中标准马尔可夫决策过程 (MDP) 的扩展。在 POMDP 中，智能体无法观察到环境的完整真实状态，只能获得一个观测 (observation)。智能体需要根据观测历史来推断真实状态。WebShop 是一个典型的 POMDP，因为智能体无法直接看到商品的“隐藏属性”（hidden attributes），这些属性是用来计算最终奖励的，智能体只能通过阅读网页上的描述性文本来推断它们。
Transformer / BERT / BART:
- Transformer: 一种基于自注意力机制 (Self-Attention Mechanism) 的深度学习模型架构，已成为自然语言处理（NLP）领域的主流。它的核心优势是能够并行处理序列数据，并有效捕捉长距离依赖关系。
- 自注意力机制 (Self-Attention Mechanism): 其核心思想是计算序列中每个元素（如一个词）与其他所有元素之间的关联权重，然后利用这些权重对所有元素的信息进行加权求和，从而得到该元素的新表示。这个新表示融合了整个序列的上下文信息。其计算公式如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释:
  - $Q$ (Query): 查询向量矩阵，代表当前正在处理的元素。
  - $K$ (Key): 键向量矩阵，代表序列中可以被查询的所有元素。
  - $V$ (Value): 值向量矩阵，代表序列中所有元素的实际信息。
  - $d_k$ : 键向量的维度。除以 $\sqrt{d_k}$ 是为了进行缩放，防止点积结果过大导致梯度消失。
  - $\mathrm{softmax}$ : 归一化函数，将权重转换为和为 1 的概率分布。
- BERT (Bidirectional Encoder Representations from Transformers): 一个基于 Transformer 编码器 (Encoder) 的预训练语言模型。它通过在海量文本上进行预训练，学习到了通用的语言表示能力，可以被微调用于各种下游 NLP 任务，如文本分类、问答等。在 WebShop 中，BERT 用于编码网页内容和动作文本，以理解其语义。
- BART (Bidirectional and Auto-Regressive Transformers): 一个结合了 BERT 的双向编码能力和自回归（AR）解码能力的序列到序列 (Sequence-to-Sequence) 预训练模型。它特别擅长文本生成任务。在 WebShop 中，BART 被用于根据购物指令生成搜索查询。

前人工作 (Previous Works)

作者将相关工作分为三类：

网页强化学习 (Reinforcement learning on the web):
- WikiNav: 一个在维基百科页面间导航的任务，但动作仅限于点击超链接，任务较为单一。
- World of Bits (WoB): 一个更通用的网页交互平台，智能体通过底层的鼠标点击和键盘输入来完成任务。但它的缺点是动作空间过于底层，导致难以学习长时程任务，且任务扩展困难。
- 相比之下，WebShop 使用更高层次的语义动作（如 search [query] 和 choose [button_text])，这更贴近人类的交互方式，也使得学习和迁移更加高效。
非交互式网页任务 (Non-interactive web-based tasks):
- 这类工作通常将网页任务简化为监督学习问题，如预测网页元素的类别或从自然语言生成 API 调用。它们只涉及单步决策，缺乏 WebShop 所要求的长时程、多步骤的序贯决策。
利用网络进行传统 NLP 任务 (Leveraging the web for traditional NLP tasks):
- 一些工作利用搜索引擎作为知识库来增强问答或对话系统，如 WebGPT。WebGPT 训练智能体通过浏览网页来回答问题，但它依赖人类反馈来评估答案质量，这限制了其扩展性。
- WebShop 的关键区别在于其全自动的奖励函数和更多样化的交互空间（包括图像和丰富的网页元素）。

技术演进 (Technological Evolution)

网页自动化与语言接地任务的发展经历了从简单到复杂，从底层到高层的演变：

早期： 简单的脚本和规则系统，用于抓取特定网站信息。
中期 (如 WoB)： 引入了 RL 和视觉输入，但停留在像素和 DOM 节点的底层操作，难以处理复杂的语义和长远规划。
近期 (如 WebGPT)： 开始利用大型语言模型，并让人类参与到奖励评估中，提升了语言理解能力，但牺牲了扩展性。
本文 (WebShop)： 处在这一脉络的前沿。它通过构建一个逼真、可控、可自动评估的模拟环境，试图在真实性和可扩展性之间找到一个最佳平衡点，为训练更强大、更通用的网页智能体提供了一个理想的“健身房”。

差异化分析 (Differentiation)

与以往工作相比，WebShop 的核心创新与区别在于：

任务复杂度与真实性： 结合了真实商品、真实指令和真实的购物逻辑，任务涉及查询构建、多页面导航、選項定制和 backtracking（回溯），比以往的网页导航任务复杂得多。
可扩展性： 通过自动奖励函数，摆脱了对昂贵的人工反馈的依赖，使得利用大规模 RL/IL 训练成为可能。
高层语义动作空间： 智能体操作的是有意义的文本按钮，而不是像素坐标，这使得策略更易学习，也更容易迁移到其他网站。
多模态观测： 环境同时提供文本和图像信息，为未来研究多模态融合的智能体提供了基础。

方法论 (Methodology - Core Technology & Implementation Details)

本部分详细拆解 WebShop 环境的构建以及用于解决该任务的智能体模型。

方法原理 (Methodology Principles)

WebShop 的核心设计理念是模拟一个功能完备的在线购物网站，并将其封装成一个标准的 RL 环境，以便于算法研究。智能体的任务是理解自然语言指令，并通过与网站交互来买到满足所有要求的商品。

方法步骤与流程 (Steps & Procedures)

3.1 任务形式化定义

作者将 WebShop 任务形式化为一个 部分可观察马尔可夫决策过程 (POMDP)，由元组 $(S, \mathcal{A}, \mathcal{T}, \mathcal{R}, \mathcal{U}, \mathcal{O})$ 定义。

状态空间 $S$ (State Space): 一个状态 $s$ 代表一个网页，共四种类型：
1. Search (搜索页): 包含一个搜索框。
2. Results (结果页): 列出搜索到的商品。
3. Item (商品页): 展示单个商品的详细信息和购买选项。
4. Item-Detail (商品详情页): 提供更深入的描述信息。
  
  图1(B)和(C)展示了不同页面和产品信息的表示。

动作空间 $\mathcal{A}$ (Action Space): 动作 $a$ 分为两类，在不同页面可用：

search [Query]: 在搜索页输入文本查询。

choose [Button]: 在其他页面点击一个文本按钮。下表由原文 Table 1 转录，总结了所有动作及其引发的状态转换：

类型	参数	状态 → 下一状态
search	[Query]	Search → Results
choose	Back to search	* → Search
choose	Prev/Next page	Results → Results
choose	[Product title]	Results → Item
choose	[Option]	Item → Item
choose	Desc/Overview	Item → Item-Detail
choose	Previous	Item-Detail → Item
choose	Buy	Item → Episode End

观测空间 $\mathcal{O}$ (Observation Space): 环境提供两种并行的观测模式：
1. HTML mode: 原始的 HTML 代码，可在浏览器中渲染，供人类使用。
2. simple mode: 简化的文本格式，去除了无关的 HTML 标签，专为智能体设计。
指令空间 $\mathcal{U}$ (Instruction Space): 每条指令 $u$ 是由人类编写的自然语言文本，背后对应着一个目标商品 $y^*$ ，并隐含了一组需求：属性集 $U_{att}$ 、选项集 $U_{opt}$ 和价格上限 $u_{price}$ 。
奖励函数 $\mathcal{R}$ (Reward Function): 这是 WebShop 的核心创新之一。当智能体执行 choose [buy] 动作购买商品 $y$ 后，它会收到一个范围在 [0, 1] 之间的最终奖励 $r$ 。这个奖励是自动计算的，无需人工评判。

3.2 环境实现细节

数据抓取: 从 amazon.com 的 5 个大类中抓取了 118 万件商品的数据。
搜索引擎: 使用基于 BM25 算法的 Pyserini 工具包构建了一个离线搜索引擎。这个搜索引擎是确定性的，即相同的查询总是返回相同的结果，这对于复现实验和模仿学习至关重要。
属性挖掘: 从商品标题和描述中，使用 TF-IDF 算法挖掘出高频词组作为候选属性，然后人工筛选出 670 个有意义的属性（如 “waterproof”, “soft sole”）。这些属性是隐藏的，用于计算奖励。
指令收集: 通过亚马逊土耳其机器人 (AMT) 平台，众包了 12,087 条购物指令。标注者被展示一个目标商品及其属性，并被要求写下自然的购物指令。
人类演示: 招募并培训了人类玩家在该环境中完成任务，收集了超过 1600 条完整的交互轨迹，用于模仿学习和性能对比。

4. 智能体模型架构

作者提出了结合模仿学习（IL）和强化学习（RL）的智能体。

4.2 模仿学习 (Imitation Learning, IL)

IL 智能体由两个独立的模块构成，分别模仿人类的搜索和选择行为。

模仿人类搜索 (Imitating human search generation):
- 问题定义: 将搜索行为看作一个序列到序列的文本生成问题。输入是购物指令 $u$ ，输出是搜索查询 $a$ 。
- 模型: 使用一个预训练的 BART 模型进行微调。
- 目标函数: 最大化生成人类专家所使用的搜索查询的概率。 $\mathcal { L } _ { \mathrm { s e a r c h } } = \mathbb { E } _ { u , a \sim \mathcal { D } } \left[ - \log \pi _ { \phi } ( { a } \mid u ) \right]$ 符号解释:
  - $\mathcal{D}$ : 人类 (指令, 查询) 数据对的集合。
  - $\pi_{\phi}$ : 由参数 $\phi$ 控制的 BART 模型策略。
模仿人类选择 (Imitating human choice):
- 问题定义: 在给定的网页观测 $o$ 中，从所有可点击的动作 $\mathcal{A}(o)$ 中选择一个，使其与人类专家的选择 $a^*$ 一致。
- 模型架构 (见下图，原文 Figure 3):
  
  $Figure 3: Architecture of our choice-based imitation learning (IL) model. The image $I$ is passed to a ResNet to obtain the image representation. The instruction text $u$ is passed to a transformer (…$ 该图像是图3中的示意图，展示了基于选择的模仿学习模型架构。图中输入图像 $I$ 通过ResNet编码，指令文本 $u$ 及动作通过Transformer编码，融合后经Attention Fusion Layer处理，最后通过MLP输出动作对应的标量值S(o,a)。
  1. 编码器: 使用预训练的 BERT 模型分别对网页观测 $o$ 和每个候选动作 $a$ 进行编码，得到它们的词元表示。图像信息则通过 ResNet-50 编码后与文本表示拼接。
  2. 融合层: 使用一个交叉注意力层 (Cross-Attention Layer) 来融合观测表示和动作表示，为每个动作生成一个上下文相关的向量。
  3. 打分: 将融合后的向量通过一个 MLP 网络，为每个动作 $a$ 计算出一个标量分数 S(o, a)。
  4. 策略: 通过对所有候选动作的分数进行 softmax 运算，得到选择每个动作的概率分布。
- 目标函数: 最大化选择人类专家所点击的那个按钮的概率。 $\mathcal { L } _ { \mathrm { c h o o s e } } = \mathbb { E } _ { o , A ( o ) , a ^ { * } \sim \mathcal { D } ^ { \prime } } \left[ - \log \pi _ { \theta } \left( a ^ { * } \mid o , \mathcal { A } ( o ) \right) \right]$ 符号解释:
  - $\mathcal{D}'$ : 人类 (观测, 候选动作, 专家选择) 数据元组的集合。
  - $\pi_{\theta}$ : 由参数 $\theta$ 控制的 BERT 选择模型策略。

4.3 强化学习 (Reinforcement Learning, RL)

为了进一步提升性能，作者在 IL 模型的基础上进行 RL 微调。

方法: 采用策略梯度 (Policy Gradient, PG) 方法。为了稳定训练，搜索模块 (BART) 被冻结，RL 仅用于优化选择模块 (BERT)。
目标函数: 优化的总损失函数包括三部分：策略梯度损失、价值函数损失和熵奖励。 $\mathcal { L } _ { \mathrm { PG } } = \mathbb { E } _ { \boldsymbol { \pi } } \left[ - \left( R _ { t } - V ( o _ { t } ) \right) \log \pi \left( a _ { t } \mid o _ { t } , \boldsymbol { A } ( o _ { t } ) \right) \right]$ 符号解释:
- $R_t$ : 从时间步 $t$ 开始的未来累积奖励 (Return)。
- $V(o_t)$ : 在观测 $o_t$ 下的预期回报，作为一个基线 (baseline) 来减小梯度的方差。它由一个与策略网络共享参数的价值头网络学习得到。
- $\pi(a_t | o_t, \mathcal{A}(o_t))$ : 在观测 $o_t$ 下选择动作 $a_t$ 的概率。

数学公式与关键细节 (Mathematical Formulas & Key Details)

奖励函数公式

这是理解 WebShop 任务评估机制的关键。 $r = r _ { \mathrm { t y p e } } \cdot \frac { | U _ { \mathrm { a t t } } \cap Y _ { \mathrm { a t t } } | + | U _ { \mathrm { o p t } } \cap Y _ { \mathrm { o p t } } | + { \bf 1 } [ y _ { \mathrm { p r i c e } } \leq u _ { \mathrm { p r i c e } } ] } { | U _ { \mathrm { a t t } } | + | U _ { \mathrm { o p t } } | + 1 }$

符号解释:

$r$ : 最终获得的奖励分数，范围 [0, 1]。
$r_{type}$ : 类型奖励。这是一个启发式分数，用于惩罚购买了错误类型商品的情况（例如，指令要买“黄油”，但智能体买了“植物肉”，即使它们有一些共同的属性如“非转基因”）。它基于购买商品和目标商品的标题文本匹配度计算。
$U_{att}$ : 指令中包含的属性集合 (e.g., {"waterproof", "soft sole"})。
$Y_{att}$ : 智能体购买的商品的真实属性集合（这些属性是隐藏的）。
$U_{opt}$ : 指令中包含的选项集合 (e.g., {"color: black and blue"})。
$Y_{opt}$ : 智能体购买时所选择的选项集合。
$y_{price}$ : 智能体购买的商品的价格。
$u_{price}$ : 指令中给出的价格上限。
$\mathbf{1}[\cdot]$ : 指示函数。当中括号内的条件为真时，其值为 1，否则为 0。
$|\cdot|$ : 集合中元素的数量。

公式解读： 这个公式计算了智能体购买的商品在属性、选项和价格三个维度上满足指令要求的比例，最后再乘以一个类型匹配的折扣系数。只有当所有要求（属性、选项、价格、类型）都完美满足时，奖励 $r$ 才为 1。

实验设置 (Experimental Setup)

数据集 (Datasets)

主数据集 WebShop:
- 来源: 核心数据源是 amazon.com。作者抓取了 5 大类（时尚、美妆、电子、家具、食品）共 1,181,436 件商品的信息。
- 指令: 通过 Amazon Mechanical Turk (AMT) 平台，针对采样商品收集了 12,087 条自然语言指令。
- 数据划分: 指令被划分为 10,587 (训练) / 1,000 (开发) / 500 (测试) 的 i.i.d. 分布。
- 人类演示: 收集了 1,012 条用于训练的轨迹和 500 条用于测试的轨迹，以建立人类基准。
- 数据样本示例:
  - 指令: "i'm looking for a small portable folding desk that is already fully assembled; it should have a khaki wood finish, and price lower than 140.00 dollars." (我想要一个小的、便携的、可折叠、已经完全组装好的桌子；它应该是卡其色木质饰面，价格低于140美元。)
  - 对应页面:
    
    图1(B)展示了智能体看到的简化页面，包含商品列表、价格等信息。

评估指标 (Evaluation Metrics)

任务得分 (Task Score):
1. 概念定义: 该指标衡量智能体在所有测试任务中获得的平均奖励的百分比。它是一个综合性指标，反映了智能体完成任务的平均质量，即使没有完全成功，部分满足要求的行为也能得到分数。
2. 数学公式: $\text{Task Score} = 100 \times \mathbb{E}[r]$
3. 符号解释:
  - $r$ : 单次任务（episode）获得的奖励分数，其计算方法见方法论部分的奖励函数公式。
  - $\mathbb{E}[\cdot]$ : 数学期望，这里指在所有测试任务上对奖励 $r$ 取平均值。
成功率 (Success Rate, SR):
1. 概念定义: 该指标衡量智能体完全成功完成任务的比例。这是一个非常严格的指标，只有当智能体购买的商品完美满足指令中的所有要求时，任务才被算作成功。
2. 数学公式: $\text{Success Rate} = \frac{\sum_{i=1}^{N} \mathbf{1}[r_i=1]}{N} \times 100\%$
3. 符号解释:
  - $N$ : 测试任务的总数。
  - $r_i$ : 第 $i$ 个任务获得的奖励分数。
  - $\mathbf{1}[r_i=1]$ : 指示函数，当第 $i$ 个任务的奖励为 1 时取值为 1，否则为 0。

对比基线 (Baselines)

Rule (规则基线): 一个简单的、非学习的启发式方法。其策略是：直接将完整的指令文本作为搜索查询，然后点击搜索结果中的第一个商品，不选择任何选项直接购买。这个基线代表了仅依赖搜索引擎的“朴素”方法的性能。
IL (Imitation Learning): 使用模仿学习训练的智能体，包括 BART 搜索模块和 BERT 选择模块。
$IL+RL$ (Imitation Learning + Reinforcement Learning): 在 IL 模型的基础上，使用强化学习进行微调的智能体。
Human Expert (人类专家): 表现最好的一组人类测试者的平均性能。
Human (平均人类): 所有参与测试的人类玩家的平均性能。

实验结果与分析 (Results & Analysis)

核心结果分析

$Figure 4: Task scores and Success Rate $( \\% )$ for our models on the test split of WebShop over 3 trials. LP Search uses a pre-trained BART model to generate the search query and IL w/o LP Search us…$ 该图像是图表，展示了WebShop测试集上不同模型的任务得分和成功率对比。图中列出了模型使用的策略组件及是否使用人类演示，得分和成功率分别以柱状图形式呈现，并标注了人类专家和平均水平作为参考。

上图（原文 Figure 4）展示了核心实验结果。

模型性能对比:
- 最佳模型: $IL+RL$ 模型取得了最高的分数（62.4）和接近最高的成功率（28.7%）。这表明结合模仿学习的预训练和强化学习的在线微调是有效的。
- 学习方法的优越性: IL 和 $IL+RL$ 模型在所有指标上都显著优于 Rule 基线（任务得分 59.9 vs 45.6, 成功率 29.1% vs 9.6%）。这证明了学习生成更好的搜索查询和智能地选择商品选项是至关重要的，简单的“搜索-点击”策略远不足以解决问题。
- 与人类的巨大差距: 尽管 $IL+RL$ 表现最佳，但其成功率（28.7%）仍远低于人类专家（59.6%），甚至低于平均人类水平（50%）。这说明 WebShop 是一个极具挑战性的基准，现有模型在策略探索、长时程记忆和鲁棒的语言理解方面仍有很大的提升空间。
消融实验分析 (Ablations):
- 预训练的重要性: IL (w/o LP Choice) 模型（选择模块未使用预训练的 BERT）的成功率暴跌了近三分之二。这强有力地证明了大型预训练语言模型对于理解网页文本和指令的语义至关重要。
- 搜索与选择的相对重要性: IL (w/o LP Search) 模型（搜索模块使用规则而非学习）的性能下降幅度相对较小。这表明，虽然学习生成好的查询很重要，但在网页中正确地导航和选择选项是更大的挑战。
- RL 微调的效果: $IL+RL$ 相较于 IL，任务得分有所提升，但成功率略有下降。结合下文的 Table 2 分析，这表明 RL 微调使智能体变得更“贪心”，倾向于采取更短的路径，这有助于在部分匹配时获得更高的平均分，但可能因为探索不足而错失完美匹配的机会。

数据呈现 (表格)

以下为对原文中关键表格的转录和分析。

表 2: 分项得分与轨迹统计

下表由原文 Table 2 转录，展示了不同方法的详细得分构成和行为统计。

td>4.5 (5/1)

	Score					Count
	All	Att	Opt	Type	Price	State	Item	Search
Rule	45.6	66.6	0.0	80.5	86.0	3.0 (3/3)	1.0 (1/1)	1.0 (1/1)
IL	59.9	69.3	45.2	86.4	84.0	9.4 (10/3)	1.6 (11/1)	1.3 (17/1)
IL+RL	62.4	74.0	38.9	89.7	88.7	1.0 (1/1)	1.0 (1/1)
Human Expert	82.1	81.8	73.9	94.4	97.7	11.3 (114/4)	1.9 (16/1)	1.4 (16/1)

分析:
- 最大差距在选项 (Opt) 得分: 人类专家在选项得分上高达 73.9，而最好的 IL 模型只有 45.2。这揭示了智能体在理解和选择正确商品选项（如颜色、尺寸、配置）方面是最大的短板。
- 探索行为差异: 人类专家的轨迹最长（平均 11.3 步），访问的商品最多（1.9 个），搜索次数也最多（1.4 次），且方差极大（最多 114 步）。这表明人类会进行灵活、深入的策略性探索。相比之下，IL 模型有一定的探索行为，而 $IL+RL$ 模型则变得非常“短视”，平均轨迹长度骤降至 4.5，几乎不进行二次搜索或查看多个商品，这解释了其选项得分的下降。
- 规则基线的弱点: Rule 基线的选项得分为 0，因为它从不选择任何选项。

表 3: 轨迹案例分析

下表由原文 Table 3 转录，展示了人类和 $IL+RL$ 模型在两个任务上的行为差异。

	Instruction 1	Instruction 2
	I want to find white blackout shades that are 66 inches in width and 66 inches in height. They need to be easy to install[...] (我要 66x66 英寸的白色遮光窗帘...)	I need a gingko light and 20"x20" pillow cover that is hand painted [...] (我要银杏灯和 20x20 英寸的手绘枕套...)
Human Actions (r=1.0)	search [ 66 inches in width and 66 inches in height white shades ] choose [ item : CALYX... ] choose [ Back to Search ] search [ 66 x 66 blackout shades ] choose [item : Milin... ] choose [ opt : 66"w x 66"h ] choose [ opt : cordless bottom up-blackout-white ] choose [ Buy ]	Human Actions (r=1.0)
IL+RL Actions (r=0.2)	search [ white blackout shades 65 inches in width and 66 inches in height ] choose[item : Window.. ] choose[Buy ]	IL+RL Actions (r=0.25)

(注: 原表 Instruction 2 的内容有误，此处按 Instruction 1 格式分析)

分析:
- 查询重构 (Query Reformulation): 在任务1中，人类在第一次搜索失败后，重构了查询，将 "66 inches in width and 66 inches in height" 简化为更有效的 "66 x 66"，并成功找到了商品。这体现了人类基于环境反馈调整策略的能力，而 $IL+RL$ 模型则缺乏这种能力。
- 回溯与探索: 人类会返回搜索结果页（Back to Search），而模型则倾向于“一条路走到黑”。

表 4: 使用“选择神谕”的分析

为了解构任务难度，作者设计了一个 Choice oracle（选择神谕），它能在给定搜索结果页的情况下，暴力搜索所有商品和选项组合，并选出能获得最高奖励的那个。这能分离出“搜索”和“选择”两个子问题的难度。下表由原文 Table 4 转录。

	Instr. text	IL BART	Human expert (first)	Human expert (last)
Score	94.9	94.5	94.5	95.5
Success Rate	85.4%	84.2%	85.6%	87.8%

分析:
- “选择”是主要瓶颈: 当拥有了完美的“选择”能力后，即使使用最简单的搜索查询（直接用指令文本），成功率也能从 9.6% 飙升至 85.4%。这再次证明了正确选择商品和选项是当前模型面临的最大挑战。
- “搜索”仍然重要: 即使有神谕相助，使用人类专家最后一次（经过思考和重构后）的搜索查询，成功率（87.8%）依然高于使用第一次的查询（85.6%）和模型生成的查询（84.2%）。这表明高质量的搜索查询是 achieving a near-perfect score 的关键。

表 5: Sim-to-Real 零样本迁移结果

作者将训练好的模型直接部署到真实的 amazon.com 和 ebay.com 上。下表由原文 Table 5 转录。

tr>

	Amazon				eBay
	Score / SR	Att	Opt	Type	Price	Score / SR	Att	Opt	Type	Price
Rule	45.8 / 19%	45.6	38.0	66.2	90.0	31.7/ 7%	62.3	25.9	49.0	67.0
IL	61.5 / 27%	60.7	53.7	85.6	96.0	58.2 / 21%	60.2	52.3	85.1	96.9
IL+RL	65.9 / 25%	71.6	47.0	87.8	100.0	62.3 / 21%	69.1	39.5	91.7	97.0
Human	88.2 / 65%	86.2	76.3	99.0	100.0	79.7 / 40%	80.3	70.1	99.5	100.0

分析:
- 积极的迁移结果: 在 amazon.com 和 ebay.com 上，IL 和 $IL+RL$ 模型的表现与在 WebShop 中非常相似，并且都远超 Rule 基线。例如，在亚马逊上， $IL+RL$ 的成功率达到 25%，远高于规则基线的 19%。
- WebShop 的实用价值: 这些结果是本文最强有力的贡献之一。它表明，在 WebShop 这个精心设计的模拟环境中训练的智能体，其学到的语义理解和决策策略具有良好的泛化能力，可以有效迁移到数据分布和搜索引擎动态都不同的真实世界网站中。这为开发能自主在真实网络上执行任务的实用智能体提供了一条可行路径。

总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary)

这篇论文成功地识别并解决了语言接地领域的一个核心痛点：缺乏兼具真实性和可扩展性的交互式基准。

主要贡献: 作者推出了 WebShop，一个大规模、逼真的模拟购物网站环境。其最大的创新在于全自动的奖励函数，它使得基于强化学习和模仿学习的大规模训练成为可能，摆脱了对昂贵人工反馈的依赖。
主要发现:
1. 实验证明，通过模仿学习和强化学习训练的智能体，其性能远超简单的启发式规则，验证了学习方法的必要性。
2. 与人类表现的巨大差距（29% vs 59% 成功率）凸显了 WebShop 任务的内在挑战性，尤其是在策略性探索、查询重构和长时程记忆方面。
3. 最重要的是，论文展示了令人信服的 sim-to-real 迁移能力，证明在 WebShop 中学到的技能可以泛化到真实的商业网站，这为 grounded-agent 研究走向实际应用迈出了坚实的一步。

局限性与未来工作 (Limitations & Future Work)

论文作者坦诚地指出了当前工作的一些局限性，并提出了未来的研究方向：

作者指出的局限性与未来方向:
1. 查询重构能力不足: 模型在一次搜索失败后，缺乏像人一样调整和优化查询的能力。
2. 缺乏长时程记忆: 当前模型是无状态的，无法记住并比较之前看过的商品，这在购物场景中是一个关键缺陷。引入显式记忆模块是未来的一个重要方向。
3. 探索与利用的平衡: RL 微调使得智能体过于“贪婪”，牺牲了探索。需要更好的探索机制（如内在激励）来平衡。
4. 网页语义理解: 模型对网页文本（尤其是嘈杂的选项文本）的理解仍不够鲁棒。
附录中提到的其他考量:
1. 数据偏差: 数据主要来自美国亚马逊，语言为英语，存在文化和地域偏差。
2. 奖励函数局限: 自动奖励函数基于精确的文本匹配，无法处理同义词或近义词，可能会低估智能体的真实表现。
3. 安全问题: 将智能体部署到真实网络上存在安全风险。WebShop 提供了一个安全的“沙盒”环境，但从模拟到真实的完全部署需要谨慎考虑。

个人启发与批判 (Personal Insights & Critique)

个人启发:
- 环境构建的范式转移: WebShop 为“如何构建一个好的AI研究环境”提供了宝贵的经验。它强调了真实世界数据、可扩展的自动反馈和与现实任务的对齐这三个要素的重要性。这种“创建一个可控的真实世界微缩模型”的思路，可以被借鉴到许多其他领域，如软件测试、科学研究、客户服务等。
- 大型语言模型的“身体”: 如果说大型语言模型（LLMs）是智能体的“大脑”，那么像 WebShop 这样的交互环境就是它们的“身体”和“世界”。这项工作生动地展示了，只有将 LLMs 置于能够行动并接收反馈的环境中，才能真正实现从“语言理解”到“语言接地”和“智能决策”的飞跃。
- Sim-to-Real 的巨大潜力: 该研究的 sim-to-real 成功案例极大地鼓舞了在模拟环境中训练现实世界智能体的信心。它表明，只要模拟环境的抽象层次得当（例如使用语义动作而非底层像素操作），学到的策略就可能具有很强的通用性。
批判性思考:
- 抽象的代价: simple mode 虽然方便了模型的处理，但也过滤掉了真实网页的大量视觉和布局信息。人类购物时很大程度上会依赖视觉布局来快速定位信息，这种能力的缺失可能会限制模型性能的天花板。未来的工作或许可以探索如何更有效地利用原始的 HTML 或 DOM 结构。
- 任务目标的单一性: 当前任务是“寻找并购买”，但真实的网页交互远不止于此，还包括填写表单、信息汇总、与客服对话等。WebShop 的模块化设计虽然支持扩展，但当前版本仍聚焦于一个相对单一的目标。
- 对搜索引擎的依赖: 智能体的性能高度依赖于环境内置的 BM25 搜索引擎。虽然作者通过分析证明了仅靠搜索不足以解决问题，但搜索引擎本身的质量无疑设定了任务的难度下限。如果搜索引擎很差，再智能的智能体也可能无能为力。探索智能体与搜索引擎的协同进化可能会是一个有趣的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。