论文状态：已完成

DeepShop: A Benchmark for Deep Research Shopping Agents

发表：2025/06/03

深度研究购物代理基准 (1)查询复杂性演化 (1)在线购物代理评估 (1)以检索增强生成为基础的方法 (1)细粒度购物特征评估 (1)

原文链接 PDF 下载

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

DeepShop提出了一个针对深度研究购物智能体的基准，涵盖真实复杂购物场景的多维产品属性、搜索过滤和排序偏好。通过查询多样性和复杂度演化，分级测试智能体表现，并采用细粒度与整体评估框架，揭示RAG等方法在网页交互和复杂查询处理上的局限。

摘要

Web agents for online shopping have shown great promise in automating user interactions across e-commerce platforms. Benchmarks for assessing such agents do not reflect the complexity of real-world shopping scenarios, as they often consist of overly simple queries with deterministic paths, such as "Find iPhone 15." Real shopping scenarios are inherently more layered, involving multi-dimensional product attributes, search filters, and user-specific sorting preferences. To address this gap, we introduce DeepShop, a benchmark designed to evaluate web agents in complex and realistic online shopping environments. DeepShop comprises three key components. (1) Query diversity evolution: Starting from real user queries, we generate diverse queries across five popular online shopping domains. (2) Query complexity evolution: We further evolve these queries to increase complexity, considering product attributes, search filters, and sorting preferences, and classify them into three levels: easy, medium, and hard, based on the number of evolutions. (3) Fine-grained and holistic evaluation: We propose an automated evaluation framework that assesses agent performance in terms of fine-grained aspects (product attributes, search filters, and sorting preferences) and reports the overall success rate through holistic evaluation. We conduct a systematic evaluation of retrieval-augmented generation (RAG) methods, web agents, and deep research systems. Results show that RAG struggles with complex queries due to its lack of web interaction, while other methods face significant challenges with filters and sorting preferences, leading to low overall success rates. We also perform cross-category, complexity-based evaluations and error analyses to support the advancement of deep research shopping agents.

思维导图

论文精读

中文精读约 35 分钟读完 · 18,867 字

1. 论文基本信息

1.1. 标题

DeepShop: A Benchmark for Deep Research Shopping Agents

1.2. 作者

Yougang Lyu, Xiaoyu Zhang, Lingyong Yan, Maarten de Rijke, Zhaochun Ren, Xiuying Chen

1.3. 发表期刊/会议

论文作为预印本（arXiv preprint）发布，作者所属机构包括阿姆斯特丹大学、山东大学、百度、莱顿大学、穆罕默德·本·扎耶德人工智能大学。arXiv 在学术界具有广泛影响力，是研究者分享最新成果的平台。

1.4. 发表年份

2025年

1.5. 摘要

本论文介绍了 DeepShop，一个用于评估深度研究购物智能体 (deep research shopping agents) 的基准测试。现有基准测试往往包含过于简单的查询和确定性路径，未能反映真实世界购物场景的复杂性，例如涉及多维度产品属性、搜索过滤器 (search filters) 和用户特定排序偏好 (sorting preferences)。DeepShop 旨在弥补这一空白，通过三个核心组件设计：

查询多样性演化 (Query diversity evolution)：从真实用户查询出发，在五个流行在线购物领域生成多样化查询。
查询复杂度演化 (Query complexity evolution)：进一步演化这些查询以增加复杂性，考虑产品属性、搜索过滤器和排序偏好，并根据演化次数将其分为简单 (easy)、中等 (medium) 和困难 (hard) 三个级别。
细粒度和整体评估 (Fine-grained and holistic evaluation)：提出一个自动化评估框架，从细粒度方面（产品属性、搜索过滤器、排序偏好）评估智能体性能，并通过整体评估报告总成功率 (overall success rate)。

论文对检索增强生成 (Retrieval-Augmented Generation, RAG) 方法、网页智能体 (web agents) 和深度研究系统 (deep research systems) 进行了系统评估。结果表明，RAG 因缺乏网页交互能力而难以处理复杂查询；其他方法则在处理过滤器和排序偏好方面面临显著挑战，导致整体成功率较低。研究还进行了跨类别、基于复杂度的评估和错误分析，以支持深度研究购物智能体领域的发展。

1.6. 原文链接

发布状态: 预印本 (preprint)
原文链接: https://arxiv.org/abs/2506.02839
PDF 链接: https://arxiv.org/pdf/2506.02839v1.pdf

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题： 现有用于评估在线购物网页智能体的基准测试，未能充分反映真实世界购物场景的复杂性。这些基准通常只包含过于简单和路径确定的查询，例如“查找 iPhone 15”，而忽略了真实购物中涉及的多维度产品属性、复杂的搜索过滤器和用户特定的排序偏好。

为什么这个问题在当前领域是重要的：

真实世界复杂性被忽视： 随着大型语言模型 (Large Language Models, LLMs) 的集成，网页智能体 (web agents) 在自动化电子商务平台用户交互方面展现出巨大潜力。然而，如果评估基准过于简化，就无法真实反映这些智能体在动态、噪声大、更新频繁的真实世界网站中处理复杂用户查询的能力。
阻碍技术发展： 过于简单的基准会误导研究方向，使得智能体的开发未能充分关注处理复杂用户需求的能力，从而阻碍其在实际应用中的部署和有效性。现有研究的智能体 (agents) 仍然难以在动态、真实的购物环境中完成复杂的查询。
深层研究需求： 复杂的购物查询要求智能体对电子商务平台进行“深度研究 (deep research)”——浏览商品列表、应用过滤器、比较商品——以满足多样化和细致的用户偏好。现有基准未能有效测试智能体的这种能力。

现有研究存在的具体挑战或空白：

静态与动态环境的差距： 大多数离线基准（如 Mind2Web、WebShop、WebArena）基于静态快照或手动构建的 HTML 结构，无法捕捉真实网站的动态性和不确定性。
简单任务的限制： 即使是最近的在线基准（如 Mind2Web-Live、WebVoyager），其任务也相对简单和通用，缺乏多属性推理、过滤和个性化排序的深度。
缺乏细粒度评估： 现有基准通常只提供整体任务成功率，难以诊断智能体失败的具体原因。

这篇论文的切入点或创新思路： 本论文通过引入 DeepShop 基准测试来弥补这一空白。DeepShop 的创新之处在于：

从真实查询出发进行演化： 它从真实用户查询开始，通过系统性的演化过程，生成多样化且复杂程度递增的查询。
多维度复杂性： 明确引入产品属性、搜索过滤器和排序偏好这三个维度来增加查询的复杂性。
细粒度与整体相结合的评估： 提供了一个全面的评估框架，不仅衡量整体任务成功率，还细致评估智能体在处理每个复杂维度上的表现，从而更好地诊断性能瓶颈。

2.2. 核心贡献/主要发现

本论文的核心贡献包括：

提出了 DeepShop 基准测试： DeepShop 是一个针对复杂在线购物场景中网页智能体进行评估的综合基准测试，其特点是包含五个产品类别中的多样化查询和不同复杂性级别。数据集通过多阶段过程构建，通过扩展查询的多样性和复杂性来演化真实的购物意图。
全面的评估框架： 引入了一个细粒度 (fine-grained) 和整体 (holistic) 的评估框架，能够评估智能体在满足产品属性、搜索过滤器和排序偏好等方面的表现，并诊断失败原因。
系统性评估与分析： 对包括简单 RAG 方法、高级网页智能体 (advanced web agents) 和商业深度研究系统 (commercial deep research systems) 在内的多种方法进行了广泛实验和比较。
揭示当前系统局限性： 详细分析了跨产品类别、查询复杂性级别和特定错误类型的结果，揭示了当前系统在处理复杂购物查询时的关键局限性，并为未来更有效的深度研究购物智能体 (deep research shopping agents) 的发展提供了指导。

主要发现：
RAG 方法的局限性： 简单 RAG 方法由于缺乏网页交互能力，在 DeepShop 查询上表现极差，特别是无法处理搜索过滤器和排序偏好。
网页智能体的挑战： 尽管网页智能体通过交互超越了 RAG，但在同时满足所有细粒度需求（属性、过滤器、排序）方面仍然面临困难，整体成功率较低。Browser Use 在网页智能体中表现最佳。
深度研究系统的表现： 像 Gemini Deep Research 和 OpenAI Deep Research 这样的系统在产品属性和排序偏好方面表现优于网页智能体，但仍难以处理复杂的搜索过滤器，整体成功率仍有限。
复杂性与性能负相关： 随着查询复杂度的增加，所有方法的性能都显著下降。
错误类型多样： 智能体的主要失败模式包括：视觉基础能力 (grounding ability) 有限（无法准确识别和操作 UI 元素）、缺乏状态评估和重新规划能力（无法从失败中回溯或调整策略）、受限于行动空间（无法操作动态 UI 组件如滑块）以及缺乏从执行中学习的能力（重复犯错）。深度研究系统则容易产生幻觉错误 (hallucination errors)。

3. 预备知识与相关工作

本节旨在为理解论文内容提供必要的背景知识，并总结论文所引用的相关工作，以突出 DeepShop 的创新点。

3.1. 基础概念

网页智能体 (Web Agents): 能够理解自然语言指令，并自主地在网页环境中执行任务的智能系统。它们通常利用大型语言模型 (LLMs) 进行规划和决策，并通过模拟人类交互（如点击、输入文本、滚动）与网页进行交互。
大型语言模型 (Large Language Models, LLMs): 经过海量文本数据训练的深度学习模型，能够理解、生成人类语言，并具备一定的推理能力。在网页智能体中，LLMs 常常作为智能体的“大脑”，负责理解任务、规划行动路径和解释网页内容。
检索增强生成 (Retrieval-Augmented Generation, RAG): 一种结合了信息检索和文本生成的技术。当 LLM 接收到一个查询时，它首先通过检索系统从外部知识库（如互联网搜索结果、文档库）中获取相关信息，然后利用这些检索到的信息来生成更准确、更全面的回答。
部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP): 这是一个用于建模智能体在不确定环境中做决策的数学框架。
- 状态空间 ( $\mathcal{S}$ ): 描述了环境所有可能的状态。在网页购物任务中，这可能是网页的完整 DOM 结构、当前显示的内容、用户购物车状态等。
- 观测空间 ( $\mathcal{O}$ ): 智能体能够接收到的关于环境状态的信息。由于智能体通常无法完全观察到环境的真实状态（例如，只能看到屏幕截图或部分 HTML），所以称为“部分可观察”。
- 行动空间 ( $\mathcal{A}$ ): 智能体可以执行的所有可能操作的集合。在网页环境中，这包括点击按钮、输入文本、滚动页面、选择下拉菜单等。
- 转移函数 ( $\mathcal{T}: \mathcal{S} \times \mathcal{A} \rightarrow \mathcal{S}$ ): 描述了在给定当前状态和智能体执行的行动后，环境如何转移到下一个状态的概率分布。
DOM 树 (Document Object Model Tree): 网页的结构化表示。它将网页内容组织成一个树形结构，其中每个节点代表 HTML 元素（如 div、 $a$ 、input 等），以及这些元素的文本内容和属性。网页智能体可以通过解析 DOM 树来理解网页的布局和可交互元素。
视觉基础 (Visual Grounding): 将自然语言描述（例如“点击蓝色的按钮”）与视觉信息（屏幕上实际的蓝色按钮）关联起来的能力。对于视觉驱动的网页智能体，准确的视觉基础是识别和操作网页元素的关键。
幻觉 (Hallucination): 在 LLM 中，指模型生成看似合理但实际上不正确或与输入事实不符的信息。在深度研究系统中，这可能表现为推荐不存在的产品、提供错误的链接或捏造信息。

3.2. 前人工作

论文将现有的网页智能体基准测试分为两类：离线基准 (offline benchmarks) 和在线基准 (online benchmarks)，并简要回顾了网页智能体的技术演进和电子商务中的查询理解挑战。

3.2.1. 网页智能体评估基准

离线基准 (Offline Benchmarks):
- WebShop [51]: 使用静态环境或模拟环境，提供受控的评估条件。
- Mind2Web [5]: 类似 WebShop，基于预收集的网页快照或手动策划的 HTML 结构。
- WebArena [62]: 也是离线基准，可能涉及更复杂的任务，但仍基于静态环境。
- VWebarena [18], MMInA [58], ChatShop [3]: 也是离线基准，试图增加任务的复杂性或多模态性，但依然受限于静态环境的缺陷，即无法捕获真实世界网站的动态性和不确定性。
- 局限性： 它们提供受控条件，但无法捕捉真实世界网站的动态、噪声和频繁更新的特性。
在线基准 (Online Benchmarks):
- WebLINX [21]: 允许智能体在实时网络环境中操作。
- Mind2Web-Live [34]: 作为 Mind2Web 的在线版本，使智能体能够在实时环境中运行。
- WebVoyager [11]: 另一个在线基准，致力于提供真实的实时设置。
- 局限性： 尽管提供了真实环境，但主要关注通用且相对简单的任务，对复杂的网络购物查询探索不足。论文指出，即使是带有 LLM 和 Google Search 的基本 RAG 系统在许多现有基准上也能表现出色，这表明这些基准的挑战性不足。

3.2.2. 网页智能体技术演进

早期 HTML-based 智能体：
- WebGPT [30], MindAct [5], Agent-E [1]: 利用 LLMs 解释自然语言指令，并通过 DOM 树导航网页界面。
多模态 (Multimodal), 视觉 (Vision)-based 智能体：
- SeeAct [60], WebVoyager [11], Browser Use [29]: 集成视觉基础 (visual grounding) 能力，以更好地处理复杂布局和交互组件。
深度研究系统 (Deep Research Systems):
- OpenAI Deep Research [33], Gemini Deep Research [8]: 使用高级推理 LLMs 来处理复杂的获取信息任务。
- 局限性： 尽管技术不断进步，但大多数评估仍局限于通用基准，使得智能体在复杂、真实的购物场景中的性能未经充分探索。

3.2.3. 电子商务中的查询理解

挑战： 许多电子商务查询涉及海量产品空间和复杂的用户偏好，难以用简单的关键词或过滤器表达 [42]。
传统方法局限： 传统信息检索 (IR) 系统在处理这种复杂性时往往力不从心 [4, 45]。会话式 IR 系统虽然支持多轮偏好获取，但受限于训练产品且无法自主浏览网页内容 [3, 57]。
网页智能体的潜力： 网页智能体的出现为这一领域提供了有前景的替代方案，它们可以自主地与电子商务网站互动，搜索相关商品，并模仿人类的浏览行为 [11, 51]。

3.3. 差异化分析

DeepShop 与上述现有工作的主要区别和创新点在于：

真实性与复杂性： DeepShop 不仅在实时在线环境中进行评估（与在线基准相似），更重要的是，它通过系统性的查询多样性演化和复杂度演化，创建了比现有任何基准都更接近真实世界购物场景的复杂查询集。它明确地将产品属性、搜索过滤器和排序偏好这些多维度因素整合到查询中，这是现有基准通常缺乏的。
细粒度评估： 除了整体任务成功率外，DeepShop 引入了细粒度的评估指标，能够分别衡量智能体在处理产品属性、搜索过滤器和排序偏好方面的能力。这对于诊断智能体的失败模式和指导未来研究至关重要。
推动深度研究： 通过设计具有挑战性的任务，DeepShop 旨在推动智能体在规划、适应性和泛化能力方面的进步，以弥合学术系统与实际部署之间的差距。

4. 方法论

本节详细阐述 DeepShop 基准测试的构建方法、任务公式以及评估框架。

4.1. 方法原理

DeepShop 的核心思想是创建一个能够真实反映在线购物复杂性的基准测试。它通过以下步骤实现这一目标：

任务公式化 (Task Formulation): 将在线网页购物任务形式化为部分可观察马尔可夫决策过程 (POMDP)，以捕捉其动态和不确定性。
种子数据整理 (Seed Data Curation): 从现有真实用户查询中精选出少量种子查询。
查询多样性演化 (Query Diversity Evolution): 基于种子查询，通过 LLM 进一步生成覆盖广泛产品类别的新查询，以确保智能体需要具备跨领域泛化能力。
查询复杂度演化 (Query Complexity Evolution): 通过迭代地向查询添加产品属性、搜索过滤器和排序偏好来增加其复杂性，从而模拟用户需求从简单到复杂的渐进过程。
评估框架 (Evaluation Framework): 引入一套全面的评估指标，包括细粒度评估（针对属性、过滤器、排序）和整体任务成功率，以全面衡量智能体性能。

4.2. 核心方法详解

4.2.1. 任务公式 (Task Formulation)

根据以往的工作 [11, 34]，在线网页购物任务被形式化为一个部分可观察马尔可夫决策过程 (POMDP) [15]，由元组 $( \mathcal { S } , \mathcal { O } , \mathcal { A } , \mathcal { T } )$ 定义。

$\mathcal{S}$ 表示状态空间 (state space)：包含所有可能的网页状态，例如页面的 DOM 结构、可见元素、商品列表、用户会话信息等。
$\mathcal{O}$ 表示观察空间 (observation space)：智能体在每个时间步 $t$ 收到的关于环境状态 $s _ { t } \in \mathcal{S}$ 的部分信息。这通常是网页的屏幕截图、渲染的 HTML 片段、DOM 树信息等。
$\mathcal{A}$ 表示行动空间 (action space)：智能体可以执行的所有可能操作的集合。例如，点击一个链接、输入文本到搜索框、选择一个下拉菜单选项、滚动页面等。
$\mathcal{T}: \mathcal{S} \times \mathcal{A} \rightarrow \mathcal{S}$ 表示转移函数 (transition function)：描述了在给定当前状态 s _ { t } 和智能体执行的行动 a _ { t } 后，环境如何以一定的概率转移到下一个状态 $s _ { t + 1 }$ 。

在这个设定中，在每个时间步 $t$ ，给定一个用户查询 $q$ ，网页购物智能体接收到一个观察 $o _ { t } \in \mathcal { O }$ ，该观察部分反映了网页环境的底层状态 $s _ { t } \in \mathcal{S}$ 。然后，智能体采取一个行动 $a _ { t } \in \mathcal{A}$ ，导致一个新的环境状态 $s _ { t + 1 } \sim \mathcal { T } ( s _ { t } , a _ { t } )$ 和一个更新的观察 $o _ { t + 1 } \in \mathcal { O }$ 。智能体的目标是根据查询 $q$ 规划一系列行动，最终找到符合用户需求的产品。

4.2.2. 种子数据整理 (Seed Data Curation)

为了确保评估的真实性，论文从两个真实世界的基准测试 Mind2Web-Live [34] 和 WebVoyager [11] 中手动筛选了 50 个用户购物查询作为种子数据集。这些查询被分为五个代表性的购物领域：

图书 (Books, $d _ { \mathbf { b o o k s } }$ ): 实体书、电子书和有声读物。
电子产品 (Electronics, $d _ { \mathbf { e l e c t r o n i c s } }$ ): 智能手机、平板电脑、笔记本电脑、耳机、智能设备等。
家居 (Home, $d _ { \mathbf { h o m e } }$ ): 家具、家电、清洁工具和日用品。
时尚 (Fashion, $d _ { \mathbf { f a s h i o n } }$ ): 服装、鞋履和配饰。
运动 (Sports, $d _ { \mathbf { s p o r t s } }$ ): 健身和娱乐设备、运动服和训练配件。

4.2.3. 购物查询多样性演化 (Shopping Query Diversity Evolution)

为了解决现有网页购物数据集在细粒度产品类别上多样性不足的问题，论文通过以下多样性演化过程生成全新的查询： $q _ { i } ^ { * } = \mathrm { D i v e r s i t y } ( q _ { i } , d )$ 其中：

Diversity $(\cdot)$ 是由 GPT-4o 模型通过提示 (prompting) 实现的功能。
$q _ { i } \in \mathcal { D } _ { \mathrm { o r i g i n a l } }$ 是一个种子查询。
$d \in \{ d _ { \mathrm { b o o k s } } , d _ { \mathrm { e l e c t r o n i c s } } , d _ { \mathrm { h o m e } } , d _ { \mathrm { f a s h i o n } } , d _ { \mathrm { s p o r t s } } \}$ 是随机选择的产品类别。

这个过程将种子数据集与所有生成的查询结合，构建了网页购物多样性演化数据集 $\mathcal { D } _ { \mathrm { d i v e r s i t y } } = \mathcal { D } _ { \mathrm { o r i g i n a l } } \cup \{ q _ { i } ^ { * } \} _ { i = 1 } ^ { N }$ ，其中 $N$ 是种子查询的数量。通过这种方式，确保了智能体需要泛化到各种用户购物意图。

4.2.4. 购物查询复杂度演化 (Shopping Query Complexity Evolution)

为了增加网页购物查询的复杂性，论文提出了一种迭代的复杂度演化策略。在每次迭代 $t$ 中，会随机选择三种策略之一来演化上一步的查询 q _ { i , t }： $q _ { i , t + 1 } = \mathrm { C o m p l e x i t y } ( q _ { i , t } , c )$ 其中：

Complexity $(\cdot)$ 也是由 GPT-4o 通过提示实现的功能。
q _ { i , t } 表示第 $t$ 次复杂度演化中的第 $i$ 个查询。
$i \in [ 1 , | \mathcal { D } _ { \mathrm { d i v e r s i t y } } | ]$ ，表示查询索引，其中 $|\mathcal{D}_{\mathrm{diversity}}|$ 是多样性数据集中的查询总数。
$t \in [ 1 , T ]$ ，表示迭代次数，这里设定 $T = 5$ 轮复杂度演化。
q _ { i , 0 } 表示来自 $\mathcal { D } _ { \mathrm { d i v e r s i t y } }$ 的第 $i$ 个查询（即演化的起点）。
$c \in \bar { \{ } c _ { \mathrm { attr } } , \bar { c } _ { \mathrm { f i l t e r } } , c _ { \mathrm { s o r t } } \}$ 是随机选择的演化策略。

这三种复杂度演化策略总结如下：
属性演化 ( $c _ { \mathbf { a t t r } }$ ): 通过添加具体的产品属性来增强查询，例如品牌、型号、价格范围、颜色、尺寸、重量或产品独有的特性。
- 示例提示（Appendix C.1，Figure 11）: "Enhance #The Given Prompt# by integrating detailed product attributes that detail user needs. Please specifies concrete values for one product attribute (e.g., brand, model, price range, color, size, weight, or unique features) based on your knowledge about this product, ensure that these exact details are incorporated into the query instead of using generic placeholder terms."
过滤器演化 ( $\mathcal { C } \mathbf { f i l t e r }$ ): 通过添加电子商务平台上常用的特定搜索过滤器来增强查询。这些包括最低客户评分（例如，4.5 星）、最少评论数量（例如，500+）、运输选项（例如，免费送货）、发布时间范围（例如，过去 30 天内新品）、退货政策或保修信息。
- 示例提示（Appendix C.1，Figure 11）: "Enhance #The Given Prompt# by integrating detailed product constraints that capture user needs. Please specifies concrete values for constraints—such as a minimum customer rating (e.g., above 4.0 or 4.5 stars), a minimum number of customer reviews (e.g., 100, 300, 500, or 1000), shipping options like free delivery, new arrival time frames (e.g., released in the past 30 days), return policies, or warranty information—based on your knowledge about amazon website, ensure that these exact values are used in the query rather than generic terms."
排序演化 ( $c _ { \mathbf { s o r t } }$ ): 通过附加一个排序偏好来增强查询，指示系统根据最低价格、最高用户评分、最新到货或最畅销排名等标准查找排名靠前的产品。
- 示例提示（Appendix C.1，Figure 11）: "Enhance #The Given Prompt# by integrating a specific product filtering requirement for web shopping. Find the top product based on one of the following criteria: lowest price, highest user rating, newest arrival, or best seller ranking."
  
  通过迭代应用上述策略，该方法模拟了用户查询的自然演化，生成了一个包含递增复杂查询的层次结构。从 Ddiversity 中的多样化查询开始，应用 $T = 5$ 轮复杂度演化，最终得到总计 600 个查询。

4.2.5. 数据集分析 (Dataset Analysis)

查询多样性演化分析： 现有在线购物基准在产品类别分布上存在偏差。为解决此问题，论文构建了一个包含 150 个查询的平衡子集，每个主要类别（图书、电子产品、家居、时尚和运动）系统地选择了 30 个查询。这确保了在评估跨领域泛化能力时，不会因类别分布不均而产生偏差。DeepShop 大幅减少了种子数据中的类别不平衡，提供了一个更受控和公平的测试平台。以下是 Figure 3 展示的查询多样性演化后的产品类别分布：

该图像是图表，展示了经过查询多样性演化后不同产品类别的分布情况。图中比较了初始种子数据和DeepShop数据在图书、电子产品、家居、时尚和运动五个类别的查询数量，DeepShop在各类别查询数均为30，显著高于种子数据，反映了查询多样性的提升。
查询复杂度演化分析： 复杂度演化策略通过引入额外的产品属性、搜索过滤器或排序偏好，逐步增强查询的复杂性。
- 产品属性： 如图 4(a) 所示，每个查询的平均产品属性数量在迭代过程中稳步增加。最终，DeepShop 中的平均产品属性数量比种子数据多 0.52 个，而困难 (hard) 子集则平均多 0.66 个属性。
- 搜索过滤器： 如图 4(b) 所示，每个查询的平均过滤器数量在迭代中持续增加。在最终迭代中，DeepShop 查询平均比种子查询多 1.95 个过滤器，而困难子集进一步增加了 2.88 个过滤器。
- 排序偏好： 如图 4(c) 所示，排序偏好的演化也呈上升趋势。每个查询的最终平均排序偏好比种子数据多 0.37 个，在困难子集中，这一增量更加明显，查询平均多 0.66 个排序偏好。以下是 Figure 4 展示的查询复杂度演化分析：
  
  该图像是图表，展示了图4中查询复杂度演化的三个方面：产品属性、搜索过滤器和排序偏好，分别以迭代次数为横轴，计数为纵轴，比较了迭代演化过程与DeepShop各级别数据的变化趋势。

4.2.6. 评估指标 (Evaluation Metrics)

为全面评估 DeepShop 环境中的网页智能体，论文采用了两阶段评估协议，包括细粒度评估 (fine-grained evaluation) 和整体任务成功评估 (holistic task success evaluation)。

细粒度评估 (Fine-grained Evaluation):
- 自动化评估工具： 鉴于人工评估的成本和可扩展性挑战，论文采用 GPT-4o 进行自动评估，借鉴了 [11, 50] 的方法。
- 查询分解： 每个查询首先被分解为产品属性 ( $q _ { \mathrm { attr } }$ )、搜索过滤器 ( $q _ { \mathrm { filter } }$ ) 和排序偏好 ( $q _ { \mathrm { sort } }$ ) 三个子查询 (subqueries)。
- 评估流程： 对于每个网页智能体的轨迹 (trajectory)，GPT-4o 被提示评估最终结果是否符合每个子查询中指定的要求。具体来说，GPT-4o 接收用户子查询、屏幕截图和网页智能体的最终答案，并被要求为每个子查询提供二元决策（“Success”或“Not Success”）。
- 优势： 这种细粒度评估能够捕获部分成功案例，并比单纯的整体二元任务成功更精确地诊断失败模式。如果原始查询中不存在特定子查询（即 None），则跳过该方面的评估，不计入计算。
- Prompt 示例 (Appendix A.1， Figure 6)： GPT-4o 的系统提示和用户提示。系统提示强调了评估的职责：根据用户子查询、屏幕截图和智能体响应，判断智能体是否成功完成任务。用户提示则包含具体的子查询、智能体响应、以及最多 15 张屏幕截图。
整体评估 (Holistic Evaluation):
- 聚合方式： 整体任务成功率 (overall task success) 是基于上述细粒度评估结果计算的，特别是产品属性、搜索过滤器和排序偏好的成功分数。
- 规则检查： 整体评估通过规则检查来聚合这些组件。对于每个维度，如果查询明确指定了要求，则考虑其相应的成功分数；否则，系统将其视为自动满足。
- 成功定义： 最终的整体任务成功率仅在所有必需组件都成功满足时确定——这意味着系统必须满足查询中明确要求的所有属性、过滤器和排序要求。
- 深度研究系统例外： 对于深度研究系统 (deep research systems)，由于无法获取中间执行屏幕截图，细粒度和整体评估均手动进行。
LLM 评估与人工判断的一致性率 (Agreement rate between LLM evaluation and human judge):
- 为了验证 GPT-4o 评估的可靠性，论文计算了人工判断与 GPT-4o 判断的一致性。
- 方法： 人工标注员被展示智能体的完整交互轨迹，包括屏幕截图和行动，并被要求判断智能体是否成功满足用户请求。
- 结果： 产品属性、搜索过滤器、排序偏好以及整体任务成功的判断一致性率分别为 84%、80%、82% 和 86%。这表明 GPT-4o 评估是有效且可靠的。
- 人工评估说明 (Appendix A.2，Figure 7)： 提供了给人类标注员的评估指令，要求他们基于完整交互轨迹和子目标判断成功。

5. 实验设置

本节描述了实验中使用的研究问题、基线模型、数据集以及评估指标的详细设置。

5.1. 研究问题

论文旨在回答以下三个研究问题：

RQ1： 简单 RAG 方法、网页智能体 (web agents) 和深度研究系统 (deep research systems) 在 DeepShop 基准测试上的细粒度 (fine-grained) 和整体 (holistic) 评估指标表现如何？
RQ2： 现有方法在不同产品类别（图书、电子产品、家居、时尚和运动）的在线购物任务中表现如何？
RQ3： 网页智能体的性能如何随着查询复杂度的不同级别（从种子查询到具有多个属性、过滤器和排序偏好的复杂演化查询）而变化？

5.2. 数据集

实验使用了 DeepShop 基准测试数据集。

来源与构建： DeepShop 是从 Mind2Web-Live [34] 和 WebVoyager [11] 的真实用户购物查询中整理出的种子数据，并通过 GPT-4o 驱动的多样性演化和复杂度演化过程生成的。
规模与特点： 经过 5 轮复杂度演化后，共生成 600 个查询。为确保评估的平衡性，从中选取了 150 个查询的平衡子集用于主要评估，每个主要类别（图书、电子产品、家居、时尚和运动）各有 30 个查询。这些查询被手动验证以确保高质量和答案可用性。
语言和区域： 英语，美国区域。
结构化特征： 每个实例包含唯一 ID、自然语言购物查询、电子商务平台名称和标识符、描述产品属性/搜索过滤器/排序偏好的子查询、产品类别信息以及任务难度级别（简单、中等、困难）。

5.3. 评估指标

论文采用细粒度评估和整体任务成功评估。

细粒度评估指标：
1. 产品属性成功率 (Product Attribute Success Rate):
  - 概念定义： 衡量智能体是否成功地找到了满足查询中指定的所有产品属性（如品牌、型号、颜色、尺寸等）的产品。它关注智能体对具体产品特征的理解和匹配能力。
  - 数学公式： $\text{Success Rate}_{\text{attr}} = \frac{\sum_{i=1}^{N} \mathbb{I}(\text{Agent matches } q_{\text{attr},i})}{\sum_{i=1}^{N} \mathbb{I}(q_{\text{attr},i} \neq \text{None})} \times 100\%$
  - 符号解释：
    - $N$ : 总任务数。
    - $\mathbb{I}(\cdot)$ : 指示函数，当条件为真时取 1，否则取 0。
    - $\text{Agent matches } q_{\text{attr},i}$ : 表示智能体在任务 $i$ 中成功匹配了所有产品属性要求。
    - $q_{\text{attr},i} \neq \text{None}$ : 表示任务 $i$ 包含产品属性要求。
2. 搜索过滤器成功率 (Search Filter Success Rate):
  - 概念定义： 衡量智能体是否成功地应用了查询中指定的所有搜索过滤器（如客户评分、评论数量、免费送货、保修等）。它关注智能体操作 UI 界面中过滤器的能力。
  - 数学公式： $\text{Success Rate}_{\text{filter}} = \frac{\sum_{i=1}^{N} \mathbb{I}(\text{Agent applies } q_{\text{filter},i})}{\sum_{i=1}^{N} \mathbb{I}(q_{\text{filter},i} \neq \text{None})} \times 100\%$
  - 符号解释：
    - $N$ : 总任务数。
    - $\mathbb{I}(\cdot)$ : 指示函数。
    - $\text{Agent applies } q_{\text{filter},i}$ : 表示智能体在任务 $i$ 中成功应用了所有搜索过滤器要求。
    - $q_{\text{filter},i} \neq \text{None}$ : 表示任务 $i$ 包含搜索过滤器要求。
3. 排序偏好成功率 (Sorting Preference Success Rate):
  - 概念定义： 衡量智能体是否成功地按照查询中指定的排序偏好（如最低价格、最高评分、最新到货等）排列了产品结果。它关注智能体识别和操作排序控件的能力。
  - 数学公式： $\text{Success Rate}_{\text{sort}} = \frac{\sum_{i=1}^{N} \mathbb{I}(\text{Agent sorts by } q_{\text{sort},i})}{\sum_{i=1}^{N} \mathbb{I}(q_{\text{sort},i} \neq \text{None})} \times 100\%$
  - 符号解释：
    - $N$ : 总任务数。
    - $\mathbb{I}(\cdot)$ : 指示函数。
    - $\text{Agent sorts by } q_{\text{sort},i}$ : 表示智能体在任务 $i$ 中成功按排序偏好排列了结果。
    - $q_{\text{sort},i} \neq \text{None}$ : 表示任务 $i$ 包含排序偏好要求。
整体任务成功率 (Holistic Task Success Rate):
- 概念定义： 衡量智能体是否成功满足了查询中明确指定的所有产品属性、搜索过滤器和排序偏好要求。只有当所有明确要求都被满足时，任务才被视为成功。
- 数学公式： $\text{Success Rate}_{\text{holistic}} = \frac{\sum_{i=1}^{N} \mathbb{I}((\text{Agent matches } q_{\text{attr},i} \lor q_{\text{attr},i}=\text{None}) \land (\text{Agent applies } q_{\text{filter},i} \lor q_{\text{filter},i}=\text{None}) \land (\text{Agent sorts by } q_{\text{sort},i} \lor q_{\text{sort},i}=\text{None}))}{N} \times 100\%$
- 符号解释：
  - $N$ : 总任务数。
  - $\mathbb{I}(\cdot)$ : 指示函数。
  - $\text{Agent matches } q_{\text{attr},i}$ : 智能体在任务 $i$ 中成功匹配了所有产品属性要求。
  - $q_{\text{attr},i}=\text{None}$ : 任务 $i$ 不包含产品属性要求。
  - $\text{Agent applies } q_{\text{filter},i}$ : 智能体在任务 $i$ 中成功应用了所有搜索过滤器要求。
  - $q_{\text{filter},i}=\text{None}$ : 任务 $i$ 不包含搜索过滤器要求。
  - $\text{Agent sorts by } q_{\text{sort},i}$ : 智能体在任务 $i$ 中成功按排序偏好排列了结果。
  - $q_{\text{sort},i}=\text{None}$ : 任务 $i$ 不包含排序偏好要求。
  - 逻辑运算符 $\land$ 表示“且”， $\lor$ 表示“或”。

5.4. 对比基线

论文评估了三类基线模型，涵盖了从简单的检索系统到复杂的网页交互和深度研究系统。所有基于 GPT-4o 的网页智能体均使用 GPT-4o (版本 2024-08-06) 作为底层语言模型。

简单 RAG (Simple RAG):
- GPT-4o + Google Search: 该基线通过将用户查询提交给 Google Search，然后检索排名靠前的网页。GPT-4o 基于检索到的网页截图生成响应。此方法通过 Serper API 访问 Google 搜索结果。它主要测试仅通过检索和页面内容理解来完成任务的能力，不涉及主动网页交互。
网页智能体 (Web agents):
- Agent-E [1]: 一个基于 HTML 的智能体，采用分层规划器-执行器 (hierarchical planner-actor) 框架，并通过灵活的 DOM 树蒸馏和去噪机制增强决策精度。它利用 Playwright 在实时网页环境中执行。
- SeeAct [60]: 利用 LLM 的多模态能力，结合视觉感知和结构化网页交互。它使用全页截图作为感知输入，并通过 Playwright 执行。
- WebVoyager [11]: 也利用多模态推理，并引入了“标记集提示 (set-of-mark prompting)”方案，指导智能体首先生成中间思考，然后选择最终行动。它在可见视口 (visible viewport) 上操作，并通过 Selenium 执行。
- Browser Use [29]: 一个开源的网页智能体框架，结合了视觉理解和 HTML 结构解析，以支持稳健的网页导航和交互。它在可见视口上操作，并通过 Playwright 执行。
深度研究系统 (Deep research systems):
- Gemini Deep Research [8]: 谷歌 Gemini Advanced 平台集成的 AI 助手。它能够分解查询，并使用 Gemini 的扩展推理能力生成带引用的多步报告。论文评估了 Gemini 2.0 Flash 模型。为了在购物网站上测试，在提示中包含了明确的站点约束。
- OpenAI Deep Research [33]: 一个由 OpenAI 推理模型驱动的智能体系统。它能够自主浏览、分析和合成网页信息，生成带有引用的输出，模仿人类的研究工作流程。论文评估了启用深度研究功能的 $o3$ 模型。同样，在提示中包含了明确的站点约束。
  
  所有开源智能体（Agent-E、SeeAct、WebVoyager 和 Browser Use）都在实时网页环境中执行，并被限制为每个任务最多 15 个步骤，以控制计算成本和过度探索。用于自动评估的 GPT-4o 评估器温度设置为 0，以减少响应方差和提高可复现性。

6. 实验结果与分析

本节详细分析了不同方法在 DeepShop 基准测试上的实验结果，并根据研究问题对性能进行了深入探讨。

6.1. 核心结果分析

6.1.1. RQ1: 网页智能体性能分析

以下是原文 Table 2 的结果，展示了简单 RAG、网页智能体和深度研究系统在产品属性、搜索过滤器、排序偏好以及整体任务成功率方面的表现。

以下是原文 Table 2 的结果：

Method Product attribute Search filter Sorting preference Task success
Simple RAG
GPT-4o + Google Search	7.33	5.97	4.55	7.33
Web agents
Agent-E	12.67	9.70	3.41	6.67
SeeAct	52.00	22.39	20.45	10.67
WebVoyager	40.67	38.00	23.86	16.00
Browser Use	36.00	34.33	30.68	32.00

Deep research systems Gemini Deep Research	53.33	44.00	52.94	30.00
OpenAI Deep Research	60.00	46.15	58.82	30.00

主要观察：

简单 RAG 方法难以解决 DeepShop 问题：
- GPT-4o + Google Search 在所有细粒度指标和整体成功率上都表现不佳，所有成功率均低于 8%。
- 尤其在搜索过滤器 (5.97%) 和排序偏好 (4.55%) 方面表现最差。这是因为这些要求无法仅通过检索满足，而需要主动与网站元素（如按钮、下拉菜单）进行交互。
- 这凸显了 DeepShop 查询的内在复杂性以及对具备动态网页交互能力的智能体的需求。
网页智能体表现优于简单 RAG，但仍难以满足 DeepShop 的细粒度要求：
- 网页智能体通过动态交互网站内容，比简单 RAG 更有效地发现产品。
- 整体任务成功率逐步提升：从基于 HTML 的 Agent-E (6.67%) 到基于视觉的 SeeAct (10.67%) 和 WebVoyager (16.00%)，最终以结合 HTML 和视觉输入的 Browser Use (32.00%) 达到顶峰。
- 在细粒度方面，SeeAct 在产品属性方面表现突出 (52.00%)，WebVoyager 在搜索过滤器方面 (38.00%)，Browser Use 在排序偏好方面 (30.68%) 表现最好。
- 然而，同时满足所有三个维度仍然非常困难，这表明 DeepShop 对网页智能体构成了巨大挑战。
深度研究系统通过多步推理增强细粒度性能，但整体成功率仍有限：
- Gemini 和 OpenAI 深度研究系统在产品属性和排序偏好评估方面表现出色，优于网页智能体。OpenAI Deep Research 甚至达到了 60.00% 的产品属性成功率和 58.82% 的排序偏好成功率。
- 但在搜索过滤器方面仍有挑战 (Gemini 44.00%，OpenAI 46.15%)，因为许多过滤器需要深度探索和在产品详情页上的确认。
- 尽管细粒度成功率较高，但它们的整体任务成功率（均为 30%）仍然较低，这强调了同时满足 DeepShop 所有要求的难度，突显了该基准对强大深度研究系统的挑战性。

6.1.2. RQ2: 跨产品类别性能分析

以下是 Figure 5(a)，展示了不同模型在五个产品类别（图书、电子产品、家居、时尚和运动）上的性能。

该图像是两幅柱状图，比较了不同模型在五个类别（左图）和三个复杂度层次（右图）下的任务成功率。左图展示了模型在Books、Electronics等领域的表现；右图体现了模型在Easy、Medium和Hard复杂度上的性能差异。 主要观察：

智能体性能因产品类别而异：
- 简单 RAG： 在“家居”类别中表现相对较好，这得益于其能通过 Google Search 检索到丰富的文本标题。但在“时尚”和“运动”类别中成功率降至 0%，这表明在这些视觉主导的类别中，仅依赖文本检索是远远不够的。
- HTML-based Agent-E： 表现持续不佳，尤其在“运动”类别中，这归因于其无法处理视觉内容。
- Vision-based 智能体 (SeeAct, WebVoyager)： 提升了跨领域的性能。
- 混合型 Browser Use： 结合了 HTML 和视觉输入，在所有类别中实现了最佳的跨领域结果。
- 深度研究系统： 跨类别趋势相对稳定，但在“时尚”和“运动”类别面临重大挑战，例如 Gemini 在“运动”中得分为 0%，而 OpenAI 在这两个类别中完全失败。
- 这些失败强调了在处理视觉驱动的产品类别时，需要强大的多模态推理能力。

6.1.3. RQ3: 跨查询复杂度演化性能分析

以下是 Figure 5(b)，展示了基线模型在不同查询复杂度（简单、中等、困难）下的性能。

查询复杂度和智能体性能呈负相关： 结果显示，查询复杂度越高，智能体性能越差。
- 任务被分为简单（0-1 次复杂度演化）、中等（2-3 次）和困难（4-5 次）。
- 简单 RAG： 在简单任务中成功率为 16%，在中等任务中为 6.00%，但在困难任务中降至 0%。这表明仅 Google Search 无法满足复杂的用户需求。
- 网页智能体： 性能也急剧下降，平均准确率从简单任务的 28.5% 降至中等任务的 17%，在困难任务中进一步下降了 7 个百分点。
- 深度研究系统： 在困难子集上的表现优于网页智能体，这凸显了强大推理能力的重要性。然而，即使是表现最好的 OpenAI 系统，在困难任务中的成功率也仅为 20%。

6.2. 错误分析与未来改进指导

论文通过详细的错误分析，识别了网页智能体和深度研究系统在任务执行过程中的主要失败模式，并提供了未来改进的指导。

网页智能体受限于视觉基础能力 (grounding ability)：
- HTML 内容和网页截图提供互补信号。仅依赖 HTML 的智能体常忽略视觉细节（如产品颜色、布局线索），这些对正确决策至关重要。
- 基于视觉的智能体（如使用标记集提示 set-of-mark prompts）则在分割精度方面存在问题：交互按钮常被错误分类，客户评论区等区域未被分割，导致无法使用评分过滤器。
- 此外，小型过滤和排序小部件常被忽略，从而降低任务性能。
- 未来工作： 探索结合 HTML 结构和视觉上下文的多模态融合技术，以实现更强的视觉基础 [9]。
- 示例 (Appendix D，Figure 12)： 描述了代理未能准确分割与用户评分相关的按钮，以及按钮重叠导致交互困难。
  
  该图像是一张亚马逊购物页面的屏幕截图，展示了两款绿色Xbox无线手柄的商品信息、用户评分和价格区间，用于展示Web代理在真实购物场景中处理复杂查询时的界面表现。
网页智能体常缺乏状态评估和重新规划能力：
- 智能体常发出过于具体的搜索查询，但当检索失败时，它们未能回溯或重新制定更广泛的替代方案。
- 同样，在导航到产品详情页并发现需求未满足后，它们很少重新考虑或探索其他选项。这种缺乏动态重新规划导致次优决策。
- 由于对网页状态转换的感知有限，智能体倾向于重复无效操作，例如多次点击同一无响应元素，而不是调整策略。
- 未来工作： 在真实的网页环境中微调智能体，以增强其对搜索失败进行推理和动态调整计划的能力 [20]。
- 示例 (Appendix D，Figure 13)： 展示了代理进入产品详情页验证一年保修，但发现要求不符时，未能重新评估状态并返回搜索结果页，反而继续在当前页面滚动，低效地寻找替代产品。
  
  该图像是论文中图13的示意图，展示了web代理在购物过程中未能重新评估和重新规划的失败案例，图中通过一系列点击和滚动操作，突出代理未回溯而继续在当前页面探索的问题。
网页智能体受限于有限的行动空间：
- 网页智能体在受限的浏览器行动集中操作，这阻碍了与购物平台上常见的动态 UI 组件的交互。
- 例如，智能体无法通过拖动价格滑块来过滤特定价格范围内的产品。更普遍的是，智能体难以操作下拉菜单、滑块和嵌套菜单——这些操作对于精确过滤和排序至关重要。
- 未来工作： 通过购物特定操作和更深层次的浏览器集成来扩展智能体的行动库 [50]。
- 示例 (Appendix D，Figure 14)： 代理试图过滤价格在 ``100-300 范围内的相机，但因无法与价格滑块等动态 UI 元素交互而失败。它点击了相邻的“Go”按钮，但未调整滑块值，导致过滤无效。
  
  该图像是两张并列的网页截图示意图，展示在亚马逊网站使用价格过滤功能时点击“Go”按钮未能成功过滤商品的操作过程和结果。图中标注了交互动作及对应的商品列表错误显示情况，反映购物代理在过滤功能上的失败。
网页智能体缺乏从执行中学习的能力：
- 当前智能体在任务之间泛化能力较差。在一个交互中获得的经验（例如，哪些策略导致成功或失败）不会转移到未来的场景中。
- 因此，智能体重复犯相同的错误，未能利用以前有效的策略。
- 启用执行时学习和记忆将使智能体能够抽象成功模式，跟踪失败案例，并随着时间推移完善其决策。
- 未来工作： 探索任务级记忆模块、基于结果的自我反思和终身学习机制 [48, 61]。
- 示例 (Appendix D，Figure 15)： 展示了代理在四个不同任务中持续的失败模式：它反复错误地使用检索器来查询过滤或排序约束，尽管这些功能只能通过指定的过滤器或排序 UI 组件访问。这表明代理缺乏执行时学习能力，无法从过去的错误中抽象经验。
  
  该图像是一张网页截图示意图，展示了购物代理在执行过程中未能有效学习的情况，图中包含亚马逊搜索结果及用户界面元素，突出显示了失败提示信息。
深度研究系统容易产生幻觉错误 (hallucination errors)：
- OpenAI 的深度研究系统常过度简化复杂查询，忽略约束条件，并返回自信但不准确的建议。例如，它们可能断言存在匹配产品，即使实际上没有。
- 尽管 Gemini 更常承认失败并建议近似替代方案，但这两个系统都经常返回不完整或不正确的链接——重定向到不相关的网站或通用导航页面，而不是具体的产品详情视图。这些幻觉降低了信任度和可用性。
- 未来工作： 应用偏好对齐 (preference alignment) 和事实核查技术，以减少幻觉率并提高检索链接的精确性 [43]。
- 示例 (Appendix D，Figure 16, 17)： 任务要求查找海军蓝、中号的复古花卉长裙，并解释退货政策。OpenAI 系统返回的第一个链接指向的产品只有大号和 XX-Large 尺码，但系统却幻觉称尺码要求已满足。此外，Link2 和 Link3 指向非 Amazon 网站，违反了任务约束。在解释退货政策时，系统错误地从这些外部网站提取信息。这揭示了深度研究系统在处理复杂细粒度购物查询时，在满足属性约束和从不当领域获取政策信息方面常出现幻觉。

6.3. 显著性检验

论文对 Browser Use 与其他四种基线模型（Simple RAG、Agent-E、SeeAct 和 WebVoyager）之间的整体任务成功率进行了配对 $t$ 检验。结果显示，Browser Use 显著优于 Simple RAG 和网页智能体基线 ( $p < 0.05$ )。这支持了在线网页环境的直接交互可以显著提高智能体性能的论断，相比于 Simple RAG 这种静态检索方法。此外，比较结果还突出了不同智能体类型在视觉基础能力方面的根本局限性，例如基于 HTML 的智能体缺少视觉上下文，而基于视觉的智能体则存在分割错误问题。

7. 总结与思考

7.1. 结论总结

本论文介绍了 DeepShop，一个用于评估网页智能体在复杂且真实的在线购物环境中的基准测试。与现有基准测试的简单和确定性查询不同，DeepShop 通过整合真实世界用户意图，并逐步演化查询的多样性和复杂性来弥合这一差距。该基准涵盖了五个主要的电子商务领域，并从产品属性、搜索过滤器和排序偏好等关键维度评估智能体性能。为了实现全面的评估，论文提出了一个细粒度和整体的评估框架。实验结果表明，当前的网页智能体在处理复杂查询时性能显著下降，这突显了开发更稳健智能体设计的必要性。总的来说，DeepShop 为推进智能、以用户为中心的网页购物智能体的开发提供了一个具有挑战性和现实意义的测试平台。

7.2. 局限性与未来工作

DeepShop 存在以下局限性，同时也为未来的研究提供了方向：

桌面界面限制： 目前主要关注桌面界面，未考虑移动设备特定的布局 [9, 12]。未来工作可扩展到移动端。
缺乏动态用户意图和多轮交互： 未支持用户意图的动态变化和多轮对话交互 [47, 56]。未来的智能体应能处理更自然的、像人类一样的多轮对话和动态调整需求。
未完全捕获购物行为的认知方面： 未能充分捕获购物行为的认知方面 [27, 44]，例如用户的情绪、偏好演变等。
可从工具学习中受益： 未来可从工具学习 (tool learning) 和智能体能力 (agent capabilities) 的最新进展中受益 [7, 37-41]，例如通过学习新的 UI 操作或更复杂的推理链来增强能力。

社会影响： 从社会角度看，购物智能体可以帮助数字素养有限的用户 [2, 59]，但也引发了对隐私和消费者操纵的担忧 [24, 26, 27]。近期关于知识感知系统 (knowledge-aware systems) 和推理方法 [22, 23, 25, 55] 的研究为确保伦理决策提供了方向。未来工作应考虑以智能体为中心的信息获取 (agent-centric information access) [16] 对消费者行为和市场动态的更广泛影响。

7.3. 个人启发与批判

7.3.1. 个人启发

基准测试的现实意义： 这篇论文强调了构建与真实世界复杂性相匹配的基准测试的重要性。在 LLM 和智能体技术飞速发展的背景下，如果评估任务过于简单，很容易产生“幻觉般的进步”，使得模型在实际应用中表现不佳。DeepShop 提供的多维度复杂性（属性、过滤器、排序）和演化方法，为其他领域基准测试的构建提供了宝贵的借鉴。
多模态交互的挑战： 实验结果清晰地表明，即使是最先进的视觉-语言模型，在真实的网页交互中仍面临巨大的挑战。特别是视觉基础 (visual grounding) 的不准确性、动态 UI 元素的识别和操作，以及对网页状态的理解和重新规划能力，是当前智能体亟待解决的核心问题。这启发我们，未来的研究应更深入地探索多模态融合、鲁棒的视觉 UI 理解以及更高级的认知推理能力。
从错误中学习的机制： 智能体重复犯错、缺乏从执行中学习的能力是一个普遍问题。引入任务级记忆、自我反思和终身学习机制，将是提升智能体泛化性和鲁棒性的关键。如何让智能体在失败后能够有效地“反思”并调整其规划，是智能体研究的一个重要方向。
深度研究系统的潜力与缺陷： 深度研究系统展现了强大的推理能力，尤其在处理产品属性和排序偏好方面。然而，其在特定交互（如过滤器）上的弱点以及幻觉问题，提醒我们这些系统并非万能，仍需大量工作来提升其准确性、可信赖性和交互能力。

7.3.2. 批判

GPT-4o 评估的局限性： 尽管论文报告了 GPT-4o 评估与人工判断之间较高的一致性，但依赖一个 LLM 来评估另一个 LLM 驱动的智能体，始终存在潜在的偏见和不稳定性。特别是当任务非常复杂时，GPT-4o 自身也可能出现理解偏差或“幻觉”。对于深度研究系统，部分任务仍需手动评估，这限制了评估的可扩展性和可复现性。
“复杂性”定义的普适性：论文将复杂性定义为属性、过滤器和排序偏好的数量。这虽然有效，但真实的购物复杂性可能还包含更多维度，例如：
- 隐含需求： 用户可能没有明确表达的偏好，智能体需要通过推理或历史数据推断。
- 非结构化信息： 产品评论中的情感分析、社区问答中的信息提取。
- 多商品比较与决策： 涉及多个商品的复杂比较、权衡不同属性优先级等。
- 时间敏感性： 抢购、限时优惠等场景。目前 DeepShop 尚未完全覆盖这些复杂的认知和决策层面。
对真实网站的依赖： 尽管在线基准更真实，但它们也面临着网站内容动态变化、布局更新、A/B 测试等挑战，这些都可能影响实验的可复现性和结果的长期有效性。如何设计一个既真实又相对稳定的在线基准是一个持续的难题。
行动空间的抽象层次： 论文提到智能体受限于行动空间，例如无法操作滑块。这提出了一个问题：智能体是否应该拥有更底层、更精细的 UI 操作能力，还是应该通过更高级别的抽象（例如，直接告诉网站“价格范围 100-300$”）来完成任务？这涉及到智能体设计中的通用性与特定性之间的权衡。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。