WebMall -- A Multi-Shop Benchmark for Evaluating Web Agents
TL;DR 精炼摘要
本文提出了WebMall,一个用于评估基于大语言模型的网络智能体的多商店在线购物基准。WebMall包含四个模拟商店和91个跨商店比价购物任务,旨在满足复杂的购物需求。其任务设计涵盖基本和高级操作,优于现有基准,通过真实产品提供异质性,促进网络智能体的研究与发展。
摘要
LLM-based web agents have the potential to automate long-running web tasks, such as finding offers for specific products in multiple online shops and subsequently ordering the cheapest products that meet the users needs. This paper introduces WebMall, a multi-shop online shopping benchmark for evaluating the effectiveness and efficiency of web agents for comparison-shopping. WebMall consists of four simulated online shops populated with authentic product offers sourced from the Common Crawl, alongside a suite of 91 cross-shop tasks. These tasks include basic tasks such as finding specific products in multiple shops, performing price comparisons, adding items to the shopping cart, and completing checkout. Advanced tasks involve searching for products based on vague requirements, identifying suitable substitutes, and finding compatible products. Compared to existing e-commerce benchmarks, such as WebShop or ShoppingBench, WebMall introduces comparison-shopping tasks across multiple shops. Furthermore, the product offers are more heterogeneous, as they originate from hundreds of distinct real-world shops. The tasks in WebMall require longer interaction trajectories than those in WebShop, while remaining representative of real-world shopping behaviors. We evaluate eight baseline agents on WebMall, varying in observation modality, memory utilization, and underlying large language model (GPT 4.1 and Claude Sonnet 4). The best-performing configurations achieve completion rates of 75% and 53%, and F1 scores of 87% and 63%, on the basic and advanced task sets, respectively. WebMall is publicly released to facilitate research on web agents and to promote advancements in navigation, reasoning, and efficiency within e-commerce scenarios.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
WebMall -- 一个用于评估网络智能体 (Web Agents) 的多商店基准 (Multi-Shop Benchmark)。
1.2. 作者
-
Ralph Peeters
-
Aaron Steiner
-
Luca Schwarz
-
Julian Yuya Caspary
-
Christian Bizer
所有作者均来自德国曼海姆大学 (University of Mannheim) 数据与网络科学组 (Data and Web Science Group)。
1.3. 发表期刊/会议
该论文的发表信息为预印本 (preprint),发布于 arXiv。
1.4. 发表年份
2025年8月18日 (UTC) 在 arXiv 发布。
1.5. 摘要
基于大语言模型 (LLM) 的网络智能体 (web agents) 在自动化长时间运行的网络任务方面具有巨大潜力,例如在多个在线商店中查找特定产品的优惠,并随后订购满足用户需求的最便宜产品。本文介绍了 WebMall,一个用于评估网络智能体进行比价购物 (comparison-shopping) 的有效性和效率的多商店在线购物基准。WebMall 包含四个模拟在线商店,其中填充了从 Common Crawl 获取的真实产品优惠,以及一套包含 91 个跨商店任务的套件。这些任务包括查找多个商店中的特定产品、进行价格比较、将商品添加到购物车和完成结账等基本任务。高级任务则涉及根据模糊要求搜索产品、识别合适的替代品以及查找兼容产品。与现有的电子商务基准,如 WebShop 或 ShoppingBench 相比,WebMall 引入了跨多个商店的比价购物任务。此外,产品优惠的异质性 (heterogeneity) 更高,因为它们源自数百个不同的真实世界商店。WebMall 中的任务需要比 WebShop 中更长的交互轨迹 (interaction trajectories),同时仍能代表真实世界的购物行为。我们评估了 WebMall 上的八种基线智能体配置,它们在观察模态 (observation modality)、内存利用率 (memory utilization) 和底层大语言模型 (GPT-4.1 和 Claude Sonnet 4) 方面有所不同。表现最佳的配置在基本和高级任务集上分别实现了 75% 和 53% 的完成率 (completion rates),以及 87% 和 63% 的 F1 分数 (F1 scores)。WebMall 已公开发布,以促进网络智能体研究,并推动电子商务场景中导航、推理和效率方面的进步。
1.6. 原文链接
https://arxiv.org/abs/2508.13024
1.7. PDF 链接
https://arxiv.org/pdf/2508.13024v1.pdf
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题
论文旨在解决的核心问题是:当前用于评估基于大语言模型 (LLM) 的网络智能体 (web agents) 的电子商务基准,缺乏对“比价购物 (comparison-shopping)”这种需要跨多个在线商店进行信息收集、比较和推理的复杂场景的评估能力。现有的模拟商店基准大多仅限于单个商店环境,而真实世界的购物行为往往涉及在多个商店之间进行比较和选择。
2.1.2. 问题重要性与现有挑战
随着 LLM 和多模态智能体 (multi-modal agents) 的兴起,开发能够浏览万维网、理解自然语言指令并执行复杂任务的智能体成为可能。在线购物是这类智能体最具潜力的应用场景之一,例如自动为特定产品寻找优惠,并根据用户需求订购最便宜的商品。然而,现有基准存在以下挑战:
- 单一商店限制: 大多数模拟在线商店的基准 (如
WebShop,ShoppingBench,WebArena,REAL) 都只模拟单个商店,无法评估智能体在多个异构商店中进行比价和信息整合的能力。 - 产品异质性不足: 现有基准中的产品描述通常来自单一来源或经过统一处理,缺乏真实世界商店中商品描述的多样性和不一致性。
- 任务复杂度有限: 许多基准的任务相对简单,不足以模拟真实世界中用户可能遇到的模糊需求、替代品搜索或兼容性推理等复杂场景。
- 交互轨迹短: 现有基准的任务往往需要较短的交互序列,而真实的比价购物任务通常涉及长时间的导航、搜索和信息收集。
2.1.3. 论文切入点与创新思路
本文的切入点在于构建一个多商店、高异质性、高任务复杂度的在线购物基准,专门用于评估网络智能体在比价购物场景下的能力。通过模拟多个独立的在线商店,并填充来自真实世界的数据,WebMall 旨在更真实地反映用户在在线购物中遇到的复杂性。
2.2. 核心贡献/主要发现
2.2.1. 论文核心贡献
- 引入 WebMall 基准: 提出了
WebMall,一个新颖的基准,用于评估网络智能体在电子商务比价购物任务中的表现。它包含四个可在本地部署的模拟电子商店,以及一个涵盖基本购物任务和需要导航、推理技能的高级任务的比较购物任务集。 - 异构产品与真实数据:
WebMall的商店填充了从Common Crawl中提取的真实产品优惠,这些优惠源自数百个不同的真实世界商店,从而保证了产品描述的异质性。 - 多商店比价任务:
WebMall是第一个模拟跨多个网络商店进行比价购物场景的基准,引入了需要跨商店收集和聚合信息的任务。 - 复杂任务集: 任务集包含 91 个任务,涵盖 11 个类别,从基本的查找产品、价格比较到高级的模糊需求搜索、替代品识别和兼容性推理,需要更长的交互轨迹和更强的推理能力。
- 基线智能体评估: 使用
Browsergym/AgentLab框架对八种基线智能体配置进行了评估,这些配置在观察空间、短期记忆使用和底层 LLM 方面有所不同。分析了完成率 (completion rates)、精确率 (precision)、召回率 (recall)、F1 分数 (F1 scores)、词元 (token) 使用量、运行时长 (runtime) 和成本 (cost)。 - 公开可用:
WebMall基准和基线智能体实现已公开发布,以促进该领域的研究和进展。
2.2.2. 论文关键结论与发现
- 挑战性:
WebMall对于GPT-4.1和Claude Sonnet 4等最先进的 LLM 智能体来说,仍然是一个具有挑战性的基准。 - 观察模态的重要性:
辅助功能树 (accessibility tree)对于成功导航和实现高任务完成率至关重要。屏幕截图 (screenshots)可以作为有益的补充,但不能替代辅助功能树中结构化信息的作用。仅使用屏幕截图的智能体表现显著不佳。 - 内存的价值:
持久化短期记忆 (persistent short-term memory)可以进一步提高任务完成率,特别是对于需要跟踪长期动作序列中信息的任务。它有助于缓解智能体过早提交或未能聚合跨商店信息的问题。 - LLM 性能差异:
- 在基本任务上,
GPT-4.1更快、更便宜,且更准确,表现出更高的效率。 - 在高级任务上,
Claude Sonnet 4在某些情况下表现出更好的F1分数和完成率,尤其是在涉及属性推理或模糊描述的任务中,尽管其成本和运行时长更高。
- 在基本任务上,
- 主要失败模式: 智能体常见的失败模式包括:过于僵化的搜索策略、用户界面交互错误、任务过早终止以及解决方案提交时的格式错误。
- 实用性限制: 尽管在基本在线购物任务上表现出有希望的结果,但由于较高的错误率和部署所需的高
API成本,这些网络智能体尚未达到广泛应用的可靠性水平。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,需要了解以下核心概念:
3.1.1. 大语言模型 (LLM)
大语言模型 (Large Language Models, LLMs) 是一种基于深度学习的,拥有数亿甚至数千亿参数的神经网络模型。它们通过在海量文本数据上进行训练来学习语言的模式、语法、语义和上下文信息。LLM 能够执行多种自然语言处理任务,如文本生成、摘要、翻译、问答和推理。在本文中,LLM 是网络智能体 (web agents) 的“大脑”,负责理解指令、规划动作和进行决策。本文评估了 GPT-4.1 和 Claude Sonnet 4 两种 LLM。
3.1.2. 网络智能体 (Web Agents)
网络智能体 (Web Agents) 是一种能够理解人类指令,并通过模仿人类用户在网页浏览器中执行操作(如点击、输入文本、滚动页面、导航到不同 URL)来完成网络任务的自动化程序。它们结合了 LLM 的语言理解和推理能力与浏览器交互能力。
3.1.3. 比价购物 (Comparison-Shopping)
比价购物 (Comparison-Shopping) 是指消费者在购买商品前,在多个不同的商家(在线商店或实体店)之间比较同一或类似产品的价格、功能、评价和可用性,以找到最划算或最符合自身需求的交易行为。这是 WebMall 基准设计的核心场景。
3.1.4. 观察模态 (Observation Modality)
观察模态 (Observation Modality) 指的是网络智能体感知当前网页环境的方式。在本文中,智能体主要通过以下两种或其组合方式获取信息:
- 辅助功能树 (Accessibility Tree, AX-Tree): 这是一个结构化的、语义化的网页表示,通常由浏览器提供给辅助技术(如屏幕阅读器)。它包含了页面上元素(如按钮、链接、输入框)的类型、文本内容、可访问名称、角色和层级关系等信息,但通常不包含视觉样式或布局。对于智能体来说,它提供了精确且语义丰富的交互目标。
- 屏幕截图 (Screenshot): 这是当前网页的像素级图像。它可以捕捉视觉样式、布局、图片等信息,但缺乏语义结构。智能体需要通过视觉模型(如多模态
LLM的视觉部分)来解析图像中的信息。
3.1.5. 短期记忆 (Short-Term Memory)
短期记忆 (Short-Term Memory) 在网络智能体中指的是一种机制,允许智能体在执行任务的多个步骤中存储和检索临时信息。这对于需要跨越多个页面或长时间交互才能完成的任务至关重要,例如记住已发现的最便宜产品价格、用户要求或已访问过的商店。如果智能体没有这种记忆,它可能需要重新发现信息,或者在决策时无法利用历史上下文。本文中,持久化短期记忆 (persistent short-term memory) 允许智能体在任务的不同步骤之间保持相关信息。
3.1.6. 评估指标
本文使用了多种评估指标来衡量智能体的性能:
- 完成率 (Completion Rate): 衡量智能体成功完成任务的比例。
- 精确率 (Precision)、召回率 (Recall)、F1 分数 (F1-Score): 这些是衡量信息检索和分类任务效果的常用指标,用于评估智能体返回的解决方案(如产品
URL)与真实正确答案的匹配程度。 - 词元 (Token) 使用量: 衡量智能体在执行任务过程中与
LLM交互所消耗的文本单元数量,与API成本直接相关。 - 运行时长 (Runtime): 衡量智能体完成任务所需的时间。
- API 成本 (API Cost): 衡量调用
LLM API完成任务的估计费用。
3.2. 前人工作
本文在 WebMall 基准的介绍中,引用并对比了多个前人工作。这些工作主要集中在网络智能体评估基准和 LLM 智能体框架方面。
3.2.1. 现有网络智能体评估基准
- WebShop [20]: 这是一个早期的在线购物领域基准,模拟了一个单一的电子商务商店,其中包含超过一百万个从亚马逊抓取的真实产品优惠。其任务主要集中在单店内的产品搜索和购买。
- WebArena [22]: 模拟了多个网站,涵盖电子商务、社交媒体和生产力等领域。然而,其购物任务仍限于单一电子商务商店,主要关注商店管理和销售统计生成。
- REAL [6]: 同样涵盖多种任务类型,包括在单商店环境中的购物任务,如产品搜索、管理购物车和完成结账流程。
- ShoppingBench [16]: 模拟了一个单店环境,任务涵盖了广泛的用户意图,如搜索产品、使用优惠券和遵守特定预算。
- Mind2Web [3]: 这是一个不模拟网站,而是直接在实时网络上评估智能体的基准。它将整个互联网作为观察空间,但其评估结果的复现性可能受实际网站动态变化的挑战。
- BrowseComp [18]: 同样在实时网络上评估智能体,其特点是设计了对
LLM具有挑战性的人工任务。 - DeepShop [10]: 也在实时网络上评估智能体,专注于复杂的商品搜索查询。
- AgentBench [9]: 这是一个更广泛的基准,其评估范围超出了网络,还包括数据库和操作系统任务。
- VisualWebArena [7]: 专注于视觉感知任务,评估多模态智能体在真实视觉网络任务中的表现。
- WebChoreArena [11]:: 专注于内存密集型任务,评估网络浏览智能体在现实中繁琐的网络任务中的表现。
- DeepResearchBench [4]: 评估网络研究智能体在 22 个领域的多步骤任务中的表现。
- ECom-Bench [15]: 专注于客户支持对话,评估
LLM智能体解决电子商务客户支持问题的能力。
3.2.2. LLM 智能体框架与技术演进
- ReAct [21]: 引入了交错推理 (reasoning) 和行动 (acting) 的模式,促使语言模型生成行动序列和中间推理轨迹。
- Reflexion [13]: 通过引入口头强化学习 (verbal reinforcement learning) 扩展了
ReAct,智能体通过反思成功和失败来迭代改进性能。 - Voyager [14]: 展示了课程学习 (curriculum learning) 和模块化技能库 (modular skill libraries) 对于开放式智能体任务的效用。
3.3. 差异化分析
WebMall 与上述相关工作相比,其核心区别和创新点在于:
- 多商店比价能力: 这是
WebMall最显著的特点。与WebShop,ShoppingBench,WebArena,REAL等仅限于单商店环境的基准不同,WebMall强制要求智能体在多个独立的、异构的商店之间进行导航、搜索和信息比较,以完成比价购物任务。 - 产品异质性:
WebMall的产品数据直接来源于Common Crawl中数千个真实世界的在线商店的schema.org注释。这使得WebMall中的产品描述、分类和价格比其他基准更加异构和真实,模拟了真实世界中不同商店商品信息不一致的挑战。 - 任务复杂度与轨迹长度:
WebMall的任务集设计旨在挑战智能体,不仅包含基础购物操作,还引入了模糊要求、替代品查找、兼容性推理等高级任务。这些任务通常需要比WebShop更长的交互轨迹和更复杂的推理过程。 - 可复现性: 尽管
Mind2Web,BrowseComp,DeepShop等在实时网络上评估智能体,但真实网络的动态性可能导致结果难以复现。WebMall通过模拟四个预定义的本地托管商店,确保了评估结果的完全可复现性,并允许在完全相同的环境中直接比较不同智能体的性能。 - 聚焦电子商务比价: 虽然
WebArena和AgentBench涵盖了更广泛的任务领域,但WebMall专注于电子商务中的比价购物场景,提供了更深入和细致的评估。
4. 方法论
本节详细介绍 WebMall 基准的构建和任务集的设计。
4.1. WebMall 环境
WebMall 基准包含四个专注于电子产品的在线商店,每个商店都拥有独特的产品集合。为了填充这些商店,研究人员利用了 WDC Extraction 2024年10月版的 Common Crawl。Common Crawl 是一个开放的网络爬取项目,WDC Extraction 从中提取了大量带有 schema.org 注释的产品优惠信息。除了这四个商店,基准环境还包括一个解决方案网站,智能体需要在此提交任务结果或表明任务已完成。
4.1.1. WebMall 商店
-
构建平台: 四个
WebMall商店均使用WordPress插件WooCommerce构建。 -
本地托管: 商店可以通过
Docker容器在本地托管,方便研究人员部署和复现。 -
**界面多样性:
WebMall选择了四个WooCommerce市场上的免费模板,使得这四个商店的界面各不相同,视觉上具有鲜明特色,并暴露出异构的接口。这模拟了真实世界中不同商店界面差异的挑战。 -
核心功能: 每个商店都包含购物车 (shopping cart)、结账功能 (checkout functionality)、搜索栏 (search bar)、带有异构类别树 (heterogeneous category trees) 的类别下拉菜单 (category drop-down),以及产品详情页 (product detail pages),以支持导航和产品查找。
以下是原文 Figure 1 的图像,展示了其中两个
WebMall商店的产品详情页和结账页:
该图像是WebMall中两个商店的产品详情页(左)和结账页面(右)。产品页面展示了详细信息及购买选项,而结账页面包含用户账单信息的填写区域,体现了在线购物的基本流程。
Figure 1: Product detail page (left) and checkout page (right) in two of the WebMall stores.
4.1.2. 产品优惠收集
为了收集用于填充商店的产品优惠,研究人员执行了一系列过滤和处理步骤:
- 初始过滤: 从
WDC Extraction中筛选出包含schema.org属性title、description、price和priceCurrency的产品优惠。 - 去重: 对上述四个属性组合完全相同的产品优惠进行去重。
- 语言过滤: 由于
WebMall是一个英文基准,研究人员使用fastText语言分类模型对优惠的标题和描述进行分类,只保留英文优惠。 - 产品聚类: 利用
schema.org注释中存在的全球唯一产品标识符(如GTIN或MPN),将指代相同真实世界产品的产品优惠聚类。这些聚类有助于后续在不同商店之间分发相同产品的优惠,并创建购物任务。
4.1.3. 产品优惠分发
产品优惠的分发旨在模拟真实的跨店购物场景:
-
任务驱动的初始选择: 在创建任务时,研究人员手动选择了一组产品优惠,并根据任务需求将其分发到不同的商店。
-
类别划分: 为模拟真实的跨购物场景,产品被划分到三个类别:
PC 部件 (PC components)、PC 外设 (PC peripherals)和其他电子产品 (other electronics)。这确保了每个商店都包含这三类产品的混合,从而需要跨店导航和价格比较。 -
自动填充: 使用
GPT-4.1查询语料库,以获取指定填充类别中的额外优惠。- 嵌入与检索: 为每个类别查询计算嵌入 (embeddings),使用
OpenAI text-embedding-3-small模型。通过Elasticsearch基于余弦相似度 (cosine similarity) 检索最近邻产品向量。 - 清洗与评估: 对检索到的候选产品进行清洗(移除
HTML、规范化),然后由GPT-4.1评估其列表质量(英文、信息丰富的描述 个字符、具体的非通用标题、非列表式)和类别相关性。 - 任务约束检查: 最后,对每个候选产品进行筛选,确保其不会导致生成新的有效任务解决方案,以保持任务集的独立性。
- 嵌入与检索: 为每个类别查询计算嵌入 (embeddings),使用
-
产品多样性: 最终,4,421 个产品优惠分布在四个
WebMall商店中,具有多样化的标题和描述。- 标题长度:6 到 264 个字符,中位数 69,平均 76.4。
- 描述长度:15 到超过 14,000 个字符,中位数 573,平均约 1,059。
-
WooCommerce 导入: 每个产品优惠都通过结构化数据字段(
name、description、price、categories和image)导入到WooCommerce后端。 -
异构类别树: 每个商店的类别树都是不同的,由作者手动创建,进一步模拟了真实电子商务商店的异质性。
以下是原文 Table 1 的结果,展示了产品在四个商店中的类别分布:
以下是原文 Table 1 的结果:
| Product Category | Overall Total | Shop 1 | Shop 2 | Shop 3 | Shop 4 | |||||
| Offers | % | Offers | % | Offers | % | Offers | % | Offers | % | |
| PC Components | 1,477 | 33.4 | 348 | 30.2 | 369 | 33.7 | 430 | 37.2 | 330 | 32.4 |
| PC Peripherals | 1,388 | 31.4 | 432 | 37.5 | 255 | 23.3 | 336 | 29.1 | 365 | 35.8 |
| Other Electronics | 1,556 | 35.2 | 370 | 32.3 | 471 | 43.0 | 390 | 33.7 | 325 | 31.9 |
| Total | 4,421 | 100.0 | 1,150 | 100.0 | 1,095 | 100.0 | 1,156 | 100.0 | 1,020 | 100.0 |
4.1.4. 商店安装
基准环境的安装非常简便,由于其完全容器化设计。克隆代码库后,通过两个命令的设置脚本可以自动下载所有备份文件,配置服务,并启动四个商店及其数据库和 Elasticsearch 实例。
4.2. WebMall 任务集
WebMall 的任务集旨在系统地评估网络智能体在真实比价购物场景中的能力,超越现有单店基准的任务范围。
4.2.1. 任务集概述
- 任务数量: 包含 91 个任务。
- 任务类别: 分为 11 个任务类别。
- 任务构成: 每个任务由一个自然语言指令和(如果任务需要)一个或多个解决方案
URL组成。 - 任务分组: 任务分为“基本任务 (Basic Tasks)”和“高级任务 (Advanced Tasks)”两组。
- 设计原则: 任务设计时考虑了不同难度级别,并要求跨店推理。
4.2.2. 基本任务 (Basic Tasks)
- 查找特定产品 (Find Specific Product): 智能体必须在所有商店中找到指定名称产品(例如
AMD Ryzen 9 5900X)的所有优惠。 - 查找最便宜优惠 (Find Cheapest Offer): 智能体需要检查所有商店,并返回指定名称产品(例如
Samsung Galaxy S24 Plus)价格最低的优惠。 - 满足特定要求的产品 (Products Fulfilling Specific Requirements): 智能体需要根据属性(如显示尺寸或内存)的约束条件查找产品优惠,但任务不直接给出产品名称。例如:“查找所有适合
Apple Watch Series 6的橙色表带的优惠。” - 添加到购物车 (Add To Cart): 智能体被指示将特定命名产品(例如
Asus DUAL RTX4070 SUPER OC White)的优惠添加到购物车。 - 结账 (Checkout): 智能体需要将特定优惠添加到购物车,并完成结账流程,包括填写配送和账单详细信息。例如:“将页面
{PRODUCT_URL}上的产品添加到购物车并完成结账过程。”
4.2.3. 高级任务 (Advanced Tasks)
-
满足特定要求的最便宜优惠 (Cheapest Offer with Specific Requirements): 扩展了基本任务中的约束搜索,智能体需要进一步推理并返回最便宜的优惠。例如:“查找白色、至少
512GB磁盘空间的新Xbox游戏机的最便宜优惠。” -
满足模糊要求的产品 (Products Satisfying Vague Requirements): 任务指定了用户搜索的模糊描述,智能体需要进行推理并返回相关的产品优惠。这反映了用户不一定是领域专家的情况,例如:“查找
Crucial生产的最大的MX500型号的所有优惠。” -
满足模糊要求的最便宜优惠 (Cheapest Offer with Vague Requirements): 智能体需要对模糊描述进行推理,并额外比较价格以返回最便宜的优惠。例如:“查找
4000系列中端nVidia游戏GPU各型号的最便宜优惠。” -
查找替代品 (Find Substitutes): 智能体被要求推荐更便宜的替代产品,模拟原商品不可用或价格过高的场景。例如:“查找此商品
{PRODUCT_URL}的最便宜替代品。” -
查找兼容产品 (Find Compatible Products): 任务涉及兼容性推理,例如为特定主板查找兼容的
CPU。例如:“查找此主板{PRODUCT_URL}的所有兼容CPU优惠。” -
端到端任务 (End-to-End Tasks): 将搜索一个或多个特定产品、执行价格比较、添加到购物车和结账流程结合到一个单一的端到端工作流程中。例如:“查找
Asrock B550 PHANTOM GAMING 4的最便宜优惠并购买它。”以下是原文 Table 2 的表格,总结了 11 个任务类别并提供了示例指令:
以下是原文 Table 2 的结果:
| Task Category | Count | Example |
| Basic Task Set | ||
| Find Specific Product | 12 | Find all offers for the AMD Ryzen 9 5900X. |
| Find Cheapest Offer | 10 | Find the cheapest offer for the Samsung Galaxy S24 Plus. |
| Products Fulfilling Specific Requirements | 11 | Find all offers for orange straps that fit with the Apple Watch Series 6. |
| Add to Cart | 7 | Find all offers for the Asus DUAL RTX4070 SUPER OC White and add them to the shopping cart. |
| Checkout | 8 | Add the product on page {PRODUCT_URL} to the shopping cart and complete the checkout process. |
| Advanced Task Set | ||
| Cheapest Offer Specific Requirements | 10 | Find the cheapest offer for a new Xbox gaming console with at least 512gb disk space in white. |
| Products Satisfying Vague Requirements | 8 | Find all offers for the largest available MX500 model by Crucial. |
| Cheapest Offer Vague Requirements | 6 | Find the cheapest offers for each model of mid-tier nVidia gaming GPUs in the 4000 series. |
| Find Substitutes | 6 | Find the cheapest alternative for this item: {PRODUCT_URL}. |
| Find Compatible Products | 5 | Find all offers for compatible CPUs for this motherboard: {PRODUCT_URL}. |
| End To End | 8 | Find the cheapest offer for the Asrock B550 PHANTOM GAMING 4 and purchase it. |
4.2.4. 任务工件 (Artifacts)
所有 WebMall 任务及其解决方案都以单个 JSON 文件形式提供。在智能体开始解决任务之前,会收到解释 WebMall 环境的说明,包括四个商店的 URL 以及智能体完成任务后提交解决方案的过程。
5. 实验设置
5.1. 数据集
本文的“数据集”即为 WebMall 基准本身,它是一个专门为评估网络智能体而设计的环境。其主要构成和特征如下:
-
商店数量: 包含四个模拟在线商店,专注于电子产品。
-
产品数量: 总计 4,421 个产品优惠,分布在四个商店中。
-
产品来源与特性: 产品优惠来源于 2024 年 10 月
Common Crawl的WDC Extraction,通过schema.org注释提取。这意味着产品数据是真实的、异构的,且源自数百个不同的真实世界商店。 -
产品类别: 涵盖
PC部件、PC外设和其他电子产品三大类。 -
任务数量: 包含 91 个跨商店任务,分为 11 个类别。
-
任务类型: 涵盖基本任务(如查找特定产品、比价、添加到购物车、结账)和高级任务(如模糊需求搜索、替代品查找、兼容性推理、端到端购物流程)。
选择
WebMall作为数据集的原因是它能够模拟真实世界中比价购物的复杂性,克服了现有单商店基准的局限性,提供了异构的产品数据和需要更长交互轨迹的复杂任务。
5.2. 评估指标
论文使用了以下指标来评估网络智能体的性能:
5.2.1. 完成率 (Completion Rate, CR)
- 概念定义: 完成率衡量智能体在规定的步数限制内,输出完全正确答案的任务所占的比例。它关注的是智能体能否成功地将任务执行到最终的正确状态。
- 数学公式:
- 符号解释:
- :完成率。
- :智能体在步数限制内,提交的解决方案与真实正确答案完全匹配的任务数量。
- :基准中所有任务的数量。
5.2.2. 精确率 (Precision, P)
- 概念定义: 精确率衡量智能体返回的所有结果中,有多少是真正正确的。它关注的是智能体返回结果的准确性,即“不要误报”。
- 数学公式:
- 符号解释:
- :精确率。
- :智能体返回的结果中,确实是正确答案的数量。
- :智能体返回的结果中,但实际上是错误答案的数量。
5.2.3. 召回率 (Recall, R)
- 概念定义: 召回率衡量所有正确的答案中,有多少被智能体成功地找回。它关注的是智能体发现所有相关结果的能力,即“不要漏报”。
- 数学公式:
- 符号解释:
- :召回率。
- :智能体返回的结果中,确实是正确答案的数量。
- :智能体没有返回,但实际上是正确答案的数量。
5.2.4. F1 分数 (F1-Score, F1)
- 概念定义: F1 分数是精确率和召回率的调和平均值 (harmonic mean)。它综合考虑了精确率和召回率,当两者都很高时,F1 分数才会高,因此是一个更全面的评估指标,尤其适用于数据集不平衡的情况。本文中,聚合精确率、召回率和 F1 分数时应用了宏平均 (macro averaging)。
- 数学公式:
- 符号解释:
- :F1 分数。
- :精确率。
- :召回率。
5.2.5. 其他评估指标
- 平均步数 (Avg. Steps): 智能体完成一个任务平均采取的操作(如导航、点击、输入)数量。
- 平均输入词元 (Avg. Input Tokens): 智能体在执行任务过程中,发送给 LLM 的平均词元数量。
- 平均输出词元 (Avg. Output Tokens): LLM 返回给智能体的平均词元数量。
- 平均运行时长 (Avg. Runtime): 智能体完成一个任务所需的平均时间(以秒为单位)。
- 平均成本 (Avg. Cost): 完成一个任务的估计平均 API 费用(以美元为单位)。
5.3. 对比基线
研究人员使用 Browsergym 和 AgentLab 框架对八种不同的基线智能体配置进行了实验,以验证 WebMall 基准的有效性。这些配置沿三个维度进行区分:
5.3.1. 观察空间 (Observation Space)
智能体感知环境(即网页)的方式。
- 辅助功能树 (Accessibility Tree, AX-Tree): 智能体仅通过结构化的
HTML辅助功能树来感知网页。它提供语义信息,如输入字段及其标签。 - 屏幕截图 (Screenshot): 智能体仅通过网页的视觉屏幕截图来感知环境。它可以捕捉视觉线索,如产品图片和页面布局。
- 辅助功能树 + 屏幕截图 (AX-Tree + Screenshot): 智能体结合使用辅助功能树和视觉屏幕截图。视觉能力通过
AgentLab中set-of-mark提示的自定义实现来提供。
5.3.2. 内存利用 (Memory Utilization)
智能体是否拥有持久化短期记忆。
- 带有持久化短期记忆 (AX-Tree + Memory / AX-Tree + Vision + Memory 等): 当
AgentLab的记忆功能被激活时,智能体可以在多个步骤中保持一个持久化的记忆,存储和过滤已发现的信息,例如当前找到的最便宜产品优惠及其URL。 - 无记忆 (AX-Tree / Screenshot 等): 在无记忆配置中,智能体仅依赖于操作历史和每一步的思考。
5.3.3. 大语言模型 (Large Language Model)
作为智能体内部决策核心的 LLM。
- GPT-4.1: 使用
OpenAI的GPT-4.1模型。 - Claude Sonnet 4: 使用
Anthropic的Claude Sonnet 4模型。
5.3.4. 任务执行限制
- 步数限制: 每个任务允许智能体最多执行 50 步操作(如“前往页面”、“点击”、“填写文本”和“滚动”)。这些操作由
AgentLab定义并在每一步传递给智能体。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 整体表现
以下是原文 Table 3 的结果,展示了按任务集汇总的任务完成率 (CR)、精确率 (P)、召回率 (R) 和 F1 分数:
以下是原文 Table 3 的结果:
| Model | Task set | CR (%) | AX-Tree | AX-Tree + Memory | AX-Tree + Vision | Vision | |||||||||||
| P (%) | R (%) | F1 (%) | CR (%) | P (%) | R (%) | F1 (%) | CR (%) | P (%) | R (%) F1 (%) | CR (%) | P (%) | R (%) | F1 (%) | ||||
| GPT4.1 | Basic | 56.25 | 74.48 | 67.59 | 70.87 | 75.00 | 91.60 | 83.95 | 87.61 | 56.25 | 72.66 | 65.77 | 69.04 | 41.67 | 59.64 | 50.43 | 54.65 |
| GPT4.1 | Advanced | 32.56 | 52.03 | 45.57 | 48.59 | 34.88 | 52.11 | 46.25 | 49.01 | 39.53 | 48.46 | 48.35 | 48.41 | 13.95 | 20.70 | 18.00 | 19.26 |
| Claude Sonnet 4 | Basic | 66.67 | 76.04 | 72.44 | 74.20 | 70.83 | 81.25 | 75.12 | 78.06 | 72.92 | 79.17 | 76.67 | 77.90 | 10.42 | 35.42 | 21.99 | 27.14 |
| Claude Sonnet 4 | Advanced | 53.49 | 63.37 | 63.41 | 63.39 | 48.84 | 61.51 | 58.40 | 59.91 | 37.21 | 41.11 | 41.80 | 41.45 | 4.65 | 10.47 | 6.69 | 8.16 |
- 基本任务表现:
GPT-4.1在AX-Tree + Memory配置下在基本任务上表现最佳,完成率达到 75%,F1 分数为 87.61%。Claude Sonnet 4在AX-Tree + Vision配置下在基本任务上表现出较高的完成率(72.92%)和 F1 分数(77.90%)。 - 高级任务表现:
Claude Sonnet 4仅使用AX-Tree的配置在高级任务上表现最佳,完成率 53.49%,F1 分数 63.39%。这表明对于更复杂的任务,额外的模态或记忆有时反而可能降低性能,可能是因为信息过载或分散了智能体的注意力。 - 观察模态的重要性: 仅使用屏幕截图 (
Vision模态) 的智能体表现显著不佳,尤其是在复杂任务上(例如GPT-4.1在高级任务上仅有 13.95% 的完成率)。这强调了辅助功能树 (accessibility tree)提供的结构化语义信息对于可靠导航和交互的不可替代性。屏幕截图可以作为补充,但不能单独依靠。 - 记忆的作用:
记忆 (Memory)通常能提高大多数配置的性能,尤其是在需要广泛探索或价格比较的任务中。它允许智能体存储中间结果,避免因未进行详尽搜索而过早提交。例如,GPT-4.1在基本任务上从AX-Tree的 56.25% 完成率提高到AX-Tree + Memory的 75%。
6.1.2. 各任务类别表现
以下是原文 Table 4 的结果,展示了按任务类别汇总的任务完成率、精确率、召回率和 F1 分数:
以下是原文 Table 4 的结果:
| Model | Task set | P(%) | AX-Tree | AX-Tree + Memory | AX-Tree + Vision | Vision | |||||||||||
| R(%) | F1 (%) | CR (%) | P(%) | R(%) | F1 (%) CR (%) | P(%) | R(%) | F1 (%) CR (%) | P(%) | R(%) | F1 (%) | ||||||
| Basic Tasks | CR (%) | ||||||||||||||||
| Single Product Search | 33.33 | 85.42 | 66.48 | 74.77 | 66.67 | 88.64 | 81.69 | 85.02 | 33.33 | 67.71 | 54.61 | 60.46 | 41.67 | 69.10 | 56.44 | 62.13 | |
| GPT4.1 | Cheapest Product Search | 60.00 | 60.00 | 60.00 | 60.00 | 90.00 | 90.00 | 90.00 | 90.00 | 40.00 | 42.50 | 42.50 | 42.50 | 50.00 | 63.33 | 57.50 | 60.28 |
| Best Fit Specific Requirements | 27.27 | 50.00 | 40.61 | 44.82 | 36.36 | 84.85 | 59.01 | 69.61 | 45.45 | 68.18 | 56.97 | 62.07 | 27.27 | 54.55 | 38.03 | 44.81 | |
| Add to Cart | 85.71 | 85.71 | 85.71 | 85.71 | 100.00 | 100.00 | 100.00 | 100.00 | 85.71 | 100.00 | 92.86 | 96.30 | 85.71 | 100.00 | 92.86 | 96.30 | |
| Checkout | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 12.50 | 12.50 | 12.50 | 12.50 | |
| Single Product Search | 66.67 | 83.33 | 78.41 | 80.80 | 75.00 | 83.33 | 79.17 | 81.20 | 75.00 | 83.33 | 79.17 | 81.20 | 0.00 | 58.33 | 22.98 | 32.97 | |
| Claude Sonnet 4 | Cheapest Product Search | 70.00 | 75.00 | 75.00 | 75.00 | 70.00 | 70.00 | 70.00 | 70.00 | 80.00 | 80.00 | 80.00 | 80.00 | 40.00 | 60.00 | 50.00 | 54.55 |
| Best Fit Specific Requirements | 45.45 | 63.64 | 53.31 | 58.01 | 45.45 | 81.82 | 59.61 | 68.97 | 45.45 | 63.64 | 57.27 | 60.29 | 9.09 | 36.36 | 25.45 | 29.95 | |
| Add to Cart | 71.43 | 71.43 | 71.43 | 71.43 | 85.71 | 85.71 | 85.71 | 85.71 | 85.71 | 85.71 | 85.71 | 85.71 | 0.00 | 0.00 | 0.00 | 0.00 | |
| Checkout | 87.50 | 87.50 | 87.50 | 87.50 | 87.50 | 87.50 | 87.50 | 87.50 | 87.50 | 87.50 | 87.50 | 87.50 | 0.00 | 0.00 | 0.00 | 0.00 | |
| Advanced Tasks | |||||||||||||||||
| 40.00 | 40.00 | 40.00 | 40.00 | 30.00 | 30.00 | 30.00 | 30.00 | 30.00 | 30.00 | 30.00 | 30.00 | 20.00 | 20.00 | 20.00 | |||
| GPT4.1 | Cheapest Best Fit Specific Requirements Best Fit Vague Requirements | 12.50 | 64.03 | 48.09 | 54.93 | 25.00 | 80.09 | 25.00 | 44.27 | 41.95 | 12.50 | 43.75 | 20.00 | 36.81 | |||
| Cheapest Best Fit Vague Requirements | 16.67 | 54.17 | 48.61 | 51.24 | 16.67 | 66.67 | 65.28 44.44 | 71.93 53.33 | 16.67 | 39.87 52.50 | 48.61 | 50.48 | 0.00 | 6.67 | 31.77 3.33 | 4.44 | |
| Find Substitutes | 50.00 | 50.00 | 50.00 | 50.00 | 33.33 | 33.33 | 33.33 | 33.33 | 33.33 | 33.33 | 33.33 | 33.33 | 33.33 | 33.33 | 33.33 | ||
| Find Compatible Products | 40.00 | 60.00 | 46.67 | 52.50 | 40.00 | 40.00 | 33.33 40.00 | 40.00 | 60.00 | 70.00 | 66.67 | 68.29 | 20.00 | 20.00 | 20.00 | 20.00 | |
| End-to-End | 37.50 | 50.00 | 43.75 | 46.67 | 62.50 | 62.50 | 62.50 | 62.50 | 75.00 | 75.00 | 75.00 | 75.00 | 0.00 | 0.00 | 0.00 | 0.00 | |
| 60.00 | 60.00 | 60.00 | 60.00 | ||||||||||||||
| Cheapest Best Fit Specific Requirements Best Fit Vague Requirements | 37.50 | 68.39 | 68.75 | 68.57 | 50.00 37.50 | 50.00 71.88 | 50.00 57.64 | 50.00 63.97 | 50.00 37.50 | 50.00 58.48 | 50.00 62.15 | 50.00 60.26 | 10.00 0.00 | 10.00 31.25 | 10.00 10.94 | 10.00 16.20 | |
| Claude Sonnet 4 Find Compatible Products End-to-End | 33.33 | 52.78 | 40.56 | 0.00 | 0.00 | ||||||||||||
| Cheapest Best Fit Vague Requirements Find Substitutes | 83.33 | 83.33 | 83.33 | 45.87 83.33 | 33.33 66.67 | 33.33 66.67 | 33.33 66.67 | 33.33 66.67 | 16.67 16.67 | 16.67 16.67 | 16.67 16.67 | 16.67 16.67 | 0.00 0.00 | 0.00 0.00 | |||
6.1.2.1. 结构化基本任务 (Structured Basic Tasks)
- 任务类型: 如
查找特定产品 (Single Product Search)、查找最便宜优惠 (Cheapest Product Search)、添加到购物车 (Add to Cart)和结账 (Checkout)。 - 表现:
GPT-4.1结合辅助功能输入和记忆在这些任务上持续表现出色,F1 分数很高。Claude智能体在提供辅助功能输入时也具有竞争力,但在添加到购物车和结账任务中精确率和召回率略有下降。 - 常见失败模式:
- 僵化搜索策略: 智能体有时会发出过于具体的查询,如果找不到结果就停止,从而错过产品变体或替代拼写。
- 屏幕截图代理问题: 仅使用屏幕截图的智能体尤其困难,经常找不到搜索框或按钮,导致超出步数限制。
6.1.2.2. 属性丰富和模糊任务 (Attribute-rich and Ambiguous Tasks)
- 任务类型: 如
满足特定要求的最优产品 (Best Fit Specific Requirements)、满足模糊要求的最优产品 (Best Fit Vague Requirements)及其最便宜变体。这些任务要求智能体解释属性约束(如屏幕尺寸、内存频率)或模糊描述。 - 表现:
Claude Sonnet 4结合辅助功能树在这些任务上通常比GPT-4.1获得更高的 F1 分数和完成率,这表明其在基于属性的推理方面可能具有更强的能力。 - 常见失败模式:
- 不全面的搜索: 智能体经常未能全面搜索所有商店,或者在找到第一个匹配结果后就停止。
- 属性混淆: 智能体可能混淆属性(例如
RAM的套装容量和单条容量)或误解要求,影响精确率和召回率。
- 多模态增益: 结合辅助功能和屏幕截图模态在某些类别中带来了适度提升,尤其是在
GPT-4.1的查找兼容产品 (Find Compatible Products)任务中,视觉信息有助于识别匹配的配色方案或外形尺寸。
6.1.2.3. 端到端任务 (End-to-End Tasks)
- 任务类型: 要求智能体搜索最便宜的产品,添加到购物车并完成结账。
- 表现: 带有记忆的
Claude智能体完成了 75% 的端到端任务,F1 分数达到 84.26%。记忆在这里特别有价值,因为它减少了智能体忘记中间结果或未能提交所有必要信息的可能性。GPT-4.1在该类别中受益于辅助功能和视觉的结合。 - 屏幕截图代理问题: 仅依赖屏幕截图的智能体对于两种
LLM都未能完成任何端到端任务。
6.1.2.4. 普遍错误来源
- 跨店推理不足: 许多运行在检索到单个优惠后停止,未能聚合所有商店的信息,记忆虽然有所缓解但未能完全解决。
- UI 交互错误: 例如,反复点击错误的控件或未能找到字段,这尤其影响缺乏结构化输入的智能体。
- 输出格式错误: 在解决方案页面输入
URL时出现格式错误,例如返回不完整的URL,导致原本正确的解决方案被标记为不正确。带有记忆的智能体通过显式存储解决方案URL减少了此类错误。
6.2. 效率分析
以下是原文 Table 5 的结果,展示了每个模型、任务集和观察空间的词元使用量、成本和运行时长:
以下是原文 Table 5 的结果:
| Model | Task Set | Observation Space | Avg. Steps | Avg. Input Tokens | Avg. Output Tokens | Avg. Runtime | Avg. Cost |
| GPT4.1 | Basic | AX-Tree | 22.69 | 131,301 | 2,334 | 130.5s | 0.28 |
| AX-Tree + Vision | 20.92 | 135,362 | 1,901 | 155.4s | 0.29 | ||
| GPT4.1 | Advanced | AX-Tree | 24.98 | 160,922 | 2,950 | 159.2s | 0.35 |
| AX-Tree + Vision | 23.74 | 169,956 | 2,468 | 187.8s | 0.36 | ||
| Claude Sonnet 4 | Basic | AX-Tree | 23.69 | 188,079 | 6,791 | 222.7s | 0.67 |
| AX-Tree + Vision | 25.62 | 242,597 | 6,255 | 279.5s | 0.82 | ||
| Claude Sonnet 4 | Advanced | AX-Tree | 29.65 | 291,048 | 10,063 | 331.7s | 1.02 |
| AX-Tree + Vision | 37.26 | 480,199 | 12,630 | 471.9s | 1.63 |
6.2.1. 词元使用量 (Token Usage)
- 影响因素: 观察空间越丰富(包含屏幕截图),以及使用
Claude Sonnet 4的智能体,消耗的词元数量显著增加。 - 屏幕截图代理: 仅使用屏幕截图的智能体由于导航效率低下,经常重复操作,导致平均步数和词元使用量都较高。
- 记忆的影响: 记忆配置通常能减少解决任务所需的步数,尽管记忆部分本身会增加提示长度,但总体词元使用量可能降低。
6.2.2. 运行时长 (Runtime)
- GPT-4.1: 通常在 2 到 3 分钟内完成基本任务,高级任务大约需要 3 分钟。
- Claude Sonnet 4: 通常需要 4 到 8 分钟来完成任务,尤其是在处理复杂的端到端工作流或使用额外模态时。这反映了
Claude模型相对于GPT-4.1较高的词元使用量。 - 性能与效率权衡:
GPT-4.1在基本任务上是更高效的选择,而高级任务可能需要更慢但更有效的Claude Sonnet 4。
6.2.3. API 成本 (API Usage Fees)
-
成本与词元/运行时长: 每个任务的成本与词元使用量和运行时长成正比。
-
GPT-4.1 的成本效益: 在基本任务中,
GPT-4.1配置的成本效益最高(每个任务低至0.23-0.29)。 -
Claude Sonnet 4 的高成本:
Claude Sonnet 4结合记忆的配置在高级任务上每个任务可能超过 $1.37。 -
性能与效率的权衡: 性能和效率之间存在明显的权衡。更复杂的智能体架构虽然可能在某些类别中带来更高的成功率,但会显著增加词元使用量、运行时长和成本。
以下是原文 Figure 2 的图像,展示了基本和高级任务集的平均任务成本与任务完成率之间的关系:
该图像是一个比较图表,展示了基础(左)和高级(右)任务集的平均任务成本与任务完成率之间的关系。不同颜色的点代表了不同的代理配置,基于平均成本与任务完成率的变化,能够观察到各个代理的表现差异。
Figure 2: Cost versus task completion rate for the basic (left) and advanced (right) task set.
从 Figure 2 可以清晰地看到,随着任务完成率的提高,尤其是从基本任务到高级任务,所需的平均成本也随之增加,这印证了性能与效率之间的权衡关系。不同颜色和形状的点代表了不同的代理配置,展现了它们在成本和完成率这两个维度上的差异。
6.3. 常见失败模式 (Common Failure Modes)
在所有任务类别中,存在一些重复出现的错误来源:
- 僵化搜索策略: 智能体经常在检索到单个优惠后停止搜索,未能聚合所有商店的信息。虽然记忆功能在一定程度上缓解了这个问题,但未能完全解决。
- 用户界面交互错误: 例如,智能体反复点击错误的控件或未能找到表单字段。这种情况在缺乏结构化输入的智能体中尤为突出。
- 任务过早终止: 智能体在未完全探索或聚合信息的情况下过早地完成任务。
- 解决方案提交错误: 在解决方案页面输入
URL时出现格式错误,例如返回不完整的URL,导致即使找到了正确的信息也无法被正确评估。记忆功能有助于减少此类错误,因为它允许智能体显式存储正确的解决方案URL。
7. 总结与思考
7.1. 结论总结
本文介绍了 WebMall,这是第一个用于评估网络智能体在电子商务比价购物任务中的多商店基准。该基准包含四个托管真实产品优惠的模拟商店,这些优惠来源于 Common Crawl。WebMall 提供了 91 个任务,涵盖 11 个类别,包括查找特定产品、比价、添加到购物车和结账等基本购物任务,以及引入模糊性、需要替代品和兼容性推理的高级任务。
通过对八种智能体配置的基线评估表明,在基本任务上,最佳配置实现了 87% 的 F1 分数和 75% 的完成率;在高级任务上,则实现了 63% 的 F1 分数和 53% 的完成率。评估结果强调了辅助功能树 (accessibility tree) 对于网络购物智能体可靠导航的重要性。短期记忆 (short-term memory) 的加入可以显著提高需要更长交互轨迹和跨四个商店搜索的任务的性能。在效率方面,GPT-4.1 在基本结构化任务上更快、更便宜、更准确,而 Claude Sonnet 4 在具有特定或模糊要求约束的定义不明确的任务上表现更好。
7.2. 局限性与未来工作
论文作者指出了当前工作的局限性以及未来的研究方向:
- 可靠性问题: 尽管
LLM驱动的网络智能体在基本在线购物任务上表现出有希望的性能,但其仍然存在较高的错误率,尚未达到广泛应用的可靠性水平。 - 高
API成本: 智能体的高API成本是其普及的另一个障碍。 - 未来工作方向:
- 更灵活的搜索和探索策略 (flexible search and exploration): 解决智能体过于僵化的搜索策略,使其能够更有效地应对产品变体、替代拼写和不全面的搜索行为。
- 更好的多模态推理 (better multi-modal reasoning): 提升智能体结合辅助功能树和屏幕截图信息进行推理的能力,以更好地理解视觉线索和页面布局。
- 更强大的记忆集成 (more robust memory integration): 进一步改进记忆机制,使其能够更可靠地存储和检索信息,避免忘记中间结果或解决方案提交错误。
7.3. 个人启发与批判
7.3.1. 个人启发
- 基准设计的深度和广度:
WebMall提供了一个非常全面和真实的基准,其多商店、异构产品和复杂任务的设计极大地推动了网络智能体研究的边界。特别是对真实世界数据(Common Crawl)的使用,使得任务更具挑战性和代表性。 - 多模态和记忆的关键性: 实验结果清晰地展示了辅助功能树作为核心观察模态的不可替代性,以及短期记忆对于复杂、长轨迹任务的重要性。这为未来智能体架构的设计提供了明确的方向。
- LLM 能力的细致分析: 论文不仅比较了不同
LLM的整体表现,还细致分析了它们在不同任务类型(结构化 vs. 模糊)上的优势和劣势,以及效率(成本、运行时长)方面的权衡,这对于实际应用和模型选择具有指导意义。 - 对真实世界应用的洞察: 尽管智能体取得了不错的F1分数,但其离“广泛应用”仍有距离,这表明从实验室到实际部署,稳定性和成本是不可忽视的挑战。这促使研究者在追求性能的同时,也要关注鲁棒性和效率。
7.3.2. 批判
-
任务自动化生成: 虽然产品优惠的填充使用了
GPT-4.1和Elasticsearch,但任务本身的设计(特别是高级任务)似乎仍包含大量手动成分。未来可以探索如何自动化或半自动化地生成更多样化、难度递增的任务,以减少基准构建的人力成本,并更好地覆盖潜在的复杂场景。 -
模拟环境的局限性: 尽管
WebMall旨在模拟真实世界,但毕竟是模拟环境。真实网络世界的动态变化(如网站布局更新、服务器响应速度、弹出广告、验证码等)可能比WebMall更复杂。智能体在WebMall上的成功,并不完全等同于在开放网络上的成功。未来的工作可以考虑引入更多真实世界的“干扰因素”。 -
错误分析的粒度: 论文对失败模式进行了很好的总结,如僵化搜索、UI 交互错误等。如果能在错误分析中,对各类错误进行更细致的分类和量化(例如,有多少比例的错误是由于 UI 元素未能识别,多少是由于推理错误),将更有助于指导未来的改进方向。
-
智能体泛化能力: 智能体在
WebMall的四个固定商店上进行评估。其在全新、未见过的电子商务网站上的泛化能力如何?这是WebMall作为一个封闭基准无法直接评估的方面。总的来说,
WebMall是一个极具价值的研究贡献,它填补了现有基准在多商店比价购物方面的空白,为网络智能体研究提供了一个更真实、更具挑战性的评估平台。
相似论文推荐
基于向量语义检索推荐的相关论文。