REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites
TL;DR 精炼摘要
REAL提出了一个高保真、确定性的真实网站模拟基准,涵盖11个领域内112个复杂多轮任务,结合程序化状态检测与基于LLM打分的信息检索评价,实现了安全、可复现的智能体能力测试。实验显示顶尖语言模型成功率仅41%,揭示自主网页导航挑战。
摘要
We introduce REAL, a benchmark and framework for multi-turn agent evaluations on deterministic simulations of real-world websites. REAL comprises high-fidelity, deterministic replicas of 11 widely-used websites across domains such as e-commerce, travel, communication, and professional networking. We also release a benchmark consisting of 112 practical tasks that mirror everyday complex user interactions requiring both accurate information retrieval and state-changing actions. All interactions occur within this fully controlled setting, eliminating safety risks and enabling robust, reproducible evaluation of agent capability and reliability. Our novel evaluation framework combines programmatic checks of website state for action-based tasks with rubric-guided LLM-based judgments for information retrieval. The framework supports both open-source and proprietary agent systems through a flexible evaluation harness that accommodates black-box commands within browser environments, allowing research labs to test agentic systems without modification. Our empirical results show that frontier language models achieve at most a 41% success rate on REAL, highlighting critical gaps in autonomous web navigation and task completion capabilities. Our framework supports easy integration of new tasks, reproducible evaluation, and scalable post-training data generation, marking a significant step forward in evaluating and advancing agent capabilities.
思维导图
论文精读
中文精读
论文基本信息 (Bibliographic Information)
- 标题 (Title): REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites (REAL:在真实网站的确定性模拟上对自主智能体进行基准测试)
- 作者 (Authors): Divyansh Garg, Shaun VanWeelden, Diego Caples, Andis Draguns, Nikil Ravi, Pranav Putta, Naman Garg, Tomas Abraham, Michael Lara, Federico Lopez, James Liu, Atharva Gundawar, Prannay Hebbar, Youngchul Joo, Jindong Gu, Charles London, Christian Schroeder de Witt, Sumeet Motwani。作者来自多个知名机构,包括斯坦福大学 (Stanford University)、牛津大学 (University of Oxford) 和谷歌 DeepMind (Google Research)。
- 发表期刊/会议 (Journal/Conference): 该论文作为预印本发布在 arXiv 上。根据文末参考文献的格式和内容(如提及 ICLR 2025),推测其可能投稿或已被接收于顶级的机器学习会议。
- 发表年份 (Publication Year): 2025 (根据 arXiv 提交信息和标题页推断)。
- 摘要 (Abstract): 论文介绍了
REAL,一个用于在真实世界网站的确定性模拟上进行多轮智能体评估的基准和框架。REAL包含11个常用网站的高保真、确定性副本,涵盖电子商务、旅行、通讯等领域,并发布了112个模拟日常复杂交互的实用任务。所有交互都在完全受控的环境中进行,消除了安全风险并实现了对智能体能力和可靠性的稳健、可复现评估。其评估框架结合了对基于动作的任务进行程序化网站状态检查,以及对信息检索任务使用基于评分准则的 LLM 进行判断。该框架通过灵活的评估工具支持开源和专有智能体系统,允许研究实验室无需修改即可测试其系统。实验结果显示,前沿语言模型在REAL上的成功率最高仅为41%,揭示了自主网页导航和任务完成能力方面的关键差距。该框架支持轻松集成新任务、可复现评估和可扩展的训练后数据生成,标志着在评估和推进智能体能力方面迈出了重要一步。 - 原文链接 (Source Link):
- 官方 arXiv 链接: https://arxiv.org/abs/2504.11543
- PDF 链接: https://arxiv.org/pdf/2504.11543v2.pdf
- 发布状态: 预印本 (Pre-print),尚未经过同行评审的正式发表。
整体概括 (Executive Summary)
研究背景与动机 (Background & Motivation - Why)
- 核心问题: 尽管大语言模型 (LLM) 在推理能力上取得了巨大进步,但基于这些模型构建的自主网页智能体 (autonomous web agents) 在执行普通人可以轻松完成的多步骤、复杂的真实网页交互时,仍然表现不佳且不可靠。
- 重要性与挑战 (Gap): 现有用于评估网页智能体的基准测试存在根本性缺陷,阻碍了研究进展和可靠网页智能体的实用化。这些缺陷包括:
- 真实网站的不可复现性: 真实网站的数据、内容和用户体验 (UX) 流程不断变化,使得可复现的评估几乎不可能。
- 不可配置性: 生产环境的网站无法被配置来测试智能体必须处理的关键边缘情况 (edge cases),如商品缺货、网络延迟变化或错误恢复场景。
- 安全与成本问题: 在真实网站上测试智能体可能导致意外的状态改变 (state-changes)(如真实支付),带来安全风险和经济成本。
- 过度简化: 许多现有基准为了可控性,采用了简化的任务、界面或受限的动作/观察空间 (action/observation spaces),无法反映真实世界的复杂性。
- 训练困难: 现有基准难以用作训练环境,因为很难定义清晰的奖励信号 (reward signals) 或观察动作后的状态变化。
- 创新切入点:
REAL旨在通过创建一个“两全其美”的解决方案来填补这一空白:它既有真实网站的高保真度 (high-fidelity) 和复杂性,又具备合成环境的确定性 (determinism) 和可控性 (controllability)。
核心贡献/主要发现 (Main Contribution/Findings - What)
- 主要贡献:
- 高保真确定性环境: 开发并公开托管了11个模仿真实流行网站(如亚马逊、爱彼迎、Gmail)的确定性、高保真、可配置的模拟网页环境。
- 灵活的评估框架: 提供了一个灵活的评估工具 (
harness),能够支持各种类型的智能体(开源、闭源、黑盒系统),无需智能体本身进行大量修改,降低了测试门槛。 - 真实的挑战任务集: 创建了一个包含112个真实世界任务的基准测试集,涵盖信息检索 (information retrieval) 和状态改变 (state-changing) 两大类复杂交互。
- 稳健的评估方法: 设计了一套结合程序化状态检查(用于动作任务)和基于评分准则的 LLM 评判(用于检索任务)的混合评估机制,并能为强化学习提供奖励信号。
- 开放与可及性: 公开托管所有网站环境和排行榜,使学术界和工业界的研究人员都能方便地进行评估。
- 关键发现:
- 目前的前沿 (frontier) 大语言模型在
REAL基准上的表现远未达到理想水平,即便是表现最好的模型(Claude 3.7-Sonnet-Thinking)成功率也仅为 41.07%。 - 这表明,在模拟真实世界复杂性的环境中,当前最先进的智能体在自主网页导航和任务完成方面仍存在巨大的提升空间,尤其是在失败识别 (failure recognition) 和复杂导航 (navigation dead ends) 方面。
- 目前的前沿 (frontier) 大语言模型在
预备知识与相关工作 (Prerequisite Knowledge & Related Work)
基础概念 (Foundational Concepts)
- 网页智能体 (Web Agent): 这是一种人工智能程序,通常由大语言模型 (LLM) 驱动,能够理解以自然语言描述的目标(例如,“帮我预订一张从纽约到洛杉矶的机票”),并自主地在网页浏览器中执行一系列操作(如点击、输入文本、选择选项)来完成这个目标。
- 基准测试 (Benchmark): 在人工智能领域,基准测试是一套标准化的任务、数据集和评估指标,用于衡量和比较不同模型或系统的性能。一个好的基准测试应该是公平、可复现且能反映真实世界挑战的。
- 确定性环境 (Deterministic Environment): 在这样的环境中,对于任意给定的状态,执行相同的动作总会产生完全相同的结果和下一个状态。这对于科学研究至关重要,因为它保证了实验的可复现性 (reproducibility),即不同研究者在不同时间运行相同的实验,可以得到相同的结果。真实网站由于内容、广告、A/B测试等因素,本质上是非确定性的 (non-deterministic)。
- 高保真 (High-Fidelity): 指模拟环境在外观(视觉)、功能和交互逻辑上与真实世界的对应物(这里指真实网站)高度相似。高保真度确保了在模拟环境中测试出的能力能够更好地泛化 (generalize)到真实场景。
- 部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP): 这是一个数学框架,用于描述智能体在不确定性下的决策过程。在网页导航任务中,智能体通常只能看到当前浏览器窗口的内容(一个观察 (observation)),而无法获取整个网站的完整后台状态(完整的状态 (state))。因此,这是一个典型的 POMDP 问题,智能体需要根据一系列不完整的观察历史来推断当前状态并做出最佳决策。
前人工作 (Previous Works)
论文将相关工作分为网页智能体基准和智能体本身的发展两大类。
- 早期网页基准:
MiniWoB和 : 奠定了在受控、可复现环境中评估网页智能体的基础工作流和指标,但环境和任务相对简单。WebShop: 专注于电子商务场景,通过模拟一个在线商店来评估智能体的购物能力,但仅限于单一网站类型。Mind2Web: 提供了超过2000个开放式任务的数据集,但主要用于离线评估,而非实时交互环境。
- 模拟环境基准:
WebArena: 与REAL的理念最为接近,也提供了一系列模拟网站。但论文指出WebArena存在一些问题:任务有时不切实际、环境需要用户自行部署(增加了使用门槛)、并且存在可被利用的“捷径” (gamed),这些捷径在真实网站中并不存在。VisualWebArena: 在WebArena基础上增加了对多模态智能体的评估。
- 其他专业化基准:
WorkArena/ : 专注于企业软件(如SaaS应用)中的工作任务。AgentBench: 一个更广泛的基准,包含网页浏览、编程、游戏等多种环境,旨在评估LLM的通用智能体能力。BrowserGym: 提供了一个统一的接口,用于在多个现有基准上评估智能体,REAL的实现也借鉴了其基础。
- 网页智能体技术: 论文提及了多个前沿的智能体系统,如利用蒙特卡洛树搜索的
AgentQ、模拟键鼠操作的OpenAI's Operator和Anthropic's Computer-Use,以及利用规划和探索策略的WebPilot和WebDreamer。这些工作表明,尽管技术在发展,但它们仍然受限于狭窄的任务和脆弱的错误恢复机制。
技术演进 (Technological Evolution)
该领域的技术演进可以看作是在“真实性”与“可控性”之间寻求平衡的过程。
- 早期 (简单合成): 从
MiniWoB等使用简单、纯净 HTML 构建的、完全可控但与现实脱节的环境开始。 - 中期 (真实但不可控): 转向在真实、动态的网站上进行评估,如
Mind2Web的部分任务。这提高了真实性,但牺牲了可复现性和安全性。 - 近期 (模拟但有局限): 出现了像
WebArena这样的模拟环境,试图兼顾二者。但这些模拟环境在保真度、任务实用性和易用性上仍有不足。 REAL的定位:REAL处在这一脉络的前沿,它通过采用现代前端技术栈(React, Next.js)重建网站,并公开托管,旨在提供一个更高保真、更真实、更易用、更可配置的确定性模拟环境,从而更准确地衡量智能体在真实世界中的潜力。
差异化分析 (Differentiation)
与 WebArena 等最相关的先前工作相比,REAL 的核心差异和创新点在于:
- 保真度与现代性: 使用
React和Next.js等现代Web技术栈构建,更好地模拟了当今复杂、动态的单页应用 (SPA)。 - 公开托管与易用性:
REAL将所有环境公开托管在互联网上,研究者无需任何本地部署 (如 Docker) 即可直接访问,极大地降低了使用门槛。同时提供了/clear等便捷接口重置环境。 - 高度可配置性: 提供了通过 URL 参数配置环境的强大功能(如模拟网络延迟、注入错误、改变网站逻辑),这对于测试智能体的鲁棒性 (robustness) 和错误处理能力至关重要,是之前静态模拟环境所不具备的。
- 灵活的智能体接口: 不强制规定统一的动作或观察空间,而是通过
Playwright和CDP提供不同层次的接口,允许各种架构的智能体(包括闭源黑盒系统)轻松接入。 - 任务的真实性与实用性: 任务设计紧密贴合日常用户行为(如订餐、订票、管理邮件),避免了
WebArena中被诟病的一些不切实际的任务。
方法论 (Methodology - Core Technology & Implementation Details)
REAL 的核心方法论可以分解为三个主要部分:环境构建 (Environments)、交互框架 (Framework) 和 评估机制 (Evaluation)。
方法原理 (Methodology Principles)
REAL 的核心思想是创建一个代理现实 (proxy reality)。它不是直接使用真实网站,也不是凭空创造一个玩具世界,而是“克隆”真实、流行的网站,并用固定的数据和逻辑替换其动态后端。这使得环境在交互上感觉真实,但在行为上完全可预测,从而解决了评估中的核心矛盾。
该图像是图示,展示了REAL基准框架架构。包括11个确定性高保真环境,代理接收观察并执行动作完成任务,任务完成后通过程序状态检查和LLM评分获得奖励。
上图展示了 REAL 的整体框架。智能体在 REAL 的模拟环境中交互,通过接收观察 () 并执行动作 () 来完成任务。任务完成后,系统通过程序化状态验证 (programmatic state verification) 和/或 基于评分准则的 LLM 评判 (rubric based LLM-judge) 来评估结果,并给出一个最终奖励 ()。
方法步骤与流程 (Steps & Procedures)
1. 网站环境构建 (Website Construction)
-
网站选择:
REAL团队精心挑选了11个覆盖不同领域的流行网站作为模仿对象,这些网站需要多样的交互能力,如表单填写、支付流程、地图交互、数据筛选等。-
这是论文中
Table 1的转录结果,详细列出了11个模拟网站及其原型和核心功能:Name Inspired By REAL URL Core Functionality Staynb Airbnb evals-staynb Search, filter, book, and review vacation rentals; manage bookings. Omnizon Amazon evals-omnizon Browse/search products, manage shopping cart, complete online purchase checkout. DashDish Doordash evals-dashdish Browse restaurants, customize menu selections, place and manage food delivery orders. GoCalendar GCal evals-gocalendar Manage calendar views, schedule events, create and modify appointments. GoMail Gmail evals-gomail Manage inbox (read, label, delete), compose/send emails, handle attachments. OpenDining OpenTable evals-opendining Search restaurant availability by criteria (time, party size), make/manage table reservations. NetworkIn LinkedIn evals-networkin Manage user profile, search for professional connections, view profiles and posts. UDriver Uber evals-udriver Plan trips (set locations), request rides based on service type, view route and fare estimates. FlyUnified United evals-fly-unified Search for flights (origin, destination, dates), select seats, book tickets, manage itineraries. TopWork UpWork evals-topwork Post jobs (client), search/apply for projects (freelancer), manage proposals and active contracts. Zilloft Zillow evals-zilloft Search/filter property listings, save favorites, contact managers, view property details and photos.
-
-
技术栈: 所有网站均使用
React和Next.js框架构建,保证了其与现代网页的高度相似性。它们被公开部署在Vercel上,无需认证即可访问。 -
确定性实现: 通过以下方式确保环境的确定性:
- 静态数据: 所有产品价格、库存、消息等都使用固定的合成数据。
- 预定义时间: 日期选择器、时区等时间相关元素被锁定。
- 无随机性: 移除了
CAPTCHAs或机器人检测等反自动化机制。
-
状态管理: 网站状态(如购物车内容、登录信息)通过浏览器的
localStorage进行持久化。这模拟了真实的用户会话行为,并使得追踪状态变化变得容易。
该图像是论文中图2所示的示意图,展示了REAL基准中包含的8个高保真、确定性的网站环境截图。这些环境包含多页复杂工作流和持久化浏览器状态,便于详细跟踪和检查代理行为导致的状态变化。
2. 交互框架 (Interaction Framework)
REAL 将智能体与环境的交互建模为一个 POMDP。框架的设计重点是灵活性,以适应不同类型的智能体。
- 观察空间 (Observation Space): 智能体可以配置其“看”到的信息。
- 高层接口 (
Playwright): 可获取截图、完整的DOM树、或为视障人士设计的可访问性树 (Accessibility Tree)。 - 低层接口 (
Chrome DevTools Protocol, CDP): 可直接访问浏览器会话的全部状态,提供最大程度的灵活性。
- 高层接口 (
- 动作空间 (Action Space): 智能体可以执行的动作也取决于接口。
- 高层接口 (
Playwright): 模拟用户的标准操作,如click(点击),fill(输入文本),scroll(滚动) 等。 - 低层接口 (
CDP): 允许执行更底层的命令,如直接修改DOM、执行任意JavaScript代码、拦截网络请求等。
- 高层接口 (
- 评估流程 (Evaluation Flow):
- 初始化: 评估工具导航到特定任务的
/configURL,初始化环境。 - 执行: 智能体开始交互,接收观察并执行动作。
- 提交: 当智能体认为任务完成时,它必须导航到
/submitURL。对于需要返回文本的任务,文本内容编码在 URL 的查询字符串中。 - 评估:
/submit导航会触发评估。系统捕获最终的localStorage状态和智能体返回的文本,并与预定义的答案进行比较。
- 初始化: 评估工具导航到特定任务的
- 便捷端点 (Endpoints):
/config: 带参数的 URL,用于初始化和配置每次运行的环境。/submit: 智能体导航到此 URL 以结束任务并提交结果。/finish: 随时导航到此 URL 可以查看从任务开始到当前时刻localStorage的状态变化,便于调试。/clear: 导航到此 URL 可以清空localStorage,重置网站状态。
3. 评估机制 (Evaluation Mechanism)
REAL 使用二元结果奖励 (outcome reward),即 ,来判断任务是否最终成功。
- 基于动作的任务 (Action-based Tasks):
- 评估方式: 通过程序化验证 (programmatic verification)。系统比较任务开始前和结束后
localStorage的状态差异。 - 成功条件: 最终状态必须精确匹配任务预设的所有断言 (assertions)(例如,购物车里必须包含物品A和物品B,且数量正确)。
- 评估方式: 通过程序化验证 (programmatic verification)。系统比较任务开始前和结束后
- 信息检索任务 (Information Retrieval Tasks):
- 评估方式: 使用一个LLM评判员 (LLM-judge)。
- 成功条件: LLM评判员会根据一个为该任务定制的、结构化的评分准则 (rubric) 来判断智能体提交的文本答案是否正确和完整。
- 组合任务 (Combined Tasks):
- 成功条件: 必须同时满足动作和检索两部分的要求(即 且 )。
- 不可能完成的任务: 基准中还包含一些故意设计为无法完成的任务(如预订一个不存在的航班)。这用于评估智能体识别失败条件并正确报告失败的能力,而不是幻觉 (hallucinating) 成功。
数学公式与关键细节 (Mathematical Formulas & Key Details)
虽然 REAL 的核心是框架和环境,其评估机制可以形式化地描述。设任务 的目标为 。
-
对于基于动作的任务,评估函数 检查最终状态 是否满足预定义的条件 。
- : 基于动作的任务奖励。
- : 分别是初始和最终的环境状态。
- : 状态 对应的浏览器本地存储内容。
- : 计算状态 和 之间的差异。
- : 任务 的一组预定义状态断言。
- : 表示状态差异满足所有断言。
-
对于信息检索任务,评估函数 评估智能体生成的答案
response是否符合评分准则 。- : 信息检索任务的奖励。
response: 智能体提交的文本答案。- : 任务 的评分准则。
实验设置 (Experimental Setup)
数据集 (Datasets)
REAL 的“数据集”实际上是其包含的 112个评估任务。这些任务分布在11个模拟网站上。
- 来源与特点: 任务由
REAL的作者设计,旨在模仿真实用户的日常网络活动。它们是多轮的 (multi-turn),需要多个步骤才能完成,并且具有不同的难度等级(简单、中等、困难)。 - 任务类型:
- 信息检索: 如在
GoCalendar上查找某个月份的事件总数,或在Omnizon上找到特定商品的价格。 - 状态改变: 如在
FlyUnified上预订一张带特定座位的机票,或在DashDish上点一份定制的餐食。 - 组合任务: 如在
Omnizon上找到商品,加入购物车,完成购买,然后报告订单总价。 - 不可能任务: 如尝试使用无效信用卡信息在
Omnizon下单。
- 信息检索: 如在
- 样本示例: 论文描述了任务的复杂性,例如 "从在航线图上选择座位到安排活动和管理支付信息" (from selecting seats on airline maps to scheduling events and managing payment information)。一个具体的任务指令(goal)会以自然语言形式给出,例如:“在
Omnizon网站上,找到价格低于50美元的‘无线耳机’,将评分最高的两款加入购物车,然后使用提供的信用卡信息完成结账。” - 选择理由: 这套任务集覆盖了广泛的日常网络交互,能全面评估智能体在不同场景下的规划、执行和推理能力。
评估指标 (Evaluation Metrics)
实验的核心评估指标是端到端任务成功率 (End-to-end Task Success Rate)。
- 概念定义 (Conceptual Definition): 该指标衡量的是智能体在没有任何人工干预的情况下,从头到尾完全成功完成的任务占总任务数量的百分比。一个任务只有在所有子目标都达成时才算成功(例如,对于组合任务,既要正确执行动作,又要正确回答问题)。这是一个非常严格的指标,能有效反映智能体的实际可靠性。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 评估任务的总数(在这里是 112)。
- : 第 个任务的最终结果奖励,它是一个二元值。如果任务成功,则 ;如果任务失败,则 。
对比基线 (Baselines)
论文评估了一系列当前最先进的前沿模型 (frontier models),包括闭源和开源模型。它们都使用 REAL 框架提供的默认智能体 (default agent) 进行封装,以确保比较的公平性,即主要测试模型本身的“大脑”能力,而非特定智能体架构的优劣。
- 闭源模型:
Claude 3.7-Sonnet-ThinkingGemini 2.5 Pro ExperimentalOpenAI-o3,o3-mini,GPT-4oOpenAI's Computer-Using Agent (CUA)
- 开源模型:
-
Llama-4-Maverick -
Llama 3.3 70B -
DeepSeek V3 -
Llama-3.1-8B,Qwen-2.5-vl-32B,Gemma-3-27B(作为小型模型的代表)这些基线的选择具有代表性,覆盖了当前大模型领域的顶尖选手和不同规模的流行模型,能够全面地描绘出当前技术水平的图景。
-
实验结果与分析 (Results & Analysis)
核心结果分析 (Core Results Analysis)
该图像是图表,展示了多个前沿语言模型在REAL基准测试中112项任务上的准确率表现。图中显示Claude 3.7 Sonnet-Thinking模型达到了最高的41.0%的任务成功率,显著优于其他模型。
上图展示了各模型在 REAL 基准上的总体成功率。
-
整体性能低下: 最显著的发现是,所有模型的表现都远未达到完美。表现最好的
Claude 3.7-Sonnet-Thinking成功率仅为 41.07%,这意味着近60%的任务都失败了。这凸显了在接近真实世界的复杂环境中,自主网页智能体面临的巨大挑战。 -
闭源模型领先: 顶尖的闭源模型(
Claude-3.7,Gemini-2.5, )显著优于目前的开源模型。例如,Claude-3.7-Sonnet-Thinking(41.07%) 的性能远超表现最好的开源模型之一DeepSeek V3(19.64%)。 -
模型规模与推理能力的重要性:
- 具有专门推理训练的模型(如 系列)通常表现更好。
- 模型规模并非唯一决定因素,但大型模型普遍优于小型模型(如
Llama-3.1-8B成功率仅1.79%)。
-
特定智能体的局限性:
OpenAI's CUA模型表现不佳 (7.14%),手动分析发现它容易被无关细节分散注意力,这表明即使是专门为计算机使用设计的智能体,在面对复杂任务时也可能存在策略上的缺陷。
该图像是一个雷达图,展示了多款前沿模型在REAL环境中11个网站的平均性能得分。图中分为闭源模型和开源模型两部分,反映TopWork和FlyUnified环境普遍最具挑战性。
上图按网站细分了各模型的性能。
- 任务难度差异: 从雷达图可以看出,不同网站环境的挑战性不同。
TopWork(自由职业平台) 和FlyUnified(航空预订) 对所有模型来说都是最困难的,成功率普遍偏低。这可能是因为这些网站的工作流程更长、约束条件更复杂。
消融实验/参数分析 (Ablation Studies / Parameter Analysis)
论文的核心在于提出一个基准框架,因此它没有对自己提出的“方法”(即 REAL 本身)进行传统意义上的消融实验。但是,论文对智能体的失败模式 (failure modes) 进行了定性分析,这可以看作是一种对智能体行为的“消融”分析,揭示了其能力短板。
失败模式定性分析 (Qualitative Failure Analysis)
通过手动检查失败的交互轨迹,作者总结了两种常见的失败模式:
-
失败识别和状态核实不足 (Inadequate Failure Recognition and State Verification):
- 现象: 智能体执行了一个动作后,倾向于相信自己已经成功,而没有根据更新后的观察(如网页内容)来验证实际结果。
- 例子: 在
Omnizon(电商网站) 上,任务要求将两件商品加入购物车。智能体成功加入了第一件,但在尝试加入第二件时失败了(可能点错了按钮)。尽管此时购物车中只有一件商品,智能体却错误地认为任务已完成,并继续结账,最终导致任务失败。 - 根源: 这表明智能体缺乏持续将当前状态与最终目标进行比对和验证的能力。
-
导航死胡同与缺乏恢复能力 (Navigation Dead Ends and Lack of Recovery):
- 现象: 当遇到非标准的导航流程或意外的页面状态时,智能体常常会“迷路”,并且不知道如何返回主流程。
- 例子: 在
Udriver(打车软件) 中,智能体可能正确地发起了订车请求,但随后误点了一个“预约未来行程”的选项,进入了一个子菜单。在这个子菜单中,智能体无法识别出“返回”或“取消”按钮,也找不到回到主流程的正确路径,最终陷入在无关元素上反复点击的循环中。 - 根源: 这表明智能体对 UI 元素的语义理解不足,缺乏有效的探索或回溯 (backtracking) 策略。
总结与思考 (Conclusion & Personal Thoughts)
结论总结 (Conclusion Summary)
- 主要贡献:
REAL成功地构建并推出了一个用于评估自主网页智能体的全新基准和框架。其核心贡献是提供了一套 (1) 高保真、(2) 确定性、(3) 可配置、(4) 公开可及 的模拟网站环境,以及 (5) 112个真实复杂的评估任务。这有效地解决了现有基准在真实性、可复现性和易用性上的诸多痛点。 - 主要发现: 实验结果清晰地表明,即便是当今最前沿的大语言模型,在面对模拟真实世界的复杂网页任务时,其可靠性和自主完成能力仍然非常有限(最高成功率仅41%)。这揭示了从现有模型能力到实现可靠的通用网页智能体之间仍存在巨大的鸿沟。
- 意义:
REAL为社区提供了一个宝贵的工具,不仅可以用于更准确地评估 (evaluating) 现有智能体的能力,还可以作为生成高质量训练数据、进行强化学习后训练 (Reinforcement Learning post-training) 的理想环境 (environment),从而推动下一代更强大、更可靠的网页智能体的研发。
局限性与未来工作 (Limitations & Future Work)
- 作者指出的局限性:
- 环境数量有限: 目前仅包含11个网站环境,虽然多样,但仍无法覆盖所有类型的网页应用。
- 仅限于网页交互: 评估范围局限于网页浏览器,未涉及桌面应用或其他类型的智能体任务。
- 奖励信号简单: 目前主要提供任务最终成功与否的稀疏奖励 (sparse reward),对于需要密集指导信号的强化学习算法来说不够理想。
- 未来工作:
- 扩展任务集: 随着智能体能力的提升,将设计更具挑战性、需要更长规划范围 (long horizon reasoning) 或跨应用协作的任务。
- 强化学习支持: 计划提供专门的库和训练任务集,以更好地支持强化学习后训练,可能包括定义步进奖励 (step-wise reward)。
- 集成更复杂的智能体架构: 改进框架以更好地支持规划 (planning)、多智能体 (multi-agent) 或树搜索 (tree-search) 等高级智能体架构。
个人启发与批判 (Personal Insights & Critique)
-
个人启发:
- “高保真模拟”是务实的研究范式:
REAL的方法非常巧妙。它没有陷入“要么完全真实,要么完全合成”的二元对立,而是通过“克隆”真实世界来创造一个可控的实验室。这种“代理现实”的思路对于许多难以在真实世界中进行实验的 AI 领域(如自动驾驶、机器人交互)都具有重要的借鉴意义。 - “可用性”是基准成功的关键:
WebArena等前辈虽然理念先进,但高昂的部署成本阻碍了其广泛应用。REAL将所有环境公开托管,极大地降低了研究门槛,这对于加速整个社区的研究迭代至关重要。一个工具的价值不仅在于其技术深度,还在于其可及性 (accessibility)。 - “失败分析”比“成功率”更重要: 仅仅报告一个41%的成功率数字,其信息量是有限的。而论文中对失败案例的定性分析,揭示了当前智能体在状态验证和导航恢复上的核心短板,这为未来的研究指明了具体方向。
- “高保真模拟”是务实的研究范式:
-
批判性思考:
- 确定性环境的“双刃剑”: 确定性是可复现评估的基石,但它也可能导致智能体对环境的特定模式过拟合 (overfit)。真实世界的网站充满了非确定性(如广告弹窗、UI的A/B测试、服务器延迟),
REAL的环境虽然可以配置部分干扰(如延迟),但仍比真实世界“干净”太多。在REAL上表现优异的智能体,能否直接迁移到混乱的真实互联网上,仍是一个问号。 - 评估状态的局限性:
REAL严重依赖localStorage来进行程序化状态检查。虽然这是一种巧妙且易于实现的方法,但它可能无法捕获所有类型的状态变化。例如,某些状态可能只存在于服务器端,并通过API调用反映在UI上,而不会被写入localStorage。这可能导致评估出现假阴性 (false negatives) 或假阳性 (false positives)。 - LLM评判员的可靠性: 使用 LLM 来评判信息检索任务的正确性,虽然可扩展性强,但引入了新的不确定性。LLM 本身可能存在偏见、事实性错误或对评分准则的误解,从而影响评估的准确性。评判员的可靠性本身也需要被严格评估。
- 基线智能体的简单性: 实验中所有模型都使用了统一的“默认智能体”。这个智能体的设计(如prompt、重试逻辑等)对最终性能有巨大影响。41%的成功率究竟是模型能力的上限,还是这个默认智能体拖了后腿?如果换用一个更复杂的、带有高级搜索或规划模块的智能体(如
AgentQ),结果可能会大不相同。这使得我们难以完全将模型能力 (model capability) 与智能体框架 (agent scaffolding) 的影响分离开。
- 确定性环境的“双刃剑”: 确定性是可复现评估的基石,但它也可能导致智能体对环境的特定模式过拟合 (overfit)。真实世界的网站充满了非确定性(如广告弹窗、UI的A/B测试、服务器延迟),
相似论文推荐
基于向量语义检索推荐的相关论文。