AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM
  Agents

Jessie Wang

论文状态：已完成

AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents

发表：2025/04/14

基于大语言模型的用户行为模拟 (1)自动化网页A/B测试系统 (1)交互式大语言模型代理 (1)多步骤用户交互模拟 (1)大语言模型在产品实验中的应用 (1)

原文链接 PDF 下载

价格：0.10

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出AgentA/B系统，利用交互式大语言模型代理自动模拟用户多步骤网页操作，实现规模化A/B测试。通过与真实用户行为对比，验证了其在电商场景中模拟用户行为的有效性，显著提升测试自动化与效率。

摘要

A/B testing experiment is a widely adopted method for evaluating UI/UX design decisions in modern web applications. Yet, traditional A/B testing remains constrained by its dependence on the large-scale and live traffic of human participants, and the long time of waiting for the testing result. Through formative interviews with six experienced industry practitioners, we identified critical bottlenecks in current A/B testing workflows. In response, we present AgentA/B, a novel system that leverages Large Language Model-based autonomous agents (LLM Agents) to automatically simulate user interaction behaviors with real webpages. AgentA/B enables scalable deployment of LLM agents with diverse personas, each capable of navigating the dynamic webpage and interactively executing multi-step interactions like search, clicking, filtering, and purchasing. In a demonstrative controlled experiment, we employ AgentA/B to simulate a between-subject A/B testing with 1,000 LLM agents Amazon.com, and compare agent behaviors with real human shopping behaviors at a scale. Our findings suggest AgentA/B can emulate human-like behavior patterns.

思维导图

论文精读

中文精读约 30 分钟读完 · 15,782 字

1. 论文基本信息

1.1. 标题

AGENT A/B: Automated and Scalable Web A/B Testing with Interactive LLM Agents

1.2. 作者

Dakuo Wang (Northeastern University Boston, Massachusetts, USA)
Ting-Yao Hsu (Pennsylvania State University State College, Pennsylvania, USA)
Yuxuan Lu (Northeastern University Boston, Massachusetts, USA)
Hansu Gu (Amazon, USA)
Limeng Cui (Amazon, USA)
Yaochen Xie (Amazon, USA)
William Headden (Amazon, USA)
Bingsheng Yao (Northeastern University Boston, Massachusetts, USA)
Akash Veeragouni (Amazon, USA)
Jiapeng Liu (Amazon, USA)
Sreyashi Nag (Amazon, USA)
Jessie Wang (Amazon, USA)

1.3. 发表期刊/会议

论文的 ACM 引用格式中提到了 In Proceedings of Make sure to enter the correct conference title from your rights confirmation emai (Conference acronym 'XX). ACM, New York, NY, USA, 14 pages. https://doi. org/XXXXXXX.XXXXXXX。这表明该论文已被某个 ACM 会议接受，但具体会议名称在提供的文本中被占位符 Make sure to enter the correct conference title from your rights confirmation emai (Conference acronym 'XX) 替代，因此无法确定具体会议。然而，从其研究内容和 ACM 出版社来看，它属于计算机人机交互 (HCI) 或相关人工智能与用户体验领域的顶级会议。

1.4. 发表年份

2018 (根据 ACM 引用格式)；然而，论文提供的发布时间为 2025-04-13T21:10:56.000Z，且 arXiv 链接也指向 2504.09723，这表明论文可能是一个预印本或最新的工作，ACM 引用格式中的年份可能是一个模板占位符，实际应为 2025 年。考虑到内容提及 Claude 3.5 Sonnet 等最新模型，实际发表年份应为 2025 年。

1.5. 摘要

A/B 测试 (A/B testing) 是评估现代网页应用用户界面/用户体验 (UI/UX) 设计决策的广泛方法。然而，传统的 A/B 测试受限于对大量真实用户流量的依赖以及漫长的等待结果时间。通过对六位经验丰富的行业从业者的访谈，本文识别了当前 A/B 测试工作流中的关键瓶颈。为应对这些挑战，本文提出了 AgentA/B，一个新颖的系统，它利用基于大语言模型 (LLM) 的自主智能体 (LLM Agents) 自动模拟真实网页上的用户交互行为。AgentA/B 能够可扩展地部署具有不同角色 (personas) 的 LLM 智能体 (LLM Agents)，每个智能体都能够导航动态网页并交互式地执行多步骤操作，例如搜索、点击、筛选和购买。在一个演示性的受控实验中，本文使用 AgentA/B 在 Amazon.com 上模拟了一个包含 1,000 个 LLM 智能体 (LLM Agents) 的组间 A/B 测试，并大规模比较了智能体行为与真实人类购物行为。研究结果表明，AgentA/B 能够模拟类人行为模式。

1.6. 原文链接

https://arxiv.org/abs/2504.09723 (预印本)

1.7. PDF 链接

https://arxiv.org/pdf/2504.09723v3.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题与挑战

A/B 测试 (A/B testing) 是评估网页应用中用户界面/用户体验 (UI/UX) 设计决策的基石方法。它通过将用户随机分配到对照组和实验组，比较不同设计方案的表现，从而提供数据驱动的证据以优化用户体验。然而，传统的 A/B 测试在实践中存在显著的局限性：

对真实用户流量的依赖 (Dependence on live user traffic): 需要大规模的真实用户参与，这对于小众产品或初创团队来说是稀缺资源。
漫长的周转时间 (Long turnaround times): 实验周期可能长达数周，才能获得统计上可靠的结果，这减缓了设计迭代的速度。
高昂的运营成本 (High operational cost): 涉及大量的工程和组织开销，包括实验设置、数据收集、分析和部署。
缺乏轻量级试点方法 (Lack of lightweight piloting methods): 在投入大量资源进行正式 A/B 测试之前，缺乏有效的机制来快速验证设计假设。
流量竞争与优先级排序 (Traffic contention and prioritization): 当多个团队同时希望测试影响相似 UI 组件的功能时，需要对用户流量进行复杂的管理和优先级排序。
高失败率 (High failure rates): 许多 A/B 测试未能达到预设的成功标准，导致前期投入的开发成本浪费。

2.1.2. 研究空白与本文切入点

现有的大语言模型 (LLM) 智能体 (LLM Agents) 在角色扮演、决策生成和多步骤交互方面展现出潜力。然而，大多数现有工作主要集中在单会话任务或受限的沙盒环境中，这限制了它们在评估真实世界网站中动态和多样行为的适用性。目前缺少一个可扩展的框架，能够将大量具有特定角色的智能体部署到实时网络环境中，使设计师能够在投入真实用户流量之前测试界面变体并获得早期行为信号。

本文正是为了填补这一空白，提出 AgentA/B 系统，旨在利用 LLM 智能体 (LLM Agents) 模拟真实用户行为，从而在真实网页环境中进行自动化、可扩展的 A/B 测试，提供早期、快速、低风险的设计洞察。

2.2. 核心贡献/主要发现

本文的主要贡献体现在以下三个方面：

提出了 AgentA/B 系统 (AgentA/B System): 设计并开发了一个端到端系统 AgentA/B，该系统能够部署基于 LLM 智能体 (LLM Agents) 的大规模、角色驱动的 A/B 测试，并在真实网页上进行模拟。该系统旨在支持早期原型设计、预部署验证和假设驱动的用户体验 (UX) 评估。
提供了实证证据 (Empirical Evidence): 通过在 Amazon.com 上进行的案例研究，展示了 LLM 智能体 (LLM Agents) 模拟结果与大规模人类 A/B 测试结果之间的方向性一致性。这增加了系统能够揭示有意义行为信号的信心。具体而言，实验发现：
- 在减少筛选选项的设计变体中，LLM 智能体 (LLM Agents) 的购买完成率更高。
- 尽管智能体行为比人类用户更具目标导向性，但其决策过程和一般交互模式能合理地近似人类行为。
- 子群体分析表明，男性和老年用户可能从简化的界面中受益更多，而年轻用户可能更倾向于更多的筛选灵活性。
未来的设计方向 (Future Design Direction): 阐述了基于智能体的模拟如何将 A/B 测试扩展到更早期的原型设计、更具包容性的试点测试以及自动化设计探索，从而加速设计迭代过程。

3. 预备知识与相关工作

3.1. 基础概念

A/B 测试 (A/B testing): 也称为在线受控实验 (online controlled experimentation)，是一种比较两种或多种版本网页、应用或其他数字资产的方法，以确定哪个版本在特定目标指标（如点击率、转化率）上表现更好。通过将用户随机分配到不同版本，并收集数据进行统计分析，A/B 测试支持数据驱动的设计决策。
用户界面/用户体验 (UI/UX Design):
- 用户界面 (User Interface, UI): 指用户与软件或硬件系统进行交互的视觉元素、布局和控件。它关注产品的外观和感觉。
- 用户体验 (User Experience, UX): 指用户在使用产品、系统或服务时的感受和反应。它关注产品如何满足用户的需求，以及使用过程是否愉快、高效。
大语言模型 (Large Language Model, LLM): 是一种基于深度学习的自然语言处理 (NLP) 模型，拥有数亿到数万亿的参数。它们通过在海量文本数据上进行训练，学习语言的模式、语法、语义和上下文，从而能够生成、理解和处理人类语言。常见的 LLM 包括 GPT 系列、Claude 等。
LLM 智能体 (LLM Agents): 指利用 LLM 作为其核心决策和推理引擎，使其能够在环境中自主感知、规划、行动并学习的软件实体。这些智能体通常具备理解自然语言指令、执行复杂任务、维护状态和记忆、以及与环境进行多步交互的能力。在本文中，LLM 智能体 (LLM Agents) 被用于模拟用户在网页上的行为。
角色 (Persona): 在用户体验设计中，角色 (Persona) 是对典型用户的虚构但详细的描述。它基于对目标用户群体的研究，包含人口统计学信息、行为模式、动机、目标和痛点等。在 AgentA/B 中，LLM 智能体 (LLM Agents) 被赋予不同的 角色 (Persona)，以模拟多样化的用户行为。
文档对象模型 (Document Object Model, DOM): 是 HTML、XHTML 和 XML 文档的编程接口。它将网页视为一个树状结构的对象集合，允许程序和脚本动态地访问和更新文档的内容、结构和样式。DOM 操作 (DOM operations) 指通过脚本对网页元素的增删改查。

3.2. 前人工作

3.2.1. 传统 A/B 测试的局限性

早期研究： 许多人机交互 (HCI) 社区的研究已经指出了 A/B 测试的结构性局限。
慢迭代与高成本： Fabijan 等人 [9] 的研究发现，A/B 测试引入了缓慢的迭代周期、昂贵的功能开发和高失败率，尤其是在假设制定薄弱时。
缺乏早期洞察： 另一项调查 [10] 强调在实验过程中缺乏可操作的早期洞察。
本文的定位： 这些工作共同强调了 A/B 测试虽然提供了严谨性和潜在益处，但在灵活性、速度和洞察生成方面存在不足。

3.2.2. 自动化实验和界面评估工具

加速界面实验： HCI 社区对加速界面实验的系统表现出浓厚兴趣，例如 Apparition [31] 和 d.tools [17] 允许设计师快速原型化物理交互。Fuse [30] 实现了从演示中快速创建上下文感知 UI 行为。
离线 A/B 测试： Gilotte 等人 [13] 提出了利用日志用户交互数据估计未观测实验变体的反事实结果的离线 A/B 测试技术，这减少了实时部署的需求，但高度依赖于丰富的用户日志。
自动化变体生成： Tamburrelli 和 Margara [45] 将 A/B 测试重新定义为设计空间中的搜索问题，建议使用进化算法自动化变体生成。
本文的差异： 这些系统旨在减少运行实验的人力投入，但仍依赖于历史数据或用户部署。本文则探索以智能体驱动的模拟作为补充机制，在没有实时用户数据的情况下自动评估设计。

3.2.3. 用户行为模拟：从认知模型到 LLM 智能体

认知模型： HCI 领域长期以来通过 GOMS 和 ACT-R 等认知模型模拟用户行为 [4, 15, 23, 39]。
逆强化学习 (Inverse Reinforcement Learning, IRL)： IRL 被用于从观测行为中推断用户意图。Ziebart 等人 [54] 引入了概率 IRL 方法来建模复杂的用户策略。然而，这些模型劳动密集型，需要领域专业知识，且难以推广到开放式任务。
数据驱动模型： 近期工作使用数据驱动模型模拟在线环境中的用户行为。Paranjape 等人 [41] 使用服务器日志重建导航路径。Oppenlaender 等人 [40] 引入 CrowdUI，使用 IRL 从真实用户轨迹中推断任务策略。
LLM 模拟人类行为： 随着 LLM 的兴起，研究人员开始探索 LLM 如何模拟复杂领域的人类行为 [12, 46, 49]。Park 等人 [42] 构建了一个模拟日常社交行为的生成式智能体社会。Horton [20] 评估了 LLM 是否能复制真实行为实验结果。Lu 等人 [33] 证明了对真实世界行为数据进行 LLM 微调 (fine-tuning) 可以显著增强生成准确用户行动的能力。
本文的扩展： 本文将这一方向扩展到视觉丰富、动态的实时网络界面领域，专注于购物行为和自动化 A/B 测试实验。

3.2.4. 网络环境中的 LLM 智能体

沙盒环境中的智能体： 越来越多的工作研究了自主智能体如何在网络环境中操作。WebShop [51] 引入了一个带有模板网页的购物基准，用于研究目标导向导航。WebArena [53] 将其扩展到多领域服务任务。VisualWebArena [24] 结合了视觉语言模型来解析界面设计中的视觉线索。WebVoyager [18] 和 WILBUR [36] 强调了智能体在开放式网络内容中交互时的任务泛化和自适应记忆。
现有工作的局限性： 所有这些系统都在模拟环境中运行，这虽然有利于可复现性，但也抽象掉了真实网页的许多复杂性，如动态加载、布局噪声、意外模态窗口和不一致的结构。此外，现有工作的重点主要是任务完成，而不是评估或比较不同设计配置下的用户体验。
本文的创新： AgentA/B 旨在填补这一空白，通过新的系统架构和评估框架来支持在“野外”环境中的交互，并实现根据智能体效率、鲁棒性和以用户为中心的结果对设计决策进行比较分析。

3.3. 技术演进

用户行为模拟的技术演进从早期的基于规则和启发式的认知模型（如 GOMS 和 ACT-R），发展到数据驱动的统计模型和逆强化学习，旨在从人类行为数据中学习。随着 LLM 技术的突破，行为模拟进入了新阶段，LLM 智能体 (LLM Agents) 能够以更强的泛化能力和语义理解来生成复杂、多步骤的类人行为。

本文的工作处在 LLM 智能体 (LLM Agents) 应用于真实网络环境和 UX 评估这一技术脉络的前沿。它从任务完成转向用户体验评估，从沙盒环境转向实时网页，代表了行为模拟在实际应用中的一次重要飞跃。

3.4. 差异化分析

AgentA/B 与相关工作的核心区别和创新点在于：

实时网页交互 (Live Web Interaction): 区别于大多数在模拟或沙盒环境中运行的 LLM 智能体 (LLM Agents) 系统（如 WebShop, WebArena, VisualWebArena），AgentA/B 能够在实时、动态的真实网页环境中进行操作，这使其能够应对真实世界中更复杂的挑战（如动态内容加载、布局噪声、意外模态窗口、不一致结构）。
用户体验评估 (UX Evaluation): 现有 LLM 智能体 (LLM Agents) 的工作主要侧重于任务完成率和效率。而 AgentA/B 的核心目标是评估和比较不同设计配置下的用户体验，并为 A/B 测试提供早期、可扩展的洞察。
大规模、角色驱动的模拟 (Scalable, Persona-Driven Simulation): AgentA/B 能够生成并部署大量具有多样化 角色 (Persona) 和意图的 LLM 智能体 (LLM Agents)，以模拟广泛的用户行为模式，并支持大规模的 A/B 测试。这解决了传统 A/B 测试中用户流量稀缺和等待时间长的问题。
端到端系统 (End-to-End System): AgentA/B 提供了一个从智能体生成、测试准备、自动交互到测试后分析的完整流水线，旨在无缝集成到 UX 设计和 A/B 测试工作流中。
与人类行为的方向性对齐 (Directional Alignment with Human Behavior): 论文通过与大规模人类 A/B 测试的对比，验证了 LLM 智能体 (LLM Agents) 模拟结果与人类真实行为的方向性一致，这为智能体模拟在实际 UX 评估中的应用提供了强有力的支持。

4. 方法论

4.1. 方法原理

AgentA/B 的核心原理是利用 LLM 智能体 (LLM Agents) 模拟多样化的用户行为，在真实的网页环境中执行 A/B 测试。它通过一个端到端的流程，将用户体验研究人员或产品经理定义的测试配置（如智能体规格、初始意图、待测设计变体）转化为大规模的智能体模拟。每个 LLM 智能体 (LLM Agents) 都被赋予特定的 角色 (Persona) 和购物意图，并在一个循环中感知网页状态、推理下一步行动，并将行动转化为真实的浏览器操作。通过比较不同设计变体下智能体的行为指标和最终结果，AgentA/B 旨在提供快速、低成本、可扩展的设计反馈，作为传统 A/B 测试的补充。

4.2. 核心方法详解

AgentA/B 被设计为一个端到端的模拟系统，用于在实时浏览器环境中进行基于 LLM 智能体 (LLM Agents) 的 A/B 测试。整个系统由五个相互协调的组件构成，涵盖智能体规格定义、测试配置、实时智能体-网页交互、行为监控和自动化测试后分析。其核心是 LLM 智能体 (LLM Agents) 子系统，它迭代地将动态网页解析为结构化表示，根据其 角色 (Persona) 和意图推理下一步行动，并将该行动落实到实时站点的具体 DOM 操作 (DOM operations) 中。

以下是 AgentA/B 系统的详细流程：

4.2.1. 系统总览与流水线

AgentA/B 的用户（如 UX 研究人员或产品经理）首先需要确定 A/B 测试设计的细节，并提供两个待测试的网页环境变体。系统接收用户输入后，通过四个 LLM 驱动的模块进行操作：

LLM 智能体生成模块 (LLM Agent Generation Module):
- 目的: 根据用户定义的规格生成具有多样化 角色 (Persona) 的 LLM 智能体 (LLM Agents)。
- 输入: 用户指定的智能体规格，包括智能体数量、人口统计和行为多样性（例如年龄、教育、技术素养）以及其他 角色 (Persona) 属性。这些 角色 (Persona) 驱动智能体的规划和推理过程，并在模拟中引入行为变异性。
- 过程: 该模块向后端 LLM 发送查询，明确指示 LLM 确保生成的 LLM 智能体 (LLM Agents) 角色 (Persona) 和意图符合用户提供的规格。例如，在案例研究中，此模块生成了 100,000 个智能体 角色 (Persona)。
- 输出: 具有详细 角色 (Persona) 描述和初始用户意图的 LLM 智能体 (LLM Agents) 列表。例如，一个智能体可能被初始化为“寻找一个价格低于 $40、评价高的蓝牙智能音箱”。
测试准备模块 (Testing Preparation Module):
- 目的: 将生成的 LLM 智能体 (LLM Agents) 分配到对照组和实验组，并确保各组间的智能体特性分布均衡。
- 过程:
  - 智能体流量分配 (Agent Traffic Allocation): 将智能体分成对照组（不含新功能）和实验组（含新功能）。
  - 环境分配 (Environment Assignment): 每组智能体被分配到相应的网页环境进行交互。
  - 均衡性检查 (Balance Check): 计算各组智能体特征分布的统计数据，确保其相对平衡。如果分布不平衡，模块会重新执行智能体流量分配，直到满足要求。
- 环境启动 (Environment Launch): 对两组的网页环境都使用独立的浏览器实例启动。这些浏览器实例通过 ChromeDrive（用于网页环境解析）和 Selenium WebDriver（用于自动化交互执行）进行控制。
自主 A/B 测试模拟 (Autonomous A/B Testing Simulation):
- 目的: 驱动 LLM 智能体 (LLM Agents) 在分配的网页环境中自动执行交互。这是系统的核心部分，其详细机制将在下一节 4.2.2 智能体-环境交互架构 (Agent-Environment Interaction Architecture) 中展开。
- 过程: 每个 LLM 智能体 (LLM Agents) 使用一个自主的行动预测循环与网页进行交互。这个循环包括感知当前网页状态、解释行动空间、预测下一步行动，并在浏览器中执行该行动。
- 监控与记录 (Monitoring and Logging): 交互过程的每一步都被记录下来，系统监控整个会话的进展，直到智能体完成既定目标或遇到失败情况。
测试后分析模块 (Post-Testing Analysis Module):
- 目的: 聚合、解释和呈现智能体行为，以支持 A/B 风格的实验比较。
- 数据收集 (Data Collection): 每个智能体会话都会生成一个细粒度的行动轨迹，包括完整的交互序列、时间戳、网页状态、执行的行动、中间推理（如果可用）和最终结果。这些日志在模拟过程中异步收集，并以结构化格式存储。
- 聚合与度量 (Aggregation and Metrics): 会话结束后，分析模块聚合对照组和实验组的记录，提取比较性指标，并可视化关键行为动态。
- 输出示例: 提供摘要统计数据，如每个会话的行动次数、会话持续时间（以步骤和时间计）、购买完成率。还可以检查详细行为（例如搜索或点击筛选器的使用），并进行跨 A/B 条件变体的比较。
- 分层分析 (Stratified Analysis): 系统支持按智能体人口统计或 角色 (Persona) 进行分层分析，以识别子群体差异。例如，在测试重新设计的筛选器时，系统可以揭示哪些智能体更频繁地优化搜索、更快地完成任务以及购买更多产品。
- 兼容性 (Compatibility): 结果日志（以 JSON 和 .XLS 格式）以兼容常见数据科学工具的格式导出，支持下游统计建模、显著性检验或与传统 A/B 测试仪表板集成。
  
  通过这个流水线，AgentA/B 能够在大规模下，在各种环境配置中支持完全自动化的 LLM 智能体 (LLM Agents) 网页交互。一次实验运行可以涉及数百或数千个分布在不同 角色 (Persona) 和设计条件下的会话，所有这些都无需人工干预即可执行。

4.2.2. 智能体-环境交互架构

AgentA/B 的核心是一个迭代机制，每个 LLM 智能体 (LLM Agents) 通过动态更新其对环境的理解并相应调整其行动，持续与真实的网页环境交互。该架构由三个紧密集成的组件组成：

环境解析模块 (Environment Parsing Module):
- 目的: 将实时网页环境解析成结构化的 JSON 格式观测结果，以简化网页结构并仅存储智能体-网页交互的关键信息。
- 传统方法局限性: 传统的网页提取方法，如截图或原始 HTML，存在过度复杂、包含无关信息（广告、横幅、无关超链接）或处理延迟的问题。
- 本文方法: 环境解析模块 (Environment Parsing Module) 使用 ChromeDriver 在浏览器内部执行 JavaScript 处理脚本。该脚本通过唯一标识符（ID 或类）从原始 HTML 中选择性地提取目标信息。
  - 电商场景示例: 针对电商场景，脚本被设计为提取产品筛选器、标题、描述、客户评分等网页元素。在搜索结果页，它会提取产品详情（如标题、名称、评分、评论、价格）以及筛选选项（如品牌、价格、配送日期）。
- 行动空间识别 (Action Space Identification): 该模块还识别当前的行动空间 (action space)，定义了智能体在给定上下文中可以执行的允许行动集。这些行动模仿用户在网站上交互时的顺序步骤。
- 行动表示 (Action Representation): 每个行动都以文本格式结构化，使 LLM 智能体 (LLM Agents) 能够解释和执行。关键行动包括：
  - Search: 智能体使用搜索栏查找特定项目或信息。
  - Click Product: 从当前网页中选择一个项目以查看更多详细信息。
  - Click Filter Option: 应用可用的筛选器（例如价格范围、品牌）以优化搜索结果。
  - Purchase: 完成所选商品的购买。
  - Stop: 表示购物会话完成，不需要进一步行动。
- 输出: 结构化的 JSON 文件，提供网页环境的更清晰、更集中的观测结果，以及当前可用的行动空间。
  
  以下是 AgentA/B 智能体-环境交互架构的示意图 (原文 Figure 3)：
  
  该图像是AgentA/B系统的结构示意图，展示了如何通过环境解析模块获取网页JSON和动作空间，LLM智能体基于用户角色与意图预测下一步动作，并由动作执行模块作用于网页环境。
LLM 智能体 (LLM Agent):
- 目的: 作为核心决策模块，接收当前环境状态、其 角色 (Persona) 和意图，并预测下一步行动。
- 输入: 结构化的网页表示、行动空间、智能体 角色 (Persona) 和当前意图（初始意图由 LLM 智能体生成模块 (LLM Agent Generation Module) 生成，但可在 LLM 智能体 (LLM Agents) 内部动态更新）。意图指定了智能体当前的任务（例如，搜索特定产品、比较替代品或进行预算受限的购买）。
- 决策过程: LLM 智能体 (LLM Agents) 将下一步决策问题建模为一种基于语言的推理和规划任务，将结构化状态观测映射到推理轨迹和行动预测。
- 可插拔性 (Plug-and-Play): AgentA/B 不受限于特定的 LLM 智能体 (LLM Agents) 实现。它将 LLM 智能体 (LLM Agents) 视为一个可交换的模块，支持各种类型的 LLM 网络智能体（例如 ReAct [52]、FireClaw2），通过方便的“即插即用”API 进行集成。在案例研究中，作者采用了 UXAgent 框架 [34] 作为代表性实现。
- 输出: LLM 智能体 (LLM Agents) 预测的下一步行动。
行动执行模块 (Action Execution Module):
- 目的: 将 LLM 智能体 (LLM Agents) 预测的行动转化为浏览器命令，并在实时网页上执行。
- 过程:
  - 命令转换 (Command Translation): 行动以结构化格式表示，可以引用 DOM 元素或逻辑操作，例如 Click_product(3)、Click_filter_option(Brand: Sony)、Search("Wireless earbuds") 或 Purchase。执行模块解析该行动并执行相应的交互。
  - 故障检测与恢复 (Fault Detection and Recovery): 在实际世界中，网页的动态内容加载和模态中断可能导致行动执行失败。因此，执行模块内置了故障检测和恢复逻辑。如果由于选择器缺失或 DOM 不匹配导致行动失败，系统会尝试备用选项，例如重试、滚动到视图中或重新解析页面。
  - 环境更新 (Environment Update): 每次执行都会更新环境，并启动循环的下一次迭代。
- 终止条件 (Termination Conditions): 交互循环持续进行，直到智能体达到终止条件：
  - 成功终止: 智能体完成任务（例如，导航到购买页面或明确声明任务成功）。
  - 失败条件: 无限循环、无法达到目标或重复执行不可执行的行动。
  - 上限设定: 会话也通过时间和行动计数阈值进行限制，以防止无限滚动。
- 输出: 每个完成的会话都会生成完整的交互历史轨迹、行动推理、页面状态和最终结果。

5. 实验设置

5.1. 数据集

本研究的实验环境是 Amazon.com 这一真实的电商平台。

智能体生成: 使用 LLM 智能体生成模块 (LLM Agent Generation Module) 生成了 100,000 个智能体 角色 (Persona)。
模拟样本: 从生成的 角色 (Persona) 中随机抽样了 1,000 个智能体来模拟独立的购物会话。这 1,000 个智能体被平均分配到两个条件：
- 对照组 (Control Condition): 500 个智能体。
- 实验组 (Treatment Condition): 500 个智能体。
人类对比数据: 作为基准，研究团队还获得了 Amazon.com 上进行的并行大规模人类 A/B 测试结果，该测试涉及 200 万真实用户：
- 人类对照组: 100 万真实用户。
- 人类实验组: 100 万真实用户。
智能体初始化: 每个智能体都被初始化一个 角色 (Persona) 档案和一个购物任务（例如，“寻找一个价格低于 $40、评价高的蓝牙智能音箱”）。
角色生成方法: 角色 (Persona) 生成遵循 Chen 等人 [5] 的方法，包括 LLM 智能体 (LLM Agents) 的人口统计信息（年龄、收入、职业）、偏好和购物目标。一个示例 角色 (Persona) 在附录 A 中给出。

5.2. 评估指标

论文中使用的评估指标主要围绕用户交互行为和购物结果，旨在量化不同界面设计对用户体验和业务目标的影响。

搜索次数 (Search):
- 概念定义: 智能体在会话中使用搜索栏查找项目或信息的平均次数。它衡量用户对搜索功能的依赖程度。
- 数学公式: $\text{Search} = \frac{\sum_{i=1}^{N} \text{Count}(\text{Search Actions}_i)}{N}$
- 符号解释:
  - $\text{Count}(\text{Search Actions}_i)$ : 第 $i$ 个智能体在会话中执行 Search 操作的次数。
  - $N$ : 参与模拟的总智能体数量。
点击产品次数 (Click_product):
- 概念定义: 智能体在会话中点击产品以查看详细信息的平均次数。它反映了用户对产品探索的兴趣和深度。
- 数学公式: $\text{Click\_product} = \frac{\sum_{i=1}^{N} \text{Count}(\text{Click Product Actions}_i)}{N}$
- 符号解释:
  - $\text{Count}(\text{Click Product Actions}_i)$ : 第 $i$ 个智能体在会话中执行 Click Product 操作的次数。
  - $N$ : 参与模拟的总智能体数量。
点击筛选选项次数 (Click_filter_option):
- 概念定义: 智能体在会话中应用筛选器以优化搜索结果的平均次数。它衡量用户利用筛选工具的能力和意愿。
- 数学公式: $\text{Click\_filter\_option} = \frac{\sum_{i=1}^{N} \text{Count}(\text{Click Filter Option Actions}_i)}{N}$
- 符号解释:
  - $\text{Count}(\text{Click Filter Option Actions}_i)$ : 第 $i$ 个智能体在会话中执行 Click Filter Option 操作的次数。
  - $N$ : 参与模拟的总智能体数量。
购买次数 (Purchase):
- 概念定义: 智能体在会话中完成购买的平均次数。这是一个关键的转化指标，反映了用户意图的实现和设计对业务目标的贡献。在表格中，此指标也以总购买数量呈现。
- 数学公式 (平均次数): $\text{Purchase Rate} = \frac{\sum_{i=1}^{N} \mathbb{I}(\text{Purchase Complete}_i)}{N}$
- 符号解释:
  - $\mathbb{I}(\text{Purchase Complete}_i)$ : 指示函数，如果第 $i$ 个智能体完成购买则为 1，否则为 0。
  - $N$ : 参与模拟的总智能体数量。
- 数学公式 (总购买数量): $\text{Total Purchases} = \sum_{i=1}^{N} \mathbb{I}(\text{Purchase Complete}_i)$
- 符号解释:
  - $\mathbb{I}(\text{Purchase Complete}_i)$ : 指示函数，如果第 $i$ 个智能体完成购买则为 1，否则为 0。
  - $N$ : 参与模拟的总智能体数量。
停止会话次数 (Stop):
- 概念定义: 智能体主动停止会话的平均次数，表示其任务完成或放弃。
- 数学公式: $\text{Stop} = \frac{\sum_{i=1}^{N} \text{Count}(\text{Stop Actions}_i)}{N}$
- 符号解释:
  - $\text{Count}(\text{Stop Actions}_i)$ : 第 $i$ 个智能体在会话中执行 Stop 操作的次数。
  - $N$ : 参与模拟的总智能体数量。
平均行动次数 (Average actions):
- 概念定义: 智能体在一次会话中执行的总行动（包括搜索、点击产品、点击筛选、购买等）的平均次数。它衡量交互的长度和复杂性。
- 数学公式: $\text{Average Actions} = \frac{\sum_{i=1}^{N} \text{Total Actions}_i}{N}$
- 符号解释:
  - $\text{Total Actions}_i$ : 第 $i$ 个智能体在会话中执行的所有行动的总次数。
  - $N$ : 参与模拟的总智能体数量。
平均花费 (Average $ spend):
- 概念定义: 完成购买的智能体在一次会话中的平均花费金额。它衡量设计对用户消费行为的影响。
- 数学公式: $\text{Average Spend} = \frac{\sum_{i=1}^{N} \text{Spending}_i}{\text{Number of Purchasers}}$
- 符号解释:
  - $\text{Spending}_i$ : 第 $i$ 个智能体在购买时花费的金额。
  - $\text{Number of Purchasers}$ : 完成购买的智能体总数量。

5.3. 对比基线

本研究的 A/B 测试场景主要对比两种界面设计变体：

对照组 (Control Condition) - 现有设计: Amazon.com 上现有的完整筛选面板设计。
实验组 (Treatment Condition) - 新设计: 采用基于相似性排名算法的新设计，该算法会减少与用户搜索查询相似度低于 80% 的筛选选项。

此外，智能体模拟结果还与大规模人类 A/B 测试结果进行了对比，以评估智能体行为的逼真度（align with human behavior）。

以下是 Amazon.com 上筛选面板界面设计的示例 (原文 Figure 4)：

该图像是两张网页截图的对比示意图，展示了在搜索“solar filter for telescope”时，网页左侧“Department”分类的差异。左图未选择子分类，右图明确选中了“Camera Lens Sky & UV Filters”分类，体现了不同筛选状态下界面变化。

这张图片展示了在搜索“solar filter for telescope”时，网页左侧“Department”分类的差异。左图（a）未选择子分类，呈现了完整的筛选选项。右图（b）明确选中了“Camera Lens Sky & UV Filters”分类，从而减少了其他不相关的筛选选项。这形象地展示了对照组（完整筛选面板）和实验组（减少筛选选项）之间的界面差异。

5.4. 实现细节

LLM 后端: AgentA/B 使用 Claude 3.5 Sonnet 模型作为 LLM 后端，支持智能体生成、测试准备、自动化智能体-网页交互和测试后分析。
执行环境: AgentA/B 环境部署在由 16 个高内存计算节点组成的分布式集群上。每个节点控制一个在无头模式 (headless mode) 下运行的 Selenium 驱动 Chrome 实例。
会话限制: 每个会话最多限制为 20 个行动。
会话终止: 会话在以下任一情况终止：
- 任务成功完成。
- 智能体不再预测下一步行动。
- 任务失败（例如，循环行为、无法到达目标、重复执行不可执行的行动）。
日志记录: 系统记录完整的行动轨迹、元数据（例如持续时间、结果）以及智能体在适用情况下的推理过程。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 与人类行为的对齐性 (Alignment with Human Behavior)

为了评估 AgentA/B 模拟系统与人类行为的对齐程度，研究人员将智能体模拟结果与使用相同任务条件进行的真实人类在线 A/B 测试结果进行了比较。

以下是原文 Table 2 呈现的聚合行动和统计数据：

	Control Condition Full Filter List Human, N=1M	Control Condition Full Filter List Agent, N=500	Treatment Condition Reduced Filter List Agent, N=500
Search	6.40	1.42	1.43
Click_product	6.96	1.87	2.09
Click_filter_option	0.33	0.58	0.60
Purchase	0.62	0.81	0.83
Stop	-	0.19	0.17
Average actions	15.96	6.05	6.60
# of purchase *	-	403	414
Average $spend \| - \|$ 55.14	$60.99

* LLM 智能体 (LLM Agents) 在实验组条件下购买的商品显著多于对照组条件下的智能体。 $\chi^2(1) = 5.51$ , p 值 $< 0.05$ 。

分析：

交互风格差异： 对照组中的人类参与者比智能体进行了更长、更具探索性的交互，每个会话的平均行动次数几乎是智能体的两倍（人类 15.96 次 vs. 智能体 6.05 次）。人类用户也点击了更多的产品详情页（6.96 次 vs. 1.87 次）并进行了更多的搜索（6.40 次 vs. 1.42 次）。这表明 LLM 智能体 (LLM Agents) 倾向于采用更目标导向、结构化和高效的交互策略，而人类用户则表现出更广泛的探索性行为和随意浏览。
核心指标相似性： 尽管交互风格存在差异，但人类和智能体在购买率（人类 0.62 vs. 智能体 0.81/0.83）和筛选选项的使用（人类 0.33 vs. 智能体 0.58/0.60）方面表现出相似性。这表明，对于意图驱动的任务，智能体的决策过程和一般交互模式能够合理地近似人类行为。
结论： 这些发现支持了在不需要实时部署的情况下，利用智能体模拟进行受控的用户体验评估的效用和有效性，尤其是在快速界面评估的场景中。

6.1.2. 系统在不同界面变体间的有效性 (System Effectiveness Across Interface Variants)

为了评估 AgentA/B 是否能检测到设计变体之间的细微差异，研究人员比较了 LLM 智能体 (LLM Agents) 在不同筛选配置（对照组 vs. 实验组）下的行为。

分析：

行为差异： 如 Table 2 所示，智能体在响应设计操作时表现出显著的条件依赖性行为变化。
- 产品点击： 实验组的智能体点击了更多的产品（2.09 次 vs. 1.87 次）。
- 总行动次数： 实验组的会话总行动次数更高（6.60 次 vs. 6.05 次），尽管统计上不显著 ( $\text{t}(998) = 1.08, \text{p} = 0.28$ )。
- 筛选器使用： 最值得注意的是，实验组的 LLM 智能体 (LLM Agents) 比对照组更频繁地点击筛选选项（0.60 次 vs. 0.58 次），尽管统计上不显著 ( $\text{t}(998) = 1.00, \text{p} = 0.32$ )。这表明移除不相关筛选器的实验设计可能提高了筛选器的可发现性。
购买结果： 比较实验组和对照组会话的最终结果，实验组的 LLM 智能体 (LLM Agents) 虚拟客户购买了更多的产品（414 次 vs. 403 次）。这一差异具有统计学意义 ( $\chi^2(1) = 5.51, \text{p} = 0.03$ )。这表明减少筛选选项数量略微但显著地提高了购买完成的可能性。在实际中，这意味着实验组的转化率提高了约 2-3%。

以下是完成购买的 LLM 智能体 (LLM Agents) 数量的图表 (原文 Figure 5)：

该图像是图表，展示了在控制组和实验组条件下完成购买的LLM代理数量。控制组（全过滤选项）有403名代理完成购买，实验组（减少过滤选项）有414名代理完成购买，表明实验组稍有增加。

这张图表清晰地展示了实验组（减少过滤选项）有 414 名智能体完成购买，而对照组（全过滤选项）有 403 名智能体完成购买。这直观地支持了实验组购买完成率更高的结论。

平均花费：
- 实验组的 LLM 智能体 (LLM Agents) 虚拟客户平均花费略高于对照组（60.99 vs.55.14）。
- 然而，这一差异在统计上不显著 ( $\text{t}(998) = 0.39, \text{p} = 0.69$ )。平均差异约为 $6，相对于花费的变异性较小，表明虽然实验组可能对购买金额有轻微的积极影响，但需要更大的样本量才能可靠地检测到这种效果。

6.1.3. 子群体行为模式 (Subgroup Behavioral Patterns)

为了进一步深入分析，研究人员还按性别和年龄对平均花费进行了子群体分析。

按性别划分的平均花费：
- 女性客户：在对照组中平均花费 49.18，在实验组中51.30，增幅较小。
- 男性客户：在对照组中平均花费 61.82，在实验组中70.83，增幅较大。
- 结论： 尽管没有对每个子群体单独进行统计检验，但变化方向表明简化的筛选界面可能对男性客户的消费产生更强的积极影响。
  
  以下是按性别分组的平均客户花费图表 (原文 Figure 6 (a))：
  
  该图像是一张柱状图，展示了不同性别组在对照组和处理组中的平均客户花费（美元）。数据表明男性客户在处理组的消费显著高于对照组，而女性客户两组消费差异较小。

这张图表（Figure 6 (a)）直观地展示了男性客户在实验组（Treatment）中的平均花费明显高于对照组（Control），而女性客户在两个组中的花费差异较小，验证了上述发现。

按年龄组划分的平均花费：
- 年轻客户 ( $\le 35$ 岁)：在实验组中平均花费实际有所下降（ $56.68 \to$ 43.41）。
- 中年客户 (35-55 岁)：在实验组中花费增加（ $59.21 \to$ 71.19）。
- 老年客户 ( $> 55$ 岁)：在实验组中表现出最大的增幅（ $40.24 \to$ 79.07）。
- 结论： 这些结果表明，减少筛选器的界面对老年客户可能特别有益，这可能是因为它有助于减少选择过载。相反，年轻客户可能更依赖详细筛选来找到符合其偏好的产品，因此当筛选选项减少时，花费反而降低。
  
  以下是按年龄组划分的平均客户花费图表 (原文 Figure 6 (b))：
  
  该图像是一张柱状图，展示了不同性别组在对照组和处理组中的平均客户花费（美元）。数据表明男性客户在处理组的消费显著高于对照组，而女性客户两组消费差异较小。

这张图表（Figure 6 (b)）直观地展示了年轻客户在实验组中的花费下降，而中年和老年客户在实验组中的花费显著增加，尤其老年客户增幅最大，验证了上述发现。

总体结论： 减少筛选选项的数量与更高的购买完成率以及潜在的客户花费增加（尽管后者未达到统计显著性）相关。子群体分析表明响应存在异质性：男性和老年客户似乎从简化的界面中受益更多，而年轻客户可能更喜欢更多的筛选灵活性。

关键发现： LLM 智能体 (LLM Agents) A/B 测试结果与人类 A/B 测试中观察到的模式方向性一致。这种一致性增加了对智能体模拟能够预测真实用户行为并为界面性能提供早期洞察的信心。

6.2. 消融实验/参数分析

论文中未明确描述消融实验或详细的参数分析。实验主要集中在比较 AgentA/B 模拟与人类行为的一致性以及其检测设计变体差异的能力。

7. 总结与思考

7.1. 结论总结

本文提出了 AgentA/B，一个创新的端到端系统，旨在利用大规模 LLM 智能体 (LLM Agents) 在真实网页环境中进行自动化 A/B 测试模拟。该系统能够生成具有多样化 角色 (Persona) 的智能体，模拟其与网页的交互，并提供详细的行为数据和分析结果。通过在 Amazon.com 上的案例研究，AgentA/B 证明了其能够生成与人类行为方向一致的类人行为轨迹，能够检测界面变体（如减少筛选选项）带来的细微行为差异（如购买完成率的提高），甚至能够揭示不同子群体（如性别、年龄）对设计的不同响应。

AgentA/B 被定位为传统 A/B 测试的有效补充，尤其是在加速设计迭代、支持包容性试点测试和提供低风险的早期设计洞察方面。它将 LLM 智能体 (LLM Agents) 的行为模拟从受限的沙盒环境扩展到复杂的实时网络环境，为 UX 评估开辟了新的途径。

7.2. 局限性与未来工作

作者指出了 AgentA/B 系统在当前范围内的两个主要局限性，并提出了未来的研究方向：

7.2.1. 局限性

LLM 鲁棒性与行为忠实度 (Robustness and Behavioral Fidelity of LLMs):
- 问题: 系统的鲁棒性和模拟智能体的行为忠实度受限于底层 LLM 的推理和基础能力。即使是 Claude 3 和 GPT-4o 等最先进的 LLM，在遇到复杂或非传统的 DOM 结构（如动态渲染的网页、不一致的元素标签、交互延迟、意外模态中断）时，仍可能误解。
- 影响: 尽管系统通过利用 JSON 进行结构化环境解析来缓解这些问题，但当实时内容和网页环境结构不断更新和变化时，LLM 智能体 (LLM Agents) 的性能仍可能下降。
情感和元认知信号的缺乏 (Lack of Affective or Metacognitive Signals):
- 问题: 当前 AgentA/B 系统中的智能体行为无法全面整合情感或元认知信号，如不确定性、疲劳或情绪反应。这些维度对人类认知行为和决策至关重要，但对 LLM 来说可能难以建模。
- 影响: 系统中的 LLM 智能体 (LLM Agents) 倾向于模拟目标驱动的行为，具有合理的认知结构，但尚未捕捉到人类行为的全部变异性或意图模糊性。

7.2.2. 未来工作

多模态信息感知 (Multimodal Information Perception):
- 方向: 扩展智能体的能力，使其能够处理多模态信息，例如将视觉输入（截图、空间布局）与文本内容相结合。
- 潜力: 这可以使智能体在设计丰富或具有不同可访问性需求的界面中更稳健地操作。视觉语言模型和多模态智能体 [7, 16] 的最新进展为泛化智能体行为 beyond 纯文本界面提供了途径。
协作或多智能体模拟 (Collaborative or Multi-agent Simulation):
- 方向: 探索在共享生产力工具、学习平台或社交平台等应用中进行协作或多智能体模拟。
- 潜力: 在这些场景中，智能体交互可能涉及协商、协调或冲突。基于像 生成式智能体 (generative agents) [42] 这样的社交模拟工作，未来的系统可以模拟丰富的用户生态系统，而不仅仅是独立的任务解决，从而更好地反映真实世界中的协作工作性质。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文为 LLM 智能体 (LLM Agents) 在实际 UX 设计和产品开发中的应用开辟了令人兴奋的可能性。

加速设计迭代： AgentA/B 最显著的价值在于其能够显著缩短设计迭代周期。传统的 A/B 测试往往是开发周期的瓶颈，而 AgentA/B 可以在大规模部署真实用户之前，提供快速、低成本的行为反馈，从而使设计师能够更早地验证假设、发现潜在问题并优化设计。
降低风险与成本： 在真实用户 A/B 测试失败率高昂的背景下，AgentA/B 提供了一个“沙盒”环境来预先评估设计，有效降低了真实上线可能带来的业务风险（如用户流失、收入下降）和开发成本。
包容性设计： 模拟特定用户群体的能力（如老年用户、数字素养有限的用户）对于推动包容性设计具有巨大潜力。通过模拟这些难以招募或需要特殊考量的群体，设计师可以更好地理解他们的需求，并调整设计以避免潜在的危害或不便。
A/B 测试的补充与升级： AgentA/B 并非取代人类 A/B 测试，而是作为其强大的补充。它使得 A/B 测试可以更频繁、更广泛地进行，从“事后验证”转向“事前探索与优化”，将 A/B 测试的理念推向更早期的设计阶段。
LLM 潜力的新视角： 论文进一步展示了 LLM 不仅是文本生成工具，更是能够进行复杂规划、决策和环境交互的“智能体”，这为 LLM 的应用场景提供了更广阔的想象空间，特别是在模拟复杂社会系统和人类行为方面。

7.3.2. 批判

LLM 行为忠实度与泛化性挑战： 尽管论文结果显示智能体行为与人类有方向性一致，但智能体在探索性、情感和元认知方面的不足是显著的。人类用户的行为往往是非理性的、情绪化的，并且受到历史经验、注意力漂移等复杂因素的影响。目前的 LLM 智能体 (LLM Agents) 更多地是目标导向和效率优先，这可能无法完全捕捉到真实用户行为的细微之处，特别是在探索性或娱乐性导向的网站上。如何让 LLM 智能体 (LLM Agents) 更准确地模拟“非理性”或“情感驱动”的人类行为是一个长期挑战。
“角色 (Persona)” 生成的局限性：论文提到 LLM 生成 角色 (Persona)，但这些 角色 (Persona) 是否能真正涵盖用户群体的全部多样性和复杂性，以及它们在多大程度上影响智能体的行为，还需要更深入的探讨。如果 角色 (Persona) 本身就是有偏见的或不全面的，那么模拟结果的有效性就会受到影响。
实时网页环境的鲁棒性： 尽管系统声称可以在实时网页上运行，但真实世界的网页是极其复杂和多变的。动态加载、A/B 测试本身导致的界面变动、广告弹窗、网络延迟、甚至网页本身的 bug 都可能导致智能体行为异常或模拟失败。论文中提到的“内置故障检测和恢复逻辑”是必要的，但其有效性边界仍需更详细的评估。
成本与资源： 尽管比真实 A/B 测试更便宜，但运行大规模 LLM 智能体 (LLM Agents) 模拟（特别是涉及 1000 个智能体和 Claude 3.5 Sonnet 等大型模型）仍然需要大量的计算资源和 API 成本。这对于小型团队或独立开发者来说可能仍是一个障碍。
评估指标的全面性： 论文主要关注购买率、花费和行动次数等量化指标。然而，用户体验还包括满意度、易用性、美观度等主观感受。LLM 智能体 (LLM Agents) 如何有效地模拟和评估这些主观体验，并将其转化为可量化的指标，是未来需要探索的方向。
结果的可解释性： LLM 智能体 (LLM Agents) 的决策过程往往是一个黑箱。尽管论文提到了“中间推理”，但如何确保这些推理是真正合理的、可信的，并能为设计师提供可操作的洞察，仍是一个开放问题。

总的来说，AgentA/B 为 UX 设计和 A/B 测试提供了一个有前景的新范式。然而，在将这种技术广泛应用于实际生产之前，还需要持续改进 LLM 智能体 (LLM Agents) 的行为忠实度、提高其在动态网页环境中的鲁棒性，并探索更全面的评估方法。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。