Large Language Models Empowered Personalized Web Agents
TL;DR 精炼摘要
本文提出大型语言模型驱动的个性化网络智能体任务,结合用户个性化数据优化指令理解与动作执行。构建了涵盖多任务的个性化网络智能体评测基准PersonalWAB,并设计基于用户记忆增强的对齐框架PUMA,实现更精准个性化服务。
摘要
Web agents have emerged as a promising direction to automate Web task completion based on user instructions, significantly enhancing user experience. Recently, Web agents have evolved from traditional agents to Large Language Models (LLMs)-based Web agents. Despite their success, existing LLM-based Web agents overlook the importance of personalized data (e.g., user profiles and historical Web behaviors) in assisting the understanding of users' personalized instructions and executing customized actions. To overcome the limitation, we first formulate the task of LLM-empowered personalized Web agents, which integrate personalized data and user instructions to personalize instruction comprehension and action execution. To address the absence of a comprehensive evaluation benchmark, we construct a Personalized Web Agent Benchmark (PersonalWAB), featuring user instructions, personalized user data, Web functions, and two evaluation paradigms across three personalized Web tasks. Moreover, we propose a Personalized User Memory-enhanced Alignment (PUMA) framework to adapt LLMs to the personalized Web agent task. PUMA utilizes a memory bank with a task-specific retrieval strategy to filter relevant historical Web behaviors. Based on the behaviors, PUMA then aligns LLMs for personalized action execution through fine-tuning and direct preference optimization. Extensive experiments validate the superiority of PUMA over existing Web agents on PersonalWAB.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
大型语言模型赋能的个性化网络智能体 (Large Language Models Empowered Personalized Web Agents)
1.2. 作者
论文的作者团队来自多个机构,包括:
-
Hongru Cai (第一作者): National University of Singapore (新加坡国立大学), Singapore
-
Yongqi Li*: The Hong Kong Polytechnic University (香港理工大学), Hong Kong SAR, China
-
Wenjie Wang*: University of Science and Technology of China (中国科学技术大学), Hefei, China
-
Fengbin Zhu: National University of Singapore (新加坡国立大学), Singapore
-
Xiaoyu Shen: Eastern Institute of Technology, Ningbo (宁波东方理工大学), Ningbo, China
-
Wenjie Li: The Hong Kong Polytechnic University (香港理工大学), Hong Kong SAR, China
-
Tat-Seng Chua: National University of Singapore (新加坡国立大学), Singapore
(*表示共同第一作者)
1.3. 发表期刊/会议
该论文已被 ACM Web Conference 2025 (WWW '25) 接受发表。WWW (The Web Conference) 是万维网领域顶级的国际会议,在信息检索、Web 技术和应用等领域享有极高声誉和影响力。能够在 WWW 上发表论文,通常意味着该研究具有较高的创新性、技术贡献和学术价值。
1.4. 发表年份
2025年。根据 Published at (UTC): 2024-10-22T17:54:45.000Z 和 ACM Reference Format 中的 2025,推测其正式发表年份为2025年。
1.5. 摘要
这篇论文聚焦于网络智能体 (Web agents) 领域,其目标是根据用户指令自动化完成网络任务,从而显著提升用户体验。近年来,网络智能体已从传统形式演变为大型语言模型 (LLMs) 驱动的网络智能体 (LLMs-based Web agents)。然而,现有基于 LLM 的网络智能体普遍忽视了个性化数据 (personalized data)(例如,用户个人资料 user profiles 和历史网络行为 historical Web behaviors)在辅助理解用户个性化指令和执行定制化动作方面的重要性。
为了克服这一局限,作者首先提出了 LLM 赋能的个性化网络智能体 (LLM-empowered personalized Web agents) 任务,该任务旨在整合个性化数据和用户指令,以实现指令理解和动作执行的个性化。针对该任务缺乏全面评估基准的现状,作者构建了首个 个性化网络智能体基准 (Personalized Web Agent Benchmark, PersonalWAB)。该基准包含用户指令、个性化用户数据、网络功能 Web functions,并支持在三种个性化网络任务(个性化搜索、推荐和评论生成)上的两种评估范式(单轮和多轮)。
此外,作者提出了一种名为 个性化用户记忆增强对齐 (Personalized User Memory-enhanced Alignment, PUMA) 的框架,用于使 LLM 适应个性化网络智能体任务。PUMA 框架利用一个记忆库 (memory bank) 和任务特定检索策略 (task-specific retrieval strategy) 来过滤相关的历史网络行为。基于这些行为,PUMA 通过微调 (fine-tuning) 和直接偏好优化 (direct preference optimization, DPO) 来对齐 LLM,以实现个性化动作执行。
广泛的实验结果验证了 PUMA 在 PersonalWAB 上相对于现有网络智能体的优越性。作者还公开了代码和数据。
1.6. 原文链接
- 原文链接 (arXiv预印本):
https://arxiv.org/abs/2410.17236 - PDF 链接:
https://arxiv.org/pdf/2410.17236v2.pdf - 发布状态: 预印本,已于
2024-10-22T17:54:45.000Z发布在 arXiv,并被 ACM Web Conference 2025 (WWW '25) 接受。
2. 整体概括
2.1. 研究背景与动机
论文试图解决的核心问题是什么? 论文旨在解决现有基于大型语言模型(LLM)的网络智能体在处理用户网络任务时,普遍缺乏对用户个性化数据的有效利用,导致无法实现真正个性化的指令理解和定制化动作执行的问题。换言之,当前的 LLM 驱动的网络智能体虽然在理解和规划方面有所进步,但它们通常将所有用户视为同质的,无法根据用户的独特偏好和历史行为提供差异化的服务。
为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白(Gap)?
- 用户体验提升的巨大潜力: 随着互联网服务日益复杂和庞大,用户(特别是老年群体)在完成在线任务时面临巨大挑战。网络智能体的出现旨在缓解这一负担。而通过引入个性化能力,智能体可以更准确地理解用户的隐含需求,提供更符合个人习惯和偏好的服务,从而极大地提升用户体验和效率。
- 现有 LLM-based Web agents 的局限性:
- 忽略个性化数据: 尽管 LLM 拥有强大的理解和推理能力,但它们在
Web agent任务中通常未被明确指导如何利用user profiles和historical Web behaviors等个性化数据。 - 指令理解的模糊性: 用户指令往往是简短且不完整的。在缺乏个性化上下文的情况下,智能体难以准确推断用户的真实意图和隐含偏好(例如,用户对价格、品牌或产品特性的偏好)。
- 动作执行的非定制化: 不同的用户对同一任务可能期望不同的执行方式或结果。例如,一个注重性价比的用户和一位追求高端品牌的用户,即使发出相似的搜索指令,也应该得到不同的推荐结果或搜索排序。现有智能体难以生成定制化的
Web function calls和参数。
- 忽略个性化数据: 尽管 LLM 拥有强大的理解和推理能力,但它们在
- 缺乏评估基准: 推动
LLM-empowered personalized Web agents这一新任务发展的主要障碍是缺乏一个全面的、集成了个性化数据和多任务场景的训练和评估基准。这使得研究人员难以系统地开发和比较相关方法。
这篇论文的切入点或创新思路是什么?
论文的创新思路在于明确地将“个性化”作为 LLM-empowered Web agents 的一个核心维度,并从任务定义、基准建设和方法框架三个方面进行全面探索:
- 任务公式化: 首次明确提出了
LLM-empowered personalized Web agents的任务定义,强调整合个性化数据(用户资料和历史行为)来个性化指令理解和动作执行。 - 基准构建: 为了填补空白,构建了
PersonalWAB,这是首个包含个性化数据、用户指令、Web functions和多任务评估范式的基准,为该领域的研究提供了重要的基础设施。 - 框架设计: 提出了
PUMA框架,通过引入用户记忆库 (user memory bank) 和任务特定检索策略 (task-specific retrieval strategy) 来捕获用户偏好,并结合微调 (fine-tuning) 和直接偏好优化 (Direct Preference Optimization, DPO) 技术,使 LLM 能够生成更符合用户个性化需求的Web function parameters。
2.2. 核心贡献/主要发现
这篇论文的核心贡献可以总结为以下三点:
- 首次明确提出了 LLM 赋能的个性化网络智能体任务: 论文率先将
LLM-based Web agents提升到“个性化”层面,清晰地定义了该任务,强调利用个性化用户数据(例如用户资料和历史网络行为)来实现个性化的指令理解和动作执行,从而将用户与定制化的网络服务连接起来。 - 构建了首个用于 LLM 赋能的个性化网络智能体基准
PersonalWAB: 为了促进这一新兴领域的研究,作者构建了一个全面且多样化的基准。PersonalWAB包含了具有不同用户资料和行为的用户集合、覆盖搜索、推荐和评论生成三种任务的指令、可调用的Web functions,以及单轮和多轮两种评估范式。 - 提出了新颖的个性化对齐框架
PUMA: 针对个性化网络智能体任务,论文提出了一种PUMA框架。该框架结合了用户记忆库 (user memory bank) 和任务特定检索策略 (task-specific retrieval strategy) 来过滤相关的历史行为,并通过微调 (fine-tuning) 和直接偏好优化 (Direct Preference Optimization, DPO) 策略来对齐大型语言模型,使其能够更好地适应个性化用户指令和偏好。
主要发现:
PUMA框架在PersonalWAB基准上,无论是单轮还是多轮任务,都显著优于现有Web agents。这表明PUMA能够更好地理解个性化用户指令并满足用户的偏好。PUMA的任务特定记忆 (Task-specific Memory) 能够有效提取相关信息并过滤冗余数据,从而在效率和准确性上都有显著提升。- 消融实验验证了
PUMA各组件(任务特定记忆、SFT、DPO)的重要性,它们共同促进了模型性能的提升。 PUMA即使在用户历史数据稀疏(零样本zero-shot和少样本few-shot)的情况下也能保持有效性,展现了其良好的适应性。PUMA在任务完成时间上显著优于基于GPT的基线方法,显示了其在实际应用中的高效性。
3. 预备知识与相关工作
本节将为读者铺垫理解论文所需的前置知识,并介绍与本文相关的背景工作。
3.1. 基础概念
-
网络智能体 (Web agents):
- 概念定义: 是一种能够理解用户指令、自主地与互联网环境(例如网页、Web 服务)进行交互,并自动化完成特定任务的软件程序。这些任务可以包括信息检索、在线购物、数据填写等。
- 在本文中的语境: 论文中将
Web environment抽象为一系列可调用的Web functions,智能体通过调用这些函数并提供合适的参数来完成任务。
-
大型语言模型 (Large Language Models, LLMs):
- 概念定义: 指的是参数量巨大(通常是数十亿到数万亿)、在海量文本数据上进行预训练的深度学习模型。它们具有强大的自然语言理解
natural language understanding(NLU)、自然语言生成natural language generation(NLG)、推理reasoning和规划planning能力。 - 在本文中的作用:
LLMs被用作Web agents的核心引擎,负责理解用户指令、规划动作、选择Web functions并生成function parameters。
- 概念定义: 指的是参数量巨大(通常是数十亿到数万亿)、在海量文本数据上进行预训练的深度学习模型。它们具有强大的自然语言理解
-
个性化数据 (Personalized Data):
- 概念定义: 任何能够反映用户独特身份、偏好、习惯和历史交互行为的数据。
- 在本文中的具体形式: 主要包括
user profiles(例如人口统计信息、购物偏好、行为倾向)和historical Web behaviors(例如购买记录、浏览历史、商品评价)。这些数据是实现个性化指令理解和动作执行的关键。
-
Web 功能 (Web Functions):
- 概念定义: 论文中将
Web services(例如亚马逊购物网站提供的搜索、推荐、评论发布等功能)抽象为一系列离散的、可由智能体调用的函数。每个Web function接受特定参数作为输入,并返回相应的操作结果。 - 例如:
search_product_by_query(query),get_recommendations_by_history(product_ids),add_product_review(review_text)等。
- 概念定义: 论文中将
-
微调 (Fine-tuning):
- 概念定义: 在一个预训练好的模型(如
LLM)的基础上,使用特定任务的数据集进行进一步训练的过程。微调旨在使模型适应特定任务的特征和要求,通常只需调整模型参数的一小部分或使用较小的学习率。 - 在本文中的作用:
PUMA框架使用监督式微调 (Supervised Fine-tuning, SFT) 来让LLM学习生成合理的Web function parameters。
- 概念定义: 在一个预训练好的模型(如
-
直接偏好优化 (Direct Preference Optimization, DPO):
- 概念定义: 是一种基于人类反馈的强化学习
Reinforcement Learning from Human Feedback(RLHF) 方法。它通过直接优化模型在偏好数据上的对数似然,来使模型生成更符合人类(或在本文中是用户偏好)的输出,而无需显式地训练一个奖励模型。 - 在本文中的作用:
PUMA利用DPO对SFT后的LLM进一步优化,使其生成更准确、更符合用户个性化偏好的function parameters。
- 概念定义: 是一种基于人类反馈的强化学习
-
余弦相似度 (Cosine Similarity):
- 概念定义: 衡量两个非零向量之间夹角余弦值的度量。它反映了两个向量方向上的相似程度,值越大表示方向越一致,即越相似。
- 数学公式: 给定两个向量 和 ,它们的余弦相似度计算公式为:
- 符号解释:
- 和 :表示两个 维向量。
- :表示向量点积。
- 和 :表示向量 和 的欧几里得范数(或称模长)。
- 在本文中的作用: 用于在记忆库 (memory bank) 中检索与用户指令最相关的历史行为。
-
BM25:
- 概念定义: 一种常用的信息检索排名函数,基于词频-逆文档频率
TF-IDF的概率模型。它根据查询词在文档中的出现频率、文档长度以及查询词的稀有程度等因素,计算文档与查询之间的相关性得分。 - 在本文中的作用:
PersonalWAB的search_product_by_query函数使用BM25(通过Pyserini[26] 实现) 从产品数据库中进行快速检索。
- 概念定义: 一种常用的信息检索排名函数,基于词频-逆文档频率
-
Sentence-BERT:
- 概念定义: 一种基于
BERT的模型,专门用于生成句子嵌入sentence embeddings。它通过 Siamese 或 Triplet 网络结构进行训练,使得语义相似的句子在向量空间中距离更近。 - 在本文中的作用: 用于计算文本(如用户指令和历史记忆条目)之间的余弦相似度,从而进行相关性检索。
- 概念定义: 一种基于
3.2. 前人工作
论文回顾了 Web agents 和 Personalized LLMs 两个主要的相关研究方向。
3.2.1. Web 智能体 (Web Agents)
-
传统 Web 智能体: 早期研究主要通过强化学习 (Reinforcement Learning, RL) 技术优化网页导航任务,例如 [27] 平台允许智能体通过键盘和鼠标完成在线任务。然而,这些智能体的上下文理解和推理能力有限,难以泛化到复杂或分布外
out-of-distribution场景。 -
LLM-based Web Agents: 近年来,随着
LLMs展现出强大的理解、规划和推理能力,基于LLM的Web agents成为一个快速发展的方向。- 技术路线: 研究利用了上下文学习 (in-context learning) [20, 45, 59, 60]、微调 (fine-tuning) [6, 13] 和强化学习 (reinforcement learning) [34] 等技术来增强
LLMs在Web agent任务中的指令遵循能力。 - 复杂场景: 现有研究探索了更实际和复杂的设置,包括多领域
multi-domain[6]、多跳multi-hop[58]、与Web的实时交互real-time interactions with Web[62] 和视觉 UI 理解visual UI understanding[14, 22]。 - 交互能力: 一些研究利用
LLMs强大的交互能力,实现了与用户的多轮交互multi-turn interactions,促进了会话式网页导航和任务执行 [7, 29, 46]。 - 现有基准:
WebShop[55] 引入了模拟电子商务环境;Mind2Web[6]、WebArena[62]、VWA[22]、WebVoyager[14] 关注网页 UI 交互;WorkArena[9] 和WebLINX[29] 关注多轮交互;ChatShop[4] 侧重于Web function交互。
- 技术路线: 研究利用了上下文学习 (in-context learning) [20, 45, 59, 60]、微调 (fine-tuning) [6, 13] 和强化学习 (reinforcement learning) [34] 等技术来增强
-
与本文的差异: 尽管
Web agents取得了显著进展,但先前的研究普遍忽视了“个性化”维度。例如,WebArena[62] 模拟了具有不同角色、权限和交互历史的用户,但这些角色是预定义的,不要求智能体理解用户偏好或根据偏好调整执行策略。本文首次关注LLM-empowered personalized Web agents,并提出了相应的框架和基准。
3.2.2. 个性化 LLMs (Personalized LLMs)
-
概念定义:
Personalized LLMs旨在处理用户画像user personas(例如背景信息或历史行为)以满足个性化需求,适应不同的用户 [48]。 -
研究方向:
- 个性化内容生成 (Personalized Content Generation): 关注生成个性化内容的核心挑战。利用公开的用户数据(如 Reddit [50]、Facebook、Twitter [43]、博客 [21])预训练
LLMs。关键任务包括立场分类stance classification、人口统计推断demographic inference[44] 和个性化情感预测personalized sentiment prediction[31]。LaMP[39] 和LongLaMP[23] 等基准提供了评估个性化文本分类和内容生成的数据集。 - 用户界面应用 (User-facing Applications): 实践应用领域,始于个性化对话系统
personalized dialogue systems。通过众包crowd-workers基于特定画像创作对话 [57],或从 Reddit [30] 和微博 [61] 提取用户属性构建对话数据集。Apollonion[5] 动态更新用户画像以提供个性化回复。记忆机制 [24, 28, 52] 帮助模型回忆过去的对话和重要事件。Personalized LLMs也应用于医疗 [1, 18]、教育 [8, 40] 和机器人 [51] 等领域。
- 个性化内容生成 (Personalized Content Generation): 关注生成个性化内容的核心挑战。利用公开的用户数据(如 Reddit [50]、Facebook、Twitter [43]、博客 [21])预训练
-
与本文的差异: 现有
Personalized LLMs研究尚未探索根据用户特定需求定制函数调用 (personalized function calls)。本文通过利用个性化用户数据来调整智能体的动作,填补了这一空白,并全面评估了智能体在Web environments中完成多个个性化任务的能力。
3.3. 技术演进
从技术演进的角度看,Web agents 经历了几个阶段:
- 传统 RL-based Web agents: 侧重于通过强化学习学习精确的操作序列以完成特定任务,但泛化能力和语义理解能力较弱。
- LLM-based Web agents: 随着
LLMs的兴起,其强大的语言理解和推理能力被引入Web agents,使得智能体能够更好地理解自然语言指令,进行更复杂的规划。这一阶段主要关注如何让LLMs调用工具tools或functions来与Web环境交互。 - 多模态/多轮 LLM-based Web agents: 进一步结合视觉信息
visual information或支持多轮对话multi-turn dialogue,以适应更真实的Web交互场景。 - 个性化 LLM-based Web agents (本文工作): 在前述基础上,引入个性化 (personalization) 维度。这不仅要求
LLMs理解通用指令和规划通用动作,更要求它们能够根据每个用户的独特偏好和历史行为,来个性化指令的理解(例如,解读指令中隐含的偏好)和个性化动作的执行(例如,生成定制化的搜索查询或推荐列表)。这代表了Web agents领域向更智能、更人性化服务迈进的重要一步。
3.4. 差异化分析
本文工作与现有相关工作的核心区别和创新点在于:
-
与现有 Web 智能体 (Web Agents) 的对比:
- 核心缺失: 现有
Web agents,无论是传统的还是LLM-based的,大多将用户视为同质群体。它们擅长根据显式指令完成任务,但缺乏从用户个人资料和历史行为中推断隐含偏好、并据此调整指令理解和动作执行的能力。 - 本文创新: 本文明确提出了
LLM-empowered personalized Web agents的概念,强调将user profiles和historical Web behaviors等个性化数据深度整合到智能体的决策流程中,以实现定制化的服务。
- 核心缺失: 现有
-
与现有个性化 LLMs (Personalized LLMs) 的对比:
- 核心缺失: 现有
Personalized LLMs主要集中在个性化内容生成 (personalized content generation)(如根据用户画像生成文本)或个性化对话系统 (personalized dialogue systems)。它们通常不涉及与外部Web services进行个性化函数调用 (personalized function calls),也未将“个性化”维度应用于Web agent任务的复杂动作规划和执行。 - 本文创新: 本文将个性化能力扩展到
Web agent的核心功能,即调用 Web 函数并生成参数。它关注如何利用个性化数据来决定调用哪个函数以及如何精确地配置这些函数参数,以满足用户在实际Web任务中的个性化需求。
- 核心缺失: 现有
-
基准的独特性:
-
现有基准: 虽然存在多个
Web agent基准和Personalized LLM基准,但没有一个基准能够全面地评估LLM-empowered personalized Web agents这一新任务。 -
本文创新:
PersonalWAB是首个专为评估个性化网络智能体而设计的基准,它不仅包含丰富的个性化用户数据和多样的Web任务,还支持多轮交互评估,填补了这一空白。总之,本文通过明确的任务定义、专用的基准和创新的框架,弥合了
Web agents和Personalized LLMs两个领域的鸿沟,将个性化能力带入到LLM-empowered Web agent的复杂任务执行中。
-
4. 方法论
4.1. 方法原理
论文提出的 PUMA (Personalized User Memory-enhanced Alignment) 框架旨在使 LLMs 能够有效完成个性化网络智能体 (personalized Web agents) 任务。其核心思想是,通过结合用户的个性化数据 (personalized data)(包括用户资料 user profiles 和历史网络行为 historical Web behaviors),来增强 LLM 对用户指令的理解,并生成更符合用户个性化偏好的 Web functions 调用参数。
PUMA 框架主要包含两个关键步骤:
-
Web 功能识别 (Web function identification):首先,
LLM需要根据用户指令,识别出应该调用哪个Web function来完成任务。 -
功能参数生成 (Function parameter generation):在识别出
Web function后,LLM必须生成该函数所需的具体参数,这些参数需要体现用户的个性化偏好。为了实现功能参数生成的个性化和优化,
PUMA引入了以下机制:
- 记忆库和任务特定检索 (Memory Bank and Task-specific Retrieval):存储用户的长期
Web behaviors,并根据当前任务和指令,智能地检索出最相关的行为和特征。这有助于为LLM提供个性化上下文。 - 监督式微调 (Supervised Fine-tuning, SFT):利用启发式方法构建的伪标签
pseudo-labels对LLM进行初步微调,使其具备生成合理参数的基础能力。 - 直接偏好优化 (Direct Preference Optimization, DPO):进一步对
SFT后的LLM进行优化。通过多样化参数采样,结合基于结果准确性的偏好数据,使用DPO促使LLM生成更接近用户个性化偏好的高质量参数。
4.2. 核心方法详解
PUMA 框架的整体流程如 Figure 6 所示,它将整个过程分解为网页功能识别 (Web Function Identification) 和 参数生成 (Parameter Generation) 两个主要阶段。

该图像是论文中图6的示意图,展示了PUMA框架的两大步骤:网页功能识别和参数生成,后者包含任务特定记忆检索和函数参数优化两个部分。图中用箭头区分了微调(SFT)和直接偏好优化(DPO)流程。
Figure 6: Illustration of the PUMA framework, consisting of two main steps: Web Function Identification and Parameter Generation, which includes Task-specific Memory Retrieval and Function Parameter Optimization.
4.2.1. Web 功能识别 (Web Function Identification)
此阶段的目标是根据用户指令,选择正确的 Web function。
- 方法:
PUMA首先使用监督式微调 (Supervised Fine-tuning, SFT) 对一个预训练的LLM(例如LLaMa-2-7b)进行训练。 - 训练数据:
SFT的训练数据由“指令-功能”对 (instruction-functionpairs) 组成,这些对来自训练集。这使得LLM能够学习将特定的用户指令映射到相应的Web function。
4.2.2. 参数生成 (Parameter Generation)
在识别出正确的 Web function 后,下一步是生成该函数所需的具体参数。这一阶段是 PUMA 框架实现个性化的核心,分为任务特定记忆检索 (Task-specific Memory Retrieval) 和 功能参数优化 (Function Parameter Optimization)。
4.2.2.1. 任务特定记忆检索 (Task-specific Memory Retrieval)
这个模块旨在从用户的历史行为中提取与当前指令和识别出的功能最相关的信息。
-
长期记忆库 (Long-term memory bank):
- 存储内容: 对于每个用户 ,系统维护一个详细记录其历史
Web behaviors的长期记忆库。 - 行为组成: 这些行为包括用户购买的产品 和相关的评论 。
- 产品详情: 包含产品属性,如“标题”
title、“价格”price、“商店”store和其他元数据metadata。 - 评论详情: 包含“评分”
rating、“评论标题”review title和用户提供的“评论内容”comment。 - 形式化表示: 如果用户 购买了 个产品,其长期记忆 可以表示为: 其中, 代表一个具体的历史网络行为记录。
- 存储内容: 对于每个用户 ,系统维护一个详细记录其历史
-
任务特定记忆检索策略 (Task-specific memory retrieval strategy):
- 目的: 根据用户当前的指令 和已识别的
Web function,从长期记忆库中提取最相关的信息。 - 步骤 1:初步检索: 首先,通过计算用户指令 与记忆库中每个记忆条目 之间的余弦相似度 (cosine similarity) ,检索出最相关的 Top 个记忆条目。
- 步骤 2:特征提取: 然后,根据具体的
Web function,从这些 Top 记忆中提取更具针对性的特征:- 搜索 (Search) 功能: 提取产品详情,包括“产品标题”
product title、“类别”category、“价格”price和“商店”store。 - 推荐 (Recommendation) 功能: 保留产品“标题”
title、“类别”category和“父ASIN”parent ASIN(产品 ID)。 - 评论 (Review) 功能: 只保留用户的历史评分
ratings和评论内容comments。
- 搜索 (Search) 功能: 提取产品详情,包括“产品标题”
- 形式化表示: 任务特定记忆 的构建过程可以形式化为:
- 符号解释:
- :为指令 构建的任务特定记忆。
- :表示根据已识别的
Web function提取目标特征的操作。 - :表示从记忆库 中,根据指令 与每个记忆条目 的余弦相似度 ,检索出 Top 个最相关的记忆条目。
- :指令 与记忆条目 之间的余弦相似度。
- 符号解释:
- 目的: 根据用户当前的指令 和已识别的
4.2.2.2. 功能参数优化 (Function Parameter Optimization)
在获得任务特定记忆 后,需要利用这些记忆来生成 Web function 的参数。由于参数空间庞大,生成高质量参数具有挑战性,PUMA 采用两阶段优化方法:
-
启发式微调以生成参数 (Heuristic fine-tuning for parameter generation, SFT):
- 目的: 为
LLM提供生成合理参数的基础能力。 - 输入:
SFT的输入是用户指令 、任务特定记忆 和已识别的Web function的组合。 - 标签构建 (Pseudo-labels): 使用启发式方法为每个
Web function构建伪标签作为训练目标:- 搜索功能: 利用
ChatGPT[33] 根据指令和记忆生成文本查询textual queries。 - 推荐功能: 输出记忆 中相同类别下最近的产品
ASINs(产品 ID)。 - 评论功能: 使用数据集中提供的实际评论文本
actual review text作为标签。
- 搜索功能: 利用
- 作用: 这些启发式方法帮助构建有意义的伪标签,确保模型学习生成对每个
Web function都合理且符合上下文的函数参数。
- 目的: 为
-
多样化参数采样用于成对优化 (Diverse parameter sampling for pair-wise optimization, DPO):
-
目的: 进一步提升模型性能,使其生成更符合用户个性化偏好的参数。
-
步骤 1:生成多样化候选参数: 在
SFT后,PUMA通过高温采样 (high-temperature sampling) 和束搜索 (beam search) 生成一组多样化的函数参数候选。 -
步骤 2:评估并构建偏好数据: 根据这些候选参数完成指令后的结果准确性 (result accuracy),评估每个参数。对于每条指令 ,收集表现最好的参数 和表现最差的参数 ,构建成对偏好数据 。
-
形式化表示: 偏好数据定义为:
- 符号解释:
- :对于指令 ,表现最好的参数。
- :对于指令 ,表现最差的参数。
- :输入上下文,包括用户指令 、任务特定记忆 和
Web function。
- 符号解释:
-
步骤 3:应用 DPO 优化: 应用
DPO算法优化SFT后的模型 。DPO鼓励模型生成类似于 的函数参数,并抑制生成类似于 的参数。 -
DPO 损失函数:
- 符号解释:
- :
sigmoid函数。 - :一个类似于温度的参数
temperature-like parameter,控制模型偏好对策略模型 和参考模型 之间对数比差异的敏感度。 - :当前优化模型 在给定输入上下文 时生成参数 的概率。
- :从
SFT阶段得到的参考模型 在给定输入上下文 时生成参数 的概率。 - :期望值。
- :
- 符号解释:
-
作用: 通过这种成对优化,
PUMA能够更好地将LLM与用户的个性化偏好对齐,从而生成高质量的函数参数。通过以上两个阶段和多个子步骤,
PUMA框架将个性化数据有效融入LLM的决策过程,实现了Web agents的个性化指令理解和动作执行。
-
5. 实验设置
本节详细介绍论文的实验设置,包括数据集的构建、评估指标的定义以及对比基线模型的选择。
5.1. 数据集
为了解决 LLM-empowered personalized Web agents 任务缺乏综合评估基准的问题,论文构建了首个 个性化网络智能体基准 (Personalized Web Agent Benchmark, PersonalWAB)。
5.1.1. 数据集来源与构建流程
PersonalWAB 基于 Amazon Review 数据集 [15] 构建,该数据集提供了大量的用户 Web behaviors,包括购买和产品评分。构建过程分为三个步骤:
-
个性化数据构建 (Personalized Data Construction):
- 用户采样 (User sampling):从 Amazon Review 数据集中随机选择 1,000 名用户,这些用户分布在五个不同的产品类别中:电子产品
Electronics、家居与厨房Home and Kitchen、食品与美食Grocery and Gourmet Food、服装鞋履与珠宝Clothing, Shoes, and Jewelry、健康与家庭用品Health and Household。 - 用户交互收集: 对于每个选定的用户,收集他们在上述五个类别中的所有交互记录,包括详细的购买产品信息(如产品标题、价格、评分、商店)和用户评价(包括评分、标题和评论)。
- 数据划分: 将所有用户交互记录按时间顺序排列,并划分为:
- 历史数据 (historical data): 用于构建用户的长期记忆。
- 训练集 (training set): 用于模型训练。
- 测试集 (test set): 最后 用于模型评估。
- 用户资料生成 (User profile generation):
- 方法: 根据每位用户的完整历史行为,使用
LLM(具体是gpt-4o-mini-2024-07-18) 推断并总结其潜在的个性化资料。 - 资料结构: 每个用户资料包含以下关键维度(详细提示模板见 Figure 10 和 Figure 11):
- 基本信息 (Basic information): 性别
gender、年龄age、职业occupation,从产品类别和购买行为推断。 - 购物偏好 (Shopping preferences):
Price sensitivity(价格敏感度):用户倾向于预算型、中档型还是高端产品。Shopping interests(购物兴趣):用户最常关注的产品类型。Brand preferences(品牌偏好):用户购买历史中常提及的品牌。
- 行为倾向 (Behavioral tendencies):
Diversity preference(多样性偏好):用户是喜欢尝试新产品还是坚持熟悉的产品。Interaction complexity(交互复杂性):用户根据评论模式,是偏好简洁还是详细的交互。Tone and style(语气和风格):用户评论的情感基调和表达风格。Item reference(商品提及):用户在评论中提及特定产品或品牌的频率。Focus aspects(关注方面):用户在评论中倾向于优先考虑的产品特性(如价格、平均评分、品牌)。
- 基本信息 (Basic information): 性别
- 作用: 这些用户资料用于后续的个性化指令生成和多轮评估。
- 方法: 根据每位用户的完整历史行为,使用
- 用户采样 (User sampling):从 Amazon Review 数据集中随机选择 1,000 名用户,这些用户分布在五个不同的产品类别中:电子产品
-
用户指令创建 (User Instruction Creation):
- 方法: 由于收集真实的用户指令具有挑战性,论文采用
LLM(具体是claude-3-5-sonnet@20240620) 根据每个用户的资料和真实网络行为来生成个性化指令。 - 任务场景: 指令涵盖三种任务:
- 搜索指令 (Search instructions):根据用户资料和产品信息(品牌、类别、特性)生成搜索产品的指令。指令长度、语气和细节程度因用户资料而异(提示模板见 Figure 12)。
- 推荐指令 (Recommendation instructions):生成更通用、探索性强的推荐任务指令,基于用户资料和用户已整合的产品(提示模板见 Figure 13)。
- 评论指令 (Review instructions):根据用户资料、目标产品信息和实际评论文本,生成撰写评论的用户指令,包含用户个性化要求(提示模板见 Figure 14)。
- 方法: 由于收集真实的用户指令具有挑战性,论文采用
-
Web 环境实现 (Web Environment Implementation):
- 抽象方式: 将
Web environment抽象为一系列Web functions[4],而非Web GUIs[53],因为作者认为GUIs主要面向人类,对智能体并非必要。 - 已开发的 Web functions:
search_product_by_query(query):接受文本查询,返回 10 个最相似产品的详细信息。使用BM25和Pyserini[26] 实现。get_recommendations_by_history(product_ids):接受产品 ID 序列,返回 10 个推荐产品。使用在基准上训练的SASRec模型 [19] 实现,并移除了冷启动产品。add_product_review(review_text):接受评论文本,简化添加产品评论的过程。respond(message):允许智能体与用户进行对话,用于澄清或收集额外信息。stop():表示当前任务终止,不再需要进一步的动作。
- 抽象方式: 将
5.1.2. 数据集统计信息
以下是 PersonalWAB 基准的基本统计信息(摘自原文 Table 2):
以下是原文 Table 2 的结果:
| items | Train | Test | |
| User | # Users | 939 | 1,000 |
| # Avg. profile tokens | 247 | ||
| # Avg. behavior length # Avg. behavior tokens | 32 7,597 | 38 9,270 | |
| Instruction | # Instructions | 6,896 | 2,174 |
| # Avg. tokens | 46 | 45 | |
| Product | # Products | 8,236 | |
| # Avg. tokens | 665 |
- 用户统计: 训练集有 939 名用户,测试集有 1,000 名用户。平均用户资料
token数为 247。平均行为长度(购买产品数)训练集 32,测试集 38。平均行为token数训练集 7,597,测试集 9,270。 - 指令统计: 训练集有 6,896 条指令,测试集有 2,174 条指令。平均指令
token数训练集 46,测试集 45。 - 产品统计: 产品总数为 8,236。平均产品
token数为 665。
5.1.2.1. 用户多样性分析
论文通过 Figure 3 和 Figure 4 (a) 展示了用户资料和行为属性的分布:

该图像是论文中图3,展示了用户的性别、年龄和职业分布情况。图中以环形图形式分别显示了男性与女性比例、不同年龄段(25-34岁、35-44岁、46-49岁、56岁以上)用户占比,以及多种职业类别(如作家、家庭主妇、退休人员、自雇者等)的比例分布。
Figure 3: Distribution of users by gender, age, and occupation.
-
基本属性 (Figure 3): 用户在性别、年龄组和职业类别上分布合理,确保了数据集的多样性。
-
行为属性 (Figure 4 (a)): 大部分用户在价格敏感度
Price Sensitivity、多样性偏好Diversity Preference和交互复杂性Interaction Complexity上属于“中等”类别,同时也包含“高”和“低”类别,这使得基准能够测试典型和边缘的个性化任务。
该图像是图表,展示了图4中(a)用户在价格敏感度、多样性偏好和交互复杂度三个行为属性上的分布,以及(b)不同任务指令的数量和平均Token数统计情况。
Figure 4: (a) Distribution of behaviors by Price Sensitivity, Diversity Preference, and Interaction Complexity; (b) Statistics of the instructions on different tasks.
5.1.2.2. 指令统计分析
Figure 4 (b) 展示了不同任务指令的数量和平均 token 长度:
- 推荐指令
recommendation instructions的token数最少,因为推荐任务更具探索性,不包含太多用户具体要求。 - 评论指令
review instructions略比搜索search和推荐recommendation指令复杂,因为它们包含用户表达初步评价的词语。
5.1.2.3. 资料一致性评估 (Profile Consistency Evaluation)
论文遵循 [5] 的方法,进行了资料-行为一致性 (profile-behavior consistency) 和资料-产品一致性 (profile-product consistency) 评估,以验证生成的用户资料与实际行为和潜在兴趣产品之间的匹配程度。
-
资料-行为一致性评估: 任务是给定一个用户资料,在候选用户(包括真实用户和其他负样本用户)中识别出正确的用户,以
top-1 accuracy作为评估指标。 -
资料-产品一致性评估: 任务是使用用户资料对一组候选商品(包括用户曾交互过的正样本和随机采样的负样本)进行排名,以
NDCG@5和Recall@5作为评估指标。以下是原文 Figure 5 的结果:
该图像是图表,展示了个人资料一致性评估实验结果。图中对比了PersonalWAB与Apollonion在用户资料与产品关联召回(Recall@5)、归一化折损累积增益(NDCG@5)及行为准确率(Acc@1)三项指标上的性能,PersonalWAB均明显优于Apollonion,提升幅度分别为25.8%、18.3%和13.3%。
Figure 5: Results of profile consistency evaluation experiments. Our generated profiles align better with users' actual Web behaviors and interested products than Apollonion [5].
结果(Figure 5)表明,PersonalWAB 构建的资料在两项评估中均显著优于 Apollonion [5],显示出其资料与实际用户行为具有更强的区分度和一致性。
5.2. 评估指标
论文设立了单轮 (single-turn) 和多轮 (multi-turn) 两种评估轨迹,以全面评估 Web agents 的能力。
5.2.1. 单轮轨迹 (Single-turn Track)
在这种轨迹下,智能体只有一次机会执行用户指令。期望智能体能够调用适当的 Web functions 并通过配置最优参数来提供准确的结果。定义了两个指标:
-
功能准确率 (Function accuracy, function acc):
- 概念定义: 该指标评估智能体选择正确功能并以正确格式提供参数的能力。它关注智能体在任务中对工具的识别和使用是否正确。
- 计算方法: 如果智能体为任务选择了合适的工具,并且输入参数格式正确,则该任务得分为 1;否则为 0。
-
结果准确率 (Result accuracy, res acc):
- 概念定义: 该指标评估智能体输出结果的质量。它关注智能体最终返回给用户的搜索结果、推荐列表或评论文本是否符合预期。
- 计算方法:
- 对于搜索 (search) 和推荐 (recommendation) 指令: 使用目标产品在工具返回产品列表中的排名 来衡量。
- 符号解释:
- :目标产品在智能体返回的 10 个产品列表中的排名(从 1 开始)。
- 如果目标产品在前 10 名内,分数会根据排名递减,排名越靠前分数越高。
- 如果目标产品不在前 10 名内,得分为 0。
- 符号解释:
- 对于评论 (review) 指令: 评估智能体生成的评论与用户实际评论之间的相似度。
- 计算方法: 采用
sentence-transformer[37] 模型计算两者之间的余弦相似度 (cosine similarity),结果为 0 到 1 之间的值。
- 计算方法: 采用
- 对于搜索 (search) 和推荐 (recommendation) 指令: 使用目标产品在工具返回产品列表中的排名 来衡量。
5.2.2. 多轮轨迹 (Multi-turn Track)
论文认为 Web agents 与用户进行交互以接收反馈并持续调整其动作至关重要。由于使用真实人类进行基准评估不切实际,论文通过基于 LLM 的用户模拟器 (user simulator) 提供实时反馈(详见 Figure 15 中的提示模板)。
- 评估指标: 除了单轮轨迹中使用的
Function accuracy和Result accuracy外,引入了一个额外的评估指标:- 平均步骤数 (Average steps):
- 概念定义: 该指标通过计算完成任务所需的总动作数来衡量效率。它鼓励智能体以最少的尝试完成用户任务。
- 平均步骤数 (Average steps):
5.3. 对比基线
论文评估了一系列基线方法,这些方法采用不同的策略来选择和利用用户历史数据。这些基线分为三组:
-
记忆检索方法 (Memory Retrieval Methods):探索不同的记忆选择策略对任务性能的影响。
No Memory:智能体在不访问任何用户历史的情况下执行任务,仅依赖当前指令。Random Memory:从用户历史中随机选择行为。Last Memory:仅使用用户历史中最新的行为,假设最新上下文与当前指令更相关。Relevant Memory:根据与当前指令的余弦相似度 (cosine similarity) 选择过去的行为,旨在筛选出最相关的上下文细节。
-
增强推理方法 (Enhanced Reasoning Methods):旨在增强智能体的推理和决策能力。
ReAct[56]:该框架指导LLM在采取行动之前进行思考,生成“Thought: some reasoning Action: some JSON format action argument”以进行交互,使模型能够权衡可用信息并决定最合适的行动。Reflexion[42]:在ReAct的基础上增加了自我评估阶段,智能体在继续之前审查和分析其先前的行动和结果。此过程允许智能体识别错误、重新评估决策并在后续交互中改进其策略(仅在多轮轨迹中评估,将每个用户消息视为反馈)。
-
推荐特定记忆框架 (Recommendation-Specific Memory Frameworks):考虑到推荐任务的个性化本质,这些基线利用为推荐智能体开发的记忆机制。
RecMind[49]:一个用于通用推荐的LLM驱动智能体。包含个性化记忆 (personalized memory)(用户对特定商品的评论或评分)和世界知识 (world knowledge)(商品元数据和实时信息)。在本文设置中,保留个性化记忆,并添加了一个额外的函数,使RecMind能够访问详细的产品信息。InteRecAgent[17]:使用LLMs作为核心推理引擎,利用推荐模型作为交互式推荐的函数。其记忆结构包括候选总线 (candidate bus)(存储当前商品候选)和用户资料 (user profile)(捕获用户偏好的三个方面:“喜欢”、“不喜欢”和“期望”)。在本文实验中,采用用户资料记忆,并允许智能体在每个任务结束时更新此资料(仅在多轮设置中评估)。
5.4. 实现细节
5.4.1. 基准 (Benchmark)
- 用户资料生成: 使用
gpt-4o-mini-2024-07-18,因其在提取详细用户偏好(特别是品牌偏好)方面的卓越能力。 - 用户指令创建: 使用
claude-3-5-sonnet@20240620,因其能够生成自然、类似人类语气的指令。 - 用户模拟器: 在多轮轨迹中,使用
gpt-4o-mini-2024-07-18模拟用户消息,因为它能更好地遵循指令提供用户反馈。
5.4.2. 基线 (Baselines)
- 基础语言模型: 所有基线方法均使用
gpt-4o-mini-2024-07-18作为基础语言模型。 - 记忆检索基线:
- 单轮轨迹
memory length设置为 50 个行为。 - 多轮轨迹
memory length设置为 20 个行为,以允许用户消息和函数结果的额外输入长度。 Relevant Memory方法使用sentence-transformer[37] 计算余弦相似度来识别相关行为。
- 单轮轨迹
- 推理增强基线:
ReAct结合了Last Memory方法,确保推理过程具有最新上下文。Reflexion机制用于多轮场景,进一步扩展了ReAct。
- 推荐特定基线:
RecMind的memory length设置为 400 个行为(只包含用户评论和评分),并额外添加了一个get_product_details_by_asin函数,用于智能体检索详细产品信息。InteRecAgent在测试集评估性能之前,使用历史行为和训练数据集构建记忆。
5.4.3. PUMA
- 参数生成 SFT 标签: 使用
gpt-4o-mini-2024-07-18生成搜索功能的初始SFT标签。 - 微调模型: 在功能参数优化阶段,使用
LoRA[16] 对LLaMA2-7B[47] 模型进行微调。 - 硬件: 使用
NVIDIA A5000 GPUs。 - 学习率:
SFT阶段学习率为4e-3,DPO阶段学习率为5e-5。 - 批大小 (Batch Size): 每 GPU 批大小为 1。
- 记忆
token长度: 限制记忆token长度为 256、512 和 768,因为训练期间可用的最大序列长度有限。 - 多样化参数生成: 设置温度
temperature为 1.5 以增加输出多样性,并使用beam search,beam size为 10。
6. 实验结果与分析
本节将详细分析 PUMA 框架在 PersonalWAB 基准上的实验结果,并与各种基线方法进行比较。
6.1. 核心结果分析
6.1.1. 单轮轨迹 (Single-turn Track)
以下是原文 Table 3 的结果:
| Method (backbone) | Search | Recommendation | Review | Overall | ||||
| Function Acc. | Res Acc | Function Acc. | Res Acc | Function Acc. | Res Acc | Function Acc. | Res Acc | |
| No Memory (gpt-40) | 1.000 | 0.647 | 0.092 | 0.000 | 1.000 | 0.444 | 0.684 | 0.355 |
| Random Memory (gpt-40) | 0.974 | 0.640 | 0.296 | 0.018 | 0.996 | 0.442 | 0.745 | 0.357 |
| Last Memory (gpt-40) | 0.937 | 0.626 | 0.432 | 0.028 | 1.000 | 0.442 | 0.782 | 0.357 |
| Relevant Memory (gpt-4o) | 0.928 | 0.622 | 0.492 | 0.030 | 1.000 | 0.443 | 0.800 | 0.356 |
| ReAct [56] (gpt-40) | 0.903 | 0.605 | 0.560 | 0.027 | 0.996 | 0.444 | 0.815 | 0.350 |
| RecMind [49] (gpt-4o) | 0.981 | 0.645 | 0.226 | 0.017 | 0.990 | 0.442 | 0.721 | 0.359 |
| PUMA(gpt-40) | 1.000 | 0.649 | 0.939 | 0.048 | 1.000 | 0.449 | 0.979 | 0.373 |
| PUMA( LLaMA-7B ) | 0.996 | 0.652 | 0.987 | 0.054 | 1.000 | 0.538 | 0.994 | 0.406 |
分析:
- 现有基线(
gpt-4o作为骨干模型):- 搜索和评论任务: 这些任务的功能准确率
Function Acc.普遍较高(接近 1.000)。这表明LLM能够较好地识别搜索和评论功能。 - 推荐任务: 推荐任务的功能准确率非常低(例如
No Memory只有 0.092),这说明LLM在单轮设置下很难正确识别推荐功能。论文进一步分析指出,许多推荐指令被错误地分配给了搜索功能 (如 Figure 8 (b) 所示,尽管 Figure 8 (b) 是多轮的图,但可以作为侧面印证),这反映了功能选择的巨大难度。 - 结果准确率
Res Acc: 对于所有基线,结果准确率与No Memory基线相似,这意味着这些方法未能显著增强个性化任务的执行。即使功能选择正确,生成的参数也无法有效满足个性化需求。 - 记忆和推理方法:
Relevant Memory和ReAct等方法确实提高了功能准确率,表明检索相关信息和引入推理有助于功能选择。
- 搜索和评论任务: 这些任务的功能准确率
PUMA框架:- 卓越性能:
PUMA在所有任务中均实现了最高的功能准确率。尤其是对于推荐任务,PUMA(gpt-4o)达到了 0.939,PUMA(LLaMA-7B)更是达到了 0.987,这与基线的低性能形成了鲜明对比,凸显了PUMA在功能识别上的巨大进步。 - 结果准确率提升:
PUMA在所有任务中的结果准确率也显著提高。例如,PUMA(LLaMA-7B)在评论任务中达到 0.538,整体结果准确率达到 0.406。这表明PUMA不仅能正确选择功能,还能生成更优的参数。 - 效率和有效性:
PUMA使用较短的记忆和较小的LLM(LLaMA-7B)也能达到甚至超越gpt-4o骨干模型的性能,这表明其方法的高效性和有效性。
- 卓越性能:
6.1.2. 多轮轨迹 (Multi-turn Track)
以下是原文 Table 4 的结果:
| Method (backbone) | Search | Recommendation | Review | Overall | ||||||||
| F.Acc. | R.Acc. | Avg.Steps | F.Acc. | R.Acc. | Avg.Steps | F.Acc. | R.Acc. | Avg.Steps | F.Acc. | R.Acc. | Avg.Steps | |
| No Memory (gpt-40) | 0.996 | 0.656 | 2.398 | 0.096 | 0.000 | 2.420 | 1.000 | 0.446 | 2.019 | 0.685 | 0.358 | 2.280 |
| Random Memory (gpt-40) | 0.999 | 0.680 | 4.193 | 0.703 | 0.042 | 4.474 | 1.000 | 0.448 | 2.007 | 0.896 | 0.380 | 3.564 |
| Last Memory (gpt-40) | 0.996 | 0.676 | 4.229 | 0.708 | 0.045 | 4.252 | 1.000 | 0.449 | 2.007 | 0.897 | 0.381 | 3.498 |
| Relevant Memory (gpt-4o) | 0.996 | 0.686 | 4.233 | 0.715 | 0.042 | 4.564 | 0.999 | 0.448 | 2.008 | 0.899 | 0.383 | 3.609 |
| ReAct [56] (gpt-40) | 0.996 | 0.674 | 4.657 | 0.218 | 0.013 | 5.468 | 0.974 | 0.448 | 2.129 | 0.718 | 0.369 | 4.098 |
| Reflexion [42] (gpt-40) | 1.000 | 0.686 | 5.406 | 0.281 | 0.014 | 6.145 | 0.976 | 0.449 | 2.145 | 0.741 | 0.373 | 4.579 |
| RecMind [49] (gpt-40) | 0.997 | 0.642 | 6.728 | 0.347 | 0.026 | 6.003 | 0.997 | 0.451 | 2.107 | 0.771 | 0.364 | 4.938 |
| InteRecAgent [17] (gpt-40) | 0.999 | 0.642 | 3.110 | 0.618 | 0.022 | 3.008 | 1.000 | 0.447 | 2.001 | 0.867 | 0.362 | 2.706 |
| PUMA (gpt-40) | 0.999 | 0.720 | 5.082 | 0.984 | 0.052 | 3.791 | 1.000 | 0.453 | 2.002 | 0.994 | 0.399 | 3.608 |
分析:
- 多轮交互的优势: 相较于单轮轨迹,基线方法在搜索和推荐任务中表现更好,这得益于多轮尝试和用户反馈,能够逐步收敛到正确结果。然而,评论任务改进不大,因为其流程相对直接,反馈机会有限。
- 记忆检索基线:
Random Memory、Last Memory和Relevant Memory提高了功能准确率和结果准确率,但代价是增加了平均步骤数,因为它们需要更多交互来处理更长的记忆。 - 推理增强方法:
ReAct和Reflexion表现不如记忆检索方法,需要更多的步骤,并且在结果准确率上较低。它们的复杂性(推理和自我反思)似乎增加了input token长度,反而阻碍了任务效率和准确性。 - 推荐特定方法:
RecMind也需要较多步骤,因为它执行额外的函数调用,但在指令识别上遇到困难。InteRecAgent由于其精简的记忆结构,步骤较少,但这导致了较低的结果准确率。 PUMA框架:- 强大性能:
PUMA(使用gpt-4o作为骨干模型) 表现非常出色,特别是在搜索和推荐任务中,整体功能准确率高达 0.994,结果准确率达到 0.399。 - 效率与准确性: 通过提取相关信息并过滤冗余数据,
PUMA能够以更少的步骤做出更明智的决策。对于推荐任务,PUMA在功能准确率上达到 0.984,显著高于所有基线,并且在较低的平均步骤数下取得了更好的结果准确率。 - 局限性 (LLaMA-7B): 论文指出,由于模型限制,未能在多轮设置中评估完整的
PUMA方法(即LLaMA-7B版本)。但现有结果已强调了任务特定记忆 (Task-specific Memory) 在提升效率和准确性方面的重要性。
- 强大性能:
6.2. 深入分析
6.2.1. 消融实验 (Ablation Study)
以下是原文 Table 5 的结果:
| Method | Search | Recommendation | Review | Overall | |||||
| Function Acc Result Acc Function Acc Result Acc Function Acc Result Acc Function Acc Result Acc | |||||||||
| PUMA | 0.996 | 0.652 | 0.987 | 0.054 | 1.000 | 0.538 | 0.994 | 0.406 | |
| w/o Task-specific Memory | 0.990 | 0.643 | 0.992 | 0.008 | 1.000 | 0.496 | 0.994 | 0.373 | |
| w/o SfT | 1.000 | 0.000 | 0.983 | 0.000 | 1.000 | 0.160 | 0.994 | 0.054 | |
| w/o DPO | 0.996 | 0.648 | 0.987 | 0.047 | 1.000 | 0.529 | 0.994 | 0.399 | |
分析: 消融实验评估了 PUMA 关键组件的影响 (在单轮轨迹下使用 LLaMA-7B 作为骨干模型):
- 移除任务特定记忆 (
w/o Task-specific Memory): 导致结果准确率显著下降 (从整体 0.406 降至 0.373),尤其是在推荐任务中从 0.054 降至 0.008。这凸显了记忆在保留相关信息以生成函数参数方面的重要性。 - 移除 SFT (
w/o SFT): 结果准确率急剧下降 (从整体 0.406 降至 0.054)。这表明如果没有SFT的初步微调,模型很难生成符合用户需求的函数参数。功能准确率也受到影响,尽管总体的功能准确率仍能保持较高。 - 移除 DPO (
w/o DPO): 导致性能略有下降 (从整体 0.406 降至 0.399)。这表明DPO在将模型与用户偏好对齐,并提高函数参数质量方面发挥着关键作用,即使贡献幅度小于记忆和SFT。
6.2.2. 记忆长度分析 (Analysis on Memory Length)
以下是原文 Table 6 的结果:
| Memory Length | Search | Recommendation | Review | Overall | ||||
| Function Acc | Result Acc | Function Acc | Result Acc | Function Acc | Result Acc | Function Acc | Result Acc | |
| 256 | 0.997 | 0.651 | 0.985 | 0.019 | 1.000 | 0.530 | 0.994 | 0.391 |
| 512 | 0.991 | 0.648 | 0.988 | 0.032 | 1.000 | 0.531 | 0.993 | 0.395 |
| 768 | 0.996 | 0.652 | 0.987 | 0.054 | 1.000 | 0.538 | 0.994 | 0.406 |
分析: 评估了不同记忆 token 长度对 PUMA 性能的影响 (单轮轨迹下使用 LLaMA-7B 作为骨干模型):
- 功能准确率: 增加记忆长度对功能准确率的影响很小,模型在不同记忆大小下保持相似的性能。
- 结果准确率:
- 推荐任务: 记忆长度对结果准确率有显著影响,尤其是在推荐任务中。较短的记忆长度会减少存储的产品数量,限制了模型选择合适产品 ID 的能力,导致推荐准确率明显下降。
- 搜索和评论任务: 这些任务对记忆长度变化的敏感度较低,因为智能体更多地依赖指令中的信息而非记忆。这种对记忆依赖的减少也限制了模型在这些任务中进一步提升性能的潜力。
- 结论: 记忆长度对于需要详细历史上下文的任务(如推荐)至关重要,而对于主要依赖当前指令的任务(如搜索和评论),其影响较小。
6.2.3. 效率分析 (Analysis on Efficiency)
以下是原文 Figure 7 的结果:

该图像是图表,展示了不同方法在任务完成时间(秒)上的平均比较。图中显示PUMA方法用时最短,为2.8秒,显著优于其他方法。
Figure 7: Comparison between the average task completion time (in seconds) for different methods.
分析:
- GPT-based 方法:
GPT-based 方法(如No Memory、Random Memory、Last Memory、Relevant Memory、ReAct、RecMind)的平均完成时间在 6.5 到 6.9 秒之间,这主要归因于处理记忆的开销以及大型模型的推理时间。 PUMA框架:PUMA显著优于所有基线,平均完成时间仅为 2.8 秒。这种效率提升得益于PUMA使用了更小的模型(LLaMA-7B,尽管图中显示的是PUMA(gpt-4o),但其设计哲学和紧凑的记忆结构使其即便在gpt-4o骨干下也可能更高效,且表格数据已展示LLaMA-7B的优异性能),以及紧凑的记忆结构,最大限度地减少了推理时间。这使得PUMA在需要快速响应的实际Web应用中非常有效。
6.2.4. 动作转换分析 (Analysis on Action Transitions)
以下是原文 Figure 8 的结果:

该图像是论文中图8,展示了多轮搜索和推荐任务中代理动作的转变。不同颜色代表不同功能,横轴为交互步骤,颜色宽度体现代理对该动作的关注比例,流动展示策略调整过程。
Figure 8: Transitions of the agent's actions in multi-turn search and recommendation tasks. Each color represents a specific function. The horizontal axis shows interaction steps, while the width of each color band indicates the proportion of the agent's focus on that action. The flow between steps illustrates how the agent adapts its strategy over steps.
分析: 分析了 PUMA 在多轮轨迹中每次交互的动作(排除了通常两步完成的评论指令):
- 搜索指令 (Figure 8 (a)): 智能体倾向于交替调用“搜索”
search和“响应”respond函数。这是合理的,因为智能体可以通过“响应”功能接收用户反馈,从而调整其搜索动作。 - 推荐指令 (Figure 8 (b)): 推荐指令的行动流更加“缠绕”
entangled,表明行动转换更复杂。这突显了多轮推荐任务的挑战性,其中正确识别用户意图和动态调整行动比搜索等直接任务更困难。
6.2.5. 多轮性能变化分析 (Analysis of Multi-turn Performance Variation)
以下是原文 Figure 9 的结果:

该图像是图表,展示了多轮交互任务中智能代理在不同尝试步骤的平均响应准确率和对应尝试次数。折线图表示尝试次数的变化,柱状图则显示不同任务类别(搜索、推荐、回顾)及整体的准确率分布。
Figure 9: Analysis of the agent's performance across multiple attempts in multi-turn track.
分析: 评估了智能体在多轮轨迹中多次尝试后的性能:
- 任务完成时间: 前五次尝试中任务完成率很高,表明大多数任务在早期就完成了。评论
review任务通常在前两次尝试内完成,因为智能体很少需要与用户就评论要求进行互动。 - 结果准确率 (
Res Acc) 趋势: 结果准确率在初始尝试时较高,并随着后续尝试而下降。这是因为较简单的任务可以在几次尝试内解决,而较困难的任务则留到后面。 - 异常情况: 少数情况下,任务在后期尝试中实现了更高的
Res Acc,但这些是罕见的异常值,只涉及一两个任务。 - 用户反馈利用: 下降的
Res Acc也表明,智能体在后续尝试中难以有效利用用户反馈。这可能是由于缺乏多轮训练数据,阻碍了对智能体的相应调整。
6.2.6. 功能使用和结果准确率分析 (Analysis on Function Usage and Outcome Accuracy)
以下是原文 Table 7 的结果:
| Method | Search | Recommendation | ||||
| F. Acc. | R. Acc. | O. Acc. | F. Acc. | R. Acc. | O. Acc. | |
| No Memory | 1.000 | 0.647 | 0.647 | 0.092 | 0.000 | 0.155 |
| Random Memory | 0.974 | 0.640 | 0.642 | 0.296 | 0.018 | 0.159 |
| Last Memory | 0.937 | 0.626 | 0.632 | 0.432 | 0.028 | 0.161 |
| Relevant Memory | 0.928 | 0.622 | 0.631 | 0.492 | 0.030 | 0.159 |
| ReAct [56] | 0.903 | 0.605 | 0.628 | 0.560 | 0.027 | 0.160 |
| RecMind [49] | 0.981 | 0.645 | 0.647 | 0.226 | 0.017 | 0.152 |
| PUMA | 1.000 | 0.649 | 0.649 | 0.939 | 0.048 | 0.164 |
分析: 引入了结果输出准确率 (Outcome Accuracy, O. Acc.),它独立于所使用的功能来评估返回结果的正确性,以更好地与以用户为中心的目标对齐。
Function accuracy(F. Acc.) 和Result accuracy(R. Acc.) 在搜索和推荐任务之间差异显著。Outcome Accuracy(O. Acc.) 提供了对不同方法有效性的更平衡视角。PUMA在搜索和推荐任务中的Outcome Accuracy均最高,表明其在不被功能选择限制的情况下,能够提供最相关的结果。这反映了其在实际用户需求中,优先考虑相关性而非严格遵循功能的能力。
6.2.7. 搜索功能实现分析 (Analysis on Search Function Implementation)
以下是原文 Table 8 的结果:
| Method | Search (Result Accuracy) | |
| BM25 | Dense Retrieval | |
| No Memory | 0.647 | 0.502 |
| Random Memory | 0.640 | 0.504 |
| Last Memory | 0.626 | 0.498 |
| Relevant Memory | 0.622 | 0.499 |
| ReAct [56] | 0.605 | 0.496 |
| RecMind [49] | 0.645 | 0.498 |
| PUMA | 0.649 | 0.506 |
分析: 比较了 BM25 和密集检索 (Dense Retrieval) (Sentence-BERT [38] 实现) 两种搜索功能实现对结果准确率的影响 (单轮轨迹):
- 密集检索: 尽管它能捕获更丰富的语义表示,但也通过嵌入大量产品细节引入了噪声,导致所有基线的结果准确率略有下降。
- 趋势一致性: 尽管不同的检索方法会影响性能,但整体趋势保持一致。
PUMA框架无论使用哪种检索模型,都持续优于所有基线。 - 结论: 这表明
PUMA的优势在于其个性化机制,而不是特定于底层检索技术的选择。基准的模块化特性也允许未来探索其他检索模型和推荐策略。
6.2.8. 零样本和少样本性能分析 (Analysis on Zero-shot and Few-shot Performance)
以下是原文 Table 9 的结果:
| Method | Search | Recommendation | Review | Overall | ||||
| Function Acc. | Result Acc. | Function Acc. | Result Acc. | Function Acc. | Result Acc. | Function Acc. | Result Acc. | |
| No Memory | 1.000 | 0.684 | 0.050 | 0.000 | 1.000 | 0.388 | 0.625 | 0.328 |
| Random Memory | 0.974 | 0.684 | 0.301 | 0.060 | 0.996 | 0.391 | 0.715 | 0.352 |
| Last Memory | 1.000 | 0.683 | 0.314 | 0.058 | 1.000 | 0.396 | 0.730 | 0.353 |
| Relevant Memory | 0.928 | 0.675 | 0.405 | 0.078 | 1.000 | 0.397 | 0.743 | 0.358 |
| ReAct [56] | 0.945 | 0.675 | 0.475 | 0.080 | 0.996 | 0.393 | 0.774 | 0.358 |
| RecMind [49] | 0.973 | 0.680 | 0.320 | 0.063 | 0.996 | 0.394 | 0.722 | 0.354 |
| PUMA | 1.000 | 0.686 | 0.892 | 0.090 | 1.000 | 0.396 | 0.958 | 0.366 |
分析: 评估了 PUMA 在历史记录少于 10 条的 139 个用户(占测试集的 16.2%)上的表现 (单轮轨迹):
- 任务依赖性:
- 搜索任务: 性能保持稳定或略有提升,可能是因为无关信息减少。
- 推荐任务: 性能也有所提升,有限的记忆简化了检索过程。
- 评论任务: 性能下降,因为缺乏过去的评论阻碍了个性化响应。
PUMA的优势: 尽管存在这些变化,PUMA仍然持续优于所有基线,在所有任务中实现了最高的准确率,尤其在推荐场景中表现卓越。- 结论: 这表明
PUMA即使在用户历史数据稀疏(零样本zero-shot和少样本few-shot)的情况下也保持有效性,突出了其在用户数据不足时的适应性。
7. 总结与思考
7.1. 结论总结
本文开创性地将大型语言模型 (LLM) 驱动的网络智能体 (Web agents) 推进到个性化时代,旨在为用户提供量身定制的服务。研究团队明确定义了 LLM-empowered personalized Web agents 的任务,核心在于利用个性化用户数据 (personalized user data) 实现个性化指令理解 (personalized instruction understanding) 和个性化动作执行 (action execution)(即 Web function call)。
为了支持这一新兴任务的训练和评估,论文构建了首个全面的个性化网络智能体基准 (PersonalWAB)。该基准涵盖了多样化的用户资料和行为、三类个性化 Web 任务(搜索、推荐、评论生成)、可调用的 Web 功能,并提供了单轮和多轮两种评估范式。
为了使 LLM 适应个性化 Web agent 任务,论文提出了一种新颖的个性化用户记忆增强对齐 (PUMA) 框架。PUMA 利用用户记忆库 (user memory bank) 和任务特定检索策略 (task-specific retrieval strategy) 来过滤相关的历史行为,并通过微调 (fine-tuning) 和直接偏好优化 (DPO) 策略来对齐 LLM。
广泛的实验结果表明,PUMA 在 PersonalWAB 上始终优于现有 Web agents,能够更好地与个性化用户指令和偏好对齐。本文的工作为 LLM-empowered personalized Web agents 领域的未来研究奠定了基础,拓宽了研究范围,提出了新的挑战,并启发了新颖的方法。
7.2. 局限性与未来工作
论文作者指出了当前工作的局限性并提出了未来的研究方向:
-
扩展
PersonalWAB基准: 目前PersonalWAB专注于购物领域,未来计划通过纳入更多样化的任务场景来扩展基准,以进一步挑战和评估Web agents的个性化能力。 -
集成更复杂的
用户建模技术: 例如,引入动态偏好学习 (dynamic preference learning),可以增强智能体对用户不断变化的需求的适应性。 -
探索
用户在环 (user-in-the-loop)设置: 这为通过让用户积极参与流程来改进任务执行提供了激动人心的机会。这包括开发能够更好地整合用户反馈、主动识别缺失信息以及与用户互动以请求必要细节的智能体,从而提高任务完成的整体有效性和效率。除了作者提出的这些,论文在讨论部分
Section B也提到了其他一些局限性:
- 伦理和隐私考量 (Ethical and Privacy Considerations):
- 公平性 (Fairness): 个性化可能引入或放大决策过程中的偏差(例如流行度偏差 (popularity bias) [2]),导致曝光度集中和多样性受限。如果训练数据存在历史偏差,个性化也可能无意中歧视某些用户群体 [3]。未来需要考虑公平感知个性化技术 (fairness-aware personalization techniques) 和促进多样性的策略 (diversity-promoting strategies)。
- 数据安全 (Data security): 处理用户历史数据存在数据泄露的风险。未来的工作应整合隐私保护技术 (privacy-preserving techniques),在保持个性化优势的同时降低数据风险。
- 工作范围 (Scope of This Work):
- 目前工作主要在购物领域进行验证。尽管框架具有通用性,可扩展到新闻推荐、社交媒体内容管理等领域,但扩展到更广泛的
Web environments会带来额外的复杂性,需要进一步研究。
- 目前工作主要在购物领域进行验证。尽管框架具有通用性,可扩展到新闻推荐、社交媒体内容管理等领域,但扩展到更广泛的
7.3. 个人启发与批判
个人启发:
- 个性化是 LLM 应用的未来: 这篇论文清晰地展示了将个性化数据融入
LLM应用的巨大潜力。在通用LLM能力日益强大的今天,如何让LLM真正“懂我”、“为我所用”,个性化是不可或缺的一环。这对于智能助手、推荐系统、定制化内容生成等领域都具有重要的启发意义。 - 基准的重要性:
PersonalWAB的构建再次证明了高质量、针对特定挑战的基准是推动领域发展的关键。在缺乏标准评估框架的情况下,研究进展会受阻。 - 多阶段优化策略的有效性:
PUMA框架中SFT和DPO的结合,以及任务特定记忆的引入,提供了一个处理复杂LLM任务的有效范式。它首先通过SFT赋予模型基础能力,再通过DPO精细化对齐,这在许多LLM应用中都是值得借鉴的思路。 - Web Agents 的潜力: 论文进一步强调了
Web agents在自动化复杂在线任务方面的巨大前景,尤其是在个性化能力的加持下,它们有望成为未来人机交互的重要接口。
批判与可以改进的地方:
-
用户模拟器的保真度: 论文提到多轮轨迹中使用了
LLM-based用户模拟器。虽然这是当前研究的常见做法,但模拟器与真实人类用户的行为和反馈之间可能存在差距。模拟器可能无法完全捕捉真实用户的复杂情绪、模糊意图或意外行为。这可能会影响多轮交互评估结果的真实性和泛化能力。未来,可以探索更高级的用户行为建模 (user behavior modeling) 或小规模的真人评估 (human evaluation) 来验证模拟器的有效性。 -
个性化数据的来源与隐私权衡: 尽管论文讨论了伦理和隐私考量,但实际应用中,如何合法、合规且安全地获取和使用大规模的个性化用户数据仍然是巨大挑战。完全依赖用户主动提供的“个人资料”可能不足以支持精细化个性化。如何在数据量和用户隐私之间找到平衡点,是未来研究和商业化必须深入探讨的问题。
-
启发式伪标签的局限性:
PUMA在SFT阶段使用启发式方法生成伪标签。这些伪标签的质量会直接影响SFT模型的上限。尽管DPO可以进一步优化,但如果初始伪标签质量不佳,可能会限制最终性能。探索更智能、更少依赖启发式规则的标签生成方法可能是一个改进方向。 -
长尾和冷启动问题:
PersonalWAB在零样本和少样本场景下表现出了PUMA的鲁棒性,但对于极端长尾用户(行为极少)或新用户(无历史数据)的个性化,仍然是一个难题。虽然LLM的世界知识可以在一定程度上弥补,但如何有效建立这些用户的初始个性化画像仍需深入研究。 -
可解释性:
LLM的“黑箱”特性使得其决策过程难以解释。在个性化Web agent中,用户可能希望理解为什么智能体做出了某个推荐或搜索决定。提高Web agent决策过程的可解释性 (explainability) 是提升用户信任和满意度的重要方向。总体而言,这篇论文在个性化
Web agents领域做出了开创性工作,定义了新任务,提供了新基准和有效框架,具有重要的学术价值和实践潜力。未来的研究可以在这些基础上进一步深化和完善。
相似论文推荐
基于向量语义检索推荐的相关论文。