ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory
TL;DR 精炼摘要
本文提出ReasoningBank记忆框架,通过提炼智能体自我评估的成功与失败经验,形成可泛化推理策略,并在测试时检索相关记忆辅助决策,支持持续自我演化。结合记忆感知测试时扩展MaTTS,显著提升智能体在连续任务中的学习效率和表现。
摘要
With the growing adoption of large language model agents in persistent real-world roles, they naturally encounter continuous streams of tasks. A key limitation, however, is their failure to learn from the accumulated interaction history, forcing them to discard valuable insights and repeat past errors. We propose ReasoningBank, a novel memory framework that distills generalizable reasoning strategies from an agent's self-judged successful and failed experiences. At test time, an agent retrieves relevant memories from ReasoningBank to inform its interaction and then integrates new learnings back, enabling it to become more capable over time. Building on this powerful experience learner, we further introduce memory-aware test-time scaling (MaTTS), which accelerates and diversifies this learning process by scaling up the agent's interaction experience. By allocating more compute to each task, the agent generates abundant, diverse experiences that provide rich contrastive signals for synthesizing higher-quality memory. The better memory in turn guides more effective scaling, establishing a powerful synergy between memory and test-time scaling. Across web browsing and software engineering benchmarks, ReasoningBank consistently outperforms existing memory mechanisms that store raw trajectories or only successful task routines, improving both effectiveness and efficiency; MaTTS further amplifies these gains. These findings establish memory-driven experience scaling as a new scaling dimension, enabling agents to self-evolve with emergent behaviors naturally arise.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory (ReasoningBank:通过推理记忆扩展智能体的自我演化能力)
1.2. 作者
Siru Ouyang, Jun Yan, I-Hung Hsu, Yanfei Chen, Ke Jiang, Zifeng Wang, Rujun Han, Long T. Le, Samira Daruki, Xiangru Tang, Vishy Tirumalashetty, George Lee, Mahsan Rofouei, Hangfei Lin, Jiawei Han, Chen-Yu Lee, Tomas Pfister。
作者团队来自多个知名机构,包括伊利诺伊大学厄巴纳-香槟分校 (University of Illinois Urbana-Champaign)、Google Cloud AI 研究院 (Google Cloud AI Research)、耶鲁大学 (Yale University) 和 Google Cloud AI。其中,Google Cloud AI 研究院和 Google Cloud AI 的研究人员占多数,表明了该研究在工业界大型科技公司背景下对 大型语言模型 (Large Language Models, LLMs) 智能体 (agent) 实际应用和性能提升的关注。
1.3. 发表期刊/会议
该论文发布于 arXiv 预印本平台,其标识符为 。arXiv 是一个开放存取档案库,主要收录物理学、数学、计算机科学、量化生物学、量化金融、统计学、电气工程和系统科学、经济学等领域的预印本。作为预印本,它在正式同行评审和发表前公开,旨在快速分享研究成果,促进学术交流。
1.4. 摘要
随着 大型语言模型 (LLM) 智能体 (agent) 在持久性真实世界角色中日益普及,它们自然会遇到持续的任务流 (continuous streams of tasks)。然而,一个主要限制是它们未能从累积的交互历史中学习,这迫使它们丢弃宝贵的见解并重复过去的错误。
本文提出了 ReasoningBank,一种新颖的记忆框架,它从智能体自我判断的成功和失败经验中提炼 (distills) 可泛化的推理策略 (generalizable reasoning strategies)。在测试时 (test time),智能体从 ReasoningBank 中检索相关记忆来指导其交互,然后将新的学习成果整合回记忆库,使其能够随着时间的推移变得更加强大。
在此强大的经验学习器 (experience learner) 基础上,论文进一步引入了 记忆感知测试时扩展 (Memory-aware Test-Time Scaling, MaTTS)。MaTTS 通过扩展智能体的交互经验来加速并多样化这一学习过程。通过为每个任务分配更多的计算资源,智能体生成丰富多样的经验,这些经验为合成更高质量的记忆提供了丰富的对比信号 (contrastive signals)。反过来,更好的记忆指导更有效的扩展,从而在记忆和测试时扩展之间建立强大的协同作用 (synergy)。
在网络浏览 (web browsing) 和软件工程 (software engineering) 基准测试中,ReasoningBank 始终优于现有存储原始轨迹 (raw trajectories) 或仅成功任务例程 (successful task routines) 的记忆机制,提高了有效性 (effectiveness) 和效率 (efficiency);MaTTS 进一步放大了这些收益。这些发现确立了记忆驱动的经验扩展 (memory-driven experience scaling) 作为一个新的扩展维度,使智能体能够自我演化 (self-evolve) 并自然产生涌现行为 (emergent behaviors)。
1.5. 原文链接
原文链接: https://arxiv.org/abs/2509.25140 PDF 链接: https://arxiv.org/pdf/2509.25140v1.pdf 发布状态: 预印本 (published at UTC: 2025-09-29T17:51:03.000Z)。
2. 整体概括
2.1. 研究背景与动机
随着 大型语言模型 (Large Language Models, LLMs) 的快速发展,基于 LLM 的智能体 (agent) 已成为解决复杂真实世界任务的关键工具,例如网络浏览 (web browsing) 和计算机使用 (computer use)。这些智能体能够与环境进行多步交互,执行复杂的操作。然而,当这些智能体被部署到需要长期运行和处理持续任务流 (continuous streams of tasks) 的持久性 (persistent) 角色中时,它们面临着一个核心的局限性:它们无法有效地从其累积的交互历史中学习。
这一局限性导致了一系列问题:
-
重复过去的错误 (Repeat Past Errors): 智能体在面对相似问题时,无法吸取过去的教训,导致效率低下。
-
丢弃宝贵见解 (Discard Valuable Insights): 每次任务都被视为孤立事件,智能体无法从相关问题中提取可迁移的经验和策略。
-
缺乏自我演化能力 (Lack Self-Evolving Capabilities): 智能体系统无法随着时间的推移变得更强大、更适应环境,这与人类学习过程形成鲜明对比。
现有关于智能体记忆 (agent memory) 的研究,虽然在一定程度上改善了性能,但主要集中在以下两个方面,并存在不足:
-
存储原始轨迹 (Raw Trajectories): 简单地记录智能体过去的所有交互步骤。这种方法虽然全面,但轨迹往往冗长且嘈杂,难以直接提炼出高层次、可泛化的推理模式。
-
存储成功例程/工作流 (Successful Routines/Workflows): 仅记录那些导致任务成功的特定操作序列或程序。这种方法忽视了从失败经验中学习的巨大潜力,未能捕捉到“应该避免什么”或“为什么会失败”的宝贵教训。
因此,当前智能体的记忆系统更像是“被动记录”,而非“主动学习”和“提供可操作指导”。这导致了在面对新任务时,智能体依然受限于当前任务的上下文,无法有效地利用历史经验来指导决策,从而限制了其在真实世界中长期、持续提升性能的能力。
本文旨在解决这一关键空白,即如何构建一个能够从成功和失败经验中提炼出高层次、可迁移推理策略的记忆框架,并将其与 测试时扩展 (Test-Time Scaling) 机制结合,实现智能体的持续自我演化。
2.2. 核心贡献/主要发现
本文提出了 ReasoningBank 框架和 记忆感知测试时扩展 (MaTTS) 机制,其核心贡献和主要发现如下:
-
提出了
ReasoningBank记忆框架:ReasoningBank是一种新颖的记忆框架,能够从智能体自我判断的成功和失败经验中提炼出可泛化的推理策略 (generalizable reasoning strategies)。- 它将记忆项组织为结构化的知识单元,包含标题 (title)、描述 (description) 和内容 (content),抽象化了低层次的执行细节,更侧重于可迁移的推理模式。
- 创新点: 区别于以往只存储原始轨迹或成功例程的方法,
ReasoningBank不仅从成功中学习有效策略,也从失败中提取关键的预防性教训和反事实信号,从而提供更丰富的指导。 - 它以闭环方式运作:智能体检索相关记忆指导行动,任务完成后,新经验被分析、提炼并整合回
ReasoningBank,实现持续演化。
-
引入了
记忆感知测试时扩展 (MaTTS)机制:MaTTS旨在通过扩展智能体的交互经验深度,加速并多样化学习过程。- 创新点: 传统
测试时扩展 (Test-Time Scaling)通常独立地生成多个轨迹。MaTTS则利用这些额外计算资源生成丰富多样的经验,并通过“自对比 (self-contrast)”或“自细化 (self-refinement)”机制,为ReasoningBank提供高质量的对比信号,以合成更具泛化性的记忆。 MaTTS包含两种实现方式:- 并行扩展 (Parallel Scaling): 生成多个轨迹,通过相互对比来提炼更可靠的记忆。
- 顺序扩展 (Sequential Scaling): 在单个轨迹中进行迭代细化,利用中间推理信号丰富记忆。
-
建立了记忆与
测试时扩展 (Test-Time Scaling)之间的强大协同作用 (Synergy):- 双向促进: 高质量的
ReasoningBank记忆能够指导测试时扩展 (Test-Time Scaling)走向更有希望的路径,减少无效探索。反之,测试时扩展 (Test-Time Scaling)生成的丰富、多样化经验又能够反过来提炼出更强大、更具泛化性的记忆。 - 这种正反馈循环 (positive feedback loop) 使得记忆驱动的经验扩展成为智能体自我演化的新维度。
- 双向促进: 高质量的
-
在多项基准测试中验证了有效性:
-
在网络浏览 (
WebArena,Mind2Web) 和软件工程 (SWE-Bench-Verified) 基准测试中,ReasoningBank始终优于现有的记忆机制 (如Synapse,AWM),实现了更高的成功率 (relative improvement up to 34.2%) 和效率 (16.0% less interaction steps)。 -
MaTTS进一步放大了这些性能收益,尤其在泛化能力要求更高的任务上表现出色。 -
研究结果表明,这些方法能够使智能体从失败中学习,并随着时间的推移发展出日益复杂的涌现推理策略。
总之,本文通过提出
ReasoningBank解决了智能体记忆学习的深度和广度问题,并通过MaTTS提出了一种创新的测试时扩展 (Test-Time Scaling)范式,为构建能够持续学习、自我演化的LLM智能体奠定了基础。
-
3. 预备知识与相关工作
本节将介绍理解本文所需的基础概念,回顾相关的 大型语言模型 (LLM) 智能体 (agent) 记忆和 测试时扩展 (Test-Time Scaling) 方法,并分析本文方法与现有工作的差异。
3.1. 基础概念
3.1.1. 大型语言模型 (Large Language Models, LLMs)
大型语言模型 (LLMs) 是指具有数亿到数万亿参数的深度学习模型,通过在海量文本数据上进行预训练 (pre-training) 而获得。它们在各种自然语言处理 (Natural Language Processing, NLP) 任务中表现出色,例如文本生成、问答、摘要、翻译和推理。LLMs 的强大能力使其成为构建能够理解和执行复杂任务的智能体 (agent) 的核心组件。
3.1.2. LLM 智能体 (LLM Agents)
LLM 智能体 (LLM Agents) 是一种利用 大型语言模型 (LLM) 作为其核心“大脑”的自主系统。它们能够与环境进行多步交互,执行复杂任务。典型的 LLM 智能体架构通常包括:
-
感知 (Perception): 接收环境的观察 (observation),例如网页的
可访问性树 (accessibility tree)或代码片段。 -
思考/规划 (Thinking/Planning): 利用
LLM的推理能力,根据当前观察、任务目标和历史信息制定行动计划。 -
行动 (Action): 根据计划生成并执行具体操作,例如点击按钮、输入文本、运行命令行命令等。
-
记忆 (Memory): 存储和管理过去的经验,以便在未来的决策中进行利用。
-
工具使用 (Tool Use): 调用外部工具(如搜索引擎、计算器、代码解释器)来扩展自身能力。
本文关注的核心挑战是这些智能体在长期运行中如何有效利用其记忆进行持续学习和演化。
3.1.3. 测试时学习 (Test-Time Learning)
测试时学习 (Test-Time Learning) 是一种机器学习范式,其中模型在推理 (inference) 阶段,即部署到实际应用中时,仍然能够进行学习和适应。与传统的训练-测试分离模式不同,在 测试时学习 (Test-Time Learning) 中,模型会接收一系列流式到达的任务 (streaming tasks),并且需要在没有真值标签 (ground-truth labels) 的情况下,仅利用自身过去的轨迹和自我验证机制来持续改进。这种设置模拟了真实世界智能体在部署后需要自主适应和提升能力的场景。
3.1.4. 自我判断 (Self-judged)
在 测试时学习 (Test-Time Learning) 场景中,由于缺乏外部真值标签,智能体需要具备评估自身行为能力。自我判断 (Self-judged) 指的是智能体利用其内部机制(通常是 LLM-as-a-judge,即用 LLM 自身作为评判者)来评估其完成任务的轨迹 (trajectory) 是成功 (successful) 还是失败 (failed)。这种能力对于从经验中提取有意义的记忆至关重要,因为它为记忆系统提供了学习的“信号”。
3.1.5. 推理策略 (Reasoning Strategies)
推理策略 (Reasoning Strategies) 指的是智能体在解决问题时所采用的高层次、可泛化的思维模式或方法论。它不是具体的动作序列,而是指导行动选择和问题解决的抽象原则。例如,“当在购物网站上寻找商品时,先使用搜索框,然后使用筛选器细化结果”就是一种推理策略。本文的目标是提炼出这种可迁移的策略,而不是仅仅记住具体的点击步骤。
3.2. 前人工作
3.2.1. LLM 智能体记忆 (Memory for LLM Agents)
记忆模块是现代 LLM 智能体系统不可或缺的组成部分,旨在通过利用过去的信息来增强性能。现有的记忆系统在组织和存储信息方面采用了多种形式:
-
纯文本 (Plain Text): 直接存储原始的文本交互记录。
-
潜在知识嵌入 (Latent Knowledge Embeddings): 将知识编码为向量表示,便于语义检索。
-
结构化图 (Structured Graphs): 以图的形式组织信息,捕捉实体和关系。
除了记忆内容,这些方法通常还涉及检索机制(如语义搜索)和记忆管理策略(如更新)。最近,强化学习 (Reinforcement Learning, RL) 也被用于记忆管理。这些工作大多强调个性化 (personalization) 和长上下文管理 (long-context management)。本文的工作属于“从过去经验中学习”这一研究方向,对于开发自我演化智能体系统至关重要。
3.2.2. 轨迹记忆 (Trajectory Memory)
轨迹记忆 (Trajectory Memory) 是指存储智能体与环境交互的原始序列 (raw trajectories),即一系列观察和行动。例如,Synapse (Zheng et al., 2024) 是一种代表性工作,它将过去的轨迹作为 上下文记忆 (in-context memory) 进行组织和利用。这种方法的核心思想是,当遇到新任务时,检索与当前任务相似的过去轨迹,并将其作为示例 (exemplar) 提供给 LLM,以指导其生成行动。
先前工作补充:
Synapse 通过将过去成功解决任务的完整交互轨迹作为上下文示例 (in-context exemplars) 注入到 LLM 的提示中,从而引导 LLM 在新任务中复用成功的经验。它依赖于一个检索器 (retriever) 来找到与当前任务最相关的历史轨迹。
3.2.3. 工作流记忆 (Workflow Memory)
工作流记忆 (Workflow Memory) 比原始轨迹更进一步,它从过去的交互中抽象出常见、成功的例程 (routines) 或程序 (procedures)。例如,AWM (Agent Workflow Memory) (Wang et al., 2025d) 将这些模式提炼为可重用的工作流。这种方法试图从低级动作中提取更结构化和高层次的指导,以提高泛化能力。
先前工作补充:
AWM 识别并存储在特定任务类别或场景下反复出现的成功操作序列,将其封装为“工作流”。当新任务与某个工作流匹配时,智能体可以直接调用该工作流来执行一系列预定义的步骤,从而提高效率和成功率。
3.2.4. 智能体测试时扩展 (Agent Test-Time Scaling, TTS)
测试时扩展 (Test-Time Scaling, TTS) 是一种在推理时(而非训练时)分配额外计算资源以提升模型性能的策略。它在端到端问题解决任务中(如代码生成、数学推理)表现出强大效果。常见方法包括:
-
Best-of-N (BoN): 生成 个候选答案,然后从中选择最佳的一个。 -
Beam Search: 一种启发式搜索算法,在每一步保留多个最有希望的候选路径。 -
Verifiers: 使用独立的验证器 (verifier) 来评估和筛选生成结果。然而,
测试时扩展 (TTS)在多轮交互式智能体场景中的应用尚不充分。现有工作主要将推理任务 (reasoning tasks)中的经验适应到智能体领域,扩展了搜索空间 (search space)、多智能体系统中的智能体数量 (number of agents) 或与环境的交互次数 (number of interactions)。但这些努力都没有考虑智能体记忆在扩展中的作用。
3.3. 差异化分析
本文的工作与上述前人工作的主要区别和创新点在于:
-
记忆内容:从原始轨迹/成功例程到可泛化推理策略。
ReasoningBank与轨迹记忆 (Trajectory Memory)(如Synapse)和工作流记忆 (Workflow Memory)(如AWM)的核心区别在于它存储的记忆粒度 (granularity) 和抽象层次。Synapse存储的是原始的、具体的交互轨迹,其泛化能力受限于轨迹的相似性。AWM存储的是成功的、程序化的工作流,但这些工作流仍可能过于具体,难以应对高度变化的场景,并且忽略了失败的教训。ReasoningBank则提炼出更高层次的、可迁移的推理模式和策略,这些策略是抽象化的、不受特定网站或具体操作限制的原则。例如,不再是“点击 ID 为 188 的按钮”,而是“检测分页模式并检查所有相关订单项”。这使得记忆项更具可迁移性 (transferability)。
-
记忆来源:从仅成功经验到成功与失败经验并重。
Synapse和AWM等基线方法主要或完全依赖于成功经验来构建记忆。ReasoningBank创新性地同时利用智能体自我判断的成功和失败经验。成功经验提供“有效策略”的信号,而失败经验则提供“应避免的陷阱”和“反事实信号”,从而使记忆更加全面和鲁棒。这种从失败中学习的能力是现有方法普遍缺乏的。
-
记忆与
测试时扩展 (Test-Time Scaling)的协同作用。-
本文首次提出了
记忆感知测试时扩展 (MaTTS),并明确指出LLM智能体中的记忆机制应与测试时扩展 (Test-Time Scaling)协同工作。 -
现有
测试时扩展 (Test-Time Scaling)方法(如Best-of-N、Beam Search)通常是独立的计算扩展,并未考虑记忆在指导探索和提炼更高质量记忆中的作用。 -
MaTTS通过“自对比”和“自细化”机制,确保了额外计算资源产生的多样化经验能够被有效利用,以提炼出更具泛化性的记忆,从而形成一个强大的正反馈循环。综上所述,
ReasoningBank和MaTTS的提出,不仅提升了智能体记忆的抽象层次和全面性,还创新性地将记忆与计算扩展相结合,为LLM智能体的自我演化和长期学习开辟了新途径。
-
4. 方法论
本节将详细阐述 ReasoningBank 框架及其与 记忆感知测试时扩展 (MATTS) 的集成。
4.1. 问题定义与设置 (Problem Formulation)
本文关注的是基于 大型语言模型 (LLM) 的智能体 (agent) 在 测试时学习 (Test-Time Learning) 场景下的问题。
4.1.1. 智能体配置 (Agent Configuration)
智能体策略 (agent policy) 由骨干 大型语言模型 (LLM) 参数化,并受记忆模块 和动作空间 (action space) 的条件约束。为简化表示,有时简写为 。
智能体需要通过与环境交互来执行任务,这被视为一个序列决策过程 (sequential decision-making process)。环境的转移函数 (transition function) 定义为 ,其中 s _ { t } 是在时间步 的状态 (state), a _ { t } 是由 选择的动作 (action)。
- 任务类型: 本文主要关注网络浏览 (web browsing) 和软件工程 (software engineering, SWE) 任务。
- 动作空间 :
- 对于网络浏览任务, 是一组网页导航操作 (web navigation operations)。
- 对于软件工程任务, 是一组
bash命令。
- 记忆模块 : 初始时, (即
ReasoningBank) 是空的。 - 交互轨迹 (Trajectory): 对于每个给定任务,智能体生成一个长度为 的轨迹
( o _ { 0 : t } , a _ { 0 : t } ),其中o _ { t }是当前状态s _ { t }的观察 (observation)。- 观察
o _ { t }:- 对于网络浏览任务,观察是网页的文本
可访问性树 (accessibility tree)。 - 对于软件工程任务,观察是代码片段。
- 对于网络浏览任务,观察是网页的文本
- 观察
- 决策过程: 智能体需要通过 生成下一个动作 。
- 记忆集成: 在实现中,记忆模块 通过将相关记忆作为额外的系统指令 (system instruction) 注入到 中来发挥作用。
4.1.2. 测试时学习 (Test-Time Learning)
本文专注于 测试时学习 (Test-Time Learning) 范式,其中一系列任务查询 以流式 (streaming fashion) 方式到达,即每个查询被揭示后必须按顺序完成,不能访问未来的查询。
在这种设置下:
- 无真值标签 (No Ground Truth): 在测试时没有真值标签可用,智能体必须通过利用自己过去的轨迹和任何自我验证 (self-verification) 机制来持续演化,而不依赖外部标签。
- 核心挑战:
- 如何从过去的轨迹中提取和保存有用的记忆。
- 如何有效地利用这些记忆来处理未来的查询,以避免重复发现已成功的策略或重复过去的错误。
4.2. ReasoningBank 框架
原始的交互轨迹 (raw trajectories) 尽管全面,但往往冗长且嘈杂,难以直接应用于当前的查询。ReasoningBank 通过提炼 (distills) 有用的策略和推理提示 (reasoning hints) 到结构化的记忆项中,并存储以供未来重用。
4.2.1. 记忆模式 (Memory Schema)
ReasoningBank 中的记忆项被设计为从过去经验中诱导出的结构化知识单元。它们抽象掉了低层次的执行细节,同时保留了可迁移的推理模式和策略。每个记忆项包含三个组件:
-
标题 (Title): 简洁的标识符,概括了核心策略或推理模式。
-
描述 (Description): 对记忆项的简短一句话总结。
-
内容 (Content): 记录了从过去经验中提炼出的推理步骤、决策原理或操作见解。
这些提取出的记忆项既可供人类解读 (human-interpretable),又可供机器使用 (machine-usable),促进了与智能体的有效使用和集成。
4.2.2. 与智能体集成 (Integration of REAsonINGBANK with Agents)
一个配备了 ReasoningBank 的智能体可以利用精选的可迁移策略池来指导决策。这使得智能体能够回忆有效的见解,避免过去观察到的陷阱,并更稳健地适应未见的查询。集成过程分为三个步骤:
4.2.2.1. 记忆检索 (Memory Retrieval)
- 当智能体面临新任务时,它使用当前查询上下文 (current query context) 向
ReasoningBank进行查询。 - 检索机制: 使用基于嵌入的相似性搜索 (embedding-based similarity search) 来识别
top-k个最相关的经验及其对应的记忆项。 - 注入方式: 检索到的记忆项被注入到智能体的系统指令 (system instruction) 中,确保决策过程能够利用有用的过去经验。
4.2.2.2. 记忆构建 (Memory Construction)
-
当当前查询任务完成后,智能体执行记忆构建以提取新的记忆项。
-
正确性信号 (Correctness Signals): 首先,通过
LLM-as-a-judge(Gu et al., 2024) 机制,在没有真值标签的情况下,根据查询和轨迹,将任务结果标记为成功 (success) 或失败 (failure)。 -
提取策略:
- 成功经验: 贡献经过验证的策略 (validated strategies)。
- 失败经验: 提供反事实信号 (counterfactual signals) 和陷阱 (pitfalls),有助于完善防护措施 (sharpen guardrails)。
-
多记忆项提取: 实际上,每次轨迹会提取多个记忆项。
系统指令(图8)用于指导从智能体轨迹中提取记忆项。 从成功轨迹提取记忆的系统指令:
该图像是两部分的示意图,展示了基于成功轨迹和失败轨迹的系统指令对比,指导提取和总结记忆条目,以帮助智能体学习和提升任务完成能力。
左侧面板展示了针对成功轨迹的系统指令。它要求 LLM 分析轨迹为何成功,并总结可迁移的推理策略。具体内容会要求 LLM 深入思考成功的模式,例如:
Why did this trajectory succeed?(为什么这个轨迹成功了?)What generalizable strategy or reasoning pattern led to this success?(什么可泛化策略或推理模式导致了成功?)How can this insight be applied to similar future tasks?(这个见解如何应用于未来类似任务?)
从失败轨迹提取记忆的系统指令:
右侧面板展示了针对失败轨迹的系统指令。它要求 LLM 反思失败的原因,并阐明教训或预防策略。具体内容会要求 LLM 深入思考失败的原因,例如:
-
What were the root causes of the failure?(失败的根本原因是什么?) -
What mistakes were made?(犯了哪些错误?) -
What preventive strategies or guardrails can be formulated to avoid similar failures in the future?(可以制定哪些预防策略或防护措施来避免未来类似的失败?)在这两种设置中,输出格式都限制为最多三个以结构化
Markdown格式表达的记忆项,以确保结果简洁、无冗余,并且在任务间具有泛化性,而非仅限于特定网站或查询。
LLM-as-a-Judge 用于获取成功/失败二元信号(图9)。
该图像是一个折线图,展示了使用不同数量经验对成功率的消融实验结果。横轴为经验数量,纵轴为成功率,图中显示经验数量为1时成功率最高达49.7%。
该指令用于自评估,以获取成功或失败的二元信号。给定用户意图 (User Intent)、解决查询的轨迹 (Trajectory)、网页的最终状态 (The detailed final state of the webpage) 和智能体对用户的响应 (Bot response to the user),LLM 被要求输出“Success”或“Failure”的状态,判断给定轨迹是否成功解决了查询。指令强调输出必须严格遵循两行格式: 和 。
4.2.2.3. 记忆整合 (Memory Consolidation)
-
记忆整合是将新构建的记忆项纳入
ReasoningBank的过程。 -
机制: 采用简单的添加操作 (simple addition operation),将新生成的记忆项直接添加到
ReasoningBank中,维护一个不断演进的记忆项存储库。上述步骤共同形成了一个闭环过程:智能体利用过去的经验,从当前任务中构建新记忆,并不断更新其记忆,从而在
测试时学习 (Test-Time Learning)场景中实现持续演化。ReasoningBank的整体概述图示:
该图像是论文中ReasoningBank架构的示意图,展示了代理与环境的交互经验如何通过记忆提取器转化为结构化的记忆条目,并通过记忆检索和整合形成闭环记忆过程,图中包含任务序列与记忆处理流程。
图2 展示了 ReasoningBank 的概览。经验被提炼成具有标题、描述和内容的结构化记忆项。对于每个新任务,智能体从 ReasoningBank 中检索相关项以与环境交互,然后从成功和失败的轨迹中构建新项。这些项随后被整合到 ReasoningBank 中,形成一个闭环的记忆过程。
4.3. MATTS: 记忆感知测试时扩展 (Memory-aware Test-Time Scaling)
ReasoningBank 使得智能体能够从经验中学习,将更多经验转化为更大的改进。测试时扩展 (Test-Time Scaling, TTS) (Snell et al., 2025) 近来已成为提升 LLM 智能体性能的强大策略,它通过分配额外的推理时计算资源来生成丰富的探索历史。
ReasoningBank 与 测试时扩展 (Test-Time Scaling) 的直接结合(图3(a))是将更多轨迹独立地转换为更多记忆项。然而,这种朴素 (vanilla) 的形式是次优的,因为它没有利用在同一问题上冗余探索所产生的内在对比信号 (inherent contrastive signal),从而限制了 测试时扩展 (Test-Time Scaling) 带来的性能优势。
为解决此问题,本文提出了 记忆感知测试时扩展 (Memory-aware Test-Time Scaling, MATTS),这是一种将 测试时扩展 (Test-Time Scaling) 与 ReasoningBank 新颖集成的方法。与朴素方法不同,MATTS 有意从扩展过程中生成的大量成功和失败轨迹中学习,以实现更有效的记忆策展 (memory curation)。本文设计了 MATTS 的两种互补实现方式:并行扩展 (parallel scaling) 和顺序扩展 (sequential scaling)。
图3 比较了 (a) 朴素 测试时扩展 (TTS) 和 MATTS:(b) 并行扩展通过多轨迹之间的自对比来策展可靠记忆,(c) 顺序扩展通过自细化用中间推理信号丰富记忆。
该图像是图表,展示了REAs在ReasoningBank记忆项上的新兴行为示例,反映了测试时间学习过程中步骤和策略的时间线,包括自我反思、程序执行、适应性检查和复杂策略等关键节点。
4.3.1. 并行扩展 (Parallel Scaling)
在并行设置中,智能体在检索到的记忆项的指导下,为同一个查询生成多条轨迹 (multiple trajectories)。
-
机制: 通过比较和对比这些轨迹(
自对比 (self-contrast)),MATTS能够提炼出更可靠的记忆。这种方法利用了冗余探索,通过成功和失败的对比信号来辨别出有用的推理模式,去除虚假解决方案。 -
优势: 促进了多样化的探索,并能从单个查询的多次尝试中实现更可靠的记忆策展。
图10的左侧面板展示了并行扩展的系统指令。
该图像是论文中图14的示意图,展示了Baseline(无记忆)和Reasoning Bank两种方法在查询用户首次购买日期时的对比。Reasoning Bank通过调用记忆中的推理提示,成功检索完整订单历史并给出正确答案,而Baseline仅依赖近期订单信息,回答错误。
在并行扩展设置中,提供了针对同一查询的多条轨迹(包括成功和失败的),模型被指示进行 自对比推理 (self-contrast reasoning)。模型直接比较和对比轨迹,识别导致成功的模式和导致失败的错误。这提供了对比信号,将记忆提取过程基于结果之间可观察到的差异,从而产生更可靠和可迁移的见解。
4.3.2. 顺序扩展 (Sequential Scaling)
顺序扩展遵循 自细化 (self-refinement) (Madaan et al., 2023) 原则,在初始完成后,智能体在单个轨迹内迭代地细化其推理。
-
机制: 在此过程中,
自细化 (self-refinement)中生成的中间笔记 (intermediate notes) 也被用作宝贵的记忆信号,因为它们捕捉了可能未出现在最终解决方案中的推理尝试、修正和见解。 -
优势: 丰富了记忆,使其包含更深层次的推理过程。
图10的右侧面板展示了顺序扩展的系统指令。
该图像是论文中图14的示意图,展示了Baseline(无记忆)和Reasoning Bank两种方法在查询用户首次购买日期时的对比。Reasoning Bank通过调用记忆中的推理提示,成功检索完整订单历史并给出正确答案,而Baseline仅依赖近期订单信息,回答错误。
在顺序扩展设置中,模型通过检查指令 (check instructions) 反复重新检查其自身轨迹,确保迭代过程中的一致性和修正,而无需外部判断。例如,First-time Check Instruction 要求重新审查推理步骤和行动,特别关注元素使用和对用户查询的响应,并纠正不一致之处。Follow-up Check Instruction 则是后续的简单检查指令。
4.3.3. 扩展因子 (Scaling Factor)
本文定义了扩展因子 :
-
对于并行扩展, 表示为同一查询生成的轨迹数量。
-
对于顺序扩展, 表示为细化步骤的数量。
配备
ReasoningBank后,并行和顺序策略都变得记忆感知 (memory-aware),确保在测试时分配的额外计算资源能够转化为未来任务更具可迁移性和更高质量的记忆。
4.4. Best-of-N (BoN) 计算细节
为了评估 测试时扩展 (Test-Time Scaling) 的效果,特别是在并行扩展中,需要从 个候选轨迹中选择“最佳”答案。
图11展示了用于从 条候选轨迹中获取最佳答案的系统指令。
该图像是图表,展示了在并行扩展条件下,不同方法(MaTTS及其变体)在Pass@k指标上的表现变化,其中k为扩展因子。图中清晰标注了不同k下各方法的数值,体现了MaTTS的优势。
给定任务查询和智能体系统生成的 条轨迹,LLM 被用作选择最佳答案的工具。LLM 的骨干模型与智能体系统相同。所有 条轨迹一次性输入给模型,并使用精心设计的提示,要求模型根据以下 评估标准 (Evaluation Criteria) 选择最佳答案:
- 解决问题 (Problem Solving): 智能体是否有效、可靠地解决了核心问题,而不仅仅是表面进展。
- 效率 (Efficiency): 智能体是否以更少的步骤找到解决方案,特别是在它走上正确轨道时,奖励不必要的探索减少。
- 价值深度比 (Value-to-Depth Ratios): 奖励高效的搜索空间探索。
- 一致性进展和连贯规划 (Consistent Progress and Coherent Planning): 奖励持续的进展和清晰的计划。
输出格式要求
LLM解释其推理过程,并选择最佳轨迹,参考进展、效率、循环检测、错误严重性和整体质量。
5. 实验设置
本节将详细介绍本文实验所使用的数据集、评估指标、对比基线以及具体的实现细节。
5.1. 数据集
本文在三个具有挑战性的智能体基准测试中进行了实验,涵盖了网络浏览 (web browsing) 和软件工程 (software engineering) 领域,以全面评估 ReasoningBank 的性能和泛化能力。
5.1.1. WebArena
WebArena (Zhou et al., 2024) 是一个用于评估网络浏览智能体 (web browsing agents) 的基准测试。它模拟了真实世界的网络环境,包含多样化的领域和复杂任务。
- 总实例数: 684 个测试实例。
- 子集和实例分布:
Shopping(购物): 187 个实例。Admin(管理): 182 个实例。Gitlab(代码协作/管理): 180 个实例。Reddit(社交论坛): 106 个实例。Multi(多网站综合): 29 个实例。
- 特点: 任务要求智能体在多个网站之间进行导航和交互,解决复杂的、需要多步操作的问题。
Multi子集专门设计用于测试智能体在不同网站间迁移知识的能力。 - 选择原因: 该数据集覆盖了广泛的真实网络场景,是评估智能体泛化性和鲁棒性的标准基准。
5.1.2. Mind2Web
Mind2Web (Deng et al., 2023) 是另一个用于测试智能体在通用操作和环境上泛化能力的数据集。它旨在评估智能体在面对新任务、新网站和新领域时的适应性。
- 总实例数: 1341 个测试实例。
- 设置和实例分布:
Cross-Task(跨任务): 252 个实例。Cross-Website(跨网站): 177 个实例。Cross-Domain(跨领域): 912 个实例。
- 特点: 逐步增加泛化难度。
Cross-Task测试智能体对相似任务的泛化;Cross-Website测试对不同但结构相似网站的泛化;Cross-Domain测试对全新领域网站的泛化,要求最高的泛化水平。 - 选择原因: 提供了严格的泛化测试,能够有效评估
ReasoningBank提炼的可迁移推理策略的质量。
5.1.3. SWE-Bench-Verified
SWE-Bench-Verified (Jimenez et al., 2024) 是一个用于评估智能体在软件工程任务中解决代码库级别问题能力的基准测试。
-
总实例数: 500 个高质量、经过手动验证的测试实例。
-
任务: 每个实例要求智能体生成一个补丁 (patch) 来解决输入问题描述中提到的底层错误。目标是修改代码库的相关部分,使所有提供的测试脚本成功执行。
-
特点: 任务复杂,涉及代码理解、修改和验证,反映了真实世界软件开发中的挑战。
-
选择原因: 提供了在代码生成和问题解决领域评估智能体性能的严格标准。
数据集样本示例: 论文原文没有提供具体的文本或图像样本,但描述了任务类型。例如,WebArena 的任务可能涉及在购物网站上查找特定商品并添加到购物车;SWE-Bench-Verified 的任务则要求修复一个代码库中的
bug,例如更改函数实现以通过单元测试。
5.2. 评估指标
本文针对不同的基准测试使用了不同的评估指标,以全面衡量智能体在有效性 (effectiveness) 和效率 (efficiency) 方面的表现。
5.2.1. WebArena 评估指标
-
成功率 (Success Rate, SR ↑):
- 概念定义: 成功率是衡量智能体成功完成用户查询任务的百分比。它反映了智能体解决问题的有效性。
- 数学公式:
- 符号解释:
- : 成功率。
- : 智能体被判定为成功完成的任务总数。
- : 实验中尝试解决的所有任务的总数。
- 验证方法: 遵循基准测试的默认评估协议,使用
LLM进行模糊匹配 (LLM-based fuzzy matching) 和精确字符串匹配 (exact string matching) 来验证核心答案项是否出现在智能体的输出中。
-
步数 (Steps ↓):
- 概念定义: 步数是智能体完成每个查询任务所需的平均交互步骤数。它反映了智能体解决问题的效率,更少的步数通常意味着更高的效率。
- 数学公式:
- 符号解释:
- : 平均交互步数。
- : 任务总数量。
- : 智能体在第 个任务中执行的动作总数。
- 验证方法: 直接记录智能体与环境交互的次数。
5.2.2. Mind2Web 评估指标
Mind2Web 数据集中的每个任务都有预定义的固定步数,智能体需要在每一步预测一个动作。
-
元素准确率 (Element Accuracy, EA ↑):
- 概念定义: 衡量智能体在每一步中是否正确选择了目标页面元素。
- 数学公式:
- 符号解释:
- : 元素准确率。
- : 任务总数量。
- : 第 个任务中的总步数。
- : 指示函数,如果条件为真则为1,否则为0。
-
动作 F1 (Action F1, AF1 ↑):
- 概念定义: 衡量智能体对所选元素执行的动作是否正确。
F1分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值,对于分类任务尤其有用。 - 数学公式:
- 符号解释:
- : 精确率,表示被预测为正确动作中实际正确的比例。
- : 召回率,表示所有实际正确动作中被正确预测的比例。
- : 正确预测的正确动作。
- : 错误预测的正确动作。
- : 未能预测的正确动作。
- 概念定义: 衡量智能体对所选元素执行的动作是否正确。
-
步骤成功率 (Step Success Rate, SSR ↑):
- 概念定义: 衡量在给定步骤中,元素选择和动作执行都正确的比例。
- 数学公式:
- 符号解释:
- : 步骤成功率。
- : 任务总数量。
- : 第 个任务中的总步数。
- : 指示函数,如果条件为真则为1,否则为0。
-
任务级成功率 (Task-level Success Rate, SR ↑):
- 概念定义: 衡量整个任务中所有中间步骤都成功完成的比例。只有当一个任务的所有步骤的步骤成功率都为1.0时,该任务才被视为成功。
- 数学公式:
- 符号解释:
- : 任务级成功率。
- : 任务总数量。
- : 指示函数,如果一个任务的所有步骤都成功,则为1,否则为0。
5.2.3. SWE-Bench-Verified 评估指标
-
解决率 (Resolve Rate ↑):
- 概念定义: 衡量智能体成功修复代码库问题的百分比。如果智能体提交的补丁通过了所有测试脚本,则认为问题得到解决。
- 数学公式:
- 符号解释:
- : 问题解决率。
- : 智能体提交的补丁通过所有测试的问题总数。
- : 实验中尝试解决的所有代码问题的总数。
- 验证方法: 遵循官方评估脚本,通过尝试将生成的补丁应用到代码库并运行测试脚本来验证。
-
步数 (Steps ↓):
- 概念定义: 智能体在每个代码问题实例中执行的平均交互步骤数。与
WebArena中的定义类似,用于衡量效率。 - 数学公式: 同
WebArena。 - 符号解释: 同
WebArena。
- 概念定义: 智能体在每个代码问题实例中执行的平均交互步骤数。与
5.3. 对比基线 (Baselines)
本文将 ReasoningBank 与以下具有代表性的记忆增强方法进行了比较:
-
无记忆 (No Memory):
- 描述: 这是最基础的
LLM智能体配置,不包含任何记忆模块。它完全依赖于当前的任务提示和上下文来生成行动。 - 代表性: 作为参照点,用于衡量记忆模块带来的性能提升。
- 描述: 这是最基础的
-
Synapse (Zheng et al., 2024):
- 描述: 一种代表性的
轨迹记忆 (Trajectory Memory)方法。它将过去的交互轨迹作为上下文记忆 (in-context memory)来使用。当智能体遇到新任务时,Synapse会检索与当前任务最相似的过去轨迹,并将这些原始轨迹作为示例 (exemplars) 注入到LLM的提示中,以指导其决策。 - 代表性: 体现了直接重用原始成功轨迹的记忆机制。
- 描述: 一种代表性的
-
AWM (Agent Workflow Memory) (Wang et al., 2025d):
-
描述:
AWM是一种工作流记忆 (Workflow Memory)方法。它进一步从轨迹中抽象出常见的成功模式,将其提炼为可重用的工作流 (workflows)。这些工作流是比原始轨迹更高层次的结构化指导,旨在提高记忆的泛化性和效率。 -
代表性: 体现了从成功轨迹中提炼更高层次结构化模式的记忆机制。
这些基线涵盖了从无记忆、直接重用原始轨迹到提炼高层次结构化工作流的记忆机制演进过程,为评估
ReasoningBank的独特优势提供了全面的比较基础。
-
5.4. 实现细节
5.4.1. 骨干 LLMs (Backbone LLMs)
实验基于通过 Vertex AI API 访问的多个 最先进的 (state-of-the-art) LLM 构建智能体:
Gemini-2.5-FlashGemini-2.5-Pro(Comanici et al., 2025)Claude-3.7-Sonnet(Anthropic, 2025) 选择这些模型是为了研究跨家族 (Gemini, Claude) 和家族内 (Flash, Pro) 不同模型变体的性能差异。
5.4.2. 环境 (Environment)
- WebArena: 使用
BrowserGym(de Chezelles et al., 2025) 作为执行环境。- 最大步数限制:每个查询 30 步。
- SWE-Bench-Verified: 使用
bash-only环境,无额外工具,无特殊脚手架结构,遵循miniSWE-Agent(Yang et al., 2024) 的设置。
5.4.3. 智能体风格 (Agent Style)
智能体采用 ReAct (Yao et al., 2023) 风格实现。ReAct 结合了 推理 (Reasoning) 和 行动 (Acting),智能体在每次决策前会先进行思考 (Thought),然后执行动作 (Action)。智能体迭代执行,直到模型预测停止动作或达到任务终止条件。
5.4.4. 解码配置 (Decoding Configurations)
模型生成 (model generations) 的解码温度 (decoding temperature) 设置为 0.7,适用于 WebArena 和 Mind2Web。解码温度控制生成文本的随机性,较高的温度会导致更多样化的输出。
5.4.5. 记忆提取 (Memory Extraction)
- 提取管道: 使用基于
LLM的提取管道将原始轨迹转换为结构化记忆项。 - 提示模板: 设计提示模板,要求模型将推理模式提炼为标题、描述和内容三部分(如前所述)。
- 提取器骨干
LLM: 提取器的骨干LLM与智能体系统相同,温度设置为 1.0,以鼓励多样化和创造性的记忆提取。 - 提取数量: 每个轨迹最多可提取 3 个记忆项。
- 成功/失败信号: 通过
LLM-as-a-judge(Gu et al., 2024) 获取轨迹的成功或失败信号(见图9)。该分类器以轨迹和用户查询为输入,输出分类判断。分类器的骨干LLM与智能体系统相同,解码温度设置为 0.0,以确保确定性。
5.4.6. 记忆检索 (Memory Retrieval)
- 查询嵌入: 使用
gemini-embedding-001(Lee et al., 2025)(通过Vertex AI访问)嵌入每个任务查询。 - 相似性搜索: 使用余弦距离 (cosine distance) 在记忆池 (
memory pool) 中进行相似性搜索。 - 检索数量: 默认选择
top-k(默认 ) 个最相似经验的记忆项。 - 注入方式: 检索到的记忆项通过简单格式模板(每个项由其标题和内容表示)和指令 (
"Below are some memory items that I accumulated from past interaction from the environment that might help you solve the current task. You can use them whenever you need. In think, please first explicitly discuss if you want to use each memory item or not, and then take action.") 连接到智能体的系统提示中。
5.4.7. 记忆整合 (Memory Consolidation)
- 策略: 采用最小化整合策略:新生成的记忆项直接附加到记忆池中,不进行额外的剪枝或合并操作。
- 存储:
ReasoningBank以JSON格式维护,每个条目包含任务查询、原始轨迹和对应的记忆项。为提高效率,每个查询的嵌入也预先计算并存储在另一个JSON文件中。 - 持续积累: 记忆池在每次独立运行中持续积累,实现
测试时学习 (Test-Time Learning)中的持续演化。
5.4.8. MATTS 细节
- 并行扩展 (Parallel Scaling):
- 当扩展因子 大于 1 时,生成 条轨迹。
- 使用图10左侧所示的提示,模型被指示对这些轨迹进行
自对比推理 (self-contrast reasoning),以提炼出更可靠的记忆。 - 最终的评估通过
Best-of-N (BoN)方式计算,即从 条轨迹中选择表现最好的一条。图11展示了BoN计算的系统指令,其中LLM被用作评判者来选择最佳答案。
- 顺序扩展 (Sequential Scaling):
- 在初始轨迹生成后,智能体根据扩展因子 进行
k-1次细化步骤。 - 使用图10右侧所示的提示,模型被指示反复重新检查其自身轨迹,并进行修正和细化。
- 中间笔记和修正过程也被视为记忆信号。
- 在初始轨迹生成后,智能体根据扩展因子 进行
6. 实验结果与分析
本节将深入分析 ReasoningBank 和 MATTS 在多个基准测试上的实验结果,并探讨其背后的机制和涌现行为。
6.1. ReasoningBank 结果
6.1.1. ReasoningBank 在所有数据集上始终优于基线
实验结果表明,ReasoningBank 在所有 LLM 骨干模型和所有数据集上都持续超越基线方法,包括 无记忆 (No Memory)、Synapse 和 AWM。
- WebArena (表1): 相较于
无记忆智能体,ReasoningBank将整体成功率提升了 +8.3% (使用Gemini-2.5-flash)、+7.2% (使用Gemini-2.5-pro) 和 +4.6% (使用Claude-3.7-sonnet)。 - Mind2Web (表3):
ReasoningBank在跨任务 (cross-task)、跨网站 (cross-website)和跨领域 (cross-domain)设置中均取得了显著收益,尤其在对泛化能力要求最高的跨领域设置中收益最为明显。 - SWE-Bench-Verified (表2): 结果同样证实了
ReasoningBank的稳健性。 这些一致的提升归因于ReasoningBank卓越的记忆提取策略,它不仅从成功经验中学习,也从失败经验中汲取教训,从而提供更全面的指导。
以下是原文 Table 1 的结果:
| Models | Shopping (187) | Admin (182) | Gitlab (180) | Reddit (106) | Multi (29) | Overall (684) | ||||||
| SR | Step | SR | Step | SR | Step | SR | Step | SR | Step | SR | Step | |
| Gemini-2.5-flash | ||||||||||||
| No Memory | 39.0 | 8.2 | 44.5 | 9.5 | 33.9 | 13.3 | 55.7 | 6.7 | 10.3 | 10.0 | 40.5 | 9.7 |
| Synapse | 40.6 | 7.0 | 45.1 | 9.1 | 35.6 | 13.0 | 59.4 | 6.5 | 10.3 | 10.5 | 42.1 | 9.2 |
| AWM | 44.4 | 7.0 | 46.7 | 8.8 | 37.2 | 13.2 | 62.3 | 6.1 | 3.4 | 7.7 | 44.1 | 9.0 |
| ReasoningBank | 49.7 | 6.1 | 51.1 | 8.2 | 40.6 | 12.3 | 67.0 | 5.6 | 13.8 | 8.8 | 48.8 | 8.3 |
| Gemini-2.5-pro | ||||||||||||
| No Memory | 45.5 | 7.6 | 51.1 | 8.7 | 35.0 | 11.6 | 71.7 | 6.0 | 6.9 | 8.8 | 46.7 | 8.8 |
| Synapse | 46.5 | 6.6 | 52.2 | 8.9 | 38.3 | 11.3 | 68.9 | 5.9 | 6.9 | 9.0 | 47.7 | 8.5 |
| AWM | 48.1 | 6.4 | 49.3 | 9.8 | 40.0 | 11.2 | 68.9 | 6.4 | 3.4 | 9.3 | 47.6 | 8.7 |
| ReasoningBank | 51.9 | 6.0 | 56.6 | 7.7 | 44.4 | 9.8 | 80.2 | 5.1 | 13.8 | 8.2 | 53.9 | 7.4 |
| Claude-3.7-sonnet | ||||||||||||
| No Memory | 38.5 | 6.1 | 49.5 | 8.4 | 36.7 | 10.6 | 53.8 | 5.5 | 0.0 | 11.6 | 41.7 | 8.0 |
| Synapse AWM | 39.6 | 5.8 | 50.5 | 8.5 | 38.0 | 10.0 | 53.8 | 6.1 | 0.0 | 11.8 | 42.6 | 7.9 |
| 39.6 | 7.2 | 47.8 | 9.3 | 34.6 | 10.9 | 52.8 | 7.0 | 0.0 | 12.4 | 40.8 | 8.9 | |
| ReAsoNinGBANK | 44.9 | 5.6 | 53.3 | 7.6 | 41.1 | 9.5 | 57.5 | 5.2 | 3.4 | 10.5 | 46.3 | 7.3 |
表1 展示了 ReasoningBank 在 WebArena 基准测试上的实验结果。成功率 (SR ↑) 和步数 (Step ↓) 报告了 5 个子集和 3 种不同的骨干 LLM。
以下是原文 Table 2 的结果:
| Methods | Resolve Rate | Step |
| Gemini-2.5-flash | ||
| No Memory | 34.2 | 30.3 |
| Synapse | 35.4 | 30.7 |
| REAsoNingBank | 38.8 | 27.5 |
| Gemini-2.5-pro | ||
| No Memory | 54.0 | 21.1 |
| Synapse | 53.4 | 21.0 |
| REASONINGBANK | 57.4 | 19.8 |
表2 展示了 ReasoningBank 在 SWE-Bench-Verified 数据集上解决代码库问题的实验结果。
以下是原文 Table 3 的结果:
| Models | Cross-Task (252) | Cross-Website (177) | Cross-Domain (912) | |||||||||
| EA | AF1 | SSR | SR | EA | AF1 | SSR | SR | EA | AF1 | SSR | SR | |
| Gemini-2.5-flash | ||||||||||||
| No Memory | 46.0 | 59.1 | 40.3 | 3.3 | 39.8 | 45.1 | 31.7 | 1.7 | 35.8 | 37.9 | 31.9 | 1.0 |
| Synapse | 47.0 | 59.5 | 41.2 | 3.5 | 40.3 | 46.0 | 32.1 | 1.9 | 36.3 | 38.5 | 32.4 | 1.1 |
| AWM | 46.3 | 56.1 | 41.0 | 3.5 | 39.1 | 42.2 | 31.7 | 2.1 | 33.3 | 36.5 | 30.1 | 0.7 |
| ReasoningBank | 52.1 | 60.4 | 44.9 | 4.8 | 44.3 | 52.6 | 33.9 | 2.3 | 40.6 | 41.3 | 36.6 | 1.6 |
| Gemini-2.5-pro | ||||||||||||
| No Memory | 49.3 | 60.2 | 44.4 | 3.5 | 41.2 | 49.8 | 34.8 | 3.4 | 37.9 | 37.7 | 35.0 | 1.4 |
| Synapse | 50.1 | 61.0 | 44.7 | 3.6 | 41.8 | 51.2 | 35.0 | 3.2 | 38.5 | 39.8 | 35.6 | 1.5 |
| AWM | 48.6 | 61.2 | 44.4 | 3.7 | 41.9 | 47.9 | 34.8 | 2.3 | 37.3 | 38.1 | 34.4 | 1.2 |
| REAsoNinGBaNk | 53.6 | 62.7 | 45.6 | 5.1 | 46.1 | 54.8 | 36.9 | 3.8 | 42.8 | 45.2 | 38.1 | 1.7 |
表3 展示了 Mind2Web 基准测试中 跨任务 (cross-task)、跨网站 (cross-website) 和 跨领域 (cross-domain) 泛化测试的结果。EA (↑) 是元素准确率 (element accuracy), (↑) 是动作 (action ),SSR (↑) 是步骤成功率 (step success rate),SR (↑) 是任务级成功率 (task-level success rate)。
6.1.2. ReasoningBank 通过更好的可迁移记忆增强泛化能力
- 在
WebArena的Multi子集(要求在多个网站之间迁移记忆)中,ReasoningBank的平均成功率 (SR) 比最强基线提高了 +4.6%。相比之下,AWM等基线在该设置下未能提供收益,甚至有所下降。 - 在
Mind2Web的跨领域 (cross-domain)设置中,ReasoningBank的成功率提升尤为显著。这表明ReasoningBank策展的记忆更具鲁棒性和可迁移性,使得智能体能够有效地泛化到不同的场景。
6.1.3. ReasoningBank 通过利用过去经验实现卓越效率
- 除了更高的成功率,
ReasoningBank还减少了完成任务所需的交互步数。 - 在
WebArena上,与无记忆基线相比,ReasoningBank在几乎所有子集和骨干模型上平均步数减少了高达 1.4 步;与其它记忆基线相比,减少了 1.6 步。 - 在
SWE-Bench-Verified上,平均步数也分别减少了 2.8 步和 1.3 步。 这表明ReasoningBank通过重用和细化推理知识,避免了不必要的或冗余的探索,从而提高了智能体解决任务的效率。
6.2. MATTS 结果
本文使用 Gemini-2.5-flash 在 WebArena-Shopping 子集上进行了 MATTS 实验。默认情况下,MATTS 集成了 ReasoningBank。为了研究整体扩展效果,实验对比了 (i) MATTS w/o memory (无记忆扩展)、(ii) MATTS w/o aggregation (等同于朴素 TTS,见图3(a)) 和 (iii) MATTS。扩展因子 表示无扩展。对于并行扩展,最终指标使用 Best-of-N (BoN)。结果展示在图4中。
以下是原文 Figure 4 的结果:
该图像是图表,展示了图7的消融实验结果,比较了仅使用成功轨迹与同时加入失败轨迹进行记忆归纳对不同模型任务成功率的影响,结果显示加入失败轨迹普遍提升了性能。
图4 展示了在 WebArena-Shopping 子集上,带有 ReasoningBank 的 MATTS 在不同扩展因子 下的效果。(a) 比较了并行 测试时扩展 (test-time scaling) 和 (b) 顺序 测试时扩展 (sequential scaling)。
6.2.1. 并行扩展和顺序扩展均能提升性能
- 增加扩展因子 通常会提高成功率,证实了分配更多推理时计算资源的益处。
- 使用
MATTS时,并行扩展从 时的 49.7 提升到 时的 55.1。顺序扩展从 49.7 提升到 54.5。 - 相比之下,
MATTS w/o memory基线的收益较小且不一致(例如,并行扩展在 39.0 和 42.2 之间波动,顺序扩展在 37.4 和 40.6 之间波动)。这突出了MATTS在提高扩展有效性方面的作用。
6.2.2. MATTS 始终优于朴素 TTS
- 集成
ReasoningBank后,MATTS持续超越MATTS w/o aggregation(即朴素TTS)。这表明记忆感知协调和聚合的重要性。 - 在 时,并行扩展的
MATTS成功率为 55.1,而朴素TTS为 52.4。顺序扩展的MATTS成功率为 54.5,而朴素TTS为 51.9。 这些改进强调了记忆感知扩展 (memory-aware scaling)通过综合多条轨迹或交互步骤中的见解,利用对比信号,有效地将智能体引导向更有希望的解决方案。
6.2.3. 顺序扩展短期优势,并行扩展在大规模下占据主导
- 对于像
ReasoningBank这样强大的记忆机制,顺序细化在小 值时带来了更高的收益,但其收益迅速饱和——一旦模型明确成功或失败,进一步的细化带来的新见解就很少了。 - 相比之下,并行扩展持续提供多样化的
推演 (rollouts),使模型能够批判和改进自身的生成,从而在较大的 值下超越顺序扩展(例如,在 时为 55.1 vs 54.5)。 - 然而,对于没有记忆模块的朴素
TTS,顺序扩展几乎没有或根本没有收益,而并行扩展则始终占据主导地位。
6.3. 记忆与测试时扩展的协同作用
本节探讨记忆与 测试时扩展 (TTS) 之间的协同作用。图5展示了 MATTS 在 WebArena-Shopping 子集上,并行扩展因子 时的快照,报告了 Pass@1 (随机选择的轨迹) 和 Best-of-3 (BoN)。这使得我们能够研究记忆质量和扩展有效性之间的双向交互。
以下是原文 Figure 5 的结果:
该图像是两部分的示意图,展示了基于成功轨迹和失败轨迹的系统指令对比,指导提取和总结记忆条目,以帮助智能体学习和提升任务完成能力。
图5 展示了 MATTS 在 WebArena-Shopping 子集上,使用不同记忆机制、扩展因子 时的快照。计算了所有 3 条轨迹的 BoN 和随机选择一条轨迹的 Pass@1。
6.3.1. 更好的记忆实现更强的测试时扩展性能
- 为了了解记忆如何提高扩展的有效性,我们关注
BoN结果,它直接衡量智能体在多次推演 (rollouts)中找出最佳结果的能力。 - 如图5中的蓝色条形所示,扩展的收益关键取决于底层记忆的质量。
- 无记忆: 扩展仅带来轻微改善,
BoN从 39.0 仅上升到 40.6。 - 较弱记忆机制 (Synapse, AWM): 提供适度收益,分别达到 42.8 和 45.5。
- ReasoningBank (MATTS with ReasoningBank): 提供了最强的收益,
BoN从 49.7 攀升至 52.4。 这些结果表明,高质量记忆能够指导扩展走向更有前景的推演 (rollouts),确保额外的轨迹不会被浪费,而是转化为更高的成功率。
6.3.2. 扩展生成更好的记忆策展
- 为了公平评估扩展如何反哺记忆,我们报告了
Pass@1,它衡量了记忆策展后轨迹的平均质量,并允许与无扩展情况进行直接比较。 - 如图5中的粉色条形所示,趋势引人注目:对于较弱的记忆,扩展实际上降低了性能。
Synapse从 40.6 下降到 40.1,AWM从 44.4 下降到 41.2。这表明,如果没有强有力的指导,扩展产生的额外推演 (rollouts)会引入噪声而不是有用的信号。 - ReasoningBank: 唯一受益的方法。
Pass@1从 49.7 上升到 50.8。这表明高质量记忆能够利用扩展的多样性来提取建设性的对比信号 (contrastive signals)。 这种不对称性强调了仅凭扩展是不够的;只有与良好的记忆机制结合,扩展才能有助于策展出更有效的记忆,从而形成良性循环 (virtuous cycle)。
6.4. 分析
本文还对 ReasoningBank 进行了更深入的分析,超越了整体基准性能。
6.4.1. 涌现行为 (Emergent behaviors)
本文发现 ReasoningBank 中的策略并非一成不变或单一的,而是随时间演化,表现出类似于强化学习 (Reinforcement Learning, RL) 学习动态的涌现行为 (emergent behaviors)。
以下是原文 Figure 6 的结果:
该图像是一个折线图,展示了使用不同数量经验对成功率的消融实验结果。横轴为经验数量,纵轴为成功率,图中显示经验数量为1时成功率最高达49.7%。
图6 展示了 ReasoningBank 中通过记忆项体现的涌现行为案例研究。
如图6所示,ReasoningBank 中的记忆项在 测试时学习 (test-time learning) 过程中可以逐步演化:
- 执行导向/程序性策略 (Execution-oriented/Procedural Strategies): 最初可能是一些低层次的、执行性的策略,例如“查找导航链接”。智能体遵循直接的动作规则。
- 适应性自我反思 (Adaptive Self-reflections): 随后发展到更适应性的自我反思,例如“重新验证标识符以减少简单错误”。
- 适应性检查 (Adaptive Checks): 随着经验的增加,同一记忆项演化为适应性检查,智能体系统地利用可用的搜索或筛选器,在得到结果前确保完整性。
- 组合策略 (Compositional Strategies): 最终成熟为组合策略,例如“交叉引用任务要求并重新评估选项”。
这种演化过程突出了
ReasoningBank如何使智能体在测试时学习 (test-time learning)过程中将策略从低级动作细化到高级推理。
6.4.2. 融入失败轨迹 (Incorporating failure trajectories)
图7比较了在 WebArena-Shopping 子集上使用 Gemini-2.5-flash 的不同记忆设计,分别在“仅使用成功轨迹”和“同时利用成功和失败经验”两种设置下的表现。
以下是原文 Figure 7 的结果:
该图像是论文中图14的示意图,展示了Baseline(无记忆)和Reasoning Bank两种方法在查询用户首次购买日期时的对比。Reasoning Bank通过调用记忆中的推理提示,成功检索完整订单历史并给出正确答案,而Baseline仅依赖近期订单信息,回答错误。
图7 展示了引入失败轨迹进行记忆归纳的消融实验结果。
Synapse和AWM等基线方法仅从成功轨迹构建记忆,因此无法从失败中受益。当加入失败经验时,它们的性能有限甚至下降:Synapse从 40.6 (仅成功) 仅增加到 41.7 (包含失败),而AWM则从 44.4 下降到 42.2。- 相比之下,
ReasoningBank的设计使其能够从成功和失败轨迹中提炼推理模式,在仅使用成功轨迹时达到 46.5,而在包含失败轨迹时进一步提升到 49.7。 这突出表明,与基线不同,ReasoningBank能够将失败转化为建设性信号,而非噪声,从而实现更强大的泛化。
6.4.3. 效率研究 (Efficiency Study)
虽然表1中的总步数提供了模型效率的概览,但它没有区分效率提升是来自成功轨迹还是失败轨迹。为了获得更深层次的洞察,本文将分析分离为成功和失败的测试实例。一个理想的系统应该在正确轨道上时减少不必要的探索,而不是仅仅缩短失败的尝试。 以下是原文 Table 4 的结果:
| Models | Shopping | Admin | Gitlab | |||||
| Successful | Failed | Successful | Failed | Successful | Failed | Successful | Failed | |
| No Memory | 6.8 | 8.7 | 8.4 | 10.4 | 8.6 | 15.7 | 6.1 | 7.6 |
| ReAsoningBank | 4.712.1 | 7.3 11.4 | 7.0 11.4 | 9.5 ↓0.9 | 7.611.0 | 15.5↓0.2 | 5.0 11.1 | 6.8↓0.8 |
表4 展示了 WebArena 四个领域中成功和失败测试实例的平均步数。ReasoningBank 持续减少步数,在成功实例上减少幅度更大。
表4的结果显示,ReasoningBank 在所有领域中都持续减少了步数。更重要的是,步数的减少在成功案例中尤为显著,比失败案例多减少了高达 2.1 步(相对减少 26.9%)。这表明 ReasoningBank 主要通过强化智能体遵循有效推理路径的能力,以更少的交互来达到解决方案,而不是简单地截断失败轨迹。这突出了记忆在指导目标明确的决策和提高实践效率方面的作用。
6.4.4. 检索经验数量 (Number of Retrieved Experiences)
本文还进行了关于检索经验数量的消融研究,使用 Gemini-2.5-flash 在 WebArena-Shopping 子集上。
以下是原文 Figure 12 的结果:
该图像是一个示意图,展示了在购物任务中采用Baseline(无记忆)与ReasoningBank两种策略的操作流程和步骤数对比。ReasoningBank利用记忆引导导航,减少了步骤数(29步降至10步),提升操作效率。
图12 展示了使用不同数量经验的消融实验结果。
如图12所示,引入相关记忆显著提升了性能(从无记忆的 39.0 提升到使用一个经验时的 49.7)。然而,随着经验数量的增加,成功率逐渐下降(2 个经验时为 46.0,3 个经验时为 45.5,4 个经验时为 44.4)。这表明,虽然记忆提供了宝贵的指导,但过多的经验可能会引入冲突或噪声。因此,记忆的相关性和质量比纯粹的数量对于有效性能更为关键。
6.4.5. Pass@k 分析
记忆感知扩展 (Memory-aware scaling) 提高了样本效率并保持了更强的性能增长。
以下是原文 Figure 13 的结果:
图13 展示了 ReasoningBank 在并行扩展下的 Pass@k。
对 WebArena-Shopping 子集上使用 Gemini-2.5-flash 进行并行扩展的 Pass@k 分析(图13)揭示了两个不同的效果:
MATTS w/o aggregation(朴素TTS) 已经使得测试时学习 (test-time learning)的行为类似于强化学习 (RL)训练:它通过指导探索来提高样本效率,而不是在大 时提高pass@k。例如,在 时,MATTS w/o aggregation达到 50.8,而MATTS w/o memory仅为 47.6,这表明它从每次推演 (rollout)中提取了更多价值。- 配备
记忆感知扩展 (memory-aware scaling)的TTS进一步提升了性能。MATTS不仅在小 时保持了效率( 时为 51.3),而且随着扩展持续强劲增长,在 时达到 62.1,而MATTS w/o memory仅为 52.4。 总的来说,MATTS释放了智能体系统的更多潜力,并鼓励多样化生成以获得更好的Pass@k性能。
6.4.6. 案例研究 (Case Study)
本文通过两个代表性案例研究进一步说明了方法的益处。
案例1:利用推理提示 (Reasoning Hints) 引导正确决策。
以下是原文 Figure 14 的结果:
该图像是图表,展示了在WebArena-Shopping子集上,不同测试时刻的MaTTS扩展因子k对成功率(SR)的影响。左图为(a)并行扩展,右图为(b)顺序扩展,比较了MaTTS和其去除记忆与去除聚合的版本表现。
图14 展示了 ReasoningBank 如何使智能体回忆并应用过去的推理提示,引导其找到完整的订单历史记录并获取正确的首次购买日期,而基线智能体仅凭近期订单信息则会失败。
- 任务: 查找用户在该网站上的首次购买日期。
- 基线智能体 (无记忆): 仅检查“Recent Orders”(近期订单)表格,错误地输出最近的购买日期。
- ReasoningBank 智能体: 从过去的推理提示中回忆起需要探索完整的购买历史记录(例如,点击“View All”)。最终正确识别出最早的订单日期。
这个案例突出显示了
ReasoningBank在利用相关经验作为记忆项方面的有效性。
案例2:通过推理提示提高效率。 以下是原文 Figure 15 的结果:
该图像是一个柱状折线图,展示了在不同内存机制下,MATTS在WebArenaShopping子集上成功率(Success Rate)随三种策略的对比表现,包括No Memory、Synapse、AWM和ReasoningBank,指标有Pass@1和Best-of-3。
图15 展示了 ReasoningBank 如何通过利用过去的推理提示来提高效率,将导航步数从 29 步减少到 10 步,相比于没有记忆的基线。
- 任务: 一个导航密集的购物任务,需要筛选特定类别的商品(例如,“Men”)。
- 基线智能体 (无记忆): 由于重复低效的浏览,需要 29 步才能完成任务。它在寻找“Men”筛选器的正确位置时陷入困境。
- ReasoningBank 智能体: 利用存储的关于分类筛选的推理(例如,识别和使用筛选器),使智能体能够直接到达相关的项目并仅用 10 步完成任务。
这个案例展示了
ReasoningBank如何通过指导有目的的决策和避免冗余探索来显著提高效率。
7. 总结与思考
7.1. 结论总结
本文提出了 ReasoningBank,一个创新的记忆框架,它能够从 大型语言模型 (LLM) 智能体自我判断的成功和失败经验中提炼出高层次、可泛化的推理策略 (generalizable reasoning strategies)。ReasoningBank 的独特之处在于它超越了传统的原始轨迹或成功例程存储,而是专注于抽象化的推理模式,并从失败中学习宝贵的教训。
在此基础上,本文进一步引入了 记忆感知测试时扩展 (Memory-aware Test-Time Scaling, MaTTS)。MaTTS 通过并行扩展 (parallel scaling) 和顺序扩展 (sequential scaling) 两种机制,在测试时分配更多计算资源以生成多样化的经验。这些经验通过“自对比”或“自细化”机制,为 ReasoningBank 提供了丰富的对比信号,从而合成更高质量的记忆。
核心发现是记忆与 测试时扩展 (Test-Time Scaling) 之间存在强大的协同作用:
-
高质量的
ReasoningBank记忆能够有效指导测试时扩展 (Test-Time Scaling),使其探索更有前景的路径。 -
测试时扩展 (Test-Time Scaling)产生的多样化经验反过来又丰富了记忆,使其更具泛化性和鲁棒性。在网络浏览 (
WebArena,Mind2Web) 和软件工程 (SWE-Bench-Verified) 基准测试中进行的广泛实验表明,ReasoningBank显著优于现有记忆机制,提高了任务成功率并减少了交互步数。MaTTS进一步放大了这些收益。这些成果为智能体实现持续学习、自我演化和涌现行为 (emergent behaviors) 提供了实用的途径和新的扩展维度。
7.2. 局限性与未来工作
本文的 ReasoningBank 虽然在经验性能和作为扩展维度方面表现出色,但也存在一些局限性,指明了未来的研究方向。
7.2.1. 局限性
- 侧重记忆内容 (Focus on memory content): 本研究主要强调如何策展和利用记忆内容(例如,整合失败轨迹、构建提炼的推理提示)。因此,它并未与所有其他记忆架构(如
情景记忆 (episodic memory)或分层记忆 (hierarchical memory))进行广泛比较。这些设计解决了正交问题(记忆形式/结构),而本文的贡献侧重于应该存储和重用什么。 - 记忆检索和整合的简洁性 (Simplicity in memory retrieval and consolidation): 为了更好地隔离内容质量的影响,本文有意采用了简单的基于嵌入的检索和直接的整合策略。虽然更复杂的策略(如自适应检索、分层整合)与
ReasoningBank框架兼容,但它们不是本工作的重点。 - 对
LLM-as-a-judge的依赖 (Dependence on LLM-as-a-judge for correctness signals): 在实现中,轨迹的成功和失败信号由LLM-as-a-judge确定。虽然这种自动标记机制实现了无需真值反馈的可扩展评估,但当任务模糊或判断模型本身出错时,可能会引入噪声。尽管实验结果表明框架在噪声下仍保持鲁棒性,但未来的工作可以引入更强的验证器、人工反馈 (human-in-the-loop feedback) 或集成判断来增强记忆归纳的可靠性。
7.2.2. 未来工作
- 组合记忆 (Compositional Memory): 当前框架将每个经验提炼成多个记忆项,并在新查询到来时独立地重用所有相关项。这种设计突出了记忆内容的效果,但没有考虑记忆项如何组合成更高层次的策略。未来的工作可以探索
组合感知检索 (composition-aware retrieval)和整合 (consolidation),使智能体能够组合互补项或形成可重用的宏指令 (reusable macros),从而在长周期任务中产生更丰富的策略和更强的泛化能力。 - 高级记忆架构 (Advanced Memory Architectures): 本文的系统设计有意保持最小化。未来的方向可以探索更高级的记忆架构,例如:
- 结合
情景记忆 (episodic traces)(Fountas et al., 2025) 用于单任务上下文。 短期“工作”记忆 (short-term "working" memory)(Lumer et al., 2025) 用于会话内状态。长期 (long-term)(Wang et al., 2025b) 整合知识,并带有衰减/刷新策略。ReasoningBank的理念与这些不同的记忆角度兼容。- 此外,当前的记忆检索可以超越基于嵌入的相似性,转向
推理密集型控制器 (reasoning-intensive controllers)(Shao et al., 2025),这些控制器可以分解查询、规划跨层级的多跳查找,并根据不确定性、新近度和成本条件选择。基于学习的路由器和整合策略也可以自动化这一过程。这种集成将把ReasoningBank和MATTS转化为可部署的记忆服务,跨领域和团队进行扩展。
- 结合
7.3. 个人启发与批判
7.3.1. 个人启发
这篇论文提供了几个重要的启发:
- 从失败中学习的巨大潜力: 强调了从失败经验中提炼教训的重要性,这在传统强化学习中常见,但在
LLM智能体记忆研究中常被忽视。ReasoningBank明确将失败经验转化为“反事实信号”和“陷阱”,使得智能体能够构建更鲁棒的策略,避免重蹈覆辙。这对于构建真正可靠的智能体至关重要。 - 记忆的抽象层次: 论文提出将记忆从原始轨迹和具体工作流提升到可泛化的“推理策略”层次。这种抽象化使得记忆更具可迁移性,能够跨越不同任务和领域,这对于智能体在真实世界中面对多样化、未见过的场景至关重要。这启发我们,在设计智能体记忆时,应更多地关注高层次的知识提炼而非仅仅数据存储。
- 记忆与计算的协同作用:
MATTS提出的“记忆驱动的经验扩展”是一个非常新颖的维度。它明确指出,额外的计算资源(例如,多轨迹探索)不应只是被动地产生结果,而应主动地与记忆机制结合,产生更丰富的对比信号,从而优化记忆的策展。这种正反馈循环提供了一个强大的范式,用于实现智能体的持续自我演化,为未来智能体的设计提供了新的思路。 - 涌现行为的展示: 论文通过案例研究展示了记忆项如何从低级程序性策略演化到高级组合性策略,这暗示了通过精心设计的记忆和学习机制,智能体可以自然地发展出更复杂的智能行为,这与人类的学习和经验积累过程有异曲同工之妙。
7.3.2. 批判
尽管 ReasoningBank 和 MATTS 取得了显著成果,但仍有一些潜在问题或可以改进的地方:
LLM-as-a-judge的可靠性问题: 论文指出对LLM-as-a-judge的依赖可能会引入噪声。虽然在实验中表现出鲁棒性,但在极端复杂或模糊的任务中,LLM的判断可能与人类专家判断存在偏差,从而影响记忆的质量。未来的工作可以探索更可靠的验证机制,例如集成多个LLM判断、引入弱监督# 1. 论文基本信息
1.1. 标题
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory
1.2. 作者
Siru Ouyang, Jun Yan, I-Hung Hsu, Yanfei Chen, Ke Jiang, Zifeng Wang, Rujun Han, Long T. Le, Samira Daruki, Xiangru Tang, Vishy Tirumalashetty, George Lee, Mahsan Rofouei, Hangfei Lin, Jiawei Han, Chen-Yu Lee, Tomas Pfister
隶属机构:
- 伊利诺伊大学厄巴纳-香槟分校 (University of Illinois Urbana-Champaign)
- 谷歌云 AI 研究院 (Google Cloud AI Research)
- 耶鲁大学 (Yale University)
- 谷歌云 AI (Google Cloud AI)
1.3. 发表期刊/会议
该论文作为预印本 (preprint) 发布,尚未说明具体发表期刊或会议。
1.4. 发表年份
2025年
1.5. 摘要
随着大型语言模型代理 (large language model agents) 在持久性真实世界角色中的广泛应用,它们自然会遇到持续的任务流。然而,一个关键的限制是它们未能从积累的交互历史中学习,这使得它们不得不丢弃宝贵的见解并重复过去的错误。本文提出了 ReasoningBank,一个新颖的记忆框架,它从代理 (agent) 自我判断的成功和失败经验中提炼出可泛化的推理策略 (generalizable reasoning strategies)。在测试时,代理 (agent) 从 ReasoningBank 中检索相关记忆来指导其交互,然后将新的学习成果整合回去,使其随着时间的推移变得更加有能力。基于这个强大的经验学习器,本文进一步引入了记忆感知测试时扩展 (Memory-aware Test-Time Scaling, MaTTS),通过扩展代理 (agent) 的交互经验来加速和多样化这个学习过程。通过为每个任务分配更多的计算资源,代理 (agent) 生成了丰富多样的经验,为合成更高质量的记忆提供了丰富的对比信号 (contrastive signals)。反过来,更好的记忆指导了更有效的扩展,在记忆和测试时扩展之间建立了强大的协同作用。在网页浏览 (web browsing) 和软件工程 (software engineering) 基准测试中,ReasoningBank 始终优于存储原始轨迹 (raw trajectories) 或仅成功任务例程 (successful task routines) 的现有记忆机制,提高了有效性和效率;MaTTS 进一步放大了这些收益。这些发现确立了记忆驱动的经验扩展 (memory-driven experience scaling) 作为一个新的扩展维度,使代理 (agent) 能够自然地自进化 (self-evolve) 并涌现出新的行为。
1.6. 原文链接
https://arxiv.org/abs/2509.25140 PDF 链接: https://arxiv.org/pdf/2509.25140v1.pdf
发布状态: 预印本 (Preprint)
2. 整体概括
2.1. 研究背景与动机
当前,大型语言模型代理 (LLM agents) 正在被广泛部署到需要与现实世界环境进行多步骤交互的持久性任务中,例如网页浏览和计算机操作。然而,这些代理 (agent) 面临一个核心挑战:它们无法从其积累的交互历史中有效学习。这意味着它们在处理连续任务流时,往往会:
-
重复过去的错误 (Repeat past errors): 无法吸取教训,在相似情境下再次犯错。
-
丢弃有价值的见解 (Discard valuable insights): 每次都将任务视为孤立事件,未能从相关问题中提炼出可迁移的知识。
-
缺乏自进化能力 (Lack self-evolving capabilities): 无法随着时间的推移不断提升自身能力,导致系统性能停滞不前。
现有的代理 (agent) 记忆系统主要存在以下局限性:
-
存储原始轨迹 (Raw trajectories): 简单地存储原始交互序列,这些序列往往冗长且嘈杂,难以直接复用或提炼出高层次的知识。
-
仅关注成功例程 (Only successful routines): 大多数方法侧重于从成功的任务中提取工作流或程序,忽视了从失败经验中学习的重要价值。
-
缺乏高层次泛化能力 (Lack high-level generalizability): 难以提炼出可泛化的推理模式,导致记忆的迁移能力有限。
这些挑战凸显了构建能够从过往经验中学习的记忆感知代理 (memory-aware agent) 系统的迫切需求。
2.2. 核心贡献/主要发现
本文提出了 ReasoningBank 和 MaTTS 框架,旨在解决上述现有挑战,并取得了显著的贡献和发现:
-
提出了
ReasoningBank记忆框架 (Novel Memory Framework: ReasoningBank):ReasoningBank能够从代理 (agent) 自我判断的成功和失败经验中提炼出可泛化的推理策略 (generalizable reasoning strategies)。- 记忆项被抽象为结构化的知识单元,包含标题 (title)、描述 (description) 和内容 (content),使其更具可迁移性。
- 形成一个闭环学习过程:代理 (agent) 检索相关记忆以指导行动,然后将新经验提炼并整合回
ReasoningBank,实现持续进化。
-
引入了记忆感知测试时扩展
MaTTS(Memory-aware Test-Time Scaling):MaTTS通过深度扩展(而非广度扩展)代理 (agent) 的交互经验来加速和多样化学习过程。- 通过为每个任务分配更多计算资源,代理 (agent) 可以生成丰富的、多样化的探索轨迹,这些轨迹为合成更高质量的记忆提供了对比信号 (contrastive signals)。
MaTTS提供了两种实例化方式:并行扩展 (Parallel Scaling) 和 顺序扩展 (Sequential Scaling),分别通过自对比 (self-contrast) 和自我优化 (self-refinement) 来丰富记忆。
-
建立了记忆与测试时扩展的强大协同作用 (Synergy between Memory and Test-Time Scaling):
- 高质量的
ReasoningBank记忆能引导MaTTS的扩展性探索走向更有前景的路径。 MaTTS生成的丰富多样经验反过来又能促进ReasoningBank合成更强、更具通用性的记忆。这种正反馈循环确立了记忆驱动的经验扩展作为一个新的扩展维度。
- 高质量的
-
在多项基准测试中取得了显著性能提升 (Significant Performance Gains across Benchmarks):
- 在网页浏览 (WebArena, Mind2Web) 和软件工程 (SWE-Bench-Verified) 基准测试中,
ReasoningBank显著优于仅存储原始轨迹或成功例程的现有记忆机制,提升了有效性(成功率高达 34.2% 相对提升)和效率(平均交互步骤减少 16.0%)。 MaTTS进一步放大了这些收益。
- 在网页浏览 (WebArena, Mind2Web) 和软件工程 (SWE-Bench-Verified) 基准测试中,
-
展示了代理的自进化和新兴行为 (Demonstrated Agent Self-Evolution and Emergent Behaviors):
- 研究表明,
ReasoningBank使代理 (agent) 能够从失败中学习,并随着时间推移发展出日益复杂、具有新兴行为 (emergent behaviors) 的推理策略。
- 研究表明,
3. 预备知识与相关工作
3.1. 基础概念
为了理解本论文,读者需要了解以下基础概念:
-
大型语言模型代理 (Large Language Model Agents, LLM Agents):
- 概念定义:
LLM Agents是指利用大型语言模型 (LLMs) 作为其核心“大脑”,能够与环境进行多步交互,执行复杂任务的智能实体。它们通常结合了感知 (perception)、规划 (planning)、行动 (action) 和记忆 (memory) 等模块,以实现自主决策和问题解决。 - 在本文中:
LLM Agents通过其骨干LLM来决定行动,并利用记忆模块来指导决策。
- 概念定义:
-
测试时学习 (Test-Time Learning):
- 概念定义: 一种机器学习范式,指模型在部署后的“测试阶段”仍然能够持续学习和改进,而不是仅仅停留在训练阶段学到的知识。这通常意味着模型在没有额外训练或真实标签的情况下,通过与环境的交互和自我反馈来适应新任务或提高性能。
- 在本文中: 代理 (agent) 在面对连续的任务流时,需要不断从自身的过往经验(成功或失败)中学习,而无需依赖外部的真实标签。
-
测试时扩展 (Test-Time Scaling, TTS):
- 概念定义: 指在推理阶段(测试时)投入额外的计算资源来提高模型性能的策略。这通常通过生成多个候选解、进行多次尝试、或使用更复杂的搜索算法来实现,以期找到更好的解决方案。例如,
best-of-N、束搜索 (beam search) 等。 - 在本文中:
MaTTS是TTS的一个特例,它将记忆机制融入TTS,使其能更有效地利用额外计算资源。
- 概念定义: 指在推理阶段(测试时)投入额外的计算资源来提高模型性能的策略。这通常通过生成多个候选解、进行多次尝试、或使用更复杂的搜索算法来实现,以期找到更好的解决方案。例如,
-
记忆机制 (Memory Mechanisms) in LLM Agents:
- 概念定义: 代理 (agent) 用来存储、组织和检索过往信息(例如过去的交互、观察、行动、推理过程等)的模块。记忆的目的是为了让代理 (agent) 能够利用历史信息来指导未来的决策,避免重复错误,并实现长期规划。
- 在本文中:
ReasoningBank是一种新型的记忆机制,它侧重于存储高层次的推理策略。
-
轨迹 (Trajectory):
- 概念定义: 指代理 (agent) 在与环境交互过程中,从初始状态到最终状态(或任务终止)所经历的一系列观察、行动和中间状态的序列。
- 在本文中: 代理 (agent) 的每次任务尝试都会生成一条轨迹,这些轨迹是
ReasoningBank提取记忆的基础。
-
自我判断经验 (Self-judged Experiences):
- 概念定义: 代理 (agent) 在没有外部真实标签的情况下,通过自身逻辑或
LLM-as-a-judge(大型语言模型作为评判者) 机制,判断其任务尝试是成功还是失败的经验。 - 在本文中:
ReasoningBank利用这种自我判断来区分成功和失败的轨迹,并从中提取不同类型的记忆。
- 概念定义: 代理 (agent) 在没有外部真实标签的情况下,通过自身逻辑或
-
自对比 (Self-contrast):
- 概念定义: 一种学习策略,通过比较和对比同一问题在不同尝试(例如成功和失败的尝试)中的表现,来识别导致不同结果的关键因素。
- 在本文中:
MaTTS的并行扩展利用自对比来从多样化探索中提炼更可靠的记忆。
-
自我优化 (Self-refinement):
- 概念定义: 代理 (agent) 或模型在完成一项任务后,对自己的解决方案、推理过程或行动序列进行回顾、评估和修正,以提高其质量或效率的过程。
- 在本文中:
MaTTS的顺序扩展利用自我优化来迭代精炼推理并丰富记忆。
-
ReAct (Reasoning and Acting) 框架 (推理与行动框架):
- 概念定义: 一种将大型语言模型的推理能力 (Reasoning) 与行动能力 (Acting) 相结合的范式。
ReAct代理 (agent) 通常会交替进行思考 (think) 步骤(即LLM生成推理过程或计划)和行动 (action) 步骤(即LLM生成一个可执行的动作,并由环境执行)。 - 在本文中: 实验中的代理 (agent) 采用了
ReAct风格的交互模式。
- 概念定义: 一种将大型语言模型的推理能力 (Reasoning) 与行动能力 (Acting) 相结合的范式。
3.2. 前人工作
论文在相关工作部分主要回顾了两类现有研究:LLM Agents 的记忆机制和 Agent 的测试时扩展。
3.2.1. 针对 LLM Agents 的记忆
- 现有记忆系统的形式: 现有系统以多种形式组织和存储信息,包括纯文本 (plain text)、潜在知识嵌入 (latent knowledge embeddings) 和结构化图 (structured graphs)。
- 检索与管理策略: 这些方法通常涉及检索机制(如语义搜索)和记忆管理策略(如更新)。近期,强化学习 (reinforcement learning, RL) 也被用于代理 (agent) 系统的记忆管理。
- 主要关注点: 大多数研究强调个性化 (personalization) 和长上下文管理 (long-context management)。
- 与本文最相关的研究线: 从过去经验中学习作为记忆,这对开发自进化代理 (self-evolving agent) 系统至关重要。
- 轨迹记忆 (Trajectory Memory):
- 代表工作:
Synapse(Zheng et al., 2024)。 - 特点: 强调重复使用成功的轨迹 (successful trajectories) 或原始交互序列 (raw trajectories)。
- 局限性 (根据本文观点): 缺乏提炼高层次、可迁移推理模式的能力,且主要关注成功经验,未能充分利用失败经验的教训。
- 代表工作:
- 工作流记忆 (Workflow Memory):
- 代表工作:
AWM(Wang et al., 2025d)。 - 特点: 从成功的轨迹中抽象出通用、成功的例程(即工作流、程序)。
- 局限性 (根据本文观点): 与轨迹记忆类似,仍局限于成功经验,难以捕捉更深层的推理模式。
- 代表工作:
- 轨迹记忆 (Trajectory Memory):
3.2.2. 代理 (Agent) 测试时扩展 (Test-Time Scaling, TTS)
- 背景:
TTS已在编码 (coding) 和数学推理 (math reasoning) 等端到端问题解决任务中显示出强大的效果,常用的方法包括best-of-N、束搜索 (beam search) 和利用验证器 (verifiers)。 - 在多轮交互场景中的探索不足:
TTS在多轮交互场景(特别是代理任务)中的应用仍未充分探索。 - 现有代理 (Agent)
TTS方向:- 扩展每个动作的搜索空间。
- 扩展多代理 (multi-agent) 系统中的代理 (agent) 数量。
- 扩展与环境的交互次数。
- 现有
TTS的局限性 (根据本文观点): 这些工作均未考虑代理 (agent) 记忆在扩展中的作用,即代理 (agent) 如何从过去经验中学习以指导未来决策。
3.3. 差异化分析
本文提出的 ReasoningBank 和 MaTTS 与现有工作的主要区别和创新点在于:
-
记忆内容和来源:
- 现有工作 (如
Synapse,AWM): 侧重于存储原始轨迹或成功的程序性工作流,记忆来源单一(仅成功经验),内容粒度低。 ReasoningBank: 首次提出从代理 (agent) 自我判断的成功和失败经验中提炼高层次的、可迁移的推理策略和提示 (high-level strategies and reasoning hints)。这使得记忆不仅能捕捉到有效方法,还能记录失败教训,提供更丰富的指导。
- 现有工作 (如
-
记忆抽象层次:
- 现有工作: 倾向于被动记录或流程化抽象。
ReasoningBank: 将经验抽象为可重用的推理单元 (reusable reasoning units),使其更具泛化能力,能够应用于多样化的场景。
-
记忆与测试时扩展的结合:
-
现有
TTS工作: 普遍未考虑记忆在扩展中的作用,记忆和扩展是分离的。 -
MaTTS(与ReasoningBank协同): 首次探索了记忆感知测试时扩展 (memory-aware test-time scaling)。MaTTS不仅仅是简单地增加计算量,而是利用ReasoningBank生成的丰富对比信号来策划更高质量的记忆,并反过来利用记忆来指导更有效的扩展,形成一个强大的正反馈循环。这建立了一个新的“记忆驱动的经验扩展 (memory-driven experience scaling)”维度。通过以上对比,可以看出
ReasoningBank和MaTTS在记忆的“内容是什么”、“如何获取”以及“如何与扩展结合”这三个关键方面都提出了显著的创新。
-
4. 方法论
本节将详细介绍 ReasoningBank 框架以及在此基础上开发的记忆感知测试时扩展 (Memory-aware Test-Time Scaling, MaTTS)。
4.1. 问题定义 (Problem Formulation)
本研究的重点是基于大型语言模型 (LLM) 的代理 (agent) 系统。
-
代理 (Agent) 配置: 代理 (agent) 的策略 (policy) 记作 ,它由骨干
LLM参数化,并受记忆模块 和行动空间 的条件限制。为简洁起见,策略有时简写为 。 -
环境交互: 代理 (agent) 需要通过与环境交互来执行任务,这可以看作是一个序列决策过程。环境的转移函数 (transition function) 定义为 ,其中
s _ { t }是时间步 的状态,a _ { t }是由 选择的行动。 -
任务类型: 本文主要关注网页浏览 (web browsing) 和软件工程 (SWE) 任务。
- 对于网页浏览任务,行动空间 是一组网页导航操作。
- 对于
SWE任务,行动空间 是一组bash命令。
-
记忆模块初始化: 记忆模块 在开始时被初始化为
ReasoningBank,并且是空的。 -
轨迹生成: 对于每个给定任务,代理 (agent) 会生成一个由观察 (observation) 和行动 (action) 组成的轨迹
( o _ { 0 : t } , a _ { 0 : t } ),持续 个步骤。- 观察
o _ { t }来自当前状态s _ { t }。 - 对于网页浏览任务,观察是网页的基于文本的可访问性树 (text-based accessibility tree)。
- 对于
SWE任务,观察是代码片段。
- 观察
-
行动选择: 代理 (agent) 需要通过其策略 生成下一个行动 。
-
记忆集成: 在实现中,记忆模块 通过提供相关的记忆作为
LLM的额外系统指令 (system instruction) 来发挥作用。
4.2. 测试时学习 (Test-Time Learning)
本文关注测试时学习 (test-time learning) 范式。
- 任务流: 一系列任务查询 以流式 (streaming fashion) 方式到达,即每个查询被揭示后必须按顺序完成,并且无法访问未来的查询。
- 无真实标签: 在这种设置下,测试时没有真实标签 (ground truth) 可用。因此,代理 (agent) 必须仅利用其过去的轨迹和任何自我验证 (self-verification) 来持续进化,而无需依赖外部标签。
- 关键挑战: 这种流式设置突出了两个关键挑战:
- 如何从过去的轨迹中提取和保存有用的记忆?
- 如何有效地利用这些记忆来处理未来的查询,以避免重复发现已成功的策略或重复过去的错误?
4.3. ReasoningBank
过去的原始轨迹 (raw trajectories) 虽然全面且原始,但往往过于冗长和嘈杂,无法直接应用于当前的查询。如图 2 所示,ReasoningBank 从过去的经验中提炼有用的策略和推理提示,将其组织成结构化的记忆项,然后存储以供将来重用。

Figure 2 | ReasoningBank 概述。经验被提炼成具有标题、描述和内容的结构化记忆项。对于每个新任务,代理 (agent) 检索相关项以与环境交互,并从成功和失败的轨迹中构建新项。这些项随后被整合到 ReasoningBank 中,形成一个闭环记忆过程。
4.3.1. 记忆模式 (Memory Schema)
ReasoningBank 中的记忆项被设计为从过去的经验中诱导出的结构化知识单元。它们抽象掉低层次的执行细节,同时保留了可迁移的推理模式和策略。每个记忆项包含三个组件:
-
标题 (title): 作为简洁的标识符,总结核心策略或推理模式。
-
描述 (description): 提供记忆项的简短一句话总结。
-
内容 (content): 记录从过去经验中提炼出的推理步骤、决策理由或操作洞察。
这些提取出的记忆项既可供人类理解,也可供机器使用,有助于提高效率和与代理 (agent) 的集成。
4.3.2. ReasoningBank 与代理 (Agent) 的集成
一个配备 ReasoningBank 的代理 (agent) 可以利用精心策划的可迁移策略池来指导决策。这使得代理 (agent) 能够回忆有效的见解,避免先前观察到的陷阱,并更稳健地适应未见的查询。集成过程分为三个步骤:
- 记忆检索 (Memory Retrieval):
- 当代理 (agent) 面对新任务时,它会使用当前查询上下文来查询
ReasoningBank。 - 通过基于嵌入 (embedding-based) 的相似度搜索,识别出
Top-k个最相关的经验及其对应的记忆项。 - 检索到的记忆项被注入到代理 (agent) 的系统指令 (system instruction) 中,确保决策过程能够利用有用的过去经验。
- 当代理 (agent) 面对新任务时,它会使用当前查询上下文来查询
- 记忆构建 (Memory Construction):
- 当前查询任务完成后,对新的经验进行分析以提取新的记忆项。
- 正确性信号获取: 首先,利用
LLM-as-a-judge(大型语言模型作为评判者)(Gu et al., 2024)来标记已完成轨迹的结果是成功还是失败(无需真实标签)。 - 不同提取策略:
- 成功经验: 贡献已验证的策略。
- 失败经验: 提供反事实信号 (counterfactual signals) 和陷阱 (pitfalls),有助于强化防范性策略。
- 实际操作: 每次轨迹可提取多达三个记忆项(详见附录 A.1)。
- 记忆整合 (Memory Consolidation):
- 通过简单的添加操作,将新构建的记忆项整合到
ReasoningBank中,维护一个不断演进的记忆库(详见附录 A.2)。 - 这些步骤共同构成了一个闭环过程:代理 (agent) 利用过去经验,从当前任务中构建新记忆,并持续更新其记忆,从而在测试时学习场景中实现持续进化。
- 通过简单的添加操作,将新构建的记忆项整合到
4.4. MATTS: 记忆感知测试时扩展 (Memory-aware Test-Time Scaling)
ReasoningBank 使得代理 (agent) 能够从经验中学习,将更多的经验转化为更大的改进。测试时扩展 (Test-Time Scaling, TTS) (Snell et al., 2025) 近期已成为提升 LLM Agents 性能的强大策略,它通过分配额外的推理时计算资源来生成丰富的探索历史。
ReasoningBank 和 TTS 的直接组合如图 3(a) 所示,其中更多轨迹被独立地转换为更多记忆项。然而,这种朴素 (vanilla) 的形式是次优的,因为它没有利用在同一问题上冗余探索所产生的内在对比信号 (inherent contrastive signal),这限制了 TTS 带来的性能优势。
为了解决这个问题,本文提出了 记忆感知测试时扩展 (Memory-aware Test-Time Scaling, MaTTS),这是一种将 TTS 与 ReasoningBank 结合的新颖方法。与朴素方法不同,MaTTS 有意识地从扩展过程中生成的丰富成功和失败轨迹中学习,以实现更有效的记忆整理 (memory curation)。本文为 MaTTS 设计了两种互补的实例化方式:并行扩展 (parallel scaling) 和顺序扩展 (sequential scaling),如图 3(b) 和 3(c) 所示(具体实现详见附录 A.3)。

Figure 3 | (a) 朴素 TTS 与 MaTTS 的比较,其中 (b) 并行扩展通过多轨迹之间的自对比 (self-contrast) 整理出可靠记忆,(c) 顺序扩展通过自我优化 (self-refinement) 用中间推理信号丰富记忆。
4.4.1. 并行扩展 (Parallel Scaling)
- 机制: 在并行设置中,在检索到的记忆项的指导下,为同一查询生成多个轨迹。
- 记忆整理: 通过比较和对比这些轨迹(
自对比 (self-contrast)),MaTTS能够识别出通往成功路径的共性,并排除导致虚假解决方案的异常情况。 - 效果: 这一过程使得从单个查询的多次尝试中进行更可靠的记忆整理成为可能,从而促进了多样化的探索。
- 扩展因子: 定义扩展因子 为生成的轨迹数量。
4.4.2. 顺序扩展 (Sequential Scaling)
- 机制: 在初始任务完成后,遵循
自我优化 (self-refinement)(Madaan et al., 2023) 的原则,迭代地精炼单一轨迹中的推理。 - 记忆信号: 在此过程中产生的中间笔记 (intermediate notes) 也被用作有价值的记忆信号,因为它们捕获了可能不会出现在最终解决方案中的推理尝试、纠正和洞察。
- 扩展因子: 定义扩展因子 为精炼步骤的数量。
4.4.3. 协同效应
本文定义扩展因子 ,表示并行扩展中的轨迹数量或顺序扩展中的精炼步骤。配备 ReasoningBank 后,并行和顺序策略都变得记忆感知 (memory-aware),确保在测试时分配的额外计算能够转化为更具可迁移性和更高质量的未来任务记忆。
MaTTS 创建了记忆与测试时扩展之间的协同作用:高质量的记忆将扩展性探索导向更有前景的路径,而生成的丰富经验又反过来锻造出更强的记忆。这种积极的反馈循环将记忆驱动的经验扩展定位为一个新的代理 (agent) 扩展维度。
5. 实验设置
5.1. 数据集
遵循现有工作 (Wang et al., 2025d),本文在以下三个具有挑战性的基准测试上进行了实验。
-
WebArena (Zhou et al., 2024):
- 描述: 该基准测试以其真实性而闻名,涵盖了跨多样化领域的通用网页导航任务。
- 子集: 包括购物 (Shopping)、管理 (Admin)、Gitlab (代码协作)、Reddit (论坛) 和多任务 (Multi)。
- 规模: 总计 684 个测试实例。各子集的实例数量为:
- Shopping: 187
- Admin: 182
- Gitlab: 180
- Reddit: 106
- Multi: 29
- 目的: 用于评估代理 (agent) 在模拟真实世界网页环境中的导航和交互能力。
-
Mind2Web (Deng et al., 2023):
- 描述: 提供了一个测试代理 (agent) 在各种操作和环境中的泛化能力的平台。
- 设置: 包括跨任务 (Cross-Task)、跨网站 (Cross-Website) 和跨领域 (Cross-Domain) 评估,这些设置对泛化能力提出了逐渐更高的要求。
- 规模: 总计 1341 个测试实例。各设置的实例数量为:
- Cross-Task: 252
- Cross-Website: 177
- Cross-Domain: 912
- 目的: 用于测试代理 (agent) 在不同程度的新颖性和复杂性下的泛化性能。
-
SWE-Bench-Verified (Jimenez et al., 2024):
- 描述: 这是一个仓库级问题解决的基准测试,专注于代理 (agent) 的代码能力。
- 规模: 包含 500 个高质量、经过手动验证的测试实例。
- 任务: 每个实例要求生成一个补丁 (patch) 来解决输入问题中描述的底层错误。目标是修改代码库的相关部分,使所有提供的测试脚本成功执行。
- 目的: 评估代理 (agent) 在软件工程任务中解决实际问题的能力。
数据集中的具体样本示例: 原文中未提供数据集的具体样本示例,仅提供了数据集的名称、规模和特点。
5.2. 评估指标
本研究使用的评估指标根据任务类型有所不同,但主要关注有效性 (effectiveness) 和效率 (efficiency)。
5.2.1. WebArena 基准测试的评估指标
-
成功率 (Success Rate, SR):
- 概念定义: 衡量代理 (agent) 成功解决用户查询的百分比。它是评估方法有效性的核心指标。论文采用了
LLM-based fuzzy matching(基于LLM的模糊匹配) 和exact string matching(精确字符串匹配) 来验证答案的正确性。 - 数学公式:
- 符号解释:
- : 成功率 (Success Rate)。
- : 代理 (agent) 成功解决的任务查询总数。
- : 实验中评估的所有任务查询总数。
- 概念定义: 衡量代理 (agent) 成功解决用户查询的百分比。它是评估方法有效性的核心指标。论文采用了
-
步骤数 (Steps):
- 概念定义: 衡量代理 (agent) 完成每个查询所需的平均交互步骤数。此指标反映了任务完成过程中的计算和交互成本,数值越低表示效率越高。
- 数学公式:
- 符号解释:
- : 平均步骤数。
- : 成功完成的任务数量。
- : 代理 (agent) 完成第 个成功任务所采取的动作步数。
5.2.2. Mind2Web 基准测试的评估指标
Mind2Web 数据集的每个任务都有预定义的固定步骤数。在每个步骤中,代理 (agent) 需要预测一个动作。
-
元素准确率 (Element Accuracy, EA):
- 概念定义: 检查代理 (agent) 是否正确选择了页面上的元素。
- 数学公式:
- 符号解释:
- : 元素准确率。
- : 代理 (agent) 在其操作序列中正确选择页面元素的次数。
- : 代理 (agent) 执行的总操作次数。
-
行动 F1 (Action , ):
- 概念定义: 检查在选定元素上执行的动作是否正确。它通常用于衡量动作分类任务的性能,是精确率 (Precision) 和召回率 (Recall) 的调和平均值。
- 数学公式:
- 符号解释:
- : 精确率,模型正确预测为正例的比例。
- : 召回率,所有实际正例中被模型正确识别的比例。
- : 真阳性,正确预测为正例的数量。
- : 假阳性,错误预测为正例的数量。
- : 假阴性,错误预测为负例的数量。
- : F1 分数,精确率和召回率的调和平均值。
-
步骤成功率 (Step Success Rate, SSR):
- 概念定义: 如果当前步骤的元素选择和动作执行都正确,则认为该步骤成功。它聚合了元素准确率和行动 的结果。
- 数学公式: 如果一个步骤的元素选择是正确的 且 动作执行是正确的,则该步骤被认为是成功的。
- 符号解释:
- : 步骤成功率。
- : 在该步骤中,页面元素选择和在其上执行的动作都正确的数量。
- : 代理 (agent) 执行的总步骤数量。
-
任务级成功率 (Task-level Success Rate, SR):
- 概念定义: 在给定任务中,如果所有中间步骤都成功完成(即所有步骤的
SSR均为 1.0),则认为该任务成功。 - 数学公式:
- 符号解释:
- : 任务级成功率。
- : 所有中间步骤的
SSR都为 1.0 的任务数量。 - : 实验中评估的所有任务总数。
- 概念定义: 在给定任务中,如果所有中间步骤都成功完成(即所有步骤的
5.2.3. SWE-Bench-Verified 基准测试的评估指标
-
问题解决率 (Issue Resolution Rate):
- 概念定义: 作为主要评估指标,衡量代理 (agent) 成功修复问题的百分比。如果提交的补丁通过了所有测试脚本,则认为问题已解决。
- 数学公式:
- 符号解释:
- : 问题解决率。
- : 代理 (agent) 成功通过所有测试的问题数量。
- : 实验中评估的所有问题总数。
-
步骤数 (Steps):
- 概念定义: 衡量代理 (agent) 在每个实例中执行的平均步骤数,与 WebArena 中的定义类似,反映效率。
- 数学公式:
- 符号解释:
- : 平均步骤数。
- : 成功解决的问题数量。
- : 代理 (agent) 完成第 个成功问题所采取的动作步数。
5.3. 对比基线 (Baselines)
本文将 ReasoningBank 与以下几种具有代表性的增强记忆方法进行了比较:
-
无记忆 (No Memory):
- 描述: 作为参考点,使用骨干
LLM代理 (agent) 但不配备任何记忆模块。 - 代表性: 代表了代理 (agent) 在没有历史经验指导下的性能上限。
- 描述: 作为参考点,使用骨干
-
Synapse (Zheng et al., 2024):
- 描述: 一种基于轨迹 (trajectory-based) 的记忆工作,它将过去的轨迹组织为上下文记忆 (in-context memory)。
- 代表性: 代表了直接重用原始成功轨迹作为记忆的范式。
-
AWM (Agent Workflow Memory, Wang et al., 2025d):
-
描述: 进一步将轨迹中的常见模式抽象为可重用的工作流 (reusable workflows)。
-
代表性: 代表了从成功轨迹中提炼更高层次结构(工作流)作为记忆的范式。
这些基线共同涵盖了从无记忆、直接重用轨迹到提炼高层次结构(工作流)的记忆机制的演进,为评估
ReasoningBank提供了全面的比较。
-
5.4. 实现细节 (Implementation Details)
-
骨干 LLM (Backbone LLMs):
- 实验中使用的代理 (agent) 基于 Vertex AI API 访问的几种最先进的
LLM:- Gemini-2.5-Flash
- Gemini-2.5-Pro (Comanici et al., 2025)
- Claude-3.7-Sonnet (Anthropic, 2025)
- 选择原因: 这些选择允许研究跨模型家族 (Gemini, Claude) 和同一家族内部(Flash, Pro)的变体进行调查。
- 实验中使用的代理 (agent) 基于 Vertex AI API 访问的几种最先进的
-
执行环境 (Execution Environment):
- WebArena 任务: 使用
BrowserGym(de Chezelles et al., 2025) 作为执行环境。- 最大步骤限制: 每个查询的最大步骤限制为 30 步。
- SWE 任务: 使用
bash-only环境,无工具 (no tools) 且无特殊脚手架结构 (no special scaffold structure),遵循miniSWE-Agent(Yang et al., 2024) 的设置。
- WebArena 任务: 使用
-
代理 (Agent) 实现风格:
- 代理 (agent) 采用
ReAct(Yao et al., 2023) 风格实现,并使用默认的解码配置。 - 交互过程: 代理 (agent) 迭代执行,直到模型预测停止动作或达到任务终止条件。
- 代理 (agent) 采用
-
解码温度 (Decoding Temperature):
- 对于 WebArena 和 Mind2Web 任务的模型生成,解码温度设置为 0.7。
-
记忆提取 (Memory Extraction):
- 使用
LLM-based extraction pipeline将原始轨迹转换为结构化记忆项。 - 提示模板: 设计了一个提示模板,要求模型将推理模式提炼为标题 (title)、描述 (description) 和内容 (content) 三个组件。
- 提取器骨干 LLM: 提取器的骨干
LLM与代理 (agent) 系统相同,温度设置为 1.0。 - 记忆项数量: 每条轨迹最多可提取 3 个记忆项。
- 成功/失败判断: 采用
LLM-based binary classifier(基于 LLM 的二元分类器) 来判断轨迹的成功或失败 (Pan et al., 2024; Wang et al., 2025d)。分类器骨干LLM与代理 (agent) 系统相同,解码温度设置为 0.0 以确保确定性。
- 使用
-
记忆检索与响应生成 (Memory Retrieval and Response Generation):
- 嵌入模型: 使用
gemini-embedding-001(Lee et al., 2025) 对每个任务查询进行嵌入,通过 Vertex AI 访问。 - 相似度搜索: 使用余弦距离 (cosine distance) 在记忆池中进行相似度搜索。
- 检索数量: 默认选择
Top-k个最相似经验的记忆项(默认 )。 - 集成方式: 检索到的记忆项以简洁的格式(每个项由其标题和内容表示)和指令连接到代理 (agent) 的系统提示中。
- 嵌入模型: 使用
-
记忆整合 (Memory Consolidation):
- 完成每个新查询后,轨迹会通过提取管道处理以生成新的记忆项。
- 整合策略: 新生成的记忆项直接添加到记忆池中,没有额外的修剪 (pruning) 操作。
-
ReasoningBank存储:ReasoningBank以 JSON 格式维护。每个条目包含任务查询、原始轨迹和相应的记忆项。- 所有记忆项存储为
{title, description, content}结构。 - 为提高效率,预先计算并存储每个查询的嵌入 (embedding) 在另一个 JSON 文件中,用于相似度搜索。
- 为实现持续积累经验,每个独立运行的记忆池都会持久化存储。
-
MATTS细节 (详见附录 A.3):- 并行扩展提示: 多个轨迹(成功和失败)被提供给模型,并指示模型进行自对比推理 (self-contrast reasoning)。
- 顺序扩展提示: 模型通过检查指令反复重新审查自己的轨迹,确保迭代过程中的一致性和纠正。
Best-of-N计算: 给定任务查询和 条候选轨迹,利用一个LLM(与代理 (agent) 系统相同的骨干LLM,如 Gemini-2.5-flash)从 条轨迹中选择最佳答案。
6. 实验结果与分析
6.1. ReasoningBank 的结果
表 1、2、3 总结了 ReasoningBank 在 WebArena、Mind2Web 和 SWE-Bench-Verified 上的主要评估结果。
6.1.1. 性能一致优于基线
ReasoningBank 在所有数据集和 LLM 骨干模型上始终优于基线。
-
WebArena (Table 1): 相较于无记忆代理 (agent),
ReasoningBank在三种不同的骨干LLM下,整体成功率分别提高了 +8.3% (Gemini-2.5-flash)、+7.2% (Gemini-2.5-pro) 和 +4.6% (Claude-3.7-sonnet)。 -
Mind2Web (Table 3):
ReasoningBank在跨任务 (cross-task)、跨网站 (cross-website) 和跨领域 (cross-domain) 设置中均取得了明显提升,显示出其效益的一致性和可扩展性。 -
SWE-Bench-Verified (Table 2): 进一步证实了
ReasoningBank的鲁棒性。关键洞察: 与
Synapse和AWM等基线不同,ReasoningBank采用了一种卓越的提取策略,不仅限于成功的轨迹,还从失败经验中学习,这是其持续超越基线的关键。
6.1.2. 泛化能力显著增强
ReasoningBank 通过更好的可迁移记忆来增强泛化能力。
-
WebArena (Table 1) 的
Multi子集: 需要在多个网站之间迁移记忆,ReasoningBank相较于最强的基线取得了 +4.6% 的平均成功率提升。相反,AWM等强基线在此设置中甚至表现下降。 -
Mind2Web (Table 3):
ReasoningBank持续提高了成功率,尤其是在要求最高泛化能力的跨领域 (cross-domain) 设置中,收益最为显著。关键洞察: 这些结果表明
ReasoningBank整理的记忆更鲁棒、更具可迁移性,使代理 (agent) 能够在多样化场景中有效泛化。
6.1.3. 效率显著提升
除了更高的成功率,ReasoningBank 还减少了完成任务所需的交互步骤数 (Step)。
-
WebArena (Table 1): 在几乎所有子集和骨干模型上,
ReasoningBank将平均步骤数比“无记忆”代理 (agent) 减少了高达 1.4 步,比其他记忆基线减少了 1.6 步。 -
SWE-Bench-Verified (Table 2): 平均步骤数也分别减少了 2.8 步和 1.3 步。
关键洞察: 这表明
ReasoningBank通过重用和精炼推理知识,避免了不必要或冗余的探索,从而使代理 (agent) 能够更高效地解决任务。
以下是原文 Table 1、Table 2 和 Table 3 的结果:
Table 1 | ReasoningBank 在 WebArena 基准测试上的实验结果。成功率 (SR ↑) 和步骤数 (Step ↓) 报告了 5 个子集,使用了 3 种不同的骨干 LLM。
| Models | Shopping (187) | Admin (182) | Gitlab (180) | Reddit (106) | Multi (29) | Overall (684) | ||||||
| SR | Step | SR | Step | SR | Step | SR | Step | SR | Step | SR | Step | |
| Gemini-2.5-flash | ||||||||||||
| No Memory | 39.0 | 8.2 | 44.5 | 9.5 | 33.9 | 13.3 | 55.7 | 6.7 | 10.3 | 10.0 | 40.5 | 9.7 |
| Synapse | 40.6 | 7.0 | 45.1 | 9.1 | 35.6 | 13.0 | 59.4 | 6.5 | 10.3 | 10.5 | 42.1 | 9.2 |
| AWM | 44.4 | 7.0 | 46.7 | 8.8 | 37.2 | 13.2 | 62.3 | 6.1 | 3.4 | 7.7 | 44.1 | 9.0 |
| ReasoningBank | 49.7 | 6.1 | 51.1 | 8.2 | 40.6 | 12.3 | 67.0 | 5.6 | 13.8 | 8.8 | 48.8 | 8.3 |
| Gemini-2.5-pro | ||||||||||||
| No Memory | 45.5 | 7.6 | 51.1 | 8.7 | 35.0 | 11.6 | 71.7 | 6.0 | 6.9 | 8.8 | 46.7 | 8.8 |
| Synapse | 46.5 | 6.6 | 52.2 | 8.9 | 38.3 | 11.3 | 68.9 | 5.9 | 6.9 | 9.0 | 47.7 | 8.5 |
| AWM | 48.1 | 6.4 | 49.3 | 9.8 | 40.0 | 11.2 | 68.9 | 6.4 | 3.4 | 9.3 | 47.6 | 8.7 |
| ReasoningBank | 51.9 | 6.0 | 56.6 | 7.7 | 44.4 | 9.8 | 80.2 | 5.1 | 13.8 | 8.2 | 53.9 | 7.4 |
| Claude-3.7-sonnet | ||||||||||||
| No Memory | 38.5 | 6.1 | 49.5 | 8.4 | 36.7 | 10.6 | 53.8 | 5.5 | 0.0 | 11.6 | 41.7 | 8.0 |
| Synapse | 39.6 | 5.8 | 50.5 | 8.5 | 38.0 | 10.0 | 53.8 | 6.1 | 0.0 | 11.8 | 42.6 | 7.9 |
| AWM | 39.6 | 7.2 | 47.8 | 9.3 | 34.6 | 10.9 | 52.8 | 7.0 | 0.0 | 12.4 | 40.8 | 8.9 |
| ReasoningBank | 44.9 | 5.6 | 53.3 | 7.6 | 41.1 | 9.5 | 57.5 | 5.2 | 3.4 | 10.5 | 46.3 | 7.3 |
Table 2 | ReasoningBank 在 SWE-Bench-Verified 数据集上解决存储库问题的实验结果。
| Methods | Resolve Rate | Step |
| Gemini-2.5-flash | ||
| No Memory | 34.2 | 30.3 |
| Synapse | 35.4 | 30.7 |
| ReasoningBank | 38.8 | 27.5 |
| Gemini-2.5-pro | ||
| No Memory | 54.0 | 21.1 |
| Synapse | 53.4 | 21.0 |
| ReasoningBank | 57.4 | 19.8 |
Table 3 | Mind2Web 基准测试在跨任务、跨网站和跨领域泛化测试上的结果。EA (↑) 是元素准确率 (element accuracy) 的缩写,AF1 (↑) 是行动 F1 (action F1) 的缩写,SSR (↑) 是步骤成功率 (step success rate) 的缩写。SR (↑) 是任务级成功率 (task-level success rate),衡量所有步骤是否都正确。
| Models | Cross-Task (252) | Cross-Website (177) | Cross-Domain (912) | |||||||||
| EA | AF1 | SSR | SR | EA | AF1 | SSR | SR | EA | AF1 | SSR | SR | |
| Gemini-2.5-flash | ||||||||||||
| No Memory | 46.0 | 59.1 | 40.3 | 3.3 | 39.8 | 45.1 | 31.7 | 1.7 | 35.8 | 37.9 | 31.9 | 1.0 |
| Synapse | 47.0 | 59.5 | 41.2 | 3.5 | 40.3 | 46.0 | 32.1 | 1.9 | 36.3 | 38.5 | 32.4 | 1.1 |
| AWM | 46.3 | 56.1 | 41.0 | 3.5 | 39.1 | 42.2 | 31.7 | 2.1 | 33.3 | 36.5 | 30.1 | 0.7 |
| ReasoningBank | 52.1 | 60.4 | 44.9 | 4.8 | 44.3 | 52.6 | 33.9 | 2.3 | 40.6 | 41.3 | 36.6 | 1.6 |
| Gemini-2.5-pro | ||||||||||||
| No Memory | 49.3 | 60.2 | 44.4 | 3.5 | 41.2 | 49.8 | 34.8 | 3.4 | 37.9 | 37.7 | 35.0 | 1.4 |
| Synapse | 50.1 | 61.0 | 44.7 | 3.6 | 41.8 | 51.2 | 35.0 | 3.2 | 38.5 | 39.8 | 35.6 | 1.5 |
| AWM | 48.6 | 61.2 | 44.4 | 3.7 | 41.9 | 47.9 | 34.8 | 2.3 | 37.3 | 38.1 | 34.4 | 1.2 |
| ReasoningBank | 53.6 | 62.7 | 45.6 | 5.1 | 46.1 | 54.8 | 36.9 | 3.8 | 42.8 | 45.2 | 38.1 | 1.7 |
6.2. MATTS 的结果
本文在 Webarena-Shopping 子集上使用 Gemini-2.5-flash 对 MATTS 进行了实验。默认情况下,MATTS 集成了 ReasoningBank。为了研究整体扩展效果,本文与以下几种设置进行了基准测试:(i) MATTS w/o memory(表示没有记忆机制的扩展设置),(ii) MATTS w/o aggregation(等于图 3(a) 中的朴素 TTS),以及 (iii) MATTS(用于展示扩展因子 的效果)。值得注意的是, 是没有扩展的设置。对于并行扩展,本文计算 Best-of-N (BoN) 作为最终指标(详见附录 A.3)。结果如图 4 所示。

Figure 4 | MATTS 在 WebArena-Shopping 子集上与 ReasoningBank 结合时,扩展因子 的效果。我们比较了 (a) 并行扩展和 (b) 顺序测试时扩展。
6.2.1. 并行扩展和顺序扩展均提升性能
-
增加扩展因子 通常会提高成功率,证实了分配更多推理时计算的好处。
-
MATTS结合ReasoningBank:- 并行扩展从 49.7% () 增长到 55.1% ()。
- 顺序扩展从 49.7% 上升到 54.5% ()。
-
MATTS w/o memory(基线): 收益较小且不一致(例如,并行扩展在 39.0% 和 42.2% 之间波动,顺序扩展在 37.4% 和 40.6% 之间波动)。关键洞察:
MATTS使得两种扩展策略都能实现更强劲、更稳定的改进,突显了其在提高扩展效率方面的作用。
6.2.2. MATTS 始终优于朴素 TTS
- 结合
ReasoningBank,MATTS持续超越MATTS w/o aggregation(朴素TTS),这表明记忆感知协调和聚合的重要性。 - 具体数据 ():
-
并行扩展:
MATTS达到 55.1%,而朴素TTS为 52.4%。 -
顺序扩展:
MATTS达到 54.5%,而朴素TTS为 51.9%。关键洞察: 这些改进表明,记忆感知扩展通过综合来自多条轨迹或交互步骤的见解来利用对比信号,有效地将代理 (agent) 引向更有前景的解决方案。
-
6.2.3. 顺序扩展短期优势,并行扩展在大规模下占主导
- 对于像
ReasoningBank这样更强的记忆机制:- 顺序精炼 (sequential refinement) 在较小的 值时带来更高的收益,但其效益很快饱和(一旦模型明确成功或失败,进一步的精炼带来的新见解就很少了)。
- 相比之下,并行扩展 (parallel scaling) 持续提供多样化的
rollout(推演),使模型能够批判和改进自己的生成结果,在较大的 值时超越顺序扩展(例如, 时 55.1% 对 54.5%)。
- 对于没有记忆模块的朴素
TTS:- 顺序扩展随着扩展的进行几乎没有或根本没有收益。
- 并行扩展始终占据主导地位。
6.3. 记忆与测试时扩展的协同作用 (Synergy of Memory and Test-Time Scaling)
本节探讨记忆与 TTS 之间的协同作用。图 5 展示了 MATTS 在 WebArena-Shopping 子集上,并行扩展因子 时的快照。本文报告了 Pass@1 (随机选择的轨迹) 和 Best-of-3 (BoN)。这种设置允许检查记忆质量和扩展有效性之间的双向交互。

Figure 5 | MATTS 在 WebArena-Shopping 子集上,使用不同记忆机制和 时的快照。我们计算了所有 3 条轨迹的 BoN 和随机选择的 1 条轨迹的 Pass@1。
6.3.1. 更好的记忆实现更强的测试时扩展性能
- 通过
BoN结果衡量:BoN直接衡量代理 (agent) 从多个rollout中找出最佳结果的能力。 - 蓝色条形图所示: 扩展的收益关键取决于底层记忆。
-
无记忆: 扩展带来的提升微乎其微,
BoN仅从 39.0% 上升到 40.6%。 -
较弱记忆 (Synapse, AWM): 提供适度收益,分别达到 42.8% 和 45.5%。
-
MATTS结合ReasoningBank: 带来最强的收益,BoN从 49.7% 上升到 52.4%。关键洞察: 这些结果表明,高质量的记忆将扩展导向更有前景的
rollout,确保额外轨迹不被浪费,而是转化为更高的成功率。
-
6.3.2. 扩展产生更好的记忆整理
-
通过
Pass@1衡量:Pass@1衡量记忆整理后轨迹的平均质量,并允许与无扩展情况直接比较。 -
粉色条形图所示: 扩展实际上降低了较弱记忆的性能。
- Synapse: 从 40.6% 下降到 40.1%。
- AWM: 从 44.4% 下降到 41.2%。
- 解释: 这表明在没有强有力指导的情况下,扩展生成的额外
rollout引入了噪声而非有用信号。
-
ReasoningBank的优势:ReasoningBank是唯一受益的方法,Pass@1从 49.7% 上升到 50.8%。关键洞察: 这种不对称性突出表明,仅凭扩展是不够的;只有与良好的记忆机制结合,扩展才能促进更有效记忆的整理,从而形成良性循环。
6.4. 分析 (ReasoningBank 的额外分析)
本文从三个方面分析了 ReasoningBank 超越整体基准性能的表现:纳入失败轨迹、检查新兴策略以及评估成功和失败案例的效率。
6.4.1. 纳入失败轨迹 (Incorporating failure trajectories)
图 7 比较了在 WebArena-Shopping 上使用 Gemini-2.5-flash 的不同记忆设计,分别在两种设置下进行:仅使用成功轨迹,以及同时利用成功和失败轨迹。
-
基线方法 (Synapse, AWM): 这些方法仅从成功轨迹构建记忆,因此无法从失败中受益。当加入失败轨迹时,它们的性能受限甚至下降:
Synapse仅从 40.6%(仅成功)增加到 41.7%(包含失败),而AWM则从 44.4% 下降到 42.2%。 -
ReasoningBank: 其设计使其能够从成功和失败轨迹中提炼推理模式,在仅成功轨迹时达到 46.5%,在包含失败轨迹时进一步提高到 49.7%。
Figure 7 | 纳入失败轨迹进行记忆归纳的消融实验结果。关键洞察: 这突出表明,与基线不同,
ReasoningBank能够将失败转化为建设性信号而非噪声,从而实现更鲁棒的泛化。
6.4.2. 新兴行为 (Emergent behaviors with ReasoningBank)
研究发现 ReasoningBank 中的策略并非扁平或单一,而是随着时间演变,展现出类似强化学习 (RL) 的学习动力学的新兴行为。如图 6 所示,ReasoningBank 中的一个记忆项在测试时学习过程中可以逐渐演变。
-
初始阶段: 从执行导向 (execution-oriented) 或程序性策略 (procedural strategies) 开始(例如,查找导航链接),代理 (agent) 遵循直接的行动规则。
-
中期阶段: 进展到适应性自我反思 (adaptive self-reflections),例如重新验证标识符以减少简单错误。
-
后期阶段: 随着经验的增加,同一个记忆项演变为适应性检查 (adaptive checks),代理 (agent) 系统地利用可用的搜索或过滤器来确保结果的完整性。
-
最终阶段: 最终成熟为组合策略 (compositional strategies),例如交叉引用任务要求并重新评估选项。
Figure 6 | 说明 ReasoningBank中新兴行为的案例研究,通过记忆项的演变来展示。关键洞察: 这种演变突出表明
ReasoningBank如何使代理 (agent) 在测试时学习过程中,从低层次行动提炼出高层次推理策略。
6.4.3. 效率研究 (Efficiency Study)
虽然表 1 中的总步骤数提供了模型效率的概览,但它没有区分减少的步骤是来自成功还是失败的轨迹。为了获得更深入的洞察,本文进一步将分析分离为成功和失败的测试案例。一个理想的系统应该在正确轨道上时减少不必要的探索,而不是仅仅截断失败的尝试。结果如表 4 所示。
Table 4 | 在 WebArena 的四个领域中,成功和失败测试实例的平均步骤数。ReasoningBank 始终比朴素基线减少步骤数,尤其在成功实例上减少的幅度更大。
| Models | Shopping | Admin | Gitlab | |||||
| Successful | Failed | Successful | Failed | Successful | Failed | Successful | Failed | |
| No Memory | 6.8 | 8.7 | 8.4 | 10.4 | 8.6 | 15.7 | 6.1 | 7.6 |
| ReasoningBank | 4.7 (-2.1) | 7.3 (-1.4) | 7.0 (-1.4) | 9.5 (-0.9) | 7.6 (-1.0) | 15.5 (-0.2) | 5.0 (-1.1) | 6.8 (-0.8) |
关键洞察:
ReasoningBank在所有领域都持续减少了步骤数。- 更重要的是,这种减少在成功案例中尤为显著,比失败案例多达 2.1 步(相对减少 26.9%)。
- 这表明
ReasoningBank主要通过强化代理 (agent) 遵循有效推理路径的能力,以更少的交互来帮助代理 (agent) 找到解决方案,而不是简单地截断失败轨迹。这突显了记忆在指导有目的的决策和提高实践效率方面的作用。
6.5. 额外分析 (Additional Analyses)
6.5.1. 检索经验数量 (Number of Retrieved Experiences)
本文对检索经验的数量进行了消融研究,使用 Gemini-2.5-flash 在 WebArena-Shopping 子集上。如图 12 所示,发现纳入相关记忆能显著提升性能(从无记忆的 39.0% 提升到一份经验的 49.7%)。然而,随着经验数量的增加,成功率逐渐下降(2 份经验时 46.0%,3 份经验时 45.5%,4 份经验时 44.4%)。

Figure 12 | 使用不同数量经验的消融实验结果。
关键洞察: 这表明虽然记忆提供了有价值的指导,但过多的经验可能会引入冲突或噪声。因此,记忆的相关性和质量比单纯的数量对于有效性能更为关键。
6.5.2. Pass@k 分析
在并行扩展下的 Pass@k 分析(WebArena-Shopping 子集,Gemini2.5-flash)揭示了两个显著效果,如图 13 所示。

Figure 13 | ReasoningBank 下并行扩展的 Pass@k。
-
MATTS w/o aggregation(朴素TTS) 的样本效率提升: 即使是朴素TTS,也能使测试时学习表现出类似于RL训练的行为:它通过指导探索来提高样本效率,而不是仅仅在 值较大时提高Pass@k。例如,在 时,MATTS w/o aggregation达到 50.8%,而MATTS w/o memory为 47.6%,这表明它从每次rollout中提取了更多价值。 -
MATTS进一步提升性能: 配备记忆感知扩展的MATTS进一步提升了性能。MATTS不仅在较小的 值时保持了效率( 时为 51.3%),而且随着扩展持续保持强劲增长,在 时达到 62.1%,而MATTS w/o memory仅为 52.4%。关键洞察:
MATTS释放了代理 (agent) 系统的更多潜力,并鼓励多样化生成以实现更好的Pass@k性能。
6.5.3. 案例研究 (Case Study)
本文提供了两个代表性的案例研究以更好地说明其方法的优势。
-
案例 1: 网页浏览任务 (图 14):
-
任务: 查找用户首次购买日期。
-
基线代理 (无记忆): 仅检查“Recent Orders”表,错误地输出了最近的购买日期。
-
ReasoningBank代理: 回忆过去的推理提示,探索完整的购买历史,并正确识别了最早的订单。
Figure 14 | ReasoningBank使代理 (agent) 能够回忆并应用过去的推理提示,引导其找到完整的订单历史并得出正确的首次购买日期,而基线则仅凭近期订单信息而失败。关键洞察:
ReasoningBank有效利用了相关的过去经验作为记忆项,从而提高了任务的准确性。
-
-
案例 2: 导航密集型购物任务 (图 15):
-
任务: 购物任务中进行导航。
-
基线代理: 由于重复的低效浏览,需要 29 个步骤,并且在寻找“Men”筛选器的正确位置时陷入困境。
-
ReasoningBank代理: 利用存储的关于分类筛选的推理知识,使代理 (agent) 能够直接到达相关商品,并在 10 个步骤内完成任务。
Figure 15 | ReasoningBank通过利用过去的推理提示提高了效率,将导航步骤从 29 步减少到 10 步,相比于无记忆的基线。关键洞察:
ReasoningBank通过记忆引导的决策,显著提高了任务效率。
-
7. 总结与思考
7.1. 结论总结
本文提出了 ReasoningBank,这是一个创新的记忆框架,它能够从代理 (agent) 自我判断的成功和失败经验中提炼出策略级的推理信号。在此基础上,进一步引入了 Memory-aware Test-Time Scaling (MaTTS),将这些提炼出的记忆整合到测试时扩展过程中。
通过广泛的实验,研究发现:
-
ReasoningBank始终优于现有记忆机制,不仅提高了代理 (agent) 的任务完成有效性,还显著减少了冗余探索,提升了效率。 -
ReasoningBank能够从失败经验中学习,将负面信号转化为建设性指导,从而实现更鲁棒的泛化。 -
MaTTS进一步放大了ReasoningBank的收益,证明了记忆和测试时扩展之间存在强大的协同作用:高质量的记忆能够引导扩展性探索走向更有前景的路径,而多样化的rollout反过来又能为记忆提供宝贵的对比信号,促进更高质量记忆的整理。 -
代理 (agent) 在
ReasoningBank的支持下,展现出从低层次行动到高层次推理策略的渐进式演变,产生了具有新兴行为的自进化能力。这些发现共同确立了记忆驱动的经验扩展 (memory-driven experience scaling) 作为一个新的扩展维度,为构建适应性强、能够终身学习的代理 (agent) 提供了实用的途径。
7.2. 局限性与未来工作
论文作者指出了 ReasoningBank 和 MaTTS 的局限性,并提出了未来可能的研究方向。
7.2.1. 局限性 (Limitations)
- 侧重记忆内容 (Focus on memory content): 本研究主要强调如何策划和利用记忆内容(例如,整合失败轨迹、构建提炼的推理提示)。因此,它没有广泛比较其他记忆架构,如情景记忆 (episodic memory) 或分层记忆 (hierarchical memory)。这些设计解决了不同的问题(记忆形式/结构),而本文的贡献侧重于应该存储和重用什么。
- 记忆检索和整合的简单性 (Simplicity in memory retrieval and consolidation): 论文为了更好地隔离内容质量的影响,有意采用了简单的基于嵌入的检索和直接的整合策略。虽然更复杂的策略(如自适应检索、分层整合)与该框架兼容,但它们不是本工作的重点。这种选择确保了观察到的收益可以直接归因于面向推理的记忆内容的设计。
- 对
LLM-as-a-judge的依赖 (Dependence on LLM-as-a-judge for correctness signals): 在实现中,轨迹的成功和失败信号由LLM-as-a-judge确定。尽管这种自动标注能够实现无需真实反馈的可扩展评估,但当任务模糊或评判模型本身出错时,它可能会引入噪声。虽然实验结果表明该框架在这种噪声下仍保持鲁棒,但未来的工作可以考虑引入更强的验证器、人工参与 (human-in-the-loop) 反馈或集成判断 (ensemble judgment) 来增强记忆归纳的可靠性。
7.2.2. 未来工作 (Future Directions)
- 组合记忆 (Compositional Memory): 当前框架将每项经验提炼成多个记忆项,并在新查询到来时独立地检索和重用所有相关项。这种设计突出了记忆内容的效果,但没有考虑记忆项如何组合成更高层次的策略。未来的工作可以探索组合感知检索和整合,使代理 (agent) 能够组合互补项或形成可重用的宏 (macros),从而在长周期任务中产生更丰富的策略和更强的泛化能力。
- 高级记忆架构 (Advanced Memory Architectures): 当前系统设计有意保持最小化。未来可以探索更高级的记忆架构,例如:
- 情景轨迹 (episodic traces) 用于每个任务的上下文。
- 短期“工作”记忆 (short-term "working" memory) 用于会话内部状态。
- 长期整合知识 (long-term consolidated knowledge) 结合衰减/刷新策略。
ReasoningBank的理念与上述不同记忆角度兼容。此外,当前的记忆检索可以超越基于嵌入的相似性,转向推理密集型控制器 (reasoning-intensive controllers),这些控制器可以分解查询、规划跨层级的多跳查找 (multi-hop lookups),并根据不确定性、新近度和成本来条件化选择。基于学习的路由器和整合策略也可以自动化这个过程。这种集成将使ReasoningBank与MaTTS发展成为一个可部署的记忆服务,可跨领域和团队扩展。
7.3. 个人启发与批判
7.3.1. 个人启发
- 从失败中学习的重要性: 论文强调了从失败经验中提炼教训对代理 (agent) 学习和泛化的关键作用。这颠覆了传统上只关注成功案例的范式,为设计更鲁棒、更智能的代理 (agent) 系统提供了新的思路。在实际应用中,记录和分析失败原因往往比简单复制成功路径更有价值。
- 记忆与扩展的协同效应:
MaTTS提出的记忆感知测试时扩展概念非常具有启发性。它表明,并非简单地增加计算量就能带来性能提升,而是要将计算资源有目的地引导,使其与高质量记忆相互促进。这种“高质量记忆引导探索,多样化探索反哺记忆”的良性循环,为未来LLM Agents的设计提供了新的优化维度。这提示我们,在资源有限的情况下,如何高效地利用每一次交互,并从中最大化地学习,是一个值得深挖的方向。 - 高层次推理策略的抽象和演化:
ReasoningBank将记忆从原始轨迹或低级工作流提升到高层次的推理策略,这对于代理 (agent) 的泛化和复杂任务解决至关重要。代理 (agent) 能够从具体的行动中抽象出普适的原则,并随着经验的积累,这些原则还能进一步演化和组合,展现出类似人类学习的“智慧增长”过程。这为构建真正能够“思考”和“成长”的通用人工智能 (AGI) 提供了微观层面的路径。
7.3.2. 批判
LLM-as-a-judge的潜在偏差与局限: 论文中依赖LLM-as-a-judge来判断轨迹的成功与否。虽然这在没有真实标签的测试时学习场景中是必要的,但LLM作为评判者本身可能存在偏见、幻觉 (hallucination) 或对模糊任务的误判。如果评判LLM的判断不准确,那么从这些错误标签中提取的记忆也可能是有缺陷的,从而影响ReasoningBank的质量和代理 (agent) 的长期进化。未来的工作需要探索更可靠的自我评估机制,例如结合多种LLM评判、集成人类反馈或基于形式化验证的自动验证。- 记忆整合策略的简单性: 论文明确指出采用了简单的记忆整合策略(即直接添加新记忆)。虽然这有助于隔离
ReasoningBank内容本身的贡献,但在实际长期运行的系统中,记忆库会不断膨胀,可能导致检索效率下降、记忆冲突或冗余。没有更复杂的整合机制(如记忆去重、合并、优先级排序或遗忘机制),系统在非常长期的部署中可能会遇到可扩展性瓶颈。这可能成为未来实际部署中的一个潜在问题。 - 泛化性在更复杂、开放域场景中的表现: 尽管论文在 Mind2Web 的跨域任务上表现出色,证明了记忆的可迁移性,但在高度动态、不可预测的开放域环境(如真实互联网上从未见过的新网站、新功能或突发事件)中,这些提炼出的推理策略是否依然能够有效泛化,仍需进一步验证。高层次的策略可能有助于概括,但其粒度可能不足以应对所有极端情况。
- 计算成本考量:
MATTS通过分配更多计算资源(并行或顺序扩展)来提升性能。尽管论文通过效率指标展示了ReasoningBank减少了步骤数,但MATTS本身引入的额外计算成本(生成多条轨迹或多次精炼)在实际资源受限的应用中仍需权衡。在追求性能提升的同时,如何进一步优化计算效率,使其更具成本效益,是实际部署中需要考虑的问题。
相似论文推荐
基于向量语义检索推荐的相关论文。