论文状态：已完成

Agent Learning via Early Experience

发表：2025/10/10

早期经验学习范式 (1)基于交互数据的隐式世界建模 (1)自我反思驱动的策略优化 (1)无奖励监督强化学习前置方法 (1)多环境泛化能力提升 (1)

价格：0.100000

已有 8 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出“早期经验”范式，旨在解决语言智能体在缺乏奖励信号或探索低效环境下从自身经验学习的难题。该范式利用智能体自身行为产生的交互数据，将未来状态作为无奖励监督信息。通过隐式世界建模理解环境动态和自我反思改进决策，该方法显著提升了任务效果和域外泛化能力，并为后续强化学习奠定基础，有效连接了模仿学习与完全经验驱动的智能体。

摘要

A long-term goal of language agents is to learn and improve through their own experience, ultimately outperforming humans in complex, real-world tasks. However, training agents from experience data with reinforcement learning remains difficult in many environments, which either lack verifiable rewards (e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn tool use). As a result, most current agents rely on supervised fine-tuning on expert data, which is challenging to scale and generalizes poorly. This limitation stems from the nature of expert demonstrations: they capture only a narrow range of scenarios and expose the agent to limited environment diversity. We address this limitation with a middle-ground paradigm we call early experience: interaction data generated by the agent's own actions, where the resulting future states serve as supervision without reward signals. Within this paradigm we study two strategies of using such data: (1) Implicit world modeling, which uses collected states to ground the policy in environment dynamics; and (2) Self-reflection, where the agent learns from its suboptimal actions to improve reasoning and decision-making. We evaluate across eight diverse environments and multiple model families. Our approaches consistently improve effectiveness and out-of-domain generalization, highlighting the value of early experience. Moreover, in environments with verifiable rewards, our results provide promising signals that early experience offers a strong foundation for subsequent reinforcement learning, positioning it as a practical bridge between imitation learning and fully experience-driven agents.

思维导图

论文精读

中文精读约 20 分钟读完 · 10,568 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): Agent Learning via Early Experience (通过早期经验学习的智能体)
作者 (Authors): Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuan Sun, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu. 作者团队来自 Meta Superintelligence Labs, FAIR at Meta, 以及 The Ohio State University (俄亥俄州立大学)。
发表期刊/会议 (Journal/Conference): 本文目前发布在预印本网站 arXiv 上，尚未在同行评审的期刊或会议上正式发表。arXiv 是人工智能领域发布最新研究成果的重要平台。
发表年份 (Publication Year): 2025 (根据 arXiv 页面，这是一个预设的未来日期，实际提交日期应为 2024 年或 2025 年)。
摘要 (Abstract): 语言智能体 (Language Agent) 的长远目标是通过自身经验进行学习和改进，最终在复杂的真实世界任务中超越人类。然而，在许多环境中，通过强化学习 (Reinforcement Learning) 从经验数据中训练智能体仍然很困难，这些环境要么缺乏可验证的奖励信号（如网站），要么需要低效的长时程探索（如多轮工具使用）。因此，当前大多数智能体依赖于在专家数据上进行的监督微调 (Supervised Fine-Tuning)，这种方法难以扩展且泛化能力差。本文提出了一种名为 早期经验 (early experience) 的中间范式来解决此问题：智能体通过自身行为产生交互数据，并将由此产生的未来状态作为无需奖励信号的监督信息。在此范式下，论文研究了两种策略：(1) 隐式世界建模 (Implicit world modeling)，利用收集到的状态来使策略更好地理解环境动态；(2) 自我反思 (Self-reflection)，智能体从自己的次优行为中学习，以改进推理和决策能力。研究在八个不同的环境和多个模型家族上进行了评估，结果表明该方法能持续提升任务效果和域外泛化能力。此外，在有奖励的环境中，早期经验 为后续的强化学习提供了坚实的基础，使其成为连接模仿学习和完全由经验驱动的智能体之间的实用桥梁。
原文链接 (Source Link):
- ArXiv 链接: https://arxiv.org/abs/2510.08558
- PDF 链接: http://arxiv.org/pdf/2510.08558v2
- 发布状态: 预印本 (Preprint)。

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题： 如何在缺乏明确奖励信号的情况下，让语言智能体从与环境的交互中学习和提升，从而克服当前主流训练方法的局限性。
- 重要性与挑战： 当前语言智能体的训练主要依赖两种范式：
  1. 监督微调/模仿学习 (Supervised Fine-Tuning/Imitation Learning): 依赖人类专家标注的数据。这种方法的挑战在于：专家数据成本高昂、难以规模化，且数据覆盖的场景有限，导致模型泛化能力差，遇到训练数据中未见过的情况时容易出错。
  2. 强化学习 (Reinforcement Learning): 智能体通过与环境交互试错来学习。这种方法的挑战在于：许多真实世界任务（如网页浏览）缺乏清晰、可验证的奖励信号，或者奖励非常稀疏，导致训练过程不稳定且效率低下。
- 切入点/创新思路： 论文巧妙地提出了一个介于上述两者之间的“中间地带”——早期经验 (early experience) 范式。其核心思路是：即使没有奖励，智能体与环境交互所产生的“结果”（即未来状态）本身就包含了丰富的信息。 智能体可以利用这些自身行为导致的结果作为一种新的、可扩展的、免费的监督信号来指导学习，从而摆脱对专家数据或外部奖励的强依赖。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出了一个新的训练范式： 形式化并倡导了 早期经验 这一新范式，它利用智能体自身行为产生的未来状态作为一种可扩展、无奖励的监督信号，为训练语言智能体提供了一条实用路径。
- 提出了两种具体的学习策略：
  1. 隐式世界建模 (Implicit World Modeling, IWM): 让智能体学习预测其行为将导致什么样的未来状态，从而内化环境的动态规律。
  2. 自我反思 (Self-Reflection, SR): 让智能体通过对比专家行为和自己探索性行为的结果，生成反思性文本，学习为什么某些行为是次优的，从而提炼出更具泛化性的决策原则。
- 全面的实验验证： 在涵盖网页导航、工具使用、具身智能等 8 个多样化的环境中，证明了 早期经验 方法显著优于传统的模仿学习基线，并且能够有效提升模型的域外泛化能力。
- 证明了与强化学习的协同效应： 实验表明，使用 早期经验 预训练的模型作为强化学习的起点，能够达到比仅使用模仿学习初始化的模型更高的最终性能，证明了该范式是通往完全经验驱动智能体的有效“桥梁”。

本部分将为理解论文所需的核心概念提供对初学者友好的解释，并梳理相关技术的发展脉络。

基础概念 (Foundational Concepts):
- 语言智能体 (Language Agent): 这是一种基于大型语言模型 (Large Language Models, LLMs) 构建的智能系统。它能够理解自然语言指令，并在特定环境（如操作系统、网站、游戏）中自主地进行感知、推理、规划和执行一系列动作来完成复杂任务。
- 监督微调 (Supervised Fine-Tuning, SFT): 这是训练 LLM 的一种常用方法。在智能体领域，它通常指 模仿学习 (Imitation Learning, IL) 或 行为克隆 (Behavior Cloning, BC)。具体做法是收集大量“专家演示”数据（即在某种状态下，专家会执行什么动作），然后像训练一个翻译模型一样，训练智能体在给定状态下，预测并模仿专家的动作。
- 强化学习 (Reinforcement Learning, RL): 这是一种机器学习范式，智能体在环境中通过“试错”来学习。它不断地与环境交互，执行动作，并从环境中获得奖励 (reward) 或惩罚 (penalty)。智能体的目标是学习一个策略（即在什么状态下该做什么动作），以最大化长期累积奖励。
- 世界模型 (World Model): 这是一个内部模型，智能体用它来模拟和预测环境的动态。例如，智能体可以利用世界模型来“想象”执行某个动作后环境会变成什么样子，而无需在真实环境中实际执行该动作。这有助于进行更高效的规划。
- 自我反思 (Self-Reflection): 最初是一种用于提升 LLM 推理能力的技术，通常在测试时（inference-time）使用。它通过特定的提示 (prompt) 引导模型审视自己生成的初步答案，找出其中的错误或不足，然后进行修正和改进，这个过程无需更新模型参数。
前人工作 (Previous Works):
- 基于 SFT 的智能体: 大多数现有的语言智能体采用 SFT 训练。这些工作依赖于人类标注的轨迹或由更强大的模型合成的演示数据。其局限性在于：数据成本高，且模型只能被动学习，无法从自己的错误中吸取教社，导致面对新情况时表现脆弱。
- 基于 RL 的智能体: 一些研究尝试将 RL 应用于语言智能体，但在真实环境中困难重重。其局限性在于：奖励函数难以设计，训练不稳定，且大多数真实环境（如网站）不是为大规模 RL 训练设计的（缺少模拟器、重置机制等）。
- 世界模型相关工作: 传统的世界模型通常是独立于策略模型的模拟器。最近有工作使用 LLM 作为世界模型，但大多用于规划，增加了推理的开销。
- 自我反思相关工作: 先前的自我反思方法主要是在推理时使用，且通常需要外部反馈（如奖励信号）来判断对错。而生成“正确的”推理过程来作为训练数据的方法，则缺乏对错误行为的直接经验。
技术演进 (Technological Evolution): 论文通过下图清晰地展示了语言智能体训练范式的演进路径。

该图像是示意图，展示了语言智能体训练范式的发展历程。包括模仿学习的人类数据时代、本文提出的早期经验范式，以及强化学习的经验时代，突出早期经验在数据可扩展性和无奖励需求上的优势。
- 人类数据时代 (Era of Human Data): 对应模仿学习。智能体被动地学习人类专家提供的有限数据。这种方式是无奖励的，但数据不可扩展。
- 经验时代 (Era of Experience): 对应强化学习。智能体主动与环境交互，通过奖励信号学习。数据是可扩展的，但需要奖励。
- 早期经验 (Early Experience) (本文提出的范式): 位于两者之间。智能体主动与环境交互，但学习信号来自于交互的结果（未来状态），而非奖励。这种方式既实现了数据的可扩展性，又是无奖励的，完美地填补了前两种范式的空白。
差异化分析 (Differentiation):
- 与模仿学习 (IL) 的区别: IL 只学习静态的专家数据 (state -> expert_action)。而 早期经验 额外利用了智能体自己产生的交互数据 (state, agent_action -> next_state)，让智能体能够“看到”自己行为的后果，包括非专家行为的后果。
- 与强化学习 (RL) 的区别: RL 的学习依赖于一个标量奖励信号来评估动作的好坏。而 早期经验 的学习是“无奖励”的，它直接将高维的“未来状态”本身作为监督信号，来学习环境的动态或进行反思。
- 与先前世界模型/自我反思工作的区别: 本文将这两种技术从“推理时”的辅助工具转变为“训练时”的核心监督信号来源，并将其与智能体自身的策略模型深度融合，而不是作为独立的模块。特别是，这些学习信号是基于智能体在真实环境中的实际交互产生的，是“有根有据”的 (grounded)。

4. 方法论 (Methodology - Core Technology & Implementation Details)

本节将详细拆解 早期经验 范式的核心技术方案。

方法原理 (Methodology Principles): 核心思想是，在没有外部奖励的情况下，智能体通过探索环境，将其自身行为（actions）和这些行为导致的后果（resulting future states）转化为可用于学习的监督数据。这使得智能体能够从“经验”中学习，而这种经验的获取是低成本且可大规模扩展的。

$该图像是一个示意图，展示了论文中“隐式世界建模”和“自我反思”两种利用早期经验数据进行智能体训练的方法。左侧通过公式 $P(s_1^j | s_1, a_1^j)$ 和 $P(a_1 | s_1)$ 描述隐式世界建模的阶段过程，右侧展示自我反思中数据构造与训练阶段及公式 $P(c_1, a_1 | s_1)$。$ 该图像是一个示意图，展示了论文中“隐式世界建模”和“自我反思”两种利用早期经验数据进行智能体训练的方法。左侧通过公式 $P(s_1^j | s_1, a_1^j)$ 和 $P(a_1 | s_1)$ 描述隐式世界建模的阶段过程，右侧展示自我反思中数据构造与训练阶段及公式 $P(c_1, a_1 | s_1)$ 。

上图展示了 早期经验 范式下的两种策略：隐式世界建模 (左) 和 自我反思 (右)。两者都始于专家轨迹，但通过采样“替代动作” (Alternative Actions) 并观察其“结果状态” (Resulting States) 来生成额外的训练数据。
方法步骤与流程 (Steps & Procedures):
1. 数据收集基础: 从一个专家演示数据集 $\mathcal{D}_{\mathrm{expert}} = \{ (s_i, a_i) \}_{i=1}^N$ 开始，其中 $s_i$ 是状态， $a_i$ 是专家在该状态下采取的动作。
2. 生成早期经验数据:
  - 对于专家数据集中的每一个状态 $s_i$ ，使用智能体当前的策略模型 $\pi_{\theta}(\cdot|s_i)$ 采样 $K$ 个替代动作 $a_i^j$ ( $j=1, ..., K$ )。
  - 在真实环境中执行每一个替代动作 $a_i^j$ ，并记录产生的下一个状态 $s_i^j$ 。
  - 将这些交互数据收集成一个 rollout 数据集： $\mathcal{D}_{\mathrm{rollout}} = \{ (s_i, a_i^j, s_i^j) \}$ 。这个数据集包含了智能体自己“试错”的经验。
    
    接下来，论文提出了两种利用 $\mathcal{D}_{\mathrm{rollout}}$ 的具体方法。
策略一: 隐式世界建模 (Implicit World Modeling, IWM)
- 核心思想: 训练智能体预测执行某个动作后环境会变成什么样。通过这种方式，智能体的策略模型能“隐式地”学习到环境的运行规律，从而做出更明智的决策。
- 训练流程:
  1. 第一阶段 (世界建模): 使用 $\mathcal{D}_{\mathrm{rollout}}$ 数据集，训练模型根据当前状态 $s_i$ 和一个动作 $a_i^j$ 来预测下一个状态 $s_i^j$ 。这是一个序列到序列的预测任务。
  2. 第二阶段 (持续训练): 在第一阶段训练好的模型基础上，再使用原始的专家数据集 $\mathcal{D}_{\mathrm{expert}}$ 进行标准的模仿学习微调。
- 数学公式: IWM 阶段的训练目标是最小化以下损失函数： $\mathcal { L } _ { \mathrm { IWM } } = - \sum _ { ( s _ { i } , a _ { i } ^ { j } , s _ { i } ^ { j } ) \in \mathcal { D } _ { \mathrm { r o l l o u t } } } \log p _ { \theta } ( s _ { i } ^ { j } \mid s _ { i } , a _ { i } ^ { j } )$
  - $s_i$ : 当前状态。
  - $a_i^j$ : 智能体自己尝试的替代动作。
  - $s_i^j$ : 执行 $a_i^j$ 后得到的真实未来状态。
  - $p_{\theta}(\cdot \mid \cdot)$ : 语言模型的条件概率分布，由参数 $\theta$ 决定。
  - 该公式的含义是：最大化模型在给定当前状态和动作的情况下，预测出正确未来状态的对数概率。
策略二: 自我反思 (Self-Reflection, SR)
- 核心思想: 让智能体学会“事后诸葛亮”。通过比较专家动作和自己尝试的动作所产生的不同结果，生成一段自然语言的“反思”，解释为什么专家的选择更好。然后，训练智能体学习生成这种反思，从而内化更深层次的决策逻辑。
- 训练流程:
  1. 数据构建: 对于每个状态 $s_i$ ，我们有专家动作 $a_i$ 及其结果 $s_{i+1}$ ，以及一个替代动作 $a_i^j$ 及其结果 $s_i^j$ 。将这些信息输入一个强大的语言模型（如 GPT-4），并使用特定模板（如下所示）让它生成一段反思文本 $c_i^j$ 。
  2. 训练: 将生成的数据 (state, reflection, expert_action) 混合到原始专家数据中一起训练。模型被训练成在给定状态 $s_i$ 的条件下，先生成反思 $c_i^j$ ，再生成正确的专家动作 $a_i$ 。
- 自我反思提示模板 (Self-Reflection Prompt Template):
  你将面临一个需要从多个可能动作中选择的情景。你的任务是分析情况，并提供为什么我们决定采取专家动作的推理。
  
  情景描述 ( $s_i$ ): {情景描述} 专家动作 ( $a_i$ ): {专家动作} 预期结果 ( $s_{i+1}$ ): {专家动作的未来状态} 替代动作:
  1. 动作 $a_i^1$ : {替代动作 1}, 结果状态 $s_i^1$ : {状态 1}
  2. 动作 $a_i^2$ : {替代动作 2}, 结果状态 $s_i^2$ : {状态 2}
  3. ...
  提供一个详细的自我反思，作为内部独白，展示你对当前情况的推理过程...
- 数学公式: SR 阶段的训练目标是最小化以下损失函数： $\mathcal { L } _ { \mathrm { SR } } = - \sum _ { ( s _ { i } , a _ { i } ^ { j } , c _ { i } ^ { j } ) \in \mathcal { D } _ { \mathrm { refl } } } \log p _ { \theta } ( c _ { i } ^ { j } , a _ { i } \mid s _ { i } )$
  - $s_i$ : 当前状态。
  - $c_i^j$ : 对比替代动作 $a_i^j$ 后生成的反思文本。
  - $a_i$ : 专家动作。
  - $p_{\theta}(\cdot \mid \cdot)$ : 语言模型的条件概率分布。
  - 该公式的含义是：最大化模型在给定当前状态下，联合生成正确的反思文本和专家动作的对数概率。

5. 实验设置 (Experimental Setup)

数据集 (Datasets): 实验在 8 个多样化的环境中进行，覆盖了三大类任务。以下是根据论文 Table 1 转录的详细信息：

环境描述	# 轨迹	# 专家数据 (状态-动作对)
杂项 (具身、科学模拟、旅行规划)
`ALFWorld`: 模拟家庭环境中的具身指令跟随任务。	3,553	21,031
`ScienceWorld`: 自然语言交互的科学实验室模拟器。	1,000	14,506
`TravelPlanner`: 需要使用工具规划多日行程的长时程任务。	45	1,395
多轮工具使用
`BFCLv3`: 伯克利函数调用排行榜v3中的多轮工具使用任务。	125	1,264
`Tau-Bench`: 真实客服场景，需要与模拟用户交互和使用API。	452	5,239
`SearchQA`: 多跳问答任务，需要使用搜索引擎并推理。	2,082	7,691
网页导航
`WebShop`: 在模拟电商网站中根据指令购物。	1,571	15,464
`WebArena-Lite`: 跨多个领域的网页导航任务。	554	7,044

选择这些数据集是为了全面评估 早期经验 范式在不同动作空间、观察空间复杂度和任务类型下的普适性。

评估指标 (Evaluation Metrics): 论文主要使用每个基准测试自带的核心指标，通常是任务成功率或特定任务的分数。
- 成功率 (Success Rate, SR):
  1. 概念定义: 该指标衡量智能体成功完成预定任务的百分比。它是评估智能体在目标导向型任务中表现的最直观和最常用的指标。一个任务只有在完全达成所有目标条件后才算成功。值为 100% 表示所有测试任务均成功完成。
  2. 数学公式: $\text{Success Rate} = \frac{\text{Number of Successfully Completed Tasks}}{\text{Total Number of Tasks}} \times 100\%$
  3. 符号解释:
    - Number of Successfully Completed Tasks: 在评估集中，智能体成功完成的任务总数。
    - Total Number of Tasks: 评估集中的任务总数。
- F1 分数 (F1 Score):
  1. 概念定义: 该指标主要用于信息提取或问答任务（如 SearchQA），用于衡量模型生成答案的准确性。它是精确率 (Precision) 和召回率 (Recall) 的调和平均值，旨在同时评估答案的正确性和完整性。
  2. 数学公式: $F1 = 2 \cdot \frac{\mathrm{Precision} \cdot \mathrm{Recall}}{\mathrm{Precision} + \mathrm{Recall}}$ 其中，对于文本答案的评估，精确率和召回率通常基于词语重叠来计算： $\mathrm{Precision} = \frac{|\text{Predicted Tokens} \cap \text{Ground Truth Tokens}|}{|\text{Predicted Tokens}|}$ $\mathrm{Recall} = \frac{|\text{Predicted Tokens} \cap \text{Ground Truth Tokens}|}{|\text{Ground Truth Tokens}|}$
  3. 符号解释:
    - Predicted Tokens: 模型生成的答案中的词语集合。
    - Ground Truth Tokens: 标准答案中的词语集合。
对比基线 (Baselines):
- Imitation Learning (模仿学习): 这是核心基线，即在专家数据集 $\mathcal{D}_{\mathrm{expert}}$ 上进行标准的监督微调 (SFT)。
- Prompt (指令调优模型): 直接使用未经任何智能体数据微调的、原始的指令调优大模型（如 Llama-3.1-8B-Instruct）进行测试，作为零样本性能的参考。
- Long CoT (长思维链): 在推理时通过修改提示，强制模型生成更长的推理过程，以检验单纯增加推理步骤是否能提升性能。
- STaR-style Data: 一种数据增强方法，让模型为专家行为生成推理，但这些推理并未经过真实环境的验证，是“不接地气”的。

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis): 根据 Table 2 的数据，早期经验 的两种方法 (IWM 和 SR) 在 所有 8 个环境 和 所有 3 个模型家族 上，几乎都一致性地超越了传统的 Imitation Learning 基线。
- IWM 的优势: 在环境动态相对结构化和可预测的环境中（如 ALFWorld、WebShop），IWM 表现出强大的性能提升（例如在 WebShop 上，3B 模型提升了 18.4%）。这表明学习预测未来状态对于理解这类环境非常有帮助。
- SR 的优势: 在需要复杂推理和满足多重约束的任务中（如 TravelPlanner、ScienceWorld、BFCLv3），SR 的增益尤为显著（例如在 TravelPlanner 上，提升高达 15.0%）。这说明从错误中反思、提炼决策原则，对提升推理能力至关重要。
- 结论: 无论环境的动作空间是封闭的、结构化的还是开放的，也无论观察空间是简洁的还是嘈杂的，早期经验 范式都能有效地将智能体的自主探索转化为有效的监督信号。
域外泛化能力分析 (Out-Of-Domain Generalization): 根据 Table 3 的数据，在 ALFWorld、BFCLv3 和 SearchQA 的域外测试集上，尽管所有模型的性能都有所下降，但 早期经验 方法相比 Imitation Learning 仍然取得了更强的性能，并且相对提升幅度有时甚至超过了域内测试（例如在 ALFWorld 上，8B 模型性能提升了 14.8%）。这强有力地证明了，通过自身经验学习能够让智能体更好地应对训练数据中未覆盖的新情况。
与强化学习的结合效果分析:

该图像是包含三个柱状图的图表，展示了论文中三种方法（模仿学习、隐式世界建模、自我反思）结合GRPO算法后，在WebShop、AlfWorld和SearchQA三个环境下不同规模模型的成功率和F1指标表现差异。

上图展示了在三个有奖励信号的环境中，将不同方法训练出的模型作为起点，再进行强化学习 (RL) 训练后的最终性能。
- 核心发现: 从 早期经验 (IWM 或 SR) 训练的检查点开始进行 RL，最终达到的性能天花板 始终高于 从 Imitation Learning 开始的检查点。
- 意义: 这表明 早期经验 不仅本身能提升性能，还能为后续的 RL 训练打下更坚实的基础。它扮演了一个完美的“中间件”角色，连接了模仿学习和强化学习，实现了 $1+1>2$ 的效果。
消融实验/参数分析 (Ablation Studies / Parameter Analysis):

该图像是带有两组子图的图表，展示了在不同专家轨迹百分比和分支因子设置下，模仿学习、隐式世界建模和自我反思三种方法的成功率对比，体现了早期经验方法在多环境中的改进效果。

上图展示了专家数据量和分支因子 $K$ 对性能的影响。
- 专家数据量的影响 (图 a): 早期经验 方法在不同比例的专家数据下，始终领先于 Imitation Learning。更重要的是，它表现出更高的数据效率。例如，在 WebShop 上，仅使用 1/8 的专家数据，早期经验 的性能就已经超过了使用全部数据进行 Imitation Learning 的性能。
- 分支因子 K 的影响 (图 b): $K$ $K$ 代表每个状态下探索的替代动作数量。
  - 对于 IWM，性能随着 $K$ 的增加而稳定提升，因为更多的探索带来了更丰富的环境动态信息。
  - 对于 SR，性能在适中的 $K$ 值（如 2-4）时达到最佳，过大的 $K$ 值可能因为引入了过多复杂的对比信息而干扰模型的反思能力。
模型规模扩展性分析:

该图像是图表，展示了不同模型尺寸的Llama在WebArena-Lite基准测试中，采用模仿学习和早期体验相关方法训练的成功率对比。图中比较了Raw(Instruct)、Imitation Learning、Implicit World Modeling和Self-Reflection四种策略的表现，显示随着模型规模增加，早期体验方法显著提升成功率。

上图展示了在 WebArena-Lite 环境中，随着模型从 3B 扩展到 70B，早期经验 方法的优势依然存在。
- 核心发现: 在每个模型尺寸上，IWM 和 SR 的性能都优于 Imitation Learning。并且，性能的差距随着模型规模的增大而保持，甚至有扩大的趋势。
- 意义: 这表明 早期经验 提供的监督信号与模型规模的增长是互补的，而不是可替代的。即使对于非常强大的基础模型，早期经验 依然是一种有效的提升手段。

7. 总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary): 本文成功地提出并验证了一个名为 早期经验 的新颖、实用且可扩展的语言智能体训练范式。该范式通过将智能体自身的交互行为和产生的未来状态转化为无奖励的监督信号，有效解决了传统模仿学习泛化能力差和强化学习依赖奖励信号的难题。论文提出的 隐式世界建模 和 自我反思 两种策略在八个多样化的环境中均取得了显著优于基线的性能，并证明了其在提升域外泛化能力和作为强化学习预训练阶段方面的巨大价值，为构建更强大、更自主的语言智能体铺平了道路。
局限性与未来工作 (Limitations & Future Work):
- 局限性:
  1. 当前的方法主要关注于单步或短时程的交互结果，对于需要长时程信用分配（即一个早期动作对很晚之后的结果产生影响）的复杂任务，其学习能力可能有限。
  2. 收集 rollout 数据的过程需要与环境进行大量交互，这在某些真实环境中可能会有较高的计算或时间成本。
- 未来工作:
  1. 探索将 早期经验 与更丰富的自监督目标相结合。
  2. 研究如何在不同环境之间迁移通过 早期经验 学到的知识。
  3. 将该范式集成到持续学习 (continual learning) 的框架中，使智能体能够在真实部署中不断地从新交互中学习和进化。
个人启发与批判 (Personal Insights & Critique):
- 启发: 这篇论文最大的启发在于其思想的简洁与实用性。它回归到一个非常朴素的认知常识：学习不仅是模仿最优解，更是从自己的各种尝试（包括错误）的后果中学习。通过将“后果”（未来状态）直接作为监督信号，巧妙地绕开了 RL 中最棘手的奖励设计问题，也解决了 SFT 中数据来源单一、模型被动学习的根本缺陷。这为智能体学习领域提供了一个非常务实且强大的新方向。
- 潜在问题与改进方向:
  1. 交互成本: 正如作者所指出的，生成 rollout 数据集需要大量的环境交互。如何智能地选择在哪些状态进行探索，以及探索哪些动作（即主动学习），而不是简单地在所有专家状态上进行均匀采样，可能是优化效率的关键。
  2. 反思模型的依赖: 自我反思 策略的有效性部分依赖于一个强大的教师模型来生成高质量的反思文本。如何让智能体自身就能产生高质量的反思，或者从更简单的信号中进行学习，是一个值得探索的方向。
  3. 负面经验的利用: 当前的方法主要通过对比次优动作和专家动作来学习。未来可以探索更直接地从“失败经验”（例如导致任务失败的轨迹）中学习，这可能提供更强的学习信号。例如，训练模型识别并规避那些会导致不良后果的状态。
    
    总而言之，Agent Learning via Early Experience 是一项高质量的研究工作，它不仅提出了一个富有洞察力的概念，还通过详尽的实验证明了其有效性和广泛适用性，为语言智能体的发展迈出了坚实的一步。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。