INFUSER: Injecting Synthetic Failures for Self-Correcting Embodied Agents
TL;DR 精炼摘要
INFUSER 是一种创新方法,通过在成功的专家轨迹中自动注入合成失败来扩充数据集,以训练具身智能体自我纠正的能力。该方法无需昂贵的人工示范,实验结果显示在 EB-ALFRED 和 EB-Habitat 等基准测试中显著提升了智能体性能,优化了错误恢复的学习过程。
摘要
Vision-Language Models (VLMs) have become a powerful foundation for embodied agents, which are typically fine-tuned on expert demonstrations of successful task completions. However, collecting expert demonstrations is prohibitively expensive, and additionally, training exclusively on these ideal trajectories leaves agents brittle and struggle to recover from inevitable errors. To address this issue, we introduce INFUSER, INjecting synthetic FailUre for Self-correcting Embodied agent. Our idea is to augment existing expert trajectories with automatically generated failure-and-recovery scenarios (i.e., no human cost), rather than collecting additional (costly) expert demonstrations. Specifically, we synthesize these data by injecting suboptimal actions into ground-truth paths, creating a diverse set of controlled failure scenarios. By fine-tuning on this augmented dataset, INFUSER learns to take corrective actions and recover from mistakes. Our experiments validate the effectiveness of INFUSER through comprehensive evaluations on benchmarks for embodied agents including EB-ALFRED and EB-Habitat; training the Qwen2.5-VL-7B model by augmenting with our synthetic failure-tolerant data improves its performance by 18.3% → 47.0% and 59.7% → 66.3% on EB-ALFRED and EB-Habitat, respectively, achieving state-of-the-art performance among open-source models and even surpassing Qwen2.5-VL-72B with 10× fewer parameters. These results demonstrate that learning to recover from failures through synthetic augmentation, rather than collecting additional expert demonstrations, is a cost-effective approach to building robust embodied agents.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
INFUSER: Injecting Synthetic Failures for Self-Correcting Embodied Agents (INFUSER:注入合成故障以构建具有自我纠正能力的具身智能体)
1.2. 作者
Anonymous authors (注:该论文目前处于双盲评审阶段,作者姓名及隶属机构尚未公开。文中致谢部分提到使用了 Claude 和 GPT-4o 辅助写作,但核心贡献来自人类作者。)
1.3. 发表期刊/会议
OpenReview (Under double-blind review) (目前正在 ICLR 等顶级会议的评审流程中,尚未正式出版,但已在 OpenReview 平台公开预印本。)
1.4. 发表年份
2025
1.5. 摘要
视觉语言模型(VLMs)已成为具身智能体(Embodied Agents)的强大基础,通常通过微调专家演示的成功任务轨迹进行训练。然而,收集专家演示成本极其高昂,且仅在完美的理想轨迹上训练会导致智能体变得脆弱——一旦发生错误,智能体往往无法从错误中恢复。为了解决这一问题,作者提出了 INFUSER。其核心思想是不依赖昂贵的人工演示,而是通过在现有的专家轨迹中自动注入次优行动(合成故障),并生成相应的恢复路径,从而扩充数据集。通过在这个增强的数据集上微调,INFUSER 学会了在犯错后采取纠正措施。实验表明,该方法在 EB-ALFRED 和 EB-Habitat 等基准测试中显著提升了性能,甚至以 7B 参数量的模型超越了 72B 参数量的模型。
1.6. 原文链接
https://openreview.net/pdf/47cad582e759fa78df6c6273a65762e5b01a75ff.pdf (状态:预印本/评审中)
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 目前的具身智能体(如机器人或虚拟助手)大多通过模仿学习(Imitation Learning)进行训练,即让模型学习人类专家的完美操作。然而,这种训练方式存在一个致命缺陷:分布偏移(Distribution Shift)。在测试时,一旦智能体犯了一个小错误(进入了训练数据中从未见过的“错误状态”),由于它从未学过如何从错误中恢复,它往往会不知所措,导致错误级联(Error Cascade),最终任务失败。
- 现有挑战:
- 数据昂贵: 收集人类操作机器人的数据非常耗时耗力。
- 缺乏负样本: 专家数据通常只包含“如何成功”,不包含“失败了怎么办”。
- 恢复悖论(Recovery Paradox): 论文发现,即使是最先进的大模型(如 Claude-3.7-Sonnet),虽然犯错总数少,但一旦犯错,其恢复能力极差(仅 65.4%)。
- 创新思路: 既然收集人类失败数据很贵,能不能“伪造”失败?INFUSER 提出利用大语言模型(LLM)在原本完美的专家轨迹中“故意捣乱”,插入错误的动作,然后生成“如何补救”的推理过程,以此低成本地教会智能体“亡羊补牢”。
2.2. 核心贡献/主要发现
-
INFUSER 框架: 提出了一种无需人工成本的数据增强方法,通过注入合成故障和生成恢复推理,显式地训练智能体的自我纠正能力。
-
SOTA 性能: 在 EB-ALFRED 和 EB-Habitat 基准上,使用该方法训练的 Qwen2.5-VL-7B 模型取得了开源模型中的最佳性能(State-of-the-Art),分别将成功率从 18.3% 提升至 47.0%,以及从 59.7% 提升至 66.3%。
-
小模型逆袭: 证明了通过高质量的故障-恢复数据训练,7B 参数的小模型可以在鲁棒性上超越 72B 的大模型。
-
恢复能力验证: 实验分析表明,INFUSER 拥有最高的错误恢复率(86.1%),能够有效遏制错误的级联效应。
下图(原文 Figure 1)直观展示了 INFUSER 的核心理念:传统智能体(左下红色路径)在未能打开柜子时尝试取物导致失败,而 INFUSER(右侧路径)能识别错误并生成纠正计划(先打开柜子)。
该图像是示意图,展示了INFUSER在解决失败和恢复过程中的应用. 左侧部分展示了INFUSER如何增强代理与环境的互动能力,通过视觉感知、推理和计划来执行任务;右侧部分则给出了失败和恢复的示例,说明在尝试提取布料之前,代理需要确认柜子的可见性和可达性,进而生成纠正计划以成功取出布料。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,初学者需要掌握以下概念:
- 具身智能体 (Embodied Agent): 指拥有物理实体(如机器人)或在虚拟环境中拥有虚拟身体的 AI,它能通过摄像头感知环境(Vision),并输出动作(Action)来改变环境。
- 视觉语言模型 (Vision-Language Model, VLM): 能够同时理解图像和文本的大模型(如 GPT-4o, Qwen-VL)。在本文中,VLM 充当智能体的“大脑”,接收环境画面,输出动作指令。
- 监督微调 (Supervised Fine-tuning, SFT): 在预训练模型的基础上,使用特定任务的数据(输入-输出对)进行进一步训练,使其掌握特定技能。
- 轨迹 (Trajectory, ): 智能体完成一次任务的完整过程记录,通常表示为序列:,其中 是观测(Observation), 是动作(Action)。
- 分布外 (Out-of-Distribution, OOD): 训练数据通常是完美的(分布内),而测试中出现的错误状态在训练集中未出现过(分布外)。模型在 OOD 状态下表现通常很差。
3.2. 前人工作与差异
-
传统方法: 主要依赖行为克隆(Behavior Cloning),即单纯模仿专家的成功路径。这导致模型极其脆弱。
-
基于强化学习 (RL) 的方法: 虽然 RL 可以通过试错探索来学习恢复,但 RL 训练极其不稳定且样本效率低。
-
基于失败学习的方法: 之前的研究(如 ReWiND)主要利用失败数据来训练奖励模型(Reward Model),用于评估动作的好坏。
-
本文差异: INFUSER 不仅利用失败数据,更是主动合成失败数据,并将其直接用于监督微调(SFT)策略模型。它不是教模型“这个动作不好”,而是直接教模型“如果做了这个不好的动作,接下来该怎么做”。
4. 方法论
4.1. 方法原理
INFUSER 的核心在于数据增强(Data Augmentation)。它认为智能体不仅要学习“在正常情况下做什么”,更要学习“在异常情况下如何恢复”。为此,它构建了一个三阶段的流水线,将原本单一的“成功专家轨迹”转变为“成功 + 失败恢复”的混合数据集。
下图(原文 Figure 2)展示了合成失败轨迹的生成过程:在原本“取布料”的专家路径中,系统在第3步强制注入了一个错误动作“取肥皂”,然后利用后续的专家动作构建恢复路径。
该图像是示意图,展示了合成失败轨迹的生成过程。在'将布料移至浴缸'的专家轨迹中,我们在步骤3注入了一个可能的失败,即代理错误地尝试拾取肥皂而非布料,模拟对象混淆。后续的专家动作(拾取布料、找到浴缸、放下)作为恢复步骤。
4.2. 核心方法详解 (逐层深入)
4.2.1. 问题定义
任务被定义为序列决策问题。给定自然语言指令 ,智能体在每个时间步 接收观测 ,基于历史 选择动作 。 目标是最大化任务成功率: 这里的关键在于,期望 不仅包含最优轨迹,也隐含了对非最优路径的处理能力。
4.2.2. 合成故障-恢复数据集生成 (Synthetic Failure-Recovery Dataset Generation)
这是本文最核心的技术部分,完全自动化,无需人工介入。
第一步:处理专家轨迹 (Expert Trajectory Processing) 对于每一条真实的专家轨迹 ,首先使用 LLM(如 GPT-4o)为每个专家动作 生成推理注释 (Reasoning Annotation) 。这解释了“为什么”专家要这么做。 增强后的专家轨迹表示为:
第二步:故障注入 (Failure Injection) 系统以概率 随机选择一个时间步 。在这个点上,利用 LLM 生成一个次优动作 (Suboptimal Action) 。这个动作必须是合理的(contextually relevant)但又是错误的(deviates from expert action)。 公式如下:
- 解释: 是截至目前的历史。模型被要求生成一个属于动作空间 但不等于专家动作 的动作。例如,专家要“拿苹果”,故障动作可能是“拿杯子”或“去错房间”。
第三步:生成恢复推理 (Recovery Reasoning Generation) 一旦注入了错误动作 ,环境状态就会发生偏离。此时,INFUSER 利用 LLM 生成恢复计划 。 关键点: 这个恢复计划是基于后续的正确专家动作序列 生成的。也就是说,LLM 充当了“事后诸葛亮”,解释“虽然刚才做错了 ,但只要我们接下来执行专家原本的动作 ,就能回到正轨”。 公式如下:
- 解释: 输入包括错误动作 、错误后的观测 以及未来的正确动作序列。输出 是对如何纠正错误的自然语言解释。
4.2.3. 训练数据集构建 (Training Dataset Construction)
最终的训练集 包含两部分数据:
- 成功轨迹样本 (Successful Trajectory): 标准的模仿学习数据。
- 故障-恢复轨迹样本 (Failure-Recovery Trajectory):
-
深度解析: 注意 的输入中包含了正确的专家动作 。这是一个非常巧妙的设计(Teacher Forcing 的一种变体)。模型在训练时看到:“我刚做错了 ,导致了 ,但我知道正确的动作应该是 ”。然后模型的目标 是生成解释 (为什么 能修复这个错误)。这教会了模型理解动作背后的纠错逻辑,而不仅仅是盲目预测下一个动作。
最终目标函数是标准的自回归语言建模损失。
-
5. 实验设置
5.1. 数据集
实验使用了两个主要的具身智能基准套件,涵盖了从家务劳动到开放世界探索的多种任务:
- EmbodiedBench:
- EB-ALFRED: 基于 AI2-THOR 模拟器的家务任务(如“把苹果切片并放在盘子里”)。包含 6,574 条专家轨迹。
- EB-Habitat: 侧重于空间导航和物体通过重排任务。
- VisualAgentBench (VAB):
-
VAB-OmniGibson: 更复杂的物理交互家务任务。
-
VAB-Minecraft: 著名的“我的世界”开放环境,涉及合成、挖掘等长序列任务。
数据形态: 所有这些数据集原本只包含专家成功的视频和动作序列。INFUSER 对其进行了增强,生成了数倍于原始数据的故障-恢复轨迹。
-
5.2. 评估指标
论文主要使用了以下指标来量化性能:
-
成功率 (Success Rate, SR):
- 概念定义: 智能体成功完成指定任务目标的测试集比例。这是衡量端到端性能的最核心指标。
- 数学公式:
- 符号解释: 是测试任务的总数, 是指示函数,当任务 满足所有目标条件时为 1,否则为 0。
-
恢复率 (Recovery Rate):
- 概念定义: 当智能体发生错误后,能在接下来的 2 步内采取正确行动进行纠正的比例。这直接衡量了模型的“韧性”。
- 数学公式 (基于 Table 6 的描述):
-
错误级联长度 (Average Cascade Length):
- 概念定义: 连续发生错误的平均步数。该值越低,说明模型越能及时止损,防止一个小错误演变成灾难性的连续失败。
5.3. 对比基线
-
Proprietary Models (闭源模型): GPT-4o, Claude-3.5/3.7-Sonnet, Gemini-1.5-Pro。这些代表了目前最强的通用推理能力。
-
Open-Source Models (开源模型): Qwen2.5-VL (7B, 32B, 72B), InternVL3.5, Gemma3。
-
Baseline (基准): Qwen2.5-VL-7B*。这是与 INFUSER 架构完全相同的模型,但仅使用成功轨迹进行训练。这是为了公平对比“故障数据”带来的净提升。
6. 实验结果与分析
6.1. 核心结果分析
INFUSER 在所有基准测试中均取得了显著的性能提升,甚至超越了参数量大 10 倍的模型。
6.1.1. EB-ALFRED 结果
以下是原文 Table 1 的结果,展示了在 EB-ALFRED 上的成功率(%):
| Model | Base | Common | Complex | Visual | Spatial | Long | Average |
|---|---|---|---|---|---|---|---|
| Proprietary Models | |||||||
| GPT-4o | 64 | 48 | 66 | 46 | 50 | 60 | 55.7 |
| Claude-3.7-Sonnet | 70 | 70 | 68 | 66 | 60 | 66 | 66.7 |
| Open-Source Models | |||||||
| Qwen2.5-VL-72B | 42 | 42 | 50 | 42 | 52 | 42 | 45.0 |
| Qwen2.5-VL-7B (Base) | 8 | 0 | 6 | 4 | 0 | 2 | 3.3 |
| Qwen2.5-VL-7B* (SFT on Success) | 22 | 24 | 20 | 24 | 16 | 4 | 18.3 |
| INFUSER-7B (Ours) | 68 | 50 | 66 | 42 | 40 | 16 | 47.0 |
分析:
- 巨大的相对提升: 相比于仅在成功数据上微调的基线 (Qwen2.5-VL-7B*, 18.3%),INFUSER 达到了 47.0%,性能提升了 157%。
- 超越大模型: INFUSER-7B (47.0%) 击败了 Qwen2.5-VL-72B (45.0%)。这证明了数据质量和策略(学会恢复)比单纯的模型规模更重要。
6.1.2. 错误恢复能力分析
Table 6 揭示了 INFUSER 成功的深层原因。它不仅是做任务更准,更是“抗击打能力”更强。
| Metric | Claude-3.7-Sonnet | Qwen2.5-VL-72B | Qwen2.5-VL-7B* | INFUSER-7B (Ours) |
|---|---|---|---|---|
| Recovery Capabilities | ||||
| Recovery Rate (↑) | 65.4 | 73.7 | 77.4 | 86.1 |
| Terminal Error Rate (↓) | 24.3 | 25.0 | 20.2 | 19.8 |
| Cascade Analysis | ||||
| Avg. Cascade Length (↓) | 4.05 | 3.71 | 7.66 | 2.52 |
分析:
-
恢复率第一: INFUSER 的恢复率高达 86.1%,远超 Claude-3.7 (65.4%)。这解释了为什么 Claude 虽然总错误少,但难以完成长序列任务——因为它一旦出错就很难救回来。
-
遏制级联: 平均级联长度仅为 2.52 步,而基线模型为 7.66 步。这意味着 INFUSER 能迅速纠正错误,防止其演变成连续失败。
下图(原文 Figure 4)定性地对比了推理过程。Success-only 模型(上)在遇到问题时只会重复通用的任务描述;而 INFUSER(下)能明确指出失败原因(如“刀不可见”)并提出具体纠正措施(如“去餐桌找”)。
该图像是一个示意图,展示了成功模型和INFUSER模型在处理任务时的推理对比。成功模型仅提供通用的任务描述,无法处理失败和反馈,而INFUSER模型能够分析失败原因并提出纠正措施。其推理流程分别指出了任务中的关键行动及所需物品,展示了如何有效地从错误中恢复。
6.2. 消融实验与参数分析
作者研究了故障数据比例 () 对性能的影响。
-
结论: 性能随着故障数据的增加而单调上升。即使只添加 10% () 的故障数据,成功率也从 18.3% 飙升至 38.0%。当 时达到最佳。
-
这证明了模型不是仅仅“记住”了几个特定的恢复动作,而是学到了通用的恢复策略,且这种策略具有很好的可扩展性。
7. 总结与思考
7.1. 结论总结
INFUSER 是一项针对具身智能体鲁棒性的重要研究。它通过合成故障注入这一低成本、高效益的方法,成功解决了专家演示数据稀缺且缺乏负样本的痛点。
- 方法论创新: 将“错误”视为一种学习资源,通过 LLM 生成合理的恢复路径,教导智能体进行自我纠正。
- 性能突破: 在不增加模型参数量的前提下,仅通过改进数据策略,就实现了数倍的性能提升,并击败了参数量大一个数量级的模型。
- 核心洞察: 对于长序列决策任务,“从错误中恢复的能力”比“避免犯错的能力”更为关键,因为在长序列中错误几乎是不可避免的。
7.2. 局限性与未来工作
- 依赖 LLM 质量: 故障注入和恢复推理的质量完全依赖于通过 API 调用的 LLM(如 GPT-4o)。如果教师模型本身不懂某些特定领域的物理规律,生成的恢复计划可能是无效的幻觉。
- Sim2Real 差距: 实验完全在模拟器中进行。现实世界中的故障可能更加复杂(如硬件故障、传感器噪声),合成故障能否覆盖这些真实情况仍需验证。
- 未来方向: 将此方法应用到真实机器人上;探索更多样化的故障类型(不仅仅是动作错误,还有感知错误);研究如何让智能体在测试时实时生成恢复计划(In-context Learning)而非仅靠微调。
7.3. 个人启发与批判
- 启发: 这篇论文是对“数据质量 > 模型规模”这一观点的又一次有力证明。在特定领域(如具身智能),通用的“大”模型不如经过特定“思维模式”(如纠错思维)训练的“小”模型有效。
- 批判性思考:
- 故障类型单一性: 文中的故障主要是通过 LLM 挑选“次优动作”生成的,这可能主要涵盖了逻辑层面的错误。但具身智能中很多错误是物理层面的(如抓取滑落、碰撞),这种基于文本/语义生成的故障可能无法完全模拟物理交互的细微失败。
- 训练与推理的差异: 训练时模型看到了“未来的正确专家动作”作为提示(Teacher Forcing),这帮助它学习了推理。但在推理时,模型没有这个“未来信息”。虽然实验证明它学到了策略,但这种信息不对称是否会导致模型在极其新颖的环境中产生依赖性,值得深究。
相似论文推荐
基于向量语义检索推荐的相关论文。