AiPaper
论文状态:已完成

RaC: Robot Learning for Long-Horizon Tasks by Scaling Recovery and Correction

发表:2025/09/10
原文链接PDF 下载
价格:0.10
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

这篇论文提出了一种名为`RaC`的方法,旨在通过扩展机器人学习中的恢复和纠正行为,提高其在长时程任务中的效率和鲁棒性。通过人类干预的训练阶段,利用人类操作者的干预轨迹对机器人策略进行微调,增强了机器人的重试和适应能力,显著提升了在复杂任务上的表现。

摘要

Modern paradigms for robot imitation train expressive policy architectures on large amounts of human demonstration data. Yet performance on contact-rich, deformable-object, and long-horizon tasks plateau far below perfect execution, even with thousands of expert demonstrations. This is due to the inefficiency of existing ``expert'' data collection procedures based on human teleoperation. To address this issue, we introduce RaC, a new phase of training on human-in-the-loop rollouts after imitation learning pre-training. In RaC, we fine-tune a robotic policy on human intervention trajectories that illustrate recovery and correction behaviors. Specifically, during a policy rollout, human operators intervene when failure appears imminent, first rewinding the robot back to a familiar, in-distribution state and then providing a corrective segment that completes the current sub-task. Training on this data composition expands the robotic skill repertoire to include retry and adaptation behaviors, which we show are crucial for boosting both efficiency and robustness on long-horizon tasks. Across three real-world bimanual control tasks: shirt hanging, airtight container lid sealing, takeout box packing, and a simulated assembly task, RaC outperforms the prior state-of-the-art using 10×\times less data collection time and samples. We also show that RaC enables test-time scaling: the performance of the trained RaC policy scales linearly in the number of recovery maneuvers it exhibits. Videos of the learned policy are available at https://rac-scaling-robot.github.io/.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

RaC: 通过扩展恢复与纠正实现机器人长时程任务学习 (RaC: Robot Learning for Long-Horizon Tasks by Scaling Recovery and Correction)

论文标题直接点明了其核心思想:通过一种名为 RaC 的新方法,专注于扩展 (Scaling) 机器人对恢复 (Recovery)纠正 (Correction) 行为的学习,以解决长时程 (Long-Horizon) 任务。这表明论文的重点不在于提出一种全新的模型架构,而在于一种更高效的数据收集与训练范式。

1.2. 作者

  • 作者团队: Zheyuan Hu, Robyn Wu, Naveen Enock, Jasmine Li, Riya Kadakia, Zackory Erickson, Aviral Kumar
  • 隶属机构: 所有作者均来自卡内基梅隆大学 (Carnegie Mellon University, CMU)。CMU 在机器人学和人工智能领域享有世界顶级的声誉,这为论文的研究质量提供了有力的背书。

1.3. 发表期刊/会议

  • 发表状态: 预印本 (Pre-print)

  • 提交平台: arXiv

  • 发表时间: 2025-09-09 (这是文章元数据中的未来日期,表明这是一篇正在投稿或等待正式发表的早期版本)

    这篇论文目前作为预印本发布在 arXiv 上,这是一种在学术界非常普遍的做法,旨在快速分享最新的研究成果。虽然未经同行评审,但其研究内容和实验结果已相当完整。

1.4. 摘要

现代机器人模仿学习范式通过在大量人类演示数据上训练富有表现力的策略架构。然而,在接触丰富 (contact-rich)可变形物体 (deformable-object)长时程 (long-horizon) 任务上,即使有数千个专家演示,其性能也远未达到完美执行的水平。这归因于现有基于人类遥操作的“专家”数据收集程序的低效。为了解决这个问题,我们引入了 RaC,这是在模仿学习预训练之后的一个新的人机回环训练阶段。在 RaC 中,我们在人类干预轨迹上微调机器人策略,这些轨迹展示了恢复 (recovery)纠正 (correction) 行为。具体来说,在策略执行期间,当失败看似迫在眉睫时,人类操作员会进行干预,首先将机器人回退 (rewinding) 到一个熟悉的、分布内 (in-distribution) 的状态,然后提供一个完成当前子任务的纠正片段 (corrective segment)。在这种数据构成上进行训练,扩展了机器人的技能库,使其包含重试 (retry)适应 (adaptation) 行为,我们证明这些行为对于提升长时程任务的效率和鲁棒性至关重要。在三个真实的双手协作控制任务:挂衬衫、密封密闭容器盖、打包外卖盒,以及一个模拟装配任务中,RaC 的性能超过了之前的最先进方法,同时数据收集时间和样本量减少了 10 倍。我们还表明,RaC 实现了测试时扩展 (test-time scaling):训练后的 RaC 策略的性能随着其在测试时展现的恢复操作数量线性扩展。

1.5. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

当前主流的机器人学习方法,特别是模仿学习 (Imitation Learning, IL),在处理复杂的长时程任务时遇到了性能瓶颈。即使在拥有数千条高质量人类演示数据的情况下,机器人的任务成功率也难以达到理想水平,并且随着数据量的增加,性能提升会迅速饱和,出现所谓的性能平台期 (performance plateau)

2.1.2. 问题的重要性与挑战

这个问题在现实世界应用中尤为关键,因为许多有价值的任务(如家庭服务、工业装配)都是长时程的,并且涉及与环境的复杂交互。这些任务的挑战主要源于:

  • 复合误差 (Compounding Errors): 在长时程任务中,一个子任务的微小误差会随着时间的推移不断累积和放大,最终导致整个任务的失败。
  • 数据分布偏差: 传统的人类演示数据通常只包含“干净”的、一次性成功的轨迹。这种数据分布非常狭窄,没有教会机器人如何从分布外 (Out-of-Distribution, OoD) 的失败状态中恢复。当机器人遇到新情况或犯错时,它不知道该怎么办。
  • 数据收集效率低下: 为了覆盖所有可能的变化并提高鲁棒性,需要收集海量的专家演示数据,这个过程既耗时又昂贵。

2.1.3. 论文的切入点

论文作者认为,模仿学习的瓶颈根源不在于学习算法或模型本身,而在于数据分布 (data distribution)。仅仅模仿完美的成功轨迹是不够的。因此,他们提出了一个创新的切入点:与其追求更多“完美”的数据,不如教会机器人如何“不完美地”完成任务——即如何从失败中恢复并重试。

这篇论文的核心思路是,在标准的模仿学习之后,增加一个名为 RaC 的新训练阶段。在这个阶段,数据不再是完美的专家演示,而是人机协作 (human-in-the-loop) 产生的干预轨迹 (intervention trajectories)。这些轨迹特意包含了两个关键部分:

  1. 恢复 (Recovery): 当机器人即将失败时,人类操作员接管,引导机器人回到一个之前已知的、安全的“分布内”状态。

  2. 纠正 (Correction): 从恢复后的状态开始,人类操作员再演示如何正确完成当前的子任务。

    通过学习这种“恢复-然后-纠正”的行为模式,机器人获得了重试和适应的能力,从而能更有效地克服复合误差。

2.2. 核心贡献/主要发现

  1. 提出 RaC 框架: 提出了一个新颖的、在模仿学习预训练之后的数据收集和微调框架(RaC),专门用于学习恢复和纠正行为,以解决长时程任务中的复合误差问题。

  2. 极高的数据效率: 实验证明,RaC 在三个真实世界的复杂双手操作任务和一个模拟任务中,仅用相当于先前最先进方法 1/10 的数据收集时间和样本量,就取得了相当甚至更好的性能。

  3. 实现“测试时扩展”现象: 论文发现了一个类似大语言模型中思维链 (Chain-of-Thought, CoT) 的有趣现象。训练好的 RaC 策略在测试时,其最终任务成功率与其执行的“恢复-重试”次数呈正相关。这意味着,策略通过花费更多时间进行自我纠错,从而提高了整体的成功概率。这是之前机器人模仿学习工作中没有观察到的。

  4. 标准化的干预数据收集协议: 提出了两条简单的规则(“先恢复后纠正”和“干预后终止”)来规范化人机回环数据收集过程,确保数据集中恢复和纠正行为的平衡,提高了数据的使用效率。


3. 预备知识与相关工作

3.1. 基础概念

  • 模仿学习 (Imitation Learning, IL): 一种机器学习方法,让智能体(如机器人)通过观察和模仿专家的行为来学习如何执行任务。最简单的方式是行为克隆 (Behavioral Cloning, BC),即把专家的“状态-动作”对当作监督学习的样本来训练一个策略网络。
  • 长时程任务 (Long-Horizon Task): 指需要执行一长串连续且相互依赖的子步骤才能完成的任务。例如,打包一个盒子需要先拿起盒子,再拿起物品,再放入物品,最后关上盖子。
  • 复合误差 (Compounding Errors): 在模仿学习中,由于策略网络不可能完美复现专家的行为,每一步都会产生微小的误差。在长时程任务中,这些误差会使机器人逐渐偏离专家演示过的状态分布,进入一个未知的、分布外 (Out-of-Distribution, OoD) 的状态空间。由于训练数据中没有这些状态,策略网络在此会表现得非常糟糕,导致误差迅速放大,最终任务失败。
  • 人机回环学习 (Human-in-the-Loop Learning): 一种让机器学习模型在训练或部署过程中与人类进行交互的范式。人类可以提供反馈、纠正错误或提供新的数据,从而帮助模型持续改进。

3.2. 前人工作

  • DAgger (Dataset Aggregation): 是一种经典的交互式模仿学习算法,旨在解决复合误差问题。其核心流程如下:

    1. 用初始的专家数据集训练一个策略 π1\pi_1
    2. 让策略 π1\pi_1 与环境交互,收集其访问过的状态序列。
    3. 将这些状态交给专家,让专家为这些状态标注正确的动作。
    4. 将新的“状态-专家动作”数据对聚合到原始数据集中。
    5. 用聚合后的新数据集训练一个新策略 π2\pi_2,并重复此过程。 DAgger 的关键在于它迫使策略学习如何在自己可能犯错的状态下进行正确操作,从而缓解分布偏移问题。本文的 RaC 思想也源于此,但关注点从单纯的“纠正”扩展到了“恢复”。
  • HG-DAgger (Human-in-the-loop DAgger):DAgger 在与真人交互场景下的变体。由于真人无法像理想的专家算法一样即时为任意状态标注动作,HG-DAgger 允许人类操作员在策略执行不佳时进行干预 (intervention),接管机器人并演示正确的操作。这些干预片段被收集起来用于后续训练。RaCHG-DAgger 类似,但 RaC 对干预的形式进行了更严格的规定(必须包含恢复和纠正)。

  • 恢复与纠正的相关研究:

    • 一些工作尝试通过工程化的方式(如时间倒流、重放轨迹)让机器人回到之前的状态,然后再由人类提供纠正数据。
    • 还有工作在模拟环境中自动生成恢复轨迹来增强数据集。
    • 另一些研究则通过学习一个动态模型来约束策略,使其停留在专家演示的“流形”上。

3.3. 技术演进

机器人模仿学习的技术演进可以大致分为几个阶段:

  1. 早期 (纯 BC): 直接在专家演示上进行行为克隆。简单有效,但泛化能力差,受复合误差影响严重。
  2. 交互式学习 (DAgger 时代): 引入 DAgger 等交互式方法,通过在线收集数据来缓解分布偏移,提升了策略的鲁棒性。
  3. 大规模数据驱动 (大模型时代): 近年来,受大语言模型成功的启发,机器人领域也开始转向“大力出奇迹”的范式,即在海量、多样化的数据(如 Google 的 RT-1/RT-2, Octo)上训练大规模模型(如 Transformer),以期获得通用的机器人策略。
  4. 数据质量与构成的新思考 (本文所处阶段): 大规模数据虽然有效,但成本高昂且仍有性能瓶颈。研究者开始重新审视数据的“质”而非仅仅是“量”。本文 RaC 就是一个典型代表,它认为数据的构成(即包含哪些行为类型)比单纯增加数据量更重要、更高效。

3.4. 差异化分析

RaC 与之前工作的主要区别在于:

  • 对比 HG-DAgger:

    • HG-DAgger 将人类干预视为一个“最优”的纠正方案,旨在教会机器人在出错的状态下如何“继续前进”。
    • RaC 则将干预分解为恢复纠正两部分。它认为,“恢复”本身虽然对当前子任务的进展是次优的(甚至是倒退),但它将机器人带回了熟悉的状态,为“重试”创造了机会。RaC 明确地将恢复也视为一种需要学习的关键技能。
  • 对比其他恢复方法:

    • 其他方法通常将恢复视为一个工程手段(如程序化地回退),而不是一个可以从人类演示中学习的“技能”。
    • RaC 则将恢复、纠正和完整的专家演示等行为统一在模仿学习的框架下,通过精心设计的数据构成来隐式地学习这些技能,而无需修改学习算法本身或增加系统复杂性。
  • 对比大规模数据方法:

    • 大规模数据方法试图通过海量数据来“淹没”问题,覆盖尽可能多的状态。

    • RaC 提出了一种更“聪明”的数据收集策略,通过少量高质量的、包含恢复行为的干预数据,高效地教会机器人处理失败的核心能力,从而实现四两拨千斤的效果。


4. 方法论

RaC 的核心是一种迭代式的数据收集与训练策略。它建立在标准的模仿学习之上,通过一个精心设计的人机回环流程来不断优化策略。

4.1. 方法原理

RaC 的直觉在于,对于一个已经犯错并进入未知状态的机器人来说,直接学习如何从这个陌生状态完成任务(HG-DAgger 的思路)可能非常困难且需要大量数据。相比之下,学习如何“撤退”到一个它已经熟悉的状态(例如,几秒钟前的某个状态)要容易得多。一旦回到熟悉区,机器人就可以利用已有的知识再次尝试。

这个过程就像一个人在解一道复杂的数学题:当卡在某一步时,与其冥思苦想,一个更有效的方法是退回到上一个有把握的步骤,换个思路重新推演。RaC 正是想教会机器人这种“回溯和重试”的能力。

4.2. 核心方法详解

4.2.1. RaC 的数据收集协议

RaC 的流程从一个初始策略 π0\pi_0 开始,这个策略可以是通过少量专家演示数据训练得到的。然后,进入迭代式的人机回环阶段。在每一轮迭代中,遵循以下数据收集协议:

  1. 部署策略: 让当前的机器人策略(例如 πk1\pi_{k-1})在真实环境中执行任务。
  2. 人类监控与干预: 人类操作员在一旁观察。当操作员判断机器人即将犯错或已经进入一个不利状态时,立即通过一个共享自主接口 (Shared Autonomy Interface) 接管机器人。
  3. 执行干预并遵循两条核心规则:
    • 规则 1: 先恢复后纠正 (Recover then Correct): 人类的干预必须包含两个阶段。

      • 恢复阶段: 操作员首先控制机器人执行一系列动作,将其从当前的失败状态带回到一个之前轨迹中出现过的、机器人比较“熟悉”的分布内 (in-distribution) 状态。为了帮助操作员识别这些区域,系统可以提供一个可视化热力图(如下图原文 Figure 5),显示初始演示数据中机器人末端执行器频繁访问的位置。
      • 纠正阶段: 从恢复后的状态开始,操作员接着演示如何正确地完成当前被中断的子任务。
    • 规则 2: 干预后终止 (Terminate after Intervention): 一旦人类操作员完成了纠正演示,立即终止当前的整个任务回合 (episode)。收集到的数据只包含人类干预的片段(恢复+纠正)。

      为什么这么做? 因为如果让机器人继续执行后续子任务,它所处的状态是由“人类干预”造成的,这可能与机器人自己独立执行到那一步时的状态分布不同。在这种“混合”状态分布上收集的数据可能对提升机器人自身的策略帮助不大,反而浪费了宝贵的数据收集预算。因此,提前终止可以让我们将预算更集中地用于改进那些真正导致失败的早期子任务。

下图(原文 Figure 5)直观展示了操作员如何借助可视化工具进行恢复操作。当机器人在子任务3(用铲子铲起汉堡)失败时,操作员将其恢复到热力图中标示的子任务3的初始区域,然后重新演示铲汉堡的动作。

Figure 5: Visual aid for guiding intervention data collection. We utilize overlaid heatmap of the grippers visitation frequency to illustrate in-distribution regions that a teleoperator should recove… 该图像是示意图,展示了机器人在 clamshell 外卖盒打包任务中的干预数据收集过程。左侧为 O.O.D 状态,右侧为恢复过程,图中标记的区域显示了操作者应恢复到的分区,以增强任务的执行效果。

4.2.2. 数据聚合与再训练

在每一轮收集到新的干预数据后,这些数据(以及机器人自主完成的成功轨迹)会被加入到总的数据集 D\mathcal{D} 中。然后,使用更新后的数据集 D\mathcal{D} 重新训练(或微调)策略网络,得到一个更强的策略 πk\pi_k。这个过程不断迭代,直到策略性能达到满意水平。

Algorithm 1 完整描述了这个迭代过程:

算法 1: RaC 数据收集协议

  1. 初始化:
    • 给定每轮的数据收集预算 BB(以帧数衡量),总干预轮数 KK
    • 初始化策略 πθk=0\pi_\theta^{k=0} 和数据集 D0:K\mathcal{D}_{0:K} \leftarrow \emptyset
  2. 第 0 轮 (预训练):
    • 收集 BB 帧的初始专家演示数据 ΔD0\Delta \mathcal{D}_0
    • ΔD0\Delta \mathcal{D}_0 加入总数据集 D0:K\mathcal{D}_{0:K}
    • 训练初始策略 πθk=0TRAIN(D0:K)\pi_\theta^{k=0} \leftarrow \text{TRAIN}(\mathcal{D}_{0:K})
  3. 人机干预轮 (k=1 to K):
    • 循环直到预算用完:
      • 重置环境,开始一个新的回合。
      • 执行与干预:
        • 如果人类不干预,则由策略 πθk1\pi_\theta^{k-1} 生成动作。
        • 如果人类决定干预 (I(st)=1I(s_t) = 1),则由人类 πH\pi_H 生成动作,并遵循规则1(恢复+纠正)
      • 回合结束条件:
        • 如果人类的干预动作完成,则中断 (break) 当前回合(规则2)。
      • 数据处理:
        • 如果整个回合没有人类干预(即机器人自主成功),则将完整的成功轨迹加入数据集 ΔDk\Delta\mathcal{D}_k,并且不计入人类数据收集预算。
        • 如果回合中有干预,则只将人类操作的片段 {(s, a) where is_human=1} 加入数据集 ΔDk\Delta\mathcal{D}_k,并将整个回合的长度计入预算 bb
    • 聚合与再训练:
      • 将本轮收集到的新数据 ΔDk\Delta\mathcal{D}_k 加入总数据集 D0:K\mathcal{D}_{0:K}
      • 用更新后的 D0:K\mathcal{D}_{0:K} 训练新一轮的策略 πθk\pi_\theta^k

4.2.3. 策略架构与训练目标

  • 策略架构: 论文使用了一个名为 多模态扩散变换器 (Multimodal Diffusion Transformer, MM-DiT) 的架构。这是一个拥有约 3 亿参数的大模型,能够处理多种输入(3个摄像头视角图像 + 机器人自身状态)并输出动作序列。这种高容量模型适合学习 RaC 数据集中包含的多种复杂行为(成功演示、恢复、纠正)。

  • 训练目标: 训练过程采用条件流匹配 (Conditional Flow Matching) 的方法。这是一种先进的生成模型训练技术,可以看作是扩散模型的一种更高效的变体。其目标是学习一个向量场 vθv_\theta,该向量场可以将一个简单的噪声分布(如高斯分布)逐渐“流向”真实的数据分布(在这里是真实的动作序列)。

    训练的损失函数如下: LFlow(θ)=Eot,AtD,τUnif([0,1]),x0N(0,Id)[vθ(τ,ot,xτ)(Atx0)22] \mathcal{L}_{\text{Flow}}(\theta) = \mathbb{E}_{o_t, A_t \sim \mathcal{D}, \tau \sim \text{Unif}([0,1]), x^0 \sim \mathcal{N}(0, I_d)} \left[ \left\| v_\theta(\tau, o_t, x^\tau) - (A_t - x^0) \right\|_2^2 \right]

    符号解释:

    • θ\theta: 策略网络的参数。

    • D\mathcal{D}: 训练数据集,包含(观测, 动作)对。

    • oto_t: 在时间 tt 的观测(包括图像和机器人状态)。

    • At=[at,...,at+H1]A_t = [a_t, ..., a_{t+H-1}]: 从时间 tt 开始的一个动作块 (action chunk),即模型一次性预测未来 HH 步的动作序列。

    • x0x^0: 从标准正态分布 N(0,Id)\mathcal{N}(0, I_d) 中采样的随机噪声。

    • τ\tau: 从 0 到 1 均匀采样的时间步。

    • xτ=τAt+(1τ)x0x^\tau = \tau A_t + (1-\tau) x^0: 在时间 τ\tau 处,从噪声 x0x^0 到真实动作 AtA_t 的线性插值点。

    • vθ(τ,ot,xτ)v_\theta(\tau, o_t, x^\tau): 策略网络,它根据当前观测 oto_t 和插值点 xτx^\tau 在时间 τ\tau 的状态,预测将 xτx^\tau 推向 AtA_t 的“速度”或方向。

    • (Atx0)(A_t - x^0): 从噪声 x0x^0 到真实数据 AtA_t 的恒定“目标速度”。

    • 损失函数的目标: 最小化模型预测的速度 vθv_\theta 与真实的目标速度 (Atx0)(A_t - x^0) 之间的均方误差。通过在所有时间 τ\tau 上进行优化,模型学会了如何从任意噪声状态生成真实的动作序列。

      下图(原文 Figure 6)展示了该策略架构。

      Figure 6: Policy architecture. We train all imitation learning policies using a multi-modal diffusion transformer (mm-DiT) architecture\[12\] via a flow matching objective. 该图像是一个示意图,展示了使用多模态扩散变换器(mm-DiT)架构进行模仿学习的策略。图中包含了ResNet-50和流匹配的结构,输入包括状态标记和图像标记,其输出经过MLP处理,最终生成决策序列。


5. 实验设置

5.1. 数据集

实验在四个具有挑战性的双手协作任务上进行,旨在验证 RaC 在长时程、接触丰富和可变形物体操作等方面的能力。

  • 真实世界任务 (3个):
    1. 挂衬衫 (shirt-hanging): 包含5个子任务,如拿起衣架、交接衣架、将衣架穿入衬衫两侧领口、将衬衫挂回衣架。
    2. 密封密闭容器盖 (airtight-container-lid-sealing): 包含5个子任务,如拿起盖子、盖上容器、扣上相对的两个卡扣、旋转碗、再扣上另外两个卡扣。
    3. 打包外卖盒 (clamshell-takeout-box-packing): 包含7个子任务,如拿起盒子、拿起铲子、铲起汉堡、放入盒子、调整位置、盖上盖子、扣上锁扣。
  • 模拟任务 (1个):
    1. 双手装配 (bimanual-assembly): 包含3个子任务,在一个模拟环境中完成积木的拾取和组装。

      下图(原文 Figure 7)展示了这四个任务。

      Figure 7: Long-horizon robot tasks. We study 3 real-world tasks, shirt-hanging, airtight-containerlid-sealing, clamshell-takeout-box-packing, and a simulated bimanual-assembly task. 该图像是图表,展示了机器人在四个长时间任务中的应用,包括悬挂衬衫、封闭气密容器、打包外卖盒和模拟装配任务。每个任务展示了机器人在处理接触丰富和变形物体时的表现。

5.2. 评估指标

论文使用了两个核心指标来评估性能:

  • 任务成功率 (Task Success Rate):

    1. 概念定义: 指在所有测试回合中,机器人完整地完成了所有子任务的试验所占的百分比。这是一个非常严格的指标,任何一个子任务失败都算作整个任务失败(得分为0),只有全部成功才算成功(得分为1)。
    2. 数学公式: 这是一个二项分布的比例估计,其计算公式为: Success Rate=Number of Successful TrialsTotal Number of Trials \text{Success Rate} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}}
    3. 符号解释:
      • Number of Successful Trials: 完全成功完成任务的试验次数。
      • Total Number of Trials: 总的评估试验次数。 论文中还提到了使用威尔逊得分区间 (Wilson Score Interval) 来计算成功率的置信区间,这是一种在样本量较小或成功率接近0或1时比标准方法更准确的置信区间估计。
  • 任务进度分数 (Task Progress Score):

    1. 概念定义: 表示在一个试验回合中,机器人平均能成功完成多少个子任务。这个指标与成功率不同,它能衡量策略的“部分能力”,即使任务最终失败了,也能通过完成的子任务数量获得部分分数。
    2. 数学公式: Progress Score=1Ni=1NCi \text{Progress Score} = \frac{1}{N} \sum_{i=1}^{N} C_i
    3. 符号解释:
      • NN: 总的评估试验次数。
      • CiC_i: 第 ii 次试验中成功完成的子任务数量。

5.3. 对比基线

RaC 与两种主流的数据收集策略进行了比较:

  1. 批量完整专家演示 (Batched Full Expert Data Collection): 这是最传统的方法。一次性收集大量的(比如 K×NK \times N 条)完整、成功的专家演示数据,然后用这个静态的大数据集训练一个策略。

  2. HG-DAgger 风格干预 (HG-DAgger-style Interventions): 这代表了现有的人机回环方法的标准实践。在此设置中,人类操作员同样会在策略犯错时进行干预,但干预行为主要是纠正性的(即直接演示如何从错误状态完成任务),并且干预后机器人会继续执行任务,而不是像 RaC 一样终止回合。


6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 数据效率和绝对性能的巨大提升

RaC 在所有任务上都表现出极高的数据效率和性能。

  • 与最先进方法的比较: 在最具代表性的“挂衬衫”任务上,RaC 的表现尤为惊人。如下表(原文 Table 1)所示,RaC 仅用 5 小时 的训练数据就达到了 78.3% 的成功率,显著超过了之前需要近百小时数据的最先进工作 ALOHA Unleashed(75.0%)和 Seed GR-3(约63.6%)。这证明了 RaC 在数据效率上实现了一个数量级的提升。

    以下是原文 Table 1 的结果:

    名称 策略架构 模型大小 训练数据大小 成功率 (SR)
    ALOHA Unleashed [50] Diffusion Transformer policy 217M ~89 hours (5345 挂衬衫专家演示) 75.0%
    Seed GR-3 [7] Vision-Language-Action model 4B 116 hours 的挂衬衫专家演示和视觉语言数据 ~63.6%
    Ours (RaC) Flow-matching Transformer policy 368M 5 hours (RaC data: 专家, 恢复, 和纠正) 78.3%
  • 与基线的比较: 下图(原文 Figure 8)展示了在三个真实世界任务上,RaCHG-DAgger 和批量数据收集方法的性能扩展曲线。可以清晰地看到:

    • 更高的性能: 在相同的数据量下,RaC 的任务进度分数远高于其他两种方法。

    • 更陡峭的扩展曲线: RaC 的性能曲线斜率最大,意味着每增加单位数据量,其性能提升最为显著。这再次印证了其卓越的数据效率。

      该图像是一个示意图,展示了RaC算法在三项真实世界任务上的表现,包括衣物挂放、密封容器盖和汉堡装配。图表呈现了任务进展分数与人类收集帧数之间的关系,显示RaC在数据收集效率和成功率方面的优势。 该图像是一个示意图,展示了RaC算法在三项真实世界任务上的表现,包括衣物挂放、密封容器盖和汉堡装配。图表呈现了任务进展分数与人类收集帧数之间的关系,显示RaC在数据收集效率和成功率方面的优势。

6.1.2. RaC 策略的特性分析

  • 结果 1: RaC 策略更鲁棒,能系统性地减少早期失败 下图(原文 Figure 9)展示了随着训练轮数的增加,不同方法产生的策略在各个子任务上的完成情况分布。

    • 对于 RaC(左侧),“无进展”(即在第一个子任务就失败)的试验比例迅速下降,并且策略在所有子任务上的性能都在稳步提升。

    • 而对于传统的批量数据收集方法(右侧),即使数据量增加,策略在某些困难的子任务上仍然停滞不前,存在大量早期失败的“长尾”案例。 这表明 RaC 通过学习恢复,能够有效地处理各种初始配置和意外情况,鲁棒性更强。

      该图像是示意图,展示了在不同任务中的试验进展。左侧为‘衬衫悬挂’子任务,右侧为‘模拟双手组装’子任务,通过人类收集预算的轮数,分别显示了无进展和各子任务的百分比变化。 该图像是示意图,展示了在不同任务中的试验进展。左侧为‘衬衫悬挂’子任务,右侧为‘模拟双手组装’子任务,通过人类收集预算的轮数,分别显示了无进展和各子任务的百分比变化。

  • 结果 2: 发现机器人领域的“思维链”式测试时扩展 这是本论文最有趣的发现之一。下图(原文 Figure 10)分析了成功完成任务的试验中,任务成功率与平均恢复次数的关系。

    • 结果显示,在所有任务中,随着策略学会执行更多的恢复动作 (recovery maneuvers),其最终的任务成功率也线性提高

    • 这与大语言模型中的思维链 (Chain-of-Thought)自我纠正 (self-correction) 现象非常相似:模型通过生成更长的、包含回溯和修正步骤的推理过程,最终能更可靠地得到正确答案。同样,RaC 策略通过在动作空间中进行“回溯和重试”,也显著提升了任务成功率。

      Figure 2: Bimanual manipulation robot system. An illustration of our bimanual robot setup showing camera placements and workspace setup. 该图像是示意图,展示了双手操作的机器人系统。左侧机器人手臂持有工具,移动的食物放置在透明容器内,右侧机器人手臂与多个摄像头和虚拟现实操控杆相连,演示了该系统的工作环境与摄像机布置。

  • 结果 3: RaC 策略的成功轨迹更长 下图(原文 Figure 11)显示了不同方法产生的成功轨迹的长度分布。RaC 策略的成功轨迹中位数最长。这进一步证实了 RaC 策略确实在执行恢复和重试行为,这些额外的动作虽然增加了任务时长,但却是保证最终成功的关键。

    该图像是图表,展示了HG-Dagger风格(左)与RaC风格(右)数据和训练策略的比较。在HG-Dagger中,失败后通常采用校正操作,而在RaC中则加入了恢复操作,从而扩展了机器人的技能组合,提高了长时间任务的效率和鲁棒性。 该图像是图表,展示了HG-Dagger风格(左)与RaC风格(右)数据和训练策略的比较。在HG-Dagger中,失败后通常采用校正操作,而在RaC中则加入了恢复操作,从而扩展了机器人的技能组合,提高了长时间任务的效率和鲁棒性。

6.2. 消融实验/参数分析

为了验证 RaC 数据收集协议中两条规则的有效性,作者进行了消融实验。

下图(原文 Figure 12)左侧展示了数据构成的差异,右侧展示了消融实验结果。

该图像是一个示意图,展示了机器人控制器的操作及其策略执行过程。左侧介绍了控制器的按钮功能,其中按钮A用于开始任务,按钮B用于结束任务,侧边按钮用于执行操作。右侧展示了在不同时间点,机器人在策略应用下的行为变化,强调了在控制任务中人机交互的重要性。 该图像是一个示意图,展示了机器人控制器的操作及其策略执行过程。左侧介绍了控制器的按钮功能,其中按钮A用于开始任务,按钮B用于结束任务,侧边按钮用于执行操作。右侧展示了在不同时间点,机器人在策略应用下的行为变化,强调了在控制任务中人机交互的重要性。

  • 规则 1 (先恢复后纠正) 的重要性:

    • 数据构成分析 (左图): RaC (Ours) 能够保持恢复帧和纠正帧之间一个相对平衡的比例(大约 1:1 到 1:2)。而没有该规则的传统干预方法 (Ours w/o Rule 1,即 HG-DAgger),数据构成严重偏向纠正帧,恢复行为非常稀少。
    • 性能分析 (右图): 完整的 RaC 性能扩展曲线(蓝色)远优于没有规则1的曲线(绿色)。这表明,强制要求操作员演示恢复行为,对于学习鲁棒的策略至关重要。
  • 规则 2 (干预后终止) 的重要性:

    • 性能分析 (右图): 比较 Ours w/o Rule 1 (绿色,仅使用规则2) 和 Ours w/o Rule 1 & 2 (红色,即标准 HG-DAgger)。可以发现,即使没有规则1的指导,仅仅是“干预后终止”(规则2)也比让机器人继续执行任务的 HG-DAgger 性能更好。

    • 这验证了作者的假设:终止回合可以避免收集在“混合状态分布”下产生的低效数据,从而让数据收集预算更有效地用于改进策略本身。


7. 总结与思考

7.1. 结论总结

这篇论文提出了 RaC,一个用于机器人长时程任务学习的高效数据收集与训练框架。其核心贡献和结论如下:

  1. 范式转变: RaC 成功地将模仿学习的关注点从“模仿完美的专家”转向“学习如何从不完美中恢复”,通过显式地收集和学习恢复 (recovery)纠正 (correction) 行为,极大地提升了策略的鲁棒性和数据效率。
  2. 卓越的性能与效率: 实验证明,RaC 在多个复杂的真实世界任务上,以远少于(~1/10)先前最先进方法的数据量,实现了相当甚至更高的性能。
  3. 揭示了测试时扩展效应: RaC 策略表现出一种新颖的“测试时扩展”能力,即通过在执行过程中进行更多的恢复和重试,策略的最终成功率得到提升。这为机器人策略的鲁棒性提供了新的视角和度量。
  4. 实用的数据收集协议: 提出的两条简单规则(“先恢复后纠正”和“干预后终止”)被证明是有效且高效的,为未来的人机回环数据收集提供了宝贵的实践指导。

7.2. 局限性与未来工作

论文作者在文末指出了几个值得探索的未来方向:

  • 与强化学习结合: RaC 训练出的策略由于天生具备恢复和重试能力,可能会为在线强化学习 (Reinforcement Learning, RL) 提供一个极佳的初始化。这种策略在探索环境时会更加结构化,不容易陷入无法恢复的死局,可能极大地加速在线 RL 的微调过程。
  • 应用于通用大模型:RaC 的思想和方法应用于通用的视觉-语言-动作 (Vision-Language-Action, VLA) 模型上,可能会系统性地增强这些大模型的纠错和鲁棒性。
  • 系统性地研究恢复行为的涌现: 当前的 VLA 模型有时也会展现出一些恢复行为,但这种行为是否是系统性的、可预测的尚不清楚。未来可以借鉴 RaC 的分析方法(如绘制测试时扩展曲线)来严谨地研究和评估这些通用模型中的恢复能力。

7.3. 个人启发与批判

这篇论文给我带来了深刻的启发,同时也有一些值得思考的地方。

启发:

  • “拥抱失败”的哲学: 论文的核心思想极具启发性。在机器学习中,我们常常致力于让模型在所有情况下都做出“正确”的决策。而 RaC 换了一个角度,承认失败是不可避免的,并转而研究如何让模型优雅地处理失败。这种“拥抱失败,学习恢复”的哲学思想在许多复杂的现实世界问题中可能比追求完美更具实用价值。
  • 数据质量 > 数据数量: RaC 是“数据质量优先”理念的一个绝佳范例。它雄辩地证明了,精心设计的、包含特定行为模式(如恢复)的小规模数据集,其价值可能远超于大规模但行为单一的数据集。这对于资源有限的研究者和开发者来说是一个非常积极的信号。
  • 机器人与大语言模型的交叉启发: 论文将机器人的恢复行为与 LLM 的思维链联系起来,这是一个非常漂亮的类比。它揭示了不同领域智能体在解决复杂问题时可能遵循的共通原则(如回溯、重试、自我纠正),这鼓励我们在不同 AI 子领域之间寻找更多的共通之处和相互借鉴的机会。

批判性思考与潜在问题:

  • 对人类操作员的依赖: RaC 协议的有效性在一定程度上依赖于人类操作员的判断力。何时判断“失败即将来临”?如何定义一个好的“恢复”状态?这些都可能因人而异,给数据收集带来不确定性和噪声。虽然论文中的热力图提供了一定的指导,但操作员的主观性仍然是一个潜在的影响因素。
  • 恢复成本的考量: RaC 通过增加执行时间(恢复和重试)来换取更高的成功率。在某些对实时性要求极高的任务中,这种时间成本可能过高。未来的研究或许可以探索如何在成功率和执行效率之间做出更智能的权衡。
  • 任务可重置性的假设: RaC 的“重试”机制隐含了一个假设,即任务或子任务在失败后是可以被重置并重新尝试的。但在某些现实场景中(例如,打翻了一杯水,弄坏了一个零件),失败是不可逆的。RaC 在这类任务上的适用性可能有限。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。