论文状态:已完成

DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning

发表:2025/02/24
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了DemoGen,一种低成本的全合成演示生成方法,旨在增强机器人视觉运动策略的学习。该方法只需一个人类演示,即可通过调整动作轨迹生成适应新物体配置的空间增强型演示。实验表明,DemoGen显著提升了多种实际操作任务的策略性能,具备良好的扩展性,适用于具有挑战性的场景。

摘要

Visuomotor policies have shown great promise in robotic manipulation but often require substantial amounts of human-collected data for effective performance. A key reason underlying the data demands is their limited spatial generalization capability, which necessitates extensive data collection across different object configurations. In this work, we present DemoGen, a low-cost, fully synthetic approach for automatic demonstration generation. Using only one human-collected demonstration per task, DemoGen generates spatially augmented demonstrations by adapting the demonstrated action trajectory to novel object configurations. Visual observations are synthesized by leveraging 3D point clouds as the modality and rearranging the subjects in the scene via 3D editing. Empirically, DemoGen significantly enhances policy performance across a diverse range of real-world manipulation tasks, showing its applicability even in challenging scenarios involving deformable objects, dexterous hand end-effectors, and bimanual platforms. Furthermore, DemoGen can be extended to enable additional out-of-distribution capabilities, including disturbance resistance and obstacle avoidance.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning(DemoGen:面向数据高效视觉运动策略学习的合成演示生成)

1.2. 作者

Zhengrong Xue, Shuying Deng, Zhenyang Chen, Yixuan Wang, Zhecheng Yuan, Huazhe Xu 等。 隶属机构包括:清华大学、上海期智研究院、上海人工智能实验室。其中,Zhengrong Xue 和 Shuying Deng 为共同第一作者。

1.3. 发表期刊/会议

该论文作为预印本发表于 arXiv。 发布时间 (UTC):2025-02-24T07:50:01.000Z。

1.4. 摘要

视觉运动策略 (Visuomotor policies) 在机器人操作中展现出巨大潜力,但通常需要大量人类收集的数据才能有效执行。造成数据需求高的一个关键原因在于其空间泛化能力有限,这需要针对不同物体配置进行大量数据收集。为此,本文提出了 DemoGen,一种低成本、全合成的自动演示生成方法。DemoGen 仅需每个任务一个人类收集的演示,即可通过调整演示的动作轨迹以适应新颖的物体配置,从而生成空间增强型演示。视觉观察通过利用 3D 点云作为模态,并通过 3D 编辑重新排列场景中的主体来合成。实验结果表明,DemoGen 显著提升了各种真实世界操作任务中的策略性能,即使在涉及可变形物体、灵巧手末端执行器和双臂平台等挑战性场景中也适用。此外,DemoGen 还可以扩展,以实现额外的分布外 (out-of-distribution) 能力,包括抗干扰和避障。

1.5. 原文链接

原文链接: https://arxiv.org/abs/2502.16932v1 PDF 链接: https://arxiv.org/pdf/2502.16932v1.pdf 发布状态:预印本 (v1)。

2. 整体概括

2.1. 研究背景与动机

核心问题: 视觉运动策略 (Visuomotor policies) 在机器人操作中虽然显示出巨大潜力,但其训练通常需要海量的人类收集演示数据。例如,复杂的任务可能需要数千个演示才能达到满意的性能。

重要性与现有挑战:

  1. 空间泛化能力有限: 视觉运动策略的一个主要数据瓶颈是其有限的空间泛化 (spatial generalization) 能力。这意味着如果物体的位置或配置发生变化,策略往往无法很好地适应,需要对新的配置进行重复的数据收集。
  2. 数据收集成本高昂: 为了覆盖整个工作空间,研究人员不得不反复重新放置物体并收集演示,这个“重新定位-重新收集 (relocate-and-recollect)”的过程耗时且成本高昂,尤其是在真实世界环境中。
  3. 现有合成方法局限性: 尽管存在一些合成数据生成方法(如 MimicGen 及其变体),但它们通常依赖于“机器人上推演 (on-robot rollouts)”来验证生成的动作并捕获视觉观察,这使得它们在真实世界中的部署成本仍然很高,几乎与直接收集人类演示一样昂贵。

论文的切入点与创新思路: 本文旨在通过引入一种完全合成 (fully synthetic) 的演示生成方法 DemoGen,来解决视觉运动策略学习中的数据效率问题,从而显著降低机器人操作任务的数据收集成本。DemoGen 的核心思想是:在仅有一个人类收集演示的基础上,通过任务与运动规划 (Task and Motion Planning, TAMP) 方法生成适应新物体配置的动作轨迹,并通过 3D 编辑技术合成相应的视觉观察(点云)。这种方法避免了昂贵的机器人上推演,实现了高效的数据生成。

2.2. 核心贡献/主要发现

本文的主要贡献在于:

  1. 提出了 DemoGen 框架: 引入了一种低成本、全合成的自动演示生成系统 DemoGen,它能够从单个原始人类演示中生成大量空间增强型演示。

  2. TAMP-based 动作生成: DemoGen 采用 TAMP 原理,将原始轨迹分解为运动段 (motion segments) 和技能段 (skill segments)。技能段整体转换以适应新物体配置,而运动段则通过运动规划 (motion planning) 重新规划以连接这些技能段。

  3. 3D 点云视觉观察合成: 克服了 2D 生成模型在 3D 空间关系上的不足,DemoGen 利用点云作为视觉模态,通过 3D 编辑直接对点云进行空间转换,从而高效合成与生成动作匹配的视觉观察,避免了昂贵的机器人上推演。

  4. 广泛的实验验证: 在模拟器和广泛的真实世界任务中(包括单臂和双臂平台、夹爪和灵巧手末端执行器、刚体和可变形物体),验证了 DemoGen 的有效性。结果显示,DemoGen 显著提升了策略性能和空间泛化能力,平均成功率达到 74.6%。

  5. 展示了分布外能力: 进一步证明了 DemoGen 可以通过简单扩展,赋予学习到的策略额外的分布外 (out-of-distribution, OOD) 泛化能力,如抗干扰 (disturbance resistance) 和避障 (obstacle avoidance)。

  6. 代码和数据集开源: 承诺将开源代码和数据集,以促进研究结果的可复现性。

    这些贡献共同指向一个核心发现:通过 DemoGen 生成的合成数据可以显著减少对人类演示数据的需求,同时提高视觉运动策略在复杂真实世界任务中的泛化能力和鲁棒性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 视觉运动策略 (Visuomotor Policies)

概念定义: 视觉运动策略 (Visuomotor policies) 是一种端到端 (end-to-end) 的机器学习模型,它直接将机器人从视觉观察(如图像或点云)映射到机器人执行的动作(如末端执行器位姿或关节速度)。这意味着策略能够直接从传感器数据中学习如何操作,而不需要显式地进行物体识别、状态估计或运动规划等中间步骤。

解释: 这种端到端的学习方式使得机器人能够学习非常复杂的、接触丰富的 (contact-rich) 技能,甚至是那些难以用传统方法进行建模的灵巧操作。然而,其灵活性也带来了对大量训练数据的需求,因为策略需要从数据中学习视觉模式与动作之间的复杂关联。

3.1.2. 扩散策略 (Diffusion Policy, DP)

概念定义: 扩散策略 (Diffusion Policy, DP) 是一种基于扩散模型 (diffusion models) 的视觉运动策略学习方法。它将动作预测问题建模为一个生成问题,通过逆向扩散过程从噪声中逐步去噪,从而预测出一系列未来动作轨迹。

解释: 扩散模型最初在图像生成领域取得了巨大成功,能够生成高质量的图像。将其应用于机器人控制,意味着策略不是直接预测一个动作,而是学习一个从随机噪声逐步细化到正确动作序列的过程。这种方法在处理多模态和不确定性方面表现出色,并能够生成平滑、合理的动作轨迹。本文中提到的 3D Diffusion Policy (DP3) 则是将扩散策略与 3D 视觉观察(点云)结合。

3.1.3. 空间泛化 (Spatial Generalization)

概念定义: 空间泛化 (Spatial generalization) 指的是机器人策略在训练时未曾见过的、但空间位置或配置有所变化的物体上执行任务的能力。

解释: 例如,如果机器人学会了抓取桌子中央的杯子,那么当杯子被放置在桌子边缘或不同方向时,策略能否同样成功抓取,这就是空间泛化能力的体现。缺乏空间泛化能力是当前视觉运动策略面临的一个主要挑战,因为它要求在整个工作空间中收集大量数据才能保证性能。

3.1.4. 任务与运动规划 (Task and Motion Planning, TAMP)

概念定义: 任务与运动规划 (Task and Motion Planning, TAMP) 是一种结合了高层任务规划和底层运动规划的机器人规划范式。任务规划 (Task Planning) 关注机器人需要执行的离散动作序列(例如,“拿起方块A”、“放到方块B上”),而运动规划 (Motion Planning) 则关注如何在满足物理约束(如避障、关节限制)的情况下,生成连接这些离散动作的连续轨迹。

解释: TAMP 允许机器人处理更复杂的、多阶段的任务。在本文中,TAMP 的原理被用于将人类演示分解为语义化的运动段和技能段,并根据新物体配置重新规划或转换这些段的动作。

3.1.5. 点云 (Point Cloud)

概念定义: 点云 (Point cloud) 是一种三维数据表示形式,它由大量表示空间中点的坐标 (x, y, z) 集合组成。每个点还可以包含额外的属性,如颜色(RGB)、强度或法线信息。

解释: 点云通常由 3D 传感器(如 LiDAR 扫描仪或 RGB-D 摄像头)捕获。相比于 2D 图像,点云直接提供了物体的三维几何信息,这对于机器人理解空间关系和执行操作任务至关重要。在本文中,DemoGen 利用点云作为视觉观察模态,并直接在 3D 空间中对其进行编辑和转换,以合成新场景的视觉观察。

3.1.6. 末端执行器 (End-effector)

概念定义: 末端执行器 (End-effector) 是连接在机器人手臂末端,直接与环境或物体交互的工具或装置。

解释: 常见的末端执行器包括夹爪 (gripper)、吸盘、焊枪、灵巧手 (dexterous hand) 等。它的设计和功能直接决定了机器人能够执行的操作类型。

3.2. 前人工作

3.2.1. 视觉运动策略的数据需求

  • 挑战: 视觉运动策略(如 Diffusion Policy [7])在机器人操作中表现出色,但其端到端学习的特性导致对大量人类收集的数据有很高的要求。例如,在披萨上涂酱 [7] 或用灵巧手制作卷筒 [59] 等复杂任务需要数十到数百个演示,而更复杂、长周期的任务甚至需要数千个演示 [62]。
  • 根本原因: 缺乏空间泛化能力 [41, 43]。策略通常只在演示过的物体配置附近有效,需要反复在不同物体位置收集数据以覆盖整个工作空间。

3.2.2. 数据高效模仿学习 (Data-Efficient Imitation Learning)

  • TAMP-based 方法: 一些方法结合了 TAMP 原理来减少演示需求,例如学习拾取和放置的末端执行器姿态 [60, 42, 51, 53, 17],然后使用运动规划工具包 [26] 生成轨迹并开环执行。
  • 重放演示片段: 另一些方法通过学习估计物体状态,并重放以目标物体为中心的演示轨迹片段 [23, 45, 11, 12]。
  • 局限性: 这些方法通常适用于简单、马尔可夫式的任务 [46],但由于依赖开环执行,限制了它们在需要闭环重试和重新规划的灵巧任务中的应用。
  • DemoGen 的区别: DemoGen 利用 TAMP 原理进行合成数据生成,然后用这些数据训练闭环视觉运动策略,结合了两者的优点。

3.2.3. 机器人操作的数据生成 (Data Generation for Robotic Manipulation)

  • 从零生成: 一些工作尝试使用大型语言模型 (LLM) 进行任务分解,并通过规划或强化学习解决子任务来生成演示 [48, 21, 49]。但这些方法的技能往往受限于 LLM、规划器或强化学习的能力。
  • MimicGen 家族 [32, 20, 18, 22]: 这是一类将人类收集的原始演示适应到新物体配置的方法。它们通过合成相应的执行计划来生成演示,理论上适用于广泛的操作技能和物体类型。例如,DexMimicGen [22] 将 MimicGen 扩展到支持双臂灵巧手平台。
  • MimicGen 家族的局限性: MimicGen 框架生成的执行计划不是可以直接用于策略训练的观察-动作对。为了弥合这一差距,MimicGen 家族依赖于成本高昂的“机器人上推演 (on-robot rollouts)”,这在真实机器人部署中是一个重大挑战。在“机器人上推演”中,生成的动作计划需要在真实机器人上执行,以捕获相应的视觉观察,从而构建完整的观察-动作对。这个过程几乎与直接收集人类演示一样昂贵。
  • DemoGen 的核心创新: DemoGen 正是在 MimicGen 及其扩展的基础上,用高效的、完全合成的生成过程取代了昂贵的“机器人上推演”。它通过 3D 点云编辑直接合成视觉观察,从而以低成本生成可用于策略训练的真实世界演示。

3.3. 技术演进

机器人操作的数据生成从最初完全依赖昂贵的人类示教,逐渐发展到尝试利用规划、LLM等手段从零生成,再到 MimicGen 家族利用少量人类演示进行适应性生成。MimicGen 迈出了重要一步,但其在生成完整观察-动作对时仍需物理机器人验证,这限制了其在真实世界场景中的应用。DemoGen 的出现,通过完全合成视觉观察的方式,弥合了 MimicGen 在真实世界部署中的成本鸿沟,代表了数据生成技术在效率和可扩展性方面的一个重要进展。

3.4. 差异化分析

  • 与传统 TAMP 方法的区别: 传统 TAMP 通常侧重于生成开环轨迹,而 DemoGen 利用 TAMP 原理生成动作后,这些合成的演示数据用于训练闭环视觉运动策略,从而在执行时具备更好的鲁棒性和适应性。
  • 与 MimicGen 家族的区别: 这是最核心的区别。MimicGen 及其变体虽然也能生成适应新配置的动作计划,但它们需要通过昂贵的“机器人上推演 (on-robot rollouts)”来获取视觉观察,使其在真实世界中的成本仍然很高。DemoGen 则通过完全合成 3D 点云视觉观察,彻底消除了对物理机器人进行额外数据收集的需求,实现了极高的成本效益。
  • 与 2D 图像生成方法的区别: 一些工作使用视觉基础模型来操纵机器人任务中的物体外观 [55, 4, 2]。然而,这些 2D 生成模型通常缺乏对 3D 空间关系(如透视变化 [52])的感知,无法直接用于修改物体在图像中的空间位置。DemoGen 直接操作 3D 点云,能够准确反映底层的物理过程和空间变换,从而最小化真实与合成观察之间的视觉差距。

4. 方法论

DemoGen 旨在解决视觉运动策略对大量数据需求与人类收集数据成本高昂之间的矛盾。它通过从少量源演示中生成空间增强的观察-动作对。对于动作,DemoGen 将源轨迹解析为以物体为中心的运动段和技能段,并应用基于任务与运动规划 (TAMP) 的适应方法。对于观察,DemoGen 使用分段与转换 (segment-and-transform) 策略高效合成机器人和物体的点云。

4.1. 问题表述

一个视觉运动策略 π\pi 直接将视觉观察 oOo \in \mathcal{O} 映射到预测动作 aAa \in \mathcal{A},即 π:OA\pi : \mathcal{O} \mapsto \mathcal{A}。为了训练这样的策略,需要准备一个演示数据集 D\mathcal{D}

  • 源演示 (Source Demonstration): 一个源演示 Ds0DD_{s_0} \subseteq \mathcal{D} 定义为一个观察-动作对的轨迹,该轨迹以初始物体配置 s0s_0 为条件: Ds0=(d0,d1,,dL1s0) D_{s_0} = (d_0, d_1, \ldots, d_{L-1} | s_0) 其中,每个 dt=(ot,at)d_t = (o_t, a_t) 代表一个观察-动作对,s0s_0 表示初始配置,LL 是轨迹长度。

  • 初始物体配置 (Initial Object Configuration): 假设任务涉及对 KK 个物体 {O1,O2,,OK}\{O_1, O_2, \ldots, O_K\} 的顺序操作,初始物体配置 s0s_0 定义为: s0={T0O1,T0O2,,T0OK} s_0 = \{\mathbf{T}_0^{O_1}, \mathbf{T}_0^{O_2}, \ldots, \mathbf{T}_0^{O_K}\} 其中,TtOSE(3)\mathbf{T}_t^O \in \mathrm{SE}(3) 表示在时间步 tt 从世界坐标系到物体 OO 的空间变换。

  • 动作 (Action): 动作 ata_t 包含机器人手臂和机器人手部的指令: at=(atarm,athand) a_t = (a_t^{\mathrm{arm}}, a_t^{\mathrm{hand}}) 其中,atarmAtEEa_t^{\mathrm{arm}} \triangleq \mathbf{A}_t^{\mathrm{EE}} 是末端执行器 (End-effector) 的姿态,athanda_t^{\mathrm{hand}} 是夹爪的开合动作或灵巧手关节的更高维向量。

  • 观察 (Observation): 观察 oto_t 包含点云数据和机器人的本体感受反馈 (proprioceptive feedback): ot=(otpcd,otarm,othand) o_t = (o_t^{\mathrm{pcd}}, o_t^{\mathrm{arm}}, o_t^{\mathrm{hand}}) 其中,otpcdo_t^{\mathrm{pcd}} 是点云数据,otarmo_t^{\mathrm{arm}}othando_t^{\mathrm{hand}} 反映了末端执行器的当前状态,与相应动作具有相同的维度。

  • DemoGen 的目标: DemoGen 的目标是生成一个新的演示 D^s0\hat{D}_{s_0'},该演示以不同的初始物体配置 s0s_0' 为条件,从而实现对人类收集的源演示的增强: D^s0=(d^0,d^1,,d^L1s0) \hat{D}_{s_0'} = (\hat{d}_0, \hat{d}_1, \dots, \hat{d}_{L-1} | s_0')

4.2. 源演示的预处理 (Pre-processing the Source Demonstration)

4.2.1. 分割点云观察 (Segmented Point Cloud Observations)

处理流程:

  1. 点云获取: 使用单视图 RGBD 摄像头获取原始点云观察。

  2. 裁剪: 裁剪掉背景和桌面上的冗余点,假设保留的点与被操作物体或机器人末端执行器相关。

  3. 聚类与降采样: 应用聚类操作 [14] 过滤掉真实世界观察中的噪声点,然后使用最远点采样 (farthest point sampling) 将点云降采样到固定数量的点(例如 512 或 1024),以利于策略学习 [38]。

  4. 语义分割: 对于轨迹的第一帧,使用 Grounded SAM [40] 获取被操作物体的 RGB 图像分割掩码 (segmentation masks)。这些掩码随后应用于像素对齐的深度图像,并投影到 3D 点云上,如图 Figure 4 所示。

    下图(原文 Figure 4)展示了源演示的预处理过程:原始点云观察经过裁剪、聚类和降采样处理。源动作轨迹通过参考被操作物体的语义掩码,被解析为运动段和技能段。

    Fig. 4: Pre-processing the source demonstration. The raw point cloud observations are processed by cropping, clustering, and downsampling. The source action trajectory is parsed into motion and skill segments by referring to the semantic masks of manipulated objects. 该图像是示意图,展示了机器人在执行任务时的多个阶段和轨迹。图中包含机器人手爪和操作空间的3D视图,通常以彩色点云表示。轨迹 τ1m\tau^m_1 表示机器人执行的主要动作,τ1s\tau^s_1τ2s\tau^s_2 则代表不同的源轨迹,涉及到目标物体 O1O_1O2O_2 的移动状态。背景显示了机器人的操作环境,提供了对其行为的视觉理解。

4.2.2. 解析源轨迹 (Parsing the Source Trajectory)

核心思想: 假设执行轨迹可以解析为一系列以物体为中心的片段。由于机器人必须首先在自由空间中接近物体,然后才能通过接触进行物体操作,因此每个以物体为中心的片段可以进一步细分为两个阶段:运动 (motion)技能 (skill)

识别方法:

  • 技能段 (Skill Segments): 通过检查物体点云的几何中心与机器人末端执行器之间的距离是否落在预定义的阈值内来识别。当距离小于阈值时,表示机器人正在与物体进行接触式操作,这段轨迹被标记为技能段。
  • 运动段 (Motion Segments): 两个技能段之间的中间轨迹被分类为运动段,表示机器人在自由空间中移动以连接不同的操作阶段。

形式化表示: 定义一个时间戳区间 \tau = (t_{\mathrm{start}}, t_{\mathrm{start}}+1, \ldots, t_{\mathrm{end}}-1, t_{\mathrm{end}}) \subseteq (0, 1, \ldots, L-1),它可作为从演示序列、动作序列或观察序列中提取相应片段的索引序列。例如,d[τ]=(dtstart,dtstart+1,,dtend1,dtend)d[\tau] = (d_{t_{\mathrm{start}}}, d_{t_{\mathrm{start}}+1}, \dots, d_{t_{\mathrm{end}}-1}, d_{t_{\mathrm{end}}}) 表示由 τ\tau 索引的源演示的提取子集。

使用此符号,源演示被解析为交替的运动段和技能段,根据索引序列 (τ1m,τ1s,,τKm,τKs)(\tau_1^{\mathrm{m}}, \tau_1^{\mathrm{s}}, \dots, \tau_K^{\mathrm{m}}, \tau_K^{\mathrm{s}}) 表示为: Ds0=(d[τ1m],d[τ1s],,d[τKm],d[τKs]s0) D_{s_0} = (d[\tau_1^{\mathrm{m}}], d[\tau_1^{\mathrm{s}}], \dots, d[\tau_K^{\mathrm{m}}], d[\tau_K^{\mathrm{s}}] | s_0) 其中,τkm\tau_k^{\mathrm{m}} 表示第 kk 个运动段,τks\tau_k^{\mathrm{s}} 表示第 kk 个技能段。

4.3. 基于 TAMP 的动作生成 (TAMP-based Action Generation)

动作生成过程首先选择一个目标初始配置 s0s_0'

4.3.1. 适应新配置的动作 (Adapting Actions to the New Configuration)

目标初始配置: 选择一个目标初始配置 s0={T0O1,T0O2,,T0OK}s_0' = \{\mathbf{T}_0^{O_1'}, \mathbf{T}_0^{O_2'}, \ldots, \mathbf{T}_0^{O_K'}\}

空间变换计算:4×44 \times 4 齐次矩阵表示下,目标配置与源配置之间的空间变换 Δs0\Delta s_0 计算为: Δs0={(T0O1)1T0O1,,(T0OK)1T0OK} \Delta s_0 = \{(\mathbf{T}_0^{O_1})^{-1} \cdot \mathbf{T}_0^{O_1'}, \ldots, (\mathbf{T}_0^{O_K})^{-1} \cdot \mathbf{T}_0^{O_K'}\} 其中,T0Ok\mathbf{T}_0^{O_k} 是源配置中物体 OkO_k 的初始姿态,T0Ok\mathbf{T}_0^{O_k'} 是目标配置中物体 OkO_k 的初始姿态。(T0Ok)1T0Ok(\mathbf{T}_0^{O_k})^{-1} \cdot \mathbf{T}_0^{O_k'} 表示将物体 OkO_k 从源配置移动到目标配置所需的变换。

机器人手部指令 (athanda_t^{\mathrm{hand}}): 机器人手部指令(例如,夹爪的开合、灵巧手的关节控制)定义了与物体的交互动作。这些动作应该与物体配置无关,因此保持不变: a^thand=athand,t,s0,s0 \hat{a}_t^{\mathrm{hand}} = a_t^{\mathrm{hand}}, \quad \forall t, s_0, s_0' 其中,a^thand\hat{a}_t^{\mathrm{hand}} 是生成演示中的手部指令,athanda_t^{\mathrm{hand}} 是源演示中的手部指令。

机器人手臂指令 (atarma_t^{\mathrm{arm}}): 机器人手臂指令 (atarmAtEEa_t^{\mathrm{arm}} \triangleq \mathbf{A}_t^{\mathrm{EE}}) 应该与物体移动在空间上是等变的 (spatially equivariant),以便根据改变后的配置调整轨迹。

下图(原文 Figure 5)展示了动作生成的过程:左侧显示了运动阶段的动作规划,旨在连接相邻的技能段;右侧显示了技能阶段的动作经历均匀变换。

Fig. 5: Illustrations for action generation. (Left) Actions in the motion stage are planned to connect the neighboring skill segments. (Right) Actions in the skill stage undergo a uniform transformation.

技能段的动作适应: 对于涉及灵巧的物体操作的技能段,末端执行器与物体之间的空间关系必须保持相对静止。因此,整个技能段会跟随相应的物体进行整体变换: A^EE[τks]=AEE[τks](T0Ok)1T0Ok \hat{\mathbf{A}}^{\mathrm{EE}}[\pmb{\tau}_k^{\mathrm{s}}] = \mathbf{A}^{\mathrm{EE}}[\pmb{\tau}_k^{\mathrm{s}}] \cdot (\mathbf{T}_0^{O_k})^{-1} \cdot \mathbf{T}_0^{O_k'} 其中,A^EE[τks]\hat{\mathbf{A}}^{\mathrm{EE}}[\pmb{\tau}_k^{\mathrm{s}}] 是生成演示中第 kk 个技能段的末端执行器姿态序列,AEE[τks]\mathbf{A}^{\mathrm{EE}}[\pmb{\tau}_k^{\mathrm{s}}] 是源演示中的姿态序列。这个公式意味着,技能段中的每个末端执行器姿态都应用了相同的物体从源配置到目标配置的变换。

运动段的动作适应: 对于在自由空间中移动的运动段,其目标是连接相邻的技能段。因此,通过运动规划来生成运动段中的机器人手臂指令: A^EE[τkm]=MotionPlan(A^EE[τk1s][1],A^EE[τks][0]) \hat{\mathbf{A}}^{\mathrm{EE}}[\tau_k^{\mathrm{m}}] = \mathrm{MotionPlan}(\hat{\mathbf{A}}^{\mathrm{EE}}[\tau_{k-1}^{\mathrm{s}}][-1], \hat{\mathbf{A}}^{\mathrm{EE}}[\tau_k^{\mathrm{s}}][0]) 其中,MotionPlan 是一个运动规划函数。运动规划的起始姿态取自前一个技能段的最后一帧([-1]),结束姿态取自当前技能段的第一帧([0])。

  • 在简单的、无障碍的工作空间中,线性插值就足够了。
  • 对于需要避障的复杂环境,可以使用现成的运动规划方法 [26]。

4.3.2. 无故障动作执行 (Failure-free Action Execution)

为了确保合成演示的有效性,避免像传统方法那样依赖“机器人上推演”来过滤失败的轨迹,DemoGen 采取了以下措施:

  • 控制器选择: 与之前依赖操作空间控制器和末端执行器姿态增量控制 [32, 18] 的工作不同,DemoGen 采用逆运动学 (Inverse Kinematics, IK) 控制器 [57] 并目标绝对末端执行器姿态
  • 效果: 经验发现,这些调整有助于最小化复合控制误差,从而成功执行生成的动作。

4.4. 完全合成的观察生成 (Fully Synthetic Observation Generation)

4.4.1. 适应本体感受状态 (Adapting Proprioceptive States)

观察包括点云数据和本体感受状态。由于本体感受状态与动作具有相同的语义,它们应该经历相同的转换: o^thand=othand,t,s0,s0 \hat{o}_t^{\mathrm{hand}} = o_t^{\mathrm{hand}}, \quad \forall t, s_0, s_0' o^tarm=otarm(AtEE)1A^tEE \hat{o}_t^{\mathrm{arm}} = o_t^{\mathrm{arm}} \cdot (\mathbf{A}_t^{\mathrm{EE}})^{-1} \cdot \hat{\mathbf{A}}_t^{\mathrm{EE}} 其中,o^thand\hat{o}_t^{\mathrm{hand}}o^tarm\hat{o}_t^{\mathrm{arm}} 是生成演示中的本体感受状态,othando_t^{\mathrm{hand}}otarmo_t^{\mathrm{arm}} 是源演示中的状态。AtEE\mathbf{A}_t^{\mathrm{EE}} 是源演示中末端执行器的姿态,A^tEE\hat{\mathbf{A}}_t^{\mathrm{EE}} 是生成演示中对应的姿态。第二个公式表示,机器人手臂的本体感受状态会根据末端执行器姿态的变化进行相应的转换。

注意: 论文指出,直接用下一个目标姿态动作替换当前状态(即 o^tarma^t+1arm\hat{o}_t^{\mathrm{arm}} \gets \hat{a}_{t+1}^{\mathrm{arm}})可能会损害性能,因为 IK 控制器可能无法总是达到精确的目标姿态。

4.4.2. 合成点云观察 (Synthesizing Point Cloud Observations)

核心策略: 采用一个简单的“分段与转换 (segment-and-transform)”策略来合成机器人和物体的空间增强型点云。除了目标转换,合成所需的唯一信息是在第 IV-B 节中获得的源演示第一帧中 KK 个物体的分割掩码。

三阶段处理: 对于每个物体,定义三个阶段:

  1. 待处理阶段 (To-do stage): 物体是静态的,不受机器人影响。其点云根据初始物体配置进行转换: (T0Ok)1T0Ok (\mathbf{T}_0^{O_k})^{-1} \cdot \mathbf{T}_0^{O_k'} 这意味着物体点云被从源初始位置变换到目标初始位置。

  2. 正在处理阶段 (Doing stage): 物体正在被机器人操作。其点云与末端执行器的点云合并。这一阶段的物体点云会跟随末端执行器进行运动。

  3. 已完成阶段 (Done stage): 物体保持其最终状态。

    这些阶段可以通过参考轨迹级别的运动和技能段轻松识别。

机器人末端执行器的点云合成: 机器人末端执行器的点云经历与本体感受状态所指示的相同变换: (AtEE)1A^tEE (\mathbf{A}_t^{\mathrm{EE}})^{-1} \cdot \hat{\mathbf{A}}_t^{\mathrm{EE}} 在裁剪后的工作空间假设下,机器人和物体在“正在处理阶段”的点云可以通过从场景点云中减去“待处理阶段”和“已完成阶段”的物体点云来分离。

下图(原文 Figure 6)展示了这个过程的一个具体例子。更多真实世界实验中合成轨迹的例子可以在附录 Figure 21 中找到。

该图像是示意图,展示了DemoGen生成的不同动作和技能的演示,包括移动、拾取、转移和插入技能。图中显示了源示例和生成的演示之间的对比,以及在不同物体配置下的执行路径。 该图像是示意图,展示了DemoGen生成的不同动作和技能的演示,包括移动、拾取、转移和插入技能。图中显示了源示例和生成的演示之间的对比,以及在不同物体配置下的执行路径。

上图(原文 Figure 6)展示了 DemoGen 生成不同动作和技能的演示,包括移动、拾取、转移和插入技能。图中显示了源示例和生成的演示之间的对比,以及在不同物体配置下的执行路径。

  • (a) 源演示 (Source Demonstration): 展示了原始人类演示的关键帧。

  • (b) 运动段 (Motion segment): 机器人手臂在自由空间中移动,准备接近物体。

  • (c) 拾取技能段 (Pick skill segment): 机器人末端执行器与物体接触并执行拾取动作。

  • (d) 转移运动段 (Transfer motion segment): 机器人手臂带着物体在自由空间中移动,将其转移到目标位置。

  • (e) 插入技能段 (Insert skill segment): 机器人末端执行器将物体插入到容器中。

    通过对比 SourceGenerated 的行,可以看出 DemoGen 如何根据新的物体配置成功地调整了机器人的动作轨迹和相应的视觉观察。例如,在 Generated 的演示中,物体(花)被放置在不同的初始位置,机器人手臂的轨迹也相应地进行了调整,但其与花的相对交互方式(拾取、转移、插入)保持不变。

5. 实验设置

5.1. 数据集

5.1.1. 模拟环境 (Simulator)

  • 任务: 设计了 8 个任务,改编自 MetaWorld [54] 基准,如图 Figure 7 所示。为了增强空间泛化的重要性,这些任务的物体随机化范围被扩大。
  • 源演示: 每个任务仅准备 1 个脚本化策略生成的源演示。
  • 人类收集演示的参考: 同时生成 10 个和 25 个源演示作为人类收集数据集的参考基线。
  • DemoGen 生成演示:
    • 对于包含单个物体空间随机化的任务,DemoGen 生成 100 个空间增强型演示。

    • 对于包含两个物体且配置范围更广的任务,生成 200 个演示。

      下图(原文 Figure 7)展示了模拟器中的 8 个任务:

      该图像是一个示意图,展示了多个机器人操作任务,包括拾取立方体、按钮按下、抽屉关闭、龙头打开、手柄按压、盒子盖、堆叠立方体和组装。这些任务展示了机器人在复杂场景中的操作能力。 该图像是一个示意图,展示了多个机器人操作任务,包括拾取立方体、按钮按下、抽屉关闭、龙头打开、手柄按压、盒子盖、堆叠立方体和组装。这些任务展示了机器人在复杂场景中的操作能力。

5.1.2. 真实世界环境 (Real-world)

  • 任务: 评估了 8 个真实世界任务,部署在 3 个不同平台上。其中 7 个任务在单臂平台(Franka Panda)上执行,使用并行夹爪或灵巧手末端执行器;1 个任务在双臂人形机器人(Galaxea R1)上执行。任务总结如 Table II 所示。
  • 单臂平台任务: Franka Panda 平台上的任务包括:
    • 使用原装 Panda 夹爪的 3 个任务:Spatula-EggFlower-VaseMug-Rack
    • 使用 Allegro 灵巧手的 4 个任务:Dex-CubeDex-RollupDex-DrillDex-Coffee
  • 双臂平台任务: Galaxea R1 机器人上的 Fruit-Basket 任务,具有以下特点:
    • 双臂操作: 机器人同时使用两只手臂。
    • 自我中心观察 (Egocentric observation): 摄像头安装在机器人头部 [58]。
    • 分布外方向 (Out-of-distribution orientations): 评估时,香蕉以原始演示的 4545^\circ, 9090^\circ, 135135^\circ 方向偏移放置。
  • 源演示: 每个真实世界任务仅收集 1 个源演示。为了缓解真实世界点云噪声和过拟合问题,源演示被回放两次,额外捕获点云观察,使得每个任务共有 3 个“源”点云轨迹。
  • DemoGen 生成演示:
    • 每个目标配置都会生成 9 个演示,通过对物体位置添加 (±1.5cm)×(±1.5cm)(\pm 1.5 \mathrm{cm}) \times (\pm 1.5 \mathrm{cm}) 的小范围扰动来模拟真实世界的放置变化。

    • 总生成演示数量为 3×(#Eval)×93 \times (\#\mathrm{Eval}) \times 9,其中 #Eval 是评估配置的数量,3 表示 3 个源点云轨迹。

      以下是原文 Table II,展示了真实世界空间泛化评估任务的总结:

      Task Platform ActD #Obj #Eval #GDemo
      Spatula-Egg Gripper 6 1 10 270
      Flower-Vase Gripper 7 2 4×4 432
      Mug-Rack Gripper 7 2 4×4 432
      Dex-Cube Dex. Hand 22 1 10 270
      Dex-Rollup Dex. Hand 22 1 12 324
      Dex-Drill Dex. Hand 22 2 3×3 243
      Dex-Coffee Dex. Hand 22 2 3×3 243
      Fruit-Basket Bimanual 14 2 4×6 72

5.1.3. 扰动抗性 (Disturbance Resistance)

  • 任务: Sauce-Spreading 任务,改编自 DP [7],机器人使用勺子将酱料涂抹在披萨上。
  • 扰动: 在涂抹过程中,披萨会被移动到工作空间内邻近的 5 个位置(图 Figure 14(d))。
  • 评估: 测量披萨上的酱料覆盖率。
  • 生成策略:
    • 标准 DemoGen: 选择 15 个扰动过程中的中间位置作为初始物体配置。
    • 扰动抗性增强 (Augmentation for Disturbance Resistance, ADR): 在特定时间步,人工移动披萨到附近位置模拟扰动,机器人末端执行器保持静止,随后插值其运动以重新接近被移动的披萨,然后继续周期性涂抹。

5.1.4. 避障 (Obstacle Avoidance)

  • 任务: Teddy-Box 任务,灵巧手抓取泰迪熊并将其放入左侧的盒子中。
  • 障碍物: 引入了不同形状的障碍物(盒子、锥体等)。
  • 生成策略: 通过从简单几何体中采样点并将其融入原始场景来增强真实世界点云观察。障碍物避让轨迹通过运动规划工具 [26] 生成。

5.2. 评估指标

5.2.1. 成功率 (Success Rate)

概念定义: 成功率是衡量策略在给定任务中完成预定目标的频率。它通常表示为成功尝试次数占总尝试次数的百分比。这是一个直接反映策略性能和可靠性的指标。

数学公式: Success Rate=Number of Successful TrialsTotal Number of Trials×100% \text{Success Rate} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100\% 符号解释:

  • Number of Successful Trials\text{Number of Successful Trials}:策略成功完成任务的试验次数。
  • Total Number of Trials\text{Total Number of Trials}:策略总共进行的试验次数。

5.2.2. 酱料覆盖率 (Sauce Coverage)

概念定义:Sauce-Spreading 任务中,酱料覆盖率衡量披萨饼底被酱料覆盖的面积比例。这个指标直接反映了策略在涂抹任务中的完成度和均匀性。

数学公式: 酱料覆盖率的计算涉及图像处理步骤:

  1. 在 HSV 颜色空间中区分绿色背景和红色酱料。
  2. 将识别到的背景设为黑色,酱料设为红色,未覆盖的饼底设为白色。
  3. 应用平滑滤波,然后进行膨胀 (dilation) 和腐蚀 (erosion) 操作(内核大小为 9×99 \times 9),以处理酱料液体高光导致的碎片化点。
  4. 最终覆盖率计算为红色区域(酱料)与非黑色区域(酱料 + 未覆盖饼底)之比。 Sauce Coverage=ArearedAreared+Areawhite×100% \text{Sauce Coverage} = \frac{\text{Area}_{\text{red}}}{\text{Area}_{\text{red}} + \text{Area}_{\text{white}}} \times 100\% 符号解释:
  • Areared\text{Area}_{\text{red}}:图像中被识别为酱料的红色区域面积。
  • Areawhite\text{Area}_{\text{white}}:图像中被识别为未覆盖饼底的白色区域面积。

5.2.3. 归一化得分 (Normalized Score)

概念定义:Sauce-Spreading 任务中,归一化得分是将策略的酱料覆盖率与人类专家的表现进行比较,并进行归一化的指标。这提供了一个相对度量,表明策略的表现距离最佳人类表现有多远,其中 0 分表示没有任何操作,100 分表示达到人类专家的表现。

数学公式: Normalized Score=Sauce CoveragepolicySauce CoverageinitialSauce Coveragehuman expertSauce Coverageinitial×100% \text{Normalized Score} = \frac{\text{Sauce Coverage}_{\text{policy}} - \text{Sauce Coverage}_{\text{initial}}}{\text{Sauce Coverage}_{\text{human expert}} - \text{Sauce Coverage}_{\text{initial}}} \times 100\% 符号解释:

  • Sauce Coveragepolicy\text{Sauce Coverage}_{\text{policy}}:策略在试验中达到的酱料覆盖率。
  • Sauce Coverageinitial\text{Sauce Coverage}_{\text{initial}}:任务初始状态下的酱料覆盖率(通常为非零,因为初始就有少量酱料)。
  • Sauce Coveragehuman expert\text{Sauce Coverage}_{\text{human expert}}:人类专家在相同任务中达到的酱料覆盖率。

5.3. 对比基线

  • 人类收集的演示:
    • 模拟器: 对比了 1、10、25 个脚本化策略生成的源演示训练的策略性能。
    • 真实世界: 对比了 3 个(1 个原始 + 2 个回放捕获)源演示训练的策略性能,以及在附录中展示了更多人类收集演示的对比。
  • 不同视觉运动策略: 在空间泛化能力基准测试中,对比了:
    • Diffusion Policy (DP) [7]:基础的 2D 视觉扩散策略。
    • 3D Diffusion Policy (DP3) [59]:使用 3D 观察(点云)的扩散策略。
    • DP 与预训练视觉编码器:R3M [33]、DINOv2 [34]、CLIP [39] 作为 ResNet [19] 编码器的替代,以评估预训练表示对空间泛化的影响。

5.4. 策略训练和实现细节

5.4.1. 策略选择

  • 主要策略: 3D 扩散策略 (DP3) [59] 作为视觉运动策略,用于模拟和真实世界实验,因为它消耗点云和本体感受观察。
  • 对比研究: 在经验研究中,DP3 的性能与 2D 扩散策略 (DP) [7] 进行了比较。

5.4.2. 训练细节

  • 总训练步数: 为公平比较,所有评估设置的训练步数均固定为 200 万(按观察-动作对计数),确保数据集大小无关的相同训练成本。
  • 优化器: 使用 AdamW [30] 优化器,学习率设置为 1e41e^{-4},预热步数为 500 步。

5.4.3. 点云处理

  • 真实世界: 使用 DBSCAN [14] 聚类算法去除离群点,并将点云观察降采样至 1024 个点。
  • 模拟器: 跳过聚类阶段,将点云降采样至 512 个点。

5.4.4. 策略执行参数

  • 扩散策略参数: 遵循 Diffusion Policy [7] 论文中的符号:
    • ToT_{\mathrm{o}}:观察时间窗口 (observation horizon)。
    • TpT_{\mathrm{p}}:动作预测时间窗口 (action prediction horizon)。
    • TaT_{\mathrm{a}}:动作执行时间窗口 (action execution horizon)。
  • 真实世界参数: To=2,Tp=8,Ta=5T_{\mathrm{o}} = 2, T_{\mathrm{p}} = 8, T_{\mathrm{a}} = 5。策略以 10 Hz 运行。由于 TaT_{\mathrm{a}} 表示在不重新规划的情况下机器人执行动作的步数,这些参数设置导致闭环重新规划延迟为 0.5 秒,足以支持灵巧的重试行为和抗干扰。
  • 模拟器参数: 任务相对简单,因此设置为 To=2,Tp=4,Ta=3T_{\mathrm{o}} = 2, T_{\mathrm{p}} = 4, T_{\mathrm{a}} = 3

5.4.5. 预训练编码器 (Pre-Trained Encoders)

  • 为了替换原始 Diffusion Policy 架构中从头训练的 ResNet18 [19] 视觉编码器,考虑了 3 种有代表性的预训练编码器:
    • R3M [33]:使用 ResNet 架构,在机器人特定任务上进行预训练。
    • DINOv2 [34] 和 CLIP [39]:使用 ViT [13] 架构,在开放世界视觉任务上进行预训练。
    • 这些编码器被广泛用于增强策略性能 [8, 29]。

6. 实验结果与分析

6.1. 模拟器中的有效性:一次性模仿 (Effectiveness: One-Shot Imitation in the Simulator)

6.1.1. 核心结果分析

模拟器中的评估结果如 Table I 所示。

  • DemoGen 的显著提升: 相比于仅使用一个源演示的基线,DemoGen 显著提升了策略性能。例如,在 Pick-Cube 任务中,从 0% 提升到 76%;在 Button-Small 任务中,从 4% 提升到 92%。

  • 媲美人类收集数据: 经过 DemoGen 生成数据集训练的策略,其性能超越了使用 10 个源演示训练的策略,并且接近使用 25 个源演示训练的策略。这表明 DemoGen 有潜力在将人类数据收集工作量减少 20 倍以上的情况下,保持策略性能。

    以下是原文 Table I 的结果:

    Pick-Cube Button-Small Drawer-Close Faucet-Open Handle-Press Box-Lid Stack-Cube Assembly Averaged
    1 Source 0/0 4/4 55/50 39/23 17/16 11/11 0/0 0/0 16/13
    DemoGen 76/73 92/84 100/100 95/92 100/100 100/95 79/77 86/83 91/88
    10 Source 29/29 54/52 100/100 90/89 100/99 94/89 44/38 47/45 70/68
    25 Source 82/74 90/84 100/100 100/100 100/100 100/100 95/93 83/79 94/91

注:表格中的“X/Y”表示成功率,其中 X 为训练成功率,Y 为评估成功率。

6.2. 局限性:视觉不匹配问题 (Limitation: The Visual Mismatch Problem)

6.2.1. 核心结果分析

尽管 DemoGen 在模拟器中表现出显著效果,但一个关键局限性是其生成的合成演示不如相同数量的人类收集演示有效。这主要是由于视觉不匹配 (visual mismatch) 问题,即合成点云与真实世界捕获的点云之间存在差异,尤其是在单视图观察的限制下。

下图(原文 Figure 8)展示了视觉不匹配问题:

Fig. 8: Ilustration for the visual mismatch problem. As objects move through 3D space, their appearance changes due to variations in perspective. Under the constraint of a single-view observation, synthetic demonstrations consistently reflect a fixed side of the object's appearance seen in the source demonstration. This discrepancy causes a visual mismatch between the synthetic and real-captured data. 该图像是示意图,展示了在3D空间中物体外观因视角变化而产生的视觉不匹配问题。图中包含三个不同的立方体,每个立方体上的字母展示了在不同视角下的相对位置与颜色特征。该视觉不匹配影响了合成演示与真实捕获数据之间的一致性。

当物体在 3D 空间中移动时,其外观会因视角变化而改变。在单视图观察的限制下,合成演示始终反映的是源演示中物体外观的固定侧面。这种差异导致合成数据与真实捕获数据之间存在视觉不匹配。

6.2.2. 性能饱和 (Performance Saturation)

视觉不匹配问题的一个显著后果是性能饱和 (performance saturation) 现象。 下图(原文 Figure 9)展示了性能饱和现象:

Fig. 9: Performance Saturation. We report the policy performance boost w.r.t. the increase of synthetic demonstrations over 3 seeds. 该图像是图表,展示了合成示范数量增加对政策成功率的影响。图表分为两部分:左侧为范围扩展,右侧为密度扩展,分别展示了不同数量示范的成功率变化。总体趋势显示随着示范数量增加,成功率趋于饱和。

  • 范围扩展饱和 (Range Extension Saturation):Pick-Cube 任务中,当固定合成演示中目标物体配置的空间密度,并通过增加合成演示数量来扩展空间覆盖范围时(图 Figure 9(a)),性能提升最终会趋于平稳。这是因为随着源配置与合成配置之间距离的增加,视觉不匹配问题会加剧,导致额外的合成演示变得无效。
  • 密度扩展饱和 (Density Extension Saturation): 类似地,当保持空间覆盖范围固定而增加密度时(图 Figure 9(b)),也观察到性能饱和效应。这意味着一旦演示充分覆盖了工作空间,过多的演示就没有必要了。

6.3. 真实世界实验:空间泛化 (Real-World Experiments: Spatial Generalization)

6.3.1. 核心结果分析

真实世界实验结果如 Table III 所示。

  • 源演示的过拟合: 仅使用源演示训练的策略表现出严重的过拟合行为,几乎只会盲目复制演示轨迹。例如,在 Spatula-Egg 任务中,源演示的成功率仅为 10.0%。

  • DemoGen 的显著提升: DemoGen 生成的数据集使智能体能够对多样的评估配置表现出更强的适应性,从而显著提高了成功率。DemoGen 在所有评估任务中都持续提升了性能,平均成功率达到 74.6%

  • 挑战性任务:Dex-DrillDex-Coffee 等任务中,尽管性能提升不那么显著(但仍然有提升),但策略仍能引导灵巧手到大致合适的操作姿态。性能相对较低主要是由于这些任务对精度的要求非常高。

  • 闭环重规划能力:Dex-Rollup 任务中,使用 DemoGen 生成数据集训练的策略能够根据每块橡皮泥的不同可塑性,动态调整包裹动作的次数(从 2 到 5 次)。这表明 DemoGen 的使用与智能体的闭环重规划能力并不冲突,视觉运动策略的内在优势得以保留。

    以下是原文 Table III 的结果:

    Spatula-Egg Flower-Vase Mug-Rack Dex-Cube Dex-Rollup Dex-Drill Dex-Coffee Fruit-Basket Averaged
    Source 10.0 6.3 6.3 10.0 8.3 11.1 11.1 25.0 11.0
    DemoGen 88.0 82.5 85.0 78.0 76.7 55.6 40.0 90.8 74.6

6.3.2. 空间热图分析

通过可视化评估配置的空间热图,可以观察到:

  • 在接近演示配置的位置,成功率较高。

  • 随着与演示配置距离的增加,性能会下降。这归因于单视图观察导致的视觉不匹配问题,与模拟器中的发现一致。

    下图(原文 Figure 12)展示了评估配置的空间热图:

    该图像是示意图,展示了在多个任务场景中,使用DemoGen生成的动作轨迹与目标对象的相对位置。每个场景上标注了动作重复度的评估,从0%(红色)到80%以上(绿色),分别对应不同的目标物体,如Spatula-Egg、Flower-Vase和Dex-Rollup等。 该图像是示意图,展示了在多个任务场景中,使用DemoGen生成的动作轨迹与目标对象的相对位置。每个场景上标注了动作重复度的评估,从0%(红色)到80%以上(绿色),分别对应不同的目标物体,如Spatula-Egg、Flower-Vase和Dex-Rollup等。

6.3.3. 生成成本 (Generation Cost)

DemoGen 的计算成本极低,单个演示轨迹的生成仅需 0.01 秒。 以下是原文 Table IV,展示了生成真实世界演示的时间成本:

Single o-a Pair A Trajectory Whole Dataset
MimicGen 2.1 s 2.1 min 83.7 h
DemoGen 0.00015 s 0.010 s 22.0 s
  • MimicGen: 估计的 MimicGen 时间成本是将回放源轨迹的持续时间乘以生成演示的数量,并为人类操作员重置物体配置额外增加 20 秒/轨迹。MimicGen 涉及持续的人工干预。
  • DemoGen: DemoGen 的时间成本纯粹是计算成本,不涉及机器人或人类操作员。DemoGen 的计算成本可以在单进程下实现,并且由于其高度并行性,可以通过多进程进一步加速。

6.4. 双臂人形平台实验 (Bimanual Humanoid Platform Experiments)

6.4.1. 核心结果分析

Fruit-Basket 任务(图 Figure 13)中,DemoGen 在双臂人形平台上也表现出有效性。

  • 高成功率: 策略的成功率高达 90.8%(Table III),这表明 DemoGen 在双臂人形平台上的有效性,以及帮助策略泛化到分布外方向的能力。

  • 克服视觉不匹配: 为解决单摄像头视野有限导致的方向偏移点云合成挑战,机器人采用低头姿态,实现近似俯视视角,从而更有效地进行点云编辑,模拟全方向偏航旋转。

    下图(原文 Figure 13)展示了双臂人形平台实验:

    Fig. 13: Bimanual humanoid platform. (a) Egocentric observations and bimanual manipulation. (b) The Fruit-Basket task involves the out-of-distribution orientations during evaluation. 该图像是图示,展示了双手人形机器人的自我中心观察和双手操控操作。左侧(a)为双手人形及其操作示意,右侧(b)展示了在果篮任务中,机器手在不同旋转角度(0°、45°、90°、135°)下的超出分布方向(O.D.D.)的适应情况。

6.4.2. 详细分析

虽然 DemoGen 在此任务中表现良好,但论文指出视觉不匹配问题在方向增强中同样存在。当生成的方向与源演示中的方向接近时,策略表现良好;但当方向差异增大时,策略可能会对当前视觉观察中的方向做出错误反应。此外,空间泛化问题在移动操作场景中依然存在,主要是由于真实世界环境的物理限制(例如,台面限制机器人底座无法任意接近物体)。

6.5. 真实世界实验:扩展功能 (Real-World Experiments: Extensions)

6.5.1. 扰动抗性 (Disturbance Resistance)

核心结果分析:Sauce-Spreading 任务中,DemoGen 通过专门的生成策略,显著提升了策略的抗干扰能力。 以下是原文 Table V,展示了 DemoGen 在抗干扰能力方面的真实世界评估:

Sauce Coverage Normalized Score
Regular DemoGen 34.2 40.4
DemoGen w/ ADR 61.2 92.3
Initial State 13.2 0
Human Expert 65.2 100
  • ADR 策略的优越性: ADR (Augmentation for Disturbance Resistance) 策略显著优于标准的 DemoGen,其酱料覆盖率达到 61.2%,归一化得分高达 92.3%,与人类专家的表现相当(人类专家为 65.2% 覆盖率,100 归一化得分)。

  • 闭环校正能力: ADR 增强的策略在视频中展示了在多达 5 次连续扰动下仍能保持鲁棒性。这强调了演示数据在赋予策略能力方面的关键作用:抗干扰能力并非自然产生,而是通过有针对性的、包含扰动的演示而获得的。

    下图(原文 Figure 15)展示了 ADR 策略:

    Fig. 15: Illustration for the ADR strategy. Asynchronous transformations are applied to the disturbed object and the robot end-effector to simulate the disturbance resistance process. 该图像是一个示意图,展示了 ADR 策略中的异步变换过程,图中显示了被干扰物体和机器人末端执行器的变换,以模拟干扰抵抗的过程。

6.5.2. 避障 (Obstacle Avoidance)

核心结果分析:Teddy-Box 任务中,通过生成包含避障行为的演示,可以赋予策略避障能力。

  • 未训练的失败: 未在包含障碍物数据的演示上训练的策略(仅使用源演示)会与未见的障碍物发生碰撞(图 Figure 16(a-b))。

  • DemoGen 的成功: 经过增强数据集训练的智能体在 25 次试验中的 22 次中成功绕过障碍物。

  • 环境适应性: 在没有障碍物的场景中,智能体能遵循源演示中的较低轨迹,表明其对环境变化的响应能力。

    下图(原文 Figure 16)展示了避障实验:

    Fig. 16: DemoGen for obstacle avoidance. (ab) Policy trained on the source demonstration collides with the unseen obstacle. (cd) Policy trained on the generated dataset could avoid diverse-shaped obstacles. 该图像是图示示例,展示了DemoGen在障碍物避让中的应用。图 (a) 展示了源演示,但在 (b) 中,基于该演示训练的策略与未见障碍物发生碰撞;而在 (c) 和 (d) 中,使用生成的数据集训练的策略能够成功避开不同形状的障碍物。

6.6. 空间泛化经验研究 (Spatial Generalization Empirical Study)

6.6.1. 空间有效范围的可视化 (Visualization of Spatial Effective Range)

下图(原文 Figure 2)展示了不同演示配置下的空间有效范围:

该图像是示意图,展示了不同尺寸按钮的机器人抓取演示,以及生成的单一演示、稀疏演示、密集演示和完整演示。左侧展示了大按钮和小按钮的抓取示例,右侧则展示了不同演示密度的可视化效果。 该图像是示意图,展示了不同尺寸按钮的机器人抓取演示,以及生成的单一演示、稀疏演示、密集演示和完整演示。左侧展示了大按钮和小按钮的抓取示例,右侧则展示了不同演示密度的可视化效果。

  • 插值能力: 结果表明视觉运动策略具有一定程度的空间插值能力。例如,稀疏设置下(9 个演示)的有效范围显著大于单一设置(1 个演示)的 9 倍。
  • 精度要求的影响: 随着任务精度要求的提高(例如,Button-Small 相较于 Button-Large),插值变得更加困难,有效范围缩小。
  • 外推挑战: 外推 (extrapolation) 证明更具挑战性。即使密集设置的演示数量远多于稀疏设置,有效范围的轮廓也相似。这表明在工作空间中心增加演示并不能显著扩展到更远的区域。
  • 总结: 视觉运动策略的空间泛化范围大致可以由演示中物体配置周围的相邻区域的并集来近似。相邻区域的范围受操作所需容错水平的影响。

6.6.2. 空间泛化能力基准测试 (Benchmarking Spatial Generalization Capability)

下图(原文 Figure 3)展示了空间泛化能力基准测试结果:

Fig. 3: Quantitative benchmarking on the spatial generalization capacity. We report the relationship between the agent's performance in success rates and the number of demonstrations used for training when different visuomotor policies and object randomization ranges are adopted. The results are averaged over 3 seeds. 该图像是图表,展示了不同的视觉运动策略与不同演示数量下,智能体成功率的定量基准测试。图中展示了成功率与演示数量之间的关系,结果按三次实验的平均值进行了展示。

  • 3D 观察和预训练编码器: DP3 (3D 扩散策略) 展现出最高的空间泛化能力。使用 CLIP 和 DINOv2 等预训练 2D 视觉编码器的模型也取得了有竞争力的结果,远超从头训练的基线。这强调了在开放世界视觉任务上进行预训练对于增强机器人操作空间推理能力的重要性。
  • 物体随机化范围的影响: 物体随机化程度显著影响所需的演示数量。因此,有效的视觉运动策略评估协议必须包含足够大的工作空间以提供足够的物体随机化。
  • 精度与随机化: 实验表明,除非物体位置完全随机化,否则高精度要求本身不一定会产生挑战性任务。这表明精度要求和空间随机化都增加了任务难度。
  • 演示数量的饱和: 尽管任务性能通常会随着演示数量的增加而提高,但超过一定阈值后,效果会减弱。例如,在全工作空间设置中使用 DP3,从 100 增加到 150 个演示将性能提高了 37%,但从 150 增加到 200 个演示仅提高了 6%。这突显了机器人学习系统中实现近乎完美成功率的固有难度。

6.7. 更多人类收集演示的对比 (Increased Human-Collected Demonstrations)

在附录中,论文提供了更多关于人类收集演示对策略性能影响的分析。 下图(原文 Figure 19)展示了 DemoGen 生成数据集与人类收集数据集的真实世界对比:

Fig. 19: Real-world comparison between DemoGen-generated and human-collected datasets. The DemoGen-generated dataset is based on 3 source demonstrations. 该图像是图表,展示了DemoGen生成与人类收集的数据集在成功率上的比较。纵轴为成功率(%),横轴为源示范数量,显示了随着源示范数量的增加,DemoGen的性能明显优于人类收集的数据集。

  • 该图显示了随着源演示数量的增加,DemoGen 仍然表现出更好的性能。

    下图(原文 Figure 18)可视化了人类收集数据集的空间热图:

    该图像是示意图,展示了在不同源数量下(3、5、8和10个源),物体被重新配置时的成功率。图中使用不同颜色的标记表示成功率区间,具体为0%、>0%、>40%、>60%和>80%。此示意图有助于理解合成演示生成在多源数据条件下的效果。 该图像是示意图,展示了在不同源数量下(3、5、8和10个源),物体被重新配置时的成功率。图中使用不同颜色的标记表示成功率区间,具体为0%、>0%、>40%、>60%和>80%。此示意图有助于理解合成演示生成在多源数据条件下的效果。

  • 通过比较演示配置和所得策略的空间有效范围,论文发现策略能力受到演示配置的上限限制。这与经验研究中的发现一致,再次强调了覆盖多样化空间配置的重要性。

7. 总结与思考

7.1. 结论总结

本文提出了 DemoGen,一个为数据高效视觉运动策略学习设计的完全合成数据生成系统。其核心在于通过 TAMP 原理适应动作轨迹,并利用 3D 点云编辑合成视觉观察,从而大幅减少对昂贵人类收集演示数据的依赖。实验结果表明,DemoGen 在多种真实世界机器人操作任务(包括涉及可变形物体、灵巧手、双臂平台等挑战性场景)中显著提升了策略性能和空间泛化能力,平均成功率达到 74.6%。此外,通过简单扩展,DemoGen 还能赋予训练出的策略抗干扰和避障等分布外能力。DemoGen 以极低的计算成本实现了这一目标,有效地将人类数据收集工作量减少了数十倍。

7.2. 局限性与未来工作

7.2.1. 局限性

  1. 点云分割的依赖性: DemoGen 依赖于可用的分割点云。这限制了其在高度杂乱或非结构化环境中的适用性,因为在这些场景中准确的物体分割可能很困难。
  2. 不适用于非空间泛化任务: 对于那些不要求空间泛化的任务(例如,固定的手内重新定位 [3] 或固定目标姿态的推-T [15, 7]),DemoGen 可能并不适用。
  3. 视觉不匹配问题: 如第 V-B 节讨论,性能受视觉不匹配问题的影响,即合成点云与真实世界观察之间存在外观差异,尤其是在单视图观察下,这可能导致性能饱和。

7.2.2. 未来工作

  1. 缓解视觉不匹配: 未来的工作可以探索利用对比学习或 3D 生成模型等技术来缓解视觉不匹配问题,以提高合成数据的真实感和多样性。
  2. 优化源数据利用: 研究如何使用更多的、但仍是有限数量的人类收集演示作为源数据,以在策略性能和数据收集总成本之间找到最佳平衡点。这可能涉及开发更智能的选择或组合源演示的方法。

7.3. 个人启发与批判

7.3.1. 个人启发

  • 高效数据生成的重要性: DemoGen 强调了在机器人学习中,数据生成效率与数据质量同样重要。其完全合成的方案,彻底摆脱了物理机器人进行“机器人上推演”的瓶颈,这对于加速机器人研究和实际部署具有重大意义。
  • 3D 数据模态的优势: 论文通过直接操作 3D 点云来合成视觉观察,巧妙地规避了 2D 图像生成在 3D 空间关系上的固有局限性。这提示我们,在机器人感知中,选择合适的原始数据模态(如 3D 点云)可能比单纯依赖强大的 2D 视觉模型更有效。
  • 任务分解与泛化: TAMP 思想在分解任务和动作轨迹方面的作用再次得到验证。将轨迹分解为语义化的运动段和技能段,并针对性地进行转换,是实现空间泛化的关键。
  • OOD 能力的“工程化”: 论文展示了通过有针对性的合成数据(如 ADR 策略),可以“工程化”地赋予策略特定的分布外能力(如抗干扰、避障),而不仅仅是依赖策略本身的泛化能力。这为解决机器人部署中的鲁棒性问题提供了新的思路。

7.3.2. 批判

  • 点云分割的鲁棒性: 虽然论文提到使用 Grounded SAM 进行分割,但在高度复杂、动态变化的真实世界场景中,尤其是在点云质量不佳或物体遮挡严重的情况下,精确、鲁棒的实时点云分割仍然是一个巨大挑战。如果分割失败,后续的动作适应和观察合成都将受到严重影响。
  • 视觉不匹配的根本解决: 尽管论文提出了缓解视觉不匹配的未来方向,但这一问题是单视图 3D 重建和合成的固有局限。在需要高保真视觉反馈的任务中,这种不匹配可能仍是瓶颈。如果点云的纹理或颜色信息在转换后无法与真实世界完全匹配,可能会对策略的泛化造成影响,尤其当策略对这些视觉细节敏感时。
  • 动作规划的复杂度: 运动段的运动规划在简单环境下可能有效,但在高维度、多自由度、有复杂障碍物、动态变化的真实世界中,实时、无碰撞、平滑且符合物理的运动规划本身就是一个难题。论文提及使用“现成的运动规划方法”,但其效率和成功率在未见过的复杂场景下仍需详细评估。
  • 任务类型的限制: DemoGen 依赖于任务可以被明确地分解为运动段和技能段。对于某些更流畅、难以离散化的任务(例如连续的液体搅拌或多手指精细操作),这种分解可能不适用或过于粗糙。
  • 对“单个演示”的敏感性: 尽管目标是“数据高效”,但所有生成都基于一个源演示。如果这个源演示本身存在瑕疵、不完整或不够最优,那么所有生成的演示都可能继承这些问题,甚至放大。如何评估和选择高质量的源演示,或者如何从少量源演示中学习并修正其潜在缺陷,是值得探讨的问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。