MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation
TL;DR 精炼摘要
本文提出MoMaGen,一种通过软硬约束优化生成多步双臂移动操作演示的方法。针对收集人类演示数据的高昂成本,该方法解决了基座放置与摄像头可视性两大挑战。实验结果表明,MoMaGen在多样性上显著优于现有方法,为未来高效学习提供了理论基础。
摘要
Imitation learning from large-scale, diverse human demonstrations has proven effective for training robots, but collecting such data is costly and time-consuming. This challenge is amplified for multi-step bimanual mobile manipulation, where humans must teleoperate both a mobile base and two high-degree-of-freedom arms. Prior automated data generation frameworks have addressed static bimanual manipulation by augmenting a few human demonstrations in simulation, but they fall short for mobile settings due to two key challenges: (1) determining base placement to ensure reachability, and (2) positioning the camera to provide sufficient visibility for visuomotor policies. To address these issues, we introduce MoMaGen, which formulates data generation as a constrained optimization problem that enforces hard constraints (e.g., reachability) while balancing soft constraints (e.g., visibility during navigation). This formulation generalizes prior approaches and provides a principled foundation for future methods. We evaluate MoMaGen on four multi-step bimanual mobile manipulation tasks and show that it generates significantly more diverse datasets than existing methods. Leveraging this diversity, MoMaGen can train successful imitation learning policies from a single source demonstration, and these policies can be fine-tuned with as few as 40 real-world demonstrations to achieve deployment on physical robotic hardware. More details are available at our project page: momagen.github.io.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation
中文标题: MoMaGen: 在软硬约束下为多步双臂移动操作任务生成演示
论文标题直接点明了其核心内容:MoMaGen 是一种为多步、双臂、移动操作 (Multi-Step Bimanual Mobile Manipulation) 这类复杂机器人任务生成演示 (Generating Demonstrations) 的方法。其关键技术在于将生成过程构建为一个同时考虑软约束 (Soft Constraints) 和硬约束 (Hard Constraints) 的优化问题。
1.2. 作者
Chengshu Li*, Mengdi Xu*, Arpit Bahety*, Hang Yin*, Yunfan Jiang, Huang Huang, Josiah Wong, Sujay Garlanka, Cem Gokmen, Ruohan Zhang, Weiyu Liu, Jiajun Wu, Roberto Martín-Martín, Li Fei-Fei. (标*表示同等贡献)
作者团队主要来自斯坦福大学 (Stanford University) 和德克萨斯大学奥斯汀分校 (The University of Texas at Austin)。这是一个在机器人学、计算机视觉和人工智能领域享有盛誉的顶尖研究团队,其中不乏李飞飞 (Li Fei-Fei) 和吴佳俊 (Jiajun Wu) 等知名学者。这预示着该研究具有坚实的学术背景和较高的质量。
1.3. 发表期刊/会议
论文提交到了 arXiv 预印本服务器,通常这类工作会投递到机器人或机器学习领域的顶级会议,如 ICRA (International Conference on Robotics and Automation), CoRL (Conference on Robot Learning), 或 RSS (Robotics: Science and Systems)。
1.4. 发表年份
预印本发布于 2025年10月 (UTC 时间 2025-10-21)。这是一个非常前沿的研究。
1.5. 摘要
通过大规模、多样化的人类演示进行模仿学习 (Imitation learning) 已被证明是训练机器人的有效方法,但收集这些数据既昂贵又耗时。对于多步双臂移动操作 (multi-step bimanual mobile manipulation) 任务,这一挑战尤为突出,因为人类操作员必须同时遥控一个移动基座和两个高自由度的机械臂。
先前的数据自动生成框架(如 X-Gen 系列)主要针对静态双臂操作,它们通过在仿真中增强少量人类演示来生成数据。然而,这些方法在移动场景中存在两大挑战:
-
基座放置问题:如何确定机器人基座的位置以确保后续操作的可达性 (reachability)。
-
相机定位问题:如何放置相机以为视觉-运动策略 (visuomotor policies) 提供足够的可见性 (visibility)。
为解决这些问题,本文提出了
MoMaGen。该方法将数据生成过程形式化 (formulates) 为一个约束优化问题 (constrained optimization problem),该问题在强制执行硬约束(如可达性)的同时,平衡了软约束(如导航过程中的可见性)。这种形式化不仅概括了先前的方法,也为未来的研究提供了一个有原则的基础。
实验在四个多步双臂移动操作任务上进行,结果表明 MoMaGen 生成的数据集比现有方法多样性显著更高。利用这种多样性,MoMaGen 仅需一个源演示就能训练出成功的模仿学习策略。这些策略在仅用 40 个真实世界演示进行微调后,便能成功部署到物理机器人硬件上。
1.6. 原文链接
-
ArXiv 链接: https://arxiv.org/abs/2510.18316v1
-
发布状态: 本文为预印本 (Preprint),尚未经过同行评审。
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题
机器人学习,特别是模仿学习,严重依赖于大规模、高质量的人类演示数据。然而,为复杂的机器人(如同时拥有移动底盘和两个机械臂的机器人)收集这类数据是一个巨大的瓶颈。人类操作员通过遥操作 (teleoperation) 来提供演示,不仅效率低下、成本高昂,而且对操作员的要求极高,因为需要同时协调控制多个复杂部件。
2.1.2. 现有挑战与空白 (Gap)
为了解决数据稀缺问题,学术界提出了一系列自动化数据生成 (automated data generation) 方法,统称为 X-Gen 家族。它们的核心思想是:用少量人类演示作为“种子”,在仿真环境中自动生成大量新的、多样化的演示数据。
然而,现有的 X-Gen 方法主要用于桌面级、固定基座 (table-top, static-base) 的操作任务,当扩展到移动操作 (mobile manipulation) 场景时,它们遇到了两个致命的难题:
- 可达性 (Reachability) 危机: 在新的场景中(比如目标物体被随机放在了房间的另一个角落),如果机器人只是简单地重放原始演示中的导航路径,它的机械臂很可能根本够不到目标物体,导致后续操作任务直接失败。
- 可见性 (Visibility) 危机: 机器人策略通常是视觉-运动策略,即“看到什么,做什么”。如果机器人在移动过程中或在准备操作时,目标物体不在其摄像头视野内或被遮挡,策略就无法做出正确的决策。简单地重放运动轨迹无法保证在新的场景中,关键物体始终可见。
2.1.3. 论文的切入点
MoMaGen 的核心创新在于,它没有将数据生成看作一个简单的轨迹规划问题,而是将其提升到了一个约束优化 (constrained optimization) 的高度。它明确区分了必须满足的条件(硬约束)和希望达成的目标(软约束)。
-
硬约束: 如“机械臂必须能够到物体”、“操作时物体必须在视野内”,这些是任务成功的底线,不容妥协。
-
软约束: 如“在走向物体的过程中,最好一直盯着它看”、“操作完后,把手臂收回来以方便移动”,这些是提升演示质量的“加分项”。
通过这种方式,
MoMaGen不仅解决了可达性和可见性这两个核心难题,还为自动化数据生成提供了一个通用且可扩展的数学框架。
2.2. 核心贡献/主要发现
-
提出了一个统一的约束优化框架: 首次将移动操作的演示数据生成问题形式化为一个包含软硬约束的优化问题。这个框架足够通用,能够将之前的
X-Gen方法视为其特例,并为未来的研究指明了方向。 -
解决了移动操作中的关键挑战: 针对性地设计了可达性和可见性约束,有效解决了现有方法在移动场景下的短板,使得生成多样化、高质量的移动操作数据成为可能。
-
显著提升了生成数据的多样性: 实验证明,
MoMaGen能够生成比以往方法在机器人基座位置、末端执行器轨迹和关节姿态上都更多样化的数据。这种多样性对于训练出泛化能力强的机器人策略至关重要。 -
实现了极高的数据效率:
MoMaGen仅需一个人类演示作为种子,就能生成足够训练成功策略的数据。这极大地降低了对昂贵的人类数据的依赖。 -
验证了模拟到现实 (Sim-to-Real) 的可行性: 证明了在
MoMaGen生成的大量仿真数据上预训练的模型,只需少量(40个)真实世界演示进行微调,就能成功部署到物理机器人上,展示了该方法的实际应用价值。下图(原文 Figure 1)直观展示了
MoMaGen的核心思想:从一个人类演示(左上)出发,在各种随机化场景(右上)中,生成多样化的机器人基座位置(左下)和手臂轨迹(右下)。
该图像是一个示意图,展示了MoMaGen如何使用单一的人类收集的示范生成多样化的演示数据。左侧显示了清洁煎锅的演示,右侧排列了多种对象配置和多样的导航与操作行为,体现了数据生成作为受限优化问题的过程。
3. 预备知识与相关工作
3.1. 基础概念
-
模仿学习 (Imitation Learning, IL): 一种机器学习范式,其中智能体 (agent) 通过观察专家(如人类)的演示来学习如何执行任务。最简单和最常见的模仿学习方法是行为克隆 (Behavioral Cloning, BC),它将问题视为一个监督学习问题:学习一个从状态 (state) 到动作 (action) 的映射函数(即策略),使得智能体的动作尽可能与专家的动作一致。
-
遥操作 (Teleoperation): 人类操作员通过远程控制设备(如手柄、VR设备)来直接控制机器人完成任务。这是为模仿学习收集专家演示数据的主要方式。
-
视觉-运动策略 (Visuomotor Policy): 一种控制策略 ,它直接从视觉输入(如摄像头图像)和其他传感器信息(如机器人关节角度,统称为状态 )映射到机器人的电机控制指令(动作 )。
-
移动操作 (Mobile Manipulation): 指机器人系统不仅具备操作物体的能力(如机械臂),还具备在环境中移动的能力(如轮式底盘)。这类任务通常比固定基座的操作任务更复杂,因为它涉及到导航和操作的协调。
-
约束优化 (Constrained Optimization): 在满足一系列等式或不等式约束的条件下,寻找一个或一组变量,使得某个目标函数达到最小值或最大值。这是运筹学和机器学习中的一个基本问题。
MoMaGen将数据生成过程建模为此类问题,其中目标是生成“好”的轨迹(软约束),前提是轨迹必须有效(硬约束)。
3.2. 前人工作
论文将先前相关的自动化数据生成工作统称为 X-Gen 家族。这些方法的核心思想都是利用少量人类演示作为“种子”,在仿真中生成大量数据。MoMaGen 的一个重要贡献就是提供了一个统一的视角来审视这些方法。
下表(原文 Table 1)清晰地对比了 MoMaGen 与 X-Gen 家族中其他方法的区别。
| Methods | Bimanual | Mobile | Obstacles | Base Random. | Active Perception | Hard Constraints | Soft Constraints |
| MimicGen (Mandlekar et al., 2023b) | ✓ | X | × | X | Succ | N/A | |
| SkillMimicGen (Garrett et al., 2024) | × | X | ✓ | X | X | Succ, Kin, C-Free | N/A |
| DexMimicGen (Jiang et al., 2025b) | ✓ | X | X | X | X | Succ, Temp | N/A |
| DemoGen (Xue et al., 2025) | ✓ | X | ✓ | X | X | Kin, C-Free | N/A |
| PhysicsGen (Yang et al., 2025) | ✓ | × | X | X | X | Kin, C-Free, Dyn | Trac |
| MoMaGen (Ours) | ✓ | ✓ | ✓ | ✓ | ✓ | Succ, Kin, C-Free, Temp, Vis | Vis, Ret |
符号解释:
Bimanual: 是否支持双臂。Mobile: 是否支持移动底盘。Obstacles: 是否能处理障碍物。Base Random.: 是否支持机器人基座位置的随机化。Active Perception: 是否支持主动感知(如调整相机朝向)。Hard/Soft Constraints: 使用的硬/软约束类型。Succ: 任务成功。Kin: 运动学可行性 (kinematic feasibility)。C-Free: 无碰撞 (collision-free)。Temp: 双臂协调的时间约束 (temporal constraints)。Dyn: 系统动力学 (system dynamics)。Trac: 跟踪目标轨迹 (target trajectory tracking)。Vis: 目标可见性 (visibility)。Ret: 姿态收回 (retraction)。
3.3. 技术演进
机器人数据生成的技术演进大致经历了以下阶段:
-
纯人工收集: 完全依赖人类遥操作,成本高、规模小。
-
离线数据增强 (Offline Augmentation): 对已收集的数据进行简单的变换,如在图像层面做裁剪、旋转,或在动作层面加噪声。这种方法虽然能增加数据量,但生成的数据可能在物理上是不可行的,且行为多样性有限。
-
程序化/脚本化生成: 编写固定的脚本或专家策略来自动执行任务。这种方法可以生成大量数据,但缺乏多样性,且难以泛化到新场景,编写脚本本身也很耗时。
-
基于少量演示的仿真生成 (
X-Gen): 结合了人类演示的灵活性和仿真的可扩展性。通过对场景(如物体位置)进行随机化,并利用运动规划等技术生成新的、有效的演示。这是当前的主流方向。MoMaGen正是X-Gen范式在更复杂、更贴近现实的移动操作场景下的重要演进。
3.4. 差异化分析
与之前的 X-Gen 方法相比,MoMaGen 的核心差异和创新点在于:
-
问题域的扩展:
MoMaGen是第一个专门为双臂移动操作设计的自动化数据生成框架。从上表中可以看到,之前的方法要么不支持移动 (Mobile列为 ),要么不支持双臂。 -
核心技术的突破:
MoMaGen引入了基座姿态采样 (Base Randomization) 和主动感知 (Active Perception) 的能力,这是解决移动操作中可达性和可见性问题的关键。之前的方法都假设机器人基座是固定的,或者只是简单重放固定的导航路径。 -
方法论的升华:
MoMaGen将整个过程抽象为约束优化问题,明确区分了硬约束和软约束。这比之前方法中隐式地、零散地使用各种约束(如碰撞检测、运动学求解)更加系统化和有原则。例如,将导航时的可见性作为软约束,就是一个非常精妙的设计,它引导机器人“尽量”看向目标,但又不强制要求,从而在保证灵活性的同时提升了数据质量。
4. 方法论
4.1. 方法原理
MoMaGen 的核心思想是将生成一个新演示的过程,看作是在满足一系列“必须遵守”的硬约束条件下,寻找一条能够最小化某种“期望”代价的机器人动作序列。这个代价函数由一系列软约束定义。
这个框架的直观理解是:
- 硬约束定义了一个可行解空间。所有在这个空间内的演示轨迹都是物理上有效、能够成功完成任务的。例如,机器人不能穿墙,手臂不能超出关节极限,最终必须抓到杯子。
- 软约束在这个可行空间内进行择优。在所有能完成任务的轨迹中,我们更偏爱那些路径更短、动作更平滑、或者在移动过程中一直能看到目标的轨迹。
4.2. 核心方法详解 (逐层深入)
4.2.1. 统一的约束优化问题范式
论文首先在第3节提出了一个通用的数学框架。假设我们有一个或多个源演示 ,我们的目标是为新的初始场景 生成一个成功的演示(即一个状态-动作序列 )。
这个问题可以被形式化为以下约束优化问题: 约束条件为:
公式与符号解释:
- : 我们要求解的、从时间
0到 的整个动作序列。 - : 代价函数 (Cost Function),由软约束定义。例如,它可以是轨迹长度、能量消耗或动作的“抖动”程度。我们的目标是最小化这个函数。
- : 分别表示在时间 的状态 (state) 和动作 (action)。
- : 系统动力学函数 (system dynamics),描述了在状态 执行动作 后,系统会转移到哪个新状态 。这是第一个硬约束,保证了轨迹的物理一致性。
- : 运动学约束 (kinematic constraints),如关节角度、速度限制。
- : 碰撞约束 (collision constraints),确保机器人不与环境或自身发生碰撞。
- : 可见性约束 (visibility constraints),确保任务相关物体 在视野内。
- : 在新生成的演示中,时间 时末端执行器 相对于世界坐标系 的位姿 (pose)(包括位置和姿态)。
- : 在新场景中,目标物体 的位姿。
- : 这是关键的变换部分。它计算了在源演示 (src) 中,末端执行器相对于目标物体的相对位姿。
- 相对位姿保持约束 (第五行) 的含义是:对于那些需要与物体接触的子任务(例如抓取、擦拭),在新演示中,末端执行器相对于新物体位置的相对位姿,必须与源演示中的保持一致。这保证了核心操作动作的“精髓”被保留下来。
- : 任务成功的状态集合。任务成功约束 (第六行) 保证了生成的演示最终能完成任务。
4.2.2. MoMaGen 的具体约束设计
MoMaGen 在上述通用框架下,针对双臂移动操作任务,设计了以下具体的软硬约束:
-
可达性 (Reachability) 作为硬约束: 对于每个需要操作的子任务,
MoMaGen会主动采样机器人基座的位置,直到找到一个位置,使得后续的所有操作(如抓取、放置)都在机械臂的工作空间内。这是通过逆运动学 (Inverse Kinematics, IK) 求解来验证的。如果找不到这样的基座位置,则认为该场景无法生成成功演示。 -
操作过程中的可见性 (Object Visibility during Manipulation) 作为硬约束: 在确定了可行的基座位置后,还必须保证在该位置上,机器人的摄像头(通常在头部)能够清晰地看到目标物体,没有遮挡。这同样是一个必须满足的硬约束。
-
导航过程中的可见性 (Object Visibility during Navigation) 作为软约束: 在机器人从当前位置移动到目标基座位置的过程中,
MoMaGen并不强制要求目标物体始终在视野内,而是将其作为一个软约束加入到代价函数 中。这会引导运动规划器生成一条“倾向于”看向目标的路径,从而产生更自然、对视觉策略更友好的演示数据。 -
姿态收回 (Retraction) 作为软约束: 在一个子任务(如放置杯子)完成后,让机器人将手臂和躯干收回到一个紧凑、安全的“待命”姿态,这有利于接下来的移动。这同样是一个“加分项”,因此被设计为软约束。
4.2.3. MoMaGen 算法流程
MoMaGen 的具体生成流程在算法1 (Algorithm 1) 和图2 (Figure 2) 中有详细描述。
下图(原文 Figure 2)展示了 MoMaGen 方法的完整流程。
该图像是一个图表,展示了在多步骤双手移动操作中的两种不同任务(取杯子和整齐桌面)的成功率比较,包括不同数据生成方法(MoMaGen、SkillMimicGen、DexMimicGen)以及使用MoMaGen生成数据的策略(如WB-VIMA和oldsymbol{ heta_0})。图中包含的各个子图(a)至(d)分别显示了不同条件下的成功率和评估指标。
以下是对算法流程的逐步分解:
输入: 一个原始人类演示(已被标注为多个子任务)和一个新的初始场景(如物体被放在了新位置)。 输出: 一个在新场景下生成的、成功的机器人演示。
主循环 (对每个子任务):
- 前置检查 (line 3): 检查机器人是否持有执行当前子任务所需的前置物体(例如,要擦桌子,手里得先有抹布)。如果没有,说明上一步失败了,生成中止。
- 目标位姿变换 (line 4): 根据新场景中目标物体的新位姿,利用我们之前解释的“相对位姿保持”原理,计算出末端执行器在新场景中需要达到的一系列目标位姿。
- 约束检查 (line 5-7):
- 在机器人当前的基座位置,检查: a. 可见性: 目标物体是否在摄像头视野内? b. 可达性: 能否通过逆运动学求解,找到一条手臂轨迹来到达上一步计算出的目标位姿?
- 如果都满足,说明我们运气好,不需要移动基座就能执行操作,直接跳转到第5步。
- 如果不满足,则进入基座重定位循环 (while loop, line 7-11)。
- 基座重定位循环 (line 8-11): 这是
MoMaGen的核心创新。- 采样新位姿 (line 8-10): 在目标物体周围的一个合理区域内,随机采样一个新的机器人基座位置
Tbase和相机朝向Tcam。 - 再次检查约束: 对这个新采样的位姿,重新进行可见性和可达性检查。
- 重复采样: 不断重复这个过程,直到找到一个同时满足可见性和可达性硬约束的基座-相机配置。
- 规划移动路径 (line 11): 一旦找到了可行的目标位姿,就调用运动规划器,规划一条从当前位置移动到目标位置的路径。关键在于,这个规划过程会考虑导航可见性这个软约束,使得机器人在移动时会尽量让摄像头对着目标物体。
- 采样新位姿 (line 8-10): 在目标物体周围的一个合理区域内,随机采样一个新的机器人基座位置
- 执行操作 (line 12-13):
- 机器人已经移动到了一个“万事俱备”的位置。
- 首先,规划一条从当前手臂姿态到“预备抓取”姿态的自由空间运动。
- 然后,精确地回放之前计算出的、与物体发生接触的末端执行器轨迹。
- 姿态收回 (line 14): 操作完成后,根据软约束,执行收回动作,为下一个子任务做准备。
循环往复,直到所有子任务完成。
5. 实验设置
5.1. 数据集
MoMaGen 在一个名为 OmniGibson 的逼真物理仿真环境中,针对四个模拟日常家庭活动的任务进行了评估。这些任务被设计为需要长距离导航、双臂协调和复杂操作的结合。
-
任务描述 (参考原文 Figure 3):
-
捡杯子 (Pick Cup): 机器人需要导航到一个桌子旁,然后用一只手拿起一个杯子。
-
整理桌子 (Tidy Table): 机器人需要从一个台面上拿起一个杯子,经过长距离移动,将它放到水槽里。
-
放置碗碟 (Put Dishes Away): 机器人需要用双臂独立地将两个盘子从台面堆叠到架子上,这是一个双臂非协调任务。
-
清洗平底锅 (Clean Frying Pan): 机器人需要用一只手握住一个脏了的平底锅,另一只手拿着刷子进行擦洗。这是一个需要紧密配合的、接触丰富的双臂协调任务。
下图(原文 Figure 3)直观展示了这四个任务。
该图像是图表,展示了不同演示数量对任务性能的影响。横轴表示演示数量,纵轴表示性能。在四条不同的曲线中,'Pick Cup D0' 和 'Tidy Table D1' 显示随着演示数量的增加,性能逐渐提升。其他任务的变化趋势也有所不同。
-
-
数据源: 对于每个任务,研究人员只收集了一个 1-3 分钟的人类遥操作演示作为种子。这凸显了
MoMaGen极高的数据效率。
5.2. 评估指标
论文使用了三个核心指标来评估数据生成方法的质量:
-
数据多样性 (Data Diversity):
- 概念定义: 这个指标衡量生成的数据集在状态空间和动作空间中的覆盖范围。多样性越高,意味着策略能从数据中学到应对更多不同情况的能力,从而泛化性更好。论文通过可视化目标物体位姿、机器人基座位姿、末端执行器位姿以及机器人关节角度的分布来直观展示多样性。
- 数学公式: 该指标没有单一的数学公式,通常通过计算分布的方差或熵,或通过降维(如PCA)后可视化的覆盖面积来体现。
- 符号解释: N/A
-
生成成功率 (Generation Success Rate):
- 概念定义: 这个指标衡量数据生成过程的效率和鲁棒性。它表示在给定的一批随机场景中,数据生成方法能够成功生成有效演示的比例。
- 数学公式:
- 符号解释: 无。
-
目标可见性比例 (Object Visibility Ratio):
- 概念定义: 这个指标量化了在生成的演示中,任务关键物体处于机器人摄像头视野内的帧数所占的比例。这个指标直接关系到后续训练的视觉-运动策略的性能,因为策略“看不见”就无法行动。
- 数学公式:
- 符号解释:
- : 生成的演示总数。
- : 第 个演示的总帧数。
- : 指示函数 (indicator function),如果条件为真则为1,否则为0。
5.3. 对比基线
MoMaGen 与两个先前最先进的 X-Gen 方法进行了比较:
-
SkillMimicGen: 一个专注于单臂操作的数据生成方法,它通过运动规划来生成轨迹。
-
DexMimicGen: 一个专注于灵巧双臂操作的数据生成方法。
重要适配: 由于这两个基线方法本身不具备处理移动底盘的能力,为了进行公平比较,作者对它们进行了增强:让它们在导航阶段简单地重放 (replay) 源演示中的基座移动轨迹。这种适配方式恰好模拟了没有
MoMaGen的智能基座规划能力时,现有方法会如何应对移动操作任务,从而突显出MoMaGen的优势。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. MoMaGen 生成的数据多样性远超基线
下图(原文 Figure 4)以 Tidy Table 任务为例,清晰地展示了 MoMaGen 在数据多样性上的巨大优势。
该图像是图表和现实世界设置的组合,左侧展示了机器人在真实环境中拾取杯子的设置(a),右侧则展示了WB-VIMA的验证损失曲线(b)。验证损失曲线显示出预训练与从头训练的对比,说明训练过程的有效性。
-
(a) 物体姿态多样性:
MoMaGen (D1)(红色点)能够处理在整个台面上任意随机放置的物体,而基线方法SkillMimicGen (D0)(蓝色点)只能处理在一个很小角落里的物体随机化。这是因为基线方法重放固定的导航路径,一旦物体离得太远,机械臂就够不到了。 -
(b) 基座姿态多样性:
MoMaGen(橙色和红色)为不同的物体位置生成了多样化的机器人基座落点,而基线方法(蓝色)的落点非常集中,因为它只是在重复固定的导航。 -
(c) 末端执行器姿态多样性: 由于基座位置更多样,
MoMaGen的手臂末端执行器轨迹也覆盖了更广的范围。 -
(d) 关节姿态多样性: 即使在相同的物体随机化范围(D0,橙色 vs 蓝色)下,
MoMaGen通过随机化基座位置,也生成了比基线方法更多样化的机器人关节动作。结论:
MoMaGen的核心创新——智能的基座姿态采样——是生成多样化移动操作数据的关键。
6.1.2. MoMaGen 在复杂场景下依然保持高生成成功率
以下是原文 Table 2 的结果,展示了不同方法在不同难度下的数据生成成功率。由于表格包含跨列的复杂表头,这里使用 HTML 进行精确还原。
| Methods | Pick Cup | Tidy Table | Put Dishes Away | Clean Frying Pan | |
|---|---|---|---|---|---|
| D0 | MoMaGen | 0.86 | 0.80 | 0.38 | 0.51 |
| SkillMimicGen | 1.00 | 0.69 | 0.38 | 0.40 | |
| DexMimicGen | 1.00 | 0.72 | 0.38 | 0.35 | |
| MoMaGeN w/o soft vis. const. | 0.88 | 0.78 | 0.50 | 0.46 | |
| MoMAGEN w/o hard vis. const. | 0.97 | 0.59 | 0.29 | 0.24 | |
| MoMaGeN w/o vis. const. | 0.97 | 0.74 | 0.29 | 0.36 | |
| D1 | MoMaGEN | 0.60 | 0.64 | 0.34 | 0.20 |
| MoMaGeN w/o vis. const. | 0.66 | 0.48 | 0.23 | 0.13 | |
| D2 | MoMAGEN | 0.47 | 0.22 | 0.07 | 0.16 |
| MoMaGeN w/o vis. const. | 0.50 | 0.16 | 0.05 | 0.12 | |
- D0 (简单随机化):
MoMaGen与基线方法的成功率相当。在最简单的Pick Cup任务中,由于约束更少,基线甚至略高。 - D1/D2 (困难随机化): 基线方法的成功率直接降为 0%(因此在表格中被省略)。这是因为物体被随机放置在机械臂无法触及的区域,而基线方法无法生成新的导航路径。相比之下,
MoMaGen依然能在所有任务和所有难度下生成数据,尽管随着难度增加成功率有所下降。 - 消融实验 (Ablation): 移除可见性约束 (
w/o vis. const.) 会在复杂任务中降低成功率。这反直觉地说明,强制机器人找到一个“好”的观察位置(硬可见性约束),反而有助于后续运动规划的成功。
6.1.3. MoMaGen 显著提升了演示中的目标可见性
可见性对于训练视觉策略至关重要。以下是原文 Table 3 的结果。
| Methods | Pick Cup | Tidy Table | Put Dishes Away | Clean Frying Pan | |
| D0 | MoMaGEn | 1.00 | 0.86 | 0.79 | 0.69 |
| SkillMimicGen | 1.00 | 0.40 | 0.71 | 0.65 | |
| DexMimicGen | 1.00 | 0.39 | 0.71 | 0.67 | |
| MoMAGEN w/o soft vis. const. | 1.00 | 0.63 | 0.62 | 0.56 | |
| MoMAGEN w/o hard vis. const. | 0.98 | 0.63 | 0.68 | 0.55 | |
| MoMaGeN w/o vis. const. | 0.90 | 0.46 | 0.40 | 0.35 | |
| D1 | MoMaGEN | 0.93 | 0.89 | 0.78 | 0.80 |
| MoMaGeN w/o vis. const. | 0.71 | 0.46 | 0.40 | 0.43 | |
| D2 | MoMaGeN | 0.94 | 0.79 | 0.75 | 0.81 |
| MoMaGeN w/o vis. const. | 0.73 | 0.48 | 0.40 | 0.44 |
-
MoMaGen(第一行) 在所有任务中都取得了最高的可见性比例,尤其是在长距离导航的Tidy Table任务中,可见性比基线高出一倍以上 (0.86 vs 0.40)。 -
移除软约束 (
w/o soft vis. const.) 或硬约束 (w/o hard vis. const.) 都会导致可见性显著下降,证明了MoMaGen中软硬约束协同设计的重要性。下图(原文 Figure 5)更直观地展示了这一点,MoMaGen生成的绝大多数轨迹都有很高的可见性,而消融版本的可见性分布则差得多。
该图像是示意图,展示了多步骤双手移动操作任务的域随机化。蓝色表示任务相关的物体,绿色表示这些物体的随机化范围(D1 和 D2 的范围在同一家具内任何位置)。红色表示障碍物或干扰物体。
6.1.4. MoMaGen 生成的数据能有效训练模仿学习策略
下图(原文 Figure 6)展示了使用不同方法生成的数据训练出的策略在仿真环境中的实际表现。
该图像是图表,展示了 MoMaGen 和其他方法在四个多步骤双手移动操作任务中的生成数据多样性分析。分别为对象多样性、机器人基座多样性、机器人末端效应器多样性和机器人关节位置多样性。每个子图显示了不同方法在相应任务中的表现差异。
- (a) 和 (b): 在简单任务
Pick Cup (D0)上,MoMaGen和基线表现相当。但在更复杂的Tidy Table (D0)和Pick Cup (D1)任务上,使用MoMaGen数据的策略性能远超基线。在Pick Cup (D1)上,基线数据训练的策略完全失败 (0% 成功率),而MoMaGen数据训练的策略仍有 25% 的成功率。 - (c):
MoMaGen生成的数据对不同的模仿学习算法(从头训练的WB-VIMA和微调预训练模型的 )都有效。 - (d): 可见性消融实验再次证明,数据生成过程中的可见性约束对最终策略的性能至关重要。移除可见性约束会导致策略性能大幅下降。
6.1.5. 模拟到现实 (Sim-to-Real) 迁移成功
这是 MoMaGen 实用价值的最终证明。
- 实验设置: 团队将
Pick Cup任务复现到真实世界的机器人上。他们比较了两种训练方式:- Baseline: 仅使用 40 个真实世界演示来微调 预训练模型。
- MoMaGen: 先在 1000 个
MoMaGen生成的仿真数据上进行预训练,再用同样的 40 个真实世界演示进行微调。
- 结果:
-
Baseline: 成功率为 0%。
-
MoMaGen: 成功率达到了 60%。
结论: 即使对于强大的预训练模型,在任务相关的、多样化的仿真数据上进行“预热”,也能极大地提升在少量真实数据上的学习效率和最终性能。这证明了
MoMaGen生成的数据能够为真实世界部署提供一个强有力的先验知识。
-
7. 总结与思考
7.1. 结论总结
本文提出了 MoMaGen,一个为复杂的多步双臂移动操作任务自动生成高质量演示数据的通用框架。其核心贡献是将数据生成过程形式化为一个包含软硬约束的优化问题。通过精心设计针对移动操作中可达性和可见性挑战的约束,MoMaGen 能够:
-
生成比以往方法更多样化的演示数据。
-
在以往方法完全失败的复杂、大范围随机化场景中保持较高的生成成功率。
-
显著提升演示数据中任务目标的可见性,这对训练视觉策略至关重要。
-
仅用一个人类演示作为种子,就能训练出成功的模仿学习策略,并能通过少量真实数据微调成功部署到物理机器人上。
MoMaGen不仅是一个有效的工具,其提出的约束优化框架也为该领域未来的研究提供了一个坚实且富有原则性的理论基础。
7.2. 局限性与未来工作
论文作者坦诚地指出了当前工作的几个局限性:
- 依赖完整的场景知识:
MoMaGen在生成数据时,假设可以获取到场景中所有物体的精确位姿和几何模型等真值 (Ground Truth) 信息。这在仿真中是可行的,但在真实世界中获取这些信息本身就是一个挑战。未来的工作可以尝试与三维场景理解模型(如 SAM)结合,以减少对真值信息的依赖。 - 导航与操作分离: 当前
MoMaGen生成的演示大多是“先移动,再操作”的交替模式。对于需要移动和操作同时进行的任务(如推开一扇门的同时走过去),该框架需要进一步扩展。 - 计算资源消耗:
MoMaGen依赖于 GPU 加速的运动规划器,生成大量数据需要可观的计算资源,这可能成为其广泛应用的门槛。
7.3. 个人启发与批判
这篇论文给我带来了几点深刻的启发:
- 框架的力量: 最令人印象深刻的是其提出的约束优化框架。它不仅仅是解决了一个具体问题,而是提供了一种思考和解决一类问题的“元方法”。将复杂的需求分解为“必须项”(硬约束)和“加分项”(软约束),是一种非常清晰和强大的工程与研究思路。这个框架可以很容易地通过增删约束来适应新的任务和机器人。
- 抓住核心矛盾: 论文敏锐地抓住了从固定操作到移动操作的核心矛盾——可达性和可见性。所有技术创新都围绕解决这两个问题展开,使得整个工作逻辑清晰,重点突出。这提醒我们,在研究中,准确地定义问题和挑战是成功的一半。
- 数据的“质”与“量”:
MoMaGen强调了生成数据的“质量”——特别是多样性和对下游任务(视觉策略)的友好性(可见性)。它证明了通过智能化的生成,高质量的合成数据可以在很大程度上弥补真实数据的稀缺,甚至在“模拟-现实”迁移中扮演关键角色。
批判性思考与潜在改进:
- 从“可行”到“更优”: 当前的基座采样策略主要是找到一个“可行”的位姿。但对于人类来说,我们会选择一个“最优”的位姿(比如视野最好、操作最舒服、最稳定)。未来的工作可以在软约束中加入更多关于人类工效学或操作效率的考量,生成更“人性化”的演示。
- 动态环境的挑战: 目前的实验都基于静态环境。如果场景中存在动态障碍物(如走动的人),当前的框架需要被扩展以进行实时重新规划,这将是一个更具挑战性但价值巨大的研究方向。
- 与语言模型的结合: 未来的数据生成系统可以结合大型语言模型(LLM)。用户可以用自然语言描述一个任务(“把桌上的红杯子拿到厨房”),系统自动解析出任务的子步骤、关键物体,并调用
MoMaGen这样的后端来生成具体的演示数据,实现更高层次的自动化。
相似论文推荐
基于向量语义检索推荐的相关论文。