论文状态:已完成

MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation

发表:2025/10/21
原文链接PDF 下载
价格:0.100000
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出MoMaGen,一种通过软硬约束优化生成多步双臂移动操作演示的方法。针对收集人类演示数据的高昂成本,该方法解决了基座放置与摄像头可视性两大挑战。实验结果表明,MoMaGen在多样性上显著优于现有方法,为未来高效学习提供了理论基础。

摘要

Imitation learning from large-scale, diverse human demonstrations has proven effective for training robots, but collecting such data is costly and time-consuming. This challenge is amplified for multi-step bimanual mobile manipulation, where humans must teleoperate both a mobile base and two high-degree-of-freedom arms. Prior automated data generation frameworks have addressed static bimanual manipulation by augmenting a few human demonstrations in simulation, but they fall short for mobile settings due to two key challenges: (1) determining base placement to ensure reachability, and (2) positioning the camera to provide sufficient visibility for visuomotor policies. To address these issues, we introduce MoMaGen, which formulates data generation as a constrained optimization problem that enforces hard constraints (e.g., reachability) while balancing soft constraints (e.g., visibility during navigation). This formulation generalizes prior approaches and provides a principled foundation for future methods. We evaluate MoMaGen on four multi-step bimanual mobile manipulation tasks and show that it generates significantly more diverse datasets than existing methods. Leveraging this diversity, MoMaGen can train successful imitation learning policies from a single source demonstration, and these policies can be fine-tuned with as few as 40 real-world demonstrations to achieve deployment on physical robotic hardware. More details are available at our project page: momagen.github.io.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation (MoMaGen:在软硬约束下生成多步骤双手移动操作的演示数据)

1.2. 作者

Chengshu Li*, Mengdi Xu*, Arpit Bahety*, Hang Yin*, Yunfan Jiang, Huang Huang, Josiah Wong, Sujay Garlanka, Cem Gokmen, Ruohan Zhang, Weiyu Liu, Jiajun Wu, Roberto Martín-Martín, Li Fei-Fei

  • 隶属机构: 斯坦福大学 (Stanford University), 德克萨斯大学奥斯汀分校 (The University of Texas at Austin)。
  • * 表示同等贡献 (Equal Contribution)。

1.3. 发表期刊/会议

Published at (UTC): 2025-10-21T05:56:47.000Z (根据提供的元数据,这是一篇预印本论文,发布在 arXiv 上)。

  • arXiv 是全球最重要的计算机科学预印本平台,虽然未经过传统的同行评审,但这通常代表了该领域最新、最前沿的研究成果。斯坦福大学 Li Fei-Fei 团队的工作通常具有很高的关注度和影响力。

1.4. 发表年份

2025年 (预印本发布时间)

1.5. 摘要

论文提出了一种名为 MoMaGen 的数据生成框架,旨在解决多步骤双手移动操作 (Multi-Step Bimanual Mobile Manipulation) 任务中数据收集昂贵且耗时的问题。现有的自动化数据生成方法主要针对静态操作,无法处理移动基座带来的可达性 (Reachability)可视性 (Visibility) 挑战。MoMaGen 将数据生成公式化为一个受限优化问题 (Constrained Optimization Problem),在满足硬约束(如必须能抓到物体)的同时优化软约束(如在移动过程中尽量保持物体在视野内)。实验表明,MoMaGen 能够从单个人类演示中生成高度多样化的数据集,并训练出能够成功部署在真实机器人上的策略,仅需极少量的真实微调数据。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 训练机器人执行复杂的日常任务(如打扫卫生、整理桌面)需要大量的演示数据。这类任务通常涉及移动操作 (Mobile Manipulation)——机器人不仅有手臂,还有可移动的底座(轮子),且往往需要双手 (Bimanual) 协同。

  • 当前挑战:

    1. 数据收集成本高: 让这一类机器人由人类远程操作(Teleoperation)非常困难。操作员需要同时控制移动底座和两只手臂,认知负荷极大,导致数据收集效率极低且昂贵。
    2. 现有方法的局限: 之前有一类被称为 X-Gen 的方法(如 MimicGen),通过在仿真中对少量人类演示进行数据增强(如改变物体位置)来生成大数据。但它们主要针对静态机械臂。一旦引入移动底座,简单的回放或增强会失效:
      • 可达性问题 (Reachability): 如果物体位置变了,机器人照搬原来的底座位置可能就够不着物体了。
      • 可视性问题 (Visibility): 机器人的摄像头装在头上或身上。如果底座乱动或没有规划好朝向,目标物体可能会跑出视野,导致生成的图像数据里根本没有目标,这样的数据无法用来训练基于视觉的策略。
  • 创新思路: 作者认为数据生成不应只是简单的“回放+扰动”,而应该是一个优化过程。机器人需要像人一样思考:“为了抓到那个杯子(硬性要求),我应该站在哪里?走过去的时候最好一直盯着它(软性要求),这样更像人类的操作。”

    下图(原文 Figure 1)生动展示了 MoMaGen 的核心理念:从左上角的一个人类演示出发,在右侧生成了多种复杂场景下的新演示,包括不同的物体排列和机器人动作。

    Figure 1: (left) MoMAGEN uses a single human-collected demonstration to generate a large set of demonstrations, formulating data generation as a constrained optimization problem. (top-left) shows a human-collected demo for cleaning a pan with a scrub. (top-right) shows three novel object configurations with aggressive object pose randomization and additional distractors/obstacles. MoMAGEN can generate novel trajectories in these diverse scenarios. (bottom-left) shows three robot base poses and (bottom-right) shows two arm trajectories for picking up the pan. 该图像是一个示意图,展示了MoMaGen如何使用单一的人类收集的示范生成多样化的演示数据。左侧显示了清洁煎锅的演示,右侧排列了多种对象配置和多样的导航与操作行为,体现了数据生成作为受限优化问题的过程。

2.2. 核心贡献/主要发现

  1. 统一的数学框架: 提出将自动化数据生成建模为受限优化问题 (Constrained Optimization Problem)。这个框架具有普适性,现有的许多方法都可以被视为该框架的特例(只是约束条件较少)。
  2. MoMaGen 系统: 开发了一个具体的系统,引入了针对移动操作的关键约束:
    • 硬约束 (Hard Constraints): 必须满足,如物体可达性、操作时的可视性。
    • 软约束 (Soft Constraints): 尽量满足,如导航过程中的可视性、操作后的姿态收回。
  3. 卓越的性能:
    • 数据多样性: 生成的数据在基座位置、手臂轨迹及物体排布上比基线方法丰富得多。
    • 策略学习: 仅用1个人类演示生成的合成数据,就能训练出有效的策略。
    • Sim-to-Real (仿真到现实): 证明了使用合成数据预训练的模型,仅需 40 条真实数据微调,即可在真实机器人上成功部署。

3. 预备知识与相关工作

3.1. 基础概念

为了深入理解本文,初学者需要掌握以下概念:

  • 移动操作 (Mobile Manipulation): 指机器人不仅能用机械臂操作物体(抓取、放置),还能通过底座移动位置。这比固定底座的机械臂更难,因为需要协调底座的导航(Navigation)和手臂的操作(Manipulation)。
  • 模仿学习 (Imitation Learning): 一种让机器人通过观察人类演示来学习技能的方法。本文特指行为克隆 (Behavior Cloning, BC),即训练一个神经网络,输入当前状态(如图像),直接输出动作(如关节角度)。
  • 视觉运动策略 (Visuomotor Policy): 一种端到端(End-to-End)的控制策略。输入是原始的视觉图像(Pixels),输出是电机指令(Actions)。因为输入是图像,所以保证目标物体在摄像头的视野(Visibility)内至关重要。
  • 逆运动学 (Inverse Kinematics, IK): 机器人学中的核心算法。给定机械臂末端(手)想要到达的空间位置(x, y, z 坐标和朝向),计算出各个关节(肩膀、肘部、手腕)应该旋转多少度。
  • 任务空间 (Task Space) vs. 关节空间 (Joint Space):
    • 任务空间: 描述末端执行器在笛卡尔坐标系中的位置和姿态(如“手在桌子上方 10cm 处”)。
    • 关节空间: 描述机器人所有关节的角度值。

3.2. 前人工作与技术演进

  • 数据增强 (Data Augmentation): 最简单的方法是对图像做翻转、裁剪。
  • X-Gen 系列 (MimicGen 等): 这是本文最直接的对标对象。
    • MimicGen (2023): 将人类演示中的动作轨迹映射到新物体位置。如果源演示是“抓A”,新场景A在别处,它通过变换坐标系让机器人去抓新的A。但它假设底座不动。
    • SkillMimicGen / DexMimicGen: 针对特定任务的改进版,但仍缺乏对移动底座的主动规划。
  • 局限性: 之前的方法大多忽略了全机身控制 (Whole-body Control) 的复杂性。如果直接把 MimicGen 用在移动机器人上,机器人可能会因为底座没停好而够不着东西,或者走路时看天看地不看路(导致收集到的图像数据无效)。

3.3. 差异化分析

本文的 MoMaGen 与前人工作最大的不同在于它不仅仅是回放,而是重新规划

  • 以前: 演示里底座怎么走,生成的数据里就怎么走(简单回放)。
  • MoMaGen: 演示里底座走了,生成数据时,我会根据新物体的位置,重新计算一个最好的底座停车点,并规划一条新的路径走过去,顺便还要调整摄像头角度盯着物体。

4. 方法论

4.1. 方法原理

MoMaGen 的核心思想是:生成一个有效的演示,本质上就是在解一个数学方程组。 这个方程组里有一些必须满足的条件(硬约束),和一些不仅要满足而且要越好越好的指标(软约束)。

4.2. 核心方法详解:受限优化问题

作者将生成过程形式化为以下优化问题。请仔细阅读这个公式,我们将逐步拆解它。

argmina0:Tt=0TL(st,at) \arg \min _ { a _ { 0 : T } } \sum _ { t = 0 } ^ { T } \mathcal { L } ( s _ { t } , a _ { t } )

subject to:{st+1=f(st,at),t[T]Gkin(st,at)0,t[T]Gcoll(st,at)0,t[T]Gvis(st,at,oi(t))0,t[T]TWEk=TWoi(TWoi,src)1TWEk,contactτi,k[Ki]stDsuccesst[T] (task success) \text{subject to:} \quad \begin{array} { r } { \left\{ \begin{array} { l l } { s _ { t + 1 } = f ( s _ { t } , a _ { t } ) , } & { \forall t \in [ T ] } \\ { \mathcal { G } _ { \mathrm { k i n } } ( s _ { t } , a _ { t } ) \leq 0 , } & { \forall t \in [ T ] } \\ { \mathcal { G } _ { \mathrm { c o l l } } ( s _ { t } , a _ { t } ) \geq 0 , } & { \forall t \in [ T ] } \\ { \mathcal { G } _ { \mathrm { v i s } } ( s _ { t } , a _ { t } , o _ { i ( t ) } ) \leq 0 , } & { \forall t \in [ T ] } \\ { \mathbf { T } _ { W } ^ { E _ { k } } = \mathbf { T } _ { W } ^ { o _ { i } } ( \mathbf { T } _ { W } ^ { o _ { i , s r c } } ) ^ { - 1 } \mathbf { T } _ { W } ^ { E _ { k } } , } & { \forall c o n t a c t \tau _ { i } , \forall k \in [ K _ { i } ] } \\ { s _ { t } \in D _ { \mathrm { s u c c e s s } } } & { \exists t \in [ T ] \mathrm { ~ ( t a s k ~ s u c c e s s ) } } \end{array} \right. } \end{array}

符号解释与公式拆解:

  1. 目标函数 (Objective Function): argminL(st,at)\arg \min \sum \mathcal { L } ( s _ { t } , a _ { t } )

    • 这就是软约束。我们希望找到一系列动作 a0:Ta_{0:T},使得总代价 L\mathcal{L} 最小。
    • 在本文中,L\mathcal{L} 主要包含导航时的可视性代价(让摄像头尽量对准物体)和动作平滑度代价(不要抖动)。
  2. 约束条件 (Constraints) - 即方程组右边的大括号部分:

    • s _ { t + 1 } = f ( s _ { t } , a _ { t } ): 系统动力学 (Dynamics)。这表示机器人的状态变化必须符合物理规律。你给它一个向前的指令,它必须是真的向前走,不能瞬移。
    • Gkin0\mathcal { G } _ { \mathrm { k i n } } \leq 0: 运动学约束 (Kinematics)。例如,关节角度不能超过机械限制(手肘不能反向弯曲)。
    • Gcoll0\mathcal { G } _ { \mathrm { c o l l } } \geq 0: 碰撞避免 (Collision Free)。机器人不能撞到墙壁、桌子或自己。
    • Gvis0\mathcal { G } _ { \mathrm { v i s } } \leq 0: 可视性硬约束 (Visibility)。这是一个关键创新。它强制要求在关键时刻(如抓取前),目标物体 oi(t)o_{i(t)} 必须在摄像头的视场内。
    • TWEk=\mathbf { T } _ { W } ^ { E _ { k } } = \dots: 末端轨迹变换 (End-effector Transformation)
      • 这是一个核心操作。T\mathbf{T} 代表位姿矩阵(位置+旋转)。
      • 等式右边 TWoi(TWoi,src)1\mathbf { T } _ { W } ^ { o _ { i } } ( \mathbf { T } _ { W } ^ { o _ { i , s r c } } ) ^ { - 1 } 计算的是“新场景中物体位置相对于源场景中物体位置的变换关系”。
      • 简单说:如果新场景里杯子向右平移了 10cm,那么机器人的手 TWEk\mathbf { T } _ { W } ^ { E _ { k } } 也必须相对于原来的轨迹向右平移 10cm。这保证了抓取动作的相对正确性。
    • stDsuccesss _ { t } \in D _ { \mathrm { s u c c e s s } }: 任务成功 (Task Success)。最终状态必须是任务完成的状态(比如杯子已经被提起来了)。

4.3. MoMaGen 算法流程

MoMaGen 将上述数学问题转化为具体的执行算法(原文 Algorithm 1)。下图(原文 Figure 2)展示了该流程的直观图示。

Figure 2: MoMAGEN method. Given a single source demonstration, as well as annotations for object-centric subtasks for each end-effector, MoMAGEN first randomizes scene configuration, and transforms the end-effector poses from the source demo to the new objects' frame of reference. For each subtask, it tries to sample a valid base pose that satisfies reachability and visibility constraints. Once found, it plans a base and torso trajectory to reach the desired base and head camera pose while trying to look at the target object during navigation. Once arrived, it plans an arm trajectory to the pregrasp pose and uses task space control for replay, before retracting back to a tucked, neutral pose. 该图像是示意图,展示了MoMaGen方法的流程。它从单一源示范出发,通过子任务注释执行EEF变换、有效基座姿态采样、可达性和可视性验证,以及基座和躯干规划,最终完成臂部规划与回放及收回动作。

我们可以将这个流程分解为以下步骤:

第一步:演示分解与场景随机化

  1. 输入: 也就是图左侧的 "Source Demo"。这是人类操作员录制的一次成功操作。
  2. 分解 (Decomposition): 将长演示切分为多个子任务 (Subtasks)
    • 例如:“走到桌边” -> “伸手” -> “抓起杯子” -> “收手”。
    • 每个子任务被标记为自由空间运动 (Free-space)(如走路、伸手)或接触丰富运动 (Contact-rich)(如擦拭、抓紧)。
  3. 随机化 (Randomization): 在新场景中,随机生成新的物体位置(例如把杯子放到桌子的另一头,或者换一个房间)。

第二步:受限采样与逆运动学 (IK)

这是解决“可达性”和“可视性”硬约束的关键步骤。对于每一个子任务:

  1. 计算目标手部位置: 根据物体的新位置,计算机器人手应该在哪里(利用公式中的变换矩阵)。
  2. 采样基座位置 (Sample Base Pose): 机器人的底座停哪里才能抓到这个新位置的物体?
    • MoMaGen 会随机采样底座位置,并使用 逆运动学 (IK) 检查:站在这个位置,手臂能不能够得着?(Reachability Check)
    • 同时检查:站在这个位置,摄像头能不能看到物体?(Visibility Check)
  3. 循环直到成功: 如果采样的位置不行,就重试,直到找到一个既能抓到又能看到的“完美停车位”。

第三步:运动规划 (Motion Planning)

一旦确定了“起点”和“终点”(停车位),就需要规划怎么走过去。

  • 软约束介入: 在规划路径时,MoMaGen 使用软可视性约束
  • 直觉: 规划器会寻找一条路径,不仅不撞墙,而且会让机器人的头(摄像头)尽可能多地指向目标物体。这模仿了人类“眼随手动”或“盯着目标走过去”的行为,生成的视觉数据对训练极其有利。

第四步:执行与回放

  • 自由空间运动: 使用规划好的路径执行。
  • 接触丰富运动: 在接触物体的瞬间(如擦锅),直接在任务空间回放源演示的相对轨迹。因为这类动作极其精细,规划器很难从头生成,直接模仿人类的微操动作是最稳妥的。

5. 实验设置

5.1. 任务设置 (Task Setup)

实验在 OmniGibson 仿真环境中进行,包含四个难度递增的任务(见下图 Figure 3):

  1. Pick Cup (捡杯子): 导航到桌子并拿起杯子。

  2. Tidy Table (整理桌子): 把杯子从柜台拿到水槽。这是长距离移动操作。

  3. Put Dishes Away (放置碗碟): 双手各拿一个盘子放到架子上。需要双手不协调(独立)运动。

  4. Clean Frying Pan (清洁煎锅): 双手拿刷子刷锅。需要双手高度协调的接触丰富运动。

    Figure 3: Task visualization. Our multi-step tasks include long-range navigation, sequential and coordinated bimanual manipulation, requiring pick-and-place and contact-rich motion. 该图像是插图,展示了多步骤的双手移动操作任务,包括"捡杯子"、"整理桌子"、"放置碗碟"和"清洗平底锅"。每个任务显示了机器人在特定环境中的操作流程与步骤。

5.2. 域随机化方案 (Domain Randomization Schemes)

为了测试生成数据的泛化能力,作者设计了三个难度等级(见下图 Figure 9):

  • D0 (简单): 物体位置在 ±15cm\pm 15 \text{cm} 范围内微调。

  • D1 (困难): 物体可以出现在家具表面的任何位置,且朝向任意。这要求机器人必须重新规划基座位置,简单回放必死无疑。

  • D2 (极难): 在 D1 的基础上,增加了障碍物 (Obstacles) 和干扰物。

    Figure 9: Visualization of Domain Randomization. Blue represents the task-relevant objects. Green represents the approximate randomization range for these objects (for D1 and D2, the range is anywhere on the same furniture). Red represents the obstacles/distractor objects. 该图像是示意图,展示了多步骤双手移动操作任务的域随机化。蓝色表示任务相关的物体,绿色表示这些物体的随机化范围(D1 和 D2 的范围在同一家具内任何位置)。红色表示障碍物或干扰物体。

5.3. 评估指标

  • 生成成功率 (Generation Success Rate):
    • 定义: 尝试生成 100 条数据,有多少条成功完成了任务?
    • 公式: Rsuccess=NsuccessNtotalR_{success} = \frac{N_{success}}{N_{total}}
  • 数据多样性 (Data Diversity):
    • 定义: 生成的数据在空间覆盖上的广度。
    • 通过可视化基座位置分布、末端执行器位置分布的散点图来定性评估。
  • 可视性比率 (Visibility Ratio):
    • 定义: 在机器人导航过程中,目标物体出现在摄像头视野内的帧数比例。
    • 公式: Rvis=t=0TnavI(otargetCameraView)TnavR_{vis} = \frac{\sum_{t=0}^{T_{nav}} \mathbb{I}(o_{target} \in \text{CameraView})}{T_{nav}}
    • 符号解释: TnavT_{nav} 是导航总时长,I\mathbb{I} 是指示函数(在视野内为1,否则为0)。

5.4. 对比基线

  • SkillMimicGen (Garrett et al., 2024): 生成单臂轨迹,缺乏对移动基座的主动规划。
  • DexMimicGen (Jiang et al., 2025b): 针对双手灵巧手,同样缺乏移动基座规划。
  • 这两种基线在处理移动任务时,通常只能简单回放源演示的基座轨迹。

6. 实验结果与分析

6.1. 数据多样性分析

这是 MoMaGen 最显著的优势。请看下图(原文 Figure 4)关于 "Tidy Table" 任务的对比:

Figure 4: Generated data diversity analysis for Tidy Table task (50 trajectories, subsampled). Given the same object randomization (D0) (a), compared to SkillMimicGen, MoMAGEN samples diverse base poses (b), and as a result, diverse end-effector poses (c) and joint positions (d). MoMAGEN is also the only method that can generate data for D1 randomization (red) for even greater diversity. 该图像是图表,展示了 Tidy Table 任务的生成数据多样性分析。图中 (a) 表示对象多样性,(b) 显示机器人基础多样性,(c) 反映机器人末端执行器多样性,(d) 则为机器人关节位置多样性。不同颜色表示 MoMaGen 和 SkillMimicGen 等方法的结果。

  • 分析:
    • (a) 物体分布: D0 设置下(蓝色),物体集中在一小块区域;D1 设置下(红色),物体遍布整个桌子。

    • (b) 基座分布: SkillMimicGen(绿色)只能回放原始的基座轨迹,所以所有点都重叠在一起。而 MoMaGen(蓝色和红色)根据物体位置生成了全新的基座停靠点,覆盖了很大的区域。

    • 结论: MoMaGen 能够探索状态空间中未曾见过的区域,这是简单回放无法做到的。

      其他任务的多样性分析也得出了类似结论(参考 Figure 10, 11, 12):

      Figure 10: Generated data diversity analysis for Pick Cup task (50 trajectories, subsampled). 该图像是图表,展示了 MoMaGen 和其他方法在四个多步骤双手移动操作任务中的生成数据多样性分析。分别为对象多样性、机器人基座多样性、机器人末端效应器多样性和机器人关节位置多样性。每个子图显示了不同方法在相应任务中的表现差异。

      Figure 11: Generated data diversity analysis for Put Dishes Away task (50 trajectories, subsampled). 该图像是图表,展示了在“放置碗碟”任务中生成的数据多样性分析,包括物体多样性(a)、机器人基座多样性(b)、机器人末端执行器多样性(c)及机器人关节位置多样性(d)。各部分以不同颜色标识,突显了 MoMaGen 生成数据的丰富性和多样性。

      Figure 12: Generated data diversity analysis for Clean Frying Pan task (50 trajectories, subsampled). 该图像是生成的数据多样性分析图,包括四个部分:(a) 物体多样性,(b) 机器人基座多样性,(c) 机器人末端效应器多样性,以及 (d) 机器人关节位置多样性。各部分展示不同数据集在清洁煎锅任务中的表现,并体现了 MoMaGen 的优越性。

6.2. 生成成功率与可视性对比

MoMaGen 在困难任务和困难随机化设置下表现出压倒性优势。

数据生成成功率 (Success Rates)

以下是原文 Table 2 的结果:

Methods Pick Cup Tidy Table Put Dishes Away Clean Frying Pan
D0 MoMaGen 0.86 0.80 0.38 0.51
SkillMimicGen 1.00 0.69 0.38 0.40
DexMimicGen 1.00 0.72 0.38 0.35
MoMaGen w/o soft vis. const. 0.88 0.78 0.50 0.46
MoMaGen w/o hard vis. const. 0.97 0.59 0.29 0.24
MoMaGen w/o vis. const. 0.97 0.74 0.29 0.36
D1 MoMaGen 0.60 0.64 0.34 0.20
MoMaGen w/o vis. const. 0.66 0.48 0.23 0.13
D2 MoMaGen 0.47 0.22 0.07 0.16
MoMaGen w/o vis. const. 0.50 0.16 0.05 0.12
  • 关键发现: 在 D1 和 D2(高难度)设置下,基线方法(SkillMimicGen 等)的成功率几乎为 0(表格中甚至直接省略了它们,因为物体超出了它们回放轨迹的可达范围)。只有 MoMaGen 还能保持较高的生成成功率。

任务相关物体可视性 (Visibility)

以下是原文 Table 3 的结果:

Methods Pick Cup Tidy Table Put Dishes Away Clean Frying Pan
D0 MoMaGen 1.00 0.86 0.79 0.69
SkillMimicGen 1.00 0.40 0.71 0.65
DexMimicGen 1.00 0.39 0.71 0.67
MoMaGen w/o soft vis. const. 1.00 0.63 0.62 0.56
MoMaGen w/o hard vis. const. 0.98 0.63 0.68 0.55
MoMaGen w/o vis. const. 0.90 0.46 0.40 0.35
D1 MoMaGen 0.93 0.89 0.78 0.80
MoMaGen w/o vis. const. 0.71 0.46 0.40 0.43
D2 MoMaGen 0.94 0.79 0.75 0.81
MoMaGen w/o vis. const. 0.73 0.48 0.40 0.44
  • 核心结果分析: 请注意 "Tidy Table" D0 列,MoMaGen 的可视性达到了 0.86,而基线只有 0.40 左右。这说明基线方法在移动时,大部分时间摄像头都不知道在看哪里。

  • 图表佐证: 下图(原文 Figure 5)进一步展示了这一点。红色柱状图(MoMaGen)主要分布在右侧(高可视性区域),而其他颜色(消融变体)则分布在低可视性区域。

    Figure 5: Object visibility analysis for MoMAGEN and ablations. The \(\\mathbf { X }\) -axis is the \(\\%\) of frames where the target object is visible during navigation, and the y-axis is the trajectory count (out of 1000). MoMAGEN significantly outperforms ablations thanks to both hard and soft visibility constraints. 该图像是一个柱状图,展示了在导航过程中目标物体可见帧的百分比与轨迹数量的关系。不同颜色表示MoMaGen的不同版本和约束条件,其中完整版本的MoMaGen显著优于去除某些约束的版本。

6.3. 策略学习性能

最终目标是训练策略。作者使用了 WB-VIMA 和 π0\pi_0 两种先进的模仿学习算法进行测试。

  • 比较结果: 下图(原文 Figure 6)展示了训练出的策略的成功率。

    • (a/b): 使用 MoMaGen 数据训练的策略(蓝色)显著优于基线。特别是在 Pick Cup (D1) 这种难任务上,基线训练出的模型成功率为 0,而 MoMaGen 达到了 0.25。

    • (d): 消融实验。如果不加可视性约束(Purple/Green bar),策略性能会大幅下降。这证明了“看得见”对于训练视觉策略至关重要。

      Figure 6: Comparison between MoMAGEN and other data generation methods on WB-VIMA's performances in (a) and (b), performances of WB-VIMA and \(\\pi _ { 0 }\) trained with MoMAGEN data in (c) and visibility ablations in (d). The success rate is averaged over 20 unseen evaluation episodes. Policies trained on MoMAGEN data consistently perform better than those trained on others' data. 该图像是一个图表,展示了在多步骤双手移动操作中的两种不同任务(取杯子和整齐桌面)的成功率比较,包括不同数据生成方法(MoMaGen、SkillMimicGen、DexMimicGen)以及使用MoMaGen生成数据的策略(如WB-VIMA和oldsymbol{ heta_0})。图中包含的各个子图(a)至(d)分别显示了不同条件下的成功率和评估指标。

  • 数据规模效应: 增加生成数据的数量(从 500 到 2000 条),策略性能稳步提升(见下图 Figure 7),证明了该方法在大规模数据生成上的潜力。

    Figure 7: Data Scaling of \(\\pi _ { 0 }\) . 该图像是图表,展示了不同演示数量对任务性能的影响。横轴表示演示数量,纵轴表示性能。在四条不同的曲线中,'Pick Cup D0' 和 'Tidy Table D1' 显示随着演示数量的增加,性能逐渐提升。其他任务的变化趋势也有所不同。

6.4. 真实世界部署 (Sim-to-Real)

这是一个令人印象深刻的亮点。

  • 实验: 在仿真中生成 1000 条数据预训练模型,然后在真实世界收集 40 条 数据进行微调。

  • 结果: 对于 π0\pi_0 模型,经过 MoMaGen 数据预训练的模型在真实世界达到了 60% 的成功率,而没有预训练(仅用40条真实数据)的模型成功率为 0%

  • 意义: 证明了 MoMaGen 生成的数据具有很高的真实感和物理有效性,可以作为强大的先验知识(Prior)。

    Figure 8: Real world setup for Pick Cup (a) and validation loss curve of WB-VIMA (b). 该图像是图表和现实世界设置的组合,左侧展示了机器人在真实环境中拾取杯子的设置(a),右侧则展示了WB-VIMA的验证损失曲线(b)。验证损失曲线显示出预训练与从头训练的对比,说明训练过程的有效性。

7. 总结与思考

7.1. 结论总结

MoMaGen 成功地将多步骤双手移动操作的数据生成问题,转化为一个数学上的受限优化问题。

  1. 它通过引入可达性硬约束,解决了移动底座在随机场景下的停靠问题。
  2. 它通过引入可视性软/硬约束,保证了生成的视觉数据质量,使其真正适用于训练视觉策略。
  3. 实验证明,哪怕只有一个人类演示,MoMaGen 也能通过“举一反三”生成海量高质量数据,显著提升机器人学习的效率和鲁棒性。

7.2. 局限性与未来工作

作者坦诚地指出了当前的局限性:

  1. 全知视角假设: 目前生成数据时,依赖仿真器提供的物体精确位置(Ground Truth)。如果要在现实世界中直接用这套方法生成数据(而不是在仿真里生成再迁移),就需要引入视觉感知模型(如 SAM2)来估算物体位置。
  2. 计算成本: 运动规划(Motion Planning)和逆运动学解算非常消耗算力,需要强大的 GPU 支持。
  3. 任务类型: 目前主要关注“导航-操作”交替进行的任务,对于需要一边走一边操作(全身协调)的任务尚未深入探索。

7.3. 个人启发与批判

  • 启发: 这篇论文非常精彩地展示了传统机器人学(规划、控制)与现代AI(学习)的结合。单纯的端到端学习(从像素到动作)往往数据效率低,而利用传统规划算法来生成数据,不仅保证了物理可行性,还注入了人类的先验知识(如“走路要看路”)。这种“基于模型的生成 + 无模型学习”的范式值得深思。
  • 批判: 虽然 Sim-to-Real 结果令人鼓舞,但 60% 的成功率在工业应用中仍然较低。这可能源于仿真与现实的视觉差异(Sim-to-Real Gap)。未来的工作可能需要结合更强的图像渲染技术或域适应(Domain Adaptation)技术来进一步缩小这一差距。此外,对于柔软物体(如衣物)或流体,基于刚体物理的规划器可能失效,这也是该框架未来需要面对的挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。