论文状态:已完成

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

发表:2025/10/01
原文链接PDF 下载
价格:0.100000
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了OmniRetarget,一个旨在弥补人形机器人与人类之间“体现差异”的数据生成引擎。通过引入交互网格,最小化拉普拉斯变形并强制物理约束,该引擎在与环境和物体的关键交互中,生成高质量的运动轨迹并有效支持RL策略训练,实际测试显示支持长达30秒的复杂任务。

摘要

A dominant paradigm for teaching humanoid robots complex skills is to retarget human motions as kinematic references to train reinforcement learning (RL) policies. However, existing retargeting pipelines often struggle with the significant embodiment gap between humans and robots, producing physically implausible artifacts like foot-skating and penetration. More importantly, common retargeting methods neglect the rich human-object and human-environment interactions essential for expressive locomotion and loco-manipulation. To address this, we introduce OmniRetarget, an interaction-preserving data generation engine based on an interaction mesh that explicitly models and preserves the crucial spatial and contact relationships between an agent, the terrain, and manipulated objects. By minimizing the Laplacian deformation between the human and robot meshes while enforcing kinematic constraints, OmniRetarget generates kinematically feasible trajectories. Moreover, preserving task-relevant interactions enables efficient data augmentation, from a single demonstration to different robot embodiments, terrains, and object configurations. We comprehensively evaluate OmniRetarget by retargeting motions from OMOMO, LAFAN1, and our in-house MoCap datasets, generating over 8-hour trajectories that achieve better kinematic constraint satisfaction and contact preservation than widely used baselines. Such high-quality data enables proprioceptive RL policies to successfully execute long-horizon (up to 30 seconds) parkour and loco-manipulation skills on a Unitree G1 humanoid, trained with only 5 reward terms and simple domain randomization shared by all tasks, without any learning curriculum.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction(OmniRetarget:面向人形机器人全身移动操作与场景交互的交互保持数据生成引擎)

1.2. 作者

Lujie Yang, Xiaoyu Huang, Zhen Wu, Angjoo Kanazawa, Pieter Abbeel, Carmelo Sferrazza, C. Karen Liu, Rocky Duan, Guanya Shi。 研究背景: 作者团队来自 Amazon FAR (Frontier AI & Robotics) 实验室,以及麻省理工学院 (MIT)、加州大学伯克利分校 (UC Berkeley)、斯坦福大学和卡内基梅隆大学 (CMU) 等顶尖学术机构。他们在强化学习、机器人控制和计算机视觉领域具有极深造诣。

1.3. 发表期刊/会议

arXiv 预印本(由 Amazon FAR 等团队发布,通常此类高质量工作会提交至 ICRA 或 RSS 等顶尖机器人会议)。

1.4. 发表年份

2025年(根据原文 UTC 时间 2025-09-30)。

1.5. 摘要

人形机器人学习复杂技能的主流范式是将人类动作作为运动参考,训练强化学习 (Reinforcement Learning, RL) 策略。然而,由于人类与机器人之间存在巨大的体现差异 (Embodiment Gap),现有的重定向方法往往会产生物理上不合理的伪影(如足部滑动和穿模),且忽略了关键的交互关系。本文提出了 OmniRetarget,一个基于交互网格 (Interaction Mesh) 的数据生成引擎。它通过最小化拉普拉斯变形并强制执行硬性运动约束,生成物理可行的轨迹。该引擎还能将单一演示增强为适应不同机器人、地形和物体的多样化数据。实验表明,使用该数据训练的 RL 策略能在 Unitree G1 机器人上实现长达 30 秒的复杂跑酷和操作任务。

1.6. 原文链接

https://arxiv.org/abs/2509.26633v2 发布状态: 预印本 (Preprint)。


2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 如何让高自由度的人形机器人像人类一样自然地与复杂环境互动(如搬运重物、攀爬平台)?
  • 重要性: 传统的强化学习(RL)依赖于精细设计的奖励函数,这在处理全身协调任务时极其低效且难以调整。使用人类运动捕获数据作为参考是一种有效手段。
  • 现有挑战(Gap):
    1. 体现差异 (Embodiment Gap): 人类和机器人的身材比例、自由度(DOF)完全不同,直接映射会导致机器人“穿模”(手插进物体里)或“瞬移”。
    2. 交互丢失: 现有的重定向方法只关注关节角度,忽略了手与物体、脚与地面之间的空间位置和接触关系。
  • 创新思路: 不再仅仅匹配关节点坐标,而是引入一个包裹机器人、物体和环境的虚拟“网格”,通过保持这个网格的几何形状来保留交互关系。

2.2. 核心贡献/主要发现

  • OmniRetarget 引擎: 首个能够处理机器人-物体-地形复杂交互,同时强制执行物理约束(如禁止穿模、关节限位)的人形机器人重定向框架。

  • 系统化数据增强: 能将一段人类搬箱子的动作,自动生成出几十段针对不同大小箱子、不同摆放位置的机器人动作。

  • 高质量数据集: 提供了超过 8 小时的、物理上可行的各种人形机器人运动轨迹。

  • 零样本迁移 (Zero-shot Transfer): 证明了仅通过简单的奖励函数和高质量数据,训练出的策略可以直接部署到真实的 Unitree G1 机器人上,完成跑酷、翻墙等高动态动作。


3. 预备知识与相关工作

3.1. 基础概念

  • 运动重定向 (Motion Retargeting): 将一个角色的动作(如人类)转移到另一个角色(如机器人)身上的技术。
  • 强化学习 (Reinforcement Learning, RL): 机器人通过与环境交互,根据获得的奖励来学习最优行为策略的过程。
  • 具身 (Embodiment): 机器人的物理形态,包括其结构、传感器和执行器。
  • 拉普拉斯变形 (Laplacian Deformation): 几何处理中的一种技术,它关注点与其邻居之间的相对差异,而不是点的绝对坐标,从而能保持物体的“局部形状”。

3.2. 前人工作

  • DeepMimic [4]: 计算机图形学的经典工作,证明了模仿人类参考动作可以学习到自然的技能,但它主要针对虚拟角色。
  • PHC [10] / GMR [9]: 现有的机器人重定向方法,主要使用关键点匹配(Keypoint Matching),但容易产生足部滑动(Foot-skating)和穿模。
  • 交互网格 (Interaction Mesh) [14]: 最早由 Ho 等人提出,用于角色动画,通过网格结构描述空间关系。

3.3. 技术演进与差异化分析

过去的方法多采用“软惩罚”来处理碰撞,这意味着优化器可能会为了匹配动作而容忍轻微的穿模。而 OmniRetarget 采用了硬性约束 (Hard Constraints),将碰撞避免和关节限位作为必须遵守的法律,从而保证了生成的参考数据是可以被物理机器人完美跟踪的。


4. 方法论

4.1. 方法原理

OmniRetarget 的核心思想是:将重定向问题建模为一个带约束的非线性优化问题。它不追求机器人的关节角度和人类一模一样,而是追求机器人与环境之间的“空间拓扑关系”与人类保持一致。

4.2. 核心方法详解 (逐层深入)

4.2.1. 交互网格的构建 (Interaction Mesh Construction)

系统首先通过 Delaunay 四面体化 (Delaunay Tetrahedralization) 构建一个体积网格。这个网格的顶点包括:机器人的关节、被操纵物体的表面采样点以及环境(如地形)的采样点。 下图(原文 Figure 2)展示了整个工作流:

Fig. 2: OmNIReTARGET overview. Human demonstrations are retargeted to the robot via interaction-mesh-based tho to real-world humanoids. 该图像是一个示意图,展示了 OmniRetarget 的工作流程,包括人类动作的重定向、交互网格配对、以及强化学习训练。图中左侧显示了人类动作数据,如来自 LAFAN1 和 OMOMO 的数据,右侧展示了训练后机器人的执行效果,以及与现实世界的互动。公式 minextLtargetextLsourceLtarget2min ext{ }L_{target} ext{ }||L_{source} - L_{target}||^2 描述了网格匹配的优化过程。

4.2.2. 拉普拉斯坐标与变形能量 (Laplacian Coordinates)

为了量化“交互关系”,系统定义了拉普拉斯坐标。对于第 ii 个关键点 pt,ip_{t,i},其拉普拉斯坐标 L(pt,i)L(p_{t,i}) 是该点与其邻居节点 N(i)\mathcal{N}(i) 的加权平均值之差: L(pt,i)=pt,ijN(i)wijpt,j L(p_{t,i}) = p_{t,i} - \sum_{j \in \mathcal{N}(i)} w_{ij} \cdot p_{t,j} 其中 wij=1/N(i)w_{ij} = 1 / |\mathcal{N}(i)| 为归一化权重。 变形能量 (Deformation Energy) ELE_L 衡量了源动作(人类)网格与目标动作(机器人)网格之间的差异: EL=pt,isource,pt,itargetL(pt,isource)L(pt,itarget)2 E_L = \sum_{p_{t,i}^{source}, p_{t,i}^{target}} \| L(p_{t,i}^{source}) - L(p_{t,i}^{target}) \|^2 当这个能量极小时,意味着机器人与物体、地面的相对位置(如手离箱子的距离)与人类演示中是一致的。

4.2.3. 带硬约束的优化公式

在每一帧 tt,系统求解机器人配置 qtq_t(包括底座位置、朝向及所有关节角),目标是最小化变形能量及时间平滑项,同时满足硬性物理约束: qt=argminqtiL(pt,isource)L(pt,itarget(qt))2+qtqt1Q2 q_t^\star = \underset{q_t}{\arg \min} \sum_{i} \| L(p_{t,i}^{source}) - L(p_{t,i}^{target}(q_t)) \|^2 + \| q_t - q_{t-1} \|_Q^2 必须满足以下约束条件:

  1. 碰撞避免约束: ϕj(qt)0\phi_j(q_t) \geq 0,其中 ϕj\phi_j 是第 jj 对碰撞体之间的符号距离函数 (Signed Distance Function, SDF)。这确保了机器人不会与自己或环境发生物理重叠。
  2. 关节限位约束: qminqtqmaxq_{min} \leq q_t \leq q_{max}
  3. 速度限位约束: νmindtqtqt1νmaxdt\nu_{min} \cdot dt \leq q_t - q_{t-1} \leq \nu_{max} \cdot dt
  4. 足部固定约束: ptF=pt1Fp_t^F = p_{t-1}^F,用于处于支撑相的足部。这彻底解决了“足部滑动”问题。

4.2.4. 序列二阶锥规划 (Sequential SOCP)

由于上述优化问题是非凸的,作者采用了 序列二阶锥规划 (Sequential Quadratic Programming, SQP 风格) 的求解器。在每一次迭代中,将目标函数进行二次近似,将硬约束线性化,求解增量 dqndq_nqˉn+1=qˉn+dqn \bar{q}_{n+1} = \bar{q}_n + dq_n^\star 通过引入 信赖域约束 (Trust Region Constraint) dqn2ε\| dq_n \|_2 \leq \varepsilon 来保证线性近似的有效性。

4.2.5. 数据增强 (Data Augmentation)

基于交互网格,OmniRetarget 能够轻松实现数据增强。例如,在搬箱子任务中,如果要改变箱子的初始位置 Δpobj\Delta p_{obj},系统会生成一个新的增强轨迹 p~obj(t)\tilde{p}_{obj}(t)p~obj(t)=Δpobje(ttm)/τp+pobj(t) \tilde{p}_{obj}(t) = \Delta p_{obj} e^{-(t-t_m)/\tau_p} + p_{obj}(t) 通过指数衰减,让物体的位置平滑地从新位置过渡到原始演示轨迹。系统重新求解优化问题,从而获得适应新位置的、运动学上合理的机器人轨迹。


5. 实验设置

5.1. 数据集

  • OMOMO [1]: 人类操纵物体的动作数据(如搬箱子)。
  • LAFAN1 [2]: 高质量的人类行走、跑步等机动动作数据。
  • 自有 MoCap 数据: 专门采集的爬坡、翻墙、攀爬高台等复杂交互数据。

5.2. 评估指标

作者对重定向质量定义了三个核心指标:

  1. 渗透率 (Penetration): 量化机器人与物体或地面重叠的深度(单位:cm)及持续时间比例。
  2. 足部滑动 (Foot Skating): 量化支撑足在地面移动的速度(单位:cm/s)。
  3. 接触保持 (Contact Preservation): 计算机器人手/脚与物体/地面保持接触的时间比例。

5.3. 对比基线

  • PHC [10]: 基于轨迹优化的关键点匹配方法。

  • GMR [9]: 工业界常用的逆运动学 (IK) 求解方法。

  • VideoMimic [11]: 针对视频数据的重定向方法。


6. 实验结果与分析

6.1. 核心结果分析

OmniRetarget 在几乎所有指标上都显著优于基线模型。 下图(原文 Figure 7)直观对比了各种伪影:

Fig. 7: Artifacts resulting from the retargeting baselines. 该图像是一个对比图,展示了不同重定向方法的效果。左上角的PHC方法存在渗透和缺乏接触的问题,右上角的GMR方法虽无明显伪影,但同样存在渗透情况。左下角的VideoMimic方法未能有效保留交互,而右下角的OmniRetarget方法有效地保留了接触,且没有明显伪影。

  • PHC 和 GMR 产生了明显的穿模(箱子嵌进机器人身体里)。
  • VideoMimic 则无法有效保持接触。
  • OmniRetarget 生成的动作既没有穿模,又完美保持了接触。

6.2. 定量实验数据

以下是原文 Table II 的完整实验结果:

Method Penetration (渗透) Foot Skating (足部滑动) Contact Preservation (接触保持) Downstream RL Policy (强化学习成功率)
Duration ↓ Max Depth (cm) ↓ Duration ↓ Max Vel (cm/s) ↓ Duration ↑ Success Rate ↑
机器人-物体交互 (源自 OMOMO 数据集)
PHC [10] 0.68 ± 0.21 5.11 ± 3.09 0.05 ± 0.05 1.40 ± 0.80 0.96 ± 0.09 71.28% ± 22.55%
GMR [9] 0.83 ± 0.14 8.50 ± 3.94 0.02 ± 0.01 1.46 ± 0.45 0.99 ± 0.04 50.83% ± 23.89%
OmniRetarget 0.00 ± 0.01 1.34 ± 0.34 0 0 0.96 ± 0.09 82.20% ± 9.74%
机器人-地形交互 (源自自有 MoCap 数据集)
PHC 0.66 ± 0.36 7.74 ± 4.53 0.15 ± 0.04 2.03 ± 1.83 0.45 ± 0.28 52.63% ± 49.93%
OmniRetarget 0.01 ± 0.02 1.37 ± 0.18 0 0 0.72 ± 0.19 94.73% ± 22.33%

分析: OmniRetarget 实现了 0 足部滑动(因为是硬约束),且渗透深度极低,这直接导致了下游 RL 策略的成功率大幅提升。

6.3. 真实机器人展示

下图(原文 Figure 5)展示了在 Unitree G1 机器人上实现的各种复杂技能:

Fig. 5: Additional hardware results showing diverse, agile and human-like behaviors. 该图像是一个示意图,展示了机器人在进行对象搬运、平台攀爬和下坡等多种动作。这些动作体现了机器人的多样性、灵活性和类人行为,显示了与环境的互动能力。

机器人成功实现了:搬运物体、攀爬 0.9 米高的台阶(机器人身高的 70%)、在斜坡上爬行等。


7. 总结与思考

7.1. 结论总结

OmniRetarget 成功地将人形机器人的运动重定向从简单的“关节匹配”提升到了“交互保持”的高度。通过引入交互网格和硬性物理约束,它生成的参考数据具有极高的物理可信度,极大地简化了下游强化学习的难度——不再需要繁琐的奖励函数调优,仅需 5 个基础奖励项即可训练出高动态技能。

7.2. 局限性与未来工作

  • 计算效率: 目前采用的是帧对帧的局部优化。对于一些极度不稳定的动作(如单手倒立),可能需要全局轨迹优化来保证长期的物理平衡。
  • 自主感知: 目前的 RL 策略是本体感知 (Proprioceptive) 的,即机器人“闭着眼睛”跟踪参考动作。未来可以将视觉信息(如深度图、点云)整合进策略中,实现完全自主的环境交互。

7.3. 个人启发与批判

  • 启发: “数据质量决定模型上限”。在机器人领域,与其拼命调整 RL 的超参数和奖励函数(Reward Engineering),不如花精力生成完美的、符合物理规律的训练数据(Data Engineering)。OmniRetarget 正是这一思路的体现。
  • 批判性思考: 该方法虽然解决了“运动学 (Kinematic)”层面的可行性,但并未直接考虑“动力学 (Dynamic)”平衡(如质心投影是否在支撑面内)。虽然高质量的参考轨迹能帮助 RL 学习,但如果原始人类动作太过于“非人哉”(如人类穿着威亚做的动作),重定向后的机器人依然无法在物理世界站稳。未来或许可以考虑在优化中加入简单的动力学质点模型约束。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。