Retargeting Matters: General Motion Retargeting for Humanoid Motion Tracking
TL;DR 精炼摘要
本文针对人形机器人运动跟踪中的具身差距问题,提出通用运动重定向(GMR)方法,有效减少足滑、自穿透等伪影,提升重定向数据质量。实验证明GMR在无过度奖励调整下,显著优于现有开源方法,提升了策略的鲁棒性和感知保真度。
摘要
Humanoid motion tracking policies are central to building teleoperation pipelines and hierarchical controllers, yet they face a fundamental challenge: the embodiment gap between humans and humanoid robots. Current approaches address this gap by retargeting human motion data to humanoid embodiments and then training reinforcement learning (RL) policies to imitate these reference trajectories. However, artifacts introduced during retargeting, such as foot sliding, self-penetration, and physically infeasible motion are often left in the reference trajectories for the RL policy to correct. While prior work has demonstrated motion tracking abilities, they often require extensive reward engineering and domain randomization to succeed. In this paper, we systematically evaluate how retargeting quality affects policy performance when excessive reward tuning is suppressed. To address issues that we identify with existing retargeting methods, we propose a new retargeting method, General Motion Retargeting (GMR). We evaluate GMR alongside two open-source retargeters, PHC and ProtoMotions, as well as with a high-quality closed-source dataset from Unitree. Using BeyondMimic for policy training, we isolate retargeting effects without reward tuning. Our experiments on a diverse subset of the LAFAN1 dataset reveal that while most motions can be tracked, artifacts in retargeted data significantly reduce policy robustness, particularly for dynamic or long sequences. GMR consistently outperforms existing open-source methods in both tracking performance and faithfulness to the source motion, achieving perceptual fidelity and policy success rates close to the closed-source baseline. Website: https://jaraujo98.github.io/retargeting_matters. Code: https://github.com/YanjieZe/GMR.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Retargeting Matters: General Motion Retargeting for Humanoid Motion Tracking (重定向至关重要:人形运动跟踪的通用运动重定向)
1.2. 作者
Joo Pedro Araújo†, Yanjie Ze†, Pei Xu†, Jiajun Wu*, C. Karen Liu* (†表示共同第一作者,*表示共同通讯作者)
1.3. 隶属机构
Stanford University (斯坦福大学)
1.4. 发表期刊/会议
arXiv 预印本,计划发布于 2025 年。具体发表期刊/会议信息在摘要和文中未明确指出,但根据其研究性质和引用列表,预计将发表在机器人学、计算机图形学或机器学习领域的顶级会议或期刊上。
1.5. 发表年份
2025年 (根据 arXiv 发布时间 2025-10-02T17:39:04.000Z 判断)
1.6. 摘要
人形运动跟踪 (Humanoid motion tracking) 策略是构建遥操作管线 (teleoperation pipelines) 和分层控制器 (hierarchical controllers) 的核心,但它们面临一个根本性挑战:人类与人形机器人之间的具身差距 (embodiment gap)。当前方法通过将人体运动数据重定向 (retargeting) 到人形机器人身体结构,然后训练强化学习 (RL) 策略来模仿这些参考轨迹来解决这一差距。然而,重定向过程中引入的伪影 (artifacts),如足部滑动 (foot sliding)、自穿透 (self-penetration) 和物理不可行运动 (physically infeasible motion),通常会保留在参考轨迹中,留给 RL 策略去修正。虽然之前的研究展示了运动跟踪能力,但它们通常需要大量的奖励工程 (reward engineering) 和域随机化 (domain randomization) 才能成功。本文系统性地评估了在抑制过度奖励调整的情况下,重定向质量如何影响策略性能。为解决现有重定向方法中发现的问题,我们提出了一种新的重定向方法:通用运动重定向 (General Motion Retargeting, GMR)。我们评估了 GMR 与两种开源重定向器(PHC 和 ProtoMotions)以及 Unitree 提供的高质量闭源数据集。通过使用 BeyondMimic 进行策略训练,我们可以在不进行奖励调整的情况下隔离重定向的影响。我们对 LAFAN1 数据集多样化子集的实验表明,虽然大多数运动可以被跟踪,但重定向数据中的伪影显著降低了策略的鲁棒性 (robustness),特别是对于动态或长序列。GMR 在跟踪性能和对源运动的忠实度方面始终优于现有开源方法,实现了接近闭源基线的感知保真度 (perceptual fidelity) 和策略成功率。
1.7. 原文链接
https://arxiv.org/abs/2510.02252v1
1.8. PDF 链接
https://arxiv.org/pdf/2510.02252v1.pdf
2. 整体概括
2.1. 研究背景与动机
人形机器人学习物理世界中的交互,需要从捕获了真实物理交互的数据中学习。由于人类和人形机器人之间在形态上存在相似性,近期工作利用 3D 人体运动数据(来自运动捕捉或视频中的人体运动恢复)作为示范,训练人形机器人执行需要类似人类平衡和敏捷性的全身运动。这些人形运动跟踪 (Humanoid motion tracking) 策略是构建遥操作管线 (teleoperation pipelines) 或分层控制系统 (hierarchical control systems) 的基本工具。
然而,人类和人形机器人之间存在显著的具身差距 (embodiment gap),包括骨骼长度、关节运动范围、运动学结构、身体形状、质量分布和驱动机制等方面的差异。克服这一具身差距的标准方法是使用运动学重定向 (kinematic retargeting) 将源人体运动映射到目标人形机器人身体结构上。
在当前机器人研究中,一个普遍的做法是,在获得重定向数据后,使用基于强化学习 (RL) 的方法来学习能够通过模仿参考运动来完成期望任务的策略。然而,这种做法常常忽视重定向过程中引入的明显伪影 (artifacts),例如足部滑动 (foot sliding)、地面穿透 (ground penetration) 和由于自穿透 (self-penetration) 导致的物理不可行运动。现有的方法要么强迫 RL 策略在保持物理约束的同时模仿这些物理不可行的运动,要么直接丢弃质量差的重定向数据。以往工作表明,尽管在模拟中训练带有严重伪影的重定向数据策略是可能的,但将其迁移到现实世界需要大量的试错、奖励塑造 (reward shaping) 和参数调整。
核心问题: 现有重定向方法引入的伪影(如足部滑动、自穿透、物理不可行运动)对强化学习策略的性能和鲁棒性产生负面影响,尤其是在没有大量奖励工程和域随机化的情况下。
研究动机: 论文的动机在于验证一个假设:虽然通过足够的奖励工程和域随机化可以在一定程度上缓解或消除重定向伪影,但如果没有这些工程努力,重定向结果的质量将对策略性能产生显著影响。因此,需要系统性地评估重定向质量对策略性能的影响,并开发一种能够生成高质量重定向运动的新方法。
2.2. 核心贡献/主要发现
本文的主要贡献和发现总结如下:
- 提出新的通用运动重定向方法 (GMR):论文介绍了一种名为
General Motion Retargeting (GMR)的新方法,旨在解决现有重定向方法中存在的偏差、足部滑动、地面穿透和自穿透等伪影问题。GMR 通过灵活的非均匀局部缩放程序和两阶段优化来解决这些问题。 - 系统性评估重定向质量对策略性能的影响:论文对重定向参考运动的质量如何影响人形运动跟踪策略的性能进行了全面研究。通过使用
BeyondMimic平台进行策略训练,并在不进行奖励调整的情况下隔离了重定向的影响。 - 识别并量化关键重定向伪影的影响:研究发现,地面穿透 (ground penetration)、自穿透 (self-penetration) 和关节值突然跳变 (sudden jumps in joint values) 是严重影响策略学习和鲁棒性的关键伪影。
- GMR 优于现有开源方法:在 LAFAN1 数据集上的实验表明,GMR 在跟踪性能和对源运动的忠实度方面持续优于
PHC和ProtoMotions等开源方法。 - GMR 性能接近闭源基线:GMR 在感知保真度 (perceptual fidelity) 和策略成功率方面取得了接近
Unitree闭源数据集的性能,这表明 GMR 是一个高质量且可行的开源替代方案。 - 强调起始帧的重要性:论文重申并强调了参考运动的起始帧对策略性能的巨大影响,建议确保起始姿态是机器人可以安全达到的稳定姿态。
3. 预备知识与相关工作
3.1. 基础概念
- 人形运动跟踪 (Humanoid Motion Tracking):指训练人形机器人模仿或复制人类或其他预设的运动轨迹。这通常涉及将源运动数据(例如人类表演者的运动捕捉数据)转换为机器人可以执行的指令序列。
- 遥操作管线 (Teleoperation Pipelines):允许人类操作员远程控制机器人执行任务的系统架构。在机器人领域,这意味着操作员的动作被实时捕获、处理并映射到机器人的动作上。
- 分层控制器 (Hierarchical Controllers):一种控制系统设计,其中不同层次的控制器负责不同抽象级别的任务。例如,高层控制器决定总体行为,而低层控制器负责执行具体的关节运动。
- 具身差距 (Embodiment Gap):指人类和机器人之间在物理形态、运动学、动力学、传感器和执行器能力等方面的差异。这些差异使得直接将人类运动映射到机器人上变得困难。
- 重定向 (Retargeting):在计算机图形学和机器人学中,指将一个角色的运动数据(例如人类)转换并应用到另一个具有不同骨骼结构、尺寸或关节限制的角色(例如人形机器人)上。
- 强化学习 (Reinforcement Learning, RL):一种机器学习范式,智能体 (agent) 通过与环境的交互学习最优行为策略。智能体在执行动作后会收到奖励或惩罚,目标是最大化长期累积奖励。
- 奖励工程 (Reward Engineering):在强化学习中,设计奖励函数的过程。一个好的奖励函数对于智能体有效地学习至关重要,但设计起来可能非常复杂和耗时。
- 域随机化 (Domain Randomization):一种训练策略,通过在模拟环境中随机化各种参数(例如物理属性、纹理、光照等),使学习到的策略对这些变化具有鲁棒性,从而更容易迁移到现实世界。
- 足部滑动 (Foot Sliding):重定向或动画过程中常见的伪影,指角色的脚在应该保持静止时却在地面上滑动,看起来不自然。
- 自穿透 (Self-Penetration):指角色身体的不同部分(例如手臂穿过躯干)在物理上发生重叠,这在现实世界中是不可能的,也是动画中的常见伪影。
- 物理不可行运动 (Physically Infeasible Motion):指机器人无法在物理上执行的运动,例如违反关节限制、超出力量或扭矩限制,或在没有足够支撑的情况下保持平衡。
- SMPL 模型 (Skinned Multi-Person Linear Model):一种参数化的人体三维模型,通过形状参数 () 和姿态参数 () 可以生成不同身形和姿态的人体网格。它在计算机图形学和计算机视觉领域广泛用于人体姿态估计和运动捕捉。
- 逆运动学 (Inverse Kinematics, IK):给定机器人末端执行器(例如手、脚)在空间中的期望位置和方向,计算出机器人各个关节角度的过程。
- 正运动学 (Forward Kinematics, FK):给定机器人所有关节的角度,计算出机器人各个末端执行器在空间中位置和方向的过程。
- 微分逆运动学 (Differential IK):一种求解逆运动学问题的方法,它不是直接求解关节角度,而是计算能够使末端执行器向目标移动的关节角速度。通过积分这些角速度,可以逐步达到目标姿态。
3.2. 前人工作
论文在相关工作部分回顾了计算机图形学和机器人学中运动重定向的经典与数据驱动方法,并特别关注了人形机器人全身运动重定向。
3.2.1. 计算机图形学中的运动重定向
- 经典方法:[16]、[17]、[18]、[19] 等经典方法主要采用基于优化的方法,并依赖启发式定义的运动学约束 (kinematic constraints) 将运动映射到关节式角色上。
- 数据驱动方法:近年来随着深度学习技术的发展,数据驱动方法引起了广泛关注。这些方法通常需要配对数据进行监督学习 [20]、[21],或者需要语义标签以无监督方式进行模型训练 [22]、[23]、[24],或使用语言模型和可微分渲染技术进行视觉评估 [25]。
- 复杂场景:除了单个刚体角色的重定向,还有针对多交互角色 [26]、[27]、[28] 和可变形形状角色 [29]、[30]、[31] 的重定向方法。
3.2.2. 机器人学中的运动重定向
在机器人学领域,数据驱动方法已广泛应用于控制人形机器人 [2]、[3]、[4]、[5]、[7]、[8]、[6]、[10]、[15] 以通过模仿学习生成类人运动。然而,在真实机器人上获取配对或语义标注运动数据的困难限制了数据驱动重定向方法在人形机器人上的应用。一些工作 [32]、[33]、[34] 探索了基于学习的人形机器人运动重定向方法,但它们主要集中在简单的手臂和上半身运动。本文则专注于不需要预先收集任何数据即可进行全身运动重定向的方法。
- 朴素方法 (Naïve Approaches):一些早期方法 [3]、[5] 直接将源人体运动的关节旋转复制到目标人形机器人的关节空间。然而,人类和人形机器人在拓扑和形态上的差异常导致伪影,如浮空 (floating)、足部穿透 (feet penetrations) 和滑动 (sliding),以及末端执行器(手和脚)的漂移 (drift)。此外,还需要额外处理将人类的 关节空间转换为人形机器人(通常只配备旋转关节)的关节空间。
- 全身几何重定向 (Whole-Body Geometric Retargeting, WBGR):通过求解逆运动学 (IK) 问题,WBGR 方法 [35]、[1] 在允许源和目标关节空间未对齐的情况下进行全身重定向。香草 WBGR (Vanilla WBGR) 忽略了笛卡尔空间中的尺寸差异,只通过 IK 匹配关键连杆 (key links) 的方向。
- HumanMimic:[36] 则通过 IK 求解关键点 (key points) 的笛卡尔位置匹配,同时使用手动定义的系数来缩放源运动。
- H2O (PHC):[2] 利用计算机图形学中人体表示的最新进展,使用
SMPL[37] 模型将机器人形状拟合为人体,然后用其在求解 IK 问题之前对运动进行缩放。一个参考实现可在PHC[38] 代码库中找到,本文将这种方法称为PHC重定向方法。它使用梯度下降法通过正运动学 (FK) 求解 IK 问题,这既耗时又限制了其在实时场景中的应用。尽管被许多后续工作 [14]、[13]、[39]、[11] 使用,但PHC方法在重定向过程中未考虑运动的接触状态 (contact state),这可能导致浮空、足部滑动和与地面的穿透等伪影。此外,SMPL专为人体表示设计,无法很好地覆盖与人类形态差异较大的机器人。 - ProtoMotions:[40]、[8]、[6] 等其他工作探索了使用微分 IK 求解器 [41]。这些方法缩放源运动的笛卡尔关节位置,然后计算广义速度 (generalized velocities),通过原地积分 (integrated in-place) 减少缩放后的源运动与机器人之间笛卡尔关节位置和方向的误差。
ProtoMotions[40] 中的方法使用全局轴对齐的缩放因子来缩放源运动中关节的笛卡尔位置,然后最小化匹配源人体和机器人关键身体的位置和方向误差的加权和。KungfuBot[8] 使用了ProtoMotions的方法,但禁用了缩放。
3.3. 技术演进与差异化分析
该领域的运动重定向技术演进可以概括为:
-
直接复制:最早的方法直接复制关节旋转,但由于形态差异大,伪影严重。
-
几何 IK 方法:WBGR、HumanMimic 等通过求解 IK 问题来匹配关键点或方向,考虑了部分形态差异,但对尺寸缩放和接触处理不足。
-
基于 SMPL 的方法 (如 PHC):引入了参数化人体模型 SMPL,能够更好地将机器人形状拟合为人体,在 IK 求解前进行更合理的缩放。但其梯度下降求解 IK 耗时,且未充分考虑接触状态和动态特性。
-
基于微分 IK 的方法 (如 ProtoMotions):使用微分 IK 求解器,可以更有效地处理连续运动序列,但其缩放策略可能过于简单(全局轴对齐),导致伪影。
-
本文提出的 GMR:
-
差异点 1:缩放策略:GMR 提出了一种“简单但灵活的非均匀局部缩放程序 (simple but flexible non-uniform local scaling procedure)”,这与
PHC依赖SMPL模型拟合机器人,或ProtoMotions使用全局轴对齐缩放因子不同。GMR 允许为每个关键身体定制缩放因子,并特别强调对根平移的均匀缩放以避免足部滑动,这被认为是解决伪影的关键。 -
差异点 2:优化过程:GMR 采用“两阶段优化 (two-stage optimization)”来求解机器人运动。第一阶段主要关注身体方向和末端执行器位置,使用
Mink微分 IK 求解器。第二阶段则在此基础上进行微调,纳入所有关键身体的位置信息,并使用不同的权重。这比PHC的单一梯度下降优化和ProtoMotions的直接微分 IK 求解更精细和鲁棒。 -
目标:GMR 的核心目标是直接解决现有方法中普遍存在的伪影(足部滑动、地面穿透、自穿透、偏离源运动),这些伪影被认为是导致 RL 策略性能下降和鲁棒性不足的主要原因。
简而言之,GMR 在前人工作的基础上,尤其是在处理源运动缩放和 IK 优化策略上进行了关键改进,以生成更高质量、更少伪影的重定向运动,从而提升下游强化学习策略的性能。
-
4. 方法论
本文提出了一种新的重定向管线:通用运动重定向 (General Motion Retargeting, GMR)。其核心思想在于通过改进运动的缩放方式,并采用两阶段优化过程来解决重定向过程中常见的伪影问题。图 2 提供了 GMR 的总体流程概览。

该图像是论文中Fig. 2的一幅示意图,展示了General Motion Retargeting (GMR)的五步处理流程,包括关键体匹配、笛卡尔空间对齐、非均匀局部缩放及带约束的逆运动学求解,输出机器人根姿态及关节位置。
图 2: 通用运动重定向 (GMR) 管线。
GMR 流程包括以下五个主要步骤:
4.1. 步骤 1: 人体-机器人关键体匹配 (Human-Robot Key Body Matching)
该步骤是重定向设置的起点。用户首先定义源人体骨架(来自运动捕捉系统或 BVH、SMPL 等格式文件)与目标人形机器人骨架(来自 XML 或 URDF 机器人描述文件)之间关键身体的映射关系 。这些关键身体通常包括躯干、头部、腿部、足部、手臂和手部。这个映射关系 将用于构建逆运动学 (IK) 求解器的优化问题。用户还可以为这些关键身体的位置和方向跟踪误差提供权重,以在优化过程中调整其相对重要性。
4.2. 步骤 2: 人体-机器人笛卡尔空间静止姿态对齐 (Human-Robot Cartesian Space Rest Pose Alignment)
为了减少初始姿态差异引入的伪影,GMR 会调整人体的方向,使其在静止姿态 (rest pose) 时与机器人的身体方向匹配。在某些情况下,还会对身体的位置添加局部偏移。这有助于缓解诸如 [2] 中描述的“脚趾内翻伪影 (toed-in artifact)”等问题。
4.3. 步骤 3: 人体数据非均匀局部缩放 (Human Data Non-Uniform Local Scaling)
作者发现,大多数重定向伪影都是在缩放源运动时引入的,这凸显了正确缩放的关键性。GMR 的缩放过程包括:
-
计算通用缩放因子:首先,根据源人体骨架的高度 计算一个通用缩放因子。
-
调整自定义局部缩放因子:这个通用因子用于调整为每个关键身体定义的自定义局部缩放因子 。拥有自定义缩放因子使得
GMR能够处理身体下部和上部之间的缩放差异。目标身体在笛卡尔空间中的位置 由以下公式给出: 其中:
-
是源人体骨架的高度。
-
是设置缩放因子时假设的参考高度。
-
表示目标身体 的位置。
-
是源人体中对应身体 的位置。
-
是源人体根部的位置。
-
是对应于身体 的缩放因子。
-
是根部的缩放因子。
当身体是根部时,缩放方程简化为: 作者发现,通过均匀缩放根部的平移是避免引入足部滑动伪影的关键。
4.4. 步骤 4: 求解带旋转约束的机器人逆运动学 (Solving Robot IK with Rotation Constraints)
为了找到最小化身体位置和方向误差的机器人广义坐标 (包括根平移、根旋转和关节值),GMR 采用两阶段过程来避免局部优化最小值。在第一阶段,对于给定的目标姿态,求解以下优化问题,该问题主要考虑身体方向和末端执行器的位置:
其中:
-
是机器人的广义坐标,包括根平移、根旋转和关节值。
-
是源人体身体 的方向。
-
和 分别是通过正运动学 (FK) 计算得到的机器人身体 的笛卡尔位置和方向。
-
表示 和 之间方向差异的指数映射表示,即 在 中。
-
是人体与机器人关键身体的映射集合。
-
是 的子集,仅包含末端执行器(手和脚)。
-
和 是第一优化阶段中旋转和位置误差的权重。
-
和 是关节的最小和最大值限制。
机器人的根位置和方向组件的初始值设置为缩放后的位置 和一个初始的偏航 (yaw) 组件。优化受关节限制 约束。作者发现,有时需要收紧这个范围以避免非人类运动。
这个优化问题使用 Mink [41] 求解,Mink 是一个微分 IK 求解器。这意味着它不是直接寻找最小化成本函数的 值,而是计算广义速度 ,通过积分这些速度来减少成本。这是通过求解以下优化问题完成的:
其中:
-
是方程 (4) 中的损失函数。
-
是损失相对于 的 Jacobian 矩阵。
-
是由 和 诱导的权重矩阵。
-
是微分 IK 求解器的一个参数,不一定对应于参考运动帧之间的时间差。
求解器运行直到收敛(值函数的变化低于给定阈值,设置为 0.001)或达到最大迭代次数(10次)。
4.5. 步骤 5: 使用旋转与平移约束进行微调 (Fine Tuning using Rotation & Translation Constraints)
在第一阶段优化得到解后,将其作为初始猜测,进入第二阶段微调。此阶段求解以下优化问题: \begin{array} { r l } { \operatorname* { m i n } _ { \mathbf { q } } } & { \sum _ { ( i , j ) \in \mathcal { M } } \left( w _ { 2 } \right) _ { i , j } ^ { R } \| R _ { i } ^ ^ { h } \ominus R _ { j } ( \mathbf { q } ) \| _ { 2 } ^ { 2 } } \\ & { + \left( w _ { 2 } \right) _ { i , j } ^ { p } \| \mathbf { p } _ { i } ^ { \mathrm { t a r g e t } } - \mathbf { p } _ { j } ( \mathbf { q } ^ { r } ) \| _ { 2 } ^ { 2 } } \\ { \mathrm { s u b j e c t ~ t o } } & { \mathbf { q } ^ { - } \leq \mathbf { q } \leq \mathbf { q } ^ { + } } \end{array} 该阶段使用一组不同于第一阶段的权重 和 ,并且考虑了所有关键身体的位置。终止条件与第一优化阶段相同。
4.6. 应用于运动序列 (Application to Motion Sequences)
上述方法是针对单个姿态的重定向。对于运动序列的重定向,该方法按顺序应用于每一帧。前一帧的重定向结果作为当前帧优化步骤 4 的初始猜测。在完成整个运动序列的重定向后,使用正运动学 (FK) 获取机器人所有身体随时间变化的高度。然后,将最小高度从全局平移中减去,以修正高度伪影(浮空或地面穿透)。
5. 实验设置
5.1. 数据集
- LAFAN1 数据集 [42]:实验使用了
LAFAN1数据集的一个多样化子集。该数据集包含从简单运动(如行走、转向)到动态复杂运动(如武术、踢腿、舞蹈)的各种动作。 - 筛选标准:排除了与环境有复杂交互的运动(如爬行或从地板上起身),但例外地包含了一个车轮滚翻序列,因为机器人要么脚着地,要么手着地,但从未同时着地。最终的数据集包含 21 个序列,长度从 5 秒到 2 分钟不等。
- 目标机器人:所有运动序列都被重定向到
Unitree G1机器人上。 - 数据预处理:
LAFAN1文件以BVH格式提供,GMR直接兼容。PHC和ProtoMotions要求源运动数据为SMPL[37] 格式(ProtoMotions还支持SMPL-X[43] 格式)。论文将BVH转换为SMLP(-X),方法类似于PHC重定向:- 通过最小化两个骨架之间的关节位置误差,将
SMPL(-X)身体模型的形状参数 拟合到BVH骨架上(同时惩罚 以避免人体网格过度变形)。 - 利用
LAFAN1骨架与SMPL(-X)具有相同运动学结构的特点,复制匹配的关节 3D 旋转。 - 计算根部平移作为偏移量,以最小化姿态
LAFAN1骨架和姿态SMPL(-X)骨架之间的位置误差。
- 通过最小化两个骨架之间的关节位置误差,将
- 作者发现
SMPL-X模型比SMPL更适合LAFAN1骨架,因此将其作为ProtoMotions的源。 - PHC 后处理:尽管
PHC代码包含修复足部穿透的后处理步骤,但对于某些序列,这会导致严重的(30厘米或更高)浮空。论文通过对重定向序列进行正运动学 (FK),存储每帧的最小身体高度,然后将整个运动偏移平均最小身体高度来修复此问题。其他方法生成的重定向不需要类似的后处理。
5.2. 评估指标
论文评估了策略保持平衡的能力和跟踪性能。
-
成功率 (Success Rate):
- 概念定义:评估策略在不使机器人锚定身体(
anchor body,通常指躯干或骨盆)高度或方向偏离参考超过给定阈值的情况下,完成整个参考运动的能力。一旦偏离超过阈值,或机器人摔倒,则认为该回合终止。成功率定义为成功完成的回合数与总回合数之比。 - 数学公式:
- 符号解释:
Number of Successful Rollouts:策略成功完成的评估回合数。Total Number of Rollouts:总共进行的评估回合数。
- 概念定义:评估策略在不使机器人锚定身体(
-
全局坐标系下身体部件的平均位置误差 (Average Position Error of Body Parts in Global Coordinates):
- 概念定义:衡量机器人的身体部件在全局坐标系中与参考运动中对应身体部件的平均位置偏差,单位为毫米 (mm)。
- 数学公式 (根据领域惯例推导,论文未直接给出):
- 符号解释:
- :策略存活的总帧数。
- :身体部件的数量。
- :机器人身体部件 在时间 的全局位置。
- :参考运动中身体部件 在时间 的全局位置。
- :欧几里得范数,表示两点之间的距离。
-
相对于根部位置的身体部件平均位置误差 (Average Position Error of Body Parts Relative to the Root Position):
- 概念定义:衡量机器人的身体部件相对于机器人根部位置,与参考运动中对应身体部件相对于参考根部位置的平均位置偏差,单位为毫米 (mm)。这反映了局部姿态的准确性。
- 数学公式 (根据领域惯例推导,论文未直接给出):
- 符号解释:
- :策略存活的总帧数。
- :身体部件的数量。
- :机器人身体部件 在时间 的全局位置。
- :机器人根部在时间 的全局位置。
- :参考运动中身体部件 在时间 的全局位置。
- :参考运动中根部在时间 的全局位置。
- :欧几里得范数。
-
关节旋转的平均角度误差 (Average Angular Error of Joint Rotations):
- 概念定义:衡量机器人关节旋转与参考运动中对应关节旋转的平均角度偏差,单位为 弧度 ( rad)。
- 数学公式 (根据领域惯例推导,论文未直接给出):
- 符号解释:
- :策略存活的总帧数。
- :关节的数量。
- :机器人关节 在时间 的旋转矩阵。
- :参考运动中关节 在时间 的旋转矩阵。
- :将旋转矩阵转换为其对数映射(例如,轴角表示)。
- :Frobenius 范数,用于衡量矩阵大小。
- :将弧度转换为 弧度单位。
5.3. 对比基线
论文评估了四种不同的重定向方法:
- PHC [38]:一种基于
SMPL模型和梯度下降优化的重定向方法。 - ProtoMotions (PM) [40]:一种基于微分 IK 求解器
Mink[41] 和全局轴对齐缩放的重定向方法。 - GMR (本文提出):一种新的通用运动重定向方法,采用非均匀局部缩放和两阶段优化。
- Unitree (U):
Unitree官方提供的闭源高质量重定向数据集,作为事实标准或高质量基线。
5.4. 评估环境
- 策略训练与评估平台:
BeyondMimic[15]BeyondMimic不依赖奖励调整,且独立于所研究的重定向方法,使其成为评估的公平方法。- 训练单轨迹策略 (single-trajectory policies)。
- 评估条件:为了衡量策略对观察噪声和域偏移的鲁棒性,每个策略在不同条件下评估多次:
sim(模拟):在IsaacSim中进行 100 次评估,不启用域随机化。机器人从默认姿态开始。sim-dr(模拟-域随机化):在IsaacSim中进行 4096 次评估,启用域随机化。机器人从默认姿态开始。sim2sim(模拟到模拟):利用BeyondMimic提供的 ROS 包,在MuJoCo中进行 100 次评估。这模拟了真实世界的部署设置,考虑了 ROS 的时序和同步条件,以及状态估计算法相关的噪声。控制器无法访问特权模拟器信息(如全局根姿态真值)。
6. 实验结果与分析
6.1. 核心结果分析
本节旨在回答论文提出的三个核心问题 (Q1, Q2, Q3):
-
Q1. 重定向方法的选择是否会影响运动跟踪策略的性能? 通过表格 I 和表格 II 的数据,可以明确回答“是”。不同重定向方法生成的策略在成功率和跟踪误差上表现出显著差异。
- 成功率 (Table I):
- 对于 21 个测试动作中的 11 个动作,所有重定向方法都能实现超过 98% 的成功率,其中 3 个动作(“Walk 1”、“Walk (old)”和“Hop around”)甚至达到 100% 成功率。这表明对于大部分简单或中等难度的运动,各种方法都能在一定程度上被策略跟踪。
- 然而,对于其余 7 个动作,不同重定向方法之间的性能差异巨大。例如,“Dance 1”和“Dance 2”这两个长序列动作,
PHC方法的成功率为 0%,而GMR、ProtoMotions和Unitree几乎达到 100%。这突出表明,某些重定向方法在处理复杂或长时间序列时,其引入的伪影会使策略完全无法学习。 Unitree数据集(闭源)的策略表现出近乎完美的性能,验证了BeyondMimic平台的能力,并为开源方法设定了高标准。GMR和ProtoMotions的策略紧随Unitree之后,但在某些特定动作上存在例外(如GMR的“Dance 5”和ProtoMotions的“Run (stop & go)”)。PHC方法的性能最低,尤其在多个动态和长序列动作上表现不佳。sim2sim评估结果(最接近真实世界部署的条件)也印证了上述趋势,GMR在很多情况下与Unitree相当,远优于PHC和ProtoMotions。
- 跟踪误差 (Table II):
- 成功率并不能说明全部问题,因为它只衡量是否摔倒。表格 II 展示了策略在存活期间的跟踪误差。
PHC和ProtoMotions方法的策略在全局()、局部()和关节角度()误差上都显著高于GMR和Unitree。这表明即使某些策略能够完成运动,它们也可能以较大的误差来跟踪参考运动,牺牲了对原始运动的忠实度以保持稳定。GMR在所有误差指标上都显著优于PHC和ProtoMotions,并且非常接近Unitree的低误差水平。例如,GMR的平均 误差为 104.1mm,远低于PHC的 247.8mm 和ProtoMotions的 139.7mm,但略高于Unitree的 77.2mm。
- 成功率 (Table I):
-
Q2. 哪些重定向伪影会对策略产生负面影响并阻碍其学习? 从低成功率的案例中,论文识别出三类关键伪影:
-
地面穿透 (Ground Penetration):
PHC对“Dance 1”和“Dance 2”动作的重定向存在明显的地面穿透伪影(有时高达 60 厘米)。这使得机器人无法在物理上执行这些动作,导致策略训练失败(成功率 0%)。
该图像是插图,展示了带有Unitree标志的机器人模型处于跪地姿势,可能用于说明人形机器人动作重定向中的姿态状态或特定动作示例。图 3(a): 地面穿透 (PHC “Dance 1”)
-
自穿透 (Self-Intersection):
ProtoMotions对“Run (stop & go)”动作的重定向中,机器人的腿部相互穿透。这种物理上不可行的姿态同样会极大地增加策略学习的难度。
该图像是一个机器人动作示意图,展示了Humanoid机器人在动态动作中的运动姿态,可能用于说明论文中关于动作重定向与人形机器人运动跟踪的研究内容。图 3(b): 自穿透 (ProtoMotions, “Run (stop & go)”)
-
关节值突然跳变 (Sudden Jumps in Joint Values):
GMR对“Dance 5”动作的重定向中,腰部滚转 (waist roll) 和俯仰 (pitch) 值出现多次突然跳变。虽然GMR整体表现优异,但这种不平滑的关节运动仍然会降低策略的鲁棒性。这些跳变通常是优化阶段引入的,可能需要进一步的权重调整。
该图像是一个折线图,展示了腰部滚转角和俯仰角随帧数变化的关节角度曲线,以及关节角度限制(红色虚线)。图中反映了动作轨迹中关节角度接近或超出限制的情况。图 3(c): 腰部滚转和俯仰值突然跳变 (GMR, “Dance 5”) 这些伪影的存在,即使不总是导致完全失败,也会显著增加策略学习的难度,降低其鲁棒性。
-
-
Q3. 不同重定向方法在多大程度上保留了源运动的“外观”? 通过用户研究(Figure 4)来评估感知忠实度 (perceptual faithfulness):
-
用户普遍认为
GMR比PHC和ProtoMotions更忠实于源运动。例如,在与PHC的比较中,70% 的用户认为GMR更相似,只有 10% 认为PHC更相似;在与ProtoMotions的比较中,55% 的用户认为GMR更相似,20% 认为ProtoMotions更相似。 -
Unitree的重定向被认为比GMR更忠实,但用户区分两者也更加困难(25% 的用户认为两者没有区别)。这表明GMR在感知质量上已经非常接近高质量的闭源解决方案。
该图像是图表,展示了用户研究中20位参与者对GMR与其他三种重定向方法(Unitree、PHC、ProtoMotions)在动作还原真实性上的偏好百分比。图中蓝色代表偏好GMR,绿色为无偏好,橙色代表偏好其他方法。图 4: 用户研究 () 结果,比较 GMR 与其他重定向方法对源运动的忠实度。条形图表示响应百分比。
-
-
起始帧的影响 (Table III): 论文还强调了起始帧对策略性能的巨大影响。对于“Walk 2”和“Turn 1”动作,即使是同一个重定向方法生成的策略,从不同起始帧开始,成功率也可能天差地别。例如,
PHC的“Turn 1”从第 0 帧开始只有 14% 的成功率,而从第 49 帧开始则达到 100%。这提示在重定向和策略训练时,应选择机器人可以安全达到的稳定起始姿态。
6.2. 数据呈现 (表格)
以下是原文 Table I、Table II 和 Table III 的结果:
以下是原文 Table I 的结果:
| sim | sim-dr | sim2sim | |||||||||||
| Motion | Length (s) | PHC | GMR | PM | U | PHC | GMR | PM | U | PHC | GMR | PM | U |
| Walk 1 | 33 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 |
| Walk 2 | 5.5 | 23 | 100 | 100 | 100 | 53.54 | 100 | 99.98 | 100 | 100* | 100* | 100* | 100* |
| Turn 1 | 12.3 | 93 | 100 | 100 | 100 | 87.18 | 99.98 | 99.95 | 100 | 100* | 100* | 99* | 100* |
| Turn 2 | 12.3 | 100 | 100 | 100 | 100 | 99.95 | 99.98 | 100 | 99.98 | 99 | 100 | 100 | 99 |
| Walk (old) | 33 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 |
| Walk (army) | 13 | 100 | 100 | 100 | 100 | 99.85 | 98.63 | 99.95 | 99.95 | 100 | 100 | 99 | 100 |
| Hop | 13 | 95 | 100 | 100 | 100 | 92.97 | 100 | 100 | 100 | 100 | 100 | 100 | 100 |
| Walk (knees) | 19.58 | 100 | 100 | 100 | 100 | 99.98 | 100 | 100 | 100 | 100 | 100 | 100 | 100 |
| Dance 1 | 118 | 0 | 100 | 100 | 99 | 0 | 99.46 | 99.24 | 99.95 | 0 | 100 | 100 | 100 |
| Dance 2 | 130.5 | 0 | 100 | 100 | 100 | 0.02 | 99.9 | 99.88 | 99.98 | 0 | 100 | 100 | 100 |
| Dance 3 | 120 | 100 | 100 | 100 | 100 | 100 | 100 | 99.95 | 100 | 99 | 100 | 100 | 100 |
| Dance 4 | 20 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 99 | 100 | 100 | 100 |
| Dance 5 | 68.4 | 100 | 96 | 100 | 100 | 100 | 92.75 | 99.98 | 100 | 100 | 51 | 100 | 100 |
| Run (slow) | 50 | 100 | 100 | 100 | 100 | 99.19 | 99.88 | 99.95 | 99.98 | 100 | 100 | 100 | 100 |
| Run | 11 | 100 | 100 | 100 | 100 | 99.98 | 100 | 99.95 | 100 | 100 | 100 | 100 | 100 |
| Run (stop & go) | 37 | 17 | 98 | 20 | 100 | 20.46 | 91.24 | 40.26 | 99.83 | 74 | 100 | 26 | 100 |
| Hop around | 18 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 |
| Hopscotch | 10 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 99.98 | 100 | 100 | 100 | 100 |
| Jump and rotate | 21 | 100 | 100 | 100 | 100 | 99.98 | 100 | 99.9 | 100 | 99 | 100 | 100 | 99 |
| KKung fu | 8.6 | 100 | 100 | 100 | 100 | 100 | 99.95 | 100 | 100 | 100 | 100 | 100 | 100 |
| Various sports | 42.58 | 100 | 100 | 100 | 100 | 99.98 | 99.98 | 99.95 | 100 | 100 | 100 | 100 | 99 |
以下是原文 Table II 的结果:
| Eg-mpbpe, mm | Emppe, mm | Empjpe, ,10−3 rad | ||||||||||
| Statistics | PHC | GMR | PM | U | PHC | GMR | PM | U | PHC | GMR | PM | U |
| Min | 71.8 | 59.9 | 66.0 | 51.1 | 20.9 | 18.1 | 24.1 | 18.2 | 569.5 | 362.0 | 499.0 | 355.5 |
| Median | 111.9 | 91.2 | 101.9 | 73.4 | 29.9 | 27.6 | 30.4 | 23.1 | 739.8 | 546.0 | 599.7 | 467.2 |
| Mean | 247.8 | 104.1 | 139.7 | 77.2 | 40.2 | 28.1 | 33.2 | 23.2 | 778.5 | 561.7 | 641.8 | 483.0 |
| Max | 1062.3 | 200.0 | 915.6 | 131.4 | 134.4 | 48.0 | 107.9 | 28.9 | 1336.1 | 1044.8 | 1397.9 | 678.5 |
以下是原文 Table III 的结果:
| Motion | Start frame | PHC | GMR | PM | U |
| Walk 2 | 0 | 100 | 64 | 100 | 100 |
| 7 | 100 | 100 | 100 | 100 | |
| Turn 1 | 0 | 14 | 100 | 86 | 47 |
| 49 | 100 | 100 | 99 | 100 |
6.3. 消融实验/参数分析
论文中没有明确提供 GMR 内部组件的消融实验。然而,在讨论 GMR 的“Dance 5”动作出现突然跳变伪影时,作者提到:“The sudden jumps in the GMR retargets are a rare occurrence... Since we use the same optimization weights for all experiments, some motions might require further weight tuning to achieve optimal results.”(GMR 重定向中突然的跳变很少发生……由于我们对所有实验都使用了相同的优化权重,某些动作可能需要进一步的权重调整才能获得最佳结果。)这暗示了 GMR 优化过程中的权重参数(如 )对最终重定向质量的影响,并且可能需要针对特定动作进行微调以消除优化伪影。这可以被视为对 GMR 参数敏感性的一种间接讨论,而非系统的消融分析。
7. 总结与思考
7.1. 结论总结
本文通过系统性研究,明确指出运动重定向的质量对人形机器人运动跟踪策略的性能具有关键影响。研究发现,在缺乏大量奖励工程和域随机化的情况下,重定向过程中引入的伪影(特别是地面穿透、自穿透和关节值突然跳变)会显著降低策略的鲁棒性,甚至导致学习失败。
为了解决这些问题,本文提出了一种新的通用运动重定向方法 GMR,该方法通过改进的非均匀局部缩放策略和两阶段优化过程,能够生成高质量、少伪影的重定向运动。实验结果表明,GMR 在跟踪性能和对源运动的感知忠实度方面均显著优于现有的开源方法 PHC 和 ProtoMotions,并且表现出与高质量闭源 Unitree 数据集相近的性能。这表明 GMR 是一个可行的开源替代方案,能够为人形机器人学习提供更可靠的参考运动。
此外,研究还强调了参考运动起始帧选择的重要性,提醒研究者应确保起始姿态的稳定性。
7.2. 局限性与未来工作
论文作者指出了当前工作的以下局限性:
- 数据源限制:尽管考虑了多种运动,但所有数据均来自单一来源(
LAFAN1数据集)。未来的研究应扩展到更多样化的数据源,例如AMASS数据集或从单目视频重建的人体运动。 - 机器人平台限制:实验仅考虑了
Unitree G1机器人。这主要是受BeyondMimic代码库的限制,但重定向方法本身和BeyondMimic都是通用的。未来的工作应将分析扩展到其他人形机器人,例如Unitree H1。 - 交互场景限制:当前研究主要关注非交互式运动序列。未来的工作应探索重定向对涉及环境、物体或其他机器人交互的运动序列的影响。
7.3. 个人启发与批判
- 核心痛点与价值:本文深刻地揭示了“重定向质量”这一在人形机器人强化学习领域常常被忽视但至关重要的问题。以往的工作可能过于依赖奖励工程和域随机化来“弥补”重定向带来的伪影,而本文则从源头解决了问题,这种“釜底抽薪”的方法学具有很高的学术价值和实践意义。对于初学者而言,理解到数据质量(即重定向质量)可以直接影响模型学习的难易程度和最终性能,而不是盲目地堆叠复杂的 RL 算法或调整奖励函数,是一个非常重要的启发。
- GMR 的创新点:GMR 在缩放策略和两阶段优化上的改进是其成功的关键。非均匀局部缩放能够更好地适应人类和机器人身体结构的细微差异,而两阶段优化则能更鲁棒地找到高质量的 IK 解。这种“分而治之”的思想在复杂优化问题中非常有效。
- 用户研究的价值:除了量化的跟踪误差和成功率,用户研究(感知忠实度)的引入使得评估维度更加全面和人性化。毕竟,人形机器人模仿人类运动,其“外观”或“自然度”也是一个重要指标。
- 潜在问题与改进方向:
- GMR 优化权重的鲁棒性:论文提到 GMR 在极少数情况下仍会出现优化伪影(如“Dance 5”的关节跳变),且可能需要进一步的权重调整。这表明当前的优化权重设置可能不是完全通用的。未来的工作可以探索自适应权重调整机制,或通过数据驱动的方式学习这些优化权重,使其对不同动作更具鲁棒性。
- 计算效率:GMR 采用两阶段优化和微分 IK 求解器。虽然比
PHC的梯度下降更快,但与实时性要求更高的应用相比,其计算效率如何?论文未详细讨论 GMR 的运行时间,这对于实际部署是重要的考量。 - 泛化能力:虽然 GMR 在 LAFAN1 数据集上表现出色,但其在其他来源(如 AMASS)、不同类型(如交互式)的运动数据,以及形态差异更大的机器人上的泛化能力仍需进一步验证。
- 理论分析:除了实验结果,如果能提供更多关于为什么 GMR 的缩放和优化策略能有效减少伪影的理论分析或更深入的机制解释,将进一步提升论文的严谨性。
- 可迁移性:本文强调了高质量重定向数据对强化学习策略的重要性,这一结论不仅适用于人形机器人,也可能对其他需要将源运动(例如动物、虚拟角色)重定向到目标实体(例如不同形态的机器人、游戏角色)的领域具有指导意义。
相似论文推荐
基于向量语义检索推荐的相关论文。