PHUMA: Physically-Grounded Humanoid Locomotion Dataset
TL;DR 精炼摘要
PHUMA数据集通过物理约束重定向大规模人类视频,消除传统数据集悬浮、穿透和足滑等物理伪影,生成物理可行且多样的人形机器人运动。实验证明,PHUMA训练的策略在模仿未见动作和骨盆引导路径跟踪中均显著优于Humanoid-X和AMASS。
摘要
Motion imitation is a promising approach for humanoid locomotion, enabling agents to acquire humanlike behaviors. Existing methods typically rely on high-quality motion capture datasets such as AMASS, but these are scarce and expensive, limiting scalability and diversity. Recent studies attempt to scale data collection by converting large-scale internet videos, exemplified by Humanoid-X. However, they often introduce physical artifacts such as floating, penetration, and foot skating, which hinder stable imitation. In response, we introduce PHUMA, a Physically-grounded HUMAnoid locomotion dataset that leverages human video at scale, while addressing physical artifacts through careful data curation and physics-constrained retargeting. PHUMA enforces joint limits, ensures ground contact, and eliminates foot skating, producing motions that are both large-scale and physically reliable. We evaluated PHUMA in two sets of conditions: (i) imitation of unseen motion from self-recorded test videos and (ii) path following with pelvis-only guidance. In both cases, PHUMA-trained policies outperform Humanoid-X and AMASS, achieving significant gains in imitating diverse motions. The code is available at https://davian-robotics.github.io/PHUMA.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
PHUMA: 物理接地的人形机器人运动数据集 (PHUMA: Physically-Grounded Humanoid Locomotion Dataset)
1.2. 作者
Kyungmin Lee, Sibeen Kim, Minho Park, Hyunseung Kim, Dongyoon Hwang, Hojoon Lee, Jaegul Choo。 所有作者均隶属于 KAIST (韩国科学技术院)。
1.3. 发表期刊/会议
该论文发布于 arXiv 预印本平台,其发布状态显示为:Published at (UTC):2025-10-30T08:13:12.000Z。根据标题和内容,预计可能被提交至机器人学或人工智能领域的顶级会议或期刊,如 ICRA, IROS, NeurIPS, ICML 等。
1.4. 发表年份
2025年
1.5. 摘要
人形机器人运动模仿 (Motion imitation) 是一种很有前景的方法,能让智能体 (agents) 学习类人行为。现有方法通常依赖高质量的动作捕捉数据集,如 AMASS,但这些数据集稀缺且昂贵,限制了可扩展性和多样性。最近的研究试图通过转换大规模互联网视频来扩大数据收集规模,例如 Humanoid-X。然而,它们经常引入物理伪影 (physical artifacts),如悬浮 (floating)、穿透 (penetration) 和足部滑动 (foot skating),这阻碍了稳定的模仿。
为解决这些问题,本文引入了 PHUMA(Physically-grounded HUMAnoid locomotion dataset),一个物理接地的人形机器人运动数据集。PHUMA 利用大规模人类视频,并通过精心的数据策展 (data curation) 和物理约束重定向 (physics-constrained retargeting) 来解决物理伪影问题。PHUMA 强制执行关节限制 (joint limits)、确保地面接触 (ground contact) 并消除足部滑动,从而生成既大规模又物理可靠的动作。作者在两组条件下评估了 PHUMA:(i) 模仿自录测试视频中的未见动作 (unseen motion),以及 (ii) 仅通过骨盆引导的路径跟随 (path following with pelvis-only guidance)。在这两种情况下,经过 PHUMA 训练的策略 (policies) 均优于 Humanoid-X 和 AMASS,在模仿多样化动作方面取得了显著提升。代码已在 https://davian-robotics.github.io/PHUMA 上提供。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2510.26236
PDF 链接: https://arxiv.org/pdf/2510.26236v1.pdf
2. 整体概括
2.1. 研究背景与动机
论文试图解决的核心问题: 人形机器人要实现稳定且类人的运动,在现实世界中部署仍面临巨大挑战。现有的运动模仿方法虽然有潜力,但其性能受限于高质量、大规模且物理上可行的人类运动数据的稀缺性。具体来说,主要问题体现在:
- 动作捕捉 (Motion Capture, MoCap) 数据集的局限性: 尽管
AMASS等MoCap数据集质量高,物理可行性好,但它们规模小、收集成本高昂,且动作多样性有限,多集中于简单的行走或伸手动作。这限制了机器人学习复杂、多样化人类行为的能力。 - 大规模视频转换数据的物理伪影: 针对
MoCap数据的规模限制,近期研究(如Humanoid-X)尝试从大规模互联网视频中提取人类运动。然而,这种“视频到动作”的转换过程,以及随后的运动重定向 (motion retargeting) 阶段,经常引入严重的物理伪影,例如:- 关节违规 (Joint violation): 关节角度超出机器人物理极限。
- 悬浮 (Floating): 机器人脚部在空中,未与地面接触。
- 穿透 (Penetration): 机器人脚部穿透地面。
- 足部滑动 (Foot skating): 机器人脚部在接触地面时发生不自然的滑动。 这些伪影使得从这类数据中训练出来的机器人难以实现稳定和真实的模仿。
为什么这个问题在当前领域是重要的? 人形机器人被认为是通用具身人工智能 (general-purpose embodied AI) 的核心。要实现其在现实世界中的广泛应用,必须让其具备稳定、高效且自然类人的运动能力。运动模仿作为一种学习复杂行为的有效范式,其效果直接依赖于训练数据的质量。如果数据本身存在物理不一致性,那么无论学习算法多么先进,都难以训练出可靠的机器人策略。解决这一问题将极大地推动人形机器人领域的发展,使其能够学习更广泛、更复杂的任务。
这篇论文的切入点或创新思路: 本文的创新点在于认识到“规模”和“质量”两者对于运动数据集的重要性,并提出了一种结合两者优势的解决方案。它从大规模互联网视频数据出发,但并未盲目使用,而是通过两个关键步骤来解决物理伪影问题:
- 精心的物理感知数据策展 (Physics-aware data curation): 过滤掉原始视频转换数据中明显不可行的动作。
- 物理约束的运动重定向 (Physics-constrained motion retargeting, PhySINK): 在将人类运动适应到机器人形态时,显式地引入物理约束,确保关节限制、地面接触和防滑动。 这种方法旨在构建一个既能提供大规模多样化运动,又能保证物理可靠性的数据集,从而为人形机器人学习更复杂、更真实的运动行为奠定基础。
2.2. 核心贡献/主要发现
论文最主要的贡献:
- 引入
PHUMA数据集: 提出了PHUMA,一个大规模(73小时)、物理接地的人形机器人运动数据集。该数据集通过对现有大规模视频转换数据进行物理感知策展,并结合创新的物理约束重定向方法PhySINK而构建。它弥补了现有数据集在规模、多样性和物理可靠性之间的鸿沟。 - 提出了
PhySINK重定向方法: 开发了一种物理约束的形状自适应逆运动学 (Physically-grounded Shape-adaptive Inverse Kinematics) 方法PhySINK。PhySINK在保留运动风格的同时,通过集成关节可行性 (Joint Feasibility)、接地 (Grounding) 和防滑动 (Anti-Skating) 损失项,显著消除了重定向过程中常见的物理伪影。 - 验证了
PHUMA和PhySINK的有效性: 在Unitree G1和H1-2两种人形机器人上,使用PHUMA训练的策略在:- 未见动作模仿任务中,成功率显著优于
AMASS和Humanoid-X训练的策略(分别高出 1.2倍 和 2.1倍)。 - 仅骨盆引导的路径跟随任务中,整体成功率比
AMASS高出 1.4倍,在垂直和水平动作上分别提升 1.6倍 和 2.1倍。
- 未见动作模仿任务中,成功率显著优于
论文得出了哪些关键的结论或发现?
- 仅靠大规模数据不足以解决人形机器人运动模仿问题;数据的物理可靠性与规模同样重要。
- 通过对大规模视频转换数据进行物理感知策展,并结合物理约束的重定向,可以有效消除运动伪影,生成高质量、大规模且物理可靠的机器人训练数据。
PhySINK方法在保持运动保真度的同时,能将关节可行性、非悬浮、非穿透和非滑动性能提升到接近 100% 的水平。- 经过
PHUMA数据集训练的策略,在模仿多样化动作和执行复杂路径跟随任务方面,表现出比现有最佳数据集(如AMASS和Humanoid-X)更强的泛化能力和鲁棒性,尤其是在动态动作类型(垂直和水平动作)中优势明显。 PHUMA的平衡运动类型分布(相比AMASS和LaFAN1专注于少数动作类型)有助于训练出更全面的机器人运动策略。
3. 预备知识与相关工作
3.1. 基础概念
为了更好地理解这篇论文,我们需要了解以下几个核心概念:
-
运动模仿 (Motion Imitation):这是一种机器人控制方法,通过观察和学习人类或其他智能体的运动轨迹,使机器人能够复制这些运动。目标是让机器人模仿出与参考动作相似的姿态、速度和轨迹。在人形机器人领域,这意味着让机器人像人一样行走、奔跑、跳跃等。
-
人形机器人运动 (Humanoid Locomotion):指人形机器人如何在环境中移动,包括行走、奔跑、跳跃、平衡等各种移动方式。其核心挑战在于多自由度 (Degrees of Freedom, DoF) 的协调、平衡控制以及与环境的交互(如地面接触)。
-
强化学习 (Reinforcement Learning, RL):一种机器学习范式,智能体 (agent) 通过与环境的交互学习最优行为策略。智能体在执行动作后会收到奖励或惩罚信号,并通过最大化长期累积奖励来学习如何完成任务。在本文中,
RL用于训练机器人策略 (policies) 来模仿人类运动。 -
动作捕捉 (Motion Capture, MoCap):一种记录物体或人运动的技术,通常通过传感器(如光学标记、惯性测量单元)捕捉三维空间中的位置和姿态数据。
MoCap数据通常精度高,但收集成本昂贵且耗时,因此数据集规模有限。 -
SMPL(Skinned Multi-Person Linear Model):一个常用的人体三维模型,通过一组参数(形状参数和姿态参数)可以表示不同体型和姿态的人体。它将人体表示为一个网格模型,并可以根据关节角度和身体形状参数生成逼真的三维人体姿态。在视频到动作的转换中,通常会提取视频中人物的SMPL参数。 -
逆运动学 (Inverse Kinematics, IK):在机器人学中,
IK解决的是给定机器人末端执行器(如手、脚)在空间中的目标位置和方向,计算出机器人各个关节需要旋转的角度。传统的IK方法通常注重精确匹配末端执行器位置,但可能不考虑关节限制或整体运动的自然性。 -
形状自适应逆运动学 (Shape-adaptive Inverse Kinematics, SINK):
SINK是IK的一个变体,它在计算关节角度时,会首先将源人类模型调整以匹配目标机器人(如人形机器人)的身体形状和肢体比例。这样可以更好地保留原始运动风格,但仍可能忽略物理可行性,导致关节限制违规或不真实的地面交互。 -
物理伪影 (Physical Artifacts):指在运动数据处理或重定向过程中引入的不符合物理规律的现象。论文中提到的主要伪影包括:
- 关节违规 (Joint violation):关节角度超出其机械限制。
- 悬浮 (Floating):机器人身体部分(通常是脚)在应该接触地面时却悬空。
- 穿透 (Penetration):机器人身体部分穿透地面或其他物体。
- 足部滑动 (Foot skating):机器人脚部在应该固定在地面时却发生非预期的滑动。
-
数据策展 (Data Curation):指对原始数据进行收集、组织、过滤、清洗和维护的过程,以确保数据的质量、可用性和长期价值。在本文中,
数据策展旨在从大规模视频转换数据中去除物理不可行的部分。
3.2. 前人工作
论文在 2. RELATED WORK 部分详细回顾了相关工作,主要集中在人类运动数据来源和人形运动重定向两个方面。
3.2.1. 人类运动数据 (Human Motion Data)
- 传统
MoCap数据集:CMU (2003),Zhang et al. (2022),Al-Hafez et al. (2023)等提供精确的运动学数据,但由于依赖复杂仪器(多摄像头阵列、标记服),难以扩展。LaFAN1 (Harvey et al., 2020)规模较小(数小时)。AMASS (Mahmood et al., 2019)是最广泛使用的,但仍主要包含室内实验室的行走动作,规模和多样性有限。 - 视频转换数据: 近期趋势是利用大规模互联网视频来扩展数据收集,例如 ,
Zhang et al. (2025),Chung et al. (2021), ,Tsuchida et al. (2019)。Humanoid-X (Mao et al., 2025)是这一趋势的代表,它将视频转换为SMPL表示,然后重定向到人形机器人。然而,这种数据来源存在问题:- 视频到动作模型的误差: 视频到动作模型 (e.g.,
Kocabas et al., 2020) 经常错误估计全局骨盆平移,导致悬浮或地面穿透。 - 高频抖动: 视频提取的运动常有严重的帧间抖动 (
Kocabas et al., 2020; Wang et al., 2024)。 - 物理伪影: 包括与未建模对象(如不存在的椅子)的交互 (
Luo et al., 2023; 2024),以及不合理的足地接触(悬浮、穿透) (Goel et al., 2023; Ye et al., 2023; Yu et al., 2021; Ugrinovic et al., 2024)。
- 视频到动作模型的误差: 视频到动作模型 (e.g.,
- 本文的定位:
PHUMA旨在结合MoCap和视频数据的优点,通过物理感知的策展流水线,修正不合理的足地接触并过滤掉损坏的序列,生成大规模、多样化且经过修正的运动数据集。
3.2.2. 人形运动重定向 (Humanoid Motion Retargeting)
- 重定向挑战: 人类运动数据 (
SMPL格式) 广泛用于物理角色控制,现在也应用于人形机器人 (Radosavovic et al., 2024a; Fu et al., 2024; Cheng et al., 2024; Ji et al., 2024; Chen et al., 2025; Xie et al., 2025; Truong et al., 2025; Li et al., 2025)。但由于人类与机器人在形态上的差异,运动重定向 (Kim et al., 2025; Ho et al., 2010; Zhang et al., 2023) 面临挑战。 - 传统
IK:IK方法 (Radosavovic et al., 2024b; Zakka, 2025; Caron et al., 2025; Ze et al., 2025a;b) 往往忽略身体形状差异,导致不自然的运动。 SINK方法: 形状自适应逆运动学 (SINK) 方法 (He et al., 2024b;a; 2025a;b; Cheynel et al., 2023; Allshire et al., 2025) 通过首先调整源人类模型以匹配目标机器人的身体形状和肢体比例来解决运动不匹配问题。它们通过匹配全局关节位置或局部肢体方向来对齐运动。SINK的局限性: 尽管SINK在姿态匹配方面有效,但它们在物理上约束不足,引入了关节限制违规和不合理的地面交互(悬浮、穿透、滑动)等伪影。- 本文的定位: 物理接地形状自适应逆运动学 (
PhySINK) 直接通过在优化中增加关节可行性、接地和防滑动损失项来解决这些物理伪影,确保重定向的运动在忠实于源动作的同时,保持物理上的合理性。
3.3. 技术演进与差异化分析
技术演进: 人形机器人运动数据收集和重定向的技术演进大致经历了以下阶段:
- 早期
MoCap时代: 高精度但规模小、成本高、多样性不足。代表:CMU MoCap,AMASS。 - 大规模视频转换时代: 利用互联网视频扩大数据规模和多样性,但牺牲了物理质量,引入大量伪影。代表:
Humanoid-X。 - 物理约束重定向的兴起: 认识到物理可行性的重要性,开始尝试在重定向过程中加入物理约束。例如,
SINK关注形状匹配,但仍未能完全解决物理伪影。 PHUMA的贡献: 在大规模视频转换数据的基础上,通过严格的物理感知数据策展和创新的物理约束重定向PhySINK,实现了规模、多样性和物理可靠性的兼顾。
差异化分析:
本文的 PHUMA 数据集及其构建方法 PhySINK 与现有工作的主要区别和创新点在于:
-
与
AMASS相比:PHUMA在保持甚至超越AMASS物理可靠性的前提下,提供了大得多的规模和多样性。AMASS虽质量高,但其动作主要集中于简单的室内活动,而PHUMA覆盖了更广泛的动态和复杂动作类型。 -
与
Humanoid-X相比:Humanoid-X虽规模庞大,但其直接从视频转换而来的数据存在大量物理伪影。PHUMA通过其两阶段的物理感知处理流程(策展 + PhySINK),系统地解决了Humanoid-X数据中的这些伪影,从而提供了高得多的物理可靠性,使得训练出的机器人策略更加稳定和有效。 -
与传统
IK相比:PhySINK不仅解决了IK在运动风格保真度方面的不足,更重要的是,它显式地加入了物理约束,解决了IK无法保证关节可行性、地面接触和足部滑动等问题。 -
与
SINK相比:SINK旨在解决运动不匹配和风格保真度问题,但其“物理上约束不足”的本质导致了物理伪影。PhySINK在SINK的基础上,增加了关节可行性、接地和防滑动损失项,从而在保留运动风格的同时,确保了物理上的合理性。这是PhySINK的核心创新点。总之,
PHUMA和PhySINK的核心价值在于,它们提供了一种在大规模、多样化运动数据与高物理可靠性之间取得平衡的有效解决方案,为人形机器人学习更复杂、更真实的运动行为铺平了道路。
4. 方法论
本文的目标是构建 PHUMA,一个大规模、物理可靠的人形机器人运动数据集。该方法基于 Humanoid-X 的大规模运动数据,并解决其中存在的物理伪影。整个流水线分为两个主要阶段,如图3所示:首先进行物理感知策展 (Physics-aware Curation) 以过滤问题动作,然后使用 PhySINK (Physics-constrained Retargeting) 方法将策展后的动作重定向到人形机器人,同时强制执行物理合理性。
以下是原文 [Figure 3] 的结果:
该图像是示意图,展示了PHUMA数据集构建流程,左侧为多样的运动数据来源包括动作数据集和视频转动作,右侧通过去除物理不合理动作如抖动、坐姿、悬浮和穿透以保证数据质量。
以下是原文 [Figure 5] 的结果:
该图像是论文PHUMA中的示意图,展示了视频到动作的转化流程,包括视频输入、动作生成、重新定向和策略训练,体现了基于物理约束的人形运动模仿过程。
4.1. 物理感知动作数据策展 (Physics-Aware Motion Curation)
策展流水线的目的是精炼原始运动数据,这些数据通常包含使运动对人形机器人而言物理上不可行的伪影。该过程旨在解决严重抖动、与未建模对象交互导致的不稳定性以及不正确的足地接触等关键问题。
4.1.1. 运动数据低通噪声滤波 (Low-Pass Noise Filtering for Motion Data)
为减轻高频抖动,我们对所有运动通道应用了零相位、4阶 Butterworth 低通滤波器 (low-pass Butterworth filter)。
- 对于根平移 (root translation),截止频率为 。
- 对于全局方向 (global orientation) 和身体姿态 (body pose),截止频率为 。 这里, 为采样频率,。
4.1.2. 提取地面接触信息 (Extracting Ground Contact Information)
为了准确检测地面接触,需要识别 SMPL-X 模型上最能指示地面交互的脚部顶点。
我们从 SMPL-X 默认姿态的每个脚部区域(左脚跟、左脚趾、右脚跟、右脚趾)选择22个垂直最低的顶点,总共88个顶点。
以下是原文 [Figure 6] 的结果:
该图像是雷达图,展示了PHUMA、AMASS和LaFAN1三个数据集中不同动作类型的总时长分布。图中PHUMA覆盖动作种类广且时长显著高于其他两个数据集。
以下是原文 [Table 6] 的结果:
| Region | Vertex indices |
|---|---|
| Left heel | 8888, 8889, 8891, 8909, 8910, 8911, 8913, 8914, 8915, 8916, 8917, 8918, 8919, 8920, 8921, 8922, 8923, 8924, 8925, 8929, 8930, 8934 |
| Left toe | 5773, 5781, 5782, 5791, 5793, 5805, 5808, 5816, 5817, 5830, 5831, 5859, 5860, 5906, 5907, 5908, 5909, 5912, 5914, 5915, 5916, 5917 |
| Right heel | 8676, 8677, 8679, 8697, 8698, 8699, 8701, 8702, 8703, 8704, 8705, 8706, 8707, 8708, 8709, 8710, 8711, 8712, 8713, 8714, 8715, 8716 |
| Right toe | 8467, 8475, 8476, 8485, 8487, 8499, 8502, 8510, 8511, 8524, 8525, 8553, 8554, 8600, 8601, 8602, 8603, 8606, 8608, 8609, 8610, 8611 |
为了正确放置运动,建立一个单一、一致的地面平面至关重要。本文通过“多数投票”方案来寻找使足部接触持续时间最长的地面高度。
- 生成候选地面坐标: 对于每一帧 ,计算这88个点的最小垂直位置,将其记录为地面平面的候选坐标 。
- 评估候选坐标并选择最佳地面平面: 通过计算在所有帧中落入其 容差带内的足部顶点总数来评估每个候选 。选择计数最高的候选 作为最佳地面平面。
- 垂直平移: 整个运动序列将被垂直平移,以将 放置在原点高度。
4.1.3. 物理信息过滤动作数据 (Filtering Motion Data By Physical Information)
在建立了可靠的地面平面后,我们将所有序列分割成4秒的片段。然后,丢弃任何表现出以下特征的片段:
-
过度急动 (excessive jerk):代表根平移加速度的剧烈变化,预示着突兀或不自然的运动。
-
重心 (CoM) 远离支持基底 (support base):表明不稳定。
-
足地接触不足 (insufficient foot-ground contact)。
以下是原文 [Table 7] 的结果:
Metric Threshold Root jerk < 50 m/s3 Foot contact score > 0.6 Minimum pelvis height > 0.6 m Maximum pelvis height < 1.5 m Pelvis distance to base of support < 6 cm Spine1 distance to base of support < 11 cm
足部接触分数 (Foot contact score) 衡量足地交互的一致性和充分性,基于顶点与地面的接近程度定义的等级地面接触信号。给定一个包含 帧的子片段,足部接触分数计算如下:
其中:
- 是子片段的帧数。
- 是时间索引,从
1到 。 - 是左脚跟在时间 的接触分数。
- 是左脚趾在时间 的接触分数。
- 是右脚跟在时间 的接触分数。
- 是右脚趾在时间 的接触分数。 低足部接触分数表示显著的穿透或悬浮,这都是不希望的伪影。
最后,我们将这些策展后的运动数据与 LaFAN1、LocoMuJoCo 和我们自己拍摄的视频数据进行扩充。
4.2. 物理约束动作重定向 (Physics-Constrained Motion Retargeting) (PhySINK)
逆运动学 (IK) 方法通常无法保留动作风格,而形状自适应逆运动学 (SINK) 虽然能保留风格,但会引入关节违规和不真实的地面交互等伪影(如图4所示)。我们的方法 PhySINK 通过在 SINK 的基础上扩展关节可行性、接地和防滑动损失,克服了这些问题,生成了既忠实于风格又物理上合理的动作。
以下是原文 [Figure 4] 的结果:
该图像是图4的示意图,展示了动作复用过程中常见的物理伪影问题。图中从左到右依次为动作不匹配、关节违反、悬空、穿透和滑动,反映了动作重定向中对物理约束的挑战。
4.2.1. 动作保真度损失 (Motion Fidelity Loss)
我们优化人形机器人的关节位置 和根平移 随时间 的变化,使重定向后的运动能紧密匹配人类运动。动作保真度损失 定义为:
其中:
- 表示在时间 时
SMPL-X模型中关节 的全局3D位置。 - 表示在时间 时人形机器人模型中关节 的全局3D位置。
- 表示 范数,用于计算位置差异。 该损失旨在匹配所有关节的全局位置。
其中:
- 表示关节 和关节 之间的位置差异向量。
- 是一个二值掩码,当 和 在人形机器人运动学树中是直接相邻的关节时为1,否则为0。
position部分使用 范数计算位置差异的平方。orientation部分使用 和点积来匹配肢体方向,其中 和 向量的点积用于衡量方向的相似性(归一化后接近1表示方向一致)。 该损失旨在匹配局部肢体的位置和方向。
其中:
- 表示关节角度 的时间导数(关节速度)。
- 表示根平移 的时间导数(根速度)。 该损失项使用三点中心差分近似来惩罚运动的急动 (jerk),促进运动平滑。
最终的 动作保真度损失 是上述三个损失项的加权和:
其中 , , 是对应的权重。
运动保真度 (Motion Fidelity) (%) 定义为:平均每帧中,平均每关节位置误差低于 且平均每肢体方向误差低于 10 度 的帧百分比。
4.2.2. 关节可行性损失 (Joint Feasibility Loss)
违反关节限制的配置会导致不真实的运动或模拟器中的不稳定。关节可行性损失 惩罚接近或超出人形机器人预定义操作限制的关节角度和速度:
其中:
- 是时间 时的关节角度。
- 和 分别是关节的最大和最小限制角度。
- 确保只惩罚超出限制的部分。 该损失项惩罚关节位置超出其 限制的行为。
其中:
- 是时间 时的关节速度。
- 和 分别是关节的最大和最小速度限制。 该损失项惩罚关节速度超出其 限制的行为。
最终的 关节可行性损失 是位置违规和速度违规损失的和:
关节可行性 (Joint Feasibility) (%) 定义为:所有关节位置和速度均保持在其预定义机械限制的 以内的帧百分比。
4.2.3. 接地损失 (Grounding Loss)
接地损失通过强制人形机器人的足部区域在检测到接触的帧中保持在地面平面上,来纠正悬浮或穿透伪影:
其中:
-
表示足部区域:左脚跟 (Left Heel)、左脚趾 (Left Toe)、右脚跟 (Right Heel) 和右脚趾 (Right Toe)。
-
是时间索引。
-
是在时间 时足部区域 的接触分数(
contact score)。 -
是在时间 时足部区域 的垂直( 轴)位置。
-
表示 范数的平方,惩罚足部区域的垂直位置偏离地面(即 )。
非悬浮 (Non-Floating) (%) 定义为:足部在离地 以内的接触帧百分比。 非穿透 (Non-Penetration) (%) 定义为:足部在低于地面 以内的接触帧百分比。
4.2.4. 滑动损失 (Skating Loss)
滑动损失通过惩罚与地面接触的任何足部区域的水平速度来防止足部滑动:
其中:
-
同样表示足部区域。
-
是时间索引。
-
是在时间 时足部区域 的接触分数。
-
是在时间 时足部区域 的水平(
x, y轴)速度。 -
表示 范数,惩罚足部在接触地面时仍有水平移动。
非滑动 (Non-Skating) (%) 定义为:足部的水平速度低于 的接触帧百分比。
4.2.5. PhySINK 总目标函数 (PhySINK Objective)
基线 SINK 方法的目标函数仅包含 动作保真度损失。
我们的 PhySINK 目标函数是 动作保真度损失 和各物理约束项的加权和。通过优化这个增强的目标函数,PhySINK 生成的运动既保持了与源动作的运动学相似性,又在物理上是合理的。
其中:
-
是动作保真度损失。
-
是关节可行性损失。
-
是接地损失。
-
是滑动损失。
-
, , 是对应物理约束损失项的权重。
通过在优化过程中增加这些物理约束损失,
PhySINK能够生成更符合机器人实际物理限制的运动,显著减少了重定向过程中的伪影。
5. 实验设置
本文通过三个研究问题 (RQ1, RQ2, RQ3) 来评估 PhySINK 的有效性和 PHUMA 数据集的性能。
5.1. 数据集
实验使用了以下数据集:
-
PHUMA: 本文提出的数据集,包含 73.0 小时、76.0K 个剪辑的物理接地运动数据。它聚合了来自MoCap和人类视频的多种子数据集,经过物理感知策展和PhySINK重定向。 -
LaFAN1: 小型、高质量的MoCap数据集 (2.4 小时)。 -
AMASS: 中等规模、中等质量的MoCap数据集 (20.9 小时),被广泛使用。 -
Humanoid-X: 大规模(231.4 小时)、但质量较低(因视频转换引入伪影)的互联网视频转换数据集。 -
自收集视频数据集 (Self-Collected Video Dataset): 为了公平评估未见动作的模仿性能,我们创建了一个包含 504 段自收集视频序列的评估数据集。这些视频均匀分布在11种动作类型中。这些视频首先通过
TRAM视频到动作模型 (Wang et al., 2024) 转换为SMPL人体运动参数,然后使用PhySINK重定向到人形机器人运动。以下是原文 [Table 1] 的结果:
Dataset # Clip # Frame Duration Source LocoMuJoCo (Al-Hafez et al., 2023) 0.78K 0.93M 0.86h Motion Capture GRAB (Taheri et al., 2020) 1.73K 0.20M 1.88h Motion Capture EgoBody (Zhang et al., 2022) 2.12K 0.24M 2.19h Motion Capture LAFAN1 (Harvey et al., 2020) 2.18K 0.26M 2.40h Motion Capture AMASS (Mahmood et al., 2019) 21.73K 2.25M 20.86h Motion Capture HAA500 (Chung et al., 2021) 1.76K 0.11M 1.01h Human Video Motion-X Video (Lin et al., 2023) 33.04K 3.45M 31.98h Human n Video HuMMan (Cai et al., 2022) 0.50K 0.05M 0.47h Human Video AIST (Tsuchida et al., 2019) 1.75K 0.18M 1.66h Human Video IDEA400 (Lin et al., 2023) 9.94K 0.98M 9.10h Human n Video PHUMA Video 0.50K 0.06M 0.56h Human Video PHUMA 76.01K 7.88M 72.96h
以下是原文 [Figure 8] 的结果:
该图像是雷达图,展示了PHUMA、AMASS和LaFAN1三个数据集中不同动作类型的总时长分布。图中PHUMA覆盖动作种类广且时长显著高于其他两个数据集。
以下是原文 [Figure 9] 的结果:
该图像是一个三阶段的示意图,展示了人体运动数据自采集到转化为机器人动作的流程,左侧为实际人类动作视频,中间为通过视频到动作模型提取的人体动作数据,右侧为最终映射到类人机器人上的动作。
5.2. 评估指标
论文使用了多种评估指标来衡量方法的有效性,包括重定向质量和策略性能。
5.2.1. 重定向质量指标 (Retargeting Quality Metrics)
这些指标用于评估重定向方法 (IK, SINK, PhySINK) 生成运动的物理合理性和保真度。
-
运动保真度 (Motion Fidelity) (%)
- 概念定义: 衡量重定向后的机器人运动与源人类运动的相似程度。它关注关节位置和肢体方向的匹配度。
- 计算方式: 定义为平均每帧中,平均每关节位置误差低于 且平均每肢体方向误差低于
10度 的帧百分比。 - 符号解释:
平均每关节位置误差:计算所有关节位置差异的平均值。平均每肢体方向误差:计算所有肢体方向差异的平均值。低于 10cm / 10度:设定一个误差阈值,判断是否匹配成功。
-
关节可行性 (Joint Feasibility) (%)
- 概念定义: 衡量重定向运动中关节姿态是否保持在人形机器人的物理限制范围内。过度的关节角度或速度会导致机器人损坏或运动不稳定。
- 计算方式: 定义为所有关节位置和速度均保持在其预定义机械限制的 以内的帧百分比。
- 符号解释:
所有关节位置和速度:指机器人所有关节的瞬时角度和角速度。预定义机械限制的 98% 以内:一个缓冲区域,确保关节不触及硬性限制。
-
非悬浮 (Non-Floating) (%)
- 概念定义: 衡量机器人的脚部在应该接触地面时没有悬空的程度。悬浮是一种常见的物理伪影。
- 计算方式: 定义为足部在离地 以内的接触帧百分比。
- 符号解释:
接触帧:通过足部接触分数判断为应该接触地面的帧。离地 1cm 以内:一个小的容差范围,允许微小的地面交互浮动。
-
非穿透 (Non-Penetration) (%)
- 概念定义: 衡量机器人的脚部在接触地面时没有穿透地面的程度。穿透也是一种常见的物理伪影。
- 计算方式: 定义为足部在低于地面 以内的接触帧百分比。
- 符号解释:
接触帧:同上。低于地面 1cm 以内:一个小的容差范围,允许微小的穿透。
-
非滑动 (Non-Skating) (%)
- 概念定义: 衡量机器人的脚部在接触地面时没有发生不自然水平滑动的程度。滑动会影响运动的稳定性。
- 计算方式: 定义为足部的水平速度低于 的接触帧百分比。
- 符号解释:
接触帧:同上。水平速度低于 10cm/s:设定一个速度阈值,判断足部是否静止。
5.2.2. 策略性能指标 (Policy Performance Metrics)
这些指标用于评估经过不同数据集训练的机器人策略在运动模仿和路径跟随任务中的表现。
-
成功率 (Success Rate)
- 概念定义: 衡量在指定偏差阈值内成功模仿动作或跟踪路径的运动序列比例。
- 计算方式: 对于全身运动跟踪任务(RQ1, RQ2),成功率衡量政策在整个运动序列中,机器人与目标动作的平均位置误差保持在 阈值内的运动比例。对于路径跟随任务(RQ3),成功率衡量政策在整个运动序列中,骨盆轨迹与目标骨盆轨迹的平均位置误差保持在 阈值内的运动比例。
- 符号解释:
指定偏差阈值:本文采用更严格的 阈值,而非传统 阈值,以更准确地反映模仿质量。平均位置误差:指机器人关节(或骨盆)与目标参考动作对应部分的平均三维距离。
-
动作类别 (Motion Categories) 为了评估策略在不同运动类型上的泛化能力,所有评估结果都被组织成四类:
- 静止 (Stationary): 如站立、伸手 (stand, reach)。
- 角度 (Angular): 如弯腰、扭转、转动、踢腿 (bend, twist, turn, kick)。
- 垂直 (Vertical): 如深蹲、弓步、跳跃 (squat, lunge, jump)。
- 水平 (Horizontal): 如行走、奔跑 (walk, run)。
5.3. 对比基线
对于重定向方法评估 (RQ1):
- IK (Inverse Kinematics):标准逆运动学求解器 (
Zakka, 2025)。 - SINK (Shape-adaptive Inverse Kinematics):形状自适应逆运动学框架。
- PhySINK (Ours):本文提出的物理约束形状自适应逆运动学。
对于数据集评估 (RQ2, RQ3):
- LaFAN1:小型、高质量的
MoCap数据集。 - AMASS:中等规模、广泛使用的
MoCap数据集。在对比中,AMASS数据通过SINK方法进行重定向(因为AMASS提供了人类运动源数据)。 - Humanoid-X:大规模的互联网视频转换数据集。
- PHUMA (Ours):本文提出的数据集。
5.4. 训练设置
- 框架: 采用
MaskedMimic框架 (Tessler et al., 2024) 进行所有策略训练。 - 强化学习算法: 使用
PPO (Proximal Policy Optimization)(Schulman et al., 2017) 算法进行策略训练。 - 机器人平台:
IsaacGym模拟器中的Unitree G1(29 自由度, DoF) 和H1-2(21 自由度,不包括腕关节) 人形机器人。 - 全身运动跟踪 (RQ1, RQ2): 训练全身状态跟踪策略。
- 输入: 接收当前本体感受状态 (
proprioceptive state, )(包括关节位置、方向和速度)以及代表目标运动轨迹的完整目标状态 (full goal states, )。 - 输出: 策略输出关节角度指令 (
joint angle commands, ),通过PD控制器执行。 - 奖励函数: 旨在衡量人形机器人与目标运动的匹配程度。
- 输入: 接收当前本体感受状态 (
- 仅骨盆路径跟随 (RQ3): 采用
MaskedMimic的部分约束协议。- 首先在全身参考运动数据上训练一个全身教师策略 (
full-state teacher policy)。 - 然后使用知识蒸馏 (
knowledge distillation) 训练一个学生策略 (student policy),该学生策略模仿教师策略的动作,但仅接收骨盆位置和旋转作为输入。这使得机器人能够进行骨盆路径跟随控制,同时保持类人运动。
- 首先在全身参考运动数据上训练一个全身教师策略 (
5.4.1. 观察空间组成 (Observation Space Compositions)
观察空间包含本体感受状态 (Proprioceptive States) 和目标状态 (Goal States)。
以下是原文 [Table 8] 的结果:
| State | Dimension | |
| G1 | H1-2 | |
| (a) Proprioceptive State | ||
| Root height | 1 | 1 |
| Body position | 32 × 3 | 24 × 3 |
| Body rotation | 33 × 6 | 25 × 6 |
| Body velocity | 33 × 3 | 25 × 3 |
| Body angular velocity | 33 × 3 | 25 × 3 |
| (b) Goal State | ||
| Relative body position | 33 × 15 × 3 | 25 × 15 × 3 |
| Absolute body position | 33 × 15 × 3 | 25 × 15 × 3 |
| Relative body rotation | 33 × 15 × 6 | 25 × 15 × 6 |
| Absolute body rotation | 33 × 15 × 6 | 25 × 15 × 6 |
| Time | 33 × 15 × 1 | 25 × 15 × 1 |
| Total dim | 9898 | |
- 本体感受状态 (Proprioceptive States):
根高度 (Root height):1维。身体位置 (Body position):G1(32x3),H1-2(24x3)。不包括根节点位置。身体旋转 (Body rotation):G1(33x6),H1-2(25x6)。身体速度 (Body velocity):G1(33x3),H1-2(25x3)。身体角速度 (Body angular velocity):G1(33x3),H1-2(25x3)。
- 目标状态 (Goal States):
相对身体位置 (Relative body position):G1(33x15x3),H1-2(25x15x3)。表示未来15个时间步的参考运动状态与当前本体感受状态之间的差异。绝对身体位置 (Absolute body position):G1(33x15x3),H1-2(25x15x3)。表示相对于参考运动根位置的状态,提供了一个根相对坐标系下的目标运动。相对身体旋转 (Relative body rotation):G1(33x15x6),H1-2(25x15x6)。绝对身体旋转 (Absolute body rotation):G1(33x15x6),H1-2(25x15x6)。时间 (Time):G1(33x15x1),H1-2(25x15x1)。总维度 (Total dim):G1(9898),H1-2(计算方式类似G1)。
5.4.2. 奖励函数 (Reward Function)
用于训练跟踪策略的奖励函数由多个组成部分构成,包括运动跟踪任务奖励和正则化奖励。
以下是原文 [Table 9] 的结果:
| Term | Expression | Weight |
| (a) Task | ||
| Global body position | exp(−100 · kpt − ptk2) | 0.5 |
| Root height | exp(−100 · (hroot − hroot)2) | 0.2 |
| Global body rotation | exp(−10 · k|θt θtk2) | 0.3 |
| Global body velocity | exp(−0.5 ·kvt − vtk2) | 0.1 |
| Global body angular velocity | exp(−0.1 · ωt − ωt∥2) | 0.1 |
| (b) Regularization | ||
| Power consumption | F qk1 | -1e-05 |
| Action rate | kat − at−1k2 | -0.2 |
-
运动跟踪奖励 (Motion Tracking Rewards): 鼓励策略匹配参考运动。
全局身体位置 (Global body position):,权重 0.5。根高度 (Root height):,权重 0.2。全局身体旋转 (Global body rotation):,权重 0.3。全局身体速度 (Global body velocity):,权重 0.1。全局身体角速度 (Global body angular velocity):,权重 0.1。 (注:上述表达式中的 代表机器人的状态,带有上标ref的代表参考动作的目标状态。)
-
正则化奖励 (Regularization Rewards): 促进平稳稳定的运动执行。
功耗 (Power consumption):惩罚项 ,其中 是力, 是关节角度,权重 -1e-05。动作变化率 (Action rate):惩罚连续动作之间的剧烈变化 ,权重 -0.2。这有助于确保平滑的关节运动,防止突兀的动作转换。
5.4.3. PPO 超参数 (PPO Hyperparameter)
以下是原文 [Table 10] 的结果:
| Hyperparameter | Value |
| Optimizer | Adam |
| Num envs | 8192 |
| Mini Batches | 32 |
| Learning epochs | 1 |
| Entropy coefficient | 0.0 |
| Value loss coefficient | 0.5 |
| Clip param | 0.2 |
| Max grad norm | 50.0 |
| Init noise std | -2.9 |
| Actor learning rate | 2e-5 |
| Critic learning rate | 1e-4 |
| GAE decay factor(λ) | 0.95 |
| GAE discount factor(γ) | 0.99 |
| Actor Transformer dimension | 512 |
| Actor layers | 4 |
| Actor heads | 4 |
| Critic MLP size | [1024, 1024, 1024, 1024] |
| Activation | ReLU |
6. 实验结果与分析
本节评估了 PhySINK 和 PHUMA 的有效性,并回答了三个研究问题。
6.1. PhySINK 重定向方法有效性
为了评估 PhySINK 的有效性,我们将其与两种现有方法 IK 和 SINK 进行比较。我们使用这三种方法对 AMASS 数据集的相同源运动进行重定向,然后分别训练全身状态运动跟踪策略。
以下是原文 [Table 3] 的结果:
| PHUMA Test | Unseen Video | |||||||||
| Retarget | Total | Stationary | Angular | Vertical | Horizontal | Total | Stationary | Angular | Vertical | Horizontal |
| (a) G1 | ||||||||||
| IK | 52.8 | 75.3 | 43.9 | 24.3 | 44.2 | 54.0 | 80.3 | 54.6 | 32.7 | 43.3 |
| SINK | 76.2 | 88.5 | 72.1 | 56.8 | 66.8 | 70.2 | 90.7 | 75.0 | 62.7 | 44.1 |
| PhySINK | 79.5 | 89.9 | 76.1 | 61.1 | 69.5 | 72.8 | 93.3 | 78.2 | 65.5 | 47.3 |
| () H1-2 | ||||||||||
| IK | 45.3 | 70.9 | 35.7 | 15.2 | 35.0 | 54.2 | 78.0 | 60.7 | 30.1 | 28.6 |
| SINK | 54.4 | 74.9 | 45.9 | 17.2 | 49.6 | 64.3 | 87.3 | 59.7 | 46.0 | 63.9 |
| PhySINK | 64.3 | 83.6 | 57.0 | 27.7 | 555.9 | 72.4 | 99.2 | 66.3 | 57.4 | 63.1 |
分析:
-
IK 的局限性: 从
Table 3可以看出,IK在G1和H1-2机器人上的总成功率最低(G1: 52.8%,H1-2: 45.3%)。这表明传统的IK方法在动作保真度方面表现不佳,难以生成能够被有效模仿的运动。它在动态动作(垂直和水平)上的表现尤其差。 -
SINK 的提升:
SINK相较于IK有显著提升,G1和H1-2的总成功率分别达到 76.2% 和 54.4%。这验证了SINK在保留运动风格方面的有效性。然而,如前文所述,SINK牺牲了物理可靠性,这限制了其在实际模仿中的进一步表现。 -
PhySINK 的优势:
PhySINK持续优于IK和SINK,在所有动作类别和两种人形机器人上都取得了最高的成功率。- 在
G1上,PhySINK的总成功率为 79.5%(PHUMA测试集)和 72.8%(未见视频),均高于SINK和IK。 - 在
H1-2上,PhySINK的总成功率为 64.3%(PHUMA测试集)和 72.4%(未见视频),同样表现最佳。 - 尤其在动态动作中表现突出: 在
G1的垂直和水平动作上,PhySINK的成功率分别为 61.1% 和 69.5%,明显高于SINK的 56.8% 和 66.8%。这印证了物理约束对于动态运动的重要性,因为这些运动对物理合理性有更高的要求。
- 在
-
结论:
Table 3的结果有力地验证了PhySINK方法的有效性。它表明,物理接地重定向能够直接转化为更好的运动模仿性能,尤其是在物理约束最为关键的动态运动中,改进更为显著。此外,论文还通过
Table 2展示了PhySINK在重定向质量指标上的消融研究和量化比较。
以下是原文 [Table 2] 的结果:
| Motion Fidelity (%) Joint Feasibility (%) Non-Floating (%) Non-Penetration (%) Non-Skating (%) | |||||
| (a) G1 | |||||
| IK | 27.6 | 91.7 | 55.6 | 47.8 | 59.7 |
| SINK | 94.8 | 95.9 | 96.4 | 14.9 | 55.4 |
| + Joint Feasibility Loss | 94.9 | 100.0 | 96.4 | 14.8 | 55.6 |
| + Grounding Loss | 94.9 | 100.0 | 99.9 | 97.2 | 53.6 |
| + Skating Loss = PhySINK | 94.8 | 100.0 | 99.9 | 96.8 | 89.7 |
| () H1-2 | |||||
| IK | 36.3 | 80.9 | 57.7 | 45.2 | 56.1 |
| SINK | 93.9 | 15.3 | 42.2 | 81.4 | 47.9 |
| + Joint Feasibility Loss | 94.0 | 99.9 | 44.4 | 79.9 | 50.7 |
| + Grounding Loss | 93.9 | 99.9 | 99.8 | 98.1 | 49.3 |
| + Skating Loss = PhySINK | 93.9 | 99.9 | 99.7 | 97.7 | 87.7 |
分析:
- IK 的不足:
IK在运动保真度方面表现不佳(G1: 27.6%,H1-2: 36.3%),尽管在关节可行性、非悬浮、非穿透方面有一定数值,但这是因为其可能牺牲了姿态匹配来满足一些基本物理条件。 - SINK 提升保真度,但引入伪影:
SINK显著提升了运动保真度(G1: 94.8%,H1-2: 93.9%),但却引入了严重的物理伪影:G1上的非穿透率仅为 14.9%,H1-2上的关节可行性更是低至 15.3%(这可能是由于机器人形态差异导致关节容易超出限制)。 - PhySINK 的消融研究展示了各损失项的作用:
- + Joint Feasibility Loss: 加入关节可行性损失后,关节可行性显著提高,
G1和H1-2均达到接近 100%。这表明该损失有效解决了关节限制违规问题。 - + Grounding Loss: 加入接地损失后,非悬浮和非穿透性能大幅提升,均达到 96% 以上。这解决了足部与地面交互的伪影。
- + Skating Loss = PhySINK: 最终加入滑动损失后,非滑动性能也大幅提升,
G1达到 89.7%,H1-2达到 87.7%,同时保持了高运动保真度和其他物理指标的优秀表现。
- + Joint Feasibility Loss: 加入关节可行性损失后,关节可行性显著提高,
- 结论:
PhySINK在保留高运动保真度的同时,通过逐步引入物理约束损失,系统地解决了关节违规、悬浮、穿透和滑动等物理伪影,在所有物理指标上都取得了强大的性能。
6.2. PHUMA 数据集有效性
在验证了 PhySINK 的有效性后,我们比较 PHUMA 与现有的人形机器人数据集。我们使用 LaFAN1、AMASS、Humanoid-X 和 PHUMA 这四个数据集训练全身状态策略。AMASS 使用 SINK 重定向,而 LaFAN1 和 Humanoid-X 则直接使用其预先存在的机器人数据集。
以下是原文 [Table 4] 的结果:
| PHUMA Test | Unseen Video | ||||||||||
| Dataset | Hours | Total | Stationary | Angular | Vertical | Horizontal | Total | Stationary | Angular | Vertical | Horizontal |
| (a) G1 | |||||||||||
| LaFAN1 | 2.4 | 46.1 | 66.1 | 36.2 | 24.0 | 42.5 | 28.4 | 46.9 | 28.4 | 19.6 | 10.5 |
| AMASS | 20.9 | 76.2 | 88.5 | 72.1 | 56.8 | 66.8 | 70.2 | 90.7 | 75.0 | 62.7 | 44.1 |
| Humanoid-X | 231.4 | 50.6 | 78.4 | 43.0 | 26.0 | 31.8 | 39.1 | 78.0 | 39.6 | 23.0 | 6.5 |
| PHUMA | 73.0 | 92.7 | 95.6 | 91.7 | 886.00 | 85.6 | 82.9 | 96.7 | 88.0 | 7.8 | 67.1 |
| (b) H1-2 | |||||||||||
| LaFAN1 | 2.4 | 62.0 | 79.3 | 54.7 | 26.6 | 70.8 | 92.4 | 66.7 | 56.4 | 68.2 | |
| AMASS | 20.9 | 54.4 | 74.9 | 45.9 | 17.2 | 58.9 49.6 | 64.3 | 87.3 | 59.7 | 46.0 | 63.9 |
| Humanoid-X | 231.4 | 49.7 | 74.6 | 40.4 | 17.0 | 37.3 | 60.5 | 88.3 | 60.0 | 48.7 | 39.7 |
| PHUMA | 73.0 | 82.7 | 91.5 | 79.5 | 68.1 | 68.4 | 78.6 | 97.5 | 76.8 | 74.5 | 63.8 |
分析:
PHUMA的卓越性能: 经过PHUMA训练的策略在所有动作类别和两种人形机器人上都取得了最高的成功率。- 在
G1上,PHUMA在PHUMA Test和Unseen Video测试集上的总成功率分别为 92.7% 和 82.9%,远超其他数据集。 - 在
H1-2上,PHUMA的总成功率也达到了 82.7% 和 78.6%,同样表现最佳。
- 在
- 规模与质量并非独立: 结果表明,仅仅拥有大规模数据(如
Humanoid-X,231.4 小时)并不能保证高性能,因为它存在质量问题,在G1上的总成功率甚至低于AMASS(20.9 小时)。同样,仅有高质量但规模有限的数据(如LaFAN1,2.4 小时)也无法满足多样化模仿的需求。 PHUMA的平衡优势:PHUMA通过结合大规模(73小时)和高质量运动的特点,在多样化行为上提供了持续卓越的性能。它在静止、角度、垂直和水平所有动作类别上都表现出强大的泛化能力。- 例如,在
G1的垂直动作上,PHUMA的成功率(86.0%)远高于AMASS(56.8%)和Humanoid-X(26.0%)。
- 例如,在
- 结论:
PHUMA的实验结果证实了其作为训练语料库的有效性。它证明了在人形机器人运动学习中,兼具大规模和高质量的运动数据是实现泛化和强大模仿性能的关键。
6.3. 仅骨盆路径跟随控制性能 (Pelvis-Only Path Following Control Performance)
我们评估了 PHUMA 是否能更好地支持仅骨盆引导的路径跟随控制。我们训练了两个学生策略:一个由 AMASS 训练的教师策略蒸馏而来,另一个由 PHUMA 训练的教师策略蒸馏而来。两个学生策略都只接收骨盆位置和旋转作为输入。
以下是原文 [Table 5] 的结果:
| PHUMA Test | Unseen Video | |||||||||
| Dataset | Total | Stationary | Angular | Vertical | Horizontal | Total | Stationary | Angular | Vertical | Horizontal |
| (a) G1 | ||||||||||
| AMASS | 60.5 | 85.6 | 60.1 | 51.4 | 66.5 | 54.8 | 83.6 | 66.5 | 33.0 | 27.5 |
| PHUMA | 84.5 | 94.6 | 86.1 | 83.7 | 90.2 | 74.6 | 98.3 | 83.3 | 54.3 | 57.1 |
| (a) H1-2 | ||||||||||
| AMASS | 60.4 | 84.0 | 62.8 | 43.6 | 78.7 | 72.3 | 96.6 | 77.3 | 52.1 | 72.5 |
| PHUMA | 73.9 | 91.2 | 76.5 | 66.9 | 84.8 | 78.1 | 96.6 | 77.8 | 60.6 | 78.0 |
分析:
-
PHUMA的持续领先: 经过PHUMA训练的策略在所有动作类别和两种机器人上,都持续优于AMASS训练的策略。- 在
G1上,PHUMA在PHUMA Test和Unseen Video测试集上的总成功率分别为 84.5% 和 74.6%,而AMASS分别为 60.5% 和 54.8%。 - 在
H1-2上,PHUMA的总成功率也高于AMASS。
- 在
-
动态动作的显著提升: 这种改进在垂直和水平动作中尤为突出。
- 在
G1的PHUMA Test集上,PHUMA在垂直和水平动作上的成功率分别为 83.7% 和 90.2%,远高于AMASS的 51.4% 和 66.5%。 - 即使在
Unseen Video集上,PHUMA在这些动态动作上的性能也优于AMASS。
- 在
-
AMASS的局限性: 尽管AMASS包含许多行走动作,但在水平动作中仍然存在显著的性能差距,这是因为其缺乏更具动态性的运动(如奔跑)。图2(d) 和图5清晰地展示了这一点。 -
图5中的直观对比: 以下是原文 [Figure 5] 的结果:
该图像是论文中展示机器人奔跑动作路径跟踪对比的插图。图中以绿色线条表示目标骨盆路径,上排为基于AMASS训练的政策,显示多次跌倒,下排为基于PHUMA训练的政策,展现更稳定的奔跑轨迹。
图5直观地展示了在奔跑动作中,AMASS 训练的策略频繁失败(机器人摔倒),而 PHUMA 训练的策略能保持稳定的奔跑轨迹,成功跟随目标骨盆路径。这进一步强调了 PHUMA 包含更多样化和动态运动数据的重要性。
- 结论: 这些结果证实,
PHUMA能够实现比AMASS更多样化和动态的人形机器人控制,验证了PHUMA对于复杂控制任务的实际价值。
6.4. 成功率阈值分析 (Success Rate Threshold Analysis)
为了证明传统成功率阈值(如 )的局限性,我们使用 和更严格的 阈值对模仿性能进行评估。
以下是原文 [Table 11] 的结果:
| Success Threshold=0.15m | Success Threshold=0.5m | ||||||||||
| Dataset | Hours | Total | Stationary | Angular | Vertical | Horizontal | Total | Stationary | Angular | Vertical | Horizontal |
| (a) G1 | |||||||||||
| LaFAN1 | 2.4 | 46.1 | 66.1 | 36.2 | 24.0 | 42.5 | 74.8 | 87.8 | 69.2 | 47.1 | 72.6 |
| AMASS | 20.9 | 76.2 | 88.5 | 72.1 | 56.8 | 66.8 | 90.2 | 95.0 | 87.9 | 81.1 | 83.7 |
| Humanoid-X | 231.4 | 50.6 | 78.4 | 43.0 | 26.0 | 31.8 | 78.4 | 91.3 | 72.9 | 59.5 | 65.9 |
| PHUMA | 73.0 | 92.7 | 95.6 | 91.7 | 86.0 | 85.6 | 97.1 | 98.7 | 96.55 | 94.4 | 92.5 |
| (b) H1-2 | |||||||||||
| LaFAN1 | 2.4 | 62.0 | 79.3 | 54.7 | 26.6 | 58.9 | 70.8 | 92.4 | 66.7 | 56.4 | 68.2 |
| AMASS | 20.9 | 54.4 | 74.9 | 45.9 | 17.2 | 49.6 | 70.4 | 86.3 | 62.6 | 41.4 | 65.9 |
| Humanoid-X | 231.4 | 49.7 | 74.6 | 40.4 | 17.0 | 37.3 | 54.8 | 78.5 | 45.2 | 22.1 | 43.2 |
| PHUMA | 73.0 | 82.7 | 91.5 | 79.5 | 68.1 | 68.4 | 92.0 | 9.6 | 89.7 | 85.6 | 79.4 |
以下是原文 [Table 12] 的结果:
| Success Threshold=0.15m | Success Threshold=0.5m | ||||||||||
| Dataset | Hours | Total | Stationary | Angular | Vertical | Horizontal | Total | Stationary | Angular | Vertical | Horizontal |
| (a) G1 | |||||||||||
| LaFAN1 | 2.4 | 28.4 | 46.9 | 28.4 | 19.6 | 10.5 | 78.2 | 85.5 | 70.8 | 76.3 | 80.8 |
| AMASS | 20.9 | 70.2 | 90.7 | 75.0 | 62.7 | 44.1 | 92.3 | 99.2 | 92.1 | 82.1 | 88.0 |
| Humanoid-X | 231.4 | 39.1 | 78.0 | 39.6 | 23.0 | 6.5 | 84.1 | 98.3 | 79.9 | 76.0 | 76.2 |
| PHUMA | 73.0 | 82.9 | 96.7 | 88.0 | 71.8 | 67.1 | 93.7 | 100.0 | 96.8 | 85.9 | 84.7 |
| (b) H1-2 | |||||||||||
| LaFAN1 | 2.4 | 70.8 | 92.4 | 66.7 | 56.4 | 68.2 | 85.5 | 97.5 | 79.0 | 77.5 | 90.0 |
| AMASS | 20.9 | 64.3 | 87.3 | 59.7 | 46.0 | 63.9 | 80.4 | 93.3 | 69.9 | 72.8 | 89.0 |
| Humanoid-X | 231.4 | 60.5 | 88.3 | 60.0 | 48.7 | 39.7 | 68.7 | 93.3 | 65.1 | 60.2 | 50.5 |
| PHUMA | 73.0 | 78.6 | 97.5 | 768 | 74.5 | 63.8 | 889.9 | 99.2 | 89.4 | 84.6 | 83.9 |
分析:
- 宽松阈值的误导性: 在 的宽松阈值下,不同数据集训练的策略表现出相对相似的成功率,差异看起来并不显著。例如,在
G1的PHUMA Test集上,AMASS(90.2%) 和Humanoid-X(78.4%) 的总成功率看起来尚可。这种阈值可能错误地将机器人静止在跳跃动作中或在深蹲动作中保持直立的情况归类为成功。 - 严格阈值的揭示性: 然而,当采用更严格的 阈值时,不同策略之间的性能差异变得显著且更为突出。
- 在
G1的PHUMA Test集上,AMASS的总成功率从 90.2% 降至 76.2%,Humanoid-X从 78.4% 降至 50.6%。 - 相比之下,
PHUMA的总成功率从 97.1% 降至 92.7%,仍然保持了极高的精确度。
- 在
- 结论: 阈值分析验证了我们选择 作为更具意义的模仿质量度量。它表明,
PHUMA训练的策略能够实现更精确的运动跟踪,即使在严格的评估标准下也能保持准确性,这反映了PHUMA数据集的更高质量。
7. 总结与思考
7.1. 结论总结
本文介绍了 PHUMA,一个大规模且物理接地的人形机器人运动数据集。该数据集克服了现有运动模仿流水线的局限性,特别是解决了视频驱动数据集中常见的物理伪影(如悬浮、地面穿透和关节违规)。PHUMA 通过结合大规模人类视频、精心的数据策展以及创新的物理约束重定向方法 PhySINK,生成了既多样化又物理可靠的运动。
实验结果表明:
PhySINK方法能够有效消除物理伪影,同时保持运动的风格保真度,在关节可行性、接地和防滑动等指标上表现卓越。- 经过
PHUMA数据集训练的策略,在Unitree G1和H1-2人形机器人上的运动模仿和仅骨盆引导的路径跟随任务中,性能持续优于使用AMASS和Humanoid-X等现有数据集训练的策略。 - 研究强调了在人形机器人运动学习中,数据规模和物理可靠性同等重要的原则。
7.2. 局限性与未来工作
作者指出了以下局限性和未来研究方向:
- 模拟到真实世界的迁移 (sim-to-real transfer): 当前工作主要在模拟环境中进行。未来的工作将专注于将
PHUMA训练的策略迁移到真实的人形机器人上,以验证其在物理世界中的物理可靠性。 - 基于视觉的控制 (vision-based control): 目前策略的输入是特权状态信息(privileged state inputs)。未来的方向是探索基于视频观察的控制,使其更能与现实世界的感知对齐。
7.3. 个人启发与批判
7.3.1. 个人启发
- 数据质量与数量的辩证统一: 这篇论文最有价值的启发在于,它清晰地揭示了在大规模数据时代,数据“量”与“质”的辩证关系。许多深度学习任务倾向于追求数据规模,但对于物理具身智能体 (embodied agents) 而言,不符合物理规律的数据(即使量再大)也可能适得其反。
PHUMA提供了一个优雅的解决方案,即在利用大规模数据潜力的同时,通过系统性的策展和物理约束确保数据质量,这对于未来具身 AI 的数据构建具有通用指导意义。 - 物理约束的价值:
PhySINK方法强调了将领域知识(物理约束)融入机器学习流水线的重要性。在许多任务中,纯数据驱动的方法可能在数据稀缺或存在噪声时表现不佳。通过显式地将关节限制、地面接触和防滑动等物理原理编码到重定向优化中,不仅提升了运动的真实性,也极大地提高了下游强化学习策略的训练效率和稳定性。 - 细粒度评估的重要性: 论文通过对比 和 成功率阈值的差异,有力地说明了选择合适的、更严格的评估指标对于真实反映模型性能的重要性。这提醒研究者在评估时应避免使用过于宽松的指标,以免掩盖模型的真实不足,从而阻碍技术进步。
- 数据集构建的复杂性: 论文详细描述了
PHUMA数据集的构建过程,从低通滤波、地面接触提取到多维度物理信息过滤,再到重定向和损失函数的构建,每一个环节都体现了工程与科学的严谨。这为未来高质量具身 AI 数据集的构建提供了宝贵的经验。
7.3.2. 潜在的问题、未经验证的假设或可以改进的地方
- 物理约束的通用性与可迁移性:
PhySINK中的物理约束是针对特定人形机器人(Unitree G1/H1-2)的。虽然核心思想是通用的,但具体的关节限制、接触区域定义等在不同形态机器人之间可能需要调整。未来的工作可以探索一种更通用的、自适应的物理约束定义方法,以减少在新机器人上的手动配置工作。 - 动态交互与环境感知:
PHUMA关注的是在平坦地面上的运动,而真实世界充满了不平坦地形、障碍物和动态交互。尽管PhySINK改善了足地接触,但对于复杂环境下的全身动力学(如推、拉、负重、穿越障碍)的建模和重定向,仍是未来的挑战。未来的数据集可以考虑包含更多与环境复杂交互的动作。 - 计算成本: 精心的物理感知策展和带有多项损失的
PhySINK重定向过程,相较于简单的视频到动作转换,无疑会增加计算成本。虽然论文强调了高质量数据的重要性,但未详细讨论其构建PHUMA的计算资源消耗。在大规模数据场景下,如何平衡数据质量、规模和构建效率是一个实际问题。 - 人类意图与情境理解: 当前的运动模仿仍停留在“复制动作”层面。真正的“类人”行为不仅是动作本身,还包含背后的意图、情境理解和适应性。
PHUMA提供了高质量的动作数据,但如何将这些动作与更高层次的任务目标、环境语义结合起来,是具身 AI 更深层的挑战。未来的数据集可以尝试融入更多的任务导向信息或环境上下文。 - 数据平衡的进一步优化: 尽管
PHUMA比现有数据集更平衡,但从图8的雷达图来看,不同动作类型之间的时长仍有差距。例如,“扭转”和“跳跃”的相对时长仍低于“行走”或“站立”。进一步平衡各类动作的覆盖,尤其是那些对机器人平衡和灵活性要求更高的动态动作,可能会进一步提升策略的泛化能力。
相似论文推荐
基于向量语义检索推荐的相关论文。