AiPaper
论文状态:已完成

KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills

发表:2025/06/15
原文链接PDF 下载
价格:0.10
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为`KungfuBot`的基于物理的类人机器人控制框架,旨在通过多步骤运动处理和自适应运动追踪,学习模仿高动态人类行为如功夫和舞蹈。通过双层优化动态调整追踪精度,显著降低跟踪误差并成功应用于机器人,展示出稳定而生动的表现。

摘要

Humanoid robots are promising to acquire various skills by imitating human behaviors. However, existing algorithms are only capable of tracking smooth, low-speed human motions, even with delicate reward and curriculum design. This paper presents a physics-based humanoid control framework, aiming to master highly-dynamic human behaviors such as Kungfu and dancing through multi-steps motion processing and adaptive motion tracking. For motion processing, we design a pipeline to extract, filter out, correct, and retarget motions, while ensuring compliance with physical constraints to the maximum extent. For motion imitation, we formulate a bi-level optimization problem to dynamically adjust the tracking accuracy tolerance based on the current tracking error, creating an adaptive curriculum mechanism. We further construct an asymmetric actor-critic framework for policy training. In experiments, we train whole-body control policies to imitate a set of highly-dynamic motions. Our method achieves significantly lower tracking errors than existing approaches and is successfully deployed on the Unitree G1 robot, demonstrating stable and expressive behaviors. The project page is https://kungfu-bot.github.io.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills (功夫机器人:基于物理的类人机器人全身控制,用于学习高动态技能)

1.2. 作者

Weiji Xie*, Jinrui Han*, Jiakun Zheng*, Huanyu Li, Xinzhe Liu, Jiyuan Shi, Weinan Zhang, Chenjia Bai†, Xuelong Li‡

*表示共同第一作者。 †表示通讯作者。 ‡表示通讯作者。

隶属机构:

  1. 中国电信人工智能研究院 (Institute of Artificial Intelligence (TeleAI), China Telecom)
  2. 上海交通大学 (Shanghai Jiao Tong University)
  3. 华东理工大学 (East China University of Science and Technology)
  4. 哈尔滨工业大学 (Harbin Institute of Technology)
  5. 上海科技大学 (ShanghaiTech University)

1.3. 发表期刊/会议

该论文作为预印本 (preprint) 发布在 arXiv 上,并计划发表在顶级的学术会议或期刊。虽然文章中提及了 NeurIPS Checklist,但目前状态为 arXiv 预印本,且发布日期为 2025-06-15T13:58:53.000Z。考虑到其研究内容涉及强化学习 (Reinforcement Learning, RL) 和机器人控制,如果能在顶级会议如 NeurIPS (Neural Information Processing Systems) 或 CoRL (Conference on Robot Learning) 上发表,将具有很高的影响力。

1.4. 发表年份

2025年

1.5. 摘要

现有的类人机器人 (humanoid robots) 算法在模仿人类行为时,通常只能追踪平滑、低速的动作,即使经过精心的奖励函数 (reward function) 设计和课程学习 (curriculum learning) 机制。本文提出了一种名为 KungfuBot 的基于物理的类人机器人控制框架 (Physics-Based Humanoid motion Control, PBHC),旨在通过多步骤运动处理和自适应运动追踪,掌握像功夫和舞蹈这类高动态人类行为。在运动处理方面,作者设计了一个流程,用于提取、过滤、修正和重定向 (retarget) 动作,同时最大限度地确保符合物理约束。在运动模仿方面,论文构建了一个双层优化 (bi-level optimization) 问题,根据当前追踪误差动态调整追踪精度容忍度 (tracking accuracy tolerance),从而创建了一种自适应课程机制。此外,作者还构建了一个非对称的演员-评论家框架 (asymmetric actor-critic framework) 进行策略训练 (policy training)。实验结果表明,该方法训练出的全身控制 (whole-body control) 策略在模仿一系列高动态动作时,比现有方法实现了显著更低的追踪误差,并成功部署到宇树 G1 (Unitree G1) 机器人上,展示了稳定和富有表现力的行为。

1.6. 原文链接

https://arxiv.org/abs/2506.12851

1.7. PDF 链接

https://arxiv.org/pdf/2506.12851v2.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

类人机器人由于其与人类相似的形态 (morphology),在模仿人类行为方面具有巨大潜力。然而,现有的算法在从人类运动数据中学习并模仿这些行为时面临巨大挑战,尤其是在处理高动态、高敏捷性 (highly-dynamic, agile) 动作时。目前的方法大多只能处理平滑、低速的动作,并且即使经过精心设计的奖励和课程机制也难以实现理想效果。

2.1.2. 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白?

  1. 物理可行性问题 (Physical Feasibility): 运动捕捉 (Motion Capture, MoCap) 系统获取的人类运动序列往往不符合类人机器人的物理约束,包括关节限制 (joint limits)、动力学 (dynamics) 和运动学 (kinematics)。直接使用这些数据进行策略训练 (policy training) 常常失败,因为理想的策略可能根本不存在于机器人的可行解空间 (solution space) 中。
  2. 运动数据质量和可用性问题: 尽管存在大量运动数据集,但它们通常缺乏机器人所需的物理信息,例如足部接触 (foot contact) 注释,这对于机器人的策略学习至关重要。同时,运动提取 (motion extraction) 过程中的不准确性也可能导致生成不符合物理规律的动作。
  3. 缺乏对高难度动作的容忍机制 (Lack of Tolerance Mechanisms for Hard Motions): 现有方法通常采用固定的奖励函数参数或课程设置。对于高动态或复杂动作,这些固定参数可能导致策略训练不稳定或无法收敛到精确的追踪性能。当参考动作本身不完美或过于复杂时,精确追踪变得不切实际,需要一种机制来适应性地调整追踪的“严格程度”。
  4. Sim-to-Real 迁移差距 (Sim-to-Real Gap): 在仿真环境 (simulation environment) 中训练的策略,在部署到真实机器人时往往面临性能下降的问题,这被称为 sim-to-real 迁移差距。

2.1.3. 这篇论文的切入点或创新思路是什么?

论文通过一个双阶段框架,从数据处理和策略训练两方面解决了上述挑战:

  1. 物理约束驱动的运动处理流程 (Physics-Based Motion Processing Pipeline): 针对运动数据不符合机器人物理约束的问题,提出了一套多步骤流程,包括基于物理指标的运动过滤、接触感知运动校正以及运动重定向。这确保了输入给强化学习 (Reinforcement Learning, RL) 过程的参考动作在最大程度上是物理可行的。
  2. 自适应运动追踪机制 (Adaptive Motion Tracking Mechanism): 针对高动态动作的追踪难度和缺乏容忍机制的问题,引入了自适应追踪因子 (adaptive tracking factor)。通过将追踪过程建模为双层优化问题,并设计一个在线的反馈循环机制来动态调整奖励函数中的追踪因子,从而在训练过程中逐步收紧对追踪精度的要求,实现对高难度动作的有效学习。
  3. 强化学习框架优化 (RL Framework Optimization): 采用非对称演员-评论家 (asymmetric actor-critic) 架构和奖励向量化 (reward vectorization) 技术来提高策略训练的稳定性和效率。

2.2. 核心贡献/主要发现

2.2.1. 论文最主要的贡献

  1. 提出 PBHC 框架: 这是一个两阶段的类人机器人全身控制框架,专门用于学习高动态和敏捷的人类技能。
  2. 设计物理约束驱动的运动处理流程: 包括从视频中提取动作、基于物理指标进行过滤(例如,中心质量 CoM 与压力中心 CoP 的稳定性)、基于接触掩码 (contact mask) 进行校正,并使用微分逆运动学 (differential inverse kinematics) 将动作重定向到机器人,确保参考动作的物理可行性。
  3. 开发自适应运动追踪机制: 提出了一个基于双层优化 (bi-level optimization) 的自适应机制,动态调整奖励函数中的追踪精度容忍度(即追踪因子 σ\sigma)。该机制通过一个在线反馈循环,根据当前的追踪误差自动收紧或放松对追踪精度的要求,从而实现对高难度动作的渐进式学习。
  4. 构建非对称演员-评论家架构: 引入奖励向量化 (reward vectorization) 和参考状态初始化 (Reference State Initialization, RSI) 等技术,进一步提升了策略训练的效率和稳定性,尤其是在处理多目标奖励和复杂状态空间时。

2.2.2. 论文得出了哪些关键的结论或发现?

  1. 显著降低追踪误差: PBHC 方法在模拟环境中实现了比现有方法(如 OmniH2OExBody2)显著更低的追踪误差,尤其是在中等和高难度动作上。
  2. 运动过滤的有效性: 基于物理的运动过滤方法能够有效筛选出机器人无法追踪的动作,提高了训练效率。被接受的动作平均情节长度比率 (Episode Length Ratio, ELR) 显著高于被拒绝的动作。
  3. 自适应机制的优越性: 消融实验 (ablation study) 证明了自适应运动追踪机制的优越性。相比于固定追踪因子的设置,自适应机制能稳定地在各种动作上取得接近最优的性能。
  4. 鲁棒的 Sim-to-Real 迁移: 训练好的策略成功地零样本 (zero-shot) 迁移到真实世界中的宇树 G1 机器人上,能够稳定且富有表现力地执行复杂的功夫动作和舞蹈,验证了方法的鲁棒性。
  5. 接触掩码的贡献: 接触掩码的校正显著降低了足部接触误差,并改善了其他追踪指标,验证了接触感知设计的有效性。

3. 预备知识与相关工作

本节将为理解论文中提出的方法提供必要的背景知识,并简要概述与本文相关的先前研究。

3.1. 基础概念

3.1.1. 类人机器人 (Humanoid Robots)

定义: 类人机器人是一种具有类似人类身体结构(如躯干、头部、手臂、腿部)和运动能力的机器人。它们被设计成能够像人类一样与环境互动,执行各种任务。 本文语境: 论文采用的是宇树 G1 (Unitree G1) 机器人,这是一种具有23个自由度 (Degrees of Freedom, DoFs) 的类人机器人,能够执行复杂的全身动作。

3.1.2. 运动捕捉 (Motion Capture, MoCap)

定义: 运动捕捉是一种记录物体(通常是人)运动的方法,通过传感器或标记点来捕捉其三维空间中的位置和姿态,从而生成数字化的运动数据。 本文语境: 论文使用 MoCap 数据作为人类参考动作的来源,但指出 MoCap 数据往往不直接适用于机器人,需要进行物理可行性处理。

3.1.3. 强化学习 (Reinforcement Learning, RL)

定义: 强化学习是机器学习的一个分支,智能体 (agent) 通过与环境交互来学习如何做出决策,以最大化累积奖励。智能体在每个时间步 (time step) 观察环境状态 (state),执行动作 (action),然后从环境接收奖励 (reward) 和新的状态。 本文语境: 论文使用 RL 来训练类人机器人的全身控制策略,使其能够模仿人类动作。

3.1.4. 马尔可夫决策过程 (Markov Decision Process, MDP)

定义: MDPRL 的数学框架,用于建模智能体在不确定环境中做决策的过程。它由以下元素组成:

  • 状态空间 (State Space, S\mathcal{S}): 智能体可能处于的所有可能状态的集合。
  • 动作空间 (Action Space, A\mathcal{A}): 智能体可以执行的所有可能动作的集合。
  • 转移函数 (Transition Function, PP): 描述了在给定当前状态和动作的情况下,环境转移到下一个状态的概率。
  • 奖励函数 (Reward Function, RR): 智能体在执行动作并进入新状态时获得的即时奖励。
  • 折扣因子 (Discount Factor, γ\gamma): 用于权衡即时奖励和未来奖励的重要性。 本文语境: 论文将运动模仿问题建模为一个 goal-conditional RL 问题,其中机器人状态 (robot state) 为 ss,参考运动状态 (reference motion state) 为 srefs^{\mathrm{ref}}

3.1.5. 近端策略优化 (Proximal Policy Optimization, PPO)

定义: PPO 是一种流行的强化学习算法,属于演员-评论家 (actor-critic) 方法。它通过使用一个截断的替代目标函数 (clipped surrogate objective function) 来限制策略更新的步长,从而在更新策略时保证稳定性,同时保持样本效率 (sample efficiency)。 本文语境: 论文采用 PPO 算法进行策略优化,并结合了非对称演员-评论家架构。

3.1.6. 演员-评论家框架 (Actor-Critic Framework)

定义: Actor-critic 是一种强化学习架构,它包含两个主要组件:

  • 演员 (Actor): 负责学习策略 π\pi,即从状态到动作的映射,决定智能体如何行动。
  • 评论家 (Critic): 负责学习值函数 V(s)Q(s, a),用于评估当前策略的好坏,指导演员进行策略更新。 本文语境: 论文采用了非对称演员-评论家架构,其中演员和评论家观察不同的信息。

3.1.7. SMPL 模型 (Skinned Multi-Person Linear Model)

定义: SMPL 是一种统计学人体模型,能够以参数化的方式表示各种人体姿态和体型。它通过一组参数(如体型参数 β\beta、姿态参数 θ\theta 和全局平移 ψ\psi)来生成三维网格 (3D mesh),广泛用于人体运动捕捉和重建。 本文语境: 论文使用 SMPL 模型作为人类运动的通用表示,从视频中估计 SMPL 参数,并将其作为机器人运动重定向 (motion retargeting) 的中间格式。

3.1.8. 逆运动学 (Inverse Kinematics, IK)

定义: 逆运动学是机器人学中的一个问题,其目标是计算机器人关节的角度,以便其末端执行器 (end-effector)(例如手、脚)能够到达空间中的指定位置和姿态。 本文语境: 论文使用 IK 方法将 SMPL 格式的人类运动重定向到宇树 G1 机器人,生成机器人可追踪的参考运动。

3.1.9. 质心 (Center of Mass, CoM) 与压力中心 (Center of Pressure, CoP)

定义:

  • 质心 (CoM): 描述物体质量分布的平均位置。在平衡分析中,CoM 的位置至关重要。
  • 压力中心 (CoP): 是作用在物体支撑表面上所有地面反作用力的合力作用点。CoP 位于支撑基础 (support polygon) 内是保持静态平衡的必要条件。 本文语境: 论文通过计算 CoMCoP 的投影距离作为物理稳定性指标,用于过滤不稳定的运动。

3.1.10. 指数移动平均 (Exponential Moving Average, EMA)

定义: EMA 是一种加权平均方法,它赋予近期数据更高的权重,从而使平均值更能反映最新的趋势。它通常用于平滑时间序列数据。 本文语境: 论文使用 EMA 来在线估计瞬时追踪误差,并用于自适应调整追踪因子 σ\sigma

3.1.11. 双层优化 (Bi-Level Optimization, BLO)

定义: 双层优化是一种包含两个优化问题的优化范式,其中一个优化问题(下层问题)的解是另一个优化问题(上层问题)的约束条件或输入。上层问题通常涉及超参数调优,而下层问题是常规的优化过程。 本文语境: 论文将自适应追踪因子的选择建模为双层优化问题,上层优化目标是最小化最终策略的累积追踪误差,下层优化是策略训练过程本身。

3.1.12. 领域随机化 (Domain Randomization)

定义: Domain randomization 是一种 sim-to-real 迁移技术,通过在仿真环境中随机化各种物理参数(如摩擦、质量、关节刚度、阻尼等)和环境属性,来训练一个对这些变化鲁棒的策略,从而提高其在真实世界中的泛化能力。 本文语境: 论文采用 domain randomization 来缩小仿真与现实之间的差距,实现零样本 (zero-shot) 迁移。

3.1.13. 课程学习 (Curriculum Learning)

定义: 课程学习是一种训练策略,其灵感来源于人类学习过程。它从简单的任务开始训练模型,然后逐渐增加任务的难度,以帮助模型更有效地学习复杂的技能。 本文语境: 论文引入了两种课程机制:终止课程 (termination curriculum) 逐步减少追踪误差容忍度,以及惩罚课程 (penalty curriculum) 逐步增加正则化项的权重。

3.1.14. PD 控制器 (Proportional-Derivative Controller)

定义: PD 控制器是一种常见的反馈控制器,它根据当前误差 (比例项) 和误差变化率 (微分项) 来计算控制输出。在机器人控制中,它常用于关节位置或速度的精确控制。 本文语境: 论文中,强化学习策略的输出是 PD 控制器的目标关节位置,PD 控制器再根据此目标计算电机扭矩。

3.2. 前人工作与差异化分析

3.2.1. 类人机器人运动模仿 (Humanoid Motion Imitation)

  • 传统方法: 早期方法多通过运动捕捉 (MoCap) 数据或手工设计的控制器来实现运动模仿。然而,这些方法通常难以处理人类与机器人之间显著的物理结构差异。
  • 基于强化学习的方法:
    • H2O / OmniH2O [9, 10]: 提出通过训练一个特权模仿策略 (privileged imitation policy) 来移除不可行的运动,从而生成干净的运动数据集。
    • ExBody [7] / Exbody2 [5]: ExBody 通过语言标签过滤运动数据,构建可行数据集;ExBody2 训练一个初始策略,并根据追踪误差来衡量运动难度。这些方法试图解决物理可行性问题,但往往在处理高动态动作时力不从心,因为它们缺乏针对难追踪动作的合适容忍机制。
    • ASAP [6]: 引入多阶段机制和残差策略 (residual policy) 来弥补 sim-to-real 差距,以提高敏捷动作的追踪能力。ASAP 更侧重于 sim-to-real 迁移,而本文 KungfuBot 则主要在模拟中改进运动可行性和敏捷性。
  • 本文的差异化:
    • 更全面的运动处理: 本文的运动处理流程不仅过滤了不可行运动,还引入了接触感知校正和物理稳定性指标,确保了更高质量的参考动作。
    • 自适应追踪机制: 核心在于提出了一个自适应运动追踪机制,通过双层优化动态调整追踪因子 σ\sigma,克服了现有方法在处理高动态、难追踪动作时固定奖励参数的局限性。这使得策略能够渐进式地学习更精确、更复杂的动作。

3.2.2. 类人机器人全身控制 (Humanoid Whole-Body Control)

  • 传统分体控制: 传统上,类人机器人控制常将运动 (locomotion) 和操作 (manipulation) 分开处理。
    • 下半身 (Locomotion): RL 已被广泛用于学习复杂的运动任务,如复杂地形行走 [37, 38]、站立 [40, 41]、跳跃 [42] 和跑酷 [43, 44]。然而,这些通常需要精细的奖励设计,且难以直接获得类人行为。
    • 上半身 (Manipulation): 各种方法如扩散策略 (diffusion policy) [47, 48]、视觉-语言-动作模型 (visual-language-action model) [49, 50, 51] 等被提出用于操作任务,但可能忽略了双臂协调。
  • 全身控制的兴起: 近期研究开始关注全身控制,以增强系统在运动 [22, 39, 34] 或运动-操作 (loco-manipulation) [56] 任务中的鲁棒性。
  • 本文的差异化:
    • 统一目标: 与专注于特定运动或操作任务的方法不同,本文的全身控制策略致力于统一追踪参考运动,其中下半身在模仿的同时仍需维持稳定和防止跌倒。这使得机器人能够直接从人类运动中学习类人行为。
    • 数据效率: 相比于需要大量轨迹来学习基础模型 [56, 57] 的方法,本文仅需要少量参考运动即可学习多样的行为。
    • 高动态技能的突破: 本文通过其独特的运动处理和自适应追踪机制,显著提升了类人机器人对高动态、高敏捷性技能的全身控制能力,这在现有全身控制方法中是一个尚未充分解决的难题。

4. 方法论

本节将详细阐述 KungfuBot 提出的 PBHC 框架的方法论,包括其多步骤运动处理流程、自适应运动追踪机制,以及用于策略训练的强化学习框架。

4.1. 方法原理

PBHC 框架的核心思想在于,通过两阶段方法来解决类人机器人模仿高动态人类动作的挑战。

  1. 运动处理阶段 (Motion Processing Stage): 首先,从原始人类视频中提取运动数据,并进行一系列物理约束驱动的筛选、校正和重定向,以确保生成的参考运动在最大程度上是物理可行且适合机器人执行的。这一阶段旨在提供高质量的、可供机器人学习的“教师”示范。

  2. 运动模仿阶段 (Motion Imitation Stage): 其次,设计一个强化学习框架来训练机器人的全身控制策略。为了有效学习高动态动作,引入了自适应运动追踪机制,该机制能够根据学习进度和当前追踪误差,动态调整对追踪精度的要求,从而实现从粗略模仿到精细模仿的渐进式学习。

    以下将详细介绍这两个阶段及相关的强化学习框架。

4.2. 核心方法详解

下图(原文 Figure 1)展示了 PBHC 的整体架构,包括运动处理、自适应运动追踪和强化学习训练与部署三个核心部分。

Figure 1: An overview of PBHC that includes three core components: (a) motion extraction from videos and multi-steps motion processing, (b) adaptive motion tracking based on the optimal tracking factor, (c) the RL training framework and sim-to-real deployment. 该图像是示意图,展示了PBHC的三个核心组件:(a)多步骤运动处理,包括从视频中提取动作和参考轨迹,以及接触掩码的生成;(b)自适应运动跟踪,基于最优跟踪因子的动态调整;(c)强化学习训练框架,展示了从观察到动作的训练过程及其部署。

图 1: PBHC 概述,包括三个核心组件:(a) 从视频中提取运动和多步骤运动处理,(b) 基于最优追踪因子的自适应运动追踪,(c) RL 训练框架和 sim-to-real 部署。

4.2.1. 运动处理流程 (Motion Processing Pipeline)

作者提出了一个四步走的运动处理流程,旨在从视频中提取并生成适合类人机器人追踪的物理可行运动。

4.2.1.1. 从视频中估计运动 (Motion Estimation from Videos)

首先,使用 GVHMR 模型 (Gravity-View Human Motion Recovery) [15] 从单目视频中估计 SMPL 格式 (Skinned Multi-Person Linear Model) 的运动数据。

  • GVHMR 引入了重力-视角坐标系 (gravity-view coordinate system),这有助于将运动与重力方向自然对齐,避免了传统基于相机坐标系重建时可能出现的身体倾斜问题。
  • 此外,GVHMR 通过预测足部静止概率 (stationary probabilities) 来缓解足部滑动伪影 (foot sliding artifacts),从而提高运动质量。
  • SMPL 模型能够以参数化形式表示人体运动。它使用三个关键参数:
    • βR10\beta \in \mathbb{R}^{10}: 体型参数 (body shapes)。
    • θR24×3\pmb{\theta} \in \mathbb{R}^{24 \times 3}: 关节旋转 (joint rotations),表示为轴角表示 (axis-angle representation)。
    • ψˉR3\bar{\boldsymbol{\psi}} \in \mathbb{R}^3: 全局平移 (global translation)。 这些参数可以通过可微蒙皮函数 (differentiable skinning function) M()M(\cdot) 映射到包含6890个顶点 (vertices) 的3D网格 V\mathcal{V}V=M(β,θ,ψ)R6890×3 \mathcal{V} = M(\beta, \theta, \psi) \in \mathbb{R}^{6890 \times 3} 其中,V\mathcal{V} 表示网格顶点在三维空间中的坐标。

4.2.1.2. 基于物理的运动过滤 (Physics-based Motion Filtering)

由于重建误差或 HMR 模型在分布外 (out-of-distribution) 数据上的表现,从视频中提取的运动可能违反物理和生物力学约束。因此,需要通过物理原理过滤这些运动。

  • 稳定性准则 (Stability Criterion): 基于中心质量 (Center of Mass, CoM) 与压力中心 (Center of Pressure, CoP) 之间距离越近表示稳定性越好的原则 [16],作者计算了 CoMCoP 在地面上的投影坐标。
    • pˉtCoM=(pt,xCoM,pt,yCoM)\bar{\pmb{p}}_t^{\mathrm{CoM}} = (p_{t,x}^{\mathrm{CoM}}, p_{t,y}^{\mathrm{CoM}})pˉtCoP=(pt,xCoP,pt,yCoP)\bar{\pmb{p}}_t^{\mathrm{CoP}} = (p_{t,x}^{\mathrm{CoP}}, p_{t,y}^{\mathrm{CoP}}) 分别表示第 tt 帧时 CoMCoP 在地面上的投影坐标。
    • 帧的稳定性准则定义为: Δdt=pˉtCoMpˉtCoP2<ϵstab \Delta d_t = \lVert \bar{\pmb{p}}_t^{\mathrm{CoM}} - \bar{\pmb{p}}_t^{\mathrm{CoP}} \rVert_2 < \epsilon_{\mathrm{stab}} 其中,Δdt\Delta d_tCoMCoP 投影点之间的距离,ϵstab\epsilon_{\mathrm{stab}} 是稳定性阈值。
  • 运动序列稳定性判断: 给定一个 NN 帧的运动序列,定义 B=[t0,t1,,tK]B = [t_0, t_1, \dots, t_K] 为满足上述稳定性准则的帧索引的递增排序列表。一个运动序列被认为是稳定的,如果满足两个条件:
    1. 边界帧稳定性 (Boundary-frame stability): 1B1 \in BNBN \in B,即序列的开始和结束帧都必须是稳定的。
    2. 最大不稳定间隔 (Maximum instability gap): 连续不稳定帧的最大长度必须小于阈值 ϵN\epsilon_N,即 maxktk+1tk<ϵN\max_k t_{k+1} - t_k < \epsilon_N。 通过此准则,可以排除明显无法保持动态稳定性的运动,提高数据质量。

4.2.1.3. 基于接触掩码的运动校正 (Motion Correction based on Contact Mask)

为了更好地捕捉运动数据中的足地接触 (foot-ground contact),作者基于零速度假设 (zero-velocity assumption) [7, 18] 通过分析连续帧之间脚踝的位移来估计接触掩码 (contact masks)。

  • 接触掩码估计:pˉtlankleR3\bar{\pmb{p}}_t^{\mathrm{l-ankle}} \in \mathbb{R}^3 表示第 tt 帧时左脚踝的位置, ctleft{0,1}c_t^{\mathrm{left}} \in \{0, 1\} 表示对应的接触掩码。接触掩码估计如下: ctleft=I[pt+1lankleptlankle22<ϵvel]I[pt,zlankle<ϵheight] c_t^{\mathrm{left}} = \mathbb{I}[\|p_{t+1}^{\mathrm{l-ankle}} - p_t^{\mathrm{l-ankle}}\|_2^2 < \epsilon_{\mathrm{vel}}] \cdot \mathbb{I}[p_{t,z}^{\mathrm{l-ankle}} < \epsilon_{\mathrm{height}}] 其中,I[]\mathbb{I}[\cdot] 是指示函数 (indicator function),当条件为真时取1,否则取0。ϵvel\epsilon_{\mathrm{vel}}ϵheight\epsilon_{\mathrm{height}} 是经验选择的速度和高度阈值。第一个条件检查脚踝速度是否低于阈值(零速度假设),第二个条件检查脚踝高度是否低于阈值(接近地面)。右脚的接触掩码也以类似方式估计。
  • 浮动伪影校正 (Floating Artifact Correction): 为了解决未被阈值过滤掉的轻微浮动伪影,作者根据估计的接触掩码应用校正步骤。具体来说,如果在第 tt 帧任一只脚与地面接触,则对全局平移 (global translation) 应用垂直偏移。
    • ψt\psi_t 表示第 tt 时刻姿态的全局平移,校正后的垂直位置为: ψt,zcorr=ψt,zΔht \psi_{t,z}^{\mathrm{corr}} = \psi_{t,z} - \Delta h_t 其中,Δht=minvVtpt,zv\Delta h_t = \min_{v \in \mathcal{V}_t} p_{t,z}^v 是第 ttSMPL 网格顶点 Vt\mathcal{V}_t 中最低的 zz 坐标。

    • 校正虽然减轻了浮动伪影,但可能引入帧间抖动 (frame-to-frame jitter)。为解决此问题,使用指数移动平均 (Exponential Moving Average, EMA) 对运动进行平滑处理。 下图(原文 Figure 11)展示了运动校正对缓解浮动伪影的有效性。

      Figure 11: Visualization of motion correction effectiveness in mitigating floating artifacts. 该图像是示意图,展示了动作修正的有效性。图中分别显示了修正前后的人体姿态,通过比较可以明显看出,修正后的姿态更加符合地面的水平线,减少了浮动干扰。

图 11: 运动校正对缓解浮动伪影的有效性可视化。

4.2.1.4. 运动重定向 (Motion Retargeting)

最后,采用基于逆运动学 (Inverse Kinematics, IK) [19] 的方法将处理过的 SMPL 格式运动重定向到宇树 G1 机器人。这种方法构建了一个可微优化问题,确保末端执行器 (end-effector) 轨迹对齐的同时,尊重关节限制 (joint limits)。

  • 为了增加运动多样性,还结合了来自 AMASS [4] 和 LAFAN [20] 等开源数据集的额外数据,这些数据也经过了类似的运动处理流程。

4.2.2. 自适应运动追踪 (Adaptive Motion Tracking)

4.2.2.1. 指数形式追踪奖励 (Exponential Form Tracking Reward)

论文中 PBHC 的奖励函数 (reward function) 包含两个部分:

  1. 任务特定奖励 (task-specific rewards): 强制精确追踪参考运动。
  2. 正则化奖励 (regularization rewards): 促进整体稳定性和平滑性。 其中,除了足部接触追踪项,任务特定奖励都采用指数形式: r(x)=exp(x/σ)r(x) = \exp(-x/\sigma) 其中:
  • xx 表示追踪误差 (tracking error),通常通过关节角度等量的均方误差 (Mean Squared Error, MSE) 来衡量。
  • σ\sigma 是追踪因子 (tracking factor),控制误差的容忍度 (tolerance)。 这种指数形式奖励优于简单的负误差形式,因为它有界 (bounded),有助于稳定训练过程,并为奖励加权提供更直观的方法。

下图(原文 Figure 2)展示了追踪因子 σ\sigma 对奖励值的影响。当 σ\sigma 远大于 xx 的典型范围时,奖励接近1,对 xx 的变化不敏感;当 σ\sigma 过小时,奖励趋近于0,也降低了敏感性。这突出了选择合适 σ\sigma 以增强响应性和追踪精度的重要性。

Figure 2: Illustration of the effect of tracking factor \(\\sigma\) on the reward value. 该图像是图表,展示了追踪因子 au 对奖励值的影响。横轴为追踪误差 xx,纵轴为奖励 r(x)=extexp(x/au)r(x) = ext{exp}(-x/ au)。不同的曲线表示不同的追踪因子值,其中红色表示 au=0.2 au=0.2,绿色表示 au=1.0 au=1.0,蓝色表示 au=5.0 au=5.0

图 2: 追踪因子 σ\sigma 对奖励值的影响示意图。

4.2.2.2. 最优追踪因子 (Optimal Tracking Factor)

为了确定最优的追踪因子 σ\sigma,作者引入了一个简化的运动追踪模型,并将其表述为一个双层优化 (bi-level optimization) 问题。直观地,σ\sigma 的选择应能最小化收敛策略在参考轨迹上的累积追踪误差。

  • 内部优化问题 (Lower-level Optimization): 代表标准的 RL 过程,即在给定特定 σ\sigma 的情况下,训练一个策略来最大化追踪奖励和其他奖励项。

    • 给定策略 π\pi,假设在 NN 步内存在一个期望追踪误差序列 xR+N\pmb{x} \in \mathbb{R}_+^N,其中 xix_i 是第 ii 步的期望追踪误差。
    • 内部优化问题(策略训练)可以表述为: maxxR+NJin(x,σ)+R(x) \max_{\pmb{x} \in \mathbb{R}_+^N} J^{\mathrm{in}}(\pmb{x}, \pmb{\sigma}) + R(\pmb{x}) 其中,Jin(x,σ)=i=1Nexp(xi/σ)J^{\mathrm{in}}(\pmb{x}, \sigma) = \sum_{i=1}^N \exp(-x_i/\sigma) 是简化的累积追踪奖励,R(x)R(\pmb{x}) 是除了 JinJ^{\mathrm{in}} 之外的其他奖励项,包括环境动力学和其他策略目标。
    • 该优化问题的解 x\pmb{x}^* 对应于最优策略 π\pi^* 所产生的误差序列。
  • 外部优化问题 (Upper-level Optimization): 位于 RL 循环之外,选择 σ\sigma 以最小化最终收敛策略的总追踪误差。这个外部优化不是奖励最大化,而是基于绝对外部指标的性能驱动目标。

    • 外部优化问题可以表述为: maxσR+Jex(x)s.t.xargmaxxR+NJin(x,σ)+R(x) \max_{\sigma \in \mathbb{R}_+} \quad J^{\mathrm{ex}}(\pmb{x}^*) \\ \mathrm{s. t.} \quad \pmb{x}^* \in \arg \max_{\pmb{x} \in \mathbb{R}_+^N} J^{\mathrm{in}}(\pmb{x}, \sigma) + R(\pmb{x}) 其中,Jex(x)=i=1NxiJ^{\mathrm{ex}}(\pmb{x}^*) = \sum_{i=1}^N -x_i^* 是累积负追踪误差的优化目标。
  • 最优 σ\sigma^* 的推导: 在附加的技术假设下(详见附录 A),可以推导出最优追踪因子 σ\sigma^* 是最优追踪误差的平均值: σ=(i=1Nxi)/N \sigma^* = \left( \sum_{i=1}^N x_i^* \right) / N

4.2.2.3. 自适应机制 (Adaptive Mechanism)

公式 (7) 提供了理论指导,但 σ\sigma^*x\pmb{x}^* 之间的循环依赖阻止了直接计算。由于参考运动数据质量和复杂性各异,选择一个适用于所有情况的固定 σ\sigma 也不切实际。为解决此问题,作者设计了一个自适应机制,通过误差估计与追踪因子调整之间的反馈循环,在训练过程中动态调整 σ\sigma

  • 工作原理:

    1. 维护瞬时追踪误差的指数移动平均 (EMA) x^\hat{x}。这个 x^\hat{x} 作为当前策略下期望追踪误差的在线估计。
    2. 在训练的特定时间点,PBHCσ\sigma 更新为当前 x^\hat{x} 的值。
    3. 更新规则为: σmin(σ,x^) \sigma \gets \min(\sigma, \hat{x}) 这个反馈循环意味着追踪误差的减少将导致 σ\sigma 的收紧,从而进一步精炼策略。随着追踪误差的持续减小,系统将收敛到最优的 σ\sigma 值。
  • 稳定性考虑: 为确保训练稳定性,σ\sigma 被限制为非增 (non-increasing),并以一个相对较大的值 σinit\sigma^{\mathrm{init}} 初始化。 下图(原文 Figure 3)展示了自适应机制中追踪因子的闭环调整过程。

    Figure 3: Closed-loop adjustment of tracking factor in the proposed adaptive mechanism. 该图像是示意图,展示了在适应性机制中跟踪因子的闭环调整过程。图中包含四个关键部分:奖励 r(x) 形状、策略 π\pi 优化、跟踪因子 σ\sigma 收紧和跟踪误差 x^\hat{x} 减少。各部分之间通过箭头展示了相互关系,表明在优化过程中如何动态调整策略以减少跟踪误差。

图 3: 提出的自适应机制中追踪因子的闭环调整。

下图(原文 Figure 4)展示了自适应 σ\sigma 如何逐步提高追踪精度。

Figure 4: Example of the right hand \(y\) -position for 'Horse-stance punch'. The adaptive \(\\sigma\) can progressively improve the tracking precision. \(\\sigma _ { \\mathrm { p o s \\_ v r } }\) is used for tracking the head and hands. 该图像是图表,展示了左手 yy 轴位置与时间的关系。图中标注了动作 'Horse Stance' 和 'Quick Punch' 的位置,并显示了不同步长下的跟踪精度变化,适应性 oldsymbol{ au} 可逐步提高跟踪精度。

图 4: “马步拳”动作中右手 yy 轴位置的示例。自适应 σ\sigma 可以逐步提高追踪精度。σpos_vr\sigma_{\mathrm{pos\_vr}} 用于追踪头部和手部。

4.2.3. 强化学习训练框架 (RL Training Framework)

4.2.3.1. 非对称演员-评论家 (Asymmetric Actor-Critic)

沿用现有工作 [6, 21],引入时间相位变量 (time phase variable) ϕt[0,1]\phi_t \in [0, 1] 来表示参考运动的当前进度(ϕt=0\phi_t = 0 表示运动开始,ϕt=1\phi_t = 1 表示运动结束)。

  • 演员的观测空间 (Actor Observation Space, Ξstactor\mathbf{\Xi}_{\pmb{s}_t^{\mathrm{actor}}}): 仅包含机器人本体感受状态 (proprioceptive state) stprops_t^{\mathrm{prop}} 和时间相位变量 ϕt\phi_t
    • 本体感受状态 stprops_t^{\mathrm{prop}} 包括:关节位置 qtR23\pmb{q}_t \in \mathbb{R}^{23}、关节速度 q˙tR23\dot{\pmb{q}}_t \in \mathbb{R}^{23}、根部角速度 (root angular velocity) ωtrootR3\boldsymbol{\omega}_t^{\mathrm{root}} \in \mathbb{R}^3、根部投影重力 (root projected gravity) gtprojR3\pmb{g}_t^{\mathrm{proj}} \in \mathbb{R}^3,以及上一步动作 at1R23\pmb{a}_{t-1} \in \mathbb{R}^{23}。这些信息通常会包含过去几个时间步的历史数据。
  • 评论家的观测空间 (Critic Observation Space, stcritics_t^{\mathrm{critic}}): 包含演员的所有观测,并额外包括:根部线速度 (root linear velocity)、参考运动的身体位置 (reference motion positions)、当前身体位置与参考身体位置的差异,以及一组随机化的物理参数 (randomized physical parameters)。评论家可以使用这些额外的“特权信息 (privileged information)”来提高值函数 (value function) 估计的准确性,而演员则只依赖于本地观测。

4.2.3.2. 奖励向量化 (Reward Vectorization)

为了促进多奖励情境下的值函数学习,作者采用了奖励向量化技术 [22]。

  • 奖励被表示为向量:r=[r1,,rn]\pmb{r} = [r_1, \ldots, r_n]
  • 值函数也被向量化:V(s)=[V1(s),,Vn(s)]\pmb{V}(s) = [V_1(s), \ldots, V_n(s)]
  • 不同于将所有奖励聚合成一个标量,每个奖励分量 rir_i 都被分配给一个独立估计回报的值函数 Vi(s)V_i(s)。这通过一个具有多个输出头 (multiple output heads) 的评论家网络实现。所有值函数被聚合以计算动作优势 (action advantage)。这种设计能够实现精确的值估计并促进稳定的策略优化。

4.2.3.3. 参考状态初始化 (Reference State Initialization, RSI)

采用 RSI [21] 技术,即在训练开始时,将机器人的状态从参考运动的随机采样时间相位 (randomly sampled time phases) 中进行初始化。这有助于并行学习不同运动阶段,显著提高了训练效率。

4.2.3.4. Sim-to-Real 迁移 (Sim-to-Real Transfer)

为了弥合仿真到现实 (sim-to-real) 的鸿沟,作者采用了领域随机化 (domain randomization) 技术,通过改变仿真环境和类人机器人的物理参数来训练策略。

  • 训练出的策略在进行真实部署前会通过 sim-to-sim 测试进行验证。
  • 该方法实现了零样本 (zero-shot) sim-to-real 迁移,即无需任何微调 (fine-tuning) 即可将策略直接部署到真实机器人。
  • 具体的领域随机化设置见附录 C.3。

5. 实验设置

本节详细介绍实验设置,包括评估方法、评估指标、数据集以及与基线方法的比较。

5.1. 实验设置概述

  • 评估方法: 政策的追踪性能是在一个通过作者提出的运动处理流程构建的高动态运动数据集上进行评估的(详见附录 B)。该数据集将运动分为易、中、难三个难度级别。
  • 训练与评估: 对于每个设置,政策在 IsaacGym [29] 中使用三个随机种子进行训练,并在1,000个推出情节 (rollout episodes) 中进行评估。
  • 计算平台: 每项实验都在一台配备24核 Intel i7-13700 CPU (5.2GHz), 32 GB RAM 和一块 NVIDIA GeForce RTX 4090 GPU 的机器上进行,运行 Ubuntu 20.04。每个模型的训练时间为27小时。
  • 真实机器人设置: 政策部署在宇树 G1 机器人 (Unitree G1 robot) 上。系统包括一个板载运动控制板和一个外部 PC,通过以太网连接。控制板收集传感器数据并使用 DDS (Data Distribution Service) 协议传输到 PC。PC 维护观测历史,执行策略推理,并将目标关节角度发送回控制板,控制板进而发出电机命令。

5.2. 数据集

论文构建了一个高动态运动数据集,结合了视频来源和开源数据集 AMASS [4]、LAFAN [20]。这些数据经过了论文提出的运动处理流程。

以下是原文 Table 3 的超参数设置,用于多步骤运动处理:

以下是原文 Table 3 的结果:

Hyperparameter Value
ϵstab\epsilon_{\text{stab}} 0.1
ϵN\epsilon_N 100
ϵvel\epsilon_{\text{vel}} 0.002
ϵheight\epsilon_{\text{height}} 0.2

以下是原文 Table 4 的结果:

Motion name Motion frames Source
Easy
Jabs punch 285 video
Hooks punch 175 video
Horse-stance pose 210 LAFAN
Horse-stance punch 200 video
Medium
Stretch leg 320 video
Tai Chi 500 video
Jump kick 145 video
Charleston dance 610 LAFAN
Bruce Lee's pose 330 AMASS
Hard
Roundhouse kick 158 AMASS
360-degree spin 180 video
Front kick 155 video
Side kick 179 AMASS

下图(原文 Figure 5)展示了所构建数据集中的部分动作示例。

Figure 5: Example motions in our constructed dataset. Darker opacity indicates later timestamps. 该图像是一个示意图,展示了在我们构建的数据集中不同难度的动作示例,包括马步拳(简单)、伸腿(中等)、跳踢(中等)和360度旋转(困难)。图中蓝色轨迹表示动作路径,较深的透明度表示后续时间点。

图 5: 我们构建的数据集中的示例动作。透明度越深表示时间越靠后。

5.3. 评估指标

政策的追踪性能通过以下指标量化:

5.3.1. 全局身体部位平均位置误差 (Global Mean Per Body Position Error, Eg-mpbpeE_{\text{g-mpbpe}})

  • 概念定义: 衡量机器人身体所有部位(包括躯干、四肢、头部等)在全局坐标系下与参考运动对应部位的平均位置差异。这个指标反映了机器人在三维空间中整体姿态的准确性。
  • 数学公式: Egmpbpe=E[ptptref2] E_{\mathrm{g-mpbpe}} = \mathbb{E}\left[ \left\| p_t - \pmb{p}_t^{\mathrm{ref}} \right\|_2 \right]
  • 符号解释:
    • E[]\mathbb{E}[\cdot]: 期望值,表示在整个评估期间的平均。
    • ptp_t: 机器人身体部位在 tt 时刻的全局位置。
    • ptref\pmb{p}_t^{\mathrm{ref}}: 参考运动身体部位在 tt 时刻的全局位置。
    • 2\|\cdot\|_2: 向量的 L2L_2 范数,即欧几里得距离。
    • 单位: 毫米 (mm)。

5.3.2. 根部相对身体部位平均位置误差 (Root-Relative Mean Per Body Position Error, EmpbpeE_{\text{mpbpe}})

  • 概念定义: 衡量机器人身体所有部位相对于其根部(如骨盆或躯干基部)的位置,与参考运动对应部位相对于其根部的位置的平均差异。这个指标更关注姿态和相对位置的准确性,不受全局平移误差的影响。
  • 数学公式: Empbpe=E[(ptproot,t)(ptrefproot,tref)2] E_{\mathrm{mpbpe}} = \mathbb{E}\left[ \left\| \left( \pmb{p}_t - \pmb{p}_{\mathrm{root},t} \right) - \left( \pmb{p}_t^{\mathrm{ref}} - \pmb{p}_{\mathrm{root},t}^{\mathrm{ref}} \right) \right\|_2 \right]
  • 符号解释:
    • E[]\mathbb{E}[\cdot]: 期望值。
    • pt\pmb{p}_t: 机器人身体部位在 tt 时刻的全局位置。
    • proot,t\pmb{p}_{\mathrm{root},t}: 机器人根部在 tt 时刻的全局位置。
    • ptref\pmb{p}_t^{\mathrm{ref}}: 参考运动身体部位在 tt 时刻的全局位置。
    • proot,tref\pmb{p}_{\mathrm{root},t}^{\mathrm{ref}}: 参考运动根部在 tt 时刻的全局位置。
    • 2\|\cdot\|_2: 欧几里得距离。
    • 单位: 毫米 (mm)。

5.3.3. 关节平均位置误差 (Mean Per Joint Position Error, EmpjpeE_{\text{mpjpe}})

  • 概念定义: 衡量机器人各关节的期望角度与参考运动对应关节角度的平均差异。这个指标直接反映了机器人对参考关节姿态的模仿精确度。
  • 数学公式: Empjpe=E[qtqtref2] E_{\mathrm{mpjpe}} = \mathbb{E}\left[ \left\| \pmb{q}_t - \pmb{q}_t^{\mathrm{ref}} \right\|_2 \right]
  • 符号解释:
    • E[]\mathbb{E}[\cdot]: 期望值。
    • qt\pmb{q}_t: 机器人在 tt 时刻的关节角度向量。
    • qtref\pmb{q}_t^{\mathrm{ref}}: 参考运动在 tt 时刻的关节角度向量。
    • 2\|\cdot\|_2: 欧几里得距离。
    • 单位: 10310^{-3} 弧度 (rad)。

5.3.4. 关节平均速度误差 (Mean Per Joint Velocity Error, EmpjveE_{\text{mpjve}})

  • 概念定义: 衡量机器人各关节的角速度与参考运动对应关节角速度的平均差异。这个指标反映了运动的动态准确性,即机器人是否以正确的速度执行动作。
  • 数学公式: Empjve=E[ΔqtΔqtref2] E_{\mathrm{mpjve}} = \mathbb{E}\left[ \left\| \Delta \pmb{q}_t - \Delta \pmb{q}_t^{\mathrm{ref}} \right\|_2 \right] 其中,Δqt=qtqt1\Delta \pmb{q}_t = \pmb{q}_t - \pmb{q}_{t-1}
  • 符号解释:
    • E[]\mathbb{E}[\cdot]: 期望值。
    • Δqt\Delta \pmb{q}_t: 机器人在 tt 时刻的关节角度变化量(近似角速度)。
    • Δqtref\Delta \pmb{q}_t^{\mathrm{ref}}: 参考运动在 tt 时刻的关节角度变化量。
    • 2\|\cdot\|_2: 欧几里得距离。
    • 单位: 10310^{-3} 弧度/帧 (rad/frame)。

5.3.5. 身体部位平均线速度误差 (Mean Per Body Velocity Error, EmpbveE_{\text{mpbve}})

  • 概念定义: 衡量机器人身体所有部位的线速度与参考运动对应部位线速度的平均差异。这个指标反映了机器人运动的平滑性和动态精度。
  • 数学公式: Empbve=E[ΔptΔptref2] E_{\mathrm{mpbve}} = \mathbb{E}\left[ \left\| \Delta \pmb{p}_t - \Delta \pmb{p}_t^{\mathrm{ref}} \right\|_2 \right] 其中,Δpt=ptpt1\Delta \pmb{p}_t = \pmb{p}_t - \pmb{p}_{t-1}
  • 符号解释:
    • E[]\mathbb{E}[\cdot]: 期望值。
    • Δpt\Delta \pmb{p}_t: 机器人在 tt 时刻的身体部位位置变化量(近似线速度)。
    • Δptref\Delta \pmb{p}_t^{\mathrm{ref}}: 参考运动在 tt 时刻的身体部位位置变化量。
    • 2\|\cdot\|_2: 欧几里得距离。
    • 单位: 毫米/帧 (mm/frame)。

5.3.6. 身体部位平均加速度误差 (Mean Per Body Acceleration Error, EmpbaeE_{\text{mpbae}})

  • 概念定义: 衡量机器人身体所有部位的加速度与参考运动对应部位加速度的平均差异。这个指标反映了高动态运动中的瞬时力学响应和控制能力。
  • 数学公式: Empbae=E[Δ2ptΔ2ptref2] E_{\mathrm{mpbae}} = \mathbb{E}\left[ \left\| \boldsymbol{\Delta}^2 \pmb{p}_t - \boldsymbol{\Delta}^2 \pmb{p}_t^{\mathrm{ref}} \right\|_2 \right] 其中,Δ2pt=ΔptΔpt1\boldsymbol{\Delta}^2 \pmb{p}_t = \Delta \pmb{p}_t - \Delta \pmb{p}_{t-1}
  • 符号解释:
    • E[]\mathbb{E}[\cdot]: 期望值。
    • Δ2pt\boldsymbol{\Delta}^2 \pmb{p}_t: 机器人在 tt 时刻的身体部位速度变化量(近似加速度)。
    • Δ2ptref\boldsymbol{\Delta}^2 \pmb{p}_t^{\mathrm{ref}}: 参考运动在 tt 时刻的身体部位速度变化量。
    • 2\|\cdot\|_2: 欧几里得距离。
    • 单位: 毫米/帧2^2 (mm/frame2^2)。

5.3.7. 平均足部接触掩码误差 (Mean Foot Contact Mask Error, Econtact-maskE_{\text{contact-mask}})

  • 概念定义: 衡量机器人足部接触状态与参考运动足部接触状态的平均差异。这个指标量化了机器人对足部接触模式的模仿准确性。
  • 数学公式: Econtactmask=E[ctc^t1] E_{\mathrm{contact-mask}} = \mathbb{E}\left[ \| c_t - \hat{c}_t \|_1 \right]
  • 符号解释:
    • E[]\mathbb{E}[\cdot]: 期望值。
    • ctc_t: 机器人在 tt 时刻的足部接触状态。
    • c^t\hat{c}_t: 参考运动在 tt 时刻的足部接触状态。
    • 1\|\cdot\|_1: 向量的 L1L_1 范数,表示绝对误差之和。

5.4. 对比基线

论文将 PBHC 与以下三种基线方法进行比较:

  1. OmniH2O [10]: 一种用于人类到类人机器人全身遥操作和学习的框架。它采用教师-学生 (teacher-student) 训练范式。

  2. ExBody2 [5]: 一种先进的表达性类人机器人全身控制方法,利用解耦的关键点-速度追踪机制。

  3. MaskedMimic [2]: 主要用于角色动画 (character animation),通过掩码运动修补 (masked motion inpainting) 实现统一的基于物理的角色控制。该方法通过直接优化姿态层面的准确性来追踪参考运动,但通常不考虑部分可观测性 (partial observability) 和动作平滑度 (action smoothness) 等机器人控制约束。为了公平比较,作者还训练了一个忽略这些约束的 PBHC 纯粹模拟版本 (Ours (Oracle)),与 MaskedMimic 对标。

    所有基线方法都采用了追踪参考运动的指数形式奖励函数,与 PBHC 的奖励设计类似(如§3.2.1 所述)。

6. 实验结果与分析

6.1. 运动过滤的有效性 (Q1)

为了验证物理过滤的有效性,作者对10个运动序列应用了物理过滤方法(§3.1)。其中6个被接受,4个被拒绝。然后,为每个运动训练一个独立的策略,并计算情节长度比率 (Episode Length Ratio, ELR),其定义为平均情节长度与参考运动长度的比值。

下图(原文 Figure 6)展示了接受和拒绝动作的 ELR 分布。

Figure 6: The distribution of ELR of accepted and rejected motions. 该图像是图表,展示了接受和拒绝动作的情节长度比率分布。图中蓝色圆点代表接受动作,而橙色圆点则表示拒绝动作。纵坐标表示情节长度比率(%),横坐标则为两个类别的比较。中央的虚线标示了54%的分界线。

图 6: 接受和拒绝动作的 ELR 分布。

  • 结果分析:
    • 被接受的运动持续保持高 ELR,表明满足物理指标的运动在运动追踪中能带来更好的性能。
    • 相比之下,被拒绝的运动的最大 ELR 仅为54%,这表明它们频繁违反终止条件 (termination conditions)。
  • 结论: 实验结果证明了作者的过滤方法有效地排除了本质上不可追踪的运动,从而通过关注可行的候选动作提高了训练效率。

6.2. 核心结果分析:与现有方法的比较 (Q2)

论文将 PBHCOmniH2OExBody2MaskedMimic 三种基线方法在不同难度级别的运动上进行了比较。

以下是原文 Table 1 的结果:

Method Eg-mpbpeE_{\text{g-mpbpe}} EmpbpeE_{\text{mpbpe}} EmpjpeE_{\text{mpjpe}} EmpbveE_{\text{mpbve}} EmpbaeE_{\text{mpbae}} EmpjveE_{\text{mpjve}}
Easy
OmniH2O 233.54±4.013** 103.67±1.912** 1805.10±12.33* 8.54±0.125* 8.46±0.081* 224.70±2.043
ExBody2 588.22±11.43* 332.50±3.584* 4014.40±21.50* 14.29±0.172* 9.80±0.157* 206.01±1.346*
Ours 53.25±17.60_ 28.16±6.127_ 725.62±16.20 4.41±0.312 4.65±0.140 81.28±2.052
MaskedMimic (Oracle) -41.79±17.15 21.86±2.030 -739.96±19.94 * 5.20±0.245 7.40±0.3 132.01±8.941
Ours (Oracle) 45.02±6.760 22.95±15.22 710.30±16.66 4.63±1.580 4.89±0.960 73.44±12.42
Medium
OmniH2O 433.64±16.22** 151.42±7.340* 2333.90±49.50* 10.85±0.300 10.54±0.152 204.36±4.473
ExBody2 619.84±26.16* 261.01±1.592** 3738.70±26.90** 14.48±0.160* 11.25±0.173 204.33±2.172*
Ours 126.48±27.01 48.87±7.550 1043.30±104.4* 6.62±0.412 7.19±0.254 105.30±5.941
MaskedMimic (Oracle) 150.92±33.4 61.69±46.01 934.25±155.0 8.16±1.974 10.01±0.83 176.84±26.1
Ours (Oracle) 66.85±50.29 29.56±14.53 753.69±100.2 5.34±0.425 6.58±0.291 82.73±3.108
Hard
OmniH2O 446.17±12.84 147.88±4.142 1939.50±23.90 14.98±0.643 14.40±0.580 190.13±8.211
ExBody2 689.68±11.80 246.40±12.52* 4037.40±16.70* 19.90±0.210 16.72±0.160 254.76±3.409*
Ours 290.36±139.1_ 124.61±53.54_ 1326.60±378.9 11.93±2.622 12.36±2.401 135.05±16.43
MaskedMimic (Oracle) 47.74±2.762 27.2±1.615 829.02±15.41 -8.33±0.194 10.60±0.420* 146.90±13.32*
Ours (Oracle) 79.25±69.4 34.74±22.6 734.90±155.9 7.04±1.420 8.34±1.140 93.79±17.36
  • 结果分析:
    • PBHC (Ours) 优于可部署基线: PBHC 在所有难度级别(易、中、难)和所有评估指标上,始终优于可部署的基线方法 OmniH2OExBody2。这意味着 PBHC 能够更精确、更稳定地追踪参考运动。
    • 自适应机制的贡献: 论文将这些改进归因于其自适应运动追踪机制,该机制能够根据运动特性自动调整追踪因子,而基线方法中固定的、凭经验调整的参数在不同运动场景下泛化能力较差。
    • Oracle 级性能的比较: MaskedMimic 在某些指标上表现良好,但它主要用于角色动画,不考虑部分可观测性和动作平滑度等机器人控制约束,因此不可直接部署到真实机器人。当与同样忽略这些约束的 PBHC (Oracle) 版本进行比较时,PBHC (Oracle) 也能达到或超越 MaskedMimic 的性能,尤其是在难度较高的运动上,展示了其方法的内在潜力。

6.3. 自适应运动追踪机制的影响 (Q3)

为了验证自适应运动追踪机制的有效性,作者进行了一项消融实验 (ablation study),将其与四种固定追踪因子设置(CoarseMediumUpperBoundLowerBound)进行了比较。这些固定值代表了不同的追踪严格程度。

下图(原文 Figure 7)展示了自适应运动追踪机制与固定追踪因子变体的比较。

Figure 7: Ablation study comparing the adaptive motion tracking mechanism with fixed tracking factor variants. The adaptive mechanism consistently achieves near-optimal performance across all motions, whereas fixed variants exhibit varying performance depending on motions. 该图像是一个图表,展示了不同动作(如 Jab punch、Charleston dance、Roundhouse kick 和 Bruce Lee 的姿势)中自适应动作跟踪机制与固定跟踪因子的比较。图中的曲线显示了各种动作的性能,蓝色曲线代表本文的方法,展示出在各个动作中均接近最佳性能的表现。

图 7: 自适应运动追踪机制与固定追踪因子变体的消融研究。自适应机制在所有运动中始终达到接近最优的性能,而固定变体则根据运动表现出不同的性能。

以下是原文 Table 12 的结果:

Method Eg-mpbpeE_{\text{g-mpbpe}} EmpbpeE_{\text{mpbpe}} EmpjpeE_{\text{mpjpe}} EmpbveE_{\text{mpbve}} \downarrow EmpbaeE_{\text{mpbae}} \downarrow EmpjveE_{\text{mpjve}}
Jabs punch
Ours 44.38±7.118 28.00±3.533 783.36±11.73 5.52±0.156 6.23±0.063 88.01±2.465
Coarse 63.95±6.680 36.76±2.743 921.50±16.70 6.16±0.011 6.46±0.042 91.46±0.465
Medium 51.07±2.635 30.93±2.635 790.54±22.82 5.68±0.140 6.31±0.057 90.19±1.821
Upperbound 45.74±1.702 28.72±1.702 793.52±8.888 5.43±0.066 6.29±0.085 88.68±0.727
Lowerbound 48.66±0.488 28.97±0.487 781.73±16.72 5.61±0.079 6.31±0.06 88.44±1.397
Charleston dance
Ours 94.81±14.18 43.09±5.748 886.91±74.76 6.83±0.346 7.26±0.034 162.70±7.133
Coarse 119.24±4.501 55.80±1.324 1288.02±3.807 7.54±0.180 7.28±0.021 178.61±3.304
Medium 83.63±3.159 41.02±1.743 933.33±38.23 6.89±0.185 7.22±0.011 164.92±4.380
Upperbound 86.90±8.651 41.92±2.632 917.64±14.85 7.02±0.103 7.22±0.041 167.64±1.089
Lowerbound 358.82±10.35 145.42±1.109 1199.21±12.78 8.99±0.050 8.48±0.033 167.25±0.783
Roundhouse kick
Ours 52.53±2.106 28.39±1.400 708.55±16.04 6.85±0.196 7.13±0.046 106.22±0.715
Coarse 76.81±2.863 38.98±2.230 1008.32±29.74 7.49±0.234 7.57±0.044 108.40±0.010
Medium 63.12±5.178 33.74±2.336 806.84±66.23 7.03±0.125 7.32±0.046 104.77±1.319
Upperbound 54.95±2.164 31.31±0.344 766.32±12.92 6.93±0.013 7.19±0.012 105.64±1.911
Lowerbound 70.10±2.674 36.29±1.475 715.01±34.01 7.08±0.102 7.32±0.067 102.50±4.650
Bruce Lee's pose
Ours 196.22±17.03 69.12±2.392 972.04±49.27 7.57±0.214 8.54±0.198 94.36±3.750
Coarse 239.06±51.74 80.78±15.81 1678.34±394.3 8.42±0.525 8.93±0.422 112.30±10.87
Medium 470.24±249.2 206.92±116.1 4490.80±105.1 9.58±0.085 9.61±0.080 99.65±2.441
Upperbound 250.64±178.6 93.70±65.09 1358.02±561.6 8.31±2.160 8.94±1.384 106.30±23.06
Lowerbound 158.12±2.934 60.54±1.54 955.10±37.04 7.05±0.040 7.94±0.051 81.60±1.277
  • 结果分析:
    • 固定追踪因子的局限性: 固定追踪因子配置 (CoarseMediumUpperBoundLowerBound) 的性能在不同运动类型之间差异很大。例如,Lowerbound 在“李小龙姿势”上表现良好(EmpjpeE_{\text{mpjpe}} 较低),但在“查尔斯顿舞”上表现非常差(Eg-mpbpeE_{\text{g-mpbpe}}EmpbpeE_{\text{mpbpe}} 显著升高)。这表明没有一个单一的固定设置能够始终在所有运动上产生最优的追踪结果。
    • 自适应机制的优越性: 作者提出的自适应运动追踪机制 (Ours) 在所有运动类型上始终实现了接近最优的性能。这证明了其在根据运动特性动态调整追踪因子方面的有效性。自适应机制能够避免固定因子在某些运动上表现不佳的问题,并自动找到适合当前运动的最佳追踪严格程度。

6.4. 接触掩码的消融研究

为了评估接触掩码的有效性,作者还进行了一项消融研究,在具有不同足部接触模式的代表性运动(查尔斯顿舞、跳踢和回旋踢)上进行。

以下是原文 Table 13 的结果:

Method Econtact-maskE_{\text{contact-mask}} EmpbpeE_{\text{mpbpe}} EmpjpeE_{\text{mpjpe}} EmpbveE_{\text{mpbve}} \downarrow EmpbaeE_{\text{mpbae}}
Charleston dance
Ours 217.82±47.97 43.09±5.748 886.91±74.76 6.83±0.346 7.26±0.034
Ours w/o contact mask 633.91±49.74 76.13±53.01 980.40±222.0 7.72±1.439 7.64±0.594
Jump kick
Ours 294.22±6.037 42.58±8.126 840.33±97.76 9.48±0.717 10.21±10.21
Ours w/o contact mask 386.75±6.036 170.28±97.29 1259.21±423.9 16.92±0.012 16.57±5.810
Roundhouse kick
Ours 243.16±1.778 28.39±1.400 708.55±16.04 6.85±0.196 7.33±0.046
Ours w/o contact mask 250.10±6.123 36.76±2.743 921.52±16.70 6.16±0.012 6.46±0.042
  • 结果分析: 结果表明,作者的方法显著降低了足部接触误差 Econtact-maskE_{\text{contact-mask}}(与无接触掩码的基线相比)。此外,它还带来了其他追踪指标(如 EmpbpeE_{\text{mpbpe}}EmpjpeE_{\text{mpjpe}})的显著改善。这验证了所提出的接触感知设计在提高运动追踪准确性方面的有效性。

6.5. 真实世界部署 (Q4)

为了验证在真实世界中的性能,作者将训练好的策略部署在宇树 G1 机器人上。

下图(原文 Figure 8)展示了机器人在现实世界中掌握高动态技能的示例。

Figure 8: Our robot masters highly-dynamic skills in the real world. Time flows left to right. 该图像是一个插图,展示了我们的机器人在现实世界中掌握各种高动态技能的过程,包括马步拳、劈腿、直拳、太极、跳踢、李小龙的姿势、回旋踢、360度旋转、前踢和查尔斯顿舞。时间从左到右流动,体现了机器人从学习到掌握动态动作的连续性。

图 8: 我们的机器人在现实世界中掌握高动态技能。时间从左到右流动。

下图(原文 Figure 12)展示了机器人在现实世界中掌握更多动态技能的示例。

Figure 12: Our robot masters more dynamic skills in the real world. Time flows left to right. 该图像是图表,展示了机器人通过模仿动态技能的多个动作,包括:a) 钩拳,b) 马步姿势,c) 后踢,d) 侧踢,e) 五形态,f) 战斗连招,以及 g) 拍打舞。时间从左到右流动,展现出机器人在现实世界中掌握的动态技能。

图 12: 我们的机器人在现实世界中掌握更多动态技能。时间从左到右流动。

  • 定性表现: 真实世界中的机器人展示了出色的动态能力,包括复杂的武术技巧(如拳击组合、高难度踢腿)、杂技动作(如360度旋转)、柔韧性动作(如深蹲、伸展)以及艺术表演(如舞蹈、太极)。这突出了系统在运动和艺术领域的多功能性、动态控制能力和实际应用性。

  • 定量评估: 为了定量评估策略的追踪性能,作者对太极动作进行了10次试验,并基于板载传感器读数计算了评估指标。

    以下是原文 Table 2 的结果:

    Platform EmpbpeE_{\text{mpbpe}} \downarrow EmpjpeE_{\text{mpjpe}} EmpbveE_{\text{mpbve}} \downarrow EmpbaeE_{\text{mpbae}} \downarrow EmpjveE_{\text{mpjve}} \downarrow
    MuJoCo 33.18±2.720 1061.24±83.27 2.96±0.342 2.90±0.498 67.71±6.747
    Real 36.64±2.592 1130.05±9.478 3.01±0.126 3.12±0.056 65.68±1.972
  • 结果分析: 真实世界中获得的指标与仿真平台 MuJoCo 中的结果非常接近。例如,E_mpbpeMuJoCo 的 33.18 略微增加到真实世界的 36.64。这表明策略能够从仿真鲁棒地迁移到真实世界部署,并保持高性能控制。

6.6. 学习曲线

作者展示了三个代表性动作(刺拳、太极和回旋踢)的平均情节长度和平均奖励的学习曲线。

下图(原文 Figure 9)展示了三种动作的平均情节长度和平均奖励。

Figure 9: Mean episode length and mean reward across three motions. Both curves indicate that training gradually stabilizes after 20k steps. 该图像是图表,展示了三个动作(Jabs punch、Tai Chi、Roundhouse kick)在训练过程中的平均回合长度和平均奖励。曲线表明,训练在20k步后逐渐稳定。

图 9: 三种动作的平均情节长度和平均奖励。两条曲线均表明训练在20k步后逐渐稳定。

  • 结果分析: 曲线直观地展示了策略如何随时间改进。训练在大约20k步后逐渐稳定并收敛,这证明了该方法在学习复杂运动行为方面的可靠性和效率。

7. 总结与思考

7.1. 结论总结

本文介绍了 PBHC (Physics-Based Humanoid motion Control) 框架,一个用于类人机器人全身运动控制的新型强化学习框架。该框架通过结合基于物理的运动处理自适应运动追踪机制,在实现高动态行为和卓越追踪精度方面取得了显著进展。实验证明,其运动过滤指标能够高效筛选出难以追踪的轨迹,而自适应运动追踪方法在追踪误差方面持续优于基线方法。在真实世界中的部署进一步证实了 PBHC 在运动和艺术领域都能展现出鲁棒且富有表现力的行为。这些贡献推动了类人机器人运动控制的边界,为更敏捷、更稳定的真实世界应用铺平了道路。

7.2. 局限性与未来工作

论文作者指出了当前方法的两个主要局限性:

  1. 缺乏环境感知 (Lack of Environment Awareness): 当前方法不具备环境感知能力,例如地形感知 (terrain perception) 和避障 (obstacle avoidance)。这限制了其在非结构化真实世界环境中的部署能力。

  2. 有限的运动库 (Limited Motion Repertoires): 该方法在学习少数多样化运动方面表现出色,但尚未探索如何在高动态性能的同时实现更广泛的技能泛化。

    作者将以下研究方向留待未来工作:

  • 整合环境感知: 进一步研究如何将地形感知和避障功能整合到 PBHC 框架中,以实现在更复杂、非结构化环境中的鲁棒部署。
  • 技能泛化 (Skill Generalization): 探索如何在保持高动态性能的同时,使机器人能够学习和泛化更广泛的技能,例如通过更通用的运动生成模型或更高层次的动作规划。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 系统性解决高动态控制问题: 这篇论文最主要的启发在于其系统性的两阶段方法。传统的 RL 往往直接在复杂、不适用的参考数据上训练,导致效率低下或失败。PBHC 的运动处理流程从源头确保了参考运动的物理可行性,这为后续的 RL 训练提供了坚实的基础,是解决复杂机器人控制问题时值得借鉴的思路。
  2. 自适应奖励机制的精妙: 自适应追踪因子 σ\sigma 的设计非常巧妙。它通过将复杂的超参数调优问题(σ\sigma 的选择)转化为一个动态学习过程,解决了固定奖励参数在不同难度运动上性能不一的痛点。这种通过双层优化和在线反馈循环来调节学习严格程度的思路,在其他需要精细控制训练难度的 RL 任务中也可能具有广泛的应用前景。
  3. Sim-to-Real 迁移的关注: 通过领域随机化和非对称演员-评论家架构,实现了零样本 sim-to-real 迁移,这对于真实机器人应用至关重要。论文不仅在模拟中验证了方法的有效性,还在真实机器人上进行了大量高动态动作的展示,极大地增强了其说服力。
  4. 工程实践与理论深度结合: 论文不仅有扎实的理论推导(如最优 σ\sigma 的双层优化推导),也有细致的工程实践(如运动处理流程、奖励设计、PPO 超参数等),体现了从理论到实践的完整链路,对于 RL 领域的初学者来说,是很好的学习范例。

7.3.2. 批判与潜在改进

  1. 环境感知局限性的重要性: 论文明确指出了缺乏环境感知是一个局限性,但在许多实际应用中,机器人需要与复杂、动态的环境进行交互。例如,在功夫或舞蹈中,机器人可能需要避开障碍物、与人类互动或在不平坦的地形上表演。目前的框架仍停留在“空地”表演,未来的工作需要深入探索如何将感知模块(如视觉、触觉)与现有控制框架无缝集成,而不仅仅是作为独立的问题来解决。

  2. 技能泛化挑战: 虽然 PBHC 能够模仿特定高动态动作,但学习“多样化运动库”和“广泛技能泛化”仍然是巨大的挑战。目前,每个动作似乎都需要单独训练一个策略,这在面对无限多样的任务时是不可扩展的。未来的研究可能需要探索:

    • 通用动作编码 (General Motion Encoding): 学习一种通用的动作表示,使得一个策略能够理解和执行未曾见过的动作变体。
    • 语言或高层指令接口: 通过自然语言或高级语义指令来引导机器人执行动作,而非依赖精确的参考轨迹。
    • 多任务学习 (Multi-task Learning) / 元学习 (Meta-learning): 训练一个能够快速适应新动作的泛化策略。
  3. 计算资源需求: 尽管论文提到训练时间为27小时,但对于复杂的全身控制,尤其是结合高精度的物理模拟器如 IsaacGym,其计算资源需求仍然相当可观。未来的研究可能需要关注如何进一步提高训练效率,例如通过模型压缩、更高效的算法或分布式训练。

  4. 奖励函数的工程量: 尽管自适应机制简化了 σ\sigma 的调优,但整个奖励函数(特别是附录中列出的多达十几种奖励项)的设计仍然需要大量的经验和手动调整。这在实际应用中仍是成本较高的一部分。探索如何自动化奖励函数的设计(例如通过逆强化学习或无监督奖励学习)可能是另一个有价值的方向。

  5. 稳定性指标的完备性: 物理过滤中使用的 CoM-CoP 距离是一个很好的动态稳定性指标,但对于极高动态、非接触式的运动(如空中姿态),其适用性可能受限。是否还需要更全面的生物力学指标来评估和过滤动作?

    总体而言,KungfuBot 在类人机器人高动态全身控制领域迈出了重要一步,其创新性的运动处理和自适应追踪机制为未来的研究奠定了坚实基础。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。