论文状态：已完成

ExBody2: Advanced Expressive Humanoid Whole-Body Control

发表：2024/12/18

人形机器人全身控制 (5)表达性动态动作生成 (1)基于人体动作捕捉的控制策略 (1)机器人运动学自适应优化 (1)全身运动跟踪算法 (1)

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种先进的人形机器人全身控制方法ExBody2，旨在实现动态与表现力兼备的全身运动，同时保持稳定性与鲁棒性。该方法通过训练并转移人类运动捕捉与模拟数据，结合了对全身速度与身体关键点的解耦，最终生成可执行行走、蹲下和跳舞的控制策略，并探讨了多功能性与特定运动表现之间的权衡。

摘要

This paper tackles the challenge of enabling real-world humanoid robots to perform expressive and dynamic whole-body motions while maintaining overall stability and robustness. We propose Advanced Expressive Whole-Body Control (Exbody2), a method for producing whole-body tracking controllers that are trained on both human motion capture and simulated data and then transferred to the real world. We introduce a technique for decoupling the velocity tracking of the entire body from tracking body landmarks. We use a teacher policy to produce intermediate data that better conforms to the robot's kinematics and to automatically filter away infeasible whole-body motions. This two-step approach enabled us to produce a student policy that can be deployed on the robot that can walk, crouch, and dance. We also provide insight into the trade-off between versatility and the tracking performance on specific motions. We observed significant improvement of tracking performance after fine-tuning on a small amount of data, at the expense of the others.

思维导图

论文精读

中文精读约 44 分钟读完 · 32,242 字

1. 论文基本信息

1.1. 标题

ExBody2: 先进的表现力人形机器人全身控制 (ExBody2: Advanced Expressive Humanoid Whole-Body Control)

1.2. 作者

Mazeyu Ji*, Xuanbin Peng*, Fangchen Liu, Jialong Li, Ge Yang, Xuxin Cheng†, Xiaolong Wang† *：共同第一作者 †：共同指导

所属机构:

加州大学圣迭戈分校 (UC San Diego)
加州大学伯克利分校 (UC Berkeley)
麻省理工学院 (MIT)

1.3. 发表期刊/会议

论文作为预印本 (pre-print) 发布于 arXiv。 发布状态: 预印本。

1.4. 发表年份

2024年。

1.5. 摘要

本文旨在解决真实世界人形机器人执行富有表现力、动态的全身运动，同时保持整体稳定性和鲁棒性的挑战。我们提出了先进的表现力全身控制 (ExBody2)，这是一种生成全身跟踪控制器的方法，它在人类运动捕捉 (human motion capture) 数据和模拟数据上进行训练，然后迁移到真实世界。我们引入了一种将全身的速度跟踪与身体关键点 (body landmarks) 跟踪解耦 (decoupling) 的技术。我们使用一个教师策略 (teacher policy) 来生成更符合机器人运动学特性的中间数据，并自动过滤掉不可行的全身运动。这种两步法使我们能够生成一个可部署在机器人上的学生策略 (student policy)，该策略可以行走、蹲下和跳舞。我们还深入探讨了多功能性与特定运动跟踪性能之间的权衡。我们观察到在少量数据上进行微调 (fine-tuning) 后，跟踪性能显著提高，但代价是牺牲了其他方面的性能。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2412.13196
PDF 链接: http://arxiv.org/pdf/2412.13196v2

2. 整体概括

2.1. 研究背景与动机

核心问题: 人形机器人 (humanoid robot) 旨在模仿人类运动并融入人类生活空间。然而，要实现人类级别的表现力、多功能性，同时保持运动的鲁棒性和稳定性，仍然是一个悬而未决的挑战。
问题重要性: 机器人与生物身体结构之间存在固有的动力学 (dynamic) 和运动学 (kinematic) 差异。控制器需要在运动表现力 (expressiveness) 和稳定性 (stability) 之间进行权衡。如何跨越这种差距，让机器人既能模仿人类全身运动，又能兼顾两者，是当前机器人控制领域的一个关键挑战。
现有研究的挑战与空白:
- 数据不可行性 (Data Infeasibility): 人类运动数据集通常包含超出机器人物理限制的动作，导致跟踪困难并降低性能。现有方法（如 ExBody [3]）通过语言标签过滤数据，但仍可能包含不可行的动作；使用 SMPL 模型模拟的动作也可能超出真实机器人的能力。
- 数据多样性与可行性之间的权衡 (Trade-off between Diversity and Feasibility): 如何在不牺牲运动多样性的前提下，确保训练数据的可行性，是提升机器人泛化能力的关键。
- 全局关键点跟踪的局限性 (Limitations of Global Keypoint Tracking): 先前的一些全身跟踪方法（如 H2O [18] 和 OmniH2O [17]）依赖全局关键点跟踪，这常常导致跟踪失败，因为机器人难以立即与当前全局关键点对齐，从而限制了它们在动态场景中的应用。
本文的切入点与创新思路:
- ExBody2 通过引入一个通用策略 (generalist policy) 和专业策略 (specialist policy) 的两阶段训练流程来解决这些问题。
- 核心在于自动数据筛选 (automated data curation)：利用一个教师策略 (teacher policy) 评估运动的可行性，从而在数据多样性与可行性之间找到最佳平衡。
- 解耦运动-速度控制 (decoupled motion-velocity control)：将关键点跟踪与速度控制分离，并采用局部关键点跟踪，以提高动态运动的鲁棒性。

2.2. 核心贡献/主要发现

本文提出的 ExBody2 框架在人形机器人全身控制方面做出了以下关键贡献：

创新性地提出了通用策略与自动数据筛选机制 (Generalist Policy with Automated Data Curation):
- 开发了一种自动数据筛选方法，移除了不适合下半身运动的样本，同时保留了上半身运动的多样性。这有效解决了人类运动数据中包含超出机器人物理极限动作的问题，在数据可行性和多样性之间取得了最佳平衡，显著提高了策略的稳定性和准确性。
引入了专业策略与微调范式 (Specialist Policy with Finetuning):
- 在通用策略的基础上，通过对特定运动组（如舞蹈）进行微调 (fine-tuning)，生成了专业策略。这种方法无需从头训练，利用了通用策略已学习到的先验知识，显著提高了特定任务下的跟踪精度和运动细节表现。
设计了运动-速度解耦控制策略 (Decoupled Motion-Velocity Control Strategy):
- 将全身的速度跟踪与身体关键点跟踪解耦，并采用局部坐标系下的关键点跟踪，解决了传统全局关键点跟踪可能导致的累积误差和跟踪失败问题，增强了动态运动的鲁棒性和表现力。
- 结合了教师-学生 (Teacher-Student) 训练框架，其中教师策略 (teacher policy) 利用特权信息 (privileged information) 学习，学生策略 (student policy) 通过 DAgger 风格的蒸馏 (distillation) 实现 Sim-to-Real 迁移。
实验验证与性能提升:
- 在 Unitree G1 机器人上与四种最先进的基线方法进行了广泛的模拟和真实世界测试。
- 实验结果表明，ExBody2 的通用策略在多样化运动处理方面全面超越了所有基线方法。
- 专业策略通过微调进一步提升了特定任务（如舞蹈）的运动质量和表现力。
- 这些发现突出显示了 ExBody2 在弥合人类级表现力与人形机器人可靠全身控制之间差距的巨大潜力。

3. 预备知识与相关工作

3.1. 基础概念

人形机器人 (Humanoid Robot): 具有类似人类身体结构（躯干、头部、双臂、双腿）的机器人。它们被设计成在人类环境中操作，并能执行人类般的动作，如行走、奔跑、跳跃和抓取。
全身控制 (Whole-Body Control, WBC): 一种综合性的机器人控制方法，旨在同时协调机器人所有关节和末端执行器的运动，以实现复杂的任务目标，例如保持平衡、轨迹跟踪、避免碰撞和与环境交互。它通常涉及高自由度 (Degrees of Freedom, DoF) 系统的优化问题。
运动捕捉 (Motion Capture, MoCap): 一种记录人类或其他生物运动数据的技术。通过在身体关键点上放置标记物或使用无标记方法，捕捉运动轨迹和姿态信息。这些数据常被用于动画制作、虚拟现实以及作为机器人学习模仿行为的参考。
强化学习 (Reinforcement Learning, RL): 一种机器学习范式，其中一个智能体 (agent) 通过与环境的交互来学习最优策略 (policy)。智能体根据其在环境中观察到的状态 (state) 采取动作 (action)，并从环境接收奖励 (reward) 或惩罚。目标是学习一个策略，使得智能体在长期内获得的累积奖励最大化。
模拟到真实迁移 (Sim-to-Real Transfer): 在机器人领域，指在一个（通常是物理）模拟环境中训练机器人策略，然后将其直接部署到真实世界机器人上的过程。由于模拟器与现实世界之间存在不可避免的差异（即模拟-真实差距 (Sim-to-Real Gap)），这通常是一个具有挑战性的问题。
马尔可夫决策过程 (Markov Decision Process, MDP): 强化学习的数学框架。一个 MDP 由以下元素定义：
- 状态空间 (State Space, $\mathcal{S}$ ): 环境所有可能状态的集合。
- 动作空间 (Action Space, $\mathcal{A}$ ): 智能体所有可能动作的集合。
- 状态转移函数 (Transition Function, $P(s'|s, a)$ ): 从状态 $s$ 采取动作 $a$ 后转移到状态 $s'$ 的概率。
- 奖励函数 (Reward Function, R(s, a, s')): 智能体从状态 $s$ 采取动作 $a$ 转移到 $s'$ 后获得的即时奖励。
- 折扣因子 (Discount Factor, $\gamma$ ): 一个介于0和1之间的值，用于衡量未来奖励的重要性。
近端策略优化 (Proximal Policy Optimization, PPO): 一种流行的强化学习算法，属于策略梯度方法 (policy gradient method)。PPO 通过限制策略更新的幅度来提高训练稳定性，避免大的策略更新导致性能急剧下降。它通过在每次迭代中优化一个替代目标函数来实现这一点，该目标函数利用了新旧策略的比率。
DAgger (Dataset Aggregation): 一种模仿学习 (Imitation Learning) 算法。在模仿学习中，学生策略 (student policy) 通常在专家 (teacher) 生成的数据集上进行训练。然而，学生策略在部署时可能会访问到专家数据分布之外的状态，导致性能下降（协方差偏移 (Covariate Shift)）。DAgger 通过迭代地收集在当前学生策略下专家提供的动作来解决这个问题，即将学生策略在环境中执行时遇到的状态反馈给专家，让专家提供正确的动作，然后将这些新的（状态，动作）对添加到训练数据集中，重新训练学生策略。这个过程重复进行，直到学生策略的性能收敛。
特权信息 (Privileged Information): 在模拟器中可以很容易获得，但在真实世界中难以直接或精确感知的额外信息。例如，精确的摩擦系数、关节的力矩限制、环境中的隐藏物体、身体各链接的地面真值 (ground-truth) 位置和速度等。在训练强化学习策略时，通常用于训练一个教师策略 (teacher policy)，因为它能显著提高样本效率和学习性能。
SMPL (Skinned Multi-Person Linear Model): 一种可变形的人体网格模型，能够表示各种人体形状和姿态。它通过将骨骼姿态和身体形状的线性混合模型结合起来，从少量参数生成逼真的人体模型。常用于从运动捕捉或图像数据中重建人体姿态和形状。
通用策略 (Generalist Policy): 经过多样化数据集训练的策略，旨在广泛适应各种任务和运动模式，提供广泛的覆盖范围和泛化能力，但可能在特定任务上精度不高。
专业策略 (Specialist Policy): 在通用策略的基础上，通过对特定任务或运动组进行微调 (fine-tuning) 得到的策略。它专注于在特定领域实现更高的精度和性能，但可能牺牲在其他领域或更广泛任务上的适应性。

3.2. 前人工作

人形机器人全身控制 (Humanoid Whole-Body Control):
- 传统方法: 主要依赖于动力学建模和控制，例如基于零力矩点 (Zero Moment Point, ZMP) 的方法 [40, 62, 22, 41, 8, 25, 61, 27, 20, 6, 7, 9, 42, 49]。这些方法通常需要精确的系统辨识 (system identification) 和物理模型，并且在实时控制中处理外部扰动时需要大量的在线计算。
- 近期强化学习方法: 随着强化学习 (RL) 和模拟到真实迁移 (Sim-to-Real transfer) 的发展，RL 已被用于学习复杂的人形机器人全身技能 [32, 33, 53, 10, 34, 35, 48, 23, 24, 47, 55, 52]。这些方法通常在模拟中通过任务特定奖励和环境随机化 (environment randomization) 训练 RL 策略，然后迁移到真实世界。
- 结合人类运动数据: ExBody [3]、H2O [18] 和 HumanPlus [13] 等工作通过整合人类运动数据集 [38] 来指导 RL 训练，以实现富有表现力的机器人全身控制和运动模仿。然而，这些方法在表达力和机动性方面仍有局限性。
机器人运动模仿 (Robot Motion Imitation):
- 操作任务 (Manipulation Tasks): 通常涉及轮式或桌面机器人，重点在于精确控制而非平衡和地面接触 [64, 14, 46, 59, 2, 5, 15, 58, 54, 31, 26]。
- 运动任务 (Locomotion Tasks): 旨在从人类或动物运动捕捉数据中学习逼真、自然的步态行为。这需要对接触动力学、平衡和多个自由度之间的协调进行精确控制，以实现稳定和真实的运动 [44, 45, 56, 16, 37, 36, 63, 60, 57]。
- 向真实机器人迁移的挑战: 将多样化运动迁移到真实机器人是一个重大挑战，因为硬件限制和 Sim-to-Real Gap 的存在 [3, 17, 13, 19, 43, 12, 11]。
- 数据过滤问题: 先前方法 [3, 17, 13, 19] 通常依赖人工努力或手工启发式方法来过滤可行运动数据。然而，手动过滤的数据集可能仍包含不可行的动作或缺乏多样性，限制了机器人充分利用其硬件潜力的能力。

3.3. 差异化分析

ExBody2 与现有方法相比，主要有以下创新点和区别：

自动数据筛选 (Automated Data Curation) vs. 手动/启发式过滤:
- 现有方法: ExBody [3] 试图通过语言标签过滤，但可能不够精确；其他方法 [18, 17] 使用 SMPL 化身模拟，但可能超出真实机器人能力。大多数方法依赖手动过滤或手工启发式规则 [3, 17, 13, 19]，这可能导致数据集包含不可行的动作或缺乏多样性。
- ExBody2: 引入了一个自动数据筛选 (automated data curation) 方法。通过训练一个初始策略 (initial policy) 来评估每个运动序列的下半身跟踪误差，并据此过滤掉不可行的动作，同时保留上半身的多样性，从而实现了可行性-多样性原则 (Feasibility-Diversity Principle)。这使得数据集更适合机器人学习，提高了训练效果和真实世界部署的鲁棒性。
通用-专业策略范式 (Generalist-Specialist Policy Paradigm) vs. 单一策略:
- 现有方法: 通常训练一个单一策略来处理所有运动，这可能在泛化能力和特定任务的精度之间难以平衡。
- ExBody2: 提出了一种两阶段方法：
  1. 通用策略 (Generalist Policy): 在广泛且经过筛选的数据集上训练，实现对多种运动的广泛覆盖和良好的适应性。
  2. 专业策略 (Specialist Policy): 在通用策略的基础上，对特定运动组进行微调 (fine-tuning)，从而在目标行为上实现更高的保真度和精确度。这种方法既保证了广泛的适用性，又兼顾了特定任务的高精度需求。
运动-速度解耦控制策略 (Decoupled Motion-Velocity Control Strategy) vs. 全局关键点跟踪:
- 现有方法: H2O [18] 和 OmniH2O [17] 等方法依赖对全局关键点 (global keypoints) 的跟踪。这种策略可能导致累积误差，因为机器人难以实时对齐不断漂移的全局关键点，从而限制了其在动态场景中的应用。
- ExBody2: 将关键点跟踪 (keypoint tracking) 与速度控制 (velocity control) 解耦。它将关键点转换到机器人的局部坐标系 (local frame) 进行跟踪，并使用速度引导 (velocity-based tracking) 来指导整体运动。这种方法提高了跟踪的鲁棒性，即使出现轻微的位置偏差，也能保持运动的连贯性和表现力。
教师-学生训练框架 (Teacher-Student Training Framework) 与 DAgger 蒸馏 (DAgger-style Distillation):
- ExBody2: 采用了一个两阶段的教师-学生框架。教师策略 (teacher policy) 在模拟器中利用特权信息 (privileged information) 学习，实现高性能。学生策略 (student policy) 则通过 DAgger 风格的蒸馏，从历史观测中学习，从而能够在没有特权信息的真实世界中部署。这种方法有效地弥合了 Sim-to-Real Gap，提高了真实世界部署的成功率和性能。

4. 方法论

4.1. 方法原理

ExBody2 (Advanced Expressive Whole-Body Control) 框架旨在使人形机器人能够执行富有表现力、动态且稳定的全身运动。其核心思想是通过一个数据驱动的通用-专业 (generalist-specialist) 训练流程，克服人类运动数据中的不可行性挑战，并提升策略的鲁棒性和精确度。

第一阶段：数据预处理和通用策略训练
- 运动重定向: 首先将人类运动捕捉 (MoCap) 数据重定向到机器人模型上，使其符合机器人的形态。
- 自动数据筛选: 遵循“可行性-多样性原则 (Feasibility-Diversity Principle)”，即确保训练数据既包含足够多样的运动（特别是上半身），又能排除机器人无法实现的下半身动作。这通过一个迭代的筛选过程实现：训练一个初始策略，评估每个运动序列的下半身跟踪误差，并据此过滤数据，以平衡数据的可行性和多样性。
- 通用策略训练: 在这个经过筛选的数据集上训练一个通用策略 (generalist policy)，使其具备广泛的运动覆盖能力和适应性。
第二阶段：专业策略微调
- 在通用策略的基础上，对特定任务或运动组进行微调 (fine-tuning)，生成专业策略 (specialist policy)，以达到更高的跟踪精度，特别是在高精度任务中。
策略实现：教师-学生框架与解耦控制
- 教师-学生框架 (Teacher-Student Framework):
  - 教师策略 (Teacher Policy): 在模拟环境中利用特权信息 (privileged information)（如地面真值根部速度、精确的身体链接位置、物理属性）进行训练，以实现最优性能。
  - 学生策略 (Student Policy): 通过DAgger [50] 风格的蒸馏 (distillation) 进行训练，仅使用真实世界可观测的历史观测信息，来模仿教师策略的行为。这使得学生策略能够在没有特权信息的真实世界中部署。
- 运动-速度解耦控制策略 (Motion-velocity Decoupled Control Strategy): 解决传统全局关键点跟踪的累积误差问题。它将全局关键点映射到机器人的局部坐标系进行跟踪，并解耦 (decouples) 关键点跟踪与速度控制。速度跟踪指导整体运动，而关键身体部位跟踪专注于运动模仿和表现力。

4.2. 核心方法详解 (逐层深入)

4.2.1. 数据驱动的通用-专业训练流程 (Data-driven Generalist-specialist Training Pipeline)

ExBody2 采用通用-专业 (Generalist-Specialist) 管道来平衡全身运动跟踪的适应性和精度。该管道的核心是可行性-多样性原则 (Feasibility-Diversity Principle)，它指导数据集的设计，要求足够的运动多样性（尤其是在上半身）以覆盖广泛的任务分布，同时保持下半身运动的可行性，以避免不可实现或过于动态的运动降低训练稳定性。实际上，这意味着要过滤掉极端的下半身样本，并保留广泛的上半身动作。

通用策略 (Generalist Policy) 与自动数据筛选 (Automated Data Curation): 为获得在各种运动输入上表现良好的策略 $\pi$ ，首先在一个包含广泛但未筛选（可能包含许多不可行运动）的运动数据集 $\mathcal{D}$ 上训练一个初始策略 $\pi_0$ 。
1. 评估跟踪误差: 训练 $\pi_0$ $π_{0}$ 后，评估其对每个运动序列 $s \in \mathcal{D}$ $s \in D$ 的跟踪精度，并获得一个专注于下半身的跟踪误差指标 e(s)。下半身在动态可行性和平衡中起着核心作用，因此关注其跟踪误差进行筛选。这在排除过于不稳定的运动的同时，保留了上半身的多样性，符合可行性-多样性原则。具体地，e(s) 定义为： $e(s) = \alpha E_{\mathrm{key}}(s) + \beta E_{\mathrm{dof}}(s)$ 其中：
  - $E_{\mathrm{key}}(s)$ 是下半身关键身体部位 (keybody) 位置的平均误差（防止极端偏差，如翻转或滚动）。
  - $E_{\mathrm{dof}}(s)$ 衡量平均关节角度 (joint-angle) 跟踪误差。
  - $\alpha$ 和 $\beta$ 是权重系数，根据它们对下半身稳定性和精度的相对重要性来加权这两个项。
2. 确定最优阈值: 计算出每个序列的 e(s) 后，根据跟踪误差对运动进行排序，并导出经验分布 P(e)。目标是确定一个误差阈值 $\tau^*$ $τ^{*}$ ，使得子集 $\mathcal{D}_\tau = \{ s \in \mathcal{D} \mid e(s) \leq \tau \}$ $D_{τ} = {s \in D ∣ e (s) \leq τ}$ 能够训练出一个新策略 $\pi_\tau$ $π_{τ}$ ，该策略在整个数据集 $\mathcal{D}$ $D$ 上的性能最大化。形式上，我们寻求： $\tau^* = \arg \max_\tau \mathbb{E}_{s \in \mathcal{D}} [\mathrm{Performance}(\pi_\tau, s)]$ 其中 $\pi_\tau$ $π_{τ}$ 是在 $\mathcal{D}_\tau$ $D_{τ}$ 上训练的策略。
  - 在实践中，将 P(e) 分成等距的误差区间，以系统地评估在对应不同阈值 $\tau$ 的子集上训练的策略性能。通过贪婪搜索 (greedy search) 识别最优阈值 $\tau^*$ 。实验表明，当 $\tau$ 过小（运动过于简单）或过大（包含许多不可行运动）时，策略性能会下降，而最佳性能通常在中等 $\tau$ 值处获得，这平衡了多样性和可行性。
  - 通过此过程识别出的最优阈值 $\tau^*$ 具有通用性，可以有效地应用于其他运动数据集，确保鲁棒的训练和改进的性能。
专业策略 (Specialist Policies) 与微调 (Finetuning): 在获得通用策略 $\pi_{\tau^*}$ 后，通过微调 (fine-tuning) 进一步将其精炼为针对特定、高精度任务（例如舞蹈或功夫）的专业策略 (specialist policy)。
1. 效率优势: 微调比从头开始训练新策略更高效，因为专业策略只需跟踪较小的运动集。通用策略提供了“热启动 (warm start)”，使其能更有效地适应挑战性动作。
2. 鲁棒性继承: 通用策略已接触过更广泛的运动序列，因此对变异和意外干扰具有更强的鲁棒性。微调后的专业策略继承了这种适应性和鲁棒性，提高了其真实世界泛化能力。
3. 计算成本降低: 微调可以减少训练时间和计算需求。
4. 动态选择: 运动标签或动作识别模型可以分类输入运动，从而动态选择最合适的专业策略。

4.2.2. 策略目标与架构 (Policy Objective and Architecture)

ExBody2 旨在更具表现力地跟踪全身目标运动。为此，ExBody2 采用了两阶段教师-学生 (teacher-student) 训练过程，类似于 [29, 28]。具体来说，首先使用现成的强化学习 (RL) 算法 PPO [51] 训练预言者教师策略 (oracle teacher policy)，该策略拥有只能在模拟器中获得的特权信息 (privileged information)。在第二阶段，我们将特权信息替换为与真实世界一致的观测，并利用 DAgger [50] 风格的蒸馏 (distillation) 将教师策略蒸馏为可部署的学生策略 (student policy)。所有策略均使用 IsaacGym [39] 进行高效并行模拟训练。

下图（原文 Figure 3）展示了 humanoid 运动学习中的教师-学生框架。

Fig. 3: Teacher-student framework for humanoid motion learning, where the teacher uses privileged information, and the student learns from past observations to generate control actions.
该图像是示意图，展示了 humanoid 运动学习中的教师-学生框架。左侧部分描述了教师策略如何利用特权信息和前馈输入生成控制动作，而学生策略则通过模仿学习，从过去的观察中学习并生成控制动作。右侧展示了在模拟环境中运行的机器人（Unitree G1）进行的各种动作。该框架旨在提高机器人运动的表达能力和稳定性。

Fig. 3: Teacher-student framework for humanoid motion learning, where the teacher uses privileged information, and the student learns from past observations to generate control actions.

教师策略训练 (Teacher Policy Training): 将人形机器人运动控制问题建模为马尔可夫决策过程 (Markov Decision Process, MDP)。

状态空间 (State Space): 状态 $s$ 包含特权观察 (privileged observation) $\mathcal{X}$ 、本体感受状态 (proprioceptive states) $\mathcal{O}$ 和运动跟踪目标 (motion tracking target) $\mathcal{G}$ 。
策略输入与动作输出: 策略 $\hat{\pi}$ 将 $\{p_t, o_t, g_t\}$ 作为输入，并输出动作 $\hat{a}_t \in R^{23}$ 。这个预测的动作 $\hat{a}_t$ 是关节比例微分 (PD) 控制器的目标关节位置。
优化目标: 使用现成的 PPO [51] 算法最大化累积未来奖励的期望： $\mathbb{E}_{\hat{\pi}} \left[ \sum_{t=0}^T \gamma^t \mathcal{R}(s_t, \hat{a}_t) \right]$ 这鼓励策略在跟踪演示的同时保持鲁棒行为。
特权信息 (Privileged Information) $p_t$ : 包含人形机器人和环境的一些地面真值 (ground-truth) 状态，这些状态只能在模拟器中观察到。它包括：
- 地面真值根部速度 (ground-truth root velocity)。
- 真实的身体链接位置 (real body links' positions)。
- 物理属性 (physical properties) (例如摩擦系数、电机强度)。
- 目的: 特权信息可以显著提高 RL 算法的样本效率，常用于获得高性能的教师策略。
运动跟踪目标 (Motion Tracking Target) $g_t$ : 包含两个组件：
- 所需关节 (desired joints) 和 3D 关键点 (keypoints)（上半身和下半身）。
- 目标根部速度 (target root velocity) 和根部姿态 (root pose)。

奖励设计 (Reward Design): 奖励函数经过精心构建，以增强人形机器人运动的性能和真实感。主要组件包括跟踪根部 (root) 的速度、方向和姿态，以及关键点和关节位置的精确跟踪。此外，还包含几个正则化项 (regularization terms)，旨在提高机器人的稳定性并增强从模拟到真实 (sim2real) 应用的迁移能力。以下是原文 Table I 的跟踪奖励主要元素：

Term	Expression Weight
Expression Goal Ge
DoF Position	exp(−0.7\|qref − q\|) 3.0
Keypoint Position exp(−\|pref − p\|) Root Movement Goal Gm	2.0
Linear Velocity exp(−4.0\|vref − v\|)
Velocity Direction	6.0 exp(−4.0 cos(vref, v)) 6.0
Roll & Pitch	− θ\| exp(−\| θ 1.0
	1.0
Yaw	exp(−\|∆y\|)

DoF Position (自由度位置): 鼓励机器人关节位置 $q$ 匹配参考关节位置 $q_{\text{ref}}$ 。表达式为 $\exp(-0.7|q_{\text{ref}} - q|)$ ，权重为 3.0。
Keypoint Position (关键点位置): 鼓励机器人关键点位置 $p$ 匹配参考关键点位置 $p_{\text{ref}}$ 。表达式为 $\exp(-|p_{\text{ref}} - p|)$ ，权重为 2.0。
Linear Velocity (线速度): 鼓励机器人根部线速度 $v$ 匹配参考线速度 $v_{\text{ref}}$ 。表达式为 $\exp(-4.0|v_{\text{ref}} - v|)$ ，权重为 6.0。
Velocity Direction (速度方向): 鼓励机器人运动方向与参考速度方向一致。表达式为 $\exp(-4.0 \cos(v_{\text{ref}}, v))$ ，权重为 6.0。
Roll & Pitch (翻滚与俯仰): 惩罚机器人根部姿态的翻滚角 ( $\theta_{\text{roll}}$ ) 和俯仰角 ( $\theta_{\text{pitch}}$ ) 偏差，以保持身体平衡。权重为 1.0。
Yaw (偏航): 鼓励机器人根部姿态的偏航角 ( $\Delta y$ ) 与参考偏航角对齐。表达式为 $\exp(-|\Delta y|)$ ，权重为 1.0。

学生策略训练 (Student Policy Training): 在此阶段，移除特权信息，并使用更长的历史观测来训练学生策略。
1. 输入: 学生策略编码一系列过去的观测 $O_{t-H:t}$ 以及编码后的运动跟踪目标 $g_t$ ，以获取预测的动作 $a_t \sim \pi(\cdot | o_{t-H:t}, g_t)$ 。
2. 监督信号: 使用教师策略的动作 $\hat{a}_t \sim \hat{\pi}(\cdot | o_t, g_t)$ 作为监督信号。
3. 损失函数: 使用均方误差 (Mean Squared Error, MSE) 损失进行监督： $l = \lVert a_t - \hat{a}_t \rVert^2$
4. 训练策略: 采用 DAgger [50] 策略。在模拟环境中运行学生策略 $\pi$ 以生成训练数据。对于每个访问的状态，教师策略 $\hat{\pi}$ 计算专家动作作为监督信号。策略 $\pi$ 通过迭代最小化累积数据上的损失 $l$ 来进行细化，直到收敛。
5. 关键点: 训练学生策略的一个关键方面是保留足够长的历史观测序列，以弥补特权信息的缺失。

4.2.3. 运动-速度解耦控制策略 (Motion-velocity Decoupled Control Strategy)

运动跟踪包括两个目标：跟踪自由度 (DoF)（关节）位置和关键点（身体关键点）位置。关键点跟踪在训练阶段通常对运动跟踪起着至关重要的作用，因为关节自由度误差可能会传播到整个身体。

传统方法的局限性: 现有全身跟踪方法，如 H2O [18] 和 OmniH2O [17]，学习跟踪全局关键点 (global keypoints) 的轨迹。然而，这种全局跟踪策略通常会导致次优或失败的跟踪行为，因为全局关键点可能随时间漂移，导致累积误差，最终阻碍学习。
ExBody2 的解决方案:
1. 局部关键点跟踪 (Local Keypoint Tracking): 将全局关键点映射到机器人的当前坐标系，并使用局部关键点跟踪。
2. 解耦 (Decoupling): 将关键点跟踪从速度控制中解耦。
  - 速度引导跟踪 (Velocity-based tracking): 引导整体运动。
  - 关键身体跟踪 (Key body tracking): 专注于运动模仿，强调富有表现力的运动再现。
3. 鲁棒性提升: 为了提高跟踪鲁棒性，ExBody2 在训练阶段允许关键点有少量全局漂移，并定期将其修正到机器人的当前坐标系。
4. 部署阶段: 在部署时，严格采用局部关键点跟踪与运动-速度解耦控制。
- 优势: 速度与运动的协调允许最大限度地完成跟踪，即使出现轻微的位置偏差。

5. 实验设置

5.1. 数据集

CMU 数据集 ( $\mathcal{D}_{\mathrm{CMU}}$ ) [1]:
- 来源与特点: 卡内基梅隆大学运动捕捉数据库，包含 1,919 个运动序列，动作类型非常多样，包括静态动作、低运动量动作（如站立、简单行走），以及高动态、极端动作（如推举、在地上滚动、翻筋斗）。
- 作用: 作为训练通用策略的原始、全面的运动数据集，其未过滤版本包含了机器人不可行的动作。
特定难度数据集 ( $\mathcal{D}_{\mathrm{easy}}$ , $\mathcal{D}_{\mathrm{moderate}}$ , $\mathcal{D}_{\mathrm{hard}}$ ):
- 来源与特点: 从 CMU 数据集中人工筛选和整理而成的、难度递增的系列数据集，用于评估策略在不同难度级别上的性能。
  - $\mathcal{D}_{\mathrm{easy}}$ : 包含静态或低运动量动作。
  - $\mathcal{D}_{\mathrm{moderate}}$ : 包含适度动态的动作。
  - $\mathcal{D}_{\mathrm{hard}}$ : 包含高动态、高动量的动作。
- 作用: 用于评估通用策略在不同复杂运动上的表现，以及专业策略微调的有效性。
ACCAD 数据集 ( $\mathcal{D}_{\mathrm{ACCAD}}$ ):
- 来源与特点: 一个分布外 (Out-of-Distribution, OOD) 数据集，包含的动作模式在训练子集中均未出现。
- 作用: 用于评估学习到的策略的泛化能力，即在面对全新、未见过运动模式时的表现。
舞蹈数据集 ( $\mathcal{D}_{\mathrm{dancing}}$ ):
- 来源与特点: 一个用于微调 (fine-tuning) 专业策略的特定舞蹈动作数据集，例如 Cha-Cha 舞。该舞蹈包含动态的下半身运动和富有表现力的上半身手势。
- 作用: 作为专业策略微调的目标数据集，以展示其在特定高精度任务上的性能提升。

5.2. 评估指标

对论文中出现的每一个评估指标，将提供概念定义、数学公式和符号解释。

平均线速度误差 (Mean Linear Velocity Error, $E_{\mathrm{vel}}$ ):
- 概念定义: 衡量机器人根部（通常指骨盆或基座）的线速度与参考运动（如人类运动捕捉数据）的根部线速度之间的平均欧几里得距离。它量化了机器人跟踪目标速度的能力。较低的 $E_{\mathrm{vel}}$ 表示机器人速度跟踪更准确。
- 数学公式: $E_{\mathrm{vel}} = \frac{1}{N} \sum_{t=1}^{N} \lVert v_{\text{robot},t} - v_{\text{ref},t} \rVert$
- 符号解释:
  - $N$ : 评估的帧数或时间步数。
  - $v_{\text{robot},t}$ : 机器人在时间步 $t$ 的根部线速度向量。
  - $v_{\text{ref},t}$ : 参考运动在时间步 $t$ 的根部线速度向量。
  - $\lVert \cdot \rVert$ : 欧几里得范数（L2 范数），用于计算两个速度向量之间的距离。
  - 单位: 米/秒 (m/s)。
平均每关键点位置误差 (Mean Per Keypoint Position Error, MPKPE, $E_{\mathrm{mpkpe}}$ ):
- 概念定义: 评估机器人全身关键点位置跟踪能力的指标。关键点可以是身体的特定解剖点（例如头部、手、脚、肘、膝盖）。该指标计算所有关键点在所有时间步上的平均欧几里得位置误差。较低的 $E_{\mathrm{mpkpe}}$ 表示机器人姿态与参考运动的关键点位置更吻合，全身姿态模仿更准确。
- 数学公式: $E_{\mathrm{mpkpe}} = \frac{1}{N \cdot K} \sum_{t=1}^{N} \sum_{k=1}^{K} \lVert p_{\text{robot},t,k} - p_{\text{ref},t,k} \rVert$
- 符号解释:
  - $N$ : 评估的帧数或时间步数。
  - $K$ : 每个时间步跟踪的关键点数量。
  - $p_{\text{robot},t,k}$ : 机器人在时间步 $t$ 的第 $k$ 个关键点在三维空间中的位置向量。
  - $p_{\text{ref},t,k}$ : 参考运动在时间步 $t$ 的第 $k$ 个关键点在三维空间中的位置向量。
  - $\lVert \cdot \rVert$ : 欧几里得范数。
  - 单位: 米 (m)。
- 细分指标: 论文还报告了更详细的分析指标：
  - $E_{\mathrm{mpkpe}}^{\mathrm{upper}}$ : 上半身关键点位置的平均误差。
  - $E_{\mathrm{mpkpe}}^{\mathrm{lower}}$ : 下半身关键点位置的平均误差。
平均每关节位置误差 (Mean Per Joint Position Error, MPJPE, $E_{\mathrm{mpjpe}}$ ):
- 概念定义: 衡量机器人关节角度跟踪能力的指标。它计算机器人每个关节的当前角度与参考运动中对应关节角度之间的平均绝对误差。这个指标直接反映了机器人内部姿态（关节配置）与目标姿态的匹配程度。较低的 $E_{\mathrm{mpjpe}}$ 表示机器人关节姿态模仿更准确。
- 数学公式: $E_{\mathrm{mpjpe}} = \frac{1}{N \cdot J} \sum_{t=1}^{N} \sum_{j=1}^{J} |q_{\text{robot},t,j} - q_{\text{ref},t,j}|$
- 符号解释:
  - $N$ : 评估的帧数或时间步数。
  - $J$ : 每个时间步跟踪的关节数量。
  - $q_{\text{robot},t,j}$ : 机器人在时间步 $t$ 的第 $j$ 个关节的角度。
  - $q_{\text{ref},t,j}$ : 参考运动在时间步 $t$ 的第 $j$ 个关节的角度。
  - $| \cdot |$ : 绝对值。
  - 单位: 弧度 (rad)。
- 细分指标:
  - $E_{\mathrm{mpjpe}}^{\mathrm{upper}}$ : 上半身关节位置的平均误差。
  - $E_{\mathrm{mpjpe}}^{\mathrm{lower}}$ : 下半身关节位置的平均误差。

5.3. 对比基线

论文将 ExBody2 与多个基线方法进行了比较，以评估其有效性：

Exbody [4]:
- 特点: 该方法采用单阶段强化学习训练流程，并且只跟踪人类数据的上半身运动。下半身跟踪根部运动，不明确遵循步态模式，主要关注部分身体跟踪。
- 与 ExBody2 区别: Exbody 仅专注于上半身运动跟踪，不使用教师-学生 (teacher-student) 结构，历史观测长度仅为 5，并且完全使用局部关键点进行跟踪。
Exbody†:
- 特点: 这是 Exbody 的全身控制版本。它保留了原始 Exbody 设计的大部分方面，但跟踪全身的关键点和关节位置，而不是仅仅跟踪上半身。
OmniH2O* [17]:
- 特点: 本文复现了 OmniH2O [17] 的方法，使用全局关键点跟踪和原始论文中描述的相同观察空间。
- 与 ExBody2 区别: $OmniH2O*$ 的训练阶段不使用机器人的速度作为特权信息，并且完全依赖全局关键点跟踪 (global keypoint tracking)。为了公平比较，在测试时将其适应为使用局部关键点进行评估。
Exbody2-w/o-Filter:
- 特点: 这是一个消融实验基线，代表了 ExBody2 方法，但没有进行运动数据筛选 (automated data curation)。
- 作用: 用于评估自动数据筛选机制对性能提升的贡献。
Exbody2 (Ours):
- 特点: 本文提出的完整方法，它利用局部关键点跟踪 (local keypoint tracking) 和自动数据筛选来优化训练集。此外，它还整合了各种训练技术来增强整体运动保真度和 Sim-to-Real 迁移能力。

其他用于消融研究的基线:

Exbody2-HistoryX (X=0, 25, 50, 100): ExBody2 方法在学生策略训练中使用了不同的历史观测长度。用于分析历史长度对学生策略性能的影响。
Exbody2-w/o-DAgger: ExBody2 方法，但移除了 DAgger 风格的蒸馏训练。用于评估 DAgger 机制对学生策略学习的必要性。
Scratch: 在特定任务数据集上从头开始训练的策略。其总训练迭代次数与专业策略 (Specialist) 的预训练加微调迭代次数总和相匹配，以确保公平比较。
Generalist: 仅使用 ExBody2 通用策略 (generalist policy)。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 通用策略性能 (Generalist Policy Performance)

论文首先评估了 ExBody2 通用策略在模拟和真实世界中的表现，并与多个基线方法进行了比较。

以下是原文 Table II 的结果：

Method	Evel ↓	Empkpe ↓	Empkpe_upper ↓	Empkpe_lower ↓	Empjpe ↓	Empjpe_upper ↓	Empjpe_lower ↓
Exbody	0.4700	0.1339	0.1249	0.1428	0.2020	0.1343	0.2952
Exbody†	0.4195	0.1150	0.1106	0.1198	0.1496	0.1416	0.1607
OmniH20*	0.3725	0.1253	0.1266	0.1240	0.1681	0.1564	0.1843
Exbody2-w/o-Filter	0.2787	0.1133	0.1087	0.1182	0.1355	0.1192	0.1579
Exbody2(Ours)	0.2930	0.1000	0.0960	0.1040	0.1079	0.0953	0.1253

模拟环境结果分析 (Table II):
- 在模拟环境中，ExBody2 (Ours) 在所有报告的指标上都显著优于所有基线方法（Exbody、Exbody† 和 $OmniH2O*$ ），即使是没有进行运动数据筛选的版本 (Exbody2-w/o-Filter) 也表现出更好的性能。
- 通过进一步整合运动数据筛选 (motion filtering)，ExBody2 在上半身和下半身跟踪方面都取得了额外的性能提升。特别值得注意的是，下半身精度的显著改善，这带来了更高的全局稳定性，进而实现了更精确的上半身控制。
- 唯一的权衡是线速度跟踪误差 ( $E_{\mathrm{vel}}$ ) 略有增加，这可能归因于完整数据集中更广泛的速度模式，虽然引入了更多样化的动态行为，但也可能增加了额外的噪声。然而，这种适度的速度权衡被稳定性和精度的显著提升所抵消。
  
  以下是原文 Table III 的结果：
  
  Method Empjpe ↓ Empjpe_upper ↓ Empjpe_lower ↓
  Exbody 0.2178 0.1223 0.3239
  Exbody† 0.1465 0.1314 0.1672
  OmniH20* 0.1396 0.1273 0.1533
  Exbody2-w/o-Filter 0.1361 0.1254 0.1481
  Exbody2(Ours) 0.1074 0.1092 0.1054
真实世界结果分析 (Table III):
- 在真实世界实验中，结果与模拟结果高度一致。ExBody2 (Ours) 在上下半身关节位置误差 ( $E_{\mathrm{mpjpe}}$ 、 $E_{\mathrm{mpjpe}}^{\mathrm{upper}}$ 、 $E_{\mathrm{mpjpe}}^{\mathrm{lower}}$ ) 上均实现了比其他基线方法更高的跟踪精度。
- 自动数据筛选的集成显著增强了性能。这在真实世界环境中尤为关键，因为真实环境存在更多不可预测的干扰，维持鲁棒和一致的行为对于实现高精度跟踪至关重要。
总结: ExBody2 的通用策略在全身跟踪精度（包括上半身和下半身）以及速度跟踪精度方面，无论是在模拟还是真实世界中，都相较于基线算法取得了显著提升，展现了在动态环境下的稳定和高效跟踪性能。

6.1.2. 自动数据筛选的影响 (Impact of Automatic Data Curation)

为了实验性地验证选择最优人类运动数据集以学习更好通用策略的标准，论文进行了详细的消融实验，重构了自动数据筛选方法的完整流程。

下图（原文 Figure 4）展示了不同数据集过滤阈值对策略跟踪误差的影响。

Fig. 4: Impact of dataset filtering thresholds on policy tracking errors. The figure shows the tracking error trends across different dataset filtering thresholds. Policies trained on datasets with f…
该图像是图表，展示了不同数据集过滤阈值对策略跟踪误差的影响。随着过滤阈值的变化，跟踪误差趋势显示在图中，其中最佳结果出现在平衡多样性和稳定性的数据集过滤阈值下。例如，策略 $au = 0.150$ 实现了最低的跟踪误差，而过于严格或宽松的阈值导致效果下降。

Fig. 4: Impact of dataset filtering thresholds on policy tracking errors. The figure shows the tracking error trends across different dataset filtering thresholds. Policies trained on datasets with filtering thresholds that balance diversity and stability (e.g., $\pi _ { \tau = 0 . 1 5 0 }$ ) achieve the lowest tracking errors. The base policy exhibits suboptimal performance due to unfiltered data, while overly restrictive thresholds (e.g., $\pi _ { \tau = 0 . 0 7 5 }$ and overly lenient thresholds (e.g., $\pi _ { \tau = 0 . 1 7 5 }$ show reduced effectiveness. We compute the error metric $e ( s ) = \alpha E _ { \mathrm { k e y } } ( s ) + \beta E _ { \mathrm { d o f } } ( s )$ with $\alpha = 0 . 1 , \beta = 0 . 9$ , assigning heavier weight to the joint-angle term.

数据集过滤阈值分析 (Figure 4):
- 筛选机制: 首先在未过滤的 $\mathcal{D}_{\mathrm{CMU}}$ 数据集上训练一个基础策略 (base policy) $\pi_0$ 。然后，根据每个运动序列的下半身跟踪误差 $e(s) = \alpha E_{\mathrm{key}}(s) + \beta E_{\mathrm{dof}}(s)$ （其中 $\alpha = 0.1, \beta = 0.9$ ，关节角度误差权重更高）对其进行评分。根据这些分数，设置不同的误差阈值 $\tau$ ( $\tau \in \{0.075, 0.1, 0.125, 0.15, 0.175\}$ ) 来创建不同的筛选数据集 $\mathcal{D}_\tau$ 。在每个 $\mathcal{D}_\tau$ 上从 $\pi_0$ 继续训练，得到策略 $\pi_\tau$ ，并在完整的 $\mathcal{D}_{\mathrm{CMU}}$ 数据集上进行评估。
- 结果:
  - 低阈值 (例如 $\pi_{\tau=0.075}$ ): 策略在严格过滤的数据集上训练，这些数据集主要包含静态和简单运动。虽然确保了稳定性，但缺乏多样性限制了策略处理更复杂行为的泛化能力，导致性能不佳。
  - 高阈值 (例如 $\pi_{\tau=0.175}, \pi_0$ ): 策略在包含高度动态和不稳定运动的数据集上训练。数据变异性的增加在训练过程中引入了噪声，导致策略行为不一致，跟踪精度降低。
  - 中等阈值 (例如 $\pi_{\tau=0.15}$ ): 在中间阈值数据集上训练的策略在可行性和多样性之间取得了最佳平衡。数据集 $\mathcal{D}_{\tau=0.15}$ 保留了足够的变异性以改善泛化能力，同时排除了过于困难或不稳定的运动，从而实现了最低的整体跟踪误差。
- 结论: 这些发现验证了在数据集选择中平衡可行性和多样性的重要性。数据集 $\mathcal{D}_{\tau=0.15}$ 及其对应的策略 $\pi_{\tau=0.15}$ 被确定为最优选择，确保了强大的泛化能力和稳定的跟踪性能。
  
  以下是原文 Table X 的结果：

以下是原文 Table X 的结果：

Training Dataset	In dist.	Metrics
Training Dataset	In dist.	Evel ↓	Empkpe ↓	Empkpe_upper ↓	Empkpe_lower ↓	Empjpe ↓	Empjpe_upper ↓	Empjpe_lower ↓
(a) Eval. on D50
D50	✓	0.1375	0.0627	0.0571	0.0682	0.0753	0.0626	0.0928
D250	✓	0.1454	0.0669	0.0600	0.0738	0.0870	0.0689	0.1119
DcmU	✓	0.1543	0.0767	0.0649	0.0885	0.1099	0.0854	0.1437
(b) Eval. on DcMu
D50	X	0.3509	0.1076	0.1074	0.1076	0.1338	0.1285	0.1410
D250	X	0.2834	0.1048	0.1021	0.1073	0.1148	0.1012	0.1335
DcmU	✓	0.2622	0.1071	0.1036	0.1110	0.1291	0.1129	0.1512
(c) Eval. on DAcCAD
D50	×	0.4226	0.1277	0.1210	0.1330	0.1720	0.1618	0.1861
D250	X	0.3533	0.1234	0.1141	0.1315	0.1421	0.1223	0.1692
DcMU	X	0.3452	0.1267	0.1146	0.1381	0.1780	0.1635	0.1979

数据集消融研究 (Table X):
- 实验设置: 手动设计了三个不同大小和多样性的数据集来验证可行性-多样性原则 (Feasibility-Diversity Principle)：
  - $\mathcal{D}_{50}$ : 50个动作的最小数据集，包含基本和静态动作（如站立、简单行走），可行性高但多样性低。
  - $\mathcal{D}_{250}$ : 250个动作的适中数据集，扩展了 $\mathcal{D}_{50}$ ，增加了上半身动作和适度动态的下半身动作，但避免了极端动作。
  - $\mathcal{D}_{\mathrm{CMU}}$ : 完整的 CMU 数据集，包含 1,919 个序列，高度多样但包含许多不可行的极端动作。
- 在每个数据集上训练独立策略，并在三个评估集上测试： $\mathcal{D}_{50}$ （最简单的数据集）， $\mathcal{D}_{\mathrm{CMU}}$ （完整数据集），以及 $\mathcal{D}_{\mathrm{ACCAD}}$ （OOD 数据集）。
- 结果分析:
  - 在 $\mathcal{D}_{50}$ 上评估 (Eval. on D50): 在 $\mathcal{D}_{50}$ 上训练的策略在这些“分布内 (in-distribution)”动作上取得了最高跟踪精度。这表明，对于简单动作，额外的数据不一定能带来益处。在 $\mathcal{D}_{\mathrm{CMU}}$ 上训练的策略性能显著下降。
  - 在 $\mathcal{D}_{\mathrm{CMU}}$ 上评估 (Eval. on DcMu): 在 $\mathcal{D}_{250}$ 上训练的策略在完整的 $\mathcal{D}_{\mathrm{CMU}}$ 数据集上表现最佳，甚至优于直接在 $\mathcal{D}_{\mathrm{CMU}}$ 上训练的策略。这凸显了噪声数据集会降低策略性能，因为策略可能浪费精力在不可行的动作上，从而降低了对可行动作的精度。由于 $\mathcal{D}_{50}$ 多样性有限，其训练的策略在处理 OOD 动作时表现不佳。
  - 在 $\mathcal{D}_{\mathrm{ACCAD}}$ 上评估 (Eval. on DAcCAD): $\mathcal{D}_{\mathrm{ACCAD}}$ 是一个完全分布外 (OOD) 的数据集。在 $\mathcal{D}_{250}$ 上训练的策略再次表现最佳，展示了其卓越的泛化能力。 $\mathcal{D}_{50}$ 训练的策略因数据集小而简单，在处理未见过的数据时出现显著跟踪误差。
- 结论: 这些结果验证了可行性-多样性原则的核心洞察。小数据集 ( $\mathcal{D}_{50}$ ) 易于掌握但泛化能力差。未过滤的大数据集 ( $\mathcal{D}_{\mathrm{CMU}}$ ) 虽然多样，但包含太多超出机器人能力的动作，引入了有害噪声。 $\mathcal{D}_{250}$ 子集在可行的下半身运动和多样化的上半身动作之间取得了最佳平衡，使策略能够学习鲁棒且富有表现力的全身控制。

6.1.3. 专业策略微调 (Specialist Policy Finetuning)

论文评估了预训练-微调 (pretrain-finetune) 范式在增强策略性能方面的有效性。比较了三种训练策略：

Generalist: 在自动筛选的数据集 $\pi_{\tau=0.15}$ 上训练的通用策略，旨在提供广泛的运动覆盖和强大的泛化能力。
Specialist: 通过在任务特定数据集上微调预训练的通用策略获得，旨在实现特定运动的更高精度。
Scratch: 在相同任务特定数据集上从头开始训练的策略。为公平起见，其总训练迭代次数与 Specialist 方法的预训练加微调迭代次数总和相同。

以下是原文 Table IV 的结果：

以下是原文 Table IV 的结果：

Method	Evel ↓	Empkpe ↓	Empkpe_upper ↓	Empkpe_lower ↓	Empjpe ↓	Empjpe_upper ↓	Empjpe_lower ↓
(b) Deasy
Specialist	0.0828	0.0561	0.0564	0.0558	0.0772	0.0647	0.0944
Scratch	0.0853	0.0608	0.0623	0.0592	0.0843	0.0711	0.1024
Generalist	0.0986	0.0699	0.0708	0.0690	0.1041	0.0882	0.1259
(a) DModerate
Specialist	0.0991	0.0571	0.0582	0.0559	0.0760	0.0636	0.0930
Scratch	0.1188	0.0676	0.0688	0.0663	0.0924	0.0794	0.1103
Generalist	0.1217	0.0741	0.0727	0.0755	0.1092	0.0914	0.1337
(c) DHard
Specialist	0.1712	0.0827	0.0829	0.0826	0.1047	0.0911	0.1234
Scratch	0.1631	0.0886	0.0898	0.0873	0.1188	0.1067	0.1354
Generalist	0.1452	0.0890	0.0867	0.0912	0.1181	0.1011	0.1414
(d) DACCAD
Specialist	0.4021	0.1149	0.1079	0.1215	0.1402	0.1290	0.1557
Scratch	0.4153	0.1246	0.1154	0.1332	0.1609	0.1490	0.1771
Generalist	0.3361	0.1268	0.1156	0.1391	0.1716	0.1532	0.1967

在 $\mathcal{D}_{\mathrm{easy}}$ , $\mathcal{D}_{\mathrm{moderate}}$ , $\mathcal{D}_{\mathrm{hard}}$ 上的性能:
- 微调后的专业策略 (Specialist) 在所有难度级别的数据集上均实现了最佳性能。
- 数据集越具挑战性（例如从 $\mathcal{D}_{\mathrm{easy}}$ 到 $\mathcal{D}_{\mathrm{hard}}$ ），微调相对于从头训练 (Scratch) 的优势越明显，这表明利用预训练策略作为基础对于专业任务的重要性。
- 对于高动态运动，通用策略 (Generalist) 在速度跟踪 ( $E_{\mathrm{vel}}$ ) 上略有优势，这可能因为其更广泛的运动暴露。然而，专业策略在整体精度上始终更高。
在 $\mathcal{D}_{\mathrm{ACCAD}}$ 上的性能:
- 微调后的专业策略在 OOD (分布外) 数据集上显著优于预训练的通用策略和从头训练的策略。这突显了其卓越的泛化能力和对未见过场景的适应性。这一结果进一步证实，预训练的通用策略提供了坚实的基础，而微调则增强了任务特定的适应性。
  
  下图（原文 Figure 5）展示了机器人执行 Cha-Cha 舞蹈的序列。
  
  该图像是图表，展示了一系列机器人执行Cha-Cha舞蹈的过程。图中从上到下依次为：SMPL模型的参考动作、算法在仿真中的表现以及真实机器人上的表现。此外，底部三行展示了每帧的误差，包括整个身体关节的自由度误差、上半身关节的自由度误差和下半身关节的自由度误差，蓝色曲线表示针对 $\mathcal{D}_{dancing}$ 微调的Exbody2-Specialist策略，橙色表示从头开始训练的Exbody2-Scratch策略，绿色为基于过滤后的 $\mathcal{D}_{CMU}$ 训练的Exbody2-Generalist策略。

Fig. 5: A sequence of a robot performing the Cha-Cha dance. From top to bottom: the reference motion represented by an avatar, our algorithm's performance in the simulation, and its performance on a real robot. The bottom three rows show the per-frame errors: wholebody joint DoF error, upper-body joint DoF error, and lower-body DoF error, with the blue curve representing Exbody2-Specialist policy finetuned on $\mathcal { D } _ { d a n c i n g }$ , orange for Exbody2-Scratch policy training from scratch on $\mathcal { D } _ { d a n c i n g }$ , green for our Exbody2-Generalist policy trained on filtered $\mathcal { D } _ { C M U }$ .

Cha-Cha 舞蹈案例研究 (Figure 5):
- 通过选取 Cha-Cha 舞蹈（一种包含动态下半身运动和富有表现力上半身手势的舞蹈）作为案例研究，论文进一步展示了专业策略的有效性。
- 与从头训练的策略和通用策略相比，针对舞蹈数据集微调的专业策略 (Exbody2-Specialist) 在所有关键指标上（全身关节自由度误差、上半身关节自由度误差、下半身关节自由度误差）均实现了显著较低的跟踪误差。
- 结论: 预训练-微调 (pretrain-finetune) 范式被证明是实现鲁棒和适应性策略的有效方法。预训练的通用策略 $\pi_{\tau=0.15}$ 提供了一个强大的起点，而微调则允许针对特定任务进行专业化，从而在各种数据集上实现卓越性能。这种方法在挑战性场景和 OOD 场景中尤其显示出显著优势，突出了将通用能力与任务特定专业化相结合的重要性。

6.1.4. 策略训练消融研究 (Ablation on Policy Training)

论文还对策略设计进行了消融研究，以突出学生策略的历史长度以及教师-学生 (DAgger) 蒸馏的有效性。

以下是原文 Table XI 的结果：

Method	Evel ↓	Empkpe ↓	Empkpe_upper ↓	Empkpe_lower ↓	Empjpe ↓	Empjpe_upper ↓	Empjpe_lower ↓
(a) History Length Ablation
Exbody2-History10 (Ours)	0.2930	0.1000	0.0960	0.1040	0.1079	0.0953	0.1253
Exbody2-History0	0.4151	0.1047	0.1010	0.1081	0.1190	0.0986	0.1303
Exbody2-History25	0.2950	0.1032	0.0984	0.1078	0.1128	0.0965	0.1351
Exbody2-History50	0.2648	0.1004	0.0956	0.1051	0.1114	0.0967	0.1317
Exbody2-History100	0.3242	0.1063	0.1001	0.1122	0.1225	0.1050	0.1466
(b) DAgger Ablation
Exbody2(Ours)	0.2930	0.1000	0.0960	0.1040	0.1079	0.0953	0.1253
Exbody2-w/o-DAgger	0.4195	0.1150	0.1106	0.1198	0.1496	0.1416	0.1607

历史长度消融 (History Length Ablation) (Table XI-a):
- 当学生策略没有使用额外历史信息 (Exbody2-History0) 时，其性能显著下降，表明历史观测对于学生策略弥补特权信息缺失至关重要。
- 在非零历史长度中，大多数策略表现相似，但历史长度为 10 (Exbody2-History10) 的策略取得了最佳结果，这也是本文在主实验中使用的配置。
- 过长的历史长度 (Exbody2-History25、Exbody2-History50、Exbody2-History100) 反而可能增加拟合特权信息的难度，最终导致跟踪性能下降。这可能是因为过长的历史序列增加了观测空间的复杂性，使得策略学习变得更困难。
DAgger 蒸馏消融 (DAgger Ablation) (Table XI-b):
- 移除 DAgger 风格的蒸馏 (Exbody2-w/o-DAgger) 会严重降低性能。
- 在没有特权速度指导的情况下，学生策略必须直接从原始观测中学习速度跟踪，这使得它更难准确跟踪快速或动态运动。这证实了 DAgger 对于学生策略有效模仿教师策略行为的重要性，尤其是在处理 Sim-to-Real Gap 和缺乏特权信息的情况下。

6.2. 数据呈现 (表格)

本小节汇总了实验结果中展示的所有表格。

6.2.1. Table I: Rewards Specification for Exbody2

Term	Expression Weight
Expression Goal Ge
DoF Position	exp(−0.7\|qref − q\|) 3.0
Keypoint Position exp(−\|pref − p\|) Root Movement Goal Gm	2.0
Linear Velocity exp(−4.0\|vref − v\|)
Velocity Direction	6.0 exp(−4.0 cos(vref, v)) 6.0
Roll & Pitch	− θ\| exp(−\| θ 1.0
	1.0
Yaw	exp(−\|∆y\|)

6.2.2. Table II: Comparisons with baselines on dataset $\mathcal { D } _ { C M U }$ for Unitree G1.

以下是原文 Table II 的结果：

Method	Evel ↓	Empkpe ↓	Empkpe_upper ↓	Empkpe_lower ↓	Empjpe ↓	Empjpe_upper ↓	Empjpe_lower ↓
Exbody	0.4700	0.1339	0.1249	0.1428	0.2020	0.1343	0.2952
Exbody†	0.4195	0.1150	0.1106	0.1198	0.1496	0.1416	0.1607
OmniH20*	0.3725	0.1253	0.1266	0.1240	0.1681	0.1564	0.1843
Exbody2-w/o-Filter	0.2787	0.1133	0.1087	0.1182	0.1355	0.1192	0.1579
Exbody2(Ours)	0.2930	0.1000	0.0960	0.1040	0.1079	0.0953	0.1253

6.2.3. Table III: Comparisons with baselines on selected motions for Unitree G1 in real world.

以下是原文 Table III 的结果：

Method	Empjpe ↓	Empjpe_upper ↓	Empjpe_lower ↓
Exbody	0.2178	0.1223	0.3239
Exbody†	0.1465	0.1314	0.1672
OmniH20*	0.1396	0.1273	0.1533
Exbody2-w/o-Filter	0.1361	0.1254	0.1481
Exbody2(Ours)	0.1074	0.1092	0.1054

6.2.4. Table IV: Evaluation on $\mathcal { D } _ { e a s y }$ , $\mathcal { D } _ { m o d e r a t e }$ , $\mathcal { D } _ { h a r d }$ , and $\mathcal { D } _ { ACCAD }$ .

以下是原文 Table IV 的结果：

Method	Evel ↓	Empkpe ↓	Empkpe_upper ↓	Empkpe_lower ↓	Empjpe ↓	Empjpe_upper ↓	Empjpe_lower ↓
(b) Deasy
Specialist	0.0828	0.0561	0.0564	0.0558	0.0772	0.0647	0.0944
Scratch	0.0853	0.0608	0.0623	0.0592	0.0843	0.0711	0.1024
Generalist	0.0986	0.0699	0.0708	0.0690	0.1041	0.0882	0.1259
(a) DModerate
Specialist	0.0991	0.0571	0.0582	0.0559	0.0760	0.0636	0.0930
Scratch	0.1188	0.0676	0.0688	0.0663	0.0924	0.0794	0.1103
Generalist	0.1217	0.0741	0.0727	0.0755	0.1092	0.0914	0.1337
(c) DHard
Specialist	0.1712	0.0827	0.0829	0.0826	0.1047	0.0911	0.1234
Scratch	0.1631	0.0886	0.0898	0.0873	0.1188	0.1067	0.1354
Generalist	0.1452	0.0890	0.0867	0.0912	0.1181	0.1011	0.1414
(d) DACCAD
Specialist	0.4021	0.1149	0.1079	0.1215	0.1402	0.1290	0.1557
Scratch	0.4153	0.1246	0.1154	0.1332	0.1609	0.1490	0.1771
Generalist	0.3361	0.1268	0.1156	0.1391	0.1716	0.1532	0.1967

6.2.5. Table V: Proprioceptive states used in Exbody2.

State	Dimensions
DoF position	23
DoF velocity	23
Last Action	23
Root Angular Velocity	3
Roll	1
Pitch	1
Yaw	1
Total Dim	75*10

6.2.6. Table VI: Privileged information used in Exbody2.

State	Dimensions
DoF Difference	23
Keybody Difference	36
Root velocity	3
Total dim	62

6.2.7. Table VII: Reference information used in Exbody2.

State	Dimensions
DoF position	23
Keypoint position	36
Root Velocity	3
Root Angular Velocity	3
Roll	1
Pitch	1
Yaw	1
Height	1
Total dim	69

Hyperparameter	Value
Optimizer
β1,β2	Adam 0.9, 0.999
Learning Rate	1e−4
Batch Size	4096
Teacher Policy
Discount factor (γ)	0.99
Clip Param	0.2
Entropy Coef	0.005
Max Gradient Norm	1
Learning Epoches	5
Mini Batches	4
Value Loss Coef	1
Entropy Coef	0.005

6.2.9. Table IX: Regularization rewards for preventing undesired behaviors for sim-to-real transfer and refined motion.

Term	Expression	Weight
DoF position limits	1(dt & [qmin, qmax])	−10
DoF acceleration	‖dtk2	-3e-7
DoF error	‖d − 2	-0.1
Action rate	kat − at−1k2	-0.1
Feet air time	Tair 0.5	10
Feet contact force	Ffeetk2	-0.003
Stumble	1(F x > 5 × Fz feet)	−2
Waist roll pitch error	p0	-0.5
Ankle Action	‖ ankek	-0.1

6.2.10. Table X: Dataset Ablation Study: Evaluation on $\mathcal { D } _ { 50 }$ , ${ \mathcal { D } } _ { \mathrm { C M U } }$ , and $\mathcal { D } _ { \mathrm { A C C A D } }$ datasets with models trained on various datasets.