论文状态：已完成

Agility Meets Stability: Versatile Humanoid Control with Heterogeneous Data

发表：2025/11/22

人形机器人动态跟踪与平衡控制 (1)异构数据驱动的控制框架 (1)混合奖励机制 (1)人类动作捕捉数据集 (1)鲁棒性与灵活性统一 (1)

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了`AMS`框架，首次将人形机器人动态运动跟踪与极端平衡维护统一于单一策略中。通过利用异构数据源，结合人类动作捕捉与合成平衡运动，实现了敏捷性与稳定性的协调。混合奖励方案及自适应学习策略有效提高了训练效率，验证了该框架在多样化运动中的应用潜力。

摘要

Humanoid robots are envisioned to perform a wide range of tasks in human-centered environments, requiring controllers that combine agility with robust balance. Recent advances in locomotion and whole-body tracking have enabled impressive progress in either agile dynamic skills or stability-critical behaviors, but existing methods remain specialized, focusing on one capability while compromising the other. In this work, we introduce AMS (Agility Meets Stability), the first framework that unifies both dynamic motion tracking and extreme balance maintenance in a single policy. Our key insight is to leverage heterogeneous data sources: human motion capture datasets that provide rich, agile behaviors, and physically constrained synthetic balance motions that capture stability configurations. To reconcile the divergent optimization goals of agility and stability, we design a hybrid reward scheme that applies general tracking objectives across all data while injecting balance-specific priors only into synthetic motions. Further, an adaptive learning strategy with performance-driven sampling and motion-specific reward shaping enables efficient training across diverse motion distributions. We validate AMS extensively in simulation and on a real Unitree G1 humanoid. Experiments demonstrate that a single policy can execute agile skills such as dancing and running, while also performing zero-shot extreme balance motions like Ip Man's Squat, highlighting AMS as a versatile control paradigm for future humanoid applications.

思维导图

论文精读

中文精读约 40 分钟读完 · 24,474 字

1. 论文基本信息

1.1. 标题

敏捷与稳定兼顾：基于异构数据的多功能人形机器人控制 (Agility Meets Stability: Versatile Humanoid Control with Heterogeneous Data)

1.2. 作者

Yixuan Pan*, Ruoyi Qiao*, Li Chen, Kashyap Chitta, Liang Pan, Haoguang Mai, Qingwen Bu, Hao Zhao, Cunyuan Zheng, Ping Luo, Hongyang Li *表示共同第一作者。

隶属机构:

香港大学 (The University of Hong Kong)
英伟达 (NVIDIA)
清华大学 (Tsinghua University)
独立贡献者 (Individual Contributor)

1.3. 发表期刊/会议

该论文以预印本形式发布在 arXiv 平台。尽管摘要中提及了发布时间，但未明确指出已被接收或发表于哪个特定期刊或会议。

1.4. 发表年份

2025年 (根据 Published at (UTC)：2025-11-21T16:37:24.000Z)

1.5. 摘要

人形机器人被设想在以人为中心的环境中执行各种任务，这需要控制器能够将敏捷性与鲁棒的平衡能力相结合。最近在运动控制和全身跟踪方面的进展，使得在敏捷动态技能或稳定性关键行为方面取得了令人印象深刻的进展，但现有方法仍然是专业化的，专注于一种能力而牺牲了另一种能力。在这项工作中，我们引入了 AMS (Agility Meets Stability) 框架，这是第一个将动态运动跟踪和极端平衡维护统一到一个策略中的框架。我们的关键见解是利用异构数据源：提供丰富、敏捷行为的人类动作捕捉数据集，以及捕捉稳定性配置的物理约束合成平衡运动。为了调和敏捷性和稳定性之间不同的优化目标，我们设计了一种混合奖励方案，该方案在所有数据上应用通用跟踪目标，同时仅将平衡专用先验注入到合成运动中。此外，一种具有性能驱动采样和运动特定奖励塑形的自适应学习策略，能够有效地在多样化的运动分布中进行训练。我们在模拟和真实的 Unitree G1 人形机器人上广泛验证了 AMS。实验表明，单个策略可以执行跳舞和跑步等敏捷技能，同时还能执行零样本极端平衡运动，如“叶问蹲”，突显了 AMS 作为未来人形机器人应用的多功能控制范式。

1.6. 原文链接

https://arxiv.org/abs/2511.17373
https://arxiv.org/pdf/2511.17373v2.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

当前人形机器人控制领域面临的核心问题是：如何设计一个单一的控制器（或策略，policy）能够同时处理敏捷的动态运动 (agile dynamic motions) 和鲁棒的平衡维护 (robust balance maintenance)。现有的方法往往专注于其中一个方面，导致在另一个方面性能不佳或无法有效结合。

2.1.2. 为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白？

愿景需求： 人形机器人被设想在以人为中心的环境中（如家庭、工厂）执行广泛的任务，这要求它们能够像人类一样，无缝地融合动态运动和精确平衡，展现出多功能、协调的全身技能。例如，单腿站立同时用空闲肢体取物，或动态行走后进行精确放置。
现有挑战：
1. 方法专业化： 现有研究在运动控制（locomotion）和全身跟踪（whole-body tracking, WBT）方面取得了进展，但这些方法通常是专业化 (specialized) 的。它们要么专注于实现敏捷的动态技能（如跑跳），要么专注于稳定性关键行为（如极端平衡姿态），但很少能将两者统一。当试图将这些方法结合时，往往会以牺牲一方的性能为代价。
2. 数据限制： 大多数方法依赖于人类动作捕捉 (MoCap) 数据。
  - 长尾分布： MoCap 数据虽然提供了丰富的动态行为，但在极端平衡场景中存在长尾分布 (long-tailed distributions)，即这类场景数据量非常少，导致模型学习不足。
  - 人类固有约束： MoCap 数据本质上限制了机器人只能执行人类能做的动作，未能充分利用机器人的独特机械能力（如关节限制、执行器能力、质量分布）。
  - 数据噪声： MoCap 数据本身可能存在传感器噪声和运动重定向（retargeting）误差，影响训练数据质量。
3. 优化目标冲突： 动态运动和平衡运动具有截然不同的分布和优化目标。
  - 在基于强化学习（Reinforcement Learning, RL）的范式中，为一种运动类型设计的奖励函数可能无意中阻碍另一种运动类型的学习。例如，严格限制质心（CoM）始终位于支撑脚上方，对于平衡任务是精确指导，但对于依赖自然动量传递和全身协调的动态运动来说则过于限制。这种冲突使得在统一学习框架中难以同时优化两者。

2.1.3. 这篇论文的切入点或创新思路是什么？

论文通过提出 AMS (Agility Meets Stability) 框架来解决上述挑战，其创新思路在于：

异构数据利用： 结合了两种互补的数据源——丰富的人类 MoCap 数据（提供敏捷动态行为）和物理约束的合成平衡运动数据（捕捉稳定性配置）。这解决了 MoCap 数据在极端平衡场景下的局限性，并扩展了机器人可实现的物理行为范围。
混合奖励方案： 设计了一种区分对待的奖励机制。对于所有数据应用通用的运动跟踪目标，但仅对合成平衡运动注入平衡专用的先验（balance-specific priors），以避免优化目标冲突。
自适应学习策略： 引入了性能驱动的自适应采样（adaptive sampling）和运动特定奖励塑形（motion-specific reward shaping），以提高在多样化运动分布上训练的效率和泛化性。

2.2. 核心贡献/主要发现

论文的核心贡献体现在以下三个方面：

提出 AMS 框架： 首次成功地将动态运动跟踪和极端平衡维护统一到单个策略 (single policy) 中。这代表了人形机器人控制领域的一个重大突破，打破了以往敏捷性与稳定性相互独立的局面。
开发新型学习方法： 该方法利用了人类捕获的动作数据 (human-captured motion data) 和可控的合成平衡运动 (controllable synthetic balance motions)，并结合了混合奖励 (hybrid rewards) 和自适应学习 (adaptive learning) 策略，从而有效地训练了一个能够在多样化运动分布上表现良好的策略。
真实世界验证： 在 Unitree G1 人形机器人上展示了单个策略能够执行动态运动（如跳舞、跑步）和鲁棒的平衡控制（如“叶问蹲”等零样本极端平衡动作）。这不仅超越了现有基线方法，还支持了交互式遥操作（teleoperation），凸显了其作为未来自主人形机器人应用基础控制模型的巨大潜力。

3. 预备知识与相关工作

本节将为读者提供理解 AMS 框架所需的基础知识，并回顾相关的前人工作，阐明 AMS 在技术演进中的位置及其与现有方法的关键差异。

3.1. 基础概念

3.1.1. 人形机器人 (Humanoid Robots)

人形机器人是旨在模仿人类形态和运动能力的机器人。它们通常具有躯干、头部、两条手臂和两条腿，能够执行各种复杂任务，如行走、抓取、操作物体等。本研究关注人形机器人在人类环境中执行任务所需的多功能控制能力。

3.1.2. 强化学习 (Reinforcement Learning, RL)

强化学习 (RL) 是一种机器学习范式，智能体（agent）通过与环境（environment）的交互来学习如何做出决策以最大化累积奖励（cumulative reward）。

智能体 (Agent): 学习和执行动作的实体（在本论文中是人形机器人）。
环境 (Environment): 智能体与之交互的系统（在本论文中是物理模拟器或真实世界）。
状态 (State, $s_t$ ): 环境在某一时刻的完整描述。对于机器人，可能包括关节角度、角速度、根部位置和方向等。
动作 (Action, $a_t$ ): 智能体在某一状态下可以执行的操作。对于机器人，通常是控制关节的力矩或目标关节位置。
策略 (Policy, $\pi$ ): 智能体从状态到动作的映射。策略的目标是选择能够最大化未来累积奖励的动作。
奖励函数 (Reward Function, $R$ ): 定义了智能体在每个时间步（timestep）从环境中获得的回报。奖励函数的设计对于强化学习的成功至关重要，它指导智能体学习期望的行为。
价值函数 (Value Function): 估计从某个状态或在某个状态下采取某个动作后，未来能获得的期望累积奖励。

3.1.3. 全身跟踪 (Whole-Body Tracking, WBT)

全身跟踪 (WBT) 是一种机器人控制任务，目标是使机器人的全身姿态和运动轨迹尽可能地模仿一个给定的参考运动序列（reference motion sequence）。这通常通过设计奖励函数来量化机器人当前状态与参考状态之间的偏差，并通过 RL 训练一个策略来最小化这种偏差。

3.1.4. 动作捕捉 (Motion Capture, MoCap)

动作捕捉 (MoCap) 是一种技术，用于记录人类或其他物体的运动数据。这些数据通常以一系列关节角度、位置和方向的形式存储，可以作为机器人学习模仿行为的参考轨迹。AMASS 和 LAFAN1 是常用的 MoCap 数据集。

3.1.5. 质心 (Center of Mass, CoM)

质心 (CoM) 是物体所有质量的平均位置。对于机器人的平衡控制至关重要。维持 CoM 在支撑多边形（support polygon）内是静态平衡的必要条件，而在动态运动中，CoM 的轨迹也受到严格的物理约束。

3.1.6. 自由度 (Degrees of Freedom, DoFs)

自由度 (DoFs) 是描述机器人配置所需的独立参数的数量。例如，一个关节可能有一个旋转 DoF。Unitree G1 人形机器人有23个 DoFs，意味着它有23个可控的关节。

3.1.7. 比例微分控制器 (Proportional-Derivative Controller, PD Controller)

PD 控制器 是一种常见的反馈控制器，用于使机器人的关节达到期望的位置。它根据当前位置误差（比例项）和误差变化率（微分项）来计算控制输出（如关节力矩或速度）。在 WBT 中，RL 策略通常输出期望的关节位置，然后由底层 PD 控制器 将其转换为实际的关节控制指令。

3.1.8. 近端策略优化 (Proximal Policy Optimization, PPO)

近端策略优化 (PPO) 是一种流行的强化学习算法，属于策略梯度方法。它通过限制每次策略更新的大小，来确保训练的稳定性和收敛性。PPO 在平衡学习效率和稳定性方面表现良好，广泛应用于机器人控制任务。

3.2. 前人工作

论文在“相关工作”部分对学习型人形机器人全身跟踪和运动目标生成进行了回顾。

3.2.1. 学习型人形机器人全身跟踪 (Learning-based Humanoid Whole-body Tracking)

早期工作： 以 DeepMimic [17] 为代表，开启了通过示例引导的深度强化学习来训练基于物理的角色技能的先河。
敏捷控制： 随后的研究展示了能够执行表达性技能（如跳舞 [15, 18]）、武术 [19] 和一般运动机动 [13, 20, 21] 的敏捷控制器。
大规模运动库： 其他方法致力于扩展到大型运动库，通过在 MoCap 数据集 [22, 14, 13] 上训练通用策略，提供广泛的人类式运动覆盖。例如 OmniH2O [14] 就是一个通用的全身运动跟踪框架，采用了教师-学生学习范式。
鲁棒平衡控制： 与追求敏捷性并行的是，另一研究方向专注于鲁棒的平衡控制，重点关注准静态稳定性而非敏捷性。例如，HuB [12] 引入了运动过滤和任务特定奖励来训练用于极端平衡姿态的策略，这些姿态通常在人类数据集中缺失。虽然这些方法在维持稳定性方面有效，但它们往往会限制本质上需要动量和瞬态不稳定的动态运动。

3.2.2. 运动目标生成 (Motion Targets for Policy Learning)

人类演示： 大多数工作依赖于人类演示，这些演示来自大规模 MoCap 数据集 [16, 23] 或通过姿态估计从单目视频 [24, 25] 获得。这些数据为通用策略 [13, 20, 26] 提供了多样化和自然的运动学。
- 局限性： 这种数据不可避免地反映了人类运动的偏见，并表现出长尾分布，导致平衡关键或机器人特定行为的采样不足 [27]。
优化和采样方法： 作为补充，基于优化和采样的方法直接在机器人的配置空间中生成可行的轨迹，从而将策略覆盖范围扩展到多功能运动 [28] 和运动操作 [29, 30]。
生成模型： 最近的进展进一步利用了以高级命令为条件的生成模型，可以从语言或视觉-语言提示 [31, 32] 合成运动。

3.3. 技术演进

该领域的技术演进可以概括为从模仿单一特定技能，到扩展模仿大规模人类运动库，再到专门解决极端平衡问题。

初期： 专注于使用 RL 学习模仿特定、高难度的人类技能（如 DeepMimic）。
发展： 扩展到使用大型 MoCap 数据集训练能够覆盖广泛人类动作的通用全身跟踪策略（如 OmniH2O）。
分支： 出现专门解决 MoCap 数据中稀缺的极端平衡问题的研究（如 HuB）。这些工作通常牺牲了动态敏捷性。
本文工作： AMS 正是在这个技术脉络中，旨在桥接敏捷性（来自大规模 MoCap）和稳定性（来自专门的平衡控制研究）之间的鸿沟，通过整合异构数据和自适应学习，在一个统一的框架内实现高保真跟踪和鲁棒稳定性。

3.4. 差异化分析

AMS 与相关工作的核心区别和创新点在于：

统一性 vs. 专业化： 现有方法通常是专业化的，要么专注于敏捷的动态技能，要么专注于鲁棒的平衡维护。AMS 是第一个成功将这两种能力统一到一个单一策略中的框架，避免了在性能上的相互妥协。
异构数据利用： 大多数 WBT 方法主要依赖人类 MoCap 数据。AMS 则创新性地结合了：
1. 人类 MoCap 数据： 提供丰富的动态和敏捷行为。
2. 合成平衡运动数据： 通过物理约束优化生成，弥补了 MoCap 数据在极端平衡场景下的不足，并探索了机器人独有的平衡配置。这种数据异构性超越了传统人类数据集的限制。
冲突优化目标解决： AMS 通过混合奖励方案解决了敏捷性和稳定性之间固有的优化目标冲突。它对所有数据应用通用跟踪奖励，但仅对合成平衡数据应用平衡专用先验奖励，从而实现两者兼顾。相比之下，HuB 等方法则采用稳定性导向的奖励，可能会限制动态运动。
自适应学习策略： AMS 引入了自适应采样和自适应奖励塑形，以更高效地从多样化和难度不均的数据分布中学习。这使得策略能够自动关注那些难以跟踪的运动模式，并为不同运动类型提供定制化的奖励容忍度，提高了学习效率和泛化性能。

4. 方法论

本节将详细阐述 AMS 框架的核心方法，包括其问题设置、合成平衡运动生成、混合奖励机制以及自适应学习策略。

4.1. 方法原理

AMS 的核心思想是训练一个单一的强化学习策略，使其能够同时实现敏捷的动态运动跟踪和极端平衡维护。为了实现这一目标，AMS 提出了一种新颖的学习方法，该方法通过以下三个关键机制协同工作：

异构数据融合： 结合了来自人类动作捕捉（MoCap）数据集的丰富动态行为和通过物理约束优化生成的合成平衡运动，以弥补传统数据集在极端平衡场景下的不足并扩展机器人可实现的行为空间。
混合奖励设计： 针对敏捷性和稳定性之间潜在的优化目标冲突，设计了一种混合奖励机制。对于所有运动数据，策略会获得通用运动跟踪奖励；而对于合成平衡运动，则额外施加平衡专用先验奖励，以提供精确的稳定性指导，同时避免对动态运动施加不必要的限制。
自适应学习策略： 引入了性能驱动的自适应采样和运动特定奖励塑形，以提高在多样化运动分布上训练的效率和泛化能力。自适应采样确保策略能集中学习困难样本，而自适应奖励塑形则为不同运动类型提供定制化的学习目标。

整体的管道如图 2(a) 所示。它展示了从人类 MoCap 数据处理到平衡数据合成，再到自适应学习和混合奖励的整体流程。

VLM 描述: 该图像是一个示意图，展示了整体身体跟踪管道的构建过程，包括人类动作捕捉数据的处理、平衡数据合成、适应性学习以及混合奖励机制的设计，旨在实现敏捷与稳定的统一。

4.2. 核心方法详解

4.2.1. 问题设置 (Problem Setup)

本文将人形机器人全身跟踪（whole-body tracking, WBT）公式化为目标条件强化学习 (goal-conditioned reinforcement learning, RL) 任务。这意味着一个策略 $\pi$ 被优化来实时跟踪一个参考运动序列。

智能体状态 (Agent State): 在时间步 $t$ ，系统状态 $s_t$ 包含智能体的本体感受观测值（proprioceptive observations） $o_t$ 。本体感受观测通常包括机器人关节的位置、速度、加速度以及根部（通常是骨盆）的位置和方向信息。
目标运动状态 (Target Motion State): $g_t$ 表示来自参考运动的目标状态。这通常是参考运动在时间 $t$ 时的关节配置、根部姿态等。
奖励函数 (Reward Function): 奖励被定义为 $r_t = R(s_t, a_t, g_t)$ ，旨在鼓励机器人执行的动作与参考运动对齐，即机器人运动越接近参考运动，奖励越高。
动作空间 (Action Space): 动作 $\bar{a}_t \in \mathbb{R}^{23}$ 指定了期望的关节位置。这里的 23 对应于 Unitree G1 机器人的自由度（DoFs）。这些期望的关节位置通过一个底层的比例微分 (PD) 控制器 (PD controller) 应用到机器人的关节上，以生成实际的关节力矩。
学习范式 (Learning Paradigm): 论文采用教师-学生学习范式 (teacher-student learning paradigm)。首先，使用 Proximal Policy Optimization (PPO) (近端策略优化) 算法训练一个教师策略 (teacher policy)，该策略可以访问特权信息（privileged information） $i_t$ （例如，在模拟器中可获取的额外物理信息，如接触力、摩擦系数等）。然后，通过模仿学习（imitation learning）将这个教师策略的知识蒸馏（distill）到一个学生策略 (student policy) 中。学生策略仅依赖于可部署的传感器输入（如视觉、本体感受），使其能够在真实世界中运行。

4.2.2. 合成平衡运动生成 (Synthetic Balance Motion Generation)

4.2.2.1. 平衡运动参考分析 (Analysis of Balance Motion References)

人类和人形机器人由于其运动学和形态上的差异，它们的平衡运动空间只有部分重叠。

人类数据限制： 现有工作主要依赖人类 MoCap 数据，这限制了策略的能力仅限于这个共享空间。人类数据通常存在传感器噪声和运动重定向（retargeting）误差，如图 3(b) 所示，这进一步限制了训练数据的质量。
机器人独有能力： 人形机器人具有独特的机械特性，如不同的关节限制、执行器能力和质量分布，这使得它们能够实现与人类物理限制不同的平衡配置。
解决方案： 为了解决这些限制，AMS 提出通过直接从人形机器人的平衡运动空间中采样来生成合成平衡数据 (synthetic balance data)，如图 3(c) 和 3(d) 所示。这些合成数据补充了以人类为中心的数据集，提供了更广泛的物理可行行为。

VLM 描述: 该图像是插图，展示了AMS（Agility Meets Stability）框架中不同数据类型的比较。图中心的“平衡运动空间”部分（a）展示了人类和平衡动作的分类，强调了人类和类人机器人在接触状态和重心不一致上的差异。左侧（b）展示了人类数据与重定向的联系，右侧（c）展示了合成平衡数据的准确接触状态和可行重心。底部（d）演示了模型在执行不同动作时的动态表现。

4.2.2.2. 运动生成 (Motion Generation)

为了丰富训练数据集，使其包含物理上合理且多样化的全身运动序列，本文提出了一个运动生成框架，用于合成单支撑操作（single-support maneuvers）的平衡全身轨迹，如图 2(b) 所示。该方法合成的轨迹能够将未着地的摆动脚（swinging foot）移动到目标姿态，同时保持质心（CoM）在有效的支撑区域内，确保运动学可行性和平滑性。

生成过程：

初始采样： 给定一个机器人模型 $\mathcal{R}$ 、一个指定的支撑脚索引 $s$ 和一个时间范围 $N$ ，首先采样一个摆动脚的目标姿态、一个目标骨盆高度，以及一个偏向于自然下肢姿态且上身关节随机的初始关节配置。这些采样引入了末端执行器目标和全身配置的多样性。
参考轨迹构建 (Reference Construction)： 使用 $SE(3)$ 插值（SE(3) interpolation）构建三个关键链节的参考轨迹：支撑脚、摆动脚和骨盆。
两阶段批量轨迹优化 (Two-stage Batch Trajectory Optimization)： 采用算法 1 中概述的两阶段批量轨迹优化方法来计算运动。

算法 1：可控平衡运动生成 (Controllable Balance Motion Generation) 输入: 机器人模型 $\mathcal{R}$ ，支撑脚索引 $s$ ，目标脚姿态 $\mathbf{T}_f$ ，骨盆高度 $h_p$ ，时间范围 $N$ ，成本权重 $\lambda$ 输出: 运动序列 $\mathcal{M} = \{ (\mathbf{X}_t, \mathbf{q}_t) \}_{t=0}^{N-1}$

参考构建 (Reference Construction):
1. $\mathbf{T}_s(t) \gets \mathrm{constant}(\mathbf{T}_s^0)$ ：支撑脚轨迹被设置为初始支撑脚姿态 $\mathbf{T}_s^0$ 的常量。
2. $\mathbf{T}_{\bar{s}}(t) \gets \mathrm{interp}(\mathbf{T}_{\bar{s}}^0, \mathbf{T}_f, t/N)$ ：摆动脚轨迹通过从初始摆动脚姿态 $\mathbf{T}_{\bar{s}}^0$ 到目标脚姿态 $\mathbf{T}_f$ 的插值（interp）生成，插值比例为 t/N。
3. $\mathbf{T}_P(t) \longleftarrow \mathrm{interp}(\mathbf{T}_P^0, \mathbf{T}_P^{\mathrm{target}}, t/N)$ ：骨盆轨迹通过从初始骨盆姿态 $\mathbf{T}_P^0$ 到目标骨盆姿态 $\mathbf{T}_P^{\mathrm{target}}$ 的插值生成，插值比例为 t/N。
- 符号解释：
  - $\mathbf{T}_s(t)$ , $\mathbf{T}_{\bar{s}}(t)$ , $\mathbf{T}_P(t)$ : 分别表示在时间 $t$ 支撑脚、摆动脚和骨盆的轨迹。
  - $\mathbf{T}_s^0$ , $\mathbf{T}_{\bar{s}}^0$ , $\mathbf{T}_P^0$ : 分别表示支撑脚、摆动脚和骨盆的初始姿态。
  - $\mathbf{T}_f$ : 摆动脚的目标姿态。
  - $\mathbf{T}_P^{\mathrm{target}}$ : 骨盆的目标姿态。
  - $\mathrm{constant}(\cdot)$ : 生成一个常量轨迹。
  - $\mathrm{interp}(\cdot, \cdot, \cdot)$ : 生成两个姿态之间的插值轨迹。
  - $t$ : 当前时间步。
  - $N$ : 总的时间范围（轨迹长度）。
第一阶段优化 (Stage-1 Optimization): 4. 求解 $\mathrm{min} J_1(\mathbf{X}, \mathbf{q})$ 。 5. $J_1 = \lambda_{\mathrm{track}} \underbrace{\mathrm{\bf \|\bar{T}} - \mathbf{\bar{T}}_{\mathrm{ref}}\|_{\bf W}^2}_{\mathrm{tracking}} + \lambda_{\mathrm{lim}} \underbrace{\mathrm{clip}(\mathbf{q}, \mathcal{Q}_{\mathrm{lim}})^2}_{\mathrm{limits}} + \lambda_{\mathrm{rest}} \underbrace{\|\mathbf{q} - \mathbf{q}^{\mathrm{init}}\|^2}_{\mathrm{rest}} + \lambda_{\mathrm{smooth}} \underbrace{\mathrm{smooth}(\mathbf{X}, \mathbf{q})}_{\mathrm{smoothness}}$
- 符号解释：
  - $\mathbf{X}$ : 机器人的根部姿态（位置和方向）。
  - $\mathbf{q}$ : 机器人的关节配置（关节角度）。
  - $J_1$ : 第一阶段的复合代价函数。
  - $\lambda_{\mathrm{track}}, \lambda_{\mathrm{lim}}, \lambda_{\mathrm{rest}}, \lambda_{\mathrm{smooth}}$ : 各个代价项的权重。
  - $\underbrace{\mathrm{\bf \|\bar{T}} - \mathbf{\bar{T}}_{\mathrm{ref}}\|_{\bf W}^2}_{\mathrm{tracking}}$ : 跟踪项 (tracking term)，衡量机器人当前末端执行器姿态 $\mathbf{\bar{T}}$ 与参考末端执行器姿态 $\mathbf{\bar{T}}_{\mathrm{ref}}$ 之间的偏差， $\mathbf{W}$ 是权重矩阵。
  - $\underbrace{\mathrm{clip}(\mathbf{q}, \mathcal{Q}_{\mathrm{lim}})^2}_{\mathrm{limits}}$ : 关节限制项 (limits term)，惩罚关节角度 $\mathbf{q}$ 超出其物理限制 $\mathcal{Q}_{\mathrm{lim}}$ 的情况。clip 函数确保惩罚只在超出限制时发生。
  - $\underbrace{\|\mathbf{q} - \mathbf{q}^{\mathrm{init}}\|^2}_{\mathrm{rest}}$ : 静止姿态正则化项 (rest-pose regularization term)，鼓励关节回到初始（或预设的）静止姿态 $\mathbf{q}^{\mathrm{init}}$ ，以保持自然姿态。
  - $\underbrace{\mathrm{smooth}(\mathbf{X}, \mathbf{q})}_{\mathrm{smoothness}}$ : 平滑项 (smoothness term)，惩罚机器人根部姿态 $\mathbf{X}$ 和关节配置 $\mathbf{q}$ 的剧烈变化，以确保轨迹平滑。
- 目的： 这一阶段生成一个运动学上一致且平滑的轨迹。
第二阶段优化 (Stage-2 Optimization): 8. 求解 $\mathrm{min} J_2(\mathbf{X}, \mathbf{q})$ 。 9. $J_2 = J_1 + \lambda_{bal} \sum_{t=0}^{N-1} \operatorname*{max}(\mathbf{0}, \|\mathbf{p}_t - \mathbf{c}_t - \mathbf{s}\|_2 - \varepsilon)$
- 符号解释：
  - $J_2$ : 第二阶段的复合代价函数，在 $J_1$ 的基础上增加了平衡强化项。
  - $\lambda_{bal}$ : 平衡强化项的权重。
  - $\operatorname*{max}(\mathbf{0}, \cdot)$ : 这是一个 hinge loss 形式，只有当括号内的值大于 $\mathbf{0}$ 时才产生惩罚，即当平衡条件不满足时才惩罚。
  - $\mathbf{p}_t = \Pi_{xy} \mathrm{CoM}(\mathbf{X}_t, \mathbf{q}_t; \mathcal{R})$ : 在时间 $t$ ，通过机器人模型 $\mathcal{R}$ 计算的质心 $\mathrm{CoM}(\mathbf{X}_t, \mathbf{q}_t)$ 在 xy 平面上的 2D 投影。
  - $\mathbf{c}_t = \Pi_{xy} \mathrm{Trans}(\mathbf{T}_s(t))$ : 在时间 $t$ ，支撑脚姿态 $\mathbf{T}_s(t)$ 的平移部分在 xy 平面上的 2D 投影，表示支撑脚的中心。
  - $\mathbf{s} = (s_x, s_y)$ : 定义支撑矩形的半尺寸（half-size），即从支撑脚中心到矩形边界的 $x$ 和 $y$ 方向的距离。
  - $\varepsilon$ : 一个小的容忍度（tolerance）。
  - $\|\mathbf{p}_t - \mathbf{c}_t - \mathbf{s}\|_2$ : 衡量质心投影 $\mathbf{p}_t$ 与支撑脚中心 $\mathbf{c}_t$ 之间距离是否超出支撑区域 $\mathbf{s}$ ，这里原文公式 $\|\mathbf{p}_t - \mathbf{c}_t - \mathbf{s}\|_2$ 可能存在表达上的简化，通常是计算质心到支撑区域边界的距离。结合下一行 $d_t$ 的定义，更准确的理解是 $d_t = \max(0, |\mathbf{p}_t - \mathbf{c}_t| - \mathbf{s})$ ，其中 $|\cdot|$ 操作符在这里应理解为对向量分量的绝对值，然后与支撑区域半尺寸 $\mathbf{s}$ 的分量进行比较。这个平衡惩罚项鼓励质心保持在有效的支撑区域内。
- 平衡距离度量： $d_t = \|\operatorname*{max}(\mathbf{0}, |\mathbf{p}_t - \mathbf{c}_t| - \mathbf{s})|_2$ $d_{t} = ∥ max (0, ∣ p_{t} - c_{t} ∣ - s) ∣_{2}$
  - 这里 $d_t$ 量化了质心超出支撑区域的距离。 $|\mathbf{p}_t - \mathbf{c}_t|$ 计算质心与支撑脚中心在 xy 平面上的绝对坐标差。 $-\mathbf{s}$ 将其与支撑区域边界进行比较。 $\operatorname*{max}(\mathbf{0}, \cdot)$ 确保只有当质心超出边界时才产生正值。 $|_2$ 表示 $L_2$ 范数，计算超出部分的整体距离。
- 目的： 这一阶段在第一阶段的基础上，安全地对轨迹进行平衡优化，确保其稳定性。
验证 (Validation): 11. 如果 $\operatorname*{max}_t d_t \leq \varepsilon$ ，则返回 $\mathcal{M}$ ；否则失败。
- 目的： 只有在整个轨迹中质心均保持在设定的容忍度 $\varepsilon$ 内时，该轨迹才被视为物理可行并被接受。
  
  求解器： 优化问题使用 Levenberg-Marquardt solver (列文伯格-马夸特算法) [35, 36, 37, 38] 求解。 两阶段方法的优势： 这种两阶段方法将运动学可行性与平衡约束分层分离。第一阶段建立一个鲁棒且平滑的轨迹，第二阶段则安全地对其进行平衡细化，从而实现稳定收敛。

4.2.3. 混合奖励 (Hybrid Rewards)

在训练一个单一策略以同时实现动态运动跟踪和平衡关键行为时，主要的挑战在于这两种能力可能存在冲突的优化目标。AMS 通过引入混合奖励方案 (hybrid reward scheme) 来解决这个问题，该方案根据运动数据来源区分通用运动跟踪和平衡专用指导，如图 2(d) 所示。

人类动作捕捉数据 (Human Motion Capture Data) [16, 39]： 对于这类数据，仅依赖通用运动跟踪项 (general motion-tracking terms)。这些奖励项，例如关节位置、关节速度和根部方向的匹配，鼓励机器人执行自然、类人的运动，并维持粗略的稳定性。
合成平衡关键运动 (Synthetic Balance-Critical Motions)： 对于这类数据，除了通用运动跟踪奖励外，还会额外增强监督 (augment the supervision)，加入平衡专用先验 (balance-specific priors)。这些先验包括质心（center-of-mass）对齐和脚部接触一致性（foot contact consistency）[12]。这些先验提供了物理基础的指导，确保了可行的平衡，而不会过度限制从人类 MoCap 数据中捕获的敏捷性。

设计优势： 通过仅将平衡先验奖励选择性地应用于合成数据，混合奖励设计使得策略能够从人类运动中学习敏捷行为，同时在具有挑战性的姿态中保持可靠的稳定性。

4.2.4. 自适应学习 (Adaptive Learning)

为了进一步解决数据限制和优化目标冲突的问题，AMS 引入了一种自适应学习策略 (adaptive learning strategy)，该策略包含两个关键组件：自适应采样（adaptive sampling）和自适应奖励塑形（adaptive reward shaping），如图 2(c) 所示。

4.2.4.1. 自适应采样 (Adaptive Sampling)

传统的均匀采样（uniform sampling）策略对待所有运动数据一视同仁，但不同的运动序列可能具有不同的学习难度或重要性。AMS 提出了一种性能驱动的自适应采样策略 (performance-driven adaptive sampling strategy)，该策略根据跟踪性能评估动态调整运动序列的采样概率。

性能评估维度： 自适应采样策略通过以下三个关键维度评估跟踪性能：
1. 运动执行失败 (motion execution failure)：衡量机器人是否在执行运动时失去平衡或发生严重偏差。
2. 平均每关节位置误差 (mean per-joint position error, MPJPE)：衡量机器人所有关节平均位置与参考运动的偏差。
3. 最大关节位置误差 (maximum joint position error)：衡量机器人所有关节中最大位置偏差。
采样概率更新机制： 对于每个运动序列 $i$ ，维护一个采样概率 $p_i$ ，并根据周期性评估结果动态更新。
- 设 $\mathcal{F}$ 为评估期间失败的运动集合， $e_{mean}^i$ 和 $e_{max}^i$ 分别是运动 $i$ 的平均关节位置误差和最大关节位置误差。
- 对于成功的运动，使用误差分布的百分位数定义性能阈值： $\tau_{poor} = P_{75}(e)$ （第75百分位数，表示表现较差的阈值）和 $\tau_{good} = P_{25}(e)$ （第25百分位数，表示表现较好的阈值），其中 $P_k$ 表示第 $k$ 个百分位数。
  
  采样概率的更新机制如下： $p_i^{t+1} = { \left\{ \begin{array}{ll} p_i^t \cdot \gamma_{fail}, & {\mathrm{if~}} i \in {\mathcal{F}}, \\ p_i^t \cdot g_i, & {\mathrm{otherwise}}, \end{array} \right. }$
- 符号解释：
  - $p_i^{t+1}$ : 训练迭代 $t$ 时运动 $i$ 的新采样概率。
  - $p_i^t$ : 运动 $i$ 当前的采样概率。
  - $\mathcal{F}$ : 在评估期间失败的运动集合。
  - $\gamma_{fail}$ : 失败提升因子（failure boost factor），如果运动失败，其采样概率将乘以这个大于1的因子，以增加再次被采样的机会。
  - $g_i$ : 调整因子，用于非失败运动的概率调整。
    
    调整因子 $g_i$ 计算如下： $g_i = 1 + w_{mean} \big( f_{mean} \big( e_{mean}^i \big) - 1 \big) + w_{max} \big( f_{max} \big( e_{max}^i \big) - 1 \big) ,$
- 符号解释：
  - $w_{mean}, w_{max}$ : 权重系数，控制平均误差和最大误差调整的相对重要性。
  - $f_{mean}(\cdot), f_{max}(\cdot)$ : 误差特定的调整函数，它们被定义为相同的函数 f(e)。
    
    误差特定的调整函数 f(e) 定义如下： $f(e) = \left\{ \begin{array}{ll} \beta_{min} + (\beta_{max} - \beta_{min}) \cdot r_{poor}, & \mathrm{if~} e > \tau_{poor}, \\ \alpha_{min} + (\alpha_{max} - \alpha_{min}) \cdot (1 - r_{good}), & \mathrm{if~} e < \tau_{good}, \\ 1, & \mathrm{otherwise}, \end{array} \right.$
- 符号解释：
  - $e$ : 当前误差（可以是 $e_{mean}^i$ 或 $e_{max}^i$ ）。
  - $\beta_{min}, \beta_{max}$ : 最小和最大提升因子（boost factors），用于表现不佳的运动，它们的值大于 1。
  - $\alpha_{min}, \alpha_{max}$ : 最小和最大降低因子（reduction factors），用于表现良好的运动，它们的值小于 1。
  - $\tau_{poor}$ : 表现不佳的误差阈值 ( $P_{75}(e)$ )。
  - $\tau_{good}$ : 表现良好的误差阈值 ( $P_{25}(e)$ )。
  - $r_{poor}, r_{good}$ : 归一化比率，根据当前误差 $e$ 相对于阈值的程度进行线性插值。
    
    归一化比率计算如下： $r_{poor} = \frac{e - \tau_{poor}}{e_{max} - \tau_{poor}} , r_{good} = \frac{\tau_{good} - e}{\tau_{good} - e_{min}} ,$
- 符号解释：
  - $e_{max}$ : 当前评估中观察到的最大误差。
  - $e_{min}$ : 当前评估中观察到的最小误差。
最小采样概率约束： 为了确保探索性并防止任何运动被完全忽略，在更新所有概率后，首先对它们进行归一化，然后将其限制在一个最小阈值： $p_i^{final} = \operatorname*{max} \left( \frac{p_i^{t+1}}{\sum_{j=1}^N p_j^{t+1}} , p_{min} \right) ,$
- 符号解释：
  - $p_i^{final}$ : 最终的采样概率。
  - $p_{min} = \lambda \cdot \frac{1}{N}$ : 最小概率阈值，其中 $\lambda$ 是最小概率因子， $N$ 是运动总数。
- 最后，再次对概率进行归一化，以确保它们总和为 1。
  
  机制优势： 这种自适应采样机制使 AMS 能够通过根据跟踪性能持续调整训练数据分布，自动关注那些跟踪效果不佳的运动模式，从而提高样本效率和泛化性能。

4.2.4.2. 自适应奖励塑形 (Adaptive Reward Shaping)

现有的通用 WBT 方法 [20, 14, 40, 41] 通常采用统一且固定的塑形系数（shaping coefficients）来调制所有运动的奖励函数。典型的奖励定义如下： $r = \exp \left( - { \frac{err}{\sigma} } \right) ,$

符号解释：
- $r$ : 奖励值。
- err: 给定运动的跟踪误差。
- $\sigma$ : 塑形系数，控制误差容忍度。
  
  然而，这种统一处理方式面临两个挑战：

固定容忍度： 固定的容忍度 $\sigma$ 无法适应不断提高的跟踪性能。当策略表现良好时，相同的误差可能意味着不同的“差”程度。
冲突目标： 相同的参数为动态运动和平衡运动创建了冲突的目标，因为它们需要不同的塑形策略。

受 PBHC [19] 自适应策略的启发，AMS 将其从单运动跟踪扩展到通用的多运动跟踪场景。具体而言：

运动特定参数： AMS 为每个运动维护一套运动特定的 $\sigma$ 参数 (motion-specific $\sigma$ parameter sets)，并为不同的身体部位进行单独调整。这意味着每个运动，甚至每个运动的不同身体部位，都有其独特的误差容忍度。
指数移动平均更新 (Exponential Moving Average, EMA)： 为了实现稳定和响应式的自适应，采用 EMA 来更新这些参数： $\sigma_{\mathrm{new}} = (1 - \alpha) \cdot \sigma_{\mathrm{current}} + \alpha \cdot \mathrm{err}_{\mathrm{current}} ,$
- 符号解释：
  - $\sigma_{\mathrm{new}}$ : 更新后的塑形系数。
  - $\sigma_{\mathrm{current}}$ : 当前的塑形系数。
  - $\alpha$ : 更新速率（update rate），控制适应的响应性，其值介于 0 和 1 之间。
  - $\mathrm{err}_{\mathrm{current}}$ : 当前的跟踪误差。
    
    机制优势： 这种运动特定的自适应奖励塑形机制使 AMS 能够同时适应训练进度和运动多样性，显著提高了一般运动跟踪场景中的学习效率。

5. 实验设置

本节详细介绍 AMS 框架的实验设置，包括使用的平台、数据集、评估指标和对比基线，以验证其在模拟和真实机器人上的性能。

5.1. 数据集

实验在模拟环境和真实机器人上进行，使用了多种数据源：

人类动作捕捉数据 (Human Motion Capture Data):
- AMASS [16]：一个大规模的动作捕捉数据集，包含来自不同来源的动作数据，通过 SMPL 模型（Skinned Multi-Person Linear Model）统一表示人体姿态和形状。它提供了丰富的、多样化的人类运动。
- LAFAN1 [39]：另一个动作捕捉数据集，通常用于学习连续且自然的运动序列，特别强调脚部接触。
- 训练集： 论文使用了 AMASS 和 LAFAN1 数据集的一个经过过滤的子集，包含超过 8,000 个运动序列。过滤过程旨在移除对于人形机器人而言错误或不可行的运动。
合成平衡运动数据 (Synthetic Balance Motion Data):
- 通过 AMS 提出的方法生成了 10,000 个合成平衡运动序列，用于补充 MoCap 数据集中稀缺的极端平衡场景。
- 数据形态示例： 这类数据包括例如单腿支撑、重心大幅度移动等平衡关键动作，其轨迹是经过物理约束优化，确保机器人能够实际执行的。图 3(c) 和 3(d) 直观地展示了这种合成数据与人类数据的差异，强调了其准确的接触状态和可行的重心轨迹。
域随机化 (Domain Randomization): 为了提高策略在模拟和真实世界之间的迁移能力（sim-to-real transfer），所有基线模型都使用了一致的域随机化（domain randomization）进行训练。这意味着在模拟环境中随机改变物理参数（如摩擦、质量、执行器特性等），使策略对这些变化具有鲁棒性。
真实世界机器人：
- Unitree G1 [43]：一个真实的人形机器人，高 1.3 米，重约 35 公斤，具有 23 个自由度（DoFs）。它是 AMS 框架在真实世界中进行部署和验证的平台。
域外测试数据 (Out-of-Distribution, OOD Test Data):
- 为了评估泛化能力，收集了 1000 个未见过的运动作为 OOD 测试数据。这些数据包括：
  - 自录制的随机运动（self-recorded random motions）。
  - 通过 AMS 提出的方法生成的单腿运动（single-leg motions）。
- 选择这些 OOD 数据集是为了测试模型对训练集中未包含或不常见的运动模式的适应能力。

5.2. 评估指标

论文使用了五个指标来评估运动跟踪性能和策略的稳定性与保真度。

5.2.1. 成功率 (Success Rate, Succ., %)

概念定义: 衡量机器人能否在不失去平衡的情况下成功完成参考运动。如果机器人在运动过程中任何一点与参考运动的平均偏差超过 0.5 米，则认为模仿失败。
数学公式: $\mathrm{Succ.} = \frac{\text{Number of successful motions}}{\text{Total number of motions}} \times 100\%$
符号解释:
- $\text{Number of successful motions}$ : 机器人能够成功跟踪且偏差未超出阈值的运动序列数量。
- $\text{Total number of motions}$ : 总的测试运动序列数量。

5.2.2. 全局平均关节位置误差 (Global MPJPE, $E_{\mathrm{g-mpjpe}}$ , mm)

概念定义: 衡量机器人在全局坐标系下所有关节位置跟踪的平均准确性。它计算机器人每个关节的实际位置与参考运动中对应关节的期望位置之间的欧几里得距离，并对所有关节和所有时间步取平均值。
数学公式: $E_{\mathrm{g-mpjpe}} = \frac{1}{N \cdot J} \sum_{t=1}^{N} \sum_{j=1}^{J} \| \mathbf{p}_{j,t}^{\mathrm{robot}} - \mathbf{p}_{j,t}^{\mathrm{ref}} \|_2$
符号解释:
- $N$ : 运动序列中的总时间步数。
- $J$ : 机器人身上的总关节数。
- $\mathbf{p}_{j,t}^{\mathrm{robot}}$ : 在时间 $t$ 机器人第 $j$ 个关节的全局位置向量。
- $\mathbf{p}_{j,t}^{\mathrm{ref}}$ : 在时间 $t$ 参考运动中第 $j$ 个关节的全局位置向量。
- $\|\cdot\|_2$ : 向量的欧几里得范数（ $L_2$ 距离）。

5.2.3. 根部相对平均关节位置误差 (Root-relative MPJPE, $E_{\mathrm{mpjpe}}$ , mm)

概念定义: 评估局部关节位置跟踪性能，即关节相对于机器人根部（通常是骨盆）的相对位置准确性。这有助于消除由于机器人整体平移或旋转误差对全局位置误差的影响，更侧重于肢体动作的精确性。
数学公式: $E_{\mathrm{mpjpe}} = \frac{1}{N \cdot J} \sum_{t=1}^{N} \sum_{j=1}^{J} \| (\mathbf{p}_{j,t}^{\mathrm{robot}} - \mathbf{p}_{\mathrm{root},t}^{\mathrm{robot}}) - (\mathbf{p}_{j,t}^{\mathrm{ref}} - \mathbf{p}_{\mathrm{root},t}^{\mathrm{ref}}) \|_2$
符号解释:
- $N$ : 运动序列中的总时间步数。
- $J$ : 机器人身上的总关节数。
- $\mathbf{p}_{j,t}^{\mathrm{robot}}$ : 在时间 $t$ 机器人第 $j$ 个关节的全局位置向量。
- $\mathbf{p}_{\mathrm{root},t}^{\mathrm{robot}}$ : 在时间 $t$ 机器人根部的全局位置向量。
- $\mathbf{p}_{j,t}^{\mathrm{ref}}$ : 在时间 $t$ 参考运动中第 $j$ 个关节的全局位置向量。
- $\mathbf{p}_{\mathrm{root},t}^{\mathrm{ref}}$ : 在时间 $t$ 参考运动中根部的全局位置向量。
- $\|\cdot\|_2$ : 向量的欧几里得范数（ $L_2$ 距离）。

5.2.4. 接触不匹配 (Contact mismatch, Cont., %)

概念定义: 评估策略在平衡运动中脚部接触状态的保真度。它测量与参考运动相比，脚部接触状态（例如，是否与地面接触）不同的帧的百分比。较高的值表示机器人未能准确模仿预期的接触模式。
数学公式: $\mathrm{Cont.} = \frac{1}{N \cdot F} \sum_{t=1}^{N} \sum_{f=1}^{F} \mathbb{I}(C_{f,t}^{\mathrm{robot}} \neq C_{f,t}^{\mathrm{ref}}) \times 100\%$
符号解释:
- $N$ : 运动序列中的总时间步数。
- $F$ : 机器人上的脚部（通常是 2 个）。
- $C_{f,t}^{\mathrm{robot}}$ : 在时间 $t$ 机器人第 $f$ 只脚的接触状态（例如，1 表示接触，0 表示不接触）。
- $C_{f,t}^{\mathrm{ref}}$ : 在时间 $t$ 参考运动中第 $f$ 只脚的接触状态。
- $\mathbb{I}(\cdot)$ : 指示函数，当括号内的条件为真时为 1，否则为 0。

5.2.5. 滑动 (Slippage, Slip., m/s)

概念定义: 量化支撑脚相对于地面的速度。在平衡任务中，支撑脚应保持相对静止。较高的滑动值表示脚部接触不稳定，策略未能有效维持平衡。
数学公式: $\mathrm{Slip.} = \frac{1}{N \cdot F_{\mathrm{contact}}} \sum_{t=1}^{N} \sum_{f \in F_{\mathrm{contact}}} \| \mathbf{v}_{f,t}^{\mathrm{robot,ground}} \|_2$
符号解释:
- $N$ : 运动序列中的总时间步数。
- $F_{\mathrm{contact}}$ : 在给定时间步 $t$ 与地面接触的脚的集合。
- $\mathbf{v}_{f,t}^{\mathrm{robot,ground}}$ : 在时间 $t$ 机器人第 $f$ 只脚相对于地面的速度向量。
- $\|\cdot\|_2$ : 向量的欧几里得范数（ $L_2$ 距离）。

5.3. 对比基线

为了全面评估 AMS 的性能，论文将其与两个具有代表性的基线模型进行了比较：

OmniH2O [14]:
- 描述： 这是一个通用的人形机器人全身运动跟踪框架，采用了教师-学生学习范式。它旨在实现广泛的人类式运动跟踪。
- 代表性： 作为当前最先进的通用 WBT 方法之一，它代表了仅使用 MoCap 数据进行训练的性能上限。
- 适应性： 为了进行公平比较，OmniH2O 被适应到 G1 机器人平台，并对其课程学习参数（curriculum parameters）进行了优化。
HuB [12]:
- 描述： HuB 是在 OmniH2O 框架的基础上实现的。它通过替换 OmniH2O 的奖励函数，引入了以稳定性为中心的奖励设计，强调平衡运动和接触感知的跟踪。
- 代表性： 它代表了专门解决极端平衡问题的先进方法，但可能在敏捷动态运动方面有所妥协。
- 适应性： HuB 被重新实现以适应实验设置，并使用了其专注于稳定性的奖励设计。
  
  训练一致性： 为了确保公平比较，所有基线模型都使用一致的域随机化（domain randomization）从头开始训练。在模拟实验中评估的是教师策略，而学生策略则通过各自教师策略的直接模仿学习（direct imitation learning）获得。

6. 实验结果与分析

本节将详细解读 AMS 框架的实验结果，包括与现有方法的比较、消融研究以及在真实世界中的部署表现，从而验证其有效性、组件贡献和泛化能力。

6.1. 核心结果分析

6.1.1. 与现有方法的比较 (Q1)

目的： 验证 AMS 在动态和平衡运动上相对于现有方法的综合性能。以下是原文 Table I(a) 的结果：

	Tracking Error		Succ. ↑	Stability		Tracking Error		Succ. ↑	Tracking Error		Succ. ↑
Method	MoCap Data (AMASS+LAFAN1)			Synthetic Balance Data				All
	Eg-mpjpe ↓	Empipe ↓	Succ. ↑	Cont. ↓	Slip. ↓	Eg-mpjpe ↓	Empipe ↓	Succ. ↑	Eg-mpjpe ↓	Empipe ↓	Succ. ↑
OmniH2O [14]	68.31	37.23	98.49%	0.24	137.44	128.22	99.82%	115.26	98.42	77.23%
HuB [12]	82.13	67.03	96.10%	0.038	64.03	72.51	99.95%	56.88	44.18	98.93%
AMS (Ours)	48.60	24.48	99.69%	0.030	29.02	64.03	99.95%	37.30	54.06	29.02

分析：

整体优势： AMS 在所有评估指标上，无论是对 MoCap 数据（代表动态敏捷性）还是合成平衡数据（代表稳定性），都显著优于 OmniH2O 和 HuB。
MoCap 数据表现：
- AMS 在 MoCap 数据上的 Eg-mpjpe 和 Empipe 误差最低（48.60mm, 24.48mm），成功率最高（99.69%）。这表明 AMS 在跟踪敏捷、动态的人类运动方面表现出色。
- OmniH2O 在 MoCap 数据上表现尚可，但不如 AMS。HuB 由于其稳定性导向的奖励设计，在 MoCap 数据上的跟踪误差（82.13mm, 67.03mm）和成功率（96.10%）明显劣于 OmniH2O 和 AMS，这验证了其设计对动态运动的限制。
合成平衡数据表现：
- AMS 在合成平衡数据上的 Cont.（0.030%）和 Slip.（29.02 m/s）最低，显示出卓越的稳定性。其跟踪误差（64.03mm, 37.30mm）也表现良好，成功率达到 99.95%。
- HuB 在稳定性指标（Cont. 0.038%, Slip. 64.03 m/s）上优于 OmniH2O，这符合其设计目标。然而，AMS 在 Cont. 和 Slip. 上进一步提升，表明其在极端平衡任务中的稳定性更强。
- OmniH2O 在平衡数据上的稳定性（Cont. 0.24%, Slip. 137.44 m/s）和跟踪误差（128.22mm, 99.82%）最差，这说明通用 MoCap 训练的方法难以处理极端平衡。
综合表现： 最终在“所有数据”的综合评估中，AMS 以最低的跟踪误差（Eg-mpjpe 54.06mm, Empipe 29.02mm）和最高的成功率（99.78%）再次领先，证明了其在敏捷性和稳定性之间取得了最佳平衡。

结论： 实验结果有力地证明了 AMS 框架能够成功地将动态运动跟踪和极端平衡维护统一到一个单一策略中，并在模拟环境中全面超越了现有基线方法。

6.1.2. 消融研究 (Q2)

为了评估 AMS 各个关键组件的贡献，论文进行了全面的消融研究。

6.1.2.1. 合成平衡数据消融 (Ablation on Synthetic Balance Data)

目的： 验证合成平衡数据对整体性能，特别是平衡运动和泛化能力的重要性。以下是原文 Table I(b) 的结果：

	Tracking Error		Succ. ↑	Stability		Tracking Error		Succ. ↑	Tracking Error		Succ. ↑
Method	MoCap Data (AMASS+LAFAN1)			Synthetic Balance Data				All
	Eg-mpjpe ↓	Empipe ↓	Succ. ↑	Cont. ↓	Slip. ↓	Eg-mpjpe ↓	Empipe ↓	Succ. ↑	Eg-mpjpe ↓	Empipe ↓	Succ. ↑
AMS w/o Synthetic Balance Data	50.25	24.69	99.64%	0.69	112.20	71.89	94.54%	72.20	40.99	98.09%
AMS (Ours)	48.60	24.48	99.69%	0.030	29.02	64.03	99.95%	37.30	54.06	29.02

分析：

平衡运动： 缺少合成平衡数据（AMS w/o Synthetic Balance Data）导致在合成平衡数据上的性能显著下降。Cont. 从 0.030% 上升到 0.69%，Slip. 从 29.02 m/s 急剧上升到 112.20 m/s，成功率也从 99.95% 下降到 94.54%。这表明仅依赖 MoCap 数据无法有效训练机器人的极端平衡能力。
MoCap 数据： 令人鼓舞的是，添加合成平衡数据并没有显著影响 MoCap 数据上的性能（Eg-mpjpe 略有改善，Empipe 保持相似）。这说明合成数据能很好地补充现有数据，而不会引入冲突。
泛化能力 (OOD Performance)： 为了进一步验证合成数据对泛化能力（generalization capability）的影响，论文收集了 1000 个未见过的运动作为域外（Out-of-Distribution, OOD）测试数据。以下是原文 Table II 的结果：

Method Tracking Error Completion

Eg-mpjpe ↓ Empjpe ↓

AMS w/o Synthetic Balance Data 86.61 46.43 96.0%

OmniH2O [14] w/ All Data 76.26 49.57 99.1%

AMS (Ours) 63.48 32.06 99.7%

OOD 结果分析： AMS（63.48mm, 32.06mm）在 OOD 数据集上实现了最低的跟踪误差和最高的完成率（99.7%），这显著优于 AMS w/o Synthetic Balance Data（86.61mm, 46.43mm, 96.0%）和 OmniH2O w/ All Data（76.26mm, 49.57mm, 99.1%）。这表明合成平衡数据有效地提高了策略对未见运动的泛化能力，使其能够更好地应对训练集以外的复杂情况。

Method	Tracking Error	Completion
AMS w/o Synthetic Balance Data	86.61	46.43	96.0%
OmniH2O [14] w/ All Data	76.26	49.57	99.1%
AMS (Ours)	63.48	32.06	99.7%

结论： 合成平衡数据是 AMS 框架不可或缺的一部分，它显著提升了策略在平衡关键运动上的性能和对未见场景的泛化能力，同时不影响对 MoCap 数据的跟踪表现。

6.1.2.2. 混合奖励消融 (Ablation on Hybrid Rewards)

目的： 验证混合奖励方案在调和敏捷性和稳定性目标中的有效性。以下是原文 Table I(c) 的结果：

	Tracking Error		Succ. ↑	Stability		Tracking Error		Succ. ↑	Tracking Error		Succ. ↑
Method	MoCap Data (AMASS+LAFAN1)			Synthetic Balance Data				All
	Eg-mpjpe ↓	Empipe ↓	Succ. ↑	Cont. ↓	Slip. ↓	Eg-mpjpe ↓	Empipe ↓	Succ. ↑	Eg-mpjpe ↓	Empipe ↓	Succ. ↑
AMS w/ General Rewards Only	49.70	25.41	99.72%	0.39	71.62	65.39	99.46%	45.98	55.31	99.65%
AMS w/ All Rewards for All Data	54.09	27.30	99.60%	0.31	71.62	60.56	99.89%	40.56	60.32	99.70%
AMS (Ours)	48.60	24.48	99.69%	0.030	29.02	64.03	99.95%	37.30	54.06	29.02

分析：

仅使用通用奖励 (AMS w/ General Rewards Only)： 移除了平衡先验奖励后，在平衡运动上的性能显著下降。Cont. 从 0.030% 上升到 0.39%，Slip. 从 29.02 m/s 上升到 71.62 m/s，表明缺乏平衡专用指导会导致稳定性受损。尽管 MoCap 数据上的表现尚可，但在综合性能上仍不及完整 AMS。
所有数据都使用所有奖励 (AMS w/ All Rewards for All Data)： 将平衡先验奖励不加区分地应用于所有运动（包括动态 MoCap 运动）虽然在平衡任务上取得了一定的改善（Cont. 0.31%, Slip. 71.62 m/s，略优于 General Rewards Only），但却损害了 MoCap 数据上的性能，Eg-mpjpe 和 Empipe 均有所恶化。这证实了过度约束（将平衡限制应用于动态运动）会造成优化目标冲突，从而影响整体策略表现。
AMS (完整模型)： 我们的混合奖励方法通过仅将平衡专用奖励应用于合成数据，成功提供了强大的平衡指导，同时避免了对动态运动的冲突影响。因此，它在所有指标上都达到了最佳性能。

结论： 混合奖励方案是 AMS 框架成功的关键，它有效地解决了敏捷性和稳定性之间固有的优化目标冲突，确保了策略在两种运动类型上都能表现出色。

6.1.2.3. 自适应学习消融 (Ablation on Adaptive Learning)

目的： 验证自适应采样（Adaptive Sampling, AS）和自适应奖励塑形（Adaptive Reward Shaping, ARS）对学习效率和性能的贡献。以下是原文 Table I(d) 的结果：

	Tracking Error		Succ. ↑	Stability		Tracking Error		Succ. ↑	Tracking Error		Succ. ↑
Method	MoCap Data (AMASS+LAFAN1)			Synthetic Balance Data				All
	Eg-mpjpe ↓	Empipe ↓	Succ. ↑	Cont. ↓	Slip. ↓	Eg-mpjpe ↓	Empipe ↓	Succ. ↑	Eg-mpjpe ↓	Empipe ↓	Succ. ↑
AMS w/o Adaptive Learning (AS+ARS)	78.88	27.74	98.21%	0.09	87.86	43.21	99.95%	82.11	33.22	98.75%
AMS w/o Adaptive Sampling (AS)	52.92	24.60	99.69%	0.09	66.51	39.15	99.69%	57.74	29.4	99.14%
AMS w/o Adaptive Reward Shaping (ARS)	74.45	26.86	98.85%	0.030	89.03	47.27	99.90%	79.44	34.11	99.6%
AMS (Ours)	48.60	24.48	99.69%	0.030	29.02	64.03	99.95%	37.30	54.06	29.02

分析：

移除自适应学习 (AMS w/o Adaptive Learning (AS+ARS))： 当同时移除自适应采样和自适应奖励塑形时，性能下降最为显著。整体跟踪误差和成功率大幅恶化（例如，综合 Eg-mpjpe 上升到 82.11mm），这表明统一处理所有运动未能解决固有的数据多样性和难度分布问题。
移除自适应采样 (AMS w/o Adaptive Sampling (AS))： 策略无法自适应地挖掘困难样本，导致综合性能下降，尤其是在跟踪误差上（Eg-mpjpe 57.74mm）。这突出了自适应采样通过优先处理难度大的运动来提高样本效率和泛化性能的价值。
移除自适应奖励塑形 (AMS w/o Adaptive Reward Shaping (ARS))： 策略缺乏针对性的奖励调整，导致跟踪误差明显增加（Eg-mpjpe 79.44mm）。这证明了自适应奖励塑形通过为不同运动提供定制化的误差容忍度，能够显著减少跟踪误差，提高学习效率。
AMS (完整模型)： 完整 AMS 模型集成了自适应采样和自适应奖励塑形，在所有指标上均表现最佳。

结论： 自适应学习策略的两个核心组件——自适应采样和自适应奖励塑形——都对 AMS 的卓越性能做出了重要贡献。它们共同使策略能够更有效地应对多样化的运动分布，提高了学习效率和泛化能力。

6.1.3. 实时部署 (Q3)

目的： 验证 AMS 在真实世界机器人上的泛化能力和实用性。

真实世界演示： AMS 的统一策略被部署到 Unitree G1 人形机器人上。实验证明，该机器人能够执行广泛的运动，包括动态和平衡关键行为。
- 敏捷技能： 机器人可以执行跳舞和跑步等高机动性运动和表达性动作，如图 1(d) 和 1(e) 所示。
- 极端平衡： 机器人能够执行在训练中未曾见过的（zero-shot）挑战性平衡动作，如“叶问蹲”和单腿平衡姿态，如图 1(a)-1(c) 所示。这突显了策略的强大泛化能力。
  
  VLM 描述: 该图像是示意图，展示了基于AMS框架的人形机器人执行多种动态运动，包括跳舞、跑步和极端平衡动作。图(a)至图(e)分别展示了不同动作的过渡状态，体现了该框架的灵活性和稳定性。
实时遥操作 (Real-time Teleoperation)： 为了进一步验证泛化能力，论文使用现成的人体姿态估计模型 (human pose estimation model) [44] 进行了基于 RGB 摄像头的实时遥操作，如图 4 所示。通过 RGB 摄像头捕获的人体姿态关键点被缩放到人形机器人尺寸进行跟踪。尽管这种简单的遥操作方式没有经过复杂的运动重定向（retargeting）过程优化，但机器人仍然能够鲁棒地适应各种不同的运动。

VLM 描述: 该图像是图示展示了基于RGB摄像头的实时遥操作场景，包含多个动作阶段，展示了人形机器人与操作人员的互动过程。

结论： 真实世界的部署和遥操作实验证明了 AMS 策略的强大泛化能力和在实际人形机器人应用中的潜力，能够处理多样化的动态和平衡任务，并支持交互式控制。

7. 总结与思考

7.1. 结论总结

本文介绍了 AMS (Agility Meets Stability)，一个开创性的框架，首次成功地将人形机器人的动态运动跟踪 (dynamic motion tracking) 能力与极端平衡维护 (extreme balance maintenance) 能力统一到一个单一的策略中。这项工作通过以下核心创新实现了这一目标：

异构数据利用： 有效融合了提供丰富敏捷行为的人类动作捕捉（MoCap）数据集和捕捉稳定性配置的物理约束合成平衡运动数据。
混合奖励机制： 设计了一种精巧的混合奖励方案，对所有数据应用通用跟踪目标，同时仅对合成运动注入平衡专用先验，成功调和了敏捷性和稳定性之间潜在的优化目标冲突。
自适应学习策略： 引入了性能驱动的自适应采样和运动特定奖励塑形，显著提升了在多样化运动分布上训练的效率和泛化能力。

在模拟环境和真实 Unitree G1 人形机器人上的广泛实验验证了 AMS 的卓越性能。一个单一的策略不仅能够执行跳舞和跑步等敏捷技能，还能零样本地完成“叶问蹲”等极端平衡动作，超越了现有基线方法，并支持了实时遥操作。这些成果突显了 AMS 作为未来人形机器人多功能控制范式的巨大潜力。

7.2. 局限性与未来工作

论文作者也坦诚地指出了当前 AMS 框架的局限性，并展望了未来的研究方向：

缺乏精确的末端执行器控制： 当前方法缺乏对机器人末端执行器（如手和脚尖）的精确控制，这限制了其在操作（manipulation）和接触密集型任务（contact-rich tasks）中的适用性。未来的工作可以探索如何将精确的末端执行器控制融入到统一策略中。
RGB 姿态估计遥操作噪声： 基于 RGB 摄像头的姿态估计遥操作系统在全局运动估计中引入了显著噪声，这使得敏捷运动控制变得具有挑战性。未来的工作将探索采用更精确的遥操作系统，并结合在线运动重定向（online retargeting algorithms）算法，以提高遥操作的精度和鲁棒性。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一些深刻的启发：

异构数据融合的强大潜力： AMS 成功地展示了将来自不同来源、具有不同特性的数据进行智能融合的巨大价值。人类 MoCap 数据提供了行为的广度和自然性，而合成数据则弥补了稀缺性并探索了机器人独特的物理能力。这种策略对于解决许多 RL 任务中数据分布不均、特定场景数据稀缺的问题具有普适性。
细粒度奖励设计的必要性： 简单的通用奖励函数往往难以应对复杂的多目标任务。AMS 的混合奖励方案，根据数据源和目标特性进行奖励塑形，是解决冲突优化目标的优雅方案。这提示我们，在设计 RL 奖励时，需要更深入地理解任务的内在结构和不同子目标之间的关系。
自适应学习的效率优势： 自适应采样和自适应奖励塑形是提高 RL 训练效率和泛化性的强大工具。在现实世界中，机器人面对的环境和任务往往是动态变化的，智能体需要快速适应。这种性能驱动的自适应机制，能够让智能体更有效地聚焦于学习难点，从而加速收敛并提升最终性能。这对于构建更自主、更灵活的机器人智能体至关重要。
从专精到通用的范式转变： 机器人控制领域长期以来存在“先解决一个问题，再解决另一个问题”的专业化倾向。AMS 成功地证明了通过巧妙的设计，可以实现从专精到通用的范式转变，在一个策略中统一多种看似冲突的能力。这为未来设计更通用、更强大的机器人控制器提供了宝贵的方向。

7.3.2. 批判与潜在改进

尽管 AMS 取得了令人印象深刻的成果，但仍有一些潜在问题或可以改进的地方：

合成数据生成成本： 论文中合成平衡运动生成的过程，虽然能够产生高质量的物理可行轨迹，但其两阶段批量轨迹优化（batch trajectory optimization）过程可能计算成本较高。对于需要大规模、实时生成训练数据的场景，这可能是一个瓶颈。未来的研究可以探索更高效或基于生成模型（generative models）的合成方法。
混合奖励的超参数敏感性： 混合奖励方案中涉及多个权重参数（如 $\lambda_{\mathrm{track}}, \lambda_{\mathrm{lim}}, \lambda_{\mathrm{rest}}, \lambda_{\mathrm{smooth}}, \lambda_{bal}$ ），以及自适应学习中的各种因子和阈值（如 $\gamma_{fail}, w_{mean}, w_{max}, \beta_{min}, \beta_{max}, \alpha_{min}, \alpha_{max}, \alpha, p_{min}$ ）。这些超参数的调优可能非常复杂和耗时，并且可能对最终性能产生较大影响。论文并未详细讨论这些超参数的敏感性分析。一个更鲁棒的方法可能需要更少的超参数，或者自动化的超参数优化机制。
鲁棒性验证： 论文在 Unitree G1 机器人上进行了真实世界部署，这非常具有说服力。然而，对于其在更复杂、动态或未知环境中的鲁棒性，例如在有坡度、不平坦、湿滑地面或有外部扰动的环境中，仍有待进一步验证。
精确末端执行器控制的挑战： 论文提到了缺乏精确末端执行器控制的局限性。要将操作能力与敏捷性和稳定性相结合，是一个非常复杂的挑战。这不仅涉及运动学和动力学控制，还涉及感知识别、力控交互等多个方面。未来的工作需要深入研究如何无缝集成这些能力，而不是将它们视为独立的模块。
Sim-to-Real 差距： 尽管使用了域随机化，但 RGB 摄像头遥操作中出现的噪声问题暗示了 Sim-to-Real 差距（Sim-to-Real gap）仍然存在。这表明模拟环境与真实世界的差异，尤其是传感器噪声、执行器不确定性等方面，可能比当前域随机化所能覆盖的更复杂。更先进的 Sim-to-Real 技术，如领域自适应（domain adaptation）或更强大的 system identification，可能会进一步提升真实世界性能。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Agility Meets Stability: Versatile Humanoid Control with Heterogeneous Data

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 40 分钟读完 · 24,474 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

2.1.2. 为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白？

2.1.3. 这篇论文的切入点或创新思路是什么？

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 人形机器人 (Humanoid Robots)

3.1.2. 强化学习 (Reinforcement Learning, RL)

3.1.3. 全身跟踪 (Whole-Body Tracking, WBT)

3.1.4. 动作捕捉 (Motion Capture, MoCap)

3.1.5. 质心 (Center of Mass, CoM)

3.1.6. 自由度 (Degrees of Freedom, DoFs)

3.1.7. 比例微分控制器 (Proportional-Derivative Controller, PD Controller)

3.1.8. 近端策略优化 (Proximal Policy Optimization, PPO)

3.2. 前人工作

3.2.1. 学习型人形机器人全身跟踪 (Learning-based Humanoid Whole-body Tracking)

3.2.2. 运动目标生成 (Motion Targets for Policy Learning)

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 问题设置 (Problem Setup)

4.2.2. 合成平衡运动生成 (Synthetic Balance Motion Generation)

4.2.2.1. 平衡运动参考分析 (Analysis of Balance Motion References)

4.2.2.2. 运动生成 (Motion Generation)

4.2.3. 混合奖励 (Hybrid Rewards)

4.2.4. 自适应学习 (Adaptive Learning)

4.2.4.1. 自适应采样 (Adaptive Sampling)

4.2.4.2. 自适应奖励塑形 (Adaptive Reward Shaping)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.2.1. 成功率 (Success Rate, Succ., %)

5.2.2. 全局平均关节位置误差 (Global MPJPE, Eg−mpjpeE_{\mathrm{g-mpjpe}}Eg−mpjpe​, mm)

5.2.3. 根部相对平均关节位置误差 (Root-relative MPJPE, EmpjpeE_{\mathrm{mpjpe}}Empjpe​, mm)

5.2.4. 接触不匹配 (Contact mismatch, Cont., %)

5.2.5. 滑动 (Slippage, Slip., m/s)

5.3. 对比基线

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 与现有方法的比较 (Q1)

6.1.2. 消融研究 (Q2)

6.1.2.1. 合成平衡数据消融 (Ablation on Synthetic Balance Data)

6.1.2.2. 混合奖励消融 (Ablation on Hybrid Rewards)

6.1.2.3. 自适应学习消融 (Ablation on Adaptive Learning)

6.1.3. 实时部署 (Q3)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判与潜在改进

相似论文推荐

5.2.2. 全局平均关节位置误差 (Global MPJPE, $E_{\mathrm{g-mpjpe}}$ , mm)

5.2.3. 根部相对平均关节位置误差 (Root-relative MPJPE, $E_{\mathrm{mpjpe}}$ , mm)