SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

Yuke Zhu

论文状态：已完成

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

发表：2025/11/11

视觉-语言-动作模型 (1)动作追踪基础模型 (1)自然人形机器人控件 (1)大规模动作捕捉数据集 (1)实时运动规划 (1)

原文链接 PDF 下载

价格：0.10

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

该研究提出SONIC框架，通过扩展模型容量、数据量和计算资源，实现自然人形机器人全身控制。利用多样化的动作捕捉数据进行密集监督，构建了一个具备实时运动规划和多接口支持的通用控制器，展示了规模化带来的显著性能提升。

摘要

Despite the rise of billion-parameter foundation models trained across thousands of GPUs, similar scaling gains have not been shown for humanoid control. Current neural controllers for humanoids remain modest in size, target a limited behavior set, and are trained on a handful of GPUs over several days. We show that scaling up model capacity, data, and compute yields a generalist humanoid controller capable of creating natural and robust whole-body movements. Specifically, we posit motion tracking as a natural and scalable task for humanoid control, leverageing dense supervision from diverse motion-capture data to acquire human motion priors without manual reward engineering. We build a foundation model for motion tracking by scaling along three axes: network size (from 1.2M to 42M parameters), dataset volume (over 100M frames, 700 hours of high-quality motion data), and compute (9k GPU hours). Beyond demonstrating the benefits of scale, we show the practical utility of our model through two mechanisms: (1) a real-time universal kinematic planner that bridges motion tracking to downstream task execution, enabling natural and interactive control, and (2) a unified token space that supports various motion input interfaces, such as VR teleoperation devices, human videos, and vision-language-action (VLA) models, all using the same policy. Scaling motion tracking exhibits favorable properties: performance improves steadily with increased compute and data diversity, and learned representations generalize to unseen motions, establishing motion tracking at scale as a practical foundation for humanoid control.

思维导图

论文精读

中文精读约 42 分钟读完 · 27,160 字

1. 论文基本信息

1.1. 标题

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control (SONIC: 规模化动作跟踪以实现自然人形机器人全身控制)

1.2. 作者

Zhengyi Luo†, Ye Yuan†, Tingwu Wang†, Chenran Li† (共同一作); Sirui Chen*, Fernando Castañeda*, Zi-Ang Cao*, Jiefeng Li*, David Minor*, Qingwei Ben*, Xingye Da* (核心贡献者); Runyu Ding, Cyrus Hogg, Lina Song, Edy Lim, Eugene Jeong, Taira He, Har Xue, Wenli Xiao, Zi Wang, Smuen, Jan Kautz, Yan Chang, Umar Ibal, Linxi "Jim"Fan, Yuke Zhu‡ (项目负责人)。所有作者均来自英伟达 (Nvidia)。

1.3. 发表期刊/会议

该论文以预印本 (arXiv preprint) 形式发布，日期为 2025-11-11T04:37:40.000Z。由于发布时间点在未来，这表明它可能是一篇尚未正式发表、正在审阅或即将发表的论文。arXiv 在人工智能和机器人领域是重要的预印本平台，广泛用于快速分享最新研究成果。

1.4. 发表年份

2025年。

1.5. 摘要

尽管在千亿级参数的基础模型 (foundation models) 和数千个 GPU 的训练方面取得了巨大进展，但人形机器人控制领域尚未展现出类似的规模化收益。当前的人形机器人神经控制器通常规模适中，目标行为集有限，并且仅需几天内在少量 GPU 上进行训练。本文展示了通过扩大模型容量 (model capacity)、数据 (data) 和计算资源 (compute)，可以获得一个通用型人形机器人控制器，能够生成自然且鲁棒的全身运动。具体而言，作者提出将动作跟踪 (motion tracking) 作为人形机器人控制的自然且可扩展任务，利用来自多样化动作捕捉数据 (motion-capture data) 的密集监督 (dense supervision) 来获取人类动作先验 (human motion priors)，而无需手动进行奖励设计 (reward engineering)。

作者通过三个维度进行扩展，构建了一个用于动作跟踪的基础模型：网络规模（从 1.2M 增加到 42M 参数）、数据集容量（超过 1 亿帧，700 小时高质量动作数据）和计算资源（9k GPU 小时）。除了展示规模化带来的益处，本文还通过两种机制展示了模型的实际效用：(1) 一个实时通用运动学规划器 (kinematic planner)，将动作跟踪与下游任务执行 (downstream task execution) 相结合，从而实现自然且交互式的控制；(2) 一个统一词元空间 (unified token space)，支持各种动作输入接口，例如 VR 遥操作 (VR teleoperation) 设备、人类视频和视觉-语言-动作 (Vision-Language-Action, VLA) 模型，所有这些都使用相同的策略 (policy)。规模化动作跟踪展现出良好的特性：性能随着计算资源和数据多样性的增加而稳步提升，并且学习到的表示 (learned representations) 能够泛化到未曾见过的动作，从而确立了规模化动作跟踪作为人形机器人控制实用基础的地位。

1.6. 原文链接

https://arxiv.org/abs/2511.07820

1.7. PDF 链接

https://arxiv.org/pdf/2511.07820v1.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 人形机器人控制的挑战

在过去的十年中，人工智能领域见证了大型基础模型 (foundation models) 的崛起，例如 GPT 系列模型在数万个 GPU 上训练了数万亿词元 (tokens)，视频和图像生成模型也利用数千个 GPU 处理数十亿图像。这些基础模型展现出一致的模式：规模化 (scaling) 能够解锁新兴能力 (emergent capabilities)，并带来小模型无法实现的泛化 (generalization) 和鲁棒性 (robustness)。

然而，人形机器人控制领域尚未出现类似规模化收益。当前用于人形机器人的神经控制器通常规模较小（例如，只有几百万参数的三层 MLP），通常仅在单个 GPU 上进行几天训练以完成特定任务。更重要的是，由于每个任务都需要手动进行奖励设计 (reward engineering)，为新能力重新设计奖励和目标变得异常困难，甚至可能导致性能下降。

2.1.2. 现有方法的局限性

传统的机器人控制方法通常需要为每个特定场景进行大量的奖励设计。例如，为了让机器人自然向前行走，所需的奖励信号与跳舞所需的信号大相径庭。这种任务选择上的根本挑战，使得支持多样化的真实世界应用变得非同寻常。一个理想的人形机器人控制器应该能够处理遥操作 (teleoperation)、目标导向任务 (goal-directed tasks)、导航 (navigation) 甚至视觉-语言指令 (vision-language commands)。构建一个既能扩展又对不同任务规范保持灵活的系统是当前面临的关键挑战。

2.1.3. 本文的切入点与创新思路

本文旨在通过将动作跟踪 (motion tracking) 识别为人形机器人控制的可扩展基础任务来解决上述挑战。动作跟踪利用人类动作捕捉数据 (motion capture data)，提供密集、逐帧的监督 (dense, frame-by-frame supervision)，从而无需进行奖励设计。人形机器人领域受益于数十年来动作捕捉研究积累的数据，这些数据涵盖了行走、奔跑、跳舞、体育运动和物体交互等多种行为。尽管现有的动作跟踪工作大多限于在训练数据上展示全身动作跟踪结果，并且很少展示动作跟踪或导航之外的下游任务，但本文通过规模化 (supersizing) 物理模拟动作跟踪，达到了前所未有的 1 亿帧数据量和 128 个 GPU 的训练规模，从而实现了在多样化人类行为中的通用跟踪能力，并保持了实时性能。

2.2. 核心贡献/主要发现

本文的主要贡献和发现可以总结如下：

将动作跟踪确立为可扩展的基础任务： 首次证明了动作跟踪对于人形机器人控制而言是一个可扩展的基础任务，并在计算资源和数据多样性方面展现出良好的扩展特性。将人形机器人控制的训练规模提升到 9k GPU 小时和 1 亿帧动作序列，实现了跨越多种人类行为的通用跟踪能力。
提出并实现了 SONIC 框架： 该框架通过规模化动作跟踪，实现了一个通用型人形机器人控制器，能够生成自然且鲁棒的全身运动。
引入创新机制以提升实用性：
- 运动学规划器 (Kinematic Motion Generation System)： 开发了一个实时通用运动学规划系统，用于交互式控制，通过运动空间中的运动学规划，实现目标导向任务，例如交互式运动和类游戏角色控制。该规划器能够在 5 毫秒内在标准笔记本电脑上完成推理，或在 Jetson Orin GPU 上 12 毫秒内完成推理，并支持高达 100 毫秒一次的重规划。
- 统一词元空间 (Universal Token Space)： 设计了一个统一的词元空间，支持多模态控制 (multimodal control)，能够接受来自遥操作 (teleoperation)、人类视频、音乐、文本和视觉-语言-动作 (VLA) 模型等多种输入，所有这些都通过单阶段训练 (single-stage training) 实现，无需蒸馏 (distillation)。
广泛的评估和泛化能力：
- 卓越的泛化能力： 在大规模、前所未见的运动数据集上进行了评估，包括 AMA 数据集，并展现出显著的泛化能力。
- 超越基线模型的性能： 在多项评估指标上，显著优于 Any2Track、BeyondMimic 和 GMT 等现有最先进的跟踪器。
- 零样本 (Zero-shot) 真实世界部署： 在真实世界中对 Unitree G1 人形机器人进行了 50 个多样化动作序列的部署，实现了 100% 的成功率，并与仿真结果高度匹配。
- 与基础模型的兼容性： 成功地将 SONIC 与 GR00T N1.5 VLA 模型集成，在移动双臂操作任务中实现了 95% 的成功率，证明了其与高级规划能力的兼容性。
  
  总而言之，SONIC 通过大规模的动作跟踪训练，不仅实现了高性能、高泛化性的人形机器人全身控制，还通过创新的规划器和统一的词元空间，极大地提升了其实用性和多模态交互能力，为通用型人形机器人控制奠定了坚实基础。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 人形机器人控制 (Humanoid Control)

人形机器人控制是机器人学的一个子领域，旨在开发算法和系统，使像人类一样形态的机器人能够执行各种任务，包括行走、跑步、跳跃、抓取物体、与环境交互等。这通常涉及复杂的平衡、全身协调和动力学管理。

3.1.2. 动作跟踪 (Motion Tracking)

在机器人控制中，动作跟踪是指让机器人模仿或复现预先设定的（或实时获取的）运动序列。这通常通过物理仿真来完成，其中机器人控制器接收目标运动作为输入，并生成相应的关节命令，以使机器人的运动尽可能地接近目标运动。本文将动作跟踪作为核心任务，因为它能提供密集的、无须人工奖励设计的监督信号。

3.1.3. 动作捕捉数据 (Motion Capture Data)

动作捕捉系统通过记录人类演员的运动，生成详细的身体姿态和运动轨迹数据。这些数据通常包括关节位置、旋转、速度等信息。本文利用大规模、多样化的动作捕捉数据来训练人形机器人，以学习人类动作的先验知识。

3.1.4. 基础模型 (Foundation Models)

基础模型是经过大规模数据训练的超大型模型，它们能够通过适应 (adaptation) 和微调 (fine-tuning) 来处理广泛的下游任务。例如，GPT 系列模型在大量文本数据上训练后，可以执行翻译、摘要、问答等多种任务。本文的目标是将这种规模化训练的理念引入人形机器人控制领域。

3.1.5. 奖励设计 (Reward Engineering)

在强化学习 (Reinforcement Learning, RL) 中，奖励设计是指为智能体 (agent) 定义一个奖励函数，以指导其学习期望的行为。设计一个有效的奖励函数通常需要领域专家知识，并且可能非常耗时和困难，尤其是对于复杂、多样的机器人行为。不当的奖励设计可能导致智能体学习到次优或不期望的行为。本文通过利用动作跟踪的密集监督来避免手动奖励设计。

3.1.6. 强化学习 (Reinforcement Learning, RL)

强化学习是机器学习的一个分支，智能体通过与环境的交互学习如何做出决策以最大化累积奖励。它通常包含状态 (state)、动作 (action)、奖励 (reward) 和策略 (policy) 等核心概念。本文使用近端策略优化 (PPO) 算法训练控制器。

3.1.7. 马尔可夫决策过程 (Markov Decision Process, MDP)

MDP 是强化学习的数学框架，用于对顺序决策问题进行建模。一个 MDP 由以下部分组成：

状态空间 (State Space, $\mathcal{S}$ ): 环境所有可能状态的集合。
动作空间 (Action Space, $\mathcal{A}$ ): 智能体所有可能动作的集合。
转移函数 (Transition Function, $\mathcal{T}$ ): $P(s' | s, a)$ ，表示在状态 $s$ 执行动作 $a$ 后，转移到下一个状态 $s'$ 的概率。
奖励函数 (Reward Function, $\mathcal{R}$ ): R(s, a, s')，表示在状态 $s$ 执行动作 $a$ 并转移到 $s'$ 后获得的即时奖励。
折扣因子 (Discount Factor, $\gamma$ ): 一个介于 0 和 1 之间的值，用于衡量未来奖励的重要性。

3.1.8. 近端策略优化 (Proximal Policy Optimization, PPO)

PPO 是一种流行的强化学习算法，旨在通过在每次迭代中限制策略更新的大小，来平衡探索和利用，并确保训练的稳定性。PPO 属于基于策略梯度 (policy gradient) 的方法，通过优化一个裁剪的替代目标函数，避免了策略更新过大导致性能下降的问题。

3.1.9. 域随机化 (Domain Randomization)

域随机化是一种训练强化学习智能体的方法，通过在仿真环境中随机化各种物理参数（如摩擦系数、质量、传感器噪声等），使训练出的策略对真实世界的微小差异更加鲁棒，从而促进仿真到现实 (sim-to-real) 的迁移。

3.1.10. 统一词元空间 (Unified Token Space)

在本文中，这是一个核心创新。词元 (token) 是表示信息的离散或连续单元。统一词元空间意味着不同模态（如 VR 控制器输入、人类视频、文本指令）的动作信息，通过各自的编码器后，被映射到一个共同的潜在空间 (latent space) 中的统一表示。这样，一个单一的策略就可以处理所有这些不同来源的输入。

3.2. 前人工作

论文在引言和结果部分提到了几类相关工作：

大规模基础模型： GPT 系列 (Achiam et al., 2023)、视频和图像生成模型 (Blattmann et al., 2023; Brooks et al., 2024; Ho et al., 2022; Ramesh et al., 2022; Rombach et al., 2022) 证明了规模化 (scaling) 带来的泛化和鲁棒性。
现有的人形机器人控制器： 通常是小规模的神经网络 (如三层 MLP)，针对单一任务进行训练，且依赖手动奖励设计 (He et al., 2018, 2025; Sutton, 2019)。这与本文提出的规模化方法形成对比。
动作捕捉数据利用： 提到现有大量动作捕捉数据 (Li et al., 2021; Mahmood et al., 2019; Punnakkal et al., 2021)，但这些数据尚未被充分用于规模化人形机器人控制。
动作跟踪的现有方法：
- Any2Track (Zhang et al., 2025)： 一种先进的动作跟踪器。
- BeyondMimic (Liao et al., 2025)： 另一种先进的动作跟踪器，其奖励函数设计与本文有相似之处。
- GMT (Chen et al., 2025)： 通用动作跟踪器，用于人形机器人全身控制。
- 其他工作： Li et al., 2020; Luo et al., 2023; Wang et al., 2020; Yin et al., 2025; Zeng et al., 2025; Zhang et al., 2025。这些现有工作通常在全身动作跟踪方面展示了能力，但主要限于训练数据，并且很少将动作跟踪扩展到更广泛的下游任务或多模态控制。
多模态和通用机器人控制：
- GENMO (Li et al., 2025)： 一种通用的人体动作生成模型，用于从多种模态（如视频、文本、音频）生成人类动作。本文将其集成到系统中，以支持多模态输入。
- 视觉-语言-动作 (VLA) 模型： Ahn et al., 2022; Brohan et al., 2022, 2023; Ma et al., 2024; Open X-Embodiment Collaboration, 2023。这些模型旨在通过结合视觉和语言理解来控制机器人。本文的统一词元空间能够直接与 VLA 模型对接，例如 GR00T N1.5 (Bjorck et al., 2025)。

3.3. 技术演进

过去的人形机器人控制研究主要集中在特定任务的控制器设计，例如行走、奔跑或站立，通常通过强化学习和手动奖励设计来实现。这些控制器虽然在特定任务上表现良好，但泛化能力差，难以适应新的行为或环境。随着大规模数据和计算资源的普及，以及基础模型在自然语言处理和计算机视觉领域的成功，研究人员开始探索将“规模化”的理念引入机器人控制。然而，机器人控制的复杂性（物理交互、高维状态空间、稀疏奖励等）使得直接应用类似方法面临挑战。本文代表了一种将“基础模型”范式引入人形机器人控制的尝试。它通过选择“动作跟踪”这一具有密集监督信号的任务作为基础，并大规模地利用人类动作捕捉数据，构建了一个具有强大泛化能力和多模态接口的通用控制器。这种方法旨在通过学习通用的运动先验 (motion priors)，来规避传统方法中针对每个任务进行繁琐奖励设计的瓶颈，从而为通用型人形机器人控制奠定基础。

3.4. 差异化分析

SONIC 与现有方法的主要区别和创新点在于：

规模化 (Supersizing)： SONIC 是首个将人形机器人控制的训练规模提升到 9k GPU 小时和 1 亿帧动作序列的工作，远超现有方法。这种大规模训练是其泛化能力和鲁棒性的关键。
核心任务的选择： SONIC 将动作跟踪视为可扩展的基础任务，利用密集监督避免了手动奖励设计，这与许多需要复杂奖励函数的强化学习方法不同。
通用性和泛化能力：
- 超越训练数据： SONIC 在前所未见的大规模数据集（如 AMA）上展示了卓越的零样本 (zero-shot) 泛化能力，而现有方法（如 Any2Track, BeyondMimic, GMT）通常在训练数据上表现良好，但在泛化到新动作时受限。
- 跨形态 (Cross-embodiment) 控制： 通过统一词元空间，SONIC 能够无缝处理来自机器人、人类和混合运动的命令，弥合了人类和机器人形态上的差距。
实用系统集成：
- 实时运动学规划器： 引入了一个实时的、生成式的运动学规划器，能够将用户意图转化为短期的参考运动，极大地增强了交互式控制的能力。
- 多模态统一接口： 其统一词元空间支持来自 VR 遥操作、视频、文本和音乐等多种异构输入接口，并通过单个策略进行处理，实现了无缝切换和多模态控制，这在现有工作中是独有的。
仿真到现实 (Sim-to-Real) 鲁棒性： 在真实 Unitree G1 机器人上的零样本部署取得了 100% 的成功率，远超许多在仿真中表现优异但难以迁移到真实世界的控制器。
与基础模型的兼容性： SONIC 明确展示了其作为高级规划（如 VLA 模型）底层执行系统 (System 1 capabilities) 的能力，建立了从大规模动作跟踪到基础模型驱动的人形机器人控制的完整流程。

4. 方法论

本文提出的 SONIC (Supersizing mOtion tracking for Natural humanoId Control) 框架旨在通过大规模动作跟踪实现通用人形机器人全身控制。其核心思想是利用海量动作捕捉数据进行训练，并通过一个统一的编码器-解码器架构处理多种模态的输入，最终生成自然且鲁棒的机器人运动。

4.1. 方法原理

SONIC 的方法原理基于以下几点：

将动作跟踪作为核心任务： 避免了复杂的奖励设计，而是直接模仿人类运动数据，从而获得了密集的监督信号。
规模化训练： 通过使用大规模数据集、更大的模型和更强的计算资源，来发现人形机器人控制的泛化能力和鲁棒性。
统一词元空间 (Universal Token Space)： 引入一个共享的潜在表示 (latent representation)，将不同模态（机器人运动、人类运动、混合运动）的命令映射到该空间，从而使单一策略能够处理所有输入。
实时运动学规划器 (Generative Kinematic Motion Planner)： 允许用户通过高级指令（如速度、风格）间接控制机器人，由规划器生成短期的运动参考。
跨形态学习 (Cross-embodiment Learning)： 通过特殊的损失函数，鼓励不同形态（人类与机器人）的动作在潜在空间中对齐，从而实现从人类数据到机器人控制的有效迁移。

4.2. 核心方法详解

4.2.1. 人形机器人运动数据集 (Humanoid Motion Dataset)

作者构建了一个大规模的内部动作捕捉数据集。

数据来源： 收集了 100 名受试者的动作捕捉数据，包括男性和女性，身高从 145 cm 到 199 cm (平均 174.3 cm，标准差 10.9 cm)。
动作多样性： 涵盖了广泛的日常活动、体育运动、舞蹈和战斗动作，多数动作由多名受试者以多种方式执行。
规模： 包含 700 小时的人类动作，总计超过 1 亿帧 (50 Hz)。
数据处理： 人类动作数据首先使用 GMR (Araujo et al., 2025) 方法重新定位 (retargeted) 到人形机器人模型上。

该图像是图表，展示了从我们的运动数据集中随机选取的样本。图中包含多个不同的动作姿势，highlighting 了多样的运动表现，这些样本可用于训练和评估人形控制模型。

Figure 7 展示了从该运动数据集中随机抽取的样本，涵盖了丰富的动作类型。

4.2.2. 通用人形机器人动作跟踪 (Universal Humanoid Motion Tracking)

SONIC 框架的核心是其通用人形机器人动作跟踪能力，它通过一个统一的控制策略来跟踪不同形态的多种运动命令。

该图像是一个示意图，展示了sONIC通过通用控制策略实现普适的人形动作跟踪。该策略通过专用编码器处理不同来源的运动命令，包括机器人和人类运动，生成一个通用标记，驱动机器人控制与动作解码器。图中还展示了该方案适用于游戏手柄控制、虚拟现实遥控及多模态控制等多种应用。

Figure 8 概述了 SONIC 的架构。它通过专门的编码器 (specialized encoders) 将来自机器人、人类和混合运动命令的异构输入处理成一个共享的潜在表示 (shared latent representation)。这个表示随后通过量化 (quantization) 生成一个通用词元 (universal token)，该词元进而驱动一个共同的机器人控制解码器 (robot control decoder) 来生成电机命令。

4.2.2.1. 动作跟踪公式化 (Motion Tracking Formulation)

人形机器人动作跟踪被公式化为一个马尔可夫决策过程 (Markov Decision Process, MDP) $\mathcal{M} = \langle \boldsymbol{S}, \mathcal{A}, \mathcal{T}, \mathcal{R}, \boldsymbol{\gamma} \rangle$ ，包含状态空间 (state space)、动作空间 (action space)、转移函数 (transition function)、奖励函数 (reward function) 和折扣因子 (discount factor) $\gamma$ 。策略 (policy) 使用近端策略优化 (PPO) (Schulman et al., 2017) 进行训练，以最大化累积奖励 $\left[ \sum_{t=1}^{\bar{T}} \gamma^{t-1} r_t \right]$ 。

状态 (States, $\boldsymbol{s}_t$ )： 状态表示 $\boldsymbol{s}_t$ 包含两个组件：
1. 本体感受 (Proprioceptive sensing, $\boldsymbol{s}_t^{\mathrm{p}}$ )： $\boldsymbol{s}_t^{\mathrm{p}} \triangleq \left( \mathbf{q}_t, \dot{\pmb{q}}_t, \omega_t, \psi_t, \mathbf{a}_{t-1} \right)$ ，包括关节姿态 (joint pose) $\mathbf{q}_t$ ，关节速度 (joint velocity) $\dot{\pmb{q}}_t$ ，根部角速度 (root angular velocity) $\omega_t$ ，在根部坐标系中的重力向量 (gravity vector) $\mathbf{\nabla}_{\mathbf{\boldsymbol{g}}_t}$ ，以及前一个动作 (previous action) $\mathbf{\delta}_{a_{t-1}}$ 。
2. 运动命令 (Motion command, $\boldsymbol{s}_t^g$ )： 有三种类型——机器人运动 $\boldsymbol{g}_r$ ，人类运动 $\boldsymbol{g}_h$ （此处原文公式排版有误，应指人类运动的表示），或混合运动 $\boldsymbol{g}_m$ （结合上半身关键点和下半身机器人运动）。所有状态量均在机器人局部前进方向坐标系 (local heading frame) 中表示，以确保旋转不变性。
动作 (Actions, $\mathbf{a}_t$ )： 策略 $\pi$ 输出目标关节位置 (target joint positions) $\mathbf{a}_t$ 作为动作。这些动作由每个关节的比例-微分 (PD) 控制器进行跟踪。

奖励 (Rewards, $r_t$ )： 根据 Liao et al. (2025) 的方法，奖励定义为 $r_t = \mathcal{R} \big( \boldsymbol{s}_t^{\mathrm{p}}, \boldsymbol{s}_t^{\mathrm{g}} \big) + \mathcal{P} \big( \boldsymbol{s}_t^{\mathrm{p}}, \pmb{a}_t \big)$ ，结合了跟踪奖励和惩罚项。

跟踪项 ( $\mathcal{R}$ ): 旨在最小化机器人当前状态 $\boldsymbol{s}_t^{\mathrm{p}}$ 与目标 $\boldsymbol{s}_t^g$ 之间在根部位置、根部姿态、身体连接件位置（相对根部）、身体连接件姿态（相对根部）、身体连接件线速度和身体角速度方面的误差。
惩罚项 ( $\mathcal{P}$ ): 阻止动作的突然变化、关节限位违规和不期望的接触。奖励设计的详细信息在 Table 1 中给出：

以下是原文 Table 1 的结果：

Reward term	Equation	Weight
Tracking rewards R(s, s)
Root orientation	$r_{ori}(t)=exp(− k_{ori}‖r_t^p − r_t^g‖_2^2)$	0.5
Body link pos (rel.)	$r_{pos}(t) = \exp(-k_{pos} \sum_{b \in B} \\|p_b^p - p_b^g\\|_2^2)$	1.0
Body link ori (rel.)	$r_{body\_ori}(t) = \exp(-k_{body\_ori} \sum_{b \in B} \\|\text{ori}_b^p - \text{ori}_b^g\\|_2^2)$	1.0
Body link lin. vel	$r_{body\_lin\_vel}(t) = \exp(-k_{lin\_vel} \sum_{b \in B} \\|v_b^p - v_b^g\\|_2^2)$	1.0
Body link ang. vel	$r_{body\_ang\_vel}(t) = \exp(-k_{ang\_vel} \sum_{b \in B} \\|\omega_b^p - \omega_b^g\\|_2^2)$	1.0
Penalty terms P(s , at)
Action rate	$r_{act\_rate}(t) = -k_{act\_rate} \\|a_t - a_{t-1}\\|_2^2$	-0.1
Joint limit	$-k_{joint\_limit} \mathbb{I}(\text{joint limit violation})$	-10.0
Undesired contacts	$r_{contact}(t) = -k_{contact} \sum_{c \in \{\text{ankles, wrists}\}} \mathbb{I}(\\|\text{contact force}_c\\|_2 > 1.0N)$	-0.1

注：原文表格中Root orientation、Body link pos (rel.)、Body link ori (rel.)、Body link lin. vel、Body link ang. vel的公式形式有缩写和截断，这里我根据常见的强化学习模仿奖励和上下文进行了补全和规范化，以确保其可读性和准确性。 $k$ 代表权重系数，这里在公式中用 $k_{ori}$ , $k_{pos}$ , 等表示，具体值未在表格中给出，但根据上下文它们是正的系数。 $r_t^p$ 和 $r_t^g$ 指根部姿态， $p_b^p$ 和 $p_b^g$ 指身体连接件位置， $ori_b^p$ 和 $ori_b^g$ 指身体连接件姿态， $v_b^p$ 和 $v_b^g$ 指身体连接件线速度， $ω_b^p$ 和 $ω_b^g$ 指身体连接件角速度。 $B$ 是跟踪的身体连接件集合。 $\mathbb{I}(\cdot)$ 是指示函数。

域随机化 (Domain Randomization)： 为增强鲁棒性和泛化能力，训练过程中应用了系统性的域随机化。随机化参数包括摩擦系数 ( $\mu_s, \mu_d$ )、恢复系数 ( $e$ )、默认关节位置 ( $q_0$ ) 和基础重心位置。此外，还会周期性地对机器人的根部线速度和角速度施加随机扰动，以模拟外部推力。目标运动命令 $\boldsymbol{s}_t^g$ 也被施加运动扰动，以提高鲁棒性。详细参数在 Table 2 中给出：

以下是原文 Table 2 的结果：

Domain Randomization	Sampling Distribution
Physical parameters
Static friction coefficients	$\mu_s \sim \mathcal{U}[0.3, 1.6]$
Dynamic friction coefficients	$\mu_d \sim \mathcal{U}[0.3, 1.2]$
Restitution coefficient	$e \sim \mathcal{U}[0, 0.5]$
Default joint positions	$q_0 \sim q_0 + \mathcal{U}[-0.01, 0.01]$
Base COM offset (x, y, z)	$\Delta x \sim \mathcal{U}[-0.075, 0.075]$ , $\Delta y \sim \mathcal{U}[-0.1, 0.1]$ , $\Delta z \sim \mathcal{U}[-0.1, 0.1]$
Root velocity perturbations (external pushes)
Root linear vel (x, y, z)	$v_x \sim \mathcal{U}[-0.5, 0.5]$ , $v_y \sim \mathcal{U}[-0.5, 0.5]$ , $v_z \sim \mathcal{U}[-0.2, 0.2]$
Push duration	$\Delta t \sim \mathcal{U}[1, 3]\text{s}$
Root angular vel	$\omega_{roll} \sim \mathcal{U}[-0.52, 0.52]$ , $\omega_{pitch} \sim \mathcal{U}[-0.52, 0.52]$ , $\omega_{yaw} \sim \mathcal{U}[-0.78, 0.78]$
Target motion perturbations ( $\boldsymbol{s}_t^g$ )
Target position jitter	$\Delta p_g \sim \mathcal{U}[-0.05, 0.05]^3$ (x,y: $\pm0.05$ , z: $\pm0.01$ )
Target orientation jitter	$\Delta\phi_{roll}, \Delta\phi_{pitch} \sim \mathcal{U}[-0.1, 0.1]$ , $\Delta\phi_{yaw} \sim \mathcal{U}[-0.2, 0.2]$
Target linear vel jitter	$\Delta v_g \sim \mathcal{U}[-0.5, 0.5]^3$ (x,y: $\pm0.5$ , z: $\pm0.2$ )
Target angular vel jitter	$\Delta\omega_{roll}, \Delta\omega_{pitch} \sim \mathcal{U}[-0.52, 0.52]$ , $\Delta\omega_{yaw} \sim \mathcal{U}[-0.78, 0.78]$
Target joint jitter	$\Delta q \sim \mathcal{U}[-0.1, 0.1]$

注： $\mathcal{U}[\cdot]$ 表示均匀分布。 $\mu_s, \mu_d$ 是静态和动态摩擦系数。 $e$ 是恢复系数。 $q_0$ 是默认关节位置。COM 是重心。 $v_x, v_y, v_z$ 是根部线速度分量。 $\omega_{roll}, \omega_{pitch}, \omega_{yaw}$ 是根部角速度分量。 $\Delta p_g$ 是目标位置抖动。 $\Delta\phi$ 是目标姿态抖动。 $\Delta v_g$ 是目标线速度抖动。 $\Delta\omega$ 是目标角速度抖动。 $\Delta q$ 是目标关节抖动。

4.2.2.2. 通用控制策略 (Universal Control Policy)

该框架通过多模态运动命令，利用统一的编码器-解码器架构实现跨形态 (cross-embodiment) 学习。

编码器 (Encoders)： 包含三个专门的编码器，用于处理不同的运动命令类型：
1. 机器人运动编码器 ( $\pmb{\varepsilon}_r$ )： 编码未来 $F_r$ 帧的机器人关节位置和速度，帧间隔为 $\Delta t_r$ 。
2. 人类运动编码器 ( $\pmb{\varepsilon}_h$ )： 编码未来 $F_h$ 帧的 3D 人体关节位置 (Loper et al., 2015)，帧间隔为 $\Delta t_h$ 。
3. 混合运动编码器 ( $\pmb{\varepsilon}_m$ )： 编码当前帧的稀疏上半身关键点（头部和手部）与未来 $F_m$ 帧的下半身机器人运动，帧间隔为 $\Delta t_m$ 。多帧输入 (Multi-frame inputs) 能够实现预测行为并提高策略的鲁棒性。所有编码器都实现为多层感知机 (MLPs)，将命令 $g_r, g_h, g_m$ 映射到共享的潜在空间。
量化器 (Quantizer)： 编码后的潜在表示使用向量量化器 (vector quantizer) 量化为一个通用词元 $z$ 。具体而言，使用 FSQ (Finite Scalar Quantization, Mentzer et al., 2023) 作为向量量化器。通用词元是一个 $D_z$ 维向量，每维有 $L_z$ 个量化级别。
解码器 (Decoders)： 通用词元 $z$ 通过两个独立的解码器进行解码：
1. 机器人控制解码器 ( $\mathcal{D}_c$ )： 将通用词元转换为控制机器人关节的电机命令。
2. 机器人运动解码器 ( $\mathcal{D}_r$ )： 重构机器人运动命令，提供辅助监督 (auxiliary supervision) 以改善潜在空间并增强特征学习。两个解码器都实现为 MLPs。
训练 (Training)： 训练过程中准备了所有三种命令类型的同步运动数据。每种命令类型 $g_r, g_h, g_m$ 通过各自的编码器进行编码并量化，生成通用词元 $z_r, z_h, z_m$ 。对于每个词元，控制解码器 $\mathcal{D}_c$ 生成电机命令，而运动解码器 $\mathcal{D}_r$ 重构机器人运动命令。总损失函数由以下部分组成：

$\begin{array}{rl} & \mathcal{L} = \mathcal{L}_{\mathrm{ppo}} + \mathcal{L}_{\mathrm{recon}} + \mathcal{L}_{\mathrm{token}} + \mathcal{L}_{\mathrm{cycle}} \\ & \mathcal{L}_{\mathrm{recon}} = \|\mathcal{D}_r(z_r) - g_r\|^2 + \|\mathcal{D}_r(z_h) - g_r\|^2 + \|\mathcal{D}_r(z_m) - g_r\|^2 \\ & \mathcal{L}_{\mathrm{token}} = \|z_r - z_h\|^2 \\ & \mathcal{L}_{\mathrm{cycle}} = \|\mathcal{E}_r(\mathcal{D}_r(z_h)) - z_r\|^2 \end{array}$
- $\mathcal{L}_{\mathrm{ppo}}$ ：标准 PPO 损失。
- $\mathcal{L}_{\mathrm{recon}}$ (重建损失)：机器人运动命令在不同输入模态下的重建损失。当输入命令是人类运动 $g_h$ 时，编码器-解码器充当从人类运动到机器人运动的重定向流水线，此时 $\mathcal{L}_{\mathrm{recon}}$ 作为重定向损失，实现跨形态迁移。
- $\mathcal{L}_{\mathrm{token}}$ (词元损失)：衡量机器人词元 $z_r$ 和人类运动词元 $z_h$ 之间的差异，显式鼓励编码器网络在不同形态之间产生对齐的表示。
- $\mathcal{L}_{\mathrm{cycle}}$ (循环一致性损失)：原始机器人词元 $z_r$ 与通过重新编码由人类词元重构的机器人运动（即 $\mathcal{E}_r(\mathcal{D}_r(z_h))$ ）所产生的词元之间的循环一致性损失。
自适应运动采样 (Adaptive Motion Sampling)： 在选择每个回合 (episode) 的初始帧时，采用基于分箱 (bin-based) 的自适应运动采样。整个运动数据集被分成持续时间相同的分箱。对于每个分箱，计算策略的失败率 $f_i$ 。为避免从失败率过高的分箱中过度采样，每个分箱的失败率被限制在 $\beta \bar{f}$ （其中 $\beta$ 是超参数， $\bar{f}$ 是所有分箱的平均失败率）。然后，归一化、受限的失败率用于导出每个分箱的初步采样权重 $\hat{p}_i$ 。最终的采样概率定义为 $p_i = \alpha \hat{p}_i + (1 - \alpha) \frac{1}{N}$ ，其中 $\alpha$ 是混合超参数， $N$ 是分箱总数。这种方法平衡了对挑战性分箱的定向采样和均匀覆盖。

超参数 (Hyperparameters)： 通用控制策略的网络配置和运动命令相关的超参数在 Table 3 中给出，训练超参数在 Table 4 中给出。

以下是原文 Table 3 的结果：

Module	Architecture	Dims
Network configuration
Quantizer	FSQ	token dimensions = $D_z$ ; quantization levels = $L_z$
Encoder (g1)	MLP	hidden= [2048, 1024, 512, 512]
Encoder (teleop)	MLP	hidden = [2048, 1024, 512, 512]
Encoder (smpl)	MLP	hidden = [2048, 1024, 512, 512]
Decoder (actions)	MLP	hidden = [2048, 2048, 1024, 1024, 512, 512]
Decoder (refs)	MLP	hidden = [2048, 1024, 512, 512]
Action dimension	Diagonal Gaussian	29
Critic	MLP	hidden = [2048, 2048, 1024, 1024, 512, 512]
Motion command
Future frames	$F_r = F_h = F_m = 10$ frames
Frame interval	$\Delta t_r = \Delta t_m = 0.1\text{s}$ , $\Delta t_h = 0.02\text{s}$

注：MLP 是多层感知机。FSQ 是有限标量量化。 $D_z$ 是词元维度。 $L_z$ 是量化级别。Encoder (g1) 对应机器人运动编码器 ( $\pmb{\varepsilon}_r$ )，Encoder (teleop) 对应混合运动编码器 ( $\pmb{\varepsilon}_m$ )，Encoder (smpl) 对应人类运动编码器 ( $\pmb{\varepsilon}_h$ )。Decoder (actions) 对应机器人控制解码器 ( $\mathcal{D}_c$ )，Decoder (refs) 对应机器人运动解码器 ( $\mathcal{D}_r$ )。Action dimension 指动作空间的维度。Critic 是 PPO 算法中的价值网络。Future frames 表示编码器考虑的未来帧数。Frame interval 表示帧之间的时间间隔。

以下是原文 Table 4 的结果：

Training hyperparameter	Value
Num parallel envs per GPU	4096
Num steps per env	24
Learning epochs	5
Num mini-batches	4
Discount $\gamma$	0.99
GAE $\lambda$	0.95
Clip parameter	0.2
Entropy coefficient	0.013
Value loss coefficient	1.0
Actor learning rate	$2 \times 10^{-5}$
Critic learning rate	$1 \times 10^{-3}$
Max gradient norm	0.1
Desired KL	0.01
Adaptive LR min/max	[ $1 \times 10^{-5}$ , $2 \times 10^{-4}$ ]
Init noise std	0.05
Actor std clamp min/max	[0.001, 0.5]
Adaptive sampling bin size	1s
Adaptive sampling failure rate cap	$\beta = 200$
Adaptive sampling blending hyperparameter	$\alpha = 0.1$

注：Num parallel envs per GPU 是每个 GPU 并行环境的数量。Num steps per env 是每个环境的步数。Learning epochs 是学习轮次。Num mini-batches 是小批量数量。Discount\gamma $\text{是折扣因子。}$ GAE $\lambda$ 是广义优势估计 (Generalized Advantage Estimation) 的参数。Clip parameter 是 PPO 中的裁剪参数。Entropy coefficient 是熵系数。Value loss coefficient 是价值损失系数。Actor learning rate 和 Critic learning rate 是策略网络和价值网络的学习率。Max gradient norm 是最大梯度范数。Desired KL 是期望的 KL 散度。Adaptive LR min/max 是自适应学习率的最小/最大值。Init noise std 是初始噪声标准差。Actor std clamp min/max 是策略网络标准差的钳制范围。Adaptive sampling bin size 是自适应采样分箱的大小。Adaptive sampling failure rate cap 是自适应采样失败率的上限参数 $\beta$ 。Adaptive sampling blending hyperparameter 是自适应采样混合超参数 $\alpha$ 。

4.2.3. 生成式运动学规划器 (Generative Kinematic Motion Planner)

生成式运动学规划器是 SONIC 的关键组件，它能将用户意图转化为可执行的短期运动参考。该规划器在离线 (offline) 阶段与动作跟踪策略在相同的全身体运动数据上进行训练。

4.2.3.1. 运动表示 (Motion Representation)

在训练过程中，从原始数据中采样 0.8s 到 2.4s 长度的运动片段。这些片段的起点和终点关键帧作为上下文 (context) 和目标关键帧 (target keyframes)。运动表示与 Sec. 3.2 中介绍的人形机器人姿态配置 $q_t$ 相同，具体为骨盆相对 (pelvis-relative) 的关节位置和全局关节旋转 (global joint rotations)。训练时随机旋转训练样本，以适应任意方向的规划。包含全局旋转对于像下蹲、爬行这类“前进方向不明确”的运动至关重要。

4.2.3.2. 潜在空间中的生成式神经骨干网络 (Generative Neural Backbone in Latent Space)

规划在潜在空间中进行，其中连续运动首先被编码为一系列潜在词元 (latent tokens)： $\left\{ \boldsymbol{z}_t \right\}_{t=1}^{T/4} = \operatorname{enc} \left( \left\{ p_t, r_t \right\}_{t=1}^{T} \right)$ 其中 $p_t$ 和 $r_t$ 分别表示帧 $t$ 的姿态配置 (pose configuration) 和根部位置 (root position)。编码器以 4 倍的下采样率运行。潜在词元序列由 Transformer 或 Conv1D networks 编码，以捕获时间一致性。

潜在空间中的“插值”过程 (inbetweening process) 由两个约束引导：起始和目标关键帧，分别表示为 $\left\{ p_t, r_t \right\}_{t=1}^4$ 和 $\left\{ p_t, r_t \right\}_{t=T-4}^T$ 。作者采用掩码词元预测 (masked token prediction) 方法 (Guo et al., 2024; Luo et al., 2024; Pinyoanuntapon et al., 2024; Yu et al., 2023)，其中神经骨干网络迭代地预测并最终确定子集词元，这些词元具有最高的概率，并逐步完善预测： $\begin{array}{rl} & h = \mathcal{F} \left( \{p_t, r_t\}_{t=1}^4, \{p_t, r_t\}_{t=T-4}^T, \{z_t\}_{t=1}^{T/4} \right) \\ & \mathrm{Prob}(z_t) = \sigma(h) \end{array}$ 其中 $\mathcal{F}(\cdot)$ 表示神经骨干网络， $h$ 表示每个词元位置的 logits。词元概率通过对 logits 应用 softmax 函数 $\sigma(\cdot)$ 计算。在第一次迭代中，所有潜在词元都是未知的，并用可学习的掩码嵌入 $z_{\mathrm{masked}}$ 初始化潜在嵌入。在训练过程中，掩码词元的比例从 $[100\%, 0\%]$ 范围内均匀采样。在推理阶段，词元迭代地被最终确定，其概率为 $1.0 - \cos{\left( \frac{\pi}{2} \cdot \frac{L}{L_{\mathrm{max}}} \right)}$ ，其中 $L$ 是当前迭代次数， $L_{\mathrm{max}}$ 是最大迭代次数。在所有词元确定后，预测的词元用于重建运动学动作并生成机器人控制信号。

4.2.3.3. 根部轨迹弹簧模型 (Root Trajectory Spring Model)

为生成关键帧的根部位置和朝向 (heading) 从用户命令中，提出使用一个直观的临界阻尼弹簧模型 (critically damped spring model)： $x(t) = \left( x_T - x_0 + \left( v_0 + \frac{c}{2}(x_T - x_0) \right) t \right) e^{-\frac{c}{2}t}$ 其中 $x_T$ 是目标值， $x_0$ 是初始值， $v_0$ 是初始速度， $c$ 是阻尼系数。该模型应用于三个量：沿 x 轴的骨盆位置、沿 y 轴的骨盆位置和骨盆的投影朝向角。位置和朝向的阻尼系数分别为 $5 \ln(2)$ 和 $20 \ln(2)$ 。目标值可以直接从控制器获得。或者，如果控制器仅指定了期望速度，则可以在 1.0 秒后使用期望速度计算精确的目标位置。

4.2.3.4. 关键帧模块与应用集成 (Keyframe Module and Application Integration)

导航控制： 通过从导航轨迹的某个随机选择的片段中选取一个关键帧作为目标关键帧，使机器人能够自然且平稳地运动，并与指定风格对齐。
娱乐任务（如拳击）： 通过选择与期望风格匹配的动作片段中最具表现力的关键帧（如最大手臂伸展的拳击动作）来确定目标关键帧。
交互式模式（如下蹲或跪下）： 根据期望的高度从动作库中实时检索关键帧，生成特定技能的运动。

本文采用 GENMO (Li et al., 2025) 来支持框架内的多模态条件化。

核心思想： 将视频中的动作估计视为受约束的生成：模型生成完整的动作轨迹，同时满足观测到的视频关键点。
条件模态与时间布局： 模型接受混合的、时变的条件，包括文本提示、音频特征和视觉观测。这些条件可能在不同的时间间隔内出现。每个条件流 (condition stream) 由模态特定的编码器编码成与公共动作帧率对齐的特征序列。缺失的时间间隔通过提供空或掩码词元来处理。
架构： 条件流通过一个时间 Transformer (temporal transformer) 进行融合，该 Transformer 具有从运动词元到多模态条件词元的交叉注意力 (cross-attention) 机制。基于扩散 (diffusion-based) 的运动先验模型在人体运动序列上操作，从高斯噪声中去噪生成一个运动学上合理 (kinematically plausible) 的轨迹。
训练目标： 混合了两个互补的目标：
1. 生成式学习 (Generative learning)： 使用人体运动的标准扩散损失，以可用的模态（文本/音频/视频）为条件，学习广泛的运动先验。
2. 估计引导学习 (Estimation-guided learning)： 在存在观测数据时（如 2D/3D 关键点、轨迹约束）添加重建项，鼓励生成的运动与测量精确匹配。
推理模式： 支持纯生成（从抽象提示）、受约束生成（给定视频帧）和混合控制（模态随时间切换）。
与 SONIC 系统集成： GENMO 生成的人类运动被编码成通用词元空间，然后由 SONIC 的控制策略进行跟踪。为确保低延迟，使用滑动窗口和重叠，并通过修复 (inpainting) 处理窗口之间的过渡。

4.2.5. 部署 (Deployment)

硬件平台： 实验在 Unitree G1 人形机器人上进行，使用其内置的关节级 PD 控制器。
软件栈： 学习到的策略和部署栈都在机器人板载 (onboard) 执行，利用板载 CPU/GPU 最小化反馈延迟。
控制频率： 策略循环以 50 Hz 运行。目标关节位置通过 Unitree 低级 API 以 500 Hz 的频率传输。用户输入以 100 Hz 捕获。
运动学规划器频率： 当需要时，运动学规划器以 10 Hz 运行，根据输入接口的命令生成短期序列。
计算效率： 交互式运动学规划器和策略推理都在 Jetson Orin GPU 上使用 TensorRT 和 CUDA Graph 加速执行。策略每次前向传播耗时 1-2 ms，运动生成耗时 12 ms。

5. 实验设置

5.1. 数据集

训练数据集： SONIC 主要使用了一个大规模的内部动作捕捉数据集，该数据集包含：
- 受试者： 100 名受试者，身高范围 145 cm 至 199 cm。
- 内容： 日常活动、体育运动、舞蹈、战斗动作等。
- 规模： 700 小时，超过 1 亿帧（50 Hz）。
- 处理： 动作捕捉数据被重定向 (retargeted) 到人形机器人模型上。
- 样本示例： (见 Figure 7，在本文的方法论部分已展示)。
评估数据集：
- 仿真评估： 采用 AMA (Mahmood et al., 2019) 数据集的一个均匀随机子集进行评估，该子集包含 9 小时、1602 条轨迹。此数据集的规模比现有工作 (Zeng et al., 2025) 大一个数量级，与某些现有训练集相当。值得注意的是，SONIC 并未在 AMA 数据集上训练，这突显了其泛化能力的鲁棒性。
- 真实世界评估： 在 50 个多样化的运动轨迹上进行，包括舞蹈、跳跃和移动操作任务。

5.2. 评估指标

论文使用了姿态 (pose-based) 和物理 (physics-based) 两种综合指标来衡量动作模仿性能。

5.2.1. 成功率 (Success Rate, Succ)

概念定义： 衡量机器人成功模仿目标动作轨迹的比例。如果机器人在跟踪过程中任何一点偏离参考运动轨迹超出一定阈值，则认为模仿失败。
数学公式： 原文未直接给出数学公式，但根据定义，可表示为： $\mathrm{Succ} = \frac{\text{成功跟踪的轨迹数量}}{\text{总轨迹数量}} \times 100\%$
符号解释：
- 成功跟踪的轨迹数量：在整个运动序列中，机器人未超出预设失败阈值的轨迹数量。
- 总轨迹数量：进行评估的运动序列总数。
- 失败标准：
  - 仿真评估 (Isaac Lab)： 如果机器人的身体高度偏离参考运动超过 $0.25 \mathrm{m}$ ，或根部姿态偏离超过 1 弧度，则认为模仿失败。
  - 仿真评估 (MuJoCo, 基线对比)： 如果机器人跌倒（定义为根部高度偏离参考运动超过 $0.25 \mathrm{m}$ ），则认为模仿失败。
  - 真实世界评估： 成功率 100% 意味着在所有序列中没有一次失败。

5.2.2. 每关节位置误差的平方根均值 (Root-Relative Mean Per-Joint Position Error, MPJPE)

概念定义： 量化模仿的局部准确性，即机器人每个关节相对于其根部的平均位置误差。数值越低越好。
数学公式： 原文未直接给出精确的数学公式，但根据定义，可以推导为： $E_{\mathrm{mpjpe}} = \sqrt{\frac{1}{N \cdot J \cdot T} \sum_{t=1}^T \sum_{j=1}^J \| (\mathbf{p}_{j,t}^{\mathrm{p}} - \mathbf{p}_{\mathrm{root},t}^{\mathrm{p}}) - (\mathbf{p}_{j,t}^{\mathrm{g}} - \mathbf{p}_{\mathrm{root},t}^{\mathrm{g}}) \|_2^2}$ 其中，通常以毫米 (mm) 为单位报告。
符号解释：
- $N$ : 成功跟踪的轨迹数量。
- $J$ : 机器人模型中的关节数量。
- $T$ : 轨迹的总帧数。
- $\mathbf{p}_{j,t}^{\mathrm{p}}$ : 机器人当前状态下，在帧 $t$ 时第 $j$ 个关节的绝对位置。
- $\mathbf{p}_{\mathrm{root},t}^{\mathrm{p}}$ : 机器人当前状态下，在帧 $t$ 时根部（如骨盆）的绝对位置。
- $\mathbf{p}_{j,t}^{\mathrm{g}}$ : 目标运动中，在帧 $t$ 时第 $j$ 个关节的绝对位置。
- $\mathbf{p}_{\mathrm{root},t}^{\mathrm{g}}$ : 目标运动中，在帧 $t$ 时根部（如骨盆）的绝对位置。
- $\| \cdot \|_2$ : 欧几里得范数（L2 范数）。

5.2.3. 加速度差异 (Sum of Acceleration Differences, $\sum_{\mathrm{acc}}$ )

概念定义： 衡量物理保真度，即仿真机器人与参考人类运动之间加速度的差异。数值越低越好。
数学公式： 原文未直接给出，但表示为加速度的累积差异，通常指均方加速度误差，可以表示为： $\sum_{\mathrm{acc}} = \frac{1}{N \cdot T} \sum_{k=1}^N \sum_{t=1}^T \sum_{j=1}^J \| \mathbf{a}_{j,t}^{\mathrm{p}} - \mathbf{a}_{j,t}^{\mathrm{g}} \|_2^2$ 单位通常为 $\mathrm{mm/frame}^2$ 。
符号解释：
- $N$ : 成功跟踪的轨迹数量。
- $T$ : 轨迹的总帧数。
- $J$ : 机器人模型中的关节数量。
- $\mathbf{a}_{j,t}^{\mathrm{p}}$ : 机器人当前状态下，在帧 $t$ 时第 $j$ 个关节的加速度。
- $\mathbf{a}_{j,t}^{\mathrm{g}}$ : 目标运动中，在帧 $t$ 时第 $j$ 个关节的加速度。
- $\| \cdot \|_2$ : 欧几里得范数（L2 范数）。

5.2.4. 速度差异 (Velocity Error, $E_{\mathrm{vel}}$ )

概念定义： 衡量物理保真度，即仿真机器人与参考人类运动之间速度的差异。数值越低越好。
数学公式： 原文未直接给出，但表示为速度的平均差异，可以表示为： $E_{\mathrm{vel}} = \frac{1}{N \cdot T} \sum_{k=1}^N \sum_{t=1}^T \sum_{j=1}^J \| \mathbf{v}_{j,t}^{\mathrm{p}} - \mathbf{v}_{j,t}^{\mathrm{g}} \|_2$ 单位通常为 $\mathrm{mm/frame}$ 。
符号解释：
- $N$ : 成功跟踪的轨迹数量。
- $T$ : 轨迹的总帧数。
- $J$ : 机器人模型中的关节数量。
- $\mathbf{v}_{j,t}^{\mathrm{p}}$ : 机器人当前状态下，在帧 $t$ 时第 $j$ 个关节的速度。
- $\mathbf{v}_{j,t}^{\mathrm{g}}$ : 目标运动中，在帧 $t$ 时第 $j$ 个关节的速度。
- $\| \cdot \|_2$ : 欧几里得范数（L2 范数）。

5.3. 对比基线

论文将 SONIC 方法与以下最先进的动作跟踪器进行了比较：

Any2Track (Zhang et al., 2025): 训练于 LaFAN 数据集。
BeyondMimic (Liao et al., 2025): 训练于 LaFAN 数据集。
GMT (Chen et al., 2025): 训练于 AMASS 数据集。

为了确保公平比较，所有基线方法都在相同的未见数据集上进行评估。尽可能使用官方发布的模型（如 GMT），否则使用公开代码重新训练相应模型（如 Any2Track 和 BeyondMimic）。所有这些基线评估都在 MuJoCo 仿真平台中进行。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 规模化对动作跟踪性能的影响

论文分析了在三个关键维度上扩大 SONIC 人形机器人动作跟踪系统规模的影响：GPU 小时数 (compute)、模型大小 (model size) 和动作数据集大小 (dataset volume)。所有评估都在 Isaac Lab 仿真环境中进行，模型训练至收敛（3 到 7 天）。

该图像是一个图表，展示了不同数据规模、模型规模和GPU小时数对成功率（Success rate）和均方关节位置误差（MPJPE）的影响。图中分为三部分，分别表示数据大小（图a）、模型大小（图b）和GPU小时数（图c），每部分用气泡图显示成功率与MPJPE的关系。下方部分（图d）则比较了不同方法的成功率与失败率。其他部分（图e-g）展示了速度和加速度的距离对比。

Figure 2 展示了这些规模化趋势。

数据集大小： 如图 2(a) 所示，增加动作数据集的规模（从 LaFAN 的 0.4M 帧，到内部数据集的 7.4M 帧，再到完整的 100M 帧）带来了最显著的性能提升，成功率 (Success Rate) 和 MPJPE (每关节位置误差的平方根均值) 都有明显改善。
模型大小： 如图 2(b) 所示，从 1.2M 参数增加到 42M 参数，也进一步提升了性能。
GPU 小时数： 如图 2(c) 所示，随着 GPU 数量的增加（从 8 到 128 个），性能持续提升。作者还指出，使用更多 GPU 进行并行训练对于获得更好的渐进性能至关重要，因为少量 GPU 训练的模型其渐进性能不如大量 GPU 训练的模型。

总结： 沿着这三个轴线的规模化都带来了动作模仿性能的一致性提升。其中，增加动作数据集规模产生了最实质性的收益，而模型大小和计算资源（GPU 小时数）进一步增强了结果。这些发现支持了规模化动作跟踪作为人形机器人控制的有效途径。

6.1.2. 与基线方法的比较

SONIC 的方法显著优于现有的基线动作跟踪器。

对比方法： Any2Track (Zhang et al., 2025), BeyondMimic (Liao et al., 2025), GMT (Chen et al., 2025)。
评估标准： 在未见数据集（AMA 数据集的子集）上进行评估，使用更宽松的失败标准（仅当机器人跌倒时才判定为失败，即根部高度偏离参考超过 0.25 m）。
结果： 如图 2(d-g) 所示，SONIC 在成功率 (Succ)、MPJPE、加速度差异 ( $\sum_{\mathrm{acc}}$ ) 和速度差异 ( $E_{\mathrm{vel}}$ ) 等所有评估指标上，均显著优于所有基线方法，实现了更高的成功率和改进的跟踪准确性。

6.1.3. 真实世界评估 (Real-World Evaluation)

SONIC 在真实世界部署在 Unitree G1 人形机器人上，对 50 个多样化的运动轨迹（包括舞蹈、跳跃和移动操作任务）进行了评估。

结果： SONIC 在真实世界中实现了与仿真结果高度匹配的动作模仿性能，并且以纯零样本 (true zero-shot) 方式运行。在所有序列中均未出现一次失败，达到了 100% 的成功率。这强调了 SONIC 在挑战性真实世界场景中的鲁棒性和可靠性。

6.1.4. 交互式运动控制 (Interactive Motion Control)

SONIC 通过其运动学规划器实现了自然且鲁棒的全身实时交互式任务。

导航控制： 支持 $0.0 \mathrm{m/s}$ 到 $6.0 \mathrm{m/s}$ 的速度命令，以及 0 到 360 度的任意方向命令。通过阻尼弹簧模型平滑不切实际的命令。如图 3 所示，SONIC 实现了响应式、鲁棒的导航控制，并能支持不同风格的行走（如醉酒步态、受伤行走、快乐行走、隐身行走等）。
娱乐任务（如拳击）： 如图 3 所示，SONIC 生成了高质量、响应式的拳击动作，同时保持了机器人的完全运动自由度，克服了现有方法中动作不连贯、不自然转换的问题。
低矮环境操作（下蹲、跪下、爬行）： 如图 4 所示，SONIC 能够控制机器人下蹲、跪下和爬行，骨盆高度可在 $0.3 \mathrm{m}$ 到 $0.8 \mathrm{m}$ 之间平滑控制，爬行速度可达 $0.0 \mathrm{m/s}$ 到 $0.5 \mathrm{m/s}$ ，极大地增强了在狭小空间进行遥操作和导航的能力。

SONIC 通过其通用控制策略实现了实时、多模态、跨形态控制。

视频遥操作： 支持预录视频和实时单目摄像头流。人类运动估计速度 $\geq 60$ fps，实现了高保真的互动式遥操作。
音乐和文本控制：
- 文本控制： 接受自然语言提示，以 $\geq 60$ fps 合成目标运动。策略能够零样本执行未见指令，支持自由形式的即时提示。
- 音乐控制： 机器人根据旋律和节奏结构生成舞蹈动作，跟踪节拍并适应音乐风格。
无缝模态切换： 系统支持在不同模态之间无缝切换，例如从视频进行精细控制，切换到文本进行通用控制，再切换到音乐进行表演。如图 5 所示，这些功能都得到了很好的展示。

6.1.6. VR 遥操作和与基础模型的连接 (VR-Based Teleoperation and Connecting to Foundation Models)

VR 全身遥操作： 使用 PICO 全身动作跟踪接口，通过穿戴 VR 头显、脚踝跟踪器和手持 VR 控制器，实时将人类全身姿态 (SMPL 格式) 流式传输给 SONIC，实现低延迟、稳定、类人控制。
VR 三点遥操作： 一种轻量级的移动双臂 VR 遥操作接口（仅需头显和手持控制器，无需脚踝跟踪器）。输出包含三个上半身 SE(3) 姿态（头部和手腕）、手指关节角度、腰部高度、运动模式和导航命令。
- 数据收集： 使用此接口收集了 300 条移动抓取放置任务的遥操作轨迹，用于 VLA 模型的监督训练。
- 性能： 平均延迟为 $121.9 \mathrm{ms}$ 。右腕平均位置误差为 $6 \mathrm{cm}$ ，95 百分位数为 $13.3 \mathrm{cm}$ 。平均方向误差为 $0.145 \mathrm{rad}$ ( $8.32^\circ$ )，95 百分位数为 $0.267 \mathrm{rad}$ ( $15.31^\circ$ )。
基础模型驱动的移动双臂操作： 将 GR00T N1.5 VLA 模型与遥操作流水线连接。
- 训练： 使用上述 300 条 VR 遥操作轨迹对 GR00T N1.5 模型进行微调，以执行“将苹果放到盘子上”的抓取放置任务。
- 结果： 如图 6 所示，系统在 20 次试验中达到了 95% 的成功率。VLA 模型输出遥操作格式的控制信号（头部和手腕的姿态、腰部高度、导航命令），这些信号被送入运动学规划器和混合编码器，并由通用控制策略执行。这表明 SONIC 作为鲁棒的底层执行控制器，与 VLA 模型的上层规划能力兼容。

6.2. 数据呈现 (表格)

本论文中没有提供实验结果的表格，主要以图表和文字描述的方式呈现结果。但是，在方法论部分有详细的奖励设计 (Table 1)、域随机化参数 (Table 2)、网络超参数 (Table 3) 和训练超参数 (Table 4) 表格，这些已在方法论部分中转录。

6.3. 消融实验/参数分析

论文中没有明确标示为“消融实验”的部分，但 Figure 2 展示了模型在不同规模（数据集大小、模型大小、GPU 小时数）下的性能变化，这可以看作是对规模化效应的分析。结果表明，随着这三个维度的增加，性能均稳步提升，其中数据集规模的增加带来了最显著的收益。这验证了规模化在 SONIC 框架中的重要性。

7. 总结与思考

7.1. 结论总结

SONIC 通过将动作跟踪作为核心的可扩展任务，成功地将人形机器人全身控制的规模提升到前所未有的水平（1 亿帧数据，9k GPU 小时，42M 参数）。该方法学习了一个单一的、通用的策略，能够生成自然、鲁棒的全身行为，并泛化到未见过的动作和真实世界部署中。

其核心创新在于：

规模化动作跟踪： 证明了通过大规模数据、模型和计算资源进行动作跟踪训练，可以显著提升人形机器人控制器的性能、泛化能力和鲁棒性。
实用系统集成： 引入了一个实时的运动学规划器，将高级意图转化为可执行的短期运动参考，实现了交互式控制和风格调制。
统一词元空间： 创建了一个通用接口，能够处理来自多种模态（VR 遥操作、人类视频、文本、音乐）的异构输入，并无缝集成到 VLA 等基础模型中，作为其强大的底层执行系统。

SONIC 将动作跟踪从狭窄的模仿任务推向了通用人形机器人全身控制的基础，为未来更高级别的感知和推理奠定了坚实的基础。

7.2. 局限性与未来工作

论文作者指出了以下局限性和未来研究方向：

局限性：
- 安全合规性 (Safety compliance) 的正式处理： 论文目前未正式处理安全合规性问题，这在机器人部署中至关重要。
- 长期部署的能源效率： 模型的能源效率对于扩展部署而言仍是一个挑战。
- 部署过程中对抗噪声输入： 如何在真实部署中有效应对噪声输入仍需进一步研究。
未来工作：
- 探索更广泛数据集的扩展定律： 研究在更多样化的数据集上，性能随规模化的变化规律。
- 实现 VLA 指导的全身移动操作任务： 进一步使 VLA 模型能够指导更复杂的全身移动操作任务。
- 规划器、词元化器和策略的联合训练： 探索联合训练这些组件，以减少模态之间的差距 (modality gaps) 并可能提高整体性能。

7.3. 个人启发与批判

7.3.1. 个人启发

规模化范式在机器人领域的潜力： SONIC 明确展示了“规模化”这一在 LLMs 和图像生成模型中取得巨大成功的范式，在机器人控制领域同样具有巨大潜力。通过海量数据和计算，机器人不仅可以学习到更复杂的技能，还能展现出前所未有的泛化能力。
动作跟踪作为通用基础任务的价值： 将动作跟踪作为核心任务，巧妙地规避了强化学习中复杂的奖励设计问题，为机器人学习自然、流畅的运动提供了一个“万能”的密集监督信号。这是一种非常实用的策略，使得机器人可以快速学习到人类级别的运动先验。
多模态统一接口的重要性： 统一词元空间的设计是其实现多模态控制的关键。它使得机器人能够无缝地从视频、文本、音乐甚至 VR 设备中获取指令，极大地提高了机器人的交互性和适用范围，这是迈向通用型机器人控制的重要一步。
分层控制架构的有效性： 运动学规划器与底层动作跟踪策略的分层设计，使得机器人既能响应高层用户意图（如速度、风格），又能保持底层运动的流畅性和鲁棒性。这种架构将高级规划（慢速、推理）与低级执行（快速、反应）有效结合，为构建更智能、更灵活的机器人系统提供了思路。
仿真到现实的零样本迁移： 100% 的真实世界成功率令人印象深刻，这表明其域随机化和大规模训练策略有效地弥合了仿真与现实之间的差距，是机器人落地应用的关键。

7.3.2. 批判性思考

数据依赖性： 尽管大规模数据是 SONIC 成功的关键，但高质量、大规模的人类动作捕捉数据获取成本高昂且耗时。未来的研究需要探索如何在数据受限的情况下实现类似性能，或者开发更高效的数据利用方法（例如合成数据或无监督/自监督学习）。
泛化边界： 尽管在未见动作上表现良好，但 SONIC 的泛化能力是否有明确的边界？例如，对于人类无法执行或非常规的机器人专属任务，或者需要高度精细操作且人类数据难以直接迁移的任务，SONIC 是否仍然有效？
计算资源门槛： 9k GPU 小时和 1 亿帧的数据量意味着巨大的计算资源需求，这对于小型实验室或个人研究者来说是一个巨大的门槛。虽然文章展示了规模化带来的好处，但也限制了其研究和应用的普适性。
规划器与策略的解耦： 尽管分层架构有效，但运动学规划器和动作跟踪策略是分别训练的，未来作者也提到了联合训练以减少模态差距。这种解耦是否在某些复杂场景下引入了次优性或不一致性？联合训练可能带来新的挑战，如训练稳定性。
安全性和可解释性： 作为一个大规模黑箱模型，其安全合规性（如避免伤害、在意外情况下停止）和决策的可解释性是真实世界部署中需要重点关注的问题。尤其是在复杂的交互场景中，理解机器人为何做出某种动作对于故障排除和信任建立至关重要。

总的来说，SONIC 是人形机器人控制领域一项里程碑式的工作，它将基础模型的理念引入了机器人具身智能，并为未来通用型人形机器人的发展开辟了新的道路。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 42 分钟读完 · 27,160 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

1.7. PDF 链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 人形机器人控制的挑战

2.1.2. 现有方法的局限性

2.1.3. 本文的切入点与创新思路

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 人形机器人控制 (Humanoid Control)

3.1.2. 动作跟踪 (Motion Tracking)

3.1.3. 动作捕捉数据 (Motion Capture Data)

3.1.4. 基础模型 (Foundation Models)

3.1.5. 奖励设计 (Reward Engineering)

3.1.6. 强化学习 (Reinforcement Learning, RL)

3.1.7. 马尔可夫决策过程 (Markov Decision Process, MDP)

3.1.8. 近端策略优化 (Proximal Policy Optimization, PPO)

3.1.9. 域随机化 (Domain Randomization)

3.1.10. 统一词元空间 (Unified Token Space)

3.2. 前人工作

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 人形机器人运动数据集 (Humanoid Motion Dataset)

4.2.2. 通用人形机器人动作跟踪 (Universal Humanoid Motion Tracking)

4.2.2.1. 动作跟踪公式化 (Motion Tracking Formulation)

4.2.2.2. 通用控制策略 (Universal Control Policy)

4.2.3. 生成式运动学规划器 (Generative Kinematic Motion Planner)

4.2.3.1. 运动表示 (Motion Representation)

4.2.3.2. 潜在空间中的生成式神经骨干网络 (Generative Neural Backbone in Latent Space)

4.2.3.3. 根部轨迹弹簧模型 (Root Trajectory Spring Model)

4.2.3.4. 关键帧模块与应用集成 (Keyframe Module and Application Integration)

4.2.4. 多模态动作生成模型 (Multi-modal Motion Generation Model)

4.2.5. 部署 (Deployment)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.2.1. 成功率 (Success Rate, Succ)

5.2.2. 每关节位置误差的平方根均值 (Root-Relative Mean Per-Joint Position Error, MPJPE)

5.2.3. 加速度差异 (Sum of Acceleration Differences, ∑acc\sum_{\mathrm{acc}}∑acc​)

5.2.4. 速度差异 (Velocity Error, EvelE_{\mathrm{vel}}Evel​)

5.3. 对比基线

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 规模化对动作跟踪性能的影响

6.1.2. 与基线方法的比较

6.1.3. 真实世界评估 (Real-World Evaluation)

6.1.4. 交互式运动控制 (Interactive Motion Control)

6.1.5. 视频遥操作和多模态跨形态控制 (Video Teleoperation and Multi-Modal Cross-Embodiment Control)

6.1.6. VR 遥操作和与基础模型的连接 (VR-Based Teleoperation and Connecting to Foundation Models)

6.2. 数据呈现 (表格)

6.3. 消融实验/参数分析

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判性思考

相似论文推荐

5.2.3. 加速度差异 (Sum of Acceleration Differences, $\sum_{\mathrm{acc}}$ )

5.2.4. 速度差异 (Velocity Error, $E_{\mathrm{vel}}$ )