论文状态：已完成

PvP: Data-Efficient Humanoid Robot Learning with Proprioceptive-Privileged Contrastive Representations

发表：2025/12/15

对比学习框架 (3)人形机器人全身控制 (5)人形机器人学习 (1)状态表示学习方法 (1)数据高效强化学习 (1)

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了PvP框架，通过利用本体状态与特权状态之间的互补性，解决了人形机器人全身控制中的样本效率问题。该框架无需手工设计数据增强，能够学习紧凑且与任务相关的潜在表示，实现更快的策略学习。实验表明，PvP在速度跟踪和动作模仿任务中显著改善了样本效率和性能，推动了人形机器人学习的发展。

摘要

Achieving efficient and robust whole-body control (WBC) is essential for enabling humanoid robots to perform complex tasks in dynamic environments. Despite the success of reinforcement learning (RL) in this domain, its sample inefficiency remains a significant challenge due to the intricate dynamics and partial observability of humanoid robots. To address this limitation, we propose PvP, a Proprioceptive-Privileged contrastive learning framework that leverages the intrinsic complementarity between proprioceptive and privileged states. PvP learns compact and task-relevant latent representations without requiring hand-crafted data augmentations, enabling faster and more stable policy learning. To support systematic evaluation, we develop SRL4Humanoid, the first unified and modular framework that provides high-quality implementations of representative state representation learning (SRL) methods for humanoid robot learning. Extensive experiments on the LimX Oli robot across velocity tracking and motion imitation tasks demonstrate that PvP significantly improves sample efficiency and final performance compared to baseline SRL methods. Our study further provides practical insights into integrating SRL with RL for humanoid WBC, offering valuable guidance for data-efficient humanoid robot learning.

思维导图

论文精读

中文精读约 44 分钟读完 · 27,594 字

1. 论文基本信息

1.1. 标题

PvP: Data-Efficient Humanoid Robot Learning with Proprioceptive-Privileged Contrastive Representations (PvP: 利用本体-特权对比表示进行数据高效的人形机器人学习)

1.2. 作者

Mingqi Yuan、Tao Yu、Haolin Song、Bo Li、Xin Jin、Hua Chen、Wenjun Zeng 等人。作者来自香港理工大学 (HK PolyU)、LimX Dynamics、宁波东方理工大学 (EIT, Ningbo)、中国科学技术大学 (USTC)、浙江大学-伊利诺伊大学厄巴纳-香槟分校联合学院 (ZJU-UIUC)、南方科技大学 (SUSTech)。

1.3. 发表期刊/会议

该论文发布在 arXiv 预印本平台。虽然未在论文中明确指出已发表的期刊或会议，但 arXiv 是计算机科学和物理学等领域重要的预印本服务器，其上的论文通常被认为是已完成研究并寻求同行评审或即将发表的作品。

1.4. 发表年份

2025年。根据 Published at (UTC)：2025-12-15T08:50:20.000Z 信息。

1.5. 摘要

实现高效且鲁棒的全身控制 (Whole-Body Control, WBC) 对于人形机器人在动态环境中执行复杂任务至关重要。尽管强化学习 (Reinforcement Learning, RL) 在这一领域取得了成功，但由于人形机器人复杂的动力学和部分可观测性 (partial observability)，其样本效率 (sample inefficiency) 仍然是一个重大挑战。为解决这一限制，本文提出 PvP，一种本体-特权对比学习 (Proprioceptive-Privileged contrastive learning) 框架，该框架利用本体状态 (proprioceptive states) 和特权状态 (privileged states) 之间固有的互补性。PvP 无需手动设计数据增强 (hand-crafted data augmentations) 即可学习紧凑且与任务相关的潜在表示 (latent representations)，从而实现更快、更稳定的策略学习。为支持系统性评估，本文开发了 SRL4Humanoid，这是首个统一且模块化的框架，为人形机器人学习提供了代表性状态表示学习 (State Representation Learning, SRL) 方法的高质量实现。在 LimX Oli 机器人上进行的竞速跟踪 (velocity tracking) 和动作模仿 (motion imitation) 任务的广泛实验表明，与基线 SRL 方法相比，PvP 显著提高了样本效率和最终性能。本文研究进一步提供了将 SRL 与 RL 整合用于人形 WBC 的实用见解，为数据高效的人形机器人学习提供了宝贵指导。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2512.13093 PDF 链接: https://arxiv.org/pdf/2512.13093v1.pdf 发布状态: 预印本 (arXiv preprint)

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题： 人形机器人全身控制 (Whole-Body Control, WBC) 领域中，基于强化学习 (Reinforcement Learning, RL) 的方法虽然取得了显著进展，但普遍存在样本效率 (sample inefficiency) 低的问题。这意味着机器人需要大量的试错交互才能学习到有效的控制策略。

为什么这个问题在当前领域是重要的： 人形机器人因其类人形态，在通用性、适应人类中心环境和直观交互方面具有固有优势。然而，实现这些能力的核心是高效且鲁棒的 WBC，它需要协调大量关节和执行器以实现平衡、敏捷和安全的行为。WBC 面临巨大挑战，包括人形机器人复杂的动力学、欠驱动 (underactuation) 特性以及运动、操纵和平衡之间的强耦合。传统的基于模型的方法往往难以应对非稳态条件下的实时控制和鲁棒性能。RL 作为一种数据驱动方法，虽显示出巨大潜力，但其样本效率低的问题限制了其在实际人形机器人部署中的应用，特别是在优化复杂奖励结构以平衡任务性能和现实世界可靠性（如能效）时。

现有研究存在的具体挑战或空白：

RL的样本效率问题： 人形机器人复杂的动力学和部分可观测性导致RL需要极大量的样本来学习。
SRL与RL结合的不足： 虽然状态表示学习 (State Representation Learning, SRL) 已被证明可以提高RL的样本效率，但如何将 SRL 技术无缝地集成到人形 WBC 中，形成一个端到端 (end-to-end) 的框架，既能提高学习效率又能保证真实世界部署的可靠性，这一领域仍有待深入探索。现有的 SRL 方法在人形机器人学习中多采用重建型方法或依赖单一状态模态的对比学习，未能充分利用不同模态状态之间的互补信息。

这篇论文的切入点或创新思路： 论文的创新点在于提出了 PvP (Proprioceptive-Privileged contrastive learning) 框架，通过利用机器人本体状态 (proprioceptive states) 和特权状态 (privileged states) 之间固有的互补性，进行对比学习。特权状态（在仿真中可获取的额外信息）被视为本体状态的“伪增强”，从而学习到更紧凑、更具信息量且与任务相关的潜在表示，进而提高 RL 的样本效率和性能，同时避免了复杂的手动数据增强。此外，论文还开发了一个统一的开源框架 SRL4Humanoid，以系统性地评估和促进 SRL 在人形 WBC 中的应用。

2.2. 核心贡献/主要发现

提出 PvP 框架： 引入一种本体-特权对比学习框架，该框架在人形机器人的本体状态和特权状态之间进行对比学习。这种方法利用了两种状态模态固有的互补性，无需依赖手工设计的数据增强 (hand-crafted data augmentations)，即可为策略学习生成稳定的、增强的本体表示。
开发 SRL4Humanoid 框架： 构建了首个统一、模块化且开源的 SRL4Humanoid 框架。该框架提供了高质量的代表性 SRL 方法实现，用于人形机器人学习，旨在促进可复现研究和社区未来的发展。通过该框架，论文对不同 SRL 方法及其配置如何影响人形 WBC 学习效率和性能进行了系统研究。
实验验证与性能提升： 在 LimX Oli 人形机器人上，通过速度跟踪 (velocity tracking) 和动作模仿 (motion imitation) 两个代表性任务进行了广泛实验。结果表明，PvP 显著提高了复杂 WBC 场景下的样本效率 (sample efficiency) 和策略性能，优于现有 SRL 基线方法。
提供实践指导： 论文进一步提供了将 SRL 与 RL 整合用于人形 WBC 的实用见解，为数据高效的人形机器人学习提供了有价值的指导。

3. 预备知识与相关工作

本节旨在为读者铺垫理解论文所需的前置知识。

3.1. 基础概念

3.1.1. 人形机器人全身控制 (Whole-Body Control, WBC)

概念定义： 全身控制 (WBC) 是一种复杂的控制策略，旨在协调机器人全身（包括所有关节和执行器）的运动，以实现特定的任务目标，同时保持平衡、避免碰撞和处理外部扰动。对于人形机器人而言，WBC 尤其重要，因为它需要同时管理站立、行走、跑步、跳跃、抓取和姿态保持等多种复杂任务，涉及高度耦合的动力学系统。 在本文中的关注点： 论文关注如何通过学习方法，使人形机器人能够高效、鲁棒地执行复杂的 WBC 任务。

3.1.2. 强化学习 (Reinforcement Learning, RL)

概念定义： 强化学习 (RL) 是一种机器学习范式，智能体 (agent) 通过与环境的交互来学习如何做出最佳决策。智能体执行一个动作 (action) 后，环境会返回一个状态 (state) 和一个奖励 (reward)。智能体的目标是学习一个策略 (policy)，使其在长期内最大化累积奖励。 在本文中的关注点： 论文使用 RL 作为优化 WBC 策略的核心框架，但认识到其在人形机器人领域面临样本效率低的挑战。

3.1.3. 样本效率 (Sample Inefficiency)

概念定义： 样本效率 (Sample Inefficiency) 指的是一个学习算法在达到特定性能水平时所需的经验样本（即与环境交互的数据）数量。如果一个算法需要大量的样本才能学习到好的策略，就被认为是样本效率低的。在机器人学习中，由于真实世界交互成本高昂（时间、磨损、安全），样本效率是一个关键问题。 在本文中的关注点： RL 在人形机器人 WBC 中的主要挑战之一就是样本效率低，PvP 旨在通过改进状态表示来提高样本效率。

3.1.4. 状态表示学习 (State Representation Learning, SRL)

概念定义： 状态表示学习 (SRL) 是一种机器学习技术，旨在将高维的原始观测数据（如图像、传感器读数）转换成低维、紧凑且信息丰富的潜在表示 (latent representations)。这些表示通常会保留与任务相关的关键信息，同时过滤掉噪声和冗余，从而简化后续的决策或控制任务。 在本文中的关注点： 论文将 SRL 视为提高 RL 样本效率和泛化能力的关键，并探索其在人形机器人 WBC 中的应用。

3.1.5. 本体状态 (Proprioceptive State)

概念定义： 本体状态 (Proprioceptive State) 指的是机器人内部传感器直接测量到的信息，这些信息反映了机器人自身的物理状态。例如，关节的位置、速度、加速度，以及基座的角速度和重力估计等。这些数据是机器人执行动作和维持平衡的基础。 在本文中的关注点： 本体状态 是策略网络的主要输入，PvP 旨在增强从 本体状态 学习到的表示。

3.1.6. 特权状态 (Privileged State)

概念定义： 特权状态 (Privileged State) 是指在训练阶段可以获取，但在实际部署（真实机器人）中无法获取或不可靠的额外信息。这些信息通常来自仿真器，例如精确的根姿态和速度、每个连杆的姿态和速度、接触指示器、环境/地形特征等。特权状态 包含了比 本体状态 更完整、更精确的环境和机器人自身信息。 在本文中的关注点： 特权状态 在训练时可用于辅助学习（例如作为价值网络的输入或用于教师-学生学习），而 PvP 创新性地将其作为 本体状态 的“伪增强”用于对比学习。

3.1.7. 对比学习 (Contrastive Learning)

概念定义： 对比学习 (Contrastive Learning) 是一种自监督学习方法，其核心思想是学习一个编码器 (encoder)，使得来自相同样本（或其增强版本）的表示在潜在空间中相互靠近（正样本对），而来自不同样本的表示则相互远离（负样本对）。这种方法通过构建对比损失 (contrastive loss) 来学习有意义的表示，而无需显式的人工标注。 在本文中的关注点： PvP 框架的核心机制就是 对比学习，通过对比 本体状态 和 特权状态 来学习鲁棒的表示。

3.1.8. 近端策略优化 (Proximal Policy Optimization, PPO)

概念定义： 近端策略优化 (PPO) 是一种流行的强化学习算法，属于策略梯度 (policy gradient) 方法家族。它通过使用一个裁剪的替代目标函数 (clipped surrogate objective function) 来避免过大的策略更新，从而提高训练的稳定性和样本效率。PPO 是一种异策略 (on-policy) 算法，广泛应用于各种 RL 任务。 在本文中的关注点： PPO 被选为 SRL4Humanoid 框架的骨干 RL 算法。

3.1.9. SimSiam

概念定义： SimSiam (Simple Siamese Representation Learning) 是一种简单的自监督学习方法，它使用孪生网络 (Siamese network) 架构来学习有意义的表示，而无需负样本对、大批量 (large batches) 或动量编码器 (momentum encoders)。其关键特性是使用了一个停止梯度 (stop-gradient) 操作，以防止网络崩溃（即两个分支学习到常数表示）。它通过最大化同一输入图像的两个增强视图的表示之间的相似性来工作。 在本文中的关注点： PvP 框架的对比学习机制正是基于 SimSiam 算法实现的。

3.1.10. 变分自编码器 (Variational Autoencoders, VAE)

概念定义： 变分自编码器 (VAE) 是一种生成模型，也常用于表示学习。它通过一个编码器 (encoder) 将输入数据映射到潜在空间中的一个概率分布（而不是单个点），然后通过一个解码器 (decoder) 从这个潜在分布中采样并重建原始输入。VAE 的损失函数包含两部分：重建损失 (reconstruction loss)，确保解码器能够准确重建输入；以及 KL散度 (Kullback-Leibler Divergence)，将潜在空间的分布正则化到预设的先验分布（通常是标准正态分布），以确保潜在空间的连续性和结构性。 在本文中的关注点： VAE 作为一种重建型的 SRL 基线方法，被 SRL4Humanoid 框架实现并与 PvP 进行比较。

3.1.11. 自预测表示 (Self-Predictive Representations, SPR)

概念定义： 自预测表示 (SPR) 是一种通过预测未来状态来学习潜在表示的方法。它鼓励表示能够捕捉环境动力学，通过在潜在空间中对未来状态进行多步预测，并强制这些预测与实际未来状态的编码保持一致性。这种方法有助于学习到能够预测环境变化的、具有时间一致性的表示。 在本文中的关注点： SPR 作为一种动力学建模型的 SRL 基线方法，被 SRL4Humanoid 框架实现并与 PvP 进行比较。

3.2. 前人工作

3.2.1. SRL 在强化学习 (RL) 中的应用

SRL 在 RL 中被广泛应用以提高学习效率，主要分为三类方法：

重建型 (Reconstruction-based) 方法： 这类方法通过训练模型重建原始输入（例如图像或传感器数据），来学习潜在表示。例如，VAE [10] 和其他自编码器变体 [4, 5, 7, 46] 强制潜在空间捕获输入的重要特征，以便进行准确重建。
动力学建模 (Dynamics Modeling) 方法： 这类方法旨在学习能够捕捉环境动力学 (environment dynamics) 的表示。例如，通过前向模型 (forward models) 预测未来状态 [20, 25, 31] 或通过逆向模型 (inverse models) 从状态转换中推断动作 [9, 12, 25]。SPR [31] 就是一个代表。
对比学习 (Contrastive Learning) 方法： 这类方法通过强制正样本对（例如时间上相邻的状态或不同增强视图）的潜在表示相似，同时使负样本对的表示远离，来构建潜在空间。例如，CURL [13, 15] 利用增强图像对来强制不变性；ATC [36] 对齐时间上接近的观测的嵌入；CDPC [51] 通过时间差分目标细化对比预测编码以稳定训练。

3.2.2. SRL 在人形机器人学习中的应用

SRL 在人形机器人学习中显示出巨大潜力，能够高效编码和处理复杂的传感器信息，以提高机器人在动态环境中的适应性和性能：

适应性跟踪： Any2Track 框架 [50] 利用 SRL 结合历史感知适应模块和动力学感知世界模型预测，提取信息丰富的动力学特征，使机器人能够适应各种扰动（地形、外力、物理属性变化）。
世界模型重建： [38] 提出一个世界模型重建框架，利用传感器去噪和世界状态估计来改善在不可预测环境中的运动。
感知内部模型： PIM (Perceptive Internal Model) [18] 是一种使用高度图 (height maps) 通过对比学习获得更鲁棒表示的方法，尽管它仅依赖单一状态模态。
教师-学生学习： [43] 中 CTS (Concurrent Teacher-Student Reinforcement Learning) 框架在 SRL 中使用了重建型方法，从本体状态预测特权信息（如根线性速度）。

3.3. 技术演进

该领域的技术演进可以概括为：

传统模型驱动控制： 早期人形机器人控制主要依赖传统基于模型的方法（如优化基的 MPC），但这些方法在复杂动力学、欠驱动和非稳态条件下灵活性和鲁棒性不足。
强化学习的兴起： 随着计算能力和数据量的增长，RL 成为一种主流的数据驱动方法，能够直接从交互中学习复杂的控制策略。例如，BeyondMimic [17] 和 HugWBC [44] 展示了 RL 在模仿和多步态运动中的成功。
SRL 赋能 RL： 面对 RL 的样本效率瓶颈，SRL 应运而生，旨在通过学习低维、信息丰富的状态表示来加速 RL 训练，提高泛化能力。
本论文的贡献： 在 SRL 赋能 RL 的背景下，本论文进一步提出 PvP 框架，利用 本体-特权 状态的互补性进行对比学习，以克服现有 SRL 方法的局限性（如重建型方法的次优表示质量和泛化能力，以及单模态对比学习的信息限制），并提供一个统一的框架 SRL4Humanoid 进行系统性研究和评估，推动 SRL 在人形机器人 WBC 中的实际应用。

3.4. 差异化分析

本文方法 (PvP) 与相关工作中的主要方法相比，核心区别和创新点是什么：

利用本体-特权互补性：
- 现有工作： 大多数 SRL 方法在人形机器人学习中要么是重建型（例如 [38, 43] 通过本体状态预测特权信息），这些方法可能因保留无关细节而导致次优表示质量和泛化能力；要么是单模态的对比学习（例如 PIM [18] 仅依赖感知信息），限制了其捕捉任务相关动力学全谱的能力。
- PvP 的创新： PvP 首次提出在本体状态 (proprioceptive state) 和特权状态 (privileged state) 之间进行对比学习。它利用这两种模态固有的互补性，将 特权状态 视为 本体状态 的“伪增强 (pseudo augmentation)”，从而学习到更丰富、更全面的表示，解决了单一模态信息不足的问题。
无需手工数据增强：
- 现有对比学习方法： 许多对比学习方法，如 CURL [15]，高度依赖于手工设计的数据增强技术（例如裁剪、颜色抖动等）来生成正样本对。
- PvP 的创新： PvP 利用 本体状态 和 特权状态 之间的内在联系，自然地构建了对比学习所需的正样本对，从而避免了对复杂和耗时的人工数据增强的依赖，提高了方法的普适性和易用性。
统一且模块化的评估框架：
- 现有研究： 缺乏一个统一的框架来系统地评估不同 SRL 方法在人形机器人 WBC 任务中的表现。
- PvP 的创新： 论文开发了 SRL4Humanoid 框架，这是一个开放源代码的、模块化的平台，提供了高质量的代表性 SRL 方法实现。这使得研究人员能够进行可复现的、系统性的研究，从而更好地理解 SRL 如何影响人形 WBC 的学习效率和性能。
端到端整合和部署可靠性：
- 现有研究： 尽管 SRL 有潜力，但将其无缝集成到 RL 中，以同时增强学习效率和实际部署可靠性的方法仍未被充分探索。
- PvP 的创新： PvP 不仅关注学习效率，还通过优化如“动作平滑度 (action smoothness)”等奖励项，确保学习到的策略在真实世界部署中更加鲁棒和可靠。
  
  综上所述，PvP 的核心优势在于其利用多模态状态互补性进行对比学习的独特方法，以及 SRL4Humanoid 框架为领域研究提供的强大支持。

4. 方法论

本节将详细拆解 PvP 的技术方案，包括其核心原理、算法实现以及支持框架 SRL4Humanoid。

4.1. 方法原理

PvP 旨在通过对比学习 (contrastive learning) 来解决人形机器人全身控制 (WBC) 中强化学习 (RL) 的样本效率 (sample inefficiency) 问题。其核心思想是利用机器人两种不同类型状态——本体状态 (proprioceptive state) 和特权状态 (privileged state) 之间固有的互补性。本体状态 是机器人自身可直接测量的传感器信息，而 特权状态 则包含更全面、通常在仿真环境中才能获得的额外信息。PvP 的创新之处在于将 特权状态 视为 本体状态 的“伪增强 (pseudo augmentation)”，从而通过对比学习，无需手动设计数据增强 (hand-crafted data augmentations) 即可学习到紧凑、任务相关的潜在表示 (latent representations)。这些高质量的表示能够帮助策略网络 (policy network) 更快、更稳定地学习，从而提高 RL 的整体性能。

4.2. 核心方法详解

4.2.1. 人形全身控制 (Humanoid Whole-Body Control, WBC)

WBC 是使人形机器人执行各种复杂任务的基础。给定一组连续的指令 $\mathcal{C}$ 和观测 $\mathcal{O}$ ，目标是设计一个控制函数，将 $(\mathcal{O}, \mathcal{C})$ 映射到适当的控制信号。通过基于学习的方法，可以直接学习一个参数化的策略 $\pi_{\pmb{\theta}} : \mathcal{O} \times \mathcal{C} \to \mathcal{A}$ 来输出关节动作。在实践中，动作 (actions) 通常被定义为上半身、下半身和手部的标称关节位置 (nominal joint positions) 的偏移量。最终的关节参考位置通过将这些偏移量添加到标称目标来获得，然后使用固定增益的比例-微分 (Proportional-Derivative, PD) 控制器进行跟踪。

4.2.2. 强化学习 (Reinforcement Learning, RL)

RL 提供了一个数据驱动的框架，通过与环境的交互来优化人形 WBC 策略。形式上，人形 WBC 可以被视为一个无限 horizon 的部分可观测马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP) [35]，定义为元组 $\mathcal{M} = (S, \mathcal{O}, \mathcal{A}, P, \Omega, R, \gamma)$ 。

$s$ 表示人形机器人及其环境的完整状态空间 (full state space)。
$\mathcal{O}$ 是观测空间 (observation space)。
$\mathcal{A}$ 是动作空间 (action space)。
$P(\pmb{s}' | \pmb{s}, \pmb{a})$ 是状态转移概率函数 (transition probability function)。
$\Omega(o, s, a)$ 是观测函数 (observation function)。
R(s, a, s') 是奖励函数 (reward function)。
$\gamma \in [0, 1]$ 是折扣因子 (discount factor)。

RL 的目标是学习一个最优策略 $\pi_{\pmb{\theta}}$ ，使其最大化期望折扣回报： $J_{\pi}(\pmb{\theta}) = \mathbb{E}_{\pi} \Big[ \sum_{t=0}^{\infty} \gamma^t R(s_t, \pmb{a}_t, \pmb{s}_{t+1}) \Big]$ 其中， $\mathbb{E}_{\pi}$ 表示在策略 $\pi$ 下的期望， $s_t$ , $\pmb{a}_t$ , $\pmb{s}_{t+1}$ 分别表示 $t$ 时刻的状态、动作和 $t+1$ 时刻的状态。

4.2.2.1. 本体状态空间 (Proprioceptive State Space)

用 $\mathbf{o}_t \in \mathbb{R}^n$ 表示机器人在时间步 $t$ 的本体状态。它由硬件上可直接测量的信号组成，通常包括：

关节位置 $\pmb q_t$
关节速度 $\dot{\pmb q}_t$
基座角速度 $\omega_t$
基座坐标系中的重力（方向）估计 $\mathbf{\nabla}_{\mathbf{\boldsymbol{g}}_t}$ 。

4.2.2.2. 特权状态空间 (Privileged State Space)

在时间步 $t$ ， $\pmb{s}_t \in \mathbb{R}^m$ 表示完整的模拟器状态，仅在训练期间使用（例如由评论家/教师网络使用），但在真实机器人上不可用或不可靠。典型组件包括：

根姿态 (root pose) 和速度 (velocity)
每个连杆 (per-link) 的姿态和速度
接触指示器 (contact indicators)
环境/地形特征 (environment/terrain features) 值得注意的是，我们假设特权状态 $\pmb{s}$ 和本体状态 $\mathbf{o}$ 满足 $\mathbf{\em o} \subset \mathbf{\em s}$ ，即本体状态是特权状态的子集。

4.2.2.3. 动作空间 (Action Space)

动作 $\mathbf{a}_t \in \mathbb{R}^k$ 指定了 $k$ 个驱动关节相对于其标称位置的角偏差 (angular deviations)。最终的目标关节位置通过将 $\mathbf{a}_t$ 添加到标称配置来计算，然后由 PD 控制器进行跟踪。

4.2.3. PvP 实现 (PvP Implementation)

Figure 2. An overview of the PvP approach. (a) The components of the privileged state and the proprioceptive state. (b) PvP conducts contrastive learning based on the intrinsic complementarity between the two state modalities.
该图像是图示，展示了PvP方法的概述。(a) 显示了特权状态（例如，根线性速度）和本体状态（例如，关节位置）的组成。(b) PvP基于两种状态模态之间的内在互补性进行对比学习。

如图 2 所示，PvP 结合本体状态和特权状态进行对比学习，以利用不同传感器模态的互补信息。

具体步骤如下：

数据对生成： 特权状态 $\pmb{s}$ 包含本体观测（例如关节位置和角速度）和特权信息（例如根线性速度）。由于特权信息可以看作是本体状态 $\mathbf{o}$ 的“伪增强”，我们通过对特权状态 $\pmb{s}$ 的特权信息部分应用 ZeroMasking 操作，同时保持本体观测不变，来派生出一个新的状态 $\tilde{\pmb{s}}_t$ ： $\tilde{\pmb{s}}_t = \mathrm{ZeroMasking}(\pmb{s}_t)$ 其中， $\mathrm{ZeroMasking}(\cdot)$ 函数将特权状态中除了本体观测以外的所有特权信息部分置零。这样，原始特权状态 $\pmb{s}_t$ 和经过掩码处理的 $\tilde{\pmb{s}}_t$ 形成一个对比学习所需的数据对 $(\pmb{s}, \tilde{\pmb{s}})$ 。
编码器和预测器： 使用 SimSiam 算法 [1] 训练策略编码器。定义 $f_{\theta}$ 为策略编码器 (policy encoder)， $h_{\psi}$ 为预测器 (predictor)。
- 首先，将原始特权状态 $\pmb{s}$ 和掩码处理后的状态 $\tilde{\pmb{s}}$ 分别通过编码器 $f_{\theta}$ 得到潜在表示 $z$ 和 $\tilde{z}$ ： $z = f_{\pmb{\theta}}(\pmb{s}), \quad \tilde{z} = f_{\pmb{\theta}}(\tilde{\pmb{s}})$
- 然后，将潜在表示 $z$ 和 $\tilde{z}$ 分别通过预测器 $h_{\psi}$ 得到预测输出 $\pmb{p}$ 和 $\tilde{\pmb{p}}$ ： $\pmb{p} = h_{\psi}(z), \quad \tilde{\pmb{p}} = h_{\psi}(\tilde{z})$
PvP 损失函数： PvP 损失函数定义为两个负余弦相似度 (Negative Cosine Similarity, NCS) 损失项之和： $L_{\mathrm{PvP}} = D_{\mathrm{ncs}} \left( \pmb{p}, \mathbf{sg}(\tilde{\pmb{z}}) \right) + D_{\mathrm{ncs}} \left( \tilde{\pmb{p}}, \mathbf{sg}(\pmb{z}) \right)$ 其中：
- $D_{\mathrm{ncs}}(\pmb{p}, \pmb{z}) = - \frac{\pmb{p}}{\|\pmb{p}\|_2} \cdot \frac{\pmb{z}}{\|\pmb{z}\|_2}$ 是负余弦相似度损失，用于衡量两个向量 $\pmb{p}$ 和 $\pmb{z}$ 之间的相似性。余弦相似度越高，损失越小。
- $\mathbf{sg}(\cdot)$ 是停止梯度 (stop-gradient) 操作。这个操作是 SimSiam 的关键组成部分，它阻止梯度通过其参数反向传播，从而防止模型崩溃（即编码器学习到平凡的常数表示）。通过将其中一个分支的梯度停止，SimSiam 强制另一个分支预测固定分支的输出，从而有效地学习到有意义的表示。

PvP 的优势：

信息融合： PvP 利用本体状态和特权状态进行对比学习，有效降低了 SRL 的复杂性，并通过融合更丰富、更全面的信息增强了学习到的表示。
间接获取特权信息： 这种方法为策略提供了一种间接获取特权信息的途径，使智能体能更好地理解其环境。
无需手工数据增强： PvP 利用两种状态模态之间的内在互补性，无需依赖手工设计的数据增强。这使得 PvP 非常通用，可应用于广泛的任务。

4.2.4. SRL4Humanoid 框架 (The SRL4Humanoid Framework)

Figure 3. The architecture of the SRL4Humanoid framework, in which the SRL and RL processes are fully decoupled.
该图像是SRL4Humanoid框架的架构示意图，展示了来自本体状态和特权状态的输入如何通过策略编码器和价值编码器进行处理，并生成相应的策略头和价值头，最后通过SRL损失和PPO损失更新模型。

Figure 3. The architecture of the SRL4Humanoid framework, in which the SRL and RL processes are fully decoupled.

为支持实验和未来研究，本文开发了 SRL4Humanoid，这是一个统一、高度模块化的框架，为人形机器人学习提供了高质量且可靠的代表性 SRL 技术实现。图 3 展示了 SRL4Humanoid 框架的架构。

架构特点：

骨干 RL 算法： 遵循一系列人形机器人研究的实践 [2, 18, 37, 44]，选择 近端策略优化 (PPO) [28] 作为骨干 RL 算法。
策略与价值网络：
- 策略网络 (policy network) 接收机器人的本体状态 (proprioceptive state) 来生成动作 (actions)。
- 价值网络 (value network) 接收环境的特权状态 (privileged state) 来执行价值估计 (value estimation)。
解耦的 SRL 与 RL 流程： SRL 和 RL 流程被设计为完全解耦的。根据训练配置，SRL 目标可以应用于策略编码器 (policy encoder) 或价值编码器 (value encoder)。
SRL 算法实现： 为确保多样性和代表性，框架目前实现了三种广泛研究的 SRL 算法，每种都代表了第 2.2 节中介绍的不同方法范式，包括 SimSiam [1]（对比学习）、SPR [31]（动力学建模）和 VAE [10]（重建型）。

联合优化目标： RL 和 SRL 的联合优化目标定义为： $\mathcal{L}_{\mathrm{Total}} = \mathcal{L}_{\mathrm{RL}} + \lambda \cdot \mathcal{L}_{\mathrm{SRL}}$ 其中：

$\mathcal{L}_{\mathrm{RL}}$ 是 RL 损失（例如 PPO 损失）。
$\mathcal{L}_{\mathrm{SRL}}$ 是 SRL 损失（例如 PvP 损失、VAE 损失等）。
$\lambda$ 是一个权重系数，用于平衡 RL 损失和 SRL 损失的重要性。

间隔更新机制 (Interval Update Mechanism)： 默认情况下，这两个损失项的更新是同步的，即 SRL 模块的训练与 RL 共享数据批次，并遵循 RL 的更新频率。然而，在实际实验中发现，持续应用 SRL 损失并不总能对策略学习产生积极影响，有时甚至会降低学习效率。这可能是因为在训练早期，大规模并行 RL 会产生大量重复且低质量的数据，这可能导致 SRL 过早陷入局部最优。为解决此问题，论文采用了一种间隔更新机制： $L_{\mathrm{Total}} = L_{\mathrm{RL}} + \mathbb{1}(T) \cdot \lambda \cdot L_{\mathrm{SRL}}$ 其中， $\mathbb{1}(T)$ 是一个指示函数 (indicator function)，它在每 $T$ 个时间步等于 1；否则为 0。这意味着 SRL 损失只在特定的时间间隔内被计算和应用。

SRL4Humanoid 算法流程 (Algorithm 1)： 以下是 SRL4Humanoid 的工作流程总结：

1 初始化策略 πθ 和价值网络 Vφ; 2 初始化 SRL 模块 Sψ; 3 设置所有超参数，例如最大
episode 数量 E，更新 epoch 数量 K 等。
	4 for episode = 1 to E do
5	使用策略网络 πθ 采样 rollouts;
6	执行广义优势估计 (Generalized Advantage Estimation, GAE) 以获得估计的任务回报;
	for epoch = 1 to K do
7	从 rollouts 数据中采样一个 mini-batch B;
8	使用 B 计算策略损失和价值损失;
9	使用 B 计算 SRL 损失;
10	根据 Eq. (6) 计算总损失;
11	更新策略网络、价值网络和 SRL 模块;
13	end
14 end	输出优化后的策略 πθ

4.2.5. PPO 算法 (附录 A.1)

作为 SRL4Humanoid 框架的骨干 RL 算法，近端策略优化 (PPO) [28] 是一种旨在提高策略梯度方法稳定性和样本效率的异策略算法。它通过一个裁剪的替代目标函数来避免过大的策略更新。

策略损失 (Policy Loss)： $L_{\pi}(\pmb{\theta}) = - \mathbb{E}_{\tau \sim \pi} \left[ \operatorname*{min} \left( \rho_t(\pmb{\theta}) A_t, \mathrm{clip} \left( \rho_t(\pmb{\theta}), 1 - \epsilon, 1 + \epsilon \right) A_t \right) \right]$ 其中：

$\mathbb{E}_{\tau \sim \pi}$ 表示在策略 $\pi$ 下采样到的轨迹 (trajectory) $\tau$ 上的期望。
$\rho_t(\pmb{\theta}) = \frac{\pi_{\pmb{\theta}}(\pmb{a}_t | \pmb{s}_t)}{\pi_{\pmb{\theta}_{\mathrm{old}}}(\pmb{a}_t | \pmb{s}_t)}$ 是当前策略 $\pi_{\pmb{\theta}}$ 与旧策略 $\pi_{\pmb{\theta}_{\mathrm{old}}}$ 在 $t$ 时刻的动作概率比率。
$A_t$ 是在 $t$ 时刻的优势函数 (advantage function)，通常通过广义优势估计 (Generalized Advantage Estimation, GAE) [27] 计算。
$\epsilon$ 是一个裁剪范围系数 (clipping range coefficient)，通常设置为一个小值（如 0.1 或 0.2），用于限制策略更新的幅度。

价值损失 (Value Loss)： 价值网络 $V_{\phi}$ 旨在最小化预测回报与使用 GAE 计算的折扣回报目标之间的误差： $L_V(\phi) = \mathbb{E}_{\tau \sim \pi} \left[ \left( V_{\phi}(s) - V_t^{\mathrm{target}} \right)^2 \right]$ 其中：

$V_{\phi}(s)$ 是价值网络对状态 $s$ 的预测价值。
$V_t^{\mathrm{target}}$ 是通过 GAE 计算的 $t$ 时刻的目标回报。

4.2.6. VAE 算法 (附录 A.2)

变分自编码器 (VAE) [10] 是一种基于重建的方法，它将观测 $\mathbf{o}$ 编码为潜在变量 $z$ ，同时强制 $z$ 服从一个先验分布，以此平衡重建保真度和正则化。

损失函数： $\mathcal{L}_{\mathrm{VAE}} = - \mathbb{E}_{q_{\phi}(z | o)} [\log p_{\theta}(o | z)] + D_{\mathrm{KL}} (q_{\phi}(z | o) \| p_{\theta}(z))$ 其中：

$q_{\phi}(z | o)$ 是编码器 (encoder)，它将观测 $o$ 映射到潜在变量 $z$ 的后验分布（由参数 $\phi$ 定义）。
$p_{\theta}(o | z)$ 是解码器 (decoder)，它从潜在变量 $z$ 重建观测 $o$ （由参数 $\theta$ 定义）。
$D_{\mathrm{KL}} (q_{\phi}(z | o) \| p_{\theta}(z))$ 是 Kullback-Leibler (KL) 散度，它衡量了编码器生成的后验分布 $q_{\phi}(z | o)$ 与预定义的先验分布 $p_{\theta}(z)$ 之间的差异。通常 $p_{\theta}(z)$ 被设置为标准正态分布。

4.2.7. SPR 算法 (附录 A.3)

SPR (Self-Predictive Representations) [31] 是一种动力学建模方法，通过强制预测的未来状态与编码的未来状态之间的一致性来学习预测性的潜在表示。

损失函数： $L_{\mathrm{SPR}} = \sum_{k=1}^K \left\| f_{\pmb{\theta}}^{(k)}(z_t, \pmb{a}_{t:t+k-1}) - \mathbf{sg}(g_{\phi}^{(k)}(z_{t+k})) \right\|_2^2$ 其中：

$K$ 是预测步数。
$z_t$ 是 $t$ 时刻的潜在表示。
$\pmb{a}_{t:t+k-1}$ 是从 $t$ 时刻到 t+k-1 时刻的动作序列。
$f_{\pmb{\theta}}^{(k)}(z_t, \pmb{a}_{t:t+k-1})$ 是在线动力学模型 (online dynamics model)，它从当前潜在表示 $z_t$ 和动作序列 $\pmb{a}_{t:t+k-1}$ 预测 $k$ 步后的潜在表示。这里的 $f_{\pmb{\theta}}$ 是一个单步动力学模型，即 $z_{t+1} = f_{\pmb{\theta}}(z_t, \pmb{a}_t)$ ，而 $f_{\pmb{\theta}}^{(k)}$ 表示其 $k$ 步迭代预测。
$g_{\phi}^{(k)}(z_{t+k})$ 是目标动力学模型 (target dynamics model)，其参数 $\phi$ 是在线动力学模型参数的指数移动平均 (Exponential Moving Average, EMA)。
$\mathbf{sg}(\cdot)$ 表示停止梯度操作，用于稳定训练。

4.2.8. SimSiam 算法 (附录 A.4)

SimSiam [1] 是一种基于孪生网络架构的简单自监督学习方法，旨在无需负样本对、大批次或动量编码器的情况下学习有意义的表示。它由两个相同的网络组成，处理同一输入图像的两个增强视图。SimSiam 的一个关键特征是使用停止梯度操作，防止网络通过确保梯度不传播到其中一个分支而崩溃。目标是最大化两个视图表示之间的相似性，这通过负余弦相似度损失函数实现。

损失函数： $L_{\mathrm{SimSiam}} = \frac{1}{2} \left[ - \frac{f_{\theta}(x_1) \cdot f_{\theta}(x_2)}{\|f_{\theta}(x_1)\|_2 \|f_{\theta}(x_2)\|_2} \right]$ 其中：

$f_{\pmb{\theta}}(\pmb{x})$ 表示编码器网络对增强视图 $\pmb{x}$ 的输出。
$x_1$ 和 $x_2$ 是同一输入样本的两个不同增强视图。
$\|\cdot\|_2$ 表示 L2 范数。
损失函数的目标是最大化 $f_{\theta}(x_1)$ 和 $f_{\theta}(x_2)$ 之间的余弦相似度。

5. 实验设置

本节详细描述了实验设计，旨在评估 PvP 算法和 SRL4Humanoid 框架在人形机器人任务上的性能，并系统分析 SRL 在人形 WBC 中的应用。

5.1. 数据集

5.1.1. 实验平台

实验采用 LimX Oli 人形机器人作为测试平台。

Figure 4. The specifications of the LimX Oli humanoid robot used in the experiments, and the screenshots of the two designed tasks.
该图像是图表，展示了LimX Oli人形机器人的规格，包括身高、肩宽、臂长、重量及各节自由度的详细信息。同时，图中右侧展示了两个任务的截图，分别为速度跟踪和动作模仿。

Figure 4. The specifications of the LimX Oli humanoid robot used in the experiments, and the screenshots of the two designed tasks. 上图（原文 Figure 4）展示了 LimX Oli 人形机器人的规格，它是一个拥有 31 个自由度 (Degrees of Freedom, DoF) 的全尺寸人形机器人。

5.1.2. 任务设计

基于 LimX Oli 平台，设计了两个代表性任务：

LimX-Oli-31dof-Velocity (速度跟踪任务):

目标: 要求机器人在平坦地形上跟踪给定的速度指令。
指令: 速度指令每 10 秒重新采样一次。
速度范围: x 轴线性速度范围为 $(-0.5, 1.0) \mathrm{m/s}$ ，y 轴为 $(-0.3, 0.3) \mathrm{m/s}$ ，z 轴角速度范围为 $(-1.0, 1.0) \mathrm{rad/s}$ 。

状态空间细节 (Table 2): 以下是原文 Table 2 的结果：

Proprioceptive State	Privileged State
base_ang_vel (3x5)	base_lin_vel (3)
projected_gravity (3x5)	base_ang_vel (3)
gait (5)	projected_gravity (3)
velocity_commands (3x5)	velocity_commands (3)
joint_pos (31x5)	joint_pos (31)
joint_vel (31x5)	joint_vel (31)
actions (31x5)	actions (31)
gait (5)

本体状态 (Proprioceptive State): 策略编码器的输入，由 5 个连续时间步的信号堆叠而成，以增强鲁棒性。包括：
- base_ang_vel (3维向量，表示基座角速度)
- projected_gravity (3维向量，表示投影重力方向)
- gait (5维向量，表示步态信息)
- velocity_commands (3维向量，表示速度指令)
- joint_pos (31维向量，表示关节位置)
- joint_vel (31维向量，表示关节速度)
- actions (31维向量，表示动作)
特权状态 (Privileged State): 价值网络的输入，包含更全面的环境和机器人信息。包括：
- base_lin_vel (3维向量，表示基座线性速度)
- base_ang_vel (3维向量，表示基座角速度)
- projected_gravity (3维向量，表示投影重力方向)
- velocity_commands (3维向量，表示速度指令)
- joint_pos (31维向量，表示关节位置)
- joint_vel (31维向量，表示关节速度)
- actions (31维向量，表示动作)

奖励函数细节 (Table 1): 以下是原文 Table 1 的结果：

Term	Formulation	Weight
Linear velocity tracking	$\\|v_{xy} - v_{cmd}\\|_{exp}^{-\frac{2}{\sigma^2}}$	1.0
Angular velocity tracking	$(\omega_z - \omega_{cmd})^2 exp^{-\frac{2}{\sigma^2}}$	0.5
Base height	$(h - h^*)^2$	0.5
Linear velocity (z)	$\\|v_z\\|^2$	-2e-3
Angular velocity (x, y)	$\|\omega_{xy}\|^2$	-0.15
Action smoothness	$k\\|a_t - 2a_{t-1} - a_{t-2}\\|^2$	-2.5e-3
Joint velocity	$\\|\|\dot{q}\|^2\\|$	-1e-3
Joint acceleration	$\\|\ddot{q}\\|^2$	-5e-7
Joint deviation	$\sum_j \|q_j - q_{des}\|$	-0.1
Joint power	$\|\|\dot{q}\|\|^T$	-2.5e-7
Joint torque	$\\|\tau\\|^2$	-4.0e-7
Joint position limits	$\sum_j \Delta_j$	-0.2
Joint velocity limits	$\sum_j \dot{q}_j$	-0.025

符号解释:
- $\pmb q$ : 关节位置向量。
- $\dot{\pmb q}$ : 关节速度向量。
- $\ddot{\pmb q}$ : 关节加速度向量。
- $\tau$ : 关节扭矩向量。
- $\pmb v_{xy}$ : 基座在 xy 轴上的线性速度向量。
- $\omega_{xy}$ : 基座在 xy 轴上的角速度向量。
- $\omega_z$ : 基座在 z 轴上的角速度。
- $v_{cmd}$ : 线性速度指令。
- $\omega_{cmd}$ : 角速度指令。
- $h$ : 当前基座高度。
- $h^*$ : 期望基座高度。
- $\delta_1, \delta_2$ : 腰部关节的横滚角和俯仰角。
- $\Delta_j$ : 第 $j$ 个关节位置与其软限制之间的绝对差值。
- $q_{des}$ : 期望关节位置。
- $a_t$ : $t$ 时刻的动作。
- $\sigma$ : 比例系数。
- exp: 指数函数。
- $\|\cdot\|$ 或 $|\cdot|$ : 范数或绝对值。

LimX-Oli-31dof-Mimic (动作模仿任务):

目标: 要求机器人模仿不同的预录制人类动画。
动画数据: 使用 20 个预录制的人类动作，每个最长 43 秒，包含 4,300 帧。

该图像是图表，展示了运动捕捉数据的多个示例截图。图中包含了多个姿势和动作的序列，反映了人形机器人在动态环境中的运动情况。

Figure 12. Example screenshots of the motion capture data. 上图（原文 Figure 12）展示了运动捕捉数据的示例截图。

状态空间细节 (Table 4): 以下是原文 Table 4 的结果：

Proprioceptive State	Privileged State
base_ang_vel (3)	base_lin_vel (3)
projected_gravity (3)	base_ang_vel (3)
joint_pos (31)	base_pos_z (1)
joint_vel (31)	body_mass (40)
actions (31)	base_quat (6)
mimic reference (69)	projected_gravity (3)
	velocity_commands (3)
	joint_pos (31)
	joint_vel (31)
	actions (31)
	previous actions (31)
	mimic reference (69)

本体状态 (Proprioceptive State):
- base_ang_vel (3维)
- projected_gravity (3维)
- joint_pos (31维)
- joint_vel (31维)
- actions (31维)
- mimic reference (69维，模仿参考姿态)
特权状态 (Privileged State):
- base_lin_vel (3维)
- base_ang_vel (3维)
- $base_pos_z$ (1维，基座z轴位置)
- body_mass (40维，身体质量信息)
- base_quat (6维，基座四元数)
- projected_gravity (3维)
- velocity_commands (3维)
- joint_pos (31维)
- joint_vel (31维)
- actions (31维)
- previous actions (31维)
- mimic reference (69维)

奖励函数细节 (Table 3): 以下是原文 Table 3 的结果：

Term	Formulation	Weight
Position tracking	exp $^{-\frac{\\|q - q_{ref}\\|^2}{2\sigma^2}}$	2.0
Feet distance tracking	exp $^{-\frac{\|d - d_{ref}\|^2}{\sigma}}$	0.5
Waist pitch orientation tracking	exp `^{-\frac{p (\sum_{i=1}^n \|\delta_i - \delta_{ref}\|)}{2}}`	0.5
Action rate	$\\|a_t - a_{t-1}\\|^2$	-0.001
Joint velocity	$\\|\dot{q}\\|^2$	-0.5e-3
Joint acceleration	$\\|\ddot{q}\\|^2$	-1.0e-7
Joint Torque	$\\|\tau\\|^2$	-1.0e-5
Joint position limits	$\sum_j \Delta_j$	-1.0
Joint torque limits	$\sum_j \tau_j$	-0.01
Joint velocity limits	$\sum_j \dot{q}_j$	-0.2

符号解释:
- $\pmb q$ : 关节位置向量。
- $q_{ref}$ : 参考关节位置。
- $d$ : 脚部距离。
- $d_{ref}$ : 参考脚部距离。
- $\delta_i$ : 第 $i$ 个腰部关节的俯仰角。
- $\delta_{ref}$ : 参考腰部俯仰角。
- $a_t$ : $t$ 时刻的动作。
- $\dot{\pmb q}$ : 关节速度向量。
- $\ddot{\pmb q}$ : 关节加速度向量。
- $\tau$ : 关节扭矩向量。
- $\Delta_j$ : 第 $j$ 个关节位置与其软限制之间的绝对差值。
- $\sigma$ : 比例系数。
- exp: 指数函数。
- $\|\cdot\|$ 或 $|\cdot|$ : 范数或绝对值。

5.1.3. 评估指标

评估指标主要分为四类：

总体任务性能 (Overall Task Performance):
- 概念定义: 通过计算所有子奖励函数的加权总和来衡量智能体在整个任务中的综合表现。
- 数学公式: 论文未直接给出总任务性能的单一公式，但其定义为 $R_{\mathrm{Total}} = \sum_i w_i R_i$ ，其中 $R_i$ 是第 $i$ 个子奖励项， $w_i$ 是其对应权重。
- 符号解释: $R_{\mathrm{Total}}$ 表示总奖励， $w_i$ 是第 $i$ 个奖励项的权重， $R_i$ 是第 $i$ 个奖励项的值。
关键性能指标 (Key Performance Indicators, KPIs):
- 概念定义: 针对每个任务特定的关键行为进行量化评估，以衡量机器人执行任务的精度和质量。
- 数学公式与符号解释:
  - LimX-Oli-31dof-Velocity (速度跟踪任务): 衡量的是速度跟踪精度 (velocity tracking accuracy)。其具体的计算公式可以从 Table 1 中的 Linear velocity tracking 和 Angular velocity tracking 项推导。例如，Linear velocity tracking 奖励项的公式为 $\|v_{xy} - v_{cmd}\|_{exp}^{-\frac{2}{\sigma^2}}$ ，其中 $\|v_{xy} - v_{cmd}\|$ 越小，表示跟踪误差越小，精度越高。
  - LimX-Oli-31dof-Mimic (动作模仿任务): 衡量的是位置对齐精度 (position alignment accuracy)。其具体的计算公式可以从 Table 3 中的 Position tracking、Feet distance tracking 和 Waist pitch orientation tracking 项推导。例如，Position tracking 奖励项的公式为 exp $^{-\frac{\|q - q_{ref}\|^2}{2\sigma^2}}$ ，其中 $\|q - q_{ref}\|$ 越小，表示关节位置与参考位置的对齐误差越小，精度越高。
训练效率 (Training Efficiency):
- 概念定义: 衡量方法达到特定性能水平或收敛所需的时间（通常是训练步数或 episode 数量）。收敛速度越快，训练效率越高。
- 数学公式: 论文未给出具体公式，通常通过学习曲线 (learning curves) 的斜率和达到平台期的速度来衡量。
- 符号解释: 不适用。
实际部署效果 (Real-world Deployment Effectiveness):
- 概念定义: 评估学习到的策略在真实世界中执行时的鲁棒性、安全性和动作质量。例如，通过优化“动作平滑度 (action smoothness)”奖励项来防止机器人做出剧烈动作，确保实时控制的平稳性。
- 数学公式与符号解释: 论文未给出具体公式，但 Table 1 和 Table 3 中包含了 Action smoothness 或 Action rate 等惩罚项，其目标是最小化动作变化，从而提高平滑度。例如，Action smoothness (速度跟踪任务) 为 $k\|a_t - 2a_{t-1} - a_{t-2}\|^2$ ，其中该值越小表示动作越平滑。

5.1.4. 对比基线

本文以 PPO [28] 作为骨干 RL 算法，并将其与不同的 SRL 方法结合进行比较。默认情况下，这些 SRL 损失项应用于策略编码器 (policy encoder)。

SRL 方法基线包括：

SimSiam [1]：一种自监督对比学习方法，无需负样本。
SPR [31]：一种基于动力学建模的自预测表示学习方法。
VAE [10]：一种基于重建的变分自编码器。

所有方法共享相同的网络架构和训练步骤，并进行了超参数搜索以确定初始超参数（如数据增强操作和损失系数），以确保公平比较。

5.1.4.1. PPO 超参数设置 (附录 C.1)

以下是原文 Table 5 的结果：

Part	Policy Network	Value Network
Encoder	Linear(O. D., 512) ELU() Linear(512, 256) ELU() Linear(256, 128)	Linear(O. D., 512) ELUO Linear(512, 256) ELU() Linear(256, 128)
Head	Linear(128, 128) ELU() Linear(128, 31)	Linear(256, 128) ELUO Linear(128, 1)

以上表格（原文 Table 5）展示了策略网络和价值网络的架构，在所有实验中保持不变。“O. D.”代表 “On-demand”，指输入维度根据具体任务而定。

以下是原文 Table 6 的结果：

Hyperparameter	Value
Reward normalization	Yes
LSTM	No
Maximum Episodes	30000
Episode steps	32
Number of workers	1
Environments per worker	4096
Optimizer	Adam
Learning rate	1e-3
Learning rate scheduler	Adaptive
GAE coefficient	0.95
Action entropy coefficient	0.01
Value loss coefficient	1.0
Value clip range	0.2
Max gradient norm	0.5
Number of mini-batches	4
Number of learning epochs	5
Desired KL divergence	0.01
Discount factor	0.99

以上表格（原文 Table 6）列出了两个任务的 PPO 超参数，在所有实验中保持不变。

5.1.4.2. PPO+PvP 设置 (附录 C.2)

特权信息: 根线性速度 (root linear velocity) 作为对比学习的特权信息。对于动作模仿任务，根方向信息 (root orientation information) 也被纳入。
Zero Mask: 在整个训练过程中，对本体状态应用零掩码 (zero mask) 以使其维度与特权状态对齐。
损失系数 ( $\lambda$ ): 经过初始超参数搜索 $\{0.1, 0.5, 1.0\}$ ，选择 0.5 作为基线设置。

5.1.4.3. PPO+SimSiam 设置 (附录 C.3)

损失系数 ( $\lambda$ ): 经过初始超参数搜索 $\{0.1, 0.5, 1.0\}$ ，选择 0.5。
数据增强操作: 经过初始超参数搜索 {random_masking (随机掩码), gaussian_noise (高斯噪声), random_amplitude_scaling (随机幅度缩放), identity_mapping (恒等映射)}，选择 random_masking 和 identity_mapping 作为基线设置。这是因为本体状态在模拟器中已进行领域随机化 (domain randomization)，这也可以视为一种数据增强。

5.1.4.4. PPO+SPR 设置 (附录 C.4)

损失系数 ( $\lambda$ ): 经过初始超参数搜索 $\{0.1, 0.5, 1.0\}$ ，选择 0.5。
数据增强操作: 经过初始超参数搜索 {random_masking, gaussian_noise, random_amplitude_scaling, identity_mapping}，选择 gaussian_noise。
预测步数 ( $K$ ): 经过初始超参数搜索 $\{1, 5, 10, 15\}$ ，选择 5。
平均损失: 考虑是否使用平均损失，最终选择不使用。

5.1.4.5. PPO+VAE 设置 (附录 C.5)

损失系数 ( $\lambda$ ): 经过初始超参数搜索 $\{0.1, 0.5, 1.0\}$ ，选择 0.1 作为基线设置。

6. 实验结果与分析

本节根据预设的研究问题对实验结果进行分析。

6.1. 核心结果分析

6.1.1. Q1: 提出的 PvP 算法能否超越基线方法？

6.1.1.1. 任务性能比较 (Overall Task Performance)

该图像是一个示意图，展示了LimX Oli 机器人在速度跟踪和模仿任务中不同算法的正则化得分随训练进展的变化。图中对比了PPO与多种结合策略，包括VAE、SPR、SimSiam和PvP，结果显示PvP在样本效率和最终性能上具有显著提升。

Figure 5. The normalized scores of different algorithms on LimX Oli velocity tracking and mimic WBC tasks. The solid line and shaded region denote the mean and standard deviation, respectively. 上图（原文 Figure 5）展示了不同算法在 LimX Oli 速度跟踪和模仿 WBC 任务中的正则化得分（所有奖励项的累积）。实线和阴影区域分别表示平均值和标准差。

速度跟踪任务 (LimX-Oli-31dof-Velocity):
- PvP 方法显著加速了学习过程，表现出最高的收敛速度和最终性能。
- 其他 SRL 方法（VAE, SPR, SimSiam）相较于 Vanilla PPO 仅带来了边际性的学习速度提升。
- 分析: 这表明利用特权信息增强 SRL 具有明显优势，使智能体能够从嘈杂和冗余的传感器输入中提取更具信息量的特征，从而加速学习。
动作模仿任务 (LimX-Oli-31dof-Mimic):
- 两种 SRL 方法（PvP 和 SPR）表现优于 Vanilla PPO 智能体，其中 PvP 实现了最高性能。
- VAE 方法表现出性能下降，甚至低于 Vanilla PPO。
- 分析: 这表明简单地重建传感器数据不足以提高机器人的学习效率。学习高质量、任务相关的特征对于提升人形 WBC 任务的学习效率和最终性能至关重要。PvP 在此任务中的卓越表现进一步证实了其有效性。

6.1.1.2. 动作平滑度优化 (Action Smoothness Optimization)

Figure 6. The comparison of action smoothness optimization between the vanilla PPO agent and its combinations with the four SRL methods. The solid line and shaded region denote the mean and standard deviation, respectively.
该图像是图表，展示了在训练进程中，PPO及其与四种SRL方法组合的动作平滑度优化结果。图中实线与阴影区域分别表示均值与标准差。

Figure 6. The comparison of action smoothness optimization between the vanilla PPO agent and its combinations with the four SRL methods. The solid line and shaded region denote the mean and standard deviation, respectively. 上图（原文 Figure 6）展示了 Vanilla PPO 智能体及其与四种 SRL 方法组合的动作平滑度优化比较。动作平滑度项定义为机器人连续三帧动作之间的差异，有助于防止机器人做出突兀的动作，确保在真实世界部署中运动更平滑、受控。

分析: PvP 方法显著加速了该惩罚项的收敛。这表明 PvP 不仅能加速模拟中的策略学习，还能有效保证真实世界部署的可靠性。其他 SRL 方法的平滑度优化效果不及 PvP。

6.1.1.3. 跟踪性能比较 (Tracking Performance Comparison)

Figure 7. The tracking performance comparison between the PPO agent and its combinations with the four SRL methods. Our PvP achieves the highest performance in terms of the three key tracking metrics.
该图像是图表，展示了PPO代理及其与四种SRL方法组合的追踪性能比较，包含了腰部俯仰角、脚距和关节位置三个关键指标。PvP的追踪性能在这三个指标中表现最佳。

Figure 7. The tracking performance comparison between the PPO agent and its combinations with the four SRL methods. Our PvP achieves the highest performance in terms of the three key tracking metrics. 上图（原文 Figure 7）展示了 PPO 智能体及其与四种 SRL 方法组合的跟踪性能比较，特别是对于对控制精度要求较高的动作模仿任务。图中对比了三个关键跟踪指标。

分析: PvP 方法不仅提高了整体性能，还在所有三个关键跟踪指标上（腰部俯仰角对齐、脚距对齐和关节位置对齐）实现了可靠的性能提升，且表现最佳。这进一步验证了 PvP 在多样化任务中的优越性。

6.1.2. Q2: 训练时间比例对 SRL 性能的影响？

该图像是一个比较图表，展示了不同方法在 LimX Oli 机器人上进行速度跟踪和模仿任务中的规范化分数。图中包括 VAE、SPR、SimSiam 和 PvP 四种方法的表现，识别了不同初始学习率下的效果。

Figure 8. Training progress comparison of the four SRL methods with different training time proportions on the two humanoid WBC tasks. The solid line and shaded region denote the mean and standard deviation, respectively. 上图（原文 Figure 8）展示了四种 SRL 方法在不同训练时间比例（即 SRL 损失的更新间隔 $T$ 为 1、50、100）下在两个人形 WBC 任务上的训练进度比较。

速度跟踪任务: 调整更新间隔对该任务的影响微乎其微。
动作模仿任务: 调整更新间隔产生了明显影响。
- 对于所有 SRL 方法，更新间隔为 50 通常是最佳的。
分析: 这些结果表明，仔细选择 SRL 损失的更新间隔可以改善其性能，防止过早陷入局部最优，并通过减少计算开销提高整体训练效率。在训练早期，大量重复且低质量的数据可能导致 SRL 模块过早收敛，因此间歇性更新可以缓解这一问题。

6.1.3. Q3: 训练数据比例对 SRL 性能的影响？

该图像是图表，展示了LimX Oli机器人的不同状态表示方法（VAE、SPR、SimSiam、PvP）在速度跟踪和模仿任务中的标准化评分表现。通过比较数据比例（D. P. = 10%，50%，100%）对比不同方法的样本效率，验证了PvP方法的优势。

Figure 9. Training progress comparison of the four SRL methods with different training data proportions on the two humanoid WBC tasks. The solid line and shaded region denote the mean and standard deviation, respectively. 上图（原文 Figure 9）展示了四种 SRL 方法在不同训练数据比例（即每次更新使用 rollouts 数据的 10%、50%、100%）下在两个人形 WBC 任务上的训练进度比较。

速度跟踪任务: 使用不同数据比例产生的训练曲线几乎相同，影响不大。
动作模仿任务: 增加训练数据比例通常会提高性能，特别是对于 SimSiam 和 PvP 方法。
分析: 这表明分配适当比例的训练数据可以加速学习并提高性能，尤其是在动作模仿这类更复杂的任务中。这与 [47] 中关于内在奖励对训练数据比例影响的研究结果相呼应。

6.1.4. Q4: 哪个编码器（策略或价值）从应用 SRL 损失中受益更多？

Figure 10. Learning curves of applying the SRL to the value encoder. The solid line and shaded region denote the mean and standard deviation, respectively.
该图像是图表，展示了在 LimX Oli 机器人上进行的速度跟踪和模仿任务的学习曲线。上图显示动作平滑度随训练集数的变化，下图展示了不同编码器的标准化评分随训练进度的变化趋势。图中标注了“训练崩溃”的位置。

Figure 10. Learning curves of applying the SRL to the value encoder. The solid line and shaded region denote the mean and standard deviation, respectively. 上图（原文 Figure 10）展示了将 SRL 损失应用于价值编码器的学习曲线。之前的实验默认将 SRL 损失应用于策略编码器以改善对本体状态的理解。本实验旨在探索其对价值编码器的影响。

实验设置: 使用 PPO 智能体与两种 SRL 方法（SPR 需要状态-动作对进行训练，因此未包含）进行消融实验。
结果分析:
- 将 SRL 损失应用于价值编码器导致收敛速度变慢，相较于应用于策略编码器。
- 特别是在速度跟踪任务中，当 SRL 应用于价值编码器时，观察到训练崩溃（动作平滑度在恢复前急剧下降），如图中所示。
结论: 这些发现表明，将 SRL 损失应用于策略编码器能够带来更稳定的学习过程和增强的性能。这可能是因为策略编码器直接负责从本体状态中提取决策所需的特征，而价值编码器主要用于评估特权状态下的价值，其对表示学习的需求可能有所不同。

6.1.5. Q5: 这些 SRL 方法的计算效率如何？

实验平台: 所有实验都使用 IsaacLab [23] 在单个 GPU 上运行。
SRL 模块部署: SRL 模块完全在 GPU 上运行，因此不会影响整体训练效率。
结论: SRL4Humanoid 框架能够以最小的计算资源开销有效地加速人形 WBC 任务。完整的计算报告（Weights & Biases (Wandb) 日志）已附在计算报告表格（CRF）中。

6.1.6. Q6: SRL 增强方法在真实世界部署中的表现如何？

6.1.6.1. Sim2Sim 评估

Figure 11. Sim2Sim evaluation on the MuJoCo simulator. The first two rows demonstrate motion imitation ability, and the last two rows show velocity tracking ability.
该图像是一个示意图，展示了在MuJoCo模拟器上进行的Sim2Sim评估。上两行展示了机器人进行动作模仿的能力，下两行则显示了其速度跟踪的能力。

Figure 11. Sim2Sim evaluation on the MuJoCo simulator. The first two rows demonstrate motion imitation ability, and the last two rows show velocity tracking ability. 上图（原文 Figure 11）展示了在 MuJoCo 模拟器 [40] 上进行的 Sim2Sim (Simulation-to-Simulation) 评估。MuJoCo 提供了比 IsaacLab [21] 更接近真实世界条件的模拟精度。

结果: 图中清晰地展示了机器人使用学习到的策略执行复杂任务的能力。前两行展示了动作模仿能力，后两行展示了速度跟踪能力。

6.1.6.2. 真实世界评估

测试平台: 在 LimX Oli 人形机器人上进行了真实机器人测试，如图 1（论文首页图）所示。
结果: 进一步的演示可以在补充材料中的支持视频中找到。
结论: Sim2Sim 和真实世界评估均验证了本文方法在实际场景中的有效性。

7. 总结与思考

7.1. 结论总结

本文提出了 PvP，一个基于本体-特权对比学习 (Proprioceptive-Privileged contrastive learning) 的框架，旨在提高人形机器人全身控制 (WBC) 任务的样本效率和性能。PvP 利用机器人本体状态 (proprioceptive states) 和特权状态 (privileged states) 之间固有的互补性，无需依赖手工设计的数据增强 (hand-crafted data augmentations)，即可学习到增强的本体表示 (proprioceptive representations) 以进行策略学习。

为支持系统性研究，本文还开发了 SRL4Humanoid 框架，这是一个统一、模块化且开源的平台，提供了高质量的代表性状态表示学习 (SRL) 方法实现，用于人形机器人学习。

通过在 LimX Oli 人形机器人上进行的广泛实验，包括速度跟踪 (velocity tracking) 和动作模仿 (motion imitation) 任务，结果表明 PvP 相较于基线方法显著提高了样本效率和最终性能。此外，研究还提供了将 SRL 与 RL 整合用于人形 WBC 的实用见解，包括更新间隔和数据比例的影响，以及将 SRL 应用于策略编码器而非价值编码器的优势。这些成果为数据高效的人形机器人学习提供了宝贵的指导。

7.2. 局限性与未来工作

论文作者指出了以下局限性并提出了未来的研究方向：

SRL 方法的扩展： 尽管本文已使用多种 SRL 方法验证了 PvP 框架的有效性，但未来的研究可以探索整合更多的 SRL 技术，以进一步增强策略学习。
多模态数据集成： 近期感知型人形机器人研究的进展表明，将多模态数据（如 RGB 图像或深度图像）融入策略学习具有巨大潜力。作者计划将本文工作扩展到这些设置，这将有助于在更复杂的环境中拓展人形机器人的能力。

7.3. 个人启发与批判

7.3.1. 个人启发

“特权信息”作为“伪增强”的巧妙运用： PvP 将仿真环境中可获得的“特权信息”作为本体状态的自然增强，避免了手动设计复杂数据增强的繁琐。这种利用不同模态信息内在互补性的思路非常具有启发性，尤其是在机器人领域，仿真数据通常比真实数据丰富得多。它提供了一种将仿真优势融入真实策略学习的优雅方式，值得在其他机器人学习任务中借鉴。
SRL 与 RL 解耦及间隔更新策略： SRL4Humanoid 框架将 SRL 和 RL 流程解耦，并引入间隔更新机制。这揭示了在 RL 早期训练阶段，直接同步 SRL 可能会因数据质量问题导致 SRL 陷入局部最优，反而损害 RL 性能。这种对辅助任务训练时机的精细控制，对于提高整体学习稳定性和效率具有普遍指导意义，不仅限于 SRL，也适用于其他多目标或多任务学习设置。
策略编码器受益大于价值编码器： 实验结果表明，将 SRL 应用于策略编码器比应用于价值编码器效果更好。这可能暗示了对于决策而言，一个高质量、紧凑的本体状态表示是核心，而价值评估可能对原始特权状态的完整性有更高的需求，或者其学习目标本身就能有效处理原始特权状态，无需 SRL 的额外辅助。这有助于我们理解在集成 SRL 时应将重点放在模型的哪个部分。

7.3.2. 批判与潜在改进

ZeroMasking 作为“伪增强”的普适性与最优性： PvP 使用 ZeroMasking 来创建本体状态的“伪增强”。虽然简单有效，但 ZeroMasking 是否是最佳的增强策略？未来可以探索更复杂的“伪增强”方法，例如基于生成模型（如 GAN 或 Diffusion Model）从本体状态生成接近特权状态的“幻觉”信息，或者利用领域适应 (domain adaptation) 技术来桥接仿真特权信息与真实本体信息之间的差距。
对 SimSiam 的依赖性： PvP 的对比学习机制是基于 SimSiam 的，它不使用负样本。虽然这简化了训练，但也可能限制了潜在表示的区分性 (discriminative ability)，尤其是在复杂环境中。探索结合负样本的对比学习方法（如 MoCo、BYOL 等）在本体-特权设置下的表现，可能会进一步提升表示质量。
真实环境中“特权信息”的获取挑战： 论文强调特权状态在真实机器人上不可用或不可靠。虽然仿真训练中可以利用，但在 Sim2Real (Simulation-to-Real) 迁移时，如何确保策略对缺失的特权信息具有鲁棒性，或者如何通过其他方式（如传感器融合、状态估计）在真实世界中近似部分特权信息，仍是巨大的挑战。未来的工作可以探讨如何在策略部署时优雅地处理特权信息的缺失。
多模态数据融合的复杂性： 论文提到未来工作将扩展到多模态数据（RGB 或深度图像）。这会引入新的挑战，例如不同传感器数据的同步、校准、以及如何有效地融合这些异构特征。当前 PvP 的对比学习机制是否能直接扩展到多模态输入，或者需要重新设计多模态对比损失，值得深入研究。
超参数敏感性： 实验中对 SRL 损失系数、更新间隔和数据比例进行了超参数搜索。这些参数对性能的影响显示出任务依赖性。如何在不进行大量网格搜索的情况下，自适应地调整这些超参数，以保证 SRL 在更广泛的任务和环境中稳健地发挥作用，是实际部署中的一个重要考虑。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。