论文状态:已完成

Towards Adaptive Humanoid Control via Multi-Behavior Distillation and Reinforced Fine-Tuning

发表:2025/11/09
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出一种自适应人形控制(AHC)框架,通过两阶段方法学习跨技能与地形的自适应运动控制器。首先,进行多行为蒸馏以获得基本的多行为控制器,然后通过强化微调提升其对多样化地形的适应性。结果表明,该方法在多种情况及地形下展现出强大的适应性。

摘要

Humanoid robots are promising to learn a diverse set of human-like locomotion behaviors, including standing up, walking, running, and jumping. However, existing methods predominantly require training independent policies for each skill, yielding behavior-specific controllers that exhibit limited generalization and brittle performance when deployed on irregular terrains and in diverse situations. To address this challenge, we propose Adaptive Humanoid Control (AHC) that adopts a two-stage framework to learn an adaptive humanoid locomotion controller across different skills and terrains. Specifically, we first train several primary locomotion policies and perform a multi-behavior distillation process to obtain a basic multi-behavior controller, facilitating adaptive behavior switching based on the environment. Then, we perform reinforced fine-tuning by collecting online feedback in performing adaptive behaviors on more diverse terrains, enhancing terrain adaptability for the controller. We conduct experiments in both simulation and real-world experiments in Unitree G1 robots. The results show that our method exhibits strong adaptability across various situations and terrains. Project website: https://ahc-humanoid.github.io.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

论文标题为:Towards Adaptive Humanoid Control via Multi-Behavior Distillation and Reinforced Fine-Tuning (通过多行为蒸馏和强化微调实现自适应人形机器人控制)。

1.2. 作者

论文作者包括:

  • Yingnan Zhao (赵英楠) - 哈尔滨工程大学计算机科学与技术学院,国家电子政务建模与仿真工程实验室

  • Xinniao Wang (王新苗) - 哈尔滨工程大学计算机科学与技术学院,中国电信人工智能研究院 (TeleAI)

  • Dewey Wang (王德威) - 中国电信人工智能研究院 (TeleAI),中国科学技术大学信息科学与技术学院

  • Xinzhe Liu (刘新哲) - 中国电信人工智能研究院 (TeleAI),上海科技大学信息科学与技术学院

  • Dan Lu (卢丹) - 哈尔滨工程大学计算机科学与技术学院,国家电子政务建模与仿真工程实验室

  • Qilong Han (韩启龙) - 哈尔滨工程大学计算机科学与技术学院,国家电子政务建模与仿真工程实验室

  • Peng Liu (刘鹏) - 哈尔滨工业大学计算机科学与技术学院

  • Chenjia Bai (白晨嘉) - 中国电信人工智能研究院 (TeleAI),西北工业大学深圳研究院

    主要来自哈尔滨工程大学、中国电信人工智能研究院、中国科学技术大学、上海科技大学、哈尔滨工业大学和西北工业大学。

1.3. 发表期刊/会议

该论文以预印本(arXiv preprint)形式发布,尚未明确指出其发表的期刊或会议。

1.4. 发表年份

论文的发布时间为 2025-11-09T13:15:20.000Z,表明其为2025年发表。

1.5. 摘要

人形机器人有望学习各种类人运动行为,包括站立、行走、跑步和跳跃。然而,现有方法主要需要为每项技能单独训练策略 (policy),导致行为特定的控制器在不规则地形和多样化情境中部署时,泛化能力有限且性能脆弱。为解决这一挑战,本文提出了自适应人形控制 (Adaptive Humanoid Control - AHC) 框架,该框架采用两阶段方法来学习跨不同技能和地形的自适应人形运动控制器。具体而言,首先训练多个基本运动策略,并执行多行为蒸馏 (multi-behavior distillation) 过程以获得一个基本的多行为控制器 (multi-behavior controller),从而促进基于环境的自适应行为切换。然后,通过收集在线反馈在更多样化的地形上执行自适应行为,进行强化微调 (reinforced fine-tuning),增强控制器的地形适应性。研究团队在 Unitree G1 机器人上进行了模拟和真实世界的实验。结果表明,该方法在各种情境和地形下都表现出强大的适应性。

1.6. 原文链接

  • 原文链接: https://arxiv.org/abs/2511.06371
  • PDF 链接: https://arxiv.org/pdf/2511.06371v2.pdf 发布状态:预印本 (arXiv preprint)。

2. 整体概括

2.1. 研究背景与动机

核心问题: 人形机器人虽然在模拟环境中通过强化学习 (Reinforcement Learning - RL) 取得了显著的运动能力进展,但现有方法在处理多技能和复杂地形适应性方面存在局限。 重要性与现有挑战:

  1. 行为特定 (Behavior-specific) 控制器: 大多数方法为每种技能(如站立、行走、跳跃)单独训练独立的策略 (policy),导致这些控制器在特定技能上表现出色,但在行为多样性(如从摔倒中恢复并继续行走)和地形适应性(如在不规则地形上稳定运动)方面泛化能力有限且性能脆弱。
  2. 多技能学习的挑战: 直接将现有学习范式扩展到多技能设置非常困难。主要原因是不同奖励函数 (reward function) 导致的策略梯度 (policy gradient) 冲突gradient conflicts)和**梯度不平衡 (gradient imbalance)`,这会阻碍多技能策略的收敛。
  3. 人形机器人的特殊性: 尽管在四足机器人多技能学习方面已有一些进展(如使用专家混合模型 - Mixture-of-Experts, MoE 或策略蒸馏),但人形机器人的多技能学习因其复杂的形态和控制难度,仍是一个需要深入探索的挑战。

本文的切入点/创新思路: 为了解决上述挑战,本文提出 Adaptive Humanoid Control (AHC) 框架,采用两阶段训练方法:首先学习一个基本的多行为控制器 (multi-behavior controller),然后增强其地形适应性 (terrain adaptability),从而实现自适应人形控制。这种分阶段的方法旨在缓解直接多任务强化学习中的梯度冲突问题。

2.2. 核心贡献/主要发现

本文的主要贡献和关键发现总结如下:

  1. 两阶段自适应控制框架 AHC: 提出了一种新颖的两阶段框架,用于学习跨不同技能(如跌倒恢复和行走)和地形的自适应人形运动控制器。该框架首先通过运动引导策略学习 (motion-guided policy learning) 和监督蒸馏 (supervised distillation) 获取基本多行为策略,然后通过样本高效的强化学习微调 (sample-efficient RL fine-tuning) 来增强其地形适应性。这避免了直接训练多行为强化学习策略在多样地形上的挑战。
  2. 多行为蒸馏: 通过训练多个行为特定策略(例如,跌倒恢复和行走),并使用 DAggerMoE 架构进行策略蒸馏,成功地将这些独立技能整合到一个基本的、能够自适应切换行为的控制器中,有效缓解了直接多任务 RL 训练中的梯度冲突。
  3. 强化微调以增强地形适应性: 在第二阶段,对蒸馏后的策略进行强化微调,以提高其在复杂地形上的性能。为此,本文引入了行为特定批评器 (behavior-specific critics) 和梯度投影 (gradient projection) 技术(如 PCGrad),以解决多任务学习中的梯度冲突和不平衡问题,从而实现高效和平衡的学习。
  4. 强大的泛化和鲁棒性: 实验结果表明,所学习的控制器在模拟和真实世界的 Unitree G1 机器人上都表现出强大的适应性。它能够从多种跌倒姿势中恢复并平稳地过渡到行走,并在斜坡、障碍物和离散地形等具有挑战性的地形上进行鲁棒的运动,甚至能够承受外部扰动。
  5. 运动先验 (Motion Priors) 的有效性: 通过结合对抗运动先验 (Adversarial Motion Prior, AMP),控制器能够生成更自然、更平滑的恢复和行走动作,减少了关节的剧烈波动。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解本文提出的 AHC 框架,以下是一些需要掌握的基础概念:

  • 强化学习 (Reinforcement Learning - RL)RL 是一种机器学习范式,其中一个智能体 (agent) 通过与环境 (environment) 交互来学习最佳行为。智能体在每个时间步 (time step) 观察环境的状态 (state),选择一个动作 (action),然后环境会根据这个动作给出奖励 (reward) 和新的状态。智能体的目标是学习一个策略 (policy),使其在长期内最大化累积奖励。

  • 马尔可夫决策过程 (Markov Decision Process - MDP)MDPRL 问题的数学形式化。它由一个五元组 (S,A,P,R,γ)\mathcal{(S,A,P,R,\gamma)} 定义:

    • S\mathcal{S}状态空间 (state space),所有可能环境状态的集合。
    • A\mathcal{A}动作空间 (action space),所有可能智能体动作的集合。
    • P(s,a)\mathcal{P}(\cdot |s,\pmb {a})状态转移函数 (state transition function),表示在状态 ss 执行动作 a\pmb{a} 后,转移到下一个状态的概率分布。
    • R:S×ARR:S\times A\rightarrow R奖励函数 (reward function),表示在状态 ss 执行动作 a\pmb{a} 后获得的即时奖励。
    • γ[0,1)\gamma \in [0,1)折扣因子 (discount factor),用于衡量未来奖励相对于当前奖励的重要性。值越接近1,智能体越看重长期奖励。
  • 策略 (Policy):策略 π\pi 定义了智能体在给定状态下选择动作的规则。它可以是确定性的(a=π(s)\pmb{a} = \pi(s))或随机性的(π(as)\pi(\pmb{a}|s))。RL 的目标是学习一个最优策略,以最大化预期累积奖励。

  • Proximal Policy Optimization (PPO)PPO 是一种流行的基于策略梯度 (policy gradient)RL 算法。它通过限制每次策略更新的大小来提高训练的稳定性和效率。PPO 通过剪辑替代损失函数 (clipped surrogate loss function) 来防止策略更新过大,从而在保持样本效率的同时获得可靠的性能。

  • 策略蒸馏 (Policy Distillation):这是一种知识迁移技术,其中一个或多个“教师”策略(通常是高性能但可能复杂或行为特定的策略)的知识被转移到一个“学生”策略(通常是更简单、更通用或能够在不同情境下运行的策略)中。在本文中,行为特定策略是教师,多行为控制器是学生。

  • 多任务强化学习 (Multi-task Reinforcement Learning)MTL 旨在让一个智能体或一个策略同时学习和执行多个不同的任务。这通常通过共享底层网络架构来促进知识迁移,但可能面临不同任务奖励尺度和梯度方向不一致导致的梯度冲突 (gradient conflicts)

  • 专家混合模型 (Mixture of Experts - MoE)MoE 是一种神经网络架构,它由多个“专家网络”和一个“门控网络 (gate network)”组成。门控网络根据输入决定哪些专家应该被激活以及它们的输出如何组合。这使得模型能够为不同的输入或任务学习专门的子网络,从而提高模型的容量和处理多样化任务的能力。

  • 对抗运动先验 (Adversarial Motion Prior - AMP)AMP 是一种利用对抗训练来引导 RL 策略生成自然、类人运动的技术。它通过一个判别器 (discriminator) 来区分机器人生成的动作序列和参考运动数据集中的真实人类动作序列。判别器的输出被用作 RL 的奖励信号,鼓励智能体生成判别器难以区分的动作,从而模仿参考运动的风格。

  • PD 控制器 (Proportional-Derivative Controller)PD 控制器是一种常用的反馈控制算法,用于根据误差信号调整输出。它结合了比例 (Proportional - P) 项(与当前误差成正比)和微分 (Derivative - D) 项(与误差的变化率成正比)。在机器人控制中,它常用于根据关节期望位置和当前位置、速度的差异来计算电机扭矩,以驱动关节达到目标。

  • 领域随机化 (Domain Randomization - DR)DR 是一种在模拟环境中训练 RL 策略的技术,通过随机化模拟器的物理参数(如摩擦系数、质量、传感器噪声等)来生成大量不同的训练环境。这使得训练出的策略对这些参数的变化具有鲁棒性,从而更容易零样本迁移 (zero-shot transfer) 到真实世界,弥合模拟到现实的鸿沟 (sim-to-real gap)

3.2. 前人工作

  • 人形运动控制 (Humanoid Locomotion)

    • 传统方法: 早期方法包括全身控制 (Whole-Body Control - WBC) (Santis and Khatib 2006) 和模型预测控制 (Model Predictive Control - MPC) (Li and Nguyen 2023),这些方法通常依赖于精确的机器人模型和环境感知。
    • 强化学习进展: 近年来,RL 在人形运动方面取得了显著进展 (Ernst and Louette 2024; Wang et al. 2025b),得益于大规模模拟 (Makovychuk et al. 2021; Zakka et al. 2025) 和先进的策略梯度方法 (Schulman et al. 2017; Engstrom et al. 2019)。例如,Humanoid-Gym (Gu, Wang, and Chen 2024) 和 Advancing Humanoid Locomotion (Gu et al. 2024a; Gu et al. 2024b) 展示了在复杂地形上的运动能力。
    • 单行为控制: 大多数现有工作专注于单一行为,如站立 (He et al. 2025b; Huang et al. 2025b)、跳跃 (Tan et al. 2024)、下蹲 (Ben et al. 2025) 或行走 (Gu, Wang, and Chen 2024)。这些控制器在特定技能上表现出色,但泛化能力有限。
    • 感知型控制: 结合外部传感器(如深度相机和 LiDAR)的 RL 策略能够感知环境,避免障碍物 (Long et al. 2024b; Ren et al. 2025),甚至在稀疏落脚点地形上行走 (Wang et al. 2025c; He et al. 2025a)。
    • 全身控制与遥操作: Shi et al. 2025 展示了上下半身协调控制,Radosavovic et al. 2024 实现了真实世界的全身运动,Ben et al. 2025 实现了灵活的全身遥操作。
    • 跌倒恢复: HoST (Huang et al. 2025b) 通过多批评器 (multiple critics) 和力学课程 (force curriculum) 实现了站立控制策略。
  • 机器人多行为学习 (Multi-Behavior Learning in Robots)

    • 策略蒸馏: 策略蒸馏被用于将多个专家策略的技能整合到一个策略中,以实现复杂地形导航 (Zhuang et al. 2023; Zhuang, Yao, and Zhao 2024)。
    • 分层框架: 分层框架 (hierarchical frameworks) 可以选择多个技能策略来促进高效的多技能遍历 (Hoeller et al. 2024)。
    • 输入信号引导: HugWBC (Xue et al. 2025) 利用输入信号(如步态频率和足部接触模式)来引导策略,使其根据不同命令表现不同行为。
    • 专家混合架构 (MoE): MoELoco (Huang et al. 2025a) 采用 MoE 架构来减少多技能 RL 中的梯度冲突,提高训练效率。MoRE (Wang et al. 2025b) 通过结合 AMP 奖励和外部传感器输入进一步增强策略性能。
    • 现有工作局限: 这些工作通常通过明确的控制信号或组合高度相似的行为(如爬楼梯和跳跃)来实现多行为能力。

3.3. 技术演进

RL 领域在过去几年中取得了爆发式增长,尤其是结合深度学习后,使得机器人学习复杂运动行为成为可能。从最初的模型预测控制和全身控制等依赖精确物理模型的方法,到如今以 PPO 等算法为代表的无模型 RL,机器人在模拟环境中的运动能力得到了极大提升。然而,当机器人需要掌握多种截然不同的技能并在复杂、多样化的真实世界地形中自适应运行时,单技能策略的局限性变得突出。直接的多任务 RL 因梯度冲突而难以收敛,这促使研究人员探索更复杂的架构,如专家混合模型和策略蒸馏。本文的工作正是在这一背景下,通过结合策略蒸馏、专家混合、对抗运动先验以及对多任务梯度冲突的显式处理,进一步推动了人形机器人自适应多行为控制的技术边界。它试图将跌倒恢复和行走等高差异性行为整合到统一策略中,并使其能够根据状态自主切换。

3.4. 差异化分析

本文 AHC 方法与相关工作的主要区别和创新点在于:

  1. 统一策略整合高度多样行为: 现有多数多行为学习工作要么依赖明确的控制信号来切换行为,要么只整合相似度较高的行为(如不同步态下的行走)。AHC 能够将高度多样化的行为(如从跌倒中恢复行走)整合到单一统一策略中,并让机器人根据自身状态自主切换
  2. 两阶段训练框架解决多任务 RL 挑战: 针对直接训练多行为 RL 策略时常见的梯度冲突和收敛困难问题,AHC 提出了一种独特的两阶段框架
    • 第一阶段:多行为蒸馏。 通过运动引导策略学习和监督蒸馏,从行为特定专家策略中获取一个基本的 MoE 架构多行为策略。这在一定程度上预先解决了不同奖励函数导致的梯度冲突,为后续微调奠定基础。
    • 第二阶段:强化微调。 在此阶段,针对复杂地形,对蒸馏后的策略进行 RL 微调,并引入行为特定批评器 (behavior-specific critics)梯度投影 (PCGrad) 技术,进一步显式地缓解多任务 RL 中的梯度冲突,确保不同任务的平衡学习和高效收敛。
  3. 结合 AMP 保证自然运动: 在行为特定策略训练和 RL 微调阶段,都使用了 Adversarial Motion Prior (AMP),以确保机器人学习到的恢复和行走行为是平滑、自然的类人运动,而非机械或不协调的动作。这在 HoST 等只专注于恢复的基线中通常是缺失的。
  4. 在真实世界人形机器人上的验证: 论文不仅在模拟中进行了广泛验证,还在真实世界的 Unitree G1 人形机器人上成功部署了训练好的策略,展示了其强大的 sim-to-real 迁移能力和在复杂现实场景中的鲁棒性。

4. 方法论

4.1. 方法原理

Adaptive Humanoid Control (AHC) 的核心思想是,避免直接从零开始训练一个能够处理所有多样化技能和复杂地形的单一强化学习策略,因为这极易导致梯度冲突和收敛困难。相反,AHC 采用一个两阶段框架

  1. 多行为蒸馏 (Multi-Behavior Distillation): 在第一阶段,首先训练几个针对特定基本行为(如跌倒恢复和平面行走)的专家策略。然后,将这些专家策略的知识通过监督学习(策略蒸馏)的方式,迁移到一个基本的、能够处理这些行为并进行自适应切换的多行为控制器中。这一步旨在为控制器提供初步的多行为能力,并解决由于不同行为奖励函数差异带来的初始梯度冲突问题。

  2. 强化微调 (RL Fine-Tuning): 在第二阶段,以蒸馏得到的控制器作为初始化,在更复杂和多样化的地形上进行在线强化学习微调。此阶段的目标是增强控制器在各种挑战性地形上的适应性和鲁棒性。为了有效进行多任务微调并避免梯度冲突,引入了行为特定批评器和梯度投影(PCGrad)等技术。

    这种分而治之、逐步增强的方法,使得控制器能够高效地学习和整合多样化的运动技能,并在面对未知和复杂环境时表现出强大的适应性。

4.2. 核心方法详解 (逐层深入)

AHC 框架通过两个主要阶段实现其目标,总览图如下(原文 Figure 2):

fig 1 该图像是一个示意图,展示了自适应人形控制(AHC)的工作框架,包括行为蒸馏和强化微调两个阶段。左侧展示了通过状态依赖的蒸馏过程获取的基本自适应多行为策略 (hetad)( heta^d),右侧则是进行强化微调以增强在不同地形上的适应性,其中涉及恢复任务和行走任务的批评和奖励机制。

图1:提出的两阶段框架 Adaptive Humanoid Control 概览。在第一阶段,我们在平坦地形上训练两个独立的初级策略。这些策略随后通过蒸馏被整合为一个基本的多行为策略。在第二阶段,我们对蒸馏后的策略进行强化微调,采用梯度外科手术 (gradient surgery) 来缓解梯度冲突,并利用行为特定批评器 (behavior-specific critics) 提供更准确的价值估计。

4.2.1. 预备知识与问题定义

AHC 的第一阶段,每个行为特定 (behavior-specific) 的人形控制问题被定义为一个马尔可夫决策过程 (Markov Decision Process - MDP),表示为 M=(S,A,P,R,γ)\mathcal{M} = \mathcal{(S,A,P,R,\gamma)},其中:

  • S\mathcal{S}状态空间 (state space)

  • A\mathcal{A}动作空间 (action space)

  • P(s,a)\mathcal{P}(\cdot |s,\pmb {a})状态转移函数 (state transition function)

  • R:S×ARR:S\times A\rightarrow R奖励函数 (reward function)

  • γ[0,1)\gamma \in [0,1)奖励折扣因子 (reward discount factor)

    在训练过程中,行为特定策略 πb\pi^b 学习在给定状态 sts_t 下输出动作 αt\alpha_{t},以最大化折扣累积奖励的期望值: E[t=1Tγt1R(st,at)] \mathbb{E}\left[\sum_{t = 1}^{T}\gamma^{t - 1}R(s_t,\pmb {a}_t)\right] 其中 TT 是回合长度。

自适应人形控制问题被形式化为一个多任务强化学习 (multi-task RL) 问题,其中每个任务可以看作是一个 MDP Mi=(Si,Ai,Pi,Ri,γi)\mathcal{M}_i = (\mathcal{S}_i,\mathcal{A}_i,\mathcal{P}_i,R_i,\gamma_i)i[1,N]i\in [1,N]。由于所有任务(即行为)在统一的环境设置下进行,并且控制器需要根据状态执行不同的行为,因此这些 MDP 仅在其奖励函数 RiR_{i} 和状态空间 Si\mathcal{S}_i 上有所不同(S=iSi\mathcal{S} = \bigcup_{i}\mathcal{S}_iSiSj=\mathcal{S}_i\cap \mathcal{S}_j = \varnothing 对于 iji\neq j)。

行为自适应策略需要优化的目标是: i=1NEP,πi[t=1Tγt1Ri(sti,at)],sitSi.(1) \sum_{i = 1}^{N}\mathbb{E}_{P,\pi_i}\left[\sum_{t = 1}^{T}\gamma^{t - 1}R_i(s_t^i,a_t)\right], s_i^t\in \mathcal{S}_i. \quad (1) 其中 NN 是任务(行为)的数量,PP 是环境动态。

输入信息:

  • 行为特定策略 (πb\pi^b):接收特权信息 (privileged information) stprvs_{t}^{\mathrm{prv}}机器人本体感受 (robot proprioception) stprops_{t}^{\mathrm{prop}} 作为输入。特权信息包括地面摩擦系数、电机控制器增益、基础质量和质心偏移等,这些信息通常只在模拟中可用,有助于更高效的策略学习。

  • 蒸馏策略 (πd\pi^{d}):在蒸馏过程中,行为特定策略的知识被蒸馏到基本多行为策略 πd\pi^{\mathrm{d}} 中。此策略仅使用本体感受 (proprioception) stprops_{t}^{\mathrm{prop}} 来进行自适应行为,无需特权信息,使其能够直接部署在真实机器人上。

    机器人本体感受 (stprops_{t}^{\mathrm{prop}}) 包含以下部分: stprop=[ωˉt,gt,ct,qt,q˙t,at1]R69,(2) s_{t}^{\mathrm{prop}} = [\bar{\omega}_{t},\pmb {g}_{t},c_{t},\pmb {q}_{t},\dot{\pmb{q}}_{t},\pmb {a}_{t - 1}]\in \mathbb{R}^{69}, \quad (2) 其中:

  • ωtR3\omega_{t}\in \mathbb{R}^{3}基座角速度 (base angular velocity)

  • gtR3\pmb {g}_{t}\in \mathbb{R}^{3}基座坐标系下的重力向量 (gravity vector in the base frame)

  • ctR3c_{t}\in \mathbb{R}^{3}速度指令 (velocity command),包括沿 xx 轴和 yy 轴的线速度以及绕 zz 轴的角速度。

  • qtR20\pmb {q}_{t}\in \mathbb{R}^{20}q˙tR20\dot{\pmb{q}}_{t}\in \mathbb{R}^{20} 分别表示关节位置 (joint position)关节速度 (joint velocity)

  • at1R20\pmb {a}_{t - 1}\in \mathbb{R}^{20}上一个动作 (last action)。 这些输入共同构成了机器人当前状态的完整本体感受表示。

动作到 PD 目标的转换: 策略输出的动作 αt\alpha_{t} 被转换为 PD 控制器的目标关节位置 qˉttarget\bar{\pmb{q}}_{t}^{\mathrm{target}}qˉttarget=qdefault+αat \bar{\pmb{q}}_{t}^{\mathrm{target}} = \pmb{q}^{\mathrm{default}} + \alpha \pmb{a}_{t} 其中 qdefault\pmb{q}^{\mathrm{default}} 是默认关节位置,α\alpha 是用于限制动作范围的标量。

然后,这个 PD 目标用于计算驱动电机所需的扭矩 TtT_{t}Tt=Kp(qˉttargetqˉdefault)Kdqˉ˙t,(3) T_{t} = K_{p}\cdot (\bar{q}_{t}^{\mathrm{target}} - \bar{q}^{\mathrm{default}}) - K_{d}\cdot \dot{\bar{q}}_{t}, \quad (3) 其中 KpK_{p}KdK_{d} 分别是 PD 控制器的刚度系数 (stiffness coefficient)阻尼系数 (damping coefficient)

4.2.2. 多行为蒸馏 (Multi-Behavior Distillation)

由于从头开始训练一个自适应多行为控制器在线强化学习 (online RL) 是具有挑战性的,因为不同的行为需要不同的环境设置和奖励函数,这通常会导致策略收敛不佳(如梯度冲突和梯度不平衡),AHC 首先训练两个基本行为特定策略,然后将它们蒸馏成一个基本多行为策略 πd\pi^{d}

4.2.2.1. 跌倒恢复行为策略 (πrb\pi_{r}^{b})

  • 目标: 使人形机器人能够从各种跌倒姿势中鲁棒地恢复。
  • 方法: 借鉴 HoST (Huang et al. 2025b) 的思想,采用多批评器 (multiple critics) (Mysore et al. 2022) 来训练策略。
    • 在策略梯度 (policy gradient) 的替代损失函数 (surrogate loss) 中,优势函数 (advantage function) 采用加权公式估计:\hat{A} = \sum_{i = 0}^{n}\omega_{i}\cdot (\hat{A_{i}} -\mu_{\hat{A_{i}}}) / \sigma_{\hat{A_{i}}}。其中 ωi\omega_{i} 是权重系数,μAi^\mu_{\hat{A_{i}}}σAi^\sigma_{\hat{A_{i}}} 分别对应于来自第 ii 组的优势函数的批次均值和标准差。这有助于处理不同批评器提供的优势估计。
  • 训练设置: 机器人在仰卧(supine)或俯卧(prone)位置初始化,并引入额外的关节初始化噪声,以鼓励学习从各种姿势进行鲁棒恢复。
  • AMP 奖励: 为缓解不同初始姿势采样轨迹之间的干扰,并促进更自然的站立动作,引入了基于对抗运动先验 (Adversarial Motion Prior - AMP) (Peng et al. 2021; Escontrela et al. 2022) 的奖励函数。
    • AMP 使用一个判别器 (discriminator) 来判断一个回合(episode)是正面样本(来自参考运动)还是负面样本(来自机器人)。判别器的输出用于指导机器人以平滑和合理的方式恢复。
    • 这使得站立策略 πrb\pi_{r}^{b} 能够从多样异常姿势中鲁棒恢复,并学习参考运动中的行为,例如在站立过程中利用手臂支撑地面。
    • AMP 奖励公式和判别器目标在附录 A 中详述。

4.2.2.2. 行走行为策略 (πwb\pi_{w}^{b})

  • 目标: 使人形机器人能够响应速度指令 ctc_{t},在平坦地形上进行类人行走。
  • 方法: 采用简化的框架和奖励函数设计,通过 PPO 训练策略 πwb\pi_{w}^{b}
  • AMP 奖励: 类似于恢复策略,也引入了基于 AMP 的奖励函数,以确保机器人以类人方式移动并加速收敛过程。
  • 注意: 尽管 πwb\pi_{w}^{b} 最初只能在平坦地形上行走,但在经过蒸馏和 RL 微调后,它能够适应多样地形并显著提高对外部扰动的鲁棒性。
  • PPO 参数、奖励设计、网络架构和领域随机化 (domain randomization) 项的详细信息在附录 B 中列出。

4.2.2.3. 行为蒸馏 (Behavior Distillation)

  • 目的: 使用 DAgger (Chen et al. 2020; Ross, Gordon, and Bagnell 2011) 将不同行为的知识蒸馏到一个基于专家混合模型 (Mixture-of-Experts - MoE) 的多行为策略 πd\pi^{d} 中。这可以消除由不同行为的奖励函数景观 (reward landscapes) 差异引起的梯度冲突。
  • MoE 模块: 能够自动将不同的专家分配给学习不同的行为,从而使策略能够利用这些先验知识在后续的 RL 微调阶段中实现高效的多行为改进和多地形适应性。
  • 训练过程: 在训练过程中,机器人以跌倒或站立姿势初始化,策略根据应执行的行为(恢复或行走)由 πrb\pi_{r}^{b}πwb\pi_{w}^{b} 进行监督。
  • 损失函数: πd\pi^{d} 的损失函数计算如下: Lπd(st)={Est,πd,πrb[αtπdαtπbr22],stSrEst,πd,πwb[αtπdαtπwb22],stSw,(4) \mathscr{L}_{\pi^{d}}(s_{t}) = \left\{ \begin{array}{ll} \mathbb{E}_{s_{t},\pi_{d},\pi_{r}^{b}}\left[\left\Vert \alpha_{t}^{\pi^{d}} - \alpha_{t}^{\pi_{b}^{r}}\right\Vert_{2}^{2}\right], & s_{t}\in \mathscr{S}_{r}\\ \mathbb{E}_{s_{t},\pi_{d},\pi_{w}^{b}}\left[\left\Vert \alpha_{t}^{\pi^{d}} - \alpha_{t}^{\pi_{w}^{b}}\right\Vert_{2}^{2}\right], & s_{t}\in \mathscr{S}_{w} \end{array} \right., \quad (4) 其中:
  • αtπd\alpha_{t}^{\pi^{d}} 是从蒸馏策略 πd\pi^{d} 中采样的动作。
  • αtπbr\alpha_{t}^{\pi_{b}^{r}} 是从恢复行为策略 πrb\pi_{r}^{b} 中采样的动作。
  • αtπwb\alpha_{t}^{\pi_{w}^{b}} 是从行走行为策略 πwb\pi_{w}^{b} 中采样的动作。
  • Sr\mathcal{S}_{r}Sw\mathcal{S}_{w} 分别代表站立(恢复)状态空间和行走状态空间。
  • 蒸馏过程采用与行为特定策略训练相同的领域随机化,并且 πd\pi^d 仅将本体感受作为输入。
  • 效果: 蒸馏过程不仅将基本行为整合到单个策略中,还单独增强了每个行为。具体来说,πd\pi^d 表现出更鲁棒的行走性能,因为它学会了从接近跌倒的姿势中恢复,并在站立行为后展示出更自然的站立姿势,从而促进了与行走的平稳过渡。

4.2.3. 强化微调 (RL Fine-Tuning)

RL 微调阶段,问题被形式化为一个多任务 RL 问题,其中策略 πft\pi^{ft}(最终的 AHC 策略)以蒸馏后的策略 πd\pi^d 初始化,并在复杂地形上学习跌倒恢复任务和行走任务。为了保持类人特性,此阶段也采用了基于 AMP 的奖励,使用与上一阶段相同的参考运动。利用 MoE 模块和基本多行为策略 πd\pi^d 中的先验知识,梯度冲突问题得到缓解,从而实现各种地形上自适应行为的高效学习。策略 πft\pi^{ft} 使用 PPO 在两个 GPU 上进行微调,每个 GPU 处理一个任务,策略共享同一组参数。

4.2.3.1. 行为特定批评器 (Behavior-Specific Critics) 和共享执行器 (Shared Actor)

  • 问题:PPO 算法中,策略梯度是使用标准化优势 (normalized advantages) 计算的,这通过标准化优势估计的尺度来稳定替代损失。然而,价值损失 (value loss) 依赖于未标准化的回报目标,因为批评器必须近似真实的预期回报以提供有意义的价值估计。
  • 解决方案: 为了防止奖励尺度较大的任务主导梯度更新并阻碍其他任务的学习 (Chen et al. 2018; Hessel et al. 2019),本文在微调期间使用行为特定批评器 (behavior-specific critics)共享执行器 (shared actor)
    • 行为特定批评器: 为每个任务分配一个单独的批评器,从而隔离任务特定奖励函数(reward function)的价值函数学习。这使得价值估计更准确,并允许为每个任务定制批评器架构(例如,为站立行为使用多个批评器)。
    • 共享执行器: 执行器 (actor) 使用跨任务聚合的策略梯度进行更新,从而实现技能迁移和地形适应性。

4.2.3.2. 消除多任务学习中的梯度冲突 (Eliminating Gradient Conflict in Multi-task Learning)

  • 问题: 尽管使用行为特定批评器解决了梯度幅度上的差异,但共享执行器仍然会聚合来自不同任务的潜在冲突梯度。
  • 解决方案: 应用投影冲突梯度 (Projecting Conflicting Gradients - PCGrad) (Yu et al. 2020) 来解决优化过程中的梯度冲突。
    • 对于每对任务梯度 gi\mathbf{g}_igj\mathbf{g}_j,如果它们冲突(即它们的余弦相似度为负),则一个任务的梯度被投影到另一个任务的法平面上,从而消除冲突方向,同时保留在剩余子空间上的进展。
    • 投影梯度公式: gi=gigigjgj2gj(5) \mathbf{g}_i = \mathbf{g}_i - \frac{\mathbf{g}_i\cdot\mathbf{g}_j}{\left\|\mathbf{g}_j\right\|^2}\mathbf{g}_j \quad (5) 其中,gi\mathbf{g}_igj\mathbf{g}_j 是来自两个任务的梯度。当 gigj<0\mathbf{g}_i \cdot \mathbf{g}_j < 0 时执行投影。
  • 实施细节: 在执行器更新步骤之前集成 PCGrad。每个任务在专用 GPU 上计算其局部执行器梯度,然后所有梯度被通信到主进程,在那里应用 PCGrad 进行梯度外科手术 (gradient surgery)。在主进程上使用无冲突梯度执行优化器步骤后,将更新后的参数广播回所有工作进程。
  • 效果: PCGrad 允许共享执行器在没有梯度冲突的情况下学习多个任务特定技能,从而确保高效的多任务 RL 学习。详细过程在附录 B 中。

4.2.3.3. 地形课程 (Terrain Curriculum)

  • 目的: 遵循先前工作 (Rudin et al. 2022),采用地形课程 (terrain curriculum) 来提高在多样地形上的学习效率和适应性。
  • 机制: 一个自动难度调整机制根据任务特定性能调整地形难度。
  • 地形类型: 为这两个任务设计了平坦 (flat)、斜坡 (slope)、障碍物 (hurdle) 和离散 (discrete) 地形。
    • 斜坡 (Slope): 最大坡度为 16.616.6^{\circ}
    • 障碍物 (Hurdle): 由规则间隔的垂直障碍物组成,最大高度 0.1m
    • 离散地形 (Discrete): 由随机放置的矩形块组成。具体生成20个矩形障碍物,宽度和长度在 0.5m2.0m 之间采样,高度在 0.03m0.15m 之间均匀采样。
  • 地形图组织: 地形图被组织成 10×1210 \times 128m×8m8m \times 8m 补丁网格,包含 10 个难度级别和每种地形类型 3 列。

4.2.4. 附录 A. AMP 奖励公式与判别器目标

本文采用对抗运动先验 (Adversarial Motion Prior - AMP) (Peng et al. 2021; Escontrela et al. 2022) 来提供一种风格奖励 (style reward),鼓励自然行为。AMP 包含一个判别器 DϕD_{\phi},用于判断一系列状态是来自参考运动数据集还是来自策略。

  • AMP 输入状态 (stamps_t^{\mathrm {amp}}): 从完整观测中提取 20 个关节位置来构建 AMP 输入状态 stampR20s_t^{\mathrm {amp}}\in \mathbb {R}^{20}
  • 时间上下文 (τt\tau_{t}): 与以往工作不同,本文通过提供 5 步的 AMP 状态窗口来提供时间上下文。判别器的输入序列定义为: τt=(st3amp,st2amp,st1amp,stamp,st+1amp). \begin{array}{r}\tau_{t}=(s_{t- 3}^{\mathrm{amp}},s_{t- 2}^{\mathrm{amp}},s_{t- 1}^{\mathrm{amp}},s_{t}^{\mathrm{amp}},s_{t+ 1}^{\mathrm{amp}}). \end{array}
  • 判别器训练: 给定一个参考运动数据集 M\mathcal{M} 和在策略与环境交互过程中收集的策略内轨迹 (on-policy rollouts) P\mathcal{P},构建 5 步运动序列来训练判别器。通过在 M\mathcal{M} 中的整个运动轨迹上使用滑动窗口随机采样参考序列。判别器被训练为对参考序列分配更高的分数,对策略生成的序列分配更低的分数。

判别器目标函数: argmaxϕEτM[(Dϕ(τ)1)2]+EτP[(Dϕ(τ)+1)2]+αd2EτM[ϕDϕ(τ)2],(6) \arg \max_{\phi}\mathbb{E}_{\tau \sim \mathcal{M}}[(D_{\phi}(\tau) - 1)^{2}] + \mathbb{E}_{\tau \sim \mathcal{P}}[(D_{\phi}(\tau) + 1)^{2}] +\frac{\alpha^{d}}{2}\mathbb{E}_{\tau \sim \mathcal{M}}[||\nabla_{\phi}D_{\phi}(\tau)||_{2}],\qquad (6) 其中:

  • 前两项代表遵循最小二乘 GAN (least square GAN) 公式 的判别器损失。

  • 第三项是梯度惩罚 (gradient penalty),有助于缓解训练不稳定。

  • αd\alpha^{d} 是手动指定的系数,控制此正则化的强度。

  • 判别器输出 Dϕ(τ)RD_{\phi}(\tau)\in \mathbb{R} 表示判别器对状态序列 τ\tau 预测的标量分数。

    平滑替代奖励函数 (rstyler^{\mathrm{style}}): 遵循先前工作,使用判别器输出 d=Dϕ(τt)d = D_{\phi}(\tau_{t}) 定义一个平滑替代奖励函数: rstyle(st)=αmax(0,114(d1)2),(7) r^{\mathrm{style}}(s_{t}) = \alpha \cdot \max \left(0,1 - \frac{1}{4} (d - 1)^{2}\right), \quad (7) 其中 α\alpha 是一个缩放因子。

总奖励 (rtr_t): 用于策略优化的总奖励是任务奖励和风格奖励的总和: rt=rttask+rtstyle.(8) r_{t} = r_{t}^{\mathrm{task}} + r_{t}^{\mathrm{style}}. \quad (8) 这种风格奖励鼓励策略执行与参考数据集中运动高度相似的运动行为。在本文的设置中,每个任务(即运动和恢复)都关联一个独立的判别器及其对应的参考运动数据。

4.2.5. 附录 B. 训练细节

4.2.5.1. 多行为蒸馏策略训练

  • 框架: 采用教师-学生框架。两个行为特定策略作为教师策略 (teacher policies),使用 PPO 独立训练,分别专注于恢复和运动任务。它们可以访问仅在模拟中可用的特权信息 (privileged information),以促进高效学习。

  • 学生策略: 将学到的技能蒸馏到一个基本的多行为学生策略 (student policy) 中,该策略无需特权输入即可执行两种技能。

  • 网络架构:

    • 行为特定策略: 采用相同的执行器-批评器 (actor-critic) 架构,包括一个在执行器和批评器网络之间共享的历史编码器 (history encoder)
      • 历史编码器: 通过一个 3 层 MLP(隐藏维度 [1024, 512, 128])处理 10 步历史观测,输出一个维度为 64 的潜在嵌入 (latent embedding)
      • 执行器: 这个潜在嵌入与当前观测拼接,并传递给执行器网络。执行器是一个 3 层 MLP(隐藏尺寸 [512, 256, 128]),输出具有可学习对角高斯标准差的平均动作。
      • 批评器:NN 个独立网络组成,每个网络实现为一个 3 层 MLP(隐藏维度 [512, 256]),每个批评器对应一个特定的奖励组。
  • PPO 参数:

    • 遵循标准 PPO 公式,使用剪辑替代损失 (clipped surrogate loss) 和广义优势估计 (Generalized Advantage Estimation - GAE)
    • 优化器: Adam 优化器,学习率 1×1031\times 10^{-3}
    • 回合收集: 每个 PPO 迭代收集 32 个环境步的轨迹 (rollouts),然后使用 4 个小批量 (minibatches) 进行 5 个学习周期 (learning epoch)。
    • 折扣因子 (γ\gamma): 0.99
    • GAE lambda (λ\lambda): 0.95
    • 剪辑比率 (clipping ratio): 0.2
    • 价值损失系数 (value loss coefficient): 1.0
  • 奖励定义: 恢复任务和运动任务的奖励定义详见表格 3。恢复任务的奖励也分组为四类,遵循 Huang et al. 2025b 的实现。

  • 蒸馏过程:

    • 执行器网络: 构建为 MoE 架构,以提高策略容量。MoE 执行器包含 2 个专家,每个专家实现为一个 MLP,与行为特定策略的隐藏维度相同。
    • 门控网络 (gate network): 确定专家输出动作的混合权重,也实现为一个 MLP(隐藏维度 [512, 256, 128])。
    • 总蒸馏损失: 定义为两个组件的加权和: Ldistill=λMSEEadπd,abπb[adab2]+λKLE[KL(πdπb)](9) \begin{array}{rl} & {\mathcal{L}_{\mathrm{distill}} = \lambda_{\mathrm{MSE}}\cdot \mathbb{E}_{a^{d\sim \pi^{d}},a^{b\sim \pi^{b}}}\left[\left|\left|a^{d} - a^{b}\right|\right|^{2}\right]}\\ & {\qquad +\lambda_{\mathrm{KL}}\cdot \mathbb{E}\left[\mathrm{KL}\left(\pi^{d}\Vert \pi^{b}\right)\right]} \end{array} \quad (9) 其中 λMSE\lambda_{MSE}λKL\lambda_{\mathrm{KL}} 分别设置为 0.10.5
  • 算法总结 (Algorithm 1): 以下是原文 Algorithm 1 的行为克隆通过多专家蒸馏过程:

    算法 1: 行为克隆通过多专家蒸馏 要求: 行为特定策略 πrb,πwb\pi_{r}^{b},\pi_{w}^{b},多行为策略 πd\pi^d,环境数量 NN,轨迹长度 TT,更新周期数 KK,小批量大小 BB 1: 初始化存储 D\mathcal{D} 2: 对于 迭代 =1,2,= 1,2,\ldots 执行 3: 在 NN 个并行环境中收集轨迹: 4: 对于 t=1\mathrm{t} = 1 TT 执行 5: 观测当前状态 sts_t 6: 根据 sts_{t} 选择行为策略 πb\pi^{b} 7: atb,μtb,σtbπb(st)a_t^{b},\mu_t^{b},\sigma_t^{b}\leftarrow \pi^b (s_t) // 获取专家动作 8: ats,μts,σtsπs(st)a_t^{s},\mu_t^{s},\sigma_t^{s}\leftarrow \pi^{s}(s_t) // 获取学生动作 9: 将 (ats,μts,σts,atb,μtb,σtb)(a_t^{s},\mu_t^{s},\sigma_t^{s},a_t^{b},\mu_t^{b},\sigma_t^{b}) 存储在 D\mathcal{D} 中 10: 结束循环 11: 对于 周期 =1= 1 KK 执行 12: 从 D\mathcal{D} 中采样大小为 BB 的小批量 13: 计算损失 L\mathcal{L} (公式 (9)) 14: 通过梯度下降更新 πd\pi^{d} (基于 L\mathcal{L}) 15: 结束循环 16: 清空存储 D\mathcal{D} 17: 结束循环

    • 实现细节: N=4096N=4096T=32T=32K=5K=5B=4B=4
    • 行为策略选择: 根据机器人基座高度 sts_t 决定选择哪个 πb\pi^b:如果基座高度大于 0.5m,则使用行走行为策略;否则,选择恢复行为策略。
    • 学生策略更新: 学习率 1×1031\times 10^{-3}

4.2.5.2. RL 微调策略训练

  • 初始化: 第二阶段 RL 微调过程以多行为策略 πd\pi^{d} 初始化。网络架构保持不变。
  • 目标: 在复杂地形上进一步微调策略,使用与初始行为特定训练相同的任务特定奖励结构(即表 3 中描述的运动和恢复奖励)。
  • 学习率调整: 发现使用与第一阶段相同的学习率会导致训练失败,因此将策略学习率降低到 1×1041\times 10^{-4},以降低策略崩溃和过度遗忘先前习得技能的风险。
  • 梯度冲突缓解 (PCGrad):
    • 在计算出运动任务和恢复任务各自的策略梯度 gwg_wgrg_r 后,当检测到冲突方向时(即 gw,gr<0\langle g_w,g_r\rangle < 0),将一个梯度投影到另一个梯度的法平面上。
    • 因为框架只涉及两个任务,所以在每个更新步骤中随机选择投影方向(即将运动梯度投影到恢复梯度上,反之亦然)。这种随机投影可以防止偏向任何单一任务,并保持行为之间的平衡优化。
  • 领域随机化和 PD 增益: 两个训练阶段都使用相同的领域随机化设置(表 4)和关节 PD 增益(表 5)。领域随机化参数遵循先前工作的常见配置,并根据真实世界实验中观察到的经验性能进一步调整。随机化参数在每个回合开始时重新采样,以防止过拟合到特定模拟动力学,并鼓励策略在不同环境和物理条件下保持鲁棒性。

4.2.6. 奖励函数详情

以下是原文 Table 3 中列出的奖励函数:

TermEquationScale
Walking r*
Track lin. vel.exp{−|sWnminmin||22
(wi2+0.25)1}
2.0
Track ang. vel.exp{tVN52n||θi|2θi|22
(ωi2+0.25)1}
2.0
Joint acc.||θi||2
(θi||2||2
(θi||2)
−5𝑒−7
Joint vel.||θi||2
(θi||2
(θi||2)
−1𝑒−3
Action rate||a-k-al1||22
(a-k-al1||22
(a-k-al1||22
−0.03
Action smoothness||cas-k-al1||2
(cas-k-al1||22
(cas-k-al1||22
−0.05
Angular vel. (x - y)|ωax||22
(ωai||(x-y)
−0.05
Orientation||qa||||22
(qa||||22
−2.0
Joint power|a||θa|−2.5𝑒−5
Feet clearance∑((zi−htargett2)x*|oati)ff−0.25
Feet stumble∑(Schi);F^{(t)}>3)|F^{(t)}_{i}|−1.0
Torques
aou||22
(aou||22
(aou||22
−1𝑒−5
Arm joint deviations∑ (θi - θs)
1
laus||e i
min||42
(θi)
e
1
min||22
(θn∥a)
−0.5
Hip joint deviations∑ (θi - θlos−0.5
Hip joint deviations∑ funi
s ang
min||22
(θi - θmin) 22
(θi)
st||
−1.0
Joint pos. limits∑ outi
ang min||22
(θi - θmin) 22
(θi) 22
(θi) 22
(θi)
−2.0
Joint vel. limitsRELU (f - θ
Torque limitsRELU (f - πmax) −1.0
Feet slippage∑ [νpotytoi; f Ⅰ Ⅰ Ⅰ Ⅰ] ||min−0.25
Colisionn collision−15.0
Feet air time∑ (tpilt - 0.5) * ||(f rist contact I) |22
(θi)
1
Stuck· ||r|| 2 ≤ 0.1) * ||(e'|| 2 ≤ 0.2)−1.0
Full Recovery r*
Task Reward
Orientationfou(-θuser; [0.99, inf], 1,0.05)1.0
Head heightfou([hhead; [1 inf], 1,0.1)1.0
Style Reward
Hip joint deviation∑ (max崽) 0.9 √ minI烈|θ汇|< 0.8)−10.0
kNθs∑ (max崽) 0.2 8≤ minI烈|θ汇|< 0.06)−0.25
Knesse∑ (θkfութ Tomatoes−2.5
−0.02
Shoulder roll deviationΣ(⡵ cutoffΣ =<0.02 ‡ ⡵ initialize ‡ ⡵ )−0.2
Thigh orientationfou(Feginups; [0.8 inf], 1,0.1)10.0
Feel distance∑(|Cp|l−10.0
Angular vel. (x, y)exp(-2│u ×|ydif, f||2)+×high|hheight|
3
hhigh
f ||
25.0
Foot displacementexp(clip2)
Regularization Reward
Joint acc.||θi||22−2.5
−1
−3
Joint vel.||θi||2
−1
−1
Action rate||a-k-al1||22−0.05
Action smoothness||a-k-al1||22−0.05
Torques
aou|| ||a||22
(θi||z) + \r \\ ti2 22
(θi
laus||t)(denial||22
(fini||t)(denial||t)2
||a||
h||t)(denial||t)1 laus||t)(argy
)||22
(θi
laus||t)(argy||t) tit|a||t||t
argy||t)||22
(fini||t)1 laus||t)(argy
)
−0.1
−0.03
−0.05
−0.15
Target rotationf||θi||22
(fini||t)||22||22||22||||
Joint pos. limits∑ outi
outimax
−2.0
Joint vel. limitsRELU (f ɘ ɘ−1.0
Post-Task Reward
Angular vel. (x, y)exp(+2 ||θsur
22
(aou
22
(θi||z) + \r ||a||22
(fini||z) + \r ||a||)
tiid>
(θi||2)∧
fi||22||22|
o
na
ni
laus||t) =
22
(θi||22||22
(파파
2)
10.0
Base lin. vel. (x, y)exp(−5|va||f||22
(나
hit
=||f||22
(나| hit
=)|d
hit
=|d
hit
=|d| 10.0
Orientationexp(−20|実高
ism a tâteauana|) 10

m<|/ref|>
Base heightexp(−20|实高
sm a tâteauana|) 10
Target joint deviationsexp(−0.1 BER
忍 это|J| ) 10 ||r||22
r ||r||22
r后面||r||22
r后面||r||22
r后面||||20 ||r||22
r
r后面||r||22
r后面 ||r||22
(bey
r后面||r||22
r后面 ||r||22
r后面 |r||22
r后面 ||r||22
r后面 ||r||22
托管托管托管托管托管托管托管托管托管管理托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管托管
10.0

注意: 论文中表 3 的公式部分存在大量无法识别或不规范的符号和文本,导致难以完全准确地转录和解释。上述转录已尽力保持原文的格式,并标注了无法解释的部分。此处建议读者参考原文表格以获取最准确的公式信息。f_tol 采用高斯式公式,详见 Huang et al. 2025b

5. 实验设置

5.1. 数据集

  • 模拟训练环境: IsaacGym 模拟器。使用了 4096 个并行环境进行训练。
  • 动作空间: 20 个自由度 (DoF) 的动作空间(不包括腰部关节)。
  • AMP 参考运动数据:
    • 恢复任务: 使用重定向运动捕捉数据 (retargeted motion capture)
    • 运动任务: 使用 LAFAN1 数据。
  • 真实世界部署: Unitree G1 人形机器人。

5.2. 评估指标

对论文中出现的每一个评估指标,进行以下说明:

  1. 成功率 (Success Rate - Succ.)

    • 概念定义: 衡量机器人在特定任务中成功完成目标的百分比。
    • 数学公式: Succ.=Number of successful trialsTotal number of trials×100% \text{Succ.} = \frac{\text{Number of successful trials}}{\text{Total number of trials}} \times 100\%
    • 符号解释:
      • Number of successful trials:成功完成任务的试验次数。
      • Total number of trials:总共进行的试验次数。
    • 任务特定定义:
      • 运动任务: 机器人在 20 秒内遍历完 8 米长的地形且未终止的试验百分比。机器人被分配一个在 0.4m/s1.0m/s0.4m/s - 1.0m/s 之间均匀采样的固定前进速度。对于整合了跌倒恢复和运动能力的策略(如多行为策略 πd\pi^{d}AHC 策略 πAHC\pi^{\mathrm{AHC}}),跌倒不会触发终止,允许机器人自主恢复并继续遍历。
      • 恢复任务: 机器人在跌倒姿势下成功站立并在 10 秒内保持平衡不再次跌倒的试验百分比。
  2. 平均遍历距离 (Average Traversing Distance - Dist.)

    • 概念定义: 衡量机器人在任务终止前平均覆盖的距离。此指标包括成功和失败的试验。
    • 数学公式: Dist.=i=1Total trialsDistance covered in trialiTotal number of trials \text{Dist.} = \frac{\sum_{i=1}^{\text{Total trials}} \text{Distance covered in trial}_i}{\text{Total number of trials}}
    • 符号解释:
      • Distance covered in trial}_i:第 ii 次试验中机器人覆盖的距离。
      • Total number of trials:总共进行的试验次数。
    • 终止条件: 如果机器人走出当前的 8m×8m8m \times 8m 地形补丁或不可恢复地跌倒,则回合终止。
  3. 梯度余弦相似度 (Gradient Cosine Similarity)

    • 概念定义: 衡量两个任务梯度方向的相似程度。余弦相似度接近 1 表示梯度方向非常相似(一致),接近 -1 表示方向完全相反(冲突),接近 0 表示正交。在多任务学习中,较高的余弦相似度通常意味着梯度冲突较小,有利于平衡学习。
    • 数学公式: 对于两个梯度向量 gi\mathbf{g}_igj\mathbf{g}_jCosine Similarity=gigjgigj \text{Cosine Similarity} = \frac{\mathbf{g}_i \cdot \mathbf{g}_j}{\|\mathbf{g}_i\| \|\mathbf{g}_j\|}
    • 符号解释:
      • gi\mathbf{g}_i:任务 ii 的梯度向量。
      • gj\mathbf{g}_j:任务 jj 的梯度向量。
      • \cdot:向量点积。
      • \|\cdot\|:向量的欧几里得范数(长度)。
    • 目的: 量化 PCGrad 在缓解多任务优化过程中梯度冲突的作用。本文中,较高的相似度表示任务梯度之间的冲突较小。
  4. 价值损失 (Value Loss)

    • 概念定义: 衡量批评器 (critic) 预测的价值函数与实际观测到的回报之间的差异。在 RL 中,批评器负责估计给定状态或状态-动作对的预期累积奖励。较低的价值损失表明批评器对环境的价值评估更准确。
    • 数学公式:PPO 中,通常使用均方误差 (Mean Squared Error - MSE) 作为价值损失: LV(ϕ)=EstD[(Vϕ(st)Rt)2] L_{V}(\phi) = \mathbb{E}_{s_t \sim \mathcal{D}}\left[(V_{\phi}(s_t) - R_t)^2\right]
    • 符号解释:
      • Vϕ(st)V_{\phi}(s_t):由参数为 ϕ\phi 的批评器在状态 sts_t 下预测的价值。
      • RtR_t:从状态 sts_t 开始的实际累积折扣回报(或 GAE 估计)。
      • D\mathcal{D}:采样到的经验数据分布。
      • E\mathbb{E}:期望值。
    • 目的: 监测批评器学习的稳定性,尤其是在行为特定批评器设置中,以评估其如何缓解奖励尺度差异带来的优化困难。
  5. 训练回合回报曲线 (Training Episode Return Curves)

    • 概念定义: 记录在训练过程中每个回合(episode)智能体获得的累积奖励。这些曲线可以反映策略学习的进度、收敛速度以及在多任务设置中各任务之间学习的平衡性。
    • 目的: 评估不同配置下(例如有无 PCGrad 和行为特定批评器)策略在不同任务上的学习效果和平衡性。

5.3. 对比基线

论文将 AHC 与以下方法进行比较:

  1. HOMIE (Ben et al. 2025): 这是一个专注于下半身运动操作 (loco-manipulation) 的方法。本文通过在 AHC 的地形设置上重新训练,将其下半身运动策略适应到当前实验设置中。

  2. HoST (Huang et al. 2025b): 这是一个专门用于学习人形机器人从多样姿势站立起来的控制方法。本文在 AHC 的地形设置上训练了 HoST 的站立控制器。

  3. 跌倒恢复策略 (πrb\pi_{r}^{b}): 这是 AHC 框架第一阶段训练的仅用于跌倒恢复的基本行为策略。

  4. 行走策略 (πwb\pi_{w}^{b}): 这是 AHC 框架第一阶段训练的仅用于平坦地形行走的基本行为策略。

  5. 基本多行为策略 (πd\pi^{d}): 这是 AHC 框架第一阶段蒸馏过程后得到的能够执行多种基本行为的策略,但尚未经过强化微调以增强地形适应性。

    这些基线代表了单行为控制、多技能学习的早期尝试,以及 AHC 框架不同阶段的中间产物,有助于全面评估 AHC 的有效性。

5.4. 训练和部署详情

  • 模拟训练时长:
    • 行为特定策略:10,000 次迭代。
    • 策略蒸馏:4,000 次迭代。
    • 地形适应性微调:额外 10,000 次迭代(在线 RL)。
  • 硬件: 两个 NVIDIA RTX 4090 GPU 用于微调阶段。
  • 机器人部署: 策略部署到 Unitree G1 人形机器人上,运行频率为 50Hz。
  • PD 控制器: 由一个 500Hz 的 PD 控制器将关节位置转换为扭矩。

5.4.1. 领域随机化设置 (Table 4)

以下是原文 Table 4 中列出的两个训练阶段使用的领域随机化设置和范围:

TermRandomization RangeUnit
Restitution[0,1]-
Friction coefficient[0.1,1]-
Base CoM offset[-0.03, 0.03]m
Mass payload[-2, 5]Kg
Link mass[0.8, 1.2]× default valueKg
Kp Gains[0.8, 1.25]Nm/rad
Kd Gains[0.8, 1.25]Nms/rad
Actuation offset[-0.05, 0.05]Nm
Motor strength[0.8, 1.2]× motor torqueNm
Actions delay[0,100]ms
Initial joint angle scale[0.85,1.15]× default valuerad
Initial joint angle offset[-0.1,0.1]rad

5.4.2. 关节 PD 增益 (Table 5)

以下是原文 Table 5 中列出的训练和部署期间每个关节使用的 PD 增益 (Kp,Kd)(K_p,K_d)

JointKpKd
Hip1504
Knee2006
Ankle402
Shoulder404
Elbow1004

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 地形适应性评估

为了评估 AHC 框架的地形适应能力,研究团队将其与 HOMIEHoST 以及 AHC 内部不同阶段的策略进行了比较。评估在四种不同类型的 8m×8m8m \times 8m 地形补丁上进行:平坦 (flat)、斜坡 (slope)、障碍物 (hurdle) 和离散 (discrete) 地形。斜坡倾角在 1212^{\circ}1616^{\circ} 之间采样,障碍物高度在 0.08m0.1m 之间采样。运动任务的障碍物地形包含 3 个障碍物,而恢复任务使用更密集的 8 个障碍物。离散地形包含高度在 0.08m0.1m 之间随机放置的矩形块。所有评估均在 1000 个并行环境中进行。

以下是原文 Table 1 的结果:

Method Locomotion Fail Recovery
Plane
Succ. Dist.
Slope
Succ. Dist.
Hurdle
Succ. Dist.
Discrete
Succ. Dist.
Plane
Succ.
Slope
Succ.
Hurdle
Succ.
Discrete
Succ.
HOMIE (Ben et al. 2025) 0.802 6.421 0.599 4.795 0.407 3.259 0.442 3.603 - - - -
HoST (Huang et al. 2025b) - - - - 0.792 0.613 0.578 0.601
πrb\pi_{r}^{b} (Our baseline) - - - - 0.887 0.687 0.621 0.635
πwb\pi_{w}^{b} (Our baseline) 0.891 7.123 0.655 5.241 0.487 3.896 0.501 4.008 - - - -
πd\pi^{d} (Our baseline) 0.915 7.320 0.702 5.616 0.598 4.784 0.627 5.016 0.901 0.723 0.654 0.678
AHC (Ours) 0.932 7.456 0.785 6.280 0.712 5.696 0.748 5.984 0.923 0.802 0.751 0.788

分析:

  • AHC 的卓越性能: AHC 策略 (πAHC\pi^{\mathrm{AHC}}) 在运动和跌倒恢复任务上,几乎所有地形类型都显著优于 HOMIEHoST
    • 运动任务: AHC 的性能提升主要归因于其自主从跌倒中恢复并继续遍历的能力,这在障碍物和离散地形等高障碍物密度的地形上尤为重要。
    • 恢复任务: AHC 在恢复任务上的高成功率也体现了其鲁棒性。
  • AMP 的贡献:HoST 相比,AHC 融入 AMP 提供了运动先验 (motion priors),指导策略学习更稳定和鲁棒的行为,从而表现更好。
  • 多行为策略 (πd\pi^{d}) 的优势: 将多行为策略 πd\pi^{d} 与行为特定策略 (πrb\pi_{r}^{b}πwb\pi_{w}^{b}) 进行比较, πd\pi^{d} 在障碍物和离散地形等复杂地形上的运动任务中表现出卓越的鲁棒性。这种改进源于其在一个策略中无缝整合了行走和恢复行为。这强调了将行走和恢复等互补技能整合到统一策略中,以在挑战性环境中实现鲁棒运动的潜力。
  • RL 微调的效果: 为了进一步增强地形适应性,对 πd\pi^{d} 进行了 RL 微调,得到了最终的 AHC 策略 (πAHC\pi^{\mathrm{AHC}})。这一额外阶段在大多数地形类型(特别是斜坡和离散地形)上的两个任务中都带来了改进,突显了该两阶段训练框架的可迁移性 (transferability)。

6.1.2. AMP 对站立行为的影响

研究团队比较了包含 AMPAHC 和不含人类运动先验的 HoST 基线。 下图(原文 Figure 3)可视化了 AHCHoST 在仰卧和俯卧姿势下站立过程中的一系列快照。

fig 7

图2:AHCHoST 恢复运动的比较。我们比较了仰卧和俯卧场景下我们的 AHC(带 AMP)与 HoST(不带 AMP)。AHC 产生更平滑的恢复行为。这突出显示了 AMP 在引导学习自然恢复运动方面的有效性。

分析:

  • HoST (不带 AMP): 机器人表现出不协调、僵硬的动作,依赖突然的肢体运动来返回站立姿势。

  • AHC (带 AMP): 策略生成自然的起立动作,包括腿部折叠、手臂支撑和躯干抬起。 下图(原文 Figure 4)比较了恢复过程中关节速度的加速度。

    fig 4

图3:左腿恢复期间的关节加速度分析。髋关节和膝关节的加速度曲线显示,AHC 产生稳定的关节驱动,与 HoST 相比,显著减少了突然的波动。

分析:

  • AHC 策略的关键关节(髋关节和膝关节)的速度曲线表现出较少的突然波动,与使用 HoST 训练的策略相比,这表明 AHC 的关节驱动更稳定。 这些结果证明 AMP 有助于塑造恢复控制器,使其产生稳定的运动,而这仅通过手工设计的奖励函数是难以实现的。

6.1.3. PCGrad 和行为特定批评器的消融研究

研究团队进行了消融研究,以评估第二阶段微调中引入的两个关键组件的贡献:PCGrad 和行为特定批评器更新策略。共检查了四种配置:

  1. AHC-SC-w/o-PC: 单一共享批评器,不带 PCGrad
  2. AHC-SC-PC: 单一共享批评器,带 PCGrad
  3. AHC-BC-w/o-PC: 行为特定批评器,不带 PCGrad
  4. AHC (Ours): 行为特定批评器,带 PCGrad。 在单一批评器设置中,共享批评器网络在所有任务中共同优化。

6.1.3.1. 梯度余弦相似度

为了量化 PCGrad 在多任务优化过程中缓解梯度冲突的作用,计算了第二阶段训练期间两个任务梯度之间的平均余弦相似度。 以下是原文 Table 2 的结果:

MethodCosine Similarity (↑)
AHC-SC-w/o-PC0.247
AHC-SC-PC0.519
AHC-BC-w/o-PC0.334
AHC (ours)0.535

分析:

  • PCGrad 的作用: PCGrad 减少了梯度冲突,导致在两种批评器设置中都获得了更高的余弦相似度值(0.247 -> 0.519 和 0.334 -> 0.535),表明其在使梯度方向更一致方面的有效性。
  • 行为特定批评器的作用: 行为特定批评器的使用也带来了更高的相似度(0.247 -> 0.334 和 0.519 -> 0.535),这表明它们有助于缓解任务之间的梯度冲突。AHC(结合 PCGrad 和行为特定批评器)取得了最高的余弦相似度,表明其在处理梯度冲突方面的最佳效果。

6.1.3.2. 价值损失曲线

进一步通过监测训练过程中价值损失的演变,研究了采用行为特定批评器的影响。 下图(原文 Figure 5)展示了第二阶段微调期间的价值损失曲线。

fig 5

图4:第二阶段微调期间的价值损失曲线。配备行为特定批评器(AHC-BC-w/o-PCAHC)的策略显示出比共享批评器对应物(AHC-SC)更稳定的价值学习。

分析:

  • 行为特定批评器的优势: 配备行为特定批评器的模型(AHC-BC-w/o-PCAHC)实现了更低的价值损失,这表明为每个任务解耦价值学习有助于缓解由奖励尺度差异引起的优化困难。

6.1.3.3. 训练回合回报曲线

下图(原文 Figure 6)可视化了第二阶段微调期间的训练回合回报曲线,以评估每种配置在任务学习平衡性方面的表现。

fig 6

图5:第二阶段微调期间的训练回合回报曲线。通过 PCGrad 和行为特定批评器,AHC 在任务之间实现了更高和更平衡的回报。

分析:

  • 共享批评器变体 (AHC-SC): 倾向于忽视运动任务,这可能是因为其奖励幅度较小。
  • AHC (ours): 保持了两个任务的高回报,展示了多任务学习中的卓越性能。
  • 收敛速度: AHC 相比其他设置表现出更快的收敛速度。 这些结果突出了在第二阶段中结合 PCGrad 和行为特定批评器在促进平衡和高效优化方面的有效性。

6.2. 部署结果

研究团队将训练好的策略部署到真实的 Unitree G1 人形机器人上,没有进行额外的微调,以验证其在多样化场景中的有效性。 下图(原文 Figure 7)展示了真实世界部署的快照。

fig 2

图6:真实世界部署快照。机器人在多样化场景中执行恢复和运动,包括在斜坡地形上从俯卧和仰卧姿势站立,以及在行走过程中受到外部推动后恢复。

分析:

  • 恢复评估: 机器人在平坦地面和倾斜地形上从仰卧和俯卧姿势成功恢复,包括在适度外部扰动下的恢复。每次恢复后,机器人都能自我稳定并平稳过渡到行走准备姿势,展示出自然协调的动作。
  • 运动任务: 策略在两种初始化设置下进行了测试:恢复后行走,以及直接从站立姿势开始。在这两种情况下,机器人都能在平坦地面和倾斜表面上稳定行走,展示出鲁棒的控制和有效的速度指令跟踪。
  • 鲁棒性: 在行走过程中,施加随机方向的外部推力以评估机器人的平衡能力。机器人通常能承受扰动并继续行走。即使在行走过程中发生跌倒,机器人也能自主执行恢复动作并继续在地形上运动,表现出强大的韧性和长时程自主性。 这些结果表明,所学习的策略不仅有效地弥合了模拟到现实的鸿沟 (sim-to-real gap),而且以连贯和鲁棒的方式整合了恢复和运动行为。

7. 总结与思考

7.1. 结论总结

本文提出了自适应人形控制 (Adaptive Humanoid Control - AHC),一个用于人形机器人的两阶段框架。

  • 第一阶段通过训练行为特定策略并进行多行为蒸馏 (multi-behavior distillation),获得了能够自适应切换不同基本行为(如跌倒恢复和平面行走)的基本多行为策略 (basic multi-behavior policy)。这一阶段利用 MoE 架构和 AMP 奖励来集成技能并确保动作的自然性。
  • 第二阶段对蒸馏后的策略进行强化微调 (reinforced fine-tuning),以增强其在多样化复杂地形上的适应性。为了有效处理多任务 RL 中的梯度冲突和奖励尺度差异,本文引入了行为特定批评器 (behavior-specific critics)梯度投影 (gradient projection) 技术 (PCGrad)。 通过广泛的模拟和真实世界 Unitree G1 机器人的实验,验证了 AHC 策略的鲁棒性和适应性。实验结果表明,该方法能够从多种跌倒姿势中恢复,在平稳过渡到行走后,还能在斜坡、障碍物和离散地形等挑战性环境中进行稳定的运动。

7.2. 局限性与未来工作

论文作者指出了以下局限性及未来的研究方向:

  • 感知能力增强: 未来的工作将探索通过集成外部传感器(如深度相机和 LiDAR)来增强机器人的感知能力。这将使机器人能够更好地理解周围环境,从而实现更高级的交互和决策。
  • 扩展行为类别: 当前框架整合了跌倒恢复和行走这两种核心但差异较大的行为。未来将致力于扩展行为类别,以实现更广泛的泛化能力和更复杂的任务执行。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一些重要的启发:

  1. 分阶段解决复杂 RL 问题: 对于像人形机器人多技能控制这样复杂的 RL 问题,直接进行端到端训练往往难以收敛。本文提出的两阶段框架——先进行行为蒸馏获得基础能力,再进行强化微调增强泛化性,是一种非常有效的解耦和简化学习过程的方法。这为处理其他高维度、多目标 RL 任务提供了有益的思路。
  2. 显式处理梯度冲突的重要性: 多任务 RL 中的梯度冲突是一个普遍且棘手的问题。AHC 通过结合 MoE 架构(在蒸馏阶段)、行为特定批评器和 PCGrad(在微调阶段)来显式地解决这一问题,取得了显著成效。这强调了在设计多任务 RL 算法时,必须考虑并主动应对不同任务目标之间的冲突,而不是简单地聚合梯度。
  3. 运动先验的强大指导作用: AMP 在引导机器人学习自然、类人运动方面的有效性再次得到验证。通过模仿参考运动的风格,AHC 不仅提高了恢复和行走的效率,还使得机器人动作更加平滑和可接受。这表明在缺乏精确奖励函数设计能力的情况下,利用专家示范或运动数据作为先验知识,是加速和优化 RL 训练的强大工具。
  4. Sim-to-Real 迁移的鲁棒性: 论文在真实 Unitree G1 机器人上的成功部署,展示了所训练策略强大的 sim-to-real 迁移能力和在现实世界中的鲁棒性。这归功于充分的领域随机化以及训练中对恢复能力的强调,使得机器人能够应对现实世界中的不确定性和扰动。

7.3.2. 批判

尽管 AHC 取得了令人印象深刻的成果,但仍存在一些潜在的问题、未经验证的假设或可以改进的地方:

  1. 奖励函数设计的复杂性: 尽管 AMP 帮助生成了风格奖励,但表格 3 中展示的任务奖励函数仍然非常复杂,包含大量手工设计的项和超参数。这种复杂性意味着在新的机器人平台或新行为上应用时,可能需要大量的工程时间和领域专业知识来调整这些奖励项。未来的研究可以探索更自动化的奖励函数设计方法,或更通用的、与任务无关的奖励结构。
  2. 蒸馏阶段的依赖性: AHC 框架的第一阶段依赖于训练多个高性能的行为特定专家策略。这些专家策略本身可能就需要大量的训练资源和精细的奖励设计。如果初始专家策略的性能不佳,可能会限制最终多行为控制器的上限。如何更高效地获取高质量的专家知识,或减少对专家策略的依赖,是一个值得探讨的方向。
  3. 行为切换的阈值设定: 论文提到行为切换是根据机器人基座高度进行的(如果基座高度大于 0.5m 则行走,否则恢复)。这种硬编码的切换逻辑可能在某些边缘情况下不够灵活或最优。例如,机器人可能在高度略低于 0.5m 但仍可行走的情况下被强制进入恢复模式。未来的工作可以探索更智能、更平滑的基于 RL 的行为切换机制,例如通过学习一个元策略 (meta-policy) 来选择子策略。
  4. 定量真实世界实验的缺乏: 真实世界实验的展示主要是通过快照,缺乏详细的定量指标(如真实世界的成功率、遍历距离、抗扰动能力等)。虽然快照能直观展示效果,但量化数据将更有力地支撑其在真实世界中的鲁棒性和泛化能力。
  5. 可扩展性挑战: 论文目前整合了两种核心行为。当需要整合更多、更复杂的行为时(例如,操作物体、与环境交互、复杂的避障等),当前的 MoE 架构和 PCGrad 机制是否能有效扩展,以及如何管理更多专家之间的潜在冲突,仍是需要进一步验证的挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。