摘要

Developing both robust and agile locomotion skills for legged robots is non-trivial. In this work, we present the first blind locomotion system capable of traversing challenging terrains robustly while moving rapidly over natural terrains. Our approach incorporates the Adversarial Motion Priors (AMP) in locomotion policy training and demonstrates zero-shot generalization from the motion dataset on flat terrains to challenging terrains in the real world. We show this result on a quadruped robot Go1 using only proprioceptive sensors consisting of the IMU and joint encoders. Experiments on the Go1 demonstrate the robust and natural motion generated by the proposed method for traversing challenging terrains while moving rapidly over natural terrains.

1. 论文基本信息

1.1. 标题

Learning Robust and Agile Legged Locomotion Using Adversarial Motion Priors

1.2. 作者

Jinze Wu, Guiyang Xin, Chenkun Qi, and Yufei Xue

1.3. 发表期刊/会议

该论文未明确指出具体的期刊或会议名称，但从参考文献格式推断，这是一篇学术会议论文或期刊论文。文章中引用了如 Sci. Robot. (Science Robotics), Proc. Robot.: Sci. Syst. (Robotics: Science and Systems), IEEE Robot. Automat. Lett. (IEEE Robotics and Automation Letters), ACM Trans. Graph. (ACM Transactions on Graphics) 等在机器人学、强化学习和图形学领域有影响力的出版物。

1.4. 发表年份

2023年（发布于 UTC 时间 2023-06-28T00:00:00.000Z）

1.5. 摘要

为腿式机器人开发既稳健又灵活的运动技能并非易事。在这项工作中，我们提出了首个盲式（blind）运动系统，它能够稳健地穿越具有挑战性的地形，同时在自然地形上快速移动。我们的方法在运动策略训练中融入了对抗运动先验（Adversarial Motion Priors, AMP），并展示了从平坦地形上的运动数据集到现实世界中挑战性地形的零样本泛化（zero-shot generalization）。我们在四足机器人 Go1 上仅使用由惯性测量单元（IMU）和关节编码器组成的本体感知（proprioceptive）传感器取得了这一成果。Go1 上的实验表明，所提出的方法能够生成稳健自然的运动，以穿越挑战性地形，同时在自然地形上快速移动。

1.6. 原文链接

/files/papers/695a514dba758f5b2a1ecae0/paper.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题： 为腿式机器人开发兼具稳健性（robustness）和灵活性（agility）的运动技能是一个巨大的挑战。稳健性 指的是机器人在面对复杂、不确定地形（如崎岖路面、障碍物、植被）时仍能稳定、安全地移动的能力；灵活性 则指机器人在开阔、自然地形上快速移动、加速、转弯等动态行为的能力。

现有研究的挑战与空白：

稳健性： 大多数现有工作为了实现复杂地形上的稳健运动，依赖于计算密集型的外部感知传感器（exteroceptive sensors），如相机和激光雷达（LIDAR）。这些传感器易受光照和天气条件影响，且感知计算可能影响后端决策（如落足点规划）。
灵活性： 针对自然地形上的灵活运动，以往方法多采用基于模型预测控制（Model Predictive Control, MPC）并结合手工设计的模型。这带来了模型精度和计算复杂性之间的权衡难题。
结合挑战： 上述问题使得同时实现稳健和灵活运动变得极其困难。
强化学习（RL）的局限： 尽管强化学习 (Reinforcement Learning, RL) 在盲式运动控制方面取得了进展，但以往的 RL 方法通常只专注于一个方面（要么极度稳健，要么极度灵活），并且经常产生不自然、僵硬的步态。将运动跟踪 (motion tracking) 技术引入 RL 训练虽能加速收敛到正常步态，但难以模仿多种参考运动，且大多在仿真中验证，难以保证在现实世界中的有效性。生成对抗模仿学习 (Generative Adversarial Imitation Learning, GAIL) 是一种更通用的模仿学习方法，但 GAIL 不直接适用于示范者动作不可观察的情况。最近的 对抗运动先验 (Adversarial Motion Priors, AMP) 框架在动画领域显示了潜力，但将其应用于真实机器人，尤其是在复杂地形上学习稳健运动的有效性仍不明确。

本文的切入点或创新思路： 本文旨在利用 本体感知传感器 (proprioceptive sensors)（如关节编码器和 IMU），结合 对抗运动先验 (AMP) 和 强化学习 (RL)，开发一个单一策略网络，使腿式机器人能够同时实现对复杂地形的稳健穿越和在自然地形上的快速灵活运动，并生成自然、平滑的步态。通过 教师-学生训练框架 (teacher-student training framework) 和 课程学习 (curriculum learning)，实现从仿真到现实世界的零样本泛化 (zero-shot generalization)。

2.2. 核心贡献/主要发现

首个盲式稳健与灵活运动系统： 提出了第一个仅依赖本体感知传感器（IMU 和 关节编码器 (joint encoders)），能够在挑战性地形上稳健移动，同时在自然地形上快速运动的腿式机器人系统。
融合对抗运动先验（AMP）实现自然步态： 将 AMP 引入运动策略训练，用样式奖励（style reward）替代复杂的辅助奖励，使机器人能够学习到自然、平滑的步态风格，并具有稳健和灵活的运动能力。
零样本泛化能力： 演示了从平坦地形上生成的运动数据集到现实世界中挑战性地形的零样本泛化能力，这意味着机器人无需在真实复杂地形上进行额外训练即可适应。
卓越的实验结果： 在四足机器人 Unitree Go1 上验证了方法。
- 稳健性： 成功穿越高达 $25 \mathrm{~cm}$ 的障碍物（机器人站立高度为 $28 \mathrm{~cm}$ ），展示了“头部碰撞”检测和“抬高身体高度”、“高抬腿”等自适应行为（foot-trapping reflex）。
- 灵活性： 在户外实现高达 $3.5 \mathrm{~m/s}$ 的冲刺速度和 $5.8 \mathrm{~rad/s}$ 的旋转速度。
- 无论在平坦还是复杂地形，高速或低速，机器人的运动都展现出自然的步态和流畅的动作。
提出的训练框架： 采用教师-学生训练框架，结合课程学习，使得单一 RL 策略能够同时学习挑战性地形上的稳健运动和平坦地形上的灵活运动。

3. 预备知识与相关工作

3.1. 基础概念

腿式机器人 (Legged Robots): 指利用腿部结构进行移动的机器人，模拟生物的行走、奔跑、跳跃等行为。相比轮式或履带式机器人，腿式机器人能更好地适应崎岖不平、障碍物多的复杂地形。
运动 (Locomotion): 指机器人通过腿部或其他驱动方式，在环境中进行移动的行为。本文关注的是腿式机器人的运动控制。
稳健性 (Robustness): 机器人控制器在面对外部干扰（如地形变化、外部冲击、参数不确定性）或内部故障时，仍能保持其性能和稳定性的能力。在本文中，特指在挑战性地形（如楼梯、崎岖路面、植被）上稳定移动的能力。
灵活性 (Agility): 机器人快速、轻巧地改变速度和方向，执行动态动作（如冲刺、快速转弯、跳跃）的能力。在本文中，特指在自然地形上快速移动的能力。
本体感知传感器 (Proprioceptive Sensors): 提供机器人自身内部状态信息的传感器。它们测量机器人身体各部分的相对位置、速度和姿态。
- IMU (Inertial Measurement Unit, 惯性测量单元): 包含加速计和陀螺仪，用于测量机器人的线加速度和角速度，从而估计机器人的姿态和运动。
- 关节编码器 (Joint Encoders): 安装在机器人关节处，测量各关节的精确位置或速度。
外部感知传感器 (Exteroceptive Sensors): 提供机器人外部环境信息的传感器，帮助机器人感知周围世界。例如相机（获取视觉图像）和激光雷达（LIDAR，获取距离和深度信息）。本文强调其方法的创新之处在于“盲式运动”，即不使用外部感知传感器。
强化学习 (Reinforcement Learning, RL): 机器学习的一个分支，让一个智能体 (agent) 通过与环境 (environment) 交互来学习如何做出决策。智能体执行动作 (action)，环境响应并给出奖励 (reward)。智能体的目标是学习一个策略 (policy)，以最大化长期累积奖励。
马尔可夫决策过程 (Markov Decision Process, MDP): 描述 RL 问题的数学框架。它由以下元素定义：
- 状态 (State, $s$ ): 环境的完整描述。
- 动作 (Action, $a$ ): 智能体在给定状态下可以执行的操作。
- 转移概率 (Transition Probability, $P(s' | s, a)$ ): 在状态 $s$ 执行动作 $a$ 后，环境转移到新状态 $s'$ 的概率。
- 奖励函数 (Reward Function, r(s, a, s')): 在状态 $s$ 执行动作 $a$ 转移到 $s'$ 时智能体获得的即时奖励。
- 折扣因子 (Discount Factor, $\gamma$ ): 一个介于 0 和 1 之间的值，用于衡量未来奖励的重要性。
- 智能体的目标是找到一个 $\text{策略} (policy,$ \pi)，该策略是一个从状态到动作的映射，使得智能体在长期内获得的期望折扣回报 (expected discounted return) 最大化： $J \left( \theta \right) = \mathbb { E } _ { \pi _ { \theta } } \left[ \sum _ { t = 0 } ^ { \infty } \gamma ^ { t } r _ { t } \right]$ 其中， $J(\theta)$ 是策略参数 $\theta$ 的目标函数， $\mathbb{E}_{\pi_{\theta}}$ 表示在策略 $\pi_{\theta}$ 下的期望值， $r_t$ 是时间步 $t$ 的奖励。
部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP): MDP 的一个变体，其中智能体无法直接观察到环境的完整状态，而只能获得与状态相关的观测 (observation)。这在现实世界的机器人控制中很常见，因为传感器通常只能提供部分信息。
策略 (Policy, $\pi$ ): 定义智能体行为的规则。它是一个从状态（或观测）到动作的映射。在 RL 中，通常用参数化函数（如神经网络）表示。
奖励函数设计 (Reward Function Design): 在 RL 中，设计合适的奖励函数至关重要，它直接引导智能体学习期望的行为。复杂的任务通常需要精心设计的奖励函数，包括任务完成奖励、惩罚项、平滑性奖励等。本文通过引入样式奖励来简化奖励函数设计。
教师-学生训练框架 (Teacher-Student Training Framework) 或特权学习 (Privileged Learning): 一种 RL 训练范式，用于解决 POMDP 问题。
- 教师策略 (Teacher Policy): 在仿真环境中训练，可以访问特权状态 (privileged states)（即，在真实世界中不可用，但在仿真中可获得的额外信息，如摩擦系数、地形高度图、精确的线性速度、外部力等）。这使得教师能够学习到非常鲁棒的控制策略。
- 学生策略 (Student Policy): 在教师策略训练完成后，学生策略通过监督学习 (supervised learning) 或 模仿学习 (imitation learning) 来模仿教师的动作和/或从教师那里学到的潜在表示，但学生策略只能访问真实世界可用的观测（如本体感知信息）。目标是让学生策略在没有特权信息的情况下，也能近似教师策略的性能。
生成对抗网络 (Generative Adversarial Network, GAN): 由一个生成器 (Generator) 和一个判别器 (Discriminator) 组成的深度学习框架。
- 生成器 (G): 学习生成与真实数据分布相似的新数据样本。
- 判别器 (D): 学习区分输入样本是来自真实数据分布还是由生成器生成。
- 两者通过对抗性训练相互提升：生成器试图生成更逼真的数据以欺骗判别器，判别器则努力更好地识别真实与虚假样本。
生成对抗模仿学习 (Generative Adversarial Imitation Learning, GAIL): 将 GAN 框架应用于模仿学习。GAIL 中，生成器 是智能体的策略，它试图生成与专家示范轨迹相似的轨迹；判别器 则尝试区分智能体生成的轨迹和专家示范的轨迹。策略的目标是生成让判别器无法区分的轨迹，从而模仿专家的行为。
对抗运动先验 (Adversarial Motion Priors, AMP): 一种基于 GAIL 的方法，用于学习物理模拟角色的风格化运动。AMP 的关键在于判别器学习区分状态转移 ( $\boldsymbol{s}_t, \boldsymbol{s}_{t+1}$ ) 是来自参考运动数据集（真实）还是由智能体生成（虚假）。智能体策略的样式奖励由判别器的输出决定，鼓励智能体生成具有数据集特征的运动风格。它解决了传统 GAIL 无法处理动作不可观察示范的问题。
轨迹优化 (Trajectory Optimization, TO): 一种优化技术，用于计算在给定约束条件下，使某个目标函数（如能量消耗、时间）最小化的机器人运动轨迹和相应的控制输入。通常用于生成物理上可行且稳定的运动序列。
近端策略优化 (Proximal Policy Optimization, PPO): 一种流行的 RL 算法。它通过“裁剪”替代目标函数 (clipped surrogate objective function) 来在每次更新中限制策略的变化幅度，从而在保证训练稳定性的同时提高数据效率。
循环神经网络 (Recurrent Neural Network, RNN): 一种适合处理序列数据的神经网络，其内部具有循环结构，允许信息在时间步之间持久存在。
长短期记忆网络 (Long Short-Term Memory, LSTM): RNN 的一种特殊类型，专门设计用于解决传统 RNN 中存在的梯度消失和梯度爆炸问题，能够更好地学习和记忆长距离时间依赖性。它通过门控机制（输入门、遗忘门、输出门）来控制信息流。
多层感知机 (Multi-Layer Perceptron, MLP): 最简单、最常见的前馈神经网络 (feedforward neural network) 之一，由一个输入层、一个或多个隐藏层和一个输出层组成，每层都包含多个神经元。
零样本泛化 (Zero-shot Generalization): 指模型在训练时从未见过某个类别或任务的示例，但在推理时仍能对其进行识别或执行的能力。在本文中，指模型在平坦地形的运动数据上训练后，能直接适应复杂地形而无需额外训练。
动态随机化 (Dynamics Randomization): 一种在仿真训练中提高策略鲁棒性和仿真到现实迁移 (sim-to-real transfer) 成功率的技术。通过在每次仿真中随机改变机器人的物理参数（如质量、摩擦系数、电机强度）和环境参数，迫使策略学习对这些不确定性不敏感的通用行为。
课程学习 (Curriculum Learning): 一种训练策略，模拟人类学习过程：从简单任务开始，逐步增加难度。在 RL 中，这意味着智能体首先在较简单的环境或任务中学习，成功后逐渐引入更复杂的环境或任务。
数据集聚合 (Dataset Aggregation, DAgger): 一种用于模仿学习的算法，通过迭代地收集专家示范来提高智能体的鲁棒性。在每次迭代中，智能体根据当前策略进行 rollout，专家会纠正智能体犯的错误，并将这些纠正后的专家动作添加到数据集中，然后用新的数据集重新训练策略。

3.2. 前人工作

基于 RL 的腿式机器人运动控制：
- Hwangbo et al. [1] 使用执行器网络建模复杂的执行器动力学，以促进 ANYmal 机器人的 sim-to-real 迁移。
- Lee et al. [2] 和 Kumar et al. [3]（RMA 方法）通过在多样化地形上训练机器人，并使用 特权学习 (privileged learning) 范式，扩展了运动的鲁棒性。
- Miki et al. [4] 和 Agarwal et al. [5] 结合了本体感知和外部感知状态，提高了四足机器人在野外运动的效率。然而，这些工作大多展示了在挑战性地形上的低速或中速运动，并未测试高速运动能力。
- Margolis et al. [7] 和 Ji et al. [8]（Concurrent 方法）使用 RL 训练 Mini Cheetah 学习高速运动。尽管在高速冲刺和旋转方面取得了显著成果，但它们的运动步态不自然，且未在挑战性地形上进行测试。
引入步态先验的 RL 方法：
- Zhang et al. [15] 和 Peng et al. [16] 通过在训练过程中添加预定义步态先验或使用运动跟踪 (motion tracking) 技术，加速 RL 收敛到正常步态。然而，这些方法难以根据单一相位变量模仿多种参考运动。
- Florensa et al. [17]、Peng et al. [18] 和 Yang et al. [19] 使用分层策略和潜在空间模型从大型运动数据集中学习可重用技能。但大多在仿真中验证，且地形挑战性适中，难以保证在现实世界中的有效性。
- Bogdanovic et al. [20] 和 Fuchioka et al. [21] 利用轨迹优化 (TO) 技术生成稳定示范，以辅助 RL 的 sim-to-real 迁移，无需运动捕捉数据。但这些模仿学习方法仍依赖于与高级任务无关的预训练阶段来跟踪参考运动。
基于 GAN 的模仿学习：
- Ho and Ermon [22] 提出了 生成对抗模仿学习 (GAIL)，将 GAN [23] 引入 RL，通过判别器衡量策略与示范之间的相似性，解决了行为克隆（behavioral cloning）的一些局限性（如分布漂移）。
- Peng et al. [24] 提出了 对抗运动先验 (AMP)，使用 GAIL 框架预测状态转移是来自数据集还是智能体，使得模拟智能体能够以从非结构化运动数据集中学到的风格执行高级任务。
- Peng et al. [25] 将 AMP 扩展到潜在空间，学习大规模可重用的对抗性技能嵌入。
- Escontrela et al. [26]、Vollenweider et al. [27] 和 Li et al. [28] 将 AMP 部署到真实机器人上，但这些方法大多在平坦地形上收集运动先验，或从粗略的部分示范中学习敏捷技能，AMP 在复杂地形上学习稳健运动的有效性仍未充分探索。

3.3. 技术演进

腿式机器人运动控制的技术演进大致经历了从模型驱动到数据驱动，再到模型与数据混合驱动的过程：

早期模型驱动 (Model-based): 依赖于精确的机器人动力学模型和环境模型，通过优化算法（如 MPC [12, 13]、轨迹优化 (TO) [10, 11]）来计算控制策略。优点是可解释性强、理论基础扎实；缺点是对模型精度要求高、计算复杂、难以适应未知或不确定的环境。
纯 RL (Pure RL): 随着计算能力提升和 深度学习 (deep learning) 发展，RL 开始被用于直接从传感器数据学习控制策略。优点是能够处理高维、非线性问题，实现高度自适应和泛化能力；缺点是训练数据需求大、训练不稳定、奖励函数设计困难，并且策略可能产生不自然的运动。
RL 结合先验知识/模仿学习： 为了克服纯 RL 的缺点，研究者开始尝试将先验知识或专家示范引入 RL。
- 运动跟踪 (Motion Tracking): 显式地让机器人模仿预定义或专家生成的运动序列 [15, 16]。
- 特权学习/教师-学生框架 (Privileged Learning/Teacher-Student): 利用仿真中的特权信息加速学习，然后将知识迁移到只具备本体感知能力的学生策略 [2, 3]。
- 生成对抗模仿学习 (GAIL/AMP): 通过对抗性训练，隐式地从非结构化专家示范中学习运动风格或步态先验，而无需显式跟踪 [24, 26]。
  
  本文的工作正处于这一演进的第三阶段，它结合了 AMP 来解决步态自然性问题，利用教师-学生框架和动态随机化来解决 sim-to-real 迁移和鲁棒性问题，并通过课程学习来应对复杂地形，最终实现了在仅本体感知下的稳健和灵活运动。

3.4. 差异化分析

本文的方法与相关工作的主要区别和创新点在于：

同时实现稳健与灵活： 许多现有 RL 方法要么专注于挑战性地形上的稳健性（通常速度较低，如 [2, 3, 4, 5]），要么专注于自然地形上的灵活性（通常步态不自然，如 [7, 8]）。本文提出了首个单一系统，能够同时在挑战性地形上稳健穿越（如 $25 \mathrm{~cm}$ 障碍物），并在自然地形上高速运动（如 $3.5 \mathrm{~m/s}$ 冲刺）。
仅本体感知 (Blind Locomotion)： 与依赖外部感知传感器（如相机、激光雷达）的方法（如 [4, 5, 6]）不同，本文的系统仅使用本体感知传感器（IMU 和 关节编码器）。这使得系统对光照、天气条件等外部环境变化更具鲁棒性，且计算负担更轻。
对抗运动先验 (AMP) 的有效应用：
- 将 AMP 引入 RL 策略训练，用样式奖励替代复杂的辅助奖励，从而诱导机器人学习自然且平滑的步态。这解决了以往 RL 方法常产生的“不自然”运动问题。
- 最重要的是，本文证明了 AMP 学习到的步态风格具有从平坦地形数据集到现实世界挑战性地形的零样本泛化能力。以往 AMP 在机器人领域的应用多限于平坦地形 [26] 或需要粗糙示范 [28]，本文则在复杂的真实地形上验证了其有效性。
教师-学生训练框架与课程学习： 结合了 特权学习 的优势，教师策略在仿真中利用特权信息学习，然后学生策略通过模仿教师来适应真实世界的本体感知输入。同时，通过改进的课程学习策略，逐步增加地形难度和速度指令范围，有效解决了盲式运动在复杂地形上的训练难度。
运动数据集生成方式： 采用轨迹优化 (TO) 技术生成 AMP 所需的运动数据集。这确保了生成的数据集与模拟智能体的状态空间完全匹配，避免了复杂的运动重定向技术，简化了 sim-to-real 迁移。

4. 方法论

4.1. 方法原理

本文的核心思想是结合强化学习 (RL)、对抗运动先验 (AMP) 和 教师-学生训练框架 (teacher-student training framework)，以开发一个能够实现稳健且灵活的盲式腿式机器人运动控制器。该控制器仅依赖本体感知传感器 (proprioceptive sensors)，并能在多种复杂地形上展现自然的步态。

方法原理可概括为：

RL 框架下的运动控制： 将运动控制问题建模为一个 部分可观察马尔可夫决策过程 (POMDP)。通过最大化长期累积奖励来学习一个从本体感知观测到关节动作的策略。
教师-学生学习应对盲式挑战： 由于盲式运动是 POMDP，环境信息不完全可观测。因此采用特权学习 (privileged learning) 范式：首先训练一个能够访问仿真中特权状态（如地形信息、精确线性速度）的教师策略，然后训练一个仅能访问本体感知信息的学生策略来模仿教师的动作和潜在表示。
AMP 引入自然步态先验： 为了解决 RL 容易产生不自然步态的问题，引入 对抗运动先验 (AMP)。AMP 框架使用一个判别器来区分机器人生成的运动轨迹与预设的参考运动数据集中的轨迹。判别器的输出被转化为一个样式奖励 (style reward)，鼓励机器人学习与参考数据集（在平坦地形上生成）相似的自然步态风格。
简洁奖励函数设计： 奖励函数由任务奖励 (task reward)（实现速度跟踪）、样式奖励 (style reward)（鼓励自然步态）和正则化奖励 (regularization reward)（确保运动平滑性和安全性）组成，避免了复杂的辅助奖励设计。
轨迹优化 (TO) 生成高质量运动数据集： AMP 所需的参考运动数据集通过轨迹优化生成，确保了数据集的物理可行性和与机器人状态空间的匹配。
课程学习实现鲁棒性： 采用课程学习策略，逐步增加训练地形的难度，并结合动态随机化 (dynamics randomization)，以提高策略对未知环境和参数变化的泛化能力和鲁棒性，从而实现 零样本泛化 (zero-shot generalization)。

4.2. 核心方法详解 (逐层深入)

4.2.1. 强化学习问题公式化

本文将控制问题公式化为一个离散时间动态的马尔可夫决策过程 (MDP)，其中环境在时间步 $t$ 由状态 $\boldsymbol { x } _ { t }$ 完全定义。策略执行动作 $\boldsymbol { a } _ { t }$ ，然后环境以转移概率 $P ( \boldsymbol { x } _ { t + 1 } \mid \boldsymbol { x } _ { t } , \boldsymbol { a } _ { t } )$ 转移到下一个状态 $\boldsymbol { x } _ { t + 1 }$ 并返回奖励 r _ { t }。RL 的目标是找到策略 $\pi _ { \theta }$ 的最优参数 $\theta$ ，以最大化未来轨迹的期望折扣回报：

$J \left( \theta \right) = \mathbb { E } _ { \pi _ { \theta } } \left[ \sum _ { t = 0 } ^ { \infty } \gamma ^ { t } r _ { t } \right]$

其中， $\gamma ^ { t }$ 是折扣因子 (discount factor)，用于衡量未来奖励的重要性。

由于盲式运动中地形不可见，该问题被视为部分可观察马尔可夫决策过程 (POMDP)。为了解决这个挑战，本文采用特权学习 (privileged learning) 范式：

教师策略 (Teacher Policy) 在仿真中用特权状态 (privileged states)进行训练，这些状态仅在仿真中可用。
学生策略 (Student Policy) 随后通过监督学习 (supervised learning) 模仿教师对特权状态的编码和教师的动作。

状态空间 (State Space):

教师策略的状态 $\boldsymbol { x } _ { t } ^ { \mathrm { t e a c h e r } }$ : 包含三部分信息，如 Figure 2 顶部所示。
- 本体感知观测 (Proprioceptive Observation) $\boldsymbol { o } _ { t } ^ { p }$ : 这是学生策略唯一可访问的向量，包含：
  - 重力向量的姿态（在机器人基坐标系下）。
  - 基座角速度（在机器人基坐标系下）。
  - 关节位置和速度。
  - 当前策略选择的前一动作 $\boldsymbol { a } _ { t - 1 }$ 。
  - 期望的基座速度指令向量。
- 特权状态 (Privileged State) $\boldsymbol { s } _ { t } ^ { p }$ : 仅在仿真中可用，包含：
  - 基座线速度（从状态估计算法计算，但在仿真中可直接获取精确值，故视为特权）。
  - 摩擦系数和恢复系数。
  - 接触力。
  - 外部力及其在机器人上的位置。
  - 碰撞状态（躯干、大腿和小腿）。
- 地形信息 (Terrain Information) $\boldsymbol { i } _ { t } ^ { e }$ : 包含 187 个测量值，代表从机器人基座周围网格采样的地形点到机器人基座的垂直距离。

动作空间 (Action Space): 策略动作 $\boldsymbol { a } _ { t }$ 是一个 12 维向量，解释为目标关节位置偏移。该偏移量被加到时间不变的标称关节位置上，以指定每个关节的目标电机位置。关节 PD 控制器使用这些目标电机位置和固定的增益 $K _ { p } = 2 0$ 、 $K _ { d } = 0 . 5$ 来计算力矩指令。

4.2.2. 奖励项设计

为了诱导智能体学习具有自然步态的稳健和灵活腿式运动技能，本文设计了一个简洁的奖励函数。总奖励 r _ { t } 由任务组件 (task component) $r _ { t } ^ { g }$ 、样式组件 (style component) $\boldsymbol { r } _ { t } ^ { s }$ 和正则化组件 (regularization component) $r _ { t } ^ { l }$ 组成：

$r _ { t } = r _ { t } ^ { g } + r _ { t } ^ { s } + r _ { t } ^ { l } .$

每个奖励项的详细定义和权重在 Table I 中给出。

任务奖励 ( $r _ { t } ^ { g }$ ): 该项旨在实现线速度和角速度的跟踪。

概念定义: 奖励机器人使其实际线速度和角速度尽可能接近给定的期望速度指令。
数学公式:
- $\text{exp}(-\left\|\mathbf{v}_{des} - \mathbf{v}_{t,xy}\right\|^2 / 0.15)$
- $\text{exp}(-\left\|\boldsymbol{\omega}_{des} - \boldsymbol{\omega}_{t,z}\right\|^2 / 0.15)$
符号解释:
- $\mathbf{v}_{des}$ : 期望的机器人基座平面线速度向量。
- $\mathbf{v}_{t,xy}$ : 机器人基座在 xy 平面上的实际线速度向量。
- $\boldsymbol{\omega}_{des}$ : 期望的机器人基座绕 $z$ 轴的角速度。
- $\boldsymbol{\omega}_{t,z}$ : 机器人基座绕 $z$ 轴的实际角速度。
- 0.15: 奖励函数中的一个尺度因子，控制奖励下降的速度。

样式奖励 ( $\boldsymbol { r } _ { t } ^ { s }$ ): 该项用于评估示范者行为与智能体行为之间的相似性。相似度越高，智能体获得的样式奖励越多。为了让机器人获得自然平滑的小跑步态（trot gait），即使在复杂地形上，也使用基于 AMP 的样式奖励函数。

本文遵循 Peng et al. [24] 的方法，定义了一个由神经网络参数 $\varphi$ 表示的判别器 (discriminator) $D _ { \varphi }$ 。判别器的作用是预测一个状态转移 $(\boldsymbol { s } _ { t } , \boldsymbol { s } _ { t + 1 })$ 是来自参考数据集 $\mathcal { D }$ 的真实样本，还是由智能体 $\mathcal { A }$ 生成的虚假样本。

AMP 状态 ( $\boldsymbol { s } _ { t } ^ { A M P }$ ): 用于判别器评估的状态，是一个 31 维向量，包含关节位置、关节速度、基座线速度、基座角速度以及基座相对于地形的高度。为了缓解 GAN 导致的模式崩溃（mode collapse），参考数据集 $\mathcal { D }$ 仅包含小跑步态的运动片段。
判别器的训练目标函数: 判别器的训练目标定义如下，采用最小二乘 GAN (least square GAN) 公式，并加入梯度惩罚 (gradient penalty)： $\begin{array} { r l } & { \underset { \varphi } { \arg \operatorname* { m i n } } \mathbb { E } _ { ( s _ { t } , s _ { t + 1 } ) \sim \mathcal { D } } \left[ \left( D _ { \varphi } \left( s _ { t } , s _ { t + 1 } \right) - 1 \right) ^ { 2 } \right] } \\ & { \quad + \mathbb { E } _ { ( s _ { t } , s _ { t + 1 } ) \sim \mathcal { A } } \left[ \left( D _ { \varphi } \left( s _ { t } , s _ { t + 1 } \right) + 1 \right) ^ { 2 } \right] } \\ & { \quad + \frac { \alpha ^ { g p } } { 2 } \mathbb { E } _ { ( s _ { t } , s _ { t + 1 } ) \sim \mathcal { D } } \left[ \left. \nabla _ { \varphi } D _ { \varphi } \left( s _ { t } , s _ { t + 1 } \right) \right. _ { 2 } \right] , } \end{array}$ 其中：
- 前两项是最小二乘 GAN 公式，鼓励判别器区分输入状态转移是来自智能体 $\mathcal { A }$ 还是参考数据集 $\mathcal { D }$ 。判别器对真实样本输出 1，对虚假样本输出 -1。
- 最后一项是梯度惩罚，用于缓解判别器在真实数据流形上分配非零梯度的趋势，提高训练稳定性。
- $\alpha ^ { g p }$ 是一个手动设定的系数，本文中使用 $\alpha ^ { g p } = 1 0$ 。
样式奖励的计算: 样式奖励定义为： $r _ { t } ^ { s } \left[ \left( s _ { t } , s _ { t + 1 } \right) \sim \mathcal { A } \right] = \operatorname* { m a x } \left[ 0 , 1 - 0 . 2 5 \left( d _ { t } ^ { \mathrm { s c o r e } } - 1 \right) ^ { 2 } \right] ,$ 其中 $d _ { t } ^ { \mathrm { s c o r e } } = D _ { \varphi } ( \pmb { s } _ { t } , \pmb { s } _ { t + 1 } )$ 。这个样式奖励被缩放到 [ 0 , 1 ] 的范围。当判别器输出 1（即认为智能体行为与示范行为高度相似）时，奖励最高。

正则化奖励 ( $r _ { t } ^ { l }$ ): 仅仅使用任务奖励和样式奖励可能需要更多训练数据才能收敛到自然行为，并且在挑战性地形上学习自然步态存在不确定性，因为 AMP 数据集只包含平坦地形的轨迹。因此，添加正则化奖励以辅助 sim-to-real 迁移和复杂地形上的表现。它施加了运动平滑性和安全性的约束。

平滑性 (Smoothness): 由关节级别的惩罚和步幅持续时间奖励引入。
- 数学公式:
  - $-\left\|\boldsymbol{\tau}\right\|^2$
  - $-\left\|\boldsymbol{l}\right\|^2$
  - $-\left\|\mathbf{q}_{t-1} - \mathbf{q}_t\right\|^2$
  - \sum_{i=0}^{\text{num_legs}-1} \min (\text{t}_{\text{air},i} - 0.5, 0)
- 符号解释:
  - $\boldsymbol{\tau}$ : 关节力矩。惩罚高力矩以鼓励节能和平滑运动。
  - $\boldsymbol{l}$ : 关节加速度。惩罚高加速度以鼓励平滑运动。
  - $\mathbf{q}_{t-1}, \mathbf{q}_t$ : 在时间步 t-1 和 $t$ 的关节位置向量。惩罚关节位置的剧烈变化，鼓励平滑的关节运动。
  - $\text{t}_{\text{air},i}$ : 第 $i$ 条腿的离地时间。奖励离地时间接近 0.5 秒（小跑步态的典型摆动相持续时间），惩罚过短的离地时间。

安全性 (Safety): 通过对与自身或环境碰撞的惩罚来确保。

数学公式: $-\text{n}_{\text{collision}}$

符号解释:

$\text{n}_{\text{collision}}$ : 碰撞次数或碰撞惩罚的累积值。惩罚机器人与环境或自身的碰撞，鼓励安全行为。

Table I: REWARD TERMS FOR VELOCITY COMMANDS TRACKING TASK, MOTION STYLE, AND REGULARIZATION (SMOOTHNESS, SAFETY)

Term	Equation	Weight
Task $r_g$	$\text{exp}(-\left\\|\mathbf{v}_{des} - \mathbf{v}_{t,xy}\right\\|^2 / 0.15)$ $\text{exp}(-\left\\|\boldsymbol{\omega}_{des} - \boldsymbol{\omega}_{t,z}\right\\|^2 / 0.15)$	1.0 0.5
Smoothness $r_l$	$-\left\\|\boldsymbol{\tau}\right\\|^2$ $-\left\\|\boldsymbol{l}\right\\|^2$ $-\left\\|\mathbf{q}_{t-1} - \mathbf{q}_t\right\\|^2$ `\sum_{i=0}^{\text{num_legs}-1} \min (\text{t}_{\text{air},i} - 0.5, 0)`	$1 \times 10^{-4}$ $2.5 \times 10^{-7}$ 0.1 1.0
Safety $r_l$	$-\text{n}_{\text{collision}}$	0.1
Style $r_s$	$\max [0, 1 - 0.25 (d_{\text{score}} - 1)^2]$	0.5

4.2.3. 运动数据集生成

由于 AMP 只需要状态转移来构建运动数据集 $\mathcal { D }$ ，本文采用先前工作 Winkler et al. [11] 中的单一轨迹优化 (TO) 公式，在平坦地形上生成四足机器人的小跑步态（trotting gait）。

简化模型： 机器人首先使用简化的质心动力学模型 (centroidal dynamics model) 表示，以降低计算复杂性。
非线性规划问题： 该模型被转化为一个非线性规划问题 (nonlinear programming problem)，其中明确强制执行了摩擦锥约束 (friction cone constraints) 和运动学约束 (kinematic constraints)。
求解器： TO 问题使用 TOWR [29] 求解，该工具无需成本函数，从而加速了优化并避免了调参过程。
数据集内容： 数据集 $\mathcal { D }$ 包含前进、后退、向左横向、向右横向、左转向、右转向以及组合运动轨迹，总时长为 30 秒。
优势： 通过 TO 生成运动数据集的好处在于，它们可以与模拟智能体和示范者的状态空间完全匹配，避免使用 [15] 等其他运动重定向技术。

4.2.4. 训练过程

仿真环境:

使用 IsaacGym 模拟器 [9] 训练 4096 个并行智能体。
教师策略和学生策略分别训练了 400 和 200 百万个模拟时间步。
两个阶段的总训练时间为 7 小时（墙钟时间），在一块 NVIDIA RTX 3090Ti GPU 上完成。
每个 RL 回合最长持续 1000 步，相当于 20 秒，并在达到终止标准时提前结束。
策略的控制频率在仿真中为 $50 \mathrm{~Hz}$ 。

终止条件 (Termination): 当机器人达到以下终止标准时，回合结束并开始下一个回合：

躯干与地面发生碰撞。
身体倾斜角度过大。
长时间被困住。

动态随机化 (Dynamics Randomization): 为了提高策略的鲁棒性并促进从仿真到现实世界的迁移，在每个回合中随机化以下参数：

躯干和腿部的质量。
施加在机器人身体上的有效载荷的质量和位置。
地面摩擦和恢复系数。
电机强度。
关节级别的 PD 增益。
初始关节位置。其中一些动态参数被视为特权状态 $\boldsymbol { s } _ { t } ^ { p }$ ，以辅助教师策略训练。此外，在仿真训练阶段添加了与 [9] 相同的观测噪声。Table II 详细列出了每个参数的随机化范围。

Table II: DYNAMIC PARAMETERS AND THE RANGE OF THEIR RANDOMIZATION VALUES USED DURING TRAINING

Parameters	Range[Min, Max]	Unit
Link Mass	[0.8, 1.2]×nominal value	Kg
Payload Mass	[0, 3]	Kg
Payload Position	[-0.1, 0.1] relative to base origin	m
Ground Friction	[0.05, 2.75]	-
Ground Restitution	[0.0, 1.0]	-
Motor Strength	[0.8, 1.2]× motor torque	Nm
Joint Kp	[0.8, 1.2]×20	-
Joint Kd	[0.8, 1.2]×0.5	-
Initial Joint Positions	[0.5, 1.5]×nominal value	rad

4.2.5. 训练课程 (Training Curriculum)

对于腿式机器人而言，在复杂地形上进行盲式运动是一项具有挑战性的任务，因为与环境的交互存在不确定性。本文创建了五种程序生成的、类似于 [9] 的地形类型：

粗糙平地 (rough flats): 通过增加噪音生成，噪音范围从 $\pm 1 \mathrm{~cm}$ 增加到 $\pm 8 \mathrm{~cm}$ 。
坡道 (slopes): 坡度从 $0 \mathrm{~deg}$ 增加到 $30 \mathrm{~deg}$ 。
波浪 (waves): 由沿地形长度方向的三个正弦波构成，波浪幅度从 $20 \mathrm{~cm}$ 增加到 $50 \mathrm{~cm}$ 。
楼梯 (stairs): 固定宽度为 $30 \mathrm{~cm}$ ，台阶高度从 $5 \mathrm{~cm}$ 增加到 $23 \mathrm{~cm}$ 。
离散台阶 (discrete steps): 只有两个高度级别，从 $\pm 5 \mathrm{~cm}$ 增加到 $\pm 15 \mathrm{~cm}$ 。

课程学习策略：

初始化： 训练开始时，所有机器人都被均匀分配到所有地形类型中，且难度最低。
难度晋升： 机器人只有在适应当前地形难度后，才会转移到更困难的地形。适应的标准是机器人能够以超过 $85\%$ 的平均线速度跟踪奖励成功走出当前地形。
难度降级： 如果机器人在回合结束时未能行进至少其指令线速度所需距离的一半，则会重置到较简单的地形。
避免遗忘： 解决最难地形的机器人会被循环回到当前地形类型的随机难度级别，以避免技能遗忘。

速度指令：

机器人在每个回合开始时被赋予一个随机生成的速度指令向量 $\mathbf { v } _ { t } ^ { \mathrm { d e s } } = ( v _ { x } , v _ { y } , \omega _ { z } ) \in \mathbb { R } ^ { 3 }$ ，分别代表纵向速度、横向速度和偏航角速度。
地形课程阶段： 偏航角速度指令根据当前航向与目标航向之间的误差计算，以帮助机器人有效走出地形。目标航向从 $[ - 1 8 0 ^ { \circ } , 1 8 0 ^ { \circ } ]$ 均匀采样。纵向和横向速度指令从较小范围 $[ - 1 \mathrm { m } / \mathrm { s } , 1 \mathrm { m } / \mathrm { s } ]$ 采样。
并发高速训练： 考虑到在挑战性地形上跟踪大范围速度指令的难度，以及在平坦地形上实现高速运动的重要性，本文提出了一个并发高速训练 (concurrent high-speed training) 过程。对于在粗糙平坦地形上的智能体，一旦它们走出最粗糙的平地，其 $( v _ { x } , \omega _ { z } )$ 速度指令采样计划将切换到 [7] 中的网格自适应课程策略 (grid adaptive curriculum strategy)，以学习高速冲刺和旋转。只有在高速训练期间的智能体的地形课程会终止，其余智能体不受影响。

4.2.6. 教师策略训练与架构

在第一个训练阶段，使用近端策略优化 (PPO) [31] 训练教师策略。教师策略和判别器的训练过程是同步的。

数据收集： 教师策略在环境中进行 rollout，生成状态转移 $( \boldsymbol { s } _ { t } ^ { A M P } , \boldsymbol { s } _ { t + 1 } ^ { A M P } )$ ，并将其提供给判别器 $D _ { \varphi }$ 以获得 $d _ { t } ^ { \mathrm { s c o r e } }$ 。这个分数用于根据公式 (4) 计算小跑步态的样式奖励 $\boldsymbol { r } _ { t } ^ { s }$ ，该奖励与其他奖励一起反馈给教师。
优化： 收集完 rollout 数据后，在每个训练步骤中，优化教师策略 $\pi _ { \theta } ^ { \mathrm { t e a c h e r } }$ 的参数 $\theta$ 和判别器 $D _ { \varphi }$ 的参数 $\varphi$ ，以最小化公式 (3) 中提出的目标函数。

教师策略 $\pi _ { \theta } ^ { \mathrm { t e a c h e r } }$ 架构: 教师策略由多个多层感知机 (MLP) 组件组成：一个地形编码器 (terrain encoder) $E _ { \theta _ { e } }$ 、一个特权编码器 (privileged encoder) $E _ { \theta _ { p } }$ 和一个低层网络 (low-level network)，如 Figure 2 所示。

地形编码器 $E _ { \theta _ { e } }$ : 将地形信息 $\boldsymbol { i } _ { t } ^ { e } \in \mathbb { R } ^ { 187 }$ 压缩成低维潜在表示 $\boldsymbol { l } _ { t } ^ { e } \in \mathbb { R } ^ { 16 }$ 。
特权编码器 $E _ { \theta _ { p } }$ : 将特权状态 $\boldsymbol { s } _ { t } ^ { p } \in \mathbb { R } ^ { 30 }$ 压缩成低维潜在表示 $\boldsymbol { l } _ { t } ^ { p } \in \mathbb { R } ^ { 8 }$ 。
全潜在表示 (Full Latent Representation): $\boldsymbol { l } _ { t } ^ { \mathrm { t e a c h e r } } \in \mathbb { R } ^ { 24 }$ ，通过连接 $\boldsymbol { l } _ { t } ^ { e }$ 和 $\boldsymbol { l } _ { t } ^ { p }$ 得到。这种压缩虽然会丢失一些信息，但保留了最需要的信息，便于学生策略重建。
低层网络 (Low-Level Network): 接收 $\boldsymbol { l } _ { t } ^ { \mathrm { t e a c h e r } }$ 和本体感知观测 $\boldsymbol { o } _ { t } ^ { p } \in \mathbb { R } ^ { 45 }$ 作为输入，并通过 tanh 输出层输出高斯分布 $\mathcal { N } ( \boldsymbol { \mu } _ { t } , \boldsymbol { \sigma } )$ 的均值 $\boldsymbol { \mu } _ { t } \in \mathbb { R } ^ { 12 }$ ，其中 $\boldsymbol { \sigma } \in \mathbb { R } ^ { 12 }$ 表示由 PPO 决定的动作方差。
评论家网络 (Critic Network): 教师策略还包含一个由 MLP 组成的评论家网络，具有三个隐藏层，用于为广义优势估计器 (Generalized Advantage Estimator, GAE) 提供目标值 V _ { t }。
判别器 $D _ { \varphi }$ : 一个由 MLP 组成的网络，具有两个隐藏层和一个线性单元输出层。

Table III 详细说明了网络架构。所有网络都使用 ELU (Exponential Linear Unit) 作为隐藏层的激活函数。

4.2.7. 学生策略训练与架构

学生策略的目标是在不使用特权状态 $\boldsymbol { s } _ { t } ^ { p }$ 和地形信息 $\boldsymbol { i } _ { t } ^ { e }$ 的情况下，重现教师策略的动作。因此，学生策略的动态被视为 POMDP，学生需要考虑观测历史 $\boldsymbol { o } _ { t } ^ { p }$ 来估计不可观测的状态。为此，学生策略使用一个记忆编码器 (memory encoder) 来编码历史观测之间的序列相关性。

学生训练过程:

监督学习： 学生训练采用监督学习方式，通过最小化两个损失函数进行，如 Figure 2 所示：
- 模仿损失 (Imitation Loss): 使学生策略模仿教师策略的动作 $\boldsymbol { a } _ { t } ^ { \mathrm { t e a c h e r } }$ 。
- 重建损失 (Reconstruction Loss): 鼓励学生策略的记忆编码器重建教师策略的潜在表示 $\boldsymbol { l } _ { t } ^ { \mathrm { t e a c h e r } }$ 。
DAgger 策略： 使用数据集聚合 (DAgger) 策略 [32] 通过 rollout 学生策略来生成样本，以增加鲁棒性。
课程学习： 学生训练采用与教师相同的课程学习策略，但不训练判别器。

学生策略架构: 学生策略由一个记忆编码器 (memory encoder) 和一个低层 MLP (low-level MLP) 组成，其中低层 MLP 结构与教师的低层网络保持一致。

记忆编码器 (Memory Encoder): 采用长短期记忆网络 (LSTM) [33] 作为 RNN 架构。
1. 本体感知观测 $\boldsymbol { o } _ { t } ^ { p }$ 连同 LSTM 的前一个隐藏状态 $h _ { t - 1 }$ 和单元状态 $c _ { t - 1 }$ 被编码成当前的隐藏状态 $h _ { t } \in \mathbb { R } ^ { 256 }$ 。
2. h _ { t } 随后传递给 $E _ { \theta _ { m } }$ 以输出学生的潜在表示 $\boldsymbol { l } _ { t } ^ { \mathrm { s t u d e n t } }$ 。
低层网络： 学生的低层网络使用教师低层网络学习到的权重进行初始化，以加速训练。
记忆长度： 为了让控制器学习稳健的盲式运动 [2]，学生策略使用 50 个历史 $\boldsymbol { o } _ { t } ^ { p }$ 序列进行训练（对应 1 秒的记忆）。

Table III 详细说明了网络架构。

Table III: NETWORK ARCHITECTURE FOR TEACHER POLICY AND STUDENT POLICY

Module	Inputs	Hidden Layers	Outputs
Low-Level (MLP)	$\boldsymbol{l}_t^{\text{teacher}}$ / $\boldsymbol{l}_t^{\text{student}}$ , $\boldsymbol{o}_t^p$	[256, 128, 64]	$\boldsymbol{a}_t$
Critic (MLP)	$\boldsymbol{x}_t^{\text{teacher}}$	[512, 256, 128]	$V_t$
Memory (LSTM)	$\boldsymbol{o}_t^p$ , $h_{t-1}$ , $c_{t-1}$	[256, 256, 256]	$h_t$
$E_{\theta_p}$ (MLP)	$\boldsymbol{s}_t^p$	[64, 32]	$\boldsymbol{l}_t^p$
$E_{\theta_e}$ (MLP)	$\boldsymbol{i}_t^e$	[256, 128]	$\boldsymbol{l}_t^e$
$E_{\theta_m}$ (MLP)	$h_t$	[256, 128]	$\boldsymbol{l}_t^{\text{student}}$
D (MLP)	$\boldsymbol{s}_t^{AMP}$ , $\boldsymbol{s}_{t+1}^{AMP}$	[1024, 512]	Discriminator score

所有网络都使用 ELU 激活函数作为隐藏层。

$该图像是一个示意图，展示了在教师策略训练与学生策略训练中使用对抗运动优先的方法。左侧展示了传感器信息和重建损失的计算，右侧则呈现了GAN鉴别器的结构及轨迹优化的公式，其中 $r_i = r_g^s + r_i^s + r'_i$。$ 该图像是一个示意图，展示了在教师策略训练与学生策略训练中使用对抗运动优先的方法。左侧展示了传感器信息和重建损失的计算，右侧则呈现了GAN鉴别器的结构及轨迹优化的公式，其中 $r_i = r_g^s + r_i^s + r'_i$ 。

VLM 描述: 该图像是一个示意图，展示了在教师策略训练与学生策略训练中使用对抗运动优先的方法。左侧展示了传感器信息和重建损失的计算，右侧则呈现了GAN鉴别器的结构及轨迹优化的公式，其中 $r_t = r_t^g + r_t^s + r_t^l$ 。

Figure 2 直观地展示了教师和学生策略的训练流程和网络架构。

上方（教师训练）: 教师策略接收本体感知观测 $\boldsymbol{o}_t^p$ 、特权状态 $\boldsymbol{s}_t^p$ 和地形信息 $\boldsymbol{i}_t^e$ 。这些信息通过各自的编码器 $E_{\theta_p}$ 和 $E_{\theta_e}$ 编码为潜在表示 $\boldsymbol{l}_t^p$ 和 $\boldsymbol{l}_t^e$ ，然后与 $\boldsymbol{o}_t^p$ 一起输入低层网络 (Low-Level) 生成动作 $\boldsymbol{a}_t^{\text{teacher}}$ 。同时，由 $\boldsymbol{s}_t^{\text{AMP}}$ 构成的状态转移 $(\boldsymbol{s}_t^{\text{AMP}}, \boldsymbol{s}_{t+1}^{\text{AMP}})$ 被送入判别器 (D)，用于计算样式奖励 $r_t^s$ 。总奖励 $r_t = r_t^g + r_t^s + r_t^l$ 用于训练教师策略。
下方（学生训练）: 学生策略仅接收本体感知观测 $\boldsymbol{o}_t^p$ 。这些观测被输入记忆编码器 (Memory)（一个 LSTM），结合历史信息生成隐藏状态 $h_t$ ，再通过编码器 $E_{\theta_m}$ 生成学生的潜在表示 $\boldsymbol{l}_t^{\text{student}}$ 。这个潜在表示与 $\boldsymbol{o}_t^p$ 一起输入低层网络 (Low-Level) 生成学生的动作 $\boldsymbol{a}_t^{\text{student}}$ 。学生策略通过最小化模仿损失（imitation loss，模仿教师动作 $\boldsymbol{a}_t^{\text{teacher}}$ ）和重建损失（reconstruction loss，重建教师潜在表示 $\boldsymbol{l}_t^{\text{teacher}}$ ）进行训练。

5. 实验设置

5.1. 数据集

AMP 数据集 ( $\mathcal{D}$ ):

来源与生成方式: 本文没有使用现有的运动捕捉数据或动画数据，而是通过轨迹优化 (Trajectory Optimization, TO) 技术 [11] 为 Go1 机器人专门生成了 AMP 所需的参考运动数据集。这种方法确保了生成的数据集与模拟智能体的状态空间完全匹配，避免了复杂的运动重定向过程。
内容与特点: 该数据集包含在平坦地形上以小跑步态（trotting gait）进行运动的轨迹。具体包括前进、后退、向左横向、向右横向、左转向、右转向以及这些运动的组合轨迹。
规模: 数据集总时长为 30 秒。
领域: 机器人运动学和动力学。
选择原因: 选择 TO 生成数据集的优势在于，它能够产生物理上可行且稳定的运动，并且数据可以直接用于训练 AMP 判别器，无需额外的处理。数据集仅包含小跑步态，旨在诱导机器人学习一种特定的自然步态风格，同时缓解 GAN 可能导致的模式崩溃问题。

真实世界测试环境:

室内: 实验室平坦地面，用于高速旋转测试。
室外:
- 塑料跑道 (Plastic Track): 相对平坦，用于高速冲刺测试。
- 崎岖路面 (Rocky Road): 具有更多摩擦、恢复和变形变化，用于高速冲刺测试。
- 草地 (Grassland): 具有更多摩擦、恢复和变形变化，用于高速冲刺测试。
- 大型路缘 (Large Curbs)、茂密植被 (Dense Vegetation)、中度岩石地面 (Moderately Rocky)、松散碎石 (Loose Rubble)、小型楼梯 (Small Stairs)： 用于评估控制器在复杂、多样化真实环境中的鲁棒性和泛化能力。
障碍物测试: 高达 $25 \mathrm{~cm}$ 的台阶，用于评估跨越障碍的能力。

5.2. 评估指标

本文使用了以下评估指标来量化机器人的运动性能：

成功率 (Success Rate):
- 概念定义: 衡量机器人在特定挑战性任务（如跨越不同高度的台阶）中成功完成任务的百分比。该指标直观反映了控制器在克服障碍方面的鲁棒性。
- 数学公式: $\text{Success Rate} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100\%$
- 符号解释:
  - $\text{Number of Successful Trials}$ : 成功完成任务的试验次数。
  - $\text{Total Number of Trials}$ : 进行的所有试验的总次数。
平均速度 (Average Speed):
- 概念定义: 衡量机器人在一段距离内的平均移动速率。该指标用于评估机器人的敏捷性，特别是其在不同地形上保持高速运动的能力。
- 数学公式: $\text{Average Speed} = \frac{\text{Total Distance Travelled}}{\text{Total Time Elapsed}}$
- 符号解释:
  - $\text{Total Distance Travelled}$ : 机器人在测试中移动的总距离（例如 $10 \mathrm{~m}$ 冲刺）。
  - $\text{Total Time Elapsed}$ : 完成该距离所用的总时间。
弗劳德数 (Froude Number, Fr):
- 概念定义: 弗劳德数是一个无量纲数，最初用于流体力学，后被引入生物力学和机器人学，以表征动物步态和机器人运动的动态相似性。它比较了惯性力与重力之比，常用于将不同尺寸和速度的动物或机器人进行比较，以评估其运动的动态性。较高的弗劳德数通常表示更动态或更快的运动，与生物学上的奔跑（running）或跳跃（hopping）步态相关联。
- 数学公式: $Fr = \frac{v}{\sqrt{gL}}$
- 符号解释:
  - Fr: 弗劳德数。
  - $v$ : 机器人的平均运动速度（单位： $\mathrm{m/s}$ ）。
  - $g$ : 重力加速度（通常取 $9.81 \mathrm{~m/s^2}$ ）。
  - $L$ : 机器人的特征长度，通常是腿长（单位： $\mathrm{m}$ ）。

5.3. 对比基线

为了全面评估所提出方法的性能，本文与以下几种仅使用本体感知传感器的 RL 基线方法进行了比较，并在一个系列单步测试中进行了评估：

RMA [3] (Rapid Motor Adaptation for legged robots):
- 代表性: 一种著名的 教师-学生训练框架，其中学生策略包含一个 1-D CNN 适应模块 (adaptation module) 和从教师策略复制的低层网络。它在复杂地形上的适应性方面表现出色。
- 配置: CNN 输入序列长度为 50，与本文 LSTM 编码器具有相同的记忆长度。
Concurrent [8] (Concurrent training of a control policy and a state estimator for dynamic and robust legged locomotion):
- 代表性: 策略与状态估计网络同时训练，显式估计身体状态。
- 配置: 考虑到策略的最终收敛性，训练期间不提供地形信息。
Domain Randomization (域随机化):
- 代表性: 一种标准的 sim-to-real 迁移技术，通过在仿真中广泛随机化物理参数来提高策略鲁棒性，但不使用任何特权状态或地形信息。这代表了一种完全盲式的、无特权信息利用的 RL 训练基线。
Built-in MPC (内置 MPC):
- 代表性: Unitree Go1 Edu 机器人内置的模型预测控制器。这代表了传统的、基于模型的控制方法在实际硬件上的性能。

公平比较设置:

所有 RL 方法都使用了 Section III-A 中详述的相同课程策略。
所有 RL 方法都使用了 Section II-B 中详述的相同奖励函数。
所有 RL 方法都使用了相同的随机种子。
所有 RL 方法都使用了 Table III 中详述的相同低层网络架构。

整体能力比较 (Table V): 为了提供更广阔的视角，本文还将其方法与在不同四足机器人上实现的几种先进 RL 控制器进行了整体能力比较，包括 A1 [36]、Mini Cheetah (MC) [7] 和 ANYmal [4]。比较维度包括是否盲式、是否能应对复杂地形、弗劳德数和速度。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 奖励项设计消融研究

为了评估不同奖励项对步态运动的影响，作者额外训练了两种简化策略，分别只考虑了两种奖励组合： $(r _ { t } ^ { g } + r _ { t } ^ { s })$ 和 $(r _ { t } ^ { g } + r _ { t } ^ { l })$ 。所有三种策略都经过相同训练时间，并使用相同随机种子。

下图（原文 Figure 3）展示了仿真中机器人以 $0.6 \mathrm{~m/s}$ 速度前进时，前右腿的股关节（thigh）和胫骨关节（shank）的位置和速度。

总奖励策略 (Total Reward: $r _ { t } ^ { g } + r _ { t } ^ { l } + r _ { t } ^ { s }$ , 紫线): 该策略生成的关节状态（位置和速度）与轨迹优化 (TO) 生成的关节状态（红线）最为接近。这表明，结合任务奖励、样式奖励和正则化奖励能够诱导机器人产生接近专家示范的自然平滑步态。
部分奖励策略 ( $r _ { t } ^ { g } + r _ { t } ^ { s }$ (橙线) 和 $r _ { t } ^ { g } + r _ { t } ^ { l }$ (蓝线)): 这两种策略生成的关节速度和位置都表现出明显的抖动 (jerky)，不如总奖励策略平滑。
结论: 实验结果明确指出，使用基于 AMP 的预定义步态先验能够让机器人学习到自然步态，而不会限制其克服挑战性地形的能力。正则化奖励项在确保运动平滑性和安全性方面也发挥了重要作用，尤其是在 AMP 数据集仅包含平坦地形运动的情况下，有助于 sim-to-real 迁移和复杂地形上的表现。

$Fig. 3. Measured positions and velocities of the two joints (thigh and shank) of the front-right leg during forward walking (around $0 . 6 \\mathrm { m } / \\mathrm { s } ,$ in simulation.$ 该图像是图表，展示了前右腿的两个关节（股关节和小腿关节）在前进行走时的位置和速度变化情况。图中使用不同的线型表示不同的数据组合，记录时间为2.5秒。

VLM 描述: 该图像是图表，展示了前右腿的两个关节（股关节和小腿关节）在前进行走时的位置和速度变化情况。图中使用不同的线型表示不同的数据组合，记录时间为2.5秒。

6.1.2. 稳健运动评估

挑战性障碍物 traversability (Figure 4):

障碍物挑战性: 机器人成功穿越了 $25 \mathrm{~cm}$ 高的障碍物（curb），这对于一个 $28 \mathrm{~cm}$ 高的四足机器人来说是极其具有挑战性的。值得注意的是，AMP 数据集中正常的行走步态中，机器人脚的离地间隙（foot clearance）仅为 $8 \mathrm{~cm}$ 。
自适应行为 (foot-trapping reflex): 控制器展现出一种“卡脚反射”（foot-trapping reflex）行为。
1. 策略首先纯粹通过本体感知观测识别出“头部碰撞”。
2. 随后，策略会抬高身体高度，确保躯干能越过障碍物。
3. 最后，策略会尽可能高地抬起脚，以跨越障碍物。
盲式感知： 这一过程完全不依赖外部感知传感器。学生策略通过分析本体感知流的历史信息，感知到前方的障碍物，并学习如何鲁棒地适应任何影响机器人身体配置的障碍物和干扰。

$Fig. 4. Locomotion over challenging steps. Our robot learns to detect huge steps of $2 5 \\mathrm { c m }$ by head collision and lifts base height and swing height to overcome obstructions.$ 该图像是一个示意图，展示了机器人在面对 2 5 ext{ cm} 的高台阶时的运动策略。机器人通过感知头部碰撞来检测障碍，并调整底部高度和摆动高度，以克服这些障碍。

VLM 描述: 该图像是一个示意图，展示了机器人在面对 2 5 ext{ cm} 的高台阶时的运动策略。机器人通过感知头部碰撞来检测障碍，并调整底部高度和摆动高度，以克服这些障碍。

与基线方法的比较 (Figure 5): 本文将提出的方法与 RMA [3]、Concurrent [8]、Domain Randomization 和 Built-in MPC 等几种仅使用本体感知传感器的基线方法在单步测试中进行了比较。测试中机器人以 $0.4 \mathrm{~m/s}$ 的速度前进 10 秒，成功标准为机器人前腿和后腿都跨过台阶。每个台阶高度进行 10 次测试并计算成功率。

下图（原文 Figure 5）展示了不同方法在不同台阶高度下的成功率：

整体优势: 本文方法在跨越和下落台阶方面均优于所有其他方法，能够成功穿越高达 $25 \mathrm{~cm}$ 的所有台阶。
教师-学生框架的有效性: 教师-学生训练框架（本文方法和 RMA）在穿越大型台阶方面表现出色，因为它们能够隐式估计地形信息。而无法访问地形信息的控制器（Concurrent、Domain Randomization、Built-in MPC）在台阶高度超过 $13 \mathrm{~cm}$ 时，性能急剧下降并经常跌倒。
本文方法优于 RMA: 当台阶高度超过 $15 \mathrm{~cm}$ $15 cm$ 时，RMA 的性能迅速下降。这种性能差异可能源于学生策略在训练中对低层网络的不同处理方式：
- 本文方法: 学生策略重用教师低层网络学习到的权重，并继续使用教师的动作进行训练。这允许学生策略的低层网络在面对更困难的地形时进行调整。
- RMA: 冻结了学生策略的低层网络。当地形变得更困难时，地形潜在表示的重建误差会更大，导致具有固定权重的学生低层网络输出不稳定。
  
  该图像是图表，展示了不同方法在不同台阶高度下的成功率。图中左侧为上台阶，右侧为下台阶，数据基于10次试验评估，红色表示我们的算法，绿色为RMA，橙色为Concurrent，蓝色为Built-in MPC，紫色为Domain Randomization。

VLM 描述: 该图像是图表，展示了不同方法在不同台阶高度下的成功率。图中左侧为上台阶，右侧为下台阶，数据基于10次试验评估，红色表示我们的算法，绿色为RMA，橙色为Concurrent，蓝色为Built-in MPC，紫色为Domain Randomization。

多变环境中的鲁棒性： 除了单步测试，控制器还在各种真实世界的复杂环境中进行了评估，包括大型路缘、茂密植被、中度岩石地面、松散碎石和草地（如 Figure 1 所示）。这些地形可能变形、崩塌，材料属性也存在显著差异。然而，该策略基于本体感知观测历史学习了鲁棒运动，并展示了从仿真到从未经历过的真实世界地形的零样本泛化能力。

6.1.3. 灵活运动评估

户外冲刺能力 (Table IV): 为了测试控制器的灵活性，作者在真实世界的三个不同地形上评估了户外冲刺能力：塑料跑道、崎岖路面和草地。记录了 $10 \mathrm{~m}$ 冲刺测试的时间，以计算平均运行速度。最大纵向速度指令在仿真和现实世界中均为 $4 \mathrm{~m/s}$ 。

以下是原文 Table IV 的结果：

Terrains	Time Elapsed (s)	Speed (m/s)
Plastic Track (Real)	2.89 ± 0.04	3.46 ± 0.04
Rocky Road (Real)	3.19 ± 0.06	3.14 ± 0.06
Grassland (Real)	3.65 ± 0.10	2.74 ± 0.07

塑料跑道: 机器人在塑料跑道上保持了 $3.46 \mathrm{~m/s}$ 的最大平均速度，因为该地形比其他地形更平坦。
崎岖路面和草地: 尽管这些地形在摩擦、恢复和变形方面比平地有更多变化，且从未在仿真中见过，本文策略仍展示了强大的泛化能力，分别以 $3.14 \mathrm{~m/s}$ 和 $2.74 \mathrm{~m/s}$ 的平均速度通过。
高速旋转: 机器人在实验室平地上加速到最大偏航角速度 $5.8 \mathrm{~rad/s}$ 并安全停止。
跟踪误差: 尽管性能出色，但在现实世界中仍存在跟踪误差。这可能由机器人电机或模拟器不真实的动力学特性导致的 sim-to-real 差距引起。

多变不平坦环境中的灵活性： 机器人能够在植被地形和小型楼梯上稳健地奔跑。由于不使用外部感知传感器，植被中缠绕的枝叶和小型台阶可能会对高速运动造成大量干扰。然而，机器人展示了令人印象深刻的恢复和适应行为，并继续在不平坦的地形上奔跑。这些结果证明，一个单一策略能够同时实现挑战性地形上的稳健运动和自然地形上的灵活运动。

6.1.4. 整体比较

以下是原文 Table V 的结果：

Robot	Blind	Complex Terrains	Froude [35]	Speed (m/s)
A1 [36]	Yes	Unknown	1.1	1.7
MC [7]	Yes	Unknown	5.1	3.9
ANYmal [4]	No	Yes	0.3	1.2
Ours Go1	Yes	Yes	4.2	3.5

Table V 将本文方法与前沿 RL 方法在不同四足机器人上的运动能力进行了整体比较。

本文优势: Ours Go1 是唯一一个同时在 Blind（盲式）和 Complex Terrains（复杂地形）两项上都打勾的系统，并且在 Froude 数和 Speed 方面也表现出高度竞争力。
- A1 [36] 和 MC [7] 能够盲式运动，但它们在复杂地形上的表现未知，且 A1 的速度和 Froude 数较低。MC 虽然速度和 Froude 数很高，但其步态不自然且在复杂地形上的表现未经测试。
- ANYmal [4] 能够在复杂地形上运动，但它不是盲式的（依赖外部感知），且速度和 Froude 数较低。
结论: 这表明本文方法实现了现有研究中的一个重要空白：在仅依靠本体感知的情况下，同时实现对复杂地形的稳健穿越和在自然地形上的灵活高速运动。

6.2. 数据呈现 (表格)

以下是原文 Table I 的结果：

Term	Equation	Weight
Task $r_g$	$\text{exp}(-\left\\|\mathbf{v}_{des} - \mathbf{v}_{t,xy}\right\\|^2 / 0.15)$ $\text{exp}(-\left\\|\boldsymbol{\omega}_{des} - \boldsymbol{\omega}_{t,z}\right\\|^2 / 0.15)$	1.0 0.5
Smoothness $r_l$	$-\left\\|\boldsymbol{\tau}\right\\|^2$ $-\left\\|\boldsymbol{l}\right\\|^2$ $-\left\\|\mathbf{q}_{t-1} - \mathbf{q}_t\right\\|^2$ `\sum_{i=0}^{\text{num_legs}-1} \min (\text{t}_{\text{air},i} - 0.5, 0)`	$1 \times 10^{-4}$ $2.5 \times 10^{-7}$ 0.1 1.0
Safety $r_l$	$-\text{n}_{\text{collision}}$	0.1
Style $r_s$	$\max [0, 1 - 0.25 (d_{\text{score}} - 1)^2]$	0.5

以下是原文 Table II 的结果：

Parameters	Range[Min, Max]	Unit
Link Mass	[0.8, 1.2]×nominal value	Kg
Payload Mass	[0, 3]	Kg
Payload Position	[-0.1, 0.1] relative to base origin	m
Ground Friction	[0.05, 2.75]	-
Ground Restitution	[0.0, 1.0]	-
Motor Strength	[0.8, 1.2]× motor torque	Nm
Joint Kp	[0.8, 1.2]×20	-
Joint Kd	[0.8, 1.2]×0.5	-
Initial Joint Positions	[0.5, 1.5]×nominal value	rad

以下是原文 Table III 的结果：

Module	Inputs	Hidden Layers	Outputs
Low-Level (MLP)	$\boldsymbol{l}_t^{\text{teacher}}$ / $\boldsymbol{l}_t^{\text{student}}$ , $\boldsymbol{o}_t^p$	[256, 128, 64]	$\boldsymbol{a}_t$
Critic (MLP)	$\boldsymbol{x}_t^{\text{teacher}}$	[512, 256, 128]	$V_t$
Memory (LSTM)	$\boldsymbol{o}_t^p$ , $h_{t-1}$ , $c_{t-1}$	[256, 256, 256]	$h_t$
$E_{\theta_p}$ (MLP)	$\boldsymbol{s}_t^p$	[64, 32]	$\boldsymbol{l}_t^p$
$E_{\theta_e}$ (MLP)	$\boldsymbol{i}_t^e$	[256, 128]	$\boldsymbol{l}_t^e$
$E_{\theta_m}$ (MLP)	$h_t$	[256, 128]	$\boldsymbol{l}_t^{\text{student}}$
D (MLP)	$\boldsymbol{s}_t^{AMP}$ , $\boldsymbol{s}_{t+1}^{AMP}$	[1024, 512]	Discriminator score