论文状态：已完成

Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control

发表：2024/01/30

动态双足机器人控制 (1)深度强化学习应用 (1)机器人适应性与鲁棒性 (1)多样化行动技能 (1)双历史结构控制架构 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文通过深度强化学习开发了适用于双足机器人的动态运动控制器，超越了单一运动技能的限制，采用创新的双历史架构，利用长期和短期的输入/输出历史，提升了适应性与鲁棒性。该控制器在多种动态技能中表现优异，并在真实机器人上成功验证，推动了双足机器人的运动能力。

摘要

This paper presents a comprehensive study on using deep reinforcement learning (RL) to create dynamic locomotion controllers for bipedal robots. Going beyond focusing on a single locomotion skill, we develop a general control solution that can be used for a range of dynamic bipedal skills, from periodic walking and running to aperiodic jumping and standing. Our RL-based controller incorporates a novel dual-history architecture, utilizing both a long-term and short-term input/output (I/O) history of the robot. This control architecture, when trained through the proposed end-to-end RL approach, consistently outperforms other methods across a diverse range of skills in both simulation and the real world. The study also delves into the adaptivity and robustness introduced by the proposed RL system in developing locomotion controllers. We demonstrate that the proposed architecture can adapt to both time-invariant dynamics shifts and time-variant changes, such as contact events, by effectively using the robot's I/O history. Additionally, we identify task randomization as another key source of robustness, fostering better task generalization and compliance to disturbances. The resulting control policies can be successfully deployed on Cassie, a torque-controlled human-sized bipedal robot. This work pushes the limits of agility for bipedal robots through extensive real-world experiments. We demonstrate a diverse range of locomotion skills, including: robust standing, versatile walking, fast running with a demonstration of a 400-meter dash, and a diverse set of jumping skills, such as standing long jumps and high jumps.

思维导图

论文精读

中文精读约 68 分钟读完 · 40,646 字

1. 论文基本信息

1.1. 标题

强化学习用于多功能、动态、鲁棒的双足运动控制 (Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control)

1.2. 作者

Zhongyu Li, Xue Bin Peng, Pieter Abbeel, Sergey Levine, Glen Berseth, Koushil Sreenath。他们隶属于加州大学伯克利分校 (University of California Berkeley)、西蒙弗雷泽大学 (Simon Fraser University)、蒙特利尔大学 (Université de Montréal) 和 Mila 魁北克人工智能研究所 (Mila Quebec AI Institute)。

1.3. 发表期刊/会议

预印本，发布于 arXiv。

1.4. 发表年份

2024年 (UTC时间 2024-01-30T10:48:43.000Z)。

1.5. 摘要

本文全面研究了使用深度强化学习 (Deep Reinforcement Learning, RL) 创建双足机器人动态运动控制器的方法。作者超越了专注于单一运动技能的局限，开发了一种通用的控制解决方案，可用于一系列动态双足技能，包括周期性的行走 (walking) 和奔跑 (running)，以及非周期性的跳跃 (jumping) 和站立 (standing)。所提出的基于 RL 的控制器采用了一种新颖的 双历史架构 (dual-history architecture)，利用了机器人长期和短期的输入/输出 (Input/Output, I/O) 历史。这种控制架构通过所提出的 端到端强化学习 (end-to-end RL) 方法进行训练，在仿真和真实世界中，针对各种技能的表现都持续优于其他方法。该研究还深入探讨了所提出的 RL 系统在开发运动控制器时引入的适应性 (adaptivity) 和鲁棒性 (robustness)。作者通过有效利用机器人的 I/O 历史，证明了所提出的架构能够适应 时不变动态变化 (time-invariant dynamics shifts) 和 时变变化 (time-variant changes)，例如接触事件 (contact events)。此外，任务随机化 (task randomization) 被认为是鲁棒性的另一个关键来源，它促进了更好的 任务泛化 (task generalization) 和对扰动 (disturbances) 的顺从性 (compliance)。最终的控制策略 (control policies) 可以成功部署在 Cassie 机器人上，这是一种扭矩控制 (torque-controlled) 的人型双足机器人。这项工作通过大量的真实世界实验，推动了双足机器人敏捷性的极限。作者展示了多种多样的运动技能，包括：鲁棒站立 (robust standing)、多功能行走 (versatile walking)、快速奔跑 (fast running) (包括一次 400 米冲刺演示)，以及各种跳跃技能 (jumping skills)，如立定跳远 (standing long jumps) 和跳高 (high jumps)。

1.6. 原文链接

https://arxiv.org/abs/2401.16889 PDF 链接: https://arxiv.org/pdf/2401.16889v2.pdf

2. 整体概括

2.1. 研究背景与动机

人类环境多样化且主要针对双足运动设计，因此双足机器人领域的一个主要目标是开发能够在这种环境中可靠运行的机器人。当前双足机器人控制面临的核心挑战在于实现多样化、敏捷且鲁棒的运动技能，例如行走、奔跑和跳跃，特别是在高维度人型双足机器人上。

现有研究的挑战与空白 (Gap):

复杂动力学: 双足机器人具有浮动基座 (floating base) 和欠驱动动力学 (underactuated dynamics) 的复杂性，严重依赖与环境的接触。接触会导致轨迹不连续，需要复杂的接触模式规划和模式转换稳定。然而，由于双足机器人的高维度和非线性，利用其全阶动力学模型 (full-order dynamics model) 进行运动规划和控制在计算上成本高昂，难以在线应用。
多样性技能: 双足运动技能的多样性，无论是周期性的 (periodic) 还是非周期性的 (aperiodic)，都对开发一个简单通用的框架构成了重大挑战。例如，奔跑引入了重复的飞行阶段 (flight phase)，机器人在此阶段是欠驱动的，比行走更复杂。周期性技能可以通过小修正实现轨道稳定性 (orbital stability)，但跳跃等非周期性运动缺乏这种固有稳定性，需要有限时间稳定性 (finite-time stability)，并且着陆时伴随巨大的冲击力。
鲁棒性和适应性: 传统的 模型优化控制 (Model-based Optimal Control, OC) 方法往往难以扩展到多种技能和任务，因为它们通常依赖于任务特定的机器人模型和控制框架。此外，机器人硬件的磨损会导致动态特性随时间变化，要求控制器具备适应性。
RL 在双足机器人上的局限: 尽管深度强化学习在四足机器人领域取得了显著进展，但由于双足机器人固有的不稳定性，四足机器人成功的方法可能无法直接应用于双足系统。

论文的切入点或创新思路: 本文旨在通过利用 强化学习 (RL) 来克服上述挑战，创建能够适应机器人不确定动态特性（可能随时间变化的磨损）的控制器。其核心思想是，RL 训练的控制器可以利用机器人的本体感知 (proprioceptive) 信息来适应动态变化，并泛化到新的环境和设置，通过利用双足机器人的敏捷性来展示鲁棒行为。具体来说，本文提出：

开发一个通用的控制框架，能够解锁高维度、非线性双足机器人的全部潜力，使其在真实世界中执行各种动态运动技能。
通过 模型无关强化学习 (model-free RL) 方法，让机器人通过试错学习全阶动力学。
深入分析 RL 在腿部运动控制中的优势，并详细研究如何有效地组织学习过程以利用这些优势，例如适应性和鲁棒性。

2.2. 核心贡献/主要发现

本文在双足机器人腿部运动控制领域取得了以下关键进展：

通用双足运动控制框架的开发: 引入了一个通用的 RL 框架，该框架对广泛的运动技能（包括周期性如行走和奔跑、非周期性如跳跃以及静态如站立）都有效。所产生的控制器可以直接部署在真实机器人上，无需任何额外的调优或在物理系统上进行训练。
基于 RL 的控制策略的新颖设计选择: 提出了 双历史架构 (dual-history architecture)，用于非循环 (non-recurrent) RL 策略，该架构集成了机器人的长短期输入/输出 (I/O) 历史，并明确指定了历史长度。结合提出的训练策略（基策略与短期历史以及长期历史编码器联合训练），该架构在学习动态双足运动控制方面表现出 最先进的性能 (state-of-the-art performance)，在各种运动技能中提供了一致的优势，这在仿真和真实世界实验中都得到了验证。
实证研究 RL 控制器中的适应性: 进行了详细的实证研究，探讨了通过 RL 开发的控制策略的适应性。研究表明，RL 带来的适应性不仅包括动态特性的 时不变变化 (time-invariant shifts)，还包括像 接触事件 (contact events) 这样的 时变变化 (time-variant changes)。这在仿真和真实世界实验中都得到了验证。
提升 RL 控制器的鲁棒性: 研究引入了 RL 控制策略鲁棒性的一个新维度。除了机器人技术中常用的 动态随机化 (dynamics randomization)，作者还证明 任务随机化 (task randomization)（在广泛任务范围内训练策略）显著增强了鲁棒性，因为它促进了 任务泛化 (task generalization) 和对扰动的顺从性。
广泛的真实世界验证和新颖的双足运动能力演示: 该系统能够在真实世界中利用 Cassie 机器人重现多种运动技能。Cassie 能够以可忽略的跟踪误差和对意外扰动的显著鲁棒性来跟踪变化的指令，包括行走、奔跑和跳跃。此外，作者展示了双足机器人的新能力，如使用不同技能进行鲁棒站立恢复、鲁棒行走（长时间内控制性能一致）、使用奔跑控制器完成 400 米冲刺，以及执行各种双足跳跃（包括立定跳远和跳高）。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文，需要掌握以下核心概念：

强化学习 (Reinforcement Learning, RL):
- 智能体 (Agent): 执行动作的实体，在本论文中指机器人。
- 环境 (Environment): 智能体与之交互的系统，在本论文中指物理世界（仿真或真实机器人）。
- 状态 (State, $\mathbf{s}_t$ ): 环境的完整描述，智能体据此做出决策。
- 动作 (Action, $\mathbf{a}_t$ ): 智能体在环境中执行的输出，在本论文中指机器人关节的期望位置。
- 观测 (Observation, $\mathbf{o}_t$ ): 智能体从环境中接收到的部分状态信息。
- 奖励 (Reward, $r_t$ ): 智能体执行动作后从环境中获得的标量反馈，用于指导学习。
- 策略 (Policy, $\pi$ ): 定义了在给定观测下，智能体如何选择动作的规则或函数 ( $\mathbf{a}_t = \pi(\mathbf{o}_t)$ )。
- 部分可观测马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP): 一种马尔可夫决策过程的泛化，其中智能体无法直接观测到环境的完整状态，只能通过观测获取部分信息。本论文将机器人运动控制建模为一个 POMDP。
- 近端策略优化 (Proximal Policy Optimization, PPO): 一种流行的 策略梯度 (policy gradient) 强化学习算法，用于训练 策略 (policy)，通过限制策略更新的步长来提高训练的稳定性。
双足机器人 (Bipedal Robots):
- Cassie 机器人: 本论文使用的实验平台，一种扭矩控制 (torque-controlled) 的人型双足机器人。具有 浮动基座 (floating-base) 特性（意味着其基座在空间中自由运动，不像固定基座的机器人）。
- 欠驱动动力学 (Underactuated Dynamics): 机器人的自由度 (Degrees of Freedom, DoFs) 数量大于其驱动器 (actuators) 的数量，这意味着并非所有关节都能被直接控制。
- 关节 (Joints): 机器人身体各部分连接处，允许相对运动。
- 致动关节 (Actuated Joints): 带有电机可被主动控制的关节。
- 被动关节 (Passive Joints): 没有电机，通过机械连杆或弹簧连接，其运动受其他关节影响的关节。
- 扭矩控制 (Torque Control): 直接控制机器人关节输出的扭矩，相对于位置或速度控制，能实现更精细和动态的运动。
- PD 控制器 (Proportional-Derivative Controller): 一种常见的反馈控制器，根据 误差 (error) 的比例 (Proportional) 和 误差变化率 (Derivative) 来计算控制输出。在本论文中，用于将策略输出的 期望电机位置 (desired motor positions) 转换为实际的 电机扭矩 (motor torques)。
控制理论 (Control Theory):
- 适应性控制 (Adaptive Control): 一种在系统参数未知或随时间变化时，控制器能够调整自身以维持良好性能的控制方法。
  - 直接适应性控制 (Direct Adaptive Control): 直接调整控制器参数，而不显式估计系统参数。
  - 间接适应性控制 (Indirect Adaptive Control): 首先估计系统参数，然后基于这些估计调整控制器。
- 系统识别 (System Identification): 从输入/输出数据中建立或改进数学模型的过程，以描述系统的动态特性。
- 最优控制 (Optimal Control, OC): 寻找使给定 代价函数 (cost function) 最小化的控制输入序列。
- 混合零动力学 (Hybrid Zero Dynamics, HZD): 一种用于双足机器人周期性步态控制的模型基方法，通过施加虚拟约束 (virtual constraints) 使系统在低维度流形上表现出期望的周期性运动。
- 线性倒立摆模型 (Linear Inverted Pendulum, LIP): 机器人腿部运动的简化模型，将机器人的质量集中在一个点（质心 (Center of Mass, CoM)）上，并假设其高度不变，常用于简化步态规划。
- 全身控制 (Whole-Body Control, WBC): 一种通过优化器协调机器人所有关节（包括末端执行器）运动以实现复杂任务的方法，通常涉及解决 二次规划 (Quadratic Programming, QP) 问题。
神经网络 (Neural Networks):
- 多层感知器 (Multilayer Perceptron, MLP): 最简单的前馈神经网络，由多个全连接层组成，通常用于处理静态输入。
- 一维卷积神经网络 (1D Convolutional Neural Network, CNN): 适用于处理序列数据，通过 卷积核 (convolutional kernels) 沿时间维度提取特征。
- 循环神经网络 (Recurrent Neural Network, RNN): 专门用于处理序列数据，通过内部 隐藏状态 (hidden states) 记忆过去信息，如 长短期记忆网络 (Long Short-Term Memory, LSTM)。
- 时间卷积网络 (Temporal Convolutional Network, TCN): 另一种处理序列数据的方法，利用 膨胀卷积 (dilated convolutions) 捕获长距离依赖关系，同时避免了 RNN 的梯度消失/爆炸问题。

3.2. 前人工作

论文在 相关工作 (Related Work) 部分对双足机器人运动控制的 模型基最优控制 (Model-based Optimal Control, OC) 和 模型无关强化学习 (Model-free Reinforcement Learning, RL) 两种主要方法进行了回顾。

1. 模型基最优控制 (Model-based Optimal Control, OC):

方法概述: 将双足机器人运动控制建模为 最优控制问题 (optimal control problem)，以机器人动力学模型作为运动约束。为应对计算复杂性，通常采用 级联优化框架 (cascaded optimization framework)。
模型选择:
- 全阶动力学模型 (Full-order Dynamics Model): 适用于离线优化特定行为轨迹，但计算成本高。如 HZD (Hybrid Zero Dynamics) 方法通过全阶模型设计周期性步态。
- 降阶模型 (Reduced-order Models): 适用于在线轨迹优化，如 质心动力学 (centroidal dynamics)、线性倒立摆 (LIP) 及其变体 (SLIP, ALIP, H-LIP)，用于优化 质心 (CoM) 和/或 压足点 (Center of Pressure, CoP) 轨迹。
- 反应式控制器 (Reactive Controllers): 全身控制 (Whole-Body Control, WBC) 将降阶模型状态转换为关节级输入，快速求解包含约束的 二次规划 (Quadratic Programming, QP) 问题。
接触规划 (Contact Planning): 腿部机器人与环境的接触是非光滑的，使得 OC 问题难以同时决定每条腿的接触模式。
- 预定义接触序列 (Pre-defined Contact Sequences): 大多数工作预先定义了特定运动技能的接触序列（如行走、奔跑、跳跃）。
- 接触隐含方法 (Contact-implicit Methods): 通过强制 互补约束 (complementarity constraints) 或 双层优化 (bilevel optimization) 避免显式离散变量。
扩展性 (Scalability) 挑战: 模型基 OC 方法在不同运动技能和任务之间的扩展性差，通常需要针对特定任务调整机器人模型和控制框架。例如，HZD 和 LIP 方法在从行走扩展到奔跑或跳跃时面临限制。

2. 模型无关强化学习 (Model-free Reinforcement Learning, RL):

方法概述: 借助于深度 RL 的最新发展，在四足机器人控制中取得了显著进展，但双足机器人由于其不稳定性，挑战更大。
控制策略结构 (Control Policy Structure): 策略结构受观测 формулировка 影响，特别是机器人 状态历史 (states-only history) 或 I/O 历史 (I/O history) 的使用。
- 历史长度: 四足机器人中，历史长度从 1-15 步的短 I/O 历史到 50 步以上的长状态或 I/O 历史不等。策略架构根据历史长度选择，短历史用 MLP，长历史用循环单元 (recurrent units)。
- 双足机器人趋势: 双足机器人倾向于使用更长的历史，从单步状态反馈到短 I/O 历史，再到长状态或 I/O 历史。
- 本研究的创新点: 提出 双历史 方法，同时利用长短 I/O 历史，解决了以往研究中长历史可能无法完全发挥优势的问题。
仿真到真实 (Sim-to-real Transfer):
- 直接在硬件上训练: 成本高昂，尤其对于人型双足机器人。
- 仿真预训练 + 硬件微调: 一种折衷方案。
- 零样本迁移 (Zero-shot Transfer): 通过 动态随机化 (dynamics randomization) 实现，是本文关注的焦点。
- 训练方法:
  - 端到端训练 (End-to-end Training): 策略直接从机器人测量或 I/O 历史中学习，如本文所用。
  - 策略蒸馏 (Policy Distillation): 专家策略 (expert policy)（有特权信息）监督 学生策略 (student policy) 学习。如 教师-学生 (Teacher-Student, TS) 或 快速运动适应 (Rapid Motor Adaptation, RMA)。本文指出其在扭矩控制双足机器人上需要额外微调，且端到端训练可能更有效。
扩展性 (Scalability) 挑战: 使用单一策略学习多样化运动技能或任务存在挑战，因为需要优化多个目标。
- 单一技能固定任务: 早期工作集中于此。
- 单一技能多任务: 通过提供不同指令（如不同速度）实现，但对双足机器人仍需大量奖励调优。
- 本文的平衡: 专注于开发 技能特定 (skill-specific) 的控制策略，这些策略可以执行多样化的任务，同时保持适用于开发不同技能的通用框架。

3.3. 技术演进

双足机器人运动控制的技术演进可以概括为从 模型强依赖 到 数据驱动，从 单一任务 到 多功能，以及从 仿真环境 到 真实世界 的鲁棒迁移。

早期 (Model-based Era): 聚焦于利用精确的机器人动力学模型进行运动规划和控制。HZD、LIP 和 WBC 等方法是这一时期的代表。它们能够实现稳定的周期性步态，但通常计算成本高昂，难以在线应用，且对模型不确定性和环境变化不够鲁棒，难以扩展到多样化的动态技能。
RL 崛起 (Emergence of RL): 深度强化学习的兴起为解决模型复杂性和不确定性提供了新途径。最初在四足机器人上取得突破，证明了 RL 在学习复杂运动技能方面的潜力。但在双足机器人领域，由于其固有的不稳定性，直接应用面临挑战。
仿真到真实 (Sim-to-Real): 为了弥合仿真与现实之间的鸿沟，动态随机化 成为关键技术，使得在仿真中训练的策略能够零样本迁移到真实机器人。同时，策略蒸馏 (如 TS, RMA) 也被提出，旨在将特权信息 (privileged information) 从专家策略传递给学生策略，以提高迁移能力。
追求多功能性 (Pursuit of Versatility): 随着技术发展，研究开始超越单一运动技能，探索如何让机器人学习多种技能或在单一技能内执行多种任务。这包括参数化指令、使用运动捕捉数据或动画作为参考。
本文的贡献和位置: 本文站在了这一演进的前沿，结合了以下先进思想并进行了创新：
- 模型无关 RL: 避免了模型基方法的复杂性。
- 双历史架构: 针对双足机器人特有的挑战，提出了一种新颖的观测处理方式，有效利用了长期和短期的 I/O 信息，提升了策略的适应性。
- 端到端训练: 相对于策略蒸馏，本文证明了端到端训练在双足机器人复杂动态技能学习上的优越性。
- 任务随机化: 创新性地将 任务随机化 作为提升鲁棒性和泛化能力的关键手段，补充了传统的 动态随机化。
- 真实世界验证: 通过在 Cassie 机器人上实现广泛的、最先进的动态技能（如 400 米冲刺、高跳、长跳），将理论成果推向了实际应用，并强调了控制器在长时间内的鲁棒性和一致性。

3.4. 差异化分析

本文的方法与相关工作的主要区别和创新点在于：

I/O 历史的有效利用：双历史架构 vs. 传统方法：
- 传统: 现有 RL 方法在 I/O 历史使用上没有共识，或仅使用短历史、长状态历史，或在长历史编码后未明确提供短期反馈。一些研究指出，单纯的长历史可能无法超越短历史。
- 本文创新: 提出了 双历史架构，将 长 I/O 历史 通过 CNN 编码器 进行系统识别和状态估计，同时将 短 I/O 历史 直接输入到 基 MLP (base MLP) 进行实时控制。这解决了长历史信息可能被编码器模糊的问题，并在仿真和真实世界中都表现出显著的性能提升。
训练策略：端到端强化学习 vs. 策略蒸馏 (Policy Distillation):
- 传统: 教师-学生 (Teacher-Student, TS) 或 快速运动适应 (Rapid Motor Adaptation, RMA) 等策略蒸馏方法在四足机器人中流行，通过专家策略监督学生策略学习，通常需要估计预选的系统参数（间接适应性控制）。
- 本文创新: 采用 端到端强化学习 方法，直接从 I/O 历史中学习，属于 直接适应性控制 范畴。实验证明，这种方法在学习复杂动态双足运动技能时表现出更好的性能，尤其在 RMA 在奔跑等任务中失败时，本文方法仍能达到接近专家策略的性能，且无需额外的微调阶段。
鲁棒性来源：任务随机化 vs. 动态随机化:
- 传统: 鲁棒性主要通过 动态随机化 实现，即在仿真中随机化机器人物理参数以应对不确定性。
- 本文创新: 强调 任务随机化 是鲁棒性的另一个关键来源。通过在广泛的任务范围内训练策略，机器人能够泛化已学习的任务，从而在面对意外扰动时表现出更强的顺从性和恢复能力。本文认为 任务随机化 与 动态随机化 是“正交”的，可以进一步拓宽训练分布。
技能泛化和接触规划：通用框架 vs. 任务特定:
- 传统: 模型基 OC 方法在不同技能之间扩展性差，常依赖预定义的接触序列。RL 方法也常专注于单一技能或通过特定策略处理技能转换。
- 本文创新: 提出一个对各种技能通用的控制策略架构，仅通过改变 参考运动 (reference motion) 和 命令 (commands) 即可训练不同技能。更重要的是，机器人能够在线自主发展接触策略，甚至偏离参考运动隐含的接触计划，以增强稳定性和鲁棒性，实现 接触隐含优化 的在线版本。
真实世界表现:
- 本文在 Cassie 机器人上进行了广泛的真实世界实验，展示了 最先进的 (state-of-the-art) 结果，包括 400 米冲刺、高跳、长跳等，并证明了控制器在长时间（超过一年）使用中的一致性性能，以及对未训练地形和外部扰动的鲁棒性。

4. 方法论

4.1. 方法原理

本文的核心原理是利用 深度强化学习 (Deep Reinforcement Learning, RL) 来训练一个 通用 (general)、多功能 (versatile)、动态 (dynamic) 且 鲁棒 (robust) 的双足机器人运动控制器。其背后的直觉是：

利用数据驱动的优势: 对于高维度、非线性的双足机器人系统，精确建模和在线优化是极其困难的。RL 允许机器人通过 试错学习 (trial-and-error) 直接从与环境的交互中学习复杂的控制策略，而无需显式的动力学模型。
I/O 历史驱动的适应性: 机器人的 输入/输出 (I/O) 历史 包含了丰富的系统动态信息，可以帮助控制器进行 系统识别 (system identification) 和 状态估计 (state estimation)。通过学习有效利用这些历史信息，控制器能够适应 时不变 (time-invariant) 的动力学参数变化（如磨损、载荷）以及 时变 (time-variant) 的事件（如接触、外部扰动），从而实现 直接适应性控制 (direct adaptive control)。
任务随机化驱动的鲁棒性: 仅仅通过 动态随机化 (dynamics randomization) 来提升鲁棒性是有限的。通过在广泛的任务范围内训练策略 (任务随机化)，机器人能够学习更通用的控制策略，并在面对意外情况时 泛化 (generalize) 出适应性行为，例如通过侧向行走来抵消横向推力，或者通过小跳来纠正着陆姿态。这使得策略不仅能应对训练中见过的变化，还能对未曾预料的扰动表现出 顺从性 (compliance)。
多阶段训练的课程学习: 复杂的运动技能和鲁棒性不能一蹴而就。通过 多阶段训练 (multi-stage training) 框架，从简单的 单任务学习 (single-task training) 开始，逐步引入 任务多样性 (task diversity)，最后加入 动态随机化，为机器人提供了一个结构化的学习路径，使其能够逐步掌握复杂的技能并实现 零样本迁移 (zero-shot transfer) 到真实世界。

通过这些原理，本文旨在构建一个能够充分发挥双足机器人 全阶动力学 (full-order dynamics) 潜力的控制器，使其在真实世界中表现出卓越的敏捷性和可靠性。

4.2. 核心方法详解

4.2.1. 控制框架与策略架构

本研究提出的运动控制策略 $\pi_\theta$ 是一个 深度神经网络 (deep neural network)，其参数由 $\theta$ 表示。该策略的目标是为机器人输出 期望电机位置 (desired motor positions) $\mathbf{q}_m^d \in \mathbb{R}^{10}$ ，这构成了 智能体 (agent) 的 动作 (action) $\mathbf{a}_t$ 。

动作处理流程：

低通滤波 (Low Pass Filter, LPF): 策略输出的动作首先会通过一个 低通滤波器 (LPF) 进行平滑处理。这有助于抑制高频振动，使机器人运动更流畅。LPF 的使用详情在附录 A 中讨论。
PD 控制器: 经过 LPF 平滑后的动作，被关节级的 PD 控制器 (PD controllers) 用于计算 电机扭矩 (motor torques) $\tau$ $τ$ ，这些扭矩随后施加到机器人的 致动关节 (actuated joints) 上。
- 策略的查询频率为 $33 \text{ Hz}$ 。
- PD 控制器的工作频率更高，为 $2 \text{ kHz}$ 。

策略的输入 (观测, Observation): 在每个时间步 $t$ ，策略的输入包含四个关键组成部分：

给定命令 (Command, $\mathbf{c}_t$ ): 表示机器人需要完成的任务目标，例如行走速度、跳跃目标位置等。其定义在 2.1.2 解决 POMDP 与 I/O 历史 中描述。
参考运动 (Reference Motion, $\mathbf{q}_t^r$ ): 特定技能的参考运动预览，帮助机器人避免短视。它包括未来时间步的期望电机位置，例如 $\mathbf{q}_t^r = [\mathbf{q}_m^d(t+1), \mathbf{q}_m^d(t+4), \mathbf{q}_m^d(t+7)]$ ，这些是提前 1、4 和 7 个时间步采样的。如果命令 $\mathbf{c}_t$ 不包含期望基座高度，则当前基座高度 $q_z^r(t)$ 也会包含在 $\mathbf{q}_t^r$ 中。
机器人短期 I/O 历史 ( $<\mathbf{o}_{t:t-4}, \mathbf{a}_{t-1:t-4}>$ ): 机器人在最近四个时间步的观测和动作历史。这个短期历史（约 0.1 秒）直接作为输入提供给 基网络 (base network)，提供实时的反馈信息。
机器人长期 I/O 历史 ( $<\mathbf{o}_{t:t-65}, \mathbf{a}_{t-1:t-66}>$ ): 机器人在过去两秒的 I/O 历史，包含 66 对机器人 I/O 数据。这部分历史用于系统识别和状态估计。

双历史架构详解 (Dual-History Architecture): 如图 Figure 3 所示，策略架构 $\pi_\theta$ 由两个主要部分构成：

基网络 (Base Network): 由一个 多层感知器 (Multilayer Perceptron, MLP) 建模。它接收 命令、参考运动、短期 I/O 历史 以及 长期历史编码器 输出的 嵌入 (embedding) 作为输入。
- 基 MLP 具有两个隐藏层，每个隐藏层包含 512 个 tanh 激活单元。
长期历史编码器 (Long-Term History Encoder): 由一个 一维卷积神经网络 (1D CNN) 建模。它处理长期的 I/O 历史数据，并将其压缩成一个 潜在表示 (latent representation)，然后作为输入传递给基 MLP。
- 1D CNN 编码器包含两个隐藏层，其配置为：
  - 第一层: [卷积核大小 (kernel size), 滤波器大小 (filter size), 步长 (stride size)] = [6, 32, 3]
  - 第二层: [卷积核大小 (kernel size), 滤波器大小 (filter size), 步长 (stride size)] = [4, 16, 2]
- 激活函数使用 relu，不进行填充 (padding)。
- 66 个时间步长的 I/O 历史通过沿时间轴的 时间卷积 (temporal convolutions) 进行编码，然后压缩成 潜在表示。

输出层:

基 MLP 的输出层由 tanh 单元组成，指定了 归一化动作 (normalized action)（相对于电机范围）的 高斯分布 (Gaussian distribution) 的 均值 (mean)。
动作分布的 标准差 (standard deviation) 由固定值 $0.1\mathbf{I}$ 指定。

通用策略结构:

该控制策略结构是通用的，可广泛应用于各种运动技能，如站立、行走、奔跑和跳跃。
为训练不同技能的策略，用户只需提供不同的 参考运动 和 命令，策略的底层架构保持不变。

机器人 Cassie 的动力学模型: Cassie 机器人是具有浮动基座的系统，总共有 $n = 20$ 个自由度 (DoFs)，其中 $n_a = 10$ 个是致动关节。其动力学方程通过 欧拉-拉格朗日 (Euler-Lagrange) 方法得到： $\mathbf{M}(\mathbf{q})\ddot{\mathbf{q}} + \mathbf{C}(\mathbf{q}, \dot{\mathbf{q}})\dot{\mathbf{q}} + \mathbf{G}(\mathbf{q}) = \mathbf{B}\tau + \kappa_{\mathrm{sp}}(\mathbf{q}, \dot{\mathbf{q}}) + \zeta_{\mathrm{ext}}$ 其中：

$\mathbf{M} \in \mathbb{R}^{n \times n}$ ：广义质量矩阵 (generalized mass matrix)。
$\mathbf{C} \in \mathbb{R}^{n \times n}$ ：离心力 (centrifugal) 和哥氏力 (Coriolis) 矩阵。
$\mathbf{G} \in \mathbb{R}^{n}$ ：广义重力 (generalized gravity)。
$\tau \in \mathbb{R}^{n_a}$ ：广义控制输入（电机扭矩），通过 $\mathbf{B} \in \mathbb{R}^{n \times n_a}$ 分布。
$\kappa_{\mathrm{sp}}(\mathbf{q}, \dot{\mathbf{q}})$ ：状态依赖的弹簧扭矩 (state-dependent spring torques)。
$\zeta_{\mathrm{ext}}$ ：广义外部力，包括足部接触力矩 $\mathbf{J}_c^T \mathbf{F}_c$ 和施加在机器人上的关节摩擦或扰动。
$\mathbf{J}_c(\mathbf{q}) \in \mathbb{R}^{n_c \times n}$ ：接触雅可比 (contact Jacobian)。
$n_c$ ：接触力矩的维度，随地面支撑腿数量变化。

可观测状态 (Observable States, $\mathbf{o}$ ): 机器人无法可靠测量或估计所有状态。可观测状态 $\mathbf{o} \in \mathbb{R}^{26}$ 包括：

电机位置和速度 ( $\mathbf{q}_m, \dot{\mathbf{q}}_m$ )：通过 关节编码器 (joint encoders) 测量和估计。
基座姿态 ( $q_{\phi, \theta, \psi}$ ): 通过 惯性测量单元 (IMU) 测量。
基座线速度 ( $\dot{q}_{x,y,z}$ ): 通过 扩展卡尔曼滤波器 (Extended Kalman Filter, EKF) 估计。

4.2.2. 多阶段训练框架

本文提出一个 多阶段训练 (multi-stage training) 策略，旨在训练出能够零样本迁移到真实世界的 多功能控制策略 (versatile control policy)。如图 Figure 4 所示，该策略分为三个阶段：

单任务训练 (Single-task training):
- 目标: 让机器人从零开始掌握一种运动技能，例如前进、奔跑或原地跳跃，同时避免不期望的机动策略。
- 特点: 机器人专注于模仿单一 参考运动 (reference motion)，具有固定的目标 命令 (command)。
任务随机化 (Task randomization):
- 目标: 扩展机器人学习的任务范围，促进 任务泛化 (task generalization)，从而形成一个 多功能策略。
- 特点: 引入多样化的 命令，鼓励机器人利用已掌握的技能执行各种任务（例如不同速度、转向、目标位置）。
动态随机化 (Dynamics randomization):
- 目标: 在机器人熟练掌握各种运动任务及其转换后，引入广泛的 动态随机化 来增强策略的 鲁棒性 (robustness)，以确保从仿真到真实机器人硬件的成功 零样本迁移 (zero-shot transfer)。
- 特点: 在仿真中随机改变机器人的物理参数和传感器噪声。
- 本文还指出，任务随机化 可以增强策略的 鲁棒性，使其对扰动表现出 顺从性 (compliance)。

组合站立技能 (Combining a Standing Skill):

在 阶段 2 中，引入一个额外的子阶段，使机器人能够学习 站立 (standing) 技能的转换（以及从站立返回）。
尽管先前的方法可能使用独立的策略来处理这种转换，本文证明了使用 单一策略 实现快速转换并泛化学习到的运动技能以显著提高站立期间的鲁棒性。

参考运动 (Reference Motion): 为每种运动技能提供一个或一组 参考运动，作为机器人应该执行的运动示例。

轨迹优化 (Trajectory Optimization): 用于生成行走技能的 参考运动库 (library of reference motions)，包含基于机器人 全阶动力学 的多样化周期性行走步态。例如，速度和高度范围内的 1331 种不同参考运动。
运动捕捉 (Motion Capture): 奔跑技能的 参考运动 源自人类演员的运动捕捉数据，通过 逆运动学 (inverse kinematics) 重定向 (retargeted) 到 Cassie 的形态。包括一个平均速度为 $3 \text{ m/s}$ 的周期性奔跑运动，以及从奔跑到站立的过渡运动。
动画 (Animation): 跳跃技能的 参考运动 通过 3D 动画制作套件手工创建。例如，一个原地跳跃动画，最高脚部高度为 $0.5 \text{ m}$ ，跳跃时间 1.66 秒，并以站立姿态结束。

奖励函数 (Reward Function): 奖励函数 $r_t$ 是在每个时间步 $t$ 智能体 (agent) 获得的，旨在鼓励机器人执行期望的运动技能并完成任务。它由几个 奖励分量 (reward components) 的加权求和组成，即 $r_t = (\mathbf{w} / ||\mathbf{w}||_1)^T \mathbf{r}$ 。每个奖励分量 $\mathbf{r}$ 具有以下形式： $r(\mathbf{u}, \mathbf{v}) = \exp(-\alpha ||\mathbf{u} - \mathbf{v}||_2)$ 其中：

最大化 $r(\mathbf{u}, \mathbf{v})$ 激励机器人最小化两个向量 $\mathbf{u}$ 和 $\mathbf{v}$ 之间的距离。
$\alpha > 0$ 是缩放因子，用于归一化单位，使输出范围为 (0, 1]。

奖励分量类型:

运动跟踪 (Motion tracking):
- 电机位置奖励 $r(\mathbf{q}_m, \mathbf{q}_m^r(t))$ 。
- 全局骨盆高度 $r(q_z, q_z^r(t) + \delta_z)$ 。
- 全局足部高度 $r(\mathbf{e}_z, \mathbf{e}^r(t) + \delta_z)$ 。
- $\delta_z$ 考虑了地形高度变化或目标抬高高度。
- 奖励中使用了 特权环境信息 (privileged environment information)，如机器人的全局高度、足部高度或地形高度。
任务完成 (Task completion):
- 骨盆速度 $r(\dot{q}_{x,y}, \dot{q}_{x,y}^d)$ 和 $r(\dot{q}_{\phi,\theta,\psi}, [0, 0, \dot{q}_{\psi}^d])$ 。
- 全局姿态跟踪 $r(q_{x,y}, q_{x,y}^d)$ 和 $r(\cos(q_{\phi,\theta,\psi} - [0, 0, q_{\psi}^d]), 1)$ 。
- 对于周期性技能，关注期望的速度；对于非周期性技能，关注 期望着陆目标 (desired landing targets) 和平均速度。
平滑性 (Smoothing):
- 减少冲击力 $r(F_z, 0)$ 。
- 减少能量消耗 $r(\tau, 0)$ 。
- 最小化电机速度 $r(\dot{\mathbf{q}}_m, 0)$ 。
- 抑制关节加速度 $r(\ddot{\mathbf{q}}, 0)$ 。
- 调节动作变化 $r(\mathbf{a}_t, \mathbf{a}_{t+1})$ 。
  
  奖励权重 (Reward Weights): (参见 Table III)

跨阶段权重: 阶段 1 侧重 运动跟踪；阶段 2 侧重 任务完成。平滑性 权重在早期较低，后期可逐渐增加。
跨技能权重: 奔跑和跳跃等涉及飞行阶段的技能，足部高度跟踪 权重更高，任务完成 权重也更高，以鼓励探索多样任务。平滑性 权重基本一致，但对奔跑和跳跃的动作变化项会加强。

回合设计 (Episode Design):

统一方法: 所有技能和训练阶段的回合持续时间均为 2500 个时间步（对应 76 秒）。在 阶段 2，命令 在 1 到 15 秒的随机时间间隔后随机化。
早期终止条件 (Early Termination Conditions):
- 机器人跌倒 ( $q_z < 0.55 \text{ m}$ )。
- 跗骨关节 $q_6^{L/R}$ 触碰极限。
- 足部高度跟踪容差: $| \mathbf{e}_z - \mathbf{e}_z^r(t) - \delta_z | > E_e$ ，当机器人足部高度与参考运动偏差超过阈值 $E_e$ 时终止。这对于涉及飞行阶段的技能尤其有效。
- 任务完成容差: $| q_{x,y,\psi} - q_{x,y,\psi}^d | > E_t$ ，当机器人偏离给定命令的姿态超过阈值 $E_t$ 时终止。
- 容差调整: $E_e$ 和 $E_t$ 阈值可根据训练进度调整。

动态随机化 (Dynamics Randomization): 在训练 阶段 3 引入，以训练 鲁棒 (robust) 且能 泛化 (generalize) 的策略，应对仿真到真实世界的不确定性。在每个回合中，动态参数 从其均匀分布中采样。

解决建模不确定性: 地面摩擦系数、关节阻尼比、连杆质量、惯性和质心 (CoM) 位置。Cassie 的被动关节弹簧刚度 ( $\pm 20\%$ )。电机 PD 增益 ( $\pm 30\%$ )。
解决测量不确定性: 观测状态 $\mathbf{o}_t$ 添加模拟噪声（均值从指定范围均匀采样）。模拟 通信延迟 (communication delay)（0 到 0.025 秒）。
随机化扰动 (Randomized Perturbation, 可选): 在训练中施加 外部扰动扭矩 (external perturbation wrenches) 到机器人骨盆。但对于跳跃等高动态技能可能阻碍学习。
随机地形 (Randomized Terrain, 可选): 模拟地形变化，包括波浪地形、斜坡、楼梯、台阶。机器人通过 I/O 历史适应地形变化，而非视觉。

训练细节 (Training Details):

仿真环境: MuJoCo。
训练算法: 近端策略优化 (Proximal Policy Optimization, PPO)。
策略 (actor) 和 价值函数 (value function) (2 层 MLP)。
训练迭代次数和超参数在附录 D 中详细说明。

图像 23: RL-based 控制器架构

$Fig. 3: The proposed RL-based controller architecture that leverages a dual-history of input (a) and output (o) (I/O) from the robot. The control policy $\\pi _ { \\theta }$ ,operating at \$3 3 \\ \\mathr…$ 该图像是示意图，展示了基于强化学习的控制器架构。该架构利用机器人的输入（I/O）历史，通过1D卷积神经网络（CNN）与多层感知器（MLP）结合处理，使其能够适应多种动态双足运动技能。图中显示的控制策略 $\pi_{\theta}$ 处理2秒的长I/O历史数据，并输出期望的电机位置 $\mathbf{q}_m^d$ 。此外，图中还标注了机器人Cassie的关节坐标和控制信息。

描述: 该图像详细展示了本文提出的 基于 RL 的控制器架构 (RL-based controller architecture)，该架构利用机器人的 输入/输出 (I/O) 历史。控制器在 $33 \text{ Hz}$ 频率下运行，处理 2 秒长的 I/O 历史数据。
数据流:
- 长期 I/O 历史 (Long I/O History, 2 秒，66 对数据) 通过 1D CNN 沿时间轴编码，生成 潜在表示 (Latent Representation)。
- 短期 I/O 历史 (Short I/O History, 4 个时间步) 直接与 基 MLP (Base MLP) 融合。
- 技能特定参考运动 $\mathbf{q}_t^r$ (Reference Motion) 和 变量命令 $\mathbf{c}_t$ (Variable Commands) 也作为输入进入基 MLP。
策略输出: 策略 $\pi_\theta$ 输出 期望电机位置 $\mathbf{q}_m^d$ (Desired Motor Positions)，即机器人的 动作 (Action)。
动作后处理: 动作 经过 低通滤波器 (LPF) 平滑。
底层控制: 滤波后的输出被 关节级 PD 控制器 (Joint-level PD Controllers) 在 $2 \text{ kHz}$ 频率下用于生成 电机扭矩 $\tau$ (Motor Torques)。
通用性: 该架构适用于站立、行走、奔跑和跳跃等多种运动技能。
Cassie 机器人关节标注: 图中还标注了 Cassie 机器人的 广义坐标 (generalized coordinates)，包括致动关节 (红色标注，如 $q_{1,2,3,4,7}^{L/R}$ ) 和被动关节 (蓝色标注，如 $q_{5,6}^{L/R}$ )。

图像 34: 多阶段训练框架

Fig. 4: The multi-stage training framework to obtain a versatile control policy that can be zero-shot transferred to the real world. It starts with single-task training stage, where the robot is enco… 该图像是一个示意图，展示了多阶段训练框架用于获得可零-shot 转移至真实世界的灵活控制策略。左侧展示了参考动作及单任务训练，随后通过任务随机化扩展任务范围，最后加入动态随机化以增强策略的鲁棒性，适用于多种步态，如行走、跑步和跳跃。

描述: 该图像展示了用于获得可 零样本迁移 (zero-shot transferred) 到真实世界的 多功能控制策略 (versatile control policy) 的 多阶段训练框架 (multi-stage training framework)。
阶段一: 单任务训练 (Single-task training):
- 机器人首先通过模仿 单一参考运动 (single reference motion) 和 固定目标 (fixed goal) 来学习特定技能。
- 参考运动 可以来自 轨迹优化 (Trajectory Optimization)、人体运动捕捉 (Human Mocap) 或 动画 (Animation)。
阶段二: 任务随机化 (Task randomization):
- 此阶段扩展了机器人学习的任务范围，通过 多样化的命令 (diverse commands) 促进 任务泛化 (task generalization)，从而形成一个 多功能策略。
阶段三: 动态随机化 (Dynamics randomization):
- 一旦机器人熟练掌握了各种运动任务及其转换，此阶段会引入广泛的 动态随机化 (dynamics randomization)，以增强策略的 鲁棒性 (robustness)，确保成功地从仿真迁移到真实机器人硬件。
适用性: 该框架适用于各种双足运动技能，包括行走、奔跑和跳跃，并能从不同来源的技能特定参考运动中学习。

表格 III: 奖励函数权重

以下是原文 Table III 的结果：

Reward Component r	Weight w
	Nominal Value		Walking Skill				Jumping Skill
	Nominal Value	Stage 1	Stage 2, 3	Stage 1	Stage 2, 3	Stage 1	Stage 2, 3
	Motion Tracking
Motion position: r(qm, qm(t))	15						-7.5
Pelvis height: r(qz, q (t) + δz)	5						-2
Foot height: r(ez, ez(t) + δz)	10	-7	-7
		Task Completion
Pelvis position: r(qx,y, qd,y)	7.5	-1.5	-1.5			+5.5	+7.5
Pelvis velocity: r(qx,y, qd,y)	15					-15	-2.5
Pelvis orientation: r(cos(qφ,θ, ψ, [0, 0, q]), 1)	10	-2.5	+2.5	-5		+2.5
Pelvis angular rate: r(àφ,θ,ψ, [0, 0, qd]),	3				+4.5		+7
	Smoothing
Foot Impact: r(Fz , 0)	10	-7				-5
Torque: r( , 0)	3
Motor velocity: r(qm, 0)	0				+3
Joint acceleration: r(q, 0)	3						-3
Change of action: r(at , at+1)	3			+2	+2	-3	+7

说明：

Nominal Value 列表示奖励分量 $r$ 的默认权重。
Walking Skill, Running Skill, Jumping Skill 列分别展示了在不同技能的 阶段 1 和 阶段 2, 3 中，权重相对于 Nominal Value 的调整。
空白单元格表示该阶段或技能的权重与 Nominal Value 相同，未作调整。
正负号表示权重增加或减少，例如 $+5.5$ 意味着在 Pelvis position 奖励中，Jumping Skill 的 Stage 1 权重为 $7.5 + 5.5 = 13$ 。

表格 IV: 动态随机化范围

以下是原文 Table IV 的结果：

Parameters	Range
Dynamics Randomization (General)
Ground Friction Coefficient	[0.3, 3.0]
Joint Damping Ratio	[0.3, 4.0] Nms/rad
Spring Stiffness	[0.8, 1.2] × default
Link Mass	[0.5, 1.5] × default
Link Inertia	[0.7, 1.3] × default
Pelvis (Root) CoM Position	[-0.1, 0.1] m in qx,y,z
Other Link CoM Position	[-0.05, 0.05] m + default
Motor PD Gains	[0.7, 1.3] × default
Motor Position Noise Mean	[-0.002, 0.002] rad
Motor Velocity Noise Mean	[-0.01, 0.01] rad/s
Gyro Rotation Noise	[-0.002, 0.002] rad
Linear Velocity Estimation Error	[-0.04, 0.04] m/s
Communication Delay	[0, 0.025] s
External Perturbation (Optional)
Force & Torque	[-20, 20] N & [-5, 5] Nm
Elapsed Time Interval (Walking)	[0.1, 3.0] s
Elapsed Time Interval (Running)	[0.1, 1.0] s
Randomized Terrain (Optional)
Terrain Type	Waved, Slopes, Stairs, Steps

说明：

该表格详细列出了 动态随机化 (Dynamics Randomization) 中使用的参数及其范围。
Dynamics Randomization (General) 部分包含了通用的物理参数和传感器噪声的随机化范围。
External Perturbation (Optional) 部分列出了可选的 外部扰动 (external perturbation) 及其施加的时间间隔，这取决于具体的技能。
Randomized Terrain (Optional) 部分列出了可选的 随机地形 (randomized terrain) 类型。

5. 实验设置

5.1. 数据集

本文的实验并非传统意义上使用预先定义的数据集进行训练和测试，而是 强化学习 (RL) 的范式。因此，数据集 的概念更多地体现在 仿真环境、参考运动 的来源以及 动态随机化 的配置上。

仿真环境:
- 平台: 使用 MuJoCo 物理引擎 ([101], [102]) 模拟 Cassie 机器人。
- 机器人模型: Cassie 机器人（详见 4.2.1 控制框架与策略架构）。
参考运动来源 (作为训练目标):
- 行走技能: 轨迹优化 (Trajectory Optimization) 方法生成了一个包含 1331 种不同周期性行走步态的 参考运动库。这些步态基于机器人的 全阶动力学，涵盖了从 $[-1.0, -0.3, 0.65]$ 到 [1.0, 0.3, 1.0] 的速度和高度范围。
- 奔跑技能: 运动捕捉 (Motion Capture) 数据，来源于人类演员 ([100])。原始人类运动通过 逆运动学 (inverse kinematics) 重定向 (retargeted) 到 Cassie 的形态，获得一个平均速度 $3 \text{ m/s}$ 的周期性奔跑 参考运动 和从奔跑到站立的过渡运动。
- 跳跃技能: 动画 (Animation) 技术，通过 3D 动画制作套件手工制作了一个原地跳跃动画，最高脚部高度 $0.5 \text{ m}$ ，跳跃时间 1.66 秒。
- 重要说明: 除了通过 轨迹优化 生成的行走运动外，运动捕捉和动画的 参考运动 都没有进行额外的 轨迹优化 来使其对机器人具有动力学可行性。RL 算法被期望能够学习如何实现这些运动。
动态随机化配置 (作为训练数据多样性的来源):
- 在 多阶段训练 的 阶段 3 中，模拟环境的 动态参数 被广泛随机化，以生成多样化的训练经验，增强 零样本迁移 (zero-shot transfer) 到真实世界的能力。
- 随机化参数包括：地面摩擦系数、关节阻尼比、弹簧刚度、连杆质量、连杆惯性、骨盆 (Root) 及其他连杆的 质心 (CoM) 位置、电机 PD 增益、电机位置/速度噪声均值、陀螺仪旋转噪声、线速度估计误差和通信延迟。
- 可选的随机化包括 外部扰动 (External Perturbation)（力和扭矩）和 随机地形 (Randomized Terrain)（波浪、斜坡、楼梯、台阶）。

5.2. 评估指标

本文采用多种指标来评估 RL 控制器的 学习性能 (learning performance)、控制性能 (control performance)、适应性 (adaptivity) 和 鲁棒性 (robustness)。

1. 学习性能 (Learning Performance):

归一化回报 (Normalized Return): 衡量智能体在训练过程中累积奖励的平均值，通常用于评估 RL 算法的训练效率和最终性能。
- 概念定义: 强化学习的目标是最大化 期望回报 (expected return)。归一化回报 是将累积奖励进行标准化处理，以便在不同任务或设置之间进行比较。高归一化回报表示策略能够更好地完成任务并获得更多奖励。
- 数学公式: $G_t = \sum_{k=0}^{T} \gamma^k r_{t+k}$ 其中， $G_t$ 是从时间 $t$ 开始的 折扣回报 (discounted return)， $\gamma$ 是 折扣因子 (discount factor)， $r_{t+k}$ 是在时间 $t+k$ 获得的奖励。归一化回报 通常是 $G_t$ 在多个回合 (episodes) 上的平均值，并可能进行进一步的缩放。
- 符号解释:
  - $G_t$ : 从时间步 $t$ 开始的累积折扣回报。
  - $T$ : 回合的结束时间。
  - $\gamma$ : 折扣因子，取值范围 [0, 1)，用于权衡即时奖励和未来奖励的重要性。
  - $r_{t+k}$ : 在时间步 $t+k$ 获得的瞬时奖励。

2. 控制性能 (Control Performance):

平均绝对误差 (Mean Absolute Error, MAE): 衡量机器人实际运动与期望命令之间的偏差，用于评估 命令跟踪精度 (command tracking accuracy)。
- 概念定义: 平均绝对误差 计算了模型预测值（或机器人实际值）与真实值（或期望值）之间绝对差值的平均。它反映了预测或控制的准确性。
- 数学公式: $\mathrm{MAE} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|$
- 符号解释:
  - $N$ : 样本数量（例如，时间步的数量）。
  - $y_i$ : 第 $i$ 个时间步的真实值或期望值（例如，期望速度或姿态）。
  - $\hat{y}_i$ : 第 $i$ 个时间步的预测值或实际值（例如，实际速度或姿态）。
特定跟踪误差:
- 速度跟踪误差: 针对 矢状速度 $\dot{q}_x$ 、横向速度 $\dot{q}_y$ 和 偏航角速度 $\dot{q}_{\psi}$ 。
- 姿态跟踪误差: 针对 骨盆俯仰角 $q_\theta$ 、横滚角 $q_\phi$ 和 偏航角 $q_\psi$ 。
- 位置跟踪误差: 针对 骨盆位置 $q_x, q_y$ 。
- 脚部高度跟踪误差: $E_e = | \mathbf{e}_z - \mathbf{e}_z^r(t) - \delta_z |$ 。
- 任务完成误差: $E_t = | q_{x,y,\psi} - q_{x,y,\psi}^d |$ 。
其他性能指标:
- 完成时间: 例如 400 米冲刺和 100 米冲刺的完成时间。
- 峰值速度 (Peak Speed): 机器人能达到的最高速度。
- 平均速度 (Average Speed): 在一定距离或时间内维持的平均速度。
- 飞行阶段 (Flight Phase): 衡量奔跑和跳跃的动态性。

3. 适应性 (Adaptivity) 和鲁棒性 (Robustness):

零样本迁移性能: 仿真训练的策略在真实机器人上部署而无需任何调优的能力。
长时间一致性: 策略在真实机器人上长时间（例如一年多）保持良好控制性能的能力。
应对动态变化: 策略在 动态参数 变化（例如 质心 偏移、PD 增益变化、阻尼变化）下维持性能的能力。
应对外部扰动: 策略在受到 脉冲扰动 (impulse perturbation) 或 持续扰动 (persistent perturbation) 时维持稳定或恢复的能力。
应对未训练地形: 策略在 未训练地形 (untrained terrain)（例如小楼梯、斜坡）上行走的能力。
潜在表示分析: 通过可视化 长期 I/O 历史编码器 的 潜在表示 (latent representation)，分析其是否能捕获 时变事件 (time-variant events)（如接触、外部力）和 时不变动态变化。
顺从性 (Compliance): 机器人面对外部力时，能够顺应力的方向移动而不失去平衡的能力。
恢复机动 (Recovery Maneuvers): 机器人从不稳定状态（如被推倒）中恢复的能力，包括执行复杂的多步恢复动作。

4. 定性评估:

稳定步态 (Stable Gaits): 目视检查机器人运动的平稳性和稳定性。
自然行为: 机器人动作是否符合生物力学或人类观察的直觉。
接触策略 (Contact Strategy): 机器人是否能自主发展和调整接触序列。

5.3. 对比基线

本文在仿真和真实世界实验中，将所提出的方法与多种 基线模型 (Baselines) 进行了比较，这些基线主要关注不同的 策略架构 (policy architecture)、观测空间 (observation space) 和 训练范式 (training paradigm)。这些基线模型旨在验证论文中提出的几个关键设计选择的优势。

1. ours (本文提出的方法):

架构: 双历史架构 (dual-history architecture)，同时利用 短期 I/O 历史 (directly to base MLP) 和 长期 I/O 历史 (encoded by 1D CNN)。
动作空间: 直接输出 期望电机位置 $\mathbf{q}_m^d$ 。
训练: 端到端训练 (end-to-end training)，基 MLP 和长期历史编码器联合训练。
特点: 如图 Figure 5a 所示。

2. Residual (残差策略):

架构: 与 ours 架构相似，但输出表示一个 残差项 (residual term)。
动作空间: 策略输出的残差项加到当前时间步的 参考电机位置 $\mathbf{q}_m^r(t)$ 上，即 $\mathbf{q}_m^d = \mathbf{a}_t + \mathbf{q}_m^r(t)$ 。
特点: 如图 Figure 5b 所示。这种方法在 [71, 11, 12] 等先前的研究中有所采用。

3. State Feedback Only (仅状态反馈):

架构: 与 ours 具有相同的模型结构和动作空间。
观测空间: 仅依赖机器人的 历史状态 (historical states) (机器人输出历史)，不包含机器人的 输入历史 (input history)。
特点: 如图 Figure 5c 所示。这种选择在 [71, 12, 14, 22] 等研究中较为常见。

4. Long History Only (仅长历史):

架构: 仅依赖由 CNN 编码的 长期 I/O 历史。
观测空间: 包含 长期 I/O 历史编码器 的输出，以及机器人最新的 即时状态反馈 (immediate state feedback)。
特点: 如图 Figure 5d 所示。这种配置在 [74] 中作为基线。

5. Short History Only (仅短历史):

架构: 仅依赖 短期 I/O 历史，不包含 长期 I/O 历史 CNN 编码器。
特点: 如图 Figure 5e 所示。在 [13] 中用于双足运动控制，在 [70, 69, 65] 等四足控制中更常见。

6. RMA (Rapid Motor Adaptation)/Teacher-Student (策略蒸馏):

架构: 采用 策略蒸馏 方法，包括两个训练阶段。
- 专家 (Teacher) 策略 (Fig. 5f): 通过 RL 训练，可以访问 特权环境信息 (privileged environment information)，这些信息通过 MLP 编码为 8D 的 外在特征向量 (extrinsics vector)。此策略仅用于仿真。
- RMA (Student) 策略 (Fig. 5g): 专家策略 用于监督 RMA 策略 的训练。RMA 策略 复制 专家策略 的 基 MLP，并只学习利用 长期 I/O 历史编码器 来估计 教师策略 的 外在特征向量。
特点: [71, 74] 中采用了这种方法，并在四足机器人控制中广泛应用。本文的实现中，所有 专家、RMA 策略都将 短期 I/O 历史 整合到 基 MLP 中，这是为了公平比较而做出的修改。

7. A-RMA (增强型 RMA):

架构: 在 RMA 训练之后，引入了一个额外的训练阶段。在此阶段，长期 I/O 历史编码器 的参数保持固定，而 基 MLP 通过 RL 再次更新。
特点: 如图 Figure 5h 所示。由 [67] 引入。

训练策略:

所有基线和本文方法都使用 多阶段训练框架 (Sec. VI) 进行训练。
每个 运动技能 (walking, running, jumping) 的每种方法都训练了 3 个策略（使用不同的随机种子）。这意味着共训练了 $3 \text{ (技能)} \times 3 \text{ (种子)} \times 8 \text{ (架构)} = 72$ 个不同的控制策略。

图像 39: 策略架构基线

该图像是一个图表，展示了行走、跑步和跳跃策略的标准化回报与样本数量的关系。每个子图的横坐标代表样本的数量，纵坐标表示标准化回报，不同颜色的曲线代表不同的策略。图中标记了开始扰动的时间点，显示了各策略在受到扰动后的表现变化。

描述: 该图像展示了本文提出的 RL-based 控制策略架构 (RL-based control policy architectures) 以及多种 基线 (baselines)，用于双足机器人运动。所有这些架构都将 命令 (command) 和 参考运动 (reference motion) 作为输入提供给 基 MLP (base MLP)，但在图中为了简洁而省略。
图 5a: Ours (本文方法):
- 集成了 短期 和 长期 I/O 历史。
- 基 MLP 和 长期历史编码器 联合训练，输出 期望电机位置。
图 5b: Residual (残差方法):
- 与 ours 架构类似，但输出 残差项，加到 参考电机位置 上。
图 5c: State Feedback Only (仅状态反馈):
- 使用与 ours 相同的模型结构，但仅依赖机器人的 状态历史 (输出历史)，不包含 输入历史。
图 5d: Long History Only (仅长历史):
- 仅依赖 长期 I/O 历史 (通过 CNN 编码)，但 基 MLP 可以直接访问 即时状态反馈 (latest observation)。
图 5e: Short History Only (仅短历史):
- 仅依赖 短期 I/O 历史，不使用 CNN 编码器 处理长期历史。
图 5f: Expert (Teacher) (专家/教师策略):
- 用于 策略蒸馏 的 教师策略。通过 RL 训练，可以访问 特权环境信息 (Privileged Extrinsics)。
图 5g: RMA (Student) (RMA/学生策略):
- 用于 策略蒸馏 的 学生策略。复制 专家策略 的 基 MLP，并学习利用 长期 I/O 历史编码器 估计 专家 的 外在特征向量。
图 5h: A-RMA (增强型 RMA):
- 在 RMA 训练后，长期 I/O 历史编码器 的参数保持固定，基 MLP 通过 RL 再次微调。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 学习性能基准测试

本文通过在 阶段 3 (任务随机化 和 动态随机化) 中的 学习曲线 (learning curves) 来评估各种方法的 学习性能 (learning performance)。这阶段对 仿真到真实 (sim-to-real) 迁移至关重要。如图 Figure 38 所示，学习性能在各种运动技能中保持一致。

图像 38: 学习曲线比较

描述: 该图表展示了 多阶段训练 框架中 阶段 3 的 学习性能，其中包含了 任务随机化 和 动态随机化。横轴表示 样本数量 (Samples)，纵轴表示 归一化回报 (Normalized Return)。不同的曲线代表不同的 策略架构 (policy architecture)，颜色和形状对应 Figure 5 中的标记。该图展示了在训练期间，各种方法在 行走 (Walking)、奔跑 (Running) 和 跳跃 (Jumping) 技能上的表现。
图例:
- Ours (红色曲线): 本文提出的 双历史架构。
- Residual (紫色曲线): 使用 残差动作 (residual action) 的架构。
- State Feedback Only (粉色曲线): 仅使用 状态反馈 的架构。
- Long History Only (蓝色曲线): 仅使用 长期 I/O 历史 的架构。
- Short History Only (橙色曲线): 仅使用 短期 I/O 历史 的架构。
- RMA (Student) (绿色曲线): 策略蒸馏 中的 学生策略。
- A-RMA (Student) (深绿色曲线): RMA 的改进版本。
- Expert (灰色虚线): 专家策略，代表理论上的性能上限（仅在仿真中可用）。

分析:

动作选择 (Residual vs. Ours): 紫色曲线 (Residual) 的学习性能始终低于红色曲线 (Ours)。这表明，当策略直接输出 期望电机位置 而不是 残差项 时，学习效果更好。虽然残差方法可能在初期加速学习，但它可能导致策略花费更多精力纠正由 参考运动 引入的额外运动，尤其是在探索超出参考运动的机动时。作者建议重新考虑在运动控制中使用 残差学习 (residual learning)。
观测选择 (State Feedback Only vs. Ours): 粉色曲线 (State Feedback Only) 的性能明显低于红色曲线 (Ours)。这强调了同时利用机器人的 输入 (动作) 和 输出 (状态) 历史的重要性。仅提供状态反馈不足以让策略进行 系统识别 (system identification) 和 状态估计 (state estimation)，从而影响对不确定动态和外部扰动的适应性。
历史长度 (Long History Only, Short History Only vs. Ours):
- 蓝色曲线 (Long History Only) 的学习性能未能超越橙色曲线 (Short History Only) 或其他方法。
- 当 基 MLP 直接访问 短期 I/O 历史，同时拥有 长期历史编码器 时（Ours，红色曲线），学习性能显著提高。这表明，虽然长期历史对 系统识别 有益，但 短期历史 对于 实时控制 (real-time control) 提供了关键的即时反馈。长期历史中的信息经过编码后可能被模糊，因此明确提供短期历史作为补充是必要的。
- 附录 E 的历史长度消融研究进一步支持，增加历史长度可以提高训练性能，但超过一定长度（如 4 秒）后，性能提升会饱和甚至下降，因为可能引入冗余信息。
策略蒸馏方法 (RMA, A-RMA vs. Ours):
- 绿色曲线 (RMA) 相比 Expert (灰色虚线) 性能显著下降，尤其在 奔跑 等高难度技能中甚至无法学习。这归因于利用长期 I/O 历史估计预选环境参数时不可避免的误差。
- 深绿色曲线 (A-RMA) 虽能提升 RMA 性能，但仍略低于 Ours，尽管使用了更多的训练样本。在 奔跑 任务中，A-RMA 的表现类似于 Short History Only (橙色曲线)，表明编码器未能有效估计环境参数，反而避免使用长期历史。
- Ours 接近 Expert 的性能，同时具有真实世界部署的能力，而 Expert 仅限于仿真。这凸显了 端到端训练 的优势。
时间编码器 (TCN, LSTM in Appendix F): 附录 F 提到，双历史方法 持续增强 TCN 等非循环策略的学习性能，但对 LSTM 等循环策略帮助不大。循环策略 倾向于收敛到次优解，且对超参数调优敏感。

总结: 这些结果共同表明，本文提出的 双历史架构 结合 端到端训练，在 策略架构 和 训练策略 上都表现出优越性，能够更有效地学习动态双足运动控制，并在复杂动态随机化场景下实现更好的性能。

6.1.2. 案例研究：原地行走实验 (真实世界)

本研究在真实世界中对不同方法训练的策略进行了 原地行走 (in-place walking) 实验，以评估其 适应性 (adaptivity) 和 仿真到真实 (sim-to-real) 迁移能力。

图像 40: 模拟环境中行走策略的性能

该图像是图表，展示了在模拟环境中不同控制策略下的速度跟踪误差和方向跟踪误差。图中数据比较了我们的控制方法与其他策略（如状态反馈、长历史、短历史等）的表现，结果显示我们的方法在速度跟踪误差上具有较低的误差值。

描述: 该图表展示了在模拟环境中，使用不同方法（如 Figure 5 所述）训练的行走策略的 速度跟踪误差 (speed tracking error) 和 方向跟踪误差 (orientation tracking error)。
图 7a (速度跟踪误差): 比较了不同方法在模拟环境中的速度跟踪误差 MAE (Mean Absolute Error)。
图 7b (方向跟踪误差): 比较了不同方法在模拟环境中的方向跟踪误差 MAE。
分析: 在模拟环境中，所有方法在原地行走任务中都表现出相似且良好的跟踪性能，除了 RMA 在速度上表现较差。这表明在理想仿真条件下，大多数策略都能学习基本的行走行为。

图像 41: 真实环境中行走策略的性能

该图像是一个示意图，展示了不同跳跃动作（如原地跳、前跳、侧跳等）在时间轴上的潜在值和地面冲击力的变化。图中可见不同阶段的潜在值变化，以及二次跳跃的标记，反映了动态步态控制的效果。

描述: 该图表展示了在真实机器人硬件上，使用不同方法训练的行走策略的 速度跟踪误差 (speed tracking error) 和 方向跟踪误差 (orientation tracking error)。
图 8a (速度跟踪误差): 比较了不同方法在真实机器人硬件上的速度跟踪误差 MAE。
图 8b (方向跟踪误差): 比较了不同方法在真实机器人硬件上的方向跟踪误差 MAE。
分析:
- 显著差异: 仿真与真实世界之间的性能存在显著差异。在真实硬件上，除 ours 外的其他方法都出现了明显的 漂移 (drift) 和 跟踪误差 增加。
- Ours 的优势: 本文提出的方法 (ours) 在真实世界中表现出最低的 跟踪误差 和 最小漂移，成功维持了机器人的原地行走。这表明其在 仿真到真实 迁移方面具有卓越的 适应性。
- 其他方法的局限:
  - Long History Only, Short History Only, State Feedback Only: 导致机器人向左侧显著漂移。
  - RMA: 表现出最明显的 矢状漂移 (sagittal shift)，即使在零速度命令下也以较快速度前进。
  - A-RMA: 减少了 矢状漂移，但仍有相当大的 横向运动。
  - Residual: 未能在真实机器人上保持稳定步态。
    
    结论: 原地行走 实验有力地证明了本文提出的 双历史架构 结合 端到端训练 的 适应性 和 仿真到真实 迁移能力。即使在仿真中表现相似，但在真实硬件上，本文方法能更好地适应机器人动态特性，实现更精确和稳定的控制。

6.1.3. 适应性来源分析

为了理解所提出方法在应对动态环境变化时表现出优势的原因，本文深入分析了 长期 I/O 历史编码器 生成的 潜在表示 (latent representation)。

图像 33: 奔跑中 I/O 历史编码器潜在表示的时变特性

该图像是一个示意图，展示了在不同时间段内的潜在值和脚部冲击力的变化情况。上部显示了初始化和扰动阶段的潜在值1和潜在值2，下部则记录了左脚和右脚的冲击力随时间的变化。该图有助于理解机器人在动态行走时的控制响应。

描述: 该图展示了在 奔跑 过程中，长期 I/O 历史编码器 的 潜在表示 的变化情况。
图 9a (时变潜在表示):
- 上图: 记录了在 15 秒内 长期 I/O 历史编码器 输出的 潜在表示。机器人从站立开始，随后以 $3 \text{ m/s}$ 的恒定速度奔跑。在 8 到 11 秒期间，对机器人施加了 $40 \text{ N}$ 的 持续向后扰动 (persistent backward perturbation force)。
- 下图: 比较了两个选定的 潜在维度 (红色曲线，对应上图中的红线) 与机器人 左右脚 的 地面冲击力 (ground impact force)。
分析:
- 周期性模式: 奔跑 是一种周期性技能，一旦步态稳定（约 2 秒后），潜在表示 也呈现周期性模式。
- 扰动捕获: 扰动 (绿色虚线框内) 引入了 潜在表示 的变化，表明编码器能够捕获 时变扰动。
- 接触估计: 两个特定的 潜在维度 与 左右脚 的 冲击力 呈现强相关性，并在脚处于 摆动相 (swing phase) 时降至零。这表明编码器能够隐式地进行 接触估计 (contact estimation)。
- 扰动下的接触变化: 在 外部扰动 存在时，尽管 地面冲击力 幅度不变，这两个 潜在维度 的值会降低，并在扰动结束后恢复。这可能意味着机器人学会将 外部扰动 和 地面反作用力 作为广义的 外部力 ( $\zeta_{\mathrm{ext}}$ ) 一并嵌入这些信号中，并在控制中加以利用，而无需人工设计。
- 行走技能 也观察到类似能力（附录 G）。

图像 42: 跳跃中 I/O 历史编码器潜在表示的时变特性

描述: 该图展示了在 跳跃 过程中，长期 I/O 历史编码器 的 潜在表示 的变化情况。
图 9c (时变潜在表示 - 跳跃):
- 上图: 记录了在 跳跃 过程中 长期 I/O 历史编码器 的 潜在表示。机器人每 3 秒执行不同的跳跃任务，包括原地跳跃、1.4 米前跳、0.5 米侧跳和 $-60^\circ$ 转向跳跃，随后站立。
- 下图: 比较了两个选定的 潜在维度 (红色曲线) 与机器人 两只脚 的 总冲击力。
分析:
- 跳跃与站立的区别: 潜在表示 明显区分了 跳跃阶段 (变化更大、非零信号) 和 站立阶段 (信号变化较小)。
- 任务差异: 不同跳跃任务在 跳跃阶段 产生不同的 潜在值。
- 起跳/着陆事件: 发现两个 潜在维度 与跳跃中的 接触事件 强相关。
  - 潜在值 1 (Latent Value 1) 在 总接触力 变为零之前（即 起跳 (take-off)）开始增加并下降到零。
  - 潜在值 2 (Latent Value 2) 仅在机器人 着陆 (landing) 时活跃。
- 这种对 起跳 和 着陆 事件的独立信号表示，可能为双足跳跃控制提供了更丰富的信息。

图像 10: 奔跑中潜在表示对动态变化的适应性

$该图像是示意图，展示了使用默认动态与多种变化（如噪声、重心位置、延迟等）对机器人控制系统的潜在影响。左侧的“默认”部分与右侧的各项变化对比，表明每种情况的潜在表现和效能指标 $\[E_t, E_m\]$ 的不同值。此图表有助于理解不同动态设置下，深度强化学习控制器的适应性和鲁棒性。$ 该图像是示意图，展示了使用默认动态与多种变化（如噪声、重心位置、延迟等）对机器人控制系统的潜在影响。左侧的“默认”部分与右侧的各项变化对比，表明每种情况的潜在表现和效能指标 $[E_t, E_m]$ 的不同值。此图表有助于理解不同动态设置下，深度强化学习控制器的适应性和鲁棒性。

描述: 该图展示了在 奔跑 过程中，长期 I/O 历史编码器 的 潜在表示 如何随 时不变 (time-invariant) 的 机器人动态模型变化 而变化。图中蓝色曲线显示了默认动态参数下的 潜在表示，红色曲线显示了在不同动态参数变化下的 潜在表示。
图 9b (对动态变化的适应性 - 奔跑):
- 默认动态: 蓝色曲线表示在默认动态模型下控制机器人奔跑时的 潜在表示。
- 动态参数变化: 对 连杆质心位置 (Link CoM Position)、连杆质量 (Link Mass)、关节阻尼比 (Joint Damping Ratio)、电机 PD 增益 (Motor PD Gains) 和 地面摩擦 (Ground Friction) 进行单一参数的改变（超出训练范围）。
- 潜在表示变化: 每种 动态参数变化 都导致 潜在表示 与默认模型下的模式发生显著 偏移。
- 控制性能不变: 尽管 潜在表示 发生显著变化，但 控制性能指标 (如 任务完成误差 $E_t$ 和 运动跟踪误差 $E_m$ ) 变化很小，表明控制器能够适应这些动态变化。
- 测量不确定性: 通信延迟 (0.025 秒) 导致 潜在表示 发生明显变化。然而，即使引入 大噪声 (超出训练上限 2 倍)，潜在表示 变化不大，表明 长期历史编码器 能有效 过滤 (filter out) 零均值噪声。

图像 11: 跳跃中潜在表示对动态变化的适应性

$该图像是示意图，展示了在使用默认动态与与默认动态变化相关的潜在特征的比较。图中左侧部分显示了默认情境下的潜在特征，包括不同的动态参数示例；右侧部分则展示了在存在变化（如噪声、延迟等）情况下的潜在特征。每个子图下方标注了对应的能量值 $\[E_t, E_m\]$，反映了不同条件下的动态行为表现。$ 该图像是示意图，展示了在使用默认动态与与默认动态变化相关的潜在特征的比较。图中左侧部分显示了默认情境下的潜在特征，包括不同的动态参数示例；右侧部分则展示了在存在变化（如噪声、延迟等）情况下的潜在特征。每个子图下方标注了对应的能量值 $[E_t, E_m]$ ，反映了不同条件下的动态行为表现。

描述: 该图展示了在 跳跃 过程中，长期 I/O 历史编码器 的 潜在表示 如何随 时不变 (time-invariant) 的 机器人动态模型变化 而变化。图中蓝色曲线显示了默认动态参数下的 潜在表示，红色曲线显示了在不同动态参数变化下的 潜在表示。
图 9d (对动态变化的适应性 - 跳跃):
- 与奔跑类似，在 跳跃 任务中，对相同的 动态参数 进行改变，也导致了 潜在表示 的不同模式。
- 控制性能指标 (如 任务完成误差 $E_t$ 和 运动跟踪误差 $E_m$ ) 仍然显示出很小的变化。

总结适应性来源: 历史编码器 能够从 I/O 历史中捕获有意义的信息，使控制器能够：

适应时变事件: 如外部扰动或接触事件。
适应时不变动态变化: 如动态参数的变化。
过滤测量噪声: 保持控制任务的有效执行，性能下降最小。

这种能力解释了所提出架构在具有大范围 动态参数随机化 的挑战性训练设置中表现出色的原因。

6.1.4. 多功能策略的优势与鲁棒性来源

本研究验证了 多功能策略 (versatile policies) 比 任务专用策略 (task-specific policies) 具有显著的 鲁棒性 (robustness) 提升，这主要归因于 任务随机化 (task randomization) 带来的 泛化 (generalization)。

基线对比: (详见 5.3 对比基线)

Single Task (单任务): 仅在单一固定任务和 动态随机化 (不含扰动) 下训练。
Single-Task w/ Perturbation (带扰动单任务): 在单一固定任务、动态随机化 和 模拟扰动 (simulated perturbations) 下训练。
Versatile (Ours) (多功能策略): 在 任务随机化 和 动态随机化 (不含扰动) 下训练。

图像 2: 鲁棒性来源分析 (模拟环境)

描述: 该图展示了在模拟环境中，不同策略在超出训练分布的 不确定性 (out-of-distribution uncertainty) 下的 鲁棒性 表现。
测试场景:
1. 一致力 (Consistent Force): 对机器人骨盆施加持续的外部力。
2. 质心偏移 (CoM Position Deviation): 所有连杆的 质心 位置发生显著偏移。
图 10a (行走 - 侧向拉力 $22 \text{ N}$ ):
- Single Task (i): 失败，机器人被推出其训练分布。
- Single-Task w/ Perturbation (ii): 能够前进，但有轻微横向偏差。
- Versatile (Ours) (iii): 即使未训练扰动，也能通过利用学习到的 侧向行走 技能来抵消外部力，表现出 顺从步态 (compliant gait)，显著向右侧漂移。
图 10b (行走 - 质心向后偏移 $8 \text{ cm}$ ):
- Single Task (i): 无法处理。
- Single-Task w/ Perturbation (ii): 通过学习到的控制策略抵消向后的 质心 偏移，以减小的速度前进。
- Versatile (Ours) (iii): 利用 后退行走 步态来抵消向后的 质心 偏移。
图 10c (奔跑 - 向前扰动 $30 \text{ N}$ ):
- Single Task (i) 和 Single-Task w/ Perturbation (ii): 无法保持稳定步态。
- Versatile (Ours) (iii): 能够适应扰动，因为它已训练更快的奔跑速度。
图 10d (奔跑 - 质心向前偏移 $8 \text{ cm}$ ): 类似地，多功能策略 能够应对这种偏移。
图 10e (跳跃 - 侧向扰动): 多功能策略 能够通过 侧跳 来应对。
图 10f (跳跃 - 质心向前偏移): 多功能策略 能够通过 前跳 来应对。

结论:

动态随机化 (包括扰动训练): 扩展了策略在特定任务内的 场景范围 (scenario range)，但机器人仍限于执行已训练的任务。
任务随机化: 通过学习多样化任务，使机器人能够 泛化 (generalize) 并表现出更大的 鲁棒性 和 顺从性，即使没有广泛的 动态随机化。机器人可以利用其学到的技能库来应对未预见的情况。

图像 5: 鲁棒站立实验 (真实世界)

该图像是一个示意图，展示了机器人在不同情况下的站立和行走技能。左侧展示了在前向推力作用下，仅具备站立技能的情况，中间展示带扰动的情况，而右侧则展示了经过训练的同时具备行走和站立技能的表现。

描述: 该图展示了在真实世界中 站立技能 的 鲁棒性 实验。对机器人施加 外部前向扰动 (external forward perturbation) 到骨盆。
图 11a (仅站立技能 - 未带扰动训练): 机器人失去平衡并跌倒，因为它被推出其 支撑区域 (support region)。
图 11b (仅站立技能 - 带扰动训练): 机器人也失去平衡并跌倒。
图 11c (多功能行走策略 - 未带扰动训练):
- 机器人最初向前倾斜。
- 当倾斜超出 支撑区域 时，它会执行 智能恢复机动 (intelligent recovery maneuvers)。
- 机器人 转换 (transits) 到 行走步态，执行几步（包括 前向 和 后向行走），然后平稳地恢复 站立姿态。
- 这一系列复杂的恢复动作是在 无人为指令 的情况下自主完成的，尽管该策略在训练其 站立技能 时没有模拟 外部扰动。

图像 6: 鲁棒性恢复机动 (真实世界)

该图像是插图，展示了一种双足机器人在外力横向推动下，通过多种行走技能进行恢复的过程。从左到右分别展示了机器人被推、恢复行走技巧和最终站立的状态。

描述: 该图展示了机器人通过其 多功能策略 在真实世界中执行的 鲁棒性恢复机动。
图 12a (多功能行走策略): 当机器人在站立时受到 横向扰动 (laterally perturbed)，它会利用其多样化的 行走技能 来恢复并重新站立。这包括一系列的行走机动来降低 质心 (Center of Mass, CoM)，然后恢复站立姿态。
图 12b (多功能奔跑策略): 机器人从奔跑中停下，并踩到 赛道护栏 (track guard) 上。它能够不失平衡地脱离护栏，并利用其在学习奔跑技能时获得的 侧踏技能 (side-stepping skills) 维持稳定的站立姿态。
图 12c (多功能跳跃策略): 在一次不稳定的 多轴跳跃 (multi-axis jump) 着陆后，机器人执行 纠正性小跳 (corrective hop)，这是从多样化跳跃任务中学习到的，以更好地在空中纠正姿态，实现更稳定的着陆配置。

总结鲁棒性来源:

多功能策略 显著增强了 鲁棒性，因为它能 泛化 (generalize) 已学习的任务，并在面对未预见的情况时找到更好的 机动 (maneuvers)，从而提高稳定性。
任务随机化 是提升 RL 控制器 鲁棒性 的关键策略。
机器人能够在线发展自己的 接触策略 (contact strategy)，甚至偏离 参考运动 隐含的接触计划，以增强稳定性和鲁棒性，这类似于 接触隐含优化 (contact-implicit optimization) 的在线实现。

图像 8: 训练分布理解鲁棒性

Fig. 13: An illustration of the concept of training distributions using different methods to enhance robustness. During deployment, as conceptually illustrated by the red curve, we want the robot con… 该图像是一个示意图，展示了通过不同方法增强机器人的鲁棒性训练分布的概念。图中红色曲线表示在部署期间，机器人应在其轨迹的训练分布内操作。单一任务训练时，分布被限制在特定任务的轨迹上。引入动态随机化和任务随机化可以扩大训练分布，促进机器人跨多种任务的学习和泛化。

描述: 该图形象地展示了通过不同方法增强 鲁棒性 的 训练分布 (training distributions) 概念。
核心思想: 在部署时，我们希望由 RL 策略 控制的机器人能在其 训练轨迹分布 (training distribution of trajectories) 内部运行（红色曲线）。
Single Task 策略: 其 训练分布 (黄色区域) 仅限于该任务的 标称轨迹 (nominal trajectories)。
动态随机化 (Dynamics Randomization): 可以扩展这个分布，使其能应对更广泛的物理参数变化，但仍然以固定任务为中心。
任务随机化 (Task Randomization): 显著拓宽了 训练分布 (橙色区域)，通过使机器人学习和 泛化 各种 控制策略 以应对不同的任务（图中标记为褪色的黄色区域）。
结合使用: 任务随机化 可以与 动态随机化 结合使用，进一步扩大 训练分布，增强策略的 鲁棒性。
作者指出: 动态随机化 的范围不能任意大，否则会阻碍学习。任务随机化 可以被视为一种“正交”的方式来提高 鲁棒性，而不是进一步推高 动态随机化 的范围。

6.2. 真实世界中的动态双足运动

6.2.1. 行走实验

本文在 Cassie 机器人上广泛评估了 多功能行走策略 (versatile walking policy)。

图像 17: 长时间一致性跟踪

$该图像是图表，展示了时间与三个坐标轴速度（$q_x$, $q_y$, $q_z$）的关系。图中红色曲线为估计值，黑色虚线为期望值，在时间范围内显示了动态变化和稳定性。$ 该图像是图表，展示了时间与三个坐标轴速度（ $q_x$ , $q_y$ , $q_z$ ）的关系。图中红色曲线为估计值，黑色虚线为期望值，在时间范围内显示了动态变化和稳定性。

描述: 该图展示了 多功能行走策略 在真实世界中对 可变命令 (varying commands) 的 跟踪性能 (tracking performance) 和 长时间一致性。
图 14a (可变命令跟踪): 机器人能够可靠地跟踪变化的 矢状速度 $\dot{q}_x$ 、横向速度 $\dot{q}_y$ 和 行走高度 $q_z$ 命令。跟踪误差 (MAE) 保持在较低水平。
图 14b, 14c (长时间一致性): 同一控制器在 325 天和 492 天后仍然能有效跟踪可变命令，跟踪误差的劣化最小。这表明策略能够 适应 机器人硬件随时间变化的动态特性。

图像 11: 跟踪转向命令

$Fig. 15: A snapshot from the real world demonstrating the robot reliably tracking various turning yaw commands $q _ { \\psi } ^ { d }$ using the same controller frames in the real word.The robot can e…$ 该图像是一个插图，展示了机器人在追踪多个转向偏航命令 q _ { heta }时的表现。上方是机器人在不同时间点的动作快照，下方为控制器输出的估计值与期望值的对比图，显示机器人能够有效执行顺时针和逆时针的全转。

描述: 该快照展示了机器人能够可靠地跟踪各种 转向偏航命令 $q_\psi^d$ ，包括顺时针和逆时针的完整转向。

图像 13: 快速行走

该图像是图表，展示了双足机器人在不同步态下的动态行为，包括快速向前行走（左）和向后行走（右）。图中标注了过渡状态，右侧的子图显示了与这些行为相关的记录数据，包括估计和期望的速度变化。

描述: 该图展示了机器人从静止状态到 快速行走 (fast walking) 的过渡。
图 16a (快速前向行走): 机器人从静止快速达到 $1.14 \text{ m/s}$ 的平均前向行走速度，并能快速返回站立。
图 16b (快速后向行走): 机器人从静止无缝过渡到平均 $-0.5 \text{ m/s}$ 的后向行走，并按指令返回站立。

图像 14: 未训练地形上的鲁棒行走

该图像是示意图，展示了机器人在不同环境中向后行走的动作。左侧为在楼梯上向后行走的过程，右侧为在坡道上向后行走的过程，时间从0到1.2秒间隔展示不同姿态.

描述: 该图展示了机器人在 未训练地形 (untrained terrain) 上的 鲁棒行走 表现。
分析: 尽管行走策略未专门针对 不平坦地形 进行训练，但机器人对 楼梯 和 下坡 等 高程变化 (elevation changes) 表现出显著 鲁棒性，能够向后行走。这得益于策略对 接触时序 或 力矩 变化的鲁棒性。

图像 15: 随机扰动下的鲁棒性

$Fig.18a, the robot, despite being pushed laterally and accelerated to $- 0 . 5 ~ \\mathrm { m / s }$ , still maintains a stable walking gait and compensates such a lateral impulse by walking in the op…$ 该图像是图表，展示了在机器人遭受侧向扰动时的恢复动作及控制效果。左侧（图a）展示了机器人在施加横向扰动后的运动过程，并记录了其横向速度 $\dot{q}_y$ 随时间变化的图表，红线表示估计速度，黑线为期望速度。在右侧，平面位置 ( $q_y$ , $q_x$ ) 的估计结果显示，随着时间推移，记录点的颜色逐渐加深，体现了机器人对扰动的反应。右下角（图b）对比了未能有效恢复的模型控制器的表现。

描述: 该图展示了 多功能行走策略 在 随机扰动 下的 鲁棒性。
图 18a (脉冲扰动): 当机器人原地行走时受到 强烈侧向扰动 (substantial lateral perturbation force)，导致 $0.5 \text{ m/s}$ 的 侧向速度峰值。机器人迅速从偏差中恢复，通过 反向侧向行走 来补偿扰动，恢复稳定。
图 18b (与模型基控制器的比较): 模型基控制器 在受到 侧向扰动 时会失去控制并摔倒，因为它没有考虑外部扰动。

图像 16: 持续扰动下的鲁棒性

该图像是展示了机器人（Cassie）在不同条件下行走的示意图。这包括在持续横向力和随机矢量力的作用下，机器人如何保持稳定的行走姿态，图中展示了多个动态调整的过程。

描述: 该图展示了机器人对 持续扰动 的 顺从性 (compliance)。
图 19a (持续侧向拖拽): 机器人在正常高度行走时，其基座受到 持续侧向拖拽力。机器人保持平衡，并顺从力方向，展示了与人类安全交互的潜力。
图 19b (持续随机矢状力): 机器人在低行走高度下，基座受到方向随机变化的 持续矢状力。机器人保持平衡，顺从力方向。

行走实验总结: 多功能行走策略 能够有效控制 Cassie 机器人执行多样化任务，并长时间保持一致。它能跟踪不同行走速度、高度、转向，并实现快速行走和站立间的过渡。策略对地形高程变化和外部扰动（包括脉冲和持续力）表现出显著 鲁棒性。

6.2.2. 奔跑实验

本文评估了在真实世界中使用所提出方法开发的 多功能奔跑策略 (versatile running policies)。

图像 17: 400 米冲刺

该图像是一个示意图，展示了机器人在不同时间点的动态跳跃过程。左侧是赛道的鸟瞰图，右侧包含机器人在跳跃时的关键帧，标记了起跳和飞行阶段。机器人的控制策略通过多种动态技能的训练，提高了其适应性与鲁棒性。

描述: 该图展示了 Cassie 机器人在标准户外跑道上完成 400 米冲刺的过程。
图 20a (关键帧):
- (1) 机器人从站立姿态平稳过渡到奔跑。
- (2), (4) 在变速度和转向下，奔跑过程中有显著的 飞行阶段 (flight phases)。
- (3) 机器人精确追踪转向命令。
图 20b (记录数据):
- 机器人加速到平均 $2.15 \text{ m/s}$ (估计值)，峰值 $3.54 \text{ m/s}$ (估计值)。
- 在整个 400 米冲刺中，成功保持期望速度并精确遵循转向命令。
- 平均转向角误差 MAE 为 5.95 度。
- 总计 2 分 34 秒完成 400 米冲刺，并能随后过渡到站立姿态。这是人型双足机器人首次完成 400 米跑圈。

图像 18: 跟踪奔跑时的可变命令

$该图像是实验结果的示意图，展示了在bipedal机器人上执行动态步态控制时的估计与期望速度（$ \\dot{q}_x $和$ \\dot{q}_y $）以及角度（$ q_\\phi $）随时间变化的关系。图中红色曲线表示估计值，黑色虚线表示期望值。整体趋势表明控制系统的表现与预期大致一致，验证了所提出的RL控制器在稳健性和适应性上的有效性。$ 该图像是实验结果的示意图，展示了在bipedal机器人上执行动态步态控制时的估计与期望速度（ $\dot{q}_x$ 和 $\dot{q}_y$ ）以及角度（ $q_\phi$ ）随时间变化的关系。图中红色曲线表示估计值，黑色虚线表示期望值。整体趋势表明控制系统的表现与预期大致一致，验证了所提出的RL控制器在稳健性和适应性上的有效性。

描述: 该图展示了机器人在奔跑时跟踪 可变命令 的能力。
图 21a (矢状速度 $\dot{q}_x$ ): 机器人能够可靠地跟踪变化的 矢状速度 命令。
图 21b (横向速度 $\dot{q}_y$ ): 机器人能够可靠地跟踪变化的 横向速度 命令。
图 21c (急转弯): 机器人能够对从 $0^\circ$ 到 $90^\circ$ 的 偏航命令阶跃变化 (step change of yaw command) 做出响应，在 5 步内完成 $90^\circ$ 急转弯 (sharp turn)，同时保持自然奔跑步态。这在训练中未明确训练，展示了 泛化 能力。

图像 21: 100 米冲刺

$该图像是图表，展示了机器人在100米冲刺比赛中的跑步快照，时间戳指示了对应的帧。下方图表记录了机器人在比赛中的矢量速度 $v_x$ 随时间的变化情况，显示了估计速度与期望速度的对比。$ 该图像是图表，展示了机器人在100米冲刺比赛中的跑步快照，时间戳指示了对应的帧。下方图表记录了机器人在比赛中的矢量速度 $v_x$ 随时间的变化情况，显示了估计速度与期望速度的对比。

描述: 该图展示了机器人进行 100 米冲刺的快照和记录数据。
图 22a (快速过渡): 机器人在 1.8 秒内从静止站立姿态快速过渡到 快速奔跑 步态。
图 22b (巡航阶段): 机器人保持快速奔跑，达到峰值估计速度 $4.2 \text{ m/s}$ ，有明显的 飞行阶段。
图 22c (记录速度): 记录了矢状速度 $\dot{q}_x$ 。
结果: 机器人以约 28 秒完成 100 米冲刺，最快用时 27.06 秒 (Table V)。

表格 V: 100 米冲刺完成时间记录

以下是原文 Table V 的结果：

Trial	Completion Time (s)
1	27.06
2	27.99
3	28.28

图像 22: 不平坦地形上的奔跑

该图像是一个示意图，包括机器人在不同地形上奔跑的快照以及关节相位图。上方展示了机器人在不同坡度（7°, 10°, 3°）和飞行状态下的运动情况，下方则是左大腿和右大腿、左膝盖和右膝盖的相位图，展现了位置与速度的关系。

描述: 该图展示了机器人在 不平坦地形 (uneven terrains) 上奔跑的能力。
图 23a (地形穿越): 机器人成功穿越了不同坡度的地形（ $7^\circ$ 矢状斜坡， $3^\circ$ 横向斜坡， $10^\circ$ 更陡峭的矢状斜坡），全程没有显式的 地形高度估计 或 外部传感器。机器人保持了稳定的奔跑步态和 飞行阶段。这是人型双足机器人首次在 大范围不平坦地形 上实现（带飞行阶段的）奔跑。

图像 25: 鲁棒奔跑机动

该图像是一个插图，展示了机器人在奔跑过程中如何从横向扰动中恢复。图中显示了不同时间点的机器人姿态变化，特别标出了施加扰动的时刻。这一过程展示了机器人在动态环境中的适应能力和控制策略。

描述: 该图展示了机器人在 扰动 下的 鲁棒奔跑机动。
图 24a (脉冲扰动): 在 100 米冲刺时，机器人受到 安全绳 (safety cord) 产生的突然 脉冲扰动，导致速度骤降并倾斜。机器人能够保持稳定并快速恢复到稳定奔跑步态。
图 24b (侧向扰动): 机器人受到 侧向扰动 时，能够执行 侧向奔跑步态 来补偿扰动。

奔跑实验总结: 奔跑策略 能够有效控制 Cassie 机器人执行各种奔跑和转向速度，适应仅基于 本体感知反馈 (proprioceptive feedback) 的地形变化，并无缝过渡到站立和从站立恢复。Cassie 实现了 $4.2 \text{ m/s}$ 的峰值速度、27.06 秒的 100 米冲刺、2 分 34 秒的 400 米冲刺，并能穿越 不平坦地形，同时对意外扰动表现出 鲁棒性。

6.2.3. 跳跃实验

本文评估了所提出的 多功能跳跃策略 (versatile jumping policies)。共获得了两个策略：平地策略 (flat-ground policy) 和 离散地形策略 (discrete-terrain policy)。

图像 26: 跳跃与转向

该图像是示意图，展示了使用两种不同策略（平坦地面政策和离散地形政策）进行的不同跳跃动作。图中每个阶段标注了“飞行阶段”，并分别列出了跳跃时的机器人的姿态和参数设置。左侧为平坦地面策略下的跳跃，右侧为离散地形策略下的跳跃，各自展示了机器人的运动轨迹和动态。

描述: 该图展示了 平地策略 (flat-ground policy) 实现的 跳跃与转向 (Jump and Turn) 技能。
图 25a (不同目标跳跃): 机器人执行各种目标跳跃，包括：
- (i) 原地跳跃并转向 $60^\circ$ 。
- (ii) 向后跳跃 0.3 米。
- (iii) 向前跳跃 1 米。
- 机器人能精确着陆在目标点，并通过调整 起跳姿态 (take-off pose) 来适应不同命令。
图 26c (多轴跳跃): 机器人执行结合了 前向 ( $0.5 \text{ m}$ )、横向 ( $0.2 \text{ m}$ ) 和 转向 ( $-45^\circ$ ) 的 多轴跳跃。

图像 27: 跳跃到高台

$该图像是示意图，展示了一个仿人机器人在执行不同跳跃技能的动作。多个图例（如（a）至（g））显示了机器人的飞行阶段及目标落地点，分别展示了不同的跳跃高度和角度配置，涉及的参数如 $(q^d_x, q^d_y, q^d_ heta)$ 表示跳跃姿态和目标位置。$ 该图像是示意图，展示了一个仿人机器人在执行不同跳跃技能的动作。多个图例（如（a）至（g））显示了机器人的飞行阶段及目标落地点，分别展示了不同的跳跃高度和角度配置，涉及的参数如 $(q^d_x, q^d_y, q^d_ heta)$ 表示跳跃姿态和目标位置。

描述: 该图展示了 离散地形策略 (discrete-terrain policy) 实现的 跳跃到高台 (Jump to Elevated Platforms) 技能。
图 25b (不同位置和高台): 机器人精确跳跃到不同位置和高台的目标，包括：
- (i) 跳到 $0.44 \text{ m}$ 高台（机器人身高仅 $1.1 \text{ m}$ ）。
- (ii) 向前跳跃 $1 \text{ m}$ 。
- (iii) 向前跳跃 $1.4 \text{ m}$ 。
- 机器人能够调整 起跳机动 (take-off maneuvers) 并有效管理 着陆时的角动量 (angular momentum upon landing)。
图 26 (多样化跳跃任务): 立定跳远 (standing long jump) 超过 $1.4 \text{ m}$ 和 立定跳高 (standing high jump) 到 $0.44 \text{ m}$ 高台（使用同一控制器）是人型双足机器人领域的新能力。

图像 28: 鲁棒跳跃机动

$该图像是插图，展示了人形机器人在不同阶段的跳跃动作，包括飞行阶段、施加力和跳跃跃起。图(a)显示了在施加扰动力期间的动态效果，图(b)展示了机器人在跳跃的飞行阶段。相关参数为 $(q^d_x, q^d_y, q^d_ heta) = (0m, 0m, 0°)$。$ 该图像是插图，展示了人形机器人在不同阶段的跳跃动作，包括飞行阶段、施加力和跳跃跃起。图(a)显示了在施加扰动力期间的动态效果，图(b)展示了机器人在跳跃的飞行阶段。相关参数为 $(q^d_x, q^d_y, q^d_ heta) = (0m, 0m, 0°)$ 。

描述: 该图展示了 跳跃策略 的 鲁棒性 (robustness)。
图 27a (脉冲扰动): 机器人在原地跳跃的 顶点 (apex) 受到 向后脉冲扰动 (backward impulse perturbation)。这导致机器人姿态着陆时严重偏离，几乎失去平衡。
图 27b (恢复): 由于 跳跃策略 已训练 后跳 (backward jumps)，机器人迅速调整 预期着陆轨迹 (intended landing trajectory)，执行 后跳 以在空中更好地纠正姿态，实现更有利的着陆配置。
分析: 尽管跳跃策略未经明确的 扰动训练，它能够 泛化 其学习到的多样化任务，以制定更好的 机动 (maneuver) 和 接触计划 (contact plan)，而不是严格遵循给定任务。这是双足机器人在真实世界中成功从跳跃扰动中恢复的详细报告。

跳跃实验总结: 本文展示了 19 种不同的双足跳跃，涵盖了不同的着陆位置、转向和高程，仅使用两个 多功能策略。这验证了 策略的适应性 (机器人精确生成 起跳动量 以着陆到目标) 和 鲁棒性 (即使未经扰动训练，也能通过利用已学习的任务进行敏捷恢复)。

联系策略的自主发展 (Remark 3): 多功能策略 使得机器人能够在线发展自己的 接触策略，偏离 参考运动 隐含的接触计划，从而增强稳定性和 鲁棒性。这在跳跃、站立、行走和奔跑实验中均有体现，类似于 接触隐含优化 的在线实现。

单一策略的挑战 (Remark 4): 在跳跃实验中，机器人有时在 大跳 后站立时会振荡。这表明将 动态非周期性跳跃技能 和 静态站立技能 结合到单一 RL 策略中存在挑战。

6.3. 数据呈现

表格 II: Cassie 机器人运动控制的相关工作

以下是原文 Table II 的结果：

Walking Skill
Previous Literature	Implementation	Variable Velocity	Variable Height	Consistency over Time	Consistent Perturbation	Change of Terrain
[7]	HZD, Model: Full-order	Yes	No	No	No	No
[8, 9]	HZD, Model: Full-order	Yes	Yes	No	No	No
[10]	HZD, Model: Full-order	Yes	No	Not demonstrated	Not demonstrated	No
[11]	RL, Model-free	Yes	No	Not demonstrated	Not demonstrated	No
[12]	RL, Model-free	Forward walking only	No	Not demonstrated	Not demonstrated	No
[13]	RL, Model-free	Yes	Yes	Not demonstrated	Yes (untrained)	No
	RL, Model-free		No		Not demonstrated
[14]		Yes		Not demonstrated		Yes (small, trained)
[15]	RL, Model-free	Yes	No	Not demonstrated	Not demonstrated	Yes (trained)
[16]	RL, Model-free	Forward walking only	No	Not demonstrated	Yes (trained)	No
[17]	RL, Model-free	Sharp turn only	No	Not demonstrated	Not demonstrated	No
[18]	OC, Model: ALIP	Yes	No	Not demonstrated	Not demonstrated	Yes (unmodeled)
[19]	OC, Model: H-LIP	Yes	Yes	Not demonstrated	Not demonstrated	Yes (small, unmodeled)
[20] Ours	OC, Model: Centrodial RL, Model-free	Yes	No Yes	Not demonstrated	Not demonstrated	Yes (small, unmodeled)
		Yes		Yes	Yes (untrained)	Yes (small, untrained)
Previous Literature			Running Skill
	Implementation	Controlled Velocity	Transition from/to Standing	100m Dash Finish Time	400m Dash Finish Time	Uneven Terrain
[14]	RL\$\$	No	Not demonstrated	Not demonstrated	Not demonstrated	Yes (small, trained)
[21]	OC‡	Yes	Not demonstrated	Not demonstrated	Not demonstrated	No
[22]	RL with noticeable flight phase	No	Only transit from standing	24.73s	Not capable of turning	No
Ours	RL with noticeable fight phase	Yes, w/ sharp turn (untrained)	Yes	27.06s	2 min 34 sec	Yes (large, trained)
			Jumping Skill

Previous Literature	Implementation	Targeted Landing	Apex Foot Clearance	Longest Flight Phase	Maximum Leap Distance
[23]	Aperiodic Hop by OC‡	No	0.18m	0.42s	(Forward, Backward, Lateral, Turning, Elevation) In-place
[24]	Aperiodic Hop by OC‡	No	0.15m*	0.33s*	In-place
[14]	Periodic Hop by RL‡	No	0.16m*	0.33s*	Tracking a forward speed
[21] Ours	Aperiodic Jump by OC Aperiodic Jump by RL	No Yes	0.42m* 0.47m	0.33s* 0.58s	(0, 0, 0, 0, 0.41m)
					(1.4m, -0.3m, ±0.3m, ±55, 0.44m)
.

说明： 该表格总结了 Cassie 机器人运动控制领域的相关工作，并将其与本文提出的 ours 方法在 行走、奔跑 和 跳跃 技能上的各项能力进行了对比。它突出了本文方法在 可变速度、可变高度、长时间一致性、应对扰动、地形变化、控制速度、站立过渡、完成时间、目标着陆、脚部离地高度、最长飞行阶段 和 最大跳跃距离 等方面的优势，尤其是在 长时间一致性、大型不平坦地形、400 米冲刺 和 多样化跳跃能力 方面展现了 最先进的 成果。

7. 总结与思考

7.1. 结论总结

本文全面深入地探讨了 深度强化学习 (Deep Reinforcement Learning, RL) 在开发 多功能 (versatile)、鲁棒 (robust) 且 动态 (dynamic) 的双足机器人运动控制器方面的应用。核心贡献包括：

双历史架构 (Dual-History Architecture): 引入并强调了将机器人的 长期 和 短期输入/输出 (I/O) 历史 整合到基于 RL 的控制器中的重要性。研究表明，精心设计的 长期 I/O 历史编码器 能够适应 时不变动态变化 (time-invariant dynamics changes) 和 时变事件 (time-variant events)（如接触），而 短期历史 则提供实时反馈，两者互补，显著提升了控制性能。
鲁棒性来源的新维度: 除了传统的 动态随机化 (dynamics randomization)，本文发现 任务随机化 (task randomization) 是提高鲁棒性的另一个关键策略。通过鼓励机器人探索更广泛的场景和完成多样化的任务，任务随机化 显著增强了 任务泛化 (task generalization) 能力，从而使策略对未预见的扰动更具 顺从性 (compliance)。
广泛的真实世界验证: 所提出的方法在 Cassie 双足机器人上得到了彻底验证，成功实现了真实世界中 多功能 和 鲁棒 的 行走、奔跑 和 跳跃 技能。实验展示了 最先进的 (state-of-the-art) 成果，包括：
- 行走: 持续一年多的 长时间 (long-timespan) 控制性能一致性。
- 奔跑: 在 400 米冲刺中展现 多功能奔跑能力 (versatile running capabilities)，并在 挑战性地形 (challenging terrains) 上成功奔跑。
- 跳跃: 实现了多种多样的跳跃任务，包括 1.4 米的 最远前跳 (furthest forward jump) 和 0.44 米的 高跳 (high jump)。
  
  这项工作不仅在双足机器人控制的性能和鲁棒性方面取得了突破，还为该领域未来的 RL 应用提供了重要的设计原则和见解。

7.2. 局限性与未来工作

本文作者指出了当前工作的局限性，并提出了未来的研究方向：

单一策略中动态与静态技能的融合挑战:
- 局限性: 在跳跃实验中，机器人有时在 大跳 后站立时会出现振荡。这表明将 动态（如非周期性跳跃）和 静态（如站立）技能整合到单一 RL 策略中存在挑战。为跳跃学习的特征可能偏向于高加速度运动，难以完美适应完全静止的站立行为。这突出了在单一统一策略中学习所有不同运动技能（结合动态和静态技能）的难度。
- 未来的方向: 探索如何更好地平衡或融合这些截然不同的运动模式，例如通过更精细的奖励设计，或更复杂的策略架构来处理这种多模态学习。
多技能统一策略的开发:
- 挑战: 虽然本文的策略架构和训练流程对不同技能是通用的，但要实现一个能够处理所有技能的 统一策略 (unified policy) 仍面临挑战，如 灾难性遗忘 (catastrophic forgetting) 问题。
- 潜在途径:
  - 对抗性运动先验 (Adversarial Motion Prior, AMP): 虽然 AMP [92] 有可能实现多样化运动技能的统一控制策略，但将其应用于真实的、高侵略性的双足运动仍是挑战。GAN 风格的方法容易 模式崩溃 (mode-collapse)，且难以模仿短时间内发生的侵略性动作。
  - 持续强化学习 (Continual RL): 像 [108] 提出的方法，通过持续学习新技能来解决。
  - 离线数据集的模仿学习 (Imitation Learning from Offline Datasets): 像 [109] 提出的方法。
  - 技能特定策略间的转换: [110] 提出的方法，学习在不同预训练的 技能特定策略 之间进行转换。
- 本文的定位: 本文的 技能特定策略 方法是构建更复杂多技能系统的坚实起点。
泛化与精度 (Generalization vs. Precision) 的权衡:
- 局限性: 尽管本文在 泛化能力 方面取得了显著成就，但在某些任务中实现 完美的精确控制 仍是一个开放问题。例如，在高速奔跑任务中，难以以微小误差跟踪特定的矢状速度。
- 权衡: 泛化 的 运动控制策略（如 基础模型 (foundation models)）的优势在于提供了一个坚实的起点，可用于对特定 下游任务 (downstream tasks) 进行 微调 (fine-tuning)，例如 精确控制。而针对 精度 优化的控制器可能仅限于 微调 后的任务。
未来扩展:
- 人形机器人和上半身运动: 将本文方法扩展到能够利用 上半身运动 (upper-body motions) 来增强敏捷性和稳定性的人形机器人。
- 深度视觉整合: 将 深度视觉 (depth vision) 直接整合到运动控制器中。这可以通过在现有架构中，在 机器人 I/O 历史编码器 旁边增加一个 深度编码器 (depth encoder) 来实现。
- 运动-操作 (Loco-manipulation) 任务: 结合双足运动和 双手操作 (bimanual manipulation)，以解决 长期运动-操作 任务，开辟新的研究可能性。

7.3. 个人启发与批判

这篇论文为双足机器人运动控制领域带来了多方面的启发，尤其是在 强化学习 (RL) 的实践应用和理论理解上。

个人启发:

I/O 历史在复杂系统中的核心作用: 论文深刻揭示了 I/O 历史 对于 高维度非线性系统（如双足机器人）的 适应性 (adaptivity) 至关重要。双历史架构 巧妙地平衡了 长期历史 的 系统识别 (system identification) 和 状态估计 (state estimation) 能力，与 短期历史 的 实时反馈 (real-time feedback) 需求。这种设计原则可能适用于其他需要精细动态控制的复杂机器人系统，超越了简单的 状态反馈 或 间接适应性控制 范式。
任务随机化 作为 鲁棒性 的“正交”来源: 论文将 任务随机化 (task randomization) 提升到与 动态随机化 (dynamics randomization) 同等重要的地位，并强调其“正交”特性。这提供了一个新的视角：鲁棒性 不仅仅是抵抗不确定性，更是通过 泛化 (generalization) 不同任务来获得更广泛的 行为库 (repertoire of behaviors)，从而在面对未知扰动时能够 柔性 (compliant) 适应甚至 自主恢复 (autonomous recovery)。这种思想对设计更智能、更具韧性的机器人系统具有普适指导意义。
RL 在 运动推理 (Motion Inference) 和 接触规划 (Contact Planning) 方面的潜力: 论文展示了 RL 策略能够自主地从 运动捕捉 (mocap) 或 动画 (animation) 等 运动参考 (motion references) 中学习 轨迹优化 (trajectory optimization)，并能 推理 出超出给定参考的运动。更令人印象深刻的是，机器人能够在线 自主发展接触策略，甚至在复杂扰动下执行多步 恢复机动，这超越了传统 接触隐含优化 的离线能力。这暗示 RL 不仅是低层控制器，更是高层 运动规划器 的强大工具。
仿真到真实 (Sim-to-Real) 迁移的实践智慧: 多阶段训练 框架提供了一个清晰且有效的 课程学习 (curriculum learning) 路径，从简单任务到复杂随机化环境。同时，对 低通滤波器 (LPF) 的有效利用、对 估计器误差 (estimator errors) 的考虑（如高速奔跑时的 EKF 误差），都体现了将 RL 成功部署到真实硬件的实践经验和工程智慧。长时间一致性 的演示（459天）更是对 RL 策略在真实世界中实用性的强有力证明。

潜在问题、未经验证的假设或可以改进的地方:

可解释性与因果关系: 尽管论文通过 潜在表示 (latent representation) 和 显著性图 (saliency maps) 试图解释策略的内部机制，但这些仍然是关联性分析，而非严格的 因果关系 (causal relationship)。为什么某些 潜在维度 与特定物理事件强相关？这种关联是否在所有情况下都稳定？这些深层问题仍需进一步探索。对于初学者来说，这可能仍是一个“黑箱”模型。
奖励函数的工程艺术: 奖励函数的设计依然是 RL 的一大挑战，论文中对奖励权重调整的描述（Nominal Value，不同阶段和技能的调整）虽然提供了指导，但仍带有一定的 经验性 (empirical) 和 工程艺术 成分。如何系统化、自动化地设计或学习奖励函数，以减少人工调优的负担，是未来研究方向。
泛化与精度之间的权衡: 论文讨论了 泛化 和 精度 的权衡。在某些需要极高精度的任务中，多功能策略 可能无法达到 特定任务精调策略 的水平。未来的工作可以探索如何在一个框架内，通过 分层控制 (hierarchical control) 或 自适应精调 (adaptive fine-tuning) 等机制，同时实现卓越的 泛化 和 高精度。
单一策略中的技能冲突: 论文也提到了 动态跳跃 和 静态站立 技能在单一策略中学习时的潜在冲突（导致站立时振荡）。这暗示了将所有技能合并到一个策略中的局限性。未来的工作可以探索 模块化 RL (modular RL) 或 技能组合 (skill composition) 的方法，允许策略在不同技能模块之间切换或协调，而不是强制一个策略学习所有技能。
对未见过环境的零样本泛化能力: 尽管论文展示了对 未训练地形 和 意外扰动 的鲁棒性，但这些“未见过”的环境变化仍在训练时 动态随机化 的分布范围内，或属于 任务随机化 泛化的范畴。对于 完全新颖 (entirely novel) 的、离分布 (out-of-distribution) 的环境或任务，RL 策略的真正 零样本泛化 能力仍是需要持续探索的终极目标。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。