Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control
TL;DR 精炼摘要
本文通过深度强化学习开发了适用于双足机器人的动态运动控制器,超越了单一运动技能的限制,采用创新的双历史架构,利用长期和短期的输入/输出历史,提升了适应性与鲁棒性。该控制器在多种动态技能中表现优异,并在真实机器人上成功验证,推动了双足机器人的运动能力。
摘要
This paper presents a comprehensive study on using deep reinforcement learning (RL) to create dynamic locomotion controllers for bipedal robots. Going beyond focusing on a single locomotion skill, we develop a general control solution that can be used for a range of dynamic bipedal skills, from periodic walking and running to aperiodic jumping and standing. Our RL-based controller incorporates a novel dual-history architecture, utilizing both a long-term and short-term input/output (I/O) history of the robot. This control architecture, when trained through the proposed end-to-end RL approach, consistently outperforms other methods across a diverse range of skills in both simulation and the real world. The study also delves into the adaptivity and robustness introduced by the proposed RL system in developing locomotion controllers. We demonstrate that the proposed architecture can adapt to both time-invariant dynamics shifts and time-variant changes, such as contact events, by effectively using the robot's I/O history. Additionally, we identify task randomization as another key source of robustness, fostering better task generalization and compliance to disturbances. The resulting control policies can be successfully deployed on Cassie, a torque-controlled human-sized bipedal robot. This work pushes the limits of agility for bipedal robots through extensive real-world experiments. We demonstrate a diverse range of locomotion skills, including: robust standing, versatile walking, fast running with a demonstration of a 400-meter dash, and a diverse set of jumping skills, such as standing long jumps and high jumps.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
强化学习用于多功能、动态、鲁棒的双足运动控制 (Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control)
1.2. 作者
Zhongyu Li, Xue Bin Peng, Pieter Abbeel, Sergey Levine, Glen Berseth, Koushil Sreenath。 他们隶属于加州大学伯克利分校 (University of California Berkeley)、西蒙弗雷泽大学 (Simon Fraser University)、蒙特利尔大学 (Université de Montréal) 和 Mila 魁北克人工智能研究所 (Mila Quebec AI Institute)。
1.3. 发表期刊/会议
预印本,发布于 arXiv。
1.4. 发表年份
2024年 (UTC时间 2024-01-30T10:48:43.000Z)。
1.5. 摘要
本文全面研究了使用深度强化学习 (Deep Reinforcement Learning, RL) 创建双足机器人动态运动控制器的方法。作者超越了专注于单一运动技能的局限,开发了一种通用的控制解决方案,可用于一系列动态双足技能,包括周期性的行走 (walking) 和奔跑 (running),以及非周期性的跳跃 (jumping) 和站立 (standing)。所提出的基于 RL 的控制器采用了一种新颖的 双历史架构 (dual-history architecture),利用了机器人长期和短期的输入/输出 (Input/Output, I/O) 历史。这种控制架构通过所提出的 端到端强化学习 (end-to-end RL) 方法进行训练,在仿真和真实世界中,针对各种技能的表现都持续优于其他方法。该研究还深入探讨了所提出的 RL 系统在开发运动控制器时引入的适应性 (adaptivity) 和鲁棒性 (robustness)。作者通过有效利用机器人的 I/O 历史,证明了所提出的架构能够适应 时不变动态变化 (time-invariant dynamics shifts) 和 时变变化 (time-variant changes),例如接触事件 (contact events)。此外,任务随机化 (task randomization) 被认为是鲁棒性的另一个关键来源,它促进了更好的 任务泛化 (task generalization) 和对扰动 (disturbances) 的顺从性 (compliance)。最终的控制策略 (control policies) 可以成功部署在 Cassie 机器人上,这是一种扭矩控制 (torque-controlled) 的人型双足机器人。这项工作通过大量的真实世界实验,推动了双足机器人敏捷性的极限。作者展示了多种多样的运动技能,包括:鲁棒站立 (robust standing)、多功能行走 (versatile walking)、快速奔跑 (fast running) (包括一次 400 米冲刺演示),以及各种跳跃技能 (jumping skills),如立定跳远 (standing long jumps) 和跳高 (high jumps)。
1.6. 原文链接
https://arxiv.org/abs/2401.16889 PDF 链接: https://arxiv.org/pdf/2401.16889v2.pdf
2. 整体概括
2.1. 研究背景与动机
人类环境多样化且主要针对双足运动设计,因此双足机器人领域的一个主要目标是开发能够在这种环境中可靠运行的机器人。当前双足机器人控制面临的核心挑战在于实现多样化、敏捷且鲁棒的运动技能,例如行走、奔跑和跳跃,特别是在高维度人型双足机器人上。
现有研究的挑战与空白 (Gap):
- 复杂动力学: 双足机器人具有浮动基座 (floating base) 和欠驱动动力学 (underactuated dynamics) 的复杂性,严重依赖与环境的接触。接触会导致轨迹不连续,需要复杂的接触模式规划和模式转换稳定。然而,由于双足机器人的高维度和非线性,利用其全阶动力学模型 (full-order dynamics model) 进行运动规划和控制在计算上成本高昂,难以在线应用。
- 多样性技能: 双足运动技能的多样性,无论是周期性的 (periodic) 还是非周期性的 (aperiodic),都对开发一个简单通用的框架构成了重大挑战。例如,奔跑引入了重复的飞行阶段 (flight phase),机器人在此阶段是欠驱动的,比行走更复杂。周期性技能可以通过小修正实现轨道稳定性 (orbital stability),但跳跃等非周期性运动缺乏这种固有稳定性,需要有限时间稳定性 (finite-time stability),并且着陆时伴随巨大的冲击力。
- 鲁棒性和适应性: 传统的
模型优化控制(Model-based Optimal Control, OC) 方法往往难以扩展到多种技能和任务,因为它们通常依赖于任务特定的机器人模型和控制框架。此外,机器人硬件的磨损会导致动态特性随时间变化,要求控制器具备适应性。 - RL 在双足机器人上的局限: 尽管深度强化学习在四足机器人领域取得了显著进展,但由于双足机器人固有的不稳定性,四足机器人成功的方法可能无法直接应用于双足系统。
论文的切入点或创新思路:
本文旨在通过利用 强化学习 (RL) 来克服上述挑战,创建能够适应机器人不确定动态特性(可能随时间变化的磨损)的控制器。其核心思想是,RL 训练的控制器可以利用机器人的本体感知 (proprioceptive) 信息来适应动态变化,并泛化到新的环境和设置,通过利用双足机器人的敏捷性来展示鲁棒行为。具体来说,本文提出:
- 开发一个通用的控制框架,能够解锁高维度、非线性双足机器人的全部潜力,使其在真实世界中执行各种动态运动技能。
- 通过
模型无关强化学习(model-free RL) 方法,让机器人通过试错学习全阶动力学。 - 深入分析 RL 在腿部运动控制中的优势,并详细研究如何有效地组织学习过程以利用这些优势,例如适应性和鲁棒性。
2.2. 核心贡献/主要发现
本文在双足机器人腿部运动控制领域取得了以下关键进展:
- 通用双足运动控制框架的开发: 引入了一个通用的 RL 框架,该框架对广泛的运动技能(包括周期性如行走和奔跑、非周期性如跳跃以及静态如站立)都有效。所产生的控制器可以直接部署在真实机器人上,无需任何额外的调优或在物理系统上进行训练。
- 基于 RL 的控制策略的新颖设计选择: 提出了
双历史架构(dual-history architecture),用于非循环 (non-recurrent) RL 策略,该架构集成了机器人的长短期输入/输出 (I/O) 历史,并明确指定了历史长度。结合提出的训练策略(基策略与短期历史以及长期历史编码器联合训练),该架构在学习动态双足运动控制方面表现出最先进的性能(state-of-the-art performance),在各种运动技能中提供了一致的优势,这在仿真和真实世界实验中都得到了验证。 - 实证研究 RL 控制器中的适应性: 进行了详细的实证研究,探讨了通过 RL 开发的控制策略的适应性。研究表明,RL 带来的适应性不仅包括动态特性的
时不变变化(time-invariant shifts),还包括像接触事件(contact events) 这样的时变变化(time-variant changes)。这在仿真和真实世界实验中都得到了验证。 - 提升 RL 控制器的鲁棒性: 研究引入了 RL 控制策略鲁棒性的一个新维度。除了机器人技术中常用的
动态随机化(dynamics randomization),作者还证明任务随机化(task randomization)(在广泛任务范围内训练策略)显著增强了鲁棒性,因为它促进了任务泛化(task generalization) 和对扰动的顺从性。 - 广泛的真实世界验证和新颖的双足运动能力演示: 该系统能够在真实世界中利用 Cassie 机器人重现多种运动技能。Cassie 能够以可忽略的跟踪误差和对意外扰动的显著鲁棒性来跟踪变化的指令,包括行走、奔跑和跳跃。此外,作者展示了双足机器人的新能力,如使用不同技能进行鲁棒站立恢复、鲁棒行走(长时间内控制性能一致)、使用奔跑控制器完成 400 米冲刺,以及执行各种双足跳跃(包括立定跳远和跳高)。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,需要掌握以下核心概念:
-
强化学习 (Reinforcement Learning, RL):
- 智能体 (Agent): 执行动作的实体,在本论文中指机器人。
- 环境 (Environment): 智能体与之交互的系统,在本论文中指物理世界(仿真或真实机器人)。
- 状态 (State, ): 环境的完整描述,智能体据此做出决策。
- 动作 (Action, ): 智能体在环境中执行的输出,在本论文中指机器人关节的期望位置。
- 观测 (Observation, ): 智能体从环境中接收到的部分状态信息。
- 奖励 (Reward, ): 智能体执行动作后从环境中获得的标量反馈,用于指导学习。
- 策略 (Policy, ): 定义了在给定观测下,智能体如何选择动作的规则或函数 ()。
- 部分可观测马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP): 一种马尔可夫决策过程的泛化,其中智能体无法直接观测到环境的完整状态,只能通过观测获取部分信息。本论文将机器人运动控制建模为一个 POMDP。
- 近端策略优化 (Proximal Policy Optimization, PPO): 一种流行的
策略梯度(policy gradient) 强化学习算法,用于训练策略(policy),通过限制策略更新的步长来提高训练的稳定性。
-
双足机器人 (Bipedal Robots):
- Cassie 机器人: 本论文使用的实验平台,一种扭矩控制 (torque-controlled) 的人型双足机器人。具有
浮动基座(floating-base) 特性(意味着其基座在空间中自由运动,不像固定基座的机器人)。 - 欠驱动动力学 (Underactuated Dynamics): 机器人的自由度 (Degrees of Freedom, DoFs) 数量大于其驱动器 (actuators) 的数量,这意味着并非所有关节都能被直接控制。
- 关节 (Joints): 机器人身体各部分连接处,允许相对运动。
- 致动关节 (Actuated Joints): 带有电机可被主动控制的关节。
- 被动关节 (Passive Joints): 没有电机,通过机械连杆或弹簧连接,其运动受其他关节影响的关节。
- 扭矩控制 (Torque Control): 直接控制机器人关节输出的扭矩,相对于位置或速度控制,能实现更精细和动态的运动。
- PD 控制器 (Proportional-Derivative Controller): 一种常见的反馈控制器,根据
误差(error) 的比例 (Proportional) 和误差变化率(Derivative) 来计算控制输出。在本论文中,用于将策略输出的期望电机位置(desired motor positions) 转换为实际的电机扭矩(motor torques)。
- Cassie 机器人: 本论文使用的实验平台,一种扭矩控制 (torque-controlled) 的人型双足机器人。具有
-
控制理论 (Control Theory):
- 适应性控制 (Adaptive Control): 一种在系统参数未知或随时间变化时,控制器能够调整自身以维持良好性能的控制方法。
- 直接适应性控制 (Direct Adaptive Control): 直接调整控制器参数,而不显式估计系统参数。
- 间接适应性控制 (Indirect Adaptive Control): 首先估计系统参数,然后基于这些估计调整控制器。
- 系统识别 (System Identification): 从输入/输出数据中建立或改进数学模型的过程,以描述系统的动态特性。
- 最优控制 (Optimal Control, OC): 寻找使给定
代价函数(cost function) 最小化的控制输入序列。 - 混合零动力学 (Hybrid Zero Dynamics, HZD): 一种用于双足机器人周期性步态控制的模型基方法,通过施加虚拟约束 (virtual constraints) 使系统在低维度流形上表现出期望的周期性运动。
- 线性倒立摆模型 (Linear Inverted Pendulum, LIP): 机器人腿部运动的简化模型,将机器人的质量集中在一个点(
质心(Center of Mass, CoM))上,并假设其高度不变,常用于简化步态规划。 - 全身控制 (Whole-Body Control, WBC): 一种通过优化器协调机器人所有关节(包括末端执行器)运动以实现复杂任务的方法,通常涉及解决
二次规划(Quadratic Programming, QP) 问题。
- 适应性控制 (Adaptive Control): 一种在系统参数未知或随时间变化时,控制器能够调整自身以维持良好性能的控制方法。
-
神经网络 (Neural Networks):
- 多层感知器 (Multilayer Perceptron, MLP): 最简单的前馈神经网络,由多个全连接层组成,通常用于处理静态输入。
- 一维卷积神经网络 (1D Convolutional Neural Network, CNN): 适用于处理序列数据,通过
卷积核(convolutional kernels) 沿时间维度提取特征。 - 循环神经网络 (Recurrent Neural Network, RNN): 专门用于处理序列数据,通过内部
隐藏状态(hidden states) 记忆过去信息,如长短期记忆网络(Long Short-Term Memory, LSTM)。 - 时间卷积网络 (Temporal Convolutional Network, TCN): 另一种处理序列数据的方法,利用
膨胀卷积(dilated convolutions) 捕获长距离依赖关系,同时避免了 RNN 的梯度消失/爆炸问题。
3.2. 前人工作
论文在 相关工作 (Related Work) 部分对双足机器人运动控制的 模型基最优控制 (Model-based Optimal Control, OC) 和 模型无关强化学习 (Model-free Reinforcement Learning, RL) 两种主要方法进行了回顾。
1. 模型基最优控制 (Model-based Optimal Control, OC):
- 方法概述: 将双足机器人运动控制建模为
最优控制问题(optimal control problem),以机器人动力学模型作为运动约束。为应对计算复杂性,通常采用级联优化框架(cascaded optimization framework)。 - 模型选择:
- 全阶动力学模型 (Full-order Dynamics Model): 适用于离线优化特定行为轨迹,但计算成本高。如
HZD(Hybrid Zero Dynamics) 方法通过全阶模型设计周期性步态。 - 降阶模型 (Reduced-order Models): 适用于在线轨迹优化,如
质心动力学(centroidal dynamics)、线性倒立摆(LIP) 及其变体 (SLIP, ALIP, H-LIP),用于优化质心(CoM) 和/或压足点(Center of Pressure, CoP) 轨迹。 - 反应式控制器 (Reactive Controllers):
全身控制(Whole-Body Control, WBC) 将降阶模型状态转换为关节级输入,快速求解包含约束的二次规划(Quadratic Programming, QP) 问题。
- 全阶动力学模型 (Full-order Dynamics Model): 适用于离线优化特定行为轨迹,但计算成本高。如
- 接触规划 (Contact Planning): 腿部机器人与环境的接触是非光滑的,使得 OC 问题难以同时决定每条腿的接触模式。
- 预定义接触序列 (Pre-defined Contact Sequences): 大多数工作预先定义了特定运动技能的接触序列(如行走、奔跑、跳跃)。
- 接触隐含方法 (Contact-implicit Methods): 通过强制
互补约束(complementarity constraints) 或双层优化(bilevel optimization) 避免显式离散变量。
- 扩展性 (Scalability) 挑战: 模型基 OC 方法在不同运动技能和任务之间的扩展性差,通常需要针对特定任务调整机器人模型和控制框架。例如,HZD 和 LIP 方法在从行走扩展到奔跑或跳跃时面临限制。
2. 模型无关强化学习 (Model-free Reinforcement Learning, RL):
- 方法概述: 借助于深度 RL 的最新发展,在四足机器人控制中取得了显著进展,但双足机器人由于其不稳定性,挑战更大。
- 控制策略结构 (Control Policy Structure): 策略结构受观测 формулировка 影响,特别是机器人
状态历史(states-only history) 或I/O 历史(I/O history) 的使用。- 历史长度: 四足机器人中,历史长度从 1-15 步的短 I/O 历史到 50 步以上的长状态或 I/O 历史不等。策略架构根据历史长度选择,短历史用 MLP,长历史用循环单元 (recurrent units)。
- 双足机器人趋势: 双足机器人倾向于使用更长的历史,从单步状态反馈到短 I/O 历史,再到长状态或 I/O 历史。
- 本研究的创新点: 提出
双历史方法,同时利用长短 I/O 历史,解决了以往研究中长历史可能无法完全发挥优势的问题。
- 仿真到真实 (Sim-to-real Transfer):
- 直接在硬件上训练: 成本高昂,尤其对于人型双足机器人。
- 仿真预训练 + 硬件微调: 一种折衷方案。
- 零样本迁移 (Zero-shot Transfer): 通过
动态随机化(dynamics randomization) 实现,是本文关注的焦点。 - 训练方法:
- 端到端训练 (End-to-end Training): 策略直接从机器人测量或 I/O 历史中学习,如本文所用。
- 策略蒸馏 (Policy Distillation):
专家策略(expert policy)(有特权信息)监督学生策略(student policy) 学习。如教师-学生(Teacher-Student, TS) 或快速运动适应(Rapid Motor Adaptation, RMA)。本文指出其在扭矩控制双足机器人上需要额外微调,且端到端训练可能更有效。
- 扩展性 (Scalability) 挑战: 使用单一策略学习多样化运动技能或任务存在挑战,因为需要优化多个目标。
- 单一技能固定任务: 早期工作集中于此。
- 单一技能多任务: 通过提供不同指令(如不同速度)实现,但对双足机器人仍需大量奖励调优。
- 本文的平衡: 专注于开发
技能特定(skill-specific) 的控制策略,这些策略可以执行多样化的任务,同时保持适用于开发不同技能的通用框架。
3.3. 技术演进
双足机器人运动控制的技术演进可以概括为从 模型强依赖 到 数据驱动,从 单一任务 到 多功能,以及从 仿真环境 到 真实世界 的鲁棒迁移。
- 早期 (Model-based Era): 聚焦于利用精确的机器人动力学模型进行运动规划和控制。HZD、LIP 和 WBC 等方法是这一时期的代表。它们能够实现稳定的周期性步态,但通常计算成本高昂,难以在线应用,且对模型不确定性和环境变化不够鲁棒,难以扩展到多样化的动态技能。
- RL 崛起 (Emergence of RL): 深度强化学习的兴起为解决模型复杂性和不确定性提供了新途径。最初在四足机器人上取得突破,证明了 RL 在学习复杂运动技能方面的潜力。但在双足机器人领域,由于其固有的不稳定性,直接应用面临挑战。
- 仿真到真实 (Sim-to-Real): 为了弥合仿真与现实之间的鸿沟,
动态随机化成为关键技术,使得在仿真中训练的策略能够零样本迁移到真实机器人。同时,策略蒸馏(如 TS, RMA) 也被提出,旨在将特权信息 (privileged information) 从专家策略传递给学生策略,以提高迁移能力。 - 追求多功能性 (Pursuit of Versatility): 随着技术发展,研究开始超越单一运动技能,探索如何让机器人学习多种技能或在单一技能内执行多种任务。这包括参数化指令、使用运动捕捉数据或动画作为参考。
- 本文的贡献和位置: 本文站在了这一演进的前沿,结合了以下先进思想并进行了创新:
- 模型无关 RL: 避免了模型基方法的复杂性。
- 双历史架构: 针对双足机器人特有的挑战,提出了一种新颖的观测处理方式,有效利用了长期和短期的 I/O 信息,提升了策略的适应性。
- 端到端训练: 相对于策略蒸馏,本文证明了端到端训练在双足机器人复杂动态技能学习上的优越性。
- 任务随机化: 创新性地将
任务随机化作为提升鲁棒性和泛化能力的关键手段,补充了传统的动态随机化。 - 真实世界验证: 通过在 Cassie 机器人上实现广泛的、最先进的动态技能(如 400 米冲刺、高跳、长跳),将理论成果推向了实际应用,并强调了控制器在长时间内的鲁棒性和一致性。
3.4. 差异化分析
本文的方法与相关工作的主要区别和创新点在于:
- I/O 历史的有效利用:
双历史架构vs. 传统方法:- 传统: 现有 RL 方法在 I/O 历史使用上没有共识,或仅使用短历史、长状态历史,或在长历史编码后未明确提供短期反馈。一些研究指出,单纯的长历史可能无法超越短历史。
- 本文创新: 提出了
双历史架构,将长 I/O 历史通过CNN 编码器进行系统识别和状态估计,同时将短 I/O 历史直接输入到基 MLP(base MLP) 进行实时控制。这解决了长历史信息可能被编码器模糊的问题,并在仿真和真实世界中都表现出显著的性能提升。
- 训练策略:
端到端强化学习vs.策略蒸馏(Policy Distillation):- 传统:
教师-学生(Teacher-Student, TS) 或快速运动适应(Rapid Motor Adaptation, RMA) 等策略蒸馏方法在四足机器人中流行,通过专家策略监督学生策略学习,通常需要估计预选的系统参数(间接适应性控制)。 - 本文创新: 采用
端到端强化学习方法,直接从 I/O 历史中学习,属于直接适应性控制范畴。实验证明,这种方法在学习复杂动态双足运动技能时表现出更好的性能,尤其在RMA在奔跑等任务中失败时,本文方法仍能达到接近专家策略的性能,且无需额外的微调阶段。
- 传统:
- 鲁棒性来源:
任务随机化vs.动态随机化:- 传统: 鲁棒性主要通过
动态随机化实现,即在仿真中随机化机器人物理参数以应对不确定性。 - 本文创新: 强调
任务随机化是鲁棒性的另一个关键来源。通过在广泛的任务范围内训练策略,机器人能够泛化已学习的任务,从而在面对意外扰动时表现出更强的顺从性和恢复能力。本文认为任务随机化与动态随机化是“正交”的,可以进一步拓宽训练分布。
- 传统: 鲁棒性主要通过
- 技能泛化和接触规划:
通用框架vs.任务特定:- 传统: 模型基 OC 方法在不同技能之间扩展性差,常依赖预定义的接触序列。RL 方法也常专注于单一技能或通过特定策略处理技能转换。
- 本文创新: 提出一个对各种技能通用的控制策略架构,仅通过改变
参考运动(reference motion) 和命令(commands) 即可训练不同技能。更重要的是,机器人能够在线自主发展接触策略,甚至偏离参考运动隐含的接触计划,以增强稳定性和鲁棒性,实现接触隐含优化的在线版本。
- 真实世界表现:
- 本文在 Cassie 机器人上进行了广泛的真实世界实验,展示了
最先进的(state-of-the-art) 结果,包括 400 米冲刺、高跳、长跳等,并证明了控制器在长时间(超过一年)使用中的一致性性能,以及对未训练地形和外部扰动的鲁棒性。
- 本文在 Cassie 机器人上进行了广泛的真实世界实验,展示了
4. 方法论
4.1. 方法原理
本文的核心原理是利用 深度强化学习 (Deep Reinforcement Learning, RL) 来训练一个 通用 (general)、多功能 (versatile)、动态 (dynamic) 且 鲁棒 (robust) 的双足机器人运动控制器。其背后的直觉是:
-
利用数据驱动的优势: 对于高维度、非线性的双足机器人系统,精确建模和在线优化是极其困难的。RL 允许机器人通过
试错学习(trial-and-error) 直接从与环境的交互中学习复杂的控制策略,而无需显式的动力学模型。 -
I/O 历史驱动的适应性: 机器人的
输入/输出 (I/O) 历史包含了丰富的系统动态信息,可以帮助控制器进行系统识别(system identification) 和状态估计(state estimation)。通过学习有效利用这些历史信息,控制器能够适应时不变(time-invariant) 的动力学参数变化(如磨损、载荷)以及时变(time-variant) 的事件(如接触、外部扰动),从而实现直接适应性控制(direct adaptive control)。 -
任务随机化驱动的鲁棒性: 仅仅通过
动态随机化(dynamics randomization) 来提升鲁棒性是有限的。通过在广泛的任务范围内训练策略 (任务随机化),机器人能够学习更通用的控制策略,并在面对意外情况时泛化(generalize) 出适应性行为,例如通过侧向行走来抵消横向推力,或者通过小跳来纠正着陆姿态。这使得策略不仅能应对训练中见过的变化,还能对未曾预料的扰动表现出顺从性(compliance)。 -
多阶段训练的课程学习: 复杂的运动技能和鲁棒性不能一蹴而就。通过
多阶段训练(multi-stage training) 框架,从简单的单任务学习(single-task training) 开始,逐步引入任务多样性(task diversity),最后加入动态随机化,为机器人提供了一个结构化的学习路径,使其能够逐步掌握复杂的技能并实现零样本迁移(zero-shot transfer) 到真实世界。通过这些原理,本文旨在构建一个能够充分发挥双足机器人
全阶动力学(full-order dynamics) 潜力的控制器,使其在真实世界中表现出卓越的敏捷性和可靠性。
4.2. 核心方法详解
4.2.1. 控制框架与策略架构
本研究提出的运动控制策略 是一个 深度神经网络 (deep neural network),其参数由 表示。该策略的目标是为机器人输出 期望电机位置 (desired motor positions) ,这构成了 智能体 (agent) 的 动作 (action) 。
动作处理流程:
- 低通滤波 (Low Pass Filter, LPF): 策略输出的动作首先会通过一个
低通滤波器(LPF) 进行平滑处理。这有助于抑制高频振动,使机器人运动更流畅。LPF 的使用详情在附录 A 中讨论。 - PD 控制器: 经过 LPF 平滑后的动作,被关节级的
PD 控制器(PD controllers) 用于计算电机扭矩(motor torques) ,这些扭矩随后施加到机器人的致动关节(actuated joints) 上。- 策略的查询频率为 。
- PD 控制器的工作频率更高,为 。
策略的输入 (观测, Observation): 在每个时间步 ,策略的输入包含四个关键组成部分:
- 给定命令 (Command, ): 表示机器人需要完成的任务目标,例如行走速度、跳跃目标位置等。其定义在
2.1.2 解决 POMDP 与 I/O 历史中描述。 - 参考运动 (Reference Motion, ): 特定技能的参考运动预览,帮助机器人避免短视。它包括未来时间步的期望电机位置,例如 ,这些是提前 1、4 和 7 个时间步采样的。如果命令 不包含期望基座高度,则当前基座高度 也会包含在 中。
- 机器人短期 I/O 历史 (): 机器人在最近四个时间步的观测和动作历史。这个短期历史(约 0.1 秒)直接作为输入提供给
基网络(base network),提供实时的反馈信息。 - 机器人长期 I/O 历史 (): 机器人在过去两秒的 I/O 历史,包含 66 对机器人 I/O 数据。这部分历史用于系统识别和状态估计。
双历史架构详解 (Dual-History Architecture): 如图 Figure 3 所示,策略架构 由两个主要部分构成:
- 基网络 (Base Network): 由一个
多层感知器(Multilayer Perceptron, MLP) 建模。它接收命令、参考运动、短期 I/O 历史以及长期历史编码器输出的嵌入(embedding) 作为输入。- 基 MLP 具有两个隐藏层,每个隐藏层包含 512 个
tanh激活单元。
- 基 MLP 具有两个隐藏层,每个隐藏层包含 512 个
- 长期历史编码器 (Long-Term History Encoder): 由一个
一维卷积神经网络(1D CNN) 建模。它处理长期的 I/O 历史数据,并将其压缩成一个潜在表示(latent representation),然后作为输入传递给基 MLP。- 1D CNN 编码器包含两个隐藏层,其配置为:
- 第一层:
[卷积核大小 (kernel size), 滤波器大小 (filter size), 步长 (stride size)] = [6, 32, 3] - 第二层:
[卷积核大小 (kernel size), 滤波器大小 (filter size), 步长 (stride size)] = [4, 16, 2]
- 第一层:
- 激活函数使用
relu,不进行填充 (padding)。 - 66 个时间步长的 I/O 历史通过沿时间轴的
时间卷积(temporal convolutions) 进行编码,然后压缩成潜在表示。
- 1D CNN 编码器包含两个隐藏层,其配置为:
输出层:
- 基 MLP 的输出层由
tanh单元组成,指定了归一化动作(normalized action)(相对于电机范围)的高斯分布(Gaussian distribution) 的均值(mean)。 - 动作分布的
标准差(standard deviation) 由固定值 指定。
通用策略结构:
- 该控制策略结构是通用的,可广泛应用于各种运动技能,如站立、行走、奔跑和跳跃。
- 为训练不同技能的策略,用户只需提供不同的
参考运动和命令,策略的底层架构保持不变。
机器人 Cassie 的动力学模型:
Cassie 机器人是具有浮动基座的系统,总共有 个自由度 (DoFs),其中 个是致动关节。其动力学方程通过 欧拉-拉格朗日 (Euler-Lagrange) 方法得到:
其中:
- :广义质量矩阵 (generalized mass matrix)。
- :离心力 (centrifugal) 和 哥氏力 (Coriolis) 矩阵。
- :广义重力 (generalized gravity)。
- :广义控制输入(电机扭矩),通过 分布。
- :状态依赖的弹簧扭矩 (state-dependent spring torques)。
- :广义外部力,包括足部接触力矩 和施加在机器人上的关节摩擦或扰动。
- :接触雅可比 (contact Jacobian)。
- :接触力矩的维度,随地面支撑腿数量变化。
可观测状态 (Observable States, ): 机器人无法可靠测量或估计所有状态。可观测状态 包括:
- 电机位置和速度 ():通过
关节编码器(joint encoders) 测量和估计。 - 基座姿态 (): 通过
惯性测量单元(IMU) 测量。 - 基座线速度 (): 通过
扩展卡尔曼滤波器(Extended Kalman Filter, EKF) 估计。
4.2.2. 多阶段训练框架
本文提出一个 多阶段训练 (multi-stage training) 策略,旨在训练出能够零样本迁移到真实世界的 多功能控制策略 (versatile control policy)。如图 Figure 4 所示,该策略分为三个阶段:
- 单任务训练 (Single-task training):
- 目标: 让机器人从零开始掌握一种运动技能,例如前进、奔跑或原地跳跃,同时避免不期望的机动策略。
- 特点: 机器人专注于模仿单一
参考运动(reference motion),具有固定的目标命令(command)。
- 任务随机化 (Task randomization):
- 目标: 扩展机器人学习的任务范围,促进
任务泛化(task generalization),从而形成一个多功能策略。 - 特点: 引入多样化的
命令,鼓励机器人利用已掌握的技能执行各种任务(例如不同速度、转向、目标位置)。
- 目标: 扩展机器人学习的任务范围,促进
- 动态随机化 (Dynamics randomization):
- 目标: 在机器人熟练掌握各种运动任务及其转换后,引入广泛的
动态随机化来增强策略的鲁棒性(robustness),以确保从仿真到真实机器人硬件的成功零样本迁移(zero-shot transfer)。 - 特点: 在仿真中随机改变机器人的物理参数和传感器噪声。
- 本文还指出,
任务随机化可以增强策略的鲁棒性,使其对扰动表现出顺从性(compliance)。
- 目标: 在机器人熟练掌握各种运动任务及其转换后,引入广泛的
组合站立技能 (Combining a Standing Skill):
- 在
阶段 2中,引入一个额外的子阶段,使机器人能够学习站立(standing) 技能的转换(以及从站立返回)。 - 尽管先前的方法可能使用独立的策略来处理这种转换,本文证明了使用
单一策略实现快速转换并泛化学习到的运动技能以显著提高站立期间的鲁棒性。
参考运动 (Reference Motion):
为每种运动技能提供一个或一组 参考运动,作为机器人应该执行的运动示例。
- 轨迹优化 (Trajectory Optimization): 用于生成行走技能的
参考运动库(library of reference motions),包含基于机器人全阶动力学的多样化周期性行走步态。例如,速度和高度范围内的 1331 种不同参考运动。 - 运动捕捉 (Motion Capture): 奔跑技能的
参考运动源自人类演员的运动捕捉数据,通过逆运动学(inverse kinematics)重定向(retargeted) 到 Cassie 的形态。包括一个平均速度为 的周期性奔跑运动,以及从奔跑到站立的过渡运动。 - 动画 (Animation): 跳跃技能的
参考运动通过 3D 动画制作套件手工创建。例如,一个原地跳跃动画,最高脚部高度为 ,跳跃时间1.66秒,并以站立姿态结束。
奖励函数 (Reward Function):
奖励函数 是在每个时间步 智能体 (agent) 获得的,旨在鼓励机器人执行期望的运动技能并完成任务。它由几个 奖励分量 (reward components) 的加权求和组成,即 。每个奖励分量 具有以下形式:
其中:
- 最大化 激励机器人最小化两个向量 和 之间的距离。
- 是缩放因子,用于归一化单位,使输出范围为
(0, 1]。
奖励分量类型:
- 运动跟踪 (Motion tracking):
- 电机位置奖励 。
- 全局骨盆高度 。
- 全局足部高度 。
- 考虑了地形高度变化或目标抬高高度。
- 奖励中使用了
特权环境信息(privileged environment information),如机器人的全局高度、足部高度或地形高度。
- 任务完成 (Task completion):
- 骨盆速度 和 。
- 全局姿态跟踪 和 。
- 对于周期性技能,关注期望的速度;对于非周期性技能,关注
期望着陆目标(desired landing targets) 和平均速度。
- 平滑性 (Smoothing):
-
减少冲击力 。
-
减少能量消耗 。
-
最小化电机速度 。
-
抑制关节加速度 。
-
调节动作变化 。
奖励权重 (Reward Weights): (参见 Table III)
-
- 跨阶段权重:
阶段 1侧重运动跟踪;阶段 2侧重任务完成。平滑性权重在早期较低,后期可逐渐增加。 - 跨技能权重: 奔跑和跳跃等涉及飞行阶段的技能,
足部高度跟踪权重更高,任务完成权重也更高,以鼓励探索多样任务。平滑性权重基本一致,但对奔跑和跳跃的动作变化项会加强。
回合设计 (Episode Design):
- 统一方法: 所有技能和训练阶段的回合持续时间均为 2500 个时间步(对应 76 秒)。在
阶段 2,命令在 1 到 15 秒的随机时间间隔后随机化。 - 早期终止条件 (Early Termination Conditions):
- 机器人跌倒 ()。
- 跗骨关节 触碰极限。
- 足部高度跟踪容差: ,当机器人足部高度与参考运动偏差超过阈值 时终止。这对于涉及飞行阶段的技能尤其有效。
- 任务完成容差: ,当机器人偏离给定命令的姿态超过阈值 时终止。
- 容差调整: 和 阈值可根据训练进度调整。
动态随机化 (Dynamics Randomization):
在训练 阶段 3 引入,以训练 鲁棒 (robust) 且能 泛化 (generalize) 的策略,应对仿真到真实世界的不确定性。在每个回合中,动态参数 从其均匀分布中采样。
- 解决建模不确定性: 地面摩擦系数、关节阻尼比、连杆质量、惯性和质心 (CoM) 位置。Cassie 的被动关节弹簧刚度 ()。电机 PD 增益 ()。
- 解决测量不确定性: 观测状态 添加模拟噪声(均值从指定范围均匀采样)。模拟
通信延迟(communication delay)(0 到 0.025 秒)。 - 随机化扰动 (Randomized Perturbation, 可选): 在训练中施加
外部扰动扭矩(external perturbation wrenches) 到机器人骨盆。但对于跳跃等高动态技能可能阻碍学习。 - 随机地形 (Randomized Terrain, 可选): 模拟地形变化,包括波浪地形、斜坡、楼梯、台阶。机器人通过 I/O 历史适应地形变化,而非视觉。
训练细节 (Training Details):
- 仿真环境:
MuJoCo。 - 训练算法:
近端策略优化(Proximal Policy Optimization, PPO)。 - 策略 (actor) 和
价值函数(value function) (2 层 MLP)。 - 训练迭代次数和超参数在附录 D 中详细说明。
图像 23: RL-based 控制器架构
该图像是示意图,展示了基于强化学习的控制器架构。该架构利用机器人的输入(I/O)历史,通过1D卷积神经网络(CNN)与多层感知器(MLP)结合处理,使其能够适应多种动态双足运动技能。图中显示的控制策略 处理2秒的长I/O历史数据,并输出期望的电机位置 。此外,图中还标注了机器人Cassie的关节坐标和控制信息。
- 描述: 该图像详细展示了本文提出的
基于 RL 的控制器架构(RL-based controller architecture),该架构利用机器人的输入/输出 (I/O) 历史。控制器在 频率下运行,处理 2 秒长的 I/O 历史数据。 - 数据流:
长期 I/O 历史(Long I/O History, 2 秒,66 对数据) 通过1D CNN沿时间轴编码,生成潜在表示(Latent Representation)。短期 I/O 历史(Short I/O History, 4 个时间步) 直接与基 MLP(Base MLP) 融合。技能特定参考运动(Reference Motion) 和变量命令(Variable Commands) 也作为输入进入基 MLP。
- 策略输出:
策略输出期望电机位置(Desired Motor Positions),即机器人的动作(Action)。 - 动作后处理:
动作经过低通滤波器(LPF) 平滑。 - 底层控制: 滤波后的输出被
关节级 PD 控制器(Joint-level PD Controllers) 在 频率下用于生成电机扭矩(Motor Torques)。 - 通用性: 该架构适用于站立、行走、奔跑和跳跃等多种运动技能。
- Cassie 机器人关节标注: 图中还标注了 Cassie 机器人的
广义坐标(generalized coordinates),包括致动关节 (红色标注,如 ) 和被动关节 (蓝色标注,如 )。
图像 34: 多阶段训练框架
该图像是一个示意图,展示了多阶段训练框架用于获得可零-shot 转移至真实世界的灵活控制策略。左侧展示了参考动作及单任务训练,随后通过任务随机化扩展任务范围,最后加入动态随机化以增强策略的鲁棒性,适用于多种步态,如行走、跑步和跳跃。
- 描述: 该图像展示了用于获得可
零样本迁移(zero-shot transferred) 到真实世界的多功能控制策略(versatile control policy) 的多阶段训练框架(multi-stage training framework)。 - 阶段一: 单任务训练 (Single-task training):
- 机器人首先通过模仿
单一参考运动(single reference motion) 和固定目标(fixed goal) 来学习特定技能。 参考运动可以来自轨迹优化(Trajectory Optimization)、人体运动捕捉(Human Mocap) 或动画(Animation)。
- 机器人首先通过模仿
- 阶段二: 任务随机化 (Task randomization):
- 此阶段扩展了机器人学习的任务范围,通过
多样化的命令(diverse commands) 促进任务泛化(task generalization),从而形成一个多功能策略。
- 此阶段扩展了机器人学习的任务范围,通过
- 阶段三: 动态随机化 (Dynamics randomization):
- 一旦机器人熟练掌握了各种运动任务及其转换,此阶段会引入广泛的
动态随机化(dynamics randomization),以增强策略的鲁棒性(robustness),确保成功地从仿真迁移到真实机器人硬件。
- 一旦机器人熟练掌握了各种运动任务及其转换,此阶段会引入广泛的
- 适用性: 该框架适用于各种双足运动技能,包括行走、奔跑和跳跃,并能从不同来源的技能特定参考运动中学习。
表格 III: 奖励函数权重
以下是原文 Table III 的结果:
| Reward Component r | Weight w | ||||||
| Nominal Value | Walking Skill | Jumping Skill | |||||
| Stage 1 | Stage 2, 3 | Stage 1 | Stage 2, 3 | Stage 1 | Stage 2, 3 | ||
| Motion Tracking | |||||||
| Motion position: r(qm, qm(t)) | 15 | -7.5 | |||||
| Pelvis height: r(qz, q (t) + δz) | 5 | -2 | |||||
| Foot height: r(ez, ez(t) + δz) | 10 | -7 | -7 | ||||
| Task Completion | |||||||
| Pelvis position: r(qx,y, qd,y) | 7.5 | -1.5 | -1.5 | +5.5 | +7.5 | ||
| Pelvis velocity: r(qx,y, qd,y) | 15 | -15 | -2.5 | ||||
| Pelvis orientation: r(cos(qφ,θ, ψ, [0, 0, q]), 1) | 10 | -2.5 | +2.5 | -5 | +2.5 | ||
| Pelvis angular rate: r(àφ,θ,ψ, [0, 0, qd]), | 3 | +4.5 | +7 | ||||
| Smoothing | |||||||
| Foot Impact: r(Fz , 0) | 10 | -7 | -5 | ||||
| Torque: r( , 0) | 3 | ||||||
| Motor velocity: r(qm, 0) | 0 | +3 | |||||
| Joint acceleration: r(q, 0) | 3 | -3 | |||||
| Change of action: r(at , at+1) | 3 | +2 | +2 | -3 | +7 | ||
说明:
Nominal Value列表示奖励分量 的默认权重。Walking Skill,Running Skill,Jumping Skill列分别展示了在不同技能的阶段 1和阶段 2, 3中,权重相对于Nominal Value的调整。- 空白单元格表示该阶段或技能的权重与
Nominal Value相同,未作调整。 - 正负号表示权重增加或减少,例如 意味着在
Pelvis position奖励中,Jumping Skill的Stage 1权重为 。
表格 IV: 动态随机化范围
以下是原文 Table IV 的结果:
| Parameters | Range |
| Dynamics Randomization (General) | |
| Ground Friction Coefficient | [0.3, 3.0] |
| Joint Damping Ratio | [0.3, 4.0] Nms/rad |
| Spring Stiffness | [0.8, 1.2] × default |
| Link Mass | [0.5, 1.5] × default |
| Link Inertia | [0.7, 1.3] × default |
| Pelvis (Root) CoM Position | [-0.1, 0.1] m in qx,y,z |
| Other Link CoM Position | [-0.05, 0.05] m + default |
| Motor PD Gains | [0.7, 1.3] × default |
| Motor Position Noise Mean | [-0.002, 0.002] rad |
| Motor Velocity Noise Mean | [-0.01, 0.01] rad/s |
| Gyro Rotation Noise | [-0.002, 0.002] rad |
| Linear Velocity Estimation Error | [-0.04, 0.04] m/s |
| Communication Delay | [0, 0.025] s |
| External Perturbation (Optional) | |
| Force & Torque | [-20, 20] N & [-5, 5] Nm |
| Elapsed Time Interval (Walking) | [0.1, 3.0] s |
| Elapsed Time Interval (Running) | [0.1, 1.0] s |
| Randomized Terrain (Optional) | |
| Terrain Type | Waved, Slopes, Stairs, Steps |
说明:
- 该表格详细列出了
动态随机化(Dynamics Randomization) 中使用的参数及其范围。 Dynamics Randomization (General)部分包含了通用的物理参数和传感器噪声的随机化范围。External Perturbation (Optional)部分列出了可选的外部扰动(external perturbation) 及其施加的时间间隔,这取决于具体的技能。Randomized Terrain (Optional)部分列出了可选的随机地形(randomized terrain) 类型。
5. 实验设置
5.1. 数据集
本文的实验并非传统意义上使用预先定义的数据集进行训练和测试,而是 强化学习 (RL) 的范式。因此,数据集 的概念更多地体现在 仿真环境、参考运动 的来源以及 动态随机化 的配置上。
-
仿真环境:
- 平台: 使用
MuJoCo物理引擎 ([101],[102]) 模拟 Cassie 机器人。 - 机器人模型: Cassie 机器人(详见
4.2.1 控制框架与策略架构)。
- 平台: 使用
-
参考运动来源 (作为训练目标):
- 行走技能:
轨迹优化(Trajectory Optimization) 方法生成了一个包含 1331 种不同周期性行走步态的参考运动库。这些步态基于机器人的全阶动力学,涵盖了从 到[1.0, 0.3, 1.0]的速度和高度范围。 - 奔跑技能:
运动捕捉(Motion Capture) 数据,来源于人类演员 ([100])。原始人类运动通过逆运动学(inverse kinematics)重定向(retargeted) 到 Cassie 的形态,获得一个平均速度 的周期性奔跑参考运动和从奔跑到站立的过渡运动。 - 跳跃技能:
动画(Animation) 技术,通过 3D 动画制作套件手工制作了一个原地跳跃动画,最高脚部高度 ,跳跃时间1.66秒。 - 重要说明: 除了通过
轨迹优化生成的行走运动外,运动捕捉和动画的参考运动都没有进行额外的轨迹优化来使其对机器人具有动力学可行性。RL 算法被期望能够学习如何实现这些运动。
- 行走技能:
-
动态随机化配置 (作为训练数据多样性的来源):
- 在
多阶段训练的阶段 3中,模拟环境的动态参数被广泛随机化,以生成多样化的训练经验,增强零样本迁移(zero-shot transfer) 到真实世界的能力。 - 随机化参数包括:地面摩擦系数、关节阻尼比、弹簧刚度、连杆质量、连杆惯性、骨盆 (Root) 及其他连杆的
质心(CoM) 位置、电机 PD 增益、电机位置/速度噪声均值、陀螺仪旋转噪声、线速度估计误差和通信延迟。 - 可选的随机化包括
外部扰动(External Perturbation)(力和扭矩)和随机地形(Randomized Terrain)(波浪、斜坡、楼梯、台阶)。
- 在
5.2. 评估指标
本文采用多种指标来评估 RL 控制器的 学习性能 (learning performance)、控制性能 (control performance)、适应性 (adaptivity) 和 鲁棒性 (robustness)。
1. 学习性能 (Learning Performance):
- 归一化回报 (Normalized Return): 衡量智能体在训练过程中累积奖励的平均值,通常用于评估 RL 算法的训练效率和最终性能。
- 概念定义: 强化学习的目标是最大化
期望回报(expected return)。归一化回报是将累积奖励进行标准化处理,以便在不同任务或设置之间进行比较。高归一化回报表示策略能够更好地完成任务并获得更多奖励。 - 数学公式:
其中, 是从时间 开始的
折扣回报(discounted return), 是折扣因子(discount factor), 是在时间 获得的奖励。归一化回报通常是 在多个回合 (episodes) 上的平均值,并可能进行进一步的缩放。 - 符号解释:
- : 从时间步 开始的累积折扣回报。
- : 回合的结束时间。
- : 折扣因子,取值范围
[0, 1),用于权衡即时奖励和未来奖励的重要性。 - : 在时间步 获得的瞬时奖励。
- 概念定义: 强化学习的目标是最大化
2. 控制性能 (Control Performance):
- 平均绝对误差 (Mean Absolute Error, MAE): 衡量机器人实际运动与期望命令之间的偏差,用于评估
命令跟踪精度(command tracking accuracy)。- 概念定义:
平均绝对误差计算了模型预测值(或机器人实际值)与真实值(或期望值)之间绝对差值的平均。它反映了预测或控制的准确性。 - 数学公式:
- 符号解释:
- : 样本数量(例如,时间步的数量)。
- : 第 个时间步的真实值或期望值(例如,期望速度或姿态)。
- : 第 个时间步的预测值或实际值(例如,实际速度或姿态)。
- 概念定义:
- 特定跟踪误差:
- 速度跟踪误差: 针对
矢状速度、横向速度和偏航角速度。 - 姿态跟踪误差: 针对
骨盆俯仰角、横滚角和偏航角。 - 位置跟踪误差: 针对
骨盆位置。 - 脚部高度跟踪误差: 。
- 任务完成误差: 。
- 速度跟踪误差: 针对
- 其他性能指标:
- 完成时间: 例如 400 米冲刺和 100 米冲刺的完成时间。
- 峰值速度 (Peak Speed): 机器人能达到的最高速度。
- 平均速度 (Average Speed): 在一定距离或时间内维持的平均速度。
- 飞行阶段 (Flight Phase): 衡量奔跑和跳跃的动态性。
3. 适应性 (Adaptivity) 和 鲁棒性 (Robustness):
- 零样本迁移性能: 仿真训练的策略在真实机器人上部署而无需任何调优的能力。
- 长时间一致性: 策略在真实机器人上长时间(例如一年多)保持良好控制性能的能力。
- 应对动态变化: 策略在
动态参数变化(例如质心偏移、PD 增益变化、阻尼变化)下维持性能的能力。 - 应对外部扰动: 策略在受到
脉冲扰动(impulse perturbation) 或持续扰动(persistent perturbation) 时维持稳定或恢复的能力。 - 应对未训练地形: 策略在
未训练地形(untrained terrain)(例如小楼梯、斜坡)上行走的能力。 - 潜在表示分析: 通过可视化
长期 I/O 历史编码器的潜在表示(latent representation),分析其是否能捕获时变事件(time-variant events)(如接触、外部力)和时不变动态变化。 - 顺从性 (Compliance): 机器人面对外部力时,能够顺应力的方向移动而不失去平衡的能力。
- 恢复机动 (Recovery Maneuvers): 机器人从不稳定状态(如被推倒)中恢复的能力,包括执行复杂的多步恢复动作。
4. 定性评估:
- 稳定步态 (Stable Gaits): 目视检查机器人运动的平稳性和稳定性。
- 自然行为: 机器人动作是否符合生物力学或人类观察的直觉。
- 接触策略 (Contact Strategy): 机器人是否能自主发展和调整接触序列。
5.3. 对比基线
本文在仿真和真实世界实验中,将所提出的方法与多种 基线模型 (Baselines) 进行了比较,这些基线主要关注不同的 策略架构 (policy architecture)、观测空间 (observation space) 和 训练范式 (training paradigm)。这些基线模型旨在验证论文中提出的几个关键设计选择的优势。
1. ours (本文提出的方法):
- 架构:
双历史架构(dual-history architecture),同时利用短期 I/O 历史(directly to base MLP) 和长期 I/O 历史(encoded by 1D CNN)。 - 动作空间: 直接输出
期望电机位置。 - 训练:
端到端训练(end-to-end training),基 MLP 和长期历史编码器联合训练。 - 特点: 如图 Figure 5a 所示。
2. Residual (残差策略):
- 架构: 与
ours架构相似,但输出表示一个残差项(residual term)。 - 动作空间: 策略输出的残差项加到当前时间步的
参考电机位置上,即 。 - 特点: 如图 Figure 5b 所示。这种方法在
[71, 11, 12]等先前的研究中有所采用。
3. State Feedback Only (仅状态反馈):
- 架构: 与
ours具有相同的模型结构和动作空间。 - 观测空间: 仅依赖机器人的
历史状态(historical states) (机器人输出历史),不包含机器人的输入历史(input history)。 - 特点: 如图 Figure 5c 所示。这种选择在
[71, 12, 14, 22]等研究中较为常见。
4. Long History Only (仅长历史):
- 架构: 仅依赖由 CNN 编码的
长期 I/O 历史。 - 观测空间: 包含
长期 I/O 历史编码器的输出,以及机器人最新的即时状态反馈(immediate state feedback)。 - 特点: 如图 Figure 5d 所示。这种配置在
[74]中作为基线。
5. Short History Only (仅短历史):
- 架构: 仅依赖
短期 I/O 历史,不包含长期 I/O 历史 CNN 编码器。 - 特点: 如图 Figure 5e 所示。在
[13]中用于双足运动控制,在[70, 69, 65]等四足控制中更常见。
6. RMA (Rapid Motor Adaptation)/Teacher-Student (策略蒸馏):
- 架构: 采用
策略蒸馏方法,包括两个训练阶段。- 专家 (Teacher) 策略 (Fig. 5f): 通过 RL 训练,可以访问
特权环境信息(privileged environment information),这些信息通过 MLP 编码为 8D 的外在特征向量(extrinsics vector)。此策略仅用于仿真。 - RMA (Student) 策略 (Fig. 5g):
专家策略用于监督RMA 策略的训练。RMA 策略复制专家策略的基 MLP,并只学习利用长期 I/O 历史编码器来估计教师策略的外在特征向量。
- 专家 (Teacher) 策略 (Fig. 5f): 通过 RL 训练,可以访问
- 特点:
[71, 74]中采用了这种方法,并在四足机器人控制中广泛应用。本文的实现中,所有专家、RMA策略都将短期 I/O 历史整合到基 MLP中,这是为了公平比较而做出的修改。
7. A-RMA (增强型 RMA):
- 架构: 在
RMA训练之后,引入了一个额外的训练阶段。在此阶段,长期 I/O 历史编码器的参数保持固定,而基 MLP通过 RL 再次更新。 - 特点: 如图 Figure 5h 所示。由
[67]引入。
训练策略:
- 所有基线和本文方法都使用
多阶段训练框架(Sec. VI) 进行训练。 - 每个
运动技能(walking, running, jumping) 的每种方法都训练了 3 个策略(使用不同的随机种子)。这意味着共训练了 个不同的控制策略。
图像 39: 策略架构基线
该图像是一个图表,展示了行走、跑步和跳跃策略的标准化回报与样本数量的关系。每个子图的横坐标代表样本的数量,纵坐标表示标准化回报,不同颜色的曲线代表不同的策略。图中标记了开始扰动的时间点,显示了各策略在受到扰动后的表现变化。
- 描述: 该图像展示了本文提出的
RL-based 控制策略架构(RL-based control policy architectures) 以及多种基线(baselines),用于双足机器人运动。所有这些架构都将命令(command) 和参考运动(reference motion) 作为输入提供给基 MLP(base MLP),但在图中为了简洁而省略。 - 图 5a: Ours (本文方法):
- 集成了
短期和长期I/O 历史。 基 MLP和长期历史编码器联合训练,输出期望电机位置。
- 集成了
- 图 5b: Residual (残差方法):
- 与
ours架构类似,但输出残差项,加到参考电机位置上。
- 与
- 图 5c: State Feedback Only (仅状态反馈):
- 使用与
ours相同的模型结构,但仅依赖机器人的状态历史(输出历史),不包含输入历史。
- 使用与
- 图 5d: Long History Only (仅长历史):
- 仅依赖
长期 I/O 历史(通过 CNN 编码),但基 MLP可以直接访问即时状态反馈(latest observation)。
- 仅依赖
- 图 5e: Short History Only (仅短历史):
- 仅依赖
短期 I/O 历史,不使用CNN 编码器处理长期历史。
- 仅依赖
- 图 5f: Expert (Teacher) (专家/教师策略):
- 用于
策略蒸馏的教师策略。通过 RL 训练,可以访问特权环境信息(Privileged Extrinsics)。
- 用于
- 图 5g: RMA (Student) (RMA/学生策略):
- 用于
策略蒸馏的学生策略。复制专家策略的基 MLP,并学习利用长期 I/O 历史编码器估计专家的外在特征向量。
- 用于
- 图 5h: A-RMA (增强型 RMA):
- 在
RMA训练后,长期 I/O 历史编码器的参数保持固定,基 MLP通过 RL 再次微调。
- 在
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 学习性能基准测试
本文通过在 阶段 3 (任务随机化 和 动态随机化) 中的 学习曲线 (learning curves) 来评估各种方法的 学习性能 (learning performance)。这阶段对 仿真到真实 (sim-to-real) 迁移至关重要。如图 Figure 38 所示,学习性能在各种运动技能中保持一致。
图像 38: 学习曲线比较
该图像是一个图表,展示了行走、跑步和跳跃策略的标准化回报与样本数量的关系。每个子图的横坐标代表样本的数量,纵坐标表示标准化回报,不同颜色的曲线代表不同的策略。图中标记了开始扰动的时间点,显示了各策略在受到扰动后的表现变化。
- 描述: 该图表展示了
多阶段训练框架中阶段 3的学习性能,其中包含了任务随机化和动态随机化。横轴表示样本数量(Samples),纵轴表示归一化回报(Normalized Return)。不同的曲线代表不同的策略架构(policy architecture),颜色和形状对应 Figure 5 中的标记。该图展示了在训练期间,各种方法在行走(Walking)、奔跑(Running) 和跳跃(Jumping) 技能上的表现。 - 图例:
Ours(红色曲线): 本文提出的双历史架构。Residual(紫色曲线): 使用残差动作(residual action) 的架构。State Feedback Only(粉色曲线): 仅使用状态反馈的架构。Long History Only(蓝色曲线): 仅使用长期 I/O 历史的架构。Short History Only(橙色曲线): 仅使用短期 I/O 历史的架构。RMA (Student)(绿色曲线):策略蒸馏中的学生策略。A-RMA (Student)(深绿色曲线):RMA的改进版本。Expert(灰色虚线): 专家策略,代表理论上的性能上限(仅在仿真中可用)。
分析:
- 动作选择 (
Residualvs.Ours): 紫色曲线 (Residual) 的学习性能始终低于红色曲线 (Ours)。这表明,当策略直接输出期望电机位置而不是残差项时,学习效果更好。虽然残差方法可能在初期加速学习,但它可能导致策略花费更多精力纠正由参考运动引入的额外运动,尤其是在探索超出参考运动的机动时。作者建议重新考虑在运动控制中使用残差学习(residual learning)。 - 观测选择 (
State Feedback Onlyvs.Ours): 粉色曲线 (State Feedback Only) 的性能明显低于红色曲线 (Ours)。这强调了同时利用机器人的输入(动作) 和输出(状态) 历史的重要性。仅提供状态反馈不足以让策略进行系统识别(system identification) 和状态估计(state estimation),从而影响对不确定动态和外部扰动的适应性。 - 历史长度 (
Long History Only,Short History Onlyvs.Ours):- 蓝色曲线 (
Long History Only) 的学习性能未能超越橙色曲线 (Short History Only) 或其他方法。 - 当
基 MLP直接访问短期 I/O 历史,同时拥有长期历史编码器时(Ours,红色曲线),学习性能显著提高。这表明,虽然长期历史对系统识别有益,但短期历史对于实时控制(real-time control) 提供了关键的即时反馈。长期历史中的信息经过编码后可能被模糊,因此明确提供短期历史作为补充是必要的。 - 附录 E 的历史长度消融研究进一步支持,增加历史长度可以提高训练性能,但超过一定长度(如 4 秒)后,性能提升会饱和甚至下降,因为可能引入冗余信息。
- 蓝色曲线 (
- 策略蒸馏方法 (
RMA,A-RMAvs.Ours):- 绿色曲线 (
RMA) 相比Expert(灰色虚线) 性能显著下降,尤其在奔跑等高难度技能中甚至无法学习。这归因于利用长期 I/O 历史估计预选环境参数时不可避免的误差。 - 深绿色曲线 (
A-RMA) 虽能提升RMA性能,但仍略低于Ours,尽管使用了更多的训练样本。在奔跑任务中,A-RMA的表现类似于Short History Only(橙色曲线),表明编码器未能有效估计环境参数,反而避免使用长期历史。 Ours接近Expert的性能,同时具有真实世界部署的能力,而Expert仅限于仿真。这凸显了端到端训练的优势。
- 绿色曲线 (
- 时间编码器 (
TCN,LSTMin Appendix F): 附录 F 提到,双历史方法持续增强TCN等非循环策略的学习性能,但对LSTM等循环策略帮助不大。循环策略倾向于收敛到次优解,且对超参数调优敏感。
总结:
这些结果共同表明,本文提出的 双历史架构 结合 端到端训练,在 策略架构 和 训练策略 上都表现出优越性,能够更有效地学习动态双足运动控制,并在复杂动态随机化场景下实现更好的性能。
6.1.2. 案例研究:原地行走实验 (真实世界)
本研究在真实世界中对不同方法训练的策略进行了 原地行走 (in-place walking) 实验,以评估其 适应性 (adaptivity) 和 仿真到真实 (sim-to-real) 迁移能力。
图像 40: 模拟环境中行走策略的性能
该图像是图表,展示了在模拟环境中不同控制策略下的速度跟踪误差和方向跟踪误差。图中数据比较了我们的控制方法与其他策略(如状态反馈、长历史、短历史等)的表现,结果显示我们的方法在速度跟踪误差上具有较低的误差值。
- 描述: 该图表展示了在模拟环境中,使用不同方法(如 Figure 5 所述)训练的行走策略的
速度跟踪误差(speed tracking error) 和方向跟踪误差(orientation tracking error)。 - 图 7a (速度跟踪误差): 比较了不同方法在模拟环境中的速度跟踪误差
MAE(Mean Absolute Error)。 - 图 7b (方向跟踪误差): 比较了不同方法在模拟环境中的方向跟踪误差
MAE。 - 分析: 在模拟环境中,所有方法在原地行走任务中都表现出相似且良好的跟踪性能,除了
RMA在速度上表现较差。这表明在理想仿真条件下,大多数策略都能学习基本的行走行为。
图像 41: 真实环境中行走策略的性能
该图像是一个示意图,展示了不同跳跃动作(如原地跳、前跳、侧跳等)在时间轴上的潜在值和地面冲击力的变化。图中可见不同阶段的潜在值变化,以及二次跳跃的标记,反映了动态步态控制的效果。
- 描述: 该图表展示了在真实机器人硬件上,使用不同方法训练的行走策略的
速度跟踪误差(speed tracking error) 和方向跟踪误差(orientation tracking error)。 - 图 8a (速度跟踪误差): 比较了不同方法在真实机器人硬件上的速度跟踪误差
MAE。 - 图 8b (方向跟踪误差): 比较了不同方法在真实机器人硬件上的方向跟踪误差
MAE。 - 分析:
- 显著差异: 仿真与真实世界之间的性能存在显著差异。在真实硬件上,除
ours外的其他方法都出现了明显的漂移(drift) 和跟踪误差增加。 Ours的优势: 本文提出的方法 (ours) 在真实世界中表现出最低的跟踪误差和最小漂移,成功维持了机器人的原地行走。这表明其在仿真到真实迁移方面具有卓越的适应性。- 其他方法的局限:
-
Long History Only,Short History Only,State Feedback Only: 导致机器人向左侧显著漂移。 -
RMA: 表现出最明显的矢状漂移(sagittal shift),即使在零速度命令下也以较快速度前进。 -
A-RMA: 减少了矢状漂移,但仍有相当大的横向运动。 -
Residual: 未能在真实机器人上保持稳定步态。结论:
原地行走实验有力地证明了本文提出的双历史架构结合端到端训练的适应性和仿真到真实迁移能力。即使在仿真中表现相似,但在真实硬件上,本文方法能更好地适应机器人动态特性,实现更精确和稳定的控制。
-
- 显著差异: 仿真与真实世界之间的性能存在显著差异。在真实硬件上,除
6.1.3. 适应性来源分析
为了理解所提出方法在应对动态环境变化时表现出优势的原因,本文深入分析了 长期 I/O 历史编码器 生成的 潜在表示 (latent representation)。
图像 33: 奔跑中 I/O 历史编码器潜在表示的时变特性
该图像是一个示意图,展示了在不同时间段内的潜在值和脚部冲击力的变化情况。上部显示了初始化和扰动阶段的潜在值1和潜在值2,下部则记录了左脚和右脚的冲击力随时间的变化。该图有助于理解机器人在动态行走时的控制响应。
- 描述: 该图展示了在
奔跑过程中,长期 I/O 历史编码器的潜在表示的变化情况。 - 图 9a (时变潜在表示):
- 上图: 记录了在 15 秒内
长期 I/O 历史编码器输出的潜在表示。机器人从站立开始,随后以 的恒定速度奔跑。在 8 到 11 秒期间,对机器人施加了 的持续向后扰动(persistent backward perturbation force)。 - 下图: 比较了两个选定的
潜在维度(红色曲线,对应上图中的红线) 与机器人左右脚的地面冲击力(ground impact force)。
- 上图: 记录了在 15 秒内
- 分析:
- 周期性模式:
奔跑是一种周期性技能,一旦步态稳定(约 2 秒后),潜在表示也呈现周期性模式。 - 扰动捕获:
扰动(绿色虚线框内) 引入了潜在表示的变化,表明编码器能够捕获时变扰动。 - 接触估计: 两个特定的
潜在维度与左右脚的冲击力呈现强相关性,并在脚处于摆动相(swing phase) 时降至零。这表明编码器能够隐式地进行接触估计(contact estimation)。 - 扰动下的接触变化: 在
外部扰动存在时,尽管地面冲击力幅度不变,这两个潜在维度的值会降低,并在扰动结束后恢复。这可能意味着机器人学会将外部扰动和地面反作用力作为广义的外部力() 一并嵌入这些信号中,并在控制中加以利用,而无需人工设计。 行走技能也观察到类似能力(附录 G)。
- 周期性模式:
图像 42: 跳跃中 I/O 历史编码器潜在表示的时变特性
该图像是一个示意图,展示了不同跳跃动作(如原地跳、前跳、侧跳等)在时间轴上的潜在值和地面冲击力的变化。图中可见不同阶段的潜在值变化,以及二次跳跃的标记,反映了动态步态控制的效果。
- 描述: 该图展示了在
跳跃过程中,长期 I/O 历史编码器的潜在表示的变化情况。 - 图 9c (时变潜在表示 - 跳跃):
- 上图: 记录了在
跳跃过程中长期 I/O 历史编码器的潜在表示。机器人每 3 秒执行不同的跳跃任务,包括原地跳跃、1.4 米前跳、0.5 米侧跳和 转向跳跃,随后站立。 - 下图: 比较了两个选定的
潜在维度(红色曲线) 与机器人两只脚的总冲击力。
- 上图: 记录了在
- 分析:
- 跳跃与站立的区别:
潜在表示明显区分了跳跃阶段(变化更大、非零信号) 和站立阶段(信号变化较小)。 - 任务差异: 不同跳跃任务在
跳跃阶段产生不同的潜在值。 - 起跳/着陆事件: 发现两个
潜在维度与跳跃中的接触事件强相关。潜在值 1(Latent Value 1) 在总接触力变为零之前(即起跳(take-off))开始增加并下降到零。潜在值 2(Latent Value 2) 仅在机器人着陆(landing) 时活跃。
- 这种对
起跳和着陆事件的独立信号表示,可能为双足跳跃控制提供了更丰富的信息。
- 跳跃与站立的区别:
图像 10: 奔跑中潜在表示对动态变化的适应性
该图像是示意图,展示了使用默认动态与多种变化(如噪声、重心位置、延迟等)对机器人控制系统的潜在影响。左侧的“默认”部分与右侧的各项变化对比,表明每种情况的潜在表现和效能指标 的不同值。此图表有助于理解不同动态设置下,深度强化学习控制器的适应性和鲁棒性。
- 描述: 该图展示了在
奔跑过程中,长期 I/O 历史编码器的潜在表示如何随时不变(time-invariant) 的机器人动态模型变化而变化。图中蓝色曲线显示了默认动态参数下的潜在表示,红色曲线显示了在不同动态参数变化下的潜在表示。 - 图 9b (对动态变化的适应性 - 奔跑):
- 默认动态: 蓝色曲线表示在默认动态模型下控制机器人奔跑时的
潜在表示。 - 动态参数变化: 对
连杆质心位置(Link CoM Position)、连杆质量(Link Mass)、关节阻尼比(Joint Damping Ratio)、电机 PD 增益(Motor PD Gains) 和地面摩擦(Ground Friction) 进行单一参数的改变(超出训练范围)。 - 潜在表示变化: 每种
动态参数变化都导致潜在表示与默认模型下的模式发生显著偏移。 - 控制性能不变: 尽管
潜在表示发生显著变化,但控制性能指标(如任务完成误差和运动跟踪误差) 变化很小,表明控制器能够适应这些动态变化。 - 测量不确定性:
通信延迟(0.025 秒) 导致潜在表示发生明显变化。然而,即使引入大噪声(超出训练上限 2 倍),潜在表示变化不大,表明长期历史编码器能有效过滤(filter out)零均值噪声。
- 默认动态: 蓝色曲线表示在默认动态模型下控制机器人奔跑时的
图像 11: 跳跃中潜在表示对动态变化的适应性
该图像是示意图,展示了在使用默认动态与与默认动态变化相关的潜在特征的比较。图中左侧部分显示了默认情境下的潜在特征,包括不同的动态参数示例;右侧部分则展示了在存在变化(如噪声、延迟等)情况下的潜在特征。每个子图下方标注了对应的能量值 ,反映了不同条件下的动态行为表现。
- 描述: 该图展示了在
跳跃过程中,长期 I/O 历史编码器的潜在表示如何随时不变(time-invariant) 的机器人动态模型变化而变化。图中蓝色曲线显示了默认动态参数下的潜在表示,红色曲线显示了在不同动态参数变化下的潜在表示。 - 图 9d (对动态变化的适应性 - 跳跃):
- 与奔跑类似,在
跳跃任务中,对相同的动态参数进行改变,也导致了潜在表示的不同模式。 控制性能指标(如任务完成误差和运动跟踪误差) 仍然显示出很小的变化。
- 与奔跑类似,在
总结适应性来源:
历史编码器 能够从 I/O 历史中捕获有意义的信息,使控制器能够:
-
适应时变事件: 如外部扰动或接触事件。
-
适应时不变动态变化: 如动态参数的变化。
-
过滤测量噪声: 保持控制任务的有效执行,性能下降最小。
这种能力解释了所提出架构在具有大范围
动态参数随机化的挑战性训练设置中表现出色的原因。
6.1.4. 多功能策略的优势与鲁棒性来源
本研究验证了 多功能策略 (versatile policies) 比 任务专用策略 (task-specific policies) 具有显著的 鲁棒性 (robustness) 提升,这主要归因于 任务随机化 (task randomization) 带来的 泛化 (generalization)。
基线对比: (详见 5.3 对比基线)
Single Task(单任务): 仅在单一固定任务和动态随机化(不含扰动) 下训练。Single-Task w/ Perturbation(带扰动单任务): 在单一固定任务、动态随机化和模拟扰动(simulated perturbations) 下训练。Versatile (Ours)(多功能策略): 在任务随机化和动态随机化(不含扰动) 下训练。
图像 2: 鲁棒性来源分析 (模拟环境)
该图像是示意图,展示了使用默认动态与多种变化(如噪声、重心位置、延迟等)对机器人控制系统的潜在影响。左侧的“默认”部分与右侧的各项变化对比,表明每种情况的潜在表现和效能指标 的不同值。此图表有助于理解不同动态设置下,深度强化学习控制器的适应性和鲁棒性。
- 描述: 该图展示了在模拟环境中,不同策略在超出训练分布的
不确定性(out-of-distribution uncertainty) 下的鲁棒性表现。 - 测试场景:
- 一致力 (Consistent Force): 对机器人骨盆施加持续的外部力。
- 质心偏移 (CoM Position Deviation): 所有连杆的
质心位置发生显著偏移。
- 图 10a (行走 - 侧向拉力 ):
Single Task(i): 失败,机器人被推出其训练分布。Single-Task w/ Perturbation(ii): 能够前进,但有轻微横向偏差。Versatile (Ours)(iii): 即使未训练扰动,也能通过利用学习到的侧向行走技能来抵消外部力,表现出顺从步态(compliant gait),显著向右侧漂移。
- 图 10b (行走 - 质心向后偏移 ):
Single Task(i): 无法处理。Single-Task w/ Perturbation(ii): 通过学习到的控制策略抵消向后的质心偏移,以减小的速度前进。Versatile (Ours)(iii): 利用后退行走步态来抵消向后的质心偏移。
- 图 10c (奔跑 - 向前扰动 ):
Single Task(i) 和Single-Task w/ Perturbation(ii): 无法保持稳定步态。Versatile (Ours)(iii): 能够适应扰动,因为它已训练更快的奔跑速度。
- 图 10d (奔跑 - 质心向前偏移 ): 类似地,
多功能策略能够应对这种偏移。 - 图 10e (跳跃 - 侧向扰动):
多功能策略能够通过侧跳来应对。 - 图 10f (跳跃 - 质心向前偏移):
多功能策略能够通过前跳来应对。
结论:
动态随机化(包括扰动训练): 扩展了策略在特定任务内的场景范围(scenario range),但机器人仍限于执行已训练的任务。任务随机化: 通过学习多样化任务,使机器人能够泛化(generalize) 并表现出更大的鲁棒性和顺从性,即使没有广泛的动态随机化。机器人可以利用其学到的技能库来应对未预见的情况。
图像 5: 鲁棒站立实验 (真实世界)
该图像是一个示意图,展示了机器人在不同情况下的站立和行走技能。左侧展示了在前向推力作用下,仅具备站立技能的情况,中间展示带扰动的情况,而右侧则展示了经过训练的同时具备行走和站立技能的表现。
- 描述: 该图展示了在真实世界中
站立技能的鲁棒性实验。对机器人施加外部前向扰动(external forward perturbation) 到骨盆。 - 图 11a (仅站立技能 - 未带扰动训练): 机器人失去平衡并跌倒,因为它被推出其
支撑区域(support region)。 - 图 11b (仅站立技能 - 带扰动训练): 机器人也失去平衡并跌倒。
- 图 11c (多功能行走策略 - 未带扰动训练):
- 机器人最初向前倾斜。
- 当倾斜超出
支撑区域时,它会执行智能恢复机动(intelligent recovery maneuvers)。 - 机器人
转换(transits) 到行走步态,执行几步(包括前向和后向行走),然后平稳地恢复站立姿态。 - 这一系列复杂的恢复动作是在
无人为指令的情况下自主完成的,尽管该策略在训练其站立技能时没有模拟外部扰动。
图像 6: 鲁棒性恢复机动 (真实世界)
该图像是插图,展示了一种双足机器人在外力横向推动下,通过多种行走技能进行恢复的过程。从左到右分别展示了机器人被推、恢复行走技巧和最终站立的状态。
- 描述: 该图展示了机器人通过其
多功能策略在真实世界中执行的鲁棒性恢复机动。 - 图 12a (多功能行走策略): 当机器人在站立时受到
横向扰动(laterally perturbed),它会利用其多样化的行走技能来恢复并重新站立。这包括一系列的行走机动来降低质心(Center of Mass, CoM),然后恢复站立姿态。 - 图 12b (多功能奔跑策略): 机器人从奔跑中停下,并踩到
赛道护栏(track guard) 上。它能够不失平衡地脱离护栏,并利用其在学习奔跑技能时获得的侧踏技能(side-stepping skills) 维持稳定的站立姿态。 - 图 12c (多功能跳跃策略): 在一次不稳定的
多轴跳跃(multi-axis jump) 着陆后,机器人执行纠正性小跳(corrective hop),这是从多样化跳跃任务中学习到的,以更好地在空中纠正姿态,实现更稳定的着陆配置。
总结鲁棒性来源:
多功能策略显著增强了鲁棒性,因为它能泛化(generalize) 已学习的任务,并在面对未预见的情况时找到更好的机动(maneuvers),从而提高稳定性。任务随机化是提升 RL 控制器鲁棒性的关键策略。- 机器人能够在线发展自己的
接触策略(contact strategy),甚至偏离参考运动隐含的接触计划,以增强稳定性和鲁棒性,这类似于接触隐含优化(contact-implicit optimization) 的在线实现。
图像 8: 训练分布理解鲁棒性
该图像是一个示意图,展示了通过不同方法增强机器人的鲁棒性训练分布的概念。图中红色曲线表示在部署期间,机器人应在其轨迹的训练分布内操作。单一任务训练时,分布被限制在特定任务的轨迹上。引入动态随机化和任务随机化可以扩大训练分布,促进机器人跨多种任务的学习和泛化。
- 描述: 该图形象地展示了通过不同方法增强
鲁棒性的训练分布(training distributions) 概念。 - 核心思想: 在部署时,我们希望由
RL 策略控制的机器人能在其训练轨迹分布(training distribution of trajectories) 内部运行(红色曲线)。 Single Task策略: 其训练分布(黄色区域) 仅限于该任务的标称轨迹(nominal trajectories)。动态随机化(Dynamics Randomization): 可以扩展这个分布,使其能应对更广泛的物理参数变化,但仍然以固定任务为中心。任务随机化(Task Randomization): 显著拓宽了训练分布(橙色区域),通过使机器人学习和泛化各种控制策略以应对不同的任务(图中标记为褪色的黄色区域)。- 结合使用:
任务随机化可以与动态随机化结合使用,进一步扩大训练分布,增强策略的鲁棒性。 - 作者指出:
动态随机化的范围不能任意大,否则会阻碍学习。任务随机化可以被视为一种“正交”的方式来提高鲁棒性,而不是进一步推高动态随机化的范围。
6.2. 真实世界中的动态双足运动
6.2.1. 行走实验
本文在 Cassie 机器人上广泛评估了 多功能行走策略 (versatile walking policy)。
图像 17: 长时间一致性跟踪
该图像是图表,展示了时间与三个坐标轴速度(, , )的关系。图中红色曲线为估计值,黑色虚线为期望值,在时间范围内显示了动态变化和稳定性。
- 描述: 该图展示了
多功能行走策略在真实世界中对可变命令(varying commands) 的跟踪性能(tracking performance) 和长时间一致性。 - 图 14a (可变命令跟踪): 机器人能够可靠地跟踪变化的
矢状速度、横向速度和行走高度命令。跟踪误差 (MAE) 保持在较低水平。 - 图 14b, 14c (长时间一致性): 同一控制器在 325 天和 492 天后仍然能有效跟踪可变命令,跟踪误差的劣化最小。这表明策略能够
适应机器人硬件随时间变化的动态特性。
图像 11: 跟踪转向命令
该图像是一个插图,展示了机器人在追踪多个转向偏航命令 q _ { heta }时的表现。上方是机器人在不同时间点的动作快照,下方为控制器输出的估计值与期望值的对比图,显示机器人能够有效执行顺时针和逆时针的全转。
- 描述: 该快照展示了机器人能够可靠地跟踪各种
转向偏航命令,包括顺时针和逆时针的完整转向。
图像 13: 快速行走
该图像是图表,展示了双足机器人在不同步态下的动态行为,包括快速向前行走(左)和向后行走(右)。图中标注了过渡状态,右侧的子图显示了与这些行为相关的记录数据,包括估计和期望的速度变化。
- 描述: 该图展示了机器人从静止状态到
快速行走(fast walking) 的过渡。 - 图 16a (快速前向行走): 机器人从静止快速达到 的平均前向行走速度,并能快速返回站立。
- 图 16b (快速后向行走): 机器人从静止无缝过渡到平均 的后向行走,并按指令返回站立。
图像 14: 未训练地形上的鲁棒行走
该图像是示意图,展示了机器人在不同环境中向后行走的动作。左侧为在楼梯上向后行走的过程,右侧为在坡道上向后行走的过程,时间从0到1.2秒间隔展示不同姿态.
- 描述: 该图展示了机器人在
未训练地形(untrained terrain) 上的鲁棒行走表现。 - 分析: 尽管行走策略未专门针对
不平坦地形进行训练,但机器人对楼梯和下坡等高程变化(elevation changes) 表现出显著鲁棒性,能够向后行走。这得益于策略对接触时序或力矩变化的鲁棒性。
图像 15: 随机扰动下的鲁棒性
该图像是图表,展示了在机器人遭受侧向扰动时的恢复动作及控制效果。左侧(图a)展示了机器人在施加横向扰动后的运动过程,并记录了其横向速度 随时间变化的图表,红线表示估计速度,黑线为期望速度。在右侧,平面位置 ( , ) 的估计结果显示,随着时间推移,记录点的颜色逐渐加深,体现了机器人对扰动的反应。右下角(图b)对比了未能有效恢复的模型控制器的表现。
- 描述: 该图展示了
多功能行走策略在随机扰动下的鲁棒性。 - 图 18a (脉冲扰动): 当机器人原地行走时受到
强烈侧向扰动(substantial lateral perturbation force),导致 的侧向速度峰值。机器人迅速从偏差中恢复,通过反向侧向行走来补偿扰动,恢复稳定。 - 图 18b (与模型基控制器的比较):
模型基控制器在受到侧向扰动时会失去控制并摔倒,因为它没有考虑外部扰动。
图像 16: 持续扰动下的鲁棒性
该图像是展示了机器人(Cassie)在不同条件下行走的示意图。这包括在持续横向力和随机矢量力的作用下,机器人如何保持稳定的行走姿态,图中展示了多个动态调整的过程。
-
描述: 该图展示了机器人对
持续扰动的顺从性(compliance)。 -
图 19a (持续侧向拖拽): 机器人在正常高度行走时,其基座受到
持续侧向拖拽力。机器人保持平衡,并顺从力方向,展示了与人类安全交互的潜力。 -
图 19b (持续随机矢状力): 机器人在低行走高度下,基座受到方向随机变化的
持续矢状力。机器人保持平衡,顺从力方向。行走实验总结:
多功能行走策略能够有效控制 Cassie 机器人执行多样化任务,并长时间保持一致。它能跟踪不同行走速度、高度、转向,并实现快速行走和站立间的过渡。策略对地形高程变化和外部扰动(包括脉冲和持续力)表现出显著鲁棒性。
6.2.2. 奔跑实验
本文评估了在真实世界中使用所提出方法开发的 多功能奔跑策略 (versatile running policies)。
图像 17: 400 米冲刺
该图像是一个示意图,展示了机器人在不同时间点的动态跳跃过程。左侧是赛道的鸟瞰图,右侧包含机器人在跳跃时的关键帧,标记了起跳和飞行阶段。机器人的控制策略通过多种动态技能的训练,提高了其适应性与鲁棒性。
- 描述: 该图展示了 Cassie 机器人在标准户外跑道上完成 400 米冲刺的过程。
- 图 20a (关键帧):
- (1) 机器人从站立姿态平稳过渡到奔跑。
- (2), (4) 在变速度和转向下,奔跑过程中有显著的
飞行阶段(flight phases)。 - (3) 机器人精确追踪转向命令。
- 图 20b (记录数据):
- 机器人加速到平均 (估计值),峰值 (估计值)。
- 在整个 400 米冲刺中,成功保持期望速度并精确遵循转向命令。
- 平均转向角误差
MAE为5.95度。 - 总计 2 分 34 秒完成 400 米冲刺,并能随后过渡到站立姿态。这是人型双足机器人首次完成 400 米跑圈。
图像 18: 跟踪奔跑时的可变命令
该图像是实验结果的示意图,展示了在bipedal机器人上执行动态步态控制时的估计与期望速度(和)以及角度()随时间变化的关系。图中红色曲线表示估计值,黑色虚线表示期望值。整体趋势表明控制系统的表现与预期大致一致,验证了所提出的RL控制器在稳健性和适应性上的有效性。
- 描述: 该图展示了机器人在奔跑时跟踪
可变命令的能力。 - 图 21a (矢状速度 ): 机器人能够可靠地跟踪变化的
矢状速度命令。 - 图 21b (横向速度 ): 机器人能够可靠地跟踪变化的
横向速度命令。 - 图 21c (急转弯): 机器人能够对从 到 的
偏航命令阶跃变化(step change of yaw command) 做出响应,在 5 步内完成急转弯(sharp turn),同时保持自然奔跑步态。这在训练中未明确训练,展示了泛化能力。
图像 21: 100 米冲刺
该图像是图表,展示了机器人在100米冲刺比赛中的跑步快照,时间戳指示了对应的帧。下方图表记录了机器人在比赛中的矢量速度 随时间的变化情况,显示了估计速度与期望速度的对比。
- 描述: 该图展示了机器人进行 100 米冲刺的快照和记录数据。
- 图 22a (快速过渡): 机器人在 1.8 秒内从静止站立姿态快速过渡到
快速奔跑步态。 - 图 22b (巡航阶段): 机器人保持快速奔跑,达到峰值估计速度 ,有明显的
飞行阶段。 - 图 22c (记录速度): 记录了矢状速度 。
- 结果: 机器人以约 28 秒完成 100 米冲刺,最快用时
27.06秒 (Table V)。
表格 V: 100 米冲刺完成时间记录
以下是原文 Table V 的结果:
| Trial | Completion Time (s) |
| 1 | 27.06 |
| 2 | 27.99 |
| 3 | 28.28 |
图像 22: 不平坦地形上的奔跑
该图像是一个示意图,包括机器人在不同地形上奔跑的快照以及关节相位图。上方展示了机器人在不同坡度(7°, 10°, 3°)和飞行状态下的运动情况,下方则是左大腿和右大腿、左膝盖和右膝盖的相位图,展现了位置与速度的关系。
- 描述: 该图展示了机器人在
不平坦地形(uneven terrains) 上奔跑的能力。 - 图 23a (地形穿越): 机器人成功穿越了不同坡度的地形( 矢状斜坡, 横向斜坡, 更陡峭的矢状斜坡),全程没有显式的
地形高度估计或外部传感器。机器人保持了稳定的奔跑步态和飞行阶段。这是人型双足机器人首次在大范围不平坦地形上实现(带飞行阶段的)奔跑。
图像 25: 鲁棒奔跑机动
该图像是一个插图,展示了机器人在奔跑过程中如何从横向扰动中恢复。图中显示了不同时间点的机器人姿态变化,特别标出了施加扰动的时刻。这一过程展示了机器人在动态环境中的适应能力和控制策略。
-
描述: 该图展示了机器人在
扰动下的鲁棒奔跑机动。 -
图 24a (脉冲扰动): 在 100 米冲刺时,机器人受到
安全绳(safety cord) 产生的突然脉冲扰动,导致速度骤降并倾斜。机器人能够保持稳定并快速恢复到稳定奔跑步态。 -
图 24b (侧向扰动): 机器人受到
侧向扰动时,能够执行侧向奔跑步态来补偿扰动。奔跑实验总结:
奔跑策略能够有效控制 Cassie 机器人执行各种奔跑和转向速度,适应仅基于本体感知反馈(proprioceptive feedback) 的地形变化,并无缝过渡到站立和从站立恢复。Cassie 实现了 的峰值速度、27.06 秒的 100 米冲刺、2 分 34 秒的 400 米冲刺,并能穿越不平坦地形,同时对意外扰动表现出鲁棒性。
6.2.3. 跳跃实验
本文评估了所提出的 多功能跳跃策略 (versatile jumping policies)。共获得了两个策略:平地策略 (flat-ground policy) 和 离散地形策略 (discrete-terrain policy)。
图像 26: 跳跃与转向
该图像是示意图,展示了使用两种不同策略(平坦地面政策和离散地形政策)进行的不同跳跃动作。图中每个阶段标注了“飞行阶段”,并分别列出了跳跃时的机器人的姿态和参数设置。左侧为平坦地面策略下的跳跃,右侧为离散地形策略下的跳跃,各自展示了机器人的运动轨迹和动态。
- 描述: 该图展示了
平地策略(flat-ground policy) 实现的跳跃与转向(Jump and Turn) 技能。 - 图 25a (不同目标跳跃): 机器人执行各种目标跳跃,包括:
- (i) 原地跳跃并转向 。
- (ii) 向后跳跃 0.3 米。
- (iii) 向前跳跃 1 米。
- 机器人能精确着陆在目标点,并通过调整
起跳姿态(take-off pose) 来适应不同命令。
- 图 26c (多轴跳跃): 机器人执行结合了
前向()、横向() 和转向() 的多轴跳跃。
图像 27: 跳跃到高台
该图像是示意图,展示了一个仿人机器人在执行不同跳跃技能的动作。多个图例(如(a)至(g))显示了机器人的飞行阶段及目标落地点,分别展示了不同的跳跃高度和角度配置,涉及的参数如 表示跳跃姿态和目标位置。
- 描述: 该图展示了
离散地形策略(discrete-terrain policy) 实现的跳跃到高台(Jump to Elevated Platforms) 技能。 - 图 25b (不同位置和高台): 机器人精确跳跃到不同位置和高台的目标,包括:
- (i) 跳到 高台(机器人身高仅 )。
- (ii) 向前跳跃 。
- (iii) 向前跳跃 。
- 机器人能够调整
起跳机动(take-off maneuvers) 并有效管理着陆时的角动量(angular momentum upon landing)。
- 图 26 (多样化跳跃任务):
立定跳远(standing long jump) 超过 和立定跳高(standing high jump) 到 高台(使用同一控制器)是人型双足机器人领域的新能力。
图像 28: 鲁棒跳跃机动
该图像是插图,展示了人形机器人在不同阶段的跳跃动作,包括飞行阶段、施加力和跳跃跃起。图(a)显示了在施加扰动力期间的动态效果,图(b)展示了机器人在跳跃的飞行阶段。相关参数为 。
-
描述: 该图展示了
跳跃策略的鲁棒性(robustness)。 -
图 27a (脉冲扰动): 机器人在原地跳跃的
顶点(apex) 受到向后脉冲扰动(backward impulse perturbation)。这导致机器人姿态着陆时严重偏离,几乎失去平衡。 -
图 27b (恢复): 由于
跳跃策略已训练后跳(backward jumps),机器人迅速调整预期着陆轨迹(intended landing trajectory),执行后跳以在空中更好地纠正姿态,实现更有利的着陆配置。 -
分析: 尽管跳跃策略未经明确的
扰动训练,它能够泛化其学习到的多样化任务,以制定更好的机动(maneuver) 和接触计划(contact plan),而不是严格遵循给定任务。这是双足机器人在真实世界中成功从跳跃扰动中恢复的详细报告。跳跃实验总结: 本文展示了 19 种不同的双足跳跃,涵盖了不同的着陆位置、转向和高程,仅使用两个
多功能策略。这验证了策略的适应性(机器人精确生成起跳动量以着陆到目标) 和鲁棒性(即使未经扰动训练,也能通过利用已学习的任务进行敏捷恢复)。
联系策略的自主发展 (Remark 3):
多功能策略 使得机器人能够在线发展自己的 接触策略,偏离 参考运动 隐含的接触计划,从而增强稳定性和 鲁棒性。这在跳跃、站立、行走和奔跑实验中均有体现,类似于 接触隐含优化 的在线实现。
单一策略的挑战 (Remark 4):
在跳跃实验中,机器人有时在 大跳 后站立时会振荡。这表明将 动态非周期性跳跃技能 和 静态站立技能 结合到单一 RL 策略中存在挑战。
6.3. 数据呈现
表格 II: Cassie 机器人运动控制的相关工作
以下是原文 Table II 的结果:
| Walking Skill | ||||||
| Previous Literature | Implementation | Variable Velocity | Variable Height | Consistency over Time | Consistent Perturbation | Change of Terrain |
| [7] | HZD, Model: Full-order | Yes | No | No | No | No |
| [8, 9] | HZD, Model: Full-order | Yes | Yes | No | No | No |
| [10] | HZD, Model: Full-order | Yes | No | Not demonstrated | Not demonstrated | No |
| [11] | RL, Model-free | Yes | No | Not demonstrated | Not demonstrated | No |
| [12] | RL, Model-free | Forward walking only | No | Not demonstrated | Not demonstrated | No |
| [13] | RL, Model-free | Yes | Yes | Not demonstrated | Yes (untrained) | No |
| RL, Model-free | No | Not demonstrated | ||||
| [14] | Yes | Not demonstrated | Yes (small, trained) | |||
| [15] | RL, Model-free | Yes | No | Not demonstrated | Not demonstrated | Yes (trained) |
| [16] | RL, Model-free | Forward walking only | No | Not demonstrated | Yes (trained) | No |
| [17] | RL, Model-free | Sharp turn only | No | Not demonstrated | Not demonstrated | No |
| [18] | OC, Model: ALIP | Yes | No | Not demonstrated | Not demonstrated | Yes (unmodeled) |
| [19] | OC, Model: H-LIP | Yes | Yes | Not demonstrated | Not demonstrated | Yes (small, unmodeled) |
| [20] Ours | OC, Model: Centrodial RL, Model-free | Yes | No Yes | Not demonstrated | Not demonstrated | Yes (small, unmodeled) |
| Yes | Yes | Yes (untrained) | Yes (small, untrained) | |||
| Previous Literature | Running Skill | |||||
| Implementation | Controlled Velocity | Transition from/to Standing | 100m Dash Finish Time | 400m Dash Finish Time | Uneven Terrain | |
| [14] | RL\$\$ | No | Not demonstrated | Not demonstrated | Not demonstrated | Yes (small, trained) |
| [21] | OC‡ | Yes | Not demonstrated | Not demonstrated | Not demonstrated | No |
| [22] | RL with noticeable flight phase | No | Only transit from standing | 24.73s | Not capable of turning | No |
| Ours | RL with noticeable fight phase | Yes, w/ sharp turn (untrained) | Yes | 27.06s | 2 min 34 sec | Yes (large, trained) |
| Jumping Skill | ||||||
| Previous Literature | Implementation | Targeted Landing | Apex Foot Clearance | Longest Flight Phase | Maximum Leap Distance | |
| [23] | Aperiodic Hop by OC‡ | No | 0.18m | 0.42s | (Forward, Backward, Lateral, Turning, Elevation) In-place | |
| [24] | Aperiodic Hop by OC‡ | No | 0.15m* | 0.33s* | In-place | |
| [14] | Periodic Hop by RL‡ | No | 0.16m* | 0.33s* | Tracking a forward speed | |
| [21] Ours | Aperiodic Jump by OC Aperiodic Jump by RL | No Yes | 0.42m* 0.47m | 0.33s* 0.58s | (0, 0, 0, 0, 0.41m) | |
| (1.4m, -0.3m, ±0.3m, ±55, 0.44m) | ||||||
| . | ||||||
说明: 该表格总结了 Cassie 机器人运动控制领域的相关工作,并将其与本文提出的 ours 方法在 行走、奔跑 和 跳跃 技能上的各项能力进行了对比。它突出了本文方法在 可变速度、可变高度、长时间一致性、应对扰动、地形变化、控制速度、站立过渡、完成时间、目标着陆、脚部离地高度、最长飞行阶段 和 最大跳跃距离 等方面的优势,尤其是在 长时间一致性、大型不平坦地形、400 米冲刺 和 多样化跳跃能力 方面展现了 最先进的 成果。
7. 总结与思考
7.1. 结论总结
本文全面深入地探讨了 深度强化学习 (Deep Reinforcement Learning, RL) 在开发 多功能 (versatile)、鲁棒 (robust) 且 动态 (dynamic) 的双足机器人运动控制器方面的应用。核心贡献包括:
双历史架构(Dual-History Architecture): 引入并强调了将机器人的长期和短期输入/输出 (I/O) 历史整合到基于 RL 的控制器中的重要性。研究表明,精心设计的长期 I/O 历史编码器能够适应时不变动态变化(time-invariant dynamics changes) 和时变事件(time-variant events)(如接触),而短期历史则提供实时反馈,两者互补,显著提升了控制性能。- 鲁棒性来源的新维度: 除了传统的
动态随机化(dynamics randomization),本文发现任务随机化(task randomization) 是提高鲁棒性的另一个关键策略。通过鼓励机器人探索更广泛的场景和完成多样化的任务,任务随机化显著增强了任务泛化(task generalization) 能力,从而使策略对未预见的扰动更具顺从性(compliance)。 - 广泛的真实世界验证: 所提出的方法在 Cassie 双足机器人上得到了彻底验证,成功实现了真实世界中
多功能和鲁棒的行走、奔跑和跳跃技能。实验展示了最先进的(state-of-the-art) 成果,包括:-
行走: 持续一年多的
长时间(long-timespan) 控制性能一致性。 -
奔跑: 在 400 米冲刺中展现
多功能奔跑能力(versatile running capabilities),并在挑战性地形(challenging terrains) 上成功奔跑。 -
跳跃: 实现了多种多样的跳跃任务,包括
1.4米的最远前跳(furthest forward jump) 和0.44米的高跳(high jump)。这项工作不仅在双足机器人控制的性能和鲁棒性方面取得了突破,还为该领域未来的 RL 应用提供了重要的设计原则和见解。
-
7.2. 局限性与未来工作
本文作者指出了当前工作的局限性,并提出了未来的研究方向:
-
单一策略中动态与静态技能的融合挑战:
- 局限性: 在跳跃实验中,机器人有时在
大跳后站立时会出现振荡。这表明将动态(如非周期性跳跃)和静态(如站立)技能整合到单一 RL 策略中存在挑战。为跳跃学习的特征可能偏向于高加速度运动,难以完美适应完全静止的站立行为。这突出了在单一统一策略中学习所有不同运动技能(结合动态和静态技能)的难度。 - 未来的方向: 探索如何更好地平衡或融合这些截然不同的运动模式,例如通过更精细的奖励设计,或更复杂的策略架构来处理这种多模态学习。
- 局限性: 在跳跃实验中,机器人有时在
-
多技能统一策略的开发:
- 挑战: 虽然本文的策略架构和训练流程对不同技能是通用的,但要实现一个能够处理所有技能的
统一策略(unified policy) 仍面临挑战,如灾难性遗忘(catastrophic forgetting) 问题。 - 潜在途径:
- 对抗性运动先验 (Adversarial Motion Prior, AMP): 虽然 AMP
[92]有可能实现多样化运动技能的统一控制策略,但将其应用于真实的、高侵略性的双足运动仍是挑战。GAN 风格的方法容易模式崩溃(mode-collapse),且难以模仿短时间内发生的侵略性动作。 - 持续强化学习 (Continual RL): 像
[108]提出的方法,通过持续学习新技能来解决。 - 离线数据集的模仿学习 (Imitation Learning from Offline Datasets): 像
[109]提出的方法。 - 技能特定策略间的转换:
[110]提出的方法,学习在不同预训练的技能特定策略之间进行转换。
- 对抗性运动先验 (Adversarial Motion Prior, AMP): 虽然 AMP
- 本文的定位: 本文的
技能特定策略方法是构建更复杂多技能系统的坚实起点。
- 挑战: 虽然本文的策略架构和训练流程对不同技能是通用的,但要实现一个能够处理所有技能的
-
泛化与精度 (Generalization vs. Precision) 的权衡:
- 局限性: 尽管本文在
泛化能力方面取得了显著成就,但在某些任务中实现完美的精确控制仍是一个开放问题。例如,在高速奔跑任务中,难以以微小误差跟踪特定的矢状速度。 - 权衡:
泛化的运动控制策略(如基础模型(foundation models))的优势在于提供了一个坚实的起点,可用于对特定下游任务(downstream tasks) 进行微调(fine-tuning),例如精确控制。而针对精度优化的控制器可能仅限于微调后的任务。
- 局限性: 尽管本文在
-
未来扩展:
- 人形机器人和上半身运动: 将本文方法扩展到能够利用
上半身运动(upper-body motions) 来增强敏捷性和稳定性的人形机器人。 - 深度视觉整合: 将
深度视觉(depth vision) 直接整合到运动控制器中。这可以通过在现有架构中,在机器人 I/O 历史编码器旁边增加一个深度编码器(depth encoder) 来实现。 运动-操作(Loco-manipulation) 任务: 结合双足运动和双手操作(bimanual manipulation),以解决长期运动-操作任务,开辟新的研究可能性。
- 人形机器人和上半身运动: 将本文方法扩展到能够利用
7.3. 个人启发与批判
这篇论文为双足机器人运动控制领域带来了多方面的启发,尤其是在 强化学习 (RL) 的实践应用和理论理解上。
个人启发:
- I/O 历史在复杂系统中的核心作用: 论文深刻揭示了
I/O 历史对于高维度非线性系统(如双足机器人)的适应性(adaptivity) 至关重要。双历史架构巧妙地平衡了长期历史的系统识别(system identification) 和状态估计(state estimation) 能力,与短期历史的实时反馈(real-time feedback) 需求。这种设计原则可能适用于其他需要精细动态控制的复杂机器人系统,超越了简单的状态反馈或间接适应性控制范式。 任务随机化作为鲁棒性的“正交”来源: 论文将任务随机化(task randomization) 提升到与动态随机化(dynamics randomization) 同等重要的地位,并强调其“正交”特性。这提供了一个新的视角:鲁棒性不仅仅是抵抗不确定性,更是通过泛化(generalization) 不同任务来获得更广泛的行为库(repertoire of behaviors),从而在面对未知扰动时能够柔性(compliant) 适应甚至自主恢复(autonomous recovery)。这种思想对设计更智能、更具韧性的机器人系统具有普适指导意义。- RL 在
运动推理(Motion Inference) 和接触规划(Contact Planning) 方面的潜力: 论文展示了 RL 策略能够自主地从运动捕捉(mocap) 或动画(animation) 等运动参考(motion references) 中学习轨迹优化(trajectory optimization),并能推理出超出给定参考的运动。更令人印象深刻的是,机器人能够在线自主发展接触策略,甚至在复杂扰动下执行多步恢复机动,这超越了传统接触隐含优化的离线能力。这暗示 RL 不仅是低层控制器,更是高层运动规划器的强大工具。 仿真到真实(Sim-to-Real) 迁移的实践智慧:多阶段训练框架提供了一个清晰且有效的课程学习(curriculum learning) 路径,从简单任务到复杂随机化环境。同时,对低通滤波器(LPF) 的有效利用、对估计器误差(estimator errors) 的考虑(如高速奔跑时的 EKF 误差),都体现了将 RL 成功部署到真实硬件的实践经验和工程智慧。长时间一致性的演示(459天)更是对 RL 策略在真实世界中实用性的强有力证明。
潜在问题、未经验证的假设或可以改进的地方:
- 可解释性与因果关系: 尽管论文通过
潜在表示(latent representation) 和显著性图(saliency maps) 试图解释策略的内部机制,但这些仍然是关联性分析,而非严格的因果关系(causal relationship)。为什么某些潜在维度与特定物理事件强相关?这种关联是否在所有情况下都稳定?这些深层问题仍需进一步探索。对于初学者来说,这可能仍是一个“黑箱”模型。 - 奖励函数的工程艺术: 奖励函数的设计依然是 RL 的一大挑战,论文中对奖励权重调整的描述(
Nominal Value,不同阶段和技能的调整)虽然提供了指导,但仍带有一定的经验性(empirical) 和工程艺术成分。如何系统化、自动化地设计或学习奖励函数,以减少人工调优的负担,是未来研究方向。 - 泛化与精度之间的权衡: 论文讨论了
泛化和精度的权衡。在某些需要极高精度的任务中,多功能策略可能无法达到特定任务精调策略的水平。未来的工作可以探索如何在一个框架内,通过分层控制(hierarchical control) 或自适应精调(adaptive fine-tuning) 等机制,同时实现卓越的泛化和高精度。 - 单一策略中的技能冲突: 论文也提到了
动态跳跃和静态站立技能在单一策略中学习时的潜在冲突(导致站立时振荡)。这暗示了将所有技能合并到一个策略中的局限性。未来的工作可以探索模块化 RL(modular RL) 或技能组合(skill composition) 的方法,允许策略在不同技能模块之间切换或协调,而不是强制一个策略学习所有技能。 - 对未见过环境的零样本泛化能力: 尽管论文展示了对
未训练地形和意外扰动的鲁棒性,但这些“未见过”的环境变化仍在训练时动态随机化的分布范围内,或属于任务随机化泛化的范畴。对于完全新颖(entirely novel) 的、离分布(out-of-distribution) 的环境或任务,RL 策略的真正零样本泛化能力仍是需要持续探索的终极目标。
相似论文推荐
基于向量语义检索推荐的相关论文。