论文状态：已完成

Learning-based legged locomotion: State of the art and future perspectives

发表：2025/01/22

基于学习的四足机器人运动 (1)类人机器人双足运动 (1)深度学习与机器人系统模拟 (1)学习运动技能的历史与现状 (1)动作学习在机器人领域的应用 (1)

原文链接

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文综述了基于学习的腿部运动的最新进展，探讨其历史、现状及未来发展。重点分析了深度学习、机器人系统模拟和硬件进步在四足和双足运动技能学习中的作用，强调了该领域的关键问题和社会影响。

摘要

Legged locomotion holds the premise of universal mobility, a critical capability for many real-world robotic applications. Both model-based and learning-based approaches have advanced the field of legged locomotion in the past three decades. In recent years, however, a number of factors have dramatically accelerated progress in learning-based methods, including the rise of deep learning, rapid progress in simulating robotic systems, and the availability of high-performance and affordable hardware. This article aims to give a brief history of the field, to summarize recent efforts in learning locomotion skills for quadrupeds, and to provide researchers new to the area with an understanding of the key issues involved. With the recent proliferation of humanoid robots, we further outline the rapid rise of analogous methods for bipedal locomotion. We conclude with a discussion of open problems as well as related societal impact.

思维导图

论文精读

中文精读约 50 分钟读完 · 32,302 字

1. 论文基本信息

1.1. 标题

学习型腿部运动：最新技术与未来展望 (Learning-based legged locomotion: State of the art and future perspectives)

1.2. 作者

Sehoon Ha, Joonho Lee, Michiel van de Panne, Zhaoming Xie, Wenhao Yu 和 Majid Khadiv。其中，Majid Khadiv 提供了 ORCID iD，表明其身份。论文未明确列出所有作者的机构隶属关系，但通常这类综述文章的作者来自该领域的多个顶尖研究机构。

1.3. 发表期刊/会议

该论文被接收并计划于 2025年1月22日 发表。根据页脚信息，它经过了“Received 3 June 2024; Revised 10 October 2024; Accepted 21 November 2024”的流程，并且有“Senior Editor”和“Associate Editor”的标注，这表明它是一篇经过同行评审的期刊文章。从其内容的深度和广度来看，它很可能被发表在机器人学领域的权威期刊上，如 IEEE Transactions on Robotics 或 International Journal of Robotics Research。

1.4. 发表年份

2025年。

1.5. 摘要

腿部运动 (legged locomotion) 承载着实现通用移动性 (universal mobility) 的前景，这是许多现实世界机器人应用的关键能力。在过去三十年中，基于模型 (model-based) 和基于学习 (learning-based) 的方法都推动了腿部运动领域的发展。然而，近年来，一些因素极大地加速了基于学习方法 (learning-based methods) 的进步，包括深度学习 (deep learning) 的兴起、机器人系统模拟 (simulating robotic systems) 的快速发展，以及高性能且经济实惠的硬件的出现。本文旨在简要回顾该领域的历史，总结近期在四足机器人 (quadrupeds) 腿部运动技能学习方面的努力，并为该领域的新研究人员提供对关键问题的理解。随着人形机器人 (humanoid robots) 的最新普及，我们进一步概述了双足运动 (bipedal locomotion) 类似方法的迅速兴起。最后，我们讨论了开放问题以及相关的社会影响。

1.6. 原文链接

/files/papers/692cfef64114e99a4cde877c/paper.pdf 该论文目前处于预印本或已接收待发表状态，预计将于2025年正式发表。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

本文旨在对基于学习的腿部运动领域进行一次全面的综述，总结该领域的最新进展，并探讨未来的发展方向。它特别关注以下几个核心问题：

腿部运动的历史演变： 腿部机器人为何复杂，以及早期研究如何奠定基础。
学习方法的加速进展： 识别并总结推动基于学习方法在腿部运动领域取得突破性进展的关键因素。
四足运动技能的学习： 详细阐述当前在四足机器人学习腿部运动技能方面的最新研究和技术。
双足运动的类比发展： 随着人形机器人的兴起，分析基于学习的方法如何也推动了双足运动的发展。
开放问题与社会影响： 探讨该领域当前面临的挑战、未来的研究前沿以及技术发展可能带来的社会和伦理影响。

2.1.2. 为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白？

腿部运动对于机器人在复杂、非结构化环境中实现通用移动性至关重要，这在许多现实世界应用中（如搜索救援、工业检查、物流等）是关键能力。然而，腿部机器人是具有高度非线性、混合且本质不稳定的复杂系统，其控制极具挑战性。

模型驱动方法的局限性： 传统的基于模型 (model-based) 的方法虽然取得了一定成功，但通常计算成本高昂，难以处理不确定性（尤其是在接触交互中），并且难以直接整合多模态传感器数据（如视觉）。
学习驱动方法的挑战： 基于学习 (learning-based) 的方法，特别是强化学习 (Reinforcement Learning, RL)，通常需要大量的样本 (samples) 来训练策略 (policies)，这通常依赖于高效的仿真环境。此外，将仿真中训练的策略迁移到真实世界（即 sim-to-real 迁移）存在巨大的挑战，因为仿真和现实世界之间存在“差距”。奖励函数 (reward function) 的设计（即奖励整形 reward shaping）也是一个耗时且困难的过程。

2.1.3. 这篇论文的切入点或创新思路是什么？

本文的切入点在于指出，近年来由于深度学习 (deep learning) 的兴起、仿真环境 (simulation environments) 的显著改进以及高性能、经济实惠硬件的出现，基于学习的方法在腿部运动领域取得了“爆炸性”的进展。它不仅仅是简单地罗列现有技术，而是：

提供历史背景： 追溯腿部运动领域的发展脉络，帮助读者理解当前技术为何如此。
聚焦学习方法： 强调基于学习的方法在解决传统模型驱动方法局限性方面的优势，如处理不确定性、整合感知数据和降低在线计算成本。
横向与纵向整合： 不仅总结四足机器人的进展，还扩展到双足和人形机器人，并讨论了控制与学习的结合、sim-to-real 迁移等关键技术。
展望未来与社会影响： 不回避技术发展可能带来的伦理和社会问题，为未来的研究和政策制定提供思考方向。

2.2. 核心贡献/主要发现

2.2.1. 论文最主要的贡献

本文的主要贡献在于提供了一个全面且结构化的基于学习的腿部运动综述，它：

历史回顾与背景梳理： 详细介绍了腿部运动领域（特别是四足机器人）硬件、仿真器以及控制和学习算法的历史演变，为新研究者提供了清晰的上下文。
MDP 核心要素的深入分析： 系统地分解了强化学习中马尔可夫决策过程 (Markov Decision Process, MDP) 的关键组成部分（动力学、观测、奖励、动作空间），并总结了在腿部运动中常用的实践方法。
学习框架的全面介绍： 探讨了端到端学习、课程学习、分层学习和特权学习等主流的基于学习的框架及其在腿部运动中的应用。
Sim-to-Real 迁移策略的总结： 详细阐述了弥合仿真与现实世界差距的各种技术，包括良好的系统设计、系统识别、领域随机化和领域适应。
控制与学习结合的范式： 提出了四种结合模型驱动控制和基于学习方法的策略，展示了如何利用两者的优势互补。
双足运动的类比发展与展望： 强调了双足和人形机器人领域基于学习方法的快速崛起，并讨论了其与四足机器人发展的相似性和差异。
未来研究方向与社会影响： 识别并讨论了无监督技能发现、可微模拟器、挑战性环境穿越、安全性、混合轮腿运动、操作与移动 (loco-manipulation) 以及基础模型 (foundation models) 等前沿研究领域，并深入探讨了腿部机器人技术可能带来的社会伦理影响。

2.2.2. 论文得出了哪些关键的结论或发现？

学习方法的强大潜力： 深度强化学习 (Deep Reinforcement Learning, DRL) 在生成鲁棒、动态和多功能的腿部运动行为方面表现出前所未有的能力，远超传统方法。
硬件与仿真器的关键作用： 高性能、经济实惠的机器人硬件和快速、准确的仿真环境是当前学习方法取得成功的基石。尤其是像 Isaac Sim 这样支持 GPU 的仿真器，极大地加速了数据收集和策略训练。
Sim-to-Real 迁移是核心挑战： sim-to-real 差距是制约机器人学习部署的主要障碍，但领域随机化 (domain randomization)、领域适应 (domain adaptation) 和良好的系统设计等技术已成为解决这一问题的有效策略。
混合范式是趋势： 纯粹的模型驱动或纯粹的学习驱动方法各有优劣，将控制理论与学习方法结合（例如，学习控制参数、学习高级策略、利用学习提高模型控制效率、利用模型控制提高学习效率）是实现更高效、更安全、更泛化机器人行为的重要方向。
双足机器人的复兴： 随着四足机器人技术的成熟，类似的学习方法正被成功应用于双足和人形机器人，预示着该领域将迎来新的爆发期。
社会影响不容忽视： 腿部机器人技术的发展带来了巨大的潜力和风险，研究社区应积极参与相关法规和伦理的讨论，尤其是在致命自主武器系统 (Lethal Autonomous Weapon Systems, LAWS) 和就业替代等敏感问题上。
开放问题指引未来： 仍有许多未解决的问题，如无监督技能发现、可微模拟器的利用、在极具挑战性环境中的鲁棒性、安全保障以及如何结合新兴的基础模型来赋能机器人，这些将是未来研究的重点。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 腿部运动 (Legged Locomotion)

指机器人或生物体通过腿部与环境接触、支撑和推动来实现移动的能力。与轮式或履带式运动相比，腿部运动能够更好地适应不平坦、复杂或离散的地形（如楼梯、岩石、障碍物），具有更高的通用移动性 (universal mobility)。本文主要关注四足机器人 (quadrupeds) 和双足机器人 (bipeds) 的腿部运动。

3.1.2. 基于模型 (Model-based) 与基于学习 (Learning-based) 的方法

基于模型的控制 (Model-based Control): 这类方法依赖于对机器人和环境的精确数学模型。控制器使用这些模型来预测系统的行为并计算出最优的控制指令，以实现特定任务目标。例如，最优控制 (Optimal Control, OC) 和模型预测控制 (Model Predictive Control, MPC) 都属于基于模型的方法。它们的优势在于理论严谨、可解释性强，但对模型精度要求高，难以处理模型不确定性或未建模的动力学。
基于学习的控制 (Learning-based Control): 这类方法通过从数据中学习来生成控制策略，而无需显式的物理模型。强化学习 (Reinforcement Learning, RL) 和模仿学习 (Imitation Learning, IL) 是其中的主要范式。优势在于能够处理复杂、非线性的系统动力学和不确定性，并直接从传感器数据中学习，但通常需要大量数据进行训练，且奖励函数设计或专家演示获取可能具有挑战性。

3.1.3. 深度学习 (Deep Learning)

深度学习是机器学习 (Machine Learning, ML) 的一个分支，它使用包含多层非线性变换的神经网络 (neural networks) 来从数据中学习复杂的模式和表示。在机器人控制中，深度学习通常用于构建策略函数 (policy function) 或值函数 (value function)，从而实现深度强化学习 (Deep Reinforcement Learning, DRL)，使其能够处理高维输入（如图像）和输出（如关节扭矩指令）。

3.1.4. 仿真环境 (Simulation Environments)

指通过计算机程序模拟真实世界物理规律和机器人动力学行为的软件平台。在机器人学习中，仿真环境是至关重要的工具，因为它能够提供大量的训练数据，进行快速迭代，并在物理机器人上进行实验可能过于危险、耗时或昂贵的场景下进行探索。常用的机器人仿真器包括 MuJoCo、PyBullet 和 Isaac Sim。

3.1.5. 机器人硬件 (Robot Hardware)

论文讨论了四足机器人硬件的演变，主要涉及三种驱动机制：

液压驱动 (Hydraulic Actuation): 使用液压系统提供动力，具有高功率重量比 (power-to-weight ratio)，能够实现高度动态的运动和承载大负载。缺点是成本高昂，维护复杂。例如，Boston Dynamics 的 BigDog。
带扭矩传感器或串联弹性执行器的电动马达 (Electric Motors with Torque Sensors or Series Elastic Actuators): 早期电动马达通常需要高减速比的齿轮箱，导致非可逆性 (non-backdrivable) 和高静摩擦。为了实现扭矩控制，增加了扭矩传感器或串联弹性执行器 (Series Elastic Actuators, SEA) 来补偿。SEA 通过在电机和关节之间引入弹性元件，可以吸收冲击，但会限制控制带宽。
本体感知执行器 (Proprioceptive Actuators): 这是新一代的电动马达，通过定制的高扭矩密度 (high torque-density) 执行器实现低减速比和直接的关节电流控制，无需额外的弹簧或扭矩传感器。它们具有高带宽力控制能力，并通过可逆性 (backdrivability) 缓解冲击。这种技术彻底改变了四足机器人领域，例如 MIT Cheetah 和 Unitree A1/Go1/Go2 都采用了类似设计。

3.2. 前人工作

3.2.1. 腿部运动的早期方法

简单反馈机制 (Simple Feedback Mechanisms): Raibert 在 20 世纪 80 年代的工作展示了单腿、两腿和四腿系统可以通过简单的反馈机制实现鲁棒的动态运动，奠定了腿部运动研究的基础 (Raibert, 1984, 1986)。
模板模型 (Template Models): 简化的模板模型，如弹簧-质量模型 (spring-mass model)，被用于捕捉腿部运动的基本动力学特性 (Blickhan, 1989; Papadopoulos and Buehler, 2000)。
中央模式发生器 (Central Pattern Generators, CPG): 生物启发方法，CPG 能够生成节律性振荡信号，用于驱动四足机器人的周期性步态 (Ijspeert, 2001, 2008)。CPG-like 参数化现在仍被用于加速强化学习训练。

3.2.2. 最优控制 (Optimal Control, OC)

OC 方法利用系统动力学的前向模型 (forward model)，通过最小化性能成本 (performance cost) 来求解局部最优控制策略 (locally optimal control policy)。
早期应用： 将问题建模为凸优化 (convex optimization) 问题，通常是二次规划 (quadratic program, QP)，例如使用有限未来时域的线性动力学 (Kalakrishnan et al., 2011) 或作为逆动力学控制器 (inverse dynamics controller) (Buchli et al., 2009)。
多接触行为： 提出了多种框架来处理多接触行为，如基于松弛接触的差分动态规划 (differential dynamic programming, DDP) (Tassa et al., 2012)、接触不变优化 (contact-invariant optimization) (Mordatch et al., 2012) 和接触隐式优化 (contact-implicit optimization) (Posa et al., 2014) 等。
模型预测控制 (Model Predictive Control, MPC): 许多 OC 方法已实现实时能力，应用于 MPC (Neunert et al., 2016)。最近的努力将接触规划 (contact planning) 和全身运动生成 (whole-body motion generation) 分离，在真实硬件上取得了令人印象深刻的行为 (Bledt and Kim, 2020)。

3.2.3. 强化学习 (Reinforcement Learning, RL)

RL 通过最大化基于收集到的样本的预期奖励 (expected reward) 来求解状态索引的最优策略 (state-indexed optimal policy)。
早期工作： 20多年前就开始使用 RL 生成稳定运动模式 (Hornby et al., 2000)。Poincaré 映射被用于确保步态的循环稳定性 (Tedrake et al., 2005)。
DARPA 学习运动项目 (DARPA Learning Locomotion program)： 在 Boston Dynamics 的 LittleDog 机器人上进行，项目结束时，多数团队仍主要依赖传统规划和控制算法，学习技术仅占一小部分 (Pippine et al., 2011)。

3.2.4. 深度强化学习 (Deep Reinforcement Learning, DRL)

随着深度学习的成功 (LeCun et al., 2015)，RL 的焦点转向 DRL。
稳定学习： DQN (Mnih et al., 2015) 引入了回放缓冲区 (replay buffers) 和目标网络 (target networks) 来稳定学习。
连续动作空间： DDPG (Lillicrap et al., 2015) 是最早支持连续动作的算法之一，随后出现了 SAC (Haarnoja et al., 2018b)、TRPO (Schulman et al., 2015) 和 PPO (Schulman et al., 2017) 等。
模型内 RL 与模型外 RL： 模型内 RL (Model-based RL) 旨在通过学习世界模型 (world model) 来提高样本效率，而模型外 RL (Model-free RL) 则直接学习策略或值函数。
腿部运动中的主流算法： PPO 因其出色的收敛性和适应性而成为腿部运动社区的流行选择 (Hwangbo et al., 2019; Lee et al., 2020)。

3.2.5. 行为克隆 (Behavior Cloning, BC) 与模仿学习 (Imitation Learning, IL)

目的： 解决 RL 中奖励工程 (reward engineering) 困难的问题，通过模仿专家演示 (expert demonstrations) 来学习策略 (Pomerleau, 1988)。
挑战： 朴素的模仿容易因误差累积 (compounding errors) 和分布不匹配 (distribution mismatches) 而失败。
解决方案： 数据集聚合 (DAgger) (Ross et al., 2011) 和生成对抗模仿学习 (Generative Adversarial Imitation Learning, GAIL) (Ho and Ermon, 2016)。
特权学习 (Privileged Learning)： 在腿部运动中，特权学习 (Chen et al., 2020) 首先训练一个能够访问地面真值信息 (ground-truth information) 的教师策略 (teacher policy)，然后将其行为蒸馏 (distilled) 到一个具有现实传感器配置的学生策略 (student policy) 中。

3.3. 技术演进

腿部运动的技术演进可以概括为以下几个阶段：

1980年代 - 2000年初：基础反馈与生物启发。 早期研究关注简单的反馈机制实现动态运动 (Raibert)，以及生物启发模型如 CPGs (Ijspeert) 生成周期性步态。这一阶段主要通过手工设计控制器和简化模型。
2000年代 - 2010年代中期：最优控制与传统规划。 随着计算能力提升，最优控制方法兴起，如 MPC，用于解决更复杂的腿部运动问题。DARPA 挑战赛（如 LittleDog 和 DRC）推动了机器人硬件和规划算法的发展，但学习技术仍处于辅助地位。
2010年代中期至今：深度强化学习的爆发。
- 硬件革新： 本体感知执行器 (proprioceptive actuators) 的出现使得机器人能够进行高带宽力控制和更动态的交互。
- 仿真器进步： 高效、准确的物理仿真器 (如 MuJoCo, Isaac Sim) 结合 GPU 计算，使得大规模数据生成和 DRL 训练成为可能。
- 深度学习算法： DQN、DDPG、PPO 等 DRL 算法在处理高维连续控制问题上的成功，直接推动了腿部机器人学习复杂技能的能力。
- Sim-to-Real 突破： 领域随机化 (domain randomization) 和领域适应 (domain adaptation) 等技术有效弥合了仿真与现实之间的差距，使得在仿真中学习的策略可以直接部署到真实硬件上。
- 从四足到双足： 随着四足机器人学习能力的成熟，相似的方法被成功应用于双足和人形机器人，预示着通用移动机器人时代的到来。

3.4. 差异化分析

本文与现有综述文章的差异化主要体现在以下几个方面：

Zhang et al. (2022)： 主要简要综述了 DRL 在四足运动中的应用。本文范围更广，不仅涵盖 DRL，还包括其他类型的学习方法（如模仿学习），并提供了更全面的历史视角。
Bao et al. (2024)： 专注于 DRL 在双足运动中的进展。本文不仅涵盖双足，更以四足为起点，系统性地讨论了整个腿部运动领域，并对比了四足与双足的异同。
Wensing et al. (2023)： 主要关注最优控制方法在腿部运动中的应用。本文则侧重于学习方法，并进一步阐述了学习方法如何补充和增强传统的基于模型的控制方法。
Darvish et al. (2023)： 综述了人形机器人的远程操作 (teleoperation)。本文关注的是自主学习的运动，与其研究视角不同。
Ibarz et al. (2021)： 专注于 DRL 在操作 (manipulation) 领域的应用。本文则明确聚焦于腿部运动的挑战。

本文的独特之处在于：

更广泛的学习方法覆盖： 不仅限于 DRL，还包括模仿学习等，并详细分析了它们的组成部分和学习框架。
全面的历史与技术演进： 从硬件、仿真器到控制算法，提供了详尽的历史背景和技术发展脉络。
强调 sim-to-real 迁移： 深入探讨了弥合仿真与现实差距的各种策略。
结合控制与学习的范式： 系统地分类并讨论了混合控制和学习方法的优势。
双足与四足的对比与展望： 不仅限于某一类机器人，而是将四足的成功经验推广到双足，并展望了人形机器人的未来。
社会影响的讨论： 深入探讨了技术发展可能带来的伦理和社会问题，展现了更广阔的视野。

总之，本文提供了一个更加全面、深入且对初学者友好的基于学习的腿部运动综述，填补了现有综述在广度和深度上的空白。

4. 方法论

本章节将详细拆解论文中提到的腿部运动的基于学习方法。这篇综述文章并没有提出新的方法，而是总结了现有方法的原理、组成部分和学习框架。我们将按照论文的结构，逐一解释这些概念。

4.1. Markov 决策过程 (Markov Decision Process, MDP) 与强化学习 (Reinforcement Learning, RL)

强化学习将机器人控制问题建模为顺序决策问题 (sequential decision-making problem)，通常使用马尔可夫决策过程 (Markov Decision Process, MDP) 来形式化。

4.1.1. MDP 的定义

一个 MDP 是一个五元组 $(S, \mathcal{A}, p, r, \gamma)$ ：

$S$ ：状态空间 (State Space)。它包含了描述机器人及其环境所需的所有信息，例如机器人的位置、速度、关节角度和角速度等。在基本运动场景中，状态 $s$ 仅包含机器人的状态；在更复杂的场景中，它可能包含机器人和周围环境的状态。
$\mathcal{A}$ ：动作空间 (Action Space)。它包含了机器人可以执行的所有可能动作。对于机器人控制，通常是连续的电机指令，例如关节的目标位置、速度或扭矩。
$p$ ：转移函数 (Transition Function)。它描述了系统从当前状态 $\mathbf{s}_t$ 和采取动作 $\mathbf{a}_t$ 之后，转移到下一个状态 $\mathbf{s}_{t+1}$ 的概率。可以是确定性的 ( $\mathbf{s}_{t+1} = f(\mathbf{s}_t, \mathbf{a}_t)$ ) 或随机的 ( $p(\mathbf{s}_{t+1} | \mathbf{s}_t, \mathbf{a}_t)$ )。
$r$ ：奖励函数 (Reward Function)。它定义了智能体 (agent) 在每个时间步从状态 $\mathbf{s}_t$ 采取动作 $\mathbf{a}_t$ 并转移到 $\mathbf{s}_{t+1}$ 时获得的即时奖励 $r(\mathbf{s}_t, \mathbf{a}_t, \mathbf{s}_{t+1})$ 。奖励函数是引导智能体学习期望行为的关键。
$\gamma$ ：折扣因子 (Discount Factor)。一个介于 0 和 1 之间的值，用于衡量未来奖励相对于即时奖励的重要性。较高的 $\gamma$ 值意味着智能体更重视长期奖励。

4.1.2. 目标与策略 (Policy)

智能体在环境中执行一个策略 (policy) $\pi(\mathbf{a}_t | \mathbf{s}_t)$ ，该策略定义了在给定状态下采取动作的概率分布。通过执行策略，可以生成一系列状态和动作的轨迹 (trajectory) $\tau = (\mathbf{s}_0, \mathbf{a}_0, \mathbf{s}_1, \mathbf{a}_1, \ldots)$ 。由策略 $\pi$ 诱导的轨迹分布表示为 $\rho_\pi(\tau) = p(\mathbf{s}_0) \prod_t \pi_t(\mathbf{a}_t | \mathbf{s}_t) p(\mathbf{s}_{t+1} | \mathbf{s}_t, \mathbf{a}_t)$ 。强化学习的目标是找到一个最优策略 (optimal policy) $\pi^*$ ，使其最大化预期累积奖励 (expected cumulative reward)： $J(\pi) = \mathbb{E}_{\tau \sim \rho_\pi} \left[ \sum_{t=0}^{T} r(\mathbf{s}_t, \mathbf{a}_t) \right]$ 其中， $T$ 是轨迹的长度。

4.1.3. MDP 变体：部分可观测 MDP (Partially-Observable MDP, PoMDP)

在机器人领域，由于传感器噪声或视野有限，智能体通常无法获得完整的环境状态信息，只能获得部分观测 (incomplete observations)。这时，问题被建模为部分可观测 MDP (Partially-Observable MDP, PoMDP)，它引入了观测空间 $\mathcal{O}$ 和观测函数 $O(\mathbf{o}_t | \mathbf{s}_t)$ ，表示在状态 $\mathbf{s}_t$ 下获得观测 $\mathbf{o}_t$ 的概率。在实践中，观测 $\mathbf{o}_t$ 有时直接被称为状态 $\mathbf{s}_t$ ，以简化策略表示为状态-动作映射。

4.1.4. 早期 RL 算法

早期的 RL 算法主要分为两类：

值函数方法 (Value-Function Methods): 旨在估计状态或状态-动作对的预期值，从而隐式地定义最优策略。例如 Q-learning (Watkins and Dayan, 1992)、SARSA (Rummery and Niranjan, 1994) 和 (Fitted) Value Iteration (Bellman, 1966)。
策略迭代方法 (Policy Iteration Methods): 将 MDP 建模为优化问题，直接寻找最优策略的参数。例如基于梯度的 (Howard, 1960) 和无梯度的 (Hansen et al., 2003) 方法。

Figure 3 展示了这些算法的分类。

4.2. 深度强化学习 (Deep Reinforcement Learning, DRL)

深度学习 (LeCun et al., 2015) 的兴起，使得神经网络可以作为通用的函数近似器 (universal function approximators) (Hornik, 1991; Cybenko, 1989)，有效解决复杂的回-归问题。将 RL 与深度学习结合，诞生了深度强化学习 (DRL)。

里程碑： Mnih et al. (2015) 的 Deep Q Network (DQN) 通过引入回放缓冲区 (replay buffers) 和目标网络 (target networks) 来稳定学习，使得 RL 在 Atari 游戏上达到人类水平。
连续动作空间： 机器人控制通常需要连续的动作空间。Deep Deterministic Policy Gradient (DDPG) (Lillicrap et al., 2015) 是最早支持连续动作的 DRL 算法之一。随后涌现出更多算法，如 Soft Actor-Critic (SAC) (Haarnoja et al., 2018b)、Proximal Policy Optimization (PPO) (Schulman et al., 2017) 和 Trust Region Policy Optimization (TRPO) (Schulman et al., 2015)。
模型内 RL 与模型外 RL：
- 模型内 RL (Model-based RL): 旨在学习一个世界模型 (world model)，然后利用这个模型进行规划或生成数据，以提高样本效率 (Nagabandi et al., 2018)。
- 模型外 RL (Model-free RL): 直接学习策略或值函数，不显式构建环境模型。近期一些模型外方法也展现出具有竞争力的样本效率 (Chen et al., 2021)。
腿部运动中的主流选择： 在腿部运动领域，PPO 和 TRPO 等在线 (on-policy) 模型外算法是常用选择，因为它们在追求鲁棒性和最优性能方面表现出色，尽管样本效率可能不是最高优先级。
“模型外”的误解：论文强调，尽管模型外 DRL 算法本身不需要物理模型，但在机器人学中，这些策略通常在基于物理模型的仿真环境中训练。因此，“模型外”一词在机器人学 DRL 中应谨慎理解，因为它仍然高度依赖由第一性原理 (first principles) 开发的仿真模型。

4.3. 行为克隆 (Behavior Cloning, BC) 与模仿学习 (Imitation Learning, IL)

4.3.1. 动机

强化学习通常需要大量奖励工程 (reward engineering)，尤其是在奖励稀疏 (sparse rewards) 的问题中。模仿学习 (Imitation Learning, IL) 通过从专家人类演示 (expert human demonstration) 或现有专家策略中学习动作，可以缓解这一问题。

4.3.2. 挑战与解决方案

误差累积与分布不匹配 (Compounding Errors and Distribution Mismatches): 简单地模仿专家动作 (behavior cloning) 往往会失败，因为控制问题中误差会累积，导致训练时访问的状态分布与运行时访问的状态分布不匹配。
鲁棒策略的开发： 研究者探索了替代方法来开发鲁棒策略，例如：
- 数据集聚合 (Dataset Aggregation, DAgger) (Ross et al., 2011): 通过迭代地收集策略在当前状态下产生的新专家标签数据，并将其添加到训练数据集中，从而解决分布漂移问题。
- 生成对抗模仿学习 (Generative Adversarial Imitation Learning, GAIL) (Ho and Ermon, 2016): 同时训练一个策略和一个判别器 (discriminator)。判别器试图区分观察到的运动是来自专家还是模仿策略，而策略则试图欺骗判别器，使其生成的运动与专家运动无法区分。
特权学习 (Privileged Learning) (Chen et al., 2020)： 在腿部运动中，这是一种重要的 IL 应用策略。它首先在仿真中训练一个能够访问特权信息 (privileged information)（如无噪声的、丰富的环境模拟状态，如摩擦系数）的教师策略 (teacher policy)。然后，将教师策略的行为蒸馏 (distilled) 到一个学生策略 (student policy) 中，学生策略只能访问现实世界中可用的传感器测量历史。这种方法能显著提高策略的鲁棒性和适应性。

4.4. 腿部运动的 MDP 组成部分 (Components of MDP for Locomotion)

4.4.1. 动力学 (Dynamics)

机器人可被描述为一个（通常是确定性的）动力学系统，其运动方程为 $\dot{\mathbf{s}} = f(\mathbf{s}, \mathbf{a})$ ，其中 $\mathbf{s}$ 是机器人和环境的状态， $\mathbf{a}$ 是机器人采取的动作。为了将其形式化为 MDP，动力学被离散化为 $\mathbf{s}_{t+1} = \mathbf{s}_t + f(\mathbf{s}_t, \mathbf{a}_t)dt$ ，其中 dt 是离散步长。

4.4.1.1. 模拟器 (Simulators)

重要性： DRL 需要大量的样本来训练策略，因此在仿真中学习策略并直接部署到真实世界是常见做法。快速准确的模拟器在近期腿部运动进展中发挥了关键作用。
接触模型： 最先进的机器人仿真器通常依赖于刚性接触 (rigid contact) 假设，使用互补条件 (complementarity condition) 和摩擦锥约束 (friction cone constraints) 来建模接触 (Todorov et al., 2012; Coumans and Bai, 2016; Hwangbo et al., 2018)。
可微模拟器 (Differentiable Simulators): 旨在使其动力学计算可微 (differentiable)，从而可以进行高效的系统识别 (system identification) 或通过时间反向传播 (backpropagation through time) 直接更新策略参数 (Geilinger et al., 2020; Howell et al., 2022)。
GPU 优化： Isaac Sim (Makoviychuk et al., 2021) 等 GPU 友好的算法能够以极高的速率（例如每秒近一百万次）收集状态-转移数据，极大地加速了 DRL 训练 (Kim et al., 2021)。MuJoCo 的新版本 MuJoCo XLA (MJX) 也通过 JAX 框架实现了 GPU 兼容。
软接触模型 (Compliant Contact Models): 当任务涉及与柔顺环境交互时，刚性接触模型的局限性凸显。研究者开始探索更先进的接触模型来捕捉柔顺交互的复杂性 (Khadiv et al., 2019; Choi et al., 2023)。

Figure 4 展示了不同模拟器在腿部运动学习中的使用趋势。

4.4.1.2. 真实机器人 (Real Robot)

直接数据收集： 另一种生成运动数据的方法是直接使用真实机器人来记录奖励或状态转移数据 (Haarnoja et al., 2019; Yang et al., 2020)。
挑战： 这种方法成本高昂，可扩展性受限。安全性是一个更重要的问题，因为腿部机器人容易摔倒，且缺乏可靠的机制来重置到已知初始状态。
缓解机制： 需要额外的机制来解决安全问题，例如安全感知 RL (safety-aware RL) (Ha et al., 2020)、自动重置 (automatic resetting) (Luck et al., 2017) 或基于仿真的预训练 (simulation-based pre-training) (Smith et al., 2023)。

4.4.2. 观测 (Observation)

观测空间由提供机器人和环境状态信息的噪声传感器测量组成。

4.4.2.1. 本体感知 (Proprioception)

定义： 提供机器人内部状态信息的传感器，如惯性测量单元 (IMU)、关节编码器 (joint encoders) 和接触传感器 (contact sensors)。
实践： 原始测量通常不直接使用，而是通过状态估计器 (state estimator) 估计出关键状态，如基座姿态 (base pose)、基座扭转 (base twist)、关节位置和速度，这些在 DRL 中常被称为本体感知状态 (proprioceptive states) (Lee et al., 2020)。
历史信息： 鉴于硬件延迟和部分可观测性问题，仅使用当前状态通常不足。因此，通常会采用短期的本体感知状态和关节指令历史缓冲区 (history buffer)，提供足地交互和外部扰动的关键信息 (Lee et al., 2020; Peng et al., 2018b)。

4.4.2.2. 外部感知 (Exteroception)

定义： 提供关于周围环境信息的传感器，尤其是在非平坦环境中至关重要。
传统方法： 依赖显式映射技术预处理测量数据，如高程图 (elevation mapping) (Miki et al., 2022b) 或体素映射 (voxel mapping) (Oleynikova et al., 2017)。
直接使用原始数据： 近期工作直接将原始传感器读数（如深度图像 (depth images) 或点云 (point clouds)）作为策略输入，以处理高动态情况（如跑酷 parkour）或需要高分辨率感知 (high-resolution perception) 的任务（如踏脚石 stepping stones 场景）(Zhuang et al., 2023; Duan et al., 2022)。
RGB 数据与语义信息： RGB 数据可用于更复杂的场景感知，识别几何信息之外的元素（如纹理和颜色），甚至学习场景的语义信息以实现更高效的导航 (Sorokin et al., 2022; Yang et al., 2023c)。
学习压缩表示： 通过无监督学习 (unsupervised learning) 获得传感器数据的潜在空间 (latent space) 表示，用于压缩和重建原始图像，从而使策略能够导航复杂地形 (Hoeller et al., 2021)。

除了本体感知和外部感知，还可以将机器人任务特定的信息作为策略输入：

指令输入： 速度指令 (velocity commands) 或姿态指令 (pose commands) (Rudin et al., 2022a) 经常用于引导运动。
学习任务嵌入 (Learned Task Embeddings): 任务嵌入可以是特定参考运动的潜在表示 (latent representation) (Peng et al., 2022)，或任何可以指导低级行为的潜在空间。
结构化动作空间信息： 对于基于 CPGs 或轨迹参数 (trajectory parameters) 的系统，任务相关信息可能包括所需的相位或轨迹模式 (Iscen et al., 2018)。
未来参考轨迹： 一些方法将未来参考轨迹作为策略输入，例如计划的末端执行器轨迹 (end-effector trajectories) 或踏脚点 (footholds) (Ma et al., 2022; Gangapurwala et al., 2022)。

4.4.3. 奖励 (Reward)

奖励函数是引导 RL 算法实现期望行为的关键。通常，奖励函数被定义为各种奖励和惩罚项的线性组合： $r(\mathbf{s}_t, \mathbf{a}_t, \mathbf{s}_{t+1}) = \sum_i c_i r_i(\mathbf{s}_t, \mathbf{a}_t, \mathbf{s}_{t+1})$ 其中， $c_i$ 是权重系数， $r_i$ 是单个奖励或惩罚项。也可以使用乘法组合 (Kim et al., 2022)。

4.4.3.1. 手动奖励整形 (Manual Reward Shaping)

定义： 工程师手动定义每个奖励项 $r_i$ 并调整其权重 $c_i$ 。
常见组件： 速度跟踪 (velocity tracking)、姿态跟踪 (pose tracking) 和其他正则化项 (regularization terms)。系统物理约束通常作为成本项加入，例如限制关节速度、加速度和基座姿态的幅度。
实践技巧： 为了训练稳定，常用有界函数 (bounded functions)，如简单的裁剪 (clipping) 或指数核函数 (exponential kernels)，例如 $exp(-c\|e\|^2)$ 或 $exp(-c\|e\|)$ ，其中 $e$ 是误差项， $c$ 是整形系数 (Lee et al., 2020)。
常用物理量： Table 2 总结了常用的物理量，例如：
- 水平速度误差 (Horizontal velocity error): $\| \mathbf{v}_{xy} - \mathbf{v}^*_{xy} \|$ (其中 $\mathbf{v}_{xy}$ 是当前水平速度， $\mathbf{v}^*_{xy}$ 是目标水平速度)。
- 偏航率误差 (Yaw rate error): $\| \omega_z - \omega^*_z \|$ (其中 $\omega_z$ 是当前偏航角速度， $\omega^*_z$ 是目标偏航角速度)。
- 基座垂直速度 (Base vertical velocity): $|v_z|$ (惩罚基座的垂直运动)。
- 关节速度 (Joint velocities): $\sum_{i \in \text{joints}} \|\dot{q}_i\|$ (惩罚高速关节运动)。
- 关节加速度 (Joint accelerations): $\sum_{i \in \text{joints}} \|\ddot{q}_i\|$ (惩罚剧烈运动)。
- 动作率 (Action rate): $\| \mathbf{a}_t - \mathbf{a}_{t-1} \|$ (惩罚动作的快速变化)。
- 动作平滑度 (Action smoothness): $\| \mathbf{a}_t - 2\mathbf{a}_{t-1} + \mathbf{a}_{t-2} \|$ (惩罚动作的不平滑)。

4.4.3.2. 模仿奖励 (Imitation Reward)

动机： 利用生物启发行为或运动捕捉数据 (motion capture data) 来设计奖励信号，减少手动奖励工程的工作量。
应用：
- 模仿动物运动： 利用狗的运动捕捉数据使四足机器人学习动物般的运动 (Peng et al., 2020; Han et al., 2023)。
- 轨迹跟踪： 奖励设计为简单地模仿给定的参考轨迹，这些轨迹可以通过重定向运动捕捉数据、基于模型的控制器或轨迹优化获得。
- 对抗运动先验 (Adversarial Motion Priors, AMP)： GAIL (Ho and Ermon, 2016) 同时训练一个判别器 (discriminator) 和一个策略 (policy)。判别器区分运动是来自现有数据库还是策略生成，然后学习到的判别器可以作为通用运动先验 (motion prior)，指导策略生成逼真或风格化的运动 (Escontrela et al., 2022)。

4.4.4. 动作空间 (Action Space)

动作空间的选择对学习控制器的性能至关重要，尤其是在强化学习中，适当的动作空间可以显著提高探索效率。

4.4.4.1. 低级关节指令 (Low-level Joint Commands)

关节目标位置 (Joint Target Position, PD 策略)： 大多数四足学习工作使用关节目标位置作为动作空间。对于每个关节，策略输出一个目标位置 a(s)，电机通过 PD 控制器生成扭矩 \tau = k_p(a(s) - \theta) - k_d \dot{\theta} 来驱动关节，其中 $k_p$ 和 $k_d$ 是增益， $\theta$ 和 $\dot{\theta}$ 是测量的关节角度和角速度。这种选择在物理仿真动画任务中表现良好 (Peng and Van De Panne, 2017)。
直接输出扭矩 (Torque Policy)： 近期工作也展示了在动作空间中不施加任何结构，直接输出关节扭矩的成功案例 (Chen et al., 2023; Kim et al., 2023a)。优点是策略函数不受限于预设结构，但需要更高的策略评估频率（例如 1 KHz）。
PD 策略与位置控制的区别： 论文强调，PD 策略不同于传统机器人学中的位置控制。PD 策略不跟踪所需的时间索引轨迹，目标速度为零，目标位置在运动中也从未完全达到。实际上，扭矩策略和 PD 策略最终都在真实机器人上用于扭矩控制。

4.4.4.2. 结构化动作空间 (Structured Action Spaces)

任务空间控制 (Task Space Control)： 控制机器人末端执行器（例如脚）在任务空间中的运动 (Krishna et al., 2022)。这可以提高学习效率并简化控制架构，但直接关节空间控制因其通用性更为主流。
残差强化学习 (Residual RL) (Johannink et al., 2019)： 将先验知识嵌入动作空间。提供一个开环参考控制信号 $\widehat{\mathbf{a}}_t$ ，策略学习生成反馈信号 $\pi(\mathbf{s}_t)$ ，然后将其添加到参考信号中，即 \mathbf{a}_t = \widehat{\mathbf{a}}_t + \pi(\mathbf{s}_t)。例如，Iscen et al. (2018) 使用正弦波作为参考信号生成步态。
调制高级运动基元 (Modulating High-level Motion Primitives)： 学习调制高级运动基元 (motion primitives) 的参数，例如中央模式发生器 (CPG) 的振幅和相位 (Bellegarda and Ijspeert, 2022)，或输出期望的质心加速度 (center of mass accelerations)，然后用于生成电机指令 (Xie et al., 2022)。

4.5. 学习框架 (Learning Frameworks)

本部分讨论了研究人员为有效解决腿部运动 MDP 问题所探索的流行学习框架 (Figure 5)。

4.5.1. 端到端学习 (End-to-End Learning)

概念： 将给定的 MDP 视为一个整体 (monolithic formulation)，并使用 DRL 算法（如 PPO, TRPO, DDPG, SAC）直接解决所有问题。
主流算法： PPO (Schulman et al., 2017) 和 TRPO (Schulman et al., 2015) 是腿部运动中最受欢迎的在线 (on-policy) DRL 算法，因其稳健的学习框架和在高难度问题中可靠找到高性能策略的能力。
局限性： 当初始策略难以有效探索并获得学习信号时（例如在稀疏奖励或复杂任务中），端到端学习可能效果不佳。

4.5.2. 课程学习 (Curriculum Learning, CL)

概念： 类似于学校的教育模式，逐步增加学习任务的难度，以解决更困难的机器人学习问题。
应用：
- 环境难度渐进： 在越来越具挑战性的环境中训练智能体 (Heess et al., 2017; Rudin et al., 2022b)，例如逐渐增加坡度或楼梯高度。
- 鲁棒性增强： 在训练过程中逐渐增加扰动和随机性来提高策略的鲁棒性 (Akkaya et al., 2019)。
- 约束渐进： 从软约束 (soft constraint) 开始，逐步收紧约束条件 (Zhuang et al., 2023)。
关键问题： 如何决定何时进入下一阶段，以及下一阶段应该是什么。可以通过策略能力（如总奖励或在当前阶段的进展）来确定。自适应课程方法 (adaptive curriculum methods) 也可以动态调整课程参数的采样分布 (Xie et al., 2020b)。

4.5.3. 分层学习 (Hierarchical Learning)

概念： 将复杂问题分解为层次结构，通常是高级任务 (high-level tasks) 和低级技能 (low-level skills)。高级任务的动作空间成为低级技能的输入，并且每个层次独立学习。
分解方式：
- 基于人类直觉： 高级策略规划所需的落足点 (footsteps)，低级策略则根据落足点生成关节级控制 (Peng et al., 2017)。
- 学习潜在空间： 低级策略被训练以生成多样的运动，由学习到的潜在表示 (latent representation) 驱动；高级策略则操作这些潜在空间来完成高层任务 (Peng et al., 2022; Han et al., 2023)。
应用示例： 在四足机器人足球射门任务中，分解为末端执行器运动跟踪和末端执行器轨迹规划，分别学习以完成任务 (Ji et al., 2022b)。

4.5.4. 特权学习 (Privileged Learning)

概念： 解决现实世界机器人任务固有的部分可观测性 (partially observable) 问题。
核心思想： 利用仿真环境的完全可观测性 (fully observable MDP) 来训练一个教师策略 (teacher policy)，该策略可以访问特权信息 (privileged information)（例如无噪声的、丰富的模拟环境状态，如摩擦系数）。然后，将教师策略的知识蒸馏 (distilled) 到一个学生策略 (student policy) 中，学生策略在测试时只能访问机器人提供的测量历史。
实施方式： 学生策略通常基于序列模型 (sequence models)，如循环神经网络 (RNN) 或时间卷积网络 (TCN)，处理历史测量数据来构建世界的内部表示。
成功应用： Lee et al. (2020) 首次展示了该方法在四足运动中的有效性，使其能够在崎岖地形上行走，优于传统基于优化的方法。该思想已在后续工作中被广泛采用，以增强鲁棒性或利用更复杂的输入模态（如原始图像或体素图）(Miki et al., 2022a; Agarwal et al., 2023)。

Figure 5 直观地展示了这些学习框架之间的差异。

4.6. 机器人训练起点 (Starting Point to Train Your Robot)

对于初学者，论文提供了一些建议：

算法： 推荐使用 PPO (Schulman et al., 2017) 作为训练腿部运动策略的最流行算法，并提及了许多开源实现 (例如 Rudin, 2021b; Sidor, 2021)。
模拟器： Isaac Sim (Makoviychuk et al., 2021) 和 MuJoCo (Todorov et al., 2012) 是推荐的最佳选择，其中 MuJoCo 的开源代码有助于理解模拟器内部组件。
机器人模型： Caron (2022) 提供了广泛的 URDF 文件，可用于构建机器人环境。
初始 MDP 设置：
- 观测 (Observations): 可以包括基座高度和方向、基座线速度和角速度、关节角度和速度。
- 动作空间 (Action Space): 关节 PD 控制器的目标关节角度。
- 奖励 (Reward): 围绕跟踪期望的身体速度进行设计。
开源代码库： 论文列举了几个代表性的开源代码库，例如：
- Peng et al. (2020) 的实现在 Pybullet (Coumans, 2020) 中，也包含 MPC 控制器。
- Rudin (2021a) 包含了 Rudin et al. (2022b) 在 Isaac Sim 中的实现，许多最新工作都基于此。

5. Sim-to-real 迁移

sim-to-real 迁移 (sim-to-real transfer) 是机器人学习中的主要挑战，指在仿真中训练的策略在真实硬件上表现不佳的问题。这是由于仿真环境与真实世界机器人动力学之间存在差异，即 sim-to-real 差距 (sim-to-real gap)。本节回顾了解决这一差距的常用技术。

5.1. 良好系统设计 (Good System Design)

良好的系统设计有助于将策略约束在与模拟器相似的分布中，从而弥合 sim-to-real 差距。

5.1.1. 奖励设计 (Reward Design)

奖励函数的设计直接影响 sim-to-real 性能。除了 Section 3.3 中提到的通用奖励项外，还需注意：

避免抖动 (Jittery Motions): 通常会惩罚关节加速度 (joint acceleration) 以避免不自然的抖动。
避免拖脚 (Foot-dragging Behavior): 通常会使用脚离地时间 (foot air time) 的奖励，以避免机器人脚部在地面上拖曳。
避免踩踏 (Stomping Behaviors): 脚部冲击惩罚 (foot impact penalty) 用于避免机器人用力踩踏地面。
平衡： 在速度跟踪等任务奖励 (task rewards) 和正则化奖励 (regularization rewards) 之间保持良好平衡，是奖励整形 (reward shaping) 的一项艰巨任务。

5.1.2. 观测与动作空间设计 (Observation and Action Space Design)

观测和动作空间的选择也起着重要作用。

低 PD 增益： Xie et al. (2021) 发现，为关节 PD 控制器使用较低的比例增益 (proportional gain)，允许顺从行为 (compliant behavior)，可以大大减少 sim-to-real 差距。
状态估计器： 使用能够提供身体速度 (body velocity) 等观测的状态估计器，有助于策略抑制速度扰动。

5.1.3. 领域知识 (Domain Knowledge)

领域知识 (domain knowledge) 也可以用于改进系统设计。

对称性约束： 在 Xie et al. (2020a) 中，对称性约束 (symmetry constraints) 用于促进双足行走策略的左右对称性，从而显著提高了运动质量和 sim-to-real 性能。
促进特定行为： 可以在奖励函数中使用运动捕捉数据 (motion capture data) 来促进特定风格的运动 (Peng et al., 2020)，或者在策略中使用 CPGs 等结构来获得更理想的步态模式 (Lee et al., 2020)。

通过良好的系统设计，一些工作展示了在不进行动力学随机化 (dynamics randomization) 的情况下，腿部机器人运动的 sim-to-real 成功 (Smith et al., 2023; Xie et al., 2020a)。

5.2. 系统识别 (System Identification)

即使有良好的系统设计，物理系统中不准确的模型或未建模的动力学 (unmodeled dynamics) 仍可能导致直接的 sim-to-real 失败。通过系统识别 (system identification) 可以提高模拟器的保真度 (fidelity)。

执行器动力学 (Actuator Dynamics): 建模误差的一个主要来源是执行器动力学。仿真中的电机可以施加策略命令的任意扭矩，而物理执行器由于带宽有限和底层电机控制器的跟踪精度有限，通常会产生不太准确的扭矩曲线。早期的成功案例使用了分析性执行器模型 (analytic actuator model) (Tan et al., 2018)，后来 Hwangbo et al. (2019) 使用完全黑盒模型 (black-box model)（神经网络）来学习执行器模型。
接触模型 (Contact Model): sim-to-real 差距的另一个重要来源是仿真中接触模型与真实世界交互之间的差异。大多数现有仿真器使用刚性接触模型，但现实中始终存在一些变形。Choi et al. (2023) 开发了一个柔性接触模型 (compliant contact model) 来模拟多样地形，这提高了策略在真实世界中处理类似地形的性能。

5.3. 领域随机化 (Domain Randomization)

除了更好的系统设计和更准确的仿真外，领域随机化 (domain randomization) 是弥合 sim-to-real 差距的另一个重要策略，旨在提高训练策略的泛化能力。

核心思想： 在训练过程中随机化系统参数。其基本假设是，如果策略能够处理足够多样的训练环境，那么它更有可能在真实世界中工作，即使从未在训练中见过。
早期应用： Tobin et al. (2017) 将领域随机化应用于操作问题，以实现更鲁棒的感知模块。
腿部运动应用： Tan et al. (2018) 是最早将领域随机化应用于腿部运动的团队之一。他们随机化了机器人质量、摩擦系数、电机强度和延迟等关键动态参数。该方法已被广泛采用，并与前馈轨迹 (feed-forward trajectories)、运动模仿 (motion imitation)、任务空间控制 (task-space control) 和策略蒸馏 (policy distillation) 等技术结合，进一步改进了腿部运动学习。
视觉感知随机化： 随着技术成熟，近期工作也开始随机化模拟视觉感知参数，如相机内参和外参 (camera intrinsics and extrinsics) 以及噪声模型，以实现基于视觉的腿部机器人在高度非结构化地形上的可靠运动 (Yu et al., 2021; Miki et al., 2022a)。

5.4. 领域适应 (Domain Adaptation)

与领域随机化类似，领域适应 (domain adaptation) 也旨在开发能够覆盖真实世界环境的泛化策略，但主要区别在于领域适应显式识别策略当前操作的场景，并调整策略行为以适应当前场景（类似于自适应控制 adaptive control）。

5.4.1. 常见组件

Figure 6 展示了领域适应算法的常见组件，包括：

训练算法 (Training Algorithm): 强化学习 (Reinforcement Learning, RL)、元学习 (Meta-Learning) 或模仿学习 (Imitation Learning, IL)。
策略条件 (Policy Condition): 策略的输入可能包含物理参数 (Physics Parameters) 或潜在向量 (Latent Vector)。
适应模块 (Adaptation Module): 负责根据当前环境调整策略，可能是一个学习模型 (Learned Model) 或优化方法 (Optimization Method)。

5.4.2. 方法分类

显式识别环境参数： 一类领域适应算法是显式识别环境参数，并将其作为控制策略的输入或在策略训练期间使用 (Yu et al., 2017; Chebotar et al., 2019)。例如，通过学习模型、优化轨迹匹配损失或直接优化任务性能来识别环境参数。
隐式表示环境参数： 为了缓解显式识别参数的困难，研究人员选择在适应过程中隐式表示环境参数 (Yu et al., 2020; Kumar et al., 2021; Lee et al., 2020)。高维环境参数被压缩成低维潜在表示 (low-dimensional latent representation)。例如，Peng et al. (2020) 提出了一种基于优化的方法来寻找潜在环境表示，而 Kumar et al. (2021) 和 Lee et al. (2020) 则直接在策略训练期间学习潜在环境表示，并在推理时训练一个单独的系统识别模块来预测它。
利用真实世界数据改进仿真： 还有一些工作通过使用真实世界数据来学习改进仿真精度，例如增强仿真中的转移函数 (transition function)，以更好地匹配真实世界 (Golemo et al., 2018)。

6. 控制与学习的结合

强化学习 (RL) 和最优控制 (OC) 各有其优势和劣势。OC 基于模型，可解释性强，易于处理约束；RL 能够处理不确定性，策略设计开销小，在线计算效率高。因此，将两者结合的框架吸引了广泛研究。本节将这种结合分为四个主要类别。

6.1. 学习控制参数 (Learning Control Parameters)

动机： 模型驱动控制器中存在一些直接影响性能和鲁棒性的参数（例如控制器增益、成本权重、阻抗参数等），这些参数通常需要控制设计者手动调整。学习方法可以自动化这个过程。
方法：
- RL 方法： Ponton et al. (2014) 和 Heijmink et al. (2017) 使用路径积分策略改进 ( $\mathsf{PI}^2$ ) (Path Integral Policy Improvement) 来学习跟踪期望轨迹的最优增益。Pandala et al. (2022) 学习不确定性集的边界，用于设计鲁棒的 MPC 控制器。
- 贝叶斯优化 (Bayesian Optimization, BO)： BO 被用于高效地学习控制参数。Yeganegi et al. (2019, 2021) 分别学习轨迹优化模块和 MPC 控制器的成本权重。Marco et al. (2021) 学习关节阻抗以跟踪轨迹，同时学习失效约束。BO 只能处理少量决策变量，因此 Yuan et al. (2019) 和 Sarmadi et al. (2023) 先进行降维 (dimensionality reduction) 再应用 BO。为了确保真实世界探索的安全性，Widmer et al. (2023) 应用了安全 BO 框架来调整步态和反馈控制参数。

6.2. 学习高级策略 (Learning a High-Level Policy)

动机： 学习一个策略与模型驱动控制器协同工作。例如，为模型驱动控制器规划落足点、纠正模型差异等。
方法：
- 接触规划器 (Contact Planner)： Villarreal et al. (2020) 和 Byun et al. (2021) 学习接触规划器，根据地形图找到安全的落足点，并将其传递给 MPC 模块以优化地面反作用力。
- 脚部位置生成： Gangapurwala et al. (2022) 训练一个策略来生成期望的脚部位置，然后使用基于模型的全身控制器 (whole-body controller) 进行跟踪。
- 残差策略 (Residual Policy)： Gangapurwala et al. (2021) 利用 DRL 学习一个反馈轨迹校正器 (feedback trajectory corrector)，以更新轨迹优化的输出，然后通过全身控制器进行稳定。
- 步态转换 (Gait Transitions)： Yang et al. (2022c) 学习一个高级策略来在不同步态之间进行转换。
- 质心轨迹规划器 (Centroidal Trajectory Planner)： Viereck and Righetti (2021) 和 Xie et al. (2022) 学习一个质心轨迹规划器，生成期望的力和身体轨迹，然后将其馈送给逆动力学控制器 (inverse dynamics controller) 进行跟踪。

6.3. 学习以实现高效的基于模型的控制 (Learning for Efficient Model-Based Control)

动机： 基于模型的控制器虽然泛化能力强，但在线计算负担大。学习方法可以用于离线缓存解决方案或提供更好的初始化，以减少在线计算量。
方法：
- 学习价值函数/控制哈密顿函数 (Value Function/Control Hamiltonian)： Carius et al. (2020) 和 Reske et al. (2021) 学习控制哈密顿函数 (control Hamiltonian function)。Wang et al. (2022) 和 Viereck et al. (2022) 学习最优控制问题的价值函数 (value function)。
- 学习热启动 (Warm-starts)： Lembono et al. (2020) 和 Dantec et al. (2021) 使用轨迹优化的大量数据集来学习 MPC 中非线性规划的快速解析解的“热启动” (warm-starts)。
- 学习前向模型 (Forward Model)： Yang et al. (2020) 和 Bechtle et al. (2021) 学习一个前向模型 (forward model)，然后将其用于模型驱动模块中来控制机器人。
- 学习解决方案映射 (Solution Map)： Kwon et al. (2020) 学习轨迹优化问题的解决方案映射 (solution map)，以实现实时反应性规划。

6.4. 基于模型的控制以实现高效学习 (Model-Based Control for Efficient Learning)

动机： 结合模型驱动控制的工具来高效学习腿部运动技能，特别是在奖励稀疏的环境中，可以通过轨迹优化来指导 RL 探索高奖励的状态空间区域。最终策略通常是一个神经网络。
方法：
- 引导和约束探索： Gangapurwala et al. (2020) 使用最优控制来引导和约束 DRL 算法的探索。
- 生成演示 (Demonstrations)： Bellegarda et al. (2020) 和 Bogdanovic et al. (2022) 使用最优控制来生成演示，以指导 DRL。Jenelten et al. (2024) 交互式地查询轨迹优化模块，为 DRL 策略提供不同初始和最终配置的演示。
- 前馈输入 (Feed-forward Inputs)： Fuchioka et al. (2023) 研究了使用轨迹优化的前馈输入来提高 RL 学习效率和 sim-to-real 迁移。
- 行为克隆 (Behavioral Cloning)： Khadiv et al. (2023) 采用行为克隆方法直接从 MPC 在传感器空间中学习最优策略。Youm et al. (2023) 使用类似方法，但通过另一个 DRL 阶段改进了克隆策略。

7. 从四足机器人到双足机器人

7.1. 双足机器人发展历程 (History of Bipedal Robot Development)

早期 RL 尝试 (2005-2010)： 早在2005年，策略梯度 (policy gradient) (Tedrake et al., 2005) 就被用于训练小型双足机器人行走。Schuitema et al. (2010) 使用 RL 训练2D双足机器人。Hester et al. (2010) 将基于模型的 RL 应用于 NAO 人形机器人的足球点球。这些早期工作主要直接在物理机器人上学习，因此仅限于简化双足机器人（如大脚小型双足机器人或运动受限于2D平面的双足机器人）。
最优控制和启发式方法的统治 (2000年代初 - DARPA 机器人挑战赛 2015)： 在此期间，控制人形机器人的主流方法是最优控制 (OC) 或使用简化动力学模型的启发式方法。
- 线性模型预测控制 (Linear MPC)： 早期工作使用简化的线性动力学模型实现线性 MPC (Kajita et al., 2003; Wieber, 2006)。
- 全身最优控制 (Whole-body Optimal Control)： 后期工作专注于使用机器人全身动力学和接触的整体最优控制框架 (Tassa et al., 2012; Mordatch et al., 2012)。然而，这些整体方法在真实世界人形机器人控制中通过模型预测控制 (MPC) 方式的成功有限 (Koenemann et al., 2015)。
- DARPA 机器人挑战赛 (DRC 2015)： 大多数团队结合使用简化模型规划和全身逆动力学/运动学 (Feng et al., 2015; Kuindersma et al., 2016)。DRC 表明，人形机器人技术距离部署到真实世界问题还很遥远 (Murphy, 2015; Atkeson et al., 2018)。
深度强化学习的兴起与成功 (2015年至今)： 随着 DRL 在物理仿真动画 (Peng et al., 2018a) 和四足运动 (Tan et al., 2018; Hwangbo et al., 2019) 中的成功，研究人员开始将 DRL 算法应用于物理仿真中训练双足机器人 Cassie 的行走策略，并成功迁移到硬件 (Xie et al., 2020a)。领域随机化、现代神经网络架构和更智能的奖励设计等技术实现了动态、多功能且鲁棒的运动行为 (Siekmann et al., 2021; Li et al., 2024b)。近期工作还探索了如何整合感知能力以实现挑战性地形导航 (Duan et al., 2022)。

7.2. 当前趋势与未来展望 (Current Trends and Future Outlook)

人形机器人的爆发式增长 (2023-2024)： 2023年和2024年，大量新公司开始开发人形机器人，其中大多数为双足形态。2024年国际机器人与自动化会议 (ICRA) 的亮点之一是电动驱动人形机器人数量的巨大增长。特别是，Unitree 发布了价格极低的 G1 人形机器人，与机械臂价格相当。
新时代的开端： 这标志着一个新时代的开始，许多研究实验室将能够接触到人形机器人。这种趋势在过去十年中推动了无人机和四足运动领域的指数级进展。
DRL 算法和仿真器的推动： 现代 DRL 算法的简洁易用性以及快速、可并行化的仿真器的可用性，正在消除在高度复杂人形机器人上生成和实现新运动的障碍。
行业展示： 这已经导致了行业中出现了一波开创性的演示，例如 Unitree H1 的后空翻 (Unitree, 2021c) 和 Disney 双足生物的高度风格化运动 (Disney, 2023)。预计这一趋势将继续，来自不同工业参与者的更多令人印象深刻的真实机器人行为将不断涌现。
微型双足机器人平台： 与工业界的人形机器人努力并行，研究人员也开发了开源 (Daneshmand et al., 2021) 和经济实惠 (Liu et al., 2022a) 的微型双足机器人平台。这些微型机器人比全尺寸人形机器人更容易操作，并可能加速基于学习的双足运动研究的进展。例如，Haarnoja et al. (2024) 开发了一个分层系统，使微型 Robotis OP3 人形机器人能够学习足球比赛。LimX 的微型机器人最近展示了在野外令人印象深刻的鲁棒双足运动行为 (Dynamics, 2024)。
经验迁移与新挑战： 随着经济实惠的人形机器人普及，预计四足机器人学习的经验将迁移到人形机器人，同时还需要开发额外的技术来处理双足机器人相比四足机器人平衡的更高难度。

7.3. 未解决的问题与研究前沿 (Unsolved Problems and Research Frontiers)

尽管基于学习的方法在腿部运动方面取得了巨大进展，但仍存在许多未解决的问题和有趣的未来研究方向。

7.3.1. 无监督技能发现 (Unsupervised Skill Discovery)

问题： 当前 DRL 算法通常需要领域专家进行大量的奖励整形 (reward engineering) 才能获得期望行为。
前景： 无监督技能发现 (unsupervised skill discovery) 有潜力通过基于内在动机 (intrinsic motivation) 学习一套可重用的技能，从而减轻奖励工程的负担 (Eysenbach et al., 2018)。
应用： 已被应用于学习多样化的运动技能 (Sharma et al., 2020) 和操作与移动 (loco-manipulation) 技能 (Schwarke et al., 2023)。这些技能可以用于下游任务，通过模型预测控制 (Sharma et al., 2020) 或分层 RL (Eysenbach et al., 2018) 来实现。

7.3.2. 可微模拟器 (Differentiable Simulators)

问题： 基于学习的方法的样本效率 (sample efficiency) 仍然是一个挑战。
前景： 可微模拟器 (differentiable simulators) (Schwarke et al., 2024) 允许通过分析梯度 (analytical gradients) (Werling et al., 2021) 或自动微分 (automatic differentiation) (Degrave et al., 2019) 来更好地利用仿真环境中的结构，从而提高策略优化的效率。
挑战： 接触 (contact) 导致的局部最优解 (local minima) 是一个主要问题。随机平滑技术 (randomized smoothing techniques) (Suh et al., 2022) 可能有助于克服这一问题。

7.3.3. 穿越挑战性环境 (Traversing Challenging Environments)

进展： DRL 在生成高度鲁棒的行为方面取得了成功 (Hwangbo et al., 2019)，近期对在挑战性环境中学习运动技能的兴趣日益增加，例如跑酷 (parkour) (Zhuang et al., 2023)、穿越踏脚石 (stepping stones) (Duan et al., 2022) 和在狭窄空间中移动 (confined environments) (Xu et al., 2024)（参见 Figure 1）。
挑战： DRL 控制器在处理高度约束环境时可能面临挑战 (Grandia et al., 2023)，但近期研究也展示了其潜力 (Zhang et al., 2023)。如何处理安全关键情境 (safety-critical situations) 仍然是一个有趣的问题。

7.3.4. 安全 (Safety)

问题： 随着机器人部署到更多样化的环境，安全性成为关键问题，需确保机器人不会对人类、环境或自身造成损害。
解决方案：
- 约束优化 (Constrained Optimization)： 将安全性建模为约束优化问题。安全强化学习 (safe reinforcement learning) 算法旨在训练策略而不违反安全约束 (Thananjeyan et al., 2021; Achiam et al., 2017)。
- 安全过滤器 (Safety Filters)： 利用控制社区的广泛研究，设计基于 Hamilton-Jacobi (HJ) 可达性 (reachability)、控制障碍函数 (control barrier functions, CBF) 或预测方法 (predictive methods) 的安全过滤器 (Wabersich et al., 2023)。在腿部运动中的应用仍在探索中 (Kim et al., 2023b)。

7.3.5. 混合轮腿运动 (Hybrid Wheeled-Legged Locomotion)

概念： 轮腿机器人 (wheeled-legged robot) 结合了轮式移动的效率和腿部运动的越障能力，提供额外的运动模式。
挑战： 实现效率和稳定性需要能够在这两种运动模式之间切换的控制器。传统基于模型的方法通常依赖操作员指令或启发式方法。轮腿机器人的步态生成也并非直观，自然界中没有直接对应。
DRL 应用： 近期研究已探索使用 DRL 进行端到端训练，实现自适应步态转换和在崎岖地形上的运动 (Lee et al., 2024)。

7.3.6. 操作与移动 (Loco-Manipulation)

概念： 腿部机器人需要结合操作能力来完成现实世界任务。
方法：
- 利用机器人身体和脚部： 利用机器人的身体和脚部进行推动或按压任务，通常采用分层框架 (Ji et al., 2022b; Huang et al., 2023)。
- 搭载机械臂： 在四足机器人上安装机械臂，进行更复杂的操作行为。例如，Fu et al. (2023) 使用特权学习框架训练同时处理运动和操作的策略。
挑战： 目前的方法局限于简单的操作任务，难以处理复杂的、长序列的操作与移动任务。双足机器人的操作与移动更具挑战性，但人类演示数据提供了丰富的学习来源。

7.3.7. 基础模型 (Foundation Models)

背景： 基础模型 (foundation models) 在网络规模数据上预训练的大容量模型，在常识推理、学习和感知方面展现出令人印象深刻的能力，这对于构建通用机器人 (general-purpose robots) 至关重要。
应用：
- 高级规划 (High-level Planning)： 基础模型可用于解释环境和任务，并规划机器人执行一系列技能以完成长周期任务 (Lykov et al., 2024; Xu et al., 2023)。
- 低级控制接口： 研究人员设计了接口，使基础模型能够通过脚部接触模式 (foot contact patterns) (Tang et al., 2023) 或奖励函数 (reward functions) (Yu et al., 2023a) 与机器人的低级控制器直接交互。
- 微调 (Fine-tuning)： 微调大型基础模型以直接输出低级机器人动作，已在操作领域显示出潜力 (Brohan et al., 2023)，将其应用于机器人运动是一个有前景的方向。

7.4. 社会影响 (Societal Impact)

能力越来越强的腿部机器人既带来巨大潜力也伴随风险。

积极影响：
- 人道主义应用： 部署在搜索救援和消防等危险任务中。
- 重复性/危险性任务： 在仓库、农业、工厂检查中执行枯燥、重复或对人类危险的工作。
- 大流行病护理： 在公共卫生危机中提供护理服务 (Shen et al., 2020)。
消极影响/风险：
- 致命自主武器系统 (Lethal Autonomous Weapon Systems, LAWS)： 这是最危险的应用之一 (Righetti et al., 2018)。
  - 伦理问题： 一个没有痛苦或感情的自主系统是否有权决定杀死一个人？
  - 法律问题： 自主武器系统潜在错误造成的责任（和惩罚）归属何方？
  - 人权问题： 自主武器与国际人道法不符。许多公司（如 Agility Robotics, Boston Dynamics, Unitree）已签署公开信 (letter, 2022) 谴责武器化移动机器人的使用。
- 就业替代 (Job Displacement)： 通用机器人新自动化能力可能导致大量人类工作岗位流失 (Pham et al., 2018)。虽然机器人可以替代危害健康的职业，但对其他工作类别的影响以及对失业工人的影响是需要关注的问题。
  - 替代方案： 提倡机器人承担体力劳动，人类发挥认知能力；或人机协作 (human-robot collaboration)。
  - 研究表明： 机器人接触的增加可能导致工作不安全感增加 (Yam et al., 2023)。
- 环境问题 (Environmental Concerns)：
  - 碳足迹 (Carbon Footprint)： 深度学习模型规模不断增大，其训练和使用产生的碳足迹不容忽视。机器人社区需要思考如何缓解计算需求的快速增长。
  - 生命周期 (Life-cycle)： 机器人自身生命周期的问题——机器人报废后如何处理或回收。虽然目前腿部机器人数量不多，但大规模普及后这将成为一个重要问题。
- 其他问题： 未经授权的监控 (unwanted surveillance)、决策中的偏见 (biases in decision making)、现有不平等现象的可能放大 (amplification of existing inequities) 等。
  
  论文强调，机器人研究社区应积极参与相关讨论和政策制定，提高对这些新技术的认识及其影响，确保实施正确的政策。

7.5. 结论总结

本文全面总结了基于学习的方法在腿部运动控制领域取得的显著进展。它回顾了该领域的历史，详细阐述了四足和双足机器人学习运动技能的核心问题和方法，并指出了硬件、仿真器和深度学习算法进步的关键作用。文章还深入探讨了 sim-to-real 迁移的挑战与策略，以及将传统控制理论与学习方法结合的多种范式。最后，论文展望了无监督技能发现、可微模拟器、复杂环境穿越、安全性、混合轮腿运动、操作与移动以及基础模型等未来研究方向，并警示了腿部机器人技术可能带来的社会伦理影响，呼吁研究社区积极参与相关讨论。总而言之，学习型方法是当前腿部运动进步的核心驱动力，预计未来该领域将继续以快速的创新步伐发展，诞生更多功能强大的腿部机器人。

7.6. 个人启发与批判

7.6.1. 个人启发

这篇综述为腿部机器人领域的初学者提供了极佳的路线图和知识框架。

系统性思维： 论文将腿部运动的进步分解为硬件、仿真器和算法三个相互促进的维度，这种系统性分析有助于理解复杂技术生态的演进。
Sim-to-Real 的重要性： 论文对 sim-to-real 迁移策略的详细阐述，特别是领域随机化和领域适应，为实践者提供了宝贵的指导。在实际机器人部署中，这些技术是不可或缺的。
控制与学习的融合： 强调控制理论和机器学习并非互斥，而是可以相互增强。混合范式为解决复杂机器人问题提供了更全面的视角，兼顾了效率、鲁棒性和安全性。
社会责任感： 论文在技术分析之外，专门开辟章节讨论了技术发展带来的社会影响和伦理困境，这对于一个前沿技术综述来说是高度负责任且具有远见的。这提醒研究者在追求技术进步的同时，不能忽视其潜在的负面效应。
基础模型的潜力： 基础模型在机器人领域的应用是未来一个激动人心的方向。将通用知识和常识推理能力引入具身智能体 (embodied AI)，有望解决机器人泛化能力不足的核心问题。

7.6.2. 批判与潜在改进

“模型外”定义仍需更清晰：尽管论文澄清了“模型外”在机器人学中的语境，但对于初学者而言，这个概念仍然容易混淆。可以进一步强调模型外 DRL 算法在训练时依赖仿真环境中的隐式物理模型，而在部署时不依赖显式动力学模型进行决策，从而更明确地与传统基于模型的控制（如 MPC）区分开。
硬件细节的平衡： 论文在硬件部分对本体感知执行器给出了相对详细的解释，但对于液压和早期电动马达的细节则相对较少。考虑到“面向初学者”的原则，可以适当增加对液压系统和串联弹性执行器的工作原理的简要描述，以便更好地理解技术演进的动力。
DRL 算法表格的补充： Table 1 虽然列出了常用的 DRL 算法，但如果能像奖励函数表格 (Table 2) 那样，对每个算法的核心思想、优缺点以及在腿部运动中的具体应用场景进行简要总结，将会更有利于初学者理解。
实验结果缺乏： 作为一篇综述，论文没有具体的实验结果部分，这是可以理解的。但如果在每个方法论或 Sim-to-Real 章节中，能通过引用原文的关键定量结果（即使只是寥寥几句的摘要），可以更直观地展示不同方法的性能差异和有效性，增强说服力。
基础模型部分可更具体： 基础模型作为前沿领域，论文对其讨论较新颖。但在描述其应用时，仍有些抽象。可以尝试提供一些更具体的、腿部机器人与基础模型结合的假想应用场景，以激发读者的想象和理解。例如，如何通过语言模型实现“在复杂地形上找到最安全的路径并以最节能的方式通过”。
安全性讨论的深入： 安全性是一个关键的未解决问题。除了列出安全强化学习和安全过滤器，可以简要说明这些方法如何具体应用在腿部机器人的控制环路中，例如 CBF 如何在动作空间中约束输出以避免碰撞，或者安全 RL 如何通过惩罚或回滚机制来处理危险状态。

总而言之，这篇论文是一份高质量、覆盖面广且富有启发性的综述，为腿部运动领域的未来研究奠定了坚实基础。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。