论文状态：已完成

PIE: Parkour with Implicit-Explicit Learning Framework for Legged Robots

发表：2024/08/25

腿部机器人动作学习 (1)隐式-显式学习框架 (1)园艺运动任务 (1)低成本四足机器人 (1)仿真训练与零样本部署 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了基于隐式-显式学习框架的四足机器人的跑酷任务（PIE），旨在提升四足机器人在复杂地形上的灵活性和稳定性。该方法利用双层隐式-显式估计，使低成本机器人即使在不可靠的深度相机条件下，也能通过简单的训练流程在挑战性环境中实现卓越的跑酷表现，并成功进行了零样本部署。

摘要

Parkour presents a highly challenging task for legged robots, requiring them to traverse various terrains with agile and smooth locomotion. This necessitates comprehensive understanding of both the robot's own state and the surrounding terrain, despite the inherent unreliability of robot perception and actuation. Current state-of-the-art methods either rely on complex pre-trained high-level terrain reconstruction modules or limit the maximum potential of robot parkour to avoid failure due to inaccurate perception. In this paper, we propose a one-stage end-to-end learning-based parkour framework: Parkour with Implicit-Explicit learning framework for legged robots (PIE) that leverages dual-level implicit-explicit estimation. With this mechanism, even a low-cost quadruped robot equipped with an unreliable egocentric depth camera can achieve exceptional performance on challenging parkour terrains using a relatively simple training process and reward function. While the training process is conducted entirely in simulation, our real-world validation demonstrates successful zero-shot deployment of our framework, showcasing superior parkour performance on harsh terrains.

思维导图

论文精读

中文精读约 41 分钟读完 · 24,278 字

1. 论文基本信息

1.1. 标题

PIE: Parkour with Implicit-Explicit Learning Framework for Legged Robots （PIE：基于隐式-显式学习框架的四足机器人跑酷）

1.2. 作者

Shixin Luo†1, Songbo Li†1, Ruiqi Yu1, Zhicheng Wang1, Jun Wu1,2 and Qiuguo Zhu*1,2

机构:

1 浙江大学控制科学与工程学院，中国杭州 310027
2 工业控制技术国家重点实验室，中国杭州 310027

† Shixin Luo 和 Songbo Li 对本工作贡献相同。 * Qiuguo Zhu 为通讯作者。

1.3. 发表期刊/会议

该论文已于 2024 年 8 月 23 日被接受发表，并由编辑 Aleksandra Faust 推荐出版。目前，其预印本可在 arXiv 上获取。

1.4. 发表年份

2024

1.5. 摘要

跑酷 (parkour) 对四足机器人 (legged robots) 而言是一项极具挑战性的任务，它要求机器人在各种地形上实现敏捷而平稳的运动。这需要机器人全面理解自身的姿态状态 (state) 和周围地形 (terrain)，尽管机器人感知 (perception) 和执行 (actuation) 存在固有的不可靠性。当前最先进的方法要么依赖复杂的预训练高级地形重建模块，要么限制机器人跑酷的最大潜力以避免因感知不准确而导致的失败。

本文提出了一种单阶段 (one-stage)、端到端 (end-to-end) 的学习型跑酷框架：基于隐式-显式学习框架的四足机器人跑酷 (Parkour with Implicit-Explicit learning framework for legged robots, PIE)。该框架利用双层隐式-显式估计 (dual-level implicit-explicit estimation) 机制。通过这种机制，即使是配备了不可靠的自我中心深度相机 (egocentric depth camera) 的低成本四足机器人，也能通过相对简单的训练过程 (training process) 和奖励函数 (reward function) 在挑战性跑酷地形上取得卓越性能。虽然训练过程完全在仿真 (simulation) 中进行，但我们的真实世界 (real-world) 验证表明该框架实现了成功的零样本部署 (zero-shot deployment)，在恶劣地形上展示了卓越的跑酷性能。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2408.13740
PDF 链接: https://arxiv.org/pdf/2408.13740v3.pdf
补充视频: https://youtu.be/XsjFNcND6js?si=9Lil8P3bFAXH1mc

2. 整体概括

2.1. 研究背景与动机

核心问题: 四足机器人在执行跑酷任务时面临巨大挑战。跑酷要求机器人不仅要在复杂多变的环境中展现出高度的敏捷性 (agility) 和平稳性 (smoothness)，还需要实时且准确地理解自身的运动状态和周围地形。

现有挑战与空白:

感知与执行的不可靠性: 机器人传感器存在固有的噪声 (noise) 和延迟 (latency)，执行器 (actuators) 也可能存在误差，这使得精确的环境感知和运动控制非常困难。
现有方法的局限性:
- 依赖复杂预训练模块: 许多现有方法依赖预训练的、复杂的高级地形重建模块 (terrain reconstruction modules)，这增加了系统的复杂性，并可能导致信息损失和系统延迟。
- 限制机器人潜力: 为了避免因感知不准确而导致的失败，一些方法选择限制机器人在跑酷任务中的最大潜力，未能充分发挥机器人的运动能力。
训练范式问题: 现有的基于学习的跑酷方法通常采用两阶段训练范式 (two-stage training paradigm)，这使得训练过程复杂化，并可能在模仿学习 (imitation learning) 或适应 (adaptation) 阶段导致信息丢失。
行为整合挑战: 如何通过相对简单的训练过程和奖励函数，将多种行为无缝整合到一个神经网络中，仍然是一个挑战。

论文的切入点/创新思路: 为了解决上述挑战，本文提出 PIE (Parkour with Implicit-Explicit learning framework for legged robots)，一个单阶段 (one-stage)、端到端 (end-to-end) 的学习型跑酷框架。PIE 的核心在于引入了双层隐式-显式估计 (dual-level implicit-explicit estimation) 机制。该机制旨在通过更高效、更鲁棒 (robust) 的方式整合本体感受 (proprioception) 和外部感受 (exteroception) 信息，从而提升机器人对自身状态和周围环境的理解，最终推动四足机器人在跑酷任务中的性能极限。

2.2. 核心贡献/主要发现

PIE 框架通过其创新的双层隐式-显式估计机制，为四足机器人的跑酷能力带来了显著提升。其主要贡献和发现包括：

提出新颖的单阶段学习框架: 首次提出了一个单阶段、端到端的学习型跑酷框架 PIE，通过双层隐式-显式估计机制，显著提升了机器人状态和环境理解的质量，避免了传统两阶段训练范式带来的信息损失和性能下降。
显著提升机器人跑酷能力: 实验证明，PIE 使得低成本四足机器人（如 DEEP Robotics Lite3）能够：
- 跳上和跳下 3 倍于自身高度的台阶（高达 0.75 米）。
- 跨越 3 倍于自身长度的间隙（高达 1 米）。
- 攀爬和下行 1 倍于自身高度的楼梯（高达 0.25 米）。这些结果将四足机器人的跑酷能力提升到了一个新水平，相较于最先进的机器人跑酷框架，性能提升至少 50%。
实现卓越的仿真到真实零样本部署: 尽管所有训练都在仿真环境中进行，但 PIE 框架在真实世界中展示了成功的零样本部署能力，无需大量微调 (fine-tune)，即可在室内外的恶劣地形上表现出强大的鲁棒性 (robustness) 和泛化能力 (generalization capabilities)。这证明了其优雅而强大的管道 (pipeline) 实现了出色的仿真到真实 (sim-to-real) 迁移。
在不确定性下展现出强大的稳定性: 即使在紧急情况下，如外部感知出现轻微偏差（例如高速跑动中意外绊倒，或跳跃时起跳平台支撑不足），PIE 也能及时准确地做出响应并迅速恢复稳定。

3. 预备知识与相关工作

3.1. 基础概念

为了充分理解 PIE 框架，我们需要回顾以下几个核心概念：

四足机器人 (Legged Robots): 具有四条腿的机器人，模仿动物运动，能够适应复杂、不规则的地形，如楼梯、岩石、崎岖地面等。它们在移动性 (mobility) 和稳定性 (stability) 方面具有优势。
跑酷 (Parkour): 一种通过奔跑、跳跃、攀爬等方式快速、流畅地穿越各种障碍和地形的运动。对于机器人而言，跑酷任务要求极高的平衡性 (balance)、稳定性、实时感知 (real-time perception) 和快速决策能力。
强化学习 (Reinforcement Learning, RL): 一种机器学习范式，智能体 (agent) 通过与环境 (environment) 交互来学习最优行为策略 (policy)。智能体在每个时间步观察环境状态 (state)，执行动作 (action)，然后从环境接收奖励 (reward) 信号，目标是最大化累积奖励。
- 智能体 (Agent): 执行动作并学习的实体（例如，机器人）。
- 环境 (Environment): 智能体与之交互的外部世界（例如，跑酷地形）。
- 状态 (State): 对环境的描述（例如，机器人的关节角度、速度、深度图像）。
- 动作 (Action): 智能体可以执行的操作（例如，机器人关节的目标角度）。
- 奖励 (Reward): 环境对智能体行为的反馈信号，用于指导学习过程。
- 策略 (Policy): 智能体从状态到动作的映射，决定了智能体在给定状态下如何行动。
- 价值函数 (Value Function): 评估在给定状态下遵循某一策略所能获得的未来累积奖励的期望值。
深度学习 (Deep Learning): 机器学习的一个分支，使用多层神经网络 (neural networks) 从数据中学习表示。
- 多层感知器 (Multilayer Perceptron, MLP): 最简单的前馈神经网络，包含至少一个隐藏层。常用于处理向量数据。
- 卷积神经网络 (Convolutional Neural Network, CNN): 专门用于处理具有网格状拓扑结构的数据（如图像）的神经网络。通过卷积层 (convolutional layers) 提取空间特征。
- 门控循环单元 (Gated Recurrent Unit, GRU): 一种循环神经网络 (Recurrent Neural Network, RNN) 变体，能够有效处理序列数据，解决长短期依赖问题，通过门控机制（更新门和重置门）控制信息流。
- 变换器编码器 (Transformer Encoder): Transformer 模型的一部分，通过自注意力机制 (self-attention mechanism) 处理序列数据，能够捕获输入序列中任意位置之间的依赖关系。在本文中用于跨模态 (cross-modal) 特征融合。
端到端学习 (End-to-End Learning): 一种训练方法，直接从原始输入数据（如原始图像像素）学习到最终输出（如机器人关节命令），中间不进行人工特征工程或模块解耦。这通常能减少信息损失并简化系统。
感知 (Perception): 机器人获取和解释环境信息的能力。
- 本体感受 (Proprioception): 机器人对自身内部状态的感知，如关节角度、角速度、身体姿态、IMU (Inertial Measurement Unit) 读数等。这些传感器通常实时且可靠。
- 外部感受 (Exteroception): 机器人对外部环境的感知，如深度图像 (depth images)、彩色图像 (RGB images)、激光雷达扫描 (LiDAR scans) 等。这些传感器提供关于地形和障碍物的信息，但可能存在延迟和噪声。
领域随机化 (Domain Randomization): 一种仿真训练技术，通过在仿真环境中随机化各种物理参数（如机器人质量、摩擦系数、传感器噪声、纹理等）和环境参数，使训练出的策略对这些变化具有鲁棒性，从而提高从仿真到真实世界的迁移能力 (sim-to-real transferability)。
零样本部署 (Zero-shot Deployment): 指在没有在真实世界环境中进行任何额外训练或微调的情况下，直接将仿真训练出的策略部署到真实机器人上，并期望其能成功执行任务。
变分自编码器 (Variational Autoencoder, VAE): 一种生成模型，用于学习数据的潜在表示 (latent representation)。它由编码器和解码器组成，编码器将输入映射到潜在空间中的一个分布（通常是高斯分布），解码器从该分布中采样并重建原始输入。VAE 的训练目标包括重建损失和 KL 散度损失，后者用于确保潜在空间的分布接近先验分布（通常是标准正态分布）。

3.2. 前人工作

3.2.1. 视觉引导运动 (Vision-Guided Locomotion)

视觉引导运动在增强四足机器人的自主性 (autonomy) 和适应性 (adaptability) 方面扮演着关键角色。

传统方法 (解耦式): 传统方法通常将该问题分解为两个独立组件：感知 (perception) 和控制器 (controller)。感知组件将视觉输入（如摄像头、激光雷达数据）转换为高程图 (elevation maps) 或可穿越性图 (traversability maps)，以指导机器人运动。控制器组件则采用基于模型 (model-based) 的方法 [13], [14] 或强化学习 (RL) 方法 [8], [15]。然而，这种解耦过程最终会导致信息丢失和系统延迟，限制了机器人对复杂地形的灵活适应能力，主要用于导航和避障，而非复杂地形穿越。
端到端视觉引导 RL (End-to-End Vision-Guided RL): 近期，视觉引导的强化学习方法普遍采用端到端控制系统，在穿越复杂地形方面展现出巨大潜力。
- Agarwal et al. [10]: 设计了一个两阶段学习框架，其中一个学生策略 (student policy) 在拥有特权信息 (privileged information) 的教师策略 (teacher policy) 指导下，直接根据深度摄像头输入和本体感受反馈预测关节角度。
- Yang et al. [11]: 提出了一个耦合训练框架，利用 Transformer 结构整合本体感受和视觉观测。通过自注意力机制 (self-attention mechanism) 融合这些输入，实现在室内外环境中自主导航。
- Yang et al. [12]: 利用具有 $SE(3)$ 等变性 (equivariance) 的 3D 像素 (voxel) 表示作为视觉输入提取的特征，实现对地形的精确理解。

3.2.2. 机器人跑酷 (Robot Parkour)

在跑酷场景中，通过外部感受和本体感受传感器在高度动态的条件下构建精确的环境理解，以实现敏捷、灵活和鲁棒的运动至关重要。

Hoeller et al. [1]: 描述了一个用于跑酷地形导航的分层管道 (hierarchical pipeline)。然而，当遇到非结构化地形时，由编码器-解码器架构 (encoder-decoder architecture) 获得的占用像素图 (occupancy voxels) 往往不准确且不可信，导致导航和运动模块做出不当响应，同时训练成本高且可扩展性低。
Zhuang et al. [2]: 提出了一种多阶段方法，利用软/硬约束 (soft/hard constraints) 来加速训练过程，使机器人能够直接从深度图像中学习穿越各种地形。然而，其特权物理信息 (privileged physics information) 与仿真中障碍物的几何属性 (geometric properties) 强相关，这使得训练机器人应对无法仅通过几何属性描述的地形变得具有挑战性。
Cheng et al. [3]: 采用了一个类似 [10] 的框架。不同之处在于，它将路点 (waypoints) 引入教师策略的特权输入中，以指导学生策略自主学习航向 (heading)。但是，这种方法需要根据地形手动指定路点，这带来了相当大的限制。

3.3. 技术演进与差异化分析

该领域的技术演进可以概括为从盲态运动到视觉引导运动，从解耦感知与控制到端到端学习，再从两阶段训练到单阶段训练。

盲态运动 (Blind locomotion): 早期研究主要依赖本体感受传感器，机器人通过自身运动反馈来“隐式”推断周围地形。虽然在平稳地面或简单障碍物上表现良好 [4], [5], [6], [7]，但在极端任务如跑酷中，由于无法预见前方危险，其性能受到限制。
视觉引导运动的引入: 为了应对复杂地形和更精细的任务，外部感受传感器（如摄像头、激光雷达）被引入 [8], [9], [10], [11], [12]。这使得机器人能够“显式”感知环境。
端到端学习的兴起: 为了克服传统解耦方法的延迟和信息损失，端到端学习方法成为主流，直接从原始传感器数据到运动指令 [10], [11], [12]。
跑酷任务的特异性: 在跑酷这类高度动态且对精度要求极高的任务中，外部感受传感器的延迟和噪声成为关键挑战，尤其是在边缘判断和高难度动作中 [2], [3]。

PIE 的差异化和创新点: 与上述相关工作相比，PIE 的核心区别和创新点在于：

单阶段端到端训练范式: 现有跑酷工作（如 [2], [3]）普遍采用两阶段训练。PIE 提出了一种单阶段端到端 (one-stage end-to-end) 框架，这简化了训练过程，并能有效避免两阶段训练可能带来的信息损失和部署学生策略时的性能下降。
双层隐式-显式估计 (Dual-level Implicit-Explicit Estimation): 这是 PIE 最主要的创新。
- 第一层 (理解层面): 融合本体感受和外部感受，不仅显式理解地形（如高度图），更通过预测后继本体感受状态 (successor proprioceptive state) 来隐式理解机器人状态和周围环境。这使得机器人能够提前预测地形变化，并在感知不确定时更信任本体感受，从而增强估计准确性和鲁棒性。
- 第二层 (表示层面): 估计器输出既包含经过编码的潜在向量 (latent vectors)（如用于高度图和后继状态重建的），也包含直接的显式物理量 (explicit physical quantities)（如基础速度和足部间隙）。潜在向量通过压缩降维减少噪声，而显式物理量则提供直观、关键的信息，例如优先级高的速度跟踪和足部间隙。这种结合使得机器人能更全面、更鲁棒地理解环境。
对感知不可靠性的鲁棒性: 现有方法在面对外部感受传感器（如深度相机）的延迟和噪声时，往往性能受限。PIE 的隐式-显式估计机制，特别是通过预测后继状态，允许策略在视觉信息与本体感受信息冲突时，更多地信任本体感受，从而在感知不准确的条件下也能做出正确决策，提高了在真实世界中的鲁棒性。
在低成本机器人上的卓越性能: 即使在低成本机器人上，PIE 也能实现比以往方法显著更高的跑酷能力，例如 3 倍身高跳跃和 3 倍身长跨越。

4. 方法论

本文提出的 PIE 框架是一个单阶段 (one-stage)、端到端 (end-to-end) 的强化学习 (Reinforcement Learning) 框架，旨在通过一个统一的神经网络直接从原始深度图像 (raw depth images) 和板载本体感受数据 (onboard proprioception) 生成所需的关节角度命令 (joint angle commands)。其核心在于通过双层隐式-显式估计 (dual-level implicit-explicit estimation) 机制，显著提升机器人对自身状态和周围环境的理解，并规避了传统两阶段训练范式带来的性能损失。

4.1. 方法原理

PIE 的核心思想是，机器人在执行跑酷任务时，不仅需要显式地感知周围环境（例如，地形的高度和形状），还需要对自身状态及其与环境的交互有一个“直觉”或“内部模型”式的隐式理解。传统方法要么过于依赖显式感知（易受噪声和延迟影响），要么缺乏对未来状态的预判能力。PIE 通过以下两个层面的隐式-显式估计来解决这些问题：

理解层面：本体感受与外部感受的深度融合。 机器人不仅仅是显式地理解地形（通过外部感受传感器），它还将实时且鲁棒的本体感受信息与外部感受信息结合起来，通过预测其后继本体感受状态 (successor proprioceptive state) 来隐式推断自身状态和周围环境。这种预测机制增强了估计的准确性，并允许机器人能够“想象”未来，从而做出更具前瞻性的决策，尤其是在感知不确定时能够更多地依赖自身可靠的本体感受。
表示层面：潜在向量与物理量的协同估计。 估计器不仅输出编码后的潜在向量 (encoded latent vectors)（这些向量在解码后可以重建高维信息，如高度图和后继状态），还直接输出具有明确物理意义的显式物理量 (explicit physical quantities)（如基础速度和足部间隙）。潜在向量通过压缩和降维来增强对噪声的鲁棒性，而显式物理量则提供了对跑酷任务至关重要的直观信息，如确保速度跟踪的精确性以及在地形边缘进行精确落脚所需的足部间隙信息。这种设计确保了信息传递的完整性和有效性。

通过这种双层机制，PIE 能够以更简单、更高效的方式，在单个端到端框架中，实现对复杂跑酷任务所需的精细控制。

4.2. 核心方法详解

PIE 框架主要由三个子网络构成：行动者 (actor)、评论家 (critic) 和估计器 (estimator)。本文采用了非对称 (asymmetric) 的行动者-评论家架构，以简化训练过程为单阶段。

4.2.1. 策略网络 (Policy Network) 与价值网络 (Value Network)

行动者网络 (Actor Network):
- 输入: 仅接收在部署阶段可获得的本体感受观测 $\mathbf{o}_t$ 、估计的基础速度 $\hat{\mathbf{v}}_t$ 、估计的足部间隙 $\hat{\mathbf{h}}_t^f$ 、编码的高度图估计 $\mathbf{z}_t^m$ 和纯粹的潜在向量 $\mathbf{z}_t$ 。这些估计值 ( $\hat{\mathbf{v}}_t, \hat{\mathbf{h}}_t^f, \mathbf{z}_t^m, \mathbf{z}_t$ ) 均由估计器输出。
- 本体感受观测 $\mathbf{o}_t$ 定义如下： 这是一个 45 维向量，直接由关节编码器 (joint encoders) 和惯性测量单元 (IMU) 测量得到。 $\mathbf{o}_t = \left[ \boldsymbol{\omega}_t \quad \mathbf{g}_t \quad \mathbf{c}_t \quad \boldsymbol{\theta}_t \quad \dot{\boldsymbol{\theta}}_t \quad \mathbf{a}_{t-1} \right]^T$
  - $\boldsymbol{\omega}_t$ : 机器人身体的角速度 (body angular velocity)。
  - $\mathbf{g}_t$ : 在机器人身体坐标系下的重力方向向量 (gravity direction vector in the body frame)。
  - $\mathbf{c}_t$ : 期望的速度指令 (velocity command)，用于控制机器人的目标运动速度。
  - $\boldsymbol{\theta}_t$ : 机器人的关节角度 (joint angle)。
  - $\dot{\boldsymbol{\theta}}_t$ : 机器人的关节角速度 (joint angular velocity)。
  - $\mathbf{a}_{t-1}$ : 前一个时间步的动作 (previous action)，即机器人上一个输出的关节偏移量。
- 输出 (动作空间):
  - 行动者网络输出一个 12 维向量 $\mathbf{a}_t$ ，对应于四足机器人的 12 个关节。
  - 为了策略网络输出的稳定性，动作 $\mathbf{a}_t$ 被添加到机器人的静止姿态 (standstill pose) $\boldsymbol{\theta}_{stand}$ 中，得到最终的目标关节角度 $\boldsymbol{\theta}_{target}$ ： $\boldsymbol{\theta}_{target} = \boldsymbol{\theta}_{stand} + \mathbf{a}_t$
价值网络 (Value Network):
- 输入: 为了获得更准确的状态价值 $\hat{\mathbf{v}}_t$ 估计，价值网络不仅接收本体感受观测 $\mathbf{o}_t$ ，还包括额外的特权观测 (privileged observations)——基础速度 $\mathbf{v}_t$ 和高度图扫描点 $\mathbf{m}_t$ 。
- 状态 $\mathbf{s}_t$ 定义如下： $\mathbf{s}_t = \left[ \mathbf{o}_t \quad \mathbf{v}_t \quad \mathbf{m}_t \right]^T$
  - $\mathbf{o}_t$ : 本体感受观测。
  - $\mathbf{v}_t$ : 机器人身体的基础速度 (base velocity)，作为特权信息。
  - $\mathbf{m}_t$ : 高度图扫描点 (height map scan dots)，作为特权信息，提供精确的环境几何信息。

奖励函数 (Reward Function): 为了突出框架的鲁棒性能，本文在跑酷场景中采用了相对简单的奖励函数，与先前关于盲态行走的研究 [19], [20] 保持一致。具体的奖励函数元素及其权重如下表所示：

以下是原文 Table I 的结果：

Reward	Equation(ri)	Weight(wi)
Lin. velocity tracking	exp{−4(vcmd − vxy)2} xy	1.5
Ang. velocity tracking	exp{−4(ωcrhd − ωyaw)2}	0.5
Linear velocity (z)		-1.0
Angular velocity (xy)		-0.05
Orientation	g\|2 \|82	-1.0
Joint accelerations		−2.5 × 10−7
Joint power	\|τ\|\|	-2 × 10-5
Collision	−ncollision	-10.0
Action rate	(at − at−1)2	-0.01
Smoothness	(at − 2at−1 + at−2)2	-0.01

$\mathbf{g}$ : 身体坐标系中的重力向量 (gravity vector in the body frame)。
$\boldsymbol{\tau}$ : 关节扭矩 (joint torque)。
$n_{collision}$ : 除了脚之外的碰撞点数量 (number of collision points other than the feet)。
Lin. velocity tracking: 线性速度跟踪奖励，鼓励机器人跟随给定的指令速度 vcmd，特别是水平方向 vxy。
Ang. velocity tracking: 角速度跟踪奖励，鼓励机器人跟随给定的指令角速度 $ωcrhd$ ，特别是偏航角速度 $ωyaw$ 。
Linear velocity (z): 惩罚垂直方向的线性速度，鼓励机器人保持稳定高度。
Angular velocity (xy): 惩罚水平面内的角速度，鼓励机器人姿态稳定。
Orientation: 惩罚身体姿态偏离直立方向，鼓励机器人保持平衡。
Joint accelerations: 惩罚过大的关节加速度，鼓励平稳运动。
Joint power: 惩罚过大的关节功率，鼓励能量效率。
Collision: 强烈惩罚机器人身体（除脚外）与环境的碰撞。
Action rate: 惩罚动作（关节目标角度）变化过快，鼓励动作平滑。
Smoothness: 惩罚动作变化不平滑，鼓励连续的运动。

4.2.2. 估计器 (Estimator)

估计器是 PIE 框架的核心，用于生成行动者网络所需的输入向量： $\hat{\mathbf{v}}_t$ 、 $\hat{\mathbf{h}}_t^f$ 、 $\mathbf{z}_t^m$ 和 $\mathbf{z}_t$ 。这些向量被划分为两个层面的隐式和显式估计。

第一层：理解机器人状态和周围环境 (Understanding Robot's State and Surroundings)

挑战: 盲态机器人虽然可以通过估计后继本体感受状态 [5], [21] 隐式推断其状态和周围地形，但它必须与环境交互后才能调整推断。在跑酷任务中，机器人需要提前预判地形（例如，在高跳或长跳前积蓄动量），这只能通过外部感受传感器提供额外信息才能实现。然而，单独使用有延迟且带噪声的深度相机进行显式地形估计并不可靠，尤其是在容易失足的边缘区域 [2], [3]。
PIE 方案：多头自编码器机制 (Multi-head Auto-encoder Mechanism): PIE 提出一种机制来整合机器人状态和周围环境的隐式和显式估计。
1. 编码器模块 (Encoder Module):
  - 输入: 编码器有两个输入：
    - 时间深度图像 $\mathbf{d}_t^{H_2}$ : 近期（在时间维度上）的深度观测图像堆叠而成。在本文中，设置 $H_2 = 2$ ，意味着使用了当前和前一帧深度图。 $\mathbf{d}_t^{H_2}$ 通过一个 CNN 编码器 (CNN encoder) 进行处理，以提取视觉特征。
    - 时间本体感受观测 $\mathbf{o}_t^{H_1}$ : 近期（在时间维度上）的本体感受观测堆叠而成。在本文中，设置 $H_1 = 10$ ，意味着使用了过去 10 个时间步的本体感受观测。 $\mathbf{o}_t^{H_1}$ 通过一个 MLP 编码器 (MLP encoder) 进行处理，以提取本体感受特征。
  - 跨模态推理 (Cross-modal Reasoning): 为了促进 2D 深度特征图中的视觉标记 (visual tokens) 与本体感受特征之间的跨模态推理，PIE 采用了一个 共享的 Transformer 编码器 (shared transformer encoder) 来进一步整合这两种模态。
  - 记忆生成 (Memory Generation): 由于机器人仅配备一个自我中心深度相机 (egocentric depth camera)，无法直接视觉感知身体下方或后方的地形。因此，Transformer 的输出（经过跨模态注意力处理后的深度和本体感受特征）被拼接 (concatenated) 起来，并输入到一个 GRU (Gated Recurrent Unit) 中，以生成关于状态和地形的记忆 (memories)。
  - GRU 输出作为策略网络输入: GRU 的输出随后作为策略网络 (policy network) 的输入向量。这些输出向量包括：
    - 编码的高度图估计向量 $\mathbf{z}_t^m$ (Encoded Height Map Estimation Vector): 这是一个潜在向量，通过解码器 (decoder) 解码成 $\hat{\mathbf{m}}_t$ ，以重建高维高度图 $\mathbf{m}_t$ 。这构成了对周围地形的 显式估计 (explicit estimation)。
    - 纯粹的潜在向量 $\mathbf{z}_t$ (Purely Latent Vector): 为了提取 $\mathbf{z}_t$ 的特征，PIE 采用了一个 VAE (Variational Autoencoder) 结构，而非纯粹的自编码器 (auto-encoder) [5]。这意味着在训练过程中，除了重建损失外，还使用 KL 散度 (KL divergence) 作为潜在损失 (latent loss)。当 $\mathbf{z}_t$ 与其他具有显式含义的向量一起被解码时，它重建出 $\hat{\mathbf{o}}_{t+1}$ ，用于表示机器人的后继状态 $\mathbf{o}_{t+1}$ ，从而封装了关于机器人状态和周围环境的 隐式信息 (implicit information)。
- 损失函数 (Loss Function): 对于显式估计（如高度图重建）和隐式估计（如后继本体感受状态重建），都使用均方误差 (Mean-Squared-Error, MSE) 损失。这构成了第一层隐式-显式估计。

第二层：向量是编码的潜在向量还是显式物理量 (Whether the Vector is an Encoded Latent Vector or an Explicit Physical Quantity)

编码潜在向量 (Encoded Latent Vectors): $\mathbf{z}_t^m$ 和 $\mathbf{z}_t$ 是编码后的潜在向量，随后由解码器进行重建。通过这种压缩和降维，噪声影响得以降低，从而提高了鲁棒性。
显式物理量 (Explicit Physical Quantities): $\hat{\mathbf{v}}_t$ $\hat{v}_{t}$ 和 $\hat{\mathbf{h}}_t^f$ $\hat{h}_{t}^{f}$ 是直接估计的显式物理量。
- $\hat{\mathbf{v}}_t$ : 显式估计基础速度 (base velocity)，在训练过程中优先考虑速度跟踪 (velocity tracking)。
- $\hat{\mathbf{h}}_t^f$ : 显式估计足部间隙 (foot clearance)，提供在跑酷场景中理解地形至关重要的相关信息。
损失函数 (Loss Function): 对于显式物理量估计部分，同样使用均方误差 (MSE) 损失。这构成了第二层隐式-显式估计。

估计器的整体训练损失 (Overall Training Loss for Estimator): 估计器的总训练损失 $\mathcal{L}$ 定义如下，它结合了 VAE 的 KL 散度损失和所有重建/估计目标的 MSE 损失： $\begin{array} { r } { \mathcal { L } = D _ { \mathrm { K L } } \big ( q ( \mathbf { z } _ { t } | \mathbf { o } _ { t } ^ { H _ { 1 } } , \mathbf { d } _ { t } ^ { H _ { 2 } } ) \ | \ p ( \mathbf { z } _ { t } ) \big ) + \mathbf { M S E } \big ( \hat { \mathbf { o } } _ { t + 1 } , \mathbf { o } _ { t + 1 } \big ) } \\ { + \mathbf { M S E } ( \hat { \mathbf { m } } _ { t } , \mathbf { m } _ { t } ) + \mathbf { M S E } ( \hat { \mathbf { v } } _ { t } , \mathbf { v } _ { t } ) + \mathbf { M S E } ( \hat { \mathbf { h } } _ { t } ^ { f } , \mathbf { h } _ { t } ^ { f } ) , } \end{array}$

$D_{\mathrm{KL}} \big ( q ( \mathbf { z } _ { t } | \mathbf { o } _ { t } ^ { H _ { 1 } } , \mathbf { d } _ { t } ^ { H _ { 2 } } ) \ | \ p ( \mathbf { z } _ { t } ) \big )$ : 潜在向量 $\mathbf{z}_t$ 的 KL 散度损失。其中， $q ( \mathbf { z } _ { t } | \mathbf { o } _ { t } ^ { H _ { 1 } } , \mathbf { d } _ { t } ^ { H _ { 2 } } )$ 是给定历史本体感受观测 $\mathbf{o}_t^{H_1}$ 和历史深度观测 $\mathbf{d}_t^{H_2}$ 时，潜在向量 $\mathbf{z}_t$ 的后验分布 (posterior distribution)。 $p ( \mathbf { z } _ { t } )$ 是 $\mathbf{z}_t$ 的先验分布 (prior distribution)，通常参数化为标准正态分布。
$\mathbf{MSE} \big ( \hat { \mathbf { o } } _ { t + 1 } , \mathbf { o } _ { t + 1 } \big )$ : 预测的后继本体感受状态 $\hat{\mathbf{o}}_{t+1}$ 与真实后继本体感受状态 $\mathbf{o}_{t+1}$ 之间的均方误差损失。
$\mathbf{MSE} ( \hat { \mathbf { m } } _ { t } , \mathbf { m } _ { t } )$ : 预测的高度图 $\hat{\mathbf{m}}_t$ 与真实高度图 $\mathbf{m}_t$ 之间的均方误差损失。
$\mathbf{MSE} ( \hat { \mathbf { v } } _ { t } , \mathbf { v } _ { t } )$ : 预测的基础速度 $\hat{\mathbf{v}}_t$ 与真实基础速度 $\mathbf{v}_t$ 之间的均方误差损失。
$\mathbf{MSE} ( \hat { \mathbf { h } } _ { t } ^ { f } , \mathbf { h } _ { t } ^ { f } )$ : 预测的足部间隙 $\hat{\mathbf{h}}_t^f$ 与真实足部间隙 $\mathbf{h}_t^f$ 之间的均方误差损失。

该图像是一个示意图，展示了基于隐式-显式学习框架的四足机器人控制系统。图中显示了不同的观察输入以及如何通过多层感知器（MLP）、卷积神经网络（CNN）和变换器编码器处理这些信息，以实现智能决策和运动控制，具体参数包括机器人34cm的长度和25cm的高度。

4.2.3. 训练细节 (Training Details)

仿真平台 (Simulation Platform): 使用 Isaac Gym 进行训练，该平台支持 4096 个并行环境。通过利用 NVIDIA Warp 技术，能够在 NVIDIA RTX 4090 上在 20 小时内完成 10,000 次迭代训练，从而快速得到可部署的网络。
训练课程 (Training Curriculum): 遵循先前工作的原则 [19]，采用了一种课程学习 (curriculum learning) 方法，逐步增加地形难度，以使策略能够适应越来越具挑战性的环境。
- 跑酷地形包括: 宽达 1 米的间隙 (gaps)、高至 0.75 米的台阶 (steps)、高至 0.75 米的障碍 (hurdles) 以及高至 0.25 米的楼梯 (stairs)。
- 速度指令: 横向速度命令 (Lateral velocity commands) 采样范围为 $[0.0, 1.5] \mathrm{m/s}$ ，水平角速度 (horizontal angular velocity) 采样范围为 $[-1.2, 1.2] \mathrm{rad/s}$ 。
- 地形随机化: 为了确保部署的策略能够穿越仿真中固定范式之外的地形，除了地形难度的变化外，还对仿真中的各种地形进行了随机化。例如，为了让机器人适应容易被误认为是平地的两个台阶之间的大间隙（它可以跳下然后跳上下一个台阶），作者随机化了间隙的深度和宽度。

领域随机化 (Domain Randomization): 为了增强仿真训练网络的鲁棒性并促进仿真到真实 (sim-to-real) 的平滑迁移，论文随机化了多种参数，包括机器人身体质量、机器人质心 (CoM)、载荷 (payload)、初始关节位置、地面摩擦系数 (ground friction coefficient)、电机强度 (motor strength)、PD 增益 (PD gains)、系统延迟 (system delay)，以及摄像头位置、方向和视场 (field of view)。

以下是原文 Table II 的结果：

Parameter	Randomization range	Unit
Payload	[−1, 2]	kg
Kp factor	[0.9, 1.1]	Nm/rad
factor	[0.9, 1.1]	Nms/rad
Motor strength factor	[0.9, 1.1]	Nm
Center of mass shift	[−50, 50]	mm
Friction coefficient	[0.2, 1.2]	-
Initial joint positions	[0.5, 1.5]	rad
System delay	. [0, 15]	ms
Camera position (x)	[−10, 10]	mm
Camera position (y)	[−10, 10]	mm
Camera position (z)	[−10, 10]	mm
Camera pitch	[−1, 1]	deg
Camera horizontal FOV	[86, 88]	deg

Payload: 机器人可以携带的额外载荷，范围为 $[-1, 2]$ kg，模拟机器人携带不同重量物体或环境对机器人质量的影响。
Kp factor / Kd factor: PD 控制器中比例增益 (Kp) 和微分增益 (Kd) 的随机因子，范围为 [0.9, 1.1]，模拟电机控制参数的不确定性。
Motor strength factor: 电机强度的随机因子，范围为 [0.9, 1.1]，模拟电机性能差异。
Center of mass shift: 质心 (CoM) 偏移的随机范围，范围为 $[-50, 50]$ mm，模拟机器人结构或载荷分布的微小变化。
Friction coefficient: 地面摩擦系数，范围为 [0.2, 1.2]，模拟不同地面材质的摩擦特性。
Initial joint positions: 初始关节位置的随机范围，范围为 [0.5, 1.5] rad，模拟机器人启动时的姿态不确定性。
System delay: 系统延迟的随机范围，范围为 [0, 15] ms，模拟传感器和执行器之间的通信和处理延迟。
Camera position (x, y, z): 摄像头位置在 x, y, z 轴上的随机偏移，范围为 $[-10, 10]$ mm，模拟摄像头安装的微小误差。
Camera pitch: 摄像头俯仰角的随机偏移，范围为 $[-1, 1]$ deg，模拟摄像头安装角度误差。
Camera horizontal FOV: 摄像头水平视场角 (Field of View) 的随机范围，范围为 [86, 88] deg，模拟摄像头参数变化。

5. 实验设置

5.1. 数据集

本文没有使用传统意义上的固定数据集，而是利用仿真环境 Isaac Gym 动态生成了多样化的跑酷地形进行训练和评估。这些环境的参数通过领域随机化 (Domain Randomization) 进行变化，旨在模拟真实世界的复杂性和不确定性。

仿真训练与评估环境:
- 地形类型: 训练课程 (training curriculum) 中包含间隙 (gaps)、台阶 (steps)、障碍 (hurdles) 和楼梯 (stairs)。
  - 间隙宽度可达 1 米。
  - 台阶高度可达 0.75 米。
  - 障碍高度可达 0.75 米。
  - 楼梯高度可达 0.25 米。
- 难度分级: 每个地形类型被配置为十个递增的难度等级，以系统地评估策略的性能。
- 随机化: 除了难度分级，间隙的深度和宽度等地形参数也会被随机化，以增加地形的多样性，使策略适应非固定模式的地形。
- 并行环境: 仿真在 4096 个并行环境中进行，以加速训练和数据收集。
真实世界评估环境:
- 室内环境:
  - 设置了台阶、间隙和楼梯等跑酷地形，用于对比 PIE 及其消融模型的性能。
  - 还额外设置了坡道 (ramp) 地形，用于评估模型未经专门训练的泛化能力 (generalization performance)。
- 户外环境:
  - 长距离徒步: 在浙江大学玉泉校区到老和山顶的往返路线上进行，全程 2 公里，海拔上升 153 米。这条路径包含长距离连续弯曲楼梯（高度和宽度各异）、不规则形状的台阶和障碍、陡峭的坡道、以及可变形、湿滑的地面和岩石表面。
  - 夜间测试: 在黑暗的户外条件下进行，测试机器人在几乎没有可见光的情况下跳过高台阶、不规则岩石，以及爬上爬下斜坡和楼梯的能力。

5.2. 评估指标

论文使用了以下评估指标来衡量 PIE 框架的性能：

平均终止难度等级 (Mean Terminated Difficulty Level):
- 概念定义: 该指标主要用于仿真实验，量化机器人在不同类型（间隙、楼梯、台阶）地形上能够成功穿越并终止的最大平均难度等级。每个地形类型都设有十个递增的难度等级。机器人在测试时从最简单等级开始，逐步尝试穿越更难的等级，直到因跌倒或碰撞而终止。该指标记录机器人在此过程中成功到达的最高难度等级的平均值。它反映了策略在应对渐进式复杂地形时的能力上限。
- 数学公式: 论文未直接提供其计算公式。根据描述，可以推导为： $\text{Mean Terminated Difficulty Level} = \frac{1}{N} \sum_{i=1}^{N} \text{MaxLevel}_i$
- 符号解释:
  - $N$ : 进行测试的机器人总数或总测试次数。
  - $\text{MaxLevel}_i$ : 第 $i$ 次测试中机器人成功穿越并达到最高难度等级。
成功率 (Success Rate):
- 概念定义: 该指标主要用于真实世界实验，衡量机器人在特定难度等级的特定地形上成功完成穿越任务的百分比。例如，在某个难度等级的台阶地形上进行 10 次尝试，记录成功完成的次数。它直接反映了策略在真实世界中特定挑战下的可靠性和鲁棒性。
- 数学公式: $\text{Success Rate} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100\%$
- 符号解释:
  - $\text{Number of Successful Trials}$ : 在给定地形和难度等级下，机器人成功完成任务的试验次数。
  - $\text{Total Number of Trials}$ : 在给定地形和难度等级下，进行的试验总次数。
跑酷能力相对比 (Comparison of Parkour Abilities):
- 概念定义: 该指标用于与其他先进跑酷框架进行横向比较，通过标准化机器人可穿越障碍物的尺寸与机器人自身尺寸（身高和身长）的比例来衡量。例如，“3x”表示机器人能够穿越 3 倍于自身高度或长度的障碍物。这提供了一个直观且相对公平的性能比较基准，反映了机器人在极限运动能力上的表现。
- 数学公式: 论文未提供具体公式，但其含义为障碍物尺寸与机器人自身尺寸之比。例如，对于台阶高度： $\text{Step Ratio} = \frac{\text{Max Traversable Step Height}}{\text{Robot Height}}$
- 符号解释:
  - $\text{Max Traversable Step Height}$ : 机器人能够成功穿越的最大台阶高度。
  - $\text{Robot Height}$ : 机器人的身高（通常指腿部伸直时的站立高度）。
  - 类似地，Gap Ratio 表示最大可跨越间隙长度与机器人身长之比。

5.3. 对比基线

论文将自己的方法 PIE 与多种基线模型进行了比较，主要分为内部消融研究和外部现有先进框架。

内部消融研究 (Ablation Studies): 为验证 PIE 框架中双层隐式-显式估计各组件的有效性，作者设计了以下五个消融版本进行对比。这些基线对于理解 PIE 中不同估计向量的关键作用具有代表性。
- PIE w/o reconstructing $\hat{\mathbf{o}}_{t+1}$ : 此方法只能显式估计机器人的状态和周围环境，而不重建后继本体感受状态 $\mathbf{o}_{t+1}$ 。这旨在验证隐式估计的重要性。
- PIE w/o reconstructing $\hat{\mathbf{m}}_t$ : 此方法利用本体感受和外部感受，但仅重建 $\mathbf{o}_{t+1}$ 作为对周围环境的隐式估计，缺乏对地形的显式估计（高度图）。这旨在验证显式地形估计的重要性。
- PIE w/o estimating $\hat{\mathbf{v}}_t$ : 此方法在训练时没有估计基础速度 $\hat{\mathbf{v}}_t$ 。这旨在验证显式速度估计对速度跟踪和机动性的影响。
- PIE w/o estimating $\hat{\mathbf{h}}_t^f$ : 此方法在训练时没有估计足部间隙 $\hat{\mathbf{h}}_t^f$ 。这旨在验证足部间隙信息对机器人处理地形边缘的重要性。
- PIE using predicted\mathbf{o}_{t+1} $: 此方法允许策略网络直接使用预测的 $\mathbf{o}_{t+1}$ 作为输入，而不是像 `PIE` 中那样使用用于重建的纯潜在向量 $\mathbf{z}_t$。这旨在对比直接输入原始预测状态与输入经过 VAE 压缩的潜在表示的效果。 2. <strong>外部现有先进框架 (Previous Related Work):</strong> 论文还将 `PIE` 的跑酷能力与以下最先进的机器人跑酷框架进行了比较。这些方法代表了当前该领域的高水平研究。 * **Hoeller et al. [1]** (`AnymalC` 机器人): 该工作提出了一个分层管道用于跑酷导航。 * **Zhuang et al. [2]** (`Unitree-A1` 机器人): 该工作提出了一种多阶段学习方法，使机器人直接从深度图像中学习穿越地形。 * **Cheng et al. [3]** (`Unitree-A1` 机器人): 该工作采用了一个类似 [10] 的框架，引入路点来指导学生策略进行跑酷。选择这些基线的原因是它们代表了该领域最先进的技术，并且 [2] 和 [3] 使用的 `Unitree A1` 机器人在尺寸和能力上与本文使用的 `DEEP Robotics Lite3` 具有可比性，使得对比结果具有合理性。 # 6. 实验结果与分析 ## 6.1. 核心结果分析 ### 6.1.1. 仿真实验结果 (Simulation Experiments) 在仿真环境中，作者建立了一个类似训练设置的评估环境，用于衡量 `PIE` 及其消融模型在不同地形上的性能。为了精确评估策略在各种地形（间隙、楼梯、台阶）上的穿越能力，他们配置了十个难度等级递增的课程式地形。通过让机器人从最简单等级开始，逐步穿越直至因跌倒或碰撞而终止，来测量机器人能达到的平均地形难度等级。每种地形类型创建了四十组环境，同时测试一百个机器人，以确保地形和机器人的随机性。以下是原文 Table III 的结果： <div class="table-wrapper"><table><thead><tr><td rowspan="2">Method</td><th colspan="3">Mean Terminated Difficulty Level</th></tr><tr><th>Gap</th><th>Stairs</th><th>Step</th></tr></thead><tbody><tr><td>PIE (ours)</td><td>9.9</td><td>9.86</td><td>9.81</td></tr><tr><td>PIE w/o <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msub><mover accent="true"><mi mathvariant="bold">o</mi><mo>^</mo></mover><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub></mrow><annotation encoding="application/x-tex">$\hat{\mathbf{o}}_{t+1}$</annotation></semantics></math></td><td>9.51</td><td>9.45</td><td>9.62</td></tr><tr><td>PIE w/o <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msup><mover accent="true"><mi mathvariant="bold">h</mi><mo>^</mo></mover><mi>f</mi></msup></mrow><annotation encoding="application/x-tex">$\hat{\mathbf{h}}^{f}$</annotation></semantics></math></td><td>7.41</td><td>7.36</td><td>3.09</td></tr><tr><td>PIE w/o <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mover accent="true"><mi mathvariant="bold">v</mi><mo>^</mo></mover></mrow><annotation encoding="application/x-tex">$\hat{\mathbf{v}}$</annotation></semantics></math></td><td>8.7</td><td>8.22</td><td>8.48</td></tr><tr><td>PIE w/o <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mover accent="true"><mi mathvariant="bold">m</mi><mo>^</mo></mover></mrow><annotation encoding="application/x-tex">$\hat{\mathbf{m}}$</annotation></semantics></math></td><td>9.75</td><td>4.25</td><td>1.67</td></tr><tr><td>PIE using predicted <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msub><mi mathvariant="bold">o</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub></mrow><annotation encoding="application/x-tex">$\mathbf{o}_{t+1}$</annotation></semantics></math></td><td>9.23</td><td>7.28</td><td>3.29</td></tr></tbody></table></div> * <strong>`PIE (ours)` 的卓越表现:</strong> 从 Table III 可以看出，`PIE` 框架在所有地形类型（间隙、楼梯、台阶）上的平均终止难度等级均最高，分别达到 9.9、9.86 和 9.81。这强有力地证明了其双层隐式-显式估计机制在仿真中达到了卓越的跑酷性能。 * <strong>`PIE w/o reconstructing $\hat{\mathbf{o}}_{t+1}$` (无隐式后继状态估计) 的影响:</strong> 该方法虽然表现 commendable (值得称赞)，但其性能略低于完整的 `PIE`。这表明单独依赖显式地形估计会导致对地形理解不够全面。在最挑战的地形中，对落脚点 (foothold positioning) 的微小偏差会使其更容易跌倒。这强调了隐式理解机器人未来状态和环境的关键作用。 * <strong>`PIE w/o estimating $\hat{\mathbf{h}}_t^f$` (无足部间隙估计) 的显著下降:</strong> 相比前两种方法，该方法的性能显著下降（例如，台阶难度仅为 3.09）。这表明直接估计足部间隙 $\hat{\mathbf{h}}_t^f$ 对于机器人直观理解脚下地形至关重要，缺乏此信息会严重阻碍机器人在地形边缘执行极限跑酷动作的能力。 * <strong>`PIE w/o estimating $\hat{\mathbf{v}}_t$` (无基础速度估计) 的影响:</strong> 该方法在速度跟踪方面引入了显著偏差，从而降低了机器人在高难度地形上的机动性 (maneuverability)，导致性能下降。 * <strong>`PIE w/o reconstructing $\hat{\mathbf{m}}_t$` (无高度图重建) 的最差表现:</strong> 该方法难以从输入深度图像中直接提取有用的地形信息，导致在最具挑战性的跑酷地形上表现不佳（例如，台阶难度仅为 1.67）。这强调了对地形进行显式高度图估计的重要性。 * <strong>`PIE using predicted`\mathbf{o}_{t+1}$ (直接使用预测状态作为输入) 的问题: 该方法在台阶和楼梯地形上表现不佳。这可能是因为 $\mathbf{o}_{t+1}$ 的分布比通过 VAE 结构得到的纯潜在向量 $\mathbf{z}_t$ 更复杂，使得策略网络难以从中提取有效信息。这支持了使用 VAE 结构进行特征提取并输入潜在向量的合理性。

摄像头输入误差下的鲁棒性分析: 此外，作者还评估了 PIE 和 PIE w/o reconstructing $\hat{\mathbf{o}}_{t+1}$ 在存在各种摄像头输入误差（通过引入远高于标准随机化的噪声）时的性能。这些误差通常会导致视觉输入与实际环境之间出现差异，这在不可靠的深度相机受到各种干扰时经常发生。

$Fig. 3. Simulation experiments results for PIE and PIE without $\\hat { \\mathbf { o } } _ { t + 1 }$ in the presence of various camera input errors. Five plots represent the five types of camera errors introduced, with the $\\mathbf { X }$ coordinate system along the negative $\\mathbf { X }$ a of the robot in the $\\mathbf { X } .$ y and $\\mathbf { Z }$ encountered by the robot during training, with the $\\mathbf { y }$ representing the average sucess rate across all terrains, incuding gap stairs and step. Similary, to$ 该图像是图表，展示了PIE及PIE无 $ackslash hat { ackslash boldsymbol { o } }_{ t + 1 }$ 在不同摄像头输入误差下的平均成功率。图中包括五种摄像头误差类型的结果，展示了不同条件下机器人的表现。

PIE 的优越鲁棒性: 如 Figure 3 所示，在存在各种摄像头输入误差的情况下，PIE 在所有地形上的平均成功率 (average success rate) 均优于 PIE w/o reconstructing $\hat{\mathbf{o}}_{t+1}$ 。尤其当摄像头噪声显著增加时，两者之间的性能差距非常明显。这表明，通过对 $\hat{\mathbf{o}}_{t+1}$ 的估计，PIE 框架不仅能更好地获取机器人状态估计和地形理解，而且在视觉与本体感受信息冲突时，策略能够更信任本体感受，从而做出正确的决策，实现更好的性能。在正常领域随机化范围内，两者的性能表现接近，但在极端噪声下 PIE 的优势更为突出。

6.1.2. 真实世界室内实验结果 (Real-World Indoor Experiments)

作者在真实世界中对 PIE 及其消融模型进行了对比测试。每种方法在每种地形（台阶、间隙、楼梯）的每个难度等级下进行了十次试验。此外，还对坡道地形进行了测试，以评估泛化性能，尽管仿真中未专门训练坡道。

该图像是插图，展示了四种不同的障碍物（步高、间隙、楼梯和坡道）以及相应的成功率图表。每种障碍物下方显示了相应的成功测试，测试中使用了不同版本的PIE框架。右侧的图表则表明了在不同条件下，机器人成功率的变化情况，提供了与其他方法的对比数据。

PIE 的突出性能和零样本迁移: 如 Figure 4 所示，PIE 框架在所有技能上都表现出卓越的性能，超越了所有消融模型和先前的相关工作。PIE 使得机器人能够攀爬高达 0.75 米的障碍物（3 倍机器人身高）、跳跃 1 米宽的间隙（3 倍机器人身长）以及攀爬 0.25 米高的楼梯（1 倍机器人身高）。这相比于最先进的机器人跑酷框架，实现了至少 50% 的显著性能提升，如 Table IV 所示。值得注意的是，PIE 在真实世界中保持了与仿真中一致的成功率，展现出卓越的仿真到真实 (sim-to-real) 迁移能力。
泛化能力: 尽管在仿真中没有专门训练坡道地形，但 PIE 仍然展示了更好的泛化性能。
消融模型在真实世界中的表现:
- PIE w/o reconstructing $\hat{\mathbf{o}}_{t+1}$ : 表现相对较好，但由于真实世界中感知和执行的延迟和噪声更大，其性能相比仿真明显下降。
- PIE w/o estimating $\hat{\mathbf{h}}_t^f$ : 由于缺乏对足部间隙的直观估计，难以正确处理地形边缘，导致成功率较低。
- PIE w/o estimating $\hat{\mathbf{v}}_t$ : 当地形难度增加时，基础速度估计恶化，导致跟随速度指令的成功率显著下降。
- PIE w/o reconstructing $\hat{\mathbf{m}}_t$ : 相比仿真，在更复杂的真实世界深度图像中难以提取有用的地形信息，使得外部感知反而成为干扰而非帮助，导致在所有地形上的成功率接近零。
  
  以下是原文 Table IV 的结果：
  
  Method Robot Step Gap Stairs
  Hoeller et al. [1] AnymalC 2× 1.5× 0.5×
  Zhuang et al. [2] Unitree-A1 1.6× 1.5× -
  Cheng et al. [3] Unitree-A1 2× 2× -
  PIE (ours) DEEP Robotics Lite3 3× 3× 1×
PIE 与现有最先进方法的跑酷能力对比: Table IV 清晰地展示了 PIE 在台阶、间隙和楼梯方面的能力，均优于现有的先进方法。PIE 实现了 3 倍机器人身高的台阶跳跃，3 倍机器人身长的间隙跨越，以及 1 倍机器人身高的楼梯攀爬，相比之下，现有方法通常只能达到 1.5 倍到 2 倍的水平，且在楼梯能力上有些方法甚至未给出。这再次印证了 PIE 在提升跑酷极限方面的显著优势。

Method	Robot	Step	Gap	Stairs
Hoeller et al. [1]	AnymalC	2×	1.5×	0.5×
Zhuang et al. [2]	Unitree-A1	1.6×	1.5×	-
Cheng et al. [3]	Unitree-A1	2×	2×	-
PIE (ours)	DEEP Robotics Lite3	3×	3×	1×

6.1.3. 真实世界户外实验结果 (Real-World Outdoor Experiments)

深度相机在户外环境下会面临显著干扰，使得仿真到真实 (sim-to-real) 的差距更加明显。为全面评估 PIE 框架在此类环境中的鲁棒性 (robustness) 和泛化能力 (generalization abilities)，作者进行了以下测试。

该图像是一个展示四足机器人在不同地形上执行跑酷任务的示意图。图中包含机器人的运动轨迹和多种自然地形的照片，验证了所提出的PIE框架的有效性，包括180m和27m的高度标记。

长距离山路徒步: 如 Figure 5 所示，机器人完成了从浙江大学玉泉校区到老和山顶的往返徒步，全程 2 公里，海拔上升 153 米。沿途地形包括不同高度和宽度的连续弯曲楼梯、不规则形状的台阶和障碍、陡峭的坡道、以及可变形、湿滑的地面和岩石表面。机器人仅用 40 分钟就完成了全程，期间没有停止，只有操作员和摄影师因机器人快速攀爬不规则楼梯而难以跟上时才稍作停留。这展现了 PIE 在复杂自然环境下的长时间、高强度运行能力。

该图像是显示机器人在黑暗户外环境中进行测试的插图。尽管几乎没有可见光，该机器人仍然能够准确地执行灵活的动作，并在执行艰难的越野任务时表现出色。
夜间黑暗户外测试: 如 Figure 6 所示，在夜间昏暗的户外条件下，机器人成功地连续跳过高台阶和不规则岩石，并攀爬和下行斜坡和楼梯。尽管几乎没有可见光，机器人仍然能够准确地执行敏捷动作。这验证了 PIE 在光照条件极差、外部感知高度受限情况下的强大鲁棒性和对本体感受的有效利用。

6.1.4. 紧急情况下的稳定性 (Stability in Emergency Scenarios)

快速恢复能力: 论文特别指出，即使在执行高强度动作时估计不准确（例如，在高速冲上 0.25 米高的楼梯时被瞬间绊倒，或在 1 米间隙跳跃起跳阶段出现误判），PIE 框架也能及时准确地做出响应并快速恢复稳定。

该图像是一个展示四足机器人在不同环境中进行跳跃和稳定性的顺序图示。尽管在跳跃过程中存在距离估计误差，该机器人依然能够成功完成跳跃并稳稳着陆，同时在上楼梯时遇到突发的台阶缺口时也能迅速恢复稳定性。
具体案例: 如 Figure 7 所示：
- 在跳跃间隙时，尽管距离估计出现轻微误差，导致机器人前腿和后腿在起跳前未能完全支撑在平台上，但它仍然成功执行了跳跃动作，并在另一侧平稳着陆。
- 在攀爬楼梯时，当遇到突发的台阶缺口时，机器人能够迅速稳定自身，并继续向上迈步。这些观察结果尤其值得关注，因为强化学习通常不擅长处理精确的机动，使得完全避免此类偏差变得困难。这进一步强调了 PIE 框架在不确定环境中的鲁棒性和自适应能力。

7. 总结与思考

7.1. 结论总结

本文提出了一种新颖的单阶段 (one-stage)、端到端 (end-to-end) 的学习型跑酷框架 PIE。该框架通过双层隐式-显式估计 (dual-level implicit-explicit estimation) 机制，显著提升了四足机器人对自身状态和环境的理解质量。与现有基于学习的跑酷框架相比，PIE 在统一策略 (unified policy) 下显著增强了机器人的跑酷能力，使其能够在挑战性地形上实现卓越性能，例如跳跃 3 倍身高的高度、跨越 3 倍身长的间隙和攀爬 1 倍身高的楼梯。

此外，PIE 框架在真实世界中展现出令人称赞的零样本部署 (zero-shot deployment) 能力和强大的泛化能力 (generalization capabilities)，无论是在室内设置的复杂障碍，还是在户外恶劣且光线不足的环境中，都能保持有效的性能。即使在感知出现轻微不准确或紧急情况时，PIE 也能迅速做出响应并恢复稳定。这表明 PIE 为四足机器人实现更高级别的敏捷性和鲁棒性运动提供了有效且强大的解决方案。

7.2. 局限性与未来工作

尽管 PIE 取得了显著成就，但作者也指出了其当前版本存在的一些局限性，并展望了未来的研究方向：

缺乏 3D 地形理解: PIE 缺乏对周围地形的全面 3D 理解，因此无法实现诸如在障碍物下低姿态 (crouch under obstacles) 穿越的能力。
外部感知依赖单一模态: 外部感知仅依赖深度图像 (depth images)，缺乏 RGB 图像提供的更丰富语义信息 (semantic information)。这可能限制了机器人在识别物体、理解场景上下文等方面的能力。
训练环境局限于静态场景: 训练过程目前仅限于静态环境，并未扩展到动态场景 (dynamic scenes)。这可能导致机器人在面对移动障碍物或人群时，视觉估计出现混淆 (confusion)，影响其性能。

未来的研究方向: 作者计划设计一个新的统一学习型感觉运动整合框架 (unified learning-based sensorimotor integration framework)，旨在：

从深度图像中提取 3D 地形信息。
从 RGB 图像中获取丰富的语义信息。
通过结合这些多模态信息，实现机器人在各种环境中更好的适应性 (adaptability) 和移动性 (mobility)。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一些深刻的启发：

隐式-显式估计的强大潜力: PIE 框架的核心创新——双层隐式-显式估计——展示了将本体感受和外部感受信息深度融合的有效性。特别是通过预测后继本体感受状态来增强对自身和环境的“内部模型”理解，这不仅提升了对传感器延迟的处理能力，更赋予了策略在感知不确定时“信任”更可靠本体感受的智能，从而显著提高了鲁棒性。这种混合感知模式对于解决机器人感知噪声和延迟问题具有普遍指导意义。
简单奖励函数与复杂行为的涌现: 论文强调使用相对简单的奖励函数，却能诱导出机器人自然、敏捷且无缝过渡的复杂跑酷步态，类似于真实猫狗的运动。这提示我们，在强化学习中，一个设计良好的状态表示和学习架构（如 PIE 中的估计器），可能比极度精细的奖励工程更能有效地引导智能体学习出复杂的、类似生物的行为。
单阶段端到端训练的效率与性能: 相较于复杂的两阶段训练范式，PIE 的单阶段端到端方法不仅简化了训练过程，更避免了信息损失和性能下降。这证明了在某些任务中，直接从原始输入到输出的统一学习，在效率和最终性能上可能更具优势。
仿真到真实的成功迁移: PIE 在低成本机器人上实现了令人印象深刻的零样本仿真到真实迁移，即使在恶劣户外环境和极端光照条件下也能表现出色。这归功于充分的领域随机化和鲁棒的内部模型学习，为机器人领域中的仿真验证和真实部署提供了宝贵的经验。

7.3.2. 批判与潜在改进

尽管 PIE 取得了显著进展，但仍有一些潜在问题或可以改进的地方：

3D 地形理解的局限性: 论文明确指出缺乏 3D 地形理解是其局限性之一，这限制了机器人执行如“匍匐穿越障碍”等更复杂的动作。未来的工作可以探索集成更先进的 3D 视觉感知技术，例如基于神经辐射场 (NeRF-based) 的场景表示或三维点云处理网络，以构建更丰富的环境几何和语义模型。
多模态感知的进一步利用: 目前外部感知仅依赖深度图像。引入 RGB 图像等其他模态（如纹理、颜色、语义标签）可以提供更丰富的环境语义信息，帮助机器人更好地理解场景中的物体类型、可通行区域等，从而做出更智能的决策。例如，识别草地、水泥地、水坑等不同材质，或区分可穿越的障碍和不可穿越的墙壁。
动态场景适应性: 训练局限于静态环境是另一个重要局限。在真实世界中，机器人可能需要与移动障碍物、行人或其他动态元素交互。未来的研究可以探索在仿真中引入动态障碍物，并设计能够处理运动预测和避障的策略，以增强其在复杂动态环境中的适应性。
奖励函数的内在解释: 尽管论文强调了使用“相对简单”的奖励函数，但并未深入探讨该奖励函数如何精确地诱导出了如此敏捷和自然的步态。进一步的分析，例如通过奖励分解 (reward decomposition) 或因果分析，可以揭示哪些奖励项对特定行为的贡献最大，从而为未来更高效的奖励设计提供指导。
低成本机器人量化与普适性: 论文强调在低成本机器人上实现了卓越性能。虽然这很有意义，但可以更具体地量化“低成本”的含义，并与行业内其他机器人的成本进行更详细的对比。此外，该框架在不同类型或品牌低成本机器人上的普适性 (universality) 也是一个值得探讨的问题。
可解释性 (Interpretability) 提升: 作为一个端到端深度学习框架，其决策过程可能存在“黑箱”问题。未来的工作可以探索引入可解释性机制，例如通过可视化注意力权重或特征图，来理解机器人为何在特定地形上做出特定动作，从而增强系统的信任度和调试能力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。