论文状态：已完成

BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds

发表：2025/02/15

稀疏足托强化学习 (1)人形机器人灵活步态学习 (1)双重评论员结构 (1)两阶段强化学习方法 (1)基于LiDAR的 elevation map (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了 `BeamDojo`，一个针对人形机器人在稀疏落足点上敏捷运动的强化学习框架。它结合了基于采样的落脚点奖励和双评论家结构，通过两阶段学习方法有效平衡了奖励机制，并实现了高效的学习与真实世界应用的成功率，尤其在动态环境下表现出色。

摘要

Traversing risky terrains with sparse footholds poses a significant challenge for humanoid robots, requiring precise foot placements and stable locomotion. Existing learning-based approaches often struggle on such complex terrains due to sparse foothold rewards and inefficient learning processes. To address these challenges, we introduce BeamDojo, a reinforcement learning (RL) framework designed for enabling agile humanoid locomotion on sparse footholds. BeamDojo begins by introducing a sampling-based foothold reward tailored for polygonal feet, along with a double critic to balancing the learning process between dense locomotion rewards and sparse foothold rewards. To encourage sufficient trial-and-error exploration, BeamDojo incorporates a two-stage RL approach: the first stage relaxes the terrain dynamics by training the humanoid on flat terrain while providing it with task-terrain perceptive observations, and the second stage fine-tunes the policy on the actual task terrain. Moreover, we implement a onboard LiDAR-based elevation map to enable real-world deployment. Extensive simulation and real-world experiments demonstrate that BeamDojo achieves efficient learning in simulation and enables agile locomotion with precise foot placement on sparse footholds in the real world, maintaining a high success rate even under significant external disturbances.

思维导图

论文精读

中文精读约 44 分钟读完 · 26,449 字

1. 论文基本信息

1.1. 标题

BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds (BeamDojo：在稀疏落足点上学习敏捷人形机器人运动)

1.2. 作者

Huayi Wang, Zirui Wang, Junli Ren, Qingwei Ben, Tao Huang, Weinan Zhang, Jiangmiao Pang。隶属机构：上海人工智能实验室 (Shanghai AI Laboratory)、上海交通大学 (Shanghai Jiao Tong University)、浙江大学 (Zhejiang University)、香港大学 (The University of Hong Kong)、香港中文大学 (The Chinese University of Hong Kong)。

1.3. 发表期刊/会议

预印本 (Preprint) 论文，发表于 arXiv。该论文领域属于机器人学 (Robotics)、强化学习 (Reinforcement Learning) 和运动控制 (Locomotion Control)，在这些领域，arXiv 预印本是研究成果快速分享和交流的重要平台。

1.4. 发表年份

2025年。

1.5. 摘要

人形机器人穿越具有稀疏落足点 (sparse footholds) 的危险地形，需要精准的落脚和稳定的运动，这带来了巨大挑战。现有基于学习的方法在处理此类复杂地形时，常因稀疏的落足点奖励 (foothold rewards) 和低效的学习过程而表现不佳。为应对这些挑战，本文提出 BeamDojo，一个专为实现人形机器人在稀疏落足点上敏捷运动而设计的强化学习 (Reinforcement Learning - RL) 框架。

BeamDojo 首先引入了一种针对多边形足部 (polygonal feet) 量身定制的基于采样 (sampling-based) 的落足点奖励。同时，采用双评论家 (double critic) 架构，以平衡密集运动奖励 (dense locomotion rewards) 和稀疏落足点奖励之间的学习过程。为鼓励充分的试错探索 (trial-and-error exploration)，BeamDojo 采用两阶段强化学习方法：第一阶段通过在平坦地形上训练人形机器人，并向其提供任务地形感知观测 (task-terrain perceptive observations)，从而放宽地形动态 (terrain dynamics) 约束；第二阶段则在实际任务地形上对策略 (policy) 进行微调 (fine-tune)。此外，作者还实现了基于机载 LiDAR 的高程图 (elevation map)，以支持真实世界部署。

广泛的仿真和真实世界实验表明，BeamDojo 在仿真中实现了高效学习，并在真实世界中实现了在稀疏落足点上敏捷运动和精准落脚，即使在显著的外部干扰下也能保持高成功率。

1.6. 原文链接

https://arxiv.org/abs/2502.10363 PDF 链接: https://arxiv.org/pdf/2502.10363v3.pdf 发布状态：预印本。

2. 整体概括

2.1. 研究背景与动机

核心问题： 人形机器人在稀疏落足点（如垫脚石、平衡木）的危险地形上进行敏捷、稳定的运动是一个重大挑战。这要求机器人能够精确处理感知信息、在安全区域内精准落脚，并全程保持身体稳定。
重要性与现有挑战：
- 人形机器人与四足机器人的区别： 现有研究在四足机器人上已取得显著进展，但这些方法难以直接应用于人形机器人。主要原因是人形机器人的脚通常是多边形 (polygon)，而非简单的点 (point) 模型。
- 模型驱动方法的问题： 对于传统的模型驱动 (model-based) 方法，多边形脚需要额外的半空间约束 (half-space constraints)，这在线规划 (online planning) 中会带来显著的计算负担。
- 强化学习方法的问题： 针对点状脚设计的落足点奖励函数不适用于评估多边形脚的放置。此外，人形机器人高自由度 (high degrees of freedom) 和固有的不稳定性 (inherently unstable morphology) 使其在危险地形上实现敏捷稳定运动更为困难。
- 稀疏奖励与低效学习： 评估足部放置的奖励信号通常是稀疏的，仅在完成一个子过程（如抬脚、落脚）后才提供，这使得难以将奖励归因于特定的状态 (states) 和动作 (actions)。单个失误常导致训练提前终止 (early termination)，阻碍了充分探索 (exploration)。
- 感知信息挑战： 传感器限制和环境噪声使得获取可靠的感知信息具有挑战性。
切入点与创新思路： 本文旨在通过提出一个新颖的强化学习框架 BeamDojo 来解决上述问题，该框架特别针对人形机器人的多边形脚设计奖励，并优化学习过程以提高样本效率和稳定性。

2.2. 核心贡献/主要发现

本文的主要贡献总结如下：

新型强化学习框架 BeamDojo： 提出了一个两阶段 (two-stage) 强化学习框架 BeamDojo，结合了：
- 采样式多边形脚落足点奖励： 专为多边形脚模型设计，能够更准确地评估足部放置。
- 双评论家 (double critic) 架构： 有效平衡密集运动奖励和稀疏落足点奖励的学习，提高稀疏奖励学习效率和步态 (gait) 规范性。
- 两阶段训练方法： 第一阶段通过“软地形动态约束 (soft terrain dynamics constraints)”在平坦地形上进行感知学习，鼓励充分试错探索；第二阶段通过“硬地形动态约束 (hard terrain dynamics constraints)”在真实地形上进行微调，确保精准和安全的运动策略。
真实世界部署能力： 实现了基于 LiDAR 的机器人中心高程图 (robot-centric elevation map)，并结合精心设计的领域随机化 (domain randomization) 技术进行仿真训练，以实现高效的真实世界部署。
卓越的性能和泛化能力： 在仿真和真实世界实验中，BeamDojo 展现了高效的学习过程，实现了在稀疏落足点上的敏捷运动和精准落脚，即使在显著外部干扰下仍能保持高成功率。此外，模型对未训练过的复杂地形（如 Stepping Beams 和 Gaps）也展现出强大的零样本迁移 (zero-shot transfer) 能力。
突破性成果： 据作者所知，BeamDojo 是第一个实现人形机器人在稀疏落足点危险地形上进行精细步态控制的基于学习的方法。

3. 预备知识与相关工作

3.1. 基础概念

强化学习 (Reinforcement Learning - RL):
- 概念： 强化学习是一种机器学习范式，智能体 (agent) 通过与环境 (environment) 交互学习，目标是最大化累积奖励 (cumulative rewards)。智能体根据环境的状态 (state) 采取动作 (action)，环境会根据动作反馈奖励和新的状态。
- 马尔可夫决策过程 (Markov Decision Process - MDP): RL 问题通常被建模为 MDP，由以下元组定义：
  - $\mathcal{S}$ : 状态空间 (state space)，描述环境的所有可能状态。
  - $\mathcal{A}$ : 动作空间 (action space)，描述智能体可以采取的所有可能动作。
  - $T(s' \mid s, a)$ : 转移动态 (transition dynamics)，表示在状态 $s$ 下采取动作 $a$ 后，转移到新状态 $s'$ 的概率。
  - R(s, a): 奖励函数 (reward function)，表示在状态 $s$ 下采取动作 $a$ 获得的即时奖励。
  - $\gamma \in [0, 1]$ : 折扣因子 (discount factor)，用于权衡即时奖励和未来奖励的重要性。
- 策略 (Policy): $\pi(a \mid s)$ 定义了智能体在给定状态 $s$ 下采取动作 $a$ 的概率分布。RL 的目标是找到一个最优策略，使得期望的折扣累积奖励最大化。
- 部分可观测马尔可夫决策过程 (Partially Observable Markov Decision Process - POMDP): 当智能体无法完全观测到环境的真实状态，只能获得部分观测 (partial observations) $\mathbf{o} \in \mathcal{O}$ 时，RL 问题就变成了 POMDP。
PPO (Proximal Policy Optimization - 近端策略优化):
- 概念： PPO 是一种基于策略梯度 (policy gradient) 的强化学习算法，因其策略更新的稳定性和较高的数据效率而被广泛应用于机器人运动控制。它通过限制每次策略更新的大小，确保新旧策略之间的差异不会太大，从而避免了策略更新过激导致性能下降的问题。
- 数据效率： PPO 能够高效地利用样本数据，通过多次梯度更新来学习策略，而不需要像其他一些算法那样在每次策略更新后就丢弃旧数据。
GAE (Generalized Advantage Estimation - 广义优势估计):
- 概念： GAE 是一种用于估计优势函数 (advantage function) 的方法。优势函数衡量了在给定状态下采取某个动作相对于平均水平（由价值函数 V(s) 衡量）的“优势”。GAE 通过引入一个平滑参数 $\lambda$ ，可以在低方差 (low variance) 和低偏差 (low bias) 的优势估计之间进行权衡，从而提高策略梯度算法的稳定性和性能。
人形机器人 (Humanoid Robots):
- 概念： 模仿人类形态和运动能力的机器人。
- 高自由度 (High Degrees of Freedom - DoF): 人形机器人通常拥有比四足机器人更多的关节和自由度，这增加了运动控制的复杂性。
- 固有不稳定性 (Inherently Unstable Morphology): 与四足机器人相比，人形机器人的双足站立和行走本身就具有更高的不稳定性，需要更精细的平衡控制。
- 多边形足部 (Polygonal Feet): 这是本文关注的一个关键特征。大多数人形机器人的脚底是具有一定面积和形状的多边形（而非一个点），这使得落脚点的评估和接触稳定性分析更加复杂。

3.2. 前人工作

稀疏落足点运动 (Locomotion on Sparse Footholds):
- 模型驱动分层控制器 (Model-based Hierarchical Controllers): 将感知 (perception)、规划 (planning) 和控制 (control) 等复杂任务分解为独立阶段，以应对稀疏落足点问题 [16, 17, 26, 40, 41, 43, 53]。
  - 挑战： 对模型假设 (model assumptions) 的违背非常敏感，限制了在真实世界场景中的应用。
- RL 与模型驱动控制器结合的混合方法 (Hybrid Methods combining RL with Model-based Controllers):
  - 使用 RL 生成轨迹 (trajectories)，然后由模型驱动控制器跟踪 [15, 61, 55]。
  - 使用 RL 策略跟踪模型驱动规划器 (planners) 生成的轨迹 [27]。
  - 挑战： 尽管性能显著，但这种解耦架构可能限制了每个模块的适应性和协调性。
- 端到端学习框架 (End-to-end Learning Frameworks):
  - 通过感知运动控制器 (perceptive locomotion controllers) 训练机器人，使其能够通过稀疏落足点行走 [1, 4, 59, 60, 63]。
  - 局限性： 多数工作主要集中在四足机器人上。通常依赖深度相机 (depth cameras) 进行外部观测 (exteroceptive observations)，但深度相机视场角 (field of view) 狭窄，限制了机器人只能向后移动。此外，深度图像与训练中使用的高度图 (heightmap) 之间存在仿真到现实 (sim-to-real) 差距，需要图像处理模块进行桥接。
强化学习在运动控制中的应用 (Reinforcement Learning in Locomotion Control):
- RL 已广泛应用于腿式运动控制 [4, 21, 31, 32, 33, 39, 42, 44, 65]，得益于 PPO 提供的策略更新稳定性和高数据效率。
- 两阶段训练框架 (Two-stage Training Frameworks):
  - 现有工作通常旨在弥合观测空间中的仿真到现实差距 [31, 32]。

3.3. 技术演进

该领域的技术演进经历了从早期的模型驱动方法，到结合了强化学习与模型驱动的混合方法，再到近年来兴起的端到端强化学习范式。最初的模型驱动方法虽然精确，但对模型误差敏感，难以适应真实世界的复杂性和不确定性。混合方法试图结合两者的优点，但往往牺牲了模块间的整体协调性。端到端 RL 则致力于让机器人从原始感知输入直接学习到运动控制策略，具有更好的适应性和鲁棒性，但其在处理人形机器人的多边形脚、稀疏奖励以及高效学习方面仍面临挑战。本文的工作正是在端到端 RL 范式下，进一步提升人形机器人在特定复杂地形下的运动能力。

3.4. 差异化分析

BeamDojo 与现有相关工作的主要区别和创新点在于：

人形机器人特有挑战： 不同于大多数专注于四足机器人的工作，BeamDojo 专门解决了人形机器人特有的挑战，特别是其多边形足部几何对落足点评估和控制的复杂性。
新型采样式落足点奖励： 针对多边形足部设计了更精细、连续的采样式落足点奖励，而非传统适用于点状足部的二元或粗糙奖励。
双评论家架构： 创新性地引入双评论家来解耦密集运动奖励和稀疏落足点奖励的学习过程，显著提高了稀疏奖励的学习效率和步态规范性，解决了稀疏奖励学习困难的问题。
两阶段强化学习方法： 提出了一个新颖的两阶段训练方法，第一阶段通过“软地形动态约束”在平坦地形上进行任务感知学习，有效缓解了训练初期因失误导致频繁终止、探索不足的问题，显著提高了样本效率。这是与现有两阶段方法（多关注弥合仿真到现实的观测差距）在目标上的主要区别。
LiDAR-based 感知： 实现了基于 LiDAR 的高程图作为感知模块，这比依赖深度相机具有更广阔的视场和更强的鲁棒性，支持机器人向前和向后移动，并解决了深度相机特有的仿真到现实差距问题。
零样本迁移能力： 即使在未显式训练的复杂地形上，BeamDojo 也展现了强大的零样本迁移能力。

4. 方法论

本文的目标是开发一个地形感知 (terrain-aware) 的人形机器人运动策略 (locomotion policy)，通过强化学习 (RL) 进行训练。RL 问题被形式化为一个马尔可夫决策过程 (MDP) $\mathcal{M} = \langle \mathcal{S}, \mathcal{A}, T, \mathcal{O}, r, \gamma \rangle$ ，其中 $s$ 和 $\mathcal{A}$ 分别表示状态空间 (state space) 和动作空间 (action space)。转移动态 (transition dynamics) 由 $T(s' \mid s, a)$ 表示，奖励函数 (reward function) 由 r(s, a) 表示，折扣因子 (discount factor) 为 $\gamma \in [0, 1]$ 。主要目标是优化策略 $\pi(\boldsymbol{a}_t \mid \boldsymbol{s}_t)$ ，以最大化折扣累积奖励：

$\operatorname*{max}_{\pi} J(\mathcal{M}, \pi) = \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t r(s_t, a_t)\right]$

由于传感器限制和环境噪声，智能体只能访问部分观测 (partial observations) $\mathbf{o} \in \mathcal{O}$ ，这提供了关于真实状态的不完整信息。因此，智能体在一个部分可观测马尔可夫决策过程 (POMDP) 的框架内运行。

4.1. 落足点奖励 (Foothold Reward)

为了适应人形机器人的多边形足部模型 (polygonal foot model)，本文引入了一种基于采样 (sampling-based) 的落足点奖励，用于评估足部在稀疏落足点上的放置情况。这种评估由足部放置与指定安全区域（如石头和平衡木）的重叠程度决定。

具体来说，作者在机器人脚底采样 $n$ 个点，如下图（原文 Figure 2）所示。

$Fig. 2: Foothold Reward. We sample $n$ points under the foot. Green points indicate contact with the surface within the safe region, while red points represent those not in contact with the surface.$
该图像是图示，显示了在稀疏踏脚点下的奖励情况。大腿机器人在不稳定的地形中行走，图中左侧为机器人脚下的区域，右侧的放大图展示了样本点，绿色点表示安全区域内的接触点，而红色点则表示未接触的地面。根据这些点的接触情况，机器人可以获得相应的奖励，以促进学习和适应。

图 2: 落足点奖励 (Foothold Reward)。在脚下采样 $n$ 个点。绿色点表示与安全区域内表面接触，而红色点表示未接触表面。

对于第 $i$ 只脚上的第 $j$ 个采样点，令 $d_{ij}$ 表示对应位置的全局地形高度。惩罚性落足点奖励 $r_{\mathrm{foothold}}$ 定义为：

$r_{\mathrm{foothold}} = - \sum_{i=1}^{2} \mathbb{C}_i \sum_{j=1}^{n} \mathbb{1}\{d_{ij} < \epsilon\}$

$\mathbb{C}_i$ : 一个指示函数 (indicator function)，表示第 $i$ 只脚是否与地形表面接触。如果脚接触地面，则 $\mathbb{C}_i=1$ ，否则 $\mathbb{C}_i=0$ 。
$\mathbb{1}\{\cdot\}$ : 指示函数 (indicator function)，当条件为真时值为 1，否则为 0。
$\epsilon$ : 一个预定义的深度容差阈值 (depth tolerance threshold)。
$d_{ij} < \epsilon$ : 当采样点的地形高度 $d_{ij}$ 显著低于阈值 $\epsilon$ 时，表示该点位于安全区域之外，即落足不当。

目的分析： 这个奖励函数鼓励人形机器人最大化其足部放置与安全落足点的重叠区域，从而提高其地形感知能力和落脚精准度。由于它是一个连续的惩罚，重叠越多，惩罚越少（即奖励越高），这提供了比二元奖励更精细的反馈信号。

4.2. 双评论家用于稀疏奖励学习 (Double Critic for Sparse Reward Learning)

任务特定的落足点奖励 $r_{\mathrm{foothold}}$ 是一个稀疏奖励 (sparse reward)。为了有效优化策略 (policy)，必须仔细平衡这个稀疏奖励与对步态规范化 (gait regularization) 至关重要的密集运动奖励 (dense locomotion rewards) [62]。受 [25, 56, 62] 的启发，本文采用了一个基于 PPO (Proximal Policy Optimization) 的双评论家 (double critic) 框架，有效地解耦了密集奖励和稀疏奖励的混合学习过程。

在此框架中，训练两个独立的评论家网络 $\{V_{\phi_1}, V_{\phi_2}\}$ ，分别估计两个不同奖励组的价值函数 (value functions)：

常规运动奖励组 (dense rewards): $R_1 = \{r_i\}_{i=0}^n$ ，这些奖励已在四足机器人 [37] 和人形机器人运动任务 [34] 中进行过研究。
任务特定落足点奖励组 (sparse reward): $R_2 = \{r_{\mathrm{foothold}}\}$ 。

双评论家过程如下图（原文 Figure 3）所示。

该图像是示意图，展示了“BeamDojo”框架在训练与部署过程中对人形机器人进行灵活行走的流程。在左侧的部分（(a)），分为两个阶段：第一阶段是基于软地形动态的训练，利用稀疏奖励并结合感知信息；第二阶段则是在硬地形动态下的训练，结合密集和稀疏奖励以优化策略。右侧的部分（(b)）展示了机器人在实际部署中如何利用LiDAR生成的高程图和反馈控制器实现稳定行走。

图 3: BeamDojo 框架概述。左侧部分 (a) 描绘了双评论家驱动的两阶段强化学习训练策略。第一阶段通过在软地形动态下进行训练来促进探索。第二阶段在硬地形动态下进行策略微调。右侧部分 (b) 概述了真实世界部署流程，其中 LiDAR 生成的高程图和反馈控制器确保了稳健而敏捷的运动。观测信息作为演员网络 (actor) 的输入。

具体而言，每个价值网络 $V_{\phi_i}$ 针对其对应的奖励组 $R_i$ 独立地使用时间差分损失 (Temporal Difference Loss - TD-loss) 进行更新：

$\mathcal{L}(\phi_i) = \mathbb{E}\left[\left.R_{i,t} + \gamma V_{\phi_i}(s_{t+1}) - V_{\phi_i}(s_t)\right.^2\right]$

$R_{i,t}$ : 在时间步 $t$ 获得的第 $i$ 个奖励组的即时奖励。
$\gamma$ : 折扣因子。
$V_{\phi_i}(s_t)$ : 评论家网络 $V_{\phi_i}$ 在状态 $s_t$ 下估计的价值函数。
$V_{\phi_i}(s_{t+1})$ : 评论家网络 $V_{\phi_i}$ 在下一状态 $s_{t+1}$ 下估计的价值函数。

目的分析： 这个损失函数的目标是使评论家网络预测的状态价值 $V_{\phi_i}(s_t)$ 接近于实际获得的即时奖励 $R_{i,t}$ 加上下一状态的折扣价值 $\gamma V_{\phi_i}(s_{t+1})$ ，这是典型的 TD(0) 学习目标，用于训练价值函数。

随后，使用广义优势估计 (Generalized Advantage Estimation - GAE) [47] 计算相应的优势 $\{ \hat{A}_{i,t} \}$ ：

$\begin{array}{c} \delta_{i,t} = R_{i,t} + \gamma V_{\phi_i}(s_{t+1}) - V_{\phi_i}(s_t), \\ \\ \hat{A}_{i,t} = \displaystyle \sum_{l=0}^{\infty} (\gamma\lambda)^l \delta_{i,t+l}, \end{array}$

$\delta_{i,t}$ : 时间差分 (TD error)，表示在时间步 $t$ 估计的价值与实际观测到的奖励和下一状态价值之间的差异。
$\gamma$ : 折扣因子。
$\lambda$ : GAE 平衡参数 (balancing parameter)，用于权衡 TD 误差的指数衰减，以平衡优势估计的方差和偏差。

目的分析： $\delta_{i,t}$ 是单步 TD 误差，而 $\hat{A}_{i,t}$ 是通过对多步 TD 误差进行加权求和得到的 GAE 优势估计。GAE 能够提供一个更稳定、更准确的优势估计，指导策略更新。

这些优势然后被独立归一化 (normalized) 并合成为一个总体优势 (overall advantage)：

$\hat{A}_t = w_1 \cdot \frac{\hat{A}_{1,t} - \mu_{\hat{A}_{1,t}}}{\sigma_{\hat{A}_{1,t}}} + w_2 \cdot \frac{\hat{A}_{2,t} - \mu_{\hat{A}_{2,t}}}{\sigma_{\hat{A}_{2,t}}}$

$w_i$ : 每个优势分量的权重 (weight)。
$\mu_{\hat{A}_{i,t}}$ : 批次 (batch) 中 $\hat{A}_{i,t}$ 的均值 (mean)。
$\sigma_{\hat{A}_{i,t}}$ : 批次中 $\hat{A}_{i,t}$ 的标准差 (standard deviation)。

目的分析： 独立归一化确保了不同奖励组（密集和稀疏）的优势估计在数值尺度上保持一致，避免了其中一个奖励主导策略更新的问题。然后，通过加权求和，将两个评论家对不同奖励组的价值判断整合起来，形成一个统一的优势信号来指导演员网络 (actor network) 的策略更新。

这个总体优势随后用于更新策略 (policy)：

$\mathcal{L}(\theta) = \mathbb{E}\left[\operatorname*{min}\left(\alpha_t(\theta) \hat{A}_t, \mathrm{clip}(\alpha_t(\theta), 1 - \epsilon, 1 + \epsilon) \hat{A}_t\right)\right]$

$\mathcal{L}(\theta)$ : 策略网络的损失函数 (loss function)，目标是最大化这个损失（PPO 通常是最大化目标函数，这里是最小化负的 PPO 目标函数）。
$\alpha_t(\theta)$ : 概率比率 (probability ratio)，即新策略与旧策略在当前状态 $s_t$ 下采取动作 $a_t$ 的概率比值 $\frac{\pi_\theta(a_t \mid s_t)}{\pi_{\theta_{old}}(a_t \mid s_t)}$ 。
$\hat{A}_t$ : 前面计算得到的总体优势。
$\mathrm{clip}(\cdot, 1 - \epsilon, 1 + \epsilon)$ : 裁剪函数 (clipping function)，将概率比率 $\alpha_t(\theta)$ 限制在 $[1-\epsilon, 1+\epsilon]$ 的范围内。
$\epsilon$ : 裁剪超参数 (clipping hyperparameter)。

目的分析： 这是 PPO 算法的裁剪目标函数 (clipped objective function)。它通过裁剪概率比率来限制策略更新的幅度，从而避免了过大的策略更新。同时，min 操作确保了如果优势为正，策略不会过于激进地向有利方向更新；如果优势为负，策略也不会过于保守地远离不利方向。这有助于策略学习的稳定性和鲁棒性。

总结： 这种双评论家设计提供了一个模块化 (modular)、即插即用 (plug-and-play) 的解决方案，用于处理具有稀疏奖励的专门任务，同时有效解决了混合密集-稀疏环境中的奖励反馈频率差异问题 [62]。详细的奖励项在附录 VI-A 中提供。

4.3. 通过两阶段强化学习学习地形感知运动 (Learning Terrain-Aware Locomotion via Two-Stage RL)

为了解决复杂地形动态中的提前终止 (early termination) 问题并鼓励充分的试错探索，本文设计了一种新颖的两阶段强化学习 (RL) 方法用于仿真中的地形感知运动。如下图（原文 Figure 3）所示。

4.3.1. 阶段 1：软地形动态约束学习 (Stage 1: Soft Terrain Dynamics Constraints Learning)

在此阶段，首先将每个任务地形（表示为 $\tau$ ）映射到一个相同大小的平坦地形（表示为 $\mathcal{F}$ ）。这两个地形共享相同的地形噪声 (terrain noise)，所有点一一对应。唯一的区别是平坦地形 $\mathcal{F}$ 填充了真实地形 $\tau$ 中的间隙。

让人形机器人遍历地形 $\mathcal{F}$ ，接收本体感受观测 (proprioceptive observations)，同时提供感知反馈 (perceptual feedback)，形式为在机器人基地位置处的地形 $\tau$ 的高程图 (elevation map)。这种设置允许机器人“想象”在真实任务地形上行走，而实际上却在更安全的平坦地形上行走，失误不会导致终止。

为了让机器人接触真实地形动态，使用了在 4.1 节介绍的落足点奖励 ( $r_{\mathrm{foothold}}$ )。在此阶段，这个奖励由地形 $\tau$ 提供，其中 $d_{ij}$ 是采样点处真实地形的高度，而运动奖励 (locomotion rewards) 则由地形 $\mathcal{F}$ 提供。

目的分析： 这种设计成功地解耦了标准运动任务和穿越稀疏落足点的任务：平坦地形 $\mathcal{F}$ 提供本体感受信息和运动奖励以学习常规步态 (regular gaits)，而危险任务地形 $\tau$ 提供感知信息和落足点奖励以发展地形感知技能。这两个奖励组件使用双评论家框架（如 4.2 节所述）独立训练。

此外，通过允许人形机器人遍历平坦地形，并在失误时施加惩罚而非终止回合，机器人可以持续尝试落足点放置，从而更容易获得成功的正样本。相比之下，传统的提前终止会中断整个轨迹，使得从头开始学习时极难获取安全的落足点样本。这种方法显著提高了采样效率 (sampling efficiency) 并缓解了探索稀疏落足地形的挑战。

4.3.2. 阶段 2：硬地形动态约束学习 (Stage 2: Hard Terrain Dynamics Constraints Learning)

在第二阶段，策略直接在任务地形 $\tau$ 上进行微调。与阶段 1 不同，在 $\tau$ 上的失误现在会导致立即终止 (immediate termination)。这强制机器人严格遵守真实地形约束，要求其发展精确和安全的运动策略。

为了保持平稳的步态和准确的落脚点，继续利用双评论家框架来优化运动奖励和落足点奖励 $r_{\mathrm{foothold}}$ 。在这里， $d_{ij}$ 再次表示给定采样点处地形 $\tau$ 的高度。

4.4. 仿真训练 (Training in Simulation)

4.4.1. 观测空间和动作空间 (Observation Space and Action Space)

策略观测 $\mathbf{o}_t$ 由四个组件组成：

$\mathbf{o}_t = [\mathbf{c}_t, \mathbf{o}_t^{\mathrm{proprio}}, \mathbf{o}_t^{\mathrm{percept}}, \mathbf{a}_{t-1}]$

$\mathbf{c}_t \in \mathbb{R}^3$ : 命令 (commands)，指定期望速度，表示为 $[\mathbf{v}_x^c, \mathbf{v}_y^c, \omega_{\mathrm{yaw}}^c]$ ，分别代表纵向和横向的速度，以及水平面内的角速度。
$\mathbf{o}_t^{\mathrm{proprio}} \in \mathbb{R}^{64}$ : 本体感受观测 (proprioceptive observations)，包括基础线速度 (base linear velocity) $\mathbf{v}_t \in \mathbb{R}^3$ ，基础角速度 (base angular velocity) $\omega_t \in \mathbb{R}^3$ ，机器人坐标系下的重力方向 (gravity direction) $\mathbf{g}_t \in \mathbb{R}^3$ ，关节位置 (joint positions) $\boldsymbol{\theta}_t \in \mathbb{R}^{29}$ 和关节速度 (joint velocities) $\dot{\boldsymbol{\theta}}_t \in \mathbb{R}^{29}$ 。
$\mathbf{o}_t^{\mathrm{percept}} \in \mathbb{R}^{15 \times 15}$ : 感知观测 (perceptive observations)，对应于以机器人为中心的自我中心高程图 (egocentric elevation map)。该地图在纵向和横向方向上以 $0.1 \mathrm{m}$ 的网格采样 $15 \times 15$ 个点。
$\mathbf{a}_{t-1} \in \mathbb{R}^{12}$ : 上一时间步的动作 (action)，也包含在内以提供时间上下文 (temporal context)。

动作 (Action): 动作 $\mathbf{a}_t \in \mathbb{R}^{12}$ 代表人形机器人 12 个下半身关节的目标关节位置 (target joint positions)，由演员网络 (actor network) 直接输出。为简化起见，上半身关节使用默认位置。一个比例-微分 (Proportional-Derivative - PD) 控制器将这些关节目标转换为扭矩 (torques)，以跟踪期望位置。

4.4.2. 地形和课程设计 (Terrain and Curriculum Design)

受 [23, 60, 63] 启发，作者设计了五种稀疏落足点地形用于两阶段训练和评估：

Stones Everywhere (石块遍布): 一种通用稀疏落足点地形，石块散布在整个地形上。地形中心是一个平台，周围环绕石块，如下图（原文 Figure 4(a)）所示。石块在子方形网格中均匀分布。随着课程的进行，石块大小减小，稀疏度增加。
Stepping Stones (跳石): 该地形由纵向方向上的两排跳石组成，两端由两个平台连接，如下图（原文 Figure 4(b)）所示。每块石头均匀分布在两个子方形网格中，课程效果与 Stones Everywhere 相同。
Balancing Beams (平衡木): 在初始课程级别，该地形有两排独立的纵向石块。随着课程的进行，石块尺寸减小，横向距离缩小，最终形成单排平衡木，如下图（原文 Figure 4(c)）所示。这种地形对机器人来说极具挑战性，因为它必须学习如何在平衡木上保持双脚并拢而不相互碰撞，同时保持重心。这需要与常规运动任务不同的步态。

该图像是一个示意图，展示了不同的训练地形设置，用于机器人在复杂地形上行走的学习过程。其中 (a) 显示了覆盖石块的地形；(b) 和 (c) 展示了跳石和平衡梁；而 (d) 和 (e) 则展示了更具挑战性的平衡梁和间隙。这些设置旨在逐步提高任务的复杂性。

图 4: 仿真中的地形设置。(a) 用于阶段 1 训练，而 (b) 和 (c) 用于阶段 2 训练。训练地形的难度从简单到困难。(b)-(e) 用于评估。

Stepping Beams (跳跃木梁): 该地形由一系列随机分布在纵向方向上的木梁组成，两端各有一个平台，如下图（原文 Figure 4(d)）所示。这种地形与 Stones Everywhere 和 Stepping Stones 地形一样，要求机器人以高精度放置落足点。
Gaps (间隙): 该地形由几个距离随机的间隙组成，如下图（原文 Figure 4(e)）所示。这种地形要求机器人迈大步跨越间隙。

训练流程：

阶段 1： 首先在 Stones Everywhere 地形上进行“软地形约束”训练，以开发通用策略。
阶段 2： 策略在 Stepping Stones 和 Balancing Beams 地形上进行“硬地形约束”微调。

命令设置： 两个阶段使用的命令在 Table I 中详细说明。

注意： 在阶段 2 中，只给出单一的 x 方向命令，没有提供偏航 (yaw) 命令。这意味着如果机器人偏离了前进方向，将不会应用校正命令。目标是让机器人通过感知观测学习始终向前，而不是依赖连续的偏航校正。

以下是原文 Table I 的内容：

Term	Value (stage 1)	Value (stage 2)
$v_x^c$	U(−1.0, 1.0) m/s	U(−1.0, 1.0) m/s
$v_y^c$	U(−1.0, 1.0) m/s	U(0.0, 0.0) m/s
$\omega_{\mathrm{yaw}}^c$	U(−1.0, 1.0) rad/s	U(0.0, 0.0) m/s

表 I: 两阶段 RL 训练中采样的命令。

评估： Stepping Stones、Balancing Beams、Stepping Beams 和 Gaps 地形用于评估。尽管机器人在后两种地形上未经过显式训练，但方法展现了强大的零样本迁移能力。

课程设计 (Curriculum Design)： 机器人通过当前地形级别连续三次成功穿越后，才能进入下一个地形级别。此外，在通过所有级别之前，机器人不会被送回更简单的地形级别，因为在最初阶段，在更高难度地形上训练具有挑战性。详细的地形课程设置在附录 VI-B 中。

4.4.3. 仿真到现实迁移 (Sim-to-Real Transfer)

为了增强鲁棒性并促进仿真到现实 (sim-to-real) 迁移，作者对关键动态参数采用了广泛的领域随机化 (domain randomization) [51, 54]。噪声被注入到观测、人形机器人物理特性和地形动态中。

此外，为了解决仿真中的地面真值高程图 (ground-truth elevation map) 与现实中 LiDAR 生成的高程图之间存在的巨大仿真到现实差距（由里程计不准确、噪声和抖动等因素引起），在模拟器中进行高度采样时引入了四种类型的高程图测量噪声：

垂直测量 (Vertical Measurement): 对某个回合的高度应用随机垂直偏移，同时在每个时间步对每个高度样本添加均匀采样的垂直噪声，模拟 LiDAR 的噪声垂直测量。
地图旋转 (Map Rotation): 为了模拟里程计不准确性，对地图进行滚转 (roll)、俯仰 (pitch) 和偏航 (yaw) 旋转。对于偏航旋转，首先采样一个随机偏航噪声。然后通过添加偏航噪声重新采样最初与机器人当前方向对齐的高程图，生成对应于更新方向的新高程图。对于滚转和俯仰旋转，随机采样偏差 $[h_x, h_y]$ ，并沿 x 方向从 $-h_x$ 到 $h_x$ ，沿 y 方向从 $-h_y$ 到 $h_y$ 进行线性插值。将由此产生的垂直高度图噪声添加到原始高程图中。
落足点扩展 (Foothold Extension): 随机扩展有效落足点附近的落足点，使其变为有效落足点。这模拟了 LiDAR 高程数据处理过程中发生的平滑效应。
地图重复 (Map Repeat): 为了模拟高程图更新延迟，随机重复上一个时间步的地图。

详细的领域随机化设置在附录 VI-C 中提供。

4.5. 真实世界部署 (Real-world Deployment)

4.5.1. 硬件设置 (Hardware Setup)

本文实验使用了宇树 G1 (Unitree G1) 人形机器人。该机器人重 35 公斤，高 1.32 米，具有 23 个驱动自由度：每条腿 6 个，每只手臂 5 个，腰部 1 个。它配备了用于板载计算的 Jetson Orin NX 和提供 IMU 数据及特征点的 Livox Mid-360 LiDAR。

4.5.2. 高程图和系统设计 (Elevation Map and System Design)

直接从 LiDAR 获得的原始点云数据存在显著的遮挡和噪声，难以直接使用。为了解决这个问题，本文遵循 [34] 的方法构建了一个机器人中心 (robot-centric)、完整且鲁棒的高程图。具体来说，作者采用了 Fast LiDAR-Inertial Odometry (FAST-LIO) [57, 58] 来融合 LiDAR 特征点与 LiDAR 提供的 IMU 数据。这种融合生成了精确的里程计输出，然后使用机器人中心高程图方法 [10, 11] 对其进行进一步处理，以生成基于网格的地面高度表示。

在部署期间，高程图以 10 Hz 的频率发布信息，而学习到的策略以 50 Hz 的频率运行。策略的动作输出随后被发送到 PD 控制器，该控制器以 500 Hz 的频率运行，确保平稳和精确的执行。

5. 实验设置

5.1. 数据集

实验主要在 IsaacGym [36] 仿真环境中进行，并在真实世界的 Unitree G1 人形机器人上进行验证。

仿真训练地形：
- 阶段 1 (软地形动态约束): Stones Everywhere。该地形用于发展通用策略。石块尺寸和稀疏度随着课程的进行而变化，难度逐渐增加。
- 阶段 2 (硬地形动态约束): Stepping Stones 和 Balancing Beams。策略在此阶段进行微调，以适应更严格的地形约束。
仿真评估地形：
- Stepping Stones (跳石)
- Balancing Beams (平衡木)
- Stepping Beams (跳跃木梁)
- Gaps (间隙)
- 特点： Stepping Beams 和 Gaps 地形并未用于训练，用于测试模型的零样本泛化能力。
- 难度： 评估在“中等难度” (terrain level 6) 和“高难度” (terrain level 8) 下进行。
真实世界实验地形： 真实世界的 Stepping Stones、Balancing Beams、Stepping Beams 和 Gaps 地形。还额外进行了非平坦地形（阶梯和坡道）的泛化测试。
- 例如： Stepping Stones 具有 $20 \mathrm{~cm}$ 的石头大小，石头之间最大距离为 $45 \mathrm{~cm}$ ，稀疏度为 $72.5\%$ 。Balancing Beams 具有 $20 \mathrm{~cm}$ 的宽度。Stepping Beams 具有 $20 \mathrm{~cm}$ 的尺寸，梁之间最大距离为 $45 \mathrm{~cm}$ ，稀疏度为 $66.6\%$ 。Gaps 具有最大距离为 $50 \mathrm{~cm}$ 的间隙。

5.2. 评估指标

本文使用以下三个指标来评估性能：

成功率 (Success Rate - $R_{\mathrm{succ}}$ ):
- 概念定义： 指机器人成功穿越整个地形的尝试百分比。它衡量了机器人在整个任务中保持稳定和完成目标的能力。
- 数学公式： $R_{\mathrm{succ}} = \frac{\text{成功穿越地形的回合数}}{\text{总回合数}} \times 100\%$
- 符号解释：
  - 成功穿越地形的回合数：机器人从起点走到终点，没有跌倒或提前终止的回合数。
  - 总回合数：进行的实验总次数。
穿越率 (Traverse Rate - $R_{\mathrm{trav}}$ ):
- 概念定义： 指机器人在跌倒前所行驶的距离与总地形长度（8米）的比率。它衡量了机器人在未能完全成功的情况下，仍能向前移动的程度。
- 数学公式： $R_{\mathrm{trav}} = \frac{\text{跌倒前行驶的距离}}{\text{总地形长度}} \times 100\%$
- 符号解释：
  - 跌倒前行驶的距离：机器人在某个回合中，从起点到跌倒（或终止）位置的直线距离。
  - 总地形长度：测试地形的固定总长度，在本研究中为 8 米。
落足点误差 (Foothold Error - $E_{\mathrm{foot}}$ ):
- 概念定义： 指足部采样点落在预期落足点区域之外的平均比例。它衡量了机器人足部放置的精确度，值越低表示落脚越准确。
- 数学公式： 尽管论文没有给出直接的公式，但根据 4.1 节的落足点奖励定义，可以推断其计算方式为： $E_{\mathrm{foot}} = \mathbb{E}\left[\frac{\sum_{i=1}^{2} \mathbb{C}_i \sum_{j=1}^{n} \mathbb{1}\{d_{ij} < \epsilon\}}{\sum_{i=1}^{2} \mathbb{C}_i \cdot n_{\text{total}}}\right] \times 100\%$ 其中 $n_{\text{total}}$ 是在接触地面时，每只脚的总采样点数。
- 符号解释：
  - $\mathbb{E}[\cdot]$ ：期望值，表示在多个时间步或回合中的平均。
  - $\mathbb{C}_i$ : 指示函数，表示第 $i$ 只脚是否与地形表面接触。
  - $\mathbb{1}\{d_{ij} < \epsilon\}$ : 指示函数，当第 $i$ 只脚的第 $j$ 个采样点的地形高度 $d_{ij}$ 低于深度容差阈值 $\epsilon$ 时为 1，表示该点落在安全区域外。
  - $n_{\text{total}}$ : 每只脚底采样的总点数。

5.3. 对比基线

实验将 BeamDojo 框架（集成两阶段 RL 训练和双评论家）与以下基线进行了比较：

BL 1) PIM [34]: 这是一个为人形机器人运动任务（如爬楼梯和穿越不平坦地形）设计的一阶段方法。为了公平比较，额外添加了 BeamDojo 的落足点奖励 ( $r_{\mathrm{foothold}}$ )，以鼓励人形机器人精确地踩在落足点区域。
BL 2) Naive (朴素实现): 这个方法既不包含两阶段 RL，也不包含双评论家。它只添加了落足点奖励。这是解决此任务的朴素实现。
BL 3) Ours w/o Soft Dyn (无软地形动态): 这是一个消融实验 (ablation study)，移除了训练的第一阶段（即软地形动态约束）。这意味着训练直接在“硬地形动态约束”下进行，失误会导致立即终止。
BL 4) Ours w/o Double Critic (无双评论家): 这是一个消融实验，使用单个评论家来处理所有运动奖励和落足点奖励，而不是使用双评论家。这遵循了大多数运动任务中的传统设计。

训练设置：

所有方法都调整为两阶段。
阶段 1： 在 Stones Everywhere 地形上进行课程学习 (curriculum learning)。BeamDojo 和 BL 4 使用软地形动态约束，而其他基线使用硬地形动态约束。
阶段 2： 在 Stepping Stones 和 Balancing Beams 地形上进行课程学习的微调。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 仿真实验 (Simulation Experiments)

6.1.1.1. 定量结果 (Quantitative results)

以下是原文 Table II 的结果：

	Rsucc (%, ↑)	Rtrav (%, ↑)	Rsucc (%, ↑)	Rtrav (%, ↑)	Rsucc (%, ↑)	Rtrav (%, ↑)	Rsucc (%, ↑)	Rtrav (%, ↑)
	Stepping Stones		Balancing Beams		Stepping Beams		Gaps
Medium Terrain Difficulty (中等地形难度)
PIM	71.00 (±1.53)	78.29(±2.49)	74.67(±2.08)	82.19(±4.96)	88.33(±3.61)	93.16(±4.78)	98.00(±0.57)	99.16 (±0.75)
Naive	48.33(±6.11)	47.79(±5.76)	57.00(±7.81)	71.59(±8.14)	92.00(±2.52)	92.67(±3.62)	95.33 (±1.53)	98.41(±0.67)
Ours w/o Soft Dyn	65.33(±2.08)	74.62(±1.37)	79.00(±2.64)	82.67(±2.92)	98.67(±2.31)	99.64(±0.62)	96.33(±1.53)	98.60(±1.15)
Ours w/o Double Critic	83.00(±2.00)	86.64(±1.96)	88.67(±2.65)	90.21(±1.95)	96.33(±1.15)	98.88(±1.21)	98.00(±1.00)	99.33(±0.38)
BeaMDOJo	95.67(±1.53)	96.11(±1.22)	98.00(±2.00)	99.91(±0.07)	98.33(±1.15)	99.28(±0.65)	98.00(±2.65)	99.21(±1.24)
Hard Terrain Difficulty (高难度地形)
PIM	46.67(±2.31)	52.88(±2.86)	33.00(±2.31)	45.28(±3.64)	82.67(±2.31)	90.68(±1.79)	96.00(±1.00)	98.27(±3.96)
Naive	00.33(±0.57)	21.17(±1.71)	00.67(±1.15)	36.25(±7.85)	82.00(±3.61)	88.91(±3.75)	31.00(±3.61)	62.70 (±4.08)
Ours w/o Soft Dyn	42.00(±6.56)	47.09 (±6.97)	51.00(±4.58)	72.93 (±4.38)	87.33(±2.08)	89.41(±1.75)	93.00(±1.00)	95.62(±2.50)
Ours w/o Double Critic	55.67(±3.61)	60.95(±2.67)	70.33(±3.06)	85.64(±3.24)	94.67(±1.53)	96.57(±1.42)	94.33(±3.06)	95.62(±2.50)
BeaMDOJo	91.67(±1.33)	94.26(±2.08)	94.33(±1.53)	95.15(±1.82)	97.67(±2.08)	98.54(±1.43)	94.33(±1.15)	97.00(±1.30)

表 II: 仿真中的基准比较。

主要观察结果：

BeamDojo 的卓越性能： 借助高效的两阶段强化学习框架和双评论家，BeamDojo 在所有挑战性地形上始终优于单阶段方法和消融设计，实现了高成功率和低落足点误差。尤其是在高难度地形下，BeamDojo 表现出显著优势。
朴素实现的挑战： 朴素实现 (Naive) 方法表现非常挣扎，在高难度地形下几乎无法穿越 Stepping Stones 和 Balancing Beams。这突出了 BeamDojo 提出机制的必要性。
现有控制器的局限： 现有的人形机器人控制器 (如 PIM) 在适应稀疏落足点的危险地形时面临困难，主要是由于稀疏的落足点奖励和较低的学习效率。
零样本泛化能力： 尽管 BeamDojo 未在 Stepping Beams 和 Gaps 地形上进行显式训练，但它在这两种地形上展现出令人印象深刻的零样本泛化能力，成功率和穿越率均保持较高水平。

6.1.1.2. 详细消融分析 (Detailed Ablation Analysis)

作者通过将 BeamDojo 与 BL 2) Naive、BL 3) Ours w/o Soft Dyn 和 BL 4) Ours w/o Double Critic 进行比较，进行了额外的消融研究。

足部放置精度 (Foot Placement Accuracy): 下图（原文 Figure 5）展示了中等地形难度下，所有方法在 Stepping Stones 和 Balancing Beams 上的落足点误差基准。

Fig. 5: Foothold Error Comparison. The foothold error benchmarks of all methods are evaluated in (a) stepping stones and (b) balancing beams, both tested under medium terrain difficulty.
该图像是图表，展示了不同方法在两种中等难度地形下的足垫误差比较，分别为(a) 踏石和(b) 平衡梁。结果显示，我方方法在各测试中均表现优于其他方法，尤其是在平衡梁的测试中，实现了更低的足垫误差。

图 5: 落足点误差比较。(a) Stepping Stones 和 (b) Balancing Beams，均在中等地形难度下测试，展示了所有方法的落足点误差基准。

分析： BeamDojo 实现了高度准确的足部放置，落足点误差值较低，这主要归功于双评论家的贡献。相比之下，朴素实现显示出更高的误差率，大部分足部放置落在安全落足点区域之外。这表明了 BeamDojo 在挑战性地形中的精度和有效性。

学习效率 (Learning Efficiency): 下图（原文 Figure 6）展示了所有方法在两个训练阶段中达到的最高地形等级的学习曲线。

Fig. 6: Learning Efficiency. The learning curves show the maximum terrain levels achieved in two training stages of all methods. Faster attainment of terrain level 8 indicates more efficient learning.
该图像是图表，展示了两阶段训练中不同方法的学习效率。横轴为训练步骤（k），纵轴为地形等级。图中显示，采用我们的方法在第一阶段和第二阶段更快达到地形等级8，显示出更高的学习效率。

图 6: 学习效率。学习曲线展示了所有方法在两个训练阶段中达到的最大地形等级。更快达到地形等级 8 表示学习效率更高。

分析： 尽管所有设计都训练了 10,000 次迭代以确保收敛，但 BeamDojo 收敛速度显著更快。两阶段训练设置和双评论家都提高了学习效率，其中两阶段设置贡献最大。相比之下，朴素实现在这两个阶段都难以达到更高的地形等级。 优势解释： 两阶段学习的优势在于允许智能体即使在失误的情况下也能持续尝试足部放置，从而更容易积累大量的成功足部放置样本。同时，双评论家设置将落足点奖励与运动奖励分离，确保其更新不受不稳定运动信号的噪声影响，尤其是在早期训练阶段。这两种策略都在提高学习效率方面发挥了关键作用。

步态规范化 (Gait Regularization): 以下是原文 Table III 的结果：

Designs	Smoothness (↓)	Feet Air Time (↑)
Naive	1.7591 (±0.1316)	-0.0319 (±0.0028)
Ours w/o Soft Dyn	0.9633 (±0.0526)	-0.0169 (±0.0014)
Ours w/o Double Critic	1.2705 (±0.1168)	−0.0229( (±0.0033)
BeAMDOJo	0.7603 (±0.0315)	−0.0182(±0.0027)

表 III: 步态规范化。实验在 Stepping Stones 上进行，评估了三个代表性的步态规范化奖励指标：平滑度、足部空中时间。详细的奖励函数定义可在 Table VII 中找到。

分析： 如 Table III 所示，小规模步态规范化奖励与稀疏落足点奖励的结合可能会妨碍步态性能，朴素设计和没有双评论家的消融实验在平滑度和足部空中时间方面表现不佳。相比之下，BeamDojo 和带有双评论家的消融实验表现出卓越的运动平滑度和改进的足部离地间隙。这种改进的发生是因为在双评论家框架中，密集和稀疏奖励组的优势估计是独立归一化的，防止了稀疏奖励引入可能扰乱规范化奖励学习的噪声。

足部放置规划 (Foot Placement Planning): 下图（原文 Figure 7）展示了足部放置过程的两个轨迹：黄色线代表 BeamDojo，红色线对应于没有双评论家的消融实验。

该图像是示意图，展示了足部安置规划的可视化。图中黄线代表BeamDojo方法，红线则对应于没有双重评论的方法。A到C的过程中，缺乏双重评论的方法在接近目标石头时（B点）仅表现出显著的调整。

图 7: 足部放置规划可视化。我们展示了足部放置过程的两个轨迹：黄线代表 BeamDojo，红线对应于 Ours w/o Double Critic。轨迹上的点以相等的时间间隔标记。从 A 到 C，没有双评论家的方法仅在接近目标石块时（B 点）才表现出显著的调整。

分析： 观察到双评论家也受益于足部抬起和落地整个子过程的足部放置规划。BeamDojo 实现了更平滑的规划，使足部能够精确到达下一个落足点。相比之下，排除双评论家的基线表现出反应式踏步 (reactive stepping)，即在足部接近目标石块时才进行大幅调整。这种行为表明双评论家通过分别学习稀疏落足点奖励，有助于策略在更长的时间范围内调整其运动。

6.1.2. 真实世界实验 (Real-world Experiments)

6.1.2.1. 结果 (Result)

下图（原文 Figure 8）展示了 BeamDojo 在真实世界中部署的性能，包括成功率和穿越率的对比。

$该图像是插图，展示了在不同地形上应用BeamDojo进行人形机器人行走的实验结果。图中包含四个不同的行走场景，以及对应的成功率（$R_{succ}$）和旅行率（$R_{trav}$）数据。每个场景均展示了机器人在不同宽度脚踏板上行走的表现，特别是在“Stepping Stones”、“Balancing Beams”、“Stepping Beams”和“Gaps”四种地形上的成功率与训练方法的对比。数据表格清楚地列出了不同情境下的实验结果。$
该图像是插图，展示了在不同地形上应用BeamDojo进行人形机器人行走的实验结果。图中包含四个不同的行走场景，以及对应的成功率（ $R_{succ}$ ）和旅行率（ $R_{trav}$ ）数据。每个场景均展示了机器人在不同宽度脚踏板上行走的表现，特别是在“Stepping Stones”、“Balancing Beams”、“Stepping Beams”和“Gaps”四种地形上的成功率与训练方法的对比。数据表格清楚地列出了不同情境下的实验结果。

图 8: BeamDojo 在不同地形下的实时部署结果。我们对 Stepping Stones、Balancing Beams、Stepping Beams 和 Gaps 进行评估，并对平均成功率 (Rsucc) 和穿越率 (Rtrav) 进行基准测试。Stepping Stones (a) 具有 $20 \mathrm{~cm}$ 的石头大小，石头之间最大距离为 $45 \mathrm{~cm}$ ，稀疏度为 $72.5\%$ 。(b) Balancing Beams: 宽度为 $20 \mathrm{~cm}$ 的木梁。(c) Stepping Beams: 尺寸为 $20 \mathrm{~cm}$ 的木梁，梁之间最大距离为 $45 \mathrm{~cm}$ ，稀疏度为 $66.6\%$ 。(d) Gaps: 最大距离为 $50 \mathrm{~cm}$ 的间隙。

分析：

零样本迁移和精准足部放置： 如图 8 所示，BeamDojo 实现了零样本迁移，成功泛化到真实世界动态。在真实世界部署中达到了高成功率，展现出卓越的精准足部放置能力。与仿真结果类似，它在 Stepping Beams 和 Gaps 上也表现出令人印象深刻的泛化性能，即使这些地形不是训练集的一部分。
高程图领域随机化的重要性： 缺乏高程图领域随机化 (ours w/o HR) 的消融实验导致成功率显著降低，凸显了这一设计的关键重要性。
向后运动能力： 值得一提的是，BeamDojo 实现了在危险地形中的向后运动，如下图（原文 Figure 1(b)）所示。这一优势是通过充分利用 LiDAR 实现的，而单个深度相机无法处理此类场景。

6.1.2.2. 敏捷性测试 (Agility Test)

以下是原文 Table IV 的结果：

vx (m/s)	Time Cost (s)	Average Speed (m/s)	Error Rate (%, ↓)
0.5	6.33(±0.15)	0.45(±0.05)	10.67(±4.54)
0.75	4.33(±0.29)	0.65(±0.05)	13.53(±6.52)
1.0	3.17(±0.58)	0.88(±0.04)	11.83(±8.08)
1.25	2.91(±0.63)	0.96(±0.03)	22.74(±5.32)
1.5	2.69(±0.42)	1.04(±0.05)	30.68(±6.17)

表 IV: 敏捷性测试。在总长 $2.8 \mathrm{m}$ 的 Stepping Stones 上评估了人形机器人的敏捷性。

分析： 为评估方法的敏捷性，作者向人形机器人提供了五种命令纵向速度 $v_x^c$ ：0.5, 0.75, 1.0, 1.25 和 $1.5 \mathrm{~m/s}$ ，并检查跟踪能力。结果显示，在最高训练命令速度 $1.0 \mathrm{~m/s}$ 之前，跟踪误差很小，机器人达到了 $0.88 \mathrm{~m/s}$ 的平均速度，这表明策略具有敏捷性。然而，当速度超过 $1.25 \mathrm{~m/s}$ 时，性能显著下降，因为在这些极具挑战性的地形上保持如此高的速度变得越来越困难。

6.1.2.3. 鲁棒性测试 (Robustness Test)

下图（原文 Figure 9）展示了在真实世界实验地形上进行的鲁棒性测试。

该图像是一个示意图，展示了机器人在稀疏支撑点上的各个动作，包括推、单腿支撑、静止、迈步、失误和恢复，体现了BeamDojo框架的灵活步态学习能力。

图 9: 鲁棒性测试。BeamDojo 在真实世界部署中展示了卓越的鲁棒性：(a) 负重 $10 \mathrm{~kg}$ (大约是机器人躯干重量的 1.5 倍) 时的敏捷运动，(b) 抵抗外部推力，以及 (c) 从失误中恢复。

分析：

重载荷 (Heavy Payload): 如图 9(a) 所示，机器人携带了 $10 \mathrm{~kg}$ 的有效载荷（大约是其躯干重量的 1.5 倍），导致重心发生显著偏移。尽管面临这一挑战，机器人仍能有效地保持敏捷运动和精确的足部放置，展示了其在增加载荷条件下的鲁棒性。
外部力 (External Force): 如图 9(b) 所示，机器人受到来自不同方向的外部力。从静止姿态开始，机器人经历外部推力，过渡到单腿支撑，最后恢复到双腿支撑的稳定站立姿态。
失误恢复 (Misstep Recovery): 如图 9(c) 所示，机器人穿越地形时未进行预先扫描地形动态。由于遮挡，机器人缺乏关于脚下地形的信息，导致初始失误。尽管如此，它仍展示出强大的恢复能力。

6.1.3. 广泛研究与分析 (Extensive Studies and Analysis)

6.1.3.1. 落足点奖励设计 (Design of Foothold Reward)

以下是原文 Table V 的结果：

Designs	Rsucc (%, ↑)	Efoot (%, ↓)
foothold-30%	93.67(±1.96)	11.43(±0.81)
foothold-50%	92.71(±1.06)	10.78(±1.94)
foothold-70%	91.94(±2.08)	14.35(±2.61)
BeaMDOJo	95.67(±1.53)	7.79(±1.33)

表 V: 不同落足点奖励设计的比较。每种落足点奖励设计的成功率和落足点误差在中等地形难度的 Stepping Stones 上进行评估。

分析： 正如 4.1 节讨论的，BeamDojo 的采样式落足点奖励与安全点的数量成比例，使其成为一个相对连续的奖励：足部放置与安全落足点重叠越大，智能体获得的奖励越高。作者将这种方法与其他二元 (binary) 和粗糙 (coarse) 奖励设计进行比较：当 $p\%$ 的采样点落在安全区域之外时，施加全部惩罚；否则不施加惩罚。其定义为：

$r_{\mathrm{foothold-}p\%} = - \sum_{i=1}^{2} \mathbb{C}_i \cdot \mathbb{1} \left\{ \left( \sum_{j=1}^{n} \mathbb{1}\{d_{ij} < \epsilon\} \right) \geq p\% \cdot n \right\}$

与 $p=30, 50, 70$ 的三种粗粒度变体（foothold-30%, foothold-50%, foothold-70%）进行比较。 结论： BeamDojo 的细粒度设计使机器人能够进行更准确的足部放置，因为它这种连续的方法逐步鼓励最大化重叠。在粗粒度方法中，foothold-50% 表现优于 foothold-30% 和 foothold-70%，因为 $30\%$ 的阈值过于严格难以有效学习，而 $70\%$ 则过于宽松。

6.1.3.2. 课程设计 (Design of Curriculum)

以下是原文 Table VI 的结果：

Designs	Rsucc	Rtrav	Rsucc	Rtrav
Designs	Medium Difficulty		Hard Difficulty
w/o curriculum-medium	88.33	90.76	2.00	18.36
w/o curriculum-hard	40.00	52.49	23.67	39.94
BEaMDOJo	95.67	96.11	82.33	86.87

表 VI: 不同课程设计的比较。每种课程设计的成功率和穿越率分别在中等和高难度 Stepping Stones 地形上进行评估。

分析： 为了验证 4.4.2 节介绍的地形课程的有效性，作者引入了没有课程学习的消融研究。在这种设计中，仅在中等和高地形难度下进行训练（分别表示为 w/o curriculum-medium 和 w/o curriculum-hard）。 结论： 结果表明，引入课程学习显著提高了不同难度地形上的性能和泛化能力。相反，如果没有课程学习，模型在从头开始学习时，对于挑战性地形（ours w/o curriculum-hard）会非常挣扎，并且在其他地形类型上也面临困难，严重限制了其泛化能力（ours w/o curriculum-medium）。

6.1.3.3. 命令设计 (Design of Commands)

如 4.4.2 节所述，在第二阶段，没有应用航向 (heading) 命令，机器人需要通过地形动态学习始终向前。作者将这种方法与包含航向命令的方法（表示为 ours w/ heading command）进行比较，其中偏离前进方向会导致基于当前方向误差的校正偏航命令。在部署中，使用 LiDAR 里程计模块根据当前方向与初始前进方向之间的差异实时更新航向命令。

在真实世界的 Stepping Stones 地形上进行了五次试验。BeamDojo 和 ours w/ heading command 设计的成功率分别为 4/5 和 1/5。 结论： 航向命令设计表现不佳，主要由于两个因素：

在仿真中，模型过度拟合了航向命令的角速度，导致难以处理真实的噪声里程计数据。
在真实世界中，需要精确手动校准初始位置来确定正确的向前方向，这使得航向命令方法不够鲁棒。相比之下，BeamDojo 在没有航向校正的情况下，被证明更有效。

6.1.3.4. 泛化到非平坦地形 (Generalization to Non-Flat Terrains)

下图（原文 Figure 10）展示了在阶梯和坡道上的泛化测试。

$Fig. 10: Generalization Test on Non-Flat Terrains. We conduct real-world experiments on (a) stairs with a width of $2 5 \\mathrm { c m }$ and a height of $1 5 \\mathrm { { c m } }$ , and (b) slopes with a 15-degree incline.$
该图像是图表，展示了在非平坦地形上进行的一般化测试。左侧为高度15cm、宽度25cm的阶梯，右侧为15度倾斜的坡。

图 10: 非平坦地形上的泛化测试。我们在真实世界实验中测试了 (a) 宽度为 $25 \mathrm{~cm}$ 、高度为 $15 \mathrm{~cm}$ 的阶梯，以及 (b) 坡度为 15 度的坡道。

分析： 观察到 BeamDojo 也很好地泛化到非平坦地形，如阶梯和坡道。主要适应性在于计算基座高度奖励 (base height reward) 时相对于足部高度而不是地面高度（在这些不平坦表面上）。此外，对于阶梯和坡道，阶段 1 的预训练变得不必要，因为落足点不再稀疏。 结论： 在阶梯和坡道上的硬件实验验证了方法，成功率分别为 8/10 和 10/10。

6.1.3.5. 失败案例 (Failure Cases)

下图（原文 Figure 11）展示了在不同石头大小和步距下的成功率分析。

Fig. 11: Failure Case Analysis. We evaluate the success rate on varying (a) stone sizes, and (b) step distances.
该图像是一个图表，展示了在不同石头大小和步距下的成功率分析。左侧图表显示了最小石头大小（从10cm到20cm）对成功率的影响，右侧图表显示了最大步距（从45cm到55cm）的影响。整体趋势显示，随着石头大小和步距的增加，成功率有所下降。

图 11: 失败案例分析。我们在不同 (a) 石头大小和 (b) 步距下评估成功率。

分析： 为了探究框架的性能限制，作者评估了其在不同石头大小和步距下的性能。比较了在不同地形参数下训练的策略，包括最小石头大小（ $20 \mathrm{~cm}, 15 \mathrm{~cm}, 10 \mathrm{~cm}$ ）或最大步距（ $45 \mathrm{~cm}, 50 \mathrm{~cm}, 55 \mathrm{~cm}$ ）。 结论： 结果表明，虽然更严格的训练增强了适应性，但在 $10 \mathrm{~cm}$ 的石头（大约是脚长的一半）和 $55 \mathrm{~cm}$ 的步距（大约等于腿长）上，性能仍然急剧下降，即使在最具挑战性的训练设置下也是如此。在这些情况下，难度转向了在非常小的落足点上保持平衡和执行更大的步幅——这些挑战是当前奖励函数未能充分解决的。

6.1.3.6. 局限性 (Limitations)

感知模块的限制： 方法的性能受到感知模块的显著限制。LiDAR 里程计的不准确性，以及抖动和地图漂移等问题，对真实世界部署带来了相当大的挑战。此外，在处理 LiDAR 数据时，噪声测量置信度与地形动态变化（如石块的抖动，这在仿真中难以模拟）之间的权衡，使得有效处理突发干扰或变化变得困难。因此，系统难以快速灵活地适应环境中意想不到的变化。
未充分利用高程图信息： 方法尚未充分利用高程图提供的信息，也未充分解决落足点高度显著变化的地形挑战。
未来工作： 旨在开发一个更通用的控制器，实现敏捷运动，并扩展到更广泛的地形，包括需要足部规划的阶梯和其他复杂表面，以及具有显著高程变化的地形。

7. 总结与思考

7.1. 结论总结

本文提出了一个新颖的框架 BeamDojo，使人形机器人能够在稀疏落足点地形（如垫脚石和平衡木）上敏捷且鲁棒地穿越，并泛化到更广泛的挑战性地形（如间隙、跳跃木梁）。关键结论总结如下：

足部放置精度： 引入了针对多边形足部的落足点奖励，该奖励与足部放置和安全落足点区域之间的接触面积成比例。这种连续的奖励有效地鼓励了精确的足部放置。
训练效率和有效性： 通过整合两阶段强化学习训练过程，BeamDojo 实现了充分的试错探索。此外，双评论家显著增强了稀疏落足点奖励的学习，规范了步态模式，并促进了远距离足部放置规划。
真实世界的敏捷性和鲁棒性： 实验表明，BeamDojo 使人形机器人在真实世界场景中展现出敏捷性并达到高成功率。机器人即使在显著的外部干扰和真实世界中不可避免的平衡木晃动下，也能保持稳定的行走。值得注意的是，通过利用基于 LiDAR 的地图，实现了稳定的向后行走，这是深度相机通常难以应对的挑战。

7.2. 局限性与未来工作

论文作者指出了 BeamDojo 的以下局限性：

感知模块的制约： LiDAR 里程计的不准确性、抖动、地图漂移以及噪声测量与地形动态变化（如石块抖动）之间的权衡，都对真实世界部署构成了挑战，使得系统难以快速适应意外变化。
高程图信息未充分利用： 当前方法尚未完全利用高程图提供的所有信息，也未能充分解决落足点高度显著变化的地形。
未来工作方向： 旨在开发一个更通用的控制器，实现敏捷运动，并扩展到更广泛的地形，包括需要足部规划的阶梯和其他复杂表面，以及具有显著高程变化的地形。

7.3. 个人启发与批判

7.3.1. 个人启发

多边形足部处理的精妙： BeamDojo 针对人形机器人多边形足部设计采样式落足点奖励，这是一个非常实用且创新的细节。它提供了一种比简单二元奖励更精细、更连续的反馈，对于需要精准落脚的任务至关重要。这启发我们，在设计强化学习奖励时，应尽可能地细化奖励信号，使其与任务目标更紧密地对齐。
双评论家在混合奖励中的优势： 双评论家架构解耦了密集运动奖励和稀疏任务奖励的学习，有效解决了两者之间数值尺度和反馈频率不匹配的问题。这种模块化设计在处理多目标、多尺度奖励的复杂 RL 任务中具有通用性，可以借鉴到其他需要平衡不同奖励信号的领域。例如，在机器人操作任务中，可能需要平衡抓取成功率（稀疏奖励）和轨迹平滑度（密集奖励）。
两阶段训练策略的样本效率提升： “软地形动态约束”的第一阶段设计，通过在平坦地形上进行“想象式”训练，显著提高了样本效率和探索能力，避免了传统训练中因频繁早期终止导致的学习瓶颈。这种“先易后难”的课程学习思想，特别是对容错性的早期训练，对于任何需要复杂物理交互且试错成本高的 RL 任务都非常有价值。
领域随机化的重要性： 特别是高程图的领域随机化，对于弥合仿真到现实的感知差距至关重要。这再次强调了在仿真训练中模拟真实世界传感器噪声和不确定性的必要性，以提高策略的鲁棒性。
LiDAR 的潜力： LiDAR 在感知复杂地形方面的优势（如更宽广的视野、更鲁棒的高度图生成、支持向后移动）得到了充分展示。这提醒我们，在设计机器人感知系统时，需要根据任务需求选择最合适的传感器模态，并充分挖掘其潜力。

7.3.2. 批判与潜在改进

奖励函数的通用性： 尽管采样式落足点奖励对当前任务有效，但其参数（如 $n$ 和 $\epsilon$ ）可能需要针对不同足部几何形状或地形类型进行调整。未来可以探索自适应或更通用的奖励函数，例如结合深度学习来预测足部接触区域的匹配度。
感知模块的鲁棒性限制： 论文提到了感知模块（LiDAR 里程计、地图抖动和漂移）是性能瓶颈。虽然进行了领域随机化，但真实世界中的动态地形变化（如浮动的石块）仍然难以完全模拟。未来的工作可以探索：
- 基于学习的感知： 将感知模块本身也纳入到端到端学习框架中，或使用基于学习的方法对 LiDAR 数据进行更鲁棒的去噪和三维重建。
- 不确定性感知： 显式地建模感知输入中的不确定性，并让策略学习如何在其影响下做出决策。
- 多模态感知融合： 结合视觉、触觉等多种传感器信息，以增强对地形和环境的理解，提高鲁棒性。
策略对高程图信息利用不足： 论文指出当前方法未充分利用高程图信息，且未能有效处理落足点高度显著变化的地形。
- 三维足部规划： 策略可能需要更深入地理解三维地形信息，而不仅仅是二维高程图。引入更复杂的足部规划模块，能够考虑足部与地形的完整三维接触，并规划出更复杂的落脚动作（如侧身、调整身体姿态以适应高低差）。
- 地形特征提取： 探索更高级的地形特征提取方法，例如基于图神经网络 (Graph Neural Networks - GNN) 或卷积神经网络 (Convolutional Neural Networks - CNN) 的特征，以从高程图中捕捉更丰富的结构信息。
步态适应性： 尽管在敏捷性测试中表现良好，但在极限速度和极端地形（如 $10 \mathrm{~cm}$ $10 cm$ 小石块、 $55 \mathrm{~cm}$ $55 cm$ 大步距）下性能急剧下降。这表明当前策略在动态平衡和步态规划的极限适应性方面仍有提升空间。可以考虑引入：
- 模型预测控制 (Model Predictive Control - MPC) 的结合： 在 RL 策略的输出之上叠加一个短时间窗口的 MPC，利用机器人动力学模型进行局部优化，以提高对快速动态变化的响应能力。
- 基于优化的步态生成： 结合基于优化的方法来生成更具动态性和适应性的步态，然后用 RL 学习如何选择和调整这些步态。
泛化能力与新颖地形： 尽管对 Stepping Beams 和 Gaps 表现出零样本迁移，但未来仍需验证在完全新颖、未曾见过（甚至在领域随机化中也未涵盖）的地形类型上的泛化能力。可以探索元学习 (meta-learning) 或终身学习 (lifelong learning) 方法，使机器人能够更快地适应新环境。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。