论文状态：已完成

Gallant: Voxel Grid-based Humanoid Locomotion and Local-navigation across 3D Constrained Terrains

发表：2025/11/19

基于体素的类人动作规划 (1)三维约束环境导航 (1)LiDAR数据结构化感知 (1)高保真LiDAR仿真 (1)端到端优化控制策略 (1)

价格：0.100000

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了Gallant，一个基于体素网格的人形机器人运动与局部导航框架，通过使用体素化LiDAR数据实现精确的环境感知。该系统采用z分组2D CNN映射到控制策略，支持端到端的优化，并在复杂地形中取得近100%的成功率，展示了其在三维受限环境中的广泛适用性。

摘要

Robust humanoid locomotion requires accurate and globally consistent perception of the surrounding 3D environment. However, existing perception modules, mainly based on depth images or elevation maps, offer only partial and locally flattened views of the environment, failing to capture the full 3D structure. This paper presents Gallant, a voxel-grid-based framework for humanoid locomotion and local navigation in 3D constrained terrains. It leverages voxelized LiDAR data as a lightweight and structured perceptual representation, and employs a z-grouped 2D CNN to map this representation to the control policy, enabling fully end-to-end optimization. A high-fidelity LiDAR simulation that dynamically generates realistic observations is developed to support scalable, LiDAR-based training and ensure sim-to-real consistency. Experimental results show that Gallant's broader perceptual coverage facilitates the use of a single policy that goes beyond the limitations of previous methods confined to ground-level obstacles, extending to lateral clutter, overhead constraints, multi-level structures, and narrow passages. Gallant also firstly achieves near 100% success rates in challenging scenarios such as stair climbing and stepping onto elevated platforms through improved end-to-end optimization.

思维导图

论文精读

中文精读约 36 分钟读完 · 23,375 字

1. 论文基本信息

1.1. 标题

Gallant: 基于体素网格的人形机器人三维受限地形运动与局部导航 (Gallant: Voxel Grid-based Humanoid Locomotion and Local-navigation across 3D Constrained Terrains)

1.2. 作者

Qingwei Ben*, Botian Xu*, Kailin Li*, Feiyu Jia, Wentao Zhang, Jingping Wang, Jingbo Wang, Dahua Lin, Jiangmiao Pang。 *表示共同第一作者。

1.3. 隶属机构

主要隶属于上海人工智能实验室 (Shanghai Artificial Intelligence Laboratory)、香港中文大学 (The Chinese University of Hong Kong) 等机构。

1.4. 发表期刊/会议

预印本 (arXiv preprint)，尚未正式发表，但已提交，具体发表会议或期刊未知。

1.5. 发表年份

2025年。预印本发布时间 (UTC): 2025-11-18T16:16:31.000Z。

1.6. 摘要

人形机器人 (humanoid) 在复杂三维环境中的鲁棒运动 (locomotion) 需要对其周围环境进行精确且全局一致的感知。然而，现有主要基于深度图像 (depth images) 或高程图 (elevation maps) 的感知模块仅提供部分和局部平坦的环境视图，无法捕捉完整的三维结构。本文提出了 Gallant，一个基于体素网格 (voxel-grid-based) 的框架，用于人形机器人在三维受限地形中的运动与局部导航 (local navigation)。它利用体素化 LiDAR 数据作为轻量级且结构化的感知表示 (perceptual representation)，并采用 $z$ -分组 2D CNN 将此表示映射到控制策略 (control policy)，从而实现完全端到端的优化。为了支持可扩展的、基于 LiDAR 的训练并确保 模拟到现实迁移 (sim-to-real) 的一致性，开发了一个高保真 LiDAR 仿真器，可动态生成逼真的观测。实验结果表明，Gallant 更广阔的感知覆盖范围使得单一策略能够超越以往方法仅限于地面障碍的限制，扩展到侧向杂物 (lateral clutter)、头顶约束 (overhead constraints)、多层结构 (multi-level structures) 和狭窄通道 (narrow passages)。Gallant 还通过改进的端到端优化，首次在爬楼梯 (stair climbing) 和踏上高架平台 (stepping onto elevated platforms) 等挑战性场景中实现了接近 100% 的成功率。

1.7. 原文链接

https://arxiv.org/abs/2511.14625 PDF 链接: https://arxiv.org/pdf/2511.14625v1.pdf

2. 整体概括

2.1. 研究背景与动机

人形机器人在非结构化三维环境中实现鲁棒运动是一个核心挑战。随着机器人技术从实验室原型走向实际部署，确保操作安全变得至关重要。这不仅要求机器人能够在平坦地面上行走，还需要其能够应对地形不规则、地面障碍、侧向杂物和头顶障碍等复杂环境。为了实现这一点，机器人需要一个能够进行前瞻性碰撞检测、实现清空感知 (clearance-aware) 的运动生成以及规划接触丰富 (contact-rich) 机动的感知架构。

现有的感知模块，如基于深度图像或高程图的方案，存在以下具体挑战或空白：

部分和局部视图 (Partial and Locally Flattened Views)：深度相机 (depth cameras) 虽然延迟较低，但其视野 (field of view, FoV) 狭窄且范围有限，阻碍了对复杂、空间扩展环境的理解。高程图将完整的三维 LiDAR 点云 (point clouds) 压缩成 2.5D 高度场 (height fields)，这会丢失垂直和多层结构信息（例如悬挑、低矮天花板、夹层、楼梯底部），并且重建过程可能引入特定算法的失真和延迟，进一步将感知与控制分离。
无法捕捉完整三维结构 (Failure to Capture Full 3D Structure)：由于上述局限性，现有方法难以提供对环境的全局一致且完整的三维理解，导致在处理复杂三维约束（如头顶或侧向障碍）时性能受限。
稀疏和噪声 (Sparse and Noisy)：虽然 3D LiDAR 提供了宽 FoV 的详细场景几何信息，但其原始点云通常稀疏且嘈杂，这成为样本高效的策略学习和实时推理的瓶颈。

本论文的切入点或创新思路在于：通过引入 体素网格 (voxel grid) 作为核心感知表示，它能够保留多层场景结构，聚合原始点以减少维度和平滑噪声，从而提供一个轻量级且结构化的张量，便于高效学习。同时，结合 $z$ -分组 2D CNN 和高保真 LiDAR 仿真，实现端到端的策略优化，克服现有感知方法的局限性。

2.2. 核心贡献/主要发现

本文的主要贡献体现在以下几个方面：

提出体素网格作为轻量级且几何结构保持的感知表示 (Voxel Grid as Lightweight and Geometry-Preserving Representation)：Gallant 首次在人形机器人运动和局部导航中引入体素网格，用于处理三维受限环境。它在保持多层场景结构的同时，通过聚合原始点来降低维度和平滑噪声，为策略学习提供高效且鲁棒的输入。
验证 $z$ -分组 2D CNN 的有效性 (Effectiveness of z-grouped 2D CNN)：证明了 $z$ -分组 2D CNN 能够有效处理体素网格，将高度切片 (height slices) 视为通道 (channels)，从而在表示能力和计算效率之间取得良好平衡，特别适用于稀疏的、局部集中的体素数据。
开发完整的从传感器仿真到策略训练的流程 (Full-stack Pipeline from Sensor Simulation to Policy Training)：Gallant 提出了一个完整的解决方案，包括高保真 LiDAR 仿真，能够动态生成逼真观测（包括机器人自身运动部件），以及课程训练 (curriculum training) 框架，从而训练出一个单一策略，能够零样本 (zero-shot) 泛化到各种真实世界的三维受限地形。
实现单一策略对多样化三维约束地形的泛化 (Generalization of a Single Policy across Diverse 3D Constrained Terrains)：实验结果表明，Gallant 的单一策略不仅能处理地面障碍，还能应对侧向杂物 (lateral clutter)、头顶约束 (overhead constraints)、多层结构和狭窄通道，超越了以往方法的限制。
在挑战性场景中达到高成功率 (High Success Rates in Challenging Scenarios)：Gallant 在爬楼梯和踏上高架平台等任务中首次实现了接近 100% 的成功率，显著提高了相对于基于高程图的基线的鲁棒性。

3. 预备知识与相关工作

3.1. 基础概念

人形机器人 (Humanoid Robot)：指模仿人类形态和运动方式的机器人。其运动控制（locomotion）比四足机器人（quadruped robot）更具挑战性，因为其基底较小，平衡难度大，且需要处理更多的自由度（degrees of freedom, DoF）。
局部导航 (Local Navigation)：使机器人能够在复杂、受限的环境中到达目标，同时最小化意外接触。它关注的是机器人如何在当前感知到的局部环境中实时地避开障碍、选择路径，而不是全局路径规划。
LiDAR (Light Detection and Ranging)：激光雷达，一种通过发射激光束并测量反射回来的时间来确定距离的传感器。它能生成高精度的三维点云数据，提供详细的场景几何信息。
- 优点：不受环境光照影响，精度高，视野宽。
- 缺点：原始点云稀疏、嘈杂，处理计算量大。
体素网格 (Voxel Grid)：三维空间中的一种离散化表示方法，将连续空间划分为一系列小的立方体单元（体素）。每个体素可以存储 occupancy（占据）信息、颜色信息或其他属性。
- 优点：相比原始点云更结构化，便于 CNN 处理，能保留三维结构（如悬挑、多层），且通过聚合点可减少噪声。
- 缺点：分辨率受限，过高分辨率会增加计算和存储开销，过低会丢失细节。
深度图像 (Depth Images)：由深度相机（如 RGB-D 相机或结构光相机）生成，提供场景中每个像素到相机的距离信息。
- 优点：更新频率高，可提供近距离的深度信息。
- 缺点：视野通常较窄，测量范围有限，容易受光照影响，且无法直接表示多层结构。
高程图 (Elevation Maps)：一种 2.5D 的环境表示，通常通过将三维点云投影到水平面上，并为每个网格单元存储一个高度值来生成。
- 优点：对地面障碍物处理有效，计算相对高效。
- 缺点：丢失了垂直和多层结构信息（如悬挑、低矮天花板），无法感知头顶或侧向障碍。
卷积神经网络 (Convolutional Neural Network, CNN)：一种专门用于处理具有网格状拓扑数据（如图像）的深度学习模型。通过卷积层 (convolutional layer) 提取局部特征，并利用权值共享 (weight sharing) 减少参数量。
- 2D CNN：处理二维数据（如图像），在图像处理领域表现卓越。
- 3D CNN：处理三维数据（如体素网格、视频），计算成本通常高于 2D CNN。
- 稀疏卷积 (Sparse Convolution)：针对稀疏数据（如点云或稀疏体素网格）的优化，只对非零元素进行计算，以提高效率。
PPO (Proximal Policy Optimization)：近端策略优化，一种流行的强化学习算法，属于 Actor-Critic 方法。它通过限制每次策略更新的幅度来提高训练的稳定性和效率。
马尔可夫决策过程 (Markov Decision Process, MDP)：强化学习的数学框架，描述智能体 (agent) 如何在一个状态空间 (state space) 中行动以最大化长期奖励。
部分可观测马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP)：MDP 的扩展，智能体无法直接观测到完整的环境状态，只能通过观测 (observation) 来推断状态。本文将人形机器人感知运动问题建模为 POMDP。
模拟到现实迁移 (Sim-to-Real Transfer)：将机器学习模型（尤其是强化学习策略）从仿真环境训练后部署到真实世界机器人上的过程。这通常面临仿真与现实之间的差距（sim-to-real gap）。
领域随机化 (Domain Randomization)：一种 sim-to-real 技术，通过在仿真环境中随机化各种物理参数、传感器噪声、物体纹理等，使训练出的策略对这些变化具有鲁棒性，从而提高其在真实世界中的泛化能力。

3.2. 前人工作

人形机器人感知运动 (Humanoid Perceptive Locomotion)：
- 高程图 (Elevation Maps)：许多早期工作（如 [21, 26, 30, 35, 38]）主要依赖于高程图进行感知。这些方法通过 LiDAR 重建高度场，对地面障碍物有效。
  - 局限性：高程图会“扁平化”场景，忽略侧向或头顶结构，并且重建过程可能引入延迟。
- 深度相机 (Depth Cameras)：提供更高的更新速率，在四足机器人 (quadruped robots) 上已被证明有效（如 [1, 7, 18, 22, 34, 48, 49]）。
  - 局限性：视野狭窄，空间连续性有限，限制了 3D 理解，影响策略在多样化环境中的泛化能力。
LiDAR 仿真与点云处理 (LiDAR Simulation and Point Cloud Processing)：
- 近期 LiDAR 仿真技术（如 [15, 39]）取得了进展，使得在训练中能够获得逼真的感知数据。
- 点云输入 (Point Cloud Inputs)：虽然直接使用点云（如 [15, 39]）可以解决现有感知表示的局限性，但其高昂的处理成本使得实时板载 (onboard) 使用不可行。
体素网格 (Voxel Grids)：已被探索用于机器人领域的跨模态感知和场景理解（如 [9, 33, 47]）。
- 空白：在人形机器人运动中，体素网格作为直接感知输入仍未被充分利用。
局部导航 (Local Navigation)：
- 分层设计 (Hierarchical Design)：多数系统采用高层规划器输出速度指令，低层策略跟踪指令（如 [4, 6, 12, 15, 20, 29, 40, 45, 46]）。
  - 局限性：这种解耦限制了策略利用地形的能力，跟踪误差加上高层更新缓慢会进一步降低性能。
- 端到端训练 (End-to-End Training)：一些工作通过在速度跟踪中加入避障奖励来探索端到端训练（如 [30]），但这可能产生冲突目标。
- 基于目标位置 (Target Position-based)：使用目标位置作为输入，允许策略根据地形推理并选择适当动作（如 [14, 31, 44]），但这种方法在人形机器人上尚未得到充分测试。

3.3. 技术演进

该领域的技术演进经历了从局部、扁平化感知到全局、三维感知，以及从分层控制到端到端学习的转变。

早期阶段：2.5D 高程图和窄视野深度相机。这些方法在处理地面障碍或近距离交互时有效，但无法应对复杂的 3D 结构，如悬挑、头顶障碍和多层地形。感知信息丢失是主要瓶颈。
过渡阶段：点云直接处理。虽然 LiDAR 提供了丰富的 3D 信息，但原始点云的稀疏性和不规则性使得其直接用于策略学习和实时推理面临计算挑战。
当前阶段：结构化 3D 表示和高效学习。为了解决点云的挑战，研究开始探索更结构化的 3D 表示，如体素网格。同时，结合深度学习技术（如 CNN），以及针对 sim-to-real 问题的领域随机化，使得机器人能够在更复杂的环境中学习鲁棒的运动策略。本文的 Gallant 正处于这一技术演进的前沿，通过体素网格和 $z$ -分组 2D CNN 的结合，以及高保真 LiDAR 仿真，推动了人形机器人全空间感知运动的发展。

3.4. 差异化分析

以下表格比较了 Gallant 与现有主要方法的差异，重点在于感知表示 (Perceptual Representation)、视野 (FoV) 和支持的障碍物类型：

以下是原文 Table 1 的结果：

Method	Perceptual Representation	Fov	Ground	Lateral	Overheading
Long et al. [21]	Elevation Map	∼ 1.97π	2	%	×××x>
Wang et al. [38]	Elevation Map	∼ 1.97π
Ren et al. [30]	Elevation Map	∼ 1.97π
Zhuang et al. [49]	Depth Image	∼ 0.43π
Wang et al. [39]	Point Cloud	∼ 1.97π	×
Gallant (ours)	Voxel Grid	∼ 4.00π	✓	✓	✓

Gallant 与相关工作的主要区别和创新点：

感知表示 (Perceptual Representation)：
- 现有工作：主要使用 高程图 (Elevation Map)（如 [21, 38, 30]）或 深度图像 (Depth Image)（如 [49]）。高程图丢失垂直信息，深度图像视野有限。点云 (Point Cloud)（如 [39]）虽然包含完整 3D 信息，但处理成本高昂，不适合实时板载应用。
- Gallant：引入 体素网格 (Voxel Grid)。它既保留了多层 3D 结构信息，又通过离散化和聚合降低了数据维度和噪声，使其成为轻量级且结构化的表示，适合高效学习和实时部署。
视野 (Field of View, FoV)：
- 现有工作：高程图通常提供约 $1.97\pi$ 的 FoV，而深度图像 FoV 更窄，约为 $0.43\pi$ 。
- Gallant：通过双 LiDAR 配置实现了约 $4.00\pi$ 的宽 FoV，提供了更全面的环境感知，有助于更远的预判和规划。
支持的障碍物类型 (Supported Obstacle Types)：
- 现有工作：基于高程图的方法主要处理 地面障碍物 (Ground)，对 侧向杂物 (Lateral) 和 头顶约束 (Overheading) 的支持非常有限或缺失。基于深度图像的方法也存在类似问题。直接使用点云的方法理论上可以处理，但实时性受限。
- Gallant：通过 体素网格 (Voxel Grid) 的 3D 感知能力，能够同时支持 地面障碍物 (Ground)、侧向杂物 (Lateral) 和 头顶约束 (Overheading)，实现了全空间障碍物的处理。
处理效率与实时性：Gallant 采用 $z$ -分组 2D CNN 处理体素网格，相比计算成本更高的 3D CNN 或直接处理点云，显著提高了计算效率，使其能够在板载计算资源上实时运行。
模拟到现实迁移 (Sim-to-Real Transfer)：Gallant 开发了高保真 LiDAR 仿真器，并引入了全面的 领域随机化 (Domain Randomization)（包括 LiDAR 姿态、击中位置噪声、延迟、缺失网格以及机器人自身动态部件的扫描），显著弥合了 sim-to-real gap，使得单一策略能够直接在真实世界中部署而无需微调。
任务融合 (Task Fusion)：Gallant 采用基于目标位置的配方，将 局部导航 (local navigation) 和 运动 (locomotion) 融合到一个单一策略中，这在人形机器人中是首次实现。

4. 方法论

本文提出了 Gallant，一个基于体素网格的感知学习框架，用于人形机器人 (humanoid) 在三维受限环境中进行运动 (locomotion) 和局部导航 (local navigation)。该系统包含三个核心组件：

并行化 LiDAR 仿真流水线 (Parallelized LiDAR Simulation Pipeline)：用于生成大规模、高保真的训练数据。
轻量级 2D CNN 感知模块 (Lightweight 2D CNN Perception Module)：专门用于处理稀疏体素网格 (sparse voxel grids)。
一系列代表性地形家族 (Set of Representative Terrain Families)：用于课程训练 (curriculum training)，以提升策略的泛化能力。

这些组件共同形成一个从数据生成到感知再到控制的完整堆栈流水线 (full-stack pipeline)，旨在训练一个单一策略，使其能够鲁棒地穿越全空间障碍物，并零样本 (zero-shot) 部署到真实硬件上。

4.1. 问题表述

本文将人形机器人的感知运动 (perceptive locomotion) 问题建模为一个 部分可观测马尔可夫决策过程 (POMDP) $\mathcal { M } = ( S , \mathcal { A } , \mathcal { O } , P , \mathcal { R } , \Omega , \gamma )$ 。智能体（机器人）使用 近端策略优化 (PPO) [32] 算法训练 Actor-Critic 策略。

训练环境：划分为 $8 \mathrm { m } { \times } 8 \mathrm { m }$ 的方块。
目标设置：在每个 episode 开始时，机器人从方块中心出发，目标 $\mathbf { G }$ 沿着方块的周长随机采样。
时间限制：每个 episode 有 10 秒的固定时间限制，机器人需在此时间内到达目标。

在时间步 $t$ 的观测 (observation) $o_t$ 定义为：

$\begin{array} { r l } & { o _ { t } = \big ( \underbrace { \mathbf { P } _ { t } , \mathbf { T } _ { \mathrm { e l a p s e } , t } , \mathbf { T } _ { \mathrm { l e f t } , t } } _ { \mathrm { C o m m a n d } } , \underbrace { \begin{array} { l } { a _ { t - 4 : t - 1 } } \\ { \mathrm { A c t i o nh i s t o r y } } \end{array} } _ { \mathrm { B r e ~ { f i o n ~ f i o n ~ { H _ { \theta ~ \phi ~ } } } ~ } } , } \\ & { \qquad \underbrace { \omega _ { t - 5 : t } , \ g _ { t - 5 : t } , \ q _ { t - 5 : t } , \ \dot { q } _ { t - 5 : t } } _ { \mathrm { P r o p r i o c e p t i o n } } , } \\ & { \underbrace { \big \nabla \mathrm { o x e l _ { - } G r i d } _ { t } } _ { \mathrm { P e r c e p t i o n } } , \underbrace { v _ { t } , \ \mathrm { H e i g h t { \mathrm { \mathbf { k } } } \mathrm { d } } \mathrm { a p } _ { t } } _ { \mathrm { P r i v i l e g e d } } \big ) , } \end{array}$

其中：

指令 (Command)：
- $\mathbf { P } _ { t }$ ：目标位置相对于机器人基座的坐标。
- $\mathbf { T } _ { \mathrm { e l a p s e } , t }$ ：episode 中已过去的时间。
- $\mathbf { T } _ { \mathrm { l e f t } , t } = T - \mathbf { T } _ { \mathrm { p a s s } , t }$ ：距离 episode 超时 $T = 10 \mathrm { s }$ 剩余的时间。
动作历史 (Action history)：
- $a _ { t - 4 : t - 1 }$ ：前 4 个时间步策略输出的动作。
本体感受 (Proprioception)：
- $\omega _ { t - 5 : t }$ ：机器人根部（root）的角速度 (angular velocity) 历史。
- $g _ { t - 5 : t }$ ：矢量 $[ 0 , 0 , - 1 ]$ 在机器人基座坐标系中的投影历史。
- $q _ { t - 5 : t }$ ：关节位置 (joint positions) 历史。
- $\dot { q } _ { t - 5 : t }$ ：关节速度 (joint velocities) 历史。
感知 (Perception)：
- $\mathtt { V o x e l \_ G r i d } _ { t }$ ：体素化感知输入。
特权信息 (Privileged)：
- v _ { t }：机器人根部的线速度 (linear velocity)。
- $\mathrm { H e i g h t \_ M a p } _ { t }$ ：扫描点相对于机器人的相对高度图。
  
  下标范围 $t - a : t - b$ 表示包含从时间步 $t - a$ 到 $t - b$ 的时间历史。Actor 和 Critic 共享除 特权输入 (privileged inputs) 外的所有特征，特权输入 仅供 Critic 使用。

奖励函数遵循 Ben et al. [3] 的设定，但用 目标达成奖励 (goal-reaching reward) [31] 替代了速度跟踪奖励：

$r _ { \mathrm { r e a c h } } = \frac { 1 } { 1 + \Vert \mathbf { P } _ { t } \Vert ^ { 2 } } \cdot \frac { \Vert ( t > T - T _ { r } ) } { T _ { r } } \ ( T _ { r } = 2 s ) ,$

其中：

$\mathbf { P } _ { t }$ ：机器人当前位置与目标位置的相对向量。
$T_r = 2s$ ：一个时间阈值，在 episode 结束前 $T_r$ 秒内，奖励会被放大，鼓励机器人及时到达目标。
$\Vert \mathbf { P } _ { t } \Vert ^ { 2 }$ ：机器人与目标之间距离的平方。距离越近，奖励越高。
$\frac { 1 } { 1 + \Vert \mathbf { P } _ { t } \Vert ^ { 2 } }$ ：一个反比于距离的项，鼓励机器人靠近目标。
$\frac { \Vert ( t > T - T _ { r } ) } { T _ { r } }$ ：一个指示函数（Iverson bracket），当当前时间 $t$ 超过 episode 结束前 $T_r$ 秒时，此项为 $1/T_r$ ，否则为 0。这使得 目标达成奖励 在最后 $T_r$ 秒内变得更重要，引导机器人冲刺向目标。

策略的目标是最大化期望的累积奖励： $J ( \pi ) \ = \ \mathbb { E } [ \sum _ { t = 0 } ^ { H - 1 } \gamma ^ { t } r _ { t } ]$ 其中：
$\pi$ ：策略。
$\mathbb { E } [\dots]$ ：期望值。
$H$ ：episode 的总时间步数。
$\gamma$ ：折扣因子 (discount factor)。
$r_t$ ：在时间步 $t$ 获得的奖励。

episode 在机器人跌倒 (fall)、剧烈碰撞 (harsh collision) 或超时 (timeout) 时结束。

4.2. 高效LiDAR仿真

大多数基于 GPU 的仿真器（如 IsaacGym 和 IsaacSim）要么缺乏对高效 LiDAR 仿真的原生支持，要么仅限于扫描单个静态网格 (static mesh)。然而，在动态环境中进行逼真仿真需要考虑所有相关几何体，包括静态和动态网格，尤其是机器人自身的躯体。为解决此问题，本文使用 NVIDIA Warp [24] 实现了一个轻量级、高效的 光线投射-体素化 (raycast-voxelization) 流水线。

挑战与解决方案：传统的 光线投射 (raycasting) 在场景几何体上构建 边界体积层次结构 (Bounding Volume Hierarchy, BVH)。如果由于动态物体在每个仿真步骤都更新 BVH，成本会非常高。为了缓解这个问题，Gallant 对每个网格在其局部（躯体）坐标系中预计算一个 BVH。在仿真过程中，光线原点 $\mathbf{p}$ 会被转换，并且只有旋转分量应用于方向 $\mathbf{d}$ ，将光线旋转到网格的局部坐标系中。
光线投射方程：具体来说，光线投射计算如下： $\mathrm { r a yc a s t } ( T M , { \bf p } , { \bf d } ) = T ^ { - 1 } \mathrm { r a yc a s t } ( M , T ^ { - 1 } { \bf p } , R ^ { - 1 } { \bf d } ) ,$ 其中：
- $M$ ：网格 (mesh)。
- TM：转换后的网格。
- $\mathbf{p}$ ：光线原点。
- $\mathbf{d}$ ：光线方向。
- $T$ ：表示完整的变换矩阵 (full transformation matrix)，包含旋转和平移。
- $R$ ：表示旋转分量 (rotational component)。
- raycast(M, p, d)：表示在网格 $M$ 的局部坐标系中，从原点 $\mathbf{p}$ 沿方向 $\mathbf{d}$ 进行光线投射的函数，返回光线与网格的交点。
- 该公式的含义是：为了在全局坐标系中对转换后的网格 TM 进行光线投射，等价于将光线原点 $\mathbf{p}$ 和方向 $\mathbf{d}$ 变换到网格 $M$ 的局部坐标系中（通过 $T^{-1}$ 和 $R^{-1}$ ），然后进行局部光线投射，最后将结果再变换回全局坐标系。
并行化光线投射：在每个仿真步骤中，对于每个网格 $M$ 及其变换 $T_t$ ，使用一个形状为 $( N _ { \mathrm { e n v s } } , N _ { \mathrm { m e s h e s } } , N _ { \mathrm { r a a y s } } )$ 的 Warp 核并行计算光线-网格交点。
- N_envs：仿真环境的数量。
- N_meshes：场景中网格的数量。
- N_rays：每帧 LiDAR 发射的光线数量。光线从 LiDAR 原点 $P _ { \mathrm { L i D A R } }$ 发出，方向定义为 $O _ { \mathrm { r a y } _ { i } } = O _ { \mathrm { L i D A R } } + O _ { \mathrm { r a y } _ { i } , \mathrm { o f f s e t } }$ ，其中 $O _ { \mathrm { r a y } _ { i } , \mathrm { o f f s e t } }$ 是第 $i$ 束光线相对于 LiDAR 方向的偏移。令 $P_i$ 为第 $i$ 束光线的击中位置，由此产生的点云为： $\mathcal { P } _ { t } = \textstyle \bigcup _ { i = 1 } ^ { N _ { \mathrm { r a y s } } } \left\{ P _ { i } \right\}$ 这个点云 $\mathcal{P}_t$ 随后被转换为体素网格。
领域随机化 (Domain Randomization)：为了使仿真与真实世界的感知保持一致，Gallant 应用了以下 领域随机化 技术：
- (a) LiDAR 姿态 (LiDAR Pose)：在 episode 开始时，LiDAR 的位置和方向会受到扰动： $P _ { \mathrm { L i D A R } } ^ { \mathrm { r a n d } } = P _ { \mathrm { L i D A R } } + \mathcal { N } ( 0 , 1 ) \ \mathrm { (cm) }$ $O _ { \mathrm { r a y } _ { i } } ^ { \mathrm { r a n d } } = O _ { \mathrm { L i D A R } } + \mathcal { N } ( 0 , ( \frac { \pi } { 1 8 0 } ) ^ { 2 } ) + O _ { \mathrm { r a y } _ { i } , \mathrm { o f f s e t } } \ \mathrm { (rad) }$ 其中 $\mathcal{N}(0, \sigma^2)$ 表示均值为 0，方差为 $\sigma^2$ 的高斯分布。位置扰动以厘米为单位，角度扰动以弧度为单位。
- (b) 击中位置 (Hit Position)：每个光线击中位置会增加随机噪声： $P _ { i } ^ { \mathrm { r a n d } } = P _ { i } + \mathcal { N } ( 0 , 1 ) \ \mathrm { (cm) }$
- (c) 延迟 (Latency)：仿真 LiDAR 观测的更新频率为 $10 \ \mathrm { Hz }$ ，并引入 $100 - 200 ~ \mathrm { ms }$ 的延迟，以模拟真实传感器和通信的固有延迟。
- (d) 缺失网格 (Missing Grid)：随机遮蔽 2% 的体素，以模拟真实世界中数据丢失的情况（dropout）。这些增强措施旨在减少 sim-to-real gap 并提高策略的 可迁移性 (transferability)。

4.3. 体素表示和2D CNN感知

体素网格转换：LiDAR 点云被转换成固定大小、机器人中心的 体素网格 (voxel grid)。
- 传感器配置：在每个时间步，来自两个安装在躯干上的 LiDAR 传感器（一个在前胸，一个在背部）的返回点被转换到统一的躯干坐标系中。
- 感知体积：感知体积被定义为一个长方体 $\Omega = [ - 0 . 8 , 0 . 8 ] \mathrm { m } \times [ - 0 . 8 , 0 . 8 ] \mathrm { m } \times [ - 1 . 0 , 1 . 0 ] \mathrm { m }$ 。
- 离散化：该体积以 $\Delta = 0 . 0 5 \mathrm { m }$ 的分辨率进行离散化，在 x, y, z 轴上分别产生一个 $32 \times 32 \times 40$ 的网格。
- 二值占据张量：如果至少有一个 LiDAR 点落入某个体素内，则该体素的值设置为 1；否则设置为 0，从而生成一个二值占据张量 $X ~ \in ~ \{ 0 , 1 \} ^ { C \times H \times W }$ ，其中 $C = 40$ （高度切片）， $H = W = 32$ （空间分辨率）。
$z$ -分组 2D CNN (z-grouped 2D CNN)：
- 稀疏性利用：由于 LiDAR 的视线特性和地形的结构化性质，体素网格高度稀疏且局部集中。大多数 (x, y) 列只包含一个或两个被占据的 $z$ 切片，大片连续的空间区域可能完全为空。
- 方法：Gallant 不对整个体素体积应用计算成本高的 3D 卷积 (3D convolutions)。相反，它将 $z$ 轴视为 通道维度 (channel dimension)，并在 x-y 平面上应用 2D 卷积 (2D convolutions)。这种方法利用了空间上下文，同时通过 通道混合 (channel mixing) 捕获垂直结构，有效利用了稀疏、局部集中的占据模式。
- 形式化定义：设 $X \in \mathbb { R } ^ { C \times \bar { H } \times W }$ $X \in R^{C \times \overset{ˉ}{H} \times W}$ 为体素输入， $\mathbf { W } \in \mathbb { R } ^ { O \times C \times k \times k }$ $W \in R^{O \times C \times k \times k}$ 为 2D 卷积的权重。输出 $Y \in \mathbb { R } ^ { O \times H \times W }$ $Y \in R^{O \times H \times W}$ 的计算如下： $Y _ { o , v , u } = \sigma \left( \sum _ { c = 0 } ^ { C - 1 } \sum _ { \Delta v , \Delta u } \mathbf { W } _ { o , c , \Delta v , \Delta u } \cdot X _ { c , v + \Delta v , u + \Delta u } + b _ { o } \right) ,$ 其中：
  - $Y_{o,v,u}$ ：输出特征图 $Y$ 在通道 $o$ 、行 $v$ 、列 $u$ 的值。
  - $\sigma$ ：非线性激活函数 (nonlinearity)。
  - $b_o$ ：通道 $o$ 的偏置项 (bias term)。
  - $C$ ：输入体素网格的通道数（即 $z$ 轴的切片数，40）。
  - $\bar{H}, W$ ：输入体素网格的空间分辨率（即 x, y 轴的维度，32x32）。
  - $O$ ：输出特征图的通道数。
  - $k \times k$ ：2D 卷积核的大小。
  - $\mathbf{W}_{o,c,\Delta v, \Delta u}$ ：卷积核的权重，用于从输入通道 $c$ 到输出通道 $o$ 的连接，在空间偏移 $(\Delta v, \Delta u)$ 处。
  - $X_{c, v+\Delta v, u+\Delta u}$ ：输入体素网格 $X$ 在通道 $c$ 、行 $v+\Delta v$ 、列 $u+\Delta u$ 的值。
- 效率优势：与大小为 $k^3$ 的 3D 卷积核相比，这种设计将计算和内存成本降低了大约 $k$ 倍，同时仍能捕获对运动至关重要的垂直模式。此外，2D 结构支持高效并行训练和板载计算的实时推理。

4.4. 地形设计

为了在仿真中训练机器人，本文设计了 8 种代表性地形类型：

平面 (Plane)：最简单的地形，帮助机器人在早期阶段学习基本行走能力。
天花板 (Ceiling)：具有随机高度和密度的天花板结构，需要机器人推理头顶约束并采取下蹲姿态。
森林 (Forest)：由随机间隔的圆柱形柱子组成，代表稀疏的侧向杂物 (lateral clutter)，需要机器人学习“穿梭 (weaving)”行为。
门 (Door)：呈现狭窄的间隙，要求机器人精确地进行侧向清空 (lateral clearance)。
平台 (Platform)：由高大的环形结构组成，具有可变间距和高度，要求机器人识别可踩踏表面并进行平台间的穿越。
堆 (Pile)：引入细粒度的支撑推理 (fine-grained support reasoning)，用于安全落脚。
上楼梯 (Upstair)：要求机器人持续适应垂直高度的上升。
下楼梯 (Downstair)：要求机器人持续适应垂直高度的下降。

以下是原文 Figure 3. Terrain types used to train robots in simulation $( \mathbf { p } _ { \tau } ^ { \mathrm { m a x } } ,$ 的结果：

$Figure 3. Terrain types used to train robots in simulation $( \\mathbf { p } _ { \\tau } ^ { \\mathrm { m a x } } ,$$ 该图像是用于训练机器人在模拟环境中应对不同类型地形的示意图。图中展示了六种地形类型，包括 Ceiling、Door、Pile、Downstairs、Plane、Forest 和 Platform，帮助研究者理解机器人如何在这些环境中进行导航。

课程训练 (Curriculum-based Training)：本文采用基于课程的训练策略，地形难度逐步增加。
- 每个地形类型 $\tau$ 由一个标量难度 $s \in [ 0 , 1 ]$ 参数化。
- 地形生成参数通过以下公式进行插值： $\mathbf { p } _ { \tau } ( s ) = ( 1 - s ) \mathbf { p } _ { \tau } ^ { \mathrm { m i n } } + s \mathbf { p } _ { \tau } ^ { \mathrm { m a x } } ,$ 其中：
  - $\mathbf { p } _ { \tau } ( s )$ ：地形类型 $\tau$ 在难度 $s$ 下的参数向量。
  - $\mathbf { p } _ { \tau } ^ { \mathrm { m i n } }$ ：表示最简单的设置。
  - $\mathbf { p } _ { \tau } ^ { \mathrm { m a x } }$ ：表示最困难的设置。具体参数见 Table 2（在实验设置部分呈现）。
- 在每个 episode 中，分配一个 10 秒的 目标达成任务 (goal-reaching task)。成功完成任务会导致难度 提升 (promotion) 到更难的设置；失败则导致难度 降级 (demotion)。
Pile 地形的特殊处理：为了支持 Pile 地形的学习，在早期训练阶段（低 $s$ 值）会叠加一个平坦表面，让机器人首先学习基本的落脚点选择。当 $s$ 值较高时，移除该平面，在完全有间隙的地形上继续训练，以学习真正的穿越行为。

5. 实验设置

5.1. 数据集

本文的实验主要在仿真环境 NVIDIA IsaacSim [28] 中进行训练，并在真实世界的 Unitree G1 人形机器人 (humanoid) 上进行部署和测试。因此，没有使用传统意义上的数据集，而是构建了仿真环境和真实世界测试场景。

机器人平台：
- Unitree G1 人形机器人：29 个自由度 (DoF)。
仿真环境：
- NVIDIA IsaacSim [28]：提供物理模拟和渲染能力。
传感器配置：
- 感知 LiDAR (Perception LiDARs)：在机器人躯干上安装了两个 Hesai JT128 LiDARs（一个在前，一个在后）。
  - 每个 LiDAR 具有 $95^\circ \times 360^\circ$ 的视野。
  - 双传感器配置确保了机器人周围近乎完整的感知覆盖，并在仿真中进行了完全复制，以确保 跨域感知 (consistent perception across domains)。
- 定位 LiDAR (Localization LiDAR)：在机器人头部安装了一个 Livox Mid-360 LiDAR。
  - 用于目标相对定位 (target-relative localization)。
  - 使用 FastLIO2 [42, 43] 处理其数据。
  - 此 LiDAR 的数据也用于生成基线比较中的 高程图 (elevation map)。
计算资源：
- 训练：8 块 NVIDIA RTX 4090 GPU (每块 45GB 内存)。
- 部署：在 G1 机器人上板载 NVIDIA Orin NX，用于运行学习策略和体素网格处理。

5.2. 评估指标

在 IsaacSim 仿真环境中，Gallant 及其消融变体在最具挑战性的地形设置 $(\mathbf { p } _ { \tau } ^ { \mathrm { m a x } })$ 下进行评估。策略性能通过两个不同的指标衡量：

成功率 (Success rate) $E _ { \mathrm { s u c c } }$ ：
- 概念定义：成功完成任务的 episode 占总 episode 的比例。一个 episode 被认为是成功的，如果在 10 秒的时间限制内机器人到达了目标，并且没有摔倒或与障碍物发生任何严重的碰撞。这个指标量化了策略在复杂地形中完成任务的可靠性和安全性。
- 数学公式： $E_{\mathrm{succ}} = \frac{N_{\mathrm{success}}}{N_{\mathrm{total}}} \times 100\%$
- 符号解释：
  - $N_{\mathrm{success}}$ ：成功完成任务的 episode 数量。
  - $N_{\mathrm{total}}$ ：总共进行的 episode 数量。
  - $100\%$ ：将结果转换为百分比。
碰撞动量 (Collision momentum) $E _ { \mathrm { c o l l i s i o n } }$ ：
- 概念定义：通过不必要的接触（所有机器人与环境的接触，不包括正常的足部接触）传递的累积动量。这个指标反映了策略避免碰撞的能力，数值越低越好，表示机器人的运动越平稳，与环境的非预期接触越少。
- 数学公式： $E_{\mathrm{collision}} = \sum_{t=0}^{H-1} \Vert \mathbf{F}_{t}^{\mathrm{contact}} \cdot \Delta t \Vert_2$
- 符号解释：
  - $\mathbf{F}_{t}^{\mathrm{contact}}$ ：在时间步 $t$ 时，机器人除足部外，与环境发生不必要接触时产生的合力向量。
  - $\Delta t$ ：每个时间步的持续时间。
  - $\Vert \cdot \Vert_2$ ：L2 范数，表示力矩的强度。
  - $H$ ：episode 的总时间步数。
  - $\sum$ ：累加符号，表示在整个 episode 中累积的动量。
    
    每个策略训练 4,000 次迭代，然后进行 5 次独立的评估（每次评估包含 1,000 个完整的 episode），报告均值 $\pm$ 标准差。具有更高 $E _ { \mathrm { s u c c } }$ 和更低 $E _ { \mathrm { c o l l i s i o n } }$ 的策略被认为是更好的。

5.3. 对比基线

为了评估 Gallant 核心组件的有效性，本文与以下消融 (ablations) 变体进行了比较：

模拟实验基线 (Simulation Experiment Baselines)：
- w/o-Self-Scan (无自我扫描)：禁用来自动态几何体（例如机器人自身的连杆）的模拟 LiDAR 返回，仅扫描静态地形。这与 Gallant 进行比较，后者模拟了静态地形和移动连杆的扫描。
- 感知网络 (Perceptual Network)：
  - 标准3D CNN (standard 3D CNN)：用标准 3D CNN 替换 $z$ -分组 2D CNN。
  - 稀疏2D CNN (sparse 2D CNN)：用稀疏 2D CNN 替换 $z$ -分组 2D CNN。
  - 稀疏3D CNN (sparse 3D CNN)：用稀疏 3D CNN 替换 $z$ -分组 2D CNN（常用于 LiDAR 感知 [5, 12]）。稀疏变体基于 [8]。
- 感知表示 (Perceptual Representation)：
  - Only-Height-Map (仅高程图)：Actor 和 Critic 仅使用 高程图 (height map)。
  - Only-Voxel-Grid (仅体素网格)：Actor 和 Critic 仅使用 体素网格 (voxel grid)。
  - Gallant 默认配置是 Actor 使用 体素网格，Critic 使用 体素网格 加上 高程图。
- 体素分辨率 (Voxel Resolution)：
  - 10CM：体素尺寸为 $10 \mathrm { { c m } }$ 。
  - 2.5CM：体素尺寸为 $2.5 \mathrm { { c m } }$ 。
  - Gallant (5CM)：默认体素尺寸为 $5 \mathrm { { c m } }$ 。
真实世界实验基线 (Real-world Experiment Baselines)：
- HeightMap：用从 Livox Mid-360 估计的 高程图 (elevation map) 替换 体素网格 (voxel grid) 作为感知输入。
- NoDR：在训练时没有使用第 3.2 节中描述的 LiDAR 领域随机化 (domain randomization)，但其他方面与 Gallant 相同。
- Gallant：完整的流水线。

6. 实验结果与分析

6.1. 核心结果分析

本节详细分析了 Gallant 在模拟和真实世界中的实验结果，并与各种基线进行了比较。

6.1.1. 模拟实验结果

以下是原文 Table 3 的结果：

Method

Plane

Ceiling

Forest

Door

Platform

Pile

Upstair

Esuce ↑

Ecollision ↓

Esuce ↑

Ecollision

Esuce ↑ Ecollision

Esuce ↑

Ecollision ↓

Esuce Ecollision

Esuce ↑

Ecollision

Esuce↑

Ecollision ↓

Esuce ↑ Ecollision

(a) Ablation on Self-scan

w/o-Self-Scan 99.7±0.1)

27.2 (±1.0) 579.0(± 55.1) 33.0 (±0.9) 305.5 (±16.6)

Gallant

100.0(±0.0)

1.6 ±3.2) 0.0(±0.0)

28.4(±2.4) 97.1(±0.6)

442.7(±22.1) 24.6 (±6.3)

78.1±1.4) -420.5(±12.1) 84.3(±0.7) 311.1(± 25.9)

98.3(±0.7) 98.7(±0.3)

152.7±20.0) 27.7(±6.4)

96.1(±0.5)

637.6 (±31.3) 30.1(±5.3)

82.1(±0.6) 113.1±14.6)

96.2(±0.6)

27.0(±4.9)

96.6 (±0.4) 15.15 ±6.1) 97.9(±0.4) 15.6(± 6.2)

(b) Ablation on Perceptual Network

100.0(±0.0)

0.0 (±0.0)

86.7±2.

143.5(±46.1)

84.1(±1.5) 277.8(±22.1)

98.0( ±.06)

74.8 (±7.9)

88.8(±1.5)

96.8 (±11.6) 52.4(±1.5)

365.9 ±12.3

80.1(±2.2) 107.7

(±15.8)

97.5(±0.4) 18.9(±14.1)

Sparse-3D-CNN

3D-CNN

99.9(±0.1)

0.0(±0.0)

97.5(±0.5)

20.0(±6.6)

73.9(±2.1) 379.0(±70.2)

96.1(±0.7)

69.58 (±5.8)

92.7(±1.0)

65.6±9.5)

65.3(±0.9) 275.4(±31.5)

86.0(±1.4)

78.1(±19.2)

99.0 (±0.3) 12.1(±11.6)

Sparse-2D-CNN

99.6 ±0.2) 100.0 .0

0.7(±1.4) 0.0(±0.0)

96.0(±1.0) 97.1±0.6)

26.17 ±5.1) 24.6 ± 6.3

80.2 ±1.1) 363.1(±14.4) 84.3±0.7) 311.1(± 25.9)

92.7(±1.0) 98.7(±0.3)

199.6 ±120.2) 27.7±6.4)

87.9(±1.1) 96.1±0.5) 30.1

100.5(± 20.3) 57.6 ±0.9) ±5.3) 82.1±0.6)

360.3(±16.3) 113.114.6)

89.1(±0.7) 96.2(±0.6)

52.9±4.8) 27.04.9

98.7 ±0.6) 4.55±2.92) 97.9(±0.4) 15.6 ±6.2)

Gallant (c) Ablation on Perceptual Interface

0.0(±0.0)

5.3 (±2.0) 1995.3(±68.3)

10.5(±1.5)

577.4(±18.1)

10.2(±1.3)

Only-Height-Map -100.0(± 0.0) Only-Voxel-Grid

717.5 (±33.8)

-96.0(±0.7)

34.3(±2.8)

86.2±0.6)

101.6±13.8)

98.3±0.2)

11.6±6.2)

98.5 ±0.3) 11.2±6.

100.0 100.0(±0.0)

0.0(±0.0) ±0.0) 0.0(±0.0)

96.9(±0.4) 97.1(±0.6)

22.4(± 4.2) 24.6 (±6.3)

75.9(±1.5) 84.3(±0.7)

506.0 96.0(±0.3) ±20.6) 311.1(± 25.9) 98.7(±0.3)

281.4(±29.0) 27.7 6.4)

94.2 96.1(±0.5)

51.0 ±10.2) (±0.8) 30.15.3)

72.3±0.6)

201.8(±14.9)

96.2(±0.6)

46.9(±10.5) 27.0(±4.9)

98.8 97.9(±0.4)

±0.2) 7.0(±3.9) 15.6 (± 6.2)

Gallant

82.1(±0.6) 113.1(±14.6)

(d) Ablation on Voxel Resolution

97.3±0.9)

10CM 2.5CM

98.8(±0.2) 99.9 ±0.1)

2.11.6)

24.2(11.0)

77.5 ±3.4)

368.0(±36.3)

97.5(±0.4)

-260.4(±38.8)

75.5± 0.5) -63.0(±4.9)

65.2

256.3 ±50.0) (±5.5)

94.1(±1.1)

38.6(±6.7)

97.5(±0.4) 13.5(±2.0)

Gallant (5CM)

100.0(±0.0)

2.1 ±1.6)

13.3 ±2.4) 97.1±0.6)

1442.4(±119.6)

59.0 ±1.7) 642.7 ±12.4)

64.8(±1.1)

591.0(±22.5)

67.2 ±2.7) 268.9

(±39.3)

54.1 (±1.7) 400.2(±19.5) 113.114.6

86.3(±1.2)

74.8(±12.8)

96.6 (±0.4) 15.2 (±6.1)

0.0(±0.0)

24.6 (±6.3)

84.3±0.7) 311.1(± 25.9)

98.7±0.3)

27.76.4)

96.1(±0.5)

30.1±5.3)

82.1±0.6)

96.2 (±0.6)

27.0(± 4.9)

97.9±0.4) 15.6 (±6.2)

主要发现： 在八种代表性地形中，Gallant 在成功率上明显优于所有基线。

6.1.1.1. `LiDAR` 动态物体返回的必要性

结果：如 Table 3(a) 所示，在所有任务中，Gallant 比忽略动态物体（w/o-Self-Scan）的变体取得了更高的成功率。
- 例如，在 Ceiling 地形上，w/o-Self-Scan 的成功率仅为 27.2%，而 Gallant 达到 97.1%。在 Platform 和 Pile 等地形上也有显著差距。
分析：当机器人下蹲通过天花板时，包含动态信息的体素网格（Figure 5b）正确地显示了机器人的腿部，占据了体素并沿 LiDAR 光线在远处地板上产生了遮挡“空洞”。相反，排除动态信息（Figure 5c）会产生一个人为平坦的地板。由于真实的 LiDAR 会返回所有可见物体的扫描信息，忽略动态信息会导致体素网格在机器人身体不完全直立的姿态（例如，Ceiling、Platform）下出现 分布外 (out-of-distribution, OOD) 的情况，从而导致成功率显著下降。
结论：在 LiDAR 流水线中模拟动态物体对于最终性能至关重要。

以下是原文 Figure 5. LDAR rot ohMe allnf -b s. 的结果：

该图像是一个示意图，展示了机器人在3D受限环境中行走的过程，包括(左)人形机器人穿越天花板的场景和(右)体素网格的自我扫描与非自我扫描情况，以及不同模型的训练迭代时间。这些视觉资源支持了论文中关于人形机器人在复杂 terrain 中优化运动的研究。

6.1.1.2. $z$ -分组 2D `CNN` 是最合适的选择

结果：如 Table 3(b) 所示，尽管某个变体（例如，3D CNN 在 Ceiling 上）在少数地形上略微超过 Gallant，但增益很小，并且在大多数任务中被较低的成功率所抵消。
- Gallant 在 Ceiling 上的成功率为 97.1%，而 3D CNN 为 97.5%（略高），但 3D CNN 在 Forest、Pile、Upstair 等其他地形上的表现明显不如 Gallant。
- Sparse-3D-CNN 和 Sparse-2D-CNN 普遍表现不佳或与 Gallant 相近，但通常伴随更高的碰撞动量。
分析：Gallant 的体素输入是一个紧凑的、以机器人为中心的 $32 \times 32 \times 40$ $32 \times 32 \times 40$ 网格，它随躯干坐标系而变化。
- 稀疏卷积 (Sparse Convolutions)：如图 5(d) 所示，稀疏卷积优势不大，因为在 x-y 平面上占据相对密集，实际跳过的计算很少，而稀疏核的规则簿开销 (rulebook overhead) 在这种规模下成为主导成本。
- 完整 3D CNNs：引入了更多的参数和内存流量，使得优化更难，并且在稀疏性主要集中在 $z$ 轴时，数据效率较低。
- $z$ -分组 2D CNN：将 $z$ 轴视为通道，利用轻量级 2D CNN 通过 通道混合 (channel mixing) 保留垂直结构，利用高度优化的密集 2D 运算符，并为以机器人为中心的栅格提供了正确的归纳偏置 (inductive bias)，该栅格在 x-y 上近似平移等变 (translation-equivariant)，但随身体旋转。
结论：在实践中，这种 $z$ -分组 2D 设计以显著降低的计算成本提供了相等或更高的精度，使其成为任务最合适的选择。

6.1.1.3. `体素网格`和 `高程图` 的组合更优

结果：如 Table 3(c) 所示，Only-Height-Map 在 Ceiling 等地形上失败（成功率仅为 5.3%），因为它无法表示多层结构。尽管在仿真中 HeightMap 在地面障碍物上表现强劲，但在真实世界中其性能受限于噪声重建。
- Only-Voxel-Grid（即 Critic 不使用 高程图）在所有任务中的成功率普遍低于 Gallant。例如，在 Ceiling 上，Only-Voxel-Grid 的成功率为 96.9%，而 Gallant 为 97.1%。在 Pile 和 Upstair 等地形上，Gallant 的成功率也更高。
分析：如第 1 节所述，仅使用 高程图 作为感知表示的策略无法表示多层结构，因此在 Ceiling 等地形上失败。然而，在仿真中（高程图 不会产生延迟），基于 高程图 的方法在地面障碍物上表现出色，这表明 高程图 为训练提供了有用的、积极的信息信号。为了 sim-to-real 的鲁棒性，Gallant 从 Actor 输入中省略了 高程图，但将其作为 Critic 观测（特权信息 (privileged information)）的一部分。这种不对称设计利用 高程图 来塑造价值并在训练期间改进 信用分配 (credit assignment)，同时保持部署策略不受 延迟敏感通道 (latency-sensitive channels) 的影响。
结论：这种 Gallant 配置比 Only-Voxel-Grid（Critic 没有 高程图）在所有任务中都取得了更高的成功率，验证了所提出的设计。

6.1.1.4. `5cm` 是 Gallant 的合适分辨率

结果：如 Table 3(d) 所示，PPO 训练受益于许多并行环境中收集的大批量数据。在固定的 VRAM 预算下，通过调整 体素网格 分辨率来权衡空间精度和 以机器人为中心 (egocentric) 的视野 (FoV)。
- 10CM 网格（成功率在 Ceiling、Forest、Platform 等地形上明显低于 Gallant (5CM)）表现不佳：虽然它扩大了 FoV，但其粗糙的量化损害了精细的接触和间隙敏感交互。
- 2.5CM 网格（成功率在 Ceiling、Forest、Door 等地形上也低于 Gallant (5CM)）产生了更低的成功率：尽管精度更高，但缩小了 FoV，阻碍了对机器人上方或下方较远区域（例如 Ceiling、Downstair）的感知，使得这些地形明显更难。
结论：总的来说，在资源限制下，5cm 分辨率在覆盖范围和细节之间取得了有效平衡。

6.1.2. 真实世界实验结果

本文将 Gallant 训练出的策略直接部署到真实的 Unitree G1 人形机器人 上，无需任何微调。控制循环以 $50 \mathrm { Hz }$ 运行，与仿真一致。为了确保可靠的 体素输入 (voxel input)，来自双 LiDAR 的原始点云在板载使用 OctoMap [16] 进行处理，以 $10 \mathrm { Hz }$ 的频率生成二值占据网格 (binary occupancy grid)。重要的是，OctoMap 作为一个轻量级预处理步骤，而不是像 高程图 那样的完整重建流水线，因此产生的延迟和计算负担最小。

以下是原文 Figure 4. onto a 3 0 c m plsetn 2 0 c m stairs. All deployments are based on the same policy. 的结果：

该图像是图表，展示了Gallant框架下人形机器人在各种3D受限地形中的行走和局部导航能力，包括跨越障碍、攀登楼梯和通过狭窄通道等场景。

上图（原文 Figure 4）展示了 Gallant 策略在真实世界中处理各种 3D 受限地形的能力，包括攀爬 $20 \mathrm { cm }$ 的楼梯和踏上 $30 \mathrm { cm }$ 的平台。所有部署都基于同一个策略。

本文在各种真实世界场景中评估了同一策略，包括平坦地形、随机高度天花板、侧向杂物（例如门）、带间隙的高平台、踏脚石和楼梯。尽管约束多样且复杂，机器人始终以高成功率穿越这些地形。

以下是原文 Figure 6. F 的结果：

该图像是一个柱状图，展示了在15次试验中不同场景下成功的次数。每个场景包括平面、天花板、门、平台、堆、楼梯向上和楼梯向下，而图中显示了三种不同算法（HeightMap、NoDR和Gallant）在各场景下的成功效果。Gallant算法在多个场景中表现优异，尤其是在楼梯向下的情况，显示出其在复杂环境中的有效性和可靠性。

上图（原文 Figure 6）展示了在 15 次试验中不同场景下，HeightMap、NoDR 和 Gallant 三种算法的成功次数对比。Gallant 算法在多个场景中表现优异，尤其是在楼梯向下的情况，显示出其在复杂环境中的有效性和可靠性。

真实世界消融实验结果分析：

Gallant vs HeightMap：
- HeightMap 基线在 头顶 (overheading)（例如 Ceiling）和 侧向 (lateral)（例如 Door）障碍物上失败，这是由于其有限的 2.5D 表示。
- 即使在地面地形上，HeightMap 的性能也低于 Gallant。这与仿真结果不同，仿真中 HeightMap 有时在 Pile 或 Stairs 上表现出色，但在真实世界中，其性能受到噪声 高程重建 (elevation reconstruction) 的影响。
- 此外，Gallant 允许躯干俯仰/滚动以实现更具表现力的运动，但这会在安装点引入 LiDAR 抖动，进一步降低 高程图 的质量，从而强化了 体素网格 (voxel grids) 的优势。
Gallant vs NoDR：
- NoDR 变体在 Ceiling 和 Door 上表现尚可，表明在这些情况下对感知延迟的敏感度较低。
- 然而，它在地面地形上的性能显著下降。在训练中没有模拟 LiDAR 延迟和噪声，机器人会误判其与障碍物的相对位置，通常反应过迟。
- 结论：这强调了 领域随机化 (domain randomization) 在弥合 sim-to-real gap 方面的关键作用。

6.1.3. 进一步分析

以下是原文 Figure 7. Gallant success rate in simulation and real world. 的结果：

Figure 7. Gallant success rate in simulation and real world. 该图像是图表，展示了Gallant在模拟和真实环境中的成功率。图中显示了不同场景（如天花板、门、平台、堆、楼梯上下）的成功率，模拟和真实结果在大多数情况下接近100%。

上图（原文 Figure 7）分析了 Gallant 在仿真和真实世界中评估的各个地形上的成功率。

模拟与真实世界相关性：仿真中成功率较高的地形在硬件上也表现良好，这验证了大规模仿真评估作为真实世界性能可靠预测指标的有效性。
体素网格的优势：随着 体素网格 的引入，像 头顶 (overheading)（例如 Ceiling）和 侧向 (lateral)（例如 Door）约束——这些对基于 高程图 的方法来说以前很困难——现在由于高成功率而变得最容易，这表明 体素网格 是一种简单而有效的全空间感知表示。
Pile 地形的局限性：Gallant 的主要局限性出现在 Pile 地形上，其中精确的 落脚点选择 (foothold selection) 至关重要。成功率稳定在 80% 左右，而零 LiDAR 延迟的仿真将其提高到 90% 以上，这表明真实世界传感器延迟是一个关键瓶颈。
高成功率场景：在其他地形，特别是 平台 (Platforms) 和 楼梯 (Stairs)（以前因碰撞风险 [21] 被认为不稳定），Gallant 通过主动调整足部轨迹实现了高成功率。

6.2. 消融实验/参数分析

本文的消融实验非常全面，已在 6.1.1 模拟实验结果 和 6.1.2 真实世界实验结果 中详细分析。主要验证了以下组件的有效性：

LiDAR 自我扫描 (Self-scan)：确认了模拟机器人自身动态部件的必要性。
感知网络架构 (Perceptual Network Architecture)：证明了 $z$ -分组 2D CNN 在计算效率和表示能力上的优势，优于 3D CNN 和稀疏卷积变体。
感知接口 (Perceptual Interface)：验证了 体素网格 与 高程图（作为 Critic 的 特权信息）结合的策略，在处理多层结构和提供训练信号方面的有效性。
体素分辨率 (Voxel Resolution)：确定了 5cm 是在视野覆盖和几何细节之间取得最佳平衡的分辨率。
领域随机化 (Domain Randomization)：在真实世界部署中，NoDR 基线的失败突出了 LiDAR 领域随机化（特别是延迟和噪声）在弥合 sim-to-real gap 方面的关键作用。

这些消融实验有力地支持了 Gallant 框架中各个设计选择的合理性和重要性。

7. 总结与思考

7.1. 结论总结

本文提出了 Gallant，一个用于人形机器人 (humanoid) 在三维受限环境中进行运动 (locomotion) 和局部导航 (local navigation) 的全栈 (full-stack) 流水线。其核心在于利用 体素网格 (voxel grids) 作为轻量级且几何结构保持的感知表示，并结合逼真的 LiDAR 仿真和 $z$ -分组 2D CNN 进行高效处理。模拟消融实验 (simulation ablations) 表明，Gallant 的关键组件对于训练高成功率策略至关重要。在真实世界测试中，单一的 LiDAR 策略不仅能处理基于 高程图 (elevation-map) 控制器所能应对的地面障碍，还能应对侧向和头顶结构，并且在仅有地面障碍的地形上以更少的碰撞达到了接近 100% 的成功率。所有这些结果共同确立了 Gallant 作为人形机器人在三维受限地形中进行全空间感知运动和局部导航的可靠流水线。

7.2. 局限性与未来工作

LiDAR 延迟 (LiDAR Latency)：尽管取得了显著成功，Gallant 尚未达到 100% 的成功率。主要的瓶颈在于 LiDAR 延迟：以 $10 \mathrm { Hz }$ 运行，每次扫描会产生超过 $100-200 \mathrm { ms }$ 的延迟，这主要是由于光线反射和通信开销。这种延迟限制了机器人采取预见性动作的能力。
未来工作方向：未来的研究将探索使用 Gallant 作为几何感知教师 (geometry-aware teacher)，同时研究更低延迟的传感器，以实现能够达到接近完美性能的完全反应式策略。此外，提高 Pile 地形上的成功率（目前约为 80%）也是一个明确的方向。

7.3. 个人启发与批判

7.3.1. 个人启发

感知表示的重要性：Gallant 再次强调了选择正确且高效的感知表示 (perceptual representation) 对机器人学习鲁棒行为的关键作用。体素网格 (voxel grid) 在 3D 空间理解、轻量化和与 CNN 兼容性方面取得了很好的平衡，这对于处理复杂 3D 环境至关重要。
$z$ -分组 2D CNN 的巧妙设计：将 $z$ 轴（高度）视为通道，并在 x-y 平面进行 2D 卷积是一个非常巧妙的设计。它既利用了 2D 卷积的高度优化特性，又通过通道混合保留了垂直结构信息，有效解决了稀疏 3D 数据的处理效率问题，为资源受限的板载部署提供了可行方案。
高保真仿真与领域随机化：论文中详细描述的高保真 LiDAR 仿真（包括动态物体扫描、噪声、延迟等）以及全面的 领域随机化 (domain randomization) 对于实现成功的 模拟到现实迁移 (sim-to-real) 至关重要。这提醒研究者，仅仅拥有一个强大的模型是不够的，训练数据的质量和多样性，以及对 sim-to-real gap 的细致弥合同样关键。
端到端学习的潜力：Gallant 展示了单一端到端策略在处理多样化、复杂 3D 约束方面的强大能力，从地面障碍到侧向、头顶障碍，甚至多层结构。这种泛化能力是传统分层方法难以企及的。
Actor-Critic 中的 特权信息 (Privileged Information)：将 高程图 (height map) 作为 Critic 的 特权信息 而不用于 Actor 的设计，是一种在训练和部署之间进行权衡的有效策略。它既能利用 高程图 提供的有用训练信号，又避免了部署时 高程图 重建的延迟和噪声问题。

7.3.2. 批判与潜在改进

LiDAR 延迟的根本性限制：论文明确指出 LiDAR 延迟是主要瓶颈。虽然未来工作计划探索更低延迟的传感器，但这可能只是缓解而非根治问题。更进一步的思路可能是结合预测模型 (predictive models) 或多模态传感器融合 (multi-modal sensor fusion)。例如，利用相机数据（延迟较低但深度不精确）与 LiDAR 数据进行融合，或者训练一个能够预测未来 体素网格 状态的 模型 (model)，以弥补 LiDAR 观测的滞后。
Pile 地形的挑战：Pile 地形上的成功率相对较低（约 80%），且归因于 LiDAR 延迟。这暗示了在精细的 足部落点 (foothold placement) 任务中，对实时感知和精确预测的需求更为苛刻。除了传感器延迟，这是否也与体素分辨率（即使是 5cm）在非常细粒度的接触规划中仍显不足有关？也许需要更局部、更高分辨率的感知模块来辅助精细足部规划。
泛化能力与新颖障碍物：虽然 Gallant 在八种定义的复杂地形上表现出色，但其在完全 新颖 (novel)、非结构化 (unstructured) 且 未见 (unseen) 的真实世界环境中的泛化能力仍有待更广泛的验证。例如，表面摩擦力的剧烈变化、柔软或易碎的障碍物、复杂动态障碍物等。
奖励函数设计：奖励函数中 方向速度奖励 (directional velocity reward) 的 障碍物规避 (obstacle avoidance) 部分使用了复杂的权重和过滤机制。这种手工设计的奖励项虽然有效，但其鲁棒性和可扩展性仍需考量。未来的研究可以探索更自适应或从人类演示中学习的奖励函数设计。
计算资源消耗：尽管 $z$ -分组 2D CNN 比 3D CNN 更高效，但处理双 LiDAR 产生的 $32 \times 32 \times 40$ 体素网格并在 Orin NX 上实时运行仍需要相当的计算资源。对于更广泛的人形机器人平台，进一步优化计算效率（例如，通过 模型剪枝 (model pruning) 或 量化 (quantization)）可能是一个有价值的方向。
人类接受度 (Human Acceptability)：论文主要关注成功率和碰撞动量。对于人形机器人，其运动的“自然度”或“流畅度”对于人类接受度也很重要。碰撞动量 作为一个负面指标，可以反映碰撞强度，但不能完全捕捉运动质量。未来可以引入更具 人类偏好 (human preference) 的评估指标。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Gallant: Voxel Grid-based Humanoid Locomotion and Local-navigation across 3D Constrained Terrains

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 36 分钟读完 · 23,375 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 隶属机构

1.4. 发表期刊/会议

1.5. 发表年份

1.6. 摘要

1.7. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 问题表述

4.2. 高效LiDAR仿真

4.3. 体素表示和2D CNN感知

4.4. 地形设计

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.3. 对比基线

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 模拟实验结果

6.1.1.1. LiDAR 动态物体返回的必要性

6.1.1.2. zzz-分组 2D CNN 是最合适的选择

6.1.1.3. 体素网格和 高程图 的组合更优

6.1.1.4. 5cm 是 Gallant 的合适分辨率

6.1.2. 真实世界实验结果

6.1.3. 进一步分析

6.2. 消融实验/参数分析

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判与潜在改进

相似论文推荐

6.1.1.1. `LiDAR` 动态物体返回的必要性

6.1.1.2. $z$ -分组 2D `CNN` 是最合适的选择

6.1.1.3. `体素网格`和 `高程图` 的组合更优

6.1.1.4. `5cm` 是 Gallant 的合适分辨率