论文状态：已完成

WHOLEBODYVLA: TOWARDS UNIFIED LATENT VLA FOR WHOLE-BODY LOCO-MANIPULATION CONTROL

发表：2025/12/11

视觉-语言-动作模型 (3)机器人动作学习 (18)全身 humanoid 机器人控制 (1)基于低成本视频的动作学习 (1)动作-操控导向强化学习 (1)

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究提出了一个名为`WholeBodyVLA`的统一潜在视觉-语言-动作框架，旨在提高人形机器人在复杂运动-操作任务中的表现。该框架利用低成本的自我中心视频学习运动-操作知识，并通过定制强化学习策略促进精确控制。实验结果显示，该系统在运动-操作任务中性能提升达21.3%，展示了良好的泛化能力和扩展性。

摘要

Humanoid robots require precise locomotion and dexterous manipulation to perform challenging loco-manipulation tasks. Yet existing approaches, modular or end-to-end, are deficient in manipulation-aware locomotion. This confines the robot to a limited workspace, preventing it from performing large-space loco-manipulation. We attribute this to: (1) the challenge of acquiring loco-manipulation knowledge due to the scarcity of humanoid teleoperation data, and (2) the difficulty of faithfully and reliably executing locomotion commands, stemming from the limited precision and stability of existing RL controllers. To acquire richer loco-manipulation knowledge, we propose a unified latent learning framework that enables Vision-Language-Action (VLA) system to learn from low-cost action-free egocentric videos. Moreover, an efficient human data collection pipeline is devised to augment the dataset and scale the benefits. To execute the desired locomotion commands more precisely, we present a loco–manipulation–oriented (LMO) RL policy specifically tailored for accurate and stable core loco-manipulation movements, such as advancing, turning, and squatting. Building on these components, we introduce WholeBodyVLA, a unified framework for humanoid loco-manipulation. To the best of our knowledge, WholeBodyVLA is one of its kind enabling large-space humanoid loco–manipulation. It is verified via comprehensive experiments on the AgiBot X2 humanoid, outperforming prior baseline by 21.3%. It also demonstrates strong generalization and high extensibility across a broad range of tasks.

思维导图

论文精读

中文精读约 41 分钟读完 · 25,313 字

1. 论文基本信息

1.1. 标题

WHOLEBODYVLA: TOWARDS UNIFIED LATENT VLA FOR WHOLE-BODY LOCO-MANIPULATION CONTROL

1.2. 作者

Haoran Jiang, Jin Chen, Qingwen Bu, Li Chen, Modi Shi, Yanjie Zhang, Delong Li, Chuanzhe Suo, Chuang Wang, Zhihui Peng, Hongyang Li。作者来自多个机构，包括复旦大学 (Fudan University)、OpenDriveLab & 香港大学 MMLab (OpenDriveLab & MMLab at The University of Hong Kong) 和 AgiBot。其中 Haoran Jiang 和 Jin Chen 为共同一作，Zhihui Peng 和 Hongyang Li 为项目共同负责人。

1.3. 发表期刊/会议

论文于 2025 年 12 月 11 日发表，目前状态为预印本 (arXiv preprint)，尚未明确指出最终发表的期刊或会议。

1.4. 发表年份

2025年

1.5. 摘要

人形机器人需要精确的运动控制 (locomotion) 和灵巧的操作 (dexterous manipulation) 来执行具有挑战性的运动-操作 (loco-manipulation) 任务。然而，现有的方法，无论是模块化的还是端到端的，在考虑操作的运动控制 (manipulation-aware locomotion) 方面都存在不足。这使得机器人被限制在有限的工作空间内，无法执行大范围的运动-操作任务。作者将此归因于两个挑战：(1) 由于人形机器人遥操作数据稀缺，难以获取运动-操作知识；(2) 由于现有强化学习 (Reinforcement Learning, RL) 控制器的精度和稳定性有限，难以忠实可靠地执行运动指令。

为获取更丰富的运动-操作知识，本文提出了一种统一的潜在学习框架 (unified latent learning framework)，使视觉-语言-动作 (Vision-Language-Action, VLA) 系统能够从低成本、无动作的自我中心视频 (action-free egocentric videos) 中学习。此外，还设计了一种高效的人类数据收集管道 (human data collection pipeline) 来扩充数据集并扩大收益。为更精确地执行所需的运动指令，本文提出了一种面向运动-操作的强化学习策略 (loco-manipulation-oriented, LMO RL policy)，专门针对精确稳定的核心运动-操作动作（如前进、转弯和下蹲）进行定制。

基于这些组件，本文引入了 WholeBodyVLA，一个用于人形机器人运动-操作的统一框架。据作者所知，WholeBodyVLA 是同类研究中首次实现大范围人形机器人运动-操作的系统。通过在 AgiBot X2 人形机器人上进行的全面实验验证，WholeBodyVLA 的性能比现有基线提高了 21.3%。它还在广泛任务中展示了强大的泛化能力和高可扩展性。

1.6. 原文链接

https://opendrivelab.com/WholeBodyVLA/static/pdf/WholeBodyVLA.pdf 发布状态：预印本 (arXiv preprint)。

2. 整体概括

2.1. 研究背景与动机

人形机器人 (humanoid robots) 被广泛认为是实现通用具身智能体 (general-purpose embodied agents) 的领先载体，即能够在开放、以人为中心的环境中感知、推理和行动的系统。要实现这一愿景，需要灵巧的操作 (dexterous manipulation) 与敏捷的运动控制 (agile locomotion) 之间紧密协调。

核心问题与挑战： 尽管在基于强化学习的全身模仿 (whole-body imitation) 和运动-操作控制器方面取得了显著进展，以及视觉-语言-动作 (VLA) 系统在原地操作 (in-place manipulation) 方面近期爆发式增长，但人形机器人运动-操作的自主策略仍然受限。一个关键挑战是操作感知运动 (manipulation-aware locomotion)：即规划和执行主动为预期操作创造先决条件的运动——包括接近、定位和稳定——而不是将运动和操作视为独立的阶段。

现有方法存在两大缺陷：

数据稀缺性 (Data Scarcity): 缺乏大规模的、整合了人形机器人运动和操作的数据集。收集此类轨迹（无论是通过动作捕捉 (MoCap) 还是遥操作 (teleoperation)）都成本过高。没有这些数据，模型就无法获得足够的经验来学习满足操作场景的运动行为。
执行可靠性问题 (Execution Reliability Issues): 现有强化学习 (RL) 控制器在执行运动指令时精度和稳定性有限，导致高层决策与低层执行之间出现不匹配 (decision-execution misalignment)。这尤其体现在现有运动 RL 控制器常用的连续速度跟踪目标 (continuous velocity-tracking objective) 上，虽然适用于广泛的运动行为，但对于运动-操作所需的精细位置控制而言，训练难度大且可靠性低。

论文的切入点或创新思路： 本文旨在通过以下两方面来克服上述挑战：

利用低成本行动无关视频获取运动-操作知识： 借鉴人类通过观察他人来学习运动-操作技能的直觉，以及先前研究中人类演示视频在桌面操作中的有效性，提出从低成本、无动作的自我中心视频 (action-free egocentric videos) 中学习运动-操作行为，以缓解遥操作数据稀缺的问题。
定制化强化学习策略提升执行精度： 提出一种面向运动-操作的强化学习策略 (LMO RL policy)，通过简化的离散指令接口替代连续速度跟踪，专门针对核心运动-操作动作进行优化，从而提高运动执行的精确性和稳定性。

2.2. 核心贡献/主要发现

本文的主要贡献体现在其提出的 WholeBodyVLA 框架及其两个关键组成部分：

提出了 WholeBodyVLA 框架： 这是一个视觉-语言-动作 (VLA) 框架，使双足人形机器人能够自主地在真实世界环境中执行端到端的大范围运动-操作 (large-space loco-manipulation) 任务。这是首次实现此能力的同类系统。
引入了统一的潜在学习 (unified latent learning)： 该方法能够从大量低成本、无动作的视频中联合学习操作和运动控制，有效缓解了遥操作数据的稀缺问题。它通过分别训练操作潜在动作模型 (manipulation LAM) 和运动潜在动作模型 (locomotion LAM) 来处理两种不同类型视频数据的模态差异。
提出了面向运动-操作的强化学习策略 (LMO RL policy)： 该策略通过一个离散的指令接口来缓解决策与执行之间的不匹配，该接口专门为运动-操作任务定制，提供了更精确和稳定的底层控制。
实验验证和性能提升： 在 AgiBot X2 人形机器人上进行的综合实验表明，WholeBodyVLA 比现有基线性能提高了 21.3% 和 24.0%。它还在广泛任务中展示了强大的泛化能力和高可扩展性。

3. 预备知识与相关工作

3.1. 基础概念

理解本文需要掌握以下核心概念：

人形机器人 (Humanoid Robots): 模仿人类形态和运动方式的机器人，通常具有双足运动和双臂操作能力。
运动-操作 (Loco-Manipulation): 指机器人同时进行运动控制（如行走、转弯、下蹲）和物体操作（如抓取、放置、推动）的任务。这要求运动和操作紧密协调，而非独立执行。
具身智能体 (Embodied Agents): 存在于物理世界中并能与环境交互的智能系统。人形机器人是典型的具身智能体。
强化学习 (Reinforcement Learning, RL): 一种机器学习范式，智能体 (agent) 通过与环境的交互学习最优策略，以最大化累积奖励。它通过试错来学习。
模仿学习 (Imitation Learning, IL): 一种机器学习范式，智能体通过观察专家演示 (expert demonstrations) 来学习执行任务的策略，而不是直接通过奖励信号。通常需要大量的专家数据。
视觉-语言-动作 (Vision-Language-Action, VLA) 模型: 结合了视觉感知、语言理解和动作生成能力的模型。VLA 模型通常能够接收图像和文本指令作为输入，并输出机器人可以执行的动作。
潜在学习 (Latent Learning): 一种学习方法，旨在发现数据中隐藏的、抽象的表示或特征（即潜在变量）。在本文中，是指学习将视觉变化编码为离散的潜在动作。
潜在动作模型 (Latent Action Models, LAM): 一种通过潜在学习将视频帧之间的视觉变化编码为紧凑的、离散的潜在动作 (latent actions) 的模型。这些潜在动作可以作为高层策略的监督信号。
VQ-VAE (Vector Quantized Variational AutoEncoder): 一种变分自编码器 (Variational AutoEncoder, VAE) 的变体，它使用矢量量化 (vector quantization) 技术将连续的潜在空间离散化。这使得模型能够学习一个离散的代码本 (codebook)，每个代码代表一个离散的潜在表示。
- VAE (Variational AutoEncoder): 一种生成模型，旨在学习数据的潜在表示。它由一个编码器 (encoder) 将输入映射到潜在空间的分布，和一个解码器 (decoder) 从潜在空间重构输入。
- 矢量量化 (Vector Quantization): 将输入向量映射到离散代码本中最接近的“码字”或“嵌入”的过程。
自我中心视频 (Egocentric Videos): 从第一人称视角（通常是佩戴在头部或胸部的摄像头）拍摄的视频，模拟了人类观察和行动时的视角。
本体感受状态 (Proprioceptive States): 机器人自身的内部状态信息，如关节角度、关节速度、基座角速度、重力向量等，这些信息描述了机器人自身的姿态和运动，而无需外部感知。
操作感知运动 (Manipulation-Aware Locomotion): 一种运动策略，其目标不仅仅是移动机器人，更重要的是在移动过程中积极地为后续的操作任务创造有利条件（例如，调整姿态、接近目标、保持平衡以进行抓取）。

3.2. 前人工作

论文在引言和相关工作部分回顾了人形机器人控制和 VLA 模型领域的现有研究：

3.2.1. 人形机器人全身控制 (Humanoid Whole-Body Control)

运动-操作控制器 (Loco-Manipulation Controllers):
- 许多基于强化学习的全身控制器 (RL-based whole-body controllers) 采用速度跟踪接口 (velocity-tracking interface)，优化指令速度的每一步误差。例如 HOMIE (Ben et al., 2025)、AMO (Li et al., 2025a)、FALCON (Zhang et al., 2025a) 等。
- 局限性： 这种速度跟踪目标虽然适用于广泛的运动行为，但对启动/停止语义不明确，容易在不同速度下产生碎片化的步态，且对制动精度或航向保真度等运动-操作关键能力缺乏监督。上身影响通常被建模为与任务无关的噪声，限制了负载下的稳定性。现有方法如 HOMIE 的 PD 稳定臂、AMO 的轨迹优化混合方法、FALCON 的力学课程等，虽然提高了鲁棒性，但继承了速度中心训练的局限性，导致不一致的步态和不稳定的遥操作轨迹，阻碍了低层稳定性和高层 VLA 策略的学习。
高层规划器 (High-level Planners):
- RL 控制器通常缺乏直接处理 RGB 视觉或语言输入的能力，不足以进行自主任务执行。
- 一些工作探索了人形机器人高层规划。例如 LEVERB (Xue et al., 2025) 将潜在动词嵌入 RL 以进行低层 WBC 控制。其他系统如 R2S2 (Zhang et al., 2025b)、Being-0 (Yuan et al., 2025) 和 HEAD (Chen et al., 2025a) 使用由视觉-语言模型 (VLMs) 驱动的模块化规划器，将运动和操作作为离散技能进行序列化。
- 局限性： 这些框架受限于脆弱的技能边界（机器人常在运动后陷入不稳定或任务不可行的配置）和对基于云的感知的依赖（引入延迟并损害实时控制）。
VLA 框架扩展到人形机器人：
- Humanoid-VLA (Ding et al., 2025) 侧重于运动，而 GR00T (Bjorck et al., 2025) 针对人形机器人的操作；两者都强调一种模态而忽略了对无缝运动-操作任务执行至关重要的另一种原始能力。
- Boston Dynamics 的演示 (Boston Dynamics, 2025) 局限于有限的工作空间，并且严重依赖昂贵的全身运动-操作动作捕捉 (MoCap) 数据收集。
- 总结： 这些局限性凸显了对统一框架的需求，该框架应将视觉和语言与全身控制结合起来，实现人形机器人运动-操作而无需脆弱的模块化边界。

3.2.2. 视觉-语言-动作 (Vision-Language-Action, VLA) 模型

通用 VLA 系统： 借鉴多模态基础模型 (multimodal foundation models) 和大规模真实机器人轨迹的模仿学习 (imitation learning)，VLA 系统因其强大的泛化能力和灵巧操作能力而受到广泛关注。代表性工作包括 RT-2 (Brohan et al., 2023)、OpenVLA (Kim et al., 2024)、RDT (Liu et al., 2025)、Pi0 (Black et al., 2024) 和 Pi0.5 (Intelligence et al., 2025)。
- 局限性： 这些模型通常只强调上身操作，并未提供用于运动-操作任务所需的自主全身控制的统一端到端解决方案。
潜在动作学习 (Latent Action Learning):
- 机器人数据集的规模远小于视觉和语言领域。核心瓶颈在于带有动作标签的轨迹成本高昂（昂贵的遥操作系统、熟练的操作员和大量的收集时间）。
- 潜在动作学习通过避开显式动作标签来解决此问题：它将帧到帧的视觉变化压缩成紧凑的离散词元 (discrete tokens)，用以监督从无动作视频中学习策略。代表性方法包括 Genie (Bruce et al., 2024)、LAPA (Ye et al., 2025)、IGOR (Chen et al., 2024) 和 UniVLA (Bu et al., 2025b)。
- 总结： 这些研究表明，大量、跨具身、无动作的视频可以转化为 VLA 训练的有效监督信号。本文受此启发，并注意到大规模人形机器人运动-操作数据更难获得，因此以统一方式进行运动和操作的潜在动作学习，使人形机器人能够进行具有强大泛化能力的运动-操作。

3.3. 差异化分析

本文的 WholeBodyVLA 方法与现有工作的主要区别和创新点在于：

统一的运动-操作框架 (Unified Loco-Manipulation Framework): 区别于将运动和操作分离处理的模块化方法，或仅关注其中一种模态的端到端 VLA 系统（如 Humanoid-VLA 关注运动，GR00T 关注操作），WholeBodyVLA 首次提供了一个统一的端到端框架，能够在大范围真实世界场景中进行全身运动-操作。
克服数据稀缺性：统一潜在学习 (Unified Latent Learning):
- 从低成本无动作视频中学习： 大多数现有 VLA 模型依赖于昂贵的遥操作数据。WholeBodyVLA 通过引入统一潜在学习框架，能够从低成本、无动作的人类自我中心视频中学习丰富的运动-操作先验知识。
- 模态分离的潜在学习： 识别到运动和操作视频在视觉变化模式上的根本差异，提出分别训练操作 LAM 和运动 LAM，以避免混淆和提高学习效率，而不是使用单一共享 LAM。
解决决策-执行不匹配：面向运动-操作的强化学习策略 (LMO RL Policy):
- 离散指令接口： 针对现有 RL 控制器连续速度跟踪目标在运动-操作任务中存在的精度和稳定性问题，LMO 策略采用简化的离散指令接口，显式定义启动/停止语义，并减少轨迹方差，从而实现更精确、稳定的核心运动-操作动作执行。
- 两阶段课程学习与结构化扰动： 通过两阶段课程训练和引入模仿真实操作中惯性耦合的结构化扰动，增强策略的鲁棒性和稳定性，这与以往将上身影响视为任务无关噪声的方法不同。

4. 方法论

本文提出了 WholeBodyVLA，一个旨在使 VLA 模型具备可靠建立操作先决条件的运动原语的框架。它利用统一的潜在学习和面向运动-操作的强化学习 (LMO RL) 策略，使人形机器人能够完成长距离、大范围的任务。

4.1. 方法原理

WholeBodyVLA 的核心思想是通过解决人形机器人运动-操作的两大挑战来实现高效训练和部署：

数据稀缺性： 通过统一潜在学习，从低成本的无动作自我中心视频中获取丰富的运动-操作知识，作为 VLA 模型的潜在监督信号。
执行可靠性： 通过定制化的 LMO RL 策略，提供精确、稳定的底层运动控制，以忠实地执行高层 VLA 模型的运动指令。

4.2. 核心方法详解

4.2.1. 统一潜在动作模型 (Unified Latent Action Model, LAM)

核心思想是利用 LAM 从人类自我中心的操作和操作感知运动视频中学习操作和运动原语，然后用这些 LAM 来监督 VLA 训练。

痛点与解决方案： 作者发现，直接在混合数据上训练一个单一的 LAM 会导致次优性能。这归因于两种数据源的根本性模态差异：

操作视频中，摄像机姿态几乎是静态的，图像变化主要由手臂运动主导。
运动视频中，摄像机姿态持续变化，图像变化主要来自相对于移动摄像机的环境运动。这种差异导致 LAM 训练中的注意目标冲突和潜在编码歧义。 解决方案： 分别训练两个 LAMs：一个用于操作 (manipulation LAM)，一个用于运动 (locomotion LAM)。这两个 LAMs 然后共同用于监督 VLA 训练。

LAM 架构与训练细节： 本文采用 VQ-VAE (Vector Quantized Variational AutoEncoder) 架构，其编码器 (encoder) 基于 DINOv2 (Oquab et al., 2024) 特征构建。给定连续帧 $(o_t, o_{t+k})$ ：

编码器 (Encoder) $\mathcal{E}_i$ ： 首先将一对连续帧 $o_t$ 和 $o_{t+k}$ 编码成一个连续的潜在向量 $z_t$ 。 $z_t = \mathcal{E}_i (o_t, o_{t+k})$ 其中， $i \in \{\mathrm{mani}, \mathrm{loco}\}$ 表示该 LAM 是用于操作还是运动。
矢量量化 (Vector Quantization)： 连续潜在向量 $z_t$ 被量化到学习到的代码本 (codebook) $\mathcal{C}_i$ 中最近的条目 $c_t$ 。 $c_t = \mathrm{quantize} (z_t) := \arg\min_{c \in \mathcal{C}^i} \|z_t - c\|_2, \quad c_t \in \mathcal{C}_i$ 此处的 $c_t$ 就是离散的潜在动作。
解码器 (Decoder) $\mathcal{D}_i$ ： 接收前一帧 $o_t$ 和量化后的潜在动作 $c_t$ ，并被训练用于重构后一帧 $\hat{o}_{t+k}$ 。 $\hat{o}_{t+k} = \mathcal{D}_i (o_t, c_t)$
LAM 损失函数 (LAM Loss Function)： 重构通过最小化标准 VQ-VAE 损失进行优化。 $\mathcal{L}_{\mathrm{LAM}} = \mathcal{L}_{\mathrm{mse}} + \Vert \mathrm{sg}[c_t] - z_t \Vert_2^2 + \beta \left. c_t - \mathrm{sg}[z_t] \right|_2^2$
- $\mathcal{L}_{\mathrm{mse}} = |o_{t+k} - \hat{o}_{t+k}|_2^2$ 是均方误差 (Mean Squared Error)，用于衡量重构质量。
- $\Vert \mathrm{sg}[c_t] - z_t \Vert_2^2$ 是“编码器到代码本”的距离项，确保编码器输出的 $z_t$ 靠近代码本中的码字。sg[.] (stop-gradient) 意味着在反向传播时，这个项只更新编码器，不更新代码本。
- $\beta \left. c_t - \mathrm{sg}[z_t] \right|_2^2$ 是“代码本到编码器”的距离项，确保代码本的码字能够靠近编码器的输出 $z_t$ 。sg[.] 意味着在反向传播时，这个项只更新代码本，不更新编码器。
- $\beta$ 是承诺成本 (commitment cost)，一个超参数，控制码字更新的强度。

VLA 训练 (VLA Training)： LAM 预训练完成后，VLA 策略 $\pi_{\theta}$ 被训练来根据视觉观察 $o_t$ 和任务语言指令 $\ell$ 共同预测两种类型的潜在动作 $c_t^{\mathrm{mani}}$ 和 $c_t^{\mathrm{loco}}$ 。这通过最大化似然估计 (Maximum Likelihood Estimation, MLE) 和交叉熵损失 (Cross-Entropy loss) 来实现： $\min_{\theta} [ - \log \pi_{\theta} (c_t^{\mathrm{mani}}, c_t^{\mathrm{loco}} \mid o_t, \ell) ]$ 这种统一的预测迫使模型学习如何在单一、内聚的动作空间中进行运动和操作的交互，以支持任务执行。

执行 (Execution) 到机器人： 为了在人形机器人上部署，引入了一个轻量级解码器 $f$ 将潜在动作映射到机器人特定的控制指令： $a_t = f (\hat{c}_t^{\mathrm{mani}}, \hat{c}_t^{\mathrm{loco}}, s_t)$ 其中 $s_t$ 是机器人状态， $\hat{c}_t^{\mathrm{mani}}$ 和 $\hat{c}_t^{\mathrm{loco}}$ 是预测的潜在动作。解码器产生两个输出：

上身关节角度 (upper-body joint angles)，用于操作。
运动指令 (locomotion command)，用于低层 RL 控制器。通过这种分工，VLA 提供统一的潜在决策，解码器将其转换为特定于具身 (embodiment-specific) 的控制信号，RL 策略确保稳定执行，从而在实践中实现全身运动-操作。

操作感知运动数据收集细节： 设计了一个低成本、高效的数据收集管道，仅需要一名操作员佩戴头戴式摄像头。

相机： Intel RealSense D435i RGB-D 摄像头和 GoPro 摄像头（提供更大的视野）。
操作员任务： 执行各种运动-操作任务，包括前进、转弯、下蹲等运动，并接触潜在的操作目标，确保运动数据与运动-操作学习直接相关。下图（原文 Figure 4）展示了低成本自我中心数据收集和 LAM 预训练的管道。

该图像是示意图，展示了低成本人类数据收集和潜在行动模型的结构。左侧部分展示了操作员在执行 locomotion 和 manipulation 时的动作捕捉，右侧部分展示了编码器和解码器的处理流程，以及统一动作用的代码本。

4.2.2. 面向运动-操作的强化学习策略 (Loco-Manipulation-Oriented, LMO RL Policy)

LMO RL 框架旨在解决高层决策和低层执行之间的不匹配问题，这主要是由于现有 RL 控制器中使用的连续随机速度跟踪目标导致的。LMO 通过用离散指令接口替换速度跟踪，实现更忠实的执行。

问题表述 (Problem Formulation)： 将下身控制表述为目标条件调节 (goal-conditioned regulation)，策略的目标是在保持平衡的同时忠实地执行离散的高层指令。在每个时间步 $t$ ，规划器发布一个命令： $u_t = [s_x, s_y, s_{\psi}, h^{\star}] \in \{-1, 0, 1\}^3 \times \mathbb{R}$

$s_x, s_y, s_{\psi}$ 是离散的启动/停止标志，分别用于前进/后退 ( $s_x$ )、侧向移动 ( $s_y$ ) 和偏航旋转 ( $s_{\psi}$ )。
$h^{\star}$ 是期望的站立高度 (stance height)。这种指令接口提供了明确的启动/停止执行语义，与基于速度的目标不同，后者在训练不同参考速度时可能产生不一致或不稳定的步态。

观察空间 (Observation Space)： 策略仅接收纯粹的本体感受输入 (proprioceptive inputs) 及短期历史堆栈 (short history stack)： $O_t = \Big[ u_t, \omega_t, \mathbf{g}_t, \mathbf{q}_t, \dot{\mathbf{q}}_t, \mathbf{a}_{t-1} \Big]$

$u_t$ : 当前离散指令。
$\omega_t \in \mathbb{R}^3$ : 基座角速度 (base angular velocity)。
$\mathbf{g}_t \in \mathbb{R}^3$ : 重力向量 (gravity vector)。
$\mathbf{q}_t, \dot{\mathbf{q}}_t$ : 关节位置 (joint positions) 和速度 (velocities)。
$\mathbf{a}_{t-1}$ : 前一动作 (previous action)。这种设计避免了依赖特权模拟器信息，且足以维持闭环平衡。

参考整形 (Reference Shaping)： 由于意图 $s_k$ 是三元值，为了防止冲动性加速，将其转换为平滑的速度参考： $v_k^{\mathrm{ref}} (t) = v_k^{\mathrm{goal}} \tanh \left[ \alpha \left( s_k - \bar{s}_k (t) \right) \right], \quad \bar{s}_k (t) \gets (1 - \lambda) \bar{s}_k (t - 1) + \lambda s_k$

$v_k^{\mathrm{goal}}$ 是目标速度幅值。
$\tanh(\cdot)$ 是一种饱和非线性函数（注：原文在正文和附录中对此处描述略有不同，正文为 tanh，附录为 sigma，但均指饱和非线性函数），确保可预测的开关转换。
$\bar{s}_k$ 是指数平滑的标志 (exponentially smoothed flag)。
$\alpha$ 和 $\lambda$ 是控制平滑度的超参数。这确保了可预测的开/关转换并减少振荡。

两阶段课程 (Two-stage Curriculum)： LMO 策略采用两阶段训练方案，首先获取最小运动技能，然后将其专门用于精确和稳定的运动-操作。

阶段 I (Stage I) - 基础步态获取 (basic gait acquisition)：
- 目标：让策略学习最小步态，防止摔倒并响应离散指令。
- 对于每个轴 $k \in \{x, y, \psi\}$ ，如果 $s_k \neq 0$ ，则采样目标速度大小 $v_k^{\mathrm{goal}} \sim \mathcal{U}([0, v_k^{\mathrm{max}}])$ ；否则 $v_k^{\mathrm{goal}} = 0$ 。
- 上身：手臂跟踪按固定间隔重新采样并插值以实现平滑运动的姿态目标。关节限制通过课程因子逐渐放松，使腿部暴露于逐渐增强的干扰中。
- 效果：使策略能够发展出防止摔倒的基础步态，为后续的精细化提供稳定基础。
阶段 II (Stage II) - 精度和稳定性 (precision and stability)：
- 目标：进一步针对运动-操作级别的精度和稳定性进行优化。
- 运动方面：
  - 固定每轴巡航速度为常数 ( $v_k^{\mathrm{goal}} = \bar{v}_k$ )，以防止碎片化的步态。
  - 方向精度通过终止时的偏差进行测量和惩罚： $\mathcal{I}_{\mathrm{dir}} = | \mathrm{wrap} ( \psi_{\mathrm{end}} - \psi_{\mathrm{start}} ) |$ 其中，一个回合 (episode) 在任何轴标志从 0 变为 $\pm 1$ 时开始，并在其返回 0 且基座稳定时结束。最小化 $\mathbb{E}[\mathcal{I}_{\mathrm{dir}}]$ 强制精确启动、稳定巡航和一致制动。
- 操作方面：
  - 通过从 AgiBot-World (Bu et al., 2025a) 采样短臂运动片段，将其插值成连续信号，并以不同速率和轻微噪声回放，注入真实的扰动。这迫使腿部补偿结构化的惯性耦合，而不是非结构化的扰动。
  - 扰动生成： $\omega_{i+1} = \min (L, \omega_i + (\gamma + \delta_i) \Delta t), \quad \omega_0 = 0$ 其中 $L \sim \mathrm{Unif}[0.8, 2.5]$ ， $\gamma \sim \mathrm{Unif}[0.8, 1.5]$ ，和 $\delta_i \sim \mathrm{Unif}[-0.25, 0.25]$ 。每步目标关节角度由以下公式给出： $q_i^{\mathrm{tar}} = q^{\mathrm{arm}}(\omega_i) \dot{+} \varepsilon_i \quad \text{with } \varepsilon_i \stackrel{\cdot}{\sim} \mathcal{N}(\stackrel{\cdot}{0}, 0.05^2)$ 这种结构化扰动使腿部能够补偿真实的惯性耦合。
- 静止惩罚 (Stand-still penalty)：
  - 对于静止回合 ( $s_x = s_y = s_{\psi} = 0$ )，添加静止惩罚以阻止不必要的腿部动作： $\mathcal{T}_{\mathrm{stand}} = \| a_i^{\mathrm{leg}} \|_2^2$
  - 这鼓励策略在没有运动指令时保持静止，确保平衡。
    
    这些设计共同产生了稳定、可重复的步态和可靠的全身协调，避免了速度跟踪目标常引起的碎片化运动模式。

5. 实验设置

5.1. 数据集

LMO 控制器训练数据： LMO 控制器及其基于速度的基线是在模拟环境中单独训练的，并且在遥操作数据收集和最终部署期间保持固定。
LAM 训练数据：
- 运动 LAM (Locomotion LAM): 训练于作者自己收集的低成本自我中心运动视频。作者设计了一个数据收集管道，只需要一名操作员佩戴头戴式相机进行记录。收集了约 300 小时的视频，涵盖各种场景和运动原语（前进、转弯、下蹲），并与潜在操作目标对齐。
- 操作 LAM (Manipulation LAM): 训练于 AgiBot World (Bu et al., 2025a) 数据集，这是一个最大的真实机器人操作数据集之一。
- 共享 LAM (Shared LAM) 变体： 在混合数据上训练，平衡采样。
VLA 训练数据：
- 预训练 (Pretraining)： WholeBodyVLA 的预训练分两步：第一步在大量自我中心操作和操作感知运动视频上预训练分离的 LAMs；第二步 VLA 在同一语料库上训练，使用 LAM 代码作为伪动作标签来预测两种潜在动作。
- 微调 (Finetuning)： 所有方法（包括 WholeBodyVLA 和基线）都在相同的 AgiBot-X2 遥操作轨迹数据上进行微调。这些数据通过物理机器人遥操作收集，Meta Quest Pro 头戴式设备提供上身 VR 遥操作，操纵杆提供运动指令。每个任务执行 50 次以获取多样化轨迹。

5.2. 评估指标

本文采用任务成功率 (Success Rate) 作为主要评估指标，并在 LMO 策略的消融实验中引入了运动精度和操作稳定性指标。

任务成功率 (Success Rate):
- 概念定义： 衡量机器人在执行指定任务时，能否成功完成所有子目标 (subgoals) 的百分比。一个任务通常被分解为多个顺序的子目标。如果一个子目标失败，后续的子目标将自动被计为失败。
- 数学公式： $\text{Success Rate} = \frac{\text{Number of Successfully Completed Tasks}}{\text{Total Number of Trials}} \times 100\%$
- 符号解释：
  - $\text{Number of Successfully Completed Tasks}$ ：成功完成所有子目标的任务数量。
  - $\text{Total Number of Trials}$ ：总共尝试的任务次数（本文中每个任务 25 次）。
- 评估流程： 两位独立的裁判员（对数据收集过程不知情）对每个子目标的成功/失败进行裁定，并达成共识标签。任务顺序随机化，裁判员对当前执行的策略盲知，以减少主观变异性。
运动精度 (Locomotion Accuracy):
- 概念定义： 衡量机器人在执行特定运动原语（如前进、侧向移动、转弯）时，其最终位置和方向与目标位置和方向的偏差。
- 数学公式 (位置误差): 通常为欧几里得距离，在本文中报告为均值 $\pm$ 标准差。 $\text{Position Error} = \sqrt{(x_{\text{end}} - x_{\text{ref}})^2 + (y_{\text{end}} - y_{\text{ref}})^2 + (z_{\text{end}} - z_{\text{ref}})^2}$
- 数学公式 (偏航方向误差): 衡量终止时姿态与参考姿态的偏差，在本文中报告为均值 $\pm$ 标准差。 $\text{Yaw Orientation Error} = |\mathrm{wrap}(\psi_{\text{end}} - \psi_{\text{ref}})|$
- 符号解释：
  - $(x_{\text{end}}, y_{\text{end}}, z_{\text{end}})$ ：机器人终止时的实际位置。
  - $(x_{\text{ref}}, y_{\text{ref}}, z_{\text{ref}})$ ：目标参考位置。
  - $\psi_{\text{end}}$ ：机器人终止时的实际偏航角。
  - $\psi_{\text{ref}}$ ：目标参考偏航角。
  - $\mathrm{wrap}(\cdot)$ ：将角度限制在 $[-\pi, \pi]$ 区间内。
- 评估流程： 在 MuJoCo 模拟环境中进行。每个试验包括 5 秒恒定指令的激活阶段和 10 秒零指令的稳定阶段。指标仅在稳定阶段计算，相对于激活阶段积分得到的参考姿态，捕捉控制器停止和稳定时的精度。
操作稳定性 (Manipulation Stability):
- 概念定义： 衡量机器人在站立或下蹲姿态下，受到上身操作和外部扰动时，其身体重心 (Center-of-Mass, CoM) 保持稳定的能力。
- 数学公式 (CoM Sway): 定义为水平 CoM 投影的均方根偏差 (RMS deviation)。 $\mathrm{CoM~Sway} = \sqrt{\frac{1}{T} \int_0^T \|\mathbf{c}(t) - \bar{\mathbf{c}}\|^2 dt}$
- 符号解释：
  - $T$ ：测量时间段。
  - $\mathbf{c}(t) \in \mathbb{R}^2$ ：时间 $t$ 时的水平 CoM 轨迹。
  - $\bar{\mathbf{c}}$ ：水平 CoM 轨迹在时间 $T$ 内的平均值。
- 评估流程： 在 MuJoCo 模拟环境中进行。在测试期间，回放上身轨迹，并施加随机外部力（推力）和扭矩。较低的 CoMS 值表示更好的平衡。
相对重构增益 (Relative Reconstruction Gain, RRG):
- 概念定义： 一种内部指标，用于直接评估潜在动作模型 (LAM) 的质量。它量化了 LAM 预测的未来帧重构误差相对于简单的时间基线（直接复制前一帧）的相对减少程度。较高的 RRG 表明 LAM 提供了更具预测性的潜在代码。
- 数学公式： $\mathrm{RRG} = \frac{\mathrm{MSE}_{\mathrm{base}} - \mathrm{MSE}_{\mathrm{recon}}}{\mathrm{MSE}_{\mathrm{base}}}$
- 符号解释：
  - $\mathrm{MSE}_{\mathrm{recon}} = \mathrm{MSE}(\hat{o}_{t+k}, o_{t+k})$ ：LAM 预测的未来帧 $\hat{o}_{t+k}$ 与真实未来帧 $o_{t+k}$ 之间的均方误差。
  - $\mathrm{MSE}_{\mathrm{base}} = \mathrm{MSE}(o_t, o_{t+k})$ ：简单的时间基线（直接复制前一帧 $o_t$ 作为预测）与真实未来帧 $o_{t+k}$ 之间的均方误差。

5.3. 对比基线

本文将 WholeBodyVLA 与多种代表性方法进行了比较，包括模块化方法、现有的 VLA 框架以及 WholeBodyVLA 的消融变体。

1. 模块化设计 (Modular Design):

描述： 模拟一个模块化管道，其中导航模块由人类遥操作员（佩戴 FPV 头戴式设备，仅通过操纵杆控制运动）替代。当导航完成后，控制权移交给 WholeBodyVLA 进行操作，操作完成后再返回给人类操作员。
代表性： 用于评估模块化管道的性能上限，它将高层规划和低层控制进行了分离。

2. GR00T w/ LMO (GR00T N1.5):

描述： GR00T N1.5 (Bjorck et al., 2025) 是一个近期的大型基础模型，用于通用人形机器人控制。为了公平比较，其输出被调整为预测运动指令，而不是直接预测下身关节动作，这些指令由 WholeBodyVLA 的 LMO 控制器执行。
代表性： 作为一个先进的 VLA 框架，用于全身控制，但此处通过 LMO 控制器与 WholeBodyVLA 的底层控制保持一致，从而隔离了高层推理能力与低层运动稳定性问题。

3. OpenVLA-OFT w/ LMO (OpenVLA-OFT):

描述： OpenVLA-OFT (Kim et al., 2025) 与 WholeBodyVLA 共享相同的 Prismatic-7B 初始化。它被训练来预测上身关节动作和运动指令，这些指令同样由 WholeBodyVLA 系统中的 LMO 控制器执行。
代表性： 作为另一个具有相似初始化的大型 VLA 模型，用于评估在统一底层控制器下的 VLA 架构和训练方法的差异。

4. WholeBodyVLA 的消融变体 (Ablated Variants of WholeBodyVLA):

a) WholeBodyVLA w/o RL： VLA 直接预测下身关节动作，不使用 LMO 策略。
- 目的： 评估 LMO RL 策略的贡献，即其提供的稳定、精确底层控制的重要性。
b) WholeBodyVLA w/ Velocity-Based RL： 将 LMO 替换为传统的基于速度的 RL 控制器（从 HOMIE (Ben et al., 2025) 复现并改进）。
- 目的： 评估 LMO 策略相对于传统速度跟踪控制器的优势，特别是在解决决策-执行不匹配问题上。
c) WholeBodyVLA w/o LAM： VLA 直接从 Prismatic-7B 微调，没有进行统一潜在学习。
- 目的： 评估统一潜在学习（从无动作视频中学习先验知识）对性能的贡献。
d) WholeBodyVLA w/ Manipulation LAM： 仅使用操作潜在学习进行训练，没有进行操作感知运动预训练。
- 目的： 评估运动感知预训练在统一潜在学习中的重要性，尤其是在需要大量运动的任务中。
e) WholeBodyVLA w/ Shared LAM： 统一潜在学习在混合数据上进行，但没有进行模态分离（即，使用一个单一的 LAM 来处理操作和运动数据）。
- 目的： 评估分离训练运动 LAM 和操作 LAM 的必要性，以及这种分离处理模态差异的有效性。
  
  这些基线和消融实验共同涵盖了模块化、端到端以及 WholeBodyVLA 设计选择的各种配置，提供了全面评估。

5.4. 训练和部署细节

LAM 和 VLA 训练：
- LAMs 在 8x NVIDIA H100 GPU 上训练，固定训练步数为 30,000 步，总批次大小为 256。
- VLA 从 Prismatic-7B 预训练模型开始，训练步数为 20,000 步，总批次大小为 1024。
- 微调阶段：VLA 使用 LoRA (Hu et al., 2022) 在任务特定数据上微调。针对 4.2 节的实验，在一个模型上微调所有三个任务，而不是针对每个任务进行特定微调。微调总批次大小为 64，持续 10,000 步。
LMO 控制器训练： 在单个 NVIDIA H100 上训练。
部署：
- VLA 在 RTX 4090 GPU 工作站上运行。
- RL 策略部署在 NanoPi 板载计算机上。
- VLA 和机器人之间通过 ZeroMQ (基于以太网) 进行通信，实现低延迟指令流。
- LMO 策略以 50 Hz 运行在本体感受输入上。
- VLA 主干网络以约 10 Hz 运行，用于感知和推理。

5.5. 硬件与数据收集细节

硬件平台： AgiBot X2 人形机器人原型（图 5）。
- 臂：7 自由度 (DoF) 机械臂，配备 Omnipicker 夹持器。
- 腿：6 DoF。
- 腰部：1 DoF。
- 视觉：头部安装 Intel RealSense D435i RGB-D 摄像头，提供同步 RGB 流。
遥操作数据收集：
- 上身：Meta Quest Pro 头戴式设备提供自我中心 VR 遥操作。
- 运动：通过操纵杆发出运动指令。
- 每个任务执行 50 次，以获取多样化的训练轨迹。以下是原文 Figure 5 的图片：
  
  该图像是一个示意图，展示了遥操作系统如何通过RGB输入设备和逆运动学控制人形机器人。图中显示了遥操作用的虚拟现实设备、手柄及对应的人形机器人，说明了 locomotion 命令的输入流程。

5.6. 模拟设置 (针对 LMO 消融实验)

仿真环境： MuJoCo 仿真器，使用 AgiBot X2 模型。固定模拟时间步长和控制频率。
运动跟踪精度测试：
- 测试三种基本运动原语：前进/后退行走 ( $|v_x| = 0.3 \mathrm{m/s}$ )，侧向移动 ( $|v_y| = 0.3 \mathrm{m/s}$ )，原地转弯 ( $|w_z| = 0.3 \mathrm{rad/s}$ )。
- 每个试验：5 秒恒定指令的激活阶段，随后是 10 秒零指令的稳定阶段。
- 指标：在稳定阶段计算，相对于激活阶段积分得到的参考姿态。报告位置误差 (m) 和偏航方向误差 (rad) 的均值 $\pm$ 标准差。
操作稳定性测试：
- 测试两种姿态：站立和下蹲。
- 扰动：回放来自 aligned_joints.h5 的 14 自由度上身轨迹（2.0 倍速度，1.5 倍幅度，高斯噪声 $\sigma = 0.02$ ）。施加随机外部力（水平推力高达 150N）和偏航扭矩（高达 30Nm），持续 0.2 秒，大约每 2.5 秒注入一次，带有时间抖动。
- 指标：通过重心摆动 (Center-of-Mass Sway, CoMS, m) 来量化稳定性。CoMS 定义为水平 CoM 投影的均方根偏差。报告均值 $\pm$ 标准差。
控制和观察： 腿部通过 PD 扭矩控制，使用映射到 URDF 关节的策略输出。稳定性实验中，手臂遵循回放轨迹；否则保持静止。观察构建和关节顺序与训练保持一致，避免分布漂移。

6. 实验结果与分析

6.1. 核心结果分析

本文通过三个任务套件（每个包含多个子目标和多样化的运动-操作原语）来评估 WholeBodyVLA 的性能，并与多种基线进行比较：

打包任务 (Bag Packing): 需要稳定的侧向移动和精确的双臂操作。
箱子装载任务 (Box Loading): 涉及协调转弯、下蹲和物体放置，同时保持平衡。
推车任务 (Cart Pushing): 需要持续向前运动和可靠的航向控制。

以下是原文 Table 2 的结果：

Method	Bag Packing		Box Loading		Cart Pushing		Avg. Score
Method	Grasp Bags	Move & Squat	Squat & Grasp	Rise & Turn	Grab Handle	Push Ahead	Avg. Score
Modular Design	22/25	12/25	9/25	9/25	22/25	22/25	64.0%
GRO0T w/LMO	20/25	10/25	6/25	4/25	12/25	11/25	42.0%
OpenVLA-OFT w/LMO	19/25	6/25	12/25	12/25	22/25	14/25	56.7%
WholeBodyVLA (ours)	23/25	13/25	19/25	17/25	23/25	22/25	78.0%
WholeBodyVLA w/o RL	-	-	-	-	-	-	-
w/ vel.-based RL	22/25	1/25	16/25	3/25	24/25	15/25	54.0%
w/o lam	15/25	4/25	8/25	6/25	16/25	10/25	39.3%
w/ manip. lam	24/25	7/25	17/25	11/25	20/25	14/25	63.3%
w/ shared lam	18/25	11/25	16/25	16/25	20/25	18/25	66.0%

核心结果：

WholeBodyVLA 在所有任务中都取得了最高的成功率，平均得分为 78.0%，显著优于模块化和端到端基线。
对比基线：
- Modular Design (64.0%)：虽然在某些子任务（如抓取、推车）表现尚可，但在需要运动和操作协调的子任务（如 Move & Squat、Squat & Grasp、Rise & Turn）表现不佳，整体不如 WholeBodyVLA。这支持了 WholeBodyVLA 统一框架的优势。
- $GR00T w/LMO$ (42.0%) 和 OpenVLA-OFT w/LMO (56.7%)：这两个 VLA 基线，即使在与 LMO 控制器结合后，性能仍低于 WholeBodyVLA。这表明 WholeBodyVLA 的统一潜在学习和特定设计使其在高层推理方面更优。

WholeBodyVLA 各组件的贡献：

LMO 策略的贡献：
- WholeBodyVLA (78.0%) 对比 w/ vel.-based RL (54.0%)：LMO 策略的引入使成功率提高了 24.0%。这个差距的 91.7% 来自每个任务的第二个子目标，这些子目标包含了大部分的运动控制，这有力地证明了 LMO 在解决底层运动执行问题上的有效性。
统一潜在学习的贡献：
- WholeBodyVLA (78.0%) 对比 w/o lam (39.3%)：在没有潜在学习的情况下，成功率大幅下降 38.7%，表明统一潜在学习从无动作视频中提取了有用的先验知识，并增强了下游策略学习。
- WholeBodyVLA (78.0%) 对比 w/ manip. lam (63.3%)：仅有操作潜在学习的变体表现不如完整模型，尤其是在需要大量运动的任务上。这强调了运动感知预训练的重要性。
- WholeBodyVLA (78.0%) 对比 w/ shared lam (66.0%)：共享 LAM 的变体表现略低于单独的 LAM 设计，这表明分离的 LAMs 在处理不同模态数据时具有优势，尽管这种优势不是压倒性的主要因素。

6.2. 行动无关视频对运动-操作的贡献 (Q2)

为了回答“从行动无关视频中学习是否能提高性能并减少对遥操作数据的依赖？”这个问题，作者进行了以下实验：

WholeBodyVLA 与 WholeBodyVLA w/o LAM 对比： 如 Table 2 所示，完整模型 (78.0%) 比 w/o LAM 变体 (39.3%) 成功率提高了 38.7%。这强有力地表明，统一潜在学习从无动作人类视频中提取了有用的先验知识，并增强了下游策略学习。
分离 LAM 与共享 LAM 对比： w/ shared lam 变体 (66.0%) 略低于 WholeBodyVLA (78.0%)，这表明解耦两个 LAMs 是有益的，但并非主要因素。
操作 LAM 与完整潜在学习对比： 仅在原地操作上进行潜在学习的变体 (w/ manip. lam, 63.3%) 性能不如完整的预训练模型 (WholeBodyVLA, 78.0%)，差距为 14.7%。最大的提升体现在需要大量运动然后进行操作的任务上。

数据泛化能力下的数据缩放 (Data scaling under generalization settings)： 作者进一步通过泛化实验（改变起始姿态、改变物体、布局和外观）来评估潜在学习如何提高模型性能并减少对遥操作数据的依赖。

以下是原文 Figure 3 的图片：

Figure 3: Real-world generalization of WholeBodyVLA. Top: variations in robot start-pose and scene appearance, with data-scaling curves. Bottom: comparison on extended tasks with different baselines. See videos on https:/ /opendrivelab. com/WholeBodyVLA. 该图像是图表，展示了WholeBodyVLA的实际场景泛化能力。上部显示了机器人起始姿势和场景外观的变化，并附有数据缩放曲线；下部比较了不同基线在扩展任务上的表现。

起始姿态泛化 (图 3a)：
- 比较了预训练时使用 0%、25%、50% 和 100% 人类自我中心视频的模型（都使用 100% AgibotWorld 数据）。
- 结果显示，使用更多人类视频进行预训练的模型始终表现更好。
- 值得注意的是，预训练时使用超过 50% 人类视频的模型，即使仅用 25 条遥操作轨迹进行微调，其性能也能与使用少于 25% 人类视频但需要 200 条轨迹微调才能达到相似性能的模型相匹配。这表明强大的潜在预训练可以显著减少对昂贵的遥操作数据的需求。
场景泛化 (图 3b)：
- 比较了 AgibotWorld 数据量不同的潜在学习模型（都使用 100% 人类视频）。
- 趋势与运动泛化类似：更强的潜在预训练带来了更高的成功率，并减少了所需的微调数据量。
  
  结论： 人类自我中心视频和统一潜在学习显著提高了 VLA 的泛化能力，同时减少了对遥操作数据的依赖。在给定相同微调预算的情况下，更强的潜在预训练始终能带来更高的性能。

6.3. LMO 对运动-操作的贡献 (Q3)

为了回答“LMO 如何对运动-操作做出贡献？”，作者进行了以下实验：

WholeBodyVLA 与基于速度的 RL 控制器对比 (Table 2)：
- 如 Table 2 所示，基于速度的控制器 (w/ vel.-based RL, 54.0%) 整体成功率比 WholeBodyVLA (78.0%) 低 24.0%。
- 这个差距的 91.7% 来自每个任务的第二个子目标，这些子目标包含了大部分的运动。这表明 LMO 策略在需要精确运动的场景中表现出显著优势。
扩展任务上的压力测试 (图 3c)：
- 在不平坦地形穿越、长多步序列和沿着地面标记进行视觉导航等扩展任务中，基于速度的 RL 控制器 (用蓝色条表示) 的失败率远高于 WholeBodyVLA (用绿色条表示)。
- 这些失败主要源于传统基于速度的控制器次优行为，例如绊倒、路径偏差或在前进时转弯，这些错误与高层 VLA 决策无关。
- 结论： LMO RL 策略有效缓解了这个问题，这对于可靠的长距离多步运动-操作至关重要。
LMO 设计的消融实验 (Table 3)： 在 MuJoCo 模拟环境中进行了受控消融实验，以深入理解 LMO 策略各组件的贡献。

以下是原文 Table 3 的结果：

Method	Locomotion Accuracy (Pos. / Quat. Error)			Manipulation Stability (CoMS)
Method	Forward&Backward	Left&Right	Turning	Standing	Squatting
LMO (ours)	0.21±0.01 /0.05±0.01	0.55±0.01/0.06±0.01	0.05±0.01/0.19±0.01	0.03±0.02	0.03±0.02
LMO w/o Eq. 3	0.24±0.02 / 0.07±0.01	0.61±0.02 /0.09±0.01	0.05±0.01/0.28±0.02	0.04±0.03	0.03±0.02
LMO w/o stage 2	0.27±0.02 /0.09±0.01	0.72±0.03/0.11±0.02	0.20±0.01 / 0.32±0.03	0.05±0.04	0.07±0.03
LMO w/o stage 1	0.30±0.03 /0.11±0.01	0.66±0.04 /0.13±0.03	0.46±0.01/0.34±0.04	0.05±0.03	0.04±0.03
Vel.-based policy	0.24±0.04 / 0.12±0.02	0.60±0.05/0.17±0.06	0.26±0.01 / 0.20±0.06	0.06±0.04	0.05±0.04

LMO w/o Eq. 3 (移除方向精度奖励): 导致转弯精度下降（偏航方向误差从 0.19 增加到 0.28）。这证实了方向精度奖励对提高转弯准确性的重要性。
LMO w/o stage 2 (移除第二阶段): 增加了轨迹误差和下蹲时的晃动（例如，下蹲 CoMS 从 0.03 增加到 0.07）。这表明第二阶段的精确性和稳定性优化对于运动-操作级别的性能至关重要。
LMO w/o stage 1 (移除第一阶段): 策略未能获得稳定的步态，导致整体误差最大。这证实了第一阶段基础步态获取对于建立稳定运动基础的必要性。
Vel.-based policy (基于速度的策略): 相比 LMO，在运动精度和操作稳定性上表现更差。例如，转弯的偏航方向误差为 0.20，高于 LMO 的 0.19，且在站立和下蹲时的 CoMS 也更高。

结论： 这些结果证实了离散指令接口、两阶段课程训练和结构化扰动对于精确轨迹跟踪和稳定全身协调都至关重要。

6.4. `WholeBodyVLA` 对长周期和扩展运动-操作场景的泛化能力 (Q4)

为了回答“WholeBodyVLA 是否能泛化到长周期和扩展运动-操作场景？”，作者评估了其在更具挑战性场景下的可扩展性。

扩展任务的性能 (图 3c)： 图 3c 底部显示了五种扩展任务，包括：
1. 穿越不平坦地形 (uneven-terrain traversal)
2. 执行长周期多步序列 (long multi-step sequences)
3. 沿着地面标记进行视觉导航 (following extended floor markings for visual navigation)
4. 擦拭桌子 (wiping a table)
5. 吸尘 (vacuum cleaning) WholeBodyVLA 在所有这些设置中都保持了卓越的性能，这表明该框架可以超越基准任务进行扩展，同时保持强大的泛化能力。
额外的视觉泛化能力 (图 6)： 作者通过修改被操作物体及其负载，同时保持场景布局固定，对三个运动-操作任务进行了扰动，以测试视觉泛化能力。
- 打包任务： 更换了外观、尺寸和重量不同的纸袋。
- 箱子装载任务： 箱子内的袋子被塑料容器替换。
- 推车任务： 推车上的纸箱被 60kg 的杠铃片替换。

以下是原文 Figure 6 的图片：

Figure 6: Visual generalization under object and load variations. We evaluate Bag Packing, Box Loading, and Cart Pushing under unseen variations of bag appearance, box contents, and cart loads. WholeBodyVLA consistently outperforms GR00T and OpenVLA-OFT across all three tasks, indicating robustness to these distribution shifts. 该图像是图表，展示了在未见物体和负载变体下进行的袋子打包、箱子装载和推车任务的成功率。WholeBodyVLA方法在所有三个任务中均优于GR00T和OpenVLA-OFT，表明其在分布变化下的鲁棒性。

图 6 结果显示，WholeBodyVLA 在所有扰动设置下均保持最高的成功率，这表明即使操作物体和负载与训练时显著不同，该框架仍具有鲁棒性。

移除本体感受状态的影响 (Table 6 和 Table 7)： 为了进一步验证 WholeBodyVLA 是否真正依赖视觉观察而非注入的机器人状态，作者比较了完整模型与一个不将本体感受状态输入动作解码器的变体。

以下是原文 Table 6 的结果：

Method	Bag Packing		Box Loading		Cart Pushing		Avg. Score
Method	Grasp Bags	Move & Squat	Squat & Grasp	Rise & Turn	Grab Handle	Push Ahead	Avg. Score
WholeBodyVLA w/o state	21/25	12/25	22/25	14/25	24/25	22/25	76.7%
WholeBodyVLA	23/25	13/25	19/25	17/25	23/25	22/25	78.0%

以下是原文 Table 7 的结果：

Method	Bag Packing *		Box Loading *		Cart Pushing *		Avg. Score
Method	Grasp Bags	Move & Squat	Squat & Grasp	Rise & Turn	Grab Handle	Push Ahead	Avg. Score
WholeBodyVLA w/o state	12/25	5/25	14/25	12/25	21/25	21/25	76.7%
WholeBodyVLA	15/25	9/25	15/25	15/25	22/25	20/25	64.0%

在原始设置下 (Table 6)，移除状态输入会增加方差并略微降低性能（从 78.0% 降至 76.7%）。
在视觉扰动条件下 (Table 7)，移除状态输入会导致更显著的性能下降（从 64.0% 降至 76.7%）。
结论： 即使没有本体感受状态输入，w/o state 变体仍能达到可比的任务完成率。这表明 WholeBodyVLA 主要从视觉输入中学习完成运动-操作任务，并且其观察到的视觉泛化能力并不依赖于低层本体感受信息。
失败模式分析 (图 7)： 为了深入了解 WholeBodyVLA 的剩余局限性，作者对起始姿态泛化实验中的失败模式进行了事后分析。

以下是原文 Figure 7 的图片：

该图像是图表，展示了WholeBodyVLA在起始姿态泛化中的失败模式。对于每个运动原语—(a) 前进，(b) 侧步，(c) 蹲下，和(d) 转身，收集了50个失败试验数据，使用Sankey图解析了失败原因，分为运动和抓取/放置错误，以及更细的原因，如物体/篮子不可及、错误朝向、提前停止、超出目标、碰撞、失足等。

观察： 对于水平运动原语（前进、侧向移动和转弯），与运动相关的失败占大多数。
- 大多数不成功的试验都经过“物体/篮子不可及”节点，表明中等的姿态或方向偏差会导致后续抓取和放置尝试不可行。严重的碰撞或绊倒发生频率较低。
- 在下蹲原语中，失败在运动（主要是最终高度不正确或下降过程中接触）和抓取/放置错误之间分布更均匀。
结论： 主要的失败模式源于接近过程中微小但系统性的姿态和方向错误，而不是灾难性行为。提高接近精度（尤其是转弯、侧向移动和下蹲）预计将直接减少系统未来版本中下游操作失败。
任务执行时间 (Table 8)：

以下是原文 Table 8 的结果：

Method	Bag Packing		Box Loading		Cart Pushing
Method	Grasp Bags	Move & Squat	Squat & Grasp	Rise & Turn	Grab Handle	Push Ahead
Modular Design	19.2	23.0	21.5	7.9	12.0	11.7
GROOT w/LMO	26.3	38.6	21.1	8.0	19.5	13.8
OpenVLA-OFT w/LMO	23.6	35.9	33.2	13.8	16.9	13.1
WholeBodyVLA (ours)	18.4	29.7	16.8	7.6	11.3	12.7

WholeBodyVLA 在 Bag Packing 和 Box Loading 任务的某些子目标上，执行时间与其他 VLA 基线相比更短或相当，例如在 Grasp Bags 和 Squat & Grasp 子目标上表现优异。
但在 Move & Squat 子目标上，WholeBodyVLA (29.7秒) 慢于 Modular Design (23.0秒)，但快于 $GR00T w/LMO$ (38.6秒) 和 OpenVLA-OFT w/LMO (35.9秒)。这表明其效率在不同任务和基线间有所权衡。
跨具身共享潜在动作空间 (图 8)： 作者指出，三阶段训练管道自然导致了人类和机器人数据共享一个共同的潜在动作空间。

以下是原文 Figure 8 的图片：

Figure 8: Cross-domain retrieval with shared latent actions. Human and robot clips retrieved for the same latent action (e.g., go forward, turn left, squat) exhibit consistent semantics across domains. 该图像是一个示意图，展示了跨域检索中共享潜在动作的效果。可以看到，对于相同潜在动作（如前进、左转、下蹲），人类和机器人剪辑展现出一致的语义。

论证： LAM 作为逆动力学模型纯粹从视觉视频中训练，编码器捕获帧间的视觉变化。VLA 学习预测这些代码。然后，遥操作数据将这些潜在值与机器人关节目标和运动指令关联起来。由于代码仅依赖于帧到帧的视觉运动，而非具身特定的关节值，因此相同的潜在动作可以对齐人类和机器人的运动。
示例 (图 8)： 对于潜在动作“前进”，检索到的片段在人类收集视频和遥操作机器人演示中都包含语义对齐的片段，证实了学习到的潜在空间是共享且可迁移的。
相对重构增益 (Relative Reconstruction Gain, RRG) (Table 9)： 除了直接评估 VLA 的下游性能外，RRG 作为一种高效指标，用于直接评估 LAM 的质量。

以下是原文 Table 9 的结果：

Method	Bag Packing				Box Loading					Cart Pushing
Method	Grasp	Move	Squat	Place	Squat	Grasp	Rise	Turn	Place	Grab	Push
manip. lam	21.78	23.64	18.71	24.73	21.22	25.09	22.92	28.15	23.96	19.12	19.92
shared lam	19.70	23.58	20.62	25.69	19.41	17.38	23.43	27.68	23.61	18.49	17.79
loco. lam	16.39	25.77	29.46	20.60	22.72	20.24	25.40	30.74	24.81	15.27	20.27

结果： 分别训练的 LAMs (mani. lam 和 loco. lam) 在操作和运动的某些分解原语上均优于共享 LAM。例如，manip. lam 在 Grasp、Squat 和 Grasp 等操作任务上 RRG 较高；loco. lam 在 Move、Squat 和 Turn 等运动任务上 RRG 较高。
结论： 这表明共享 LAM 在操作和运动特定目标之间存在内在冲突，证实了模态分离训练的 LAM 设计的优势。

7. 总结与思考

7.1. 结论总结

本文提出了 WholeBodyVLA，一个创新的视觉-语言-动作 (VLA) 框架，旨在使人形机器人能够在大范围真实世界场景中执行端到端运动-操作任务。WholeBodyVLA 通过引入统一的潜在学习 (unified latent learning) 和面向运动-操作的强化学习策略 (LMO RL policy)，有效地解决了人形机器人运动-操作领域长期存在的两大挑战：遥操作数据稀缺性以及现有 RL 控制器导致的决策-执行不匹配问题。

统一潜在学习通过分别从低成本、无动作的自我中心操作和操作感知运动视频中学习潜在动作模型 (LAMs)，为 VLA 提供了丰富的先验知识，显著减少了对昂贵遥操作数据的依赖，并提高了模型的泛化能力。LMO RL 策略通过采用离散指令接口和两阶段课程训练，专门针对精确、稳定的核心运动-操作动作进行优化，从而大幅提升了底层运动执行的精度和稳定性。

在 AgiBot X2 人形机器人上进行的全面实验验证了 WholeBodyVLA 的卓越性能，其成功率比现有基线提高了 21.3% 和 24.0%。该框架还展示了在各种扩展任务和泛化场景（包括起始姿态变化、场景外观变化和物体负载变化）下的强大泛化能力和高可扩展性。

7.2. 局限性与未来工作

论文作者指出了 WholeBodyVLA 存在的局限性，并展望了未来的研究方向：

长周期和灵巧任务 (Long-horizon and dexterous tasks): 尽管 WholeBodyVLA 在基准任务和扩展任务中表现出色，但它在处理更长周期和更精细的灵巧操作任务方面仍面临挑战。
杂乱或动态环境 (Cluttered or dynamic environments): 当前模型在杂乱或动态环境中的鲁棒性仍有提升空间。
未来工作方向：
- 集成轻量级地图和记忆 (Incorporating lightweight mapping and memory): 以支持更长期的规划。
- 开发主动感知策略 (Developing active perception strategies): 以提高在杂乱或动态环境中的鲁棒性。这些方向将进一步增强 WholeBodyVLA 的可扩展性和泛化能力，为实现多功能真实世界人形机器人运动-操作铺平道路。

7.3. 个人启发与批判

7.3.1. 个人启发

数据效率的重要性： 本文最引人注目的一点是其对数据稀缺性的解决思路。通过从低成本、无动作的自我中心视频中学习潜在先验知识，极大地拓宽了数据来源，这对于人形机器人这种数据收集成本极高的领域具有里程碑意义。这种“先看后做”的学习范式，类似于人类的观察学习，为具身智能体的数据驱动方法提供了新的视角。
模块化与端到端结合的艺术： WholeBodyVLA 并非纯粹的端到端，也并非严格的模块化，而是巧妙地结合了两者的优势。VLA 负责高层决策和潜在动作预测，而 LMO RL 策略则专注于低层运动的精确执行。这种分层设计，既保留了端到端系统在决策上的统一性，又利用了底层控制器的专业性来保证执行的可靠性，避免了纯粹端到端系统对海量高质量全身轨迹数据的苛刻要求。
对底层控制器的深刻洞察： 论文对现有 RL 控制器“连续速度跟踪目标”的批判及其提出的“离散指令接口”非常精辟。这揭示了在机器人控制中，目标函数的设计必须与任务的实际需求紧密对齐，而不是盲目追求通用性。对于运动-操作任务，启动/停止和精确位置控制比连续高速运动更重要。
模态分离的有效性： 运动和操作视频在视觉变化模式上的差异被作者敏锐地捕捉并成功利用，通过分别训练 LAMs 来避免了潜在冲突，这表明在多模态或多任务学习中，识别并处理好不同模态或任务之间的内在差异至关重要。

7.3.2. 批判与潜在改进

潜在动作的粒度与可解释性： 论文中的潜在动作是离散的，但其具体的语义粒度如何？例如，“前进”这一潜在动作在不同场景下是否具有相同的细微动作特征？如果能进一步探索潜在动作的层次结构，或者提供更细粒度的潜在语义，或许能提高可解释性和泛化能力。
环境交互的复杂性： 论文主要关注本体感受和视觉信息，对于更复杂的环境交互（如非刚性物体、流体、精细的力反馈）处理能力可能有限。LMO 策略虽然处理了惯性耦合，但其在非常高精度或高力敏感性的操作任务中的表现仍有待进一步验证。未来可以考虑引入触觉或更高级别的力觉反馈。
长周期任务的规划与记忆： 虽然提到了未来工作将整合轻量级地图和记忆，但当前模型在高层规划方面仍可能依赖于 VLA 模型的上下文窗口和注意力机制。对于需要跨越长时间步、多目标、环境动态变化的复杂长周期任务，单一的 VLA 模型可能不足以支撑复杂的推理和规划能力，可能需要结合更传统的符号规划或神经符号混合方法。
人类视频的偏差： 尽管人类自我中心视频提供了低成本的数据来源，但人类操作的习惯、身体结构与人形机器人仍存在差异。如何更好地弥合这种“embodiment gap”，确保从人类视频中学习到的先验知识能无缝迁移到机器人，仍是一个持续的挑战。例如，人类在抓取时可能会有更自然的预抓取动作，机器人是否能完全学到并执行这些细微之处？
实时性与计算资源： 虽然论文提及了部署时的计算资源（VLA 在 RTX 4090，LMO 在 NanoPi），但对于大规模、高并发场景的实际部署，其计算效率和能耗仍是需要考量的问题。尤其是在复杂的视觉处理和大型 VLA 模型推理方面，如何进一步优化以适应更受限的计算平台，将是工程上的挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

WHOLEBODYVLA: TOWARDS UNIFIED LATENT VLA FOR WHOLE-BODY LOCO-MANIPULATION CONTROL

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 41 分钟读完 · 25,313 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.2.1. 人形机器人全身控制 (Humanoid Whole-Body Control)

3.2.2. 视觉-语言-动作 (Vision-Language-Action, VLA) 模型

3.3. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 统一潜在动作模型 (Unified Latent Action Model, LAM)

4.2.2. 面向运动-操作的强化学习策略 (Loco-Manipulation-Oriented, LMO RL Policy)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.3. 对比基线

5.4. 训练和部署细节

5.5. 硬件与数据收集细节

5.6. 模拟设置 (针对 LMO 消融实验)

6. 实验结果与分析

6.1. 核心结果分析

6.2. 行动无关视频对运动-操作的贡献 (Q2)

6.3. LMO 对运动-操作的贡献 (Q3)

6.4. WholeBodyVLA 对长周期和扩展运动-操作场景的泛化能力 (Q4)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判与潜在改进

相似论文推荐

6.4. `WholeBodyVLA` 对长周期和扩展运动-操作场景的泛化能力 (Q4)