论文状态：已完成

Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

发表：2025/10/14

视觉语言动作模型 (34)空间理解能力增强 (1)隐式空间表示对齐 (1)3D基础模型对齐 (1)机器人任务精准执行 (1)

价格：0.100000

已有 5 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为“空间强制”（SF）的方法，通过隐式对齐策略增强视觉-语言-行为（VLA）模型的空间理解能力。SF通过将VLA模型的视觉嵌入与预训练的3D基础模型的几何表示对齐，提高机器人在三维世界中的操作精度，避免了依赖显式3D输入的问题。

摘要

Vision-language-action (VLA) models have recently shown strong potential in enabling robots to follow language instructions and execute precise actions. However, most VLAs are built upon vision-language models pretrained solely on 2D data, which lack accurate spatial awareness and hinder their ability to operate in the 3D physical world. Existing solutions attempt to incorporate explicit 3D sensor inputs such as depth maps or point clouds, but these approaches face challenges due to sensor noise, hardware heterogeneity, and incomplete depth coverage in existing datasets. Alternative methods that estimate 3D cues from 2D images also suffer from the limited performance of depth estimators. We propose Spatial Forcing (SF), a simple yet effective alignment strategy that implicitly forces VLA models to develop spatial comprehension capabilities without relying on explicit 3D inputs or depth estimators. SF aligns intermediate visual embeddings of VLAs with geometric representations produced by pretrained 3D foundation models. By enforcing alignment at intermediate layers, SF guides VLAs to encode richer spatial representations that enhance action precision. Extensive experiments in simulation and real-world environments demonstrate that SF achieves state-of-the-art results, surpassing both 2D- and 3D-based VLAs. SF further accelerates training by up to 3.8x and improves data efficiency across diverse robotic tasks. Project page is at https://spatial-forcing.github.io/

思维导图

论文精读

中文精读约 25 分钟读完 · 14,189 字

1. 论文基本信息

1.1. 标题

Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

中文翻译：空间强制：面向视觉-语言-行为模型的隐式空间表示对齐

这篇论文的核心主题是提出一种名为 Spatial Forcing (SF) 的新方法，旨在通过一种隐式的对齐策略，增强视觉-语言-行为 (Vision-Language-Action, VLA) 模型对三维（3D）空间的理解能力，从而提升机器人在物理世界中的操作精度。

1.2. 作者

论文作者团队来自多个知名学术机构：

香港科技大学（广州） (The Hong Kong University of Science and Technology (Guangzhou))
清华大学 (Tsinghua University)
西湖大学 (Westlake University)
浙江大学 (Zhejiang University)
华南理工大学 (South China University of Technology)

主要贡献者包括 Fuhao Li, Wenxuan Song, Han Zhao, Jingbo Wang, Pengxiang Ding, Donglin Wang, Long Zeng, Haoang Li 等。其中，Fuhao Li 和 Wenxuan Song 为同等贡献作者，这表明他们在研究中扮演了同样关键的角色。

1.3. 发表期刊/会议

论文摘要中提供的发表日期为 2025-10-14T08:27:10.000Z，并且参考文献中引用了大量未来年份（2025年）的顶级会议论文（如 RSS'25, ICLR'25, CVPR'25），这表明该论文是一篇设定在未来的预印本。目前它发布在 arXiv 上，这是一个广泛用于发布预印本的平台。通常，这类工作会投稿到机器人学或计算机视觉领域的顶级会议，如 RSS (Robotics: Science and Systems)、CoRL (Conference on Robot Learning) 或 CVPR (Conference on Computer Vision and Pattern Recognition)。

1.4. 发表年份

2025年 (根据 arXiv 提交信息)

1.5. 摘要

视觉-语言-行为（VLA）模型在让机器人遵循语言指令执行精确动作方面展现了巨大潜力。然而，大多数VLA模型基于仅在二维（2D）数据上预训练的视觉-语言模型（VLM）构建，这导致它们缺乏准确的空间感知能力，阻碍了其在三维（3D）物理世界中的操作。

现有的解决方案试图引入明确的3D传感器输入（如深度图或点云），但这些方法面临传感器噪声、硬件异构性以及现有数据集中深度信息覆盖不全等挑战。其他从2D图像估计3D线索的方法也受到深度估计器性能的限制。

为此，作者提出了空间强制 (Spatial Forcing, SF)，一种简单而有效的对齐策略，它隐式地迫使VLA模型发展空间理解能力，而无需依赖明确的3D输入或深度估计器。SF的核心思想是将VLA模型的中间视觉嵌入与预训练的3D基础模型生成的几何表示进行对齐。通过在中间层强制对齐，SF引导VLA模型编码更丰富的空间表示，从而提高动作的精确度。

在仿真和真实世界环境中的大量实验表明，SF取得了最先进的（SOTA）成果，超越了基于2D和3D的VLA模型。此外，SF还将训练速度最多加快了3.8倍，并提升了在多种机器人任务中的数据效率。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2510.12276v2
PDF 链接: https://arxiv.org/pdf/2510.12276v2.pdf
发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

机器人要在复杂的物理世界中完成任务，不仅需要理解“做什么”（语义理解），还需要知道“在哪里做”以及“如何做”（空间理解和物理控制）。近年来兴起的 VLA 模型 试图将这三者结合起来，让机器人能听懂人类的语言指令并执行相应动作。然而，这些模型存在一个根本性的缺陷：它们的大脑——即作为其基础的 视觉-语言模型 (VLM)，如 LLaVA、PaliGemma 等——主要是在海量的互联网 2D 图片和文本上训练的。这导致它们擅长识别物体、理解场景，却对深度、距离、相对位置等 3D 空间信息缺乏精确的感知，如同一个只看过照片却从未进入过真实世界的人。

2.1.2. 现有方法的挑战 (Gap)

为了弥补这一缺陷，研究者们尝试了两种主流方法，但都遇到了瓶颈：

显式 3D 输入 (Explicit 3D Inputs): 直接给模型喂送 3D 数据，比如用深度摄像头拍摄的深度图 (depth maps) 或激光雷达扫描的点云 (point clouds)。
- 问题 1 (质量与噪声): 现实世界中的传感器数据往往不完美，深度图可能充满噪点、空洞，或在透明、反光物体上失效。
- 问题 2 (硬件异构性): 不同的机器人使用的摄像头型号、安装位置、标定参数都不同，导致数据难以统一和泛化。
- 问题 3 (数据稀缺): 许多大规模的机器人操作数据集中，并没有包含高质量的深度信息，这限制了模型的可扩展性。
估计 3D 信息 (Estimated 3D Cues): 用一个现成的深度估计器 (depth estimator) 模型，先从 2D 图像中预测出深度图，再把这个估计出的深度图作为模型的输入。
- 问题 (性能瓶颈): 这种方法的最终效果受限于深度估计器的准确性。如果深度估计器本身就不够准，那么它提供的信息反而是错误的引导，导致机器人策略的性能不佳。

2.1.3. 本文的创新思路

面对上述困境，本文作者提出了一个全新的问题：我们能否不直接给模型看 3D 数据，而是通过一种更巧妙、更隐式的方式，在训练过程中“教会”模型自己去理解 3D 空间？

这就是 Spatial Forcing 的核心思想。它不改变模型的输入，而是在模型的内部进行“干预”。具体来说，它利用一个已经训练好的、强大的 3D 基础模型 (3D foundation model) 作为“老师”，这个老师能从 2D 图像中提取出高质量的 3D 几何表示。然后，在训练 VLA 模型时，增加一个额外的对齐损失 (alignment loss)，强制 VLA 模型内部生成的中间视觉特征 (intermediate visual embeddings) 去模仿和对齐“老师”提供的 3D 几何表示。

这种方法就像是在教一个学生画画，不是直接给他一幅完美的画让他照抄（显式输入），而是在他画画的过程中，不断地给他看大师的作品，并告诉他“你的这部分笔触应该更有立体感，像这样”，从而引导他自己学会如何表现立体感。

下图（原文 Figure 2）直观地对比了不同方法的范式：

Figure 2: Comparison among different paradigms for 3D VLAs. 该图像是一个示意图，展示了三种不同的3D视觉-语言-行动（VLA）模型的对比，分别为（a）使用显式3D输入，（b）使用显式辅助来估计3D观察，以及（c）我们提出的Spatial Forcing模型。该图强调了Spatial Forcing在空间能力发展中的作用。

(a) Explicit 3D Inputs: 将深度图等 3D 数据直接作为输入。
(b) Explicit Auxiliary for 3D Estimation: 使用深度估计器生成深度图作为辅助输入。
(c) Spatial Forcing (Ours): 本文方法，在模型内部对齐视觉特征与外部 3D 表示，输入仍为 2D 图像。

2.2. 核心贡献/主要发现

本文的主要贡献可以总结为以下三点：

问题揭示与验证： 通过一个简单的深度探测 (depth probing) 实验，直观且有说服力地证明了标准 VLA 模型的内部视觉特征确实缺乏足够的空间信息，从而为本文方法的动机提供了坚实的实验依据。
提出 Spatial Forcing (SF) 方法： 提出了一种简单、有效且无需修改模型输入的隐式对齐策略。该方法通过将 VLA 模型的中间视觉嵌入与外部 3D 基础模型的几何表示对齐，成功地将 3D 空间理解能力“注入”到 VLA 模型中，且在推理时不增加任何计算开销。
全面的实验验证： 在多个仿真和真实世界基准测试中，证明了 SF 方法的优越性。实验结果表明，该方法不仅在任务成功率上超越了现有的 2D 和 3D VLA 模型，还显著提升了训练效率（最高 3.8 倍）和数据效率，这对于数据获取成本高昂的机器人领域尤为重要。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 视觉-语言-行为模型 (Vision-Language-Action Model, VLA)

VLA 模型是一种多模态模型，旨在将机器人的感知、语言理解和动作执行能力统一起来。它的工作流程通常是：

输入： 接收来自机器人摄像头的视觉信息（如多视角图像）和人类给出的语言指令（如“请把桌上的红苹果放到篮子里”）。
处理： 模型内部对这些信息进行融合和推理。
输出： 生成一系列可供机器人执行的行为指令（如机械臂的关节角度、末端执行器的位置和姿态等）。

VLA 模型通常构建在强大的视觉-语言模型 (VLM) 之上，通过在机器人操作数据上进行微调，使其具备生成动作序列的能力。

3.1.2. 自回归生成 (Auto-regressive Generation)

这是许多序列生成模型（如 GPT、VLA）的核心机制。它的思想是“一步一步地生成”，即下一个输出的生成依赖于之前所有已经生成的输出。在 VLA 的情境下，模型在生成第 $t$ 个动作词元 (token) 时，会同时考虑视觉输入、语言指令以及前 t-1 个已经生成的动作词元。其数学形式可以表示为： $\pmb{x}_t \sim p_\theta(\pmb{x}_t | \pmb{x}_{<t})$ 其中， $\pmb{x}_t$ 是在时间步 $t$ 生成的词元， $\pmb{x}_{<t}$ 代表所有在 $t$ 之前生成的词元序列， $p_\theta$ 是由模型参数 $\theta$ 定义的条件概率分布。

3.1.3. 视觉几何基础变换器 (Visual Geometry Grounded Transformer, VGGT)

这是本文用作“3D 老师”的预训练模型。VGGT 是一个前馈模型，它能接收一系列 2D 图像作为输入，并直接输出场景的多种 3D 属性，例如相机的内外参数、深度图、点云轨迹等。其强大的地方在于，它的内部潜在表示 (latent representation) 已经编码了非常丰富的、多视角一致的 3D 空间和几何信息。本文正是利用了 VGGT 的这种能力，将其内部表示作为监督信号。

3.2. 前人工作

3.2.1. 2D VLA 模型

这类模型是 VLA 领域的主流，它们直接将 VLM 应用于机器人任务，输入仅为 2D RGB 图像和文本指令。

代表作： RT-1 (Brohan et al., 2022), Octo (Ghosh et al., 2024), OpenVLA (Kim et al., 2024)。
优点： 能够直接利用在海量 2D 数据上预训练的 VLM 的强大语义理解能力。
缺点： 正如本文动机所述，它们缺乏精确的 3D 空间感知能力，难以完成对位置精度要求高的任务。

3.2.2. 3D VLA 模型

为了解决 2D VLA 的问题，研究者们开始探索如何将 3D 信息融入模型。

显式 3D 输入： GeoVLA (Sun et al., 2025), 3D-CAVLA (Bhat et al., 2025b) 等工作将深度图或点云作为额外的输入通道，与 RGB 图像一同送入模型。这种方法直接提供了几何信息，但受限于传感器质量和数据可用性。
估计 3D 输入： SpatialVLA (Qu et al., 2025) 等工作采用一个独立的深度估计器从 2D 图像中预测深度，再将预测结果作为输入。这种方法的性能上限被深度估计器所限制。

3.2.3. 表示监督 (Representation Supervision)

这是一个更广泛的机器学习范式，其核心思想不是监督模型的最终输出，而是监督其中间层的隐藏表示。通过让模型的中间表示去学习（或对齐）一些有用的外部信息，可以引导模型学到更好的特征，从而提升下游任务的性能。

重建式监督 (Reconstruction-based): 如 ROSS (Wang et al., 2024) 通过让 VLM 的视觉嵌入去重建原始输入图像，来增强其视觉表示能力。
对齐式监督 (Alignment-based): 如 REPA (Yu et al., 2024) 通过将生成模型的中间状态与预训练的视觉编码器（如 DINOv2）的表示进行对齐，来提升生成质量。3DRS (Huang et al., 2025) 也采用了类似的思想来增强模型的 3D 空间定位能力。

3.3. 技术演进

机器人控制领域的技术演进可以看作是不断寻求更强泛化能力和数据效率的过程。

早期： 从零开始为特定任务训练策略，数据效率低，泛化能力差。
模仿学习： 通过学习专家演示来训练策略，如 BC (Behavioral Cloning)。
VLM 时代： 借助在互联网数据上预训练的 VLM，通过微调使其适应机器人任务，实现了前所未有的语义理解和泛化能力，催生了 2D VLA 模型。
3D 感知探索： 研究者发现 2D VLA 在空间精度上的不足，开始尝试各种方式引入 3D 信息，形成了 3D VLA 的不同流派。
本文工作： 本文处在技术脉络的最新阶段，它不再局限于改造模型的输入，而是开辟了一条新的路径——改造模型的学习过程。通过隐式表示对齐，它试图以一种更高效、更通用的方式赋予 VLA 模型 3D 理解能力。

3.4. 差异化分析

本文方法 Spatial Forcing 与之前工作的核心区别如下：

与 2D VLA 相比： 最大的区别在于，SF 在训练过程中引入了来自 3D 基础模型的外部监督信号，专门用于增强模型的空间感知能力，而传统的 2D VLA 完全依赖模型从 2D 图像和动作数据中自发学习空间关系。
与 3D VLA 相比：
- 监督对象不同： 传统 3D VLA 关注于输入层，通过提供深度图或点云来丰富输入信息。而 SF 关注于中间层，通过对齐视觉嵌入来塑造模型的内部表示空间。
- 依赖性不同： 传统 3D VLA 在训练和推理时都依赖 3D 传感器或深度估计器。而 SF 仅在训练时需要 3D 基础模型生成监督信号，在推理时完全不依赖任何额外的 3D 信息或模型，因此没有额外的计算开销和硬件依赖。
- 通用性更强： 由于不依赖特定的传感器数据，SF 可以应用于那些只有 RGB 图像的机器人数据集，扩展了其适用范围。

4. 方法论

4.1. 方法原理

Spatial Forcing (SF) 的核心思想是知识蒸馏 (Knowledge Distillation) 的一种变体，具体来说是特征层蒸馏。它将一个预训练好的、具有强大 3D 几何理解能力的“教师”模型（即 VGGT），其知识“蒸馏”给正在训练的“学生”模型（即 VLA）。

这种蒸馏不是让学生模型模仿教师模型的最终输出，而是让学生模型在处理信息过程中的中间产物（视觉特征）去模仿教师模型的中间产物（几何表示）。其背后的直觉是：如果 VLA 模型的内部视觉表示被“强制”塑造得与一个懂 3D 几何的模型的表示相似，那么这个 VLA 模型自然也就具备了更好的 3D 理解能力，从而能够生成更精确的动作。

为了验证这一假设，作者首先进行了一个深度探测 (Depth Probing) 实验。他们冻结了一个训练好的 VLA 模型，只训练一个小的解码头 (DPT head) 尝试从 VLA 的视觉嵌入中恢复出深度图。结果如下图（原文 Figure 3）所示，未经 SF 对齐的 VLA 嵌入无法恢复出有意义的空间结构，而经过 SF 对齐后的嵌入则可以恢复出清晰的深度轮廓，这有力地证明了 SF 确实将空间信息注入到了 VLA 的表示中。

Figure 3: Depth probing of the visual embeddings of VLAs. Embeddings learned solely from 2D images without alignment do not produce meaningful spatial structures. The aligned embeddings inherently co… 该图像是一个示意图，展示了LIBERO仿真和现实世界机器人中的视觉嵌入对比。左侧展示无对齐和有对齐的处理结果，以及地面实况GT，右侧则是现实世界机器人的相应对比。可见，有对齐的嵌入在空间结构方面表现更优，增强了机器人在任务中的能力。

4.2. 核心方法详解 (逐层深入)

下面我们将分步拆解 SF 的完整流程。

4.2.1. VLA 模型的基础设定

首先，一个标准的 VLA 模型在生成动作时，遵循自回归的方式。给定多视角视觉词元 $\{ \pmb{x}_i^\mathcal{V} \}_{i=1}^N$ 和语言指令词元 $\{ \pmb{x}_j^\mathcal{L} \}_{j=1}^M$ ，模型会逐个生成动作词元 $\{ \pmb{x}_t^\mathcal{A} \}_{t=1}^K$ 。第 $t$ 个动作词元的生成过程可以用以下条件概率公式表示，该公式与原文 Eq. (1) 完全一致： $\pmb { x } _ { t } ^ { \mathcal { A } } \sim p _ { \theta } \big ( \pmb { x } _ { t } ^ { \mathcal { A } } \mid \{ \pmb { x } _ { i } ^ { \mathcal { V } } \} _ { i = 1 } ^ { N } , \{ \pmb { x } _ { j } ^ { \mathcal { L } } \} _ { j = 1 } ^ { M } , \pmb { x } _ { < t } ^ { \mathcal { A } } \big ) ,$

符号解释:
- $\pmb{x}_t^\mathcal{A}$ ：在时间步 $t$ 生成的动作词元。
- $p_\theta$ ：由模型参数 $\theta$ 定义的概率分布。
- $\{ \pmb{x}_i^\mathcal{V} \}_{i=1}^N$ ：视觉输入经过编码后得到的 $N$ 个视觉词元。
- $\{ \pmb{x}_j^\mathcal{L} \}_{j=1}^M$ ：语言指令经过编码后得到的 $M$ 个语言词元。
- $\pmb{x}_{<t}^\mathcal{A}$ ：在时间步 $t$ 之前已经生成的所有动作词元。
  
  模型的训练目标是最小化预测动作与真实专家动作之间的差距。这通常通过一个动作损失 (action loss) 函数 $\mathcal{L}_{\mathrm{action}}$ 来实现，该公式与原文 Eq. (2) 完全一致： $\mathcal { L } _ { \mathrm { action } } = \mathcal { L } [ \mathcal { G } ( \{ \boldsymbol { x } _ { t } ^ { A } \} _ { t = 1 } ^ { K } ) , A _ { g t } ] ,$
符号解释:
- $\mathcal{L}[\cdot, \cdot]$ ：损失函数，例如 L1 损失、L2 损失或交叉熵损失。
- $\mathcal{G}$ ：一个可训练的动作专家 (action expert)，它将模型生成的离散动作词元序列 $\{ \boldsymbol{x}_t^A \}_{t=1}^K$ 转换回连续的机器人动作。
- $A_{gt}$ ：专家演示中的真实标注数据 (Ground Truth) 动作。

4.2.2. 生成监督信号

SF 的核心在于引入一个额外的监督信号。这个过程如下：

获取教师表示： 将 VLA 模型接收到的同一组多视角图像 $\mathcal{I}$ 输入到预训练好的、冻结参数的 3D 基础模型 VGGT 中，记作 $f^\mathrm{3D}$ 。
提取特征： 从 VGGT 的中间层提取出像素级的空间表示 $f_i^\mathrm{3D}(I)$ ，其中 $I$ 是单张输入图像， $i$ 对应图像中的一个像素位置。这个表示蕴含了丰富的 3D 几何信息。
加入位置信息： 为这些空间表示添加位置嵌入 (Positional Embedding) $E$ 。这一步非常关键，因为 VLA 是一个自回归模型，词元的顺序至关重要。加入位置嵌入可以确保监督信号本身也包含了位置信息，使得对齐后的 VLA 视觉词元能够保留其在序列中的位置感。

4.2.3. 执行表示对齐

有了监督信号后，下一步就是在 VLA 模型内部执行对齐。

选择对齐层： 作者发现，在 VLA 的 Transformer 结构中，选择一个相对较深但又不是最末尾的层（例如，在 32 层的模型中选择第 24 层）进行监督效果最好。这是因为：
- 太浅的层特征还不够丰富。
- 太深的层（尤其是最后一层）视觉和语言信息已经高度融合，失去了很多视觉特有的细节，不适合与纯视觉的几何表示进行对齐。
特征预处理： 从 VLA 选定的层中，提取出视觉词元 $\{ \pmb{x}_i^\nu \}$ 。为了使其维度和尺度能与 VGGT 的表示对齐，需要先经过一个批归一化 (Batch Normalization) $\Gamma$ ，再通过一个两层的 MLP (多层感知机) 进行线性变换。
计算对齐损失： 使用余弦相似度 (cosine similarity) 来度量 VLA 视觉词元和教师几何表示之间的相似性，并将其最大化（等价于最小化其负值）。对齐损失 (alignment loss) $\mathcal{L}_{\mathrm{align}}$ 的计算公式如下，该公式与原文 Eq. (3) 完全一致： $\mathcal { L } _ { \mathrm { align } } = - \frac { 1 } { N } \sum _ { i = 1 } ^ { N } S [ \mathrm { MLP } \cdot \Gamma ( { \pmb x } _ { i } ^ { \nu } ) , f _ { i } ^ { \mathrm { 3 D } } ( I ) + E ] ,$

符号解释:
- $N$ ：视觉词元的总数。
- $S[\cdot, \cdot]$ ：计算两个向量之间余弦相似度的函数。
- $\mathrm{MLP} \cdot \Gamma ( { \pmb x } _ { i } ^ { \nu } )$ ：经过预处理的第 $i$ 个 VLA 视觉词元。
- $f_i^\mathrm{3D}(I) + E$ ：带有位置嵌入的、作为监督信号的第 $i$ 个教师几何表示。

4.2.4. 最终训练目标

最后，将标准的动作损失和新增的对齐损失加权相加，构成最终的训练目标 $\mathcal{L}_{\mathrm{SF}}$ 。该公式与原文 Eq. (4) 完全一致： $\mathcal { L } _ { \mathrm { SF } } = \mathcal { L } _ { \mathrm { a ction } } + \alpha \mathcal { L } _ { \mathrm { a lign } } .$

符号解释:
- $\alpha$ ：一个超参数，用于平衡两个损失项的权重。
  
  通过最小化这个总损失，模型在学习如何生成正确动作的同时，其内部的视觉表示也被“强制”向着包含丰富 3D 信息的方向演进。

4.2.5. 模型推理

SF 的一个巨大优势在于其推理时零开销。在模型训练完成后，VGGT 和对齐损失 $\mathcal{L}_{\mathrm{align}}$ 都会被丢弃。在实际部署和使用时，VLA 模型的结构和计算流程与没有使用 SF 的标准 VLA 模型完全一样，因此不会引入任何额外的计算负担或延迟。

5. 实验设置

5.1. 数据集

实验在两个广泛使用的机器人仿真基准和一个真实世界平台上进行。

LIBERO: 一个用于评估机器人策略泛化能力的基准测试。它包含四个任务套件，每个套件都专注于一种特定的泛化挑战：
- LIBERO-Spatial: 任务的空间布局发生变化。
- LIBERO-Object: 任务中使用的物体发生变化。
- LIBERO-Goal: 任务的目标状态发生变化。
- LIBERO-Long: 任务是长时序的，需要多步操作。
RoboTwin: 一个从真实世界到仿真的双臂操作基准。它包含两种设置：
- easy setting: 仿真环境与真实世界布局相似。
- hard setting: 增加了领域随机化，如场景杂乱、背景纹理变化、光照变化等，对模型的鲁棒性提出了更高要求。
真实世界平台: 使用了一个名为 AgileX 的双臂机器人平台，配备了主摄像头和两个腕部摄像头。

5.2. 评估指标

论文中使用的主要评估指标是成功率 (Success Rate, SR)。

概念定义 (Conceptual Definition): 成功率衡量的是机器人在给定任务中，成功完成指定目标的试验次数占总试验次数的比例。这是一个直观且广泛用于机器人学习领域的指标，直接反映了策略的有效性。例如，SR 为 80% 意味着在 100 次尝试中，机器人成功完成了 80 次任务。
数学公式 (Mathematical Formula): $\text{SR} (\%) = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100\%$
符号解释:
- Number of Successful Trials: 成功完成任务的试验次数。
- Total Number of Trials: 进行的总试验次数。

5.3. 对比基线

本文将 Spatial Forcing (SF) 与一系列最先进的 VLA 模型进行了比较，这些基线可以分为三类：

2D VLA 模型: 这类模型只使用 2D RGB 图像作为输入。
- 代表作: Diffusion Policy, TraceVLA, Octo, OpenVLA, Dita, CoT-VLA, $π0$ , UniVLA, OpenVLA-OFT。这些是近年来在机器人模仿学习领域表现非常出色的模型，构成了强有力的对比基线。
显式 3D VLA 模型 (Explicit 3D VLA): 这类模型在输入中明确加入了 3D 信息。
- 代表作: SpatialVLA (使用估计的深度), GeoVLA (使用深度传感器点云), 3D-CAVLA (使用深度传感器点云)。与这些模型对比，可以验证 SF 在不依赖显式 3D 输入的情况下能否达到甚至超越它们的性能。
基础模型 (Base Models): SF 方法是应用在现有的 VLA 模型之上的。因此，作者将应用了 SF 的模型与其原始基础模型（OpenVLA-OFT 和 $π0$ ）进行了直接比较，以展示 SF 带来的性能提升。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. LIBERO 仿真环境

在 LIBERO 基准测试中，SF 展现了卓越的性能。以下是原文 Table 1 的结果：

Method	Spatial SR (%)	Object SR (%)	Goal SR (%)	Long SR (%)	Average SR (%)
2D VLA
Diffusion Policy (Chi et al., 2023)[RSS'23]	78.3	92.5	68.3	50.5	72.4
TraceVLA (Zheng et al., 2025)[ICLR'25]	84.6	85.2	75.1	54.1	74.8
Octo (Ghosh et al., 2024)[RSS'24]	78.9	85.7	84.6	51.1	75.1
Openvla (Kim et al., 2024)[CoRL'24]	84.7	88.4	79.2	53.7	76.5
Dita (Hou et al., 2025)[ICCV'25]	84.2	96.3	85.4	63.8	82.4
CoT-VLA (Zhao et al., 2025b)[CVPR'25]	87.5	91.6	87.6	69.0	83.9
π0-FAST (Pertsch et al., 2025)[RSS'25]	96.4	96.8	88.6	60.2	85.5
π0 (Black et al., 2024)[RSS'25]	96.8	98.8	95.8	85.2	94.2
UniVLA (Bu et al., 2025)[RSS'25]	96.5	96.8	95.6	92.0	95.2
Openvla-OFT (Kim et al., 2025)[RSS'25]	97.6	98.4	97.9	94.5	97.1
Explicit 3D VLA
SpatialVLA (Qu et al., 2025)[RSS'25]	88.2	89.9	78.6	55.5	78.1
GeoVLA (Sun et al., 2025)[arXiv'25]	98.4	99.0	96.6	96.6	97.7
3D-CAVLA (Bhat et al., 2025b)[arXiv'25]	98.2	99.8	98.2	96.1	98.1
Implicit 3D VLA
Spatial Forcing (Ours)	99.4	99.6	98.8	96.0	98.5

分析：
- 超越 2D VLA： SF (98.5%) 显著优于所有 2D VLA 基线，包括其基础模型 OpenVLA-OFT (97.1%)，证明了引入隐式 3D 监督的有效性。
- 超越显式 3D VLA： 令人印象深刻的是，SF 同样超越了那些使用了额外 3D 传感器输入或深度估计的 GeoVLA (97.7%) 和 3D-CAVLA (98.1%)。这表明 SF 这种隐式对齐的方法，在提升空间能力方面比直接喂送可能有噪声的 3D 数据更有效。
- 全面领先： 在所有四个任务套件上，SF 都取得了极高的成功率，尤其是在对空间布局变化敏感的 Spatial 任务上达到了 99.4%，充分体现了其强大的空间理解能力。

6.1.2. RoboTwin 仿真环境

下图（原文 Figure 4）展示了在 RoboTwin 双臂操作任务上的结果：

Figure 4: Comparisons with state-of-the-art methods on RoboTwin 2.0 benchmark. 该图像是一个图表，展示了在RoboTwin 2.0基准上与最先进的方法的比较。图中显示了不同任务的成功率，包括移动扑克牌、开关、点击钟、打开微波炉等，使用了多种方法进行对比，其中SF（我们的方法）以蓝色条形表示，通常表现优异。

分析：
- SF 在所有任务上都取得了比其基础模型 $π0$ 更高的成功率，平均成功率最高。
- 特别是在 hard 任务（包含光照、背景等干扰）上，性能提升尤为明显。这表明 SF 帮助模型学会了关注场景中内在的空间关系，而不是依赖背景、光照等虚假的表面线索 (spurious correlations)，从而获得了更强的鲁棒性。

6.1.3. 真实世界实验

下图（原文 Figure 6）展示了在真实机器人上的实验结果，这些实验仅用了少量（20-40个）的演示数据进行训练，以验证方法的数据效率。

Figure 6: Real-world Experiments. (a) A set of single-arm tasks across various visual and spatial conditions. For each task, we train a unified model to face all variations and report the success rat… 该图像是图表，展示了机器人在不同视觉和空间条件下执行的单臂和双臂任务的成功率。上方为动作序列示意，底部显示在不同任务变体下的成功率（SR%）条形图。他们的表现分别针对光照变化和目标物体变化进行评估。

分析：
- 在所有真实世界任务中，SF 的成功率都远高于基线模型。例如，在“堆叠玻璃杯”任务中，由于透明杯子对光线反射严重，对空间定位是巨大挑战，SF 取得了 47.5% 的绝对提升。
- 在需要精确估计高度的“放置绿色方块”任务和需要保持水平平衡的“抬锅”任务中，SF 都表现出色，证明其学习到的空间特征能够有效迁移到真实物理世界中。
- 这些结果有力地证明了 SF 强大的数据效率和空间理解能力，这对于现实世界的机器人部署至关重要。

6.2. 数据呈现 (表格)

本节将对论文中的消融实验表格进行完整转录和深入分析。

以下是原文 Table 2 的结果，该实验在有限的计算资源（单张 H100 GPU）上进行，用于分析 SF 方法中不同组件的影响：

Target Representation	Aligned Layer	Training Iterations	Training Data	Spatial SR (%)	Object SR (%)	Goal SR (%)	Long SR (%)	Average SR (%)
x (Baseline)	x	150K	100%	96.8	94.8	92.8	86.2	92.7
SigLIP	24	150K	100%	95.2	94.8	94.0	91.8	94.0
DINOv2	24	150K	100%	93.4	95.2	93.8	93.8	94.1
VGGT w/o PE	24	150K	100%	97.8	100.0	96.6	84.4	94.7
VGGT	24	150K	100%	97.2	99.2	96.8	94.2	96.9
VGGT	1	150K	100%	96.8	99.4	99.0	83.0	94.6
VGGT	8	150K	100%	96.2	98.4	95.6	92.4	95.7
VGGT	16	150K	100%	97.4	98.8	95.8	83.2	93.8
VGGT	24	150K	100%	97.2	99.2	96.8	94.2	96.9
VGGT	32	150K	100%	98.8	99.4	96.2	84.8	94.8
VGGT	24	2K	100%	70.6	89.8	87.0	43.4	72.7
VGGT	24	5K	100%	93.8	94.8	94.6	66.6	87.5
VGGT	24	20K	100%	96.8	99.0	93.8	85.2	93.7
VGGT	24	50K	100%	97.0	99.0	96.2	93.6	96.5
VGGT	24	150K	100%	97.2	99.2	96.8	94.2	96.9
VGGT	24	150K	1%	32.8	67.8	44.8	23.6	42.3
VGGT	24	150K	5%	73.2	83.4	80.6	66.0	75.8
VGGT	24	150K	100%	97.2	99.2	96.8	94.2	96.9

6.3. 消融实验/参数分析

6.3.1. 目标表示 (Target Representation) 的影响

对比 VGGT, DINOv2, SigLIP:
- 使用任何一种外部表示进行对齐（SigLIP SR 94.0%, DINOv2 SR 94.1%）都比基线（SR 92.7%）要好，证明了表示对齐范式的普适有效性。
- 使用 VGGT 作为目标表示时效果最好（SR 96.9%）。这是因为 SigLIP 强于语义理解，DINOv2 强于 2D 视觉定位，而只有 VGGT 是在 2D-3D 配对数据上训练的，其表示直接蕴含了 VLA 模型最缺乏的 3D 几何知识。
位置嵌入 (Positional Embedding, PE) 的影响:
- 对比 VGGT (SR 96.9%) 和 VGGT w/o PE (SR 94.7%)，可以看到加入位置嵌入后性能有显著提升，尤其是在长时序任务 Long SR 上（从 84.4% 提升到 94.2%）。这验证了之前的假设：对于自回归模型，保持词元的时序和空间顺序至关重要。

6.3.2. 对齐层 (Aligned Layer) 的影响

实验对比了在第 1、8、16、24、32 层进行对齐的效果。
结果表明，在第 24 层进行对齐效果最佳（SR 96.9%）。这印证了作者的分析：太浅的层（如第 1、8 层）学习到的特征不够抽象；太深的层（如第 32 层）视觉信息丢失过多，与纯视觉的几何表示对齐效果不佳。选择一个中高层是最佳的平衡点。

6.3.3. 训练效率 (Training Efficiency) 分析

下图（原文 Figure 5(a) 和 5(b)）展示了训练效率和数据效率的对比：

Figure 5: (a) We report the success rates vs. training iterations before and after representation alignment. (b) We report the success rate vs. training data before and after representation alignment… 该图像是图表，展示了成功率与训练迭代数及训练数据量的关系。 (a) 训练效率显示经过对齐后，成功率提升了3.8倍。 (b) 数据效率表明，对齐导致成功率提升约5.9倍。 (c) t-SNE可视化显示了对齐后的表示与目标间的相似分布形状。

更快收敛： 从 Table 2 和 Figure 5(a) 可以看到，仅用 50k 次迭代，SF 就达到了 96.5% 的成功率，这已经远超基线模型训练 150k 次的最终性能（92.7%）。论文指出，SF 达到同样性能的训练速度比基线快 3.8 倍。
原因分析： SF 提供了一个非常明确的学习“捷径”。模型不再需要从零开始、费力地从大量数据中间接推断空间关系，而是可以直接从“老师”（VGGT）那里学到高质量的空间知识，从而大大加快了学习进程。

6.3.4. 数据效率 (Data Efficiency) 分析

更少数据，更好性能： 从 Table 2 和 Figure 5(b) 可以看到，当只使用 5% 的训练数据时，SF 依然能达到 75.8% 的成功率。相比之下，基线模型在相同数据量下的性能要低得多。
价值： 这一特性在机器人领域尤其有价值，因为收集和标注高质量的真实世界机器人数据成本极高。SF 能够有效利用少量数据，降低了模型部署的门槛。

6.3.5. t-SNE 可视化分析

Figure 5(c) 展示了使用 t-SNE 技术对 VLA 视觉特征、目标（VGGT）特征以及对齐后的 VLA 特征进行降维可视化的结果。

发现 1 (形状相似): 对齐后的 VLA 特征（ $VLA w/ SF$ ）的分布形状与目标特征（Target）几乎一致。这说明 SF 成功地让 VLA 的特征空间学会了目标特征空间内部的相对几何结构。
发现 2 (中心独立): 对齐后的 VLA 特征簇的中心与目标特征簇的中心保持独立，没有完全重合。这说明 VLA 在学习空间知识的同时，也保留了自身原有的表示特性，没有发生“表征崩溃”（即完全被教师同化而丢失自己的信息）。

7. 总结与思考

7.1. 结论总结

本文成功地识别并解决了当前 VLA 模型在 3D 空间感知能力上的核心短板。作者提出的 Spatial Forcing (SF) 方法，通过一种简单而巧妙的隐式表示对齐策略，实现了在不增加任何推理开销的前提下，显著提升 VLA 模型的空间理解能力。

主要贡献：
1. 通过深度探测实验，清晰地揭示了问题的存在。
2. 提出了 SF 这一创新、高效的训练范式。
3. 通过在仿真和真实世界中的大量实验，证明了 SF 在任务成功率、训练速度和数据效率方面的全面优势，其性能甚至超越了依赖额外 3D 数据的模型。
核心意义： SF 为如何将特定领域的知识（如 3D 几何）高效地“注入”到通用的基础模型中提供了一个极具参考价值的范例。它开辟了一条不依赖修改模型输入或架构，而是通过在训练过程中引导内部表示来增强模型能力的有效路径。

7.2. 局限性与未来工作

尽管论文取得了显著成果，但仍存在一些潜在的局限性和值得探索的未来方向：

对教师模型的依赖： SF 的性能上限在很大程度上取决于“教师”模型（本文中为 VGGT）的质量。如果教师模型本身在某些场景下表现不佳，可能会向学生模型传递错误的或有偏见的知识。未来的工作可以探索使用更强大、更多样化的 3D 基础模型，甚至是多个教师模型的集成。
对齐层的选择： 本文通过实验确定了最佳的对齐层，但这个选择过程仍偏经验性。未来可以研究更自动或动态地选择最佳对齐层的方法，例如，根据不同任务的特性自适应地调整对齐的深度。
对齐方式的探索： 本文使用了余弦相似度作为对齐损失。未来可以探索其他更复杂的对齐损失函数，如对比学习损失 (contrastive loss) 等，看是否能进一步提升对齐的效果。
泛化到更复杂的交互： 当前实验主要集中在桌面操作任务。将 SF 方法应用到更复杂的场景，如移动操作、复杂物理交互（如与柔性物体交互）中，并验证其有效性，将是重要的下一步。

7.3. 个人启发与批判

启发：
1. “隐式”的力量：这篇论文给我最大的启发是“隐式监督”的强大潜力。很多时候，我们试图通过改造模型的输入（“喂给它更多信息”）来提升性能，但这往往会带来新的问题（如数据噪声、硬件依赖）。SF 的成功表明，引导模型的内部学习过程（“教它如何思考”）可能是一条更优雅、更高效的道路。
2. 知识蒸馏的延伸应用： SF 是特征层知识蒸馏在机器人领域的一次非常成功的应用。这个范式可以被广泛迁移到其他领域：例如，我们可以用一个专门的物理仿真模型来监督一个通用世界模型的内部状态表示，教它理解物理规律；或者用一个专业的医学影像分析模型来监督一个通用 VLM，教它学会看懂 CT 扫描图。 *

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。