BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
TL;DR 精炼摘要
本文提出了BridgeVLA,一种用于3D机器操作的新型视觉-语言-动作模型,解决了现有模型在样本效率和3D数据利用不充分的问题。通过将3D点云投影到多视角的2D图像和使用2D热图进行动作预测,该方法确保了输入输出对齐,并在多个基准测试中实现了最先进的性能,成功率显著提升。
摘要
Recently, leveraging pre-trained vision-language models (VLMs) for building vision-language-action (VLA) models has emerged as a promising approach to effective robot manipulation learning. However, only few methods incorporate 3D signals into VLMs for action prediction, and they do not fully leverage the spatial structure inherent in 3D data, leading to low sample efficiency. In this paper, we introduce BridgeVLA, a novel 3D VLA model that (1) projects 3D inputs to multiple 2D images, ensuring input alignment with the VLM backbone, and (2) utilizes 2D heatmaps for action prediction, unifying the input and output spaces within a consistent 2D image space. In addition, we propose a scalable pre-training method that equips the VLM backbone with the capability to predict 2D heatmaps before downstream policy learning. Extensive experiments show the proposed method is able to learn 3D manipulation efficiently and effectively. BridgeVLA outperforms state-of-the-art baseline methods across three simulation benchmarks. In RLBench, it improves the average success rate from 81.4% to 88.2%. In COLOSSEUM, it demonstrates significantly better performance in challenging generalization settings, boosting the average success rate from 56.7% to 64.0%. In GemBench, it surpasses all the comparing baseline methods in terms of average success rate. In real-robot experiments, BridgeVLA outperforms a state-of-the-art baseline method by 32% on average. It generalizes robustly in multiple out-of-distribution settings, including visual disturbances and unseen instructions. Remarkably, it is able to achieve a success rate of 96.8% on 10+ tasks with only 3 trajectories per task, highlighting its extraordinary sample efficiency. Project Website:https://bridgevla.github.io/
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models (BridgeVLA:通过输入-输出对齐实现基于视觉-语言模型的高效 3D 操作学习)
1.2. 作者
Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan
- 隶属机构:
- 中国科学院自动化研究所 (CASIA)
- 字节跳动 Seed 团队 (ByteDance Seed)
- 中国科学院大学 (UCAS)
- FiveAges
- 南京大学 (NJU)
- 注: 项目负责人,
*通讯作者
1.3. 发表期刊/会议
ArXiv (预印本)
1.4. 发表年份
2025年 (根据元数据 UTC 时间:2025-06-09)
1.5. 摘要
该论文旨在解决现有 视觉-语言-动作 (Vision-Language-Action, VLA) 模型在 3D 机器人操作 中样本效率低下的问题。现有的 VLA 模型通常仅使用 2D 图像,或者未能充分利用 3D 数据的空间结构,且通过预测文本词元 (token) 的方式来输出动作,这与 3D 空间的结构不匹配。 BridgeVLA 提出了一种新的范式:
- 输入对齐: 将 3D 点云投影为多视角的 2D 图像,以适应预训练视觉-语言模型 (VLM) 的输入格式。
- 输出对齐: 并不预测文本,而是预测 2D 热图 (Heatmap),从而将输入和输出统一在一致的 2D 图像空间中。
- 预训练: 提出了一种可扩展的预训练方法,教 VLM 在微调前通过物体定位任务预测热图。 结果: 在 RLBench、COLOSSEUM 和 GemBench 等仿真基准上实现了最先进 (SOTA) 的性能,并在真机实验中仅用 每个任务 3 条轨迹 就达到了 96.8% 的成功率。
1.6. 原文链接
-
arXiv 页面: https://arxiv.org/abs/2506.07961
-
项目主页: https://bridgevla.github.io/
2. 整体概括
2.1. 研究背景与动机
-
核心问题: 如何结合 视觉-语言模型 (VLM) 的强语义理解能力和 3D 策略 (3D Policies) 的高样本效率?
-
现状与挑战:
- 2D VLA 的局限: 如 RT-2 等模型主要处理 2D 图像,缺乏 3D 空间感知,且需要海量数据才能训练(样本效率低)。
- 3D 策略的局限: 如 Act3D、RVT 等利用 3D 结构(点云/体素),样本效率高,但在处理复杂语义指令和泛化能力上不如 VLM。
- 不匹配问题: 将 3D 信息直接注入 VLM 存在困难,因为 VLM 是在 2D 图像和文本上预训练的。此外,VLM 通常输出离散的文本词元 (tokens),这与连续的、具有空间结构的 3D 动作输出不匹配。
-
创新思路: 不要强行修改 VLM 去适应 3D,而是将 3D 问题“翻译”成 VLM 擅长的 2D 问题。通过正交投影将 3D 变为 2D 图像(输入对齐),通过热图预测替代文本生成(输出对齐),从而最大化利用预训练知识。
下图(原文 Figure 1)展示了 BridgeVLA 的核心概览:它通过 2D 投影和 2D 热图预测,将 3D 操作任务统一在 2D 空间内。
该图像是一个示意图,展示了BridgeVLA模型的结构与功能,它通过对3D输入进行2D投影,实现输入和输出之间的对齐。该模型在预训练时使用2D热图,随后在真实世界和仿真环境中进行微调,以提高在3D操作中的成功率。
2.2. 核心贡献/主要发现
-
BridgeVLA 模型: 提出了一个全新的 3D VLA 架构,通过输入(多视图投影)和输出(热图)的双重对齐,保留了 VLM 的语义能力,同时利用了 3D 空间先验。
-
可扩展预训练策略: 设计了一种利用物体检测数据进行 2D 热图预训练 的方法,赋予 VLM 主干网络预测空间分布的能力,填补了文本预测与动作预测之间的鸿沟。
-
卓越的样本效率: 在真机实验中,仅需 3 条演示轨迹 (Demonstrations) 即可学习复杂的 3D 操作任务,而其他 VLA 模型(如 )在只有 10 条数据时完全失败。
-
SOTA 性能: 在 RLBench (88.2% vs 81.4%)、COLOSSEUM (64.0% vs 56.7%) 和 GemBench 上均超越了现有的最先进方法。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,初学者需要掌握以下概念:
- 视觉-语言模型 (Vision-Language Model, VLM): 一种能够同时理解图像和文本的大模型(如 GPT-4V, PaliGemma)。通常,它们接收图像+文本输入,输出文本描述。本文使用的是 PaliGemma。
- 正交投影 (Orthographic Projection): 一种将 3D 物体映射到 2D 平面的方法。与透视投影(近大远小)不同,正交投影保持了物体的实际比例和几何结构。本文将 3D 点云投影为“顶视图”、“前视图”和“右视图”三张图片。
- 热图 (Heatmap): 一种图像形式的概率分布图。在机器人操作中,热图上的每一个像素点的亮度(数值)代表了该位置是“目标动作点”的概率。相比于直接回归
(x, y)坐标,预测热图通常更容易训练且更精确。 - 物体定位 (Object Grounding): 指在图像中找到文本描述对应的物体(通常用边界框 Bounding Box 表示)。本文利用这一任务来预训练模型,使其学会“看图找位置”。
3.2. 前人工作
- 2D VLA 模型: 如 RT-1, RT-2, OpenVLA。它们将动作离散化为文本词元(例如将坐标 "128" 视为一个词)。
- 缺点: 破坏了空间结构,需要大量数据,难以精确操作。
- 3D 操作策略: 如 Act3D, RVT (Robotic View Transformer)。RVT 是本文的主要灵感来源之一,它也使用了多视图正交投影。
- 缺点: 通常从头训练,缺乏 VLM 的互联网级语义知识,泛化性较差。
- 3D VLA 模型: 如 3D-VLA, SpatialVLA。尝试将 3D 特征注入 LLM/VLM。
- 差异: BridgeVLA 认为直接注入 3D 特征会破坏 VLM 的预训练分布。相反,BridgeVLA 将 3D 数据转换为 2D 图像,以此来适应 VLM。
3.3. 差异化分析
BridgeVLA 的核心区别在于 "Alignment" (对齐):
-
不像 SpatialVLA 那样修改 VLM 输入结构(注入 3D 编码),而是将数据转换为 VLM 熟悉的 2D 图像。
-
不像传统 VLA 那样输出文本 Token,而是输出保留空间结构的热图。
4. 方法论
本章节详细拆解 BridgeVLA 的技术实现。其核心思想是:在预训练和微调阶段,始终将输入和输出统一在共享的 2D 空间中。
下图(原文 Figure 2)展示了模型的详细架构,包括左侧的预训练阶段和右侧的微调阶段。
该图像是一个示意图,展示了BridgeVLA模型的架构,其中分为2D热图预训练和3D动作微调两个部分。上半部分使用2D检测数据生成2D热图,下半部分则基于3D点云数据进行动作预测。该模型通过正交投影实现输入对齐,并使用MLP进行输出分类,包括旋转、爪子和碰撞等动作。
4.1. 模型主干 (VLM Backbone)
本文选择 PaliGemma [1] 作为主干网络。它由两部分组成:
- SigLIP Vision Encoder: 用于提取图像特征。
- Gemma Transformer: 用于处理多模态交互。 注意:在原版 PaliGemma 中,输出是文本序列。
4.2. 阶段一:2D 热图预训练 (2D-Heatmap Pre-training)
由于 VLM 原本是用来生成文本的,它不懂如何生成表示位置的“热图”。因此,作者引入了一个预训练阶段。
4.2.1. 任务定义
利用物体检测数据集(如 RoboPoint),输入一张图像和一段文本(如 "Find the apple"),训练模型输出一个高亮显示目标物体的 2D 热图。
4.2.2. 真值热图构建 (Ground Truth Construction)
对于图像中的每个目标物体,作者使用高斯核函数构建概率图。 数学公式: 符号解释:
-
: 像素坐标位置。
-
: 以物体中心 为中心的高斯分布。
-
: 概率阈值,用于截断过小的值,使热图更聚焦。
如果有多个目标物体,最终的真值热图 是所有物体热图的平均归一化: 符号解释:
-
: 所有目标物体热图的平均值。
-
: 整个像素空间。分母用于归一化,确保所有像素概率之和为 1。
4.2.3. 网络修改与训练
PaliGemma 输出的是 Token 序列。为了生成图像大小的热图:
- 重排 (Rearrange): 将输出的 Token 序列根据其在原图中的 Patch 位置重新排列成 2D 特征网格。
- 上采样 (Convex Upsampling): 使用一个凸上采样模块 [40] 将特征网格恢复到与输入图像相同的分辨率。
- 损失函数: 使用交叉熵损失函数监督热图预测。
4.3. 阶段二:3D 动作微调 (3D Action Fine-tuning)
这一阶段是真正的机器人策略学习。
4.3.1. 输入处理:3D 到 2D 的投影
- 输入: 场景的 3D 点云(由 RGB-D 相机重建)。
- 投影: 将点云渲染为三个 正交投影视图(顶视图、前视图、右视图)。
- 对齐: 这三张图片作为 VLM 的输入,这就完美契合了 VLM 处理 2D 图像的能力,避免了直接处理 3D 点云带来的分布偏移。
4.3.2. 动作预测:热图与 Token 结合
机器人的动作 包含:平移 (Translation)、旋转 (Rotation)、夹爪状态 (Gripper) 和碰撞标志 (Collision)。
-
平移预测 (Translation):
- VLM 为三个视图分别输出三个 2D 热图。
- 通过 反向投影 (Back-projection),将这三个 2D 热图的信息映射回 3D 空间,计算 3D 空间中每个体素网格的得分。
- 得分最高的 3D 点即为目标位置。
- 损失函数 : 使用交叉熵损失,监督信号是将 3D 关键帧坐标投影到 2D 视图上的位置构建的高斯热图。
-
旋转与状态预测:
- 这部分不适合用热图表示。作者结合了两种特征:
- 全局特征: 对每个视图的 Token 进行最大池化 (Max-pooling)。
- 局部特征: 提取热图峰值位置对应的 Token 特征。
- 将这些特征拼接后,通过 MLP (多层感知机) 预测旋转(欧拉角离散化分类)、夹爪开闭(二分类)等。
- 这部分不适合用热图表示。作者结合了两种特征:
4.3.3. 总损失函数
符号解释:
-
: 平移预测的交叉熵损失(基于热图)。
-
: 旋转预测的交叉熵损失(旋转角度被离散化为 72 个类别)。
-
: 二元交叉熵损失。
5. 实验设置
5.1. 数据集
实验覆盖了从仿真到真机的多个层级:
-
RLBench (仿真):
-
包含 18 个不同难度的任务(如 "Insert Peg" 插孔, "Stack Cups" 叠杯子)。
-
每个任务 100 条演示数据。
-
下图(原文 Figure 5)展示了 RLBench 中的任务示例:
该图像是一个示意图,展示了18个RLBench任务的机器人操作过程,包括关Jar、插入方形插头、打开抽屉等多种任务。每一行表示不同的操作,从而体现出机器人在进行三维操控时的多样性和复杂性。
-
-
COLOSSEUM (仿真 - 泛化性测试):
-
基于 RLBench,但引入了 12 种干扰,包括颜色、纹理、光照、干扰物等变化,用于测试模型的鲁棒性。
-
下图(原文 Figure 6)展示了 COLOSSEUM 中的视觉干扰示例:
该图像是一个示意图,展示了机器人在不同场景下执行多种操作的多个变体,包括物体颜色、纹理、大小等的不同接收对象。图中显示的任务包括放置酒瓶、关闭笔记本电脑盖,以及整理棋盘等多种操作,展示了机器人处理复杂任务的能力。
-
-
GemBench (仿真 - 层次化泛化):
- 测试模型在未见物体、未见任务组合上的泛化能力。
-
Real-Robot (真机):
- 使用 Franka Research 3 机械臂 + ZED 2i 相机。
- 极低数据量: 重点测试仅用 3 条 或 10 条轨迹时的性能。
5.2. 评估指标
- 任务成功率 (Success Rate, SR):
- 概念定义: 在 次测试试验中,机器人成功完成指定任务的百分比。
- 数学公式:
- 符号解释: 为成功完成任务的次数, 为总测试次数(通常为 25 次)。
5.3. 对比基线
- 2D VLA/非 VLA: Image-BC, (最新的 VLA 之一), ACT.
- 3D 策略:
-
PerAct: 基于体素 (Voxel) 和 Perceiver Transformer。
-
RVT / RVT-2: 基于多视图投影,是目前的 SOTA(最先进)方法。
-
SpatialVLA: 将 3D 编码注入 VLM 的竞争对手。
-
6. 实验结果与分析
6.1. 仿真实验结果 (RLBench)
在标准 RLBench 基准上,BridgeVLA 取得了显著的性能提升。
核心结果分析:
-
总体性能: BridgeVLA 达到了 88.2% 的平均成功率,超过了之前的 SOTA 方法 RVT-2 (81.4%)。
-
高精度任务: 在 "Insert Peg"(插孔)任务中,BridgeVLA 达到了 88.0%,远超 RVT-2 的 40.0%。这证明了基于热图的预测能提供极高的空间精度。
以下是原文 [Table 1] 的结果概览(为展示清晰,这里使用了 HTML 表格还原关键数据,完整数据请参考原论文):
Models Overall Detailed Tasks (Selected) Avg. SR (%) Avg. Rank Insert Peg Image-BC (CNN) 11.3 11.72 0.0 PerAct 49.4 7.0 5.6 Act3D 65.0 4.89 27.0 3D Diffuser Actor 81.3 2.67 65.6 RVT-2 81.4 2.75 40.0 BridgeVLA w/o heat (消融: 无热图) 31.4 10.06 0.0 BridgeVLA w pos (消融: 加3D编码) 56.2 5.97 26.7 BridgeVLA (Ours) 88.2 2.03 88.0
6.2. 泛化性测试 (COLOSSEUM)
在包含视觉干扰的测试中,BridgeVLA 依然表现出色。
核心结果分析:
-
BridgeVLA 的平均成功率为 64.0%,比 RVT-2 (56.7%) 高出 7.3%。
-
这说明 VLM 主干网络(PaliGemma)不仅提供了语义理解,其强大的视觉预训练特征也大大提高了对光照、背景变化的鲁棒性。
以下是原文 [Table 2] 的结果摘要:
Models Avg. SR (%) ↑ Avg. Rank ↓ All Perturbations Light Color PerAct 27.9 3.71 7.2 29.1 RVT 35.4 3.28 6.4 34.0 RVT-2 56.7 1.92 15.6 58.0 BridgeVLA (Ours) 64.0 1.07 18.7 69.7
6.3. 真机实验 (Real-Robot)
这是论文最令人印象深刻的部分。作者在 仅使用 3 条演示轨迹 的情况下训练模型。
核心结果分析:
-
样本效率: 在仅有 3 条数据时,BridgeVLA 依然保持了 95.4% 的成功率。
-
对比: 同等条件下(10条数据),SOTA 2D VLA 模型 几乎完全失败(成功率接近 0%),SpatialVLA 也表现极差。这直接证明了 "3D-to-2D 对齐" 策略在小样本学习上的巨大优势。
下图(原文 Figure 3)展示了真机实验的对比结果,可以看到 BridgeVLA(橙色)在所有设置下均大幅领先。
该图像是展示真实机器人实验和结果的图表。图中使用Franka Research 3机器人臂和ZED 2i摄像头进行操作,呈现了不同设置下的成功率比较,包括基本设置、干扰因素以及各种泛化设置。结果显示,BridgeVLA模型在各个任务中均优于基线方法RVT-2。
下图(原文 Figure 7)展示了真机操作的推演过程 (Rollouts)。
该图像是图表,展示了机器人在不同场景下的操作过程,包括多种颜色块的摆放和物品的整理。每个初始场景后面跟随机器人执行动作的视觉记录,突出展示了操作的步骤和结果。
6.4. 消融实验与参数分析
作者进行了关键的消融实验(见 Table 1 底部):
-
w/o heat (去除热图): 将输出改为直接回归坐标。成功率从 88.2% 暴跌至 31.4%。
- 结论: 热图预测对于保持空间结构至关重要,直接回归坐标丢失了空间相关性。
-
w pos (加入 3D 位置编码): 尝试像 SpatialVLA 那样将 3D 位置信息编码进 VLM 输入。成功率下降至 56.2%。
- 结论: 强行加入 3D 编码破坏了 VLM 预训练时的特征分布(Pre-training distribution),导致效果变差。保持纯图像输入是关键。
-
w/o Pre-train (去除热图预训练): 在真机实验中,如果没有预训练,模型无法理解复杂的语言指令(如“把红块放在绿盘子里”),泛化能力大幅下降。
7. 总结与思考
7.1. 结论总结
BridgeVLA 成功地证明了:构建高效 3D VLA 模型的关键不在于“教会 VLM 理解 3D”,而在于“把 3D 问题转化为 VLM 擅长的 2D 问题”。 通过 正交投影 和 热图预测,BridgeVLA 实现了输入和输出的双向对齐,从而能够:
- 无缝利用 VLM 的强大语义和视觉能力。
- 利用 3D 空间先验实现极高的样本效率(3-shot learning)。
7.2. 局限性与未来工作
- 投影遮挡问题: 在 "Place Cups" 任务中表现不佳,因为正交投影可能会导致关键点在所有视角下都被遮挡。
- 未来方向: 动态选择投影视角,而不是固定的顶/前/右视图。
- 预训练数据偏差: 预训练数据主要是第三人称视角的自然图像,而机器人操作主要是手眼视角或固定机位,存在域差异 (Domain Gap)。
- 未来方向: 扩大预训练数据的多样性。
- 长程任务 (Long-Horizon): 在 GemBench 的 L4 设置(长序列任务)中表现一般。
- 未来方向: 引入 LLM 进行高层任务规划和分解。
7.3. 个人启发与批判
- "Don't fight the pre-training" (顺势而为): 这篇论文给我最大的启发是,在使用预训练大模型时,对齐 (Alignment) 比 修改 (Modification) 更重要。SpatialVLA 试图修改模型内部结构来适应 3D,结果破坏了预训练知识;而 BridgeVLA 选择修改数据形式来适应模型,效果拔群。
- 热图的威力: 在机器人领域,从坐标回归回归到热图分类(Pixel-wise Classification)似乎是一个不可逆转的趋势。它不仅提供了更密集的监督信号,还避开了坐标数值回归的非线性难题。
- 样本效率的突破: 3-shot 就能达到 95% 成功率,这意味着这种方法在工业应用中具有极高的落地潜力,因为收集机器人数据的成本极其高昂。
相似论文推荐
基于向量语义检索推荐的相关论文。