AiPaper
论文状态:已完成

VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

发表:2025/09/11
原文链接PDF 下载
价格:0.10
价格:0.10
已有 11 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

VLA-Adapter提出一种轻量级视觉-语言-动作模型范式,旨在解决现有VLA模型对大规模VLM及昂贵预训练的依赖。通过系统分析视觉-语言条件并设计带有“桥接注意力”的策略模块,该方法能高效将最优条件注入动作空间。实验证明,VLA-Adapter仅需0.5B参数骨干且无需机器人数据预训练,便在模拟和真实世界机器人任务中实现SOTA性能,达到迄今最快推理速度,并显著降低了训练成本(单块消费级GPU 8小时)。

摘要

Vision-Language-Action (VLA) models typically bridge the gap between perceptual and action spaces by pre-training a large-scale Vision-Language Model (VLM) on robotic data. While this approach greatly enhances performance, it also incurs significant training costs. In this paper, we investigate how to effectively bridge vision-language (VL) representations to action (A). We introduce VLA-Adapter, a novel paradigm designed to reduce the reliance of VLA models on large-scale VLMs and extensive pre-training. To this end, we first systematically analyze the effectiveness of various VL conditions and present key findings on which conditions are essential for bridging perception and action spaces. Based on these insights, we propose a lightweight Policy module with Bridge Attention, which autonomously injects the optimal condition into the action space. In this way, our method achieves high performance using only a 0.5B-parameter backbone, without any robotic data pre-training. Extensive experiments on both simulated and real-world robotic benchmarks demonstrate that VLA-Adapter not only achieves state-of-the-art level performance, but also offers the fast inference speed reported to date. Furthermore, thanks to the proposed advanced bridging paradigm, VLA-Adapter enables the training of a powerful VLA model in just 8 hours on a single consumer-grade GPU, greatly lowering the barrier to deploying the VLA model. Project page: https://vla-adapter.github.io/.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model (VLA-Adapter:一种有效的小规模视觉-语言-动作模型范式)
  • 作者 (Authors): Yihao Wang, Pengxiang Ding, Lingxiao Li, Can Cui, Zirui Ge, Xinyang Tong, Wenxuan Song, Han Zhao, Wei Zhao, Pengxu Hou, Siteng Huang, Yifan Tang, Wenhui Wang, Ru Zhang, Jianyi Liu, Donglin Wang.
  • 隶属机构 (Affiliations): 作者来自北京邮电大学 (Beijing University of Posts and Telecommunications)、西湖大学 (Westlake University)、浙江大学 (Zhejiang University)、OpenHelix团队、网络与交换技术国家重点实验室 (State Key Laboratory of Networking and Switching Technology)、香港科技大学(广州) (The Hong Kong University of Science and Technology (Guangzhou)) 等多个知名学术机构和研究团队。
  • 发表期刊/会议 (Journal/Conference): 本文目前发布在 arXiv 预印本平台,尚未在顶级会议或期刊上正式发表。arXiv 是学术界分享最新研究成果的重要平台,通常代表了前沿的研究方向。
  • 发表年份 (Publication Year): 2025 (根据 arXiv 编号推断,实际提交日期可能在2024年或2025年)
  • 摘要 (Abstract): 视觉-语言-动作 (VLA) 模型通常通过在机器人数据上预训练一个大规模的视觉-语言模型 (VLM) 来连接感知空间和动作空间,但这带来了巨大的训练成本。本文旨在研究如何有效地将视觉-语言 (VL) 表征桥接到动作 (A)。作者提出了 VLA-Adapter,一个旨在减少 VLA 模型对大规模 VLM 和昂贵预训练依赖的新范式。研究首先系统性分析了不同 VL 条件的有效性,并得出了哪些条件对于桥接感知和动作至关重要的关键发现。基于这些发现,作者设计了一个带有“桥接注意力 (Bridge Attention)”的轻量级策略模块 (Policy module),该模块能自动地将最优条件注入动作空间。通过这种方式,该方法仅使用一个 0.5B (5亿) 参数的骨干网络,且无需任何机器人数据预训练,就实现了高性能。在模拟和真实世界机器人基准上的大量实验表明,VLA-Adapter 不仅达到了业界顶尖 (SOTA) 水平的性能,还实现了迄今为止报道的最快推理速度。此外,得益于先进的桥接范式,VLA-Adapter 仅需在单块消费级 GPU 上训练 8 小时即可得到一个强大的 VLA 模型,极大地降低了部署 VLA 模型的门槛。
  • 原文链接 (Source Link):

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 当前主流的视觉-语言-动作 (VLA) 模型严重依赖于大规模的视觉-语言模型 (VLM),例如 7B (70亿) 参数以上的模型,并且通常需要在大规模机器人数据集上进行预训练。这种“大力出奇迹”的范式导致了极高的训练成本、巨大的 GPU 显存消耗、缓慢的微调速度和较低的推理效率,阻碍了 VLA 模型的普及和在资源受限场景下的应用。
    • 重要性与挑战: 如何在不牺牲性能的前提下,构建一个轻量级、高效且训练成本低的 VLA 模型,是当前具身智能领域的一个关键挑战。现有研究大多关注于如何设计更强大的 VLM 或 Policy 网络,但很少系统性地探究一个更根本的问题:如何最有效地将视觉-语言 (VL) 的感知信息“桥接”到动作 (A) 的执行空间? 这正是本文试图填补的核心空白 (Gap)。
    • 切入点/创新思路: 本文的创新思路是,与其盲目地增大模型规模,不如深入研究“桥接”机制本身。作者假设,通过智能地选择和融合 VLM 中不同层次、不同类型的特征,可以更高效地为动作生成提供所需信息。基于此,他们提出了一种轻量级的“适配器” (Adapter) 范式,在冻结的小型 VLM 基础上,通过一个精心设计的、可训练的桥接模块和策略网络,实现“四两拨千斤”的效果。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 系统性分析了桥接范式: 本文首次对 VLM 中不同层、不同类型的特征(原始特征 vs. 动作查询特征)在动作生成中的作用进行了系统性分析,并得出了几点关键发现(例如,中间层的原始特征和深层的ActionQuery特征效果更好,多层特征融合优于单层特征)。

    • 提出了 VLA-Adapter 范式: 基于上述分析,提出了一种名为 VLA-Adapter 的新范式。其核心是一个带有桥接注意力 (Bridge Attention) 的轻量级策略网络,它能够动态地、自适应地融合 VLM 的多层原始特征 (Raw features) 和动作查询特征 (ActionQuery features),从而为动作解码提供最有效的信息。

    • 实现了“小模型、高性能、高效率”: 该方法仅使用一个 0.5B 的小型 VLM 作为骨干,无需机器人数据预训练,就在多个主流机器人任务基准上达到了与 7B SOTA 模型相当甚至更高的性能。同时,训练成本极低(单卡 8 小时),推理速度极快,显著降低了 VLA 模型的应用门槛。

      该图像为表格,比较了OpenVLA-OFT(SOTA)与本文提出的VLA-Adapter在骨干网络规模、训练显存需求、吞吐率和性能上的差异。VLA-Ada… 该图像为表格,比较了OpenVLA-OFT(SOTA)与本文提出的VLA-Adapter在骨干网络规模、训练显存需求、吞吐率和性能上的差异。VLA-Adapter骨干参数显著减少至0.5B,仅为OpenVLA的1/14,训练显存需求降低到24.7GB,是原来的0.4倍,吞吐率提升至219.2Hz,约为对方的3倍,且性能保持相当(97.3% vs 97.1%)。下方为模型结构示意,标注了视觉语言模型(VLM)为冻结或可训练状态,桥接模块和策略模块均为可训练。

上图(图像1)直观展示了 VLA-Adapter 的核心优势。与业界顶尖的 OpenVLA-OFT 模型相比,VLA-Adapter 在骨干网络规模 (Backbone) 缩小 14 倍训练显存 (Training VRAM) 降低 60% 的情况下,实现了 3 倍的推理吞吐率 (Throughput),并且性能 (Performance) 依然保持在同一水平

3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 视觉-语言模型 (Vision-Language Model, VLM): 这是一类能够同时理解图像和文本的多模态模型。它通常由一个图像编码器 (如 ViT) 和一个大型语言模型 (LLM) 组成,通过特定的对齐模块将视觉信息融入语言模型的处理流程中,使其能够执行看图对话、图像描述、视觉问答等任务。
    • 视觉-语言-动作模型 (Vision-Language-Action Model, VLA): 这是 VLM 在机器人领域的延伸,旨在让机器人能够根据自然语言指令和视觉观察来执行物理世界的动作。VLA 模型的核心任务是建立一个从“感知”(视觉-语言)到“行动”(机器人动作指令)的映射。
    • 策略网络 (Policy Network): 在机器人学习中,策略网络是一个函数(通常是神经网络),它接收当前的状态(如图像、传感器读数),并输出一个动作或一系列动作。在 VLA 模型中,Policy 网络负责将 VLM 提供的多模态特征解码为具体的机器人控制指令(如关节角度、末端执行器位姿等)。
    • 动作查询 (ActionQuery): 这是一种可学习的特殊 token(向量),它被一同输入到 VLM 中。其作用类似于一个“信息探针”,在 VLM 的处理过程中主动地聚合与执行动作最相关的信息。最终,这个 ActionQuery 的输出向量就成了一个高度浓缩的、为动作生成“量身定制”的表征,可以被 Policy 网络直接使用。
  • 前人工作 (Previous Works): 论文将现有的“从感知到动作”的桥接范式主要分为两类,如下图(图像7)所示:

    该图像为示意图,展示了四种不同的视觉语言行动模型架构类型:(1) RoboVLMs,使用最后一层的原始特征;(2) GROOT N1,使用中间层的原始特征… 该图像为示意图,展示了四种不同的视觉语言行动模型架构类型:(1) RoboVLMs,使用最后一层的原始特征;(2) GROOT N1,使用中间层的原始特征;(3) π₀,使用所有层的原始特征;(4) OpenVLA-OFT,通过额外查询带入最后一层特征,图中通过箭头和模块框示意了特征从视觉语言模型(VLM)到策略模块(Policy)的传递方式及输入类型。

    1. 使用 VLM 的原始特征 (Raw Features from VLMs):

      • 最后一层特征 (Last Layer): 早期的工作如 RoboVLMs 认为 VLM 的最后一层编码了最高阶的语义信息,因此直接提取最后一层的特征送入 Policy 网络。其局限性在于,最后一层可能丢失了对精细操作至关重要的低层视觉细节。
      • 中间层特征 (Intermediate Layer):GROOT N1 这样的工作认为 VLM 的中间层特征在语义信息和视觉细节之间取得了更好的平衡,因此选择某个中间层的特征作为桥梁。这比最后一层有所改进,但如何选择“最佳”中间层成了一个难题。
      • 所有层特征 (All Layers): π₀ 等工作更进一步,将 VLM 所有中间层的特征都提取出来,并输入到 Policy 网络中。这种方法信息量最全,但如何有效融合这些海量信息,以及其带来的计算开销是主要挑战。
    2. 使用额外的查询作为接口 (Additional Query as Interface):

      • 动作查询 (ActionQuery): OpenVLA-OFT 等近期 SOTA 方法引入了 ActionQuery 的概念。它们不直接传递 VLM 内部的原始图像或文本特征,而是让一个可学习的 ActionQuery token 在 VLM 内部“旅行”,主动收集信息。这种方法的优势在于 ActionQuery 可以端到端地学习如何为 Policy 网络“打包”最需要的信息。但现有工作通常只使用最后一层的 ActionQuery 输出。
  • 差异化分析 (Differentiation): 本文的方法与上述工作的核心区别在于:

    • 不“非此即彼”: VLA-Adapter 没有简单地选择上述某一种范式,而是通过系统性实验发现 Raw featuresActionQuery features 各有优势,在不同任务和不同网络层次上扮演着互补的角色。
    • 智能融合: 提出了 Bridge Attention 机制,不是简单地拼接或相加不同特征,而是让 Policy 网络在每一层都通过注意力机制,自适应地决定从 Raw featuresActionQuery features 中“汲取”多少信息。
    • 全层次利用: 与之前只利用特定层(最后、中间)的方法不同,VLA-Adapter 同时利用了 VLM 所有层次的 Raw featuresActionQuery features,实现了信息的最大化利用,并通过 Bridge Attention 高效地管理这些信息。

4. 方法论 (Methodology - Core Technology & Implementation Details)

VLA-Adapter 的核心方法论可以分为两步:首先通过系统性实验探究最优的桥接条件,然后基于实验结论设计出最终的模型架构。

  • 方法原理 (Methodology Principles): 其核心思想是,一个高效的 VLA 模型不应仅仅依赖于一个强大的 VLM,更关键的是要建立一个高效的“信息通道”,将 VLM 提取的多模态感知信息精确、无损地传递给 Policy 网络。VLA-Adapter 通过并行利用和自适应融合两种信息源(Raw featuresActionQuery)来实现这一目标。

  • 方法步骤与流程 (Steps & Procedures):

    第一步:探究哪种条件对桥接最重要?(Which Condition Is Essential?)

    作者设计了一系列受控实验来回答两个核心问题:1) VLM 的哪一层特征对 Policy 网络最有效? 2) ActionQuery 特征是否比原始特征更好? 实验设置如下图(图像8)所示,作者在一个统一的框架下测试了四种不同的条件组合:

    该图像为示意图,展示了VLA-Adapter的统一框架及四种条件类型。左侧为VLA-Adapter架构,包括VLM的多层特征输入与Policy模块的注意力… 该图像为示意图,展示了VLA-Adapter的统一框架及四种条件类型。左侧为VLA-Adapter架构,包括VLM的多层特征输入与Policy模块的注意力机制,用于桥接视觉语言特征与动作查询。右侧详细说明四种条件输入方式:单层原始特征、单层动作查询特征、全层原始特征及全层动作查询特征,均通过注意力机制融合。整体体现了不同视觉语言条件与动作空间的关联方式。

    • a) 单层原始特征 (Single-layer Raw features): 将 VLM 某一个单层的原始特征,作为 Policy 网络所有层的条件输入。

    • b) 单层动作查询特征 (Single-layer ActionQuery features): 将 VLM 某一个单层的 ActionQuery 输出特征,作为 Policy 网络所有层的条件输入。

    • c) 所有层原始特征 (All-layer Raw features): 将 VLM 的第 i 层的原始特征,作为 Policy 网络第 i 层的条件输入。

    • d) 所有层动作查询特征 (All-layer ActionQuery features): 将 VLM 的第 i 层的 ActionQuery 输出特征,作为 Policy 网络第 i 层的条件输入。

      实验结果如下图(图像9)所示,并得出了三大关键发现 (Key Findings):

      这是一张图表,展示了不同单层层数下Raw latent与ActionQuery latent的成功率变化趋势。左侧折线图显示,Raw latent成功率在… 这是一张图表,展示了不同单层层数下Raw latent与ActionQuery latent的成功率变化趋势。左侧折线图显示,Raw latent成功率在各层波动较小,而ActionQuery latent从低成功率迅速提升直至第24层达到90.2%。右侧柱状图对比了24层全层的成功率,ActionQuery latent(92.6%)略优于Raw latent(90.6%)。整体反映了ActionQuery latent在深层次特征下表现更优。

    1. 对于原始特征 (Raw latent): 中间层(如第9层)的效果最好。因为浅层特征过于底层,而深层特征(如第24层)过于抽象和语义化,可能丢失了执行精确操作所需的空间细节。中间层在两者之间取得了最佳平衡。

    2. 对于动作查询特征 (ActionQuery latent): 深层(如第24层)的效果最好。因为 ActionQuery 是从头学习的,它需要在 VLM 中经过多层处理才能充分聚合所需的多模态信息。

    3. 多层特征优于单层: 无论是 Raw 还是 ActionQuery,使用所有层的特征(右侧柱状图)通常都比使用任何一个单层特征(左侧折线图的最高点)效果更好。这证明了不同层次的特征具有互补性。

      结论: 没有任何一种单一类型的特征是绝对最优的。因此,一个理想的桥接范式应该同时利用 VLM 所有层的 Raw featuresActionQuery features

    第二步:设计带有桥接注意力的策略网络 (Policy with Bridge Attention)

    基于上述结论,作者设计了 VLA-Adapter 的核心架构,如下图(图像10)所示:

    该图像为示意图,展示了VLA-Adapter模型的结构框架。图中左侧为视觉语言模型(VLM),通过多层(Mx)桥接注意力模块(Bridge Attenti… 该图像为示意图,展示了VLA-Adapter模型的结构框架。图中左侧为视觉语言模型(VLM),通过多层(Mx)桥接注意力模块(Bridge Attention)与策略模块(Policy)相连接。右侧详细展示了桥接注意力的内部机制,包括多个多头交叉注意力(Multi-Head Cross Attention)和多头自注意力(Multi-Head Self Attention)层,利用条件KV信息实现从视觉语言表示到动作的有效桥接。整体结构强调了轻量化策略模块和桥接注意力在视觉-语言-动作任务中的核心作用。

    该架构主要由一个 VLM 骨干网络和一个轻量级 Policy 网络组成。Policy 网络与 VLM 具有相同的层数,其核心是 Bridge Attention 模块。

    • 输入: 在每个时间步 tt,模型接收第三人称视角图像 Xtv\mathcal{X}_t^v、夹爪图像 Xtg\mathcal{X}_t^g、语言指令 Lt\mathcal{L}_tActionQuery AQt\mathcal{AQ}_t
    • 特征提取: VLM 处理这些输入,并在其每一层(共 MM 层)输出对应的原始特征 CtR\mathcal{C}_t^{\mathcal{R}}ActionQuery 特征 CtAQ\mathcal{C}_t^{\mathcal{AQ}}
    • Policy 网络流程:
      1. Policy 网络接收一个初始化的零动作序列 At0\mathbf{A}_t^0 和本体感受状态 Pt\mathcal{P}_t
      2. 在 Policy 网络的第 τ\tau 层,动作隐变量 A~tτ\widetilde{\mathbf{A}}_t^\tau 会进入 Bridge Attention 模块。
      3. Bridge Attention 内部机制:
        • 第一次交叉注意力: A~tτ\widetilde{\mathbf{A}}_t^\tau 作为查询 (Query, Q),与当前层的原始特征 CtR\mathcal{C}_t^{\mathcal{R}} (作为键 Key 和值 Value, KV) 进行交叉注意力计算。
        • 第二次交叉注意力: A~tτ\widetilde{\mathbf{A}}_t^\tau 作为查询 (Q),与当前层的 ActionQuery 特征 CtAQ\mathcal{C}_t^{\mathcal{AQ}} 和本体感受状态 Pt\mathcal{P}_t 的拼接 (作为 KV) 进行交叉注意力计算。
        • 自注意力: A~tτ\widetilde{\mathbf{A}}_t^\tau 与自身进行自注意力计算,以更新动作序列内部的依赖关系。
      4. 这三个注意力模块的输出被拼接在一起,并通过一个前馈网络 (FFN) 得到下一层的动作隐变量 A~tτ+1\widetilde{\mathbf{A}}_t^{\tau+1}
      5. 这个过程逐层重复 MM 次,最终输出预测的动作序列。
  • 数学公式与关键细节 (Mathematical Formulas & Key Details): Bridge Attention 的核心在于如何融合三个注意力模块的输出。作者引入一个可学习的参数 gg 来动态调整原始特征 CtR\mathcal{C}_t^{\mathcal{R}} 的影响力。最终,在第 τ\tau 层融合后的动作隐变量 A^tτ\widehat{\mathbf{A}}_t^\tau 由以下公式给出:

    A^tτ=[CA1(A~tτ,σ1(CtR))tanh(g),CA2(A~tτ,σ2[CtAQ,σ0(Pt)]),SA(A~tτ,A~tτ)]. \widehat { \mathbf { A } } _ { t } ^ { \tau } = [ \mathbf { C A } _ { 1 } \left( \widetilde { \mathbf { A } } _ { t } ^ { \tau } , \sigma _ { 1 } ( \mathcal { C } _ { t } ^ { \mathcal { R } } ) \right) \cdot \operatorname { t a n h } ( g ) , \mathbf { C A } _ { 2 } ( \widetilde { \mathbf { A } } _ { t } ^ { \tau } , \sigma _ { 2 } [ \mathcal { C } _ { t } ^ { A \mathcal { Q } } , \sigma _ { 0 } ( \mathcal { P } _ { t } ) ] ) , \mathbf { S A } \left( \widetilde { \mathbf { A } } _ { t } ^ { \tau } , \widetilde { \mathbf { A } } _ { t } ^ { \tau } \right) ] .

    • 符号解释:
      • A~tτ\widetilde{\mathbf{A}}_t^\tau: 第 τ\tau 层的输入动作隐变量。
      • CtR\mathcal{C}_t^{\mathcal{R}}: 第 τ\tau 层的原始特征。
      • CtAQ\mathcal{C}_t^{\mathcal{AQ}}: 第 τ\tau 层的 ActionQuery 特征。
      • Pt\mathcal{P}_t: 本体感受状态(如机器人关节角度)。
      • σ0,σ1,σ2\sigma_0, \sigma_1, \sigma_2: 表示多层感知机 (MLP) 投影。
      • CA1,CA2\mathbf{CA}_1, \mathbf{CA}_2: 分别代表与原始特征和 ActionQuery 特征的交叉注意力 (Cross Attention) 模块。
      • SA\mathbf{SA}: 代表自注意力 (Self Attention) 模块。
      • gg: 一个可学习的标量参数,初始化为 0。
      • tanh(g)\operatorname{tanh}(g): 使用 tanh 函数将 gg 的值约束在 [1,1][-1, 1] 之间,作为 CA1\mathbf{CA}_1 输出的权重,用于动态控制原始特征的注入程度。
      • [,,][\cdot, \cdot, \cdot]: 表示沿特征维度进行拼接 (Concatenation)。

    训练目标 (Training Objective): 整个模型通过一个简单的 L1 损失函数进行端到端训练,目标是最小化预测动作与真实动作之间的差距。

    minθI(θ)=EAt,CtR,CtAQ,σ0(Pt),τ[πθ(Atτ,CtR,CtAQ,σ0(Pt),τ)At1]. \operatorname* { m i n } _ { \theta } \mathcal { I } ( \theta ) = \mathbb { E } _ { \mathbf { A } _ { t } , \mathcal { C } _ { t } ^ { \mathcal { R } } , \mathcal { C } _ { t } ^ { A \mathcal { Q } } , \sigma _ { 0 } ( \mathcal { P } _ { t } ) , \tau } \left[ \left\| \pi _ { \theta } \big ( \mathbf { A } _ { t } ^ { \tau } , \mathcal { C } _ { t } ^ { \mathcal { R } } , \mathcal { C } _ { t } ^ { \mathcal { A } \mathcal { Q } } , \sigma _ { 0 } ( \mathcal { P } _ { t } ) , \tau \big ) - \mathbf { A } _ { t } \right\| _ { 1 } \right] .

    • 符号解释:
      • θ\theta: 模型的全部可训练参数。
      • πθ()\pi_\theta(\cdot): 表示整个 VLA-Adapter 模型。
      • At\mathbf{A}_t: 真实的动作序列(Ground Truth)。
      • 1\|\cdot\|_1: 表示 L1 范数,即逐元素计算绝对差值之和。
      • E[]\mathbb{E}[\cdot]: 表示期望,即在整个训练数据集上求平均损失。

5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):

    • LIBERO (Lifelong Robotic Learning): 一个广泛用于评估机器人学习模型在多样化任务上表现的基准。它包含四个任务套件:LIBERO-Spatial (空间关系任务), LIBERO-Object (特定对象任务), LIBERO-Goal (特定目标任务), 和 LIBERO-Long (长时程、复杂任务)。选择该数据集是因为它能全面评估模型的各种操作能力,尤其是 LIBERO-Long 对模型的挑战性最大。
    • CALVIN (Composing Actions from Language and Vision): 一个用于评估模型在长时程、零样本泛化任务上表现的基准。它包含 A、B、C、D 四个不同的环境,实验设置通常是在 A、B、C 环境上训练,在从未见过的 D 环境上测试(即 ABC -> D),以评估模型的泛化能力。
  • 评估指标 (Evaluation Metrics):

    • 成功率 (Success Rate):

      1. 概念定义: 该指标衡量模型完成指定任务的成功概率。对于每个子任务,进行多次(本文为 50 次)独立的尝试,成功率即为成功完成任务的次数占总尝试次数的百分比。这是一个直接反映模型性能和可靠性的核心指标,值越高越好。
      2. 数学公式: Success Rate(%)=Number of Successful TrialsTotal Number of Trials×100 \text{Success Rate} (\%) = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100
      3. 符号解释:
        • Number of Successful Trials: 成功完成任务的试验次数。
        • Total Number of Trials: 总共进行的试验次数。
    • 平均长度 (Avg. len):

      1. 概念定义: 该指标专用于 CALVIN 基准,用于衡量模型连续完成子任务的能力。CALVIN 中的每个任务链由 5 个连续的子任务组成,模型必须按顺序完成。Avg. len 记录了模型在任务链失败前,平均成功完成了多少个子任务。其取值范围为 0 到 5,值越大,说明模型的鲁棒性和长时程规划能力越强。
      2. 数学公式: Avg. len=1Ni=1NLi \text{Avg. len} = \frac{1}{N} \sum_{i=1}^{N} L_i
      3. 符号解释:
        • NN: 评估的总任务链数量。
        • LiL_i: 在第 ii 个任务链中,模型成功完成的子任务数量(0Li50 \le L_i \le 5)。
  • 对比基线 (Baselines): 论文选取了大量近期的、有代表性的 VLA 模型作为基线,并根据其骨干网络规模分为三类:

    • Large (大型模型):OpenVLA, OpenVLA-OFT, UnifiedVLA 等,通常基于 7B 或更大参数的 VLM。
    • Small (小型模型): 如 π₀, SmolVLA, GR00T N1 等,参数规模在 2B 到 4B 之间。
    • Tiny (微型模型):Seer, VLA-OS, Diffusion Policy 等,参数规模与本文的 0.5B 相当或更小。 这些基线涵盖了当前 VLA 领域的主流技术路线和 SOTA 模型,使得比较非常全面和有说服力。

6. 实验结果与分析 (Results & Analysis)

  • 核心结果分析 (Core Results Analysis):

    1. VLA-Adapter 范式的必要性

    • 对于未预训练的 VLM 提升巨大: 以下为转录的 Table 2,比较了 VLA-Adapter 与 SOTA 桥接范式 OFT 在不同骨干网络上的表现。

      Fine-tuned B1 +OFT B1 +Ours B2 +OFT B2 +Ours B3 +OFT B3 +Ours
      Success Rate (%) ↑ 85.8 95.0 (9.2% ↑) 87.5 95.2 (7.7% ↑) 94.5 95.4 (0.9% ↑)
    • B1: 0.5B VLM (无机器人预训练), B2: 7B VLM (无机器人预训练), B3: 7B OpenVLA (有机器人预训练)

    • 分析: 当骨干网络(B1, B2)没有经过机器人数据预训练时,VLA-Adapter 相比 OFT 带来了巨大的性能提升(分别为 9.2% 和 7.7%)。而当骨干网络(B3)已经预训练过时,提升较小。这证明了 VLA-Adapter 尤其擅长从未预训练的通用 VLM 中高效提取动作所需知识,从而避免了昂贵的预训练过程。

    • 冻结骨干网络时依然强大: 以下为转录的 Table 3

      Frozen OpenVLA-OFT SmolVLA VLA-Adapter
      Success Rate (%) ↑ 0.0 77.0 86.4
    • 分析: 当 VLM 骨干网络完全冻结(不参与训练)时,OpenVLA-OFT 完全失效,而 VLA-Adapter 依然取得了非常强的性能,远超同类工作 SmolVLA。这证明了 VLA-Adapter 的桥接模块和 Policy 网络本身具有强大的学习和适应能力。

    • 推理效率极高: 以下为转录的 Table 4

      Efficiency OpenVLA OpenVLA-OFT (wo X, P) OpenVLA-OFT VLA-Adapter
      Throughput (Hz) ↑ 4.2 109.7 71.4 219.2
      Latency (Sec) ↓ 0.2396 0.0729 0.1120 0.0365
    • 分析: VLA-Adapter 的吞吐率是 OpenVLA-OFT 的 3 倍以上,延迟仅为其三分之一,展现了极高的推理效率,非常适合实际部署。

    2. 在各类任务上的综合性能

    • 以下为转录的 Table 5,展示了在 LIBERO 基准上的性能对比。

      LIBERO Params Spatial Object Goal Long Avg.
      Large OpenVLA-OFT 7 97.6 98.4 97.9 94.5 97.1
      UnifiedVLA 8.5 95.4 98.8 93.6 94.0 95.5
      Small π₀ 3 96.8 98.8 95.8 85.2 94.2
      GR00T N1 2 94.4 97.6 93.0 90.6 93.9
      SmolVLA 2.2 93.0 94.0 91.0 77.0 88.8
      Tiny VLA-OS 0.5 87.0 96.5 92.7 66.0 85.6
      VLA-Adapter (Ours) 0.5 97.8 99.2 97.2 95.0 97.3
      VLA-Adapter-Pro (Ours) 0.5 99.6* 99.6* 98.2* 96.4* 98.5*
    • 分析: VLA-Adapter (0.5B) 的平均性能 (97.3%) 超过了 14 倍大的 SOTA 模型 OpenVLA-OFT (97.1%),并显著优于所有 Small 和 Tiny 类别的基线。这强有力地证明了其范式的有效性。其 Pro 版本性能更是达到了新的 SOTA。

    3. 泛化任务性能

    • 以下为转录的 Table 6,展示了在 CALVIN ABC -> D 零样本泛化基准上的性能。

      CALVIN ABC→D Params Avg. len ↑
      Large OpenVLA-OFT 7 4.10
      UniVLA 7 3.80
      Small VPP† 1.5 4.33
      Tiny SeerLarge 0.57 4.28
      VLA-Adapter (Ours) 0.5 4.42
      VLA-Adapter-Pro (Ours) 0.5 4.50*
    • 分析: 在对泛化能力要求极高的 CALVIN 基准上,VLA-Adapter 的 Avg. len (4.42) 再次超越了所有更大规模的基线模型,证明其不仅在已知任务上表现优异,还具备强大的泛化到新环境的能力。

    4. 真实世界任务性能

    • 论文在真实的 Synria Alicia-D 机械臂上进行了实验,涵盖了从简单的抓取放置到复杂的长时程任务。

      这是一个图像序列,由四组机器人执行物体操作任务的照片组成。每组展示了机器人手臂对具体物体(如勺子、杯子、积木、玩具鸭)完成抓取、堆叠或移动等动作的连续过程… 这是一个图像序列,由四组机器人执行物体操作任务的照片组成。每组展示了机器人手臂对具体物体(如勺子、杯子、积木、玩具鸭)完成抓取、堆叠或移动等动作的连续过程,反映了该VLA-Adapter模型在真实世界中执行复杂视觉-语言驱动动作指令的能力。

    上图(图像4)展示了 VLA-Adapter 在真实世界中执行四种不同任务的序列,包括长时程任务(“拿起勺子放到杯子上,再把杯子放到盘子上”)和复杂操作(“把红色积木堆在蓝色积木上”)。结果(见原文 Figure 7)表明,VLA-Adapter 在真实世界中的泛化能力和任务成功率均优于基线方法 ACT 和 OFT-style variant。

  • 消融实验/参数分析 (Ablation Studies / Parameter Analysis):

    1. ActionQuery 的数量

    • 实验发现,ActionQuery 的数量并非越多越好。数量太少(如 1 或 4)会导致多模态信息聚合不足,数量太多(如 256 或 512)则会引入冗余信息干扰性能。最终,64 个 ActionQuery 在性能和效率之间取得了最佳平衡

    2. 条件类型

    • 以下为转录的 Table 7,比较了不同桥接范式(对应不同条件类型)的性能。

      Layer Raw ActionQuery Style SR ↑
      Last RoboVLMs 85.8
      OpenVLA-OFT 90.2
      Intermediate GR00T N1 88.4
      All π₀ 90.6
      N/A 92.6
      VLA-Adapter (Ours) 95.0
    • 分析: 单独使用所有层的 ActionQuery (92.6%) 优于单独使用所有层的 Raw 特征 (90.6%)。然而,将两者结合使用的 VLA-Adapter (95.0%) 取得了最佳性能,这再次验证了 Bridge Attention 融合两种互补特征的优越性。

    3. Policy 的注入程度

    • 以下为转录的 Table 8,探究了 Bridge Attention 中不同特征的注入权重。

      Raw ActionQuery Success Rate (%)
      1) (VLA-Adapter) tanh(g) 1 95.0
      2) 1 1 91.4
      3) 1 tanh(g) 91.0
      4) tanh(g) tanh(g) 92.6
    • 分析: 默认设置(第1行),即 ActionQuery 特征完全注入(权重为1),而 Raw 特征通过可学习的门控 tanh(g) 动态注入,效果最好。如果强制 Raw 特征完全注入(第2行),或者对 ActionQuery 特征进行门控(第3行),性能都会下降。这说明 ActionQuery 作为为动作生成定制的特征,应被充分利用,而 Raw 特征作为补充信息,需要被选择性地使用。这证明了 Bridge Attention 中非对称注入设计的有效性。

7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary): 本文成功地提出了 VLA-Adapter,一个新颖、高效且轻量级的 VLA 模型范式。通过系统性地分析 VLM 到 Policy 的桥接机制,并设计出能够自适应融合多层 Raw 特征和 ActionQuery 特征的 Bridge Attention 模块,VLA-Adapter 在仅使用 0.5B 参数骨干网络且无需机器人数据预训练的情况下,实现了与 14 倍大的 SOTA 模型相媲美甚至更高的性能。该工作不仅在模拟和真实世界任务中验证了其卓越的性能和泛化能力,还凭借极低的训练成本和极高的推理速度,极大地降低了 VLA 模型的应用门槛。

  • 局限性与未来工作 (Limitations & Future Work):

    • 真实世界泛化性: 尽管在实验中表现出色,但由于模型规模小且未在海量具身数据上预训练,其在更广泛、更复杂的真实世界场景中的泛化能力仍有待进一步提升。
    • 条件依赖性: Policy 网络的性能高度依赖于 VLM 提供的条件质量。未来的工作可以探索如何进一步改善这些条件的表征能力,以及如何更高效地利用它们。
    • 训练过程: 目前的训练过程相对简单(监督学习 L1 loss)。未来可以探索更复杂的训练策略,如强化学习,来进一步提升模型的决策能力。
  • 个人启发与批判 (Personal Insights & Critique):

    • 启发: 这篇论文最大的启发在于它挑战了具身智能领域“模型越大越好”的普遍认知。它清晰地表明,精巧的架构设计(如何桥接信息)可以比单纯的参数堆砌(信息处理能力)更重要。这种“以智取胜”而非“以力取胜”的思路,为资源有限的研究者和开发者指明了一条通往高性能 VLA 模型的道路,具有很强的现实意义和“民主化”价值。VLA-Adapter 的思想可以迁移到其他多模态领域,即在连接不同模态的“桥梁”上做文章,可能比升级各个模态的编码器本身更具性价比。
    • 批判与思考:
      • 知识的局限性: 虽然 0.5B 模型在特定基准上表现优异,但其内含的“世界知识”和常识推理能力无疑远逊于 7B+ 的模型。对于需要复杂推理和开放世界理解的任务,这种小模型的性能瓶颈可能会显现。VLA-Adapter 证明了“如何用”信息很重要,但“有什么”信息依然是基础。
      • 数据依赖性: 尽管声称无需“机器人数据预训练”,但模型仍然需要在目标任务的演示数据上进行训练。其性能在很大程度上仍取决于训练数据的质量和多样性。对于训练数据中未覆盖的全新任务,其泛化能力可能是一个潜在的弱点。
      • 任务复杂度: 论文中测试的 LIBEROCALVIN 任务虽然复杂,但仍属于结构化的桌面操作任务。在更动态、更需要长期记忆和规划的移动操作或人机交互场景下,VLA-Adapter 的有效性还有待验证。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。