X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
TL;DR 精炼摘要
本文提出了X-VLA,一个基于软提示的变压器架构,旨在构建可扩展的视觉-语言-动作(VLA)模型。通过引入可学习的嵌入,用于不同机器人数据源的跨具身学习,X-VLA在多个仿真和真实机器人上实现了先进的性能,展现了对不同任务和环境的灵活适应能力。
摘要
Successful generalist Vision-Language-Action (VLA) models rely on effective training across diverse robotic platforms with large-scale, cross-embodiment, heterogeneous datasets. To facilitate and leverage the heterogeneity in rich, diverse robotic data sources, we propose a novel Soft Prompt approach with minimally added parameters, by infusing prompt learning concepts into cross-embodiment robot learning and introducing separate sets of learnable embeddings for each distinct data source. These embeddings serve as embodiment-specific prompts, which in unity empower VLA models with effective exploitation of varying cross-embodiment features. Our new X-VLA, a neat flow-matching-based VLA architecture, relies exclusively on soft-prompted standard Transformer encoders, enjoying both scalability and simplicity. Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep of benchmarks, demonstrating superior results on a wide axes of capabilities, from flexible dexterity to quick adaptation across embodiments, environments, and tasks. Website: https://thu-air-dream.github.io/X-VLA/
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
标题解析:
-
X-VLA: 通常代表“跨”(Cross),VLA是 视觉-语言-动作 (Vision-Language-Action) 的缩写。因此,X-VLA指的是一个跨具身(Cross-Embodiment)的视觉-语言-动作模型。 -
Soft-Prompted Transformer: 指出模型的核心技术是 软提示 (Soft-Prompt) 和 Transformer 架构。软提示是一种参数高效的学习方式,用于引导模型适应不同任务或数据源。 -
Scalable Cross-Embodiment: 强调了模型的两大特性——可扩展性 (Scalable) 和 跨具身 (Cross-Embodiment)。这意味着模型不仅能处理来自不同机器人(即“具身”)的数据,而且其性能可以随着模型规模、数据量和数据多样性的增加而持续提升。综合来看,标题清晰地表明,本文提出了一种名为
X-VLA的模型,它使用基于软提示的 Transformer 架构,旨在构建一个可扩展的、能泛化到多种不同机器人平台的通用机器人控制模型。
1.2. 作者
Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan.
作者机构: 作者团队来自多个顶尖学术和研究机构,包括:
-
清华大学智能产业研究院 (Institute for AI Industry Research, AIR, Tsinghua University)
-
上海人工智能实验室 (Shanghai Artificial Intelligence Laboratory)
-
北京大学 (Peking University)
这表明该研究是产学研紧密合作的成果,汇集了学术界和前沿研究机构的强大力量。其中,张亚勤(Ya-Qin Zhang)是人工智能领域的知名学者。
1.3. 发表期刊/会议
论文发布于 arXiv 预印本平台,发布时间为 2025-10-11T16:20:17.000Z。
arXiv 是一个开放获取的学术论文预印本库,允许研究者在同行评审前分享他们的研究成果。这篇论文的发表日期(2025年)是一个未来时间,这通常意味着作者计划在未来某个时间点正式发布或投稿到顶级会议(如 CoRL, NeurIPS, ICRA 等)。作为一个预印本,其结论和结果尚未经过正式的同行评审,但它为学术界提供了了解最新研究进展的快速通道。
1.4. 发表年份
2025 (预定发布年份)
1.5. 摘要
通用视觉-语言-动作 (Vision-Language-Action, VLA) 模型的成功,依赖于在多样化的机器人平台(即跨具身)上,使用大规模、异构的数据集进行有效训练。为了更好地利用这些丰富多样的机器人数据源中的异构性 (heterogeneity),本文提出了一种新颖的软提示 (Soft Prompt) 方法。该方法通过将提示学习(prompt learning)的概念引入跨具身机器人学习,为每个不同的数据源引入一组独立的可学习嵌入 (learnable embeddings),而只增加极少的模型参数。这些嵌入作为特定于具身的提示 (embodiment-specific prompts),共同赋予 VLA 模型有效利用不同具身特征的能力。
本文提出的新模型 X-VLA,是一个基于流匹配 (flow-matching) 的简洁 VLA 架构,它完全依赖于经过软提示增强的标准 Transformer 编码器 (Transformer encoders),兼具可扩展性 (scalability) 和简洁性 (simplicity)。
本文实现了一个 0.9B(9亿)参数的实例 X-VLA-0.9B,并在6个仿真环境和3个真实世界机器人上进行了评估。结果显示,该模型在一系列基准测试中同时达到了最先进的 (SOTA) 性能,在从灵活的灵巧操作 (flexible dexterity) 到跨具身、环境和任务的快速适应 (quick adaptation) 等多个能力维度上都展示了卓越的结果。
1.6. 原文链接
-
发布状态: 预印本 (Preprint)
2. 整体概括
2.1. 研究背景与动机
近年来,构建能够听懂人类指令并在多样化环境中操作不同机器人的通用自主智能体,已成为机器人领域的核心目标。受大语言模型(LLMs)和视觉语言模型(VLMs)成功的启发,一个充满希望的方向是将这些先进架构扩展到机器人领域,形成视觉-语言-动作 (VLA) 模型。
然而,要训练一个强大的 VLA 模型,需要海量的、来自不同机器人平台的跨具身 (cross-embodiment) 数据。这些数据存在严重的异构性 (heterogeneity),具体表现在:
-
硬件配置不同:如不同的机械臂运动学特性、相机型号和视角、控制器接口等。
-
数据收集策略不同:导致任务分布、视觉风格和动作空间存在差异。
这种异构性会带来分布偏移 (distributional shifts) 和语义错位 (semantic misalignments),使模型在学习过程中感到“困惑”,难以从混合数据中提炼出通用的知识,最终导致预训练和下游任务适应的性能不佳。
现有研究的空白 (Gap):
- 现有的
VLA模型主要通过为不同机器人设置独立的动作解码头 (action decoder heads) 来解决动作空间的异构性问题。 - 然而,这种方法只在模型的最后阶段起作用,忽略了在特征融合和推理的早期阶段就应考虑的具身差异,也未能处理相机设置、视觉领域等其他关键的异构性来源。
本文的切入点: 作者认为,这些由硬件和数据源差异带来的异构性问题,可以通过一个简单而强大的机制——软提示 (Soft Prompt) 来有效解决。其核心思想是,将不同的硬件配置和数据类型视为不同的“任务”,并借鉴多任务学习和元学习的理念,为每个“任务”(即每个数据源)分配一组可学习的嵌入向量 (learnable embeddings) 作为软提示。这些提示在模型早期阶段就注入,为模型提供“上下文”,告诉它当前处理的数据来自哪个具身,从而引导模型进行具身感知的推理。
2.2. 核心贡献/主要发现
本文的核心贡献可以总结为以下几点:
-
提出了处理机器人数据异构性的新范式——软提示学习:
- 首次将软提示 (Soft Prompt) 机制系统性地引入跨具身机器人学习。通过为每个数据源分配一小组可学习的参数(提示),模型可以在不大幅增加复杂性的情况下,有效地区分和利用不同具身的特定信息。
- 通过实验证明,相比于其他处理异构性的方法(如领域特定的投影层、语言提示),软提示方法训练更稳定,性能更优越。
-
设计了简洁且可扩展的 X-VLA 架构:
- 提出了一个完全基于标准 Transformer 编码器和流匹配 (flow-matching) 策略的
VLA架构。该架构设计简洁,摒弃了复杂的模块,易于实现和扩展。 - 设计了专门的多模态输入处理流程,有效融合了高维(图像、语言)和低维(本体感受、动作)信息。
- 提出了一个完全基于标准 Transformer 编码器和流匹配 (flow-matching) 策略的
-
展示了卓越的性能和强大的泛化能力:
- 训练了一个 0.9B 参数的
X-VLA-0.9B模型,在 6个仿真基准和 3个真实世界机器人上进行了迄今为止最全面的评估之一。 - 在多个主流基准测试(如 LIBERO, Simpler-WidowX)上取得了新的 SOTA (最先进) 成绩,显著超越了之前的模型。
- 在真实世界的灵巧操作任务(如叠衣服)中表现出色,展示了强大的精细操作能力。
- 训练了一个 0.9B 参数的
-
验证了模型良好的可扩展性和适应性:
-
实验表明,
X-VLA的性能随着模型大小、数据多样性和数据量的增加而稳定提升,且未出现饱和迹象,展示了巨大的发展潜力。 -
通过参数高效微调 (Parameter-Efficient Finetuning, PEFT),仅用 1% 的可调参数(9M)就能在下游任务上达到与完全微调的 SOTA 模型(如 3B 参数的 )相媲美的性能,证明了其预训练主干网络学到了通用的、与具身无关的知识。
-
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 视觉-语言-动作 (VLA) 模型
视觉-语言-动作 (Vision-Language-Action, VLA) 模型是一类旨在统一多模态理解和动作生成的机器人控制模型。它的目标是让机器人能够像人一样,根据看到的视觉信息 (Vision) 和听到的语言指令 (Language),生成一连串精确的动作 (Action)来完成任务。
- 输入: 通常包括多视角摄像头捕捉的图像、描述任务目标的自然语言指令,以及机器人自身的姿态信息(如关节角度,即本体感受 (proprioception))。
- 输出: 机器人需要执行的一系列动作,例如机械臂末端执行器的位置和姿态。
- 训练方式: 主流方法是行为克隆 (Behavior Cloning, BC),即模仿专家(通常是人类遥操作员)的演示数据。模型被训练来预测在给定观测下专家会执行的动作序列。
3.1.2. 流匹配 (Flow-Matching) 策略
流匹配 (Flow-Matching) 是一种先进的生成模型技术,近期被广泛应用于机器人动作生成。与直接预测最终动作的传统方法不同,流匹配策略学习一个向量场 (vector field),这个向量场可以引导一个随机噪声样本逐渐“流动”或“变换”成目标动作序列。
-
核心思想: 将动作生成视为一个从简单分布(如高斯噪声)到复杂数据分布(专家动作)的连续变换过程。模型学习的是这个变换路径上每一点的“速度”或“方向”。
-
训练过程: 训练一个神经网络 来预测在时间 、给定观测 和当前动作状态 下的速度 (velocity)。训练目标是让这个预测速度逼近从噪声 到专家动作 的直线路径上的真实速度 。其损失函数在论文中有明确定义(见 4.2.1 节)。
-
推理/生成过程: 从一个随机噪声 开始,使用数值求解器(如欧拉法)沿着学习到的向量场 进行积分,逐步迭代,最终得到生成的动作序列 。公式为:。
这种方法的优点在于训练过程更稳定,并且能够生成更平滑、更自然的动作轨迹。
3.1.3. 软提示学习 (Soft Prompt Learning)
软提示学习 (Soft Prompt Learning),也称为提示调优 (Prompt Tuning),是一种源于自然语言处理(NLP)领域的参数高效微调 (Parameter-Efficient Finetuning, PEFT) 技术。
- 传统微调: 在新任务上微调整个大型预训练模型的所有参数,计算成本高昂。
- 软提示学习: 冻结预训练模型的绝大部分参数,只在输入层添加一小组新的、可学习的嵌入向量(即“软提示”)。在训练时,只更新这些软提示的参数。这些提示像是一种“指令”,引导模型在不改变自身结构的情况下,为特定任务调整其行为。
- 本文应用: 在本文中,软提示被巧妙地用于区分不同的机器人具身 (embodiment)。每个数据源(代表一个具身配置)都有一套专属的软提示。这使得同一个模型主干网络能够处理来自不同机器人的数据,因为它能通过不同的提示来识别当前的“上下文”。
3.1.4. 跨具身异构性 (Cross-Embodiment Heterogeneity)
这是本文要解决的核心挑战。当从多个来源收集机器人数据时,会遇到巨大的差异,即异构性。这包括:
-
具身差异: 机器人品牌、型号(如 Franka, UR5)、自由度、单臂/双臂等。
-
动作空间差异: 关节控制 vs. 末端执行器控制,绝对坐标 vs. 相对坐标。
-
传感器差异: 相机品牌、分辨率、内外参、放置位置(固定视角 vs. 手腕视角)。
-
任务和环境差异: 不同的任务目标,不同的光照、背景和物体。
这些异构性使得直接在混合数据上训练一个模型变得非常困难。
3.2. 前人工作
本文的工作建立在以下几个研究方向之上:
-
VLA 模型:
- 早期的
VLA模型,如RT-1和RT-2,通过将机器人数据“通证化”(tokenize) 并利用大型 Transformer 架构,证明了大规模预训练的潜力。 - 近期的模型,如
Octo,GR-1, ,开始探索在更大规模、更多样化的跨具身 (cross-embodiment) 数据集(如 Open X-Embodiment)上进行训练,以获得更强的泛化能力。 - 这些工作大多通过为不同具身设置独立的动作头 (action heads) 来处理动作空间的异构性,但本文指出这还不够。
- 早期的
-
处理数据异构性的方法:
- HPT (Heterogeneous Pre-trained Transformers): 该工作(
Wang et al., 2024c)提出在输入端使用领域特定的投影层,将不同来源的观测数据映射到一个共享的表示空间。本文认为这种方法会破坏预训练VLM的表征,导致训练不稳定。 - 语言提示 (Language Prompts): 一些工作尝试用自然语言描述硬件配置(例如,“这是一个视角在左侧的Franka机械臂”),并将其作为额外输入。本文认为这种方法依赖于人工编写的模板,缺乏灵活性和可扩展性。
- HPT (Heterogeneous Pre-trained Transformers): 该工作(
-
生成式动作模型:
- 传统的回归方法(直接预测动作)在高维动作空间中可能效果不佳。
- 近年来,基于扩散模型 (Diffusion Models) 或 流匹配 (Flow-Matching) 的生成式方法开始流行,如
Diffusion Policy和 。它们通过迭代去噪或速度场积分的方式生成动作,能产生更平滑和多模的动作分布。本文的X-VLA也采用了流匹配策略。
3.3. 技术演进
机器人学习的技术演进路线大致如下:
-
单任务学习: 早期机器人学习专注于在单一环境下为单一机器人学习单一任务。
-
多任务学习: 发展到让单个机器人在同一环境下学习多种任务。
-
迁移学习与泛化: 探索如何将一个机器人上学到的技能迁移到另一个相似的机器人或新环境中。
-
大规模通用模型 (VLA 时代): 近年来,受大模型浪潮影响,研究重点转向构建一个通用基础模型,该模型在海量、异构的机器人数据上进行预训练,然后能通过少量样本快速适应任何新机器人、新环境和新任务。
本文正处在第四阶段,其核心目标是解决训练这种通用模型时最棘手的数据异构性问题。
3.4. 差异化分析
X-VLA 与先前工作的主要区别在于其处理异构性的核心机制:
| 方法 | 作用阶段 | 优点 | 缺点 |
|---|---|---|---|
| 领域特定动作头 (Prior Work) | 输出端 | 简单直接 | 仅处理动作空间差异,忽略了观测异构性,作用太晚 |
| HPT-风格投影 (Prior Work) | 输入端 | 尝试统一观测特征 | 容易破坏预训练VLM的表征,训练不稳定 |
| 语言提示 (Prior Work) | 输入端 | 利用LLM的理解能力 | 依赖人工模板,扩展性差,不够灵活 |
| 软提示 (X-VLA) | 特征融合早期 | 训练稳定、参数高效、无需人工模板、自动学习具身特征 | 无明显缺点,是本文验证的最优解 |
X-VLA 的软提示方法,本质上是让模型自己学习如何识别和区分不同的数据来源,而不是通过硬编码的结构(如不同的头)或人工描述(如语言提示)来实现。这种方式更加灵活、优雅且可扩展。
4. 方法论
4.1. 方法原理
X-VLA 的核心思想是:用一个统一的、共享的 Transformer 主干网络学习通用的机器人技能,同时利用轻量级的、特定于数据源的“软提示”来处理不同具身带来的异构性。
其背后的直觉是,无论机器人长什么样(Fanka 或 UR5),“把杯子放到水槽里”这个任务的通用逻辑(识别杯子、规划抓取、移动到水槽、释放)是相似的。这个通用逻辑应该由一个强大的共享模型来学习。而具体的硬件差异(如关节数量、相机位置)则像是一些“附加信息”,可以通过软提示这种高效的方式注入模型,让通用模型知道如何根据当前硬件微调其行为。
4.2. 核心方法详解 (逐层深入)
4.2.1. 处理异构性的策略探索
在正式提出 X-VLA 之前,作者首先进行了一项全面的实证研究,对比了四种处理异构性的方法。这为他们最终选择软提示提供了坚实的数据支持。如下图(原文 Figure 2)所示,这些方法在模型中作用的位置和方式各不相同。
该图像是示意图,展示了不同机器人在简单操作和灵巧操作中的成功率比较。图中包含多组数据柱状图,显示不同方法的成功率,最高成功率为0.90,展示了相比其他方法的优越表现。
-
(a) 领域特定的动作投影 (Domain-specific action projection): 这是最常见的方法。模型主体共享,但在输出端为每个机器人(领域)设置一个独立的线性投影层,将通用的动作表征映射到该机器人具体的动作空间。缺点是作用太晚,无法在早期特征融合阶段就考虑具身差异。
-
(b) HPT-风格的投影 (HPT-style projection): 在输入端和输出端都使用领域特定的投影层。不仅动作输出是特定的,输入的观测数据(如图像特征)也会先经过一个特定于领域的投影层进行“对齐”,再送入共享的主干网络。缺点是容易干扰和破坏预训练VLM的强大视觉表征,导致训练不稳定。
-
(c) 语言提示 (Language prompts): 将描述机器人硬件配置的自然语言文本(如“这是一个使用头顶摄像头的Franka机械臂”)与任务指令拼接在一起,作为模型的输入。缺点是依赖人工编写的、可能不完备的文本描述,扩展性差。
-
(d) 软提示 (Soft prompts): 这是本文采用的方法。为每个数据源(领域)分配一组可学习的嵌入向量(即软提示)。这些提示与多模态特征一起被送入 Transformer 主干网络。模型在端到端的训练中自动学习这些提示的含义,使其能够编码硬件配置等领域信息。优点是灵活、高效、无需人工干预且训练稳定。
如下图(原文 Figure 4)的训练曲线所示,软提示方法(绿色曲线)在验证集上的误差最低且下降最稳定,证明了其优越性。
该图像是图表,展示了不同提示在 Simpler-Widow 上的成功率对比。图中分别用蓝色、黄色和绿色曲线表示 Noisy Prompt、UR5 Prompt 和 Learned Prompt (two-step) 在不同训练步骤下的成功率变化,显示出相应提示的性能差异。
4.2.2. X-VLA 模型架构
基于软提示的成功验证,作者设计了 X-VLA 架构。其整体架构如下图(原文 Figure 10)所示。
该图像是示意图,展示了四种方法在跨体现训练中处理异构性的比较。左侧为现有解决方案,右侧为我们的软提示方法,展示了如何用软提示增强VLA模型的性能,提升其对不同数据源的适应能力。
X-VLA 的架构设计遵循简洁和可扩展的原则,主要由一个多模态编码流水线和一个Transformer 主干网络构成。
1. 高维观测流 (High-dimensional observation stream):
- 这部分处理高维度的图像和语言输入。
- 为了更好地区分通用场景理解和精细操作,
X-VLA对不同视角的图像进行了解耦处理:- 主视角图像(如固定的第三方视角)与语言指令一起被送入一个强大的预训练 VLM 编码器(本文使用
Florence-Large)。这个组合提供了任务的高层语义和全局环境信息。 - 辅助视角图像(如手腕相机视角)则由一个独立的、共享的视觉主干网络进行编码。手腕相机视角变化快、噪声大,但对近距离精细操作至关重要,将其与语言流分开处理可以避免语义冲突。
- 主视角图像(如固定的第三方视角)与语言指令一起被送入一个强大的预训练 VLM 编码器(本文使用
2. 低维本体-动作流 (Low-dimensional proprioceptive-action stream):
- 这部分处理低维度的机器人自身状态和动作信息。
- 本体感受状态 (如关节角度、末端执行器姿态)、用于流匹配的带噪动作样本 、以及流匹配所需的时间嵌入 被拼接在一起。
- 由于这些信息维度低且物理语义紧密相关,它们被一个轻量级的线性层投影到高维特征空间,以便与高维观测特征进行融合。
3. 核心融合与生成模块:
- 来自高维流和低维流的特征,连同为当前数据源选择的软提示 (Soft Prompts),被组合成一个序列。
- 这个序列被送入一个由标准 Transformer 编码器块堆叠而成的主干网络。Transformer 的自注意力机制使得所有模态的信息(视觉、语言、本体、动作、时间、具身提示)能够进行深度、双向的融合。
- 最后,从 Transformer 输出的动作相关的令牌(tokens)经过一个领域特定的线性投影层,解码为最终的动作序列。
4. 动作生成策略 - 流匹配 (Flow-matching):
X-VLA 的策略部分基于流匹配。它不直接预测动作,而是学习一个速度场 。
-
训练: 训练的目标是最小化以下损失函数: 符号解释:
-
: 模型 的参数。
-
: 多模态观测(包括图像、语言、本体感受等)。
-
: 专家演示的真实动作序列(目标)。
-
: 从标准正态分布 中采样的随机噪声。
-
: 从
[0, 1]均匀分布 中采样的时间步。 -
: 从噪声 到真实动作 的线性插值。
-
: 模型在时间 预测的速度。
-
: 从噪声 指向真实动作 的“目标速度”。
-
: L2 范数(均方误差),用于衡量预测速度与目标速度之间的差距。
这个公式的含义是,我们希望模型学习到的速度场 能够驱动任意一个插值点 沿着直线路径向目标动作 移动。
-
-
推理: 从一个随机噪声 开始,通过欧拉法迭代更新动作: 这个过程从 开始,逐步迭代直到 ,最终得到的 就是生成的动作序列。
4.2.3. 定制化训练策略
为了最大化 X-VLA 的性能,作者设计了一套精细的训练流程。
1. 两阶段适应流程 (Two-step Adaptation):
当需要将预训练好的 X-VLA 部署到一个新的、未见过的机器人上时,采用以下两步:
- (1) 提示预热 (Prompt warm-up): 首先,为新机器人引入一组新的、随机初始化的软提示 。然后,冻结预训练的主干网络,只训练这组新的软提示和动作输出头。这一步的目的是让新的提示快速学习到如何利用主干网络中已有的通用知识来编码新机器人的硬件特性。
- (2) 联合策略适应 (Joint policy adaptation): 在提示预热后,解冻主干网络,然后联合微调整个模型(或部分参数,如PEFT),使策略能够更好地针对新领域进行特化。
2. 定制化学习率 (Custom Learning Rate): 在训练和微调时,对模型的不同部分使用不同的学习率。具体来说,为软提示和VLM模块设置一个较小的学习率。这可以防止模型在学习新知识时过快地忘记或破坏从大规模数据中预训练得到的宝贵表征(即灾难性遗忘 (catastrophic forgetting)),从而使训练过程更稳定。
3. 增强的数据处理 (Enhanced Data Processing):
-
对齐的动作表示 (Aligned action representation): 为了让模型学习通用的动作概念,所有不同来源的动作数据都被统一标准化为末端执行器 (End-Effector, EEF) 姿态表示。这包括:
- 三维笛卡尔坐标位置 (xyz position)。
- 使用 Rotate6D 表示法的绝对旋转。相比四元数或欧拉角,6D表示法是连续的,可以避免奇异点问题,使学习更稳定。
- 离散化的二元夹爪状态(打开/关闭)。
-
通过时间降采样实现意图抽象 (Intention abstraction): 原始的动作轨迹可能频率很高(如30Hz),包含很多微小、随机的抖动。为了让模型学习更高层的任务意图 (intention) 而非低级的噪声动作,作者对演示数据进行了时间降采样。例如,模型被训练来预测未来4秒内轨迹的30个关键锚点 (anchor points),而不是每毫秒的动作。
-
均衡的数据采样策略 (Balanced data sampling): 在混合多个数据集进行训练时,简单地轮流从每个数据集中采样(round-robin)可能会因为数据量不均而导致模型偏向于某个数据集。作者采用了一种更精细的加权采样和洗牌策略,确保在每个训练批次中,数据都来自不同领域和不同轨迹的均衡混合,从而减少分布偏差。
5. 实验设置
5.1. 数据集
X-VLA 的训练和评估使用了非常广泛的数据集,体现了其跨具身、跨任务的特性。
-
预训练数据集: 作者从三个最新的高质量数据集中精心筛选并混合了一个包含 290K 段轨迹的异构数据集。如下图(原文 Figure 3),这个混合数据集覆盖了5种机械臂、7个不同的机器人平台,包括单臂和双臂配置。
该图像是T-SNE可视化图,展示了来自7个数据源的软提示。图中标记显示不同的机器人胚体,例如Franka和Agibox等,体现了各个胚体在嵌入空间中的聚类关系。- Droid (Khazatsky et al., 2024): 一个大规模的、在“野外”(in-the-wild)环境下收集的真实世界机器人操作数据集,包含多样的任务和环境。
- RoboMind (Wu et al., 2025): 一个多具身机器人操作基准数据集。
- Agibot (Bu et al., 2025): 一个大规模的机器人操作平台。
-
评估(下游适应)数据集: 模型在预训练后,被迁移到以下多样化的基准上进行评估,如下图(原文 Figure 6)所示。
该图像是示意图,展示了Soft-FOLD数据集的两个阶段:平滑和折叠。上半部分展示了机器人在平整衣物,下面列出了具有不同颜色和尺码的样衣,以及数据收集的相关信息,涵盖了1200个回合,200万样本和24小时耗时。- 仿真基准 (6个):
LIBERO: 评估终身学习 (lifelong learning) 和知识迁移能力的基准。Simpler: 评估在真实世界策略部署中常见的视觉和物理变化的鲁棒性。VLABench: 包含长序列、复杂逻辑的语言指令操作任务。RoboTwin-2.0: 一个可扩展的、用于双臂机器人操作的基准。Calvin: 一个用于长时程、语言条件策略学习的基准。NAVSIM: 一个用于自动驾驶 (autonomous driving) 的数据驱动仿真基准。
- 真实世界机器人 (3个):
WidowX: 一个相对小巧的桌面级机械臂,用于评估基础的拾取-放置任务。AgileX: 一个双臂机器人平台,用于评估高难度的灵巧操作 (dexterous manipulation) 任务,如叠衣服。AIRBOT: 一个在预训练中未见过的机器人,用于测试参数高效微调 (PEFT) 的适应能力。
- Soft-Fold 数据集: 这是作者为叠衣服任务自己构建的高质量双臂操作数据集,包含1200条轨迹。
- 仿真基准 (6个):
5.2. 评估指标
论文中使用了多种指标来从不同维度评估模型性能。
-
预训练验证误差 (Validation Error for Pretraining):
- 概念定义 (Conceptual Definition): 在预训练过程中,该指标用于衡量模型在未见过的验证集上预测动作的准确性。具体来说,它计算模型生成的动作序列与专家演示的真实标注数据 (Ground Truth) 动作序列之间的 L1 距离。这个值越小,说明模型学得越好,通常也预示着下游任务的适应性能会更强。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 动作向量的总维度或序列的总长度。
- : 专家演示的真实动作序列中的第 个值。
- : 模型预测的动作序列中的第 个值。
-
任务成功率 (Success Rate, Acc):
- 概念定义 (Conceptual Definition): 这是评估机器人在具体任务中表现的最直接指标。它衡量在多次尝试中,机器人成功完成预定任务的比例。例如,成功率 90% 意味着在10次尝试中,有9次成功完成了任务。成功与否通常由预定义的条件判断(例如,物体是否被放置在目标区域内)。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
Number of Successful Trials: 成功完成任务的次数。Total Number of Trials: 总共尝试的次数。
-
NAVSIM 驾驶得分 (PDMS for NAVSIM):
- 概念定义 (Conceptual Definition):
PDMS (Planning-based Diverse Metrics Score)是NAVSIM自动驾驶基准中一个综合性的评分,用于评估自动驾驶车辆的整体性能。它整合了安全性、舒适性和任务完成度等多个维度的指标,分数越高代表性能越好。 - 组成部分:
PDMS由以下五个子指标加权得到:NC (No-Collision Rate): 无碰撞率。衡量车辆是否与其他物体发生碰撞。DAC (Drivable Area Compliance): 可行驶区域合规性。衡量车辆是否始终保持在道路的可行驶区域内。TTC (Time-To-Collision): 碰撞时间。一个安全指标,衡量与前方障碍物保持的安全距离。Comfort: 舒适度。通过加速度和加加速度(jerk)的限制来衡量乘坐的平顺性。EP (Ego Progress): 自我进程。衡量车辆沿着规划路径前进的效率。
- 概念定义 (Conceptual Definition):
5.3. 对比基线
X-VLA 与一系列当前最先进的 (state-of-the-art) VLA 模型进行了比较。这些基线模型具有代表性,因为它们涵盖了不同的模型尺寸、架构和训练策略。主要基线包括:
-
大型 VLA 模型: (3B),
GROOT-N1(3B),OpenVLA(7B),UniVLA(9B),TraceVLA(7B),MemoryVLA(7B) 等。这些模型参数量巨大,代表了当前 VLA 领域“越大越好”的趋势。 -
中小型 VLA 模型:
Octo(0.1B),FLOWER(1B),SmolVLA(2B) 等。 -
专门领域的 SOTA 模型: 如自动驾驶领域的
Transfuser和UniAD。与这些强大的基线进行比较,能够充分证明
X-VLA在性能和效率上的优势。
6. 实验结果与分析
6.1. 核心结果分析
X-VLA 在一系列广泛而严苛的实验中展示了其卓越的性能。
6.1.1. 仿真基准测试
下表(原文 Table 2)汇总了 X-VLA-0.9B 与其他 SOTA 模型在多个仿真基准上的性能对比。
| Methods | Size | VM | Simpler | LIBERO | Avg | Calvin Easy | RoboTwin-2.0 | VLABench Avg. PS | NAVSIM PDMS | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| VA | WidowX Spatial | Object | Goal | Long | ABC → D | Hard | |||||||||
| LBP (Liu et al., 2025a) | 0.2B | - | - | - | - | 88.6 | - | - | |||||||
| MoDE (Reuss et al., 2024) | 0.4B | 94.0 | 4.01 | - | - | ||||||||||
| SuSIE (Black et al., 2024b) | 1B | - | 76.3 | 2.69 | - | - | - | ||||||||
| GHIL-Glue (Hatch et al., 2025) | 1B | - | - - | 3.69 | |||||||||||
| SpatialVLA (Qu et al., 2025) | 4B | 75.1 | 70.7 | 42.7 | 88.2 | 89.9 | 78.6 | 55.5 | 78.1 | . | |||||
| TraceVLA (Zheng et al., 2024b) | 7B | 46.2 | 49.1 | - | 84.6 | 85.2 | 75.1 | 54.1 | 74.8 | - | |||||
| ThinkAct (Huang et al., 2025) | 7B | 71.5 | 65.1 | 43.8 | 88.3 | 91.4 | 87.1 | 70.9 | 84.4 | - | |||||
| FPC-VLA (Yang et al., 2025) | 7B | 78.0 | 65.8 | 64.6 | 86.2 | 87.0 | 92.0 | 82.2 | 86.9 | - | |||||
| MemoryVLA (Shi et al., 2025a) | 7B | 77.7 | 72.7 | 71.9 | 98.4 | 98.4 | 96.4 | 93.4 | 96.7 | ||||||
| Octo (Octo Model Team et al., 2024) | 0.1B | 16.8 | 1.10 | 23.4 | 78.9 | 85.7 | 84.6 | 51.1 | 75.1 | ||||||
| GR-1 (Wu et al., 2023) | 0.2B | - | - | 3.06 | |||||||||||
| Seer (Tian et al., 2025) | 0.3B | - | - | - | 87.7 | 4.28 | |||||||||
| UniAct (Zheng et al., 2025) | 0.5B | - | 77.0 | 87.0 | 77.0 | 70.0 | 77.8 | ||||||||
| RDT (Liu et al., 2025b) | 1B | - | - | 34.5 | 13.7 | - | |||||||||
| FLOWER (Reuss et al., 2025) | 1B | 40.0 | 97.1 | 96.7 | 95.6 | 93.5 | 95.7 | 4.53 | - | ||||||
| SmolVLA (Shukor et al., 2025) | 2B | - | 93.0 | 94.0 | 91.0 | 77.0 | 88.8 | - | - | ||||||
| GROOT-N1 (Bjorck et al., 2025) | 3B | 45.0 | 48.4 | - | 94.4 | 97.6 | 93.0 | 90.6 | 93.9 | - | - | 39.7 | - | ||
| π0 (Black et al., 2024a) | 3B | 58.8 | 56.8 | 27.8 | 96.8 | 98.8 | 95.8 | 85.2 | 94.1 | - | 46.4 | 16.4 | 37.8 | - | |
| π0 +FAST (Pertsch et al., 2025) | 3B | 61.9 | 60.5 | 39.5 | 96.4 | 96.8 | 88.6 | 60.2 | 85.5 | - | - | 34.1 | - | ||
| OpenVLA (Kim et al., 2024) | 7B | - | 8.30 | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 | - | - | - | ||||
| OpenVLA-OFT (Kim et al., 2025) | 7B | 63.0 | 54.3 | 31.3 | 97.6 | 98.4 | 97.9 | 94.5 | 97.1 | - | |||||
| DD-VLA (Liang et al., 2025) | 7B | 71.2 | 64.1 | 49.3 | 97.2 | 98.6 | 97.4 | 92.0 | 96.3 | - | - | ||||
| UniVLA (Wang et al., 2025a) | 9B | - | - | 69.8 | 95.4 | 98.8 | 93.6 | 94.0 | 95.4 | 4.41 | - | - | - | 81.7 | |
| Maximum of Existing SOTA | - | 78.0 | 72.7 | 71.9 | 98.4 | 98.8 | 97.9 | 94.5 | 97.1 | 4.53 | 46.4 | 16.4 | 39.7 | 81.7 | |
| X-VLA (Ours) | 0.9B | 80.4 | 75.7 | 95.8 | 98.2 | 98.6 | 97.8 | 97.6 | 98.1 | 4.43 | 70.0 | 39.0 | 51.1 | 87.3 | |
分析要点:
- 全面超越:
X-VLA在Simpler,LIBERO,Calvin,RoboTwin-2.0,VLABench和NAVSIM等多个基准上均取得了 SOTA 或接近 SOTA 的成绩。特别是在Simpler-WidowX(95.8%) 和LIBERO(平均98.1%) 上,性能达到了极高的水平。 - 高性价比:
X-VLA的参数量仅为 0.9B,远小于 (3B),OpenVLA(7B),UniVLA(9B) 等竞争对手,但性能却反超它们,展示了其架构和训练方法的优越性。 - 广泛的泛化能力: 能够在机器人操作(单臂、双臂)、长时程任务、复杂指令理解、甚至自动驾驶等截然不同的领域取得优异成绩,证明了其强大的跨领域泛化能力。
6.1.2. 真实世界实验
X-VLA-0.9B 在三个不同的真实机器人平台上进行了验证,结果同样令人印象深刻。
该图像是图表,展示了X-VLA-0.9B在折叠过程中的各个步骤。图中可以看到机器手臂逐渐将布料折叠整齐,展示了其灵活的操作能力和适应性。
-
基础操作 (WidowX): 在 BridgeDataV2 基准的5个任务中,
X-VLA全面超越了包括Octo,OpenVLA在内的基线模型,展现了在标准拾取-放置任务上的鲁棒性。 -
灵巧操作 (AgileX): 在高难度的叠衣服任务上,
X-VLA仅用1200个演示数据进行微调,就达到了每小时折叠33件的吞吐量和接近100%的成功率。这一性能与据称在更大规模专有数据上训练的闭源模型π₀-folding相当,并远超在相同数据上训练的ACT等模型。这充分证明了X-VLA强大的精细操作能力。下图(原文 Figure 12)展示了其流畅的叠衣过程。
该图像是图表,展示了训练步骤与验证误差之间的关系。图中包含不同提示方法的预测误差,分别为领域特定动作投影、HPT样式投影、语言提示和软提示(我们的方式),显示了随着训练步骤增加,软提示的预测误差逐渐降低,表现出良好的适应性。 -
快速适应 (AIRBOT): 在一个预训练中未见过的
AIRBOT机器人上,使用 PEFT 方法和仅200个演示数据,模型成功学会了抓取衣物。这验证了其高效的小样本适应能力。
6.1.3. 可扩展性分析
如下图(原文 Figure 5)所示,X-VLA 展现了良好的扩展定律 (scaling laws)。
该图像是插图,展示了X-VLA模型的结构及其数据流路径。图中包括了软提示库、输入线性投影和标准自注意力Transformer块,并且展示了多模态tokens和各种输入投影的关系。
随着模型参数量(Model Size)、数据源多样性(Data Sources)和数据总量(Data Size)的增加,模型在验证集上的预测误差持续稳定下降。即使在实验中最大的 0.9B 配置下,性能提升的趋势也没有出现饱和。这表明,通过投入更多计算资源、使用更大的模型和更丰富的数据,X-VLA 的性能还有巨大的提升空间。
6.1.4. 软提示的有效性分析
为了探究软提示是否真的学到了有意义的具身信息,作者进行了深入分析。
-
T-SNE 可视化: 如下图(原文 Figure 8),对预训练后学到的不同数据源的软提示进行 T-SNE 降维可视化。
该图像是示意图,展示了在WidowX拾取和放置实验中用于评估不同泛化方面的任务,包括视觉、运动、物理和语义泛化。每个任务侧重于特定的能力,以验证模型的泛化性能。可以清晰地看到,来自相同硬件配置的提示在嵌入空间中形成了紧密的簇(如
RoboMind-UR和RoboMind-Agilex分别聚类)。这表明软提示成功地捕捉了具身特定的信息。更有趣的是,来自Droid数据集的两个Franka机器人(仅主摄像头视角不同)的提示相互交织,说明软提示并非简单地按数据源标签进行“死记硬背”式的划分,而是能够理解和利用不同具身之间的相似性。 -
PEFT 实验中的提示迁移: 如下图(原文 Figure 9),在
Simpler-WidowX任务上进行 PEFT 实验时,对比了三种不同的提示初始化方式:
该图像是示意图,展示了用于真实世界实验的三种机器人硬件设置,包括(a) WidowX、(b) AgileX和(c) AIRBOT,涵盖了不同的相机配置和任务领域,以形成异构验证环境。-
随机初始化提示 (Noisy Prompt, 蓝色): 性能最差,收敛慢。
-
使用预训练好的 UR5 提示 (UR5 Prompt, 黄色):
UR5和WidowX都是单臂机器人,具有一定相似性。使用UR5的提示作为初始化,在训练早期带来了显著的性能提升,证明了提示的可迁移性。但由于两者仍有差异,最终性能受限。 -
为 WidowX 专门学习提示 (Learned Prompt, 绿色): 采用本文的两阶段适应法学习新提示,性能最佳。
这个实验有力地证明了软提示不仅编码了具身信息,而且这些信息是可迁移、可复用的,为未来实现对新机器人零样本 (zero-shot) 或少样本 (few-shot) 泛化提供了可能性(例如,通过检索与新机器人最相似的已有提示)。
-
6.2. 消融实验/参数分析
下表(原文 Table 1)展示了 X-VLA 各个组件的消融实验结果,清晰地揭示了每个设计选择的贡献。
以下是原文 Table 1 的结果:
| Type | Improvements | Val Error (PT) | Acc (AD) |
|---|---|---|---|
| Baseline Model (w/o PT) | Florence-base + Standard DiT-base | - | 4.1 |
| Pretraining Technique (Section 4.2.1) | +Custom LR (w/o PT) | - | 39.6 (+35.5) |
| +Heterogeneous PT | 0.11 | 25.0 (-14.6) | |
| Data Processing (Section 4.2.2) | +Action alignment +Intension abstraction +Balanced data sampling | 0.077 (-0.033) | 50.0 (+25.0) |
| Architecture Design (Section 4.1) | +Replace DiT with Transformer encoder | 0.071 (-0.006) | 47.9 (-2.1) |
| +Encoding pipeline | 0.053 (-0.018) | 64.6 (+16.7) | |
| +Soft-prompt | 0.041 (-0.012) | 73.8 (+9.2) | |
| +Scaling up | 0.032 (-0.009) | 89.6 (+15.8) | |
| Finetuning Technique (Section 4.2.1) | +Two-step adaptation | 95.8 (+6.2) |
分析要点:
- 预训练的重要性: 从一个未经预训练的基线(成功率4.1%)开始,仅使用定制化学习率微调就能大幅提升性能(39.6%),说明预训练的 VLM 提供了良好的起点。
- 异构性陷阱: 简单地在异构数据上进行预训练(
+Heterogeneous PT),反而导致性能下降(从39.6%降至25.0%)。这印证了论文的核心动机:如果不加处理,异构性是有害的。 - 数据处理的贡献: 引入动作对齐、意图抽象和均衡采样后,性能大幅回升(50.0%),验证误差也显著下降。这说明高质量的数据处理是成功的基础。
- 架构设计的贡献:
- 将
DiT替换为标准 Transformer 编码器,并引入解耦的编码流水线,带来了显著的性能提升(从50.0%到64.6%)。 - 在此基础上加入软提示 (Soft-prompt),性能再次跃升(73.8%),验证误差也降至 0.041,证明了软提示是解决异构性问题的关键。
- 将
- 扩展和微调的贡献:
-
扩展模型(
+Scaling up)进一步将性能提升至 89.6%,显示了模型的可扩展性。 -
最后,使用两阶段适应微调技术,最终成功率达到 95.8%,展示了该微调策略的有效性。
结论: 消融实验清晰地展示了一条从性能不佳到 SOTA 的完整路径,每一步改进都带来了正向收益,其中软提示和增强的数据处理是两个最大的贡献点。
-
7. 总结与思考
7.1. 结论总结
本文提出了一种名为 X-VLA 的新型视觉-语言-动作模型,旨在解决训练通用机器人策略时面临的核心挑战——数据异构性。其主要贡献和结论如下:
- 创新地引入软提示机制:通过为每个异构数据源分配一组可学习的软提示,
X-VLA能够以一种参数高效、自动化的方式捕捉和利用特定于具身的信息,从而在共享的骨干网络上实现稳定且高效的跨具身预训练。 - 设计了简洁且可扩展的架构:
X-VLA采用纯粹的 Transformer 编码器和流匹配策略,架构清晰简单,易于扩展。实验证明,其性能随着模型和数据规模的增加而持续增长,展现出巨大的潜力。 - 取得了全面的 SOTA 性能:
X-VLA-0.9B模型在6个仿真基准和3个真实世界机器人上进行了广泛评估,在机器人操作、灵巧控制乃至自动驾驶等多个领域均取得了最先进的结果,为未来的机器人基础模型研究树立了一个强大的新基线。 - 展示了强大的适应能力:模型不仅在完全微调时表现出色,在参数高效微调(PEFT)下也表现优异,仅用1%的参数即可达到与大型模型完全微调相媲美的性能。这证明了其预训练的骨干网络确实学到了通用的、与具身无关的知识。
7.2. 局限性与未来工作
作者在附录中坦诚地指出了当前工作的局限性,并展望了未来的研究方向:
- 数据和模型规模的限制: 虽然
X-VLA-0.9B性能强大,但与通用视觉或语言领域的大模型相比,其规模仍然较小。这主要是由于高质量机器人数据的稀缺和计算资源的限制。未来需要探索在更大规模的模型和更多样化的数据上进行训练,并研究VLA模型的扩展定律。 - 监督信号的局限性: 当前的训练主要依赖低维的动作标签作为监督信号,其信息含量有限,难以传达高层推理和物理常识。未来的研究可以探索更丰富的监督信号,如3D空间信息、物理动力学约束、或任务子目标等,以增强模型的学习能力。
- 距离“即插即用”的通用模型尚有距离:
X-VLA虽适应能力强,但部署到新机器人上仍需要少量演示数据进行微调,尚未实现真正的“零样本”部署。未来的目标是构建一个无需额外训练即可无缝部署到任意下游任务的通用机器人模型。作者认为,探索统一的具身表示(如通用的运动学描述符)可能是一个有希望的方向。
7.3. 个人启发与批判
这篇论文给我留下了深刻的印象,其研究思路和实验设计都非常扎实。
个人启发:
- 优雅地解决复杂问题: 本文最大的亮点在于用一个非常“轻”的解决方案——软提示,优雅地解决了机器人领域一个非常“重”的难题——异构性。它没有诉诸于设计更复杂的网络结构,而是借鉴了NLP领域的成熟思想,并巧妙地将其应用到新的物理场景中,这种跨界思维非常值得学习。
- “系统工程”的胜利:
X-VLA的成功并非单一技术的突破,而是一个系统工程的胜利。从处理异构性的核心思想(软提示),到简洁的架构设计,再到精细的数据处理和训练策略,每一个环节都经过了精心设计和验证(如消融实验所示)。这提醒我们,在构建复杂的 AI 系统时,细节和工程实践同样至关重要。 - 实验的广度和深度: 本文的实验评估做得非常出色,覆盖了极其广泛的仿真和真实世界场景。这种全面的验证不仅强有力地支撑了其 SOTA 结论,也为社区提供了一个可信的、强大的基线模型。
批判性思考:
-
SOTA 的时效性: 机器人和
VLA领域的发展日新月异,SOTA 记录被刷新的速度极快。虽然X-VLA在当前取得了令人瞩目的成绩,但其领先地位能保持多久仍是未知数。 -
与闭源模型的比较: 论文中将
X-VLA的叠衣性能与闭源的π₀-folding模型进行比较。尽管X-VLA表现相当,但由于π₀-folding的训练数据和具体实现未知,这种比较的公平性有待商榷。当然,在现有条件下,这已是作者能做的最好的比较。 -
“软提示”的物理解释: 软提示在数学上有效,并且可视化结果也表明它能聚类不同的具身。但这些学习到的嵌入向量究竟对应着哪些具体的物理或几何属性(例如,是编码了关节限制、连杆长度还是相机内外参?),其内在的可解释性仍有待进一步探索。如果能建立软提示与物理参数之间的明确联系,将使该方法更加强大和可控。
总的来说,
X-VLA是一项非常扎实和具有开创性的工作。它为如何有效利用大规模异构数据来训练通用机器人模型提供了一个清晰、有效且可扩展的范例,无疑将对未来的机器人基础模型研究产生深远影响。
相似论文推荐
基于向量语义检索推荐的相关论文。