FASTER: Toward Powerful and Efficient Autoregressive Vision–Language–Action Models with Learnable Action Tokenizer and Block-wise Decoding
TL;DR 精炼摘要
FASTER(灵活的动作序列分词技术)提出了一种基于向量量化的可学习动作分词器,旨在解决自回归视觉-语言-动作模型中的重建精度与推理效率的权衡。通过结合Transformer网络与残差向量量化,FASTER在动作块特征表示中实现了灵活编码和高效推理。基于此,FASTerVLA模型进一步提升了性能和推理速度,超越了现有的最先进VLA模型。
摘要
Autoregressive vision-language-action (VLA) models have shown strong capabilities in robotic manipulation. However, their core component—action tokenization—often suffers from a trade-off between reconstruction accuracy and inference efficiency. We present Flexible Action Sequence Tokenization for efficient inference (FASTER), a vector-quantization-based learnable tokenizer framework. FASTER represents action chunks as single-channel images to capture global spatio-temporal relationships. Combining a transformer backbone with residual vector quantization, it models cross-dimensional dependencies and regulates code length, thereby preserving structured action dependencies while enabling flexible code organization for downstream VLA models. Building on FASTER, we propose FASTerVLA, which integrates a block-wise autoregressive decoding paradigm and an autoregressive action expert to fully exploit the strengths of autoregressive VLAs. FASTerVLA surpasses existing state-of-the-art VLA models in both performance and inference speed. We construct a systematic evaluation framework for action tokenization and, through comprehensive analysis, demonstrate the performance, efficiency, and flexibility of FASTER across models, tasks, and embodiments. Furthermore, extensive experiments show that FASTerVLA further enhances overall capability, surpassing previous state-of-the-art VLA models in both inference speed and task performance across diverse simulated and real-world settings.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
FASTER: Toward Powerful and Efficient Autoregressive Vision–Language–Action Models with Learnable Action Tokenizer and Block-wise Decoding
中文翻译:FASTER:通过可学习的动作分词器和块级解码,迈向强大且高效的自回归视觉-语言-动作模型
1.2. 作者
Anonymous authors (匿名作者)
分析: 论文处于双盲审稿阶段,因此作者信息被隐去。这通常意味着论文正在投稿到一个学术会议(如 ICLR、NeurIPS、ICML 等)。
1.3. 发表期刊/会议
Paper under double-blind review (双盲审稿中)
分析: 从论文中引用的参考文献格式以及 ICLR Code of Ethics 的提及来看,这篇论文很可能正在投稿国际学习表征会议 (International Conference on Learning Representations, ICLR),这是机器学习领域的顶级会议之一,以其对深度学习、表征学习等前沿方向的关注而闻名。
1.4. 发表年份
根据参考文献中对未来年份(2025年)论文的引用,推测本文的目标发表年份为2025年。
1.5. 摘要
自回归视觉-语言-动作 (Vision-Language-Action, VLA) 模型在机器人操控领域展现了强大的能力。然而,其核心组件——动作分词 (action tokenization)——常面临重建精度与推理效率之间的权衡。为此,我们提出了 FASTER (Flexible Action Sequence Tokenization for efficient inference),一个基于向量量化 (vector-quantization) 的可学习分词器框架。FASTER 将动作块表示为单通道图像以捕捉全局时空关系,并结合 Transformer 主干网络与残差向量量化 (residual vector quantization) 技术,从而在建模跨维度依赖关系和调控编码长度之间取得平衡。这既保留了结构化的动作依赖性,又为下游的 VLA 模型提供了灵活的编码组织方式。基于 FASTER,我们进一步提出了 FASTerVLA,该模型集成了块级自回归解码 (block-wise autoregressive decoding) 范式和一个自回归动作专家 (autoregressive action expert),以充分发挥自回归 VLA 模型的优势。FASTerVLA 在性能和推理速度上均超越了现有的最先进 (state-of-the-art) VLA 模型。我们构建了一个系统的动作分词评估框架,并通过全面分析证明了 FASTER 在不同模型、任务和机器人硬件上的高性能、高效率和高灵活性。此外,大量实验表明,FASTerVLA 进一步提升了整体能力,在多种模拟和真实世界场景中,其推理速度和任务性能均超越了以往的最先进 VLA 模型。
1.6. 原文链接
-
状态: 预印本/审稿中 (Preprint/Under Review)
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题
在机器人学领域,视觉-语言-动作 (Vision-Language-Action, VLA) 模型旨在让机器人能理解人类的语言指令,并根据视觉观察执行相应的物理动作。其中,自回归 (Autoregressive) VLA 模型(像语言模型一样,逐个词元地生成动作指令)因其强大的指令遵循和泛化能力而备受关注。然而,这类模型存在一个核心瓶颈:推理速度慢且性能受限于动作表示方法。
2.1.2. 现有挑战 (Gap)
- 动作分词的困境: 机器人的动作是连续的物理量(如关节角度、末端执行器坐标),而自回归模型需要处理离散的词元 (token)。将连续动作转换为离散词元的过程称为动作分词 (action tokenization)。现有的分词方法存在一个难以调和的权衡:
- 高精度方案:为了精确重建动作,需要生成大量词元,但这会导致自回归解码过程非常缓慢,因为每生成一个词元都需要一次完整的模型前向传播。
- 高效率方案:为了加速推理,需要将动作序列压缩成少量词元,但这又会损失信息,导致动作重建不准确,最终影响任务成功率。
- 推理效率低下: 传统的自回归模型逐个生成词元,其推理延迟与词元数量成正比,远慢于扩散 (diffusion) 等非自回归模型,这限制了其在需要快速响应的现实场景中的应用。
- 缺乏通用性: 现有的分词器往往与特定的模型架构、任务或机器人硬件绑定,缺乏一个可以“即插即用”的通用解决方案。
2.1.3. 创新思路
本文的切入点是:设计一个全新的动作分词器,从根本上解决精度与效率的矛盾,并在此基础上优化自回归 VLA 模型的解码范式,使其兼具高性能与高速度。
具体思路如下:
- 对于分词器 (FASTER): 借鉴音频和图像处理领域的成功经验,将机器人动作序列视为一个二维的“图像”,使用残差向量量化 (Residual Vector Quantization, RVQ) 技术进行压缩。这种方法可以实现高压缩率,同时通过多层次的量化来逐步求精,保证重建精度。
- 对于 VLA 模型 (FASTerVLA): 既然分词器可以生成结构化的、定长的动作词元,那么就可以打破“逐个生成”的限制。论文提出块级自回归解码 (block-wise autoregressive decoding),即一次性预测一“块”词元,从而将推理步骤减少数倍,大幅提升速度。
2.2. 核心贡献/主要发现
-
提出了 FASTERVQ:一个紧凑、高压缩率的动作分词器。 它结合了 Transformer 和残差向量量化 (RVQ),能够高效地将连续动作序列压缩为离散的词元码本,同时保留对控制至关重要的结构信息。
-
提出了 FASTerVLA:一个高效的自回归 VLA 模型。 该模型引入了块级解码和动作专家模块,首次使得自回归 VLA 模型在保持高精度的同时,推理速度能够超越非自回归模型。
-
建立了首个系统的 VLA 动作分词评估基准。 论文在一个包含4种真实机器人和4个不同模拟器的综合基准上进行了系统性分析,证明了
FASTER在重建保真度和编码长度之间取得了更优的平衡。 -
实现了新的 SOTA 性能。
FASTerVLA在多个真实和模拟环境的基准测试中,无论是在任务成功率还是推理速度上,都达到了新的最先进水平。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 视觉-语言-动作 (Vision-Language-Action, VLA) 模型
VLA 模型是一种多模态模型,旨在将机器人的视觉感知 (Vision)、人类的自然语言指令 (Language) 和机器人的物理动作 (Action) 统一到一个框架中。简单来说,它的目标是训练一个能“看懂、听懂、会做”的机器人智能体。
3.1.2. 自回归 (Autoregressive, AR) 模型
自回归模型是一种生成模型,它通过序列中已生成的部分来预测下一个元素。在 VLA 模型的上下文中,这意味着模型会根据当前的视觉、语言输入以及已经生成的动作序列,来预测下一个动作词元。其生成过程是串行的,类似于大语言模型 (LLM) 逐字生成文本。
- 优点: 能够很好地捕捉序列中的时序依赖关系,指令遵循能力强。
- 缺点: 推理速度慢,因为生成 N 个词元需要 N 次模型计算。
3.1.3. 动作分词 (Action Tokenization)
这是将机器人连续的、高维的动作数据(如关节角度、速度)转换为离散词元序列的过程,是自回归 VLA 模型的关键前置步骤。一个好的分词器需要在以下几个方面取得平衡:
- 压缩效率: 用尽可能少的词元表示一段动作。
- 重建保真度: 从词元解码回的连续动作应与原始动作尽可能接近。
- 结构保持: 词元应能体现动作内在的时空结构。
- 灵活性: 能够适应不同的机器人、任务和模型。
3.1.4. 向量量化 (Vector Quantization, VQ)
VQ 是一种数据压缩技术。它将一个高维向量空间划分为有限个区域,每个区域用一个“码字 (codeword)”来代表。当需要编码一个向量时,只需找到离它最近的码字,并用该码字的索引来表示它。整个码字集合被称为“码本 (codebook)”。
残差向量量化 (Residual Vector Quantization, RVQ) 是 VQ 的一种增强形式。它采用多阶段量化:
-
第一阶段: 对原始向量进行 VQ,得到第一个码字索引和量化误差(即残差)。
-
第二阶段: 对上一阶段的残差再进行 VQ,得到第二个码字索引和新的残差。
-
重复此过程: 直到达到预设的阶段数。
最终,原始向量由多个码字索引来表示。这种由粗到精 (coarse-to-fine) 的方式可以用较小的码本实现高精度的表示,因为后一阶段的量化器专门学习如何修正前一阶段的误差。
3.2. 前人工作
3.2.1. VLA 模型范式
- 扩散模型 (Diffusion-based Models): 如
Diffusion Policy和 ,这类模型在生成精确的操控轨迹方面表现优异,但论文指出它们在利用视觉和语言线索方面存在不足。 - 自回归模型 (Autoregressive Models): 如
RT-2和OpenVLA,这类模型在语言理解、泛化和知识迁移方面更具优势,且架构与成功的视觉-语言模型 (VLM) 更相似,潜力巨大。但它们的主要问题是推理速度慢。
3.2.2. 动作分词技术
- 分箱 (Binning): 最简单的方法,将连续动作的每个维度值域划分为若干个“箱子 (bin)”,每个箱子对应一个离散 ID。这种方法不进行压缩,词元序列很长。
- DCT+BPE:
FAST(Pertsch et al., 2025) 采用离散余弦变换 (Discrete Cosine Transform, DCT) 来压缩动作序列,然后用字节对编码 (Byte Pair Encoding, BPE) 进一步处理。这种方法减少了冗余,但会产生变长的词元序列,给模型训练和推理带来不便。 - 基于 VQ 的分词器: 如
VQ-VLA和MiniVLA,它们尝试使用 VQ 进行分词。但论文通过实验指出,这些方法往往重建质量较差,损害了 VLA 的性能。
3.2.3. Transformer 架构
本文的模型严重依赖于 Transformer 架构,其核心是自注意力机制 (Self-Attention)。对于初学者,理解其基本工作原理至关重要。
注意力机制 (Attention Mechanism) 公式: 符号解释:
-
(Query, 查询): 代表当前正在处理的元素。
-
(Key, 键): 代表序列中所有可以被关注的元素。
-
(Value, 值): 同样代表序列中所有可以被关注的元素,但它包含了元素自身的实际信息。
-
: 是 向量的维度。除以 是一个缩放因子,用于稳定梯度。
-
: 归一化函数,将计算出的得分转换为概率分布,表示每个元素应获得的注意力权重。
工作流程: 该公式计算了每个查询 () 与所有键 () 之间的相似度,然后用这些相似度(经过 softmax 归一化)作为权重,对所有值 () 进行加权求和。这使得模型能够动态地决定在处理序列中的某个元素时,应该将“注意力”集中在序列的其他哪些部分。
3.3. 技术演进
机器人动作生成技术从早期的直接预测连续值,发展到两大主流范式:
-
非自回归(并行生成): 以扩散模型为代表,一次性生成整个动作轨迹,速度快,精度高。
-
自回归(串行生成): 以类 LLM 模型为代表,逐个生成动作词元,指令遵循和泛化能力强,但速度慢。
本文的工作处于自回归这条技术脉络上,其核心目标是弥补自回归模型在推理速度上的短板,使其在性能和效率上都能与非自回归模型相媲美甚至超越。
3.4. 差异化分析
与先前工作的核心区别在于:
-
相较于
FAST(DCT+BPE):FASTER生成的是定长的、结构化的词元序列,这对于训练和高效的块级解码至关重要。FAST的变长输出使其难以应用类似的并行解码策略。 -
相较于
VQ-VLA/MiniVLA:FASTER的设计(将动作视为图像、采用 Transformer+RVQ、双域重建损失)显著提升了重建保真度,解决了先前 VQ 方法性能不佳的问题。 -
相较于所有标准自回归 VLA:
FASTerVLA引入的块级解码范式,是对传统“逐词元”生成方式的根本性改进,是实现速度大幅提升的关键。
4. 方法论
4.1. 方法原理
本文的方法分为两个核心部分:
-
FASTERVQ: 一个高性能的动作分词器,负责将连续的机器人动作序列高效、准确地转换为离散的词元序列。
-
FASTerVLA: 一个基于
FASTERVQ分词器的 VLA 模型,通过创新的块级解码架构,实现快速且强大的动作生成。下图(原文 Figure 2)展示了
FASTERVQ的整体架构。
该图像是图表,展示了不同tokenizers的VRR(变压率)及FASTer的压缩比。左侧子图(a)比较了不同tokenizers在不同设置下的表现,右侧子图(b)展示了FASTer的性能表现,子图(c)则比较了不同tokenizer的压缩率。
4.2. 核心方法详解
4.2.1. FASTERVQ: 动作分词器
FASTERVQ 的工作流程包含两个主要步骤:动作补丁化和残差 VQ 编码。
步骤 1: 动作补丁化 (Action Patchifier)
该步骤的目的是将原始的、一维时序的动作序列重塑为一个二维的、结构化的张量,类似于将一句话变成一张图。这基于两个观察:
- 机器人动作在时间上是平滑且有冗余的。
- 动作的不同维度(如手臂位置、夹爪状态)物理含义不同,数据分布差异巨大。
具体流程: 假设有一个动作序列 ,其中每个时间步的动作为 。
-
时间维度划分: 将时间维度 均匀切分为 组,每组长度为 。
-
动作维度划分: 将动作维度 非均匀地划分为 组,依据是物理特性(例如,末端执行器位置、关节角度、夹爪状态各为一组)。然后将每组填充到相同的维度 。
-
重塑与展平: 经过上述划分,原始的形状为
(H, D)的序列变成了一个形状为 的张量。最后,将其展平为一系列“补丁 (patches)”,得到 。每个补丁都是一个小的时空块。这种操作将时序上的局部性和不同物理量之间的关联性编码到了数据的空间结构中。
步骤 2: 残差 VQ 动作分词器 (Residual VQ Action Tokenizer)
该模块是一个基于 Transformer 的自编码器,名为 TAAE (Transformer Action AutoEncoder),它负责将上一步得到的动作补丁压缩为离散词元。
编码过程:
-
编码器 (一个混合了 Transformer 和卷积的结构)将输入的动作补丁 降维,得到一个隐层嵌入 。
-
接下来应用 层的残差向量量化 (RVQ)。
- 第一层 (i=1): 初始残差 。通过量化器 找到码本中与 最接近的码字,得到量化后的表示 。
- 后续层 (i > 1): 计算新的残差 ,即上一层量化后的误差。然后对这个新的残差 进行量化。
- 每个量化器 的操作都是找到码本中最近的条目 :。
-
词元生成: 将每一层量化得到的码字索引收集起来,形成一个离散的编码张量 。这个张量 就是最终提供给下游 VLA 模型的动作词元。
解码过程:
- 将所有层量化后的结果相加,得到最终的量化嵌入 。
- 解码器 将 恢复为重建的动作补丁 。
4.2.2. 训练目标 (Training Objective)
FASTERVQ 的训练目标由三部分组成:
符号解释:
- 第一项 (时域重建损失): 是原始动作补丁与重建动作补丁之间的 L1 损失。它保证了重建动作在每个时间步上的精确性。
- 第二项 (频域重建损失): 是在离散余弦变换 (DCT) 域上的 L1 损失。DCT 能捕捉信号的全局频率信息,因此该损失项确保了重建动作的整体趋势和周期性与原始动作一致。
- 第三项 (承诺损失, Commitment Loss): 是 VQ 的标准损失项。它鼓励编码器的输出 与量化后的输出 尽可能接近,确保编码器“承诺”于码本。
sg代表stop-gradient操作,它会阻断来自 的梯度回传到编码器,防止编码器输出无限增大。
- : 是平衡各项损失的超参数。
4.2.3. FASTerVLA: 高效 VLA 模型
FASTerVLA 在标准 VLM 架构之上,引入了几个关键设计来实现高效推理。其整体架构如下图(原文 Figure 3)所示。

1. 轻量级动作专家 (Lightweight Action Expert) 在 VLM 主干网络之上,增加一个参数量远小于主干的轻量级 Transformer 头,专门负责解码动作词元。
- 优点一: VLM 主干网络只需对视觉和语言上下文进行一次编码,后续动作词元的自回归解码过程由轻量的动作专家完成,计算开销小。
- 优点二: 在微调 (fine-tuning) VLA 模型时,可以减少对预训练 VLM 权重的干扰。
2. 块级自回归 (Block-wise Autoregressive, BAR)
这是 FASTerVLA 实现速度提升的核心。传统自回归模型一次预测一个词元,而 BAR 一次预测一个词元块。
具体流程:
- 将
FASTERVQ生成的总共 个词元序列 划分为 个块,每个块大小为 (即 )。 - 模型的训练目标是,在给定所有先前块 的条件下,一次性预测出第 个块中的所有 个词元。其损失函数为:
符号解释:
- : 表示第 个块中的第 个词元。
- : 表示前
j-1个块中的所有词元。 - : 分别代表视觉图像、本体感受状态和语言指令。
- 块级因果掩码 (Block-wise Causal Mask): 为了实现块内并行预测,训练时采用一种特殊的注意力掩码。在一个块内部,所有词元可以相互看见(全注意力);但对于块之间,当前块的词元只能看见之前的块,不能看见未来的块(保持因果性)。
3. 解码顺序 (Decoding Order) 解码顺序遵循了 RVQ 的由粗到精的结构。模型首先生成第一个码本对应的所有时间步的词元,然后再生成第二个码本对应的所有词元,以此类推。这种方式让模型先预测动作的低频、概括性信息,再逐步添加高频细节,有助于稳定训练和推理。
5. 实验设置
5.1. 数据集
论文在极为广泛的数据集上进行了评估,覆盖了模拟和真实世界、单臂和双臂、桌面操作和全身控制等多种场景。
-
Libero (Liu et al., 2024): 包含40个任务,用于评估模型的拟合能力和下游任务适应性。
-
Simpler (Li et al., 2024): 用于评估 VLA 模型的预训练性能。
-
VLABench (Zhang et al., 2024): 专注于评估模型的泛化能力,包括对复杂指令、视觉干扰等的鲁棒性。
-
GalaxeaManipSim (Team, 2025): 包含7个双臂操作任务。
-
Xarm Suite: 包含6个真实世界 xArm 机械臂的任务。
-
R1Lite Suite: 包含3个真实世界任务,包括桌面整理和一项全身控制任务——铺床。
-
Bridge (Walke et al., 2023): 大规模机械臂操作数据集,用于预训练和零样本评估。
-
Droid (Khazatsky et al., 2024): 包含超过9万条真实世界机器人轨迹的大规模数据集。
下图(原文 Figure 9)直观展示了实验设置的多样性。
该图像是一个示意图,展示了多个机器人在不同任务中的执行情况,包括简单任务、窗口任务、自由任务等,以评估各个机器人的性能和适应能力。
5.2. 评估指标
5.2.1. 有效重建率 (Valid Reconstruction Rate, VRR)
这是本文提出的用于量化动作分词器重建性能的新指标。
- 概念定义 (Conceptual Definition): VRR 衡量的是,在整个数据集中,有多少比例的动作在经过“编码-解码”过程后,其重建误差小于一个预设的阈值 。这个指标比简单的平均 L1 损失更能反映分词器在实际应用中是否“可用”,因为它关注的是满足精度要求的动作比例。
- 数学公式 (Mathematical Formula):
- 符号解释:
- : 数据集中动作的总数量。
- : 重建误差小于阈值的有效动作数量。
- : 第 个重建后的动作向量。
- : 第 个真实的 (ground-truth) 动作向量。
- : L1 范数,即向量元素绝对值之和。
- : 指示函数,当括号内条件为真时取值为1,否则为0。
- : 重建容忍度阈值,论文中默认为 ,大约对应 1cm 的物理误差。
5.2.2. 其他指标
- 任务成功率 (Success Rate, SR): 在各项任务中,模型成功完成任务的百分比。
- 推理延迟 (Inference Latency): 模型生成一次动作序列所需的平均时间,单位为毫秒 (ms)。
5.3. 对比基线
论文将 FASTerVLA 与一系列当前最先进的模型进行了比较,涵盖了两种主要技术路线:
- 非自回归模型 (Non-autoregressive):
Diffusion Policy: 基于扩散模型的代表作。Octo-Base: 一个通用的机器人策略模型。- : 基于流匹配 (flow matching) 的非自回归 VLA 模型。
- 自回归模型 (Autoregressive):
-
OpenVLA: 一个开源的 VLA 模型。 -
MiniVLA: 采用 VQ 分词器的轻量级 VLA。 -
VQ-VLA: 另一个采用 VQ 分词器的 VLA。 -
: 基于
FAST分词器的当前最先进的自回归 VLA 模型。
-
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. FASTERVQ 分词器性能:兼顾紧凑与保真
实验首先验证了 FASTERVQ 分词器本身的能力。如下图(原文 Figure 5)所示,FASTER 在压缩率和重建质量之间取得了最佳平衡。
该图像是图表,展示了在不同任务进展情况下,Pi0、Fast、Fast+ 和 FASTer 的任务完成百分比。在 'Widow' 和 'Droid' 的任务进展上,FASTer 的表现明显优于其他方法。
- 分析: 与基线 VQ 方法(如
MiniVLA和VQ-VLA的分词器)相比,FASTER在达到极高压缩率的同时,保持了非常高的有效重建率 (VRR)。基线 VQ 方法虽然压缩率高,但重建误差大,导致 VRR 很低。这说明FASTER能够生成既紧凑又准确的动作表示,为下游 VLA 模型的性能奠定了坚实基础。
6.1.2. FASTerVLA 任务性能:全面超越 SOTA
以下是原文 Table 1 的结果,展示了 FASTerVLA 在 Libero 和 Simpler-Bridge 两个主流基准上的性能。
| Model | LIBERO | Simpler-Bridge | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| Spatial | Object | Goal | Long | Average | Spoon | Carrot | Block | Eggplant | Average | |
| Diffusion Policy (Chi et al., 2023) | 78.3 | 92.5 | 68.3 | 50.5 | 72.4 | - | - | - | - | - |
| Octo-Base (Team et al., 2024) | 78.9 | 85.7 | 84.6 | 51.1 | 75.1 | 12.5 | 8.3 | 0.0 | 43.1 | 16.0 |
| SpatialVLA (Qu et al., 2025) | 88.2 | 89.9 | 78.6 | 55.5 | 78.1 | 16.7 | 25.0 | 29.2 | 100.0 | 42.7 |
| π0 (Black et al., 2024) | 96.8 | 98.8 | 95.8 | 85.2 | 94.2 | 66.7 | 58.3 | 58.3 | 88.3 | 66.7 |
| OpenVLA-OFT (Kim et al., 2025) | 96.2 | 98.2 | 95.6 | 92.0 | 95.5 | 12.5 | 4.2 | 8.3 | 0.0 | 6.25 |
| UniVLA (Bu et al., 2025) | 96.5 | 96.8 | 95.6 | 92.0 | 95.2 | 54.2 | 66.7 | 50.0 | 4.2 | 43.8 |
| OpenVLA (Kim et al., 2024) | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 | 32.0 | 30.0 | 18.0 | 38.0 | 29.5 |
| Palligemma + Naive Tokenizer | 55.8 | 64.8 | 64.4 | 31.2 | 54.1 | 66.7 | 29.2 | 12.5 | 54.2 | 40.9 |
| MiniVLA (Belkhale & Sadigh, 2024) | - | - | - | 77.0 | - | 68.0 | 44.0 | 70.0 | 14.0 | 49.0 |
| VQ-VLA (Wang et al., 2025c) | - | - | 75.2 | 60.0 | - | 12.5 | 8.0 | 6.0 | 0.0 | 6.3 |
| π0 FAST-R 1(Pertsch et al., 2025) | 96.4 | 96.8 | 88.6 | 60.2 | 85.5 | 29.1 | 21.9 | 10.8 | 66.6 | 32.1 |
| π0 FAST-D (Pertsch et al., 2025) | 96.6 | 97.2 | 96.0 | 86.8 | 94.2 | 77.5 | 88.3 | 68.3 | 71.7 | 76.5 |
| Ours(Normal) | 99.4 | 98.8 | 94.8 | 88.6 | 95.4 | 97.5 | 83.3 | 65.0 | 78.3 | 81.0 |
| **Ours(BAR)** | **98.0** | **99.4** | **98.6** | **95.4** | **97.9** | **91.7** | **93.3** | **67.5** | **99.2** | **87.9** |
- 分析:
Ours(BAR),即使用了块级解码的FASTerVLA,在两个基准的平均分上都取得了最高分 (Libero: 97.9, Simpler-Bridge: 87.9),显著超过了所有之前的模型,包括非自回归的 (94.2, 66.7) 和自回归的 SOTA (94.2, 76.5)。这证明了FASTER框架的整体优越性。
6.1.3. 推理效率:速度与性能兼得
以下是原文 Table 5 右侧部分,对比了不同模型在 Libero 和 R1Lite 全身控制 (WBC) 任务上的推理延迟。
| FASTer | pi0 | FAST | |
| LIBERO (ms) | 140 | 200 | 224-628 |
| R1Lite-WBC (ms) | 290 | 290-300 | 1,100-3,000 |
- 分析:
FASTerVLA的速度优势极为明显。在 Libero 任务上,它比非自回归的 快了约 30%,比之前最强的自回归模型π₀-FAST快了 1.6 到 4.5 倍。在动作维度更高的全身控制任务上,FASTerVLA的速度与 持平,但比π₀-FAST快了 3.8 到 10 倍。这表明块级解码成功解决了自回归模型的速度瓶颈。
6.1.4. 泛化与适应性
-
跨任务泛化: 在 VLABench(见原文 Figure 7)和零样本测试(见原文 Figure 8)中,
FASTerVLA同样表现出最强的性能和最低的性能下降,证明了其强大的泛化能力。 -
跨主干网络适应性: 如下图(原文 Figure 6)所示,将
FASTER分词器应用于不同的 VLM 主干网络 (Palligemma, Qwen, InternVL) 时,性能都得到了一致的提升。特别是,它将原本表现最差的InternVL3.5-2B模型的成功率提升了 17.3%,使其成为表现最好的模型。这证明了FASTER作为一个即插即用模块的强大通用性。
该图像是示意图,展示了不同的评估任务和场景,包括单臂任务、双臂操控、预训练、以及适应性和零样本任务评估,旨在检验模型在多维能力上的表现。
6.2. 消融实验/参数分析
论文通过详尽的消融实验验证了各项设计的有效性。
-
FASTERVQ 分词器 (Table 5 左): 实验证明,混合 Transformer 和卷积的 TAAE 架构、4096 的码本大小以及 3 层的残差深度是实现最佳性能的组合。
-
FASTerVLA 组件 (Table 6):
- 动作专家 (AE): 引入动作专家并对其进行预训练,能够显著提升任务成功率。
- 块级解码 (BAR): BAR 不仅将推理延迟降低了 2倍以上 (从 323ms 降至 140ms),还提升了成功率。
- AE + BAR: 两者结合使用时,达到了最佳的性能和效率。
-
异步推理 (Table 7): 在长时程任务中,通过异步推理(即机器人执行上一步动作的同时,模型开始规划下一步动作),任务完成时间平均减少了约 20%,且不降低成功率。
7. 总结与思考
7.1. 结论总结
本文成功地解决了自回归 VLA 模型中长期存在的动作分词精度与推理效率的矛盾。
-
FASTERVQ:通过将动作序列视为图像,并结合 Transformer 与残差向量量化 (RVQ),论文提出了一种新颖的动作分词器。它能够生成紧凑、精确且定长的动作词元,为高效的下游任务奠定了基础。
-
FASTerVLA:在此基础上,论文设计了一个集成了块级解码和动作专家的 VLA 模型。这一架构创新极大地提升了推理速度,使得自回归模型首次在速度上超越了强大的非自回归对手,同时在任务性能上刷新了 SOTA 记录。
-
系统性验证:通过在极其广泛的模拟和真实世界基准上的全面实验,论文证明了其提出的框架在性能、效率、泛化性和灵活性方面的全面优势。
这项工作表明,精心设计的自回归模型在机器人通用控制领域不仅是可行的,而且可以是快速、可扩展且性能领先的。
7.2. 局限性与未来工作
尽管论文在结论中没有明确列出局限性,但我们可以从其方法和实验中进行一些推断:
- 超参数敏感性: 块级解码的块大小 (B) 是一个关键超参数,可能需要根据不同的任务和动作维度进行调整,其选择的鲁棒性有待进一步研究。
- 训练复杂性: 整个流程分为分词器预训练和 VLA 模型微调两个阶段,相对于端到端的训练方法,流程更复杂。
- 对预训练模型的依赖:
FASTerVLA的性能高度依赖于强大的预训练 VLM 主干网络。如何从零开始或用更少的领域数据训练出同样强大的模型仍是一个挑战。 - 未来工作: 作者提出的框架为未来研究开辟了新方向,例如:
- 将块级解码技术应用到其他自回归生成任务中(如视频、音频生成)。
- 探索更大规模的动作数据对
FASTERVQ分词器性能的 scaling law。 - 研究更动态的块划分策略,以适应动作序列中不同部分的信息密度。
7.3. 个人启发与批判
这篇论文给我留下了深刻的印象,其价值不仅在于提升了几个百分点的 SOTA,更在于它为解决一个领域内的核心瓶颈问题提供了系统性的、富有创见的解决方案。
- 启发一:跳出思维定势。 传统上,动作被视为一维时序信号。本文将其重塑为二维“图像”进行处理,是一个非常巧妙的视角转换,它使得强大的计算机视觉模型架构(如 Transformer)和技术(如 patch-based processing)得以应用,并自然地解决了时空依赖建模的问题。
- 启发二:根本性地优化瓶颈。 面对自回归模型“逐个生成”的速度瓶颈,本文没有停留在微小的优化上,而是提出了“块级生成”这一范式上的改变。这种从根本上重构计算流程的思路,是实现数量级提升的关键。
- 启发三:工具与任务的分离与协同。
FASTER作为一个独立的、可插拔的动作分词器,可以赋能各种不同的 VLM 主干网络,这体现了良好的模块化设计思想。先解决好基础表示问题(分词),再优化上层生成模型,思路清晰且有效。
批判性思考:
-
对“专家”模块的思考: “动作专家”模块虽然有效,但也引入了额外的参数和设计复杂性。这是否是解决 VLM 预训练知识与机器人动作微调冲突的最优解?是否存在更简洁的微调策略(如 LoRA 的变体)可以达到类似效果?
-
真实世界部署的挑战: 论文展示的 140-300ms 的推理延迟对于许多桌面操作任务是足够快的,但对于需要更高频率控制(如动态避障、敏捷操作)的场景,可能仍有提升空间。此外,模型的鲁棒性在面对现实世界中更复杂的视觉干扰和物理不确定性时,仍需持续验证。
总而言之,FASTER 不仅是一个强大的新模型,更是一套解决机器人学习中表示和效率问题的有效方法论,为未来构建更通用、更高效的具身智能体指明了重要方向。
相似论文推荐
基于向量语义检索推荐的相关论文。