FAST: Efficient Action Tokenization for Vision-Language-Action Models
TL;DR 精炼摘要
本文提出了一种新型的动作词元化方案——频率空间动作序列词元化(FAST),旨在改进自回归视觉-语言-动作模型在高频机器人动作上的表现。FAST能够有效处理常用词元化方法失败的高灵巧任务,同时发布了基于此的FAST+词元化器,能够适应多种动作空间和控制频率,并显著降低训练时间和提高性能。
摘要
Autoregressive sequence models, such as Transformer-based vision-language action (VLA) policies, can be tremendously effective for capturing complex and generalizable robotic behaviors. However, such models require us to choose a tokenization of our continuous action signals, which determines how the discrete symbols predicted by the model map to continuous robot actions. We find that current approaches for robot action tokenization, based on simple per-dimension, per-timestep binning schemes, typically perform poorly when learning dexterous skills from high-frequency robot data. To address this challenge, we propose a new compression-based tokenization scheme for robot actions, based on the discrete cosine transform. Our tokenization approach, Frequency-space Action Sequence Tokenization (FAST), enables us to train autoregressive VLAs for highly dexterous and high-frequency tasks where standard discretization methods fail completely. Based on FAST, we release FAST+, a universal robot action tokenizer, trained on 1M real robot action trajectories. It can be used as a black-box tokenizer for a wide range of robot action sequences, with diverse action spaces and control frequencies. Finally, we show that, when combined with the pi0 VLA, our method can scale to training on 10k hours of robot data and match the performance of diffusion VLAs, while reducing training time by up to 5x.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
FAST: 高效的视觉-语言-动作模型的动作词元化 (FAST: Efficient Action Tokenization for Vision-Language-Action Models)
1.2. 作者
-
Karl Pertsch (Physical Intelligence, UC Berkeley, Stanford)
-
Kyle Stachowicz (Physical Intelligence, UC Berkeley)
-
Brian Ichter (Physical Intelligence)
-
Danny Driess (Physical Intelligence)
-
Suraj Nair (Physical Intelligence)
-
Quan Vuong (Physical Intelligence)
-
Oier Mees (UC Berkeley)
-
Chelsea Finn (Physical Intelligence, Stanford)
-
Sergey Levine (Physical Intelligence, UC Berkeley)
作者团队来自谷歌的 Physical Intelligence 部门以及顶尖学术机构(UC Berkeley, Stanford),是机器人学习和人工智能领域的知名研究团队。
1.3. 发表期刊/会议
这篇论文是一篇预印本 (preprint),发布在 arXiv 上。虽然尚未在顶级会议或期刊上正式发表,但 arXiv 是计算机科学领域快速分享最新研究成果的重要平台。考虑到作者团队的背景和研究方向,该论文很可能会投递到如 CoRL (Conference on Robot Learning), RSS (Robotics: Science and Systems) 或 NeurIPS/ICML 等顶级会议。
1.4. 发表年份
2025年 (预印本发布于 2025-01-16)
1.5. 摘要
自回归序列模型,如基于 Transformer 的视觉-语言-动作 (VLA) 策略,在捕捉复杂且可泛化的机器人行为方面非常有效。然而,这类模型要求我们将连续的动作信号进行词元化 (tokenization),即决定模型预测的离散符号如何映射到连续的机器人动作。研究发现,当前基于简单的“每维度、每时间步”分箱方案的动作词元化方法,在学习来自高频机器人数据的灵巧技能时表现不佳。为应对此挑战,本文提出了一种基于离散余弦变换 (DCT) 的新型压缩式词元化方案。该方法,称为频率空间动作序列词元化 (Frequency-space Action Sequence Tokenization, FAST),使得训练自回归 VLA 能够处理标准离散化方法完全失败的高度灵巧和高频任务。基于 FAST,作者发布了 FAST+,一个在 100 万条真实机器人动作轨迹上训练的通用机器人动作词元化器。它可以作为一个黑盒词元化器,用于具有不同动作空间和控制频率的各种机器人动作序列。最后,本文证明,当与 π₀ VLA 结合时,该方法可以扩展到 10k 小时的机器人数据训练,并达到与基于扩散 (diffusion) 的 VLA 相媲美的性能,同时将训练时间缩短高达 5 倍。
1.6. 原文链接
-
发布状态: 预印本 (Preprint)
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题
当前,强大的自回归模型(如 Transformer)被广泛用于构建视觉-语言-动作 (Vision-Language-Action, VLA) 模型,以实现通用的机器人控制。这些模型像语言模型一样,通过“预测下一个词元 (token)”的方式来生成动作。然而,机器人动作是连续的物理信号(如关节角度、末端执行器位置),而 Transformer 模型处理的是离散的词元。因此,必须将连续的动作序列转换(或“词元化”)为离散的词元序列。
现有方法普遍采用一种简单直接的分箱 (binning) 方案:将每个动作维度(如 x, y, z 坐标)在每个时间步上的值,划分到固定数量(如 256)的离散区间中。
2.1.2. 现有挑战与空白 (Gap)
论文指出,这种简单的分箱方法在处理高频、灵巧的机器人任务时存在严重缺陷。原因如下:
-
数据冗余性高: 在高频控制下(例如每秒 50 次),相邻时间步的动作变化非常小,导致生成的动作词元序列具有极高的相关性和冗余性。
-
学习信号弱: 对于自回归模型的“下一个词元预测”任务,如果下一个词元几乎总是和上一个词元相同(因为动作变化微小),那么模型可以轻易通过“复制粘贴”的方式获得很低的训练损失。这导致模型陷入局部最优,无法学到动作序列中真正的动态变化和复杂结构,从而在实际任务中表现不佳。
-
序列过长: 高频控制下,一个短时间的动作片段(如 1 秒)会产生非常长的词元序列,这不仅增加了模型的计算负担,也使得学习长程依赖关系变得更加困难。
下图(原文 Figure 3)直观地展示了这个问题。在一个简单的插值任务中,随着信号采样频率的增加,使用传统分箱方法的模型预测质量急剧下降,最终只能输出一条直线(复制初始动作)。
该图像是一个关于预测误差与频率关系的图表,展示了使用传统和基于离散余弦变换(DCT)的方法对比。上部图形展示了在不同频率下的 L2 误差,而下部分则分别比较了传统归类和 DCT 归类的误差表现。DCT 方法在高频条件下的表现更优。
2.1.3. 论文的切入点与创新思路
本文的核心洞察是:在词元化之前,必须对机器人动作信号进行压缩,以去除冗余并提取有效信息。
作者从信号处理和数据压缩领域汲取灵感,特别是广泛用于图像压缩(如 JPEG)的离散余弦变换 (Discrete Cosine Transform, DCT)。DCT 可以将时域信号转换到频域,用少数低频系数表示信号的整体轮廓,用高频系数表示细节。由于机器人动作通常是平滑的,大部分信息都集中在低频部分。
因此,论文提出的 FAST 方法利用 DCT 对动作序列进行压缩,只保留重要的频率系数,然后再将这些稀疏的系数编码成最终的离散词元。这种方法旨在生成一个更短、信息密度更高的词元序列,从而为自回归模型提供更强的学习信号。
2.2. 核心贡献/主要发现
-
提出 FAST 词元化方案: 提出了一种基于离散余弦变换 (DCT) 和字节对编码 (BPE) 的新型动作词元化方法
FAST。该方法能够有效压缩高频机器人动作序列,解决了传统分箱方法在灵巧、高频任务上训练失败的问题。 -
发布通用动作词元化器 FAST+: 在一个包含 100 万条真实机器人轨迹的大规模、多样化数据集上训练了一个通用的动作词元化器 。 可以作为即插即用的黑盒工具,为各种机器人(不同形态、动作空间、控制频率)提供高质量的动作词元化,无需针对特定数据集重新训练。
-
验证自回归 VLA 的扩展性与效率: 将
FAST与最先进的 VLA 模型 结合,证明了自回归 VLA 可以在大规模(10k 小时)灵巧操作数据上进行有效训练。π₀-FAST的性能媲美甚至超越了基于扩散 (diffusion) 的 模型,同时训练所需的计算资源减少了 5 倍,显著提升了训练效率。 -
首次在 DROID 数据集上实现零样本泛化: 使用
FAST成功训练了一个能在DROID数据集上实现零样本 (zero-shot) 泛化的通用策略。该策略无需在新的环境中进行微调,仅通过自然语言指令就能在完全未见过的场景中执行任务,展现了前所未有的泛化能力。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 视觉-语言-动作模型 (Vision-Language-Action, VLA)
VLA 模型是一种旨在让机器人理解并执行自然语言指令的策略模型。它通常建立在预训练的视觉-语言模型 (Vision-Language Model, VLM) 之上,例如 Google 的 PaLI 或 Llama 家族模型。通过在包含 (图像, 语言指令, 机器人动作) 的数据集上进行微调 (fine-tuning),VLA 模型学会将视觉感知和语言理解能力与机器人控制联系起来,从而实现“看图说话办事”的通用能力。
3.1.2. 自回归模型 (Autoregressive Models)
自回归模型是一种生成式模型,它通过序列中先前元素来预测下一个元素。其核心思想是,一个序列的联合概率分布可以被分解为一系列条件概率的乘积: 在实践中,模型在每个时间步 预测下一个元素 的概率分布,然后从中采样一个元素,并将其作为下一个时间步的输入。Transformer 是目前最成功的自回归模型架构,广泛应用于自然语言处理(如 GPT)和本研究中的机器人动作生成。
3.1.3. 词元化 (Tokenization)
词元化是将原始输入(如文本、图像、动作)分割成一系列离散单元或词元 (tokens) 的过程。这是因为像 Transformer 这样的模型处理的是离散的符号序列,而不是连续的原始数据。
- 文本词元化: 将句子 "Hello world!" 转换为词元序列
['Hello', 'world', '!']。 - 动作词元化: 本文的核心议题,即将连续的机器人动作序列(如 )转换为离散的词元序列(如
[12, 87, 45, ...])。
3.1.4. 离散余弦变换 (Discrete Cosine Transform, DCT)
DCT 是一种将信号从时域转换到频域的技术。它将一个有限序列的数据点表示为不同频率的余弦函数之和。
- 直观理解: 任何复杂的波形都可以看作是许多简单的、不同频率和振幅的余弦波叠加而成的。DCT 就是找出这些基础余弦波的“配方”。
- 核心特性: 对于自然信号(如图像、声音、机器人动作),大部分能量(信息)集中在少数低频系数上,而高频系数通常很小。这使得 DCT 成为一种非常有效的有损压缩工具:通过丢弃或量化不重要的高频系数,可以在信息损失很小的情况下大幅减少数据量。JPEG 图像压缩就是 DCT 的经典应用。
3.1.5. 字节对编码 (Byte-Pair Encoding, BPE)
BPE 是一种数据压缩算法,后来被广泛用于自然语言处理中的文本词元化。其工作原理很简单:
-
初始化: 将词汇表初始化为所有单个字符。
-
迭代合并: 在语料库中找到最频繁出现的相邻词元对(例如 'e' 和 's'),将它们合并成一个新的词元('es'),并添加到词汇表中。
-
重复: 重复此过程,直到词汇表达到预设的大小。
BPE 能够在处理罕见词和构建子词单元之间取得很好的平衡。在本文中,BPE 被用于对 DCT 系数进行无损压缩,将稀疏的整数序列压缩成更短、更密集的词元序列。
3.2. 前人工作
-
简单的分箱词元化 (Binning Tokenization): 这是先前 VLA 工作(如
RT-1,RT-2,OpenVLA)中最常见的方法。它对动作序列的每个维度在每个时间步上独立进行离散化,将连续值映射到固定数量的箱子中。如前所述,本文指出这种“朴素”方法在高频数据上表现不佳。 -
向量量化自编码器 (VQ-VAE): 这是一种学习式的压缩方法。它训练一个编码器将输入(如图像或动作块)映射到一个离散的潜在编码本(codebook)中,再由解码器从编码本索引重构出原始输入。这种方法也被用于动作词元化,但论文指出,VQ-VAE 的训练可能不稳定,对超参数敏感,并且在需要高精度重构的灵巧控制任务中表现不佳。本文实验中使用的
FSQ是 VQ-VAE 的一种简化变体。 -
非自回归方法 (Non-Autoregressive Methods):
- 扩散模型 (Diffusion Models): 如
Diffusion Policy和 ,它们将动作生成视为一个去噪过程,可以并行地生成整个动作序列。这类模型在许多任务上表现出色,但通常需要专门的架构设计(如引入新的“动作专家”模块),并且训练计算成本高昂。 - 回归头 (Regression Heads): 一些方法在 Transformer 模型之上添加一个回归头,直接预测连续的动作值。这避免了词元化,但也需要修改 VLM 的预训练架构。
- 扩散模型 (Diffusion Models): 如
3.3. 技术演进
机器人动作表示的发展经历了从语义化、高级指令到低级、连续控制的演变:
- 高级语义动作: 早期方法将任务分解为一系列语言描述的子任务(如“拿起杯子”),由底层控制器执行。这种方法泛化性好,但依赖于手工设计的控制器,适用范围有限。
- 直接输出低级控制: 现代 VLA 模型倾向于直接输出机器人的低级控制命令(如关节速度)。这更通用,但也带来了如何表示连续动作的挑战。
- 动作表示的探索:
- 分箱 (Binning): 最早且最简单的尝试。
- 学习式压缩 (VQ-VAE): 引入了端到端学习的思想。
- 非自回归生成 (Diffusion): 改变了生成范式,提高了性能但增加了复杂性。
- 本文的 FAST: 回归信号处理的本源,提出了一种简单、高效且无需修改模型架构的分析性压缩方法。
3.4. 差异化分析
FAST 方法与之前工作的核心区别在于:
-
vs. 分箱 (Binning):
FAST考虑了动作序列的时间相关性,通过频域压缩去除了冗余,而分箱方法是逐时间步独立处理,忽略了这种相关性。 -
vs. 向量量化 (VQ-VAE/FSQ):
FAST是一种分析性方法(基于 DCT),而非学习式方法。这使得它更简单、训练更快、超参数更少且更鲁棒。实验表明,FAST在需要高保真度重构的灵巧任务上优于 VQ 方法。 -
vs. 扩散/回归 (Diffusion/Regression):
FAST无需修改预训练 VLM 的核心架构。它可以直接与任何标准的自回归 Transformer 模型结合,只需将动作词元添加到模型的词汇表中即可,这使得它具有很强的通用性和易用性。
4. 方法论
本部分详细拆解 FAST 词元化算法的完整流程。
4.1. 方法原理
FAST 的核心思想是将动作词元化问题视为一个时间序列压缩问题。高频机器人动作序列具有高度的平滑性和冗余性,直接对其进行词元化会导致学习信号微弱。FAST 通过以下步骤将一个连续的、冗长的动作序列压缩成一个离散的、信息密集的短词元序列:
-
变换到频域 (DCT): 利用离散余弦变换将动作从时域转换到频域。
-
有损压缩 (Quantization): 在频域中,通过缩放和取整操作,保留重要的低频系数,丢弃或粗化不重要的高频系数。
-
无损压缩 (BPE): 将量化后的稀疏系数矩阵展平,并使用字节对编码进一步压缩,生成最终的动作词元。
下图(原文 Figure 4)直观地展示了整个
FAST词元化流程。
该图像是一个示意图,展示了通过离散余弦变换(DCT)进行机器人动作的频率空间标记化过程。图中分别展示了归一化动作片段、频率成分和稀疏频率矩阵,最终生成压缩后的动作标记。该方法有效提升了高频率任务的动作学习效果。
4.2. 核心方法详解 (逐层深入)
我们以一个动作块 (action chunk) 为例,其中 是时间步数量(例如,1秒内50个时间步), 是动作维度(例如,7个自由度)。
4.2.1. 步骤 1: 归一化 (Normalization)
在进行任何变换之前,首先对输入的动作数据进行归一化。
- 操作: 对于训练数据集中每个动作维度,计算其第 1 百分位数和第 99 百分位数的值,并将这个范围线性映射到 。
- 目的:
- 尺度统一: 使得不同维度、不同机器人(其动作范围可能差异巨大)的数据都能在一个统一的数值范围内处理。
- 鲁棒性: 使用百分位数而不是最大/最小值,可以有效抵抗数据集中可能存在的异常值或噪声点的干扰。
4.2.2. 步骤 2: 离散余弦变换 (DCT)
对归一化后的动作块,沿时间维度对每个动作维度 单独应用 DCT。
- 操作: 对每个维度的动作序列 进行 II 型 DCT,得到对应的 DCT 系数序列 。
- 目的: 将动作信号从时域分解到频域。转换后,序列 中的第一个系数 代表了该维度动作的平均值(直流分量),后续系数代表了频率从低到高分量的振幅。由于机器人动作通常是平滑的,大部分信息会集中在开头的少数低频系数中。
4.2.3. 步骤 3: 量化压缩 (Quantization)
这是实现有损压缩的关键步骤。
- 操作: 对 DCT 系数矩阵 进行缩放和四舍五入取整。
- 符号解释:
- 是第 个动作维度在第 个频率上的 DCT 系数。
- 是一个超参数,称为缩放因子 (scale)。
- 是四舍五入函数。
C'_{i,d}是量化后的整数系数。
- 目的:
- 控制着压缩率和保真度之间的权衡。
- 较大的 会保留更多细节,使得重构误差更小,但压缩率较低(因为更多的系数在乘以 后不会变成 0)。
- 较小的 会将更多的小系数归零,实现更高的压缩率,但可能损失更多细节,导致重构误差增大。
- 经过此步骤,原本密集的浮点数矩阵 变成了一个稀疏的整数矩阵 ,其中大部分元素为 0。
- 控制着压缩率和保真度之间的权衡。
4.2.4. 步骤 4: 展平 (Flattening)
将稀疏的整数矩阵 转换成一个一维的整数序列,为 BPE 编码做准备。
- 操作: 论文采用列优先 (column-first) 的展平方式。即,先连接所有维度的第一个频率系数,然后是所有维度的第二个频率系数,以此类推。
- 目的: 这种排序方式使得模型在自回归生成时,优先生成所有维度的低频信息。这有助于模型首先确定整个动作序列的大致形状和轨迹,然后再逐步添加高频细节,从而使得生成过程更稳定、更合理。
4.2.5. 步骤 5: 字节对编码 (BPE)
最后,对展平后的长整数序列进行无损压缩。
- 操作:
- 训练: 在整个数据集的展平整数序列上训练一个 BPE 分词器,学习频繁出现的整数组合,并构建一个固定大小的词汇表(例如 1024 个)。
- 编码: 使用训练好的 BPE 分词器将整数序列编码为最终的、更短的动作词元序列。
- 目的:
- 压缩零值: 稀疏矩阵 中大量的 0 会被 BPE 编码器有效地压缩掉。
- 捕捉跨维度相关性: BPE 能够学习到不同动作维度之间频繁共同出现的系数模式(例如,某个低频组合),并将它们合并成一个单一的词元。
- 固定词汇表: 生成一个固定大小的离散词元词汇表,可以方便地集成到任何 VLM 的现有词汇表中。
4.2.6. 算法总结
原文中的 Algorithm 1 总结了 FAST 的流程。
Algorithm 1 FAST Tokenizer
Require: scale γ, (for inference) BPE dictionary Φ
procedure FASTTOKENIZER(a_1:H)
C_i ← DCT(a_1:H) // 计算 DCT 系数
C_j ← round(γ · C_i) // 量化系数
[T_k] ← [C_1,1, C_1,2, ..., C_H,D] // 展平词元 (按列优先)
// BPE 训练阶段 (在整个数据集 D 上进行)
φ ← TrainBPE(D := {[T_k]})
// 词元化阶段 (对单个样本)
[T_1, ..., T_k̄] ← BPE([T_1, ..., T_k], φ)
return action_tokens
end procedure
解码过程 (Detokenization) 是上述所有步骤的逆过程,所有操作(BPE 解码、逆量化、逆 DCT、逆归一化)都是可逆的,从而可以从模型生成的动作词元重构出连续的机器人动作。
4.2.7. 通用词元化器 FAST+
的思想是创建一个“一劳永逸”的词元化器。其构建过程与 FAST 完全相同,唯一的区别在于BPE 训练数据的规模和多样性。 的 BPE 编码器是在一个包含约 100 万条动作序列的超大规模数据集上训练的,该数据集涵盖了多种机器人形态(单臂、双臂、移动机器人)、动作空间(关节空间、末端执行器空间)和控制频率。这使得 学到的 BPE 词汇表具有极强的泛化能力,可以直接应用于新的、未见过的机器人系统,而无需重新训练 BPE 部分。
5. 实验设置
5.1. 数据集
实验在多个真实机器人和仿真环境中进行,旨在全面评估 FAST 在灵巧性、泛化性和扩展性方面的表现。
5.1.1. 评估环境
评估任务涵盖了从简单桌面操作到高度灵巧的布料操作,如下图(原文 Figure 5)所示:
该图像是一个示意图,展示了七个评估环境,测试FAST在六个真实机器人任务和一个模拟环境中的表现。这些任务旨在评估VLA在高度灵巧任务(如从洗衣篮中折叠衣物)和在未见环境中的零-shot桌面操控的能力。
具体任务包括:
- Libero (仿真): 一个标准化的机器人学习基准,包含多种操作任务,考验模型的知识迁移能力。
- Table Bussing (真实机器人, 20Hz): 单臂 UR5 机器人清理桌面,将垃圾和餐具分类放入不同容器,考验精确抓取。
- T-Shirt Folding (真实机器人, 50Hz): 双臂 ARX 机器人折叠 T 恤,是高频、灵巧操作的代表。
- Grocery Bagging (真实机器人, 20Hz): 单臂 UR5 机器人将多种物品装入购物袋,考验对不同物体的抓取和小心放置。
- Toast out of Toaster (真实机器人, 50Hz): 双臂 Trossen ViperX 机器人从烤面包机中取出面包片,考验精细操作。
- Laundry Folding (真实机器人, 50Hz): 双臂 ARX 机器人从篮子中取出衣物、展开、折叠并堆放。这是最灵巧、最复杂的任务,需要动态动作和错误恢复能力。
- Zero-shot DROID Tabletop Manipulation (真实机器人, 15Hz): 在
DROID数据集上训练的策略,在完全未见过的环境(新背景、新物体、新视角)中,仅通过自然语言指令执行零样本桌面操作任务,考验模型的终极泛化能力。
5.1.2. 训练数据集
- 单任务训练: 对于大部分任务,模型在对应任务的专属数据集上训练。
- 通用策略训练: 为了测试扩展性,
π₀-FAST在一个巨大的混合数据集上进行了训练,该数据集包含 10k 小时的机器人数据,涵盖了上述大部分真实机器人任务以及BRIDGE v2,DROID,OXE等多个公开数据集。
5.2. 评估指标
论文主要使用任务成功率 (Success Rate) 或任务进展百分比 (Task Progress Percentage) 作为评估指标。这些指标根据具体任务定义。
- 概念定义 (Conceptual Definition): 该指标衡量机器人在给定任务中完成目标的程度。对于二元任务(成功/失败),它是成功次数的比例;对于可量化进度的任务,它是完成步骤的百分比。
- 数学公式 (Mathematical Formula): 对于成功率 (Success Rate, SR): 对于任务进展 (Task Progress, TP):
- 符号解释 (Symbol Explanation):
- : 第 次试验的任务完成度,通常是一个 0 到 1 之间的值。例如,在 Table Bussing 任务中,如果总共有 12 个物体,正确处理了 9 个,则 。
- : 总试验次数。
5.3. 对比基线
论文将 FAST 与以下几种动作表示方法进行了比较:
-
Naïve Tokenization (朴素词元化): 即先前工作中广泛使用的“每维度、每时间步”的分箱 (binning) 方法。这是最重要的基线,用以证明
FAST解决了其核心缺陷。 -
FSQ (Finite Scalar Quantization): 一种基于学习的向量量化方法,代表了学习式压缩词元化的思路。用以证明
FAST的分析性方法在简单性和性能上更具优势。 -
FAST (无 BPE): 一个消融研究,只使用 DCT 和量化,而不使用 BPE 压缩。用以验证 BPE 步骤的必要性。
-
Diffusion π₀: 最先进的基于扩散的 VLA 模型。
π₀-FAST与其对比,旨在证明自回归模型在FAST的加持下,可以在性能上与扩散模型匹敌,同时训练效率更高。实验使用的 VLA 主干网络 (backbone) 包括 (基于 PaliGemma-3B) 和
OpenVLA(基于 Prismatic-7B),以验证FAST的通用性。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 压缩效率对比
FAST 的核心优势在于其高效的压缩能力,尤其是在高频数据上。
以下是原文 Table 1 的结果:
| Dataset | Action Dimension |
Control Frequency |
Avg. Token Naive FAST |
Compression | |
|---|---|---|---|---|---|
| BridgeV2 | 7 | 5 Hz | 35 | 20 | 1.75 |
| DROID | 7 | 15 Hz | 105 | 29 | 3.6 5.0 |
| Bussing | 7 | 20 Hz | 140 | 28 | |
| Shirt Fold | 14 | 50 Hz | 700 | 53 | 13.2 |
分析:
- 频率越高,压缩越明显: 从 5Hz 的
BridgeV2(压缩比 1.75x)到 50Hz 的Shirt Fold(压缩比 13.2x),FAST的压缩优势随着控制频率的增加而急剧增大。这有力地证明了FAST能够有效去除高频信号中的冗余。 - 稳定的词元数量: 值得注意的是,对于不同频率的单臂/双臂任务,
FAST生成的词元数量大致稳定在每个手臂约 30 个词元。这表明FAST能够捕捉到动作信号的内在复杂度,而非简单地受采样频率影响。朴素分箱方法生成的词元数则与频率成正比,无法反映这一点。
6.1.2. VLA 训练性能对比
下图(原文 Figure 6)展示了不同词元化方法在多个任务上的最终性能。

分析:
Naïve方法在高频任务上完全失败: 在Table Bussing(20Hz) 和T-Shirt Folding(50Hz) 这两个高频任务上,使用朴素分箱方法的策略完全无法取得任何进展(成功率为 0)。这与论文的动机完全一致,即高冗余的词元序列提供了无效的学习信号。FAST表现优异:FAST在所有任务上都取得了出色的性能,尤其是在Naïve方法失败的高频任务上。这证明了FAST提出的压缩思想是解决该问题的有效途径。FASTvs.FSQ:FAST的性能与更复杂的学习式方法FSQ相当,甚至在一些灵巧任务上更优。这凸显了FAST作为一个简单、高效的分析性方法的价值。- 的通用性: 通用词元化器 的性能与为每个任务单独优化的
FAST词元化器几乎没有差别。这证明了 作为一个开箱即用的工具的有效性,极大地简化了 VLA 模型的应用流程。
6.1.3. 零样本泛化能力 (DROID)
FAST 使得在 DROID 数据集上训练的策略首次实现了强大的零样本泛化。如下图(原文 Figure 7)所示,同一个策略模型无需任何修改,就能在三个不同大学的全新环境中执行各种指令。
![Fig. 7: Evaluation environments of FAST policy trained on DROID \[38\]. We find that the same policy checkpoint generalizes robustly, and performs various simple table-top tasks zero-shot across three…](/files/papers/69119517c888c61cca69586d/images/7.jpg)
分析:
这是本文一个非常亮眼的成果。之前的 DROID 相关工作主要集中在联合训练或微调评估上,而本文展示的“仅凭语言指令在陌生环境中执行任务”的能力,是通向真正通用机器人的一大步。这表明 FAST 提供的优质词元化,使得模型能够从大规模数据中学到更鲁棒和可泛化的行为模式。
6.1.4. 与扩散模型的比较
π₀-FAST (自回归) 与 (扩散) 的对比,旨在挑战扩散模型在机器人领域的统治地位。
下图(原文 Figure 9)展示了单任务训练的对比结果。
该图像是一个关于预测误差与频率关系的图表,展示了使用传统和基于离散余弦变换(DCT)的方法对比。上部图形展示了在不同频率下的 L2 误差,而下部分则分别比较了传统归类和 DCT 归类的误差表现。DCT 方法在高频条件下的表现更优。
下图(原文 Figure 11)展示了在通用策略上的对比结果。

分析:
-
性能相当: 总体而言,
π₀-FAST的性能与最先进的扩散模型 相当,甚至在某些方面(如DROID上的语言指令遵循能力)更优。这证明了自回归 VLA 在性能上完全有能力与扩散模型一较高下。 -
训练效率巨大优势: 最关键的发现是训练效率。如下图(原文 Figure 1)所示,
π₀-FAST达到与扩散模型相当的性能所需的训练时间减少了 5 倍。在动辄需要数千 GPU 小时的大模型训练时代,这是一个巨大的优势,极大地降低了研究和应用的门槛。
该图像是一个示意图,展示了我们提出的FAST方法在训练过程中相较于传统方法的评价得分提升。图中显示,使用的方法,训练速度提高了5倍,并最终达到了更高的评价得分。下方展示了在灵巧操作和泛化能力方面的应用场景。 -
推理速度的权衡: 论文也坦诚,
π₀-FAST的推理速度较慢(约 750ms/chunk vs. 扩散模型的 100ms/chunk),因为自回归解码是串行过程。这是一个未来需要解决的工程问题。
6.2. 消融实验/参数分析
6.2.1. 主干网络无关性
为了验证 FAST 的效果不局限于 模型,作者在 OpenVLA 上也进行了实验。结果(原文 Figure on the right of Section VI-D)显示,OpenVLA 原本使用的朴素分箱方法在 T-Shirt Folding 任务上表现不佳,而换用 后性能大幅提升。这证明了 FAST 是一个通用的、与模型主干无关的改进。
6.2.2. BPE 步骤的重要性
下图(原文 Figure 10)展示了在 Table Bussing 和 T-Shirt Folding 任务上去掉 BPE 步骤的影响。

分析:
-
BPE 是必要的: 去掉 BPE 后,模型性能显著下降,但仍优于朴素分箱方法。
-
原因: 即使没有 BPE,DCT 和量化步骤也已经完成了信息压缩的核心工作。然而,没有 BPE,模型需要处理一个包含大量重复零值的长序列,这会稀释学习信号并极大地拖慢推理速度,最终影响策略性能。BPE 通过无损压缩进一步提炼了信号,是实现最佳性能的关键一环。
7. 总结与思考
7.1. 结论总结
本文针对自回归 VLA 在处理高频、灵巧机器人任务时因动作词元化不当而导致的训练失败问题,提出了一个简单而高效的解决方案 FAST。
- 核心贡献:
FAST创造性地将经典的信号处理技术——离散余弦变换 (DCT)——应用于机器人动作词元化,通过频域压缩有效去除了高频动作序列中的冗余,为自回归模型提供了信息密度更高的学习信号。 - 主要发现:
FAST使得自回归 VLA 能够成功学习之前完全失败的高频灵巧操作任务。- 基于
FAST训练的通用词元化器 具有强大的泛化能力,可作为各种机器人系统的即插即用工具。 - 结合 模型的
π₀-FAST在性能上与最先进的扩散 VLA 相媲美,但训练效率提升了 5 倍,展示了自回归路线的巨大潜力。 FAST助力实现了DROID数据集上首次真正的零样本泛化,是通用机器人研究的重要进展。
7.2. 局限性与未来工作
论文作者指出了以下局限性和未来研究方向:
- 更广泛的机器人平台测试:
FAST主要在静态机械臂上进行了验证。未来需要在更复杂的平台上(如移动机器人、灵巧手、人形机器人)进行测试。 - 探索其他压缩方案: 虽然 DCT 效果显著,但探索其他经典或学习式的压缩算法(如小波变换、其他无损压缩算法)可能带来进一步提升。
- 架构之争: 自回归与扩散 VLA 的优劣之争远未结束。未来需要更深入地研究两者在训练速度、语言服从性、表达能力和推理速度等方面的权衡。
- 推理速度优化: 自回归模型当前的推理速度瓶颈是实际应用的一大障碍。将大型语言模型中成熟的推理加速技术(如推测解码、量化、专用计算核)应用于 VLA 是一个重要的工程方向。
7.3. 个人启发与批判
-
启发——返璞归真的力量: 这篇论文给我最大的启发是第一性原理思维的重要性。面对一个现代深度学习中的难题(高频序列学习信号弱),作者没有陷入设计更复杂网络结构的惯性思维,而是回归问题的本质——信号冗余,并从经典信号处理领域找到了一个极其优雅且高效的解决方案 (DCT)。这提醒我们,跨领域的知识融合和对基础理论的深刻理解是创新的重要源泉。
-
启发——简单就是美:
FAST相比于 VQ-VAE 等学习式压缩方法,更加简单、鲁棒且易于实现。在追求端到端学习的今天,这种分析性、模块化的方法展现了其独特的价值,尤其是在降低研究和工程复杂性方面。 -
批判性思考与潜在问题:
- 语言服从性的深入探究: 论文提到自回归模型在语言指令遵循上似乎优于扩散模型,并将其归为未来工作。这是一个非常有趣的观察,值得深入探究。一个可能的假设是:在自回归模型中,整个 VLM(包括其强大的语言理解部分)参与了每一个动作词元的生成,从而不断强化语言指令的约束力;而在 的扩散方案中,去噪过程主要由一个较小的“动作专家”网络执行,VLM 主体部分的作用可能被削弱。如果这一假设成立,将对未来 VLA 架构设计产生重要指导意义。
- 超参数 的选择:
FAST的关键超参数 控制着压缩与保真度的权衡。虽然论文声称其不敏感,但在实际应用中,如何根据任务需求(例如,粗略放置 vs. 精密插孔)自适应或系统地选择最优的 值,是一个值得研究的问题。 - 静态任务的局限: 本文评估的均为静态或准静态任务。在需要毫秒级反应的高度动态任务(如接住一个抛来的物体)中,
π₀-FAST目前的推理延迟(750ms)是完全不可接受的。虽然作者提到了优化方向,但在这些技术成熟应用前,FAST在动态任务上的实用性仍然存疑。这使得扩散模型在推理速度上的优势在某些场景下依然是决定性的。
相似论文推荐
基于向量语义检索推荐的相关论文。