SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning
TL;DR 精炼摘要
本研究提出了一种名为SpecPrune-VLA的新方法,以加速视觉-语言-行动(VLA)模型,通过结合局部和全局信息进行高效剪枝。该方法采用静态和动态剪枝策略,实验结果表明在LIBERO基准测试中,SpecPrune-VLA在NVIDIA A800和RTX 3090上分别实现了1.46倍和1.57倍的加速,同时成功率损失微乎其微。
摘要
Pruning accelerates compute-bound models by reducing computation. Recently applied to Vision-Language-Action (VLA) models, existing methods prune tokens using only local info from current action, ignoring global context from prior actions, causing >20% success rate drop and limited speedup. We observe high similarity across consecutive actions and propose leveraging both local (current) and global (past) info for smarter token selection. We introduce SpecPrune-VLA, a training-free method with two-level pruning and heuristic control: (1) Static pruning at action level: uses global history and local context to reduce visual tokens per action; (2) Dynamic pruning at layer level: prunes tokens per layer based on layer-specific importance; (3) Lightweight action-aware controller: classifies actions as coarse/fine-grained (by speed), adjusting pruning aggressiveness since fine-grained actions are pruning-sensitive. Experiments on LIBERO show SpecPrune-VLA achieves 1.46 times speedup on NVIDIA A800 and 1.57 times on NVIDIA GeForce RTX 3090 vs. OpenVLA-OFT, with negligible success rate loss.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning (SpecPrune-VLA:通过动作感知的自我推测剪枝加速视觉-语言-行动模型)
1.2. 作者
Hanzhen Wang (上海交通大学), Jiaming Xu (上海交通大学、SII), Jiayi Pan (上海交通大学、无问芯穹), Yongkang Zhou (上海交通大学、SII), Guohao Dai (上海交通大学、无问芯穹、SII)。 注:Hanzhen Wang 和 Jiaming Xu 为共同第一作者;Guohao Dai 为通讯作者。
1.3. 发表期刊/会议
该论文目前发布于预印本平台 arXiv,属于机器人学(Robotics)与计算机视觉(Computer Vision)的交叉领域。其研究团队来自上海交通大学及知名 AI 芯片/算力初创公司无问芯穹(Infinigence-AI),在模型压缩与硬件加速领域具有深厚背景。
1.4. 发表年份
2025年(提交至 arXiv 的时间为 2025年9月6日)。
1.5. 摘要
剪枝(Pruning)通过减少计算量来加速受限于计算资源的模型。近期剪枝技术被应用于视觉-语言-行动 (Vision-Language-Action, VLA) 模型。然而,现有方法仅利用当前动作的局部信息进行词元(token)剪枝,忽略了先前动作的全局上下文,导致成功率下降超过 20% 且加速效果有限。本文观察到连续动作之间存在高度相似性,提出结合当前动作的局部信息与先前生成的全局信息进行词元选择。SpecPrune-VLA 是一种无需训练的方法,包含:(1) 动作级静态词元剪枝:利用全局历史和局部上下文减少每步动作的视觉词元;(2) 层级动态词元剪枝:基于层特定重要性进行剪枝;(3) 轻量级动作感知控制器:根据速度将动作分类为粗粒度/细粒度,动态调整剪枝强度。实验表明,SpecPrune-VLA 在 LIBERO 基准测试中,相比 OpenVLA-OFT 在 NVIDIA A800 上实现了 1.46 倍加速,在 RTX 3090 上实现 1.57 倍加速,且成功率损失几乎可以忽略。
1.6. 原文链接
-
发布状态: 预印本 (Preprint)。
2. 整体概括
2.1. 研究背景与动机
视觉-语言-行动 (Vision-Language-Action, VLA) 模型(如 OpenVLA)是具身智能领域的核心,它们建立在大语言模型 (Large Language Model, LLM) 的基础上,能够理解多模态信息并生成机器人控制指令。
- 核心问题: 现代 VLA 模型通常采用单步推理范式,一次性预测一序列低级动作,这涉及数百个多模态词元。在硬件层面上,这种推理过程是受计算受限的 (compute-bound),即延迟主要由计算量决定,而非显存访问。
- 现有挑战: 现有的词元剪枝方法(如 EfficientVLA)仅依赖当前推理步的局部信息(如单层注意力分数),忽略了动作序列在时间上的连续性。这导致它们要么剪枝过度导致成功率大幅下降(>20%),要么由于保守剪枝导致加速不明显。
- 论文切入点: 作者发现连续动作之间的输入图像高度相似。例如,在机器人抓取任务中,背景几乎不变,任务目标也保持一致。这种时间一致性意味着可以复用先前的全局注意力信息来辅助当前的剪枝决策。
2.2. 核心贡献/主要发现
-
提出 SpecPrune-VLA 框架: 一种无需训练(Training-free)的加速方法,专门针对 VLA 模型的计算特性设计。
-
动作级静态剪枝 (Static Token Pruning): 结合了上一时刻的全局注意力(Global Info)、当前帧与历史帧的差异(Dynamic Tokens)以及当前模型前两层的预测(Local Info)。
-
层级动态剪枝 (Dynamic Token Pruning): 引入重要性评分机制,在模型深层进一步剔除冗余词元。
-
动作感知控制 (Action-aware Controller): 首次指出不同粒度的动作对剪枝敏感度不同,通过末端执行器的速度动态调整策略。
-
显著的加速比: 在不损失性能的前提下,实现了超过 1.5 倍的端到端推理加速。
3. 预备知识与相关工作
3.1. 基础概念
- 词元 (Token): 在 VLA 模型中,图像被切分成小块(Patches),每个小块经编码后转换为一个向量,称为视觉词元。文本指令也被转换为文本词元。
- 剪枝 (Pruning): 在推理过程中识别并移除不重要的词元,从而减少 浮点运算次数 (FLOPs)。
- 注意力机制 (Attention Mechanism): Transformer 架构的核心。计算公式如下: 其中 是查询(Query), 是键(Key), 是值(Value)。注意力权重反映了不同词元之间的相关性。
- 具身智能 (Embodied AI): 使 AI 能够像人类一样在物理世界中感知、推理和行动。
3.2. 前人工作
- VLA 模型: 如
RT-1和OpenVLA,通过在大规模机器人数据集上微调 LLM,使其具备生成控制指令的能力。 - 加速技术:
- 量化 (Quantization): 降低权重精度。
- 缓存 (Caching): 如
VLA-Cache缓存相似词元的 KV 值,但对计算量的削减有限(约 17%-25%)。 - 词元剪枝: 如
EfficientVLA,利用启发式方法移除视觉词元,但在复杂任务中鲁棒性较差。
3.3. 技术演进与差异化分析
早期的加速主要集中在减少内存访问(如 KV Cache),而 SpecPrune-VLA 意识到 VLA 模型是计算受限的。与 EfficientVLA 这种只看“局部”的方法不同,SpecPrune-VLA 引入了自我推测 (Self-Speculative) 的思想:利用模型自身的前几层作为“草稿模型”来预测哪些词元对后续层重要,并结合历史信息(全局视图)和速度反馈(动作反馈)。
4. 方法论
SpecPrune-VLA 的核心思想是:并非所有视觉词元在机器人执行任务时都是必要的。该方法分为三个主要阶段,下图(原文 Figure 2)展示了其整体架构:
该图像是示意图,展示了SpecPrune-VLA方法中的两个级别的剪枝过程。左侧为多视角图像和指令,右侧展示了静态剪枝与动态剪枝的层级结构。静态剪枝在动作级别上利用全局历史和局部上下文选择视觉标记,而动态剪枝则在层级上根据层特定的重要性进行标记剪裁。此外,图中还包含轻量级动作感知控制器,用于调节剪枝的灵敏度。
4.1. 动作级静态词元剪枝 (Static Token Pruning)
在每一推理步(Action Generation)开始时,模型首先通过三个维度筛选出必须保留的词元集合 。
4.1.1. 基于全局信息的剪枝
由于连续帧之间目标一致,作者复用上一时刻最后一次生成的全局注意力分数。对于每个视觉词元 ,它对任务文本 的重要性得分计算如下: 这里 表示第 层、第 个注意力头中,词元 对文本词元 的注意力权重。模型选取得分最高的 个词元组成集合 。
4.1.2. 动态词元补偿
为了捕捉画面中的新变化(如物体移动),模型对比当前帧 与历史参考帧 块的余弦相似度 (Cosine Similarity): 其中 是图像块的特征向量。相似度低于阈值 且变化最大的前 个词元被加入 。
4.1.3. 基于局部信息的自我推测
研究发现模型的前两层对最终重要性有极高的预测准确率。因此,在当前推理步,先运行前两层,筛选出注意力最高的词元集合 : 最终保留的词元集合为: 这一步可以剪掉 50% 到 70% 的视觉词元。
4.2. 层级动态词元剪枝 (Dynamic Token Pruning)
随着层数加深,剩余词元的上下文信息更加丰富。模型会动态更新重要性得分 。
4.2.1. 评分机制
得分结合了基于排名的权重 () 和 层置信度 (): 其中排名权重使用 Sigmoid 函数放大差异: 层置信度由注意力的均值 和标准差 决定,奖励那些注意力集中且稳定的层:
4.2.2. 动态更新
使用指数移动平均(EMA)更新得分,其中 : 在特定层(如第 5, 10, 15, 20 层),进一步剔除得分低的词元。
4.3. 轻量级动作感知控制器 (Action-aware Controller)
这是本文的一大直觉创新:机器人在“大步走”(粗粒度动作)时可以容忍较低的视觉精度,但在“精细抓取”(细粒度动作)时必须保留更多细节。
控制器通过计算末端执行器的平移速度 () 和 旋转速度 () 来切换模式:
-
细粒度模式 (Fine-grained): 当速度慢且 (接近物体)时,增加保留词元数量()。
-
粗粒度模式 (Coarse-grained): 否则,进行更激进的剪枝()。
5. 实验设置
5.1. 数据集
实验在 LIBERO 仿真基准测试上进行,该测试模拟了 Franka Emika Panda 机器人手臂。包含四个任务子集:
- LIBERO-Spatial: 空间推理任务。
- LIBERO-Object: 物体理解任务。
- LIBERO-Goal: 目标导向规划。
- LIBERO-Long: 长时程任务。 每个子集包含 10 个任务,每个任务重复 40-50 次。
5.2. 评估指标
论文使用了以下三个关键指标:
- 成功率 (Success Rate, SR):
- 概念定义: 机器人成功完成指令指定任务的尝试次数占总尝试次数的比例。
- 数学公式:
- 变量解释: 为成功完成任务的次数, 为总实验次数。
- 延迟 (Latency):
- 概念定义: 模型从接收输入数据到输出动作指令所需的端到端时间。
- 单位: 毫秒 (ms)。
- 加速比 (Speedup):
- 概念定义: 原始模型延迟与优化后模型延迟的比值。
- 数学公式:
5.3. 对比基线
-
OpenVLA-OFT: 基准 VLA 模型(Backbone 为 Llama2-7B)。
-
SparseVLM: 一种自适应稀疏化视觉词元的框架。
-
VLA-Cache: 跨时间步缓存特征的方法。
-
EfficientVLA: 现有的视觉剪枝加速方案。
6. 实验结果与分析
6.1. 核心结果分析
SpecPrune-VLA 在所有任务中均表现出优异的平衡性。以下是原文 Table 1 的详细数据,展示了在 NVIDIA A800 GPU 上的表现:
以下是原文 Table 1 的结果:
| 方法 (Method) | 成功率 (%) / 延迟 (ms) (加速比) | 平均加速比 (Avg Speedup) | 计算量 (FLOPs) | |||
|---|---|---|---|---|---|---|
| Spatial | Object | Goal | Long | |||
| OpenVLA-OFT (Baseline) | 97.6 / 109 (1.00×) | 96.5 / 109 (1.00×) | 97.9 / 109 (1.00×) | 94.5 / 109 (1.00×) | 1.00× | 100% |
| SparseVLM | 96.8 / 85.3 (1.28×) | 94.2 / 85.3 (1.28×) | 97.6 / 85.3 (1.28×) | 93.6 / 85.3 (1.28×) | 1.28× | 77% |
| VLA-Cache | 99.0 / 101 (1.08×) | 97.7 / 102 (1.07×) | 97.4 / 102 (1.07×) | 93.6 / 102 (1.07×) | 1.07× | 83% |
| EfficientVLA | 96.5 / 68.8 (1.58×) | 91.1 / 71.4 (1.53×) | 96.0 / 73.7 (1.48×) | 72.1 / 68.6 (1.59×) | 1.55× | 35% |
| **Ours (SpecPrune-VLA)** | **98.2 / 72.4 (1.51×)** | **96.3 / 76.2 (1.43×)** | **97.7 / 73.6 (1.48×)** | **94.0 / 78.1 (1.40×)** | **1.46×** | **43%** |
分析:
- VLA-Cache 成功率很高,但加速仅 7%,因为它主要优化注意力计算,而 LLM 的 MLP 部分依然占大头。
- EfficientVLA 虽然加速比达到 1.55x,但在
LIBERO-Long任务中成功率骤降至 72.1%(下降了约 22%),这验证了盲目剪枝局部词元的风险。 - SpecPrune-VLA 在保持 94% 以上成功率的同时,平均加速达到 1.46 倍。
6.2. 消融实验
下表展示了各个组件对性能的影响:
以下是原文 Table 2 的结果:
| 配置 | 成功率 (SR %) | 延迟 (ms) | 加速比 |
|---|---|---|---|
| 无 (None) | 97.6 | 109 | 1.00× |
| 静态剪枝 (Tech. 1) | 97.6 | 76.6 | 1.42× |
| 静态+动态剪枝 (Tech. 1 & 2) | 96.8 | 70.8 | 1.54× |
| 全部 (Tech. 1 & 2 & 3) | **98.2** | **72.4** | **1.51×** |
分析: 加入动作感知控制器(Tech 3)虽然稍微降低了加速比(从 1.54x 降到 1.51x),但成功率从 96.8% 提升到了 98.2%,甚至超过了原始模型,证明了“精细动作需精细视觉”的重要性。
7. 总结与思考
7.1. 结论总结
SpecPrune-VLA 通过挖掘 VLA 模型在时间维度上的预测冗余和动作维度上的精度敏感度,成功解决了传统词元剪枝在加速与性能之间的权衡难题。它利用 LLM 自身的早期层进行自我推测,并结合历史注意力信息,在不改变模型权重的前提下实现了约 1.5 倍的加速。
7.2. 局限性与未来工作
- 仿真与现实的差距: 论文指出目前实验仅限于仿真环境。现实世界中的光照变化、传感器噪声和动态背景可能影响帧相似度的计算(Eq. 2)。
- 硬件依赖性: 虽然在 A800 和 RTX 3090 上表现良好,但在更低算力的嵌入式设备(如 Jetson Orin)上的表现仍需验证。
- 未来工作: 作者计划将该方法部署到真实的物理机器人平台上。
7.3. 个人启发与批判
- 启发: 这篇论文再次证明了“模型内部信息”的重要性。与其设计复杂的外部调度器,不如利用模型的前几层(自我推测)来指导后面的计算。
- 批判:
- 参数敏感性: 剪枝比例 在不同数据集上需要手动调整(如 Spatial 用 1.0,Object 用 0.6),这在开放场景下不够自动化。
- 动作划分的简单性: 仅靠速度来划分“粗/细粒度”可能过于简单。某些任务即使速度快,也可能需要精细的视觉反馈(如躲避快速移动的障碍物)。
- 计算量的额外开销: 动态帧对比和重要性得分计算虽然被描述为“轻量级”,但在超高频率控制下仍是不小的开销,论文若能提供这些辅助计算的详细耗时占比会更有说服力。
相似论文推荐
基于向量语义检索推荐的相关论文。