AiPaper
论文状态:已完成

ContextVLA: Vision-Language-Action Model with Amortized Multi-Frame Context

发表:2025/10/05
原文链接PDF 下载
价格:0.10
价格:0.10
已有 8 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

ContextVLA提出了一种创新策略,旨在解决机器人任务中多帧观测利用效率低下及视觉-语言-动作(VLA)模型高昂计算成本的问题。该模型通过利用视觉-语言模型(VLM)固有的时间理解力,并将复杂历史多帧观测高效压缩为单一上下文令牌,实现了时间信息的鲁棒利用。实验证实,ContextVLA性能持续超越单帧VLA,并以显著降低的训练和推理开销,获得了多帧训练的全部优势,有效提升了机器人决策能力。

摘要

Leveraging temporal context is crucial for success in partially observable robotic tasks. However, prior work in behavior cloning has demonstrated inconsistent performance gains when using multi-frame observations. In this paper, we introduce ContextVLA, a policy model that robustly improves robotic task performance by effectively leveraging multi-frame observations. Our approach is motivated by the key observation that Vision-Language-Action models (VLA), i.e., policy models built upon a Vision-Language Model (VLM), more effectively utilize multi-frame observations for action generation. This suggests that VLMs' inherent temporal understanding capability enables them to extract more meaningful context from multi-frame observations. However, the high dimensionality of video inputs introduces significant computational overhead, making VLA training and inference inefficient. To address this, ContextVLA compresses past observations into a single context token, allowing the policy to efficiently leverage temporal context for action generation. Our experiments show that ContextVLA consistently improves over single-frame VLAs and achieves the benefits of full multi-frame training but with reduced training and inference times.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): ContextVLA: 带有摊销式多帧上下文的视觉-语言-动作模型 (ContextVLA: Vision-Language-Action Model with Amortized Multi-Frame Context)
  • 作者 (Authors): Huiwon Jang, Sihyun Yu, Heeseung Kwon, Hojin Jeon, Younggyo Seo, Jinwoo Shin.
  • 隶属机构 (Affiliations): 作者主要来自韩国科学技术院 (KAIST)、RLWRLD 以及加州大学伯克利分校 (UC Berkeley)。
  • 发表期刊/会议 (Journal/Conference): 本文是一篇预印本论文,发布在 arXiv 上。arXiv 是一个开放获取的学术论文存档平台,通常用于在正式同行评审前分享最新的研究成果。
  • 发表年份 (Publication Year): 2025 (根据 arXiv ID 2510.04246 推断,这是一个未来日期,应为笔误,实际提交日期应为 2024 年或 2025 年早期,但我们遵循原文标识)。
  • 摘要 (Abstract): 在部分可观察的机器人任务中,利用时间上下文至关重要。然而,以往的行为克隆研究在使用多帧观测时,性能提升并不稳定。本文介绍了一种名为 ContextVLA 的策略模型,它通过有效利用多帧观测来稳健地提升机器人任务性能。该方法的核心观察是:基于视觉-语言模型 (VLM) 构建的策略模型,即视觉-语言-动作模型 (VLA),能更有效地利用多帧观测来生成动作。这表明 VLM 固有的时间理解能力使其能从多帧观测中提取更有意义的上下文。然而,视频输入的高维度带来了巨大的计算开销,使得 VLA 的训练和推理效率低下。为解决此问题,ContextVLA 将过去的观测数据压缩成一个单一的上下文令牌 (context token),使策略能够高效地利用时间上下文生成动作。实验表明,ContextVLA 的性能始终优于单帧 VLA,并以更低的训练和推理时间成本,达到了完整多帧训练的效果。
  • 原文链接 (Source Link):

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 许多机器人任务本质上是部分可观察 (partially observable)非马尔可夫 (non-Markovian) 的,即仅凭当前的单帧视觉观测不足以做出最优决策。例如,物体在操作中被遮挡,或任务需要理解机器人之前的运动状态。因此,机器人策略模型需要利用时间上下文(即历史观测序列)来做出准确的动作。
    • 现有挑战 (Gap): 尽管利用多帧观测(视频输入)在理论上很重要,但在实践中,以往的行为克隆 (Behavior Cloning, BC) 方法应用该策略时效果好坏参半,有时甚至会导致性能下降。此外,直接处理视频序列会给大型的 VLA 模型带来巨大的计算和内存负担,严重影响训练和推理效率。
    • 创新思路: 论文作者首先通过实验发现,基于预训练的视觉-语言模型 (Vision-Language Model, VLM) 构建的视觉-语言-动作模型 (Vision-Language-Action, VLA) 在处理多帧数据时不会出现性能下降的问题,这表明 VLM 具备更强的时序理解能力。基于此,论文提出了一种高效利用多帧信息的方法:将过去的多帧观测信息压缩(摊销)成一个紧凑的上下文表示,而不是直接处理整个视频序列,从而在享受多帧信息优势的同时,保持计算效率。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 提出了 ContextVLA 框架: 这是一种高效的 VLA 框架,能够稳健地利用多帧观测提升机器人操控任务的性能。
    • 发现了 VLM 在处理时序信息上的优势: 论文通过实验论证了预训练的 VLM 是 VLA 模型能够成功利用多帧信息的关键,解决了传统 BC 模型在该问题上性能不稳定的难题。
    • 实现了高效的时序信息压缩: ContextVLA 的核心机制是在 VLM 的一个中间层将过去所有帧的特征压缩成一个单一的上下文令牌 (single context token)。这个令牌随后与当前帧的特征一起被模型的后续层处理,用于生成动作。
    • 验证了性能与效率的双重提升: 实验结果表明,ContextVLA 不仅在多个模拟和真实世界的机器人任务上显著超越了单帧 VLA 基线,而且其训练和推理速度远快于直接使用完整多帧输入的 VLA 模型,实现了“鱼与熊掌兼得”的效果。

3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 行为克隆 (Behavior Cloning, BC): 一种模仿学习方法,通过监督学习的方式训练一个策略模型,使其能够模仿专家演示(如人类操作员)的行为。模型学习从观测 (observation) 到动作 (action) 的直接映射。
    • 部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP): 在许多现实世界的机器人任务中,机器人无法获取环境的完整状态,只能通过传感器获得不完整的“观测”。这类问题被称为 POMDP。为了做出最优决策,智能体需要依赖历史观测序列来推断当前最可能的状态。
    • 视觉-语言模型 (Vision-Language Model, VLM): 这是一类大规模预训练模型,能够同时理解图像和文本。它们通常基于 Transformer 架构,通过在海量图文对数据上进行训练,学习到了强大的视觉和语言的联合表示能力。例如 PaliGemmaQwen-VL
    • 视觉-语言-动作模型 (Vision-Language-Action Model, VLA): 这是将 VLM 的能力扩展到机器人控制领域的模型。它以视觉观测和语言指令为输入,输出机器人的动作序列。VLA 通常通过在 VLM 的基础上进行微调得到,使其能够理解任务目标并生成相应的物理动作。例如 RT-2Octo、π₀。
  • 前人工作 (Previous Works):

    • 关于多帧观测的不一致结论: 论文引言中提到,先前研究对多帧观测在 BC 中的作用存在争议。一些工作 (如 Wu et al., 2023; Team et al., 2024) 认为多帧能提升性能,而另一些工作 (如 De Haan et al., 2019; Seo et al., 2023) 则报告了性能下降的现象。ContextVLA 的第一个贡献就是试图解释并解决这个矛盾。
    • 现有的 VLA 模型: 许多近期的 VLA 模型,如 OpenVLA、π₀、GROOT N1.5 等,虽然性能强大,但大多基于单帧观测进行训练和推理,限制了它们处理需要时间上下文的任务的能力。
    • 处理多帧信息的 VLA 模型: 少数 VLA 模型尝试利用多帧信息。例如,Octo 使用2帧输入,RoboVLMs 使用16帧输入,但它们通常直接将多帧特征拼接,计算成本高。TraceVLA 尝试通过追踪机器人轨迹来总结历史信息,但依赖额外的点追踪模型,推理速度仍然较慢。
  • 技术演进 (Technological Evolution): 机器人模仿学习经历了从传统的 BC 模型到大规模预训练的 VLA 模型的演进。最初的模型多为单帧输入,随着 VLM 的兴起,VLA 展现出强大的泛化能力。现在,研究的焦点开始转向如何让 VLA 高效地理解和利用更复杂的时序信息(视频),以解决更长时程、更动态的任务。ContextVLA 正是这一技术脉络下的产物,专注于解决多帧 VLA 的效率和性能问题。

  • 差异化分析 (Differentiation): ContextVLA 与其他多帧 VLA 模型的核心区别在于其信息处理方式

    • 相较于全序列处理方法: 它不直接将所有帧的完整特征输入到 VLM 的每一层,而是通过在中间层进行一次性的上下文摊销 (context amortization),将历史信息压缩成一个固定大小的令牌。这极大地减少了后续 Transformer 层的计算量。
    • 相较于外部工具方法 (如 TraceVLA): 它不需要依赖任何外部模型(如点追踪器)来提取时序信息,整个过程是端到端的,在 VLM 内部完成,更加简洁和高效。

4. 方法论 (Methodology - Core Technology & Implementation Details)

本部分将详细拆解 ContextVLA 的技术方案,其核心思想是在保持性能的同时,高效地处理多帧视觉输入。

Figure 3: Overview of ContextVLA. We design an efficient Vision-Language-Action model (VLA) that generates actions using multi-frame visual observations. We use a Vision-Language Model (VLM) to encod… 该图像是ContextVLA模型的结构示意图,展示了如何利用多帧视觉观察输入通过视觉编码器编码,接着在VLM的第n层将过去多帧观察压缩为单个上下文信息token,再结合当前帧和文本指令进行特征融合,最后通过动作解码器生成动作序列,支持自回归或扩散建模。

上图(原论文 Figure 3)展示了 ContextVLA 的整体架构。

  • 方法原理 (Methodology Principles): ContextVLA 的核心直觉是,对于一个 VLA 模型而言,不需要在每一层都保留过去所有帧的全部细节信息。VLM 的浅层网络足以提取低级时序特征(如运动方向),这些特征可以被压缩成一个紧凑的“摘要”或“上下文”。然后,VLM 的深层网络可以将注意力集中在处理当前帧的详细信息,并结合这个历史摘要来做出最终决策。这种方式模拟了人类在处理动态场景时的方式:我们关注当前发生的事情,同时脑中保留着对刚刚发生的事情的模糊记忆。

  • 方法步骤与流程 (Steps & Procedures):

    1. 输入准备: 在时间步 tt,模型接收一个包含 k+1k+1 帧的视觉观测序列 otk:t\mathbf{o}_{t-k:t} 和一个语言指令 ct\mathbf{c}_t
    2. 视觉编码 (Vision Encoding): 观测序列中的每一帧图像 oi\mathbf{o}_i 都通过一个共享的视觉编码器 ff(通常是 ViT)转换成一系列视觉令牌(visual tokens)ei=f(oi)\mathbf{e}_i = f(\mathbf{o}_i)。语言指令 ct\mathbf{c}_t 也被编码为文本令牌。这些令牌拼接在一起,形成 VLM 主干网络的输入 x=[etk:t,ct]\mathbf{x} = [\mathbf{e}_{t-k:t}, \mathbf{c}_t]
    3. 浅层 VLM 处理: 输入令牌 x\mathbf{x} 首先通过 VLM 主干网络的前 nn 个 Transformer 模块。在这一阶段,所有帧(包括历史帧和当前帧)的令牌都被完整处理。作者提到,在自注意力层中对视觉令牌应用了因果掩码 (causal mask),这确保了模型在处理某一帧时不会“看到”未来的帧,同时也便于在推理时利用 KV-caching 技术进行加速。
    4. 上下文摊销 (Amortization of Past Observation): 在第 nn 个模块的输出处,模型执行核心的压缩操作。所有来自过去观测(即 otk:t1\mathbf{o}_{t-k:t-1})的隐藏状态 htk:t1\mathbf{h}_{t-k:t-1} 被汇集并通过一个平均池化 (Average Pooling) 操作,压缩成一个单一的上下文令牌 (single context token) m\mathbf{m}m=AvgPool([htk:t1])\mathbf{m} = \mathrm{AvgPool}([\mathbf{h}_{t-k:t-1}])
    5. 深层 VLM 处理: 接下来,原始的过去观测令牌序列 htk:t1\mathbf{h}_{t-k:t-1} 被丢弃,由新生成的上下文令牌 m\mathbf{m} 替代。新的令牌序列 [m,ht,hc][\mathbf{m}, \mathbf{h}_t, \mathbf{h}_c](即上下文令牌、当前帧令牌、指令令牌)被送入 VLM 主干网络的剩余 N-n 个模块进行处理。由于令牌数量大幅减少,这一阶段的计算效率极高。
    6. 动作解码 (Action Decoder): VLM 主干网络输出的最终特征被用作条件,送入一个动作解码器以生成未来的动作序列 at:t+l\mathbf{a}_{t:t+l}。该框架是解码器无关的,可以与两种主流的动作解码器兼容:
      • 自回归解码 (Autoregressive): 将连续动作离散化为动作令牌,然后像生成文本一样逐个预测动作令牌。
      • 扩散解码 (Diffusion-based): 使用一个扩散模型(如 DiT),在 VLM 特征的引导下,从高斯噪声中逐步去噪生成连续的动作序列。
    7. 高效推理 (Efficient Inference via KV-caching): 在推理时,模型可以缓存前 nn 个 VLM 模块计算出的键 (Key) 和值 (Value) 向量。在下一个时间步 t+1t+1,模型只需计算新观测帧 ot+1\mathbf{o}_{t+1} 的 KV 值,并与之前缓存的 KV 值结合,从而避免了对历史帧的重复计算,进一步提升了推理速度。
  • 数学公式与关键细节 (Mathematical Formulas & Key Details):

    • 训练目标: 模型的训练目标是最小化预测动作与专家演示动作之间的差异。损失函数 \ell 的具体形式取决于动作解码器的类型。 minθ(πθ(otk:t,ct),at:t+l) \min_{\boldsymbol{\theta}} \ell(\pi_{\boldsymbol{\theta}}(\mathbf{o}_{t-k:t}, \mathbf{c}_t), \mathbf{a}_{t:t+l})
      • 符号解释:
        • πθ\pi_{\boldsymbol{\theta}}: 参数为 θ\boldsymbol{\theta} 的策略模型。
        • otk:t\mathbf{o}_{t-k:t}: 从时间步 t-ktt 的视觉观测序列。
        • ct\mathbf{c}_t: 语言指令。
        • at:t+l\mathbf{a}_{t:t+l}: 专家演示中从时间步 ttt+lt+l 的动作序列。
        • \ell: 损失函数。对于自回归模型,通常是交叉熵损失 (cross-entropy loss);对于扩散模型,通常是流匹配损失 (flow-matching loss)

5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):

    • Libero: 一个流行的模拟机器人操控基准,包含 4 个子任务集(Spatial, Object, Goal, Long),共 40 个任务,用于评估 VLA 的泛化能力。
    • Simpler-WidowX: 一个更具挑战性的模拟基准,特点是训练数据(BridgeV2,真实世界数据)与测试环境(模拟环境)之间存在显著的视觉差异 (Real-to-Sim gap),考验模型的迁移能力。
    • Robocasa: 一个大规模的模拟厨房环境基准,包含 24 种日常任务,场景和物体种类繁多,要求策略具备强大的指令遵循和泛化能力。
    • 真实世界机器人任务 (Real-world robotic tasks): 作者设计了三个需要时间上下文的真实世界任务:
      1. Clench/Unclench: 人形机器人手反复握拳和松开。

      2. PnP Twice: 将一个立方体从 A 盘移动到 B 盘,再移回 A 盘。

      3. CoverNStack: 用一个杯子盖住立方体,再将另一个杯子叠在上面。

        Figure 4: Examples of visual observations from the evaluation tasks. (a) We consider simulated robotic manipulation tasks from Libero (Liu et al., 2023a), Simpler-WidowX (Li et al., 2024b), and Roboc… 该图像是插图,展示了论文中评估任务的视觉观测样例。左侧三幅图为模拟机器人物体操作任务,分别来自Libero、Simpler-WidowX和Robocasa数据集;右侧三幅图为设计的真实机器人任务,包含握紧/松开手、两次捡取放置和覆盖叠放动作。

    上图(原论文 Figure 4)展示了实验中使用的模拟和真实世界任务的视觉样例。

  • 评估指标 (Evaluation Metrics):

    • 成功率 (Success Rate, %):
      1. 概念定义 (Conceptual Definition): 该指标衡量策略模型在多次尝试中成功完成指定任务的百分比。它是评估机器策略性能最直接、最常用的指标。对于分阶段的任务,论文还报告了部分成功率 (Partial Success Rate)(完成部分子任务)和完全成功率 (Full Success Rate)(完成所有子任务)。
      2. 数学公式 (Mathematical Formula): Success Rate=Number of Successful TrialsTotal Number of Trials×100% \text{Success Rate} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100\%
      3. 符号解释 (Symbol Explanation):
        • Number of Successful Trials: 在所有评估试验中,机器人完全按照任务要求完成目标的次数。
        • Total Number of Trials: 进行的总评估试验次数。
  • 对比基线 (Baselines): 论文将 ContextVLA 应用于三个强大的预训练 VLA 模型(π₀、GR00T N1.5π₀-FAST),并与它们各自的单帧版本 (1-frame)直接使用多帧输入的版本 (naive 8-frame) 进行比较。此外,还与其他已发表的 SOTA VLA 模型进行了比较,包括 OctoOpenVLARoboVLMsTraceVLASpatialVLANORA。这些基线涵盖了当前 VLA 领域的多种主流架构和方法,具有很强的代表性。

6. 实验结果与分析 (Results & Analysis)

动机性实验:为什么 VLA 能更好地利用多帧信息?

在深入 ContextVLA 的结果之前,论文首先通过实验(Figure 2)探究了为什么 VLA 在处理多帧数据时表现更稳定。

该图像是条形对比图,展示了单帧(1-frame)与多帧(8-frame)条件下三种策略(Diffusion Policy、π0、GROOT N1.5)的成功率对比。结果显示,Diffusion Policy在8帧时性能显著下降,而π0和GROOT N1.5在8帧下成功率有所提升或相当,说明部分模型能更有效利用多帧观测信息。 该图像是条形对比图,展示了单帧(1-frame)与多帧(8-frame)条件下三种策略(Diffusion Policy、π0、GROOT N1.5)的成功率对比。结果显示,Diffusion Policy在8帧时性能显著下降,而π0和GROOT N1.5在8帧下成功率有所提升或相当,说明部分模型能更有效利用多帧观测信息。

上图(原论文 Figure 2a)对比了传统 BC 模型(Diffusion Policy)和 VLA 模型(π₀, GROOT N1.5)在使用单帧和8帧输入时的性能。可以看到,Diffusion Policy 在使用8帧输入时性能急剧下降,而 VLA 模型则保持稳定或略有提升。

该图像是柱状图,展示了在不同初始模型(ViT-init、VLM-init、VLA-init)和任务(π0、GROOT N1.5)上,使用单帧(1 frame)与多帧(8 frames)观测情况下的成功率对比。图中显示,VLA-init模型在多帧输入时成功率普遍较高且表现稳定,而ViT-init多帧情况成功率显著下降,表明ContextVLA方法有效利用多帧信息提升任务成功率。 该图像是柱状图,展示了在不同初始模型(ViT-init、VLM-init、VLA-init)和任务(π0、GROOT N1.5)上,使用单帧(1 frame)与多帧(8 frames)观测情况下的成功率对比。图中显示,VLA-init模型在多帧输入时成功率普遍较高且表现稳定,而ViT-init多帧情况成功率显著下降,表明ContextVLA方法有效利用多帧信息提升任务成功率。

上图(原论文 Figure 2b)进一步分析了 VLA 架构中不同初始化方式的影响。结果显示,仅用预训练视觉编码器初始化(ViT-init)的模型在使用多帧时性能同样会下降。只有当模型使用预训练的 VLM(VLM-init)或完整的 VLA(VLA-init)进行初始化时,才能有效利用多帧信息。这有力地证明了预训练的 VLM 所具备的时序理解能力是成功利用多帧观测的关键。

核心结果分析 (Core Results Analysis)

  • 模拟环境实验结果:

    • Libero (Table 1): 在 Libero 基准上,ContextVLA 在所有三个基座模型(π₀, π₀-FAST, GROOT N1.5)上都取得了一致的性能提升,平均成功率分别提升了 1.9%、2.4% 和 1.1%,证明了方法的普适有效性。
      以下为 Table 1 的转录数据:

      Method # frames Spatial Object Goal Long Avg.
      Octo (Team et al., 2024) 2 78.9 85.7 84.6 51.1 75.1
      OpenVLA (Kim et al., 2024) 1 84.9 88.4 79.2 53.7 76.5
      TraceVLA (Zheng et al., 2024) 6 84.9 85.2 75.1 54.1 74.8
      SpatialVLA (Qu et al., 2025) 1 88.2 89.9 78.6 55.5 78.1
      NORA (Hung et al., 2025) 1 92.2 95.4 89.4 74.6 87.9
      π₀ (Black et al., 2024) 1 96.0 97.2 96.0 89.2 94.6
      + ContextVLA (Ours) 8 97.4 98.2 96.4 93.8 96.5
      π₀-FAST (Pertsch et al., 2025) 1 96.6 96.6 95.2 85.2 93.4
      + ContextVLA (Ours) 8 98.3 99.2 95.6 90.2 95.8
      GROOT N1.5 (GEAR, 2025) 1 98.3 99.4 96.7 89.0 95.9
      + ContextVLA (Ours) 8 98.4 99.0 97.2 93.4 97.0
    • Simpler-WidowX (Table 2): 在这个更具挑战性的 Real-to-Sim 基准上,ContextVLA 带来了更显著的性能提升。例如,它将 π₀ 的平均成功率从 41.8% 提升至 56.2%(提升了14.4个百分点),将 π₀-FAST 从 59.0% 提升至 70.7%(提升了11.7个百分点)。这表明 ContextVLA 提取的时间上下文有助于模型更好地泛化到新的视觉域。
      以下为 Table 2 的转录数据:

      Method # frames Spoon on Towel Carrot on Plate Stack Cube Put Eggplant in Basket Avg.
      Octo-base (Team et al., 2024) 2 12.5 8.3 0.0 43.1 16.0
      Octo-small (Team et al., 2024) 2 47.2 9.7 4.2 56.9 29.5
      OpenVLA (Kim et al., 2024) 1 0.0 0.0 0.0 4.1 1.0
      RoboVLMs (Liu et al., 2025) 16 29.2 25.0 12.5 58.3 31.3
      SpatialVLA (Qu et al., 2025) 1 16.7 25.0 29.2 100.0 42.7
      π₀ (Black et al., 2024) 1 46.7 38.7 42.7 39.3 41.8
      + ContextVLA (Ours) 8 53.3 56.0 41.3 74.0 56.2
      π₀-FAST (Pertsch et al., 2025) 1 59.0 79.0 65.0 33.0 59.0
      + ContextVLA (Ours) 8 60.7 81.3 78.7 62.0 70.7
      GROOT N1.5 (GEAR, 2025) 1 30.0 28.0 16.0 42.7 29.2
      + ContextVLA (Ours) 8 28.0 29.3 14.7 50.3 31.8
    • Robocasa (Table 3): 在复杂的厨房环境中,ContextVLA 同样展现了优势,尤其是在需要精确放置的 Pick and Place 任务类别中,性能提升更为明显。
      以下为 Table 3 的转录数据:

      Method # frames Pick and Place Others Avg.
      π₀ (Black et al., 2024) 1 33.3 68.8 57.0
      + ContextVLA (Ours) 8 34.8 70.6 58.7
      π₀-FAST (Pertsch et al., 2025) 1 45.5 69.0 60.2
      + ContextVLA (Ours) 8 48.5 69.0 62.2
      GROOT N1.5 (GEAR, 2025) 1 50.3 68.8 62.6
      + ContextVLA (Ours) 8 53.0 69.9 64.3
  • 真实世界实验结果 (Table 4): 在专为考验时序理解能力设计的真实世界任务中,ContextVLA 的优势被进一步放大。

    • Clench/Unclench 任务中,π₀ + ContextVLA 的成功率高达 80%,而单帧 π₀ 只有 40%。
    • 在长时程任务 PnP Twice 中,ContextVLA 版本的 π₀ 实现了 65% 的完全成功率,远超单帧版本的 25% 和 naive 8-frame 版本的 55%。
    • 一个关键发现: ContextVLA 的性能甚至优于 naive 8-frame VLA。作者推测这是因为 ContextVLA 更快的推理速度减少了延迟,而延迟在真实机器人部署中是影响性能的关键因素。这凸显了其压缩方法的双重优势:不仅提取了有效信息,还提升了系统响应速度。
      以下为 Table 4 的转录数据:
    Method # frames Clench/Unclench PnP Twice CoverNStack
    PnP Once Full Cover Cube Full
    π₀ (Black et al., 2024) 1 40.0 55.0 25.0 60.0 45.0
    π₀ (Black et al., 2024) 8 40.0 60.0 55.0 65.0 45.0
    + ContextVLA (Ours) 8 80.0 75.0 65.0 85.0 60.0
    GR00T N1.5 (Bjorck et al., 2025) 1 20.0 55.0 15.0 50.0 10.0
    GR00T N1.5 (Bjorck et al., 2025) 8 80.0 60.0 30.0 50.0 25.0
    + ContextVLA (Ours) 8 80.0 70.0 50.0 55.0 35.0
  • 效率分析 (Efficiency Analysis):

    • 训练效率 (Figure 5):

      Figure 5: Training efficiency. We report the wall clock time of fine-tuning \(\\pi _ { 0 }\) on Libero (Liu et al., 2023a) using 4 NVIDIA A100 80GB GPU. 该图像是图表,展示了在Libero数据集上,使用4张NVIDIA A100 80GB GPU微调策略模型π0\pi_0的训练效率对比。横轴为训练时间(小时),纵轴为成功率(%)。图中蓝线代表使用ContextVLA方法的模型,红线代表使用简单8帧输入的基础模型。结果显示,ContextVLA在训练时间约为基础模型的五分之一时,即更快完成训练,并取得相似甚至更高的成功率,表明其在缩短训练时间的同时提升了训练效率。

      上图显示,在 Libero 数据集上,ContextVLA 达到最佳性能所需的训练时间比 naive 8-frame 方法快 5.5 倍,极大地提升了训练效率。

    • 推理效率 (Table 5):
      以下为 Table 5 的转录数据:

      Compression KV-caching Time (ms)
      - 227.2
      129.9
      96.3

      ContextVLA 的压缩机制使其推理速度比 naive 8-frame 方法快 2.4 倍。如果再结合 KV-caching 技术,延迟可以进一步降低。

  • 消融实验/参数分析 (Ablation Studies / Parameter Analysis - Table 6): 以下为 Table 6 的转录数据:

    # frames Depth Context Token Libero Simpler-WidowX
    1 π₀ (Black et al., 2024) 94.6 41.8
    8 π₀ (Black et al., 2024) 95.6 47.8
    2 2 94.8 50.5
    4 2 95.0 52.0
    8 2 96.5 56.2
    8 1 96.1 46.5
    8 2 96.5 56.2
    8 4 96.4 53.5
    8 6 95.8 51.5
    8 8 96.4 48.5
    8 2 95.6 49.0
    • 历史帧数量的影响: 随着使用的历史帧数从 2 增加到 8,模型性能持续提升,表明 ContextVLA 能够有效利用更长的上下文信息。
    • 压缩深度的影响: 实验表明,在 VLM 较浅的层(如第 2 层)进行压缩效果最好。这符合直觉,因为浅层负责提取底层特征,而深层需要结合上下文进行高级推理。在浅层压缩既能保证效率,又能保留足够的信息。
    • 上下文令牌的有效性: 通过对比使用上下文令牌(✓)和丢弃它(✗)的实验,可以发现上下文令牌带来了显著的性能提升(在 Simpler-WidowX 上从 49.0% 提升到 56.2%)。这证明了压缩后的上下文令牌确实捕获了对决策至关重要的时序信息。
  • 定性结果分析 (Qualitative Results - Figure 8):

    Figure 8: Qualitative results. \(\\pi _ { 0 }\) that uses single-frame observations fails to determine the correct next action due to the lack of utilizing temporal context (in red box), but ContextVLA… 该图像是插图,上下两组视频帧展示了机器人在不同任务中的动作序列。上组对比中,使用单帧观察的策略π_0未能正确完成将立方块移动并复位的任务(红框标注错误动作),而ContextVLA通过利用多帧时间上下文成功实现目标。下组展示盖杯子与叠杯子的任务,单帧策略同样出现错误动作,ContextVLA有效利用历史动作判断正确操作。

    上图直观地展示了 ContextVLA 的优势。在 PnP Twice 任务中,单帧模型在完成第一次放置后,由于无法记忆之前的状态,可能会做出错误的动作(例如再次尝试抓取已经放下的物体)。而 ContextVLA 能够利用时间上下文,理解任务已经进行到第二阶段,从而做出正确的返回动作。

7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary): 本文成功提出了 ContextVLA,一个简单而高效的 VLA 框架,用于解决机器人任务中利用多帧观测的挑战。通过在 VLM 的中间层将历史观测压缩成单个上下文令牌,ContextVLA 在不牺牲甚至提升任务性能的前提下,显著降低了多帧输入的计算开销。实验证明,该方法不仅在多个基准测试中超越了单帧 VLA,还优于直接处理完整视频序列的 VLA,尤其在需要长时程理解的真实世界任务中表现出色。

  • 局限性与未来工作 (Limitations & Future Work): 尽管论文本身未明确列出局限性,但我们可以从以下几个角度进行思考:

    • 压缩方式的探索: 目前采用的平均池化是一种相对简单的压缩方法。未来可以探索更复杂的压缩机制,例如使用注意力机制(Attention Pooling)、可学习的压缩模块(如 Perceiver)或向量量化 (Vector Quantization),这可能会捕获更丰富的上下文信息。
    • 上下文长度的适应性: 当前模型使用固定的历史帧数(如 8 帧)。对于更长时程的任务,可能需要一种能处理可变长度或更长历史的记忆机制,例如循环结构或分层记忆网络。
    • 任务依赖性: 最佳的压缩深度 nn 和历史帧数 kk 可能因任务的复杂度和动态性而异。未来的工作可以研究如何让模型自适应地选择这些超参数。
  • 个人启发与批判 (Personal Insights & Critique):

    • 启发: 这篇论文最大的启发在于其“抓住主要矛盾”的解决思路。它没有盲目地堆砌计算资源去处理高维视频,而是通过一个巧妙的洞察(VLM 的时序理解能力)和一个简洁的设计(中间层上下文摊销)高效地解决了问题。这种“在正确的地方用力”的理念对于资源受限的机器人应用非常有价值。

    • 方法的优雅与实用: ContextVLA 的设计非常优雅,它无缝地集成在现有的 VLA 架构中,无需引入复杂的外部模块,使其易于实现和推广。它在性能和效率之间取得了出色的平衡,展示了巨大的实际应用潜力。

    • 批判性思考: 论文的动机性实验(Figure 2)非常有力,清晰地定位了问题的关键在于 VLM。然而,对于“为什么 VLM 具备这种时序理解能力”的深层原因探讨较少。此外,虽然平均池化效果很好,但它可能会丢失一些空间或细节信息。在需要精细区分历史帧中物体微小变化的场景下,这种方法可能会遇到瓶颈。

      总而言之,ContextVLA 是一篇高质量的机器人学习论文,它不仅提出了一个有效的技术方案,还为理解和利用 VLM 在机器人控制中的时序能力提供了宝贵的见解。这项工作为构建能够处理更复杂、更长时程任务的通用机器人策略铺平了道路。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。