论文状态:已完成

VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation

发表:2025/11/21
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为VLA-4D的新模型,通过嵌入4D感知(3D空间加1D时间)来解决视觉-语言-动作(VLA)模型在机器人操控任务中的时空连贯性问题。核心技术包括4D感知视觉表示,通过交叉注意机制融合视觉特征,以及结合时间信息扩展动作表示,以实现平滑且一致的机器动作。

摘要

Vision-language-action (VLA) models show potential for general robotic tasks, but remain challenging in spatiotemporally coherent manipulation, which requires fine-grained representations. Typically, existing methods embed 3D positions into visual representations to enhance the spatial precision of actions. However, these methods struggle to achieve temporally coherent control over action execution. In this work, we propose VLA-4D, a general VLA model with 4D awareness for spatiotemporally coherent robotic manipulation. Our model is guided by two key designs: 1) 4D-aware visual representation. We extract visual features, embed 1D time into 3D positions for 4D embeddings, and fuse them into a unified visual representation via a cross-attention mechanism. 2) Spatiotemporal action representation. We extend conventional spatial action representations with temporal information to enable the spatiotemporal planning, and align the multimodal representations into the LLM for spatiotemporal action prediction. Within this unified framework, the designed visual and action representations jointly make robotic manipulation spatially-smooth and temporally-coherent. In addition, we extend the VLA dataset with temporal action annotations for fine-tuning our model. Extensive experiments have been conducted to verify the superiority of our method across different tasks of robotic manipulation.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation

中文翻译: VLA-4D:将4D感知嵌入视觉-语言-动作模型以实现时空连贯的机器人操控

标题解析:

  • VLA-4D 是本文提出的模型名称。

  • Embedding 4D Awareness (嵌入4D感知) 是核心技术手段,这里的 "4D" 指的是三维空间 (3D) 加上一维时间 (1D)。

  • Vision-Language-Action Models (视觉-语言-动作模型,简称VLA) 指明了研究的领域,这是一种结合多模态信息进行机器人控制的模型范式。

  • SpatioTemporally Coherent Robotic Manipulation (时空连贯的机器人操控) 是研究要实现的目标。Spatially Coherent 指的是空间上动作轨迹平滑、精准;Temporally Coherent 指的是时间上动作流畅、没有不必要的停顿或抖动。

    综合来看,标题清晰地表明,本文提出了一种名为 VLA-4D 的新模型,它通过引入时空(4D)信息,来解决现有VLA模型在执行机器人操控任务时动作不连贯、不流畅的问题。

1.2. 作者

  • Hanyu Zhou, Gim Hee Lee: 来自新加坡国立大学计算学院 (School of Computing, National University of Singapore)。
  • Chuanhao Ma: 来自华中科技大学人工智能与自动化学院 (School of Artificial Intelligence and Automation, Huazhong University of Science and Technology)。

研究背景:

  • Gim Hee Lee 是新加坡国立大学的副教授,在计算机视觉、机器人和3D深度学习领域有深入的研究,是该领域的知名学者。
  • 作者团队的研究背景集中在视觉与机器人技术的交叉领域,这为本论文的研究提供了坚实的理论和实践基础。

1.3. 发表期刊/会议

  • 发表于: arXiv (预印本)
  • 影响力: arXiv 是一个开放获取的电子预印本平台,广泛用于物理学、数学、计算机科学等领域。在计算机科学,特别是人工智能领域,研究者通常会在论文正式提交给顶级会议(如 CVPR, NeurIPS, ICRA)之前,将其发布在 arXiv 上,以快速分享研究成果。这篇论文出现在 arXiv 上,表明它是一项较新的研究,但其最终的学术价值和影响力,还需等待同行评审和在顶级会议上的发表情况。

1.4. 发表年份

  • 提交日期 (UTC): 2025-11-21T12:26:30.000Z

  • 版本: v1

    这表明该论文是其第一个公开的预印本版本。(注:虽然年份为2025,但根据论文内容和引用格式,这可能是作者笔误或占位符,实际应为近期的研究,例如2024年)

1.5. 摘要

视觉-语言-动作 (VLA) 模型在通用机器人任务中展现了潜力,但在需要精细化表示的时空连贯操控方面仍面临挑战。现有方法通常将3D位置信息嵌入视觉表示中以提高动作的空间精度,但这些方法难以实现对动作执行的连贯时间控制。为此,本文提出了 VLA-4D,一个具备4D感知的通用VLA模型,旨在实现时空连贯的机器人操控。该模型的核心设计有两点:

  1. 4D感知的视觉表示 (4D-aware visual representation): 模型提取视觉特征,将1D时间信息嵌入3D位置信息形成4D嵌入,并通过交叉注意力机制将它们融合成统一的视觉表示。
  2. 时空动作表示 (Spatiotemporal action representation): 模型将传统只包含空间信息的动作表示扩展,加入了时间信息,以实现时空规划。然后,将多模态表示对齐输入到大语言模型 (LLM) 中,以预测时空动作。 在这个统一的框架下,经过精心设计的视觉和动作表示共同使机器人操控在空间上平滑、在时间上连贯。此外,作者还对一个VLA数据集进行了扩展,为其添加了时间动作标注,用于微调模型。大量的实验验证了该方法在不同机器人操控任务中的优越性。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 当前先进的视觉-语言-动作 (VLA) 模型虽然能完成各种机器人任务,但在执行需要精细、连续、流畅的操控任务时表现不佳。它们的动作常常在空间上不够平滑,在时间上则会出现不自然的停顿、抖动或过早/过晚结束,即缺乏时空连贯性 (spatiotemporal coherence)

  • 重要性与挑战 (Gap):

    1. 2D VLA 模型的局限: 大多数早期的 VLA 模型直接使用 2D 图像作为输入。这导致了两个问题:一是模型对场景的3D空间几何理解不足;二是图像的2D像素坐标系与机器人执行动作的3D世界坐标系存在不匹配,导致动作精度下降。
    2. 3D VLA 模型的不足: 为了解决上述问题,一些研究(称为 3D-VLA)开始将3D空间位置信息(如点云或3D坐标)融入视觉特征。这确实提升了动作的空间平滑度和定位精度。然而,它们仍然忽略了时间维度,无法精细控制动作的执行节奏,导致机器人可能在任务步骤之间出现不必要的等待或动作速度突变,即时间上不连贯
    3. 现有 4D VLA 模型的空白: 最近有一些工作(称为 4D-VLA)尝试在视觉输入端引入时间信息(如帧索引),这有助于模型理解动作的先后顺序。但它们只在感知层面 (perception) 增强了时空理解,而没有在规划层面 (planning) 对动作本身进行时间上的精细控制。也就是说,它们没有直接让模型去预测“这个动作应该持续多久”。
  • 本文切入点/创新思路: 作者认为,要实现真正的时空连贯性,必须在感知和规划两个层面同时进行增强。

    • 感知层面: 打造一个“4D感知的视觉表示”,让模型不仅知道物体在哪里(3D空间),还知道场景是如何随时间变化的(1D时间)。
    • 规划层面: 创建一个“时空动作表示”,让模型不仅规划要去哪(空间位移),还要规划用多长时间去(时间持续)。 这种对视觉输入和动作输出的双重时空增强是本文的核心创新思路。

2.2. 核心贡献/主要发现

本文的主要贡献可以总结为以下四点:

  1. 提出了 VLA-4D 框架: 这是一个通用的、具备4D感知的视觉-语言-动作模型,通过将时空信息同时嵌入到视觉和动作表示中,系统性地解决了机器人操控的时空连贯性问题。

  2. 设计了 4D 感知的视觉表示: 提出了一种新颖的视觉表示方法。它通过交叉注意力机制 (cross-attention mechanism),将显式编码的3D空间位置和1D时间信息(共同构成4D嵌入)有效地融合到从视频中提取的视觉特征里,极大地增强了模型对场景时空动态的精细推理能力。

  3. 构建了时空动作表示: 创新性地在传统的机器人动作参数(如位移、旋转)中,加入了一个可变的、由模型预测的时间控制变量 (ΔtΔt)。这使得模型能够进行时空联合规划,从而显著提升了机器人操作的平滑度和时间连贯性。

  4. 扩展了机器人数据集: 为了训练和验证所提出的模型,作者扩展了现有的机器人操控数据集 LIBERO,为其补充了时间动作标注。这项工作为该领域未来的研究提供了宝贵的数据资源。


3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 视觉-语言-动作 (Vision-Language-Action, VLA) 模型

VLA模型是一种旨在让机器人理解并执行人类指令的端到端智能系统。它接收三种主要的输入:

  • 视觉 (Vision): 通常是来自机器人摄像头的一系列图像或视频,展示了当前的环境状态。

  • 语言 (Language): 人类用户给出的自然语言指令,例如“把桌子上的苹果放到篮子里”。

  • 动作 (Action): 在机器人领域,动作通常被表示为一系列控制参数,如机械臂末端执行器的位置、姿态(旋转)和夹爪的开合状态。

    VLA模型的核心任务是学习一个从视觉和语言动作的映射。它通过一个强大的中央模型(通常是大语言模型 (Large Language Model, LLM))来融合多模态信息,进行推理和规划,最终生成一系列可执行的机器人动作指令。

3.1.2. 大语言模型 (Large Language Model, LLM)

LLM,如 GPT、Llama 系列,是在海量文本数据上预训练的深度神经网络。它们展现出强大的语言理解、生成和逻辑推理能力。在VLA模型中,LLM扮演着“大脑”的角色。研究者们发现,可以将视觉特征和机器人状态(如关节角度)也“翻译”成LLM能理解的词元 (token) 格式,然后与文本指令词元一起输入LLM。这样,LLM就能基于对场景的理解和指令的意图,推理出下一步应该执行什么动作,并以词元的形式输出动作序列。

3.1.3. 交叉注意力机制 (Cross-Attention)

交叉注意力机制是 Transformer 架构中的一个关键组件,用于融合两种不同来源的信息。它的核心思想是:以一种信息为“查询”(Query),去“匹配”和“检索”另一种信息中的相关部分(Key-Value 对)。

在本篇论文中,交叉注意力被用来将4D时空几何信息融合进视觉语义特征。这里:

  • 查询 (Query, Q): 来自视觉编码器提取的视觉特征 (fvf_v)。它代表了“图像中有什么内容”。

  • 键 (Key, K) 和 值 (Value, V): 都来自4D时空嵌入 (f4Df_{4D})。它代表了“这些内容在何时何地出现”。

    通过交叉注意力,模型可以学习到将视觉内容(如一个红色的方块)与其在三维空间和时间序列中的精确位置和时刻关联起来,从而获得对场景时空的深度理解。

其计算过程可以概括为以下公式: Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

  • 概念定义: 该公式计算查询 QQ 与所有键 KK 的相似度,通过 softmax 函数将相似度转换为权重,然后用这些权重对值 VV 进行加权求和。dk\sqrt{d_k} 是一个缩放因子,用于稳定梯度。
  • 符号解释:
    • QQ: 查询矩阵,代表一组查询向量。
    • KK: 键矩阵,代表一组键向量。
    • VV: 值矩阵,代表一组值向量。
    • dkd_k: 键向量的维度。
    • TT: 矩阵的转置操作。

3.2. 前人工作

作者将相关工作分为三类,这三类也代表了该领域的技术演进路线。

  • 2D VLA 模型:

    • 代表: OpenVLA, Octo, DiffusionPolicy。
    • 方法: 这些模型直接将2D图像编码后与语言指令一起输入LLM,然后输出动作。
    • 问题: 它们学习到的知识是粗粒度的,并且存在2D图像与3D机器人动作空间的坐标不匹配问题,导致动作精度低、不够连贯。
  • 3D VLA 模型:

    • 代表: TraceVLA, SpatialVLA。
    • 方法: 为了提升空间精度,这些模型在2D视觉特征的基础上,额外嵌入了3D空间位置信息(如通过深度相机获取的点云坐标)。这有助于LLM更好地理解场景的几何结构。
    • 问题: 虽然空间轨迹变得更平滑,但它们没有考虑时间维度。模型无法控制每个动作步骤的持续时间,因此仍然可能出现动作卡顿、等待等时间不连贯的问题。
  • 4D VLA 模型:

    • 代表: 4D-VLA (Zhang et al., 2025), Niu et al. (2025)。
    • 方法: 这些是与本文最相关的工作。它们尝试将时间信息(如视频的帧索引)与3D位置信息一起编码到视觉流中,以解决机器人执行过程中的时序状态模糊问题。
    • 问题: 它们虽然增强了模型对时序的感知能力,但仍然将动作规划局限在空间维度。模型输出的动作不包含明确的时间参数,因此无法从根本上保证动作执行的时间连贯性

3.3. 技术演进

该领域的技术演进脉络清晰地体现了对机器人操控精细度要求的不断提升:

  1. 从 2D 到 3D: 为了解决空间精度问题,研究者从使用纯2D图像转向融合3D几何信息,实现了空间感知的增强。
  2. 从 3D 到 4D (感知): 为了解决动作的时序模糊问题(如分不清动作的先后),研究者在3D基础上加入了时间维度信息,实现了时空感知的增强。
  3. 从 4D 感知到 4D 感知+规划 (本文): 本文的工作正处在这一演进的前沿。作者指出,仅有时空感知是不够的,还必须让模型具备时空规划的能力。因此,他们不仅在输入端引入4D信息,还在输出端(动作)引入了时间参数,实现了从感知到规划的全面4D化。

3.4. 差异化分析

本文与现有工作(特别是其他 4D-VLA 模型)的核心区别在于:

  • 双重时空增强: 现有 4D-VLA 模型仅在视觉表示(输入端)中融入时空信息。而本文的 VLA-4D 则在视觉表示(输入端)动作表示(输出端)同时引入了时空信息。

  • 显式时间规划: 本文通过在动作参数中增加一个可学习的 ΔtΔt(时间持续变量),让模型能够显式地规划每个动作步骤的时间长度。这是实现时间连贯性的直接且有效的方法,而其他模型只能隐式地、间接地影响动作节奏。

  • 统一框架: VLA-4D 将4D感知的视觉推理和时空动作规划统一在一个端到端的框架内,使得感知和规划能够协同优化,共同服务于“时空连贯”这一最终目标。


4. 方法论

4.1. 方法原理

VLA-4D 的核心思想是通过双管齐下的方式实现时空连贯的机器人操控。

  1. 输入端,通过构建一个包含空间和时间信息的 4D感知视觉表示,让模型能够精细地理解“场景中什么物体在什么时间、处于什么位置”。

  2. 输出端,通过定义一个包含空间和时间参数的 时空动作表示,让模型能够精确地规划“机器人下一步要去哪里、姿态如何,并且这个动作要持续多长时间”。

    这两个设计相辅相成:强大的4D视觉理解能力为精确的时空动作规划提供了坚实基础,而时空动作规划则将这种理解能力直接转化为连贯流畅的物理执行。整个过程由一个大型语言模型 (LLM) 作为中央处理器进行统一协调。

下图(原文 Figure 2)展示了VLA-4D模型的整体架构:

该图像是一个示意图,展示了VLA-4D模型的架构。模型通过提取视觉特征并使用交叉注意机制融合4D嵌入,以实现时空一致的机器人操控。左侧显示了机器人平台及其感知信息的编码过程,右侧则呈现了将输入语言指令转化为动作令牌的流程。 该图像是一个示意图,展示了VLA-4D模型的架构。模型通过提取视觉特征并使用交叉注意机制融合4D嵌入,以实现时空一致的机器人操控。左侧显示了机器人平台及其感知信息的编码过程,右侧则呈现了将输入语言指令转化为动作令牌的流程。

4.2. 核心方法详解 (逐层深入)

VLA-4D 的框架可以分为两个关键阶段:4D感知视觉表示和时空动作表示。

4.2.1. 阶段一: 4D感知视觉表示 (4D-Aware Visual Representation)

这一阶段的目标是生成一个融合了语义、几何和时序信息的强大视觉表征 fv4Df_v^{4D}

步骤 1: 几何信息提取与坐标变换 为了让模型理解3D空间,首先需要将2D的像素信息转换到3D的世界坐标系(或机器人坐标系)中。

  • 输入: 机器人视角(如腕部视角和第三人称视角)的视频序列。
  • 过程:
    1. 在某个时间戳 tt,使用一个几何编码器 (VGGT [31]) 从视频帧中提取相机位姿 PP 和深度图 DD
    2. 结合相机的内参矩阵 KK,通过几何投影公式,将任意一个2D像素坐标 p2Dp_{2D} 转换为3D世界坐标 p3Dp_{3D}
  • 公式: p3D=P1(DK1p2D) p_{3D} = P^{-1} (D K^{-1} p_{2D})
  • 符号解释:
    • p3Dp_{3D}: 像素点在3D世界坐标系中的坐标。
    • p2Dp_{2D}: 像素点在2D图像中的坐标。
    • KK: 相机内参矩阵,描述了相机自身的成像特性。K1K^{-1} 是其逆矩阵。
    • DD: 深度图,提供了每个像素点到相机的距离。
    • PP: 相机外参矩阵(位姿),描述了相机在世界坐标系中的位置和方向。P1P^{-1} 是其逆矩阵。
    • 解释: 这个公式的含义是:首先用 K1p2DK^{-1}p_{2D} 将2D像素坐标转换到相机的归一化图像平面上,然后乘以深度 DD 将其投影到相机坐标系下的3D空间,最后乘以 P1P^{-1} 将其从相机坐标系转换到世界坐标系。

步骤 2: 4D时空嵌入 (Spatiotemporal Embedding, STE) 在获得所有时间戳的3D位置信息后,模型需要将这些离散的3D位置 (p3Dp_{3D}) 和1D时间戳 (tt) 编码成一个统一的、可学习的4D表示。

  • 过程:
    1. 作者采用了一种基于傅里叶特征的编码策略,将连续的坐标值和时间戳映射到高维特征空间。这种方法能更好地捕捉高频细节。
    2. 将编码后的位置特征和时间特征拼接起来,并通过一个线性层进行融合,最终得到4D时空嵌入 f4Df_{4D}
  • 傅里叶编码公式: ψ(x)=1/d [cos(xWr)  sin(xWr)] \psi ( x ) = 1 / \sqrt { d } \ [ cos ( x W _ { r } ^ { \top } ) \ | | \ sin ( x W _ { r } ^ { \top } ) ]
  • 符号解释:
    • ψ(x)\psi(x): 对输入 xx (可以是位置坐标或时间戳) 进行傅里叶编码。
    • dd: 编码后特征的维度。
    • WrW_r: 一个可学习的参数矩阵。
    • ||: 拼接 (concatenation) 操作。
  • 4D嵌入生成公式: f4D=wp[ψ(p3D)ψ(t)] f_{4D} = w_{p} \cdot \left[ \psi ( p_{3D} ) \parallel \psi ( t ) \right]
  • 符号解释:
    • f4Df_{4D}: 最终的4D时空嵌入。
    • wpw_p: 一个可学习的线性层权重。
    • ψ(p3D)\psi(p_{3D}): 对3D位置进行傅里叶编码。
    • ψ(t)\psi(t): 对1D时间进行傅里叶编码。

步骤 3: 跨注意力特征融合 (Cross-Attention Fusion) 最后一步是将包含纯粹几何和时序信息的 f4Df_{4D} 与包含丰富语义信息的视觉特征 fvf_v 进行融合。

  • 过程:
    1. 使用一个视觉编码器(如 ViT 变体)从视频帧中提取高级视觉特征 fvf_v
    2. 使用一个多层感知机 (MLP) 将 f4Df_{4D} 的维度调整为与 fvf_v 相同,得到 f^4D\hat{f}_{4D}
    3. 使用交叉注意力机制,以 fvf_v 作为查询 (Query),以 f^4D\hat{f}_{4D} 作为键 (Key) 和值 (Value),计算出注意力权重并进行加权融合。
    4. 将融合后的特征与原始视觉特征 fvf_v 进行残差连接,得到最终的4D感知视觉表示 fv4Df_v^{4D}
  • 公式: q=wqfv,k=wkf^4D,v=wvf^4D q = w_q f_v, \quad k = w_k \hat{f}_{4D}, \quad v = w_v \hat{f}_{4D} fv4D=fv+softmax(qkd)v f_v^{4D} = f_v + \mathrm{softmax}\left(\frac{qk^\top}{\sqrt{d}}\right)v
  • 符号解释:
    • q, k, v: 分别是查询、键、值。
    • wq,wk,wvw_q, w_k, w_v: 相应的可学习权重矩阵。
    • fv4Df_v^{4D}: 融合后的4D感知视觉表示,它同时捕捉了场景的语义、几何和时序特性。
    • dd: 特征维度。

4.2.2. 阶段二: 时空动作表示 (SpatioTemporal Action Representation)

这一阶段的目标是定义一种新的动作表示方法,并利用LLM进行规划和预测。

步骤 1: 时空动作定义 这是本文的另一个核心创新。作者扩展了传统的动作表示,加入了时间维度。

  • 传统空间动作表示: X=[Δx,Δθ,Grip]X = [\Delta x, \Delta \theta, Grip]
    • Δx\Delta x: 末端执行器的平移位移。
    • Δθ\Delta \theta: 末端执行器的旋转姿态变化。
    • Grip: 夹爪的控制信号(如打开/关闭)。
  • 新增时间动作表示: T=ΔtT = \Delta t
    • Δt\Delta t: 一个时间变量,表示当前这一个动作步骤应该持续的时间。这个变量是由模型根据场景、任务和机器人状态动态预测的。
  • 最终时空动作表示: A=[Δx,Δθ,Grip,Δt]A = [\Delta x, \Delta \theta, Grip, \Delta t]
    • 这个表示让机器人不仅知道“做什么”(空间动作),还知道“做多久”(时间动作)。

      下图(原文 Figure 4)直观地展示了引入时间参数后,动作轨迹如何从生硬变得平滑。

      Figure 4. Illustration of spatiotemporal action representation. Spatial parameters enable fine-grained action planning, while temporal parameters further improve the action coherence during execution.

      步骤 2: 多模态对齐与优化 将所有信息输入LLM,并训练模型来预测上述定义的时空动作。

  • 多模态对齐: LLM只能处理文本形式的词元。因此,需要将视觉和机器人自身状态信息“翻译”成词元。
    1. 使用一个投影函数(Proj(·)),通常是MLP,将上一阶段得到的4D感知视觉特征 fv4Df_v^{4D} 和机器人的本体感受状态 fpf_p (如关节角度、速度) 映射到与语言词元相同的嵌入空间,得到视觉词元 τv4D\tau_v^{4D} 和本体感受词元 τp\tau_p
    2. 将用户输入的文本指令也分词并编码为语言词元 τl\tau_l
  • 任务优化 (Action Prediction):
    1. 将所有词元序列拼接起来: [τv4D,τp,τl][\tau_v^{4D}, \tau_p, \tau_l]
    2. 将拼接后的序列输入到一个预训练的LLM (T()\mathcal{T}(\cdot)) 中。
    3. 在LLM的输出端接一个基于MLP的动作头 (H()\mathcal{H}(\cdot)),用于将LLM的输出解码为最终的时空动作参数。
  • 预测公式: [Δx,Δθ,Grip,Δt]=H(T([τv4D,τp,τl])) [\Delta x, \Delta \theta, Grip, \Delta t] = \mathcal{H}(\mathcal{T}([\tau_v^{4D}, \tau_p, \tau_l]))
  • 损失函数: 模型训练的目标是让预测的动作参数尽可能接近真实的标注数据。作者使用了 L1 范数损失函数,因为它对异常值不那么敏感,更具鲁棒性。 Laction=(ΔxΔx~1+ΔθΔθ~1+GripGrip~1+ΔtΔt~1) \mathcal{L}_{action} = \sum (\lvert \Delta x - \tilde{\Delta x} \rvert_1 + \lvert \Delta \theta - \tilde{\Delta \theta} \rvert_1 + \lvert Grip - \tilde{Grip} \rvert_1 + \lvert \Delta t - \tilde{\Delta t} \rvert_1)
  • 符号解释:
    • 带波浪号的变量 (e.g., Δx~\tilde{\Delta x}): 表示从数据集中获取的真实标注 (Ground Truth) 动作值。

    • 不带波浪号的变量 (e.g., Δx\Delta x): 表示模型预测的动作值。

    • 1\lvert \cdot \rvert_1: L1 范数,即绝对值。

    • Laction\mathcal{L}_{action}: 最终的动作损失,是所有动作参数预测误差的绝对值之和。模型通过最小化这个损失来进行学习。


5. 实验设置

5.1. 数据集

  • 数据集名称: LIBERO
  • 来源与描述: LIBERO [17] 是一个为机器人终身学习 (lifelong learning) 设计的模拟 benchmark 套件。它包含四个不同侧重点的设置:
    • LIBERO-Spatial: 侧重空间推理任务。
    • LIBERO-Object: 侧重对不同物体的理解。
    • LIBERO-Goal: 侧重完成不同的任务目标。
    • LIBERO-Long: 侧重长时序的规划任务。
  • 作者的数据集扩展: 现有的机器人数据集通常只提供空间动作的标注,而没有时间信息。为了训练和评估 VLA-4D,作者对 LIBERO 数据集进行了关键的扩展:
    1. 输入模态扩展: 通过在模拟环境中重新渲染专家轨迹,作者生成了多视角视频、带时间戳的深度图、相机参数等丰富的输入数据。
    2. 动作标注扩展: 这是最重要的扩展。作者手动地将连续的专家轨迹分割成具有一致运动趋势的动作片段 (action chunks),然后根据采样频率将每个片段的步数转换为一个可变的时间动作标注 ΔtΔt
  • 最终数据集规模: 经过清洗和筛选,最终数据集包含40个子任务,总计约 15万 个配对的 (视觉-语言-动作) 样本。
  • 选择原因: LIBERO 数据集任务多样,覆盖了机器人操控的多个方面,能够全面地评估模型的性能。作者对其进行扩展,使其成为首批支持时空连贯操控研究的数据集之一。

5.2. 评估指标

论文使用了两个核心指标来评估模型的性能。

5.2.1. 任务成功率 (Task Success Rate, SR)

  • 概念定义: 该指标衡量模型在给定一系列任务中,能够成功完成的任务所占的百分比。它是评估机器人策略有效性的最直接、最重要的指标。成功率越高,代表模型的性能越好。
  • 数学公式: SR(%)=Number of Successful TrialsTotal Number of Trials×100% \text{SR} (\%) = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100\%
  • 符号解释:
    • Number of Successful Trials: 成功完成任务的试验次数。
    • Total Number of Trials: 进行的总试验次数。

5.2.2. 完成时间 (Completion Time, CT)

  • 概念定义: 该指标衡量机器人从开始执行任务到成功完成任务所花费的总时间,通常以秒 (s) 为单位。这个指标主要用于评估机器人策略的效率时间连贯性。在成功率相近的情况下,完成时间越短,说明机器人的动作越流畅、高效,没有不必要的停顿和冗余动作。
  • 数学公式: 对于单次成功试验 ii,其完成时间为 CTi=tendtstartCT_i = t_{end} - t_{start}。总体的平均完成时间是所有成功试验的平均值。
  • 符号解释:
    • tendt_{end}: 任务成功完成的时刻。
    • tstartt_{start}: 任务开始的时刻。

5.3. 对比基线

作者将 VLA-4D 与一系列代表性的 VLA 模型进行了比较,这些模型覆盖了从 2D 到 4D 的技术路线。

  • 2D VLA 模型:
    • OpenVLA [5]: 一个开源的、强大的 VLA 模型。
    • Octo [21]: 一个通用的、可扩展的机器人策略模型。
    • DiffusionPolicy [11]: 一个基于扩散模型的视觉-动作策略学习方法。
    • CogACT [42]: 一个强调认知与行动协同的 VLA 模型。
  • 3D VLA 模型:
    • TraceVLA [12]: 在视觉表示中融入3D轨迹信息。
    • SpatialVLA [13]: 探索了多种空间表示方法。
  • 4D VLA 模型:
    • 4D-VLA [16]: 在视觉流中融合3D位置和帧索引(时间信号)。

      这些基线的选择非常有代表性,能够清晰地展示出 VLA-4D 在引入双重时空增强显式时间规划后,相较于仅有空间增强(3D)或仅有感知层面时间增强(其他4D模型)的优势。


6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 微调任务上的性能对比

以下是原文 Table 1 的结果,展示了所有模型在 LIBERO benchmark 上经过微调后的性能。

Methods Spatial Object Goal Long Average
Succ. rate(%)↑ Time(s)↓ Succ. rate(%)↑ Time(s)↓ Succ. rate(%)↑ Time(s)↓ Succ. rate(%)↑ Time(s)↓ Succ. rate(%)↑ Time(s)↓
2D OpenVLA [5] 84.7 ± 0.9 5.5 88.4 ± 0.8 7.5 79.2 ± 1.0 6.1 53.7 ± 1.3 13.1 76.5 ± 0.6 8.1
Octo [21] 78.9 ± 1.0 5.7 85.7 ± 0.9 6.9 84.6 ± 0.9 6.3 51.1 ± 1.3 9.3 75.1 ± 0.6 7.1
DiffusionPolicy [11] 78.3 ± 1.1 6.4 92.5 ± 0.7 7.8 68.3 ± 1.2 6.4 50.5 ± 1.3 15.2 72.4 ± 0.7 8.7
CogACT [42] 87.5 ± 0.9 5.4 90.2 ± 1.1 6.8 78.4 ± 0.8 5.9 53.2 ± 1.2 10.7 76.5 ± 0.9 7.0
3D TraceVLA [12] 84.6 ± 0.2 85.2 ± 0.4 75.1 ± 0.3 54.1 ± 1.0 74.8 ± 0.4
SpatialVLA [13] 88.2 ± 0.5 5.3 89.9 ± 0.7 6.4 78.6 ± 0.6 5.9 55.5 ± 1.0 8.9 78.1 ± 0.7 6.8
4D 4D-VLA [16] 88.9 ± 0.5 95.2 ± 0.3 90.9 ± 0.4 79.1 ± 1.2 88.6 ± 0.3
VLA-4D (Ours) 97.9 ± 0.2 4.1 98.6 ± 0.3 5.6 97.8 ± 0.3 4.6 94.8 ± 0.8 6.9 97.4 ± 0.3 5.8

分析:

  1. VLA-4D 的压倒性优势: 无论是在哪个子任务集上,VLA-4D成功率 (SR) 都远超所有对比模型,平均成功率达到了惊人的 97.4%,比次优的 4D-VLA 模型 (88.6%) 高出近9个百分点。同时,它的完成时间 (CT) 也是最短的(平均5.8秒),这证明了其在有效性效率上的双重领先。
  2. 维度提升的价值: 总体来看,模型性能遵循 4D>3D>2D4D > 3D > 2D 的趋势。3D-VLA (如 SpatialVLA) 相较于 2D-VLA (如 OpenVLA) 有小幅提升,证明了3D空间信息的重要性。而 4D 模型则带来了质的飞跃,尤其是在 VLA-4D 上,这充分说明了同时考虑时间和空间维度的必要性。
  3. 对长时序任务的提升尤为显著: 在最困难的 LIBERO-Long 任务上,VLA-4D 的成功率 (94.8%) 几乎是其他模型的两倍(大多在50%-60%左右,最好的 4D-VLA 也只有79.1%),这表明其时空连贯性对于需要长期、多步规划的复杂任务至关重要。

6.1.2. 零样本泛化任务对比

下图(原文 Figure 5)展示了模型在未见过的任务上的零样本泛化性能。

Figure 5. Quantitative comparison of VLAs on zero-shot robotic manipulation tasks. 该图像是一个图表,展示了不同 VLA 模型在零-shot 机器人操作任务中的成功率(SR)和完成时间(CT)的定量比较。模型包括 OpenVLA、Octo、CogACT、SpatialVLA 和 VLA-4D(我们的模型),结果表明 VLA-4D 在成功率和完成时间方面表现优异。

分析: VLA-4D 在零样本任务上的表现同样大幅领先于其他模型,无论是在成功率还是完成时间上。这表明 VLA-4D 学习到的时空连贯操控能力并非过拟合到训练任务上,而是形成了一种可泛化的通用能力。其强大的4D感知和规划能力使其能够更好地理解和适应新任务。

6.1.3. 时空规划的定性比较

下图(原文 Figure 6)直观地展示了不同模型生成的动作轨迹和速度曲线。

Figure 6. Visual comparison of VLAs on spatiotemporal action planning.

分析:

  • 2D 模型 (OpenVLA): 轨迹(蓝色)有大量冗余的全局运动,并且局部运动速度(下方曲线)剧烈波动,充满了不必要的加减速,这正是“时间不连贯”的体现。
  • 3D 模型 (SpatialVLA): 全局轨迹(绿色)平滑了很多,但局部速度曲线仍然有明显波动,说明动作节奏依然不稳定。
  • 4D 模型 (VLA-4D, 本文): 全局轨迹(红色)既平滑又直接,同时局部速度曲线也最为平稳。这完美地诠释了“时空连贯”——空间上路径最优,时间上节奏稳定。

6.2. 消融实验/参数分析

消融实验旨在验证模型中每个组件的有效性。

6.2.1. 视觉表示模块的作用 (Table 2)

以下是原文 Table 2 的结果,分析了视觉表示中不同组件的效果。

Spatial embed Temporal embed Feature fusion LIBERO-Spatial LIBERO-Goal
Succ(%)↑ Time(s)↓ Succ(%)↑ Time(s)↓
× × × 89.4 ± 0.6 5.7 90.1 ± 0.7 6.3
× × 92.2 ± 0.4 5.1 94.3 ± 0.5 5.6
× 96.5 ± 0.3 4.4 95.7 ± 0.4 4.9
97.9 ± 0.2 4.1 97.8 ± 0.3 4.6

分析:

  1. 基线 (第一行): 仅使用视频特征,性能尚可。
  2. +空间嵌入 (第二行): 加入3D空间嵌入后,成功率和完成时间都有显著改善,证明了3D几何信息的重要性。
  3. +时间嵌入 (第三行): 在3D基础上再加入1D时间嵌入,性能进一步大幅提升,证明了4D信息优于3D信息。
  4. +特征融合 (第四行,完整模型): 使用交叉注意力进行特征融合后,性能达到最佳。这说明简单地提供4D信息还不够,通过注意力机制让模型学会如何智能地利用这些信息,才能发挥其最大效用。

6.2.2. 动作表示组件的作用 (Table 3)

以下是原文 Table 3 的结果,比较了纯空间动作表示与时空动作表示的效果。

Action representation LIBERO-Spatial LIBERO-Goal
Succ(%)↑ Time(s)↓ Succ(%)↑ Time(s)↓
Spatial param. 96.8 ± 0.3 5.0 97.1 ± 0.3 5.7
Spatial + Temporal param. 97.9 ± 0.2 4.1 97.8 ± 0.3 4.6

分析:

  • 当动作表示中只包含空间参数时,模型已经能达到很高的成功率,但完成时间较长。

  • 当加入了时间参数 ΔtΔt 后,成功率有小幅提升,但完成时间显著降低。这有力地证明了时空动作表示的核心价值:它主要提升了动作的效率和连贯性。空间参数决定了“能不能做对”,而时间参数决定了“能不能做得又快又好”。


7. 总结与思考

7.1. 结论总结

本文成功地提出并验证了一个名为 VLA-4D 的新型视觉-语言-动作模型,旨在解决机器人操控中的时空连贯性问题。其核心贡献和发现如下:

  1. 双重4D增强是关键: 通过在视觉感知动作规划两个层面同时引入4D时空信息,VLA-4D 显著优于仅在单一层面进行增强的现有模型。

  2. 4D感知视觉表示提升了理解力: 通过交叉注意力机制将3D空间位置和1D时间信息融合到视觉特征中,模型获得了对场景动态的精细推理能力。

  3. 时空动作表示提升了执行力: 通过在动作参数中引入一个可预测的时间变量 ΔtΔt,模型能够主动规划动作的执行节奏,从而生成了空间上平滑、时间上连贯的高效动作。

  4. 实验结果令人信服: 在标准的机器人操控 benchmark 上,VLA-4D 在任务成功率和完成时间两个指标上均取得了最先进的(state-of-the-art)成果,尤其是在长时序复杂任务和零样本泛化任务上展现了巨大的优势。

    总而言之,VLA-4D 为通用机器人操控领域提供了一个强大而有效的范式,证明了显式的时空联合建模对于实现精细、流畅的机器人行为至关重要。

7.2. 局限性与未来工作

  • 作者指出的局限性:
    • Sim-to-Real Gap: 当前模型主要在模拟环境中进行验证。当部署到真实世界的机器人上时,可能会因为机械磨损、标定漂移等不可控因素导致动作误差累积,从而降低操控效率和成功率。
  • 作者提出的未来工作:
    • 结合强化学习 (Reinforcement Learning, RL): 作者计划未来引入强化学习方法,对模型预测的时空动作进行在线纠错 (online correction)。这样,机器人可以在与真实环境的交互中不断调整和优化自己的策略,从而实现更鲁棒、自适应的规划能力。

7.3. 个人启发与批判

  • 启发:

    1. 问题分解的智慧: 本文解决“时空不连贯”问题的方法非常系统。作者没有满足于在输入端增强模型,而是深刻地洞察到问题的根源也存在于输出端,并提出了相应的解决方案。这种对问题进行全面分解、并在系统各个环节针对性地改进的思路,是进行科学研究的典范。
    2. 显式建模的力量: 相较于让模型“隐式”地学习时间连贯性,本文通过定义一个显式的 ΔtΔt 参数,让学习目标变得更加明确和直接。这启发我们,在设计模型时,如果某个目标至关重要,不妨为其设计一个显式的、可监督的模块或参数。
    3. 数据集的重要性: 本文不仅提出了新模型,还扩展了数据集以支持新的研究方向。这再次证明了高质量的数据是驱动AI领域进步的燃料。
  • 潜在问题与批判性思考:

    1. 时间标注的可扩展性: 作者提到 ΔtΔt 的标注是“手动选择”的。这可能会引入主观偏差,并且难以大规模应用到更多、更复杂的数据集上。未来的研究可能需要探索如何自动或半自动地从专家演示中提取时空动作基元 (primitives)。
    2. ΔtΔt 预测的稳定性: 模型预测的 ΔtΔt 是否总是在一个合理的范围内?是否存在模型为了“偷懒”而预测一个极大的 ΔtΔt(导致任务停滞),或者为了“炫技”而预测过小的 ΔtΔt(导致动作失败)的风险?论文中没有详细讨论对 ΔtΔt 的约束或正则化机制,这可能是未来可以深入研究的一个方向。
    3. 计算复杂度: 模型集成了多个大型预训练模块(视觉编码器、几何编码器、LLM),并引入了额外的交叉注意力和傅里叶编码,这无疑会增加模型的计算成本和推理延迟,可能会影响其在需要快速响应的真实场景中的部署。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。