WorldVLA: Towards Autoregressive Action World Model
TL;DR 精炼摘要
WorldVLA提出了一个集成视觉-语言-动作与世界模型的自回归框架,通过互补增强提升动作与图像生成预测能力。针对动作序列自回归产生的误差传播,设计注意力掩码策略显著提升动作块生成性能。
摘要
We present WorldVLA, an autoregressive action world model that unifies action and image understanding and generation. Our WorldVLA intergrates Vision-Language-Action (VLA) model and world model in one single framework. The world model predicts future images by leveraging both action and image understanding, with the purpose of learning the underlying physics of the environment to improve action generation. Meanwhile, the action model generates the subsequent actions based on image observations, aiding in visual understanding and in turn helps visual generation of the world model. We demonstrate that WorldVLA outperforms standalone action and world models, highlighting the mutual enhancement between the world model and the action model. In addition, we find that the performance of the action model deteriorates when generating sequences of actions in an autoregressive manner. This phenomenon can be attributed to the model's limited generalization capability for action prediction, leading to the propagation of errors from earlier actions to subsequent ones. To address this issue, we propose an attention mask strategy that selectively masks prior actions during the generation of the current action, which shows significant performance improvement in the action chunk generation task.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
WorldVLA: 迈向自回归动作世界模型 (WorldVLA: Towards Autoregressive Action World Model)
1.2. 作者
Jun Cen, Chaohui , Jiayan Guo, Xin Li, Yibing Song, Hao Luo, Fan Wang, Deli Zhao, Ha Ch
1.3. 作者机构
1 DAMO Academy, Alibaba Group (达摩院,阿里巴巴集团) 2 Hupan Lab (湖畔实验室) 3 Zhejiang University (浙江大学)
1.4. 发表期刊/会议
本文作为预印本发表于 arXiv。arXiv 是一个开放获取的预印本服务器,允许研究人员在同行评审前发布他们的科学研究。在人工智能和机器人学领域,许多前沿研究成果会首先在 arXiv 上发布,以便快速分享和接收社区反馈。
1.5. 发表年份
2025年 (预印本发布日期为 2025-06-26T17:55:40.000Z)
1.6. 摘要
本文提出了 WorldVLA,一个自回归 (autoregressive) 动作世界模型,它统一了动作和图像的理解与生成。WorldVLA 将视觉-语言-动作 (Vision-Language-Action, VLA) 模型和世界模型 (world model) 整合在一个单一框架中。其中,世界模型通过利用动作和图像理解来预测未来图像,旨在学习环境的底层物理以改进动作生成。同时,动作模型基于图像观察生成后续动作,辅助视觉理解,并进而帮助世界模型进行视觉生成。
作者证明了 WorldVLA 优于独立的动作模型和世界模型,突出了世界模型和动作模型之间的相互增强 (mutual enhancement) 作用。此外,他们发现动作模型在以自回归方式生成一系列动作时,性能会下降。这种现象归因于模型在动作预测方面泛化能力 (generalization capability) 有限,导致早期动作的错误传播到后续动作。为解决此问题,本文提出了一种注意力掩码 (attention mask) 策略,在生成当前动作时选择性地掩盖先前动作,这在动作块生成 (action chunk generation) 任务中显示出显著的性能提升。
1.7. 原文链接
https://arxiv.org/abs/2506.21539
1.8. PDF 链接
https://arxiv.org/pdf/2506.21539v1.pdf
2. 整体概括
2.1. 研究背景与动机
2.1.1. 论文试图解决的核心问题
该论文旨在解决现有机器人控制模型(尤其是基于大型多模态语言模型 (Multimodal Large Language Models, MLLMs) 的视觉-语言-动作 (VLA) 模型)和世界模型 (World Models) 的局限性,并实现动作与图像理解及生成的一体化。
具体而言,VLA 模型在感知和决策方面表现出色,但通常将动作仅视为输出,缺乏对动作本身的深入理解,也无法模拟环境的未来状态。而世界模型能够预测未来视觉状态并理解环境物理,但它们无法直接生成动作输出,从而限制了其在需要明确动作规划场景中的应用。
2.1.2. 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白?
在机器人操作任务中,让机器人像人类一样理解环境、规划行动并执行复杂任务,是当前研究的热点和难点。
-
VLA模型的挑战:虽然 VLA 模型利用 MLLMs 的强大能力在零样本 (zero-shot) 泛化方面表现突出,但它们往往缺乏对动作本身的语义理解 (semantic understanding) 和对环境动态的建模能力。机器人需要知道其动作如何影响环境,而不仅仅是生成一个动作序列。
-
世界模型的挑战:世界模型能预测未来,但不能直接行动,这使得它们在需要主动控制和交互的机器人任务中功能受限。
-
泛化能力与错误积累:在自回归生成多个动作时,现有模型容易出现错误传播 (error propagation)。MLLMs 虽然在图像和文本领域泛化能力强,但在动作领域的泛化能力相对有限,导致早期错误会累积并影响后续动作的准确性。
现有研究的空白在于缺乏一个能够统一动作理解与生成、图像理解与生成的框架,尤其是在自回归生成动作序列时,如何有效处理错误传播问题。
2.1.3. 这篇论文的切入点或创新思路是什么?
本文的切入点在于通过构建一个自回归动作世界模型 (autoregressive action world model) WorldVLA,将 VLA 模型和世界模型的优势相结合。
- 统一框架:WorldVLA 旨在通过一个单一的大型语言模型 (Large Language Model, LLM) 架构,整合图像、文本和动作词元 (token),从而实现对所有模态的统一理解与生成。
- 相互增强:该模型的核心理念是动作模型和世界模型之间存在相互增强 (mutual enhancement) 关系。世界模型通过预测未来图像来学习环境物理,这有助于动作模型生成更好的动作;反之,动作模型通过生成动作来辅助视觉理解,进而提升世界模型的视觉生成精度。
- 解决错误传播:针对自回归动作生成中的错误传播问题,论文提出了一种创新的注意力掩码 (attention mask) 策略,在生成当前动作时选择性地屏蔽掉之前的动作,使每个动作更多地依赖于视觉和文本输入,而非之前可能错误的动作。
2.2. 核心贡献/主要发现
本文的核心贡献总结如下:
- 提出了 WorldVLA 框架:引入了一个新颖的自回归动作世界模型 WorldVLA,它在一个统一的框架中实现了动作和图像的理解与生成。
- 揭示了模型间的相互增强:实验证明,世界模型与动作模型在 WorldVLA 框架内可以相互促进,共同提升性能。WorldVLA 的性能优于独立的动作模型和世界模型。
- 提出了动作注意力掩码策略:针对自回归动作生成中错误积累的问题,本文提出了一种有效的注意力掩码策略。该策略在生成当前动作时选择性地掩盖先前动作,显著改善了动作块生成任务中的性能下降问题。
- 实验验证了有效性:在 LIBERO 基准测试上,WorldVLA 在抓取成功率方面优于同骨干网络的动作模型,并在视频生成能力上超越了普通世界模型,显著降低了 Fréchet 视频距离 (FVD)。提出的注意力掩码策略也显著缓解了动作块生成时的性能下降。
3. 预备知识与相关工作
本章旨在为读者提供理解 WorldVLA 模型所需的基础技术和领域背景,并对比其与现有研究的异同。
3.1. 基础概念
3.1.1. 视觉-语言-动作模型 (Vision-Language-Action, VLA)
概念定义:VLA 模型是一类结合了视觉、语言和机器人动作的人工智能 (Artificial Intelligence, AI) 模型。它们通常通过整合大型多模态语言模型 (MLLMs) 的感知和决策能力,使其能够理解自然语言指令、处理视觉输入,并生成机器人执行任务所需的动作。 在本文中的意义:VLA 模型为机器人提供了强大的泛化能力 (generalization capability),使其能适应多种任务和未知场景。然而,论文指出,现有 VLA 模型通常将动作视为纯粹的输出,缺乏对动作本身的深入理解,也无法对环境的未来状态进行预测。
3.1.2. 世界模型 (World Model)
概念定义:世界模型是一类能够学习和模拟环境动态的模型。它们基于当前观察和执行的动作来预测环境的未来状态(例如,未来的图像帧)。这种能力使得世界模型能够想象 (imagine) 不同的未来情景,从而帮助智能体进行规划和决策。 在本文中的意义:世界模型能够捕捉环境的物理规律 (physics of the environment),对理解动作如何影响环境至关重要。本文的 WorldVLA 旨在利用世界模型的这种能力来增强动作模型的决策能力 (decision-making capability)。
3.1.3. 自回归模型 (Autoregressive Model)
概念定义:自回归模型是一种序列模型,其中当前输出的生成依赖于其先前生成的输出。这意味着模型在生成序列中的下一个元素时,会将前面已生成的元素作为输入的一部分。 在本文中的意义:WorldVLA 采用自回归方式同时生成动作和图像词元。这种机制使得模型能够处理变长序列,并且在概念上能够统一不同模态的生成过程。然而,自回归的特性也引入了错误传播 (error propagation) 的挑战,即早期生成错误会累积并影响后续生成。
3.1.4. 大型多模态语言模型 (Multimodal Large Language Models, MLLMs)
概念定义:MLLMs 是将大型语言模型 (LLMs) 的强大语言处理能力扩展到处理多种模态数据(如文本、图像、音频)的模型。它们通常通过预训练在海量多模态数据上,从而获得强大的跨模态理解 (cross-modal understanding) 和生成能力 (generation capability)。 在本文中的意义:WorldVLA 的骨干网络基于 Chameleon,这是一个统一了图像理解和生成的 MLLM。MLLMs 提供了强大的通用知识 (general knowledge) 和表征学习 (representation learning) 能力,是构建 WorldVLA 的基础。
3.1.5. 词元化 (Tokenization)
概念定义:词元化是将连续的输入数据(如图像、文本、动作)转换成离散的、可由模型处理的词元 (token) 序列的过程。这些词元通常是模型内部表示的基本单位。 在本文中的意义:WorldVLA 为图像、文本和动作分别设计了词元器 (tokenizer),将它们转换为统一的词元序列,使得不同模态的数据可以在同一个 LLM 架构中进行处理和生成。
3.1.6. 注意力掩码 (Attention Mask)
概念定义:在Transformer (Vaswani et al., 2017) 等基于注意力机制的模型中,注意力掩码是一种用于控制自注意力 (self-attention) 机制中信息流动的技术。它通过在计算注意力权重时将某些位置的值设置为负无穷(或一个非常小的值),从而阻止模型关注(或“看到”)序列中的特定部分。 在本文中的意义:在自回归模型中,因果注意力掩码 (causal attention mask) 确保模型在预测当前词元时只能看到其前面的词元,而不能看到后面的词元。本文提出了一种创新的注意力掩码策略,用于在动作块生成时选择性地掩盖先前动作,以防止错误传播。
3.1.7. 动作块生成 (Action Chunk Generation)
概念定义:动作块生成是指模型一次性生成一系列连续的动作,而不是一次只生成一个动作。这在机器人操作中尤为重要,因为许多任务需要机器人执行一个短期的动作序列(例如,抓取物品需要靠近、张开抓手、闭合抓手、抬起等一系列动作)。 在本文中的意义:虽然动作块生成可以提高效率,但自回归模型在生成长动作块时容易出现性能下降。本文的注意力掩码策略正是为解决这一挑战而设计的。
3.2. 前人工作
3.2.1. 视觉-语言-动作模型 (VLA Model)
- 行为克隆 (Behavior Cloning):机器人操作中的经典模仿学习方法,通过模仿专家观察-动作对来学习策略。传统架构通常结合视觉骨干(如 ResNet、Vision Transformer)和动作头(如 MLPs、Transformer 解码器、扩散策略头)。
- 基于 MLLM 的 VLA:近期 VLA 模型利用大型预训练 MLLMs(如 Brohan et al. 2023, Kim et al. 2024, Black et al. 2024)作为骨干,通过离散动作解码器或连续扩散策略头来预测动作。这些模型得益于 MLLMs 的大规模预训练知识,展现出强大的泛化能力。
- 本文的差异:WorldVLA 在此基础上更进一步,不仅生成动作,还预测未来视频帧,提供更全面的理解和生成能力。
3.2.2. 视频生成 (Video Generation)
- 在机器人中的双重作用:
- 策略规划:一些策略模型先生成未来视频,再基于生成的视频生成对应动作(如 Du et al. 2023)。视频生成作为视觉想象 (visual imagination) 和规划机制,为下游策略生成提供信息。
- 世界模型:视频生成模型可充当世界模型,模拟多样化的未来场景(如 Ha and Schmidhuber, 2018)。这些世界模型用于生成训练数据、支持基于模型强化学习 (Model-Based Reinforcement Learning) 算法,并辅助选择最佳策略。
- 本文的差异:WorldVLA 强调通过动作输入精确控制视频生成,同时利用视频生成来增强动作生成质量,实现了视频生成和动作生成之间的紧密耦合和相互促进。
3.2.3. 统一理解与生成模型 (Unified Understanding and Generation Model)
- MLLM 的演进:大多数 MLLMs 旨在执行视觉理解任务,根据图像和语言输入生成文本响应。
- 统一视觉理解与生成:近期研究兴趣转向在单一框架内统一视觉理解和视觉生成。
- 词元化方法:将图像词元化为类似文本的离散词元,使 LLMs 能够无缝地解释和生成视觉内容(如 Team, 2024; Wang et al., 2024)。
- 扩散过程集成:将扩散过程集成到 LLMs 中进行图像生成,同时依赖额外的视觉编码器(如 CLIP)进行图像理解(如 Chen et al., 2025)。
- 机器人领域内的统一模型:例如,统一视频动作模型 (Unified Video Action Model, UVA) 通过不同的扩散头生成图像和动作。
- 本文的差异:WorldVLA 探索了另一种方向,采用离散自回归架构 (discrete autoregressive architecture) 来构建一个能够处理感知和动作生成的统一模型。
3.3. 技术演进
该领域的技术演进路径大致如下:
- 早期机器人学习:以行为克隆为代表,直接从观察中模仿专家动作,通常使用简单的视觉特征和 MLP 动作头。
- 深度学习的引入:ResNet、Vision Transformer 等深度视觉骨干网络提高了视觉感知能力,但动作生成仍相对独立。
- 多模态预训练:MLLMs 的兴起,通过大规模数据预训练,使得模型具备了强大的语言理解和跨模态匹配能力,为 VLA 模型提供了基础。
- VLA 模型阶段:将 MLLMs 扩展到机器人领域,通过添加动作头或动作专家模块,实现文本指令驱动的机器人控制,显著提升了泛化能力。
- 世界模型的发展:独立的世界模型专注于环境动态的预测,学习物理规律,但缺乏直接的动作输出能力。
- 统一模型探索:近期趋势是尝试将不同模态的理解和生成任务统一到单个模型中,如视觉理解与视觉生成。在机器人领域,UVA 尝试统一视频和动作生成。
- WorldVLA 的位置:本文的 WorldVLA 正是站在了 VLA 模型和世界模型各自的局限性上,并借鉴了统一模型(尤其是基于词元化和自回归生成)的思路,试图通过一个单一的自回归框架,同时解决动作和图像的理解与生成,并关注了自回归生成中的特有挑战(如错误传播)。
3.4. 差异化分析
WorldVLA 与相关工作的主要区别和创新点可以通过以下表格(原文 Table 1)进行总结:
以下是原文 Table 1 的结果:
| Model Type | Discrete | Continous | Input | Output | ||||
| Action Model | OpenVLA (Kim et al., 2024) | π0 (Black et al., 2024) | T +V | A | ||||
| Video Prediction Model | MAGVIT (Yu et al., 2023) | SVD (Blattmann et al., 2023) | T + V | V | ||||
| World Model | iVideoGPT (Wu et al., 2025) | DWS (He et al., 2025) | T + V +A | V | ||||
| Action World Model | WorldVLA (ours) | UVA (Li et al., 2025) | T +V+A | V +A | ||||
-
与独立的动作模型 (Action Model) 相比:
- 核心区别:动作模型(如 OpenVLA, π0)主要关注基于文本和视觉输入生成动作输出。WorldVLA 不仅生成动作 (A),还生成视频 (V) 输出,即同时预测环境的未来状态。这使得 WorldVLA 能够学习环境的物理规律,从而反过来增强动作生成。
- 优势:WorldVLA 通过世界模型组件获得的物理理解和未来模拟能力,能够提升动作的质量和鲁棒性。
-
与视频预测模型 (Video Prediction Model) 相比:
- 核心区别:视频预测模型(如 MAGVIT, SVD)主要基于文本和视觉输入生成未来视频帧。它们通常不考虑动作输入,也无法生成动作。WorldVLA 的世界模型组件虽然也生成视频,但它是条件于动作 (conditioned on action) 的,并且 WorldVLA 还能生成动作输出。
- 优势:WorldVLA 通过动作输入对视频生成进行精确控制 (precise control),从而使生成的视频更具物理合理性 (physically plausible) 和可控性 (controllability)。同时,它实现了动作和视频的双向生成。
-
与独立的世界模型 (World Model) 相比:
- 核心区别:独立的世界模型(如 iVideoGPT, DWS)通常以文本、视频和动作作为输入,预测未来的视频帧。它们的输出不包含动作。WorldVLA 同样输入文本、视频和动作,但其输出既包含视频 (V) 又包含动作 (A)。
- 优势:WorldVLA 克服了世界模型无法直接生成动作的局限性,使其能够直接应用于需要行动规划的机器人任务。通过整合动作生成,WorldVLA 能够实现动作和视觉理解与生成的统一。
-
与其它动作世界模型 (Action World Model) 相比:
- 核心区别:例如 UVA (Li et al., 2025) 采用扩散模型(连续动作),通过不同的扩散头生成图像和动作。WorldVLA 则采用离散自回归架构 (discrete autoregressive architecture) 来统一处理感知和动作生成。
- 优势:WorldVLA 的自回归、词元化方法可能更易于与现有的 LLM 骨干进行集成,并可能在多模态统一表示方面具有优势。同时,其提出的注意力掩码策略专门解决了自回归动作块生成中的错误传播问题。
4. 方法论
4.1. 方法原理
WorldVLA 的核心思想是构建一个自回归 (autoregressive) 模型,该模型能够在一个统一的框架内同时进行动作和图像的理解与生成。其基本直觉是,机器人要成功执行任务,不仅需要知道“下一步做什么”(动作生成),还需要理解“我的动作会产生什么结果”(图像预测/世界模型)。这两个方面是相互关联、相互促进的。
- 动作模型的直觉:机器人根据当前看到的环境(图像)和任务指令(文本)来决定下一步的动作。一个好的动作模型应该能够理解视觉信息,并生成与任务目标一致的动作。
- 世界模型的直觉:机器人执行一个动作后,环境会发生变化。世界模型的目标就是预测这个变化,即给定当前状态和执行的动作,预测下一个图像帧。通过这种预测,模型能够学习环境的物理规律 (physics of the environment)。
- 统一与相互增强:WorldVLA 认为这两个组件不应独立存在。世界模型通过预测未来图像,促使模型深入理解动作对环境的影响,从而为动作模型提供更精细的环境动态 (environmental dynamics) 知识。反之,动作模型对视觉数据的精准解释和动作生成过程,有助于世界模型更准确地预测视觉变化。这种相互增强 (mutual enhancement) 机制是 WorldVLA 性能提升的关键。
- 自回归的优势与挑战:通过将所有模态(图像、文本、动作)都词元化,并以自回归方式生成序列,模型可以在一个统一的 LLM 骨干上进行训练和推理。这简化了架构,但同时也带来了生成长动作序列时错误传播 (error propagation) 的挑战。
4.2. 方法步骤与流程
WorldVLA 的整体架构(如原文 Figure 2 所示)和训练流程可以分为以下几个关键部分:
下图(原文 Figure2)展示了 WorldVLA 的整体架构:
该图像是图2的示意图,展示了WorldVLA模型的整体架构。该模型整合了动作模型和世界模型,通过文本、图像和动作的编码与解码,协同生成未来动作和图像。
4.2.1. 问题定义 (Problem Formulation)
本文首先明确定义了动作模型和世界模型的数学形式,然后提出了一个统一的模型 :
-
动作模型 (Action Model) :根据历史图像观察 和语言指令 生成当前动作
a _ { t }。 其中, 表示历史帧的长度。 -
世界模型 (World Model) :根据历史观察 和对应的动作序列 预测下一帧
o _ { t }。 -
统一模型 (Unified Model) :旨在整合上述两种功能。 其中 是动作生成组件, 是世界状态预测组件。
4.2.2. 模型架构 (Architecture)
WorldVLA 的整体架构基于 Chameleon (Team, 2024),这是一个用于图像理解和生成的统一模型。主要组成部分包括:
-
词元器 (Tokenizers):为了将不同模态的数据统一处理,模型使用了三种独立的词元器。
- 图像词元器 (Image Tokenizer):采用 VQ-GAN (Esser et al., 2021) 模型,并增加了感知损失以关注特定图像区域(如人脸和显著物体)。
- 压缩比 (Compression Ratio):16。
- 码本大小 (Codebook Size):8192。
- 输出词元数量:对于 图像生成 256 个词元,对于 图像生成 1024 个词元。
- 文本词元器 (Text Tokenizer):一个训练过的 BPE (Byte Pair Encoding) 词元器 (Sennrich et al., 2015)。
- 动作词元器 (Action Tokenizer):将连续的机器人动作的每个维度离散化为 256 个离散桶 (bins)。桶的宽度由训练数据的范围决定。
- 动作表示:每个动作由 7 个词元组成,包括 3 个相对位置、3 个相对角度和 1 个绝对抓手状态。
- 图像词元器 (Image Tokenizer):采用 VQ-GAN (Esser et al., 2021) 模型,并增加了感知损失以关注特定图像区域(如人脸和显著物体)。
-
共享词汇表 (Shared Vocabulary):来自不同模态的词元被设定为共享相同的词汇表。文本词元器的词汇表大小为 65,536,其中包含了 8192 个图像词元和 256 个动作词元。这种共享使得不同模态的理解和生成可以在一个单一的 LLM 架构内统一进行。
-
自回归生成 (Autoregressive Generation):所有文本、动作和图像都被离散化为词元,并以自回归方式进行训练和生成。
4.2.3. 训练策略 (Training Strategy)
WorldVLA 通过混合动作模型数据和世界模型数据进行训练,从而使模型能够同时扮演动作模型和世界模型的角色。
-
世界模型数据增强动作生成的原因:
- 学习环境物理:世界模型通过预测未来观测来理解环境物理,这对于操作任务至关重要。
- 模拟和评估:世界模型能够模拟和评估候选动作的潜在结果,帮助避免导致不良状态的动作。
- 精确动作解释:世界模型要求精确解释动作输入,这反过来支持动作模型生成更有效和上下文适当的动作。
-
动作模型增强世界模型视觉生成的原因:
- 动作模型基于输入图像生成动作,这有助于更准确的视觉解释。
- 动作生成过程增强了对底层行为模式的理解。
- 两者共同支持世界模型对未来状态的鲁棒预测。
4.2.4. 动作模型数据 (Action Model Data)
- 目的:根据文本指令和图像观察生成动作。
- 文本输入:
“What action should the robot take to ” + 任务指令 + “ ”。 - 词元序列结构:
{text}, {image}, {action}:离散化的文本、图像和动作词元。[BOS], [EOS], [BOI], [EOI], [BOA], [EOA]:分别表示句子开始、句子结束、图像开始、图像结束、动作开始、动作结束的特殊词元。- :输入图像的数量。
- :输出动作的数量。
- 损失计算:仅计算动作词元 的损失。
4.2.5. 世界模型数据 (World Model Data)
- 目的:根据当前图像观察和动作生成下一图像帧。世界模型不需要任务指令,因为动作本身可以完全决定下一个状态。
- 文本输入:
“Generate the next frame based on the current image and the action.”。 - 词元序列结构:
{text}, {image}, {action}:离散化的文本、图像和动作词元。[BOS], [EOS], [BOI], [EOI], [BOA], [EOA]:特殊词元。- :下一帧预测的重复次数。
- 损失计算:仅计算生成的图像词元 的损失。
4.2.6. 注意力掩码 (Attention Mask)
这是解决自回归动作生成中错误传播问题的关键策略。
下图(原文 Figure3)展示了注意力掩码机制:
该图像是论文中展示的注意力掩码示意图,分别展示了(a)默认动作模型、(b)改进动作模型和(c)世界模型的注意力掩码设计,体现了模型对于文本、图像和动作序列信息的不同关注策略。
-
标准因果注意力掩码 (Standard Causal Attention Mask) (Figure 3a):
- 原理:在自回归模型中,标准注意力掩码确保当前词元只能访问其前面的词元的信息,而不能访问后续词元。
- 局限性:对于生成连续动作块(多个连续动作)时表现不足。预训练 MLLM 在图像和文本领域泛化能力强,但在动作领域相对有限。因此,在标准掩码下,早期动作中的错误会传播到后续动作,导致性能下降。
-
提出的动作注意力掩码策略 (Proposed Action Attention Mask Strategy) (Figure 3b):
- 原理:在生成当前动作时,选择性地掩盖掉先前动作。这意味着当前动作在计算注意力时,只能依赖文本和视觉输入,而不能“看到”序列中已经生成的、可能存在错误的先前动作。
- 目的:有效缓解错误积累问题,使得每个动作更多地基于可靠的视觉输入,从而提高动作块生成的性能。这种方法与并行生成多个动作的方法(如 Kim et al., 2025; Black et al., 2024)具有相似的效果。
-
世界模型注意力掩码 (Figure 3c):
- 世界模型部分仍然遵循传统的因果注意力掩码机制,即在预测未来图像时,可以看到所有之前的图像和动作。
4.2.7. 训练目标 (Training Objective)
通过混合动作模型数据和世界模型数据进行训练,最终的损失函数是两者的加权和:
- :动作模型数据的交叉熵损失。
- :世界模型数据的交叉熵损失。
- :用于平衡图像词元(数量远多于动作词元)和动作词元的损失贡献的权重因子 (weighting factor)。在实验中, 固定为 0.04。
4.3. 数学公式与关键细节
4.3.1. 问题定义公式
如 4.2.1 小节所示,公式定义了动作模型、世界模型以及统一模型的输入和输出。
- : 在时间步 生成的动作。
- : 在时间步 的图像观测。
- : 语言指令。
- : 历史观察的长度。
- : 动作模型(或策略模型),由参数 定义。
- : 世界模型,由参数 定义。
- : 统一模型,由参数 定义,包含 (策略组件) 和 (世界模型组件)。
4.3.2. 词元化细节
- 图像词元化:VQ-GAN 将图像压缩为低维离散词元。对于 图像,生成 256 个词元();对于 图像,生成 1024 个词元()。码本大小 8192 意味着每个图像词元可以取 8192 种可能的值。
- 动作词元化:连续动作的每个维度被离散化为 256 个桶。例如,如果一个动作维度在 之间,那么它将被映射到 256 个离散值中的一个。7 个动作词元表示一个完整的机器人动作(例如,3个位置坐标
dx, dy, dz,3个角度 ,1个抓手状态 )。 - 共享词汇表:总词汇表大小 65,536,其中包含图像词元(8192个)和动作词元(256个)。这使得模型可以像处理语言词元一样处理图像和动作词元。
4.3.3. 训练目标公式
如 4.2.7 小节所示,总损失 。
-
:动作生成的交叉熵损失。交叉熵损失用于评估分类模型的性能,此处用于预测离散的动作词元。 其中, 是动作块长度, 是每个动作的词元数(例如 7)。 是真实动作词元, 是模型预测的动作词元的概率分布。
-
:图像词元生成的交叉熵损失。 其中, 是图像词元的总数(例如 256 或 1024)。 是真实图像词元, 是模型预测的图像词元的概率分布。
-
: 0.04,平衡不同模态损失的权重。
这些数学公式和架构细节共同构成了 WorldVLA 的技术基石,使其能够实现动作和图像的统一自回归理解与生成。
5. 实验设置
5.1. 数据集
本文主要在 LIBERO 基准测试 (LIBERO benchmark) (Liu et al., 2023a) 上进行实验。LIBERO 是一个专注于机器人操作的综合基准测试,旨在评估模型在不同复杂程度任务上的知识迁移 (knowledge transfer) 和终身学习 (lifelong learning) 能力。
- LIBERO-Spatial:
- 特点:侧重于空间关系 (spatial relationships)。要求机器人根据碗的位置放置碗。例如,“将碗放在桌子左边”。
- 目的:评估模型理解和处理空间上下文信息的能力。
- LIBERO-Object:
- 特点:强调物体识别 (object recognition)。要求机器人拾取并放置独特的物体。例如,“拿起红色的瓶子”。
- 目的:评估模型区分和操作特定物体的能力。
- LIBERO-Goal:
- 特点:测试程序学习 (procedural learning)。任务目标多样,但操作物体固定。例如,“将盖子盖到锅上”,但可能要求盖到不同的锅上。
- 目的:评估模型理解和执行多步骤任务流程的能力。
- LIBERO-Long:
- 特点:包含 10 个长时程任务 (long-horizon tasks)。这些任务通常涉及更复杂的子目标和更长的动作序列。例如,“打开抽屉,取出里面的物品,然后关上抽屉”。
- 目的:评估模型在复杂、多步骤任务中的规划和执行能力。
- LIBERO-90:
-
特点:包含 90 个短时程任务 (short-horizon tasks),主要用于预训练。
-
目的:为模型提供大规模的、多样化的基础操作数据,以学习通用的机器人技能。
数据集处理:
-
- 作者首先过滤掉了失败的轨迹 (trajectories) 和无效操作(如 OpenVLA (Kim et al., 2024) 中的无操作动作)。
- 为了进行世界模型评估,需要真实值配对的视频和动作数据 (ground truth-paired video and action data)。因此,将 90% 的轨迹作为训练集,其余 10% 作为验证集。
- 默认情况下,训练集用于模型训练,但在 Table 2 的比较中,使用了所有可用数据以确保公平性。
5.2. 评估指标
5.2.1. 动作模型评估指标:成功率 (Success Rate, SR)
- 概念定义:成功率 (SR) 是衡量机器人在给定任务中成功完成目标的百分比。它量化了模型执行任务的有效性,例如,在抓取任务中,成功率表示机器人成功抓取并放置目标的次数占总尝试次数的比例。这是一个直接反映任务性能的指标。
- 数学公式:
- 符号解释:
- :指模型在实验中成功完成任务的次数。
- :指模型在实验中尝试执行任务的总次数。
5.2.2. 世界模型评估指标
Fréchet Video Distance (FVD)
- 概念定义:FVD 是一种用于评估生成视频质量和多样性的指标。它通过比较生成视频和真实视频在预训练特征空间中的统计分布来工作。FVD 越低,表示生成视频的质量和真实感越好,与真实视频的分布越接近。该指标能够捕捉到视频的感知质量和时间一致性。
- 数学公式:
- 符号解释:
- :生成视频的特征集合。
- :真实视频的特征集合。
- :生成视频特征的均值向量。
- :真实视频特征的均值向量。
- :生成视频特征的协方差矩阵。
- :真实视频特征的协方差矩阵。
- :欧几里得范数的平方。
- :矩阵的迹。
- :矩阵的平方根。
峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)
- 概念定义:PSNR 是一种广泛用于衡量图像或视频重建质量的客观指标。它通过比较原始图像与压缩或生成图像之间的最大可能信号功率与噪声功率的比值来计算。PSNR 值越高,表示图像失真越小,重建质量越好。
- 数学公式: 其中,
- 符号解释:
- :图像中像素的最大可能值(例如,对于 8 位图像,通常为 255)。
- :原始图像 和生成图像 之间的均方误差 (Mean Squared Error)。
m, n:图像的行数和列数。I(i,j):原始图像在像素(i,j)处的值。K(i,j):生成图像在像素(i,j)处的值。
结构相似性指数 (Structural Similarity Index Measure, SSIM)
- 概念定义:SSIM 是一种感知指标,旨在评估两张图像之间的相似性,更符合人类视觉系统对图像质量的判断。它考虑了图像的亮度、对比度和结构信息,而不仅仅是像素级的差异。SSIM 值接近 1 表示两张图像高度相似,值越高越好。
- 数学公式:
- 符号解释:
x, y:两张待比较的图像块。- :图像块
x, y的平均值(亮度)。 - :图像块
x, y的标准差(对比度)。 - :图像块
x, y的协方差(结构)。 - :为避免分母为零或数值不稳定而设置的常数。通常 , ,其中 是像素值的动态范围, 是小常数。
学习感知图像块相似度 (Learned Perceptual Image Patch Similarity, LPIPS)
- 概念定义:LPIPS 是一种基于深度学习的图像相似性度量,它使用预训练的深度神经网络(例如 AlexNet、VGG 或 ResNet)提取图像特征,然后计算这些特征之间的距离。LPIPS 更接近人类对图像感知的相似性判断。LPIPS 值越低,表示两张图像在感知上越相似,通常认为质量更好。
- 数学公式:LPIPS 没有一个简单的解析公式,因为它依赖于一个预训练的神经网络。其核心思想是计算两张图像 和 经过特征提取器 后的特征向量之间的加权 距离:
- 符号解释:
x, y:两张待比较的图像。- :预训练网络中第 层的特征提取器。
- :图像 在第 层特征图上位置
(h,w)处的特征向量。 - :权重向量,用于缩放不同层特征的重要性。
- :第 层特征图的高度和宽度。
5.3. 对比基线
本文将 WorldVLA 与以下类型的基线模型进行了比较:
5.3.1. 连续动作模型 (Continuous Action Model)
这些模型通常并行生成多个动作,并使用回归损失进行训练。
- Diffusion Policy (Chi et al., 2023):使用扩散过程生成动作的视觉运动策略 (visuomotor policy)。
- Octo (Team et al., 2024):一个开源的通用机器人策略。
- DiT Policy (Hou et al., 2024):基于扩散 Transformer (Diffusion Transformer) 的策略模型。
- Seer (Tian et al., 2024):使用动作头直接输出多个动作。
- OpenVLA-OFT (Kim et al., 2025):一个 VLA 模型,使用动作头直接输出多个动作。
- UVA (Li et al., 2025):统一视频动作模型,通过扩散头生成图像和动作。
5.3.2. 离散动作模型 (Discrete Action Model)
这些模型将动作视为词元,并以自回归方式生成动作。
- OpenVLA (Kim et al., 2024):一个将动作视为词元的 VLA 模型,以自回归方式生成动作。
5.3.3. 世界模型 (World Model)
- iVideoGPT (Wu et al., 2025):一种交互式视频生成模型,作为世界模型。
- DWS (He et al., 2025):预训练的视频生成模型作为世界模拟器。
5.3.4. 视频预测模型 (Video Prediction Model)
- MAGVIT (Yu et al., 2023):遮蔽生成视频 Transformer。
- SVD (Blattmann et al., 2023):可扩展的视频扩散模型。
5.4. 训练设置
- 输入图像数量 (M):动作模型默认使用 张输入图像。
- 动作块大小 (K):
- 对于 LIBERO Long 任务,设置为 。
- 对于其余三个 LIBERO 任务(Spatial, Object, Goal),默认设置为 。
- 世界模型预测轮数 (N):为了最小化计算开销,世界模型仅进行单轮预测,即 。
- 损失平衡参数 (): 参数用于平衡动作损失和世界模型损失的贡献,固定设置为
0.04。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 基准测试结果 (Benchmark Results)
以下是原文 Table 2 的结果:
| Continous Action Model | Pretraining | Spatial | Object | Goal | Long | Average |
| Diffusion Policy (Chi et al., 2023) | 78.3 | 92.5 | 68.3 | 50.5 | 72.4 | |
| Octo (Team et al., 2024) | × | 78.9 | 85.7 | 84.6 | 51.1 | 75.1 |
| DiT Policy (Hou et al., 2024) | ✓ | 84.2 | 96.3 | 85.4 | 63.8 | 82.4 |
| Seer (Tian et al., 2024) | X | − | − | 78.7 | − | |
| Seer (Tian et al., 2024) | ✓ | − | − | − | 87.7 | − |
| OpenVLA-OFT (Kim et al., 2025) | ✓ | 96.9 | 98.1 | 95.5 | 91.1 | 95.4 |
| UVA (Li et al., 2025) | X | 93.0 | ||||
| Discrete Action Model | ||||||
| OpenVLA (Kim et al., 2024) | ✓ | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 |
| WorldVLA (256 * 256) | X | 85.6 | 89.0 | 82.6 | 59.0 | 79.1 |
| WorldVLA (512 * 512) | X | 87.6 | 96.2 | 83.4 | 60.0 | 81.8 |
分析:
- WorldVLA 优于离散 OpenVLA:即使 WorldVLA 在没有预训练(
Pretraining标记为 )的情况下,其平均成功率 ( 和 ) 仍优于经过预训练的离散 OpenVLA ()。这表明 WorldVLA 的设计(即动作模型与世界模型的统一)本身是有效的。 - 图像分辨率的影响: 图像分辨率的 WorldVLA () 显著优于 图像分辨率的版本 ()。这有两方面原因:
- Chameleon 骨干网络(图像词元化模块和 LLM 组件)本身在 分辨率下优化。
- 更高分辨率提供了更详细的视觉信息,这对于需要高操作精度的机器人抓取任务至关重要。
- 与连续动作模型的对比:尽管 WorldVLA 在离散模型中表现出色,但与一些顶级的连续动作模型(如 OpenVLA-OFT 的 平均成功率)相比仍有差距。论文指出,离散模型由于动作词元化可能导致信息损失,这可能解释了这一差距。
6.1.2. 世界模型帮助动作模型 (World Model Helps Action Model)
以下是原文 Table 3 的结果:
| Index | Action Model | World Model | Action Chunking | Our Action Model Attention Mask | Goal SR (%) | Object SR (%) | Spatial SR(%) | Long SR (%) | Average SR (%) |
| 1 | ✓ | X | X | X | 67.3 | 82.9 | 77.8 | 23.0 | 62.8 |
| 2 | ✓ | ✓ | X | X | 73.1 | 88.0 | 80.2 | 27.3 | 67.2 |
| 3 | ✓ | X | ✓ | X | 79.6 | 82.9 | 36.7 | 16.9 | 54.0 |
| 4 | √ | X | ✓ | ✓ | 84.4 | 90.9 | 81.8 | 49.3 | 76.6 |
| 5 | ✓ | ✓ | ✓ | ✓ | 85.1 | 90.9 | 84.0 | 52.4 | 78.1 |
分析:
- 世界模型对动作模型的提升:比较第 1 行(仅动作模型,平均 SR )和第 2 行(动作模型 + 世界模型,平均 SR ),以及第 4 行(动作模型 + 动作块 + 掩码,平均 SR )和第 5 行(动作模型 + 世界模型 + 动作块 + 掩码,平均 SR )。在两种情况下,整合世界模型都显著提高了动作模型的性能(分别提升 和 )。
- 原因:世界模型通过学习环境的物理动态来预测未来状态,这使得动作模型能够:
- 获得对系统底层物理的深入理解,这对于精密的机器人操作至关重要。
- 能够模拟和评估潜在动作的结果,从而避免可能导致失败的动作。
- 需要精确解释动作输入,这反过来促使动作模型生成更有效、更符合上下文的动作。
- 可视化验证:原文 Figure 4 展示了动作模型(上排)与 WorldVLA(下排)在抓取任务中的行为差异。
- Figure 4a (任务:将奶油芝士放入碗中):动作模型直接移向目的地但未能成功抓取芝士;WorldVLA 反复尝试抓取直到成功,然后才移向目标位置。
- Figure 4b (任务:将酒瓶放在柜顶):动作模型未能成功抓取瓶子;WorldVLA 成功抓取并放置。 这些可视化结果印证了世界模型通过物理理解和前瞻性模拟,提高了动作模型的抓取成功率和任务鲁棒性。
下图(原文 Figure 4)展示了动作模型与我们的动作世界模型的可视化对比:
该图像是WorldVLA论文中的插图,展示了机械臂执行多步动作的连续图像序列,反映了动作生成和视觉变化的过程,体现了模型对环境物理的理解与预测能力。
下图(原文 Figure 5)展示了动作模型与我们的动作世界模型的可视化对比:
该图像是论文中的示意图,展示了机器人手臂在桌面不同时间点抓取和移动物品的连续动作过程,体现了WorldVLA模型对动作和视觉的联合预测能力。
6.1.3. 动作模型帮助世界模型 (Action Model Helps World Model)
以下是原文 Table 4 的结果:
| 10 frames | 50 frames | |||||||
| FVD↓ | PSNR↑ | SSIM↑ | LPIPS↓ | FVD↓ | PSNR↑ | SSIM↑ | LPIPS↓ | |
| World Model | 250.0 | 29.62 | 90.73 | 11.97 | 718.6 | 23.98 | 83.41 | 15.60 |
| Action World Model | 255.1 | 29.77 | 90.40 | 11.94 | 674.1 | 24.30 | 83.55 | 15.44 |
分析:
- 动作模型对世界模型的提升:比较 World Model(纯世界模型)和 Action World Model(我们的 WorldVLA)的视频生成指标。在 50 帧的长视频序列 (longer video sequences) 预测中,Action World Model 在 FVD、PSNR、SSIM、LPIPS 上均表现出更好的性能(FVD 从
718.6降至674.1,PSNR 从23.98升至24.30,SSIM 从83.41升至83.55,LPIPS 从15.60降至15.44)。在 10 帧短序列中,FVD 略有上升,但其他指标也均有微弱提升。这表明动作模型能够帮助世界模型生成更高质量的视频。 - 原因:动作模型在以下两方面支持世界模型:
- 更准确的视觉解释:动作模型基于输入图像推断动作,这促使模型更深入地理解视觉信息,从而为世界模型提供更准确的视觉输入理解。
- 理解行为模式:动作生成过程本身增强了模型对底层行为模式的理解。这种理解有助于世界模型在预测未来状态时,能够生成更符合现实物理和行为逻辑的图像序列。
- 可视化验证:原文 Figure 5 展示了纯世界模型(上排)与 WorldVLA(下排)在复杂场景中的视频生成能力。
- Figure 5a (任务:打开抽屉并将碗放入其中):纯世界模型未能打开抽屉。WorldVLA 成功生成了打开抽屉的序列。
- Figure 5b (任务:推动盘子到炉灶前):纯世界模型导致盘子消失。WorldVLA 生成了盘子被推动的连贯序列。
- Figure 5c (任务:将碗放在炉灶上):纯世界模型未能将碗抬到炉灶上。WorldVLA 成功生成了碗被抬起并放置在炉灶上的序列。 这些可视化结果进一步强调了 WorldVLA 产生的视频序列在连贯性 (coherence) 和物理合理性 (physical plausibility) 方面的优势。
6.1.4. 动作块生成与提出的注意力掩码 (Action Chunking Generation with Proposed Attention Mask)
-
问题:第 3 行(动作模型 + 动作块,无掩码,平均 SR )与第 1 行(仅动作模型,无动作块,平均 SR )相比,性能显著下降。这表明,在不使用特定掩码策略的情况下,简单地以自回归方式生成动作块会导致性能急剧下降( 的降幅)。特别是在
Spatial任务中,成功率从 骤降至 。 -
解决方案:比较第 3 行(动作模型 + 动作块,无掩码,平均 SR )和第 4 行(动作模型 + 动作块 + 提出的注意力掩码,平均 SR )。引入提出的注意力掩码策略后,性能得到了显著改善,平均成功率提升了 ,甚至超过了不使用动作块时的性能。
-
原因:
- 错误传播:预训练的 MLLM 在动作领域的泛化能力相对较弱。当以自回归方式生成动作序列时,早期动作中的错误会作为后续动作的条件输入,导致错误累积和传播。
- 注意力掩码的作用:提出的注意力掩码确保每个动作在生成时主要依赖于视觉和文本输入,而不依赖于之前生成的、可能错误的动作。这有效地阻止了错误传播,使得模型能够更鲁棒地生成动作块。
-
动作块长度的影响:原文 Figure 6 展示了不同动作块长度下,有无注意力掩码对性能的影响。
下图(原文 Figure 6)展示了动作块长度的消融研究:
该图像是图表,展示了不同动作块长度下在四种任务中成功率的消融对比,图号为Figure 6。结果表明采用提出的注意力掩码策略(绿色线条)在各任务中均显著优于传统注意力掩码(蓝色线条)和无动作块的基线(虚线)。分析:
-
在没有注意力掩码(蓝色线)的情况下,随着动作块长度增加,抓取成功率显著下降。当动作块长度达到 10 甚至 15 时,性能非常差。
-
引入提出的注意力掩码(绿色线)后,性能在不同动作块长度下都得到了显著提升,并且在一定长度内保持稳定。这表明掩码机制能够有效缓解错误传播。
-
然而,即使有了掩码,当动作块长度过长时(例如超过 15),性能仍然会下降。这可能是因为机器人及时调整策略的能力受到限制。
6.1.5. 世界模型与视频预测模型对比 (WorldModel versus VideoPrediction Model)
下图(原文 Figure 7)展示了动作世界模型与动作视频预测模型的对比:
该图像是图表,比较了动作模型、动作视频预测模型和动作世界模型在不同LIBERO任务上的成功率。结果显示动作世界模型在所有任务中表现最好,平均成功率达67.2%。
分析:
- 世界模型的优势:图 7 显示,整合世界模型(右侧蓝色柱)在所有评估任务中都增强了动作模型的性能。
- 视频预测模型的局限性:视频预测模型(中间灰色柱)对动作模型的帮助不稳定。它在两个任务中表现出益处,但在一个任务中(
Object任务)反而导致性能下降。 - 原因:
- 动作条件的缺失:视频预测模型在没有动作输入的情况下预测未来帧。这导致了固有的模糊性,因为在给定初始帧的情况下,可能有多个合理的未来帧序列。这种模糊性可能在训练过程中引入噪声或不一致性。
- 对动作理解的需求:世界模型通过动作输入来预测未来,这迫使模型学习动作与环境变化之间的因果关系。这种对动作的理解对于生成有效的动作至关重要,而视频预测模型则缺乏这一点。
6.1.6. 历史图像输入长度 (Historical Image Input Length)
以下是原文 Table 5 的结果:
| 1 frame | 2 frames | 4 frames | ||||
| SR (%)↑ | FPS↑ | SR (%)↑ | FPS↑ | SR (%)↑ | FPS↑ | |
| w/o Action Chunking | 58.4 | 2.27 | 67.3 | 1.77 | 78.7 | 1.22 |
| w/ Action Chunking | 74.0 | 3.67 | 84.4 | 3.13 | 84.7 | 2.78 |
分析:
- 多帧输入的益处:无论是使用还是不使用动作块,增加历史图像帧的数量(从 1 帧到 4 帧)都显著提高了成功率 (SR)。例如,在不使用动作块的情况下,从 1 帧到 4 帧,SR 从 提升到 。这表明多帧输入为模型提供了更丰富的视觉上下文信息,有助于更好的感知和决策。
- 性能饱和:在使用动作块的情况下,当输入帧数从 2 帧增加到 4 帧时,成功率的提升非常有限(从 到 ),但帧率 (Frames Per Second, FPS) 却有明显下降(从
3.13降到2.78)。这表明性能在 2 帧时已经接近饱和,进一步增加帧数带来了额外的计算开销,但没有显著的性能回报。 - 默认配置:基于这些结果,作者将 2 帧输入作为默认配置,以在任务成功率和计算效率之间取得最佳平衡。
6.1.7. 世界模型预训练动作模型 (Pretrain Action Model using World Model)
以下是原文 Table 6 的结果:
| Goal SR (%) Object SR (%) Spatial SR (%) Long SR (%) Average SR (%) | |||||
| w/o World Model Pretrain | 67.3 | 82.9 | 77.8 | 23.0 | 62.8 |
| w/ World Model Pretrain | 73.1 | 84.0 | 79.8 | 30.2 | 66.8 |
分析:
- 预训练的有效性:将世界模型用于预训练动作模型(
w/ World Model Pretrain)后,所有任务的抓取成功率均得到提升,平均成功率从 提升到 (提升 )。尤其是在Long任务中,成功率从 大幅提升到 。 - 原因:这种形式的预训练要求模型理解视觉输入、动作以及控制状态转换的底层物理动态。通过预训练,模型获得了通用世界知识 (general world knowledge),这对于提高特定任务的性能非常有帮助。这再次强调了世界模型在机器人应用中的价值。
6.2. 消融实验/参数分析
本文通过一系列消融实验验证了 WorldVLA 各个组件和策略的有效性。
- 世界模型对动作模型的影响 (Table 3):
- 通过对比第 1 行和第 2 行,以及第 4 行和第 5 行,明确展示了世界模型组件对动作模型性能的提升作用。这验证了论文提出的“相互增强”假设。
- 注意力掩码策略的有效性 (Table 3 和 Figure 6):
- 第 3 行与第 4 行的对比是关键,它量化了提出的注意力掩码策略在动作块生成任务中带来的巨大性能提升(从 到 )。
- Figure 6 进一步详细展示了在不同动作块长度下,注意力掩码如何稳定并提升性能,有效抑制了错误传播。
- 历史图像输入长度的选择 (Table 5):
- 通过比较 1 帧、2 帧和 4 帧输入,验证了多帧输入对性能的重要性。
- 同时,该实验也指导了模型在性能和计算效率之间的权衡,选择了 2 帧作为默认配置,避免了不必要的计算开销。
- 世界模型预训练的价值 (Table 6):
-
展示了利用世界模型进行预训练能够显著提高动作模型的性能,尤其是在复杂任务(如
Long任务)中。这强调了世界模型学习到的环境动态和物理知识可以作为宝贵的先验知识。这些消融实验系统地证明了 WorldVLA 提出的各个组件(世界模型集成、注意力掩码、多帧输入)以及训练策略(世界模型预训练)的有效性,为模型的最终设计提供了强有力的实验支持。
-
7. 总结与思考
7.1. 结论总结
本文提出了 WorldVLA,一个创新的自回归动作世界模型 (autoregressive action world model),旨在统一动作和视觉的理解与生成。WorldVLA 将视觉-语言-动作 (VLA) 模型和世界模型 (world model) 整合在一个单一的框架中,实现了两者之间的相互增强 (mutual enhancement)。
主要结论包括:
- 统一框架的有效性:WorldVLA 能够在一个统一的 LLM 架构中同时处理动作和图像的词元,实现双向的理解和生成,性能优于独立的动作模型和世界模型。
- 世界模型对动作模型的贡献:世界模型通过学习环境的物理规律和预测未来状态,能够为动作模型提供更深层次的环境动态理解和模拟能力,从而显著提升动作生成的成功率和鲁棒性。
- 动作模型对世界模型的贡献:动作模型通过生成动作和更准确的视觉解释,反过来帮助世界模型生成更连贯、更符合物理规律的视频序列。
- 注意力掩码策略的重要性:针对自回归动作块生成中常见的错误传播问题,WorldVLA 提出了一种新颖的注意力掩码策略。该策略通过选择性地屏蔽先前动作,使得当前动作更多地依赖于视觉和文本输入,显著提升了动作块生成任务的性能。
- 多帧输入和预训练的益处:实验表明,增加历史图像输入帧数能够提高性能,而利用世界模型进行预训练也能为动作模型带来显著的性能提升。
7.2. 局限性与未来工作
论文作者指出了 WorldVLA 的当前局限性并提出了未来的研究方向:
- 数据和模型规模:当前 WorldVLA 的性能仍有提升空间。作者认为,数据量 (data scale) 和模型规模 (model size) 的扩大是进一步开发 WorldVLA 框架的有效途径。更大规模的数据和模型有望捕捉更复杂的环境动态和动作模式。
- 图像词元器的感知表现力:当前的图像词元器(基于离散表示的 VQ-GAN)在感知表现力 (perceptual expressiveness) 方面存在局限性。它可能无法像 CLIP 等视觉模型那样,捕捉到所有细微的语义信息。
- 统一词元器设计:未来的一个重要方向是设计一个能够同时理解和生成高质量视觉内容的统一词元器 (unified tokenizer)。这将进一步弥合不同模态之间的表示鸿沟,提升模型的整体性能。
- 辅助动作头:引入一个辅助动作头 (auxiliary action head) 是另一个增强抓取性能的潜在策略。这可能意味着在主自回归生成之外,增加一个专门用于精细动作输出的模块,或者利用其他机制来补充离散动作词元可能带来的信息损失。
7.3. 个人启发与批判
7.3.1. 个人启发
- 统一模型的潜力:WorldVLA 再次印证了将不同模态和任务统一在一个大型模型中的巨大潜力。尤其是在机器人领域,通过共享表示和相互学习,可以实现比独立模型更强大的泛化和鲁棒性。这种“整体大于部分之和 (the whole is greater than the sum of its parts)”的理念在 AGI (Artificial General Intelligence) 领域具有重要意义。
- 机器人与 LLM 的深度融合:这篇论文展示了 MLLM 如何不仅作为指令解析器或感知骨干,还能更深入地融入到机器人世界的动力学建模和行动规划中。将动作和图像都词元化 (tokenized) 并利用自回归特性进行统一处理,是 LLM 架构在机器人领域应用的优雅扩展。
- 注意力机制的精细控制:针对自回归生成中的错误传播问题,提出的注意力掩码策略非常巧妙和实用。它不是简单地阻止所有历史信息,而是有选择性地阻断可能导致问题的信息流,这对于构建鲁棒的生成模型具有普遍的指导意义。这启发我们,在设计复杂的自回归系统时,需要对信息流动进行更细致的控制。
- 互补学习范式:世界模型和动作模型的相互增强 (mutual enhancement) 思想非常引人注目。这类似于人类通过“想象”和“行动”来学习。我们想象一个行动的后果,然后根据实际行动的结果调整我们的想象和未来的行动。这种互补的学习范式可能是构建更智能、更适应性强的机器人系统的关键。
7.3.2. 批判性思考
- 离散动作表示的局限性:尽管 WorldVLA 在离散动作模型中表现出色,但与一些连续动作模型相比仍有差距(如 Table 2 所示)。离散化动作虽然简化了与 LLM 的集成,但可能导致信息损失 (information loss),尤其是在需要精细控制的机器人操作中。未来的工作可以探索如何结合离散和连续动作表示,或者开发更优的离散化策略。
- 计算资源与效率:WorldVLA 基于大型 MLLM 骨干,并且以自回归方式生成图像和动作词元,这无疑会带来巨大的计算开销。虽然论文提到了优化世界模型预测轮数 和选择 2 帧输入来平衡效率,但在实际部署中,尤其是在需要实时响应的机器人任务中,其推理速度可能仍是一个挑战(Table 5 显示,即使使用动作块,4 帧输入的 FPS 仍低于 3)。如何进一步优化计算效率是关键。
- 泛化能力的瓶颈:论文指出 MLLM 在动作领域的泛化能力有限,导致错误传播。这可能意味着 MLLM 缺乏足够多样和大规模的动作数据进行预训练,或者其架构本身更偏向于文本和图像的语义理解。单纯依靠注意力掩码来“规避”这种泛化不足,并非长久之计。未来的研究可能需要探索更多样化的动作预训练 (action pre-training) 任务或结构化先验 (structured priors) 来增强 MLLM 对动作的理解。
- 可解释性挑战:作为一个庞大的自回归模型,WorldVLA 的决策过程可能仍然是一个“黑箱”。尽管注意力掩码提供了一定的控制,但模型内部如何理解物理、如何权衡视觉和动作信息,以及为什么会做出特定决策,可能难以直观解释。在机器人等安全性至关重要的领域,可解释性 (interpretability) 是一个重要的考量。
- 任务复杂性与长时程规划:虽然 WorldVLA 在 LIBERO-Long 任务上有所提升,但其成功率仍远低于其他任务。长时程任务需要更高级的规划和推理能力,这可能超出当前模型在纯自回归生成下的能力。结合符号规划 (symbolic planning) 或分层强化学习 (hierarchical reinforcement learning) 等技术,可能是解决更复杂长时程任务的未来方向。
相似论文推荐
基于向量语义检索推荐的相关论文。