论文状态：已完成

OpenVLA: An Open-Source Vision-Language-Action Model

发表：2024/06/13

大规模机器人演示数据集 (7)开放源代码视觉-语言-动作模型 (1)机器人多任务操控 (1)模型微调与适应 (1)视觉-语言动作模型 (1)

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

OpenVLA是一个开源的视觉-语言-行为(VLA)模型，具有70亿参数，基于Llama 2语言模型并融合了先进的视觉编码器。它在97万个实际机器人演示数据上训练，能有效微调以适应多任务，显示出在29项任务中的绝对成功率比RT-2-X提高了16.5%。

摘要

Large policies pretrained on a combination of Internet-scale vision-language data and diverse robot demonstrations have the potential to change how we teach robots new skills: rather than training new behaviors from scratch, we can fine-tune such vision-language-action (VLA) models to obtain robust, generalizable policies for visuomotor control. Yet, widespread adoption of VLAs for robotics has been challenging as 1) existing VLAs are largely closed and inaccessible to the public, and 2) prior work fails to explore methods for efficiently fine-tuning VLAs for new tasks, a key component for adoption. Addressing these challenges, we introduce OpenVLA, a 7B-parameter open-source VLA trained on a diverse collection of 970k real-world robot demonstrations. OpenVLA builds on a Llama 2 language model combined with a visual encoder that fuses pretrained features from DINOv2 and SigLIP. As a product of the added data diversity and new model components, OpenVLA demonstrates strong results for generalist manipulation, outperforming closed models such as RT-2-X (55B) by 16.5% in absolute task success rate across 29 tasks and multiple robot embodiments, with 7x fewer parameters. We further show that we can effectively fine-tune OpenVLA for new settings, with especially strong generalization results in multi-task environments involving multiple objects and strong language grounding abilities, and outperform expressive from-scratch imitation learning methods such as Diffusion Policy by 20.4%. We also explore compute efficiency; as a separate contribution, we show that OpenVLA can be fine-tuned on consumer GPUs via modern low-rank adaptation methods and served efficiently via quantization without a hit to downstream success rate. Finally, we release model checkpoints, fine-tuning notebooks, and our PyTorch codebase with built-in support for training VLAs at scale on Open X-Embodiment datasets.

思维导图

论文精读

中文精读约 28 分钟读完 · 17,533 字

1. 论文基本信息

1.1. 标题

OpenVLA: 一个开源的视觉-语言-行为模型 (OpenVLA: An Open-Source Vision-Language-Action Model)

1.2. 作者

Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn.

这些作者来自多个顶尖学术和研究机构，包括：

斯坦福大学 (Stanford University) (1)
加州大学伯克利分校 (UC Berkeley) (2)
谷歌 DeepMind (Google DeepMind) (4)
丰田研究院 (Toyota Research Institute, TRI) (3)
麻省理工学院 (MIT) (6)
Physical Intelligence (公司) (5)

作者团队汇集了机器人学、机器学习和自然语言处理领域的众多知名学者和研究员，如 Sergey Levine, Chelsea Finn, Dorsa Sadigh, Percy Liang 等，显示了该研究的强大背景和权威性。

1.3. 发表期刊/会议

该论文目前作为预印本 (preprint) 发布在 arXiv 上。arXiv 是一个开放获取的学术论文发布平台，允许研究者在正式同行评审前分享他们的研究成果。虽然不是正式发表，但该平台是计算机科学等领域快速传播最新研究的重要渠道。

1.4. 发表年份

2024年6月13日

1.5. 摘要

大型策略模型通过在互联网规模的视觉-语言数据和多样化的机器人演示数据上进行预训练，有潜力改变我们教授机器人新技能的方式：我们可以微调 (fine-tune) 这种视觉-语言-行为 (Vision-Language-Action, VLA) 模型，以获得用于视觉运动控制的、鲁棒且可泛化的策略，而无需从头开始训练新行为。然而，VLA在机器人领域的广泛应用面临挑战，因为：1) 现有的VLA大多是闭源且公众无法访问的；2) 先前的工作未能探索有效微调VLA以适应新任务的方法，而这是推广应用的关键。

为了应对这些挑战，我们推出了 OpenVLA，一个70亿参数的开源VLA模型，它在包含97万个真实世界机器人演示的多样化数据集上进行了训练。OpenVLA建立在一个 Llama 2 语言模型之上，并结合了一个融合了来自 DINOv2 和 SigLIP 预训练特征的视觉编码器。

得益于增加的数据多样性和新的模型组件，OpenVLA在通用操作任务上展示了强大的效果，在横跨29个任务和多种机器人平台（具身形态）的测试中，其绝对任务成功率比闭源模型如 RT-2-X (55B) 高出16.5%，而参数量仅为其1/7。我们进一步证明，可以有效地将OpenVLA微调到新场景中，在涉及多个对象和强大语言关联能力的多任务环境中表现出特别强的泛化能力，并以20.4%的优势超越了如 Diffusion Policy 这样表现力强的从头模仿学习方法。

我们还探索了计算效率。作为一项独立贡献，我们展示了OpenVLA可以通过现代低秩自适应 (low-rank adaptation, LoRA) 方法在消费级GPU上进行微调，并通过量化 (quantization) 技术高效地提供服务，而不会降低下游任务的成功率。

最后，我们发布了模型检查点、微调笔记本和我们的PyTorch代码库，该代码库内置了对在 Open X-Embodiment 数据集上大规模训练VLA的支持。

1.6. 原文链接

arXiv 页面: https://arxiv.org/abs/2406.09246
PDF 链接: https://arxiv.org/pdf/2406.09246v3.pdf
发布状态: 预印本 (Preprint)。

2. 整体概括

2.1. 研究背景与动机

当前机器人学习领域的一个核心难题是泛化性 (generalization)。通过模仿学习训练出的机器人策略，虽然在特定任务上表现良好（如在不同位置拿起同一个杯子），但当环境稍作改变（如出现新的干扰物、使用未见过的物体、或执行全新的指令）时，其性能会急剧下降。

与此同时，视觉和语言领域的基础模型 (Foundation Models)，如 CLIP、Llama 2 等，由于在海量的互联网数据上进行了预训练，展现出了惊人的泛化能力。它们能够理解新概念、识别新物体，并进行复杂的推理。

这就带来了一个明显的机遇与挑战：

机遇： 能否将这些强大的视觉和语言基础模型的能力“迁移”到机器人控制领域，从而训练出能够泛化到新物体、新场景和新任务的“通用机器人策略”？
挑战与空白 (Gap)：
1. 闭源与不可及性： 谷歌等公司提出的 RT-2 等视觉-语言-行为 (VLA) 模型虽然验证了这条路线的可行性，但它们是闭源的。学术界和更广泛的开发者社区无法访问模型、数据和训练代码，这极大地阻碍了该领域的研究进展。
2. 缺乏高效适应方法： 即使有了通用的预训练模型，如何将其高效地“适配”或“微调”到一个新的、特定的机器人任务上（尤其是在计算资源有限的情况下），也是一个未被充分探索的关键问题。
  
  这篇论文的切入点正是为了解决上述两个核心问题：创建一个强大的、完全开源的VLA模型，并提供一套完整的、高效的微调和部署方案，从而推动整个机器人学习社区的发展。

2.2. 核心贡献/主要发现

本文的核心贡献可以概括为以下四点：

发布了 OpenVLA 模型： 提出了一个70亿参数的、完全开源的VLA模型。该模型在架构上创新地融合了 DINOv2（提供精细的空间特征）和 SigLIP（提供高级的语义特征）作为视觉主干，并以 Llama 2 作为语言模型基础。
实现了最先进的性能： OpenVLA 在大规模机器人操作任务上取得了最先进的 (state-of-the-art) 性能。特别是在与之前最强的闭源模型 RT-2-X (55B参数) 的对比中，OpenVLA 以 7倍少的参数量，在29个任务上的平均成功率高出16.5%。这证明了其模型架构和数据策略的优越性。
验证了高效微调的可行性： 论文首次系统地研究了VLA模型的微调问题，证明了OpenVLA可以通过少量数据（10-150个演示）高效适应新任务，并且性能优于从头训练 (from scratch) 的模仿学习方法（如 Diffusion Policy）。更重要的是，论文验证了使用 LoRA 等参数高效微调技术，可以在消费级GPU上完成微调，极大地降低了使用门槛。
提供了完整的开源生态： 作者不仅发布了模型权重，还提供了一整套工具链，包括可复现的训练代码、微调教程 (Jupyter Notebooks) 和部署方案。这为社区研究和应用VLA模型奠定了坚实的基础。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 OpenVLA，我们需要先了解构成它的几个关键技术概念。

3.1.1. 视觉-语言模型 (Vision-Language Models, VLMs)

VLM 是一种能够同时理解图像和文本的多模态模型。你可以把它想象成一个既能“看”又能“读”的AI。其典型架构如下（这也正是 OpenVLA 所采用的结构）：

视觉编码器 (Vision Encoder): 负责“看”。它接收一张图片，并将其转换成一系列数字向量（称为图像嵌入 (image embeddings)）。这些向量捕捉了图像中的内容、物体和空间关系。常用的视觉编码器有 CLIP 的视觉部分或 DINOv2。
语言模型 (Language Model): 负责“读”和“说”。它是一个大规模的语言模型（如 GPT 或 Llama），擅长处理和生成文本。
投影器 (Projector): 充当“翻译官”。由于视觉编码器和语言模型最初是独立训练的，它们的“语言”（即向量空间）不通。投影器是一个小型神经网络（通常是多层感知机 MLP），它的作用是将图像嵌入“翻译”成语言模型能够理解的格式。

通过这种方式，VLM 就可以执行“看图说话”（图像描述）、“视觉问答”（VQA）等任务。

3.1.2. 视觉-语言-行为模型 (Vision-Language-Action Models, VLAs)

VLA 是 VLM 在机器人领域的直接应用和扩展。其核心思想非常巧妙：将机器人的“动作”也视为一种特殊的“语言”。

具体做法是：

将机器人连续的物理动作（如手臂末端的坐标 (x, y, z) 和旋转）进行离散化 (discretization)，变成一系列整数。例如，将 $x$ 坐标的范围 $[-1, 1]$ 划分为256个“桶”，每个“桶”对应一个从0到255的整数。
将这些代表动作的整数，像处理普通文字一样，映射到语言模型的词元 (token) 词汇表中。
训练模型，使其在接收到图像（机器人摄像头看到的画面）和文本指令（如“拿起那个苹果”）后，像生成一句话一样，自回归地预测出一系列代表动作的词元。

这样，VLA 就把机器人控制问题转化为了一个标准的“下一词元预测”问题，从而可以直接利用强大的 VLM 架构和预训练知识。

3.1.3. 关键模型组件

Llama 2: Meta 公司发布的一个强大的开源大语言模型系列。OpenVLA 使用的是其 70亿（7B）参数的版本作为其语言处理和决策的核心。
SigLIP (Sigmoid Loss for Language Image Pre-training): 谷歌提出的一个强大的视觉-语言预训练模型。它擅长学习图像和文本之间的语义对齐 (semantic alignment)，即理解“苹果”这个词和苹果的图片是相关的。在 OpenVLA 中，它主要负责提取图像中的高级语义特征。
DINOv2: Meta AI 研究院提出的一个自监督学习模型，它在没有文本标注的情况下学习视觉特征。DINOv2 的一个显著优点是能学到非常精细的像素级对应关系和空间结构。在 OpenVLA 中，它主要负责提取图像中的底层空间特征，这对于机器人需要精确定位的任务至关重要。
LoRA (Low-Rank Adaptation): 一种参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 技术。在微调大型预训练模型时，如果更新所有参数，计算开销会非常大。LoRA 的思想是：冻结原始模型的绝大部分参数，只在模型的某些层（如 Attention 层的权重矩阵）旁边增加两个小型的、“低秩”的矩阵（A和B）。在微调时，只训练这两个小矩阵。这样做可以将在需要训练的参数数量减少99%以上，同时还能达到与完全微调相近的性能。

3.2. 前人工作

通用机器人策略 (Generalist Robot Policies): 此前的研究，如 RT-1 和 Octo，致力于将在多个任务和机器人平台上收集的大规模数据进行汇集，训练一个“通用”模型。这类模型通常是将预训练的视觉编码器（如 CLIP）和语言编码器（如 T5）与一个从头开始训练的策略网络（如 Transformer）“拼接”起来。
闭源 VLA 模型 (Closed-Source VLAs): 以谷歌的 RT-2 和 RT-2-X 为代表，它们是首批成功将大型VLM直接微调用于机器人控制的模型。它们证明了通过在互联网数据上预训练，模型可以获得“涌现”的泛化能力，比如理解“把可乐罐移到泰勒·斯威夫特的照片旁边”这类包含网络概念的指令。然而，这些模型是闭源的，限制了学术研究。
Diffusion Policy: 一种先进的模仿学习方法，它不使用自回归的词元预测，而是将动作序列建模为一个扩散过程 (diffusion process)。它在数据量较少的单任务场景中表现出色，轨迹平滑且精确。

3.3. 技术演进

机器人策略学习的技术演进可以大致看作一个不断提升数据规模和模型通用性的过程：

单任务学习： 为每个特定任务（如开门）单独收集数据并训练一个模型。泛化能力差。
多任务学习： 在一个机器人上收集多个任务的数据，训练一个能完成这些任务的模型。
多机器人/多任务学习 (如 Octo): 汇集来自不同机器人、不同环境的大规模数据集（如 Open X-Embodiment），训练一个通用的、可以控制多种机器人的策略模型。
基于基础模型的 VLA (如 RT-2, OpenVLA): 不再仅仅使用机器人数据，而是站在视觉-语言基础模型的“肩膀”上。通过在海量互联网数据上预训练，再在机器人数据上微调，从而获得前所未有的语义理解和泛化能力。

3.4. 差异化分析

OpenVLA 与之前工作的核心区别在于：

与 Octo 等模型的区别： Octo 采用的是“拼接”式架构，其策略部分是从头学习的。而 OpenVLA 采用端到端微调 (end-to-end fine-tuning) 的 VLA 范式，直接调整一个预训练好的 VLM 来输出动作。这种方式能更好地保留和利用基础模型的内部知识。
与 RT-2-X 的区别：
- 开源 vs. 闭源： 这是最本质的区别。OpenVLA 是第一个高性能的开源 VLA。
- 模型架构： OpenVLA 使用了 SigLIP + DINOv2 的双视觉编码器融合方案，而 RT-2-X 基于 PaLI-X，其视觉编码器细节未知，但很可能是单一的。OpenVLA 的融合设计旨在同时捕获语义和空间信息。
- 效率和性能： OpenVLA 以小得多的模型尺寸（7B vs 55B）取得了更优的性能。
- 研究重点： RT-2-X 的论文主要关注“开箱即用”的泛化能力，而 OpenVLA 不仅关注这一点，还系统地研究了高效微调这一实际应用中的关键问题。
与 Diffusion Policy 的区别： Diffusion Policy 是一个强大的从头学习方法，适用于数据较少的场景。而 OpenVLA 是一个基于预训练+微调范式的大模型，它在需要复杂语言理解和多任务泛化的场景中更具优势。

4. 方法论

本部分将详细拆解 OpenVLA 的模型架构、训练流程和关键设计决策。

4.1. 方法原理

OpenVLA 的核心思想是将机器人控制问题转化为一个视觉条件下的序列生成问题。它继承了现代视觉-语言模型 (VLM) 的架构，并通过微调使其能够输出代表机器人动作的离散词元。其直觉是，一个在海量图文数据上预训练过的模型已经具备了强大的视觉理解和推理能力，我们只需要通过相对少量的机器人数据，教会它如何将这些理解“映射”到物理动作上。

4.2. 核心方法详解 (逐层深入)

4.2.1. 模型架构

OpenVLA 的架构由三个主要部分组成，如下图（原文 Figure 2）所示：

$Figure 2: OpenVLA model architecture. Given an image observation and a language instruction, the model predicts 7-dimensional robot control actions. The architecture consists of three key components:(1 a vision ener that concatenates Dino V2 \[25\] and SigLIP \[79\] features, () a projector that maps visual featuresto the language embeding space, and (3) the LLM backbone, a Llama 2 7B-parameter large language model \[10\].$ 该图像是OpenVLA模型架构示意图。该架构根据输入的图像和语言指令，预测7维机器人控制动作。主要由三个关键组件组成：视觉编码器DinoV2与SigLIP特征的连接、映射视觉特征至语言嵌入空间的多层感知器项目器，以及7B参数的Llama 2大语言模型。

视觉编码器 (Vision Encoder):
- 输入: 单张 224x224 像素的图像（机器人视角）。
- 结构: 这是一个创新的双路径融合结构。输入图像的图像块 (patches) 会被同时送入两个不同的、预训练好且在微调过程中参数可更新的视觉编码器：
  - SigLIP-ViT: 一个强大的视觉 Transformer 模型，负责提取高级语义特征。例如，它能识别出图像中有一个“苹果”和一个“碗”。
  - DINOv2-ViT: 另一个视觉 Transformer，它通过自监督学习，擅长捕捉底层空间细节和物体结构。例如，它能精确地定位苹果的轮廓和碗的边缘。
- 输出: 两个编码器输出的特征向量在通道维度上被拼接 (concatenate) 起来，形成一个更丰富、结合了语义和空间信息的视觉表征。
投影器 (Projector):
- 结构: 一个简单的2层 MLP（多层感知机）网络。
- 功能: 它的作用是将视觉编码器输出的融合特征向量，投影到 Llama 2 语言模型的词嵌入空间中。这一步是连接“视觉”和“语言”两个模态的关键桥梁。
大语言模型主干 (LLM Backbone):
- 结构: Llama 2 7B，一个拥有70亿参数的自回归 Transformer 模型。
- 输入: 模型的输入序列由两部分组成：
  1. 经过投影器处理后的图像词元 (image tokens)。
  2. 描述任务的自然语言指令词元 (language instruction tokens)，例如 "put the apple in the bowl"。
- 功能: LLM 接收这个混合序列，并基于这些信息，自回归地（一个接一个地）预测后续的词元。在 OpenVLA 中，这些被预测的词元就是代表机器人动作的动作词元 (action tokens)。

4.2.2. 训练流程：从动作到词元

将物理世界的连续动作转化为 LLM 可以处理的离散词元是 VLA 模型的关键步骤。

Step 1: 动作离散化 (Action Discretization) 机器人的动作通常是一个多维的连续向量，例如一个7维向量代表手臂末端的三维平移、三维旋转（用轴角表示）和一个夹爪的开合状态。OpenVLA 的处理方式如下：

对于一个 $D$ 维的连续动作向量 $a_t \in \mathbb{R}^D$ 。
首先，针对训练数据中每一维度的动作，计算其第1个百分位数 ( $1^{st}$ quantile) 和第99个百分位数 ( $99^{th}$ quantile)。这样做是为了忽略极端异常值，使离散化区间更稳定。
然后，将这个 [1%, 99%] 的区间均匀地划分为 256 个桶 (bins)。
每个连续的动作值根据其落入的桶，被映射到一个 [0, 255] 范围内的整数。
最终，一个 $D$ 维的连续动作 $a_t$ 就被转换成了一个由 $D$ 个整数组成的序列 $a_t^{tok} = (a_{t,1}^{tok}, a_{t,2}^{tok}, \dots, a_{t,D}^{tok})$ 。

Step 2: 动作词元化 (Action Tokenization) Llama 2 的分词器有自己固定的词汇表，并且只预留了少量（100个）特殊词元用于微调。这不足以容纳256个新的动作词元。OpenVLA 采取了一个简单而有效的方法：

直接覆盖 (overwrite) Llama 2 词汇表中最不常用的256个词元。在 Llama 的词汇表中，这些通常是最后256个词元。
将整数 0 到 255 分别与这256个被覆盖的词元一一对应。

Step 3: 训练目标 (Training Objective) 经过上述处理后，机器人模仿学习问题就完全转化成了一个标准的语言模型训练问题。

输入: 图像 $I_t$ 和语言指令 $L$ 。
目标输出: 动作词元序列 $a_t^{tok} = (a_{t,1}^{tok}, \dots, a_{t,D}^{tok})$ 。
损失函数: 模型采用标准的下一词元预测 (next-token prediction) 目标，并使用交叉熵损失 (cross-entropy loss)。关键是，损失只在预测动作词元时计算，模型在预测其他文本词元（如指令复述）时的损失被忽略。

对于一个在时间步 $t$ 的 $D$ 维动作，其损失函数可以表示为： $\mathcal{L}_t = - \sum_{d=1}^{D} \log P(a_{t,d}^{tok} | I_t, L, a_{t,1}^{tok}, \dots, a_{t,d-1}^{tok}; \theta)$ 符号解释:
$\mathcal{L}_t$ : 在时间步 $t$ 的损失。
$a_{t,d}^{tok}$ : 动作向量第 $d$ 维对应的离散整数词元。
$I_t$ : 当前的图像观测。
$L$ : 任务的自然语言指令。
$P(\cdot | \cdot; \theta)$ : 由模型（参数为 $\theta$ ）给出的条件概率，即在给定图像、指令和已经预测出的前 d-1 个动作维度词元的条件下，预测第 $d$ 个动作维度词元的概率。
$\log$ : 自然对数。

总损失是整个训练数据集中所有轨迹、所有时间步损失的总和。模型通过梯度下降来最小化这个总损失。

4.2.3. 训练数据

来源: 论文使用了大规模的 Open X-Embodiment (OpenX) 数据集。这是一个社区共同努力汇集而成的数据集，包含了来自超过70个不同机器人学习数据集、超过200万条机器人轨迹。
数据筛选和混合 (Curation and Mixing): 为了保证训练质量和效率，作者进行了精心的数据处理：
1. 筛选: 只保留了包含至少一个第三方视角摄像头、并且是单臂末端控制的操作任务。
2. 混合权重: 借鉴了 Octo 模型的数据混合策略，对不同数据集分配不同的采样权重。多样性高、任务丰富的数据集（如 BridgeData V2）被赋予更高权重，而数据质量较低或任务单一的数据集则被降权或移除。
3. 增量数据: 实验性地加入了 Octo 发布后新增到 OpenX 的数据集，如 DROID，但发现模型拟合 DROID 的多样性有困难，因此在训练后期将其移除，以保证最终模型的质量。
  
  最终，OpenVLA 在一个包含 97万条轨迹 的混合数据集上进行了训练。

4.2.4. 关键设计决策

在最终训练 OpenVLA 之前，研究团队在较小规模的数据集 (BridgeData V2) 上进行了一系列探索性实验，得出了几个关键结论：

VLM 主干网络选择: 对比了 IDEFICS-1, LLaVA, 和 Prismatic 三种VLM。发现 Prismatic 因其融合了 SigLIP 和 DINOv2 的视觉主干，在需要精确空间推理和语言关联的多物体场景中表现最好，因此被选为最终主干。
图像分辨率: 对比了 224x224 和 384x384 两种分辨率。发现更高分辨率并未带来机器人控制性能的提升，但训练时间却增加了3倍。因此选择了计算效率更高的 224x224。
微调视觉编码器: 与VLM训练中通常冻结视觉编码器的做法相反，论文发现在VLA训练中微调视觉编码器至关重要。他们推测，预训练的视觉特征虽然强大，但可能缺乏机器人精确操作所需的细粒度空间信息，需要通过微调来适应。
训练周期 (Epochs): 与LLM训练通常只过一遍数据不同，VLA训练需要多次迭代数据集。最终模型在训练集上迭代了 27个周期，直到训练集上的动作词元预测准确率超过95%。
学习率: 实验发现，使用与VLM预训练相同的固定学习率 2e-5 效果最好，并且学习率预热 (warmup) 并无益处。

5. 实验设置

5.1. 数据集

实验分为两大部分：直接评估 (out-of-the-box evaluation) 和 微调适应 (fine-tuning adaptation)。

5.1.1. 直接评估数据集

在不进行任何额外微调的情况下，直接评估 OpenVLA 在两个机器人平台上的性能。

WidowX (BridgeData V2): 一个桌面级的 6-DoF 机械臂，在一个厨房水槽环境中执行任务。评估任务被精心设计为包含各种分布外 (Out-of-Distribution, OOD) 挑战。下图（原文 Figure 7）展示了部分评估任务。

该图像是插图，展示了在不同类型的超出分布（OoD）泛化任务中评估机器人政策的示例，包括视觉生成、运动生成、物理生成、语义生成和语言嵌入。每组图像展示了任务的起始状态和机器人完成后的状态，重点评估语言理解能力并考虑提示变化。
Google Robot: 一个带轮子的移动操作平台，曾在 RT-1 和 RT-2 的研究中使用。任务同样分为分布内和分布外。下图（原文 Figure 9）展示了其评估任务。

该图像是图表，展示了Google机器人在分布内和分布外任务的评估情况。上半部分为分布内任务，包括拾取和移动目标物体的场景；下半部分为分布外任务，涉及未见背景和未见目标物体的任务。图中展示了多个机器人操作示例。

5.1.2. 微调适应数据集

评估 OpenVLA 在少量新数据上的学习能力。

Franka-Tabletop: 一个固定的 Franka Emika Panda 7-DoF 机械臂，在桌面上执行任务。数据集包含10-150个演示，任务从简单的单指令（如“把胡萝卜放进碗里”）到复杂的多指令（如“用毛巾盖住<指定物体>”）。下图（原文 Figure 10）展示了这些任务。

该图像是Franka-Tabletop任务的示意图，展示了八个任务的训练和测试状态。其中，左侧的任务为训练数据分布中的任务，右侧为超出分布的任务。每个任务相关的指令也在图中列出，显示了不同的操作对象和目标.
Franka-DROID: 另一个 Franka 臂，安装在可移动的桌子上，来自 DROID 数据集。评估了“擦桌子”任务。
LIBERO (Simulation): 一个在仿真环境中进行的基准测试，用于评估模型在空间关系、不同物体、不同目标和长时程任务上的学习能力。

5.2. 评估指标

论文主要使用以下指标来衡量模型性能：

5.2.1. 成功率 (Success Rate, SR)

概念定义 (Conceptual Definition): 成功率是评估机器人策略性能最直接、最常用的指标。它衡量了在给定任务中，机器人成功完成任务的试验次数占总试验次数的百分比。在某些复杂的任务中，可能会定义“部分成功”（例如，正确抓取了物体但未能放置到目标位置），并给予部分分数（如0.5分）。
数学公式 (Mathematical Formula): $\text{SR} = \frac{\sum_{i=1}^{N} \text{score}_i}{N} \times 100\%$
符号解释 (Symbol Explanation):
- $N$ : 总的推演轨迹 (rollouts) 或试验次数。
- $\text{score}_i$ : 第 $i$ 次试验的得分。对于只有成功/失败二元结果的任务，成功为1，失败为0。对于有部分成功的任务，得分可以是 [0, 1] 之间的值（如0, 0.5, 1）。

5.2.2. 标准误差 (Standard Error, StdErr)

概念定义 (Conceptual Definition): 标准误差衡量的是样本均值（这里是计算出的成功率）的精确度。一个较小的标准误差意味着如果我们多次重复整个实验（例如，再进行100次试验），每次得到的成功率都会非常接近。它反映了实验结果的统计稳定性。
数学公式 (Mathematical Formula): $\text{StdErr} = \frac{s}{\sqrt{N}}$
符号解释 (Symbol Explanation):
- $N$ : 总试验次数。
- $s$ : 试验得分的样本标准差。对于得分只能是0或1的伯努利试验，样本标准差可以由成功率 $p = \text{SR}/100$ 估算：s = \sqrt{p(1-p)}。

5.3. 对比基线

论文将 OpenVLA 与以下代表性的基线模型进行了比较：

RT-1-X (35M): 一个在 OpenX 数据集上训练的 Transformer 策略模型，规模较小。代表了从头训练的通用策略。
Octo (93M): 目前开源的最先进的通用机器人策略模型。它采用“拼接”式架构，同样在 OpenX 数据集上训练。
RT-2-X (55B): 谷歌的闭源 VLA 模型，是之前性能最强的模型。它代表了基于超大规模基础模型的 VLA 方法。
Diffusion Policy: 一个强大的从头模仿学习方法，不依赖大规模预训练。它代表了在数据量较少时，专门为单任务设计的先进方法。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 直接评估：通用操作能力

实验旨在回答：OpenVLA “开箱即用”的能力如何？

BridgeData V2 (WidowX) 结果: 下图（原文 Figure 3）和下表（原文 Table 4）展示了在 WidowX 机器人上的详细结果。

$Figure 3: BridgeData V2 WidowX robot evaluation tasks and results. We evaluate OpenVLA and prior stateothernelis obot polic cpensivsuitaskcoverievealxeneln as well as tasks that specifically assess language conditioning ability. OpenVLA achieves highest overall perormance and even outperforms closed-source model RT-2-X in a categories except for semantic generalization. Average success rates $\\pm$ StdErr are computed across 170 total rollouts per approach. See Table 4 for detailed results.$ 该图像是图表，展示了OpenVLA与其他模型在各种评估任务中的成功率对比。图中包含多个模型（RT-1-X、Octo、RT-2-X以及OpenVLA）的平均成功率及其在视觉、运动、物理、语义泛化和语言理解等方面的表现。OpenVLA在所有类别中表现最佳，特别是在语言理解任务中取得了90.0%的成功率，而RT-2-X在相同任务中为85.0%。数据点呈现成功率的平均值及标准误差。

Category	Task	# Trials	RT-1-X # Successes	Octo # Successes	RT-2-X # Successes	OpenVLA (ours) # Successes
Category	Task	# Trials	RT-1-X # Successes	Octo # Successes	RT-2-X # Successes	OpenVLA (ours) # Successes
Visual gen	Put Eggplant into Pot (Easy Version)	10	1	5	7	10
Visual gen	Put Eggplant into Pot	10	0	1	5	10
Visual gen	Put Cup from Counter into Sink	10	1	1	0	7
Visual gen	Put Eggplant into Pot (w/ Clutter)	10	1	3.5	6	7.5
Visual gen	Put Yellow Corn on Pink Plate	10	1	4	8	9
Motion gen	Lift Eggplant	10	3	0.5	6.5	7.5
Motion gen	Put Carrot on Plate (w/ Height Change)	10	2	1	4.5	4.5
Physical gen	Put Carrot on Plate	10	1	0	1	8
Physical gen	Flip Pot Upright	10	2	6	5	8
Physical gen	Lift AAA Battery	10	0	0	2	7
Semantic gen	Move Skull into Drying Rack	10	1	0	5	5
Semantic gen	Lift White Tape	10	3	0	0	1
Semantic gen	Take Purple Grapes out of Pot	10	0.5	0	5	4
Semantic gen	Stack Blue Cup on Pink Cup	10	2.5	4	5.5	4.5
Language grounding	Put {Eggplant, Red Bottle} into Pot	10	1.5	2.5	8.5	8.5
Language grounding	Lift {Cheese, Red Chili Pepper}	10	5	5.5	8.5	7.5
Language grounding	Put {Blue Cup, Pink Cup} on Plate	10	5	2.5	8.5	9.5
		Mean Success Rate	18.5±2.7%	20.0±2.6%	50.6±3.5%	70.6±3.2%

分析:

OpenVLA 表现最佳： OpenVLA 的平均成功率达到了 70.6%，显著优于所有其他模型。
超越闭源SOTA： OpenVLA 比之前的最先进模型 RT-2-X (50.6%) 的绝对成功率高出 20%。考虑到 OpenVLA 的参数量（7B）远小于 RT-2-X（55B），这一结果尤其令人印象深刻。
VLA 范式的优越性： 两个 VLA 模型（OpenVLA 和 RT-2-X）的性能远超非 VLA 的通用策略模型 RT-1-X (18.5%) 和 Octo (20.0%)，证明了利用大型 VLM 预训练知识的巨大优势。
强泛化能力： OpenVLA 在各类泛化任务中（视觉、运动、物理）均表现出色，尤其是在需要精确操作的小物体任务（如 Lift AAA Battery）和物理属性变化的任务（如 Put Carrot on Plate）上，优势明显。

Google Robot 结果: 下图（原文 Figure 4）和下表（原文 Table 6）展示了在 Google 移动机器人上的结果。

$Figure 4: Google robot evaluation results. We evaluate generalist robot policies on in-distribution and out-ofdistribution (OOD) tasks on the mobile manipulator used in RT-1 and RT-2 evaluations \[2, 7\]. We find that OpenVLA and RT-2-X attain comparable performance and significantly outperform RT-1-X and Octo overall. Average success rates $\\pm$ StdErr are computed across 60 total rollouts per approach. See Table 6 for detailed results.$ 该图像是一个柱状图，展示了不同机器人政策在不同任务下的成功率。图中比较了 OpenVLA 与 RT-1-X、RT-2-X 和 Octo 模型的表现，显示 OpenVLA 在平均、训练数据内 (In-Distribution) 和超出分布 (OOD) 任务上的显著优势。成功率以百分比表示，误差条表示标准误差。

Category	Task	# Trials	RT-1-X # Successes	Octo # Successes	RT-2-X # Successes	OpenVLA (ours) # Successes
In-distribution	Pick Coke Can	5	5	1	5	5
In-distribution	Move Apple near Green Can	5	3	3	3	5
In-distribution	Move Blue Chip Bag near Apple	5	0	3	4	5
In-distribution	Place Coke Can Upright	5	0	0	4	4
In-distribution	Open Middle Drawer	5	0	4	2	3
OOD	Move Orange near Brown Chip Bag	5	1	2	5	5
OOD	Pick Pepsi Can	5	3	0	5	4
OOD	Pick Banana	5	5	3	5	5
OOD	Pick Green Cup	5	1	0	5	5
OOD	Place Apple on Plate	5	0	0	4	4
OOD	Place Banana in Pan	5	0	0	2	4
OOD	Move Coke Can near Taylor Swift	5	2	0	3	2
		Mean Success Rate	33.3±6.1%	26.7±5.8%	78.3±5.4%	85.0±4.6%

分析:

在此平台上，OpenVLA (85.0%) 和 RT-2-X (78.3%) 的性能表现相当，并且两者都再次大幅领先于 RT-1-X 和 Octo。这进一步巩固了 VLA 范式的优势。

6.1.2. 微调适应：在新任务上的学习效率

实验旨在回答：OpenVLA 能否用少量数据高效学习新任务？

下图（原文 Figure 5）和下表（原文 Table 7）展示了在 Franka 机器人上的微调结果，比较了从头训练的 Diffusion Policy、微调的 Octo 和微调的 OpenVLA。

$Figure 5: Adapting to new robot setups. We evaluate the state-of-the-art Diffusion Policy trained from scratch on seven Franka Emika Panda tasks (10150 demonstrations each), as well as generalist robot policies Octo and OpenVLA fine-tuned on the same data. Diffusion Policy exhibits strong performance on narrow singe-instruction tasks, while Octo and OpenVLA perform betteron diverse ne-tuning tasks involving multiple instructions and distractor objects. Overall, OpenVLA achieves highest aggregate performance across both usthaiul o skve $\\pm$ StdErr are computed across 129 rollouts per approach (99 for Franka-Tabletop tasks and 30 for Franka-DROID tasks). See Table 7 for detailed results.$ 该图像是一个柱状图，展示了 OpenVLA 与其他机器人策略在不同任务中的成功率。横轴为任务类型，纵轴表示成功率（%）。OpenVLA 在多种指令任务上表现优异，尤其在视觉鲁棒性方面胜出。数据来源于 129 次实验，具体结果可见于表 7。

		# trials	Diffusion Policy	Diffusion Policy (matched)	Octo	OpenVLA (scratch)	OpenVLA (ours)
Franka-Tabletop (5Hz)	"Put Carrot in Bowl" (in-distribution)	10	90.0%	80.0%	40.0%	70.0%	70.0%
	"Put Carrot in Bowl" (OOD)	5	20.0%	0.0%	20.0%	0.0%	40.0%
	"Pour Corn into Pot" (in-distribution)	10	100.0%	90.0%	0.0%	10.0%	50.0%
	"Pour Corn into Pot" (OOD)	5	80.0%	60.0%	0.0%	20.0%	60.0%
	"Flip Pot Upright" (in-distribution)	10	100.0%	85.0%	40.0%	85.0%	100.0%
	"Flip Pot Upright" (OOD)	5	50.0%	20.0%	0.0%	40.0%	80.0%
	"Move <object> onto Plate" (in-distribution)	12	25.0%	25.0%	41.7%	8.3%	75.0%
	"Move <object> onto Plate" (OOD)	6	8.3%	33.3%	8.3%	33.3%	58.3%
	"Knock <object> Over" (in-distribution)	12	33.3%	25.0%	83.3%	75.0%	75.0%
	"Knock <object> Over" (OOD)	6	16.7%	16.7%	33.3%	58.3%	50.0%
	"Cover <object> with Towel" (in-distribution)	12	16.7%	20.8%	91.7%	41.7%	83.3%
	"Cover <object> with Towel" (OOD)	6	16.7%	33.3%	91.7%	50.0%	50.0%
	Average		48.5±4.9%	43.4±4.7%	43.4±4.4%	43.4±4.6%	67.2±4.0%
Franka-DROID (15Hz)	"Wipe Table" (in-distribution)	18	50.0%	27.8%	52.8%	25.0%	55.6%
	"Wipe Table" + Distractors (OOD)	12	12.5%	25.0%	16.7%	16.7%	62.5%
	Average		35.0±8.0%	26.7±7.5%	38.3±8.5%	21.7±6.6%	58.3±7.2%

分析:

OpenVLA 综合表现最佳： 在 Franka-Tabletop 和 Franka-DROID 两个环境的平均成功率上，微调后的 OpenVLA (67.2% 和 58.3%) 均排名第一。
预训练的价值：
- 在简单的单指令任务（如 "Pour Corn into Pot"）中，从头训练的 Diffusion Policy 表现非常出色，轨迹更平滑。
- 然而，在复杂的、需要语言理解的多指令任务（如 "Move

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。