论文状态：已完成

GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data

发表：2025/05/06

视觉-语言-动作模型 (4)基于合成数据的抓取模型 (1)大规模合成动作数据集 (1)自回归感知任务 (1)链式思维过程 (1)

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

GraspVLA是一个预训练于十亿帧合成动作数据的抓取基础模型，填补了现有模型对真实数据依赖的空白。通过构建SynGrasp-1B数据集，结合自回归感知和流匹配动作生成，GraspVLA实现了高效的零样本泛化能力，推动了机器人抓取的应用潜力。

摘要

Embodied foundation models are gaining increasing attention for their zero-shot generalization, scalability, and adaptability to new tasks through few-shot post-training. However, existing models rely heavily on real-world data, which is costly and labor-intensive to collect. Synthetic data offers a cost-effective alternative, yet its potential remains largely underexplored. To bridge this gap, we explore the feasibility of training Vision-Language-Action models entirely with large-scale synthetic action data. We curate SynGrasp-1B, a billion-frame robotic grasping dataset generated in simulation with photorealistic rendering and extensive domain randomization. Building on this, we present GraspVLA, a VLA model pretrained on large-scale synthetic action data as a foundational model for grasping tasks. GraspVLA integrates autoregressive perception tasks and flow-matching-based action generation into a unified Chain-of-Thought process, enabling joint training on synthetic action data and Internet semantics data. This design helps mitigate sim-to-real gaps and facilitates the transfer of learned actions to a broader range of Internet-covered objects, achieving open-vocabulary generalization in grasping. Extensive evaluations across real-world and simulation benchmarks demonstrate GraspVLA's advanced zero-shot generalizability and few-shot adaptability to specific human preferences. We will release SynGrasp-1B dataset and pre-trained weights to benefit the community.

思维导图

论文精读

中文精读约 25 分钟读完 · 13,940 字

1. 论文基本信息

1.1. 标题

GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data (GraspVLA：一个在十亿级合成动作数据上预训练的抓取基础模型)

论文标题直接点明了研究的核心：

GraspVLA: 这是本文提出的模型名称。
Grasping Foundation Model: 明确了模型的定位——一个专注于“抓取”这一基础机器人技能的基础模型 (Foundation Model)。这意味着它被设计为具有强大的泛化能力，并能作为后续任务的起点。
Pre-trained on Billion-scale Synthetic Action Data: 揭示了其核心方法论——在大规模（十亿帧级别）的合成动作数据 (Synthetic Action Data) 上进行预训练。这与主流依赖真实世界数据的方法形成了鲜明对比。

1.2. 作者

Shengliang Deng, Mi Yan, Songlin Wei, Haixin Ma, Yuxin Yang, Jiayi Chen, Zhiqi Zhang, Taoyu Yang, Xuheng Zhang, Wenhao Zhang, Heming Cui, Zhizheng Zhang, He Wang。

这些作者主要来自北京大学 (Peking University, 1, 2, 4) 和香港大学 (University of Hong Kong, 3)。其中，何王 (He Wang) 教授是机器人学和计算机图形学领域的知名学者，其实验室（北大-具身感知与交互中心，PKU-EPIC）在机器人学习、三维视觉等方面有深入研究。这为论文的质量和可信度提供了有力背书。

1.3. 发表期刊/会议

这是一篇提交到 arXiv 的预印本论文。arXiv 是一个开放获取的学术论文预印本平台，学者们可以在论文正式发表前在此分享他们的研究成果。虽然它未经同行评审，但通常是最新研究成果的首发地。根据论文中2025年的发表日期和版本号(v3)，可以推断这是一项非常前沿的工作，正在或准备投稿到顶级的机器人学或人工智能会议，如 CoRL, RSS, ICRA, NeurIPS 等。

1.4. 发表年份

2025年（根据论文元数据中的发表时间）。

1.5. 摘要

具身基础模型因其零样本泛化、可扩展性和对新任务的少样本适应能力而备受关注。然而，现有模型严重依赖于真实世界数据，其收集成本高昂且耗费人力。合成数据提供了一种经济高效的替代方案，但其潜力仍未被充分挖掘。为了弥补这一差距，本文探索了完全使用大规模合成动作数据来训练视觉-语言-动作 (Vision-Language-Action, VLA) 模型的可行性。作者们创建了 SynGrasp-1B，这是一个在模拟环境中生成的、包含十亿帧的机器人抓取数据集，具有逼真的渲染效果和广泛的领域随机化 (Domain Randomization)。基于此，作者提出了 GraspVLA，一个在合成动作数据上预训练的、作为抓取任务基础模型的VLA模型。GraspVLA 将自回归感知任务和基于流匹配的动作生成整合到一个统一的思维链 (Chain-of-Thought) 过程中，从而实现了在合成动作数据和互联网语义数据上的联合训练。这种设计有助于缓解模拟到现实的差距 (sim-to-real gap)，并将学到的动作迁移到更广泛的、被互联网数据覆盖的物体上，实现了抓取的开放词汇 (open-vocabulary) 泛化。在真实世界和模拟基准上的大量评估表明，GraspVLA 具有先进的零样本 (zero-shot) 泛化能力和对特定人类偏好的少样本 (few-shot) 适应能力。作者将公开发布 SynGrasp-1B 数据集和预训练权重。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2505.03233
PDF 链接: https://arxiv.org/pdf/2505.03233v3.pdf
发布状态: 预印本 (Pre-print)。

2. 整体概括

2.1. 研究背景与动机

核心问题: 当前，构建通用的机器人具身基础模型 (Embodied foundation models)，特别是 VLA 模型 (Vision-Language-Action models)，面临一个巨大的瓶颈：数据。与语言和视觉领域可以轻易从互联网获取海量数据不同，机器人的动作数据 (Action Data) 无法从现有数据集中获得，必须通过物理世界的交互来收集。
现有挑战 (Gap): 主流方法依赖于真实世界数据收集，例如通过远程遥控操作机器人来录制演示。这种方式存在三大问题：
1. 成本高昂: 需要大量的机器人硬件和维护。
2. 劳动密集: 需要大量人类操作员长时间工作。
3. 多样性有限: 难以覆盖各种物体、环境和场景。
创新切入点: 论文提出了一个大胆的设想：能否完全绕过对真实世界动作数据的依赖，仅使用大规模合成数据来预训练一个强大的抓取基础模型？合成数据成本低、可扩展性强、多样性易于控制，但其有效性，特别是能否实现直接的模拟到现实 (sim-to-real) 迁移，一直是一个悬而未决的问题。本文正是要系统性地探索并证明这一路径的可行性。

2.2. 核心贡献/主要发现

本文的核心贡献可以总结为以下四点，在引言的末尾有清晰的陈述：

新颖的预训练范式: 提出了一种完全依赖合成动作数据进行预训练的新范式，极大地减轻了获取真实世界动作数据的负担。这是对当前主流依赖真实数据范式的一次挑战和突破。
创建了 SynGrasp-1B 数据集: 构建并即将发布全球首个十亿帧规模的机器人抓取合成数据集 SynGrasp-1B。该数据集不仅规模巨大，而且在物体类别、场景多样性和渲染质量上都达到了很高的水准，为社区提供了一个宝贵的资源。
提出了渐进式动作生成 (PAG) 机制: 设计了一种名为 Progressive Action Generation 的方法，巧妙地将合成动作数据与互联网上的图像文本数据进行联合训练。这不仅缓解了 sim-to-real 差距，还使得模型能够将抓取技能泛化到合成数据中从未见过的新物体类别上。
验证了模型的卓越性能: 通过在真实世界和模拟环境中的大量实验，证明了 GraspVLA 模型作为一个基础模型的能力，包括强大的零样本泛化 (zero-shot generalization) 和高效的少样本适应 (few-shot adaptability) 能力。

3. 预备知识与相关工作

3.1. 基础概念

视觉-语言-动作 (Vision-Language-Action, VLA) 模型: 这是一种多模态模型，旨在模仿人类的感知和行动方式。它接收视觉 (Vision) 输入（如摄像头图像）、语言 (Language) 输入（如人类指令 "请拿起苹果"），并输出动作 (Action) 指令（如机器人手臂的关节角度或末端执行器的坐标），从而控制机器人完成任务。
基础模型 (Foundation Model): 指的是在一个非常庞大、通用的数据集上进行预训练的模型，例如语言领域的 GPT-3 和视觉领域的 CLIP。这类模型学习到了广泛的知识和模式，并能够通过简单的微调 (fine-tuning) 或提示 (prompting) 快速适应各种具体的下游任务。本文的目标就是为“抓取”这一特定但基础的技能构建一个基础模型。
零样本泛化 (Zero-shot Generalization): 指模型在没有经过任何特定训练的情况下，能够成功完成一个新任务或处理一个新对象的能力。例如，一个在训练中只见过苹果和香蕉的抓取模型，如果能在第一次见到橙子时就成功抓取它，就展现了零样本泛化能力。
少样本适应 (Few-shot Adaptation): 指模型仅通过极少数（例如几个到几十个）新的训练样本，就能快速学习并掌握一个新任务或新偏好的能力。例如，预训练好的 GraspVLA 模型，在看了几次“只能从杯子外壁抓取，不能触碰内部”的演示后，就能学会这种新的、有约束的抓取方式。
模拟到现实 (Sim-to-Real) 迁移: 这是机器人学中的一个经典难题。在模拟环境中训练模型既快又便宜，但由于模拟环境与真实世界在视觉外观（如光照、纹理）和物理动力学（如摩擦、碰撞）上存在差异，导致在模拟中表现良好的模型在真实世界中往往会失败。如何缩小这一“差距”是该领域的研究重点。
领域随机化 (Domain Randomization): 缩小 Sim-to-Real 差距的一种常用技术。其核心思想是在模拟训练时，故意将环境的各种参数（如光照强度、物体颜色、纹理、相机位置等）在非常大的范围内随机变化。这样一来，模型为了在所有这些随机化的环境中都能表现良好，就必须学会忽略那些不重要的视觉细节，专注于任务的本质，从而对真实世界的未知变化更加鲁棒。真实世界可以被看作是这些随机化环境中的“又一个新环境”。
思维链 (Chain-of-Thought, CoT): 最初在大语言模型中提出，指通过引导模型生成一系列中间推理步骤来解决复杂问题，而不是直接给出最终答案。本文借用了这一思想，将抓取动作的生成分解为“定位物体（生成边界框）-> 预测抓取姿态 -> 生成动作”的逐步推理过程。
流匹配 (Flow Matching): 一种先进的生成模型技术，与扩散模型 (Diffusion Models) 类似，用于学习从一个简单的分布（如高斯噪声）到复杂数据分布（如机器人动作序列）的转换。它通过学习一个向量场来引导噪声样本“流动”到真实数据样本的位置。相比扩散模型，它在训练上可能更稳定和高效。

3.2. 前人工作

作者在 Related Work 章节中回顾了三个主要领域的工作：

VLA 模型: 近期的 VLA 模型如 RT-2、OpenVLA、Octo 和 $π₀$ 已经展示了端到端学习机器人策略的巨大潜力。它们通常利用预训练的视觉-语言模型 (Vision-Language Models, VLMs) 来从互联网数据中汲取丰富的语义知识。然而，这些模型的一个共同点是，它们的动作学习部分严重依赖于大规模的真实世界机器人数据，如 Open-X-Embodiment (OXE) 和 DROID 数据集。这正是本文试图通过使用合成数据来解决的瓶颈。
合成数据: 在机器人学中使用合成数据并非新鲜事。早期工作如 Bousmalis et al., 2017 就使用模拟和领域随机化来训练开环的抓取模型。近年来，一些工作（如 MimicGen）探索在模拟中对少量人类演示进行增强，或使用生成模型（如 DemoGen）来创造新的演示数据。但这些方法仍然需要一些真实的人类演示作为起点。本文的不同之处在于，它完全从零开始生成大规模的合成数据，并用于预训练一个闭环的 VLA 模型，旨在实现直接的 Sim-to-Real 迁移。
抓取 (Grasping): 抓取是机器人学的核心技能。传统方法通常是模块化的，例如先用一个模型（如 AnyGrasp）检测出合适的抓取点，再用一个运动规划器去执行。这种方法的缺点在于模块间的错误会累积，且缺乏闭环反馈和故障恢复能力。另一类方法是端到端的，通过模仿学习 (Imitation Learning) 或强化学习 (Reinforcement Learning) 直接从视觉输入学习闭环的控制策略。本文的 GraspVLA 属于后者，并且通过与 VLM 结合，旨在实现对开放词汇对象的抓取，同时保持端到端闭环控制的优势。

3.3. 技术演进

机器人学习的数据范式正在经历一场变革。

早期: 依赖于小规模、特定任务的真实世界数据，模型泛化能力差。
中期: 社区开始合作构建大规模的真实世界数据集（如 OXE），催生了像 RT-1、Octo 这样的通用 VLA 模型，展现了更好的泛化性。
当前探索: 真实世界数据的瓶颈日益凸显，研究者开始探索新的数据来源。
- 一条路径是利用互联网上的人类视频，但这其中不包含机器人动作，存在“具身差异”问题。
- 另一条路径就是本文所走的，即大规模合成数据。随着模拟器（如 Isaac Sim）和渲染技术（如光线追踪）的进步，合成数据的真实感和物理保真度越来越高，使其成为一个极具吸引力的替代方案。
  
  本文的工作正处在这一技术演进的关键节点，它系统性地验证了“合成数据优先”范式的巨大潜力。

3.4. 差异化分析

与相关工作相比，本文的核心差异化在于：

数据来源: 相较于依赖真实世界动作数据的 RT-2、Octo 等模型，GraspVLA 的动作学习完全基于合成数据。
训练范式: 提出了 PAG 机制，这是一种新颖的联合训练方法。它不像传统方法那样将互联网数据和机器人数据作为两个独立的任务进行多任务学习，而是将它们整合到一个因果链条中（定位->规划->行动），使得从互联网数据中学到的语义感知能力能够直接服务于从合成数据中学到的物理行动能力。
模型定位: 明确地将模型定位为一个抓取基础模型，并通过零样本和少样本实验系统性地验证了其作为“基础模型”的核心能力，这是之前许多工作较少强调的。

4. 方法论

本论文的方法论主要包含两个紧密相连的部分：大规模合成数据集 SynGrasp-1B 的生成，以及 GraspVLA 模型的设计与训练。

4.1. SynGrasp-1B 数据集生成

为了训练一个泛化能力强的基础模型，一个大规模、多样化的数据集是前提。作者们设计了一套高效的数据生成管线（如下图所示），完全在模拟环境中创建了十亿帧的 SynGrasp-1B 数据集。

$Figure 2: Data generation pipeline: We first curated over 10,680 object meshes from Objaverse \[63\] that are suitable for tabletop grasping and randomly selected and placed these objects on the table (left). Next, we used CuRobo to plan grasping trajectories with randomized grasp poses and instructions (middle). Finally, we applied domain randomization to materials (table and robot), lighting, camera views, and backgrounds to simulate and render the trajectories (right).$ 该图像是示意图，展示了数据生成管道的三个主要步骤：首先生成对象资产与布局，其次合成抓取轨迹，最后进行视觉随机化与渲染。这些步骤确保了抓取场景的多样性和真实性。

上图（原文 Figure 2）展示了数据生成管线的三个主要步骤：

对象资产与布局生成 (Object Assets and Layout Generation):
- 对象来源: 从 Objaverse 数据集中筛选出适合桌面抓取的 240 个类别、共 10,680 个三维物体模型。
- 场景生成: 在一个虚拟桌面上，随机选择、缩放这些物体，并以不同的姿态从空中掉落，利用物理引擎生成多样化且物理上合理的物体布局。
抓取合成与轨迹生成 (Grasp Synthesis and Trajectory Generation):
- 专家策略: 使用一个模块化的专家系统来生成高质量的抓取动作。
- 抓取姿态生成: 对于场景中的目标物体，使用抓取合成算法（antipodal grasp）生成多个稳定的抓取姿态。
- 轨迹规划: 使用高效的运动规划算法 CuRobo 来规划一条无碰撞的机器人手臂轨迹，以达到抓取姿态并提起物体。
- 物理验证: 所有规划出的轨迹都会在 MuJoCo 物理模拟器中进行验证，确保机器人确实能够成功抓起并举起物体。
视觉随机化与渲染 (Visual Randomization and Rendering):
- 渲染引擎: 使用支持光线追踪的 Isaac Sim 模拟器来渲染高质量、逼真的 RGB 图像。
- 领域随机化: 为了提升模型的 Sim-to-Real 泛化能力，进行了广泛的随机化，包括：
  - 光照: 随机化的点光源、方向光和穹顶光。
  - 背景和材质: 随机化的桌面、墙壁、机器人材质。
  - 相机: 从两个不同的视角（前方和侧方）进行渲染，并且相机的位置和朝向也在一定范围内随机抖动。

4.2. GraspVLA 模型详解

GraspVLA 的核心设计思想是构建一个能够有效利用合成动作数据和互联网语义数据的统一框架。

4.2.1. 整体架构

如下图（原文 Figure 3）所示，GraspVLA 模型由两大部分组成：一个视觉-语言骨干网络和一个基于流匹配的动作专家。

该图像是示意图，展示了GraspVLA模型的结构和功能。模型通过逐步生成动作机制，从网络数据和合成数据中预测目标对象的2D边界框、抓取姿势和分段动作，结合了视觉-语言模型和流匹配的动作专家。

视觉-语言模型 (VLM) 骨干: 这是一个自回归模型，负责处理视觉和语言输入，并进行感知和推理。
- 语言模型: 采用可训练的 InternLM2 1.8B。
- 视觉编码器: 冻结（不训练）的 DINO-v2 和 SigLIP 模型的组合，用于提取强大的视觉特征。这种设计借鉴了 OpenVLA。
- 投影器: 一个可训练的投影层，用于将视觉特征映射到语言模型的表示空间。
动作专家 (Action Expert): 采用一个条件流匹配 (conditional flow matching) 模型，负责生成精细的机器人末端执行器动作序列。它以 VLM 的内部状态作为条件。

4.2.2. 渐进式动作生成 (Progressive Action Generation, PAG)

PAG 是 GraspVLA 的灵魂，它将感知和行动串联成一个类似思维链 (Chain-of-Thought) 的过程，巧妙地融合了两种不同来源的数据。

动机: GraspVLA 从 SynGrasp-1B 数据集中学习抓取技能，但这些技能受限于合成数据中的物体类别。为了让模型能抓取任意物体（开放词汇），需要借助包含丰富物体类别和语义知识的互联网数据（如 GRIT 数据集，一个图像-文本-边界框标注数据集）。PAG 正是为此而设计。

流程:

第一步：视觉定位 (Visual Grounding)。
- 对于所有数据（无论是合成数据还是互联网数据），模型首先根据文本指令 $("pick up the {object}")$ ，自回归地生成目标物体的 2D 边界框 (bounding box) 坐标。
- 这一步同时在合成数据和互联网数据上进行训练，使得模型能够学习定位海量的、互联网上才有的物体。
第二步：抓取姿态预测 (Grasp Pose Prediction)。
- 仅对于合成数据，在生成边界框之后，模型继续自回归地生成目标物体在机器人基坐标系下的 3D 抓取姿态 (grasp pose)。
- 在这一步之前，会输入最新的机器人本体感知信息（如关节角度），以帮助模型进行精确的 3D 空间推理。
- 这一步只在合成数据上训练，因为只有合成数据才提供精确的 3D 抓取姿态真值。
第三步：动作生成 (Action Generation)。
- 最后，动作专家以 VLM 在前两步中生成的所有中间推理结果（即编码了输入图像、文本、边界框和抓取姿态的内部状态）为条件，通过流匹配生成一个动作块（一小段连续的动作序列）。
  
  通过这种方式，PAG 机制将抓取任务分解为一个有逻辑的因果链条：要抓取一个物体，首先要找到它在哪里（边界框），然后规划怎么抓（抓取姿态），最后执行动作。互联网数据被用来强化第一步（感知），而合成数据则贯穿始终，将感知与行动联系起来。

4.2.3. 联合训练与损失函数

GraspVLA 的训练是端到端的，在一个批次中同时采样合成数据和互联网数据。总损失由 VLM 损失和动作专家损失两部分构成。

VLM 损失 (自回归损失): VLM 的损失是一个标准的负对数似然损失（或交叉熵损失），用于监督其自回归地生成正确的词元序列（边界框和抓取姿态）。 $\mathcal { L } _ { \mathrm { S2 } } = - \sum _ { n = 1 } ^ { N _ { \mathrm { b b o x } } } \log P _ { \theta } ( \mathbf { y } _ { \mathrm { b b o x } , n } \mid \mathbf { x } , \mathbf { y } _ { \mathrm { b b o x } , < n } ) - \mathbf { 1 } _ { \mathrm { synthetic } } \cdot \sum _ { n = 1 } ^ { N _ { \mathrm { grasp } } } \log P _ { \theta } ( \mathbf { y } _ { \mathrm { g r a s p } , n } \mid \mathbf { x } , \mathbf { y } _ { \mathrm { b b o x } } , \mathbf { y } _ { \mathrm { g r a s p } , < n } )$
- 符号解释:
  - $\mathcal{L}_{\mathrm{S2}}$ : VLM 部分的损失。
  - $\mathbf{x}$ : 输入，包括图像和文本指令。
  - $\mathbf{y}_{\mathrm{bbox}, n}$ : 边界框词元序列中的第 $n$ 个词元。
  - $N_{\mathrm{bbox}}$ : 边界框词元序列的长度。
  - $\mathbf{y}_{\mathrm{grasp}, n}$ : 抓取姿态词元序列中的第 $n$ 个词元。
  - $N_{\mathrm{grasp}}$ : 抓取姿态词元序列的长度。
  - $P_{\theta}(\cdot | \cdot)$ : 模型在给定条件下生成某个词元的概率。
  - $\mathbf{1}_{\mathrm{synthetic}}$ : 一个指示函数。当训练样本来自合成数据集时，其值为 1；否则为 0。这意味着抓取姿态的损失项仅在合成数据上计算。(注：原文中为 synheic，应为笔误)。
- 公式解读:
  - 第一项是边界框预测的损失，对所有数据都计算。它要求模型在给定输入和已生成的前缀的情况下，能以高概率预测出下一个正确的边界框词元。
  - 第二项是抓取姿态预测的损失，仅对合成数据计算。它要求模型在给定输入和已生成的边界框序列及抓取姿态前缀的情况下，能以高概率预测出下一个正确的抓取姿态词元。
动作专家损失 (流匹配损失): 动作专家使用流匹配损失进行训练，目标是学习一个向量场，能将噪声动作转化为真实的专家动作。 $\mathcal { L } _ { \mathrm { S1 } } = \| v _ { t } ( \mathbf { A } _ { t } , \mathbf { x } , \mathbf { y } _ { \mathrm { b b o x } } , \mathbf { y } _ { \mathrm { g r a s p } } ) - u _ { t } ( \mathbf { A } _ { t } \mid \mathbf { A } _ { 0 } ) \| ^ { 2 }$
- 符号解释:
  - $\mathcal{L}_{\mathrm{S1}}$ : 动作专家部分的损失。
  - $t \in [0, 1]$ : 流匹配过程中的时间步。
  - $\mathbf{A}_0$ : 真实的、无噪声的专家动作块。
  - $\mathbf{A}_t$ : 在时间步 $t$ 被噪声污染的动作块。
  - $u_t(\mathbf{A}_t | \mathbf{A}_0)$ : 从 $\mathbf{A}_0$ 推导出的、在 $t$ 时刻的真实速度场（目标）。
  - $v_t(\cdot)$ : 模型在给定上下文（包括 $\mathbf{A}_t$ , 输入 $\mathbf{x}$ , 边界框 $\mathbf{y}_{\mathrm{bbox}}$ , 抓取姿态 $\mathbf{y}_{\mathrm{grasp}}$ ）的情况下，预测出的速度场。
- 公式解读: 该损失是一个均方误差（L2 损失），用于最小化模型预测的速度场与真实速度场之间的差距。这驱使模型学会如何将一个加噪的、混乱的动作“修正”回正确的专家动作。这个损失也只在合成数据上计算，因为只有合成数据有动作真值 $\mathbf{A}_0$ 。
  
  最终的总损失是这两部分损失的简单相加： $\mathcal{L}_{\mathrm{total}} = \mathcal{L}_{\mathrm{S1}} + \mathcal{L}_{\mathrm{S2}}$ 。

5. 实验设置

5.1. 数据集

训练数据集:
- SynGrasp-1B: 本文自己构建的十亿帧合成抓取数据集。它是动作技能学习的主要来源。
- GRIT: 一个公开的大规模互联网图文数据集，包含丰富的物体和场景，并带有边界框标注。它被用来增强模型的开放词汇感知能力。
评估数据集:
- 真实世界测试集: 作者精心设计了一套真实世界的评估方案，以测试模型的零样本泛化能力。
  - 物体分组: 分为两组，合成类别 (synthetic categories)（在 SynGrasp-1B 中出现过的类别）和网络类别 (web categories)（仅在互联网数据 GRIT 中出现过的类别，如充电器、毛巾等）。
  - 测试场景: 设计了 5 种不同的挑战性场景，如下图（原文 Figure 4）所示：
    - basic: 标准场景。
    - light: 变化的灯光条件（使用迪斯科灯）。
    - background: 变化的桌布背景。
    - distractor: 场景中加入 5 个干扰物体。
    - height: 将工作台面升高 10 厘米。
      
      该图像是一个示意图，展示了实验中的机器人设置（a），使用的合成物体分类（b）、网络物体分类（c）以及五个测试集（d），以评估模型在不同条件下的表现。
- LIBERO 基准: 一个广泛使用的机器人操作任务模拟基准，包含多样的任务和物体。作者选取了其中的抓取相关任务，以在模拟环境中评估模型的泛化性。

5.2. 评估指标

成功率 (Success Rate, SR):
1. 概念定义: 这是最直观的指标，衡量模型完成任务的能力。在本文中，一次成功的抓取被严格定义为：在最多 3 次尝试（以夹爪闭合为一次尝试）内，将目标物体成功抓起并提升至少 15 厘米。
2. 数学公式: $\text{Success Rate} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}}$
3. 符号解释:
  - Number of Successful Trials: 成功完成任务的试验次数。
  - Total Number of Trials: 总的试验次数。
路径长度加权成功率 (Success weighted by Path Length, SPL):
1. 概念定义: SPL 不仅关心任务是否成功，还关心效率。一个高 SPL 分数意味着智能体不仅成功完成了任务，而且其所走的路径接近最优路径。这个指标可以惩罚那些虽然最终成功但犹豫不决、走了很多弯路的策略。
2. 数学公式: $\text{SPL} = \frac{1}{N} \sum_{i=1}^{N} S_i \frac{l_i}{\max(p_i, l_i)}$
3. 符号解释:
  - $N$ : 总的试验次数。
  - $S_i$ : 一个二元指示器，在第 $i$ 次试验中，如果成功则 $S_i=1$ ，否则 $S_i=0$ 。
  - $l_i$ : 在第 $i$ 次试验中，所有成功方法所达到的最短路径长度（这里指动作步数）。
  - $p_i$ : 在第 $i$ 次试验中，当前模型所采用的路径长度。
  - $\max(p_i, l_i)$ : 这个分母确保了即使模型的路径比最优路径还短（在某些定义下可能发生），比率也不会超过1，从而保证了指标的公平性。

5.3. 对比基线

论文将 GraspVLA 与一系列具有代表性的模型进行了比较：

VLA 通才模型 (Generalists):
- $π₀$ : Google DeepMind 提出的一个强大的 VLA 模型，在大量真实世界跨机器人平台数据上预训练。
- OpenVLA: 来自斯坦福等机构的开源 VLA 模型。
- Octo: Google DeepMind 的另一个通用机器人策略模型。
- 公平性: 为了公平比较，所有这些模型都在 SynGrasp-1B 数据集上进行了微调。
模仿学习专家模型 (Specialist):
- Diffusion Policy: 一种强大的基于扩散模型的模仿学习算法，在特定任务上表现优异。由于它不支持语言指令，实验中只在一个特定物体（大象玩具）上训练和测试它。
传统抓取检测模型:
- AnyGrasp: 一个最先进的开环抓取检测模型。为了处理语言指令，作者将其与一个开放词汇物体检测器 Grounding DINO 结合使用。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 与 VLA 模型的零样本比较 (真实世界)

以下是原文 Table 1 的结果，展示了 GraspVLA 与其他 VLA 模型在真实世界零样本抓取任务上的表现。

	合成类别 (Synthetic Categories)						网络类别 (Web Categories)
	basic↑	light↑	b.g.↑	dis.↑	height↑	SPL↑	basic↑	light↑	b.g.↑	dis.↑	height↑	SPL↑
Diffusion Policy [75]	30.0	16.6	16.6	13.3	13.3	12.3	-	-	-	-	-
Octo [26]	16.6	3.3	0.0	0.0	3.3	3.2	0.0	3.3	0.0	0.0	0.4
OpenVLA [6]	20.0	13.3	16.6	0.0	13.3	8.8	3.3	6.6	13.3	0.0	6.6	4.1
π₀(w/ π₀ pre-train)[7]	66.6	63.3	60.0	60.0	56.6	42.3	33.3	36.6	30.0	26.6	26.6	17.8
π₀(w/o π₀ pre-train)[7]	80.0	76.6	80.0	86.6	76.6	51.8	40.0	40.0	36.6	36.6	33.3	36.9
Ours (GraspVLA)	93.3	96.6	93.3	93.3	90.0	87.2	93.3	90.0	93.3	86.6	86.6	84.7

分析:

GraspVLA 表现卓越: GraspVLA 在所有测试场景和物体类别上都取得了压倒性的胜利，成功率普遍在 90% 左右。这强有力地证明了仅用合成数据预训练的范式是成功的。
强大的泛化能力: GraspVLA 在合成类别和网络类别上的表现几乎一样好（SPL 分别为 87.2 和 84.7），这证明了 PAG 机制的有效性，成功地将抓取技能泛化到了训练时从未见过的物体类别上。
高效率: SPL 指标远高于其他模型，说明 GraspVLA 生成的动作轨迹更短、更果断，很少出现犹豫行为。相比之下， $π₀$ 等模型的 SPL 分数较低，表明它们可能存在路径效率问题。
预训练的影响: 一个有趣的发现是，没有经过 $π₀$ 自身跨机器人平台数据预训练、仅用 VLM 权重初始化的 $π₀$ 版本，在 SynGrasp-1B 上微调后表现更好。这暗示了不同来源的预训练数据之间可能存在负迁移，特定任务（如抓取）可能不需要过于宽泛的跨领域动作知识。

6.1.2. 与 AnyGrasp 的比较

以下是原文 Table 3 的结果：

	语言条件抓取		任意抓取		速度
	overall	grasp	common	transparent	速度
AnyGrasp	91.6	96.6	100.0	10.0	37 Hz
Ours (GraspVLA)	93.3	93.3	93.3	86.6	5 Hz

分析:

互有优劣: GraspVLA 和 AnyGrasp 提供了两种不同的解决方案。
鲁棒性: GraspVLA 的鲁棒性更强。AnyGrasp 在抓取普通物体时表现完美（100%），但在面对透明物体时，由于其依赖的深度信息失效，成功率骤降至 10%。而 GraspVLA 仅使用 RGB 图像，不受此影响，在透明物体上依然保持了 86.6% 的高成功率。
速度: AnyGrasp 作为专用模型，速度非常快 (37 Hz)。而 GraspVLA 由于其庞大的 VLM 骨干，推理速度较慢 (5 Hz)。
功能性: GraspVLA 是一个端到端的闭环策略，天然支持语言指令。而 AnyGrasp 是一个开环的抓取点检测器，需要与其他模块（如物体检测、运动规划）组合才能完成复杂任务，这可能引入额外的故障点。

6.1.3. 性能扩展定律 (Scaling Law)

下图（原文 Figure 5）展示了模型性能随训练数据规模的变化。

Figure 5: The performance scales with the number of training frames, especially for web categories.

分析:

数据越多，性能越好: 无论是合成类别还是网络类别，模型的成功率都随着训练帧数的增加而稳定提升。这符合基础模型的一般规律，即性能可以通过扩展数据规模来提升。
泛化需要更多数据: 值得注意的是，网络类别（蓝色线）的性能提升速度比合成类别（橙色线）慢，但在数据量达到十亿帧时赶了上来。这表明，要实现对新类别的良好泛化，需要更大规模的数据来学习更通用的表征。

6.2. 消融实验/参数分析

为了验证 PAG 机制中各个设计选择的有效性，作者进行了一系列消融实验。

以下是原文 Table 5 的结果：

	Synthetic		Web
	SR	SPL	SR	SPL
vanilla	66.6	39.3	53.3	27.7
+ PAG-2D	80.0	59.2	76.7	48.9
+ PAG-3D	93.3	90.2	93.3	91.7

分析:

vanilla: 这是基线模型，虽然也联合训练，但没有 PAG 的逐步推理过程。其性能最差。
+ PAG-2D: 在 vanilla 的基础上，引入了将2D边界框预测作为中间步骤。可以看到，这使得模型在网络类别上的成功率（从 53.3% 提升到 76.7%）和 SPL（从 27.7 提升到 48.9）都得到了巨大提升。这证明了强制模型先定位物体，有助于将语义知识转化为空间感知。
+ PAG-3D: 在 PAG-2D 的基础上，进一步引入3D抓取姿态预测作为中间步骤。这一步带来了性能的又一次飞跃，尤其体现在 SPL 指标上（从 59.2/48.9 大幅提升到 90.2/91.7）。这说明，显式地规划抓取姿态可以显著减少模型的犹豫行为，提高动作的准确性和效率。

结论: 消融实验清晰地证明了 PAG 机制的每一步都至关重要，这种类似思维链的逐步推理设计是 GraspVLA 取得高性能的关键。

6.3. 少样本后训练 (Few-shot Post-Training)

为了验证其作为“基础模型”的适应能力，作者在三个需要特殊抓取行为的新任务上进行了少样本微调实验。

以下是原文 Table 4 的结果：

	Training Data		Task 1		Task 2		Task 3
	BBox	traj.	overall	grasp	overall	grasp	overall	grasp
OpenVLA	-	-	0	0	0	20	0	0
π₀	-	-	10	20	0	30	0	0
Ours	-	-	40	90	0	80	0	20
DP		✓	-	-	20	60	10	30
OpenVLA		✓	0	0	20	30	0	20
π₀		✓	60	80	60	70	50	60
Ours	✓	-	90	100	-	-	-	-
Ours(scratch)	✓	✓	10	30	10	30	0	20
Ours		✓	90	100	80	90	90	90

分析:

GraspVLA 适应性超强: 在所有三个任务上，经过少量演示（traj. 列为 ✓）微调后的 GraspVLA（最后一行）都取得了接近 90% 的成功率，远超所有基线模型。这证明了其强大的少样本适应能力。
预训练的价值: 与从零开始训练的模型 Ours(scratch) 相比，预训练的 GraspVLA 性能有天壤之别，凸显了大规模预训练的巨大价值。
数据效率: 一个惊人的发现在于，对于任务1（抓取新物体），GraspVLA 仅使用边界框（BBox）标注进行微调，而无需任何动作轨迹，就能达到 90% 的成功率。这意味着扩展模型到新物体类别时，数据收集的成本可以被大幅降低，只需框出物体即可，无需费力地进行遥操作演示。

7. 总结与思考

7.1. 结论总结

本文成功地探索并验证了一条为机器人抓取任务构建基础模型的新路径：完全依赖大规模合成动作数据进行预训练。

通过创建十亿帧规模的 SynGrasp-1B 数据集，为大规模训练提供了可能。
通过设计新颖的 PAG 机制，巧妙地融合了合成动作数据和互联网语义数据，实现了对开放词汇物体的强大零样本抓取能力，并有效缓解了 Sim-to-Real 差距。
通过在真实世界和模拟环境中的大量实验，证明了 GraspVLA 模型不仅在零样本泛化上达到了最先进水平，还具备出色的少样本适应能力，能够快速学习新的抓取偏好和行为，充分体现了其作为“基础模型”的潜力。

这项工作为机器人学习领域开辟了一个新的方向，即通过可控、可扩展的合成数据来降低对昂贵真实世界数据的依赖，从而加速通用具身智能的研发进程。

7.2. 局限性与未来工作

作者在论文中坦诚地指出了当前工作的局限性，并展望了未来的研究方向：

硬件和视角局限: 当前工作仅在 Franka Panda 机器人和固定的双目相机配置上进行，未来需要将其扩展到更多的机器人平台和相机配置上，以验证其跨平台的泛化能力。
语义理解局限: 模型在处理模糊的语言指令（如“拿起食物”或“拿起最左边的物体”）时表现不佳，这需要通过更大规模的语言模型预训练和架构创新来增强其高级语义推理能力。
物理交互局限: 当前的抓取合成基于刚体的力闭合原理，无法很好地处理可形变物体。未来可以引入软体模拟来生成更真实的形变物体抓取数据。
任务局限: 模型目前只专注于抓取，未来的工作计划将数据生成管线扩展到更复杂的操作任务，如“放置”、“推动”和“堆叠”。
推理延迟: PAG 机制虽然有效，但也引入了额外的推理延迟。当前的速度（约 200ms）对于静态场景尚可，但对于动态环境可能不足。未来可以通过模型蒸馏、量化等技术来优化速度。

7.3. 个人启发与批判

启发:
1. 数据范式的转变: 这篇论文最核心的启发是，它为机器人学习的“数据荒”问题提供了一个极具说服力的解决方案。如果“高质量、大规模合成数据 + 巧妙的 Sim-to-Real 迁移策略”这一范式能够被成功推广到更复杂的任务上，将极大地加速整个领域的发展。
2. 思维链在机器人中的应用: 将 Chain-of-Thought 的思想从纯语言领域迁移到视觉-语言-动作领域是一个非常巧妙的创新。它将一个复杂的端到端问题分解为一系列有逻辑、可解释的中间步骤，不仅提升了性能，也可能为模型的可解释性提供了新的视角。
3. 基础模型的能力边界: 论文对“基础模型”的验证非常扎实，不仅测试了“泛化”（零样本），也测试了“适应”（少样本）。这为如何评估一个具身基础模型提供了很好的范例。
批判性思考:
1. “合成”的本质: 尽管合成数据解决了规模和成本问题，但它仍然是由“人”设计的规则（如抓取算法、物理参数）生成的。这意味着数据中可能隐含了设计者的偏见，并且可能无法覆盖真实世界中某些未知的、难以建模的“长尾”物理现象。模型的鲁棒性上限可能仍受限于模拟器的保真度和数据生成规则的完备性。
2. PAG 的必要性 vs. 隐式学习: PAG 机制通过显式地生成中间步骤（边界框、抓取姿态）取得了成功。一个开放的问题是：这是否是必需的？一个更大、更深、没有这种显式结构但训练数据量相同的端到端模型，是否也能隐式地学习到这些中间表征？PAG 可能是一种在当前模型规模下非常有效的“拐杖”，但随着模型能力的进一步增强，这种显式的结构化引导是否仍然是必需的，值得进一步探讨。
3. 任务的复杂度: 抓取是一个相对定义明确的任务，其成功与否易于判断。当任务变得更复杂、更依赖于长期规划和动态交互（如整理房间、烹饪）时，完全依赖合成数据进行预训练将面临更大的挑战，因为这些任务的物理和语义复杂度都呈指数级增长。本文是迈出了成功的第一步，但前方的道路依然漫长。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。