AiPaper
论文状态:已完成

$π_0$: A Vision-Language-Action Flow Model for General Robot Control

发表:2024/11/01
原文链接PDF 下载
价格:0.10
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了通用机器人控制模型$π_0$,结合预训练视觉-语言模型与流匹配生成技术,实现单一模型多平台、多任务高精度动作生成。该模型支持零样本执行语言指令和多机器人灵巧操作,显著提升泛化能力和灵活性。

摘要

Robot learning holds tremendous promise to unlock the full potential of flexible, general, and dexterous robot systems, as well as to address some of the deepest questions in artificial intelligence. However, bringing robot learning to the level of generality required for effective real-world systems faces major obstacles in terms of data, generalization, and robustness. In this paper, we discuss how generalist robot policies (i.e., robot foundation models) can address these challenges, and how we can design effective generalist robot policies for complex and highly dexterous tasks. We propose a novel flow matching architecture built on top of a pre-trained vision-language model (VLM) to inherit Internet-scale semantic knowledge. We then discuss how this model can be trained on a large and diverse dataset from multiple dexterous robot platforms, including single-arm robots, dual-arm robots, and mobile manipulators. We evaluate our model in terms of its ability to perform tasks in zero shot after pre-training, follow language instructions from people and from a high-level VLM policy, and its ability to acquire new skills via fine-tuning. Our results cover a wide variety of tasks, such as laundry folding, table cleaning, and assembling boxes.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

π0π_0: 一个用于通用机器人控制的视觉-语言-动作流模型 (π0π_0: A Vision-Language-Action Flow Model for General Robot Control)

这篇论文的核心主题是提出并验证一个名为 π0π_0 的新型机器人控制模型。该模型的定位是一个通才机器人策略 (generalist robot policy),即所谓的机器人基础模型 (robot foundation model),旨在通过单一模型控制多种不同类型的机器人,完成各种复杂、灵巧的任务。标题中的“视觉-语言-动作流 (Vision-Language-Action Flow)”精确地概括了模型的三个关键要素:

  • 视觉-语言 (Vision-Language): 模型的基础是一个预训练的视觉-语言模型 (VLM),使其能够理解图像信息和人类的语言指令。
  • 动作 (Action): 模型的核心功能是输出机器人的动作指令。
  • 流 (Flow): 模型采用了一种名为流匹配 (Flow Matching) 的先进生成技术来产生动作,这是一种类似于扩散模型的方法,特别适合生成连续、高精度的动作序列。

1.2. 作者

论文的作者团队来自一家名为 Physical Intelligence 的公司。从作者列表的规模(多达20余位)和致谢部分可以看出,这是一个大型的、多学科协作的研究项目。作者团队背景涵盖了数据收集、机器人硬件/软件、模型设计、训练基础设施和评估等多个方面,显示了完成此类大规模机器人研究所需的综合实力。团队中包含多位机器人学和机器学习领域的知名学者,如 Sergey Levine 和 Chelsea Finn,他们是机器人学习领域的领军人物。

1.3. 发表期刊/会议

该论文目前作为预印本 (preprint) 发布在 arXiv 上。arXiv 是一个开放获取的学术论文存档网站,研究人员可以在同行评审前分享他们的研究成果。虽然预印本尚未经过正式的同行评审,但它通常是快速传播前沿研究成果的重要渠道。鉴于该研究的规模和影响力,它极有可能被提交到机器人学或机器学习领域的顶级会议,如 CoRL (Conference on Robot Learning)、ICRA (International Conference on Robotics and Automation) 或 NeurIPS (Conference on Neural Information Processing Systems)。

1.4. 发表年份

预印本于 2024 年 10 月 31 日发布。

1.5. 摘要

论文摘要概括了研究的核心内容:

  • 目标: 机器人学习有望释放灵活、通用、灵巧机器人的巨大潜力,但面临数据、泛化和鲁棒性方面的重大障碍。
  • 解决方案: 论文提出,通才机器人策略 (generalist robot policies),也即机器人基础模型 (robot foundation models),是应对这些挑战的有效途径。
  • 核心方法: 提出了一种名为 π0π_0 的新模型。
    1. 架构: 该模型基于一个预训练的视觉-语言模型 (VLM) 构建,以继承互联网规模的语义知识。为了生成动作,它采用了一种新颖的流匹配 (flow matching) 架构。
    2. 数据: 该模型在一个包含多种灵巧机器人平台(单臂、双臂、移动操作臂)的大型多样化数据集上进行训练。
  • 主要结果: 论文评估了模型在多个方面的能力:
    1. 零样本 (Zero-shot) 性能: 预训练后直接执行任务的能力。
    2. 指令跟随: 遵循人类或上层 VLM 策略发出的语言指令的能力。
    3. 技能获取: 通过微调 (fine-tuning) 学习新技能的能力。
  • 应用展示: 实验结果涵盖了叠衣服、清理桌子和组装盒子等多种复杂任务。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

当前机器人学习领域面临一个核心困境:如何让机器人像人一样具备通用性 (versatility),即在多变的环境中解决多样的物理任务。传统的机器人系统通常是“专才”,为特定任务设计,缺乏灵活性。而基于学习的方法虽然更有潜力,但始终受限于三大挑战:

  1. 数据瓶颈 (Data Bottleneck): 为每一个新任务或新机器人收集大量高质量的演示数据成本极高,导致数据稀缺。

  2. 泛化难题 (Generalization Challenge): 在特定数据上训练出的模型很难泛化到新的物体、场景或任务中。

  3. 鲁棒性不足 (Robustness Issue): 现实世界充满不确定性,模型在遇到未曾见过的扰动或发生小错误时,往往难以恢复,导致任务失败。

    受到自然语言处理 (NLP) 和计算机视觉 (CV) 领域中基础模型 (foundation models)(如 GPT-4、CLIP)成功的启发,这篇论文认为,为机器人领域构建类似的机器人基础模型是解决上述挑战的关键。其核心思路是:与其为每个任务单独训练一个“小”模型,不如先在一个极其庞大和多样化的数据集上预训练一个“大”的通才模型,然后再针对具体任务进行微调或直接使用。

这种方法的创新切入点在于:

  • 解决数据稀缺: 通才模型可以利用来自不同任务、不同机器人甚至非机器人来源(如互联网图文)的数据,极大地拓宽了数据来源。

  • 提升泛化与鲁棒性: 预训练数据覆盖了极其丰富的场景、物体和动作,包括各种纠错和恢复行为,这为模型提供了应对新情况的“知识储备”。

    因此,本文的研究动机就是探索如何设计、训练和评估一个有效的机器人基础模型,以实现前所未有的通用性和灵巧性。

2.2. 核心贡献/主要发现

这篇论文的核心贡献可以总结为以下三点:

  1. 提出了一种新颖的机器人基础模型架构 (π0π_0):

    • 它创新性地将一个预训练的视觉-语言模型 (VLM) 作为语义理解的主干网络 (backbone)
    • 它没有采用先前 VLA 模型中常见的、将动作离散化为词元 (token) 的自回归方法,而是设计了一个基于流匹配 (Flow Matching) 的“动作专家”模块,用于生成连续、高频(可达 50Hz)的动作块 (action chunks)。这种设计特别适合需要高精度和复杂动态的灵巧操作任务。
  2. 提出并验证了一套“预训练-后训练”的训练范式:

    • 预训练 (Pre-training): 在一个史无前例的超大规模(超过10,000小时)、跨平台(7种机器人配置)、跨任务(68个任务类别)的混合数据集上进行训练。这个阶段的目标是让模型获得广泛的物理世界知识和基本技能。
    • 后训练 (Post-training): 使用少量、高质量的特定任务数据对预训练好的模型进行微调 (fine-tuning)。这个阶段的目标是让模型“对齐”,学会高效、流畅、鲁棒地完成目标任务。论文证明,这种结合了“广度”(预训练)和“深度”(后训练)的策略,远优于仅使用高质量数据从头训练或直接使用预训练模型。
  3. 在复杂、长时程、灵巧的任务上取得了最先进的性能:

    • 论文展示了 π0π_0 在一系列极具挑战性的真实世界任务上的成功应用,如叠放多件不同形态的衣物、清理杂乱的真实餐桌、从零开始组装纸箱、将易碎的鸡蛋装入蛋盒等。这些任务时长可达数十分钟,结合了物理灵巧性(如操作柔软的衣物)和组合复杂性(如识别垃圾和餐具),其难度和长度显著超越了以往端到端机器人学习文献中所展示的成果。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解这篇论文,以下是一些关键的基础概念:

  • 视觉-语言模型 (Vision-Language Model, VLM): 这是一种多模态人工智能模型,能够同时处理和理解图像与文本信息。通过在海量的“图像-文本对”数据上进行训练(例如,一张猫的图片和描述“一只猫正坐在垫子上”),VLM 能够学习到视觉概念与语言描述之间的对应关系。这使得模型可以完成看图说话、根据文本生成图像、或回答关于图像内容的问题等任务。在本文中,VLM 作为 π0π_0 的“大脑”,提供了关于世界的丰富语义知识。

  • 基础模型 (Foundation Model): 这个术语由斯坦福大学提出,指代那些在极大规模、极广泛的数据上进行预训练,并且能够被适配(如通过微调)到多种下游任务的超大型模型。GPT系列模型就是最典型的例子。基础模型的理念是,通过海量数据的学习,模型能掌握通用的知识和能力,从而在解决新问题时更加高效和强大。本文将这一理念引入机器人领域,旨在构建一个“机器人基础模型”。

  • 扩散模型 (Diffusion Models) 与 流匹配 (Flow Matching):

    • 扩散模型是一类强大的生成模型。其核心思想分为两步:前向过程 (forward process),即逐步向真实数据(如一张图片)中添加噪声,直到其完全变成纯粹的随机噪声;以及反向过程 (reverse process),即训练一个神经网络来学习如何从纯噪声开始,一步步地“去噪”,最终还原出真实数据。通过学习这个去噪过程,模型就学会了如何从无到有地生成新的数据。
    • 流匹配是扩散模型的一种变体或推广,它提供了一种更稳定、更高效的训练方式。它不直接模拟逐步去噪的随机过程,而是定义了一个从噪声分布到数据分布的连续“流”(即一个向量场),然后训练神经网络来直接学习这个向量场。本文采用流匹配来生成机器人的动作序列。
  • 动作块 (Action Chunking): 这是一种机器人控制策略。传统的控制方法可能在每个时间步(如每秒50次)都重新规划并输出一个动作。而Action Chunking则是让模型一次性预测未来一小段时间(例如,未来1秒,包含50个时间步)的整个动作序列。这样做的好处是:1) 减少了高频决策的计算开销;2) 生成的动作序列通常更平滑、更连贯。

  • 跨实体训练 (Cross-Embodiment Training): 指的是使用来自多种不同物理形态(embodiment)的机器人(例如,不同品牌、不同自由度、单臂或双臂)的数据来训练同一个模型。这极具挑战性,因为不同机器人的动作空间和传感器配置各不相同。但如果成功,它能让模型学习到更普适的机器人控制知识,增强其在不同机器人上的适用性。

3.2. 前人工作

论文建立在近年来机器人学习和多模态模型研究的多个分支之上:

  • 视觉-语言-动作 (Vision-Language-Action, VLA) 模型:

    • 这是近期机器人学习的热点方向,代表工作如 Google 的 RT-2 和斯坦福的 OpenVLA。这类模型的核心思想是将预训练的 VLM 微调用于机器人控制。它们通常将机器人的动作离散化 (discretize) 成一系列整数,然后像生成文本一样,使用模型的自回归(autoregressive)解码器逐个生成代表动作的“词元 (token)”。
    • 与本文的区别: π0π_0 认为这种自回归离散化的方法不适合高频、高精度的灵巧任务。因此,π0π_0 采用流匹配来直接生成连续的 (continuous) 动作向量,而不是离散的词元。
  • 用于动作生成的扩散模型:

    • π0π_0 之前,已有工作如 Diffusion Policy 探索了使用扩散模型来生成机器人动作。这类方法在模仿学习任务中表现出色,尤其是在处理多模态行为(即一个场景下有多种可能的正确动作)时。
    • 与本文的区别: Diffusion Policy 等模型通常是针对特定任务从零开始训练的“专才”模型。而 π0π_0 是一个“通才”模型,它将扩散/流匹配的思想与大规模 VLM 预训练相结合,旨在实现更广泛的通用性。
  • 大规模机器人学习数据集:

    • 近年来的研究得益于多个大规模、多样化的开源数据集,如 Open X-Embodiment (OXE)DROIDBridgeData。这些数据集汇集了来自全球多个实验室、数十种不同机器人的操作数据,为训练通才模型提供了可能。
    • 本文的贡献: 本文不仅利用了这些现有数据集,还额外收集了超过 900M 时间步(约10,000小时)的、专注于灵巧操作 (dexterous manipulation) 的自有数据,将训练数据的规模和复杂性提升到了新的高度。
  • 灵巧操作与长时程任务:

    • 虽然已有工作展示了机器人在某些灵巧任务(如 ALOHA 项目中的系鞋带)或长时程任务(如 Mobile ALOHA 中的烹饪虾)上的能力,但这些通常是针对单一任务训练的专用模型。
    • 本文的突破: π0π_0 展示了同一个跨实体预训练模型,在经过微调后,能够解决多种不同类型的、长度可达数十分钟的复杂灵巧任务,这在通用性上是巨大的进步。

3.3. 技术演进

机器人学习的技术演进大致经历了从专用到通用,从简单任务到复杂任务的过程:

  1. 早期 (小规模、特定任务): 研究主要集中在单一任务上,如抓取或推物体。数据量小,模型泛化能力有限。
  2. 中期 (大规模、简单任务): 随着数据收集能力的增强,出现了如 QT-Opt 这样的大规模抓取实验。同时,模仿学习 (Imitation Learning) 成为主流,但任务仍多为简单的物体拾取和放置。
  3. 近期 (多任务、多实体): OXE 等数据集的出现,催生了像 RT-XOcto 这样的多任务、跨实体通才模型。同时,VLM 的兴起带来了 RT-2OpenVLA 等 VLA 模型,增强了机器人的语言理解能力。
  4. 当前 (本文所处位置): 本文处在技术演进的前沿。它继承了 VLA 模型的语言能力和跨实体训练的通用性,同时通过引入流匹配解决了 VLA 模型在处理高频连续动作上的短板,并将训练数据和任务复杂性推向了新的极限,专注于实现真正意义上的灵巧通用操作

3.4. 差异化分析

相较于之前的相关工作,π0π_0 的核心差异化和创新点可以总结为一张表格:

特性 之前的主流方法 (如 OpenVLA, RT-2) 本文的 π0π_0 方法 创新点与优势
动作表示 自回归离散化 (Autoregressive Discretization):将连续动作量化为离散的词元,然后像生成文本一样逐个预测。 连续流匹配 (Continuous Flow Matching):直接在连续空间中学习一个从噪声到动作序列的映射。 更适合灵巧任务。避免了离散化带来的精度损失,能生成更平滑、更高频的动作,对动态、精细的操作至关重要。
模型架构 单一的 Transformer 模型,动作词元与文本/视觉词元一同处理。 混合专家架构 (Mixture of Experts):使用 VLM 主干处理视觉和语言,同时引入一个独立的、更小的“动作专家 (Action Expert)”专门处理和生成动作。 训练更高效稳定。将 VLM 的预训练知识与新学习的动作能力解耦,避免了在微调时对大型 VLM 权重的灾难性遗忘,同时加速了动作生成的推理过程。
训练范式 通常是预训练-微调,但预训练数据规模和任务复杂度有限。 大规模预训练 + 高质量后训练:在超大规模(10k小时)的灵巧操作数据上预训练,再用精选数据后训练以提升性能。 兼顾通用性与专业性。预训练提供广泛的知识和恢复能力,后训练则教会模型如何高效、鲁棒地执行特定任务,实现了“博”与“精”的结合。
任务复杂度 主要集中在物体拾取、放置、开关抽屉等相对简单的操作。 攻克了叠衣服、组装纸箱、打包鸡蛋等长时程、涉及可变形或易碎物体的复杂灵巧任务。 将机器人通用操作的能力边界推向了新的高度,展示了基础模型在解决真实世界复杂家务任务上的巨大潜力。

4. 方法论

本章节将详细拆解 π0π_0 模型的技术方案。其核心思想是构建一个能够理解多模态输入(图像、语言、机器人状态)并生成高质量连续动作序列的策略模型。

4.1. 方法原理

π0π_0 的设计哲学是“站在巨人的肩膀上”。它不从零开始,而是利用一个强大的、已在互联网海量图文数据上预训练好的视觉-语言模型 (VLM)——具体来说是 PaliGemma——作为其语义主干网络 (semantic backbone)。这使得模型天生就具备了丰富的世界知识和语言理解能力。

然后,论文的核心任务是将这个“会看会说”的 VLM,改造成一个“会动手”的视觉-语言-动作 (VLA) 模型。为了实现这一点,并特别地解决灵巧操作(需要高精度、高频率的连续控制)的难题,作者们没有采用当时 VLA 模型中主流的“动作离散化”方案,而是引入了条件流匹配 (Conditional Flow Matching) 技术来生成动作。

其直观原理可以这样理解:

  • 目标: 给定当前的观测(observation),模型需要生成一个未来动作序列(action chunk)。

  • 流匹配的思路: 想象有一条从“纯粹的随机噪声”通往“正确的动作序列”的路径。这条路径上的每一点都有一个指向“正确动作序列”方向的“箭头”(即向量场)。训练的目标就是让神经网络学会这个“箭头”应该指向哪里。

  • 推理过程: 在需要生成动作时,模型从一个随机噪声点出发,然后沿着自己学到的“箭头”方向,一步步地移动,最终就能到达那个“正确的动作序列”点。

    通过这种方式,π0π_0 能够生成平滑、连续且多模态(即在同一情境下可能存在多种合理的动作,模型可以生成其中任意一种)的动作序列。

下图(原文 Figure 3)清晰地展示了 π0π_0 的整体框架。

Fig. 8: The tasks in our language evaluation. We evaluate our model on 3 different language-conditioned tasks, each of which requires following a sequence of intermediate language commands. The tasks… 该图像是论文中Fig.8的多场景任务展示插图,展示了语言控制下机器人完成三种不同任务的过程,依次为清理桌面将餐具和垃圾分别放入垃圾箱、摆放餐具从箱子中取物品以及打包购物袋。

4.2. 核心方法详解 (逐层深入)

π0π_0 模型是一个基于 Transformer 架构的 VLA 模型。下面我们逐步解析其输入、架构、训练和推理过程。

4.2.1. 模型输入与输出

模型在每个决策时刻 tt 需要处理的输入和生成的输出如下:

  • 输入 (观测 oto_t):

    • 图像 It=[It1,...,Itn]\mathbf{I}_t = [\mathbf{I}_t^1, ..., \mathbf{I}_t^n]: 来自机器人身上多个摄像头(通常是2到3个)的实时 RGB 图像。
    • 语言指令 t\boldsymbol{\ell}_t: 一个描述任务目标的文本字符串,例如“把桌上的垃圾扔掉”。
    • 本体感受状态 qt\mathbf{q}_t: 机器人自身的关节角度等状态信息。
  • 输出 (动作块 At\mathbf{A}_t):

    • 一个包含未来 HH 个时间步的动作序列 At=[at,at+1,...,at+H1]\mathbf{A}_t = [\mathbf{a}_t, \mathbf{a}_{t+1}, ..., \mathbf{a}_{t+H-1}]。在实验中,H=50H=50,意味着模型一次性生成接下来 50 个控制周期的动作。

      模型的最终目标是学习条件概率分布 p(Atot)p(\mathbf{A}_t | \mathbf{o}_t),即在给定观测 ot\mathbf{o}_t 的情况下,生成正确动作块 At\mathbf{A}_t 的概率。

4.2.2. 模型架构

π0π_0 的架构设计是其关键创新之一,它巧妙地结合了预训练的 VLM 和一个新建的“动作专家”。

  1. 输入编码:

    • 图像 Iti\mathbf{I}_t^i 通过一个图像编码器(继承自 PaliGemmaViT)转换成一系列嵌入向量。
    • 语言指令 t\boldsymbol{\ell}_t 被分词后,通过词嵌入层转换为嵌入向量。
    • 本体感受状态 qt\mathbf{q}_t 通过一个简单的线性投影层映射到与文本/图像相同的嵌入维度。
    • 这些嵌入向量被拼接在一起,形成 Transformer 的输入序列前缀。
  2. 动作专家 (Action Expert):

    • 这是 π0π_0 架构的核心。作者发现,如果将所有输入(包括动作)都交给同一个巨大的 VLM 模型处理,训练会不稳定,且容易破坏 VLM 原有的知识。
    • 因此,他们设计了一种类似于混合专家 (Mixture-of-Experts, MoE) 的结构。模型内部有两套不同的权重
      • VLM 主干专家: 继承自 PaliGemma 的权重(约30亿参数),专门处理它所熟悉的图像和语言输入。
      • 动作专家: 一套全新的、更小的权重(约3亿参数),专门处理机器人相关的输入(本体状态 qt\mathbf{q}_t)和输出(动作块 At\mathbf{A}_t)。
    • 在 Transformer 的每一层中,图像和语言相关的词元 (token) 会被路由到 VLM 主干专家的前馈网络中,而机器人状态和动作相关的词元则被路由到动作专家的前馈网络中。这两组专家仅通过自注意力机制 (self-attention) 进行信息交互。
    • 这种设计的好处是:
      • 保护了 VLM 的预训练知识。
      • 动作专家更小,使得与动作生成相关的计算(尤其是在推理时需要多次迭代)更快。
  3. 注意力机制 (Attention Mask):

    • 模型使用了一种分块因果注意力掩码 (blockwise causal attention mask)。输入序列被分为三个块:[图像, 语言][机器人状态][动作]
    • 块内的词元可以相互关注(双向注意力),但块与块之间是因果的,即一个块只能关注它自己和它之前的块。这确保了 VLM 主干不会看到它在预训练时没见过的机器人状态和动作输入,从而减少分布偏移。

4.2.3. 训练:条件流匹配损失

π0π_0 的训练核心是使用条件流匹配损失来监督动作的生成。该过程如下:

  1. 定义概率路径: 我们需要定义一个从简单的先验分布(如标准正态分布 N(0,I)\mathcal{N}(\mathbf{0}, \mathbf{I}))到复杂的数据分布(即真实的动作块 At\mathbf{A}_t)的连续路径。论文采用了简单的线性插值路径。对于一个时间参数 τ[0,1]\tau \in [0, 1],路径上的点 Atτ\mathbf{A}_t^\tau 定义为: Atτ=τAt+(1τ)ϵ \mathbf{A}_t^\tau = \tau \mathbf{A}_t + (1 - \tau) \epsilon 其中 ϵN(0,I)\epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) 是一个随机噪声向量。当 τ=0\tau=0 时,At0=ϵ\mathbf{A}_t^0 = \epsilon,完全是噪声;当 τ=1\tau=1 时,At1=At\mathbf{A}_t^1 = \mathbf{A}_t,是真实的动作数据。

  2. 定义目标向量场: 这条路径的“方向”或“速度”(即向量场)u(AtτAt)\mathbf{u}(\mathbf{A}_t^\tau | \mathbf{A}_t) 可以被计算出来。对于上述线性路径,目标向量场非常简单: u(AtτAt)=Atϵ \mathbf{u}(\mathbf{A}_t^\tau | \mathbf{A}_t) = \mathbf{A}_t - \epsilon 注:原文中公式为 ϵAt\epsilon - \mathbf{A}_t,这取决于向量场的定义方向,两者在损失函数中是等价的,这里遵循原文的推导。

  3. 定义损失函数: 训练的目标是让神经网络 vθ(Atτ,ot)\mathbf{v}_{\boldsymbol{\theta}}(\mathbf{A}_t^\tau, \mathbf{o}_t) 在给定“有噪声的动作” Atτ\mathbf{A}_t^\tau 和观测 ot\mathbf{o}_t 的情况下,预测出目标向量场 u\mathbf{u}。损失函数是两者之间的均方误差 (MSE),在所有可能的真实动作、噪声和时间 τ\tau 上取期望。 这正是论文中给出的核心损失函数公式: Lτ(θ)=Ep(Atot),q(AtτAt)[vθ(Atτ,ot)u(AtτAt)2] L ^ { \tau } ( \boldsymbol { \theta } ) = \mathbb { E } _ { p ( \mathbf { A } _ { t } | \mathbf { o } _ { t } ) , q ( \mathbf { A } _ { t } ^ { \tau } | \mathbf { A } _ { t } ) } [ || \mathbf { v } _ { \boldsymbol { \theta } } ( \mathbf { A } _ { t } ^ { \tau } , \mathbf { o } _ { t } ) - \mathbf { u } ( \mathbf { A } _ { t } ^ { \tau } | \mathbf { A } _ { t } ) || ^ { 2 } ] 符号解释:

    • θ\boldsymbol{\theta}: 神经网络(即 π0π_0 模型)的参数。

    • p(Atot)p(\mathbf{A}_t | \mathbf{o}_t): 真实数据的条件分布,即从数据集中采样一个 (ot,At)(\mathbf{o}_t, \mathbf{A}_t) 对。

    • q(AtτAt)q(\mathbf{A}_t^\tau | \mathbf{A}_t): 从真实动作 At\mathbf{A}_t 生成带噪动作 Atτ\mathbf{A}_t^\tau 的过程。

    • vθ(Atτ,ot)\mathbf{v}_{\boldsymbol{\theta}}(\mathbf{A}_t^\tau, \mathbf{o}_t): 模型在输入带噪动作 Atτ\mathbf{A}_t^\tau 和观测 ot\mathbf{o}_t 后,预测出的向量场。

    • u(AtτAt)\mathbf{u}(\mathbf{A}_t^\tau | \mathbf{A}_t): 我们想要模型预测的真实目标向量场

    • E[]\mathbb{E}[\cdot]: 表示求期望,即在训练中通过对多批数据进行平均来近似。

    • 2||\cdot||^2: L2 范数的平方,即均方误差。

      在实际训练中,对于每个数据样本 (ot,At)(\mathbf{o}_t, \mathbf{A}_t),算法会随机采样一个时间 τ\tau 和一个噪声 ϵ\epsilon,构造出带噪动作 Atτ\mathbf{A}_t^\tau,然后计算损失并更新模型参数 θ\boldsymbol{\theta}

4.2.4. 推理:欧拉积分生成动作

当模型训练好后,生成新动作的过程就是上述训练过程的逆过程。我们从纯噪声开始,利用学到的向量场 vθ\mathbf{v}_{\boldsymbol{\theta}} 进行积分,逐步“去噪”得到最终的动作。

  1. 初始化: 从标准正态分布中采样一个随机噪声作为初始动作块:At0N(0,I)\mathbf{A}_t^0 \sim \mathcal{N}(\mathbf{0}, \mathbf{I})
  2. 迭代更新: 使用前向欧拉法 (Forward Euler method) 进行数值积分。从 τ=0\tau=0 开始,以步长 δ\delta 迭代地更新动作块,直到 τ=1\tau=1这正是论文中给出的推理更新公式: Atτ+δ=Atτ+δvθ(Atτ,ot) \mathbf{A}_t^{\tau+\delta} = \mathbf{A}_t^\tau + \delta \cdot \mathbf{v}_{\boldsymbol{\theta}}(\mathbf{A}_t^\tau, \mathbf{o}_t) 符号解释:
    • Atτ\mathbf{A}_t^\tau: 在积分时间 τ\tau 时的动作块。

    • δ\delta: 积分步长。实验中使用了 10 个积分步骤,所以 δ=0.1\delta = 0.1

    • vθ(Atτ,ot)\mathbf{v}_{\boldsymbol{\theta}}(\mathbf{A}_t^\tau, \mathbf{o}_t): 模型对当前动作块 Atτ\mathbf{A}_t^\tau 预测出的“前进方向”。

      这个迭代过程会重复 10 次(从 τ=0.0\tau=0.0τ=0.9\tau=0.9)。在每次迭代中,只有与动作相关的词元需要重新计算,而观测 ot\mathbf{o}_t 相关的计算结果(键和值)可以被缓存,大大提高了推理效率。最终得到的 At1\mathbf{A}_t^1 就是模型生成的动作块,然后被发送给机器人执行。

5. 实验设置

5.1. 数据集

π0π_0 的强大性能很大程度上归功于其庞大且多样化的训练数据集。作者采用了一种“预训练-后训练”的策略,使用了不同的数据集组合。

5.1.1. 预训练数据集

预训练阶段的数据混合了多个来源,总时长超过 10,000 小时。其目标是让模型接触尽可能广泛的机器人、任务、物体和环境。

  • 自有灵巧操作数据集 (The π\pi dataset): 这是论文贡献的核心数据集,包含了 9.03 亿个时间步 (timesteps) 的数据,收集自 7 种不同的机器人配置68 种不同的任务。这些任务专注于灵巧操作,例如清理餐桌、打包杂货等。下图(原文 Figure 5)展示了所使用的机器人平台。

    Fig. 10: Fine-tuning evaluation tasks: We fine-tune our model to a variety of downstream tasks that are distinct from the tasks seen in pre-training. Our tasks represent a range of similarity from th… 该图像是展示论文中图10的系列示意图,呈现模型在五种不同微调评估任务中的操作过程,涵盖与预训练任务相似的叠碗与折叠毛巾,含新元素微波炉,以及需新动作和物体的抽屉物品整理与纸巾更换。

  • 公共数据集:

    • Open X-Embodiment (OXE): 一个巨大的、汇集了来自 22 种不同机器人的数据的集合。

    • Bridge v2: 包含跨场景的机器人操作数据。

    • DROID: 一个在“野外”(in-the-wild)即真实家庭环境中收集的大规模机器人操作数据集。

      作者将这些数据进行加权混合,对数据量过大的任务进行降权,以保证数据平衡。对于不同形态的机器人,其动作和状态向量被统一填充(zero-pad)到数据集中最大机器人的维度(18维),以实现跨实体训练。

5.1.2. 后训练/微调数据集

在后训练(微调)阶段,模型会在更小、更专注、质量更高的数据集上进行训练,以掌握特定任务的精髓。例如,对于“叠衣服”任务,会使用专门收集的高质量叠衣服演示数据进行微调。这些数据集的规模根据任务难度而异,从 5 小时到 100 小时不等。

5.2. 评估指标

论文中的评估不是采用单一的标准化指标,而是根据每个任务的性质设计了具体的任务成功度评分规则 (scoring rubrics)。这些指标量化了机器人完成任务的程度。

  • 概念定义 (Conceptual Definition): 评估指标通常是一个范围在 0.0 到 1.0 之间的分数(或一个整数总分),其中 1.0 或满分代表任务完美成功,0.0 代表完全失败,中间值代表部分成功。例如,在清理桌子的任务中,分数可能是“被正确分类的物体数量 / 物体总数量”。
  • 数学公式 (Mathematical Formula): 由于这些是任务特定的规则,没有统一的数学公式。但其通用形式可以理解为: Score=i=1NSubtaski’s SuccessTotal Number of Subtasks \text{Score} = \frac{\sum_{i=1}^{N} \text{Subtask}_i\text{'s Success}}{\text{Total Number of Subtasks}}
  • 符号解释 (Symbol Explanation):
    • Subtaski’s Success\text{Subtask}_i\text{'s Success}: 一个布尔值(1 或 0),表示第 ii 个子任务是否成功(例如,是否成功拿起一个盘子)。
    • NN: 任务包含的总子任务数量(例如,桌上的总物品数)。

具体任务的评分规则示例 (来自附录 E):

  • 叠衬衫 (Shirt folding): 二元指标,成功(折叠了袖子并完成一次对折)为 1,否则为 0。
  • 简易清理 (Bussing easy): 总分 7 分,桌上有 7 件物品,每正确分类一件(垃圾入垃圾桶,餐具入回收箱)得 1 分。
  • 微波炉任务 (Tupperware in microwave): 总分 4 分,开微波炉门得 1 分,拿起特百惠得 1 分,放入微波炉得 1 分,关门得 1 分。
  • 组装盒子 (Box building): 总分 5 分,拿起盒子、对折、关闭右瓣、关闭左瓣、居中放置,各 1 分。

5.3. 对比基线

为了验证 π0π_0 的有效性,论文将其与多种代表性的基线模型进行了比较:

  • OpenVLA: 一个开源的、参数量达 70 亿的 VLA 模型。它代表了采用自回归离散化动作生成方式的主流 VLA 模型。这是一个关键的对比,用以验证 π0π_0 的流匹配架构的优势。
  • Octo: 一个开源的、参数量较小(93M)的通才机器人策略模型。它也使用扩散过程生成动作,但不是 VLA 模型(没有基于大型语言模型)。它代表了非 VLM 但同样基于扩散的通才模型。
  • ACT (Action Chunking with Transformers) 和 Diffusion Policy: 这两个是专为灵巧操作设计的专才模型 (specialist models)。它们通常在单个任务的小型数据集上从零开始训练。与它们的比较旨在评估 π0π_0预训练范式的价值,即预训练过的 π0π_0 在微调少量数据后,是否比这些从零训练的专家模型更强。
  • π0π_0 的消融变体:
    • π0π_0-small: 一个参数量较小(470M)且没有使用 VLM 初始化π0π_0 版本。与它的比较旨在衡量 VLM 预训练带来的好处。
    • 从零训练 (scratch): 在任务特定数据上从零训练的 π0π_0 模型。与完整版 π0π_0(预训练+微调)的比较,旨在直接量化大规模预训练本身带来的性能提升。

6. 实验结果与分析

论文通过一系列精心设计的实验,系统地评估了 π0π_0 模型在不同场景下的能力。

6.1. 核心结果分析

6.1.1. 基础模型“开箱即用”性能评估

这个实验评估了 π0π_0 在仅经过预训练,没有任何微调的情况下,直接通过语言指令执行任务的能力。这些任务都存在于预训练数据中。

下图(原文 Figure 7)展示了 π0π_0 与其他通才模型(OpenVLA, Octo)以及 π0π_0-small 的性能对比。

Fig. 12: We evaluate a range of complex and temporally extended tasks. This includes: folding laundry from a bin with a stationary (a) or mobile (b) robot, bussing a real lunch table (c), assembling…

数据呈现 (转录自 Figure 7): 为了便于分析,我们将图中的核心数据转录为表格(分数表示平均任务进度):

模型 叠衬衫 清理(简易) 清理(困难) 打包杂货 取吐司 平均分
π0π_0 (完整训练) ~0.95 ~0.98 ~0.75 ~0.85 ~0.90 ~0.89
π0π_0 (计算对齐版) ~0.80 ~0.85 ~0.55 ~0.70 ~0.80 ~0.74
π0π_0-small ~0.50 ~0.60 ~0.25 ~0.55 ~0.45 ~0.47
OpenVLA (UR5e-only) ~0.20 ~0.30 ~0.10 ~0.25 ~0.15 ~0.20
OpenVLA (全数据) ~0.05 ~0.10 ~0.02 ~0.08 ~0.05 ~0.06
Octo ~0.15 ~0.20 ~0.05 ~0.10 ~0.10 ~0.12

分析:

  • π0π_0 表现卓越: 完整训练的 π0π_0 在所有任务上都取得了远超其他基线的性能,在简单任务上接近完美。这证明了其架构和大规模预训练的有效性。
  • 架构优势: 即使是只训练了部分步数的“计算对齐版”π0π_0,其性能也显著优于 OpenVLA 和 Octo。这表明 π0π_0流匹配+动作专家架构本身就比 OpenVLA 的自回归架构和 Octo 的小模型架构更适合这些灵巧任务。OpenVLA 在高频、多实体数据上表现不佳,说明其架构难以适应这种复杂性。
  • VLM 预训练的价值: π0π_0 及其计算对齐版均显著优于没有VLM预训练的 π0π_0-small,凸显了继承自 VLM 的互联网规模知识对于机器人理解任务和场景的重要性。

6.1.2. 语言指令跟随能力评估

这个实验评估模型理解并执行一系列连续、细粒度语言指令的能力。实验对比了有VLM预训练的 π0π_0 和没有VLM预训练的 π0π_0-small。

下图(原文 Figure 9)展示了实验结果。

Fig. 14: Flow matching timestep sampling distribution. We sample \(\\tau\) from a shifted beta distribution that emphasizes lower timesteps (corresponding to noisier actions), and does not sample timest…

分析:

  • π0π_0 语言能力更强: 从左图“Language Following Accuracy”可以看出,π0π_0 在理解和正确执行单个语言指令上的准确率(约80-90%)远高于 π0π_0-small(约40-60%)。这直接证明了 VLM 预训练对于提升模型语言理解能力的巨大作用。
  • 语言能力转化为任务性能: 在右图“Average Task Progress”中,当接收来自人类专家的连续指令时(human 条件),π0π_0 的任务完成度大幅提升,而 π0π_0-small 提升有限。这说明 π0π_0 能有效利用更详细的语言指导来更好地完成任务。
  • 自主规划潜力: 当使用一个上层 VLM 自动生成指令时(-HL 条件),π0π_0 同样展现了性能提升,实现了完全自主的、分步式的任务执行。这为构建“思考+行动”的层级式机器人智能系统提供了可能。

6.1.3. 学习新灵巧任务的能力评估

这个实验评估模型在预训练数据中未见过的新任务上的学习能力。通过在不同量级(1小时、5小时等)的新任务数据上进行微调,来测试模型的数据效率 (data efficiency)迁移学习 (transfer learning) 能力。

下图(原文 Figure 11)展示了部分结果。

该图像是论文中体系结构示意图,展示了基于预训练视觉语言模型(VLM)和动作专家的多模态机器人控制流程,结合了π数据集和互联网预训练,实现对多种机械臂的语言指导动作生成。

分析:

  • π0π_0 数据效率高: 在所有新任务上,π0π_0(预训练+微调)的性能普遍优于所有基线,包括专为此类任务设计的 ACT 和 Diffusion Policy。特别是在数据量极少(如1小时)的情况下,π0π_0 依然能达到不错的性能,显示出极高的数据效率。
  • 预训练的价值再次被证明: 比较 π0π_0pre-trained)和从零训练的 π0π_0from scratch),前者几乎在所有条件下都表现更好。这说明大规模预训练提供的通用知识能够有效迁移到新任务上,加速学习过程并提升最终性能。对于与预训练任务相似度较高的“简单”任务(如叠碗),预训练的优势更加明显。

6.1.4. 掌握复杂多阶段任务

这是论文最令人印象深刻的部分,展示了 π0π_0 在经过充分微调后,解决一系列极具挑战性的长时程任务的能力。

下图(原文 Figure 12)展示了这些复杂的任务。

该图像是两个饼状图,用于展示不同机器人平台在训练数据中的比例分布。左图以51%为最大份额代表Bimanual ARX,右图同样展示各平台的细分比例,最高为34.2%。 该图像是两个饼状图,用于展示不同机器人平台在训练数据中的比例分布。左图以51%为最大份额代表Bimanual ARX,右图同样展示各平台的细分比例,最高为34.2%。

下图(原文 Figure 13)展示了在这些任务上的量化结果,比较了完整模型、仅预训练模型(开箱即用)和从零训练模型。

Fig. 5: The robots used in our experiments. These include single and dual-arm manipulators with 6-DoF and 7-DoF arms, as well as holonomic and nonholonomic mobile manipulators. \(\\pi _ { 0 }\) is train…

分析:

  • 成功解决前沿难题: π0π_0 在叠衣服、移动机器人叠衣服、清理真实餐桌、组装盒子、打包鸡蛋等任务上都取得了超过 50% 的成功率,在部分任务上甚至更高。考虑到这些任务的巨大难度(涉及可变形物体、精细操作、长时序逻辑),这是一个重大的技术突破。
  • “预训练+微调”范式的胜利: 从图表中可以清晰地看到,完整的 π0π_0 模型(蓝色条) 在几乎所有任务上都显著优于从零训练(绿色条)开箱即用(橙色条)的变体。
    • scratch vs fullfrom scratch 模型性能普遍较差,说明仅靠任务数据不足以解决这些复杂问题。预训练带来的广博知识是不可或缺的。
    • out-of-box vs fullout-of-box 模型虽然具备基本能力,但性能远不如经过微调的 full 模型。这说明高质量的后训练(微调)对于教会模型如何精通 (master) 一个任务至关重要。
  • 协同效应: 实验结果完美地印证了作者的假设:预训练提供了广度(处理各种意外情况的能力),后训练提供了深度(高效流畅地执行任务策略),两者结合才能实现最佳性能。

7. 总结与思考

7.1. 结论总结

这篇论文提出并验证了一个名为 π0π_0 的通用机器人控制框架,其核心贡献和发现可以总结如下:

  1. 架构创新: 论文成功地将预训练 VLM 的强大语义理解能力与流匹配生成模型的连续高精度动作生成能力相结合,创造了一种新颖的 VLA 模型架构。其中的“动作专家”设计有效地平衡了知识继承与新技能学习。

  2. 范式验证: 论文有力地证明了“大规模、多样化预训练 + 高质量、任务化后训练”是构建机器人基础模型的有效范式。预训练赋予模型广泛的通用知识和鲁棒性,而后训练则将其塑造为特定任务的“专家”,两者缺一不可。

  3. 性能突破: π0π_0 在一系列前所未有之复杂的、长时程的、需要高度灵巧性的真实世界机器人任务上取得了最先进的性能,显著推动了通用机器人操作技术的发展边界。

    总而言之,π0π_0 不仅是一个具体的模型,更是一个可行的、可扩展的蓝图,为未来构建更强大、更通用的机器人基础模型指明了方向。

7.2. 局限性与未来工作

尽管取得了巨大成功,作者也坦诚地指出了当前研究的局限性和未来的研究方向:

  • 预训练数据的构成: 如何最优地组合预训练数据集仍然是一个开放问题。并非所有数据都是平等的,哪些类型的数据更有价值?不同数据源之间应该如何加权?这些问题尚不清楚。
  • 性能的可预测性: 目前还很难预测要让一个新任务达到接近完美的性能,到底需要多少、以及什么样的数据。这使得将该技术应用到新问题时,成本和周期难以估计。
  • 通用性的边界: 尽管模型在多种操作任务上表现出强大的通用性,但这种通用性是否能扩展到更广泛的机器人领域,如自动驾驶、导航或腿式机器人运动,仍有待探索。这些领域的动态和控制需求与机械臂操作有很大差异。
  • 任务失败的分析: 论文展示了高成功率,但对于失败案例的深入分析还不够。理解模型为什么失败,以及如何通过数据或模型改进来解决这些失败,是未来提升鲁棒性的关键。

7.3. 个人启发与批判

这篇论文给我带来了深刻的启发,同时也引发了一些批判性思考:

启发:

  1. “大力出奇迹”在机器人领域的体现: 这项工作再次印证了“规模定律 (Scaling Law)”的威力。就像在 NLP 领域一样,通过扩大模型规模、数据规模和计算投入,机器人学习也能够实现从量变到质变的飞跃。它坚定了通过构建大规模基础模型来实现通用人工智能(AGI)在物理世界的延伸这一技术路线的信心。
  2. 架构设计的“巧劲”: 论文并非盲目堆砌参数,其“动作专家”的设计非常精妙。它揭示了一个重要思想:在利用大型预训练模型时,可以通过增加小型、专门的“适配器”或“专家”模块来高效地注入新能力,而不是对整个大模型进行伤筋动骨的改造。这对于未来在现有基础模型上进行扩展和定制具有重要借鉴意义。
  3. 模仿学习的潜力被重新定义: 长期以来,模仿学习被认为上限不高,因为它只能模仿演示数据中的行为。但本文表明,当模仿学习的数据规模达到前所未有的量级时,模型能够从中“涌现”出惊人的泛化能力和问题解决能力,甚至能组合出数据中未明确展示的复杂行为序列。

批判性思考:

  • 对数据的依赖过重: 整个框架仍然建立在模仿学习 (Imitation Learning) 的基础上,即学习人类操作员的演示。这意味着模型的性能上限受限于演示数据的质量和覆盖范围。对于那些人类难以演示或演示成本极高的任务,该方法可能无能为力。未来,将这种大规模模仿学习与强化学习 (Reinforcement Learning) 或其他自我探索机制相结合,可能是让机器人超越人类演示、发现新技能的关键。
  • 安全与可解释性问题: 随着模型变得越来越强大和“黑箱”,如何保证其行为的安全性、可预测性和可解释性变得愈发重要。一个在叠衣服时出错的机器人可能问题不大,但一个在与人交互或操作危险物品时出错的机器人则可能造成严重后果。这篇论文并未深入探讨这些问题。
  • 硬件的“隐藏门槛”: 尽管论文中部分硬件成本不高,但要复现如此大规模的实验,对机器人硬件的多样性、稳定运行能力以及数据收集基础设施的要求极高。这构成了一个普通学术实验室难以逾越的“隐藏门槛”,可能导致该领域的研究越来越集中在少数几家资金雄厚的公司或机构中。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。