GR00T N1: An Open Foundation Model for Generalist Humanoid Robots
TL;DR 精炼摘要
本文提出GR00T N1,一个面向通用人形机器人的开放式视觉-语言-动作基础模型。它结合了推理模块和动作生成模块,通过端到端训练和数据金字塔策略,使用异构数据源有效训练。实验结果显示,该模型在仿真基准上优于现有模仿学习方法,展现了高性能与数据效率。
摘要
General-purpose robots need a versatile body and an intelligent mind. Recent advancements in humanoid robots have shown great promise as a hardware platform for building generalist autonomy in the human world. A robot foundation model, trained on massive and diverse data sources, is essential for enabling the robots to reason about novel situations, robustly handle real-world variability, and rapidly learn new tasks. To this end, we introduce GR00T N1, an open foundation model for humanoid robots. GR00T N1 is a Vision-Language-Action (VLA) model with a dual-system architecture. The vision-language module (System 2) interprets the environment through vision and language instructions. The subsequent diffusion transformer module (System 1) generates fluid motor actions in real time. Both modules are tightly coupled and jointly trained end-to-end. We train GR00T N1 with a heterogeneous mixture of real-robot trajectories, human videos, and synthetically generated datasets. We show that our generalist robot model GR00T N1 outperforms the state-of-the-art imitation learning baselines on standard simulation benchmarks across multiple robot embodiments. Furthermore, we deploy our model on the Fourier GR-1 humanoid robot for language-conditioned bimanual manipulation tasks, achieving strong performance with high data efficiency.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots(面向通用人形机器人的开放式基础模型 GR00T N1)
1.2. 作者与机构
论文作者隶属于 NVIDIA(论文首页标注“NVIDIA”)。作者团队覆盖模型训练、仿真与真实机器人实验、视频生成与数据基础设施等多条技术线,涉及的研究背景包括视觉-语言-动作模型(VLA)、扩散变换器(DiT)、人形机器人操控、合成数据生成与大规模分布式训练。
1.3. 发表渠道与年份
- 渠道:arXiv 预印本
- 发表时间:2025-03-18(UTC)
- 状态:预印本(尚未经过同行评审的正式会议/期刊发表)
1.4. 摘要
本文提出 GR00T N1,这是一种面向人形机器人的开放式基础模型,采用视觉-语言-动作(Vision-Language-Action, VLA)范式与双系统架构:
-
System 2(推理模块):使用预训练视觉-语言模型(Vision-Language Model, VLM)理解场景与语言指令。
-
System 1(动作模块):使用“扩散变换器(Diffusion Transformer, DiT)+流匹配(flow matching)”生成高频流畅的运动控制(120Hz)。
两模块通过跨注意力紧耦合并端到端联合训练。数据上提出“数据金字塔”,从大量网络与人类视频(低层)、合成与仿真数据(中层)到真实机器人轨迹(顶层)分层构建,并通过“潜在动作(Latent Actions)”与“逆动力学模型(Inverse Dynamics Model, IDM)”为无动作标签的视频注释出伪动作,实现全源数据统一。实验表明,GR00T N1在多机器人形态的标准仿真基准上优于最先进模仿学习基线;在 Fourier GR-1 人形机器人上的语言条件双手操控任务也取得强性能与高数据效率。
1.5. 原文链接
2. 整体概括
2.1. 研究背景与动机
- 背景:类 ChatGPT 的“基础模型(Foundation Models)”在文本与视觉领域显著推进了泛化与下游适应。然而机器人领域缺少规模与多样性足够的“具身数据”(embodied data),且不同机器人形态(embodiment)之间差异巨大,数据呈“孤岛”状态,难以训练真正的通用机器人模型。
- 核心问题:
- 如何设计一个既能语言推理、又能高频闭环动作控制的统一模型?
- 如何用异构的、跨形态的数据源高效训练,缓解真实人形机器人数据稀缺与昂贵的问题?
- 动机与切入点:
-
架构上:借鉴人类“快慢系统(Kahneman, 2011)”,将“慢思考(System 2)”用于视觉与语言理解,“快反应(System 1)”用于实时动作生成,并在单模型内紧耦合。
-
数据上:提出“数据金字塔”统一收敛,结合“潜在动作预训练(Latent Action Pretraining, LAPA)”与“逆动力学模型(IDM)”给无动作标签视频赋予可训练的伪动作,打通数据源。
下图(原文 Figure 1)展示了“数据金字塔”概念:
该图像是示意图,展示了GR00T N1机器人的数据金字塔结构。底部为网络数据及人类视频,包括Common Crawl和Wikipedia等,接着是合成数据,最顶层为真实世界数据,如机器人操作的图像,数据量逐渐减少而特定性逐渐增加。
-
2.2. 核心贡献/主要发现
- 模型贡献:
- 提出双系统 VLA 架构:System 2(VLM)进行语言与视觉理解,System 1(DiT+flow matching)进行动作生成;两者通过跨注意力联通并联合训练。
- 设计具身感知-动作的“形态感知编码器(embodiment-aware encoders/decoders)”,统一处理不同机器人形态的状态与动作维度。
- 数据与训练贡献:
- 提出“数据金字塔”与统一数据格式,将人类视频、仿真合成与真实机器人轨迹进行端到端联合预训练与后训练(fine-tuning)。
- 发明性地使用“潜在动作(VQ-VAE)+逆动力学模型(IDM)”给无动作标签的视频生成伪动作,实现跨源统一监督。
- 大规模训练基础设施(OSMO、H100/Quantum InfiniBand),并开源模型检查点与基准。
- 实验发现:
- 在三大仿真基准(RoboCasa、DexMimicGen、GR-1 Tabletop)上,平均成功率显著优于 BC-Transformer 与 Diffusion Policy。
- 在真实 GR-1 人形机器人双手操控任务上,GR00T-N1-2B 以仅 10% 数据微调即可逼近或超越基线的全数据训练,体现数据效率。
- 合成“神经轨迹(Neural Trajectories)”与真实数据共同后训练带来进一步增益。
3. 预备知识与相关工作
3.1. 基础概念
- 视觉-语言-动作模型(Vision-Language-Action, VLA):端到端从图像/视频与语言指令输入,输出低级动作控制(如关节位置/速度、末端位姿、夹爪状态)的模型。
- 视觉-语言模型(Vision-Language Model, VLM):将图像编码为视觉词元(token),与文本词元在同一主干网络(backbone)中融合推理(如 Eagle-2)。
注意:token在大模型语境应译为“词元(token)”,代表最小的离散处理单位。 - 扩散变换器(Diffusion Transformer, DiT):将扩散模型的去噪过程与 Transformer 结构结合,通过条件化(如去噪步、跨注意力)生成序列数据(本文为动作序列)。
- 流匹配(flow matching):一种生成建模训练目标,通过学习从噪声到数据的向量场(vector field),实现快速稳定的采样与训练收敛。
- 形态(embodiment):在机器人学中指机器人的具体体型与执行器配置(如单臂、双臂+并联夹爪、双臂+灵巧手的人形),涉及不同的状态/动作维度。
- 逆动力学模型(Inverse Dynamics Model, IDM):给定轨迹中的前后观测(如当前帧与未来帧),预测能够在这一时间窗口将系统从当前状态驱动到未来状态的动作序列。
- 潜在动作预训练(Latent Action Pretraining, LAPA):使用 VQ-VAE 等学习将图像对(当前帧、未来帧)映射为“潜在动作”,以统一不同数据源的运动表达。
3.2. 前人工作与技术演进
- 机器人基础模型两路线:
- 使用“黑箱”基础模型做高层推理 + 低层策略拼装(如 RT-2、PaLM-E、Code-as-Policies):优点是快速利用互联网知识,缺点是难以端到端优化到低级控制。
- 端到端 VLA 模型(如 OpenVLA、π0):将视觉与语言与动作联合训练,更贴近部署需求。
- 数据层面:
- 大规模真实机器人示范(RT-1/RT-X、DROID、BridgeData 等)提高了多任务学习的广度,但跨形态统一仍困难。
- 合成仿真数据扩增(MimicGen、DexMimicGen)降低采集成本,弥补真实数据不足,但存在“仿真到现实差距(sim-to-real gap)”。
- 人类视频用于预训练(Ego4D、EPIC-KITCHENS 等)可移植“行为先验”,但缺动作标签。近年工作探索通过中间表示(轨迹点、潜在动作)打通人类视频与机器人控制。
3.3. 差异化分析
- 架构差异:本文不采用“专家混合(Mixture-of-Experts)”桥接,而用简单直接的跨注意力将 VLM 输出词元与动作生成模块对接,便于灵活替换/升级 VLM 与动作模块。
- 数据策略:以“数据金字塔”统一,多源联合预训练 + 后训练,并通过 LAPA/IDM 给视频打标签,实质性缓解“数据孤岛”,支持跨形态。
- 控制层面:动作生成采用 DiT+flow matching 与“动作分块(action chunking, H=16)”的高频闭环控制;同时提供“形态感知编码器/解码器”对齐不同维度。
4. 方法论
4.1. 总体架构与原理
GR00T N1 是一个双系统的 VLA 模型:
-
System 2(视觉-语言推理):使用 Eagle-2(VLM 主干网络)对输入图像与文本指令进行融合编码,输出中间层词元(本文选第 12 层表示,经验上更快且成功率更高)。
-
System 1(动作生成):使用 DiT(带去噪步条件的 Transformer),对“噪声动作 + 形态感知状态编码”做自注意力、对“VLM 词元”做跨注意力,最终通过形态特定的动作解码器输出动作分块(H=16)。
下图(原文 Figure 2)展示了模型概览:
该图像是GR00T N1模型概述的示意图,展示了一个视觉-语言-动作(VLA)模型的双系统架构。该模型通过视觉观察和语言指令生成运动动作。具体而言,图中展示了如何将图像和文本转化为序列标记,并通过视觉语言模型(VLM)输出,从而驱动扩散变换器生成实时的电机动作。
下图(原文 Figure 3)展示了详细架构与形态感知编码器:
该图像是GR00T N1模型架构示意图,展示了该模型如何通过视觉编码器、文本标记器和状态编码器等模块,将机器人状态和动作与视觉-语言模型Eagle-2结合。信息通过自注意力机制在DiT块中处理,以生成最终的运动动作。
4.2. 输入与编码(逐层解释)
4.2.1. 视觉-语言模块(System 2)
- 图像编码:使用 SigLIP-2 图像编码器(Eagle-2 组件),输入分辨率 ,经 pixel shuffle(子像素卷积思想)得到每帧 64 个图像词元。
- 文本编码:使用 SmolLM2 微调得到的 LLM(Eagle-2 组件)与图像词元对齐;训练时采用“对话(chat)格式”输入任务指令与图像帧序列。
- 表示选择:实验选用 LLM 中间层(第 12 层)作为视觉-语言融合特征 ,形状为(批大小 × 序列长度 × 隐层维度),兼顾推理速度与下游成功率。
4.2.2. 状态与动作编码(形态感知)
- 由于不同形态的状态/动作维度不同,使用每种形态专属的 MLP 编码器,将状态向量 与“带噪动作分块” 投影到共享嵌入维度,便于统一在 DiT 中处理。
- 扩散时步与噪声:动作编码器同时接收扩散时步( 或离散步索引)与噪声向量(见下文去噪公式)。
4.3. 动作生成的流匹配(核心公式与解释)
本文采用“动作流匹配(action flow matching)”训练 DiT 去噪向量场,从带噪动作恢复到真实动作。
-
动作分块与时间窗:在任意时刻 ,处理动作分块 其中 为窗口长度(动作步数)。
-
加噪过程:给定真实动作分块 、流匹配时步 与采样噪声 ,构造带噪动作分块 符号解释:
- :真实动作分块。
- :连续的去噪时步(类似扩散过程中的噪声强度因子)。
- :各向同性高斯噪声。
- :在时步 下的带噪动作分块。
-
去噪向量场学习:DiT 记为 ,输入视觉-语言词元 、带噪动作 与状态编码 ,输出向量场估计,优化以下流匹配损失: 符号解释:
- :DiT 的去噪向量场预测(条件于视觉-语言与状态)。
- :目标向量场(从数据指向噪声的反向,等价地学习从噪声指向数据)。
- :对时步分布的期望。
-
时步分布:采用与 Black et al. (2024) 一致的分布 解释:对 的采样采用经过平移缩放的 Beta 分布,有利于训练稳定与采样质量。
-
推理(采样)过程:以 步欧拉积分生成动作分块。初始化 然后迭代更新 实践中 在各形态下表现良好。
符号解释:- :当前迭代的动作分块。
- :步长(均分 0→1 的积分区间)。
- 前向欧拉:用当前向量场值做一次显式前向步进。
4.4. 训练数据统一:潜在动作与逆动力学
4.4.1. 潜在动作(LAPA, VQ-VAE)
-
问题:人类视频与神经生成视频缺少可直接监督的动作标签。
-
解法:训练一个 VQ-VAE,将视频的当前帧 与未来帧 输入编码器,输出连续嵌入,映射到码书最近项得到潜在动作 ;解码器以 重构 。训练后,使用编码器的“量化前连续嵌入”作为潜在动作标签,在 GR00T N1 预训练时将其视为一个独立“形态”(LAPA embodiment)。这样不同来源的视频共享一个学习到的“潜在动作空间”,促进跨形态泛化。
图示(原文 Figure 4)显示跨形态检索到相似潜在动作的一致性:
该图像是示意图,展示了GR00T N1在不同场景下的双手协作能力。左侧展示了机器人在操作红色盒子和厨房环境的图例,右侧则显示了机器人在切菜和清洗器具等任务中的表现,体现了其强大的数据效率和学习能力。
该图像是示意图,展示了 GR00T N1 模型应用于双手操控任务的多个场景。这些场景包括处理物体、调整物体位置以及在各种环境中执行任务,展现了模型的多样性和灵活性。
4.4.2. 逆动力学模型(IDM)
- 另一路为针对机器人数据训练 IDM:条件于两帧图像(当前与未来),预测其中的动作分块(同样以 flow matching 目标训练一个 DiT 结构)。
- 对神经生成视频或部分真实数据,使用 IDM 标注伪动作,与潜在动作标签共同参与联合训练/后训练。
4.5. 合成神经轨迹与仿真数据
-
神经轨迹(Neural Trajectories):微调开放源的图到视频(Image-to-Video)生成模型(WAN2.1-I2V-14B,LoRA)在真实机器人数据上,以新语言提示生成包含接触与操控的机器人视频(每段 81 帧,480P)。再用 LAPA/IDM 注释伪动作,作为训练数据。
-
规模:约 827 小时视频;生成耗时约 105k L40 GPU 小时(约 1.5 天 × 3600 L40)。
-
生成质量控制:使用商用多模态 LLM 做 8 帧抽检的“指令遵循判定”,失败的进行重标注(re-caption)。
-
多视角任务:对多视角条件任务,微调视频模型生成多子图视角。
合成视频示例(原文 Figure 6):
该图像是一个展示机器人执行语言指令的示意图。机器人依据不同的提示,在多个场景中完成拾取和移动物品的任务,包括从切板取物、将物品放入篮子或微波炉等。该系列图像展示了机器人的灵活性和对语言指令的反应能力。
-
-
仿真轨迹(Simulation Trajectories):使用 DexMimicGen(以及 MimicGen)从少量人示范出发,自动化生成大规模双手/灵巧操控轨迹。
-
规模:累计生成约 780,000 条仿真轨迹(约 6500 小时),仅用 11 小时。
-
任务框架:RoboCasa 等“从源 receptacle 到目标 receptacle 的重排”。
仿真任务渲染(原文 Figure 7):
该图像是插图,展示了多种机器人执行的语言条件双手操作任务,包括捡拾和放置、关闭炉灶、设置杯子等。图中涵盖了不同的操控示例,展示了机器人在厨房环境中的灵活性和效率。
-
4.6. 训练细节与辅助目标
- 预训练:跨三层数据(金字塔)混合采样,端到端联合优化 VLM 中间层到 DiT,语言 tokenizer 冻结,视觉编码器与 DiT 不冻结。
- 后训练(fine-tuning):在具体形态/任务数据上微调,保持 VLM 的语言部分冻结。
- 辅助检测损失(提升空间理解):对每帧用 OWL-v2 进行目标框检测,预测归一化中心坐标,损失
符号解释:
- :由检测器产生的目标中心的归一化坐标(
x/w,y/h)。 - :在 VLM 词元上接线性层预测的坐标。
- :由检测器产生的目标中心的归一化坐标(
4.7. 系统工程与标准化
- 训练基础设施:NVIDIA OSMO 编排、H100 GPU、Quantum InfiniBand fat-tree、Ray 分布式;单模型最高 1024 GPU;GR00T-N1-2B 预训练约 50,000 H100 GPU 小时。
- 统一数据格式:在 LeRobot 基础上扩展 modality.json,显式定义状态/动作的语义维度、旋转类型(四元数/Euler/轴角),支持多注释类型与严格校验。
- 标准化动作空间:
- 状态末端旋转归一化为 6D 表示(避免 Euler 奇异性)。
- 动作旋转用轴角(axis-angle)表示。
- 位置与旋转做 min-max 归一化。
- 向量排列统一顺序(左臂→右臂,旋转→位置→夹爪闭合)。
5. 实验设置
5.1. 数据集
- 真实机器人数据:
- 内部 GR-1 人形机器人遥操作数据:使用 VIVE Ultimate Tracker(手腕 6DoF)与 Xsens Metagloves(手指),通过逆运动学(IK)重定向到机器人动作;包含层次化注释(原子/高层动作)。
- Open X-Embodiment 子集(RT-1、Bridge-v2、Language Table、DROID、MUTEX、RoboSet、Plex)。
- AgiBot-Alpha(多机器人协作与工具使用)。
- 合成数据:
- 仿真(RoboCasa、DexMimicGen):双手/灵巧的重排与器件操控。
- 神经视频:WAN2.1 I2V 生成,并用 LAPA/IDM 标注伪动作。
- 人类视频:
-
Ego4D、Ego-Exo4D、Assembly-101、EPIC-KITCHENS、HOI4D、HoloAssist、RH20T-Human(面向抓取、工具使用、烹饪、装配等丰富的人-物交互)。
人类视频样例(原文 Figure 14):
该图像是人类自我中心视频数据集样本,展示了七个不同的人类视频数据集的示例及其对应的语言注释。这些图像用于预训练GR00T N1模型,以帮助机器人理解和执行多样化任务。
-
5.2. 评估指标(概念-公式-符号解释)
- 策略成功率(Policy Success Rate)
- 概念定义:在给定任务与试次下,策略成功完成任务(满足终止与判定条件)的比例。
- 数学公式:
- 符号解释:
- :成功试次数。
- :总试次数。
- 平均成功率(跨任务/类别)
- 概念定义:对多个任务或类别的成功率求算术平均,刻画整体表现。
- 数学公式:
- 符号解释:
- :任务或类别数量。
- :第 个任务/类别的成功率。
- 工业“Pack Machinery”特例(限时 30 秒、5 个件数)
- 概念定义:在限定时间内成功放入的件数比例(等价成功率的计件版本)。
- 数学公式:
- 符号解释:
- :成功放入的零件/工具数量(最多 5)。
5.3. 仿真与真实基准
- 仿真:
- RoboCasa Kitchen(24 个原子任务,Franka Panda,3 路 RGB 观察)。
- DexMimicGen Cross-Embodiment(9 个双手/灵巧任务,三种形态:双 Panda 并联夹爪、双 Panda 灵巧手、GR-1 人形机器人)。
- GR-1 Tabletop(24 个任务,更多物体与分布,包含可动部件如抽屉/柜子/微波炉)。
- 真实:
-
四类桌面操控:Pick-and-Place、Articulated(带抽屉/柜等)、Industrial(装配/倾倒/接力)、Multi-Agent Coordination(两机器人协作)。
真实任务示例(原文 Figure 8,论文中给出多图示例;下列两图展示部分场景):
该图像是一个示意图,展示了GR00T N1机器人在进行语言条件下的双手操作任务的过程。图中的三个画面分别显示了机器人从桌面上抓取一个球并放入一个黄色容器的动作,展示了其灵活性和数据效率。
该图像是一个示意图,展示了人形机器人在进行语言引导的双手操作任务的不同步骤。图中可见机器人以流畅的运动操控多个物体,体现了GR00T N1模型的应用效果。
-
5.4. 对比基线
- BC-Transformer(RoboMimic):Transformer 处理观察序列,动作用高斯混合模型(GMM)建模,输入 10 帧、预测 10 步。
- Diffusion Policy:U-Net 逐步去噪生成动作(16 步),条件于当前观察(单帧或短序列)。
6. 实验结果与分析
6.1. 仿真结果(核心表格)
以下是原文 Table 2 的结果(每任务 100 示范,跨 3 基准的平均成功率):
| RoboCasa | DexMG | GR-1 | Average | |
|---|---|---|---|---|
| BC Transformer | 26.3% | 53.9% | 16.1% | 26.4% |
| Diffusion Policy | 25.6% | 56.1% | 32.7% | 33.4% |
| GROOT-N1-2B | 32.1% | 66.5% | 50.0% | 45.0% |
分析:
- GR00T-N1-2B 在三项基准均优于两基线,平均提升显著(约 +11.6% 相对 Diffusion Policy)。
- 在 GR-1 Tabletop 上优势尤其明显(50.0% vs 32.7%,+17.3%),说明在人形与灵巧操控上,双系统架构与跨源预训练带来更强泛化。
6.2. 真实机器人结果(核心表格)
以下是原文 Table 3 的结果(GR-1 真实机器人四类任务,报告 10 次试验平均成功率;“10% Data”为仅用 10% 人类遥操作数据后训练):
| Pick-and-Place | Articulated | Industrial | Coordination | Average | |
|---|---|---|---|---|---|
| Diffusion Policy (10% Data) | 3.0% | 14.3% | 6.7% | 27.5% | 10.2% |
| Diffusion Policy (Full Data) | 36.0% | 38.6% | 61.0% | 62.5% | 46.4% |
| GROOT-N1-2B (10% Data) | 35.0% | 62.0% | 31.0% | 50.0% | 42.6% |
| GROOT-N1-2B (Full Data) | 82.0% | 70.9% | 70.0% | 82.5% | 76.8% |
分析:
- 仅用 10% 数据后训练,GR00T-N1-2B 的平均成功率(42.6%)几乎接近 Diffusion Policy 全数据(46.4%),体现强数据效率。
- 全数据后训练,GR00T-N1-2B 的平均成功率达到 76.8%,远超基线(+30.4%),且四类任务均显著提升,说明双系统架构在真实复杂任务(含双手与协作)更具优势。
6.3. 预训练能力与质性观察
-
预训练直接推理两类真实任务(左手→右手接力;新物体→新容器放置),GR00T-N1-2B 成功率分别为 76.6% 与 73.3%,说明大规模跨源预训练已带来强泛化的“操控先验”。
-
质性对比显示,GR00T-N1-2B 的动作更平滑、抓取更稳定;Diffusion Policy 常出现抓取不准或语义混淆。
两例质性可视化(原文 Figure 11 与 Figure 12):
该图像是图示,展示了GR00T-N1-2B模型在执行双手操作任务时的过程。机器人通过手的灵活运动将一个苹果放入篮子中,虽然动作有些生硬。此图帮助阐释模型在处理复杂任务时的表现。
该图像是图示,展示了GR00T-N1-2B和Diffusion Policy在从放置垫取黄瓜到篮子的任务中的表现。图中上方是GR00T-N1-2B成功将黄瓜放入篮子,而下方的Diffusion Policy因抓取不准确而未能完成任务。
6.4. 使用神经轨迹的消融
下图(原文 Figure 9)展示在 RoboCasa(30/100/300 示范)与真实低数据(10%)场景,合训神经轨迹带来增益:
该图像是图表,展示了在RoboCasa模拟和真实GR-1人形机器人上的成功率比较。图中包含不同演示数量下,GR00T N1-2B模型与Diffusion策略及其他组合的表现。具体而言,展示了在低数据(30,100,300演示)的情况下,成功率的变化趋势。
- 在 RoboCasa:30/100/300 三档,合训神经轨迹的平均提升分别为 +4.2%、+8.8%、+6.8%。
- 在真实 GR-1:8 个任务,低数据条件下平均提升 +5.8%。
- LAPA vs IDM 标签:低数据时 LAPA 略优;数据更丰富时 IDM 逐渐优于 LAPA,合理性在于 IDM 伪动作与真实机器人动作分布更吻合。
6.5. 关键超参数与训练设定
以下是原文 Table 6 的主要训练超参数(预训练与后训练基本一致):
| 超参数 | 预训练取值 | 后训练取值 |
|---|---|---|
| Learning rate | 1e-4 | 1e-4 |
| Optimizer | AdamW | AdamW |
| Adam beta1 | 0.95 | 0.95 |
| Adam beta2 | 0.999 | 0.999 |
| Adam epsilon | 1e-8 | 1e-8 |
| Weight decay | 1e-5 | 1e-5 |
| LR scheduler | cosine | cosine |
| Warmup ratio | 0.05 | 0.05 |
| Batch size | 16,384 | 128 或 1024 |
| Gradient steps | 200,000 | 20,000 - 60,000 |
| Backbone 视觉编码器 | unfrozen | 视任务可冻结/微调 |
| Backbone 文本 tokenizer | frozen | frozen |
| DiT | unfrozen | unfrozen |
- 推理性能:在 L40 GPU 上采样 16 步动作分块的时间为 63.9 ms(bf16),可支持 120Hz 控制闭环。
- 训练资源:GR00T-N1-2B 预训练约 50k H100 GPU 小时;后训练支持 A600 单卡小批次。
7. 总结与思考
7.1. 结论总结
- 架构层面:提出双系统 VLA,将“视觉-语言理解(System 2)”与“高频动作生成(System 1)”在统一 Transformer 框架下跨注意力耦合,并端到端联合优化。
- 数据层面:提出“数据金字塔”与跨源统一(人类视频、仿真合成、神经视频、真实机器人),通过 LAPA 与 IDM 给无标签视频注动作伪标签,显著缓解具身数据稀缺。
- 结果层面:在仿真与真实任务上均显著优于强基线,且展现高数据效率;使用神经轨迹合训进一步提升。
7.2. 局限性与未来工作
- 任务范围:当前主要聚焦短时桌面操控,尚未覆盖长时“行走+操控(loco-manipulation)”与更复杂场景。
- 合成数据质量:视频生成的物理一致性与多样性仍受限(液体/可动件更难),未来需更强“世界模型”与物理约束。
- 形态泛化与统一控制:尽管采用形态感知编码器,跨更大差异形态(移动平台、柔性手、触觉融合)仍需探索。
- 推理速度与资源:System 2+1 的联合在大规模场景下对算力要求高,未来可研究蒸馏与高效子网络(如 TinyVLA)。
7.3. 个人启发与批判
- 启发:
- “双系统”与“数据金字塔”的组合,是构建机器人基础模型的可行范式:上层用互联网规模的视觉-语言通识,下层用流匹配的高频闭环控制。
- LAPA/IDM 打通无动作视频与机器人控制,提供了一条低成本扩增数据的路径。
- 可迁移:
- 该范式可迁移到多模态具身智能体(agent)如移动导航+操控、多人机协作等;也可在工业场景中用“神经轨迹 + 真实少量示范”快速适配新流程。
- 批判与改进空间:
-
对“伪动作”与真实动作分布差异的系统性度量与校正(如对齐损失、对抗学习)可进一步增强迁移。
-
对 System 2(VLM)的空间-时序理解与几何一致性仍可提升(如引入 3D-VLA、轨迹条件、可微物理)。
-
在长时任务中引入分层策略(高层子目标规划 + 低层动作流匹配)可能提升复杂任务的成功率与稳定性。
——
-
自检要点(遵循用户强制规范):
- 章节结构:严格 1–7 一级标题,二级/三级标题逐级递增。
- 术语翻译:如
token→词元、backbone→主干网络、policy→策略、agent→智能体、rollout→推演/策略执行过程。 - 图片引用:已在相关概念/结果处插入并说明(使用系统提供的本地文件名)。
- 表格:对核心结果表(Table 2、Table 3、Table 6)完整转录;未使用 Markdown 伪造跨列表头。
- 公式:完整呈现原文流匹配与采样等关键公式,未做替换或简化,并逐一给出符号解释。
- 方法讲解:公式与步骤已融合讲解,保持对原文的忠实与细致说明。
相似论文推荐
基于向量语义检索推荐的相关论文。