GWM: Towards Scalable Gaussian World Models for Robotic Manipulation
TL;DR 精炼摘要
本文提出了一种新颖的高斯世界模型(GWM),旨在解决现有机器人操控中的三维几何理解不足问题。GWM通过推断3D高斯基元的传播,结合潜在扩散变换器和3D变分自编码器,能够有效重建未来状态,增强模仿学习和支持基于模型的强化学习。实验证明其在模拟和现实场景中均能精准预测未来,显著提升策略学习性能。
摘要
GWM: Towards Scalable Gaussian World Models for Robotic Manipulation Guanxing Lu 1 , 2 ,⋆ , Baoxiong Jia 2 ,⋆, † , Puhao Li 2 ,⋆ , Yixin Chen 2 Ziwei Wang 3 , Yansong Tang 1 , † , Siyuan Huang 2 , † ⋆ Equal contribution † Corresponding author 1 Tsinghua University, 2 State Key Laboratory of General Artificial Intelligence, BIGAI 3 School of Electrical and Electronic Engineering, Nanyang Technological University gaussian-world-model.github.io Gaussian World Model Policy Network Human Policy Random Policy Conditioning Current RGB Image(s) Lifting Future Rollouts with 3D GS Online Model - based RL Offline Imitation Learning 𝓑 Rollout Buffer Policy Network 𝝅 𝜽 Environ. GWM Enc. 𝓑 Demo. Buffer Interaction Imagination ( 𝒔 𝒕 , 𝒂 𝒕 ) ( 𝒔 𝒕 , …
论文精读
中文精读
1. 论文基本信息
1.1. 标题
GWM: Towards Scalable Gaussian World Models for Robotic Manipulation (GWM:面向机器人操控的可扩展高斯世界模型)
1.2. 作者
- Guanxing Lu (清华大学, 通用人工智能国家重点实验室 BIGAI)
- Baoxiong Jia (通用人工智能国家重点实验室 BIGAI) - 通讯作者
- Puhao Li (通用人工智能国家重点实验室 BIGAI)
- Yixin Chen (通用人工智能国家重点实验室 BIGAI)
- Ziwei Wang (南洋理工大学)
- Yansong Tang (清华大学) - 通讯作者
- Siyuan Huang (通用人工智能国家重点实验室 BIGAI) - 通讯作者
1.3. 发表期刊/会议
ICCV 2025 (International Conference on Computer Vision)
- 声誉: ICCV 是计算机视觉领域的顶级会议之一(与 CVPR, ECCV 并列),具有极高的学术声誉和影响力。
1.4. 发表年份
2025年
1.5. 摘要
本文旨在解决现有基于图像的世界模型在机器人操控任务中缺乏三维几何理解的问题。作者提出了 高斯世界模型 (GWM),这是一种新颖的世界模型,通过推断机器人动作下 3D 高斯基元 (3D Gaussian Primitives) 的传播来重建未来状态。其核心结合了 潜在扩散变换器 (Latent Diffusion Transformer, DiT) 和 3D 变分自编码器 (3D VAE),实现了细粒度的场景级未来状态重建。GWM 既可以作为自监督的未来预测任务来增强模仿学习的视觉表征,也可以作为神经模拟器支持基于模型的强化学习 (MBRL)。实验表明,GWM 在模拟和现实世界中均能精确预测未来场景,并显著提升了下游策略学习的性能。
1.6. 原文链接
-
状态: 已正式发表于 ICCV 2025。
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 在机器人学习中,直接在现实世界中进行训练效率极低且昂贵。因此,在学习到的“世界模型”中训练策略成为趋势。
- 现有挑战 (Gap):
- 目前主流的世界模型大多基于 2D 图像(视频生成模型)。
- 虽然图像模型可以生成逼真的视频,但它们缺乏对三维世界的 几何 (geometric) 和 空间 (spatial) 理解。
- 机器人操控任务本质上是三维的物理交互,仅仅依靠 2D 像素预测容易受到光照、纹理变化的影响,且难以处理精确的物理接触。
- 现有的 3D 重建方法(如 NeRF, 3D-GS)通常需要针对每个场景进行离线优化,计算成本极高,难以直接应用于实时或大规模的机器人学习。
- 创新思路: 提出一种结合了 3D Gaussian Splatting (3D-GS) 的高效表示能力和 生成式扩散模型 (Diffusion Models) 强大概率建模能力的系统。通过将 3D 场景压缩到潜在空间并在其中模拟动力学,实现了兼顾 3D 几何一致性和可扩展性的世界模型。
2.2. 核心贡献/主要发现
-
提出 GWM (Gaussian World Model): 这是一个全新的 3D 世界模型,由高斯扩散变换器 (Gaussian Diffusion Transformer) 和高斯变分自编码器 (Gaussian VAE) 实例化,能够高效地建模动态场景。
-
端到端可扩展性: GWM 可以从无位姿 (unposed) 图像中学习,无需人工干预即可预测准确的未来状态和动力学。
-
通用性验证: 证明了 GWM 可以灵活集成到 离线模仿学习 (Offline Imitation Learning) 和 在线强化学习 (Online Reinforcement Learning) 中。
-
性能提升: 在两个具有挑战性的模拟环境(Meta-World, RoboCasa)中,GWM 相比之前的 SOTA 基线(如 iVideoGPT)性能提升了 16.25%。在真机实验(Franka PnP 任务)中,相比标准扩散策略提升了 30% 的成功率。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,初学者需要掌握以下三个核心概念:
-
世界模型 (World Model):
- 定义: 一个能够模拟环境动力学的内部模型。简单来说,给定当前状态 和动作 ,它可以预测下一个状态 。
- 作用: 机器人可以在这个“脑中模拟器”里试错,而不需要真的去动机械臂,从而大大提高学习效率并保证安全。
-
3D Gaussian Splatting (3D-GS):
- 定义: 一种新兴的 3D 场景表示方法。它不像网格 (Mesh) 那样用三角形,也不像 NeRF 那样用神经网络隐式表达,而是用成千上万个椭球体(高斯球)来表示场景。
- 参数: 每个高斯球由位置 、协方差 (决定形状)、颜色 和不透明度 定义。
- 优势: 渲染速度极快,且能保持高质量的视觉细节。
-
扩散模型 (Diffusion Model) 与 DiT (Diffusion Transformer):
- 扩散模型: 通过逐步去除噪声来生成数据。训练时学习给加噪的数据去噪,推理时从纯噪声中还原出数据。
- DiT: 将传统的卷积神经网络 (U-Net) 替换为 Transformer 架构来处理扩散过程,通常在处理序列数据或潜在空间数据时表现更好。
3.2. 前人工作
- 基于图像的世界模型: 如 IRIS, iVideoGPT。这些模型利用类似视频生成的架构(如 VQ-VAE + Transformer)来预测未来图像。
- 局限: 缺乏物理常识,容易产生视觉上合理但物理上不可能的幻觉(Hallucination)。
- 通用 3D-GS (Generalizable 3D-GS): 如 Splatt3R, pixelSplat。这些方法试图从单张或少量图片直接预测 3D 高斯参数,而不需要对每个场景进行漫长的优化。
- 关联: 本文使用了类似 Splatt3R 的技术作为编码器的前端。
3.3. 差异化分析
与 iVideoGPT (SOTA 图像世界模型) 相比,GWM 的核心区别在于:
-
状态空间: iVideoGPT 在 2D 图像的离散 Token 空间中预测;GWM 在 3D 高斯基元的连续潜在空间中预测。
-
几何感知: GWM 显式地建模了 3D 结构,因此在处理遮挡、物体接触和视角变化时更具鲁棒性。
4. 方法论
GWM 的核心思想是将世界状态表示为 3D 高斯集合,并利用扩散模型学习这些高斯集合在动作驱动下的演变。
下图(原文 Figure 2)展示了 GWM 的整体架构:
该图像是示意图,展示了高斯世界模型的构建过程,包括未配对图像、Gaussian Splats 和 3D VAE 模块,以及潜在扩散变换器的结构。图中还包含了从动作到高斯分布的变换。关键公式为 。
方法论分为三个主要步骤:世界状态编码、基于扩散的动力学建模、以及策略学习集成。
4.1. 世界状态编码 (World State Encoding)
这一步的目标是将输入的 2D 图像转化为紧凑的 3D 潜在表示。
步骤 1: 前馈 3D 高斯生成 (Feed-forward 3D-GS)
首先,模型需要从输入的单张或两张图像 中直接推断出 3D 场景。 作者使用了 Splatt3R [70] 方法。它首先利用 Mast3R [37] 生成 3D 点图 (point maps),然后预测每个点的 3D 高斯参数。 此时,我们得到了一组非结构化的 3D 高斯基元集合 ,包含中心、不透明度、协方差和颜色系数。
为了从这些 3D 高斯渲染回 2D 图像,使用以下公式计算像素颜色 C(G):
- 符号解释:
C(G): 渲染出的像素颜色。- : 按照深度排序后的高斯集合。
- : 第 个高斯的有效不透明度(考虑了 2D 投影权重)。
- : 球谐函数 (Spherical Harmonics),用于根据视角计算颜色。
- : 相机到高斯中心 的视线方向。
- : 球谐系数。
- : 透射率项,表示光线穿过前面
p-1个高斯后剩余的光量。
步骤 2: 3D 高斯变分自编码器 (3D Gaussian VAE)
直接使用原始的 进行动力学学习是不现实的,因为高斯的数量可能非常多且不固定。因此,作者设计了一个 VAE 将其压缩为固定长度的潜在嵌入 。
-
下采样: 使用最远点采样 (FPS) 从 中选出 个高斯作为锚点 。
-
编码 (Encoder ): 使用 Cross-Attention 机制,让这 个锚点去聚合原始所有高斯 的信息。
- 解释: 这里 作为查询 (Query, ),原始高斯 作为键和值 (Key/Value)。通过 层 Transformer 编码器,得到潜在变量 (也就是公式中的 )。
-
解码 (Decoder ): 使用 Self-Attention 将潜在变量还原为重建的高斯 。
-
VAE 损失函数: 训练 VAE 时,既要保证几何结构相似 (Chamfer Loss),又要保证渲染出的图像相似 (Rendering Loss)。
- 符号解释:
- : 倒角距离,衡量两个点云(这里是高斯中心)之间的几何差异。
- : L1 范数,衡量渲染图像像素级别的差异。
- 符号解释:
4.2. 基于扩散的动力学建模 (Diffusion-based Dynamics Modeling)
这一步的目标是学习状态转移概率 。即:给定历史状态和动作,预测下一个时刻的潜在状态 。
作者将其建模为一个 条件生成问题,使用扩散模型 (Diffusion Model)。
步骤 1: 扩散过程 (SDE Formulation)
为了生成未来状态,首先定义一个向真实未来状态 加噪的过程。这被描述为一个随机微分方程 (SDE):
- 符号解释:
-
: 噪声步骤索引(时间步)。
-
: 标准维纳过程 (Standard Wiener process),即布朗运动。
-
: 漂移系数 (Drift coefficient)。
-
: 扩散系数 (Diffusion coefficient)。
在具体的加噪实现中,作者使用了高斯扰动核,这等价于设定 ,从而简化为:
-
步骤 2: 逆向生成过程 (Reverse-time SDE)
为了从噪声中恢复数据,我们需要求解逆向 SDE:
这里的核心难点在于未知的分数函数 (即对数概率密度的梯度)。我们需要训练一个神经网络来估计它。
步骤 3: 网络训练 (Learning with EDM)
作者采用了 EDM (Elucidating Diffusion Models) [33] 的预调节 (Preconditioning) 策略来训练去噪网络。不是直接预测噪声或原图,而是训练一个网络 :
- 符号解释:
-
: 最终的去噪器输出。
-
: 条件信息,包括历史状态 和动作 。
-
: 预调节系数,取决于噪声水平 。这些系数用于平衡不同噪声强度下的输入输出幅度,稳定训练。
损失函数: 最小化去噪结果与真实未来状态 之间的差异:
-
网络实现: 是一个 Diffusion Transformer (DiT)。
- 输入: 带噪声的潜在状态 + RoPE 位置编码。
- 条件: 时间步嵌入通过 AdaLN 注入;当前机器人动作 作为 Cross-Attention 的 Key 和 Value 注入。
4.3. 策略学习集成 (GWM for Policy Learning)
GWM 训练好后,可以用于两种策略学习方式:
-
基于模型的强化学习 (MBRL):
- 使用 GWM 作为环境模拟器。
- 在 GWM 中进行 推演 (rollout):给定当前状态,策略网络输出动作,GWM 预测下一个状态和奖励(增加一个奖励预测头)。
- 使用这些模拟数据来训练策略 ,从而减少对真实环境的交互需求。
- 算法参考了 MBPO (Model-Based Policy Optimization)。
-
模仿学习 (Imitation Learning):
-
将 GWM 作为特征提取器。
-
取扩散过程中第一步去噪后的特征向量作为视觉表征。
-
输入到下游策略网络(如 BC-Transformer 或 Diffusion Policy)中进行动作克隆。
-
5. 实验设置
5.1. 数据集
实验使用了三个环境,涵盖了模拟和现实场景:
- META-WORLD (模拟):
- 特点: 包含多种机械臂操作任务(如开门、推箱子)。用于评估强化学习性能。
- ROBOCASA (模拟):
- 特点: 大规模、多尺度的厨房环境操控任务。包含 24 个原子任务。
- 数据: 每个任务仅提供 50 条人类演示 (Human-50) 和 3000 条生成演示 (MimicGen)。用于评估模仿学习。
- FRANKA-PNP (真机):
-
特点: 使用 Franka Emika FR3 机械臂进行的“抓取-放置” (Pick-and-Place) 任务。
-
设置: 包含 20 种变体(不同的干扰物、位置),用于评估现实世界的鲁棒性。
下图(原文 Figure 6)展示了真机实验的设置:
该图像是实验设置的示意图,展示使用Franka Emika Panda机器人臂及RGB相机进行的实时实验。左侧显示了机器人及其工具,右侧展示了机器人在任务完成中的视觉输入。
-
5.2. 评估指标
-
Fréchet Video Distance (FVD):
- 定义: 衡量生成视频分布与真实视频分布之间距离的指标,数值越低越好。反映了视频的时间一致性和真实感。
- 公式:
- 符号: 分别是生成视频 () 和真实视频 () 在特征空间(通常是 I3D 网络)中的均值和协方差矩阵。
-
峰值信噪比 (PSNR):
- 定义: 衡量图像像素级重建质量的指标,数值越高越好。
- 公式:
- 符号: 是图像像素最大值, 是均方误差。
-
结构相似性 (SSIM):
- 定义: 衡量两幅图像在亮度、对比度和结构上的相似度,数值越接近 1 越好。
-
LPIPS (Learned Perceptual Image Patch Similarity):
- 定义: 基于深度特征的感知相似度指标,比 MSE 更符合人类视觉感知,数值越低越好。
-
成功率 (Success Rate, SR):
- 定义: 机器人在规定次数的尝试中成功完成任务的百分比。
5.3. 对比基线
-
iVideoGPT [82]: 当前 SOTA 的基于图像的交互式世界模型。
-
BC-Transformer [59]: 模仿学习中的强基线。
-
Diffusion Policy [9]: 广泛使用的基于扩散的动作生成策略。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 动作条件下的视频预测
GWM 在预测未来场景的质量上显著优于基于图像的基线。
以下是原文 Table 1 的结果,展示了在 Meta-World 和 FRANKA PNP 上的定量对比:
| Method | Meta-World | FRANKA PNP | ||||||
|---|---|---|---|---|---|---|---|---|
| FVD↓ | PSNR↑ | SSIM↑ | LPIPS↓ | FVD↓ | PSNR↑ | SSIM↑ | LPIPS↓ | |
| iVideoGPT | 162.4 | 29.4 | 92.6 | 2.8 | 145.2 | 23.2 | 87.4 | 9.6 |
| GWM (Ours) | 126.5 | 32.5 | 93.8 | 2.4 | 95.3 | 24.6 | 89.2 | 7.8 |
-
分析: GWM 在所有指标上都优于 iVideoGPT。特别是在 FVD(视频一致性)上优势明显,说明 GWM 生成的动力学过程更连贯。
-
定性分析: 如原文 Figure 3(下图)所示,iVideoGPT 在抓手 (gripper) 的细节上容易模糊或消失,而 GWM 能保持清晰的几何结构。这对于操控任务至关重要。
该图像是表格与图像的组合展示,展示了GWM与iVideoGPT在MeTAWoRLD数据集上的对比。GWM在抓手运动的预测上表现更佳,细节突出,右下角的蓝框进一步强调了这一点。
6.1.2. 模仿学习性能 (RoboCasa)
在 RoboCasa 环境中,将 GWM 作为表征层集成到模仿学习中。
以下是原文 Table 2 的部分关键结果总结(注:由于原表较大,此处提取核心对比数据):
- Human-50 (仅50条演示): GWM 平均成功率比 BC-Transformer 提升 10.5%。
- Generated-3000 (生成数据): GWM 平均成功率提升 7.6%。
- 分析: 这种提升在复杂的“抓取-放置”和物体交互任务中最为显著,证明了 3D 几何感知表征对策略学习的帮助。
6.1.3. 强化学习性能 (Meta-World)
在模型与策略联合训练的 MBRL 设置下,GWM 表现出了更高的数据效率。
下图(原文 Figure 5)展示了训练曲线:
该图像是图表,展示了GWM与BC-transformer在METAwoRLD任务中的表现对比。表格中列出了不同策略下成功率的变化,右侧图形展示了在不同步骤下的成功率曲线。阴影区域表示的置信区间(CI),每个数据点基于20个回合评估。
- 分析: 在所有六个任务中,GWM (蓝色线) 的收敛速度都快于 iVideoGPT (橙色线),且最终性能更高。这归功于 GWM 对接触动力学 (contact dynamics) 的更准确预测。
6.1.4. 真机实验 (Real-World)
在 Franka 机械臂的抓取任务中,对比了原始 Diffusion Policy 和加了 GWM 表征的版本。
以下是原文 Table 3 的结果:
| Franka-PnP | Diffusion Policy | GWM (Ours) |
|---|---|---|
| Cup distractor | 6/10 | 7/10 |
| Plate distractor | 1/5 | 3/5 |
| Table distractor | 0/5 | 3/5 |
| Total | 7/20 (35%) | 13/20 (65%) |
- 分析: 总体成功率从 35% 提升到了 65%。特别是在出现新的干扰物 (distractor) 时,GWM 展现出了更强的泛化能力。
6.2. 消融实验
作者研究了两个关键组件的影响:Gaussian Splatting (GS) 和 3D VAE。
以下是原文 Table 4 的结果:
| GS | 3D VAE | FVD↓ | PSNR↑ | SSIM↑ | LPIPS↓ | SR↑ (成功率) |
|---|---|---|---|---|---|---|
| ✗ | ✗ | 67.8 | 27.2 | 88.2 | 5.1 | 4% |
| ✓ | ✗ | 65.3 | 26.9 | 89.5 | 4.9 | 18% |
| ✓ | ✓ | 62.4 | 28.1 | 90.8 | 4.6 | 24% |
-
引入 GS: 成功率从 4% 跃升至 18%。这有力地证明了显式 3D 表征比纯 2D 表征更适合机器人任务。
-
引入 3D VAE: 成功率进一步提升至 24%,同时改善了所有视觉重建指标。说明 VAE 有效地提取了紧凑的潜在结构。
7. 总结与思考
7.1. 结论总结
本文提出了 GWM,一种面向机器人操控的可扩展高斯世界模型。通过结合 3D Gaussian Splatting 的几何表达能力和 Diffusion Transformer 的生成能力,GWM 解决了传统图像世界模型缺乏 3D 理解的问题。实验证明,GWM 不仅能生成高质量、物理一致的未来预测,还能显著提升模仿学习和强化学习策略在模拟及真实环境中的表现。
7.2. 局限性与未来工作
- 局限性:
- 虽然不需要精确的相机位姿,但训练过程可能仍依赖于多视角数据或深度信息来引导初始的 3D 高斯生成(尽管使用了 Splatt3R 这种泛化方法)。
- 推理速度方面,虽然使用了潜在空间扩散,但 3D VAE 和 DiT 的结合在实时高频控制中可能仍面临计算延迟的挑战。
- 未来工作:
- 进一步探索在大规模互联网视频数据上预训练 GWM,以获得更通用的物理常识。
- 优化模型的推理速度,使其更适应高频闭环控制。
7.3. 个人启发与批判
- 启发: 这篇论文非常完美地展示了 "Representation Matters" (表征至关重要) 这一观点。在机器人领域,仅仅堆叠更大的生成模型(如 Sora 类模型)可能是不够的,因为机器人需要理解接触、遮挡和几何关系。引入显式的 3D 结构(如 3D-GS)作为归纳偏置 (Inductive Bias),是连接计算机视觉与机器人控制的一座重要桥梁。
- 批判: 论文中提到的“可扩展性 (Scalability)”主要体现在无需针对每个场景单独训练,但 Splatt3R 等前馈 3D 生成模型本身的泛化能力上限决定了 GWM 的上限。如果遇到极度复杂的非结构化场景,前端的高斯生成失败,后端的动力学预测也会随之失效。此外,真机实验的样本量 (20 trials) 相对较小,结论的统计显著性有待在大规模真机实验中进一步验证。
相似论文推荐
基于向量语义检索推荐的相关论文。