论文状态：已完成

ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation

发表：2024/03/13

3D Gaussian Splatting 表示 (12)机器人多模态学习 (10)多任务机器人操作 (4)未来场景重建 (1)动态语义传播 (1)

原文链接 PDF 下载

价格：0.100000

已有 5 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出ManiGaussian动态高斯散点框架，通过高斯嵌入空间中的语义传播和未来场景重建，捕获场景时空动态，实现多任务机器人操作。该方法构建高斯世界模型提供丰富监督，在RLBench多任务评测中较现有方法成功率提升13.1%。

摘要

Performing language-conditioned robotic manipulation tasks in unstructured environments is highly demanded for general intelligent robots. Conventional robotic manipulation methods usually learn semantic representation of the observation for action prediction, which ignores the scene-level spatiotemporal dynamics for human goal completion. In this paper, we propose a dynamic Gaussian Splatting method named ManiGaussian for multi-task robotic manipulation, which mines scene dynamics via future scene reconstruction. Specifically, we first formulate the dynamic Gaussian Splatting framework that infers the semantics propagation in the Gaussian embedding space, where the semantic representation is leveraged to predict the optimal robot action. Then, we build a Gaussian world model to parameterize the distribution in our dynamic Gaussian Splatting framework, which provides informative supervision in the interactive environment via future scene reconstruction. We evaluate our ManiGaussian on 10 RLBench tasks with 166 variations, and the results demonstrate our framework can outperform the state-of-the-art methods by 13.1% in average success rate. Project page: https://guanxinglu.github.io/ManiGaussian/.

思维导图

论文精读

中文精读约 34 分钟读完 · 23,475 字

1. 论文基本信息

1.1. 标题

ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation

1.2. 作者

Guanxing Lu, Shiyi Zhang, Ziwei Wang, Changliu Liu, Jiwen Lu, Yansong Tang

隶属机构:

清华大学深圳国际研究生院（Tsinghua University, Shenzhen International Graduate School）
清华大学自动化系（Tsinghua University, Department of Automation）
南洋理工大学（Nanyang Technological University）
卡内基梅隆大学（Carnegie Mellon University）

1.3. 发表期刊/会议

预印本（arXiv），尚未正式发表。

1.4. 发表年份

2024年

1.5. 摘要

在非结构化环境中执行语言条件（language-conditioned）的机器人操作（robotic manipulation）任务是通用智能机器人高度需要的能力。传统的机器人操作方法通常学习观测（observation）的语义表示（semantic representation）来预测动作（action），但这忽略了场景级（scene-level）的时空动态（spatiotemporal dynamics）对完成人类目标的重要性。本文提出了一种名为 ManiGaussian 的动态高斯散点（Dynamic Gaussian Splatting）方法，用于多任务机器人操作（multi-task robotic manipulation），它通过未来场景重建（future scene reconstruction）来挖掘场景动态。具体而言，我们首先构建了动态高斯散点框架，该框架在高斯嵌入空间（Gaussian embedding space）中推断语义传播（semantics propagation），并利用语义表示来预测最佳机器人动作。然后，我们建立了一个高斯世界模型（Gaussian world model）来参数化动态高斯散点框架中的分布，通过未来场景重建在交互式环境（interactive environment）中提供信息丰富的监督。我们在具有166种变体的10个RLBench任务上评估了ManiGaussian，结果表明我们的框架在平均成功率上优于最先进的（state-of-the-art）方法13.1%。项目页面：https://guanxinglu.github.io/ManiGaussian/。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2403.08321v2 PDF 链接: https://arxiv.org/pdf/2403.08321v2.pdf 发布状态: 预印本（Published at (UTC)：2024-03-13T08:06:41.000Z）

2. 整体概括

2.1. 研究背景与动机

核心问题: 机器人执行复杂、语言条件（language-conditioned）的多任务操作（multi-task manipulation）是实现通用智能机器人的关键一步。特别是在非结构化环境（unstructured environments）中，机器人需要具备高度的适应性和理解能力。

现有挑战或空白:

缺乏场景级时空动态理解: 传统的机器人操作方法，无论是基于感知（perceptive）还是生成（generative）的模型，大多关注从视觉输入中提取语义表示（semantic representation）来预测动作。然而，这些方法通常忽视了对象之间在操作过程中发生的场景级（scene-level）时空动态（spatiotemporal dynamics），即物理交互。例如，在“叠放积木”任务中，如果机器人不理解哪些物体是可移动的，哪些是固定底座，就可能尝试拿起固定底座而导致失败（如原文图1所示）。
对多视图或特定视角依赖高: 基于感知的方法（如使用2D图像、点云或体素）通常需要多视图摄像头或夹持器安装摄像头来解决遮挡（occlusion）问题，这限制了它们在复杂非结构化环境中的部署。
生成方法忽视物理交互: 即使是能重建3D场景几何的生成方法（如基于 NeRF 的方法），也往往没有显式地编码对象间的物理交互，导致预测的动作无法完成需要正确物理交互才能达成的人类目标。

论文的切入点或创新思路: 针对上述挑战，本文提出通过挖掘场景动态（scene dynamics）来增强机器人对环境的理解。具体来说，ManiGaussian 通过未来场景重建（future scene reconstruction）来学习和理解这些动态，从而实现更准确的动作预测。它将动态建模集成到 Gaussian Splatting 框架中，使其能够捕捉对象的运动和交互。

2.2. 核心贡献/主要发现

提出了动态高斯散点框架（Dynamic Gaussian Splatting framework）： 首次将动态 Gaussian Splatting 应用于机器人操作任务。该框架能够在高斯嵌入空间中学习场景级（scene-level）时空动态（spatiotemporal dynamics），帮助机器人代理通过准确的动作预测完成人类指令。
构建高斯世界模型（Gaussian world model）： 为了有效地学习场景动态，本文提出了一个高斯世界模型。该模型用于参数化动态高斯散点框架中的分布，并通过重建未来场景来提供信息丰富的监督，从而从交互环境中学习场景动态。
实现了卓越的性能和效率： 在RLBench数据集的10项任务和166种变体上进行了广泛实验。结果表明，ManiGaussian 在平均任务成功率上超越了最先进的（state-of-the-art）多任务机器人操作方法13.1%，并且在训练速度上快2.29倍，证明了其有效性和计算效率。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 ManiGaussian，我们需要了解以下几个核心概念：

机器人操作 (Robotic Manipulation): 指机器人通过其机械臂和夹持器（或末端执行器）与物理世界中的物体进行交互，以完成特定任务的能力。这通常涉及抓取、放置、推拉、堆叠等动作。在本文中，特别关注语言条件（language-conditioned）的操作，即机器人需要根据人类提供的自然语言指令来理解并执行任务。
语言条件机器人操作 (Language-conditioned Robotic Manipulation): 机器人不仅需要感知环境和执行动作，还需要理解自然语言指令（例如“将红色的积木堆叠在绿色的积木上”）并将其映射到具体的物理操作序列。这需要机器人具备高级的语义理解和推理能力。
语义表示 (Semantic Representation): 机器通过对观测数据（如图像、点云）进行处理后得到的、能够表达物体类别、属性、关系和功能等高级信息的数据形式。这些表示通常比原始像素值或点坐标更具抽象性和信息量，有助于机器人进行推理和决策。
场景级时空动态 (Scene-level Spatiotemporal Dynamics): 指在机器人操作过程中，场景中物体随着时间的推移在空间位置和状态上的变化以及它们之间的物理交互规律。例如，推一个物体会导致它移动，抓取一个物体会改变其位置，堆叠物体需要考虑重力和稳定性。理解这些动态对于预测操作结果和规划有效动作至关重要。
高斯散点 (Gaussian Splatting, GS): 一种用于3D场景表示和渲染的新兴技术。它将3D场景表示为一组具有位置、颜色、旋转、尺度和不透明度等属性的3D高斯球。与 NeRF 等隐式表示方法不同，GS 采用显式表示，通过高效的微分散点（splatting）过程将这些高斯球投影到2D图像平面进行渲染。它在渲染速度、图像质量和可编辑性方面表现出色。其渲染过程由以下公式描述： $C ( \mathbf { p } ) = \sum _ { i = 1 } ^ { N } \alpha _ { i } c _ { i } \prod _ { j = 1 } ^ { i - 1 } ( 1 - \alpha _ { j } ) \quad { \mathrm { ~ w h e r e , ~ } } \alpha _ { i } = \sigma _ { i } e ^ { - { \frac { 1 } { 2 } } \left( \mathbf { p } - { \boldsymbol { \mu } _ { i } } \right) ^ { \top } { \boldsymbol { \Sigma } } _ { i } ^ { - 1 } \left( \mathbf { p } - { \boldsymbol { \mu } _ { i } } \right) }$ 其中：
- $C(\mathbf{p})$ ：在像素 $\mathbf{p}$ 处渲染的颜色。
- $N$ ：在该图像块中需要渲染的高斯球数量。
- $\alpha_i$ ：第 $i$ 个高斯球在2D投影平面上的不透明度（alpha）值，它表示了该高斯球对像素 $\mathbf{p}$ 贡献的强度。
- $c_i$ ：第 $i$ 个高斯球的颜色。
- $\prod_{j=1}^{i-1} (1 - \alpha_j)$ ：表示前 i-1 个高斯球的累积透明度，用于实现体渲染（volume rendering）中的阿尔法混合（alpha blending）效果，即越靠近观察者的物体对像素颜色的贡献越大。
- $\sigma_i$ ：第 $i$ 个高斯球的原始不透明度。
- $\mathbf{p}$ ：图像平面上的像素坐标。
- $\boldsymbol{\mu}_i$ ：第 $i$ 个高斯球在图像平面上的2D平均位置（由其3D位置投影而来）。
- $\boldsymbol{\Sigma}_i$ ：第 $i$ 个高斯球在图像平面上的2D协方差矩阵，它描述了高斯球的形状和方向。
世界模型 (World Model): 一种能够学习环境动态的模型，通过预测给定当前状态和动作的未来状态来模拟环境。它允许智能体在潜空间（latent space）中进行规划和推演，而无需真实环境交互。世界模型在自动驾驶、游戏智能体和机器人操作等领域取得了显著效果。
高斯嵌入空间 (Gaussian Embedding Space): 指将场景的几何和语义信息编码成一系列高斯分布参数（如位置、颜色、旋转、尺度、不透明度以及语义特征）所构成的空间。在这个空间中，高斯参数的变化可以反映场景的动态演变。

3.2. 前人工作

论文回顾了机器人操作、世界模型和 Gaussian Splatting 领域的相关工作，并指出了它们的局限性。

3.2.1. 机器人操作的视觉表示 (Visual Representations for Robotic Manipulation)

感知方法 (Perceptive methods):
- 特点: 直接利用预训练的2D（如图像）或3D（如点云、体素）视觉表示骨干网络来学习场景嵌入，并在此基础上预测机器人动作。
- 代表工作:
  - InstructRL [40] 和 Hiveformer [15]：直接处理2D视觉 词元（tokens） 来解码夹持器动作，但在复杂任务中几何理解能力不足。
  - PolarNet [7] 和 Act3D [13]：利用点云表示，通过 PointNeXt [49] 架构或鬼点采样（ghost point sampling）解码动作，引入了3D信息。
  - PerAct [60]：将体素 词元 输入到 PerceiverIO [26] 转换器策略中，在多任务操作中表现出色。
- 局限性: 这些方法高度依赖无缝的摄像头覆盖（多视图或夹持器安装摄像头）以实现全面的3D理解，这在非结构化环境中不够灵活和高效。
生成方法 (Generative methods):
- 特点: 通过自监督的新颖视图重建（novel view reconstruction）学习3D几何信息。
- 代表工作:
  - Li et al. [36]：结合 NeRF 和时间对比学习来嵌入3D几何，并在自编码器框架内学习流体动态。
  - GNFactor [76]：通过重建损失和行为克隆优化了一个可泛化的 NeRF，在模拟和真实场景中均有改进。
- 局限性: 传统生成方法通常忽视场景级时空动态（scene-level spatiotemporal dynamics），即物体间的交互。这导致即使能重建3D几何，预测的动作也可能因为对物理交互的错误理解而无法完成人类目标（如原文图1所示）。

3.2.2. 世界模型 (World Models)

特点: 通过预测给定当前状态和动作的未来状态来编码场景动态。
早期工作: $[16-21, 54, 55, 73]$ $[16 - 21, 54, 55, 73]$ 学习潜空间（latent space）进行未来预测，在模拟和真实世界中均有效。
- 局限性: 需要大量数据才能学习准确的未来预测，且由于隐式特征的表示能力较弱，通常限于简单的机器人控制任务。
近期发展:
- 显式表示: [9, 45, 56, 67] 在图像域和 [6, 23, 38, 43, 65] 在语言域中探索了显式表示，以获取更丰富的语义。
- UniPi [9]：使用文本条件视频生成模型重建未来图像。
- Dynalang [38]：预测文本表示作为未来状态。
- 本文工作的差异: ManiGaussian 将世界模型推广到动态高斯散点（Dynamic Gaussian Splatting）的嵌入空间，以预测未来状态，从而使智能体能够从交互环境中学习场景级动态（scene-level dynamics）。

3.2.3. 高斯散点 (Gaussian Splatting)

特点: Gaussian Splatting [32] 使用一组3D高斯球来建模场景，通过高效可微分的散点技术投影到2D平面。相比 NeRF 等隐式表示，它在快速渲染、高保真度和强可编辑性方面表现优越。
变体:
- 泛化能力增强: [4, 10, 61, 70, 78, 80, 83] 构建了从像素到高斯参数的直接映射。
- 语义信息集成: [50, 57, 81, 84] 从预训练基础模型（foundation models）中提取语义信息，如 LangSplat [50] 从 CLIP [51] 编码语言特征。
- 变形场景建模: [1, 37, 44, 66, 69, 71, 72] 从视频而非图像重建时变（time-variant）高斯辐射场，应用于外科场景重建等。
本文工作的差异: 尽管这些方法能从完整视频中进行高质量重建（如插值），但它们尚未探索基于先前状态和动作向未来状态的推断（extrapolation to future states conditioned on previous states and actions），这对于交互式智能体的场景级动态建模至关重要。ManiGaussian 旨在弥补这一空白，通过动态 Gaussian Splatting 框架建模对象交互的场景动态。

3.3. 技术演进

该领域的技术演进可以概括为：

从2D到3D视觉表示: 早期方法多依赖2D图像特征，随着技术发展，点云、体素等3D表示被引入，增强了机器人的几何理解能力。
从感知到生成: 从直接感知特征预测动作，到通过重建3D场景来获取更丰富的环境信息。
从静态3D到动态3D: 传统的3D重建方法主要关注静态场景的几何，而现实世界中的机器人操作涉及动态交互，这促使研究转向建模场景的时空动态。
从隐式表示到显式表示: NeRF 等隐式表示虽然效果好，但渲染速度慢，计算成本高。Gaussian Splatting 作为一种显式表示，提供了更快的渲染和更好的编辑性，为动态场景建模提供了新的工具。
集成世界模型进行动态预测: 将世界模型引入3D表示学习，使得模型能够预测未来的场景状态，从而更好地理解和学习物理交互。

3.4. 差异化分析

ManiGaussian 与相关工作的主要区别和创新点在于：

显式建模场景级时空动态: 大多数现有方法（包括感知和生成方法）要么忽视，要么未能充分捕捉操作任务中物体间的物理交互和动态变化。ManiGaussian 通过其动态高斯散点框架（dynamic Gaussian Splatting framework）和高斯世界模型（Gaussian world model），显式地将这些动态信息编码到高斯参数中。
未来场景重建提供动态监督: ManiGaussian 利用未来场景重建（future scene reconstruction）作为一种自监督机制，强制模型学习场景的物理演变规律，从而为动态信息提取提供强有力的监督信号。这是传统 Gaussian Splatting 变体（侧重于视频插值而非外推）所不具备的。
将高斯散点与世界模型相结合: 创新性地将 Gaussian Splatting 的高效3D表示能力与世界模型强大的动态预测能力结合起来，形成了一个能够理解和预测物理世界交互的统一框架。
结合语义信息: 除了几何和动态信息，ManiGaussian 还通过 Stable Diffusion 视觉编码器蒸馏高层语义特征，进一步丰富了场景表示。

4. 方法论

本节将详细阐述 ManiGaussian 的方法论，包括问题定义、整体流程、核心组件及其学习目标。

4.1. 方法原理

ManiGaussian 的核心思想是为机器人操作（robotic manipulation）任务学习场景级（scene-level）时空动态（spatiotemporal dynamics）。它通过构建一个动态高斯散点（Dynamic Gaussian Splatting）框架，来模拟场景中语义特征在高斯嵌入空间中的传播。为了学习这些动态，它还建立了一个高斯世界模型（Gaussian world model），该模型通过未来场景重建（future scene reconstruction）来提供监督信号，确保模型能够准确预测场景的未来状态和物理交互。最终，融合了几何、语义和动态信息的表示被用于预测最优的机器人动作。

4.2. 核心方法详解

4.2.1. 问题定义 (Problem Formulation)

在语言条件（language-conditioned）机器人操作任务中，智能体需要根据人类指令和当前观测，预测机器人机械臂的后续姿态，并通过底层运动规划器实现该姿态，以完成广泛的操作任务。

视觉输入 (Visual input): 在第 $t$ 步，智能体的视觉输入表示为 $o^{(t)} = (\mathbf{C}^{(t)}, \mathbf{D}^{(t)}, \mathbf{P}^{(t)})$ 。
- $\mathbf{C}^{(t)}$ ：表示单视图彩色图像。
- $\mathbf{D}^{(t)}$ ：表示深度图像。
- $\mathbf{P}^{(t)} \in \mathbb{R}^4$ ：表示本体感知矩阵（proprioception matrix），包含夹持器状态，具体是末端执行器位置、开合度和当前时间步。
机器人动作 (Robot action): 基于视觉输入 $o^{(t)}$ 和语言指令，智能体需要生成机器人机械臂和夹持器的最佳动作 $\mathbf{a}^{(t)} = (\mathbf{a}_{\mathrm{trans}}^{(t)}, \mathbf{a}_{\mathrm{rot}}^{(t)}, \mathbf{a}_{\mathrm{open}}^{(t)}, \mathbf{a}_{\mathrm{col}}^{(t)})$ 。
- $\mathbf{a}_{\mathrm{trans}}^{(t)} \in \mathbb{R}^{100^3}$ ：表示三维空间中的平移动作。
- $\mathbf{a}_{\mathrm{rot}}^{(t)} \in \mathbb{R}^{(360/5) \times 3}$ ：表示三维空间中的旋转动作。
- $\mathbf{a}_{\mathrm{open}}^{(t)} \in [0, 1]$ ：表示夹持器的开合度。
- $\mathbf{a}_{\mathrm{col}}^{(t)} \in [0, 1]$ ：表示碰撞避免信息。
  
  为了有效学习操作策略，本文利用专家演示作为离线数据集进行模仿学习（imitation learning）。数据集中的样本三元组包含视觉输入、语言指令和专家动作。

4.2.2. 整体流程 (Overall Pipeline)

ManiGaussian 的整体流程如图2所示。

Fig. 2: The overall pipeline of ManiGaussian, which primarily consists of a dynamic Gaussian Splatting framework and a Gaussian world model. The dynamic Gaussian Splatting framework models the propag… 该图像是论文中图2的示意图，展示了ManiGaussian整体框架，包含动态高斯散点动态传播与高斯世界模型。高斯混合物通过变形场预测位置与旋转，未来场景重建提供监督，促进场景级动态挖掘。

图2: ManiGaussian的整体流程图，主要由动态高斯散点框架和高斯世界模型组成。动态高斯散点框架模拟高斯嵌入空间中多样语义特征的传播，用于操作任务，高斯世界模型通过重建未来场景来参数化分布并提供监督，以挖掘场景级动态。

数据预处理: 将RGB-D摄像头的视觉输入转换为体素（volumetric）表示，通过提升（lifting）和体素化（voxelization）。
动态高斯散点框架 (Dynamic Gaussian Splatting framework):
- 利用高斯回归器（Gaussian regressor）根据体素表示推断场景中几何和语义特征的高斯分布。
- 这些高斯分布随时间步长传播，以捕捉丰富的场景级时空动态（scene-level spatiotemporal dynamics）。
高斯世界模型 (Gaussian world model):
- 实例化一个变形场（deformation field），根据当前场景和机器人动作重建未来场景。
- 通过强制重建的未来场景与真实的未来场景之间的一致性，提供监督信号，从而挖掘动态。
动作预测 (Action Prediction): 利用多模态转换器 PerceiverIO [26] 根据高斯参数和人类语言指令预测最优机器人动作，该预测考虑了几何、语义和动态信息。

4.2.3. 机器人操作的动态高斯散点 (Dynamic Gaussian Splatting for Robotic Manipulation)

为了捕捉通用操作任务中的场景级动态，本文提出了一个动态高斯散点（Dynamic Gaussian Splatting）框架，该框架在高斯嵌入空间中模拟多样语义特征的传播。

高斯散点 (Gaussian Splatting) 基础: Gaussian Splatting [32] 使用多个高斯基元（primitives）显式表示3D场景。第 $i$ 个高斯基元由参数 $\boldsymbol{\theta}_i = (\boldsymbol{\mu}_i, c_i, r_i, s_i, \sigma_i)$ 参数化，分别代表位置、颜色、旋转、尺度和不透明度。渲染新视图时，通过以下公式将高斯基元投影到2D平面： $C ( \mathbf { p } ) = \sum _ { i = 1 } ^ { N } \alpha _ { i } c _ { i } \prod _ { j = 1 } ^ { i - 1 } ( 1 - \alpha _ { j } ) \quad { \mathrm { ~ w h e r e , ~ } } \alpha _ { i } = \sigma _ { i } e ^ { - { \frac { 1 } { 2 } } \left( \mathbf { p } - { \boldsymbol { \mu } _ { i } } \right) ^ { \top } { \boldsymbol { \Sigma } } _ { i } ^ { - 1 } \left( \mathbf { p } - { \boldsymbol { \mu } _ { i } } \right) }$ 其中， $C$ 是渲染图像， $N$ 是该图像块中的高斯球数量， $\alpha_i$ 是散点过程中高斯点的2D密度， $\boldsymbol{\Sigma}_i$ 是由高斯参数的旋转和尺度得到的协方差矩阵。
动态扩展 (Dynamic Extension): 传统的 Gaussian Splatting 难以重建变化的场景。为解决此问题，ManiGaussian 允许高斯粒子随时间传播，以捕捉场景的时空动态（spatiotemporal dynamics）。第 $i$ 个高斯基元在第 $t$ 步的参数表示为： $\boldsymbol { \theta } _ { i } ^ { ( t ) } = ( \mu _ { i } ^ { ( t ) } , c _ { i } ^ { ( t ) } , r _ { i } ^ { ( t ) } , s _ { i } ^ { ( t ) } , \sigma _ { i } ^ { ( t ) } , f _ { i } ^ { ( t ) } ) .$ 其中，带上标 $t$ 的参数表示其在第 $t$ 步的对应值。
- $f_i^{(t)}$ ：表示从 Stable Diffusion [53] 视觉编码器中提取的高层语义特征。
- 在机器人操作中，所有物体都被视为刚体（rigid bodies），没有内在属性变化，因此 $c_i^{(t)}$ , $s_i^{(t)}$ , $\sigma_i^{(t)}$ 和 $f_i^{(t)}$ 被视为时间无关参数（time-independent parameters）。
- 高斯粒子的位置和旋转在操作过程中会因物体间的物理交互和机器人夹持器而改变，其传播公式如下： $( \mu _ { i } ^ { ( t + 1 ) } , r _ { i } ^ { ( t + 1 ) } ) = ( \mu _ { i } ^ { ( t ) } + \Delta \mu _ { i } ^ { ( t ) } , r _ { i } ^ { ( t ) } + \Delta r _ { i } ^ { ( t ) } )$ 其中， $\Delta \mu_i^{(t)}$ 和 $\Delta r_i^{(t)}$ 表示从第 $t$ 步到第 $t+1$ 步，第 $i$ 个高斯基元的位置和旋转的变化。通过这些时间依赖的参数，场景的2D视图像素值仍可通过公式 (1) 渲染。
高斯世界模型 (Gaussian World Model): ManiGaussian 引入一个高斯世界模型（Gaussian world model）来参数化动态高斯散点中的高斯混合分布。该模型通过参数传播重建未来场景，从而通过重建场景和真实场景之间的一致性，为动态高斯散点模型提供监督。世界模型通过预测未来状态 $s^{(t+1)}$ 基于当前状态 $s^{(t)}$ 和动作 $a^{(t)}$ 来学习环境动态。在机器人操作任务中，世界模型的当前状态是当前时间步的视觉观测，动作是机器人机械臂和夹持器的动作。这些被用于预测下一时间步的视觉场景，即未来状态。具体地，高斯世界模型包含以下组件： $\left\{ \begin{array} { l l } { { \mathrm { R e p r e s e n t a t i o n ~ m o d e l : } } } & { { \mathbf { v } ^ { ( t ) } = q _ { \phi } \left( o ^ { ( t ) } \right) , } } \\ { { \mathrm { G a u s s i a n ~ r e g r e s s o r : } } } & { { \theta ^ { ( t ) } = g _ { \phi } \left( \mathbf { v } ^ { ( t ) } \right) , } } \\ { { \mathrm { D e f o r m a t i o n ~ p r e d i c t o r : } } } & { { \Delta \theta ^ { ( t ) } = p _ { \phi } \left( \theta ^ { ( t ) } , a ^ { ( t ) } \right) , } } \\ { { \mathrm { G a u s s i a n ~ r e n d e r e r : } } } & { { o ^ { ( t + 1 ) } = \mathcal { R } \left( \theta ^ { ( t + 1 ) } , w \right) , } } \end{array} \right.$ 其中：
- 表示网络 (Representation model): $q_{\phi}(o^{(t)})$ 接收视觉观测 $o^{(t)}$ ，学习带有丰富语义的高层视觉特征 $\mathbf{v}^{(t)}$ 。
- 高斯回归器 (Gaussian regressor): $g_{\phi}(\mathbf{v}^{(t)})$ 根据视觉特征 $\mathbf{v}^{(t)}$ 预测当前时间步的高斯参数 $\boldsymbol{\theta}^{(t)}$ 。
- 变形预测器 (Deformation predictor): $p_{\phi}(\boldsymbol{\theta}^{(t)}, a^{(t)})$ 根据当前高斯参数 $\boldsymbol{\theta}^{(t)}$ 和机器人动作 $a^{(t)}$ 推断高斯参数在传播过程中的变化 $\Delta \boldsymbol{\theta}^{(t)}$ ，从而得到下一时间步的传播高斯参数 $\boldsymbol{\theta}^{(t+1)}$ 。
- 高斯渲染器 (Gaussian renderer): $\mathcal{R}(\boldsymbol{\theta}^{(t+1)}, w)$ 将传播后的高斯分布 $\boldsymbol{\theta}^{(t+1)}$ 在给定相机位姿 $w$ 下投影到特定视图，生成预测的未来场景观测 $o^{(t+1)}$ 。通过使用多头神经网络作为高斯回归器，每个头部预测公式 (2) 中高斯参数的特定特征。

4.2.4. 学习目标 (Learning Objectives)

ManiGaussian 的学习目标由多个损失项组成，共同优化模型的各个部分。

当前场景一致性损失 (Current Scene Consistency Loss): 旨在确保高斯回归器能准确地根据当前高斯参数重建当前场景。 $\mathcal { L } _ { \mathrm { G e o } } = \| \mathbf { C } ^ { ( t ) } - \hat { \mathbf { C } } ^ { ( t ) } \| _ { 2 } ^ { 2 }$ 其中：
- $\mathbf{C}^{(t)}$ ：表示第 $t$ 步从不同视图观测到的真实图像。
- $\hat{\mathbf{C}}^{(t)}$ ：表示根据当前高斯参数渲染得到的预测图像。
- $\|\cdot\|_2^2$ ：表示L2范数平方，衡量真实图像和预测图像之间的像素差异。
语义特征一致性损失 (Semantic Feature Consistency Loss): 利用预训练的基础模型（foundation models）（如 Stable Diffusion [53]）提取的语义特征，将这些知识蒸馏到高斯世界模型中。 $\mathcal { L } _ { \mathrm { S e m } } = 1 - \sigma _ { \mathrm { c o s } } ( \mathbf { F } ^ { ( t ) } , \hat { \mathbf { F } } ^ { ( t ) } )$ 其中：
- $\mathbf{F}^{(t)}$ ：表示高斯参数中语义特征的投影图（由预训练模型学习）。
- $\hat{\mathbf{F}}^{(t)}$ ：表示由预训练模型（如 Stable Diffusion 视觉编码器）直接从真实图像中提取的特征图。
- $\sigma_{\mathrm{cos}}$ ：表示余弦距离（cosine distance），衡量两个特征向量之间的相似度。通过最小化 $1 - \sigma_{\mathrm{cos}}$ ，可以最大化两个特征图的余弦相似度。
动作预测损失 (Action Prediction Loss): 用于训练多模态转换器 PerceiverIO [26]，使其能够根据高斯参数和人类语言指令准确预测机器人机械臂和夹持器的最优动作。 $\begin{array} { r } { \mathcal { L } _ { \mathrm { A c t } } = C E ( p _ { \mathrm { t r a n s } } , p _ { \mathrm { r o t } } , p _ { \mathrm { o p e n } } , p _ { \mathrm { c o l } } ) } \end{array}$ 其中：
- CE：表示交叉熵损失（cross-entropy loss），常用于分类任务中衡量预测概率分布与真实概率分布之间的差异。
- $p_{\mathrm{trans}}, p_{\mathrm{rot}}, p_{\mathrm{open}}, p_{\mathrm{col}}$ ：分别表示在专家演示中真实平移、旋转、夹持器开合度和碰撞避免动作的概率。损失函数的目标是使模型预测的动作概率分布与专家演示的真实动作概率分布尽可能接近。
未来场景一致性损失 (Future Scene Consistency Loss): 强制模型预测的未来场景与真实未来场景之间的一致性，从而使动态高斯散点框架能够准确地嵌入场景级时空动态（scene-level spatiotemporal dynamics）。 $\mathcal { L } _ { \mathrm { { D yna } } } = \Vert \hat { \mathbf { C } } ^ { ( t + 1 ) } ( a ^ { ( t ) } , o ^ { ( t ) } ) - \mathbf { C } ^ { ( t + 1 ) } \Vert _ { 2 } ^ { 2 }$ 其中：
- $\hat{\mathbf{C}}^{(t+1)}(a^{(t)}, o^{(t)})$ ：表示在第 $t$ 步，基于动作 $a^{(t)}$ 和当前观测 $o^{(t)}$ 预测的场景未来图像。
- $\mathbf{C}^{(t+1)}$ ：表示第 $t+1$ 步的真实场景图像。
- $\|\cdot\|_2^2$ ：表示L2范数平方，衡量预测未来图像和真实未来图像之间的像素差异。
总目标函数 (Overall Objective): ManiGaussian 智能体的总目标函数是上述所有损失项的加权组合： $\mathcal { L } = \mathcal { L } _ { \mathrm { A c t } } + \lambda _ { \mathrm { G e o } } \mathcal { L } _ { \mathrm { G e o } } + \lambda _ { \mathrm { S e m } } \mathcal { L } _ { \mathrm { S e m } } + \lambda _ { \mathrm { D y n a } } \mathcal { L } _ { \mathrm { D y n a } }$ 其中：
- $\lambda_{\mathrm{Geo}}, \lambda_{\mathrm{Sem}}, \lambda_{\mathrm{Dyna}}$ ：是控制训练过程中不同损失项重要性的超参数（hyperparameters）。在训练过程中，模型会经历一个热身阶段（warm-up phase），在前3k次迭代中冻结变形预测器（deformation predictor），以学习稳定的表示模型和高斯回归器。热身阶段结束后，整个高斯世界模型与动作解码器一起进行联合训练。

5. 实验设置

5.1. 数据集

实验在流行的 RLBench [27] 模拟任务中进行。

任务选择: 遵循 [76]，作者从 RLBench 中精选了10个具有挑战性的语言条件（language-conditioned）操作任务，包含166种物体属性和场景布置的变体。这些任务要求智能体学习可泛化的场景级时空动态（scene-level spatial-temporal dynamics）。
任务变体: 包括随机采样的颜色、尺寸、数量、放置位置和物体类别。
- 颜色: 20种颜色（红、栗色、青柠色、绿、蓝、海军蓝、黄、青色、洋红、银、灰、橙、橄榄、紫、蓝绿、天蓝、紫罗兰、玫瑰色、黑、白）。
- 尺寸: 短型和高型两种。
- 数量: 1、2或3个物体。
- 其他属性根据具体任务而异。物体在桌面上的随机排列增加了任务的多样性。
视觉观测: 使用单个前置摄像头捕获的RGB-D图像，分辨率为 $128 \times 128$ 。
多视图监督: 为了公平比较，使用与 GNFactor 相同数量的摄像头（20个）提供多视图监督。
训练数据: 每个任务使用20个演示进行训练。
测试集: 每个任务在测试集中评估25个episode，以避免噪音导致的结果偏差。
任务分类: 在消融研究（ablation study）中，作者遵循 [15] 的任务分类标准，将10个 RLBench 任务分为6个类别，以展示改进原因。
- Planning (规划): 包含多个子任务，如 meat off grill（从烤架上取肉）和 push buttons（按按钮）。
- Long (长时程): 需要超过10个关键帧的长期任务，如 put in drawer（放入抽屉）和 stack blocks（堆叠积木）。
- Tools (工具使用): 需要智能体抓取一个物体作为工具与目标物体交互，如 slide block（滑动积木）、drag stick（拖动棍子）和 sweep to dustpan（扫地入簸箕）。
- Motion (精细运动): 需要精确控制，常因预定义运动规划器失败，如 turn tap（转动水龙头）。
- Screw (螺纹操作): 需要夹持器旋转来拧动物体，如 close jar（关罐子）。
- Occlusion (遮挡): 涉及从某些视图存在严重遮挡的问题，如 open drawer（打开抽屉）。
  
  以下是原文 Table 3 的结果：

Table 3: Selected tasks.

Task	Variations	Keyframes	Instruction Template
close jar	color	20	6.0
open drawer	placement	3	3.0
sweep to dustpan	size	2	4.6
meat off grill	category	2	5.0
turn tap	placement	2	2.0
slide block	color	4	4.7
put in drawer	placement	3	12.0
drag stick	color	20	6.0
push buttons	color	50	3.8
stack blocks	color, count	60	14.6

训练流程 (Training Pipeline): 为了学习策略，作者从所有任务变体中均匀采样一组专家 episode，然后为每个任务随机选择一个输入-动作对形成一个批次。智能体假定可以访问预定义的运动规划器（例如 RRT-Connect）。输入-动作对被确定为每个演示中的瓶颈末端执行器姿态（bottleneck end-effector poses）（即关键帧（keyframes）），判断标准是末端执行器改变状态（如关闭夹持器）或其速度接近零。这种设置将顺序决策问题简化为基于当前观测预测下一个最佳关键帧动作，也可以解释为一个分类任务。

5.2. 评估指标

任务成功率 (Task Success Rate):

概念定义: 任务成功率 是衡量机器人智能体在给定任务中成功完成其目标的百分比。在一个 episode 中，如果智能体能在最大步数限制内完成自然语言指令中指定的目标，则该 episode 被视为成功。这是一个常用的、直观的指标，直接反映了机器人执行任务的能力。
数学公式: $\text{Success Rate} = \frac{\text{Number of Successful Episodes}}{\text{Total Number of Episodes Evaluated}} \times 100\%$
符号解释:
- $\text{Number of Successful Episodes}$ : 在评估过程中，智能体成功完成任务的总 episode 数量。
- $\text{Total Number of Episodes Evaluated}$ : 评估智能体性能所进行的 episode 总数量。

5.3. 对比基线

ManiGaussian 与以下最先进的（state-of-the-art）方法进行了比较：

PerAct [60]: 一种感知方法（perceptive method），它将体素 词元（tokens） 输入 PerceiverIO [26] 转换器策略。该方法在多种操作任务中表现出色，代表了基于感知模型学习语义表示的领先技术。
PerAct (4 cameras): PerAct 的改进版本，使用4个摄像头输入来覆盖整个工作台。这旨在解决单摄像头 PerAct 可能存在的遮挡问题，提供了更全面的3D场景理解，可以作为多视图感知方法的代表。
GNFactor [76]: 一种生成方法（generative method），它利用可泛化的 NeRF（神经辐射场）来学习信息丰富的潜在表示，用于最优动作预测。GNFactor 结合了重建损失和行为克隆，在模拟和真实场景中都显示出有效改进，代表了基于生成模型学习3D几何的领先技术。

5.4. 实施细节

数据增强: 为了增强智能体的泛化能力（generalizability），对训练集中的专家演示使用了 $SE(3) [60, 76]$ 增强。
动作解码器: 为了减轻参数大小的影响并进行公平比较，所有基线模型都使用了相同版本的 PerceiverIO [26] 作为动作解码器。
训练环境: 所有比较方法都在两块 NVIDIA RTX 4090 GPU 上进行训练。
训练步数: 100k 次迭代。
批大小 (Batch Size): 2。
优化器: 使用 LAMB [74] 优化器。
学习率: 初始学习率为 $5 \times 10^{-4}$ 。
学习率调度器: 采用带有 cosine scheduler 的热身阶段（warmup），前3k步进行热身。
子模块架构细节 (Appendix B):
- 表示模型 (Representation model $q_{\phi}$ ): 与 [76] 相同，使用一个浅层3D UNet 将体素 $\in \mathbb{R}^{100^3 \times 10}$ （包含RGB特征、坐标、索引和占用信息）编码为高层视觉特征 $\mathbf{v}^{(t)} \in \mathbb{R}^{100^3 \times 128}$ 。
- 高斯回归器 (Gaussian regressor $g_{\phi}$ ): 轻量级多头神经网络，每个头部预测特定特征：
  - 位置偏移头部（position offset head）: 预测每像素的3D中心偏移 $\in \mathbb{R}^3$ 。
  - 颜色头部（color head）: 预测球谐基的系数 $\in \mathbb{R}^{12}$ 。
  - 旋转头部（rotation head）: 预测旋转四元数 $\in \mathbb{R}^4$ 。
  - 尺度头部（scaling head）: 预测尺度因子 $\in \mathbb{R}^3$ ，使用指数激活。
  - 不透明度头部（opacity head）: 预测不透明度 $\in \mathbb{R}^1$ ，使用 sigmoid 激活。
  - 语义头部（semantic head）: 预测语义特征 $\in \mathbb{R}^3$ 。
- 变形预测器 (Deformation predictor $p_{\phi}$ ): 一个带有残差连接的全连接网络（fully-connected network），用于预测每个高斯球的变形 $\Delta \mu_i^{(t)} \in \mathbb{R}^3$ 和 $\Delta r_i^{(t)} \in \mathbb{R}^4$ ，从而得到未来的高斯嵌入 $\theta^{(t+1)}$ 。
超参数 (Hyperparameters):
- 训练迭代次数: 100k
- 图像分辨率: $128 \times 128$
- 体素分辨率: $100 \times 100 \times 100$
- 批大小: 2
- 优化器: LAMB
- 学习率: 0.0005
- 权重衰减: 0.000001
- 高斯点数量: 16384
- $\lambda_{\mathrm{Geo}}$ : 0.01
- $\lambda_{\mathrm{Sem}}$ : 0.0001
- $\lambda_{\mathrm{Dyna}}$ : 0.001
  
  以下是原文 Table 4 的结果：

Table 4: Hyperparameters.

Hyperparameter	Value
training iteration	100k
image resolution	128 × 128
voxel resolution	100 × 100 × 100
batch size	2
optimizer	LAMB
learning rate	0.0005
weight decay	0.000001
Number of Gaussian points	16384
λGeo	0.01
λSem	0.0001
λDyna	0.001

6. 实验结果与分析

6.1. 核心结果分析

本节比较了 ManiGaussian 与最先进的（state-of-the-art）方法在RLBench任务集上的表现。

以下是原文 Table 1 的结果：

Table 1: Multi-task Test Results. We evaluate 25 episodes per task for the final checkpoint on 10 challenging tasks from RLBench and report the success rates ( $\%$ ), where the second results are underlined and the best results are bold.

Method / Task	close jar	open drawer	sweep to dustpan	meat off grill	turn tap	slide block	put in drawer	drag stick	push buttons	stack blocks	Average
PerAct	18.7	54.7	0.0	40.0	38.7	18.7	2.7	5.3	18.7	6.7	20.4
PerAct (4 cameras)	21.3	44.0	0.0	65.3	46.7	16.0	6.7	12.0	9.3	5.3	22.7
GNFactor	25.3	76.0	28.0	57.3	50.7	20.0	0.0	37.3	18.7	4.0	31.7
ManiGaussian (ours)	28.0	76.0	64.0	60.0	56.0	24.0	16.0	92.0	20.0	12.0	44.8

结果分析:

ManiGaussian 在平均成功率上达到了 44.8%，是最先进的（state-of-the-art）性能，显著超越了所有基线方法。
与排名第二的 GNFactor 相比，ManiGaussian 的平均成功率相对提升了 41.3%（ $(44.8 - 31.7) / 31.7 \approx 0.413$ ），绝对提升了13.1%。这表明了本文提出的框架在处理多任务机器人操作方面的优越性。
GNFactor 作为一种基于生成方法的模型，虽然比感知方法 PerAct 有所改进，但仍未能有效捕捉场景级时空动态（scene-level spatiotemporal dynamics），导致在需要精确物理交互的任务中表现不佳。
ManiGaussian 在多个任务中表现出最佳性能，例如 close jar (关罐子)、sweep to dustpan (扫地入簸箕)、turn tap (转动水龙头)、put in drawer (放入抽屉)、drag stick (拖动棍子) 和 stack blocks (堆叠积木)。尤其在 drag stick 任务中，成功率高达92.0%，远超 GNFactor 的37.3%，这突出表明了 ManiGaussian 在理解和利用对象间动态交互方面的强大能力。
在 meat off grill（从烤架上取肉）任务中，尽管 ManiGaussian 排名第二（60.0%），但其表现仍然优于 GNFactor (57.3%)，仅略低于 PerAct (4 cameras) (65.3%)。
实验结果有力地证明了 ManiGaussian 通过学习场景动态，提高了机器人智能体在非结构化环境中准确预测动作并完成人类指令的能力。

6.2. 消融实验/参数分析

作者进行了消融研究（ablation study），以验证动态高斯散点框架（dynamic Gaussian Splatting framework）和高斯世界模型（Gaussian world model）中各个组件的有效性。

以下是原文 Table 2 的结果：

Table 2: Comparison of Methods with Different Techniques. Following [15], we manually group the 10 RLBench tasks into 6 categories according to their main challenges to demonstrate the improvement reason. The 6 categories are detailed in the supplementary file.

Geo.	Sem.	Dyna.	Planning	Long	Tools	Motion	Screw	Occlusion	Average
	X	X	36.0	2.0	25.3	52.0	4.0	28.0	23.6
✓			46.0	4.0	52.0	52.0	24.0	60.0	39.2
✓	✓		46.0	8.0	53.3	64.0	28.0	56.0	41.6
✓	X	✓	54.0	10.0	49.3	64.0	24.0	72.0	43.6
✓	✓	✓	40.0	14.0	60.0	56.0	28.0	76.0	44.8

消融实验结果分析:

基线 (Baseline): 初始基线（无任何提出技术）的平均成功率为23.6%。
几何信息 (Geometric features, Geo.): 仅添加高斯回归器（预测高斯参数，即包含几何信息）后，平均性能提升了 15.6% (39.2% - 23.6%)。特别是在 Occlusion (遮挡)、Tools (工具使用) 和 Screw (螺纹操作) 等需要几何推理（geometric reasoning）的任务中，性能显著提高，这验证了 Gaussian Splatting 在建模空间信息方面的能力。
语义特征 (Semantic features, Sem.): 在几何信息的基础上，添加从预训练基础模型（foundation models）蒸馏的语义特征及其一致性损失后，平均成功率进一步提升了 2.4% (41.6% - 39.2%)。这表明高层语义信息对机器人操作是有益的。
动态信息 (Dynamic information, Dyna.): 引入变形预测器和相应的未来场景一致性损失后，性能获得了显著提升，平均成功率增加了 4.4% (43.6% - 39.2%)。值得注意的是，变形预测器改进了6种任务类型中的4种，尤其在长时程任务（long-horizon tasks）（如 Long 类别，从4.0%提升到10.0%）中效果明显，这突出了场景级动态（scene-level dynamics）在世界模型中的重要性。尽管动态损失可能会轻微影响短期结果，但它显著提升了整体性能。
所有技术结合 (All techniques combined): 当所有提出的技术（几何、语义和动态）结合在一起时，平均成功率从23.6%提升到 44.8%。这最终验证了通过高斯世界模型挖掘场景级时空动态（scene-level spatiotemporal dynamics）的必要性。

6.2.1. 学习曲线 (Learning Curve)

Fig.3: Learning Curve. Comparison of our ManiGaussian with GNFactor in performance and speed. For a fair comparison, we exclude auxiliary losses from the reconstruction loss. The grey dotted lines re… 该图像是图表，展示了ManiGaussian与GNFactor在训练时间与平均成功率上的对比学习曲线。ManiGaussian在相同训练时间内成功率显著高于GNFactor，提升比例分别为1.18倍和2.29倍，灰色虚线代表移动平均结果。

图3: 学习曲线。ManiGaussian与GNFactor在性能和速度上的比较。为公平比较，排除了重建损失中的辅助损失。灰色虚线表示使用移动平均的结果。

图3展示了 ManiGaussian 和最先进的（state-of-the-art）方法 GNFactor 的学习曲线。
两种方法都在100k训练步骤内收敛。
ManiGaussian 显著优于 GNFactor，在相同训练步数下表现更好 1.18倍，训练速度快 2.29倍。
这证明了 ManiGaussian 不仅性能更优，训练也更快，同时也显示出显式高斯场景重建（Gaussian Splatting）相比隐式方法（如 NeRF）的效率优势。

6.2.2. 超参数平衡影响 (Impact of Balance Hyperparameters)

以下是原文 Table 5 的结果：

Table 5: Impact of Balance Hyperparameters.

λGeo	λSem	λDyna	Planning	Long	Tools	Motion	Screw	Occlusion	Average
0.01	0	0.00001	42.0	24.0	48.0	48.0	28.0	72.0	42.4
0.01	0	0.0001	54.0	12.0	44.0	52.0	28.0	80.0	42.4
0.01	0	0.001	54.0	10.0	49.3	64.0	24.0	72.0	43.6
0.01	0.00001	0	48.0	8.0	34.7	48.0	24.0	64.0	35.2
0.01	0.0001	0	46.0	8.0	53.3	64.0	28.0	56.0	41.6
0.01	0.001	0	46.0	2.0	37.3	60.0	40.0	68.0	37.6
0.01	0.0001	0.001	40.0	14.0	60.0	56.0	28.0	76.0	44.8

超参数平衡分析:

该表展示了不同损失项权重（ $\lambda_{\mathrm{Geo}}, \lambda_{\mathrm{Sem}}, \lambda_{\mathrm{Dyna}}$ ）对整体性能的影响。
结果表明，各个损失项的平衡对于学习最优操作策略至关重要。例如，当 $\lambda_{\mathrm{Dyna}}$ 较高（0.001）而 $\lambda_{\mathrm{Sem}}$ 为0时，平均成功率为43.6%；而当 $\lambda_{\mathrm{Sem}}$ 较高（0.001）而 $\lambda_{\mathrm{Dyna}}$ 为0时，平均成功率降至37.6%。
最佳组合 ( $\lambda_{\mathrm{Geo}}=0.01, \lambda_{\mathrm{Sem}}=0.0001, \lambda_{\mathrm{Dyna}}=0.001$ ) 实现了44.8%的最高平均成功率。
这进一步强调了语义（semantic）和动态（dynamic）信息对于全面理解场景和准确预测动作的重要性，并且需要仔细调整它们的相对权重以达到最佳效果。

6.3. 定性分析

6.3.1. 轨迹可视化 (Visualization of Whole Trajectories)

Fig. 4: Case Study. The red mark signifies the pose deviates severely from the expert demonstration, whereas the green mark indicates that the pose aligns with the expert trajectory. Our ManiGaussian… 该图像是论文中的实验示意图，展示了 ManiGaussian 和 GNFactor 两种方法执行“Turn left tap”任务的机器人操作过程。绿色对勾表示动作成功，红色叉号表示动作失败，结果显示 ManiGaussian 在动态高斯点驱动下具有更高的执行成功率。

图4: 案例研究。红色标记表示姿态严重偏离专家演示，绿色标记表示姿态与专家轨迹对齐。ManiGaussian通过对场景级时空动态的物理理解，成功完成了人类目标。

图4展示了 GNFactor 和 ManiGaussian 生成的动作序列的两个定性示例。
顶部案例（“滑动积木到黄色目标”）: GNFactor 尝试模仿专家的向后拉动动作，即使夹爪已经偏向红色积木右侧，也未能成功完成任务。这表明它对场景中物体的物理交互理解不足。相比之下，ManiGaussian 能够返回到红色方块处，并成功将方块滑动到黄色目标位置，这得益于其对物体接触时场景动态的正确理解。
底部案例（“转动左侧水龙头”）: GNFactor 错误地理解了“左侧”的含义，操作了右侧水龙头，并且未能成功打开水龙头。而 ManiGaussian 成功完成了任务，这表明它不仅能理解语义信息，还能准确执行操作。
这些案例研究直观地证明了 ManiGaussian 具备物理理解能力，能够通过对场景级时空动态（scene-level spatial-temporal dynamics）的建模，成功完成需要精确物理交互和语义理解的任务。

6.3.2. 新颖视图合成可视化 (Visualization of Novel View Synthesis)

Fig. 5: Novel View Synthesis Results. We remove the action loss here for better visualization. Our ManiGaussian is capable of both current scene reconstruction and future scene prediction. 该图像是论文ManiGaussian中的图5，展示了不同方法下的视角合成结果，包括观察图、当前时间步的视角合成和未来时间步的视角合成。对比表明ManiGaussian在PSNR值上优于GNFactor，且能更准确地重建和预测场景细节。

图5: 新颖视图合成结果。为更好地可视化，此处移除了动作损失。ManiGaussian能够进行当前场景重建和未来场景预测。

图5展示了新颖视图合成（novel view synthesis）的结果，其中移除了动作损失以便于可视化。
当前场景重建: 基于无法看到夹持器形状的前视图观测，ManiGaussian 在新颖视图中对立方体建模提供了卓越的细节。例如，模型能够从不同的视角清晰地重建立方体的形状和位置。
未来场景预测: ManiGaussian 能够根据恢复的细节准确预测未来状态。在 slide block 任务的顶部案例中，ManiGaussian 不仅预测了与人类指令对应的未来夹持器位置，还基于对物体之间物理交互的理解，预测了受夹持器影响的未来立方体位置。
这些定性结果表明，ManiGaussian 成功学习了复杂的场景级动态（scene-level dynamics），使其能够准确重建当前场景并预测未来的物理交互结果，进一步支持了其对场景动态理解的主张。

7. 总结与思考

7.1. 结论总结

本文提出了一种名为 ManiGaussian 的智能体，旨在为语言条件（language-conditioned）操作任务编码场景级（scene-level）时空动态（spatiotemporal dynamics）。其核心创新点在于：

动态高斯散点框架（Dynamic Gaussian Splatting framework）: 设计该框架以建模高斯嵌入空间中特征的传播，将场景动态融入到潜在表示中，从而用于预测机器人动作。
高斯世界模型（Gaussian world model）: 构建该模型来参数化动态高斯散点框架中的分布，并通过重建未来场景来挖掘场景级动态，提供信息丰富的监督。通过在多样化的操作任务中进行实验，ManiGaussian 展示了其优越性，在平均成功率上显著超越了最先进的（state-of-the-art）方法，并提供了更快的训练速度。这证实了通过显式建模和预测场景动态，可以显著提升机器人在复杂非结构化环境中的操作能力。

7.2. 局限性与未来工作

作者在论文中指出，ManiGaussian 的局限性主要源于对多视图监督（multiple view supervision）和相机校准（camera calibration）的需求，这对于 Gaussian Splatting 框架而言是必要的。这意味着在实际部署中，尤其是在快速变化的或未知的环境中，获取高质量的多视图数据和精确的相机校准可能是一个挑战。

尽管论文未明确提及未来的具体工作方向，但基于其局限性和当前研究趋势，可以推断：

减少对多视图监督的依赖: 未来的研究可以探索如何通过更少的视图甚至单视图输入，有效地学习动态高斯散点，例如通过引入更强的先验知识或结合生成模型。
自适应相机校准: 开发能够在线或自适应地进行相机校准的方法，以降低部署复杂性。
泛化到真实世界场景: 将 ManiGaussian 的成功经验从模拟环境推广到更复杂的真实世界场景，可能需要处理真实世界中的噪声、不确定性和更复杂的物理交互。
更复杂的物理交互建模: 探索如何建模除了刚体运动之外的更复杂物理现象，例如软体变形、流体、碰撞反弹等，以应对更广泛的操作任务。
与大型语言模型的深度融合: 进一步探索 ManiGaussian 如何与大型语言模型（LLMs）进行更深层次的融合，以实现更高级别的任务规划、常识推理和更灵活的指令理解。

7.3. 个人启发与批判

个人启发:

动态建模的重要性: 这篇论文深刻地揭示了在机器人操作任务中，仅关注静态几何和语义表示是不够的，场景级时空动态的理解是完成复杂任务的关键。通过将动态信息显式地编码到3D表示中，机器人能够更好地预测物理交互结果，从而规划出更有效的动作。
Gaussian Splatting 的潜力: Gaussian Splatting 作为一种高效的3D表示和渲染方法，其可编辑性和快速渲染特性使其非常适合动态场景建模。ManiGaussian 展示了 Gaussian Splatting 不仅可以用于静态场景重建和新颖视图合成，还能通过结合世界模型，扩展到时变动态建模和预测，这为其在机器人、AR/VR等领域的应用开辟了新的道路。
世界模型在机器人中的价值: 世界模型提供了一种强大的自监督学习范式，使得智能体可以在内部模拟和预测环境，从而学习环境动态。将世界模型与具体的3D表示（如 Gaussian Splatting）结合，为机器人智能体提供了一种理解和推理物理世界的有效机制。
多模态信息融合的有效性: 论文通过融合几何、语义（从 Stable Diffusion 蒸馏）和动态信息，显著提升了任务成功率。这强调了在机器人感知和控制中，综合利用多种模态信息的优势。

批判与可以改进的地方:

对相机校准的依赖: 论文承认了对多视图监督和相机校准的依赖是其局限性之一。在真实世界机器人部署中，精确的多视图校准通常是繁琐且容易出错的。未来的工作可以探索如何通过自校准机制、领域自适应技术或更鲁棒的单视图重建方法来减轻这一限制。
物理建模的简化: 论文将所有对象视为刚体（rigid bodies），这在许多 RLBench 任务中是合理的，但在更复杂的真实世界操作中，软体（deformable bodies）、流体、摩擦等更复杂的物理现象可能需要更精细的建模。ManiGaussian 的框架可能需要扩展以处理这些复杂性。
泛化能力与新颖性: 尽管在 RLBench 任务上表现出色，但模型的泛化能力（generalization ability）到全新物体、全新场景或完全未见的任务变体上仍有待进一步验证。尤其是在零样本（zero-shot）或少样本（few-shot）学习场景下，模型能否保持鲁棒性是一个开放性问题。
计算资源考量: 尽管 Gaussian Splatting 渲染效率高，但维护和更新大量高斯点（如16384个）及其参数在实时动态场景中仍可能具有挑战性，特别是在资源受限的机器人平台上。优化高斯点的数量、分布或更新策略可能会进一步提高效率。
语言指令的复杂性: 论文在 RLBench 上进行了测试，这些任务的语言指令相对结构化。对于更模糊、更开放或需要更多常识推理的自然语言指令，模型的理解和执行能力仍需进一步探索。与大型语言模型的更深层集成可能有助于解决这一问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。