论文状态：已完成

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

发表：2023/09/01

稳定扩散模型 (2)多任务机器人操作 (4)可泛化的神经特征场 (1)视觉行为克隆 (1)Perceiver Transformer (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了GNFactor，一个利用可泛化神经特征场的行为克隆智能体，旨在提升机器人在复杂环境中的多任务操作能力。GNFactor通过共享3D体素表示，优化重建模块和决策模块，结合视觉-语言模型，显著提高了对3D结构和物体语义的理解，在多个真实和模拟任务中展示了优越的泛化能力。

摘要

It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present $\textbf{GNFactor}$ , a visual behavior cloning agent for multi-task robotic manipulation with $\textbf{G}$ eneralizable $\textbf{N}$ eural feature $\textbf{F}$ ields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model ( $\textit{e.g.}$ , Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .

思维导图

论文精读

中文精读约 11 分钟读完 · 7,144 字

1. 论文基本信息

1.1. 标题

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields (GNFactor: 利用可泛化的神经特征场进行多任务真实机器人学习)

1.2. 作者

Yanjie Ze (上海交通大学)、Ge Yan (UC San Diego)、Yueh-Hua Wu (UC San Diego) 等。注：Yanjie Ze、Ge Yan 与 Yueh-Hua Wu 为共同第一作者。

1.3. 发表期刊/会议

发表于 CoRL 2023 (Conference on Robot Learning)。CoRL 是机器人学习领域的顶级学术会议，以强调机器学习与机器人技术的结合而闻名。

1.4. 发表年份

2023年（论文于 2023 年 8 月 31 日发布于 arXiv）。

1.5. 摘要

开发能在非结构化真实环境中执行多样化操作任务的智能体是机器人学的一个长期难题。为了实现这一目标，机器人需要对场景的 3D 结构和语义有全面的理解。本文提出了 GNFactor，这是一个基于视觉的行为克隆智能体，利用可泛化的神经特征场 (Generalizable Neural feature Fields, GNF) 进行多任务机器人操作。GNFactor 共同优化了一个作为重建模块的可泛化神经场和一个作为决策模块的 Perceiver Transformer，两者共享一个深层 3D 体素 (3D Voxel) 表示。为了在 3D 空间中整合语义，重建模块利用视觉-语言基础模型（如 Stable Diffusion）将丰富的语义信息蒸馏到深层 3D 体素中。实验表明，GNFactor 在 3 个真实机器人任务和 10 个 RLBench 模拟任务中显著优于现有最先进方法，展现了极强的泛化能力。

1.6. 原文链接

PDF 链接: https://arxiv.org/pdf/2308.16891v3.pdf
项目主页: https://yanjieze.com/GNFactor/
发布状态: 已正式发表于 CoRL 2023。

2. 整体概括

2.1. 研究背景与动机

机器人学习，特别是行为克隆 (Behavior Cloning)，在处理复杂环境时面临巨大挑战。

核心问题: 如何让机器人在仅有少量演示数据的情况下，理解场景的 3D 几何结构、物体的语义功能，并准确执行语言指令？
挑战与空白:
1. 2D 表示的局限性: 现有的机器人学习多基于 2D 图像，难以处理遮挡和复杂的空间几何关系（如物体的形状和姿态）。
2. 3D 语义缺失: 虽然一些研究开始引入 神经辐射场 (Neural Radiance Fields, NeRF) 来增强几何理解，但单纯的几何形状不足以让机器人理解“微波炉”或“水龙头”的语义，导致其难以遵循语言指令。
3. 泛化性差: 在新场景、新物体下，模型往往会失效。

2.2. 核心贡献/主要发现

GNFactor 框架: 提出了一个联合训练框架，将 3D 重建任务（通过神经场）与机器人决策任务（通过 Transformer）结合在同一个共享的 3D 体素特征空间中。
语义蒸馏 (Semantic Distillation): 首次将视觉-语言基础模型（Stable Diffusion）的 2D 特征蒸馏到 3D 神经场中，使机器人具备 3D 语义感知能力。
可泛化的神经特征场 (GNF): 不同于传统的 NeRF 需要针对每个场景进行数小时的单独优化，GNF 是前馈式的（Feed-forward），能够直接从单视图推理出场景的 3D 特征。
实验结果: 在模拟和真实世界中，GNFactor 的性能均大幅超过了目前的基准模型 PerAct，尤其在未见过（Unseen）的任务和场景中表现卓越。

3. 预备知识与相关工作

3.1. 基础概念

行为克隆 (Behavior Cloning, BC): 机器人学习的一种形式，通过模仿专家（如人类示教）的动作序列来学习策略。
3D 体素 (3D Voxel): 类似于 2D 图像中的像素，体素是 3D 空间中的最小单元。将场景离散化为体素网格有助于模型处理三维空间关系。
视觉-语言基础模型 (Vision-Language Foundation Models): 如 CLIP 或 Stable Diffusion。这些模型在海量互联网数据上训练，具备极强的视觉语义理解能力。本文利用其特征来告诉机器人“哪里是杯子”、“哪里是把手”。
关键帧 (Keyframe): 在机器人动作轨迹中，只有某些关键时刻（如抓取、放置）对任务至关重要。预测关键帧比预测连续的低级电机指令更高效。

3.2. 前人工作

PerAct (Perceiver-Actor): 本文最重要的基准模型。它将 3D 体素和语言指令输入 Perceiver Transformer 来预测动作。但 PerAct 缺乏显式的 3D 重建监督，泛化性有限。
NeRF (Neural Radiance Fields): 经典的神经场方法。通过渲染 2D 图像来学习 3D 场景的密度和颜色。
- 核心公式（渲染方程）: $\hat{C}(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \sigma(\mathbf{r}(t)) \mathbf{c}(\mathbf{r}(t), \mathbf{d}) dt$ 其中 $\mathbf{r}(t) = \mathbf{o} + t\mathbf{d}$ 是射线，T(t) 是透光率， $\sigma$ 是密度， $\mathbf{c}$ 是颜色。

3.3. 差异化分析

相比于 PerAct，GNFactor 增加了 GNF 重建分支；相比于传统的 NeRF-RL（只学几何），GNFactor 蒸馏了 基础模型的语义特征，且支持 多任务 学习。

4. 方法论

GNFactor 的核心思想是：通过让模型学习“如何重建这个世界（几何与语义）”，来辅助它学习“如何在这个世界中行动”。

下图（原文 Figure 3）展示了 GNFactor 的整体架构：

$Figure 3: Overview of GNFactor. GNFactor takes an RGB-D image as input and encodes it using a voxel encoder to transform it into a feature in deep 3D volume.This volume is then shared by two modules:volumetric rendering (Renderer) and robot action prediction (Perceiver). These two modules are jointly trained, which optimizes the shared features to not only reconstruct vision-language embeddings (Diffusion Feature) and other views (RGB), but also to estimate accurate $\\mathrm { Q }$ values $Q _ { \\mathrm { t r a n s } }$ , $Q _ { \\mathrm { r o t } }$ $Q _ { \\mathrm { c o l l i d e } }$ , $Q _ { \\mathrm { o p e n . } }$ . multi-task robotic manipulation. The task description is encoded with CLIP \[51\] to obtain the task embedding $T$ An overview of GNFactor is shown in Figure 3.$ 该图像是示意图，展示了GNFactor的工作流程。图中显示，GNFactor接收RGB-D图像作为输入，通过体素编码器转换为深度3D体积特征。该体积共享给两个模块：体积渲染器（Renderer）和动作预测器（Perceiver）。此外，任务描述通过语言编码器进行处理，进一步支持机器人状态的预测与决策。整体流程旨在优化多任务机器人操作的性能。

4.1. 3D 体素编码器 (Voxel Encoder)

首先，模型接收一张单视角的 RGB-D 图像 (RGB + Depth)。

根据相机内参和外参，将 2D 像素映射到 3D 空间，形成一个大小为 $100^3$ 的初始体素。
使用一个轻量级的 3D UNet 编码器将初始体素转化为 深层 3D 体素表示 (Deep 3D Voxel Representation) $v \in \mathbb{R}^{100^3 \times 128}$ 。这个 $v$ 是整个框架的“灵魂”，它被后续两个模块共享。

4.2. 可泛化的神经特征场 (GNF) 模块

该模块的作用是通过 神经渲染 (Neural Rendering) 任务来监督体素 $v$ 的学习。

4.2.1. 特征蒸馏与函数定义

为了让 $v$ 包含语义，作者利用 Stable Diffusion 提取输入视图的 2D 特征图作为 真实标注数据 (Ground Truth)。 GNF 定义了三个关键函数：

密度函数 (Density Function): $\sigma(\mathbf{x}, v_{\mathbf{x}}) \mapsto \mathbb{R}_+$ ，预测 3D 点 $\mathbf{x}$ 处的物质密度。
颜色函数 (RGB Function): $\mathbf{c}(\mathbf{x}, \mathbf{d}, v_{\mathbf{x}}) \mapsto \mathbb{R}^3$ ，预测该点在视线方向 $\mathbf{d}$ 下的颜色。
语义特征函数 (Feature Function): $\mathbf{f}(\mathbf{x}, \mathbf{d}, v_{\mathbf{x}}) \mapsto \mathbb{R}^{512}$ ，预测该点对应的基础模型语义特征。

其中 $v_{\mathbf{x}}$ 是通过对体素 $v$ 在 $\mathbf{x}$ 坐标处进行 三线性插值 (Trilinear Interpolation) 得到的特征向量。

4.2.2. 体积渲染公式

对于给定的相机射线 $\mathbf{r}(t) = \mathbf{o} + t\mathbf{d}$ ，其预测的颜色 $\hat{\mathbf{C}}(\mathbf{r}, v)$ 和预测的语义特征 $\hat{\mathbf{F}}(\mathbf{r}, v)$ 计算如下： $\begin{array}{l} {\displaystyle \hat{\mathbf{C}}(\mathbf{r}, v) = \int_{t_n}^{t_f} T(t) \sigma(\mathbf{r}(t), v_{\mathbf{x}(t)}) \mathbf{c}(\mathbf{r}(t), \mathbf{d}, v_{\mathbf{x}(t)}) dt}, \\ {\displaystyle \hat{\mathbf{F}}(\mathbf{r}, v) = \int_{t_n}^{t_f} T(t) \sigma(\mathbf{r}(t), v_{\mathbf{x}(t)}) \mathbf{f}(\mathbf{r}(t), \mathbf{d}, v_{\mathbf{x}(t)}) dt}, \end{array}$ 其中 $T(t) = \exp \left( - \int_{t_n}^{t} \sigma(s) ds \right)$ 表示从射线起点到 $t$ 处的累积透光率 (Transmittance)。

4.2.3. 重建损失函数

模型通过最小化以下损失函数 $\mathcal{L}_{recon}$ 来优化： $\mathcal{L}_{recon} = \sum_{\mathbf{r} \in \mathcal{R}} \|\mathbf{C}(\mathbf{r}) - \hat{\mathbf{C}}(\mathbf{r})\|_2^2 + \lambda_{feat} \|\mathbf{F}(\mathbf{r}) - \hat{\mathbf{F}}(\mathbf{r})\|_2^2$

$\mathbf{C}(\mathbf{r})$ : 真实像素颜色。
$\mathbf{F}(\mathbf{r})$ : Stable Diffusion 提取的真实语义特征。
$\lambda_{feat}$ : 特征重建损失的权重。

4.3. 动作预测模块 (Perceiver Transformer)

这是决策核心，负责预测机器人的下一步。

输入融合: 将深层体素 $v$ 、机器人自身的 本体感受 (Proprioception)（如关节位置）以及由 CLIP 编码的 语言指令 (Language Embedding) 拼接在一起。
处理: 输入到 Perceiver Transformer 中。该架构利用 交叉注意力机制 (Cross-Attention) 处理长序列，效率极高。
输出 (Q 值预测): 模型输出一系列 Q 值 (Q-values)（此处代表动作概率），分别对应：
- 平移 (Translation): 物体应该移动到哪个体素位置。
- 旋转 (Rotation): 机械臂抓取的角度（离散化为多个箱子）。
- 夹持器状态 (Gripper Openness): 开还是关。
- 碰撞避免 (Collision Avoidance): 是否需要避障。

4.3.1. 动作损失函数

动作训练采用交叉熵损失 $\mathcal{L}_{action}$ ： $\mathcal{L}_{action} = - \mathbb{E}_{Y_{trans}} [\log \mathcal{V}_{trans}] - \mathbb{E}_{Y_{rot}} [\log \mathcal{V}_{rot}] - \dots$ 其中 $\mathcal{V}_i = \text{softmax}(\mathcal{Q}_i)$ ，而 $Y_i$ 是 真实标注数据 (Ground Truth) 的独热编码（One-hot encoding）。

4.4. 联合训练

最终的联合优化目标为： $\mathcal{L}_{GNFactor} = \mathcal{L}_{action} + \lambda_{recon} \mathcal{L}_{recon}$ 通过联合训练，体素特征 $v$ 必须同时满足“能看懂场景”和“能指导动作”两个需求。

5. 实验设置

5.1. 数据集

作者在模拟环境和真实环境中都进行了严谨的测试：

RLBench (模拟):
- 包含 10 个具有挑战性的语言条件任务（如：关闭罐子、打开抽屉、扫地、烤肉等）。
- 共计 166 种变体（颜色、大小、数量、位置的变化）。
- 样本数量: 每个任务仅使用 20 个演示（Few-shot）。
真实机器人 (Real Robot):
- 使用 xArm7 七轴机械臂。
- 场景：两个不同的玩具厨房（Kitchen 1 和 Kitchen 2）。
- 任务：打开微波炉门、转动水龙头、重新放置茶壶。
- 样本数量: 每个任务仅需 5 个演示。
  
  下图展示了部分模拟任务和真实机器人的设置：
  
  该图像是示意图，展示了10个RLBench任务的RGB观察结果（图(a)）、用于GNF训练的采样视图（图(b)）以及真实机器人设置（图(c)）。

5.2. 评估指标

主要的评估指标是 成功率 (Success Rate, SR)。

概念定义: 在给定的测试回合中，机器人成功完成指令目标的比例。
数学公式: $SR = \frac{N_{success}}{N_{total}} \times 100\%$
符号解释: $N_{success}$ 是成功完成任务的回合数， $N_{total}$ 是总测试回合数。

5.3. 对比基线

PerAct: 当时最先进的基于体素的机器人学习模型。
PerAct (4 Cameras): 给 PerAct 提供更多摄像头的输入，看其能否靠增加视野赶上 GNFactor。

6. 实验结果与分析

6.1. 核心结果分析

GNFactor 在所有实验中均表现出压倒性优势。

6.1.1. RLBench 模拟结果

以下是原文 Table 1 的数据转录（多任务测试结果）：

方法 / 任务	close jar	open drawer	sweep to dustpan	meat off grill	turn tap	Average
PerAct	18.7±8.2	54.7±18.6	0.0±0.0	40.0±17.0	38.7±6.8	20.4
PerAct (4 Cameras)	21.3±7.5	44.0±11.3	0.0±0.0	65.3±13.2	46.7±3.8	22.7
GNFactor (本文)	25.3±6.8	76.0±5.7	28.0±15.0	57.3±18.9	50.7±8.2	31.7

分析: GNFactor 的平均成功率是 PerAct 的 1.55 倍。即使 PerAct 使用 4 个摄像头，依然远逊于仅使用单摄像头的 GNFactor。这证明了高质量 3D 表示的重要性。

6.1.2. 泛化能力 (Generalization)

在未见过的任务变体（如改变物体大小、增加干扰物）下，GNFactor 的平均成功率为 28.3%，而 PerAct 仅为 18.0%。

6.2. 真实机器人结果

在真实厨房中，由于存在光照变化和传感器噪声，任务更难。

结果: GNFactor 的平均成功率为 43.3%，而 PerAct 仅为 22.5%。
亮点: 在最难的“移动茶壶”任务中，PerAct 的成功率为 0，而 GNFactor 达到了 40%。这归功于从 Stable Diffusion 中学到的语义知识，让机器人知道茶壶的哪些部位是可以抓取的。

6.3. 消融实验 (Ablation Study)

下表（原文 Table 4）分析了各个组件的贡献：

消融实验项目	成功率 (%)
GNFactor (全功能)	36.8
移除 GNF 目标	24.2
移除 Diffusion 语义 (仅 RGB)	30.0
Diffusion 替换为 DINO 特征	30.4

结论:
1. GNF 是核心: 移除重建目标后，性能大幅下降。
2. 语义至关重要: 蒸馏基础模型的语义特征确实比单纯学习几何更有利于机器人理解复杂指令。

7. 总结与思考

7.1. 结论总结

GNFactor 成功展示了如何将 3D 几何重建、语义蒸馏 和 行为克隆 融合在一个优雅的框架中。通过引入 Generalizable Neural Feature Fields，它解决了传统机器人视觉表示缺乏空间结构感和语义理解深度的问题。

7.2. 局限性与未来工作

多视角依赖: 虽然推理只需要单视角，但训练阶段仍需要多个视图来提供重建监督，这在某些真实场景中部署不便。
实时性: 虽然是前馈式的，但 3D 体素的计算开销依然高于 2D 模型。
未来方向: 探索如何利用手机随手拍摄的杂乱视图进行训练，进一步降低示教成本。

7.3. 个人启发与批判

启发: 这篇论文体现了“基础模型 (Foundation Models) + 具身智能 (Embodied AI)”的强大潜力。以前我们试图从零学习语义，现在我们可以直接从视觉-语言大模型中“搬运”知识。
批判性思考: 论文中提到的重建质量其实并不如专业的三维重建算法（如图 Figure 5 显示渲染图有些模糊）。然而，模糊的重建竟然能带来更好的机器人操作性能，这说明对于机器人来说，理解“大概在哪、是什么”比“看清每个像素的颜色”更重要。这种“任务导向的表示学习”非常值得借鉴。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。