摘要

Diffusion generative modeling has become a promising approach for learning robotic manipulation tasks from stochastic human demonstrations. In this paper, we present Diffusion-EDFs, a novel SE(3)-equivariant diffusion-based approach for visual robotic manipulation tasks. We show that our proposed method achieves remarkable data efficiency, requiring only 5 to 10 human demonstrations for effective end-to-end training in less than an hour. Furthermore, our benchmark experiments demonstrate that our approach has superior generalizability and robustness compared to state-of-the-art methods. Lastly, we validate our methods with real hardware experiments. Project Website: https://sites.google.com/view/diffusion-edfs/home

1. 论文基本信息

1.1. 标题

Diffusion-EDFs: Bi-equivariant Denoising Generative Modeling on SE(3) for Visual Robotic Manipulation

中文翻译：Diffusion-EDFs: 用于视觉机器人操作的SE(3)上双等变去噪生成建模

论文的核心主题是提出一种名为 Diffusion-EDFs 的新方法，该方法将扩散生成模型 (Diffusion Generative Modeling) 与群论中的等变性 (Equivariance) 相结合，专门用于解决机器人视觉操作任务。这里的关键点在于：

$SE(3)$ ：这是一个数学概念，代表三维空间中所有可能的刚体变换（包括旋转和平移）组成的群。机器人操作（如抓取和放置）本质上就是对物体或机械臂末端执行器进行 $SE(3)$ 变换，因此模型建立在这个数学结构上非常自然。
双等变性 (Bi-equivariant)：这是模型的一个核心特性，意味着模型能够同时处理场景（世界坐标系）和抓取物（末端执行器坐标系）的几何变换，从而大大增强了其泛化能力。
去噪生成建模 (Denoising Generative Modeling)：这是一种强大的生成模型范式，通过学习从一个充满噪声的状态恢复到原始数据的过程，来生成新的、符合特定分布的数据。在这里，它被用来生成机器人末端执行器的精确姿态。

1.2. 作者

论文作者来自多个顶级学术和研究机构，背景涵盖机器人学、机器学习和计算机视觉。

Hyunwoo Ryu, Jiwoo Kim, Hyunseok An, Junwoo Chang, Jongeun Choi (延世大学, Yonsei University)
Joohwan Seo, Roberto Horowitz (加州大学伯克利分校, University of California, Berkeley)
Taehan Kim (三星研究院, Samsung Research)
Yubin Kim (麻省理工学院, Massachusetts Institute of Technology)
Chaewon Hwang (梨花女子大学, Ewha Womans University)

主要作者团队来自延世大学，并与伯克利等顶尖高校有紧密合作。Jongeun Choi 和 Roberto Horowitz 教授是机器人控制和学习领域的知名学者。Hyunwoo Ryu 是之前 EDFs 工作的核心作者，这篇 Diffusion-EDFs 是在其先前工作基础上的重要延伸。

1.3. 发表期刊/会议

这篇论文的预印本 (preprint) 于2023年9月发布在 arXiv 上。虽然摘要中未明确指出正式发表的会议，但考虑到其研究质量和所引用的参考文献（如ICLR, CoRL, RSS, ICRA），该工作瞄准的是机器人学和机器学习领域的顶级会议。

1.4. 发表年份

2023年

1.5. 摘要

论文摘要概括了其核心工作：提出了一种名为 Diffusion-EDFs 的新方法，它是一种基于 $SE(3)$ 等变扩散模型的视觉机器人操作框架。该方法具有以下突出优点：

极高的数据效率 (Data Efficiency)：仅需 5 到 10 个真人演示，就能在不到一小时内完成端到端的有效训练。
卓越的泛化性和鲁棒性 (Generalizability and Robustness)：在基准测试中，其性能超越了当前最先进的方法。
真实硬件验证 (Real Hardware Validation)：该方法的有效性在真实的机器人系统上得到了验证。

1.6. 原文链接

ArXiv 链接: https://arxiv.org/abs/2309.02685
PDF 链接: https://arxiv.org/pdf/2309.02685v3.pdf
项目主页: https://sites.google.com/view/diffusion-edfs/home
发布状态: 预印本 (Preprint)。

2. 整体概括

2.1. 研究背景与动机

机器人操作任务，尤其是需要精确姿态控制的六自由度 (6-DoF) 任务（如抓取、放置），一直是机器人学领域的长期挑战。传统的编程方法非常繁琐且难以适应新物体或新环境。近年来，从演示中学习 (Learning from Demonstration, LfD) 成为一种主流范式，即让机器人通过观察少量人类演示来学习技能。

然而，现有方法面临以下具体挑战和空白 (Gap)：

数据效率低下：许多基于深度学习的方法，特别是没有利用问题内在对称性的方法，需要大量的演示数据和漫长的训练时间才能学会一个任务，这在实际应用中成本高昂。
泛化能力不足：模型在训练数据上表现良好，但当遇到新的物体、新的初始位置或杂乱的环境时，性能会急剧下降。这种现象被称为分布外 (Out-of-Distribution, OOD) 泛化问题。
训练效率与模型表达能力的权衡：
- 一些扩散模型 (Diffusion Models) 方法（如 SE(3)-Diffusion Fields）虽然能处理多模态的演示（即一个任务可以有多种成功解法），但它们通常不具备严格的 $SE(3)$ 等变性，导致数据效率低，泛化能力差。
- 另一些等变方法 (Equivariant Methods)（如 EDFs）利用 $SE(3)$ 等变性，实现了很高的数据效率和泛化能力。但它们基于能量模型 (Energy-Based Models, EBMs)，训练过程非常缓慢（原文提到 EDFs 需要超过10小时），限制了其快速迭代和应用。
  
  这篇论文的切入点或创新思路是：将扩散模型的高效生成能力与等变模型的卓越数据效率和泛化能力相结合。具体来说，作者们思考：我们能否设计一种新的扩散过程，使其本身就具有 $SE(3)$ 双等变性，从而取代 EDFs 中缓慢的能量模型训练，同时保留其所有优点？这就是 Diffusion-EDFs 的核心动机。

2.2. 核心贡献/主要发现

论文的核心贡献可以总结为以下三点：

首个用于视觉机器人操作的 SE(3) 等变扩散模型：
- 论文首次提出了一套完整的理论和实践方法，用于构建在 $SE(3)$ 流形上、以点云为条件的双等变扩散模型。这不仅是一个简单的模型拼接，而是在数学上严谨地定义了何为双等变扩散核 (Bi-equivariant Diffusion Kernel)，并设计了实现这一特性的具体机制。
显著提升训练效率，同时保持高性能：
- Diffusion-EDFs 成功地替代了之前工作 EDFs 中基于能量模型的框架。其训练时间相比 EDFs 快了15倍以上（从10+小时缩短至1小时内），同时完整地保留了 EDFs 的端到端训练、高数据效率（仅需5-10个演示）和强泛化能力的关键优势。
提出新颖的层级化架构以扩大感受野：
- 为了让模型能够理解场景级别 (scene-level) 的上下文（例如，将碗放到对应颜色的盘子上），而不是仅仅关注单个物体，论文设计了一种新颖的层级化 (hierarchical) 或多尺度 (multiscale) 的 EDF 架构。这种类似 U-Net 的结构使得模型能够在保持局部细节精度的同时，拥有更广阔的感受野 (receptive field)，从而能够处理更复杂的、依赖全局信息的操作任务。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. SE(3) 群与等变性 (Equivariance)

SE(3) 群 (Special Euclidean Group in 3D): $SE(3)$ 是一个数学群，包含了三维空间中所有的刚体变换。每个变换 $g \in SE(3)$ 都可以表示为一个旋转矩阵 $R \in SO(3)$ 和一个平移向量 $\boldsymbol{p} \in \mathbb{R}^3$ 的组合，记作 $g = (\boldsymbol{p}, R)$ 。机器人操作，如移动机械臂末端去抓取一个物体，本质上就是对末端执行器进行一次 $SE(3)$ 变换。
等变性 (Equivariance): 这是一个非常重要的概念。对于一个函数（或神经网络） $f$ ，如果输入 $x$ 经过一个变换 $T$ 后，其输出 f(x) 也发生了相应的、可预测的变换 $T'$ ，那么我们就说函数 $f$ 对变换 $T$ 是等变的。形式化地， $f(T(x)) = T'(f(x))$ 。
- 一个简单的例子是图像旋转：如果一个目标检测网络是旋转等变的，那么将输入图像旋转90度，输出的检测框也会相应地旋转90度。
- 在本文中， $SE(3)$ 等变性意味着，如果场景中的物体被移动或旋转（一个 $SE(3)$ 变换），那么模型预测的机器人末端姿态也应该相应地进行同样的移动或旋转。这使得模型无需在训练中见过所有可能的物体姿态，只要见过一种，就能泛化到其他所有姿态，从而极大地提升了数据效率。

3.1.2. 双等变性 (Bi-equivariance)

这是本文的一个核心概念，比 $SE(3)$ 等变性更进一步。它描述了策略（即决定机器人姿态的概率分布 $P_0(g | O_s, O_e)$ ）如何响应两种不同的坐标系变换：

场景/世界坐标系变换（左等变性）: 如果整个场景（包括目标物体和干扰物）在世界坐标系下发生了一次变换 $\Delta g$ ，那么机器人末端执行器的目标姿态 $g$ 也应该相应地变换为 $\Delta g g$ 。这被称为左等变性 (left equivariance)，因为变换 $\Delta g$ 乘在左边。

$该图像是示意图，展示了场景等变性和抓取等变性的概念。左侧（图a）展示了场景等变性，公式为 $g_w{e}' = g_{w'w}g_{we} = \\Delta g g_{we}$。右侧（图b）展示了抓取等变性，公式为 $\\Delta g = g_{we}{e}' = g_{we}\\Delta g^{-1}$。图中使用了三维坐标系表示机器人抓取操作的变换关系。$ 该图像是示意图，展示了场景等变性和抓取等变性的概念。左侧（图a）展示了场景等变性，公式为 $g_w{e}' = g_{w'w}g_{we} = \Delta g g_{we}$ 。右侧（图b）展示了抓取等变性，公式为 $\Delta g = g_{we}{e}' = g_{we}\Delta g^{-1}$ 。图中使用了三维坐标系表示机器人抓取操作的变换关系。
末端执行器/抓取物坐标系变换（右等变性）: 如果我们改变了末端执行器自身的参考坐标系（例如，将夹爪的坐标系旋转一下），这个变换为 $\Delta g$ ，那么相对于固定的世界坐标系，末端执行器的姿态 $g$ 就需要变换为 $g (\Delta g)^{-1}$ 来补偿。这被称为右等变性 (right equivariance)，因为变换 $(\Delta g)^{-1}$ 乘在右边。

一个双等变 (bi-equivariant) 的策略必须同时满足这两种对称性。这确保了无论外部环境如何变化，或者我们如何定义机器人的自身坐标系，模型都能做出一致且正确的决策。

3.1.3. 扩散模型 (Diffusion Models)

扩散模型是一类强大的深度生成模型。其核心思想分为两个过程：

前向过程（加噪）: 从一个真实的样本（如一张清晰的图像或一个精确的机器人姿态 $g_0$ ）开始，逐步、多次地向其添加少量高斯噪声。经过足够多的步骤后，原始样本会变成一个纯粹的噪声。这个过程是固定的，不需要学习。
反向过程（去噪）: 训练一个神经网络（通常是 U-Net 架构），使其能够学习“逆转”加噪过程。即，给定一个加了噪声的样本和当前的噪声水平（时间步 $t$ ），网络需要预测出用于产生这些噪声的噪声本身，或者等价地，预测出噪声分布的分数函数 (score function)（即对数概率密度的梯度 $\nabla \log p_t(x_t)$ ）。

在生成新样本时，我们从一个纯噪声开始，利用训练好的神经网络逐步去噪，最终得到一个清晰的、来自原始数据分布的样本。

3.1.4. 流形上的扩散 (Diffusion on Manifolds)

标准的扩散模型作用于欧几里得空间（如图像像素空间 $\mathbb{R}^N$ ）。然而，机器人姿态 $g$ 存在于 $SE(3)$ 流形上，这是一个非欧几里得空间。因此，不能简单地对姿态的向量表示进行加噪。本文使用了流形上的布朗运动 (Brownian Motion on Manifolds) 来定义扩散过程。在 $SE(3)$ 上，这个过程通过李群的指数映射 (exponential map) 和李代数 (Lie algebra) $\mathfrak{se}(3)$ 上的维纳过程 (Wiener process) 来定义，如原文公式 (4) 所示： $g_{t+dt} = g_t \exp[dW]$ 其中 dW 是在李代数 $\mathfrak{se}(3)$ 上的一个无穷小的随机扰动。这确保了加噪后的姿态 $g_{t+dt}$ 仍然是一个有效的 $SE(3)$ 姿态。

3.2. 前人工作

SE(3)-Diffusion Fields [75]: 这是一个直接在 $SE(3)$ 流形上应用扩散模型来生成机器人抓取姿态的工作。它是一个重要的基线，因为它也使用了 $SE(3)$ 上的扩散。但它的主要缺点是不具备严格的 $SE(3)$ 等变性，这意味着它无法像等变方法那样高效地利用数据。为了弥补这一点，它需要依赖数据增强（如旋转增强）和大量的演示数据。
Equivariant Descriptor Fields (EDFs) [61]: 这是本文作者之前的工作，也是 Diffusion-EDFs 的直接前身。EDFs 提出了一种 $SE(3)$ 双等变的能量模型 (Energy-Based Model, EBM)。
- 核心思想: EDFs 将场景和抓取物分别用一个 $SE(3)$ 等变的向量场（描述符场）来表示。然后，通过计算这两个场在不同相对姿态下的“能量”（相似度），来找到能量最低（最匹配）的姿态。
- 优点: 具备双等变性，因此数据效率极高，泛化能力强。
- 缺点: 基于 EBM 的训练非常耗时（需要超过10小时）。因为 EBM 的训练需要通过马尔可夫链蒙特卡洛 (MCMC) 方法（如朗之万动力学）在每个训练步骤中进行采样，这个过程非常缓慢。

3.3. 技术演进

机器人操作学习的技术演进路线大致如下：

传统编程: 刚性、无泛化能力。
早期机器学习: 需要大量数据，泛化能力有限。
深度学习/模仿学习: 表达能力强，但仍需大量数据，且对 $SE(3)$ 变换敏感。
等变学习 (Equivariant Learning): 如 Transporter Networks (SE(2)等变) 和 EDFs (SE(3)等变)，通过引入对称性先验，极大提升了数据效率和泛化能力。
生成模型 (Generative Models): 如 SE(3)-Diffusion Fields，能够处理任务的多模态性（一个任务有多种解法），但牺牲了数据效率。
本文 (Diffusion-EDFs): 位于技术脉络的最新前沿，旨在融合等变学习和生成模型的优点，实现数据高效、泛化能力强且能处理多模态性的机器人操作策略学习。

3.4. 差异化分析

特性	SE(3)-Diffusion Fields [75]	Equivariant Descriptor Fields (EDFs) [61]	Diffusion-EDFs (本文)
核心模型	扩散模型 (Diffusion Model)	能量模型 (Energy-Based Model, EBM)	扩散模型 (Diffusion Model)
SE(3) 等变性	无 (需要数据增强)	双等变 (Bi-equivariant)	双等变 (Bi-equivariant)
数据效率	低	极高	极高
泛化能力	较弱	强	强
训练速度	较快	极慢 ( >10小时)	极快 ( <1小时)
多模态处理	是	是 (通过能量景观)	是 (扩散模型天生支持)

核心差异总结：Diffusion-EDFs 的关键创新在于设计了一种双等变的扩散过程，从而用训练高效的扩散模型取代了 EDFs 中训练缓慢的能量模型，实现了“鱼与熊掌兼得”：既有 EDFs 的高数据效率和泛化性，又有扩散模型的高效训练和强大生成能力。

4. 方法论

本部分将详细拆解 Diffusion-EDFs 的核心技术方案。其整体思路是：为了训练一个能从噪声中恢复出正确机器人姿态的去噪模型，我们需要构建一个特殊的、满足双等变性的扩散（加噪）过程。

4.1. 方法原理

Diffusion-EDFs 的目标是学习一个条件概率分布 $P_0(g_0 | O_s, O_e)$ ，其中 $g_0 \in SE(3)$ 是目标末端执行器姿态， $O_s$ 是场景点云， $O_e$ 是被抓取物体的点云。这个分布必须是双等变的。

传统扩散模型通过学习分数函数 $\nabla \log P_t(g_t | \text{condition})$ 来实现去噪。为了让模型学到的分数函数也是双等变的，其所对应的含噪数据分布 $P_t(g_t | O_s, O_e)$ 也必须是双等变的。论文证明，要使 $P_t$ 双等变，其所依赖的扩散核 (diffusion kernel) $P_{t|0}(g_t | g_0, O_s, O_e)$ 必须是双等变的。

然而，标准 $SE(3)$ 上的布朗运动扩散核（如 SE(3)-Diffusion Fields 使用的）只是左不变的，而不是右不变的，更不是双等变的。这是本文面临的核心技术挑战。

作者的核心思想是：设计一个依赖于场景和物体信息的动态扩散框架。不再是在一个固定的坐标系（如物体中心）下进行扩散，而是巧妙地选择一个扩散原点 (diffusion origin)，这个原点的选择方式本身是等变的，从而使得整个扩散过程满足双等变性。

4.2. 核心方法详解 (逐层深入)

4.2.1. 问题定义与双等变性

策略分布 $P_0(g | O_s, O_e)$ 需要满足双等变性。这意味着对于任何变换 $\Delta g \in SE(3)$ ，必须满足以下两个条件：

左等变性 (场景变换)： $P_0(g | O_s, O_e) = P_0(\Delta g g | \Delta g \cdot O_s, O_e)$ 当场景从 $O_s$ 变换为 $\Delta g \cdot O_s$ 时，目标姿态从 $g$ 变为 $\Delta g g$ 。
右等变性 (抓取物变换)： $P_0(g | O_s, O_e) = P_0(g \Delta g^{-1} | O_s, \Delta g \cdot O_e)$ 当抓取物从 $O_e$ 变换为 $\Delta g \cdot O_e$ 时（相当于改变了末端执行器的参考系），目标姿态从 $g$ 变为 $g \Delta g^{-1}$ 。

4.2.2. 双等变分数函数 (Proposition 1)

论文首先推导了双等变的概率分布 $P(g | O_s, O_e)$ 所对应的分数函数 $\boldsymbol{s}(g | O_s, O_e) = \nabla \log P(g | O_s, O_e)$ 应该满足的变换性质。

Proposition 1: 如果 $P(g | O_s, O_e)$ 是双等变的，那么其分数函数 $\boldsymbol{s}$ 满足：

左不变性: $\boldsymbol{s}(\Delta g g | \Delta g \cdot O_s, O_e) = \boldsymbol{s}(g | O_s, O_e)$ 分数函数的值不随场景的整体变换而改变。
右协变性 (Covariance): $\boldsymbol{s}(g \Delta g^{-1} | O_s, \Delta g \cdot O_e) = [\mathrm{Ad}_{\Delta g}]^{-T} \boldsymbol{s}(g | O_s, O_e)$ 这个性质比较复杂，它描述了分数函数（一个在李代数中的向量）如何随着末端执行器坐标系的变换而变换。这里的 $\mathrm{Ad}_{\Delta g}$ 是 $SE(3)$ 群的伴随表示 (Adjoint Representation)，它描述了一个群元素如何通过共轭作用于其李代数。公式如下： $\mathrm{Ad}_{g} = \begin{bmatrix} R & [\boldsymbol{p}]^{\wedge}R \\ \boldsymbol{0} & R \end{bmatrix}$ 其中 $g=(\boldsymbol{p}, R)$ , $[\boldsymbol{p}]^{\wedge}$ 是向量 $\boldsymbol{p}$ 对应的反对称矩阵。这个性质是设计等变分数模型架构的关键约束。

4.2.3. 双等变扩散过程 (Propositions 2, 3, 4)

这是方法论的核心。如何设计一个加噪过程，使得加噪后的数据分布 $P_t$ 也是双等变的？

Step 1: 定义双等变扩散核 (Definition 1 & Proposition 2) 论文首先定义了什么是双等变扩散核 $P_{t|0}$ ，并证明了当且仅当扩散核是双等变的，对于任何双等变的初始分布 $P_0$ ，扩散后的边缘分布 $P_t$ 也是双等变的。双等变扩散核 $P_{t|0}(g | g_0, O_s, O_e)$ 需满足： $\begin{array}{r} P_{t|0}(g | g_0, O_s, O_e) = P_{t|0}(\Delta g g | \Delta g g_0, \Delta g \cdot O_s, O_e) \\ = P_{t|0}(g \Delta g^{-1} | g_0 \Delta g^{-1}, O_s, \Delta g \cdot O_e) \end{array}$

Step 2: 构造双等变扩散核 (Proposition 3) 论文指出，在 $SE(3)$ 上不存在同时满足左不变和右不变的简单核函数。因此，核函数必须依赖于条件信息（ $O_s$ 或 $O_e$ ）来“吸收”变换。作者提出了一种巧妙的构造方法：

首先，选择一个扩散参考系 (diffusion frame) $g_{ed}$ ，其位姿是相对于末端执行器坐标系 $e$ 的。这个选择过程本身依赖于场景和物体信息，即通过一个概率分布 $P(g_{ed} | g_0^{-1} \cdot O_s, O_e)$ 采样得到。
然后，在一个标准的左不变核 $K_t$ （如布朗运动核）中进行扩散，但不是在世界坐标系或物体坐标系中，而是在这个动态选择的扩散参考系 $d$ 中。

整个扩散过程如下：

D1. 采样目标姿态 $g_0 \sim P_0(g_0 | O_s, O_e)$ 。
D2. 根据 $g_0$ 和点云信息，采样一个扩散参考系 $g_{ed} \sim P(g_{ed} | g_0^{-1} \cdot O_s, O_e)$ 。
D3. 采样一个标准扩散位移 $\Delta g_{t|0} \sim K_t(\Delta g_{t|0})$ 。
D4. 将位移应用在扩散参考系 $d$ 中，得到含噪姿态 $g_t = g_0 g_{ed} \Delta g_{t|0} (g_{ed})^{-1}$ 。

最终的扩散核 $P_{t|0}$ 形式化为： $P_{t|0}(g | g_0, O_s, O_e) = \int_{SE(3)} d g_{ed} P(g_{ed} | g_0^{-1} \cdot O_s, O_e) K_t(g_{ed}^{-1} g_0^{-1} g g_{ed})$ Proposition 3 证明，只要扩散参考系的选择机制 $P(g_{ed} | \dots)$ 满足特定等变性，上述构造出的扩散核就是双等变的。

Step 3: 简化构造 (Proposition 4) Proposition 3 的条件在实践中仍然难以实现。论文进一步发现一个重要的简化：如果标准核 $K_t$ 是布朗运动核 $B_t$ ，那么我们只需要选择扩散原点（平移部分），而不需要选择扩散参考系的朝向。具体来说，扩散参考系的选择可以简化为： $P(g_{ed} | g_0^{-1} \cdot O_s, O_e) = P(\boldsymbol{p}_{ed} | g_0^{-1} \cdot O_s, O_e) \delta(R_{ed})$ 其中 $g_{ed} = (\boldsymbol{p}_{ed}, R_{ed})$ ， $\delta(R_{ed})$ 是狄拉克函数，意味着 $R_{ed}$ 恒为单位矩阵（无旋转）。 $P(\boldsymbol{p}_{ed} | \dots)$ 是一个等变扩散原点选择机制。 Proposition 4 证明，在这种简化下，只要扩散原点选择机制 $P(\boldsymbol{p}_{ed} | \dots)$ 是等变的，整个扩散核就是双等变的。这就将一个复杂的问题简化为了如何设计一个等变的点选择器。

Step 4: 实际的扩散原点选择机制 (Sec 4.1) 论文提出了一种基于接触启发式 (contact heuristic) 的扩散原点选择机制。直觉上，机器人操作的关键在于物体接触区域。因此，扩散过程应该在这些关键区域附近进行，以保证姿态的精度。具体地，扩散原点 $\boldsymbol{p}_{ed}$ 从被抓取物体 $O_e$ 的点云中进行带权采样。每个点 $\boldsymbol{p} \in O_e$ 的权重正比于它与场景点云 $g_0^{-1} \cdot O_s$ 的“接触程度”，即其邻域内的场景点数量。公式如下： $P(\boldsymbol{p}_{ed} | g_0^{-1} \cdot O_s, O_e) \propto \sum_{\boldsymbol{p} \in O_e} n_r(\boldsymbol{p}, g_0^{-1} \cdot O_s) \delta^{(3)}(\boldsymbol{p}_{ed} - \boldsymbol{p})$ 其中 $n_r(\boldsymbol{p}, O)$ 是点 $\boldsymbol{p}$ 周围半径 $r$ 内来自点云 $O$ 的点的数量。这个机制是等变的，且符合物理直觉。

4.2.4. 分数匹配目标 (Sec 3.4)

有了双等变的扩散过程，下一步就是训练一个分数模型 $\boldsymbol{s}_t(g | O_s, O_e)$ 来逼近真实的含噪数据分数 $\nabla \log P_t(g | O_s, O_e)$ 。论文证明，可以使用一个类似于标准分数匹配的均方误差损失函数： $\mathcal{J}_t = \frac{1}{2} \left\| \boldsymbol{s}_t(g | O_s, O_e) - \nabla \log K_t(g_{ed}^{-1} g_0^{-1} g g_{ed}) \right\|^2$ 这个损失函数在所有演示数据 $(g_0, O_s, O_e)$ 、所有采样的时间步 $t$ 、以及所有采样的扩散参考系 $g_{ed}$ 上进行期望最小化。尽管目标看起来是逼近 $\nabla \log K_t$ ，但论文证明（Supp. C.6），最小化这个损失函数得到的最优模型 $\boldsymbol{s}_t^*$ 恰好就是我们想要的真实分数 $\nabla \log P_t$ 。 $\underset{\boldsymbol{s}_t(g | O_s, O_e)}{\arg\min} \mathbb{E}[\mathcal{J}_t] = \nabla \log P_t(g | O_s, O_e)$ 目标分数 $\nabla \log K_t(\dots)$ 可以通过解析形式或自动微分计算。

4.2.5. 双等变分数模型架构 (Sec 3.5 & 4.2)

最后，需要设计一个神经网络架构，其输出本身就满足 Proposition 1 中推导出的双等变性质。

Step 1: 拆分分数 分数向量 $\boldsymbol{s}_t \in \mathfrak{se}(3)$ 被分解为平移部分 $\boldsymbol{s}_{\nu;t} \in \mathbb{R}^3$ 和旋转部分 $\boldsymbol{s}_{\omega;t} \in \mathbb{R}^3$ 。 $\boldsymbol{s}_t(g | O_s, O_e) = [\boldsymbol{s}_{\nu;t} \oplus \boldsymbol{s}_{\omega;t}](g | O_s, O_e)$

Step 2: 设计积分形式的模型 (Proposition 5) 论文提出了一个积分形式的模型，将分数计算为在抓取物 $O_e$ 表面上对某个“分数场”的加权积分/求和。 $\begin{array}{r} \boldsymbol{s}_{\nu;t}(g | O_s, O_e) = \int_{\mathbb{R}^3} d^3\boldsymbol{x} \, \rho_{\nu;t}(\boldsymbol{x} | O_e) \tilde{\boldsymbol{s}}_{\nu;t}(g, \boldsymbol{x} | O_s, O_e) \\ \boldsymbol{s}_{\omega;t}(g | O_s, O_e) = \int_{\mathbb{R}^3} d^3\boldsymbol{x} \, \rho_{\omega;t}(\boldsymbol{x} | O_e) \tilde{\boldsymbol{s}}_{\omega;t}(g, \boldsymbol{x} | O_s, O_e) \\ + \int_{\mathbb{R}^3} d^3\boldsymbol{x} \, \rho_{\nu;t}(\boldsymbol{x} | O_e) \boldsymbol{x} \wedge \tilde{\boldsymbol{s}}_{\nu;t}(g, \boldsymbol{x} | O_s, O_e) \end{array}$

$\rho_{\square;t}(\boldsymbol{x} | O_e)$ 是一个等变的密度场 (density field)，决定了在抓取物上每个点 $\boldsymbol{x}$ 的权重。
$\tilde{\boldsymbol{s}}_{\square;t}(g, \boldsymbol{x} | O_s, O_e)$ 是一个分数场 (score field)，它在每个点 $\boldsymbol{x}$ 处计算一个分数贡献。
$\boldsymbol{x} \wedge \tilde{\boldsymbol{s}}_{\nu;t}$ 是轨道角动量项，它将平移分数场产生的力矩贡献给旋转分数。

Proposition 5 证明，只要密度场 $\rho$ 和分数场 $\tilde{\boldsymbol{s}}$ 满足特定的等变性质，最终的分数模型 $\boldsymbol{s}_t$ 就是双等变的。

Step 3: 设计等变分数场 (Proposition 6) 为了实现分数场 $\tilde{\boldsymbol{s}}$ 的等变性，论文使用了两个 EDF（等变描述符场） $\psi$ 和 $\varphi$ 的张量积 (tensor product) 来构造它。 $\tilde{\boldsymbol{s}}_{\square;t}(g, \boldsymbol{x} | O_s, O_e) = \psi_{\square;t}(\boldsymbol{x} | O_e) \otimes_{\square;t}^{(1)} \mathbf{D}(R^{-1}) \varphi_{\square;t}(g\boldsymbol{x} | O_s)$

$\psi_{\square;t}(\boldsymbol{x} | O_e)$ 是一个 EDF，它从抓取物点云 $O_e$ 中提取关于点 $\boldsymbol{x}$ 的局部几何特征。
$\varphi_{\square;t}(g\boldsymbol{x} | O_s)$ 是另一个 EDF，它从场景点云 $O_s$ 中提取关于点 $g\boldsymbol{x}$ （即在姿态 $g$ 下，抓取物上的点 $\boldsymbol{x}$ 在世界坐标系中的位置）的局部几何特征。
$\mathbf{D}(R^{-1})$ 将场景特征从世界坐标系旋转到末端执行器坐标系。
$\otimes^{(1)}$ 是一个等变张量积，它将来自两个场的特征（高阶张量）结合起来，并投影得到一个 type-1 向量（即 $\mathbb{R}^3$ 中的普通向量），作为分数的贡献。

Proposition 6 证明，这种基于张量积的构造方式满足 Proposition 5 中对分数场的要求。

Step 4: 实际架构：多尺度 EDF 为了实现上述模型，论文采用了新颖的多尺度 (multiscale) EDF 架构。该架构类似于 U-Net，包含下采样和上采样路径，并通过跳跃连接传递信息。

该图像是示意图，展示了Diffusion-EDFs方法中多尺度EDF（子图a）和场模型（子图b）的结构。图中包括输入点云、查询点、时间嵌入及各层的对应模型，如等变U-Net下行和上行块，以及边缘编码器。该模型集成了多种特征以增强在三维空间（SE(3)）的处理能力，支持机器人视觉操控任务的优化与训练。

特征提取器 (Feature Extractor): 一个深的 $SE(3)$ -等变图神经网络 (GNN)，在去噪开始前只运行一次，用于提取点云的深层特征。
场模型 (Field Model): 一个浅而快的 GNN，在每个去噪步骤中被调用。它接收特征提取器的输出和查询点，快速计算场的值。
多尺度设计: 通过在不同尺度上使用不同大小的消息传递半径和池化操作（FPS算法），模型能够同时捕捉局部高频细节和全局场景上下文，扩大了感受野。

通过这套精心设计的数学框架和网络架构，Diffusion-EDFs 成功地构建了一个高效、强大且严格满足双等变性的机器人操作策略生成模型。

5. 实验设置

5.1. 数据集

实验没有使用标准的大规模数据集，而是遵循了少样本模仿学习 (few-shot imitation learning) 的范式。

数据来源: 由人类操作员通过动捕设备或遥操作设备提供5到10个成功的任务演示。
数据形态: 每个演示包含机器人末端执行器的轨迹、场景的点云观测 $O_s$ 以及抓取物体的点云 $O_e$ 。
任务场景: 实验分为仿真和真实世界两部分。
- 仿真任务: 使用 SAPIEN 仿真环境。
  - 杯子挂上挂钩 (Mug-on-a-Hanger): 抓取杯子边缘，将其手柄挂到挂钩上。这是一个需要精确6-DoF姿态的任务。
  - 瓶子放到托盘上 (Bottle-on-a-Tray): 抓取瓶盖，将瓶子竖直放在托盘上。
    
    该图像是图示，展示了仿真实验中的两个任务：在(a) Mug-on-a-Hanger任务中，红色杯子需要通过边缘提起并放在绿色挂钩上；在(b) Bottle-on-a-Tray任务中，红色瓶子需通过瓶盖提起并放置在绿色托盘上。
- 真实世界任务:
  - 杯子挂上挂钩 (Mug-on-a-Hanger): 与仿真类似。
  - 碗放到对应颜色的盘子上 (Bowls-on-dishes): 按红-绿-蓝顺序将碗放到同色盘子上，这是一个需要场景理解和顺序执行的任务。
  - 瓶子放到架子上 (Bottles-on-a-shelf): 将多个相同的瓶子逐一放到架子上，这是一个具有多模态解（可以先放任何一个瓶子）的任务。
    
    该图像是图表，展示了真实硬件实验中的多个任务场景，包括（a）杯子放置任务、（b）碗放置任务（按红绿蓝顺序）及（c）瓶子放置任务。每个任务展示了抓取点云的场景信息和机器人操作流程。
数据集选择理由: 这些任务被精心设计来测试模型的不同能力，如：精确的6-DoF控制、对新物体/姿态的泛化、场景级别的上下文理解、以及处理多模态和随机性的能力。仅使用少量演示进行训练，旨在突出验证方法的数据效率。

5.2. 评估指标

论文主要使用任务成功率 (Success Rate) 作为评估指标。

概念定义 (Conceptual Definition): 任务成功率衡量了在多次尝试中，机器人能够完全成功地完成指定任务的百分比。例如，在“杯子挂上挂钩”任务中，“成功”被定义为机器人抓取杯子并将其稳定地挂在挂钩上，释放后杯子没有掉落。这是一个直接、明确且符合实际应用需求的指标。
数学公式 (Mathematical Formula): $\text{Success Rate} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}}$
符号解释 (Symbol Explanation):
- Number of Successful Trials: 成功完成任务的试验次数。
- Total Number of Trials: 总共进行的试验次数。
  
  在仿真实验中，成功与否通过物理引擎判断（例如，物体在释放后是否掉落）。在真实世界实验中，则通过人工观察来判断。

5.3. 对比基线

论文将 Diffusion-EDFs 与两个代表了该领域最先进水平的基线模型进行了比较：

R-NDFs (Relational Neural Descriptor Fields) [68]: 这是一个 $SE(3)$ -等变的方法，但与 EDFs 不同，它不具备局部性和端到端训练的特点。它被选为最先进的等变方法代表。
- 特点: 依赖于预训练权重和物体分割，不强调端到端训练。
SE(3)-Diffusion Fields [75]: 这是一个在 $SE(3)$ $SE (3)$ 流形上使用扩散模型的方法。它被选为最先进的扩散模型方法代表。
- 特点: 不具备 $SE(3)$ 等变性，需要旋转数据增强来弥补。
  
  为了公平比较并突显 Diffusion-EDFs 的优势，实验对基线模型考虑了不同设置：

有/无物体分割 (Object Segmentation): Diffusion-EDFs 不需要物体分割，可以直接处理整个场景的点云。为了进行对比，基线模型在有和没有提供精确物体分割输入的两种情况下都进行了测试。
有/无预训练 (Pre-training): Diffusion-EDFs 不需要任何预训练。R-NDFs 则使用了其原始论文提供的预训练权重。
有/无旋转增强 (Rotational Augmentation): SE(3)-Diffusion Fields 由于缺乏等变性，测试了使用和不使用旋转数据增强的情况。

这些对比设置全面地检验了 Diffusion-EDFs 在端到端学习、无需先验知识（如分割、预训练）方面的优越性。

6. 实验结果与分析

6.1. 核心结果分析

实验结果有力地证明了 Diffusion-EDFs 在数据效率、泛化能力和鲁棒性方面均优于现有 SOTA 方法。

以下是原文 Table 1 的结果，展示了在仿真环境中，不同模型在四种分布外 (out-of-distribution) 场景下的抓取 (Pick) 和放置 (Place) 成功率。所有模型仅用10个演示进行训练。

场景	方法	无预训练/物体分割	Mug 任务			Bottle 任务
场景	方法	无预训练/物体分割	Pick	Place	Total	Pick	Place	Total
默认 (训练设置)	R-NDFs [68] (有分割+预训练)	✗	0.83	0.97	0.81	0.91	0.73	0.67
	R-NDFs [68] (无分割)	✓	0.00	0.00	0.00	0.00	0.00	0.00
	SE(3)-DiffusionFields [75] (有分割)	✓	0.75	(n/a)	(n/a)	0.47	(n/a)	(n/a)
	Diffusion-EDFs (Ours)	✓	0.99	0.96	0.95	0.97	0.85	0.83
未见过的实例	R-NDFs [68] (有分割+预训练)	✗	0.73	0.70	0.51	0.90	0.87	0.79
	R-NDFs [68] (无分割)	✓	0.00	0.00	0.00	0.00	0.00	0.00
	SE(3)-DiffusionFields [75] (有分割)	✓	0.55	(n/a)	(n/a)	0.57	(n/a)	(n/a)
	Diffusion-EDFs (Ours)	✓	0.96	0.96	0.92	0.99	0.91	0.90
未见过的姿态	R-NDFs [68] (有分割+预训练)	✗	0.84	0.93	0.78	0.65	0.72	0.47
	R-NDFs [68] (无分割)	✓	0.00	0.00	0.00	0.00	0.00	0.00
	SE(3)-DiffusionFields [75] (有分割)	✓	0.75	(n/a)	(n/a)	0.47	(n/a)	(n/a)
	Diffusion-EDFs (Ours)	✓	0.98	0.98	0.96	0.98	0.81	0.79
未见过的实例、姿态和干扰物	R-NDFs [68] (有分割+预训练)	✗	0.71	0.75	0.53	0.85	0.84	0.72
	R-NDFs [68] (无分割)	✓	0.00	0.00	0.00	0.00	0.00	0.00
	SE(3)-DiffusionFields [75] (有分割)	✓	0.58	(n/a)	(n/a)	0.59	(n/a)	(n/a)
	Diffusion-EDFs (Ours)	✓	0.89	0.89	0.79	0.98	0.89	0.87

关键结果分析：

端到端学习的优越性：Diffusion-EDFs 在不依赖任何预训练或物体分割的情况下，性能全面超越了另外两个SOTA方法。即使在最理想的条件下（为基线提供预训练和完美的物体分割），Diffusion-EDFs 的成功率仍然更高。
对原始场景输入的鲁棒性：当输入从分割好的物体点云变为包含干扰物的完整场景点云时，基线模型 R-NDFs 和 SE(3)-Diffusion Fields 的性能灾难性地下降（R-NDFs 成功率降为0）。这表明它们的设计严重依赖于干净的、以物体为中心的输入。相比之下，Diffusion-EDFs 由于其局部性 (locality) 设计（继承自 EDFs）和场景级感受野（来自新的多尺度架构），能够直接在混乱的场景中稳健地工作。
强大的泛化能力：在面对未见过的物体实例 (unseen instances)、未见过的物体姿态 (unseen poses) 以及最困难的组合场景时，Diffusion-EDFs 依然保持了非常高的成功率（大多在80%-90%以上）。这直接证明了 $SE(3)$ 双等变性带来的强大泛化能力。模型不是在死记硬背演示，而是在学习物体间可供操作的几何关系。
真实世界实验的成功：真实世界的实验进一步验证了模型的综合能力。
- 碗-盘子任务: 证明了模型具备场景级理解能力（识别颜色对应关系和任务顺序）。这是依赖物体分割的方法无法完成的，因为它们无法感知到物体之外的上下文信息（如盘子的颜色）。
- 瓶子-架子任务: 证明了模型能够处理多模态任务。由于瓶子是相同的，先拿起哪一个都可以，这是一个多模态分布。Diffusion-EDFs 作为生成模型，可以自然地从中采样一个可行的解。
- 杯子-挂钩任务: 证明了模型能够生成高精度的 6-DoF 姿态，这在真实世界中对于完成精密操作至关重要。

6.2. 消融实验/参数分析

虽然论文正文没有专门的消融实验表格，但与基线模型的对比本身就是一种消融分析：

等变性 vs. 非等变性: Diffusion-EDFs (等变) vs. SE(3)-Diffusion Fields (非等变)。结果显示，等变性极大地提升了数据效率和泛化能力。
局部性 vs. 全局性: Diffusion-EDFs (局部) vs. R-NDFs (全局，依赖质心)。结果显示，局部性对于处理有干扰物的场景至关重要。
训练范式 (扩散 vs. 能量模型): Diffusion-EDFs vs. EDFs。论文在引言中明确指出，Diffusion-EDFs 的训练速度比 EDFs 快15倍，这是一个关于训练效率的隐性比较。

此外，论文在附录中提到了扩散原点选择机制的重要性。选择接触丰富的区域作为扩散原点，使得模型能够更关注于关键的几何子结构，这对于提升精度至关重要。

7. 总结与思考

7.1. 结论总结

Diffusion-EDFs 是一项在机器人模仿学习领域的杰出工作，它成功地将 $SE(3)$ 等变性与扩散生成模型相结合，提出了一个用于视觉机器人操作的全新框架。

主要结论：

通过设计新颖的双等变扩散过程，Diffusion-EDFs 实现了极高的数据效率，仅需5-10个演示即可在1小时内完成端到端训练。
该方法在各种具有挑战性的分布外场景中展现出卓越的泛化能力和鲁棒性，显著优于现有的等变方法和扩散模型方法。
新颖的多尺度架构赋予了模型场景级别的理解能力，使其能够解决依赖全局上下文的复杂、有序任务。
该方法在真实机器人硬件上的成功验证，展示了其在解决精确、多模态和上下文相关的实际操作问题上的巨大潜力。

7.2. 局限性与未来工作

论文作者清晰地指出了当前工作的局限性，并为未来研究指明了方向：

缺乏轨迹级别的推理能力: Diffusion-EDFs 目前只生成最终的目标姿态（pick-and-place），而不生成到达该姿态的完整轨迹。未来的工作可以考虑结合几何控制 (geometric control) 框架或在扩散过程中引入运动规划成本 (motion planning cost) 作为引导，来生成完整的、可行的运动轨迹。
依赖独立的抓取物观测: 当前流程需要在抓取物体后，用一个外部相机单独观察被抓取的物体（即获取 $O_e$ ），这在某些应用中可能不方便。未来的研究可以探索结合点云分割技术，在单次场景观测中自动区分出手中的物体和环境，从而实现更流畅的闭环推理。

7.3. 个人启发与批判

这篇论文给我带来了深刻的启发，也引发了一些思考：

启发:

对称性先验的力量: 这篇论文再次雄辩地证明了，将问题的内在对称性（如 $SE(3)$ 等变性）融入到模型设计中，是解决机器学习中数据效率和泛化问题的“核武器”。相比于依赖海量数据和暴力计算的“大炼模型”范式，这种基于第一性原理的建模思想更显优雅和高效。
跨领域思想的融合: 论文巧妙地将群论、微分几何（流形上的扩散）、生成模型和机器人学无缝结合。它不是简单地将A和B拼接，而是在底层数学原理上进行了深度融合（如定义双等变扩散核），这种跨学科的深度整合是产生突破性创新的关键。
问题分解的艺术: 将复杂的“双等变扩散”问题，一步步分解为“设计等变扩散核”，再到“设计等变扩散原点选择器”，最后落脚到一个符合物理直觉的“接触启发式”采样方法。这种层层递进、化繁为简的解决思路非常值得学习。

批判与思考:
“接触启发式”的普适性: 论文中基于接触的扩散原点选择机制非常巧妙，但在某些非接触或形变物体操作中可能不适用。例如，用气流吹动物体，或者整理柔软的布料。这启发我们思考，是否可以学习一个更通用的“关键区域”选择器，而不仅仅依赖于接触。
计算开销: 尽管训练时间大大缩短，但推理过程（采样）需要迭代执行多步去噪，每一步都涉及运行GNN。虽然论文提到推理时间在5-17秒，这对于许多实时应用来说可能仍然偏慢。未来是否可以借鉴 Consistency Models 或 Latent Diffusion 的思想，在保持等变性的前提下，实现一步或少步生成，将是一个有价值的方向。
任务范围的局限: 目前的方法主要集中在拾取和放置这类准静态任务。对于需要动态交互（如推、拉、滑动）或涉及复杂物理效应（如液体、颗粒物）的任务，当前的模型框架可能需要进行重大扩展。例如，需要引入物理引擎的微分模拟或学习一个等变动力学模型。

总而言之，Diffusion-EDFs 为机器人学习领域树立了一个新的标杆，它不仅解决了一个具体的技术难题，更重要的是，它所展现的建模思想和技术路径，为未来开发更智能、更通用、更高效的机器人系统提供了宝贵的启示。

Diffusion-EDFs: Bi-equivariant Denoising Generative Modeling on SE(3) for Visual Robotic Manipulation

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 29 分钟读完 · 17,394 字