论文状态：已完成

Equivariant Diffusion Policy

发表：2024/09/05

等变扩散策略 (1)扩散模型在行为克隆中的应用 (1)6自由度控制的对称性分析 (1)高效样本学习方法 (1)模拟任务评估 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

该论文提出了一种新的等变扩散策略，旨在提升行为克隆中使用的扩散模型的样本效率和泛化能力。通过分析六自由度控制中的SO(2)对称性，研究显示，该方法在12个模拟任务中成功率提高了21.9%。此外，实验证明其在真实系统中同样表现优异，能以较少训练样本学习有效策略。

摘要

Recent work has shown diffusion models are an effective approach to learning the multimodal distributions arising from demonstration data in behavior cloning. However, a drawback of this approach is the need to learn a denoising function, which is significantly more complex than learning an explicit policy. In this work, we propose Equivariant Diffusion Policy, a novel diffusion policy learning method that leverages domain symmetries to obtain better sample efficiency and generalization in the denoising function. We theoretically analyze the $\mathrm{SO}(2)$ symmetry of full 6-DoF control and characterize when a diffusion model is $\mathrm{SO}(2)$ -equivariant. We furthermore evaluate the method empirically on a set of 12 simulation tasks in MimicGen, and show that it obtains a success rate that is, on average, 21.9% higher than the baseline Diffusion Policy. We also evaluate the method on a real-world system to show that effective policies can be learned with relatively few training samples, whereas the baseline Diffusion Policy cannot.

思维导图

论文精读

中文精读约 30 分钟读完 · 17,843 字

1. 论文基本信息

1.1. 标题

等变扩散策略 (Equivariant Diffusion Policy)

论文的核心主题是提出一种新的机器人策略学习方法，该方法将“等变性 (Equivariance)”这一数学概念（特指对旋转对称性的处理）融入到“扩散模型 (Diffusion Models)”中，以提升行为克隆 (Behavior Cloning) 的样本效率和泛化能力。

1.2. 作者

Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt。

作者团队来自多个知名学术和研究机构，包括东北大学 (Northeastern University) 和 波士顿动力人工智能研究所 (Boston Dynamics AI Institute)。其中，Robert Platt 教授是机器人学习领域的知名学者，Dian Wang 等多位作者在该领域，尤其是在等变强化学习方向，已有系列研究成果。这表明该团队在机器人学、机器学习和几何深度学习方面拥有深厚的研究背景。

1.3. 发表期刊/会议

该论文在 OpenReview 平台上提交，这是一个常用于顶级机器学习会议（如 ICLR, NeurIPS, ICML）进行同行评审的平台。虽然论文中未明确指出最终发表的会议，但其研究质量和主题方向与机器人学和机器学习领域的顶级会议高度相关，如机器人学：科学与系统 (RSS)、机器人学习会议 (CoRL) 或国际学习表征会议 (ICLR)。

1.4. 发表年份

论文在 OpenReview 上提交的日期为 2024 年 9 月 5 日。

1.5. 摘要

近期的研究表明，扩散模型是学习行为克隆中由演示数据产生的多模态分布的有效方法。然而，这种方法的一个缺点是需要学习一个去噪函数，这比学习一个显式策略要复杂得多。在这项工作中，我们提出了 等变扩散策略 (Equivariant Diffusion Policy)，这是一种新颖的扩散策略学习方法，它利用领域中的对称性来获得更好的样本效率和去噪函数的泛化能力。我们从理论上分析了完整六自由度 (6-DoF) 控制的 $SO(2)$ 对称性，并刻画了扩散模型何时是 $SO(2)$ 等变的。此外，我们在 MimicGen 的 12 个模拟任务上进行了实证评估，结果表明，与基线 Diffusion Policy 相比，我们的方法成功率平均提高了 21.9%。我们还在真实世界的系统上评估了该方法，证明了可以用相对较少的训练样本学习到有效的策略，而基线 Diffusion Policy 则无法做到。

1.6. 原文链接

原文链接: https://openreview.net/forum?id=wD2kUVLT1g
PDF 链接: https://openreview.net/pdf?id=wD2kUVLT1g
发布状态: 提交至 OpenReview 进行同行评审。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

论文旨在解决机器人模仿学习（特别是行为克隆）中的一个核心挑战：数据效率低下。传统的模仿学习方法，尤其是像 Diffusion Policy 这样强大的生成模型，虽然能够学习复杂、多模态的行为，但通常需要大量的专家演示数据才能训练出有效的策略。这在现实世界中是昂贵且耗时的，因为收集高质量的机器人演示数据成本很高。

2.1.2. 现有研究的挑战与空白

Diffusion Policy 的复杂性: Diffusion Policy 将策略学习构建为一个条件扩散过程，它学习一个去噪函数 (denoising function)。这个函数需要根据当前状态（观测）和带噪声的动作，预测出原始添加的噪声。相比于直接学习从状态到动作映射的显式策略（explicit policy），学习去噪函数 $(s, a_noisy, t) -> noise$ 更为复杂和困难，对数据量的要求也更高。
缺乏对任务对称性的利用: 许多机器人操作任务（如在桌面上拾取、放置物体）天然具有几何对称性。例如，如果将桌面上的所有物体和机器人抓取的目标位置一起旋转一个角度，那么最优的抓取动作也应该相应地旋转同样的角度。这种对称性是一种强大的归纳偏置 (inductive bias)。然而，标准的神经网络（如 Diffusion Policy 中使用的网络）无法自动理解和利用这种对称性。它们必须从数据中“看到”各种旋转角度下的示例，才能学会泛化，这极大地浪费了数据。
研究空白: 尽管已有研究将等变性应用于机器人策略学习，但将等变性与扩散模型结合用于闭环视觉运动策略 (closed-loop visuomotor policy) 的研究尚属首次。特别是，之前的工作要么局限于开环控制，要么处理的是简化的 $SE(2)$ 动作空间，而本文则研究了更具挑战性的、完整的六自由度 $SE(3)$ 闭环控制。

2.1.3. 论文的切入点与创新思路

本文的创新思路是：将任务的内在对称性（特别是绕重力轴的旋转对称性）直接嵌入到 Diffusion Policy 的神经网络结构中。

具体来说，作者不使用标准的神经网络来学习去噪函数，而是设计了一个等变神经网络 (equivariant neural network)。这种网络在结构上保证了，如果输入（观测和带噪声的动作）发生旋转，其输出（预测的噪声）也会以完全相同的方式旋转。

如下图（原文 Figure 1）所示，这个思想非常直观：

上排： 在原始场景中，一个随机的动作轨迹（左上）经过等变扩散模型的去噪后，可以得到一个成功的动作轨迹（右上）。
下排： 如果我们将整个场景（包括观测和随机轨迹）旋转一个角度（左下），由于模型是等变的，去噪过程会自动适应这种旋转，最终输出一个在旋转场景下同样成功的轨迹（右下）。

这种设计使得模型不再需要从数据中学习这种旋转不变性，而是天生就具备这种能力。因此，模型可以从一个演示示例中，自动泛化到该示例所有可能的旋转版本，从而极大地提高了数据利用效率。

该图像是说明扩散策略中等变性的示意图。图像展示了一个随机采样的轨迹（左上），以及经过去噪处理后的有效轨迹（右上）。当状态和随机轨迹同时旋转（左下）时，如果我们在去噪过程中相应地旋转噪声，最终将在旋转状态中得到成功的轨迹（右下）。

2.2. 核心贡献/主要发现

提出新方法 Equivariant Diffusion Policy (EquiDiff): 首次将等变性（特别是 $SO(2)$ 对称性）引入到视觉运动扩散策略中，创建了一种新颖的、数据高效的行为克隆方法。
提供了理论分析:
- 命题1 (Proposition 1): 从理论上证明了，如果专家策略本身是等变的，那么 Diffusion Policy 中学习的去噪函数也必然是等变的。这为使用等变神经网络来建模该函数提供了坚实的理论依据。
- 命题2 (Proposition 2): 详细推导了如何将完整的六自由度 ( $SE(3)$ ) 机器人抓手动作，在绝对和相对控制模式下，分解为 $SO(2)$ 群的不可约表示 (irreducible representations)。这是构建等变网络架构的关键数学基础，比之前工作处理的 $SE(2)$ 动作空间更通用。
显著的实证效果:
- 模拟实验: 在 12 个 MimicGen 模拟任务中，使用 100 个演示数据进行训练时，EquiDiff 的成功率平均比基线 Diffusion Policy 高 21.9%。这证明了其强大的样本效率。
- 真实机器人实验: 在六个真实机器人任务上，EquiDiff 仅用 20 到 60 个演示数据就学会了有效的策略，而基线 Diffusion Policy 在同样的数据量下表现很差。这进一步验证了该方法在低数据量下的实用价值。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 扩散模型 (Diffusion Models)

扩散模型是一类强大的生成模型 (generative model)，其目标是学习一个复杂的数据分布（如图像、音频或本文中的机器人动作序列）。它的核心思想分为两个过程：

前向过程 (Forward Process): 这是一个固定的、不可学习的过程。它从一个真实数据样本（例如一张清晰的图片）开始，在一个很长的链条中，逐步、微量地向其添加高斯噪声。经过成百上千步之后，原始数据最终会变成一个纯粹的、无规律的高斯噪声分布。这个过程就像一滴墨水在清水中逐渐扩散，直到完全均匀分布。
反向过程 (Reverse Process): 这是模型需要学习的过程。模型的目标是逆转上述的扩散过程，即从一个纯粹的噪声样本开始，逐步地、一点点地去除噪声，最终恢复出一个清晰的、符合原始数据分布的样本。为了实现这一点，模型需要学习一个去噪函数 (denoising function)，在每一步预测出应该从当前带噪声的数据中减去哪部分噪声。

通过训练这个去噪函数，扩散模型实际上隐式地学习了整个数据分布的结构。

3.1.2. 行为克隆 (Behavior Cloning, BC)

行为克隆是模仿学习中最简单直接的一种方法。其核心思想是，将策略学习问题看作一个监督学习 (supervised learning) 问题。具体来说，我们收集一系列由专家（如人类操作员）演示的数据，这些数据由成对的“状态-动作” (state, action) 组成。然后，我们训练一个策略网络，使其能够根据给定的状态，预测出专家在该状态下会执行的动作。换句话说，模型的目标是“克隆”专家的行为。

3.1.3. 等变性 (Equivariance)

等变性是描述函数与某种变换（如旋转、平移）之间关系的一个数学性质。一个函数 $f$ 对于一个变换群 $G$ （例如，所有二维旋转组成的群 $SO(2)$ ）是等变的，如果对输入进行变换后再应用函数，其结果与先应用函数再对输出进行变换的结果是相同的。

用数学公式表达为： $f(g(x)) = g'(f(x))$ 其中， $x$ 是输入， $f$ 是函数， $g$ 和 $g'$ 是群 $G$ 中的变换操作，分别作用于输入空间和输出空间。在很多情况下， $g$ 和 $g'$ 是同一个操作，此时公式简化为 $f(g(x)) = g(f(x))$ 。

一个直观的例子： 假设有一个图像分割函数 $f$ ，它的任务是识别出图像中猫的位置。如果这个函数是平移等变的，那么：

将一张猫在左上角的图片输入 $f$ ，输出的分割掩码中，猫的区域也会在左上角。
现在，我们将原始图片向右平移 100 像素，得到一张猫在图片中上部的图片。将这张新图片输入 $f$ 。
如果 $f$ 是等变的，那么它的输出掩码也应该恰好是第一步输出的掩码向右平移 100 像素的结果。

与不变性 (Invariance) 的区别：

等变性 (Equivariance): 输入变，输出也以同样的方式变。 $f(g(x)) = g(f(x))$ 。
不变性 (Invariance): 输入变，输出不变。 $f(g(x)) = f(x)$ 。例如，一个图像分类器，无论猫在图片的哪个位置，都应该输出“猫”这个标签。

在机器人操作中，我们通常需要的是等变性，因为动作（如抓取姿态）的位置和方向必须随着目标物体的变化而相应变化。

3.2. 前人工作

3.2.1. 扩散策略 (Diffusion Policy)

这是本文最直接的基线工作。由 Chi et al. [1] 提出的 Diffusion Policy 将行为克隆问题重新定义为一个条件生成问题。它不直接学习从观测 $\mathbf{o}$ 到动作 $\mathbf{a}$ 的映射 $\pi(\mathbf{o}) = \mathbf{a}$ ，而是学习一个条件去噪扩散模型。

训练过程： 从专家数据中采样一个 (观测 $\mathbf{o}$ ，动作序列 $\mathbf{a}$ ) 对。对动作序列 $\mathbf{a}$ 添加随机噪声 $\varepsilon^k$ （噪声水平由扩散步骤 $k$ 决定），得到带噪声的动作 $\mathbf{a}^k = \mathbf{a} + \varepsilon^k$ 。然后，训练一个神经网络 $\varepsilon_\theta$ 来预测这个噪声，其输入是观测 $\mathbf{o}$ 、带噪声的动作 $\mathbf{a}^k$ 和噪声水平 $k$ 。损失函数为： $\mathcal{L} = ||\varepsilon_\theta(\mathbf{o}, \mathbf{a} + \varepsilon^k, k) - \varepsilon^k||^2$
推理过程： 在执行时，给定当前观测 $\mathbf{o}$ ，模型从一个完全随机的动作序列（纯噪声）开始，通过迭代 $K$ 次去噪步骤来生成最终的动作序列。每一步的更新规则如下： $\mathbf{a}^{k-1} = \alpha(\mathbf{a}^k - \gamma \varepsilon_\theta(\mathbf{o}, \mathbf{a}^k, k) + \epsilon)$ 其中 $\alpha, \gamma, \sigma$ 是与噪声调度相关的超参数， $\epsilon$ 是一个小的随机噪声项。最终得到的 $\mathbf{a}^0$ 就是模型生成的动作序列。

Diffusion Policy 的主要优势在于它能很好地捕捉专家演示数据中可能存在的多模态 (multimodal) 行为分布（即对于同一个状态，可能有多种同样有效的动作）。但其缺点是学习去噪函数 $\varepsilon_\theta$ 比学习简单策略更复杂，需要更多数据。

3.2.2. 机器人学中的等变性

近年来，许多研究表明，在机器人策略学习中引入等变性可以显著提高样本效率和泛化能力。

空间动作空间的 Q 学习: Wang et al. [22] 等人提出了在具有空间对称性的动作空间中进行等变 Q 学习的方法。
SE(3) 等变模型: 一些工作如 Neural Descriptor Fields [37] 和 SE(3)-Equivariant Relational Rearrangement [24] 利用 $SE(3)$ 等变性来学习物体的表示和进行操作，但通常用于开环（open-loop）任务，即一次性规划出整个动作序列，中间不根据反馈进行调整。
SE(2) 闭环策略: 另一些工作如 SO(2)-Equivariant Reinforcement Learning [9] 和 SEIL [10] 则研究了 $SE(2)$ 等变的闭环（closed-loop）策略，但它们的动作空间被限制在二维平面上的平移和绕单一轴的旋转，无法处理任意姿态的六自由度操作。

3.3. 技术演进

机器人模仿学习的技术路线大致如下：

早期显式策略 (Explicit Policies): 使用简单的神经网络（如 MLP 或 CNN）直接从观测映射到动作。这种方法简单有效，但难以处理多模态的专家数据，容易出现“平均主义”问题（即模型学习了多种有效动作的平均值，而这个平均动作本身是无效的）。
隐式策略 (Implicit Policies): 为了解决多模态问题，研究者提出了基于能量的模型 (Energy-Based Models, EBMs) 或变分自编码器 (VAEs) 的隐式策略。这些模型不直接输出动作，而是学习一个评估“状态-动作”对好坏的函数（如能量函数），然后在推理时通过优化或采样来生成动作。这类方法虽然表达能力强，但训练通常不稳定或需要复杂的采样过程。
扩散模型策略 (Diffusion Policies): Diffusion Policy [1] 的出现为解决多模态问题提供了一个新的、更强大的范式。它通过去噪过程生成动作，天然适合建模复杂分布，并且在许多基准测试中取得了最先进的性能。然而，其数据效率问题也随之凸显。

本文的工作正是在 Diffusion Policy 这一最新技术趋势的基础上，通过引入等变性这一经典几何先验，旨在解决其数据效率低下的核心痛点，推动了该技术路线的进一步发展。

3.4. 差异化分析

与相关工作相比，本文的核心差异化在于：

特性	Diffusion Policy (基线)	先前的等变策略	Equivariant Diffusion Policy (本文)
核心模型	扩散模型	显式策略 (如 Q-learning, BC)	扩散模型
对称性	无 (标准 CNN/Transformer)	引入 $SE(2)$ 或 $SE(3)$ 等变性	引入 $SO(2)$ 等变性
动作空间	$SE(3)$ (六自由度)	$SE(2)$ (简化) 或 $SE(3)$ (常用于开环)	$SE(3)$ (六自由度)
控制方式	闭环 (Closed-loop)	开环或闭环 (但闭环常限于 $SE(2)$ )	闭环 (Closed-loop)
创新组合	-	-	首次将 $SE(3)$ 闭环控制、扩散模型和等变性三者结合

总结来说，本文填补了等变性在六自由度、闭环视觉运动扩散策略中的应用空白，是一种对现有最先进方法的直接、有效且理论坚实的改进。

4. 方法论

本节详细阐述 Equivariant Diffusion Policy (EquiDiff) 的核心技术方案。

4.1. 方法原理

EquiDiff 的核心思想是：如果一个机器人任务天然具有旋转对称性，那么用于学习该任务的扩散模型的去噪函数也应该具有同样的对称性。通过构建一个在结构上强制满足这种对称性的等变神经网络来近似这个去噪函数，可以极大地提升模型的学习效率和泛化能力。

该方法分为两个关键理论部分和一个实现部分：

理论一：去噪函数的等变性 (Proposition 1): 证明为什么可以用等变网络来建模去噪函数。
理论二：六自由度动作的等变表示 (Proposition 2): 解决如何在复杂的六自由度动作空间中定义和实现这种旋转对称性。
实现：等变网络架构: 构建一个集成了上述理论的具体神经网络。

4.2. 核心方法详解 (逐层深入)

4.2.1. 理论基础：去噪函数的等变性

论文首先通过 命题1 (Proposition 1) 证明，只要专家策略 $\pi$ 是 $SO(2)$ 等变的，那么 Diffusion Policy 学习的真实去噪函数 $\varepsilon$ 也必然是 $SO(2)$ 等变的。

命题 1 (Proposition 1): 当专家策略函数 $\pi$ 是 $SO(2)$ -等变的，即对于任意旋转 $g \in SO(2)$ ，都有 $\pi(g\mathbf{o}) = g\pi(\mathbf{o})$ 时，其对应的去噪函数 $\varepsilon$ 也是等变的，即： $\varepsilon(g\mathbf{o}, g\mathbf{a}^k, k) = g\varepsilon(\mathbf{o}, \mathbf{a}^k, k)$

方法步骤与公式融合讲解 (Proof Walkthrough):

定义去噪函数: 根据 Diffusion Policy 的定义，真实的去噪函数 $\varepsilon$ 能够从一个带噪声的动作中完美地预测出所添加的噪声 $\varepsilon^k$ 。这个带噪声的动作是由专家在观测 $\mathbf{o}$ 下的真实动作 $\pi(\mathbf{o})$ 加上噪声构成的。因此，我们有： $\varepsilon^k = \varepsilon(\mathbf{o}, \pi(\mathbf{o}) + \varepsilon^k, k)$ 这里，\mathbf{a}^k = \pi(\mathbf{o}) + \varepsilon^k 是带噪声的动作。
对观测进行旋转: 现在，考虑对观测 $\mathbf{o}$ 应用一个旋转变换 $g \in SO(2)$ 。由于去噪函数 $\varepsilon$ 应该对任何合法的“观测-动作”对都成立，因此对于旋转后的观测 $g\mathbf{o}$ 及其对应的专家动作 $\pi(g\mathbf{o})$ ，我们同样有： $\varepsilon^k = \varepsilon(g\mathbf{o}, \pi(g\mathbf{o}) + \varepsilon^k, k)$
利用专家策略的等变性: 根据命题的假设，专家策略 $\pi$ 是等变的，即 $\pi(g\mathbf{o}) = g\pi(\mathbf{o})$ 。我们将这个性质代入上式： $\varepsilon^k = \varepsilon(g\mathbf{o}, g\pi(\mathbf{o}) + \varepsilon^k, k)$ 令 $\mathbf{a} = \pi(\mathbf{o})$ ，则上式变为： $\varepsilon^k = \varepsilon(g\mathbf{o}, g\mathbf{a} + \varepsilon^k, k)$
对噪声进行变换: 噪声 $\varepsilon^k$ 是在动作空间中定义的向量。作者假设旋转操作 $g$ 同样可以作用于噪声向量。由于去噪函数的目标是预测出被添加到干净动作上的那部分噪声，只要等式两边的噪声项保持一致，等式就成立。因此，我们可以将等式两边的噪声项 $\varepsilon^k$ 同时替换为旋转后的噪声 $g\varepsilon^k$ ： $g\varepsilon^k = \varepsilon(g\mathbf{o}, g\mathbf{a} + g\varepsilon^k, k)$ 这一步是证明的关键，其直觉是，如果整个坐标系都旋转了，那么在那个新坐标系下描述的噪声也应该随之旋转。
利用线性性质合并: 由于旋转操作是线性的，我们可以提取公因子 $g$ ： $g\mathbf{a} + g\varepsilon^k = g(\mathbf{a} + \varepsilon^k)$ 我们知道 $\mathbf{a}^k = \mathbf{a} + \varepsilon^k$ 是原始的带噪声动作。因此，上式变为： $g\varepsilon^k = \varepsilon(g\mathbf{o}, g\mathbf{a}^k, k)$
得出最终结论: 最后，我们将 $\varepsilon^k$ 用其原始定义 $\varepsilon(\mathbf{o}, \mathbf{a}^k, k)$ 替换，就得到了最终的等变关系： $g\varepsilon(\mathbf{o}, \mathbf{a}^k, k) = \varepsilon(g\mathbf{o}, g\mathbf{a}^k, k)$ 这证明了去噪函数 $\varepsilon$ 确实是等变的。这个结论为使用等变神经网络 $\varepsilon_\theta$ 来近似 $\varepsilon$ 提供了强有力的理论支持。

下图（原文 Figure 2）直观地展示了这一属性。左图显示了一个抓取任务，右图的箭头场代表了去噪函数 $\varepsilon$ 在动作空间中产生的“梯度场”，它将任意一个带噪声的动作“推向”正确的专家动作。当整个任务场景旋转时，这个梯度场也随之旋转，这正是等变性的体现。

$Figure 2: Equivariance of the denoising function $\\varepsilon$ . Left: In observation o, the goal for the gripper is to reach the green block while avoiding the blue obstacle. Right: The expert trajectory and the gradient field associated with the denoising function. If the policy is equivariant, both the denoising function and the entire gradient field is equivariant. The orange boxes show the equivariance of $\\varepsilon$ with a particular input $\\dot { \\varepsilon } ^ { k }$ .$ 该图像是图示，展示了去噪函数 ar{oldsymbol{ au}} 的等变性。左侧展示了在观察 $o$ 中，抓手的目标是到达绿色块而避免蓝色障碍；右侧展示了与去噪函数相关的专家轨迹和梯度场。如果策略是等变的，则去噪函数和整个梯度场都具备等变性。橙色框中展示了特定输入 $ar{oldsymbol{ au}}^{k}$ 的等变性。

4.2.2. 理论基础：六自由度动作的 $SO(2)$ 表示

证明了去噪函数是等变的之后，下一个关键问题是：如何具体定义旋转操作 $g \in SO(2)$ 如何作用于一个六自由度 ( $SE(3)$ ) 的机器人动作 $\mathbf{a}_t$ ？这是构建等变网络的前提。论文通过 命题2 (Proposition 2) 对此进行了详细推导。

一个六自由度的位姿通常用一个 $4 \times 4$ 的齐次变换矩阵 $\mathbf{A}_t \in SE(3)$ 表示，它包含了旋转和平移信息。在送入神经网络之前，需要将其向量化。论文分别讨论了绝对位姿控制和相对位姿控制两种情况。

1. 绝对位姿控制 (Absolute Pose Control)

在这种模式下，动作指令 $\mathbf{A}_t$ 指定了机械臂末端在世界坐标系下的下一个目标绝对位姿 $T_{t+1} = \mathbf{A}_t$ 。

当世界坐标系绕 $z$ 轴旋转一个角度 $\phi$ （对应于 $g \in SO(2)$ ）时，目标位姿 $\mathbf{A}_t$ 也应该相应地旋转。这个变换可以通过左乘一个 $SO(2)$ 旋转矩阵 $T_g$ 来实现： $g\mathbf{A}_t = T_g \mathbf{A}_t$ 其中 $T_g$ 是一个 $4 \times 4$ 的矩阵，其左上角是 $3 \times 3$ 的绕 $z$ 轴旋转矩阵。
为了构建等变网络，需要将这个矩阵变换表示为作用在向量上的群表示 (group representation)。论文将 $\mathbf{A}_t$ 按列向量化为 \mathbf{a}_t = \mathrm{Vec}_c(\mathbf{A}_t)。
通过分析矩阵乘法规则，可以推导出向量 $\mathbf{a}_t$ $a_{t}$ 的变换规则。这个变换可以被分解为一系列不可约表示 (irreducible representations) 的直和。对于 $SO(2)$ $SO (2)$ 群，其不可约表示主要有：
- $\rho_0$ : 平凡表示 (trivial representation)，作用于不变量（标量），如 $g(x) = x$ 。
- $\rho_1$ : 标准表示 (standard representation)，作用于二维向量，通过一个 $2 \times 2$ 旋转矩阵实现。
- $\rho_\omega$ : 更高频率的表示，通过旋转 $\omega\phi$ 角的矩阵实现。
最终，对于按列向量化的绝对位姿，其变换规则可以表示为： $g\mathbf{a}_t = (\rho_1 \oplus \rho_0^2)^4(g)\mathbf{a}_t$ 。进一步简化后（如使用 6D 旋转表示），可以得到一个更紧凑的表示，如 $(\rho_1^3 \oplus (\rho_1 \oplus \rho_0) \oplus \rho_0)(g)\mathbf{a}_t$ 。这个分解是构建等变网络层的关键输入。

2. 相对位姿控制 (Relative Pose Control)

在这种模式下，动作指令 $\mathbf{A}_t$ 指定了相对于当前位姿 $T_t$ 的一个位姿变化量，即 $T_{t+1} = \mathbf{A}_t T_t$ 。

当世界坐标系旋转 $g$ 时，新的目标位姿 $(g\mathbf{A}_t)(gT_t)$ 应该等于对原始目标位姿进行旋转 $g( \mathbf{A}_t T_t )$ 。 $(g\mathbf{A}_t)(gT_t) = g(\mathbf{A}_t T_t) = (T_g \mathbf{A}_t) T_t$ 通过求解这个方程，可以得到相对位姿 $\mathbf{A}_t$ 的变换规则，它是一个伴随作用 (adjoint action)： $g\mathbf{A}_t = T_g \mathbf{A}_t T_g^{-1}$
同样，作者将这个复杂的矩阵变换，通过一个基变换 (change-of-basis)，分解为一系列不可约表示的直和形式。对于按行向量化的相对位姿 \mathbf{a}_t = \mathrm{Vec}_r(\mathbf{A}_t)，其最终的变换规则为： $g\mathbf{a}_t = P^{-1} [(\rho_0^6 \oplus \rho_1^4 \oplus \rho_2)(g)] P\mathbf{a}_t$ 其中 $P$ 是一个固定的基变换矩阵。这个分解同样为构建等变网络提供了数学基础。

4.2.3. 实现：等变扩散策略网络架构

有了上述理论基础，作者设计了 Equivariant Diffusion Policy 的网络架构，如下图（原文 Figure 3）所示。该网络使用 escnn 库实现，并利用了离散旋转群 $C_u$ （ $SO(2)$ 的一个子群，包含 $u$ 个离散旋转角度）来近似连续的 $SO(2)$ 对称性。

Figure 3: Overview of our Equivariant Diffusion Policy architecture. 该图像是图3，展示了我们的等变扩散策略架构。图中包含了机器人状态的编码、观察输入、含噪声的动作序列以及通过扩散步骤进行噪声预测的过程，最终输出无噪声的动作序列。该架构优化了政策学习的效率与效果。

网络结构主要包括三个部分：

等变编码器 (Equivariant Encoders):
- 观测编码器: 将输入的观测 $\mathbf{o}$ $o$ （如图像或体素网格）和机器人自身状态（如抓手位姿）编码为等变特征。
  - 对于图像或体素网格，使用等变卷积网络 (Equivariant CNN) 进行处理。
  - 对于机器人状态向量，根据其在 $SO(2)$ 变换下的表示类型（如前一节推导的 $\rho_0, \rho_1$ 等）进行编码。
- 动作编码器: 将带噪声的动作序列 $\mathbf{a}^k$ 也编码为等变特征。
- 编码器的输出是正则表示 (regular representation) 形式的特征向量 $e_\mathbf{o}$ 和 $e_{\mathbf{a}^k}$ 。一个正则表示的特征可以看作是 $u$ 个特征向量的集合，每个向量对应群 $C_u$ 中的一个旋转角度。当输入旋转时，这些特征向量会相应地发生循环移位。
等变去噪模块 (Equivariant Denoising Block):
- 此模块的核心是一个标准的 1D Temporal U-Net，与原始 Diffusion Policy 相同。
- 关键的等变设计在于如何使用这个 U-Net。对于正则表示的观测特征 $e_\mathbf{o}$ 和动作特征 $e_{\mathbf{a}^k}$ ，模型将对应于同一个旋转角度 $g$ 的那部分特征 $(e_\mathbf{o}^g, e_{\mathbf{a}^k}^g)$ 取出，连同噪声水平 $k$ ，一起送入 U-Net 进行处理，得到一个输出 z^g = U(e_\mathbf{o}^g, e_{\mathbf{a}^k}^g, k)。
- 这个 U-Net 在所有 $u$ 个旋转角度上是共享权重的。这意味着，对于任何一个旋转角度，处理其特征的函数都是完全一样的。正是这种权重共享机制，保证了整个去噪模块的等变性。
- 将所有角度的输出 $z^g$ 组合起来，就得到了一个正则表示形式的噪声特征嵌入。
等变解码器 (Equivariant Decoder):
- 最后，一个等变的线性层将噪声特征嵌入解码，输出最终预测的噪声向量 $\varepsilon^k$ 。这个解码器层的设计也必须遵循等变性约束，确保其输出的噪声向量具有正确的变换属性（根据 Section 4.2.2 的推导）。
  
  通过这种端到端的等变设计，整个去噪网络 $\varepsilon_\theta$ 就被构建成了一个严格的等变函数，从而能够高效地学习具有旋转对称性的机器人任务。

5. 实验设置

5.1. 数据集

实验在模拟和真实世界两个环境中进行。

5.1.1. 模拟环境：MimicGen

来源与描述: MimicGen [11] 是一个用于可扩展机器人学习的数据生成系统和基准测试平台。本文使用了其中的 12 个桌面操作任务。这些任务涵盖了不同难度和复杂度的操作，例如堆叠、装配、清理等，并且动作空间都是完整的六自由度 ( $SE(3)$ )。
数据样本示例: 下图（原文 Figure 4）展示了其中四个任务的初始状态和目标状态。
- (a) Kitchen D1: 一个涉及开关抽屉、移动锅具的长序列任务。
- (b) Nut Assembly D0: 精细的螺母装配任务。
- (c) Pick Place D0: 简单的拾取和放置任务。
- (d) Coffee Preparation D1: 制作咖啡的多步骤任务。
  
  $Figure 4: The experimental environments from MimicGen \[11\]. The left image in each subfigure shows the initial state of the environment; the right image shows the goal state. See Figure 8 in the Appendix for all environments.$ 该图像是插图，展示了来自MimicGen的四个实验环境，每个子图包含两个图像。左侧图像显示了环境的初始状态，右侧图像展示了目标状态。具体实验环境包括：(a) 厨房 D1，(b) 螺母组装 D0，(c) 拾取放置 D0，(d) 咖啡制作 D1。
选择原因: MimicGen 提供了多样化且具有挑战性的任务，非常适合评估模仿学习算法的性能和泛化能力。此外，其数据集中包含了不同数量的专家演示（本文使用了 100, 200, 1000 个），便于测试算法的样本效率。

5.1.2. 真实机器人环境

平台: 使用一个 Franka Emika 机器人手臂，配备了 fin-ray 软体夹爪和三个 Intel Realsense D455 深度相机。
数据收集: 由操作员使用 6DoF 鼠标进行遥操作，收集专家演示数据。
任务: 设计了六个真实世界的操作任务，包括开烤箱、将香蕉放入碗中、对齐字母、清扫垃圾、将锤子放入抽屉，以及一个长序列的百吉饼烘焙 (Bagel Baking) 任务。
数据样本示例: 下图（原文 Figure 6）展示了真实机器人任务的初始和目标状态。

该图像是一个示意图，展示了六个不同的机器人任务场景，包括: (a) 开门, (b) 将香蕉放入碗中, (c) 字母对齐, (d) 垃圾清理, (e) 将锤子放入抽屉, 和 (f) 贝果烘焙。这些任务反映了机器人在多种场景下的应用。
选择原因: 真实机器人实验是验证算法在现实世界中可行性和鲁棒性的“黄金标准”。特别是在低数据量（20-60个演示）下进行测试，可以直接检验本文方法声称的高样本效率是否成立。

5.2. 评估指标

论文使用的主要评估指标是 任务成功率 (Task Success Rate)。

概念定义 (Conceptual Definition): 任务成功率衡量的是，在多次独立的测试尝试中，机器人策略能够成功完成预定任务的百分比。一次尝试是否“成功”，通常由一个预定义的、任务相关的标准来判断（例如，物体是否被放置到了正确的位置，抽屉是否被完全关闭等）。这是一个直接且易于理解的指标，用于评估策略的整体有效性。
数学公式 (Mathematical Formula): $\text{Success Rate} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100\%$
符号解释 (Symbol Explanation):
- Number of Successful Trials: 成功完成任务的测试次数。
- Total Number of Trials: 进行的总测试次数。
  
  在本文中，作者在训练过程中的不同阶段多次进行评估（例如总共 50 次），并报告在所有评估中观察到的最高成功率，以衡量模型能够达到的最佳性能。

5.3. 对比基线

本文将提出的 EquiDiff 与一系列具有代表性的模仿学习方法进行了比较：

DiffPo-C (Diffusion Policy with CNN UNet) [1]: 这是最核心的基线，即原始的 Diffusion Policy，其去噪网络使用基于 CNN 的 1D Temporal UNet。本文的 EquiDiff 在去噪网络部分与它共享了相同的 U-Net 结构，区别仅在于是否引入等变性。
DiffPo-T (Diffusion Policy with Transformer) [1]: 同样是 Diffusion Policy，但使用 Transformer 结构代替 UNet，是另一个强大的变体。
DP3 (3D Diffusion Policy) [20]: 一种 Diffusion Policy 的变体，它使用点云作为 3D 视觉输入，并采用 PointNet 编码器。
ACT (Action Chunking with Transformer) [51]: 一种基于 Transformer 和 CVAE (Conditional VAE) 的模仿学习方法，它通过“动作分块”来预测未来的动作序列。
BC RNN (Behavior Cloning with RNN) [2]: 一种基于循环神经网络 (RNN) 的传统行为克隆方法，一次只预测一个时间步的动作。

这些基线覆盖了从经典的 RNN 方法到最新的 VAE 和 Diffusion 模型，为全面评估 EquiDiff 的性能提供了坚实的比较基础。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 模拟实验结果

核心发现：EquiDiff 在低数据量下表现出巨大的优势，显著优于所有基线方法。

以下是原文 Table 1 和 Table 2 的转录与分析。

详细性能对比 (Table 1):

    <!-- ... (remaining rows from the first part of Table 1) ... -->
    <tr>
        <td>DiffPo-T [1]</td>
        <td>RGB</td>
        <td>51</td>
        <td>83</td>
        <td>99</td>
        <td>17</td>
        <td>41</td>
        <td>84</td>
        <td>5</td>
        <td>11</td>
        <td>45</td>
        <td>11</td>
        <td>18</td>
        <td>41</td>
    </tr>
    <tr>
        <td>DP3 [20]</td>
        <td>PCD</td>
        <td>69</td>
        <td>87</td>
        <td>99</td>
        <td>7</td>
        <td>23</td>
        <td>65</td>
        <td>7</td>
        <td>6</td>
        <td>19</td>
        <td>12</td>
        <td>23</td>
        <td>40</td>
    </tr>
    <tr>
        <td>ACT [51]</td>
        <td>RGB</td>
        <td>35</td>
        <td>73</td>
        <td>96</td>
        <td>6</td>
        <td>37</td>
        <td>78</td>
        <td>6</td>
        <td>18</td>
        <td>49</td>
        <td>10</td>
        <td>21</td>
        <td>35</td>
    </tr>
    <!-- ... (This is a complex table. I will continue transcribing as accurately as possible) ... -->
</tbody>

Method	Ctrl	Obs	Stack D1			Stack Three D1			Square D2			Threading D2
Method	Ctrl	Obs	100	200	1000	100	200	1000	100	200	1000	100	200	1000
EquiDiff (Vo)	Abs	Voxel	99 (+23)	100 (+3)	100 (=)	75 (+37)	91 (+19)	91 (-3)	39 (+31)	48 (+29)	63 (+14)	39 (+22)	53 (+18)	55 (-4)
EquiDiff (Im)		RGB	93 (+17)	100 (+3)	100 (=)	55 (+17)	77 (+5)	96 (+2)	25 (+17)	41 (+22)	60 (+11)	22 (+5)	40 (+5)	59 (=)
DiffPo-C[1]		RGB	76	97	100	38	72	94	8	19	46	17	35	59

*(注：由于表格过于复杂且篇幅巨大，此处仅展示了部分内容以说明格式。完整数据请参见原文 Table 1。)*

平均性能对比 (Table 2):

以下是原文 Table 2 的结果，该表总结了在 12 个模拟任务上的平均成功率。

Method	Ctrl	Average over 12 Environments
Method	Ctrl	100	200	1000
EquiDiff (Vo)	Abs	63.9 (+21.9)	72.6 (+14.8)	77.9 (+6.5)
EquiDiff (Im)		53.7 (+11.7)	68.5 (+10.7)	79.7 (+8.3)
DiffPo-C[1]		42.0	57.8	71.4
DiffPo-T [1]		29.0	43.0	64.9
DP3 [20]		23.9	35.1	56.8
ACT [51]		21.3	38.2	63.3
EquiDiff (Vo)	Rel	48.8 (+15.5)	58.0 (+10.7)	70.2 (-0.1)
EquiDiff (Im)		35.4 (+2.1)	50.4 (+3.1)	74.0 (+3.7)
DiffPo-C[1]		33.3	47.3	63.2
BC RNN [2]		22.9	41.2	70.3

分析:

样本效率的压倒性优势: 在低数据量（100个演示）的情况下，使用绝对位姿控制的 EquiDiff (Vo)（体素输入）的平均成功率达到了 63.9%，比最好的基线 DiffPo-C (42.0%) 高出 21.9%。这是一个巨大的提升，直接证明了引入等变性作为归纳偏置可以极大地减少对数据的依赖。
超越高数据量基线: 更引人注目的是，使用 200 个演示训练的 EquiDiff (Vo) (72.6%)，其性能已经超过了使用 1000 个演示训练的基线 DiffPo-C (71.4%)。这意味着 EquiDiff 用五分之一的数据就达到了甚至超越了基线模型用全部数据才能达到的水平。
Voxel vs. Image: 无论是否使用等变性，基于体素 (Voxel) 的输入通常比基于图像 (RGB) 的输入效果更好。作者分析，这是因为体素网格的旋转可以与世界坐标系的旋转完美对齐，从而更好地利用对称性。而从特定视角拍摄的图像在旋转时会产生变形，破坏了完美的对称性。尽管如此，EquiDiff (Im) 依然大幅优于非等变的基线 DiffPo-C (RGB)。
绝对 vs. 相对控制: EquiDiff 在绝对位姿控制 (Abs) 模式下的提升比在相对位姿控制 (Rel) 模式下更明显。这可能是因为绝对位姿的 $SO(2)$ 表示更简单，更容易被网络学习和利用。

6.1.2. 任务对称性程度分析

作者进一步分析了 EquiDiff 的性能提升与任务本身对称性程度的关系。他们将任务分为三类：

高等变性任务: 物体初始位姿完全随机。
中等变性任务: 物体初始位姿在一定范围内随机。
低等变性任务: 物体初始位姿固定或随机性很小。

如下图（原文 Figure 5）所示，EquiDiff 在高等变性任务（蓝色条）中带来的性能提升最为显著。这完全符合预期，因为当数据中的姿态变化更丰富时，等变性所带来的“一次学习，处处泛化”的优势就越大。同时，在低等变性任务中，EquiDiff 的性能也没有受到损害，甚至仍有提升，表明该方法具有良好的鲁棒性。

该图像是图表，展示了高、中、低等方程任务组的性能提升情况。图(a)展示了不同任务组及其对应的示意图，图(b)展示了各个任务在不同演示数量下的性能差异。任务环境中高等方程任务以蓝色表示，中等方程任务以绿色表示，低等方程任务以红色表示。

6.1.3. 真实机器人实验结果

核心发现：EquiDiff 能够在极低数据量下学会真实、复杂的机器人任务，而基线方法完全失效。

以下是原文 Table 3 的结果：

	Oven Opening	Banana in Bowl	Letter Alignment	Trash Sweeping	Hammer to Drawer	Bagel Baking
# Demos	20	40	40	40	60	58
EquiDiff (Vo)	95% (19/20)	95% (19/20)	95% (19/20)	90% (18/20)	85% (17/20)	80% (16/20)
DiffPo-C (Vo)	60% (12/20)	30% (6/20)	0% (0/20)	5% (1/20)	5% (1/20)	10% (2/20)

分析: 这项实验的结果极具说服力。

EquiDiff 仅用 20 到 60 个演示数据，就在所有六个真实世界任务上取得了非常高的成功率（80% - 95%）。特别是在长达8个步骤的“百吉饼烘焙”任务中，成功率也达到了 80%。
相比之下，在同样极低的数据量下，基线 DiffPo-C (Vo)（一个已经使用了体素输入的强化版基线）在大多数任务上表现极差，甚至完全失败（如 Letter Alignment 任务成功率为 0%）。
这清晰地表明，EquiDiff 的高样本效率不仅存在于模拟中，更能直接转化到真实世界的应用中，解决了 Diffusion Policy 在实际部署时面临的最大障碍之一。

6.2. 消融实验/参数分析

在附录 H 中，作者进行了一项重要的消融实验，以分别验证等变结构和体素输入这两个因素对性能的贡献。

以下是原文 Table 8 的平均性能结果：

Ablation	Method	Ctrl	Average over 12 Environments
			100	200	1000
-	EquiDiff (Vo)	Abs	63.9	72.6	77.9
No Voxel	EquiDiff (Im)		53.7 (-10.3)	68.5 (-4.1)	79.7 (+1.8)
No Equi.	DiffPo-C (Vo)		46.3 (-17.6)	62.5 (-10.1)	75.6 (-2.3)
No Voxel No Equi.	DiffPo-C [1]		42.0 (-21.9)	57.8 (-14.8)	71.4 (-6.5)