论文状态：已完成

Planning with Diffusion for Flexible Behavior Synthesis

发表：2022/05/20

模型驱动强化学习 (2)扩散模型规划 (1)轨迹优化 (1)长时决策制定 (1)行为合成 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新的模型基强化学习方法，结合扩散概率模型与轨迹优化，旨在提高模型与决策过程的一致性。通过迭代去噪轨迹进行规划，展示了分类器引导采样和图像修复如何作为一致的规划策略，使框架在长期决策和灵活性方面表现出色。

摘要

Model-based reinforcement learning methods often use learning only for the purpose of estimating an approximate dynamics model, offloading the rest of the decision-making work to classical trajectory optimizers. While conceptually simple, this combination has a number of empirical shortcomings, suggesting that learned models may not be well-suited to standard trajectory optimization. In this paper, we consider what it would look like to fold as much of the trajectory optimization pipeline as possible into the modeling problem, such that sampling from the model and planning with it become nearly identical. The core of our technical approach lies in a diffusion probabilistic model that plans by iteratively denoising trajectories. We show how classifier-guided sampling and image inpainting can be reinterpreted as coherent planning strategies, explore the unusual and useful properties of diffusion-based planning methods, and demonstrate the effectiveness of our framework in control settings that emphasize long-horizon decision-making and test-time flexibility.

思维导图

论文精读

中文精读约 42 分钟读完 · 26,765 字

1. 论文基本信息

1.1. 标题

Planning with Diffusion for Flexible Behavior Synthesis (使用扩散模型进行灵活行为合成的规划)

1.2. 作者

Michael Janner, Yilun Du, Joshua B. Tenenbaum, Sergey Levine。作者主要来自加州大学伯克利分校 (UC Berkeley) 和 麻省理工学院 (MIT)，以及 Google Brain。Sergey Levine 是强化学习领域的知名学者。

1.3. 发表期刊/会议

本文于 2022 年 5 月 20 日作为预印本发表在 arXiv 上。虽然论文内容未明确指出正式发表的会议或期刊，但其研究质量和影响力表明它可能在顶级机器学习或强化学习会议 (如 NeurIPS, ICML, ICLR) 上发表或被引用。

1.4. 发表年份

2022年

1.5. 摘要

模型基强化学习 (Model-based Reinforcement Learning, MBRL) 方法通常仅将学习用于估计近似的动力学模型，而将其余的决策工作交给经典的轨迹优化器 (trajectory optimizers)。虽然概念简单，但这种组合存在一些经验上的缺陷，表明学习到的模型可能不适合标准的轨迹优化。本文考虑了如何将尽可能多的轨迹优化流程融入建模问题，使得从模型中采样 (sampling) 和用模型进行规划 (planning) 几乎相同。我们技术方法的核心在于一个扩散概率模型 (diffusion probabilistic model)，它通过迭代去噪 (iteratively denoising) 轨迹来进行规划。我们展示了分类器引导采样 (classifier-guided sampling) 和图像修复 (image inpainting) 如何被重新解释为连贯的规划策略，探索了基于扩散的规划方法的不同寻常且有用的特性，并证明了我们框架在强调长视距决策 (long-horizon decision-making) 和测试时灵活性 (test-time flexibility) 的控制设置中的有效性。

1.6. 原文链接

https://arxiv.org/abs/2205.09991 PDF 链接: https://arxiv.org/pdf/2205.09991v2.pdf 发布状态：预印本 (Preprint)。

2. 整体概括

2.1. 研究背景与动机

传统的模型基强化学习 (Model-based Reinforcement Learning, MBRL) 方法通常将“学习环境动力学模型”和“利用模型进行规划”这两个阶段解耦。智能体 (agent) 首先学习一个近似的动力学模型 (dynamics model)，然后将这个模型作为一个黑盒，输入给经典的轨迹优化算法 (trajectory optimization algorithms)（如随机射击 (random shooting) 或交叉熵方法 (cross-entropy method)）来生成最优行为。这种方法在概念上直观，因为学习动力学可以视为一个监督学习问题，而轨迹优化则有成熟的数学基础。

然而，这种解耦方法在实践中存在显著缺陷：

模型与规划器不匹配： 学习到的动力学模型通常存在不准确性。当强大的轨迹优化器试图利用这些不准确的模型时，它们往往会找到“对抗性示例 (adversarial examples)”——即模型预测看起来很好，但在真实环境中却效果很差的轨迹。这导致规划出来的行为看起来像是在“欺骗”模型而非找到最优路径。
长视距规划挑战： 学习到的单步动力学模型 (single-step dynamics models) 在长视距 (long-horizon) 规划中容易出现误差累积 (compounding rollout errors)，因为每一步的预测误差都会叠加到下一步，导致长期预测严重偏离真实情况。
缺乏灵活性： 传统的模型学习通常只专注于预测环境的因果动力学，而没有考虑其后续将被用于规划任务。这使得模型在处理不同的奖励函数、约束条件或多任务设置时缺乏灵活性。

基于这些挑战，本文的动机是探索一种更紧密耦合建模和规划的方法。作者设想，如果模型本身就能直接用于轨迹优化，使得“从模型中采样”和“用模型进行规划”这两个过程变得几乎相同，那么上述问题可能得到缓解。这种方法需要重新设计模型的结构和训练目标，使其从一开始就“为规划而生”，而不仅仅是作为环境动力学的代理。

2.2. 核心贡献/主要发现

本文的核心贡献是提出了 Diffuser，一个针对轨迹数据设计的去噪扩散模型 (denoising diffusion model)，并将轨迹优化问题重新定义为扩散模型的引导采样 (guided sampling) 问题。

主要贡献和发现包括：

提出 Diffuser 模型： Diffuser 是一个轨迹级别的扩散概率模型，它非自回归地 (non-autoregressively) 同时预测轨迹中的所有状态和动作。模型通过迭代去噪过程来生成轨迹，并且其架构具有时间局部性 (temporal locality)，通过复合多次去噪步骤实现全局连贯性。
将规划视为引导采样和修复： 论文将强化学习问题重新构建为扩散模型的条件采样问题。具体来说，将最大化奖励的任务解释为分类器引导采样 (classifier-guided sampling)，将目标条件规划解释为图像修复 (image inpainting) 问题。这种统一的框架允许在不重新训练核心模型的情况下，通过修改辅助引导函数 (auxiliary guide function) 来适应不同的任务和约束。
发现扩散规划器的独特属性：
- 长视距可扩展性 (Long-horizon scalability)： Diffuser 直接为生成轨迹的准确性而训练，而非单步预测误差，有效避免了传统单步动力学模型的误差累积问题，在长视距规划中表现出色。
- 任务组合性 (Task compositionality)： Diffuser 模型独立于奖励函数，可以通过不同的引导函数来规划未见过的任务，从而实现任务组合。
- 时间组合性 (Temporal compositionality)： 通过迭代改进局部一致性来生成全局连贯的轨迹，使其能够通过拼接训练数据中的子序列来泛化生成新颖的轨迹。
- 有效的非贪婪规划 (Effective non-greedy planning)： 模型训练过程同时提升了预测和规划能力，使其能够解决传统规划方法难以应对的长视距、稀疏奖励问题。
实验验证： Diffuser 在多个控制环境中展示了卓越的性能，包括：
- 长视距多任务规划： 在 Maze2D 和 Multi2D 环境中，显著优于现有模型基和无模型方法。
- 测试时灵活性： 在块堆叠 (block stacking) 任务中，通过修改引导函数实现对未见任务和约束的泛化，表现远超基线。
- 离线强化学习 (Offline Reinforcement Learning)： 在 D4RL 基准测试中，与最先进的离线RL算法相比具有竞争力。
- 规划速度优化： 提出了暖启动 (warm-starting) 策略，显著提高规划效率，同时保持较高性能。
  
  这些发现共同指向了深度模型基强化学习中基于扩散的新型规划流程，为解决现有MBRL的局限性提供了一条有前景的路径。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 强化学习 (Reinforcement Learning, RL)

强化学习是机器学习的一个分支，旨在训练智能体 (agent) 在一个环境 (environment) 中采取行动，以最大化累积奖励 (reward)。

状态 (State, $\mathbf{s}_t$ )： 环境在某一时刻的描述。
动作 (Action, $\mathbf{a}_t$ )： 智能体在某一状态下可以执行的操作。
奖励 (Reward, $r(\mathbf{s}_t, \mathbf{a}_t)$ )： 智能体执行动作后环境给予的即时反馈，目标是最大化长期累积奖励。
策略 (Policy, $\pi(\mathbf{a}_t | \mathbf{s}_t)$ )： 智能体从状态到动作的映射，决定了在给定状态下采取哪个动作。
轨迹 (Trajectory, $\boldsymbol{\tau}$ ): 一系列交替的状态和动作，表示为 $(\mathbf{s}_0,\mathbf{a}_0,\mathbf{s}_1,\mathbf{a}_1,\ldots ,\mathbf{s}_T,\mathbf{a}_T)$ 。

3.1.2. 模型基强化学习 (Model-Based Reinforcement Learning, MBRL)

MBRL 与无模型强化学习 (Model-Free RL) 的主要区别在于是否显式地学习和使用环境的动力学模型 (dynamics model)。动力学模型 $f(\mathbf{s}_t, \mathbf{a}_t)$ 能够预测在给定当前状态 $\mathbf{s}_t$ 和动作 $\mathbf{a}_t$ 的情况下，下一个状态 $\mathbf{s}_{t+1}$ 会是什么。

优点： 通常具有更高的样本效率 (sample efficiency)，因为模型可以用于模拟 (simulation) 和规划 (planning)，而无需与真实环境进行大量交互。
缺点： 学习准确的动力学模型本身就是一个挑战，尤其是对于复杂环境。不准确的模型可能导致规划出错，甚至被规划器利用生成不切实际的轨迹。

3.1.3. 轨迹优化 (Trajectory Optimization)

轨迹优化是寻找一个动作序列 $\mathbf{a}_{0:T}^{*}$ ，使得在规划视距 $T$ 内，遵循环境动力学 $f(\mathbf{s}_t, \mathbf{a}_t)$ 从初始状态 $\mathbf{s}_0$ 开始，能最大化 (或最小化) 一个目标函数 $\mathcal{I}(\boldsymbol{\tau})$ （通常是累积奖励或成本）。 ${\mathbf{a}}_{0:T}^{*}={\underset{\mathbf a_{0:T}}{\arg\max} \ \mathcal{I}(\mathbf{s}_{0},\mathbf{a}_{0:T})={\underset{\mathbf a_{0:T}^{*}}{}\arg\max \sum_{t=0}^{T}r(\mathbf{s}_{t},\mathbf{a}_{t})}}$ 其中 $r(\mathbf{s}_t, \mathbf{a}_t)$ 是在状态 $\mathbf{s}_t$ 执行动作 $\mathbf{a}_t$ 获得的即时奖励。常用的经典轨迹优化算法包括：

随机射击 (Random Shooting)： 随机生成大量动作序列，在动力学模型中推演 (rollout) 得到轨迹，然后选择累积奖励最高的序列。
交叉熵方法 (Cross-Entropy Method, CEM)： 迭代优化采样策略的参数，每次迭代中根据最佳样本更新策略分布。
模型预测路径积分控制 (Model Predictive Path Integral Control, MPPI)： 一种基于采样的模型预测控制方法，通过对多条采样轨迹进行加权平均来确定当前动作。

3.1.4. 扩散概率模型 (Diffusion Probabilistic Models, DPMs)

扩散概率模型 (Sohl-Dickstein et al., 2015; Ho et al., 2020) 是一类强大的生成模型 (generative models)，它将数据生成过程建模为一个迭代的去噪 (denoising) 过程。

前向扩散过程 (Forward Diffusion Process, $q(\tau^i | \tau^{i-1})$ )： 这是一个预定义的马尔可夫链 (Markov chain)，它缓慢地向数据 $\tau^0$ (无噪声数据) 中添加高斯噪声，逐步将其转化为纯噪声 $\tau^N$ (一个标准高斯分布)。随着扩散时间步 $i$ 的增加，数据变得越来越模糊。
反向去噪过程 (Reverse Denoising Process, $p_{\theta}(\tau^{i-1} | \tau^i)$ )： 这是模型要学习的过程。它从纯噪声 $\tau^N$ 开始，通过一系列迭代步骤逐渐去除噪声，最终恢复出原始数据 $\tau^0$ 。每个反向步骤 $p_{\theta}(\tau^{i-1} | \tau^i)$ 都是一个条件概率分布，通常被参数化为高斯分布，其均值由一个神经网络 $\mu_{\theta}$ 预测，协方差 $\Sigma^i$ 通常是预先设定的。 $p_{\theta}(\tau^{i - 1}\mid \tau^{i}) = \mathcal{N}(\tau^{i - 1}\mid \mu_{\theta}(\tau^{i},i),\Sigma^{i}).$ 模型的参数 $\theta$ 通过最小化变分负对数似然的上限来优化。
迭代去噪： 生成数据时，从标准高斯噪声 $\tau^N$ 开始，然后迭代地应用学习到的反向去噪过程，直到达到 $\tau^0$ 。
条件采样 (Conditional Sampling)： DPMs 的一个重要特性是能够通过修改去噪过程来生成满足特定条件的样本。这通常通过在去噪步骤中引入一个引导函数 (guide function) 来实现，引导采样走向特定方向。

3.2. 前人工作

传统MBRL的局限： 论文指出，大多数学习基 MBRL 方法尝试通过训练近似动力学模型，然后将其插入传统规划例程来克服环境动力学未知的问题。然而，学习到的模型通常不适合为真实模型设计的规划算法，这导致规划器通过找到对抗性示例来利用学习到的模型 (Talvitie, 2014; Ke et al., 2018)。这促使许多现代 MBRL 算法更多地借鉴无模型方法，例如价值函数 (value functions) 和策略梯度 (policy gradients) (Wang et al., 2019)。即使依赖在线规划，也倾向于使用简单的无梯度轨迹优化例程，如随机射击 (Nagabandi et al., 2018) 或交叉熵方法 (Botev et al., 2013; Chua et al., 2018)，以避免上述问题。
控制即推理 (Control-as-Inference)： 这是一种将强化学习问题重新表达为概率推理问题 (probabilistic inference) 的框架 (Levine, 2018)。它将最优轨迹建模为给定某些事件发生（例如，奖励事件）的后验分布的样本。这为将RL问题转化为条件采样问题提供了理论基础。
扩散模型的条件采样： DPMs 已在图像生成领域显示出强大的条件采样能力，例如分类器引导采样 (classifier-guided sampling) (Dhariwal & Nichol, 2021) 用于生成类别条件图像，以及图像修复 (image inpainting) (Sohl-Dickstein et al., 2015) 用于填充图像的缺失部分。这些技术为本文将RL问题转化为扩散模型的条件采样和修复提供了灵感。
轨迹级别模型： 也有一些工作研究非自回归的轨迹级别动力学模型用于长视距预测 (Lambert et al., 2020)。然而，这些工作通常仍然将模型与规划器解耦。

3.3. 技术演进

强化学习领域从早期的基于表格的方法（如Q-学习）发展到深度强化学习，其中一个关键方向是引入模型来提高样本效率。最初的模型基方法通常专注于学习精确的单步动力学模型，然后将其与传统的规划算法（如模型预测控制 (Model Predictive Control, MPC)）结合。然而，这种解耦方法遇到了学习模型不准确性带来的挑战，导致规划器可能“利用”模型缺陷而非找到最优行为。

为了解决这些问题，研究人员开始探索更紧密地整合模型学习和规划的方法。例如，一些工作尝试训练自回归的潜在空间模型进行奖励预测 (Tamar et al., 2016; Oh et al., 2017; Schrittwieser et al., 2019)，或者将模型训练目标与状态价值 (state values) 结合 (Farahmand et al., 2017)。也有工作利用能量基模型 (Energy-Based Models, EBMs) 和分数匹配 (score matching) 的思想，将规划问题视为寻找在学习到的能量函数下能量较低的轨迹 (Du et al., 2019; Rybkin et al., 2021)。

本文的工作处于这一演进的脉络中，它进一步深化了模型与规划的融合。通过引入扩散概率模型这一新兴的生成模型范式，Diffuser 旨在打破传统的“模型抽象边界”，即学习和规划的分离。它将轨迹生成本身视为一个迭代去噪的规划过程，而非简单地预测下一步状态。这种方法借鉴了扩散模型在图像生成等领域表现出的强大生成和条件采样能力，将其扩展到序列数据和决策问题。

3.4. 差异化分析

Diffuser 与相关工作的主要区别和创新点在于：

模型与规划的高度耦合： 传统 MBRL 通常将动力学模型学习和规划（通过轨迹优化器）视为两个独立阶段。Diffuser 模糊了模型与规划器之间的界限，使得从模型中采样一条轨迹就几乎等同于规划一条轨迹。模型从设计之初就考虑了规划的需求。
非自回归轨迹生成： 许多现有模型（包括一些轨迹级别的模型）采用自回归方式预测序列，即一步步地生成。Diffuser 采用非自回归方式，同时生成轨迹中的所有状态和动作。这使其能够更好地处理长视距依赖性，并允许灵活的条件化（例如，同时考虑初始状态和最终目标）。
基于扩散的生成机制： Diffuser 首次将扩散概率模型引入到强化学习和决策制定领域。扩散模型迭代去噪的特性使其在处理高维连续数据（如图像）方面表现出色，本文将其应用于轨迹数据，并利用其灵活的条件采样能力来解决RL问题。
奖励无关的动力学模型： Diffuser 学习的是环境动力学和行为的先验分布，但它不直接依赖于特定的奖励函数。规划时，奖励信息通过辅助的引导函数 (guide function) 以梯度的形式引入，这使得一个训练好的 Diffuser 模型可以在多种不同的奖励函数和任务中重复使用，而无需重新训练。
通过局部一致性实现全局连贯性： Diffuser 模型的架构（带有时间卷积的 U-Net）使其在每个去噪步骤中只关注轨迹的局部一致性。然而，通过迭代地执行这些局部改进，模型能够逐步构建出全局连贯且有效的长视距轨迹，这与依赖马尔可夫性质逐步推演的传统模型不同。
原生支持目标条件和约束： 扩散模型的图像修复能力自然地转化为目标条件规划和满足约束的任务，通过直接设定轨迹中的某些已知状态/动作来实现。这与传统方法中需要专门设计目标条件策略或奖励整形 (reward shaping) 形成对比。

4. 方法论

本文提出了一种名为 Diffuser 的轨迹级别扩散概率模型，其核心思想是将轨迹优化问题转化为扩散模型的条件采样问题。通过迭代去噪轨迹，Diffuser 能够生成符合环境动力学且满足规划目标（如最大化奖励或达到特定目标）的行为序列。

4.1. 方法原理

传统方法中，学习到的动力学模型通常被视为一个黑盒，供经典的轨迹优化算法使用。然而，这种解耦会导致模型被规划器“利用”，产生不真实或次优的轨迹。Diffuser 的核心原理是提出一种更紧密的耦合，将规划过程尽可能地融入到生成模型框架中，使得“从模型中采样”与“用模型进行规划”几乎相同。

这个目标需要改变模型的设计理念。Diffuser 不仅仅是环境动力学的代理，它被设计为直接适用于轨迹优化。这意味着：

轨迹级别建模： Diffuser 直接建模完整的状态-动作轨迹，而非仅仅是单步状态转移。
非自回归预测： 传统动力学模型通常是自回归的，即按时间顺序预测下一个状态。Diffuser 采用非自回归方式，同时预测轨迹的所有时间步，这对于需要考虑未来信息的决策任务至关重要（例如，目标条件规划）。
奖励无关性： 模型本身对奖励函数保持“不可知 (agnostic)”，使其可以在训练后用于多种任务。奖励信息通过在采样过程中引入辅助的引导函数 (guide function) 来实现。
迭代去噪规划： Diffuser 利用扩散模型的迭代去噪过程。通过引导这个去噪过程，可以使其生成满足特定条件（如高奖励或满足约束）的轨迹。这相当于在概率分布 $\tilde{p}_{\theta}(\tau)\propto p_{\theta}(\tau)h(\tau)$ 中进行推理，其中 $p_{\theta}(\tau)$ 是学习到的轨迹分布，而 $h(\tau)$ 是一个扰动函数，编码了规划目标。

4.2. 核心方法详解 (逐层深入)

4.2.1. 轨迹规划的生成模型 (A Generative Model for Trajectory Planning)

4.2.1.1. 时间排序 (Temporal ordering)

传统的动力学模型预测通常是因果的，即当前状态和动作决定未来状态。但在决策制定中，有时我们需要“反因果”地思考，即当前决策可能取决于未来的目标或状态。例如，目标条件推理 $p(\mathbf{s}_1 \mid \mathbf{s}_0, \mathbf{s}_T)$ 中，下一个状态 $\mathbf{s}_1$ 取决于未来状态 $\mathbf{s}_T$ 。为了适应这种决策制定需求，Diffuser 不采用时间自回归排序。它被设计为同时预测一个规划的所有时间步，即一次性生成整个轨迹。

4.2.1.2. 时间局部性 (Temporal locality)

尽管 Diffuser 是非自回归的，但它仍然具有一种放松形式的时间局部性。这意味着在单个去噪步骤中，对轨迹中某一时间步的预测仅依赖于其附近的过去和未来时间步（由网络的感受野 (receptive field) 决定）。下图（原文 Figure 2 和 Figure 6）展示了 Diffuser 如何通过迭代去噪来采样轨迹，以及其局部感受野如何驱动全局连贯性：

fig 6 该图像是一个示意图，展示了在规划过程中使用的扩散器结构包含的状态和动作序列，以及局部感受野、去噪和规划视野的关系。该模型通过去噪处理逐步优化轨迹，同时将反映在局域感受野内的多个状态和动作进行整合，以实现有效规划。

Figure 2. Diffuser samples plans by iteratively denoising twodimensional arrays consisting of a variable number of state-action pairs. A small receptive field constrains the model to only enforce local consistency during a single denoising step. By composing many denoising steps together, local consistency can drive global coherence of a sampled plan. An optional guide function $\mathcal{I}$ can be used to bias plans toward those optimizing a test-time objective or satisfying a set of constraints.

在单个去噪步骤中，模型只强制执行局部一致性。通过组合多个这样的去噪步骤，这些局部的一致性可以逐步累积，从而驱动采样轨迹的全局连贯性。这种设计允许模型在保持高效计算的同时，有效地生成长视距连贯行为。

4.2.1.3. 轨迹表示 (Trajectory representation)

为了联合预测状态和动作，Diffuser 将轨迹表示为一个二维数组，其中每一列代表一个时间步，包含该时间步的状态 $\mathbf{s}_t$ 和动作 $\mathbf{a}_t$ 。 $\boldsymbol {\tau} = \begin{bmatrix} \mathbf{s}_0 & \mathbf{s}_1 & \dots & \mathbf{s}_T \\ \mathbf{a}_0 & \mathbf{a}_1 & \dots & \mathbf{a}_T \end{bmatrix}. \quad (2)$ 这里， $\mathbf{s}_t$ 是 $t$ 时刻的状态， $\mathbf{a}_t$ 是 $t$ 时刻的动作， $T$ 是规划视距。这种表示将动作视为状态的额外维度，使得模型能够统一处理状态和动作的预测。

4.2.1.4. 架构 (Architecture)

Diffuser 的架构设计遵循以下原则：

非自回归预测整个轨迹。
每个去噪步骤应具有时间局部性。
轨迹表示应允许沿一个维度（规划视距）等变 (equivariance)，但沿另一个维度（状态和动作特征）不等变。

为满足这些标准，模型采用了包含重复的时间卷积残差块 (temporal convolutional residual blocks) 的 U-Net 架构（如附录 Figure A1 所示）。下图（原文 Figure A1）展示了 Diffuser 的 U-Net 架构：

fig 5 该图像是一个示意图，展示了一个包含卷积层和全连接层的深度学习模型结构。左侧为模型的总体架构，右侧为网络的细节部分，其中包括时间 t 和输入 X 的处理流程，以及 GN Mish 激活函数的使用。

Figure A1. Diffuser has a U-Net architecture with residual blocks consisting of temporal convolutions, group normalization, and Mish nonlinearities.

该架构类似于图像扩散模型中成功的 U-Net，但将二维空间卷积替换为一维时间卷积。由于模型是全卷积的 (fully convolutional)，其预测的视距不是由模型架构固定的，而是由输入维度（初始噪声 $\tau^N$ 的大小）决定的，这意味着它可以在规划过程中动态改变。

4.2.1.5. 训练 (Training)

Diffuser 通过参数化轨迹去噪过程的学习梯度 $\epsilon_{\theta}(\tau^{i}, i)$ 来训练。从这个学习梯度中，均值 $\mu_{\theta}$ 可以通过闭式解 (closed form) 得到 (Ho et al., 2020)。模型使用简化的目标函数来训练 $\epsilon$ 模型： $\mathcal{L}(\theta) = \mathbb{E}_{i,\epsilon ,\tau^0}\left[\|\epsilon -\epsilon_\theta (\boldsymbol{\tau}^i,i)\| ^2\right],$ 其中：

$i \sim \mathcal{U}\{1,2, \dots, N\}$ 是扩散时间步 (diffusion timestep)，表示当前数据被加噪的程度， $N$ 是总扩散步数。
$\epsilon \sim \mathcal{N}(0, I)$ 是噪声目标，即模型在给定当前带噪轨迹 $\boldsymbol{\tau}^i$ 时应该预测出的原始噪声。
$\tau^0$ 是无噪声的原始轨迹数据。
$\boldsymbol{\tau}^i$ 是原始轨迹 $\tau^0$ 被噪声 $\epsilon$ 损坏后的带噪轨迹。
$\epsilon_\theta (\boldsymbol{\tau}^i,i)$ 是神经网络模型对噪声的预测。这个目标函数鼓励模型准确地预测添加到数据的噪声，从而在反向过程中能够正确地去除噪声。反向过程的协方差 $\Sigma^i$ 遵循 Nichol & Dhariwal (2021) 提出的余弦调度 (cosine schedule)。

4.2.2. 强化学习作为引导采样 (Reinforcement Learning as Guided Sampling)

为了将强化学习问题融入 Diffuser 框架，论文借鉴了控制即推理 (Control-as-Inference) 的图形模型 (Levine, 2018)。定义 $\mathcal{O}_t$ 为一个二元随机变量，表示轨迹在时间步 $t$ 处的最优性 (optimality)，其概率 p(\mathcal{O}_t = 1) = \exp (r(\mathbf{s}_t,\mathbf{a}_t))。这意味着奖励越高，该时间步越“最优”。为了从最优轨迹的集合中进行采样，可以在方程 (1) 中设置扰动函数 $h(\tau) = p(\mathcal{O}_{1:T} \mid \tau)$ ： $\tilde{p}_{\theta}(\pmb {\tau}) = p(\pmb {\tau}|\mathcal{O}_{1:T} = 1)\propto p(\pmb {\tau})p(\mathcal{O}_{1:T} = 1|\pmb {\tau}).$ 这里：

$\tilde{p}_{\theta}(\pmb {\tau})$ 是经过奖励条件化的轨迹分布，表示在给定最优性事件发生的情况下，轨迹 $\pmb {\tau}$ 的概率。
$p(\pmb {\tau})$ 是 Diffuser 学习到的轨迹的先验分布。
$p(\mathcal{O}_{1:T} = 1|\pmb {\tau})$ 是在给定轨迹 $\pmb {\tau}$ 的情况下，整个轨迹序列最优的概率。

这个关系将强化学习问题转化为一个条件采样问题：找到那些在 $p_{\theta}(\tau)$ 下是物理上现实的 (physically realistic) 并且在 $h(\tau)$ 下是高奖励 (high-reward) 或满足约束的轨迹。由于动力学信息 (由 $p_{\theta}(\tau)$ 捕获) 与扰动分布 $h(\tau)$ 是分离的，因此一个 Diffuser 模型可以在同一环境中用于多个任务。

尽管精确地从这个分布中采样是棘手的，但当 $p(\mathcal{O}_{1:T} \mid \tau^i)$ 足够平滑时，反向扩散过程的转换可以近似为高斯分布 (Sohl-Dickstein et al., 2015)： $p_{\theta}(\tau^{i - 1} \mid \tau^i, \mathcal{O}_{1:T}) \approx \mathcal{N}(\tau^{i - 1}; \mu + \Sigma g, \Sigma) \quad (3)$ 其中：

$\mu$ 和 $\Sigma$ 是原始反向过程转换 $p_{\theta}(\tau^{i - 1} \mid \tau^i)$ 的参数。
$g$ 是引导梯度项，它将奖励信息引入采样过程： $g = \nabla_{\tau}\log p(\mathcal{O}_{1:T}\mid \tau) |_{\tau = \mu} = \sum_{t = 0}^{T}\nabla_{\mathbf{s}_t,\mathbf{a}_t}r(\mathbf{s}_t,\mathbf{a}_t)|_{(\mathbf{s}_t,\mathbf{a}_t) = \mu_t} = \nabla \mathcal{J}(\mu).$ 这里， $\nabla \mathcal{J}(\mu)$ 是累积奖励 $\mathcal{J}$ 对轨迹 $\mu$ 的梯度。

这个关系在分类器引导采样 (classifier-guided sampling) 和强化学习问题设置之间提供了直接的转换。首先，在所有可用轨迹数据上训练一个扩散模型 $p_{\theta}(\tau)$ 。然后，训练一个单独的模型 $\mathcal{J}_{\phi}$ 来预测轨迹样本 $\tau^i$ 的累积奖励。 $\mathcal{J}_{\phi}$ 的梯度用于通过修改反向过程的均值 $\mu$ 来引导轨迹采样过程。采样到的轨迹 $\tau \sim \tilde{p}_{\theta}(\tau)$ 的第一个动作 $\tau_{\mathbf{a}_0}^0$ 可以在环境中执行，之后规划过程在一个标准的回溯视距控制循环 (receding-horizon control loop) 中重新开始。

算法 1 提供了引导扩散规划的伪代码：

$## Algorithm 1 Guided Diffusion Planning 1: Require Diffuser $\mu_{\theta}$ guide $\mathcal{T}$ scale $\alpha$ , covariances $\Sigma^{i}$ 2: while not done do 3: Observe state $\mathbf{s}$ , initialize plan $\tau^{N} \sim \mathcal{N}(0, I)$ 4: for $i = N, \dots , 1$ do 5: // parameters of reverse transition 6: $\mu \leftarrow \mu_{\theta}(\pmb{\tau}^{i})$ 7: // guide using gradients of return 8: $\pmb{\tau}^{i - 1} \sim \mathcal{N}(\mu + \alpha \Sigma \nabla \mathcal{J}(\mu), \Sigma^{i})$ 9: // constrain first state of plan 10: $\pmb{\tau}_{\mathbf{a}_0}^{i} \leftarrow \pmb{s}$ 11: Execute first action of plan $\tau_{\mathbf{a}_0}^{0}$$ 算法 1：引导扩散规划 (Guided Diffusion Planning)

输入： 训练好的 Diffuser 模型 $\mu_{\theta}$ （预测去噪后的均值），引导函数 $\mathcal{J}$ （累积奖励预测器），引导尺度 $\alpha$ ，协方差 $\Sigma^i$ 。
过程：
1. 循环执行，直到任务完成。
2. 观察当前状态 $\mathbf{s}$ ： 这是规划的起点。
3. 初始化计划 $\tau^N \sim \mathcal{N}(0, I)$ ： 从纯高斯噪声开始初始化一个轨迹（计划）。
4. 从 $i=N$ 到 1 迭代去噪：
  - 计算反向转换的均值 $\mu \leftarrow \mu_{\theta}(\pmb{\tau}^{i})$ ： 使用训练好的 Diffuser 模型预测在给定当前带噪轨迹 $\pmb{\tau}^{i}$ 时的去噪后轨迹的均值。
  - 使用奖励梯度进行引导： 根据方程 (3)，将奖励预测器 $\mathcal{J}$ 的梯度乘以引导尺度 $\alpha$ 和协方差 $\Sigma$ ，加到预测的均值 $\mu$ 上。然后从这个修改后的高斯分布中采样得到 $\pmb{\tau}^{i - 1}$ 。这使得采样过程偏向于高奖励轨迹。
  - 约束计划的第一个状态： 将采样到的轨迹 $\pmb{\tau}^{i}$ 的第一个状态 $\pmb{\tau}_{\mathbf{s}_0}^{i}$ 强制设为当前观察到的真实状态 $\mathbf{s}$ 。这是为了确保规划从当前环境状态开始（注意原文写的是 $\pmb{\tau}_{\mathbf{a}_0}^{i}$ 可能是排版错误，通常是约束初始状态）。
5. 执行计划的第一个动作 $\tau_{\mathbf{a}_0}^{0}$ ： 在环境中执行最终去噪轨迹 $\tau^0$ 的第一个动作。
6. 循环回到第 2 步，观察新状态，重新规划。

4.2.3. 目标条件RL作为修复 (Goal-Conditioned RL as Inpainting)

某些规划问题更自然地被表述为约束满足 (constraint satisfaction)，而非奖励最大化。例如，目标是生成任何满足一组约束的轨迹，例如在某个目标位置终止。利用轨迹的二维数组表示（方程 2），这个问题可以转化为图像修复 (image inpainting) 问题。在这种情况下，状态和动作约束类似于图像中的已知像素。所有数组中未被观察到的位置都必须由扩散模型填充，使其与已观察到的约束保持一致。具体来说，如果 $\mathbf{c}_t$ 是时间步 $t$ 的状态约束，那么扰动函数 $h(\pmb {\tau})$ 可以定义为： $h(\pmb {\tau}) = \delta_{\mathbf{c}_t}(\mathbf{s}_0,\mathbf{a}_0,\dots,\mathbf{s}_T,\mathbf{a}_T) = \begin{cases} +\infty & \mathrm{if}\mathbf{c}_t = \mathbf{s}_t\\ 0 & \mathrm{otherwise} \end{cases}$ 这表示如果轨迹的 $\mathbf{s}_t$ 与约束 $\mathbf{c}_t$ 不匹配，则 $h(\pmb {\tau})$ 为 0，否则为 $+\infty$ 。对于动作约束，定义是相同的。在实践中，这可以通过以下方式实现：从无扰动的反向过程 $\tau^{i - 1} \sim p_{\theta}(\tau^{i - 1} \mid \tau^i)$ 进行采样，然后在所有扩散时间步 $i \in \{0, 1, \ldots , N\}$ 之后，用条件值 $\mathbf{c}_t$ 替换采样到的对应值。这意味着，在每次去噪迭代中，对于被约束的像素（例如，目标状态或起始状态），我们不使用模型预测的值，而是直接将其设为目标值。即使是奖励最大化问题也需要通过修复进行条件化，因为所有采样轨迹都应从当前状态开始。这种条件化在算法 1 的第 10 行中描述： $\pmb{\tau}_{\mathbf{s}_0}^{i} \leftarrow \pmb{s}$ (应为 $\mathbf{s}_0$ 而非 $\mathbf{a}_0$ )，将计划的第一个状态强制设定为当前真实状态。下图（原文 Figure 4）展示了规划作为修复的过程：

fig 4 该图像是一个示意图，展示了扩散模型在轨迹优化中的应用。图中通过去噪过程展示了从噪声到清晰轨迹的转变，以及基于数据和计划结果的对比，强调了奖励函数和计划之间的关系。

Figure 3. (Properties of diffusion planners) (a) Learned long-horizon planning: Diffuser's learned planning procedure does not suffer from the myopic failure modes common to shooting algorithms and is able to plan over long horizons with sparse reward. (b) Temporal compositionality: Even though the model is not Markovian, it generates trajectories via iterated refinements to local consistency. As a result, it exhibits the types of generalization usually associated with Markovian models, with the ability to stitch together snippets of trajectories from the training data to generate novel plan. (c) Variable-length plans: Despite being a trajectory-level model, Diffuser's planning horizon is not determined by its architecture. The horizon can be updated after training by changing the dimensionality of the input noise. (d) Task compositionality: Diffuser can be composed with new reward functions to plan for tasks unseen during training. In all subfigures, $\odot$ denotes a starting state and $\bigotimes$ denotes a goal state.

这里 Figure 3a 展示了 Diffuser 在稀疏奖励的长视距目标到达任务中的能力。

4.3. 扩散规划器的特性 (Properties of Diffusion Planners)

学习到的长视距规划 (Learned long-horizon planning)： Diffuser 的规划方法与扩散模型的采样过程紧密相连。其作为长视距预测器的有效性直接转化为有效的长视距规划能力。它能生成可行轨迹，解决传统基于射击 (shooting-based) 算法在稀疏奖励设置中遇到的短期视距问题。
时间组合性 (Temporal compositionality)： 尽管 Diffuser 不是马尔可夫模型，但通过迭代改进局部一致性来生成全局连贯的轨迹。这使得它能够像马尔可夫模型一样，通过拼接训练数据中熟悉的子序列来泛化生成新颖的轨迹。例如，可以学习直线移动的轨迹，然后通过组合生成 V 形轨迹。
变长计划 (Variable-length plans)： 由于模型在视距维度上是全卷积的，其规划视距不是由架构决定的，而是由初始化去噪过程的输入噪声 $\tau^N \sim \mathcal{N}(0, \mathbf{I})$ 的大小决定的。这允许在训练后生成可变长度的计划。
任务组合性 (Task compositionality)： Diffuser 模型独立于奖励函数，作为对未来可能行为的先验。规划可以通过轻量级的扰动函数 $h(\tau)$ （或多个扰动的组合）来引导，以适应不同的奖励。这意味着可以在扩散模型训练后，针对训练时未见过的奖励函数进行规划。

5. 实验设置

本节详细描述了实验环境、数据集、评估指标和对比基线，以验证 Diffuser 在长视距规划、测试时灵活性和离线强化学习方面的能力。

5.1. 数据集

Maze2D 环境 (Fu et al., 2020)：
- 描述： 这是一套用于测试长视距规划能力的导航任务环境。任务是在一个迷宫中从起始位置移动到目标位置，只有到达目标位置时才获得稀疏奖励（1分），其他位置没有奖励。由于目标可能很远，需要数百步才能到达。
- 特点：
  - 长视距规划： 智能体需要规划很长的时间步才能获得奖励信号。
  - 稀疏奖励 (Sparse Reward)： 除了目标位置，其他地方都没有奖励，这使得信用分配 (credit assignment) 变得非常困难。
  - 数据： 训练数据是无方向的，包含智能体在随机选择的位置之间导航的轨迹。
- 变体：
  - U-Maze, Medium, Large：代表不同大小和复杂度的迷宫。
  - Multi2D：Maze2D 的多任务变体，每次情节开始时目标位置随机化。Diffuser 在此设置中无需重新训练，只需改变条件化目标。
- 使用方式： Diffuser 采用修复策略，以起始和目标位置为条件进行规划。
Block Stacking 任务 (Garrett et al., 2020)：
- 描述： 一套块堆叠任务，测试测试时灵活性。智能体需要操纵机器人手臂堆叠积木。
- 特点：
  - 测试时灵活性： 控制器在执行部分堆叠以实现随机目标时，会进入训练配置中未包含的新颖状态。
  - 稀疏奖励： 只有成功放置积木时才获得 1 分奖励，否则为 0。
- 设置：
  - 无条件堆叠 (Unconditional Stacking)： 任务是尽可能堆高积木塔。
  - 条件堆叠 (Conditional Stacking)： 任务是按照指定顺序堆叠积木。
  - 重新排列 (Rearrangement)： 任务是将积木移动到新的目标位置排列。
- 数据： 使用 PDDLStream (Garrett et al., 2020) 生成的 10000 条演示轨迹。
- 使用方式： 一个训练好的 Diffuser 模型用于所有任务，仅修改扰动函数 $h(\tau)$ 。
D4RL 离线运动控制套件 (D4RL offline locomotion suite, Fu et al., 2020)：
- 描述： 一套广泛使用的离线强化学习基准任务，包括 HalfCheetah, Hopper, Walker2d 等机器人运动控制环境。
- 特点：
  - 异构数据： 数据集包含不同质量的轨迹，从随机策略到专家策略不等。
  - 离线学习： 智能体只能从预先收集的数据中学习，不能与环境进行额外交互。
- 数据： 包含 medium-expert, medium, medium-replay 等数据质量级别。
- 使用方式： Diffuser 生成的轨迹通过第 3.2 节的采样过程向高奖励区域引导，并通过第 3.3 节的修复过程对当前状态进行条件化。

5.2. 评估指标

论文中主要使用了任务完成度或标准化分数来评估性能。这里对这些指标进行详细说明，并补充 D4RL 基准常用的标准化分数公式。

Maze2D / Multi2D 环境的评分：
- 概念定义： 论文中 Table 1 的分数是任务完成的累积奖励，通常反映智能体在情节中达到目标的次数或效率。在 Maze2D 中，通常指在一个情节中到达目标位置的次数（因为每次达到目标奖励为 1）。
- 数学公式： 未直接给出，但根据任务描述，通常是单次情节的累积奖励。如果目标奖励为 1，则分数直接代表达到目标的次数。 $\text{Score} = \sum_{t=0}^{T_{\text{episode}}} r(\mathbf{s}_t, \mathbf{a}_t)$
- 符号解释：
  - $\text{Score}$ ：在整个情节中智能体获得的累积奖励。
  - $T_{\text{episode}}$ ：情节的总时间步长。
  - $r(\mathbf{s}_t, \mathbf{a}_t)$ ：在时间步 $t$ 观察到状态 $\mathbf{s}_t$ 并执行动作 $\mathbf{a}_t$ 所获得的即时奖励。
- 特点： 分数高于 100 通常意味着智能体表现优于参考专家策略（如果专家策略的标准化分数上限为100）。
Block Stacking 任务的评分：
- 概念定义： 论文中 Table 3 的分数是任务完成的百分比，其中 100 分表示完美执行任务，0 分表示随机策略的性能。
- 数学公式： 未直接给出，但通常是根据任务的特定成功标准计算的标准化分数。例如，如果任务是堆叠 $K$ 块积木，成功堆叠 $k$ 块则得分为 $k/K \times 100$ 。
- 符号解释：
  - Score：任务执行的成功率（标准化为 0-100）。
D4RL 离线运动控制基准的标准化分数 (Normalized Score)：
- 概念定义： D4RL 基准将智能体在特定任务中的性能标准化，使其介于 0 到 100 之间。0 分对应于一个随机策略的平均性能，而 100 分对应于一个专家策略的平均性能。这使得不同环境和任务之间的性能可以直接比较。
- 数学公式： $\text{Normalized Score} = \frac{R_{\text{episode}} - R_{\text{random}}}{R_{\text{expert}} - R_{\text{random}}} \times 100$
- 符号解释：
  - $\text{Normalized Score}$ ：智能体在当前情节中获得的标准化分数。
  - $R_{\text{episode}}$ ：智能体在当前情节中获得的总奖励。
  - $R_{\text{random}}$ ：一个随机策略在同一环境中的平均总奖励。
  - $R_{\text{expert}}$ ：一个专家策略在同一环境中的平均总奖励。
- 特点： 分数可能高于 100（如果智能体表现优于参考专家）或低于 0（如果智能体表现比随机策略还差）。

5.3. 对比基线

5.3.1. Maze2D 和 Multi2D 环境

MPPI (Model Predictive Path Integral Control using Covariance Variable Importance Sampling, Williams et al., 2015)：一种基于采样的模型预测控制方法，通常需要地面真值动力学 (ground-truth dynamics) 或非常准确的学习动力学模型。在本文中，MPPI 使用的是真实动力学，其表现不佳突显了即使模型准确，长视距规划本身的难度。
CQL (Conservative Q-Learning, Kumar et al., 2020)：一种最先进的离线强化学习算法。它通过惩罚 Q 函数在未观测动作上的值，来保守地估计 Q 值，从而缓解离线RL中的过估计问题。
IQL (Implicit Q-Learning, Kostrikov et al., 2022)：另一种强大的离线强化学习算法。它避免了策略学习中的显式行为克隆 (behavior cloning) 损失，而是通过隐式地将策略拉向 Q 值较高的动作来学习。

5.3.2. Block Stacking 任务

BCQ (Behavior Cloning Quantile, Fujimoto et al., 2019)：一种离线强化学习算法，旨在通过限制智能体的动作空间到训练数据中出现的动作，来避免在离线数据中遇到 OOD (Out-Of-Distribution) 动作导致的性能下降。
CQL (Conservative Q-Learning, Kumar et al., 2020)：同上。

5.3.3. D4RL 离线运动控制基准

BC (Behavior Cloning)：最简单的离线RL方法，直接模仿演示数据中的行为。
CQL (Conservative Q-Learning, Kumar et al., 2020)：同上。
IQL (Implicit Q-Learning, Kostrikov et al., 2022)：同上。
DT (Decision Transformer, Chen et al., 2021b)：一种通过序列建模将强化学习问题转化为自回归生成问题的方法。它将轨迹建模为一系列状态、动作和奖励，并通过条件化目标回报 (target return) 来生成所需行为。
TT (Trajectory Transformer, Janner et al., 2021)：另一种基于 Transformer 的序列建模方法，用于离线强化学习。它将轨迹编码为离散的词元 (tokens)，然后使用 Transformer 模型进行预测和规划。
MOPO (Model-Based Offline Policy Optimization, Yu et al., 2020)：一种模型基离线RL方法，通过利用学习到的动力学模型生成合成数据来扩充离线数据集，并使用不确定性估计来限制合成数据的偏差。
MORel. (MOReL: Model-based Offline Reinforcement Learning, Kidambi et al., 2020)：另一种模型基离线RL方法，它结合了模型基和无模型方法，使用学习到的模型进行规划，并利用模型不确定性来指导探索。
MBOP (Model-Based Offline Planning, Argenson & Dulac-Arnold, 2021)：一种模型基离线规划方法，专注于在离线数据中学习高质量的动力学模型，并利用其进行规划。

6. 实验结果与分析

本节详细分析了 Diffuser 在不同实验设置下的性能，并与各种基线方法进行了比较。

6.1. 核心结果分析

6.1.1. 长视距多任务规划 (Long Horizon Multi-Task Planning)

论文在 Maze2D 环境中评估了 Diffuser 的长视距规划能力。这些环境以稀疏奖励为特征，目标距离遥远，对规划能力提出了很高要求。以下是原文 Table 1 的结果：

Environment	MPPI		CQL		IQL		Diffuser
Environment	U-Maze	Medium	Large	U-Maze	Medium	Large	U-Maze	Medium	Large
Maze2D	33.2	-	-	5.7	-	-	47.4	-	-
Maze2D	-	10.2	-	-	5.0	-	-	34.9	-
Maze2D	-	-	5.1	-	-	12.5	-	-	58.6
Single-task Average	16.2	-	-	7.7	-	-	47.0	-	-
Multi2D	41.2	-	-	-	-	-	24.8	-	-
Multi2D	-	15.4	-	-	-	-	12.1	-	-
Multi2D	-	-	8.0	-	-	-	13.9	-	-
Multi-task Average	21.5	-	-	-	-	-	16.9	-	-

以下是原文 Table 1 的更准确转录，因为其原始格式可能不是标准的三级表头，而是特定列对应特定环境。我将重新组织为便于理解的表格，以区分单任务和多任务环境。原文 Table 1 的标题是 (Long-horizon planning) The performance of Diffuser and prior model-free algorithms in the Maze2D environment, which tests long-horizon planning due to its sparse reward structure. The Multi2D setting refers to a multi-task variant with goal locations resampled at the beginning of every episode. Diffuser substantially outperforms prior approaches in both settings. Appendix A details the sources for the scores of the baseline algorithms.

环境	MPPI	CQL	IQL	Diffuser
单任务 Maze2D
Maze2D U-Maze	33.2	5.7	47.4	119.5
Maze2D Medium	10.2	5.0	34.9	126.3
Maze2D Large	5.1	12.5	58.6	125.7
单任务平均	16.2	7.7	47.0	123.8
多任务 Multi2D
Multi2D U-Maze	41.2	-	24.8	129.4
Multi2D Medium	15.4	-	12.1	128.5
Multi2D Large	8.0	-	13.9	127.3
多任务平均	21.5	-	16.9	128.4

**分析：** * **Diffuser 的显著优势：** `Diffuser` 在所有 `Maze2D` 和 `Multi2D` 环境中都取得了远超基线方法的性能。在所有迷宫大小中，`Diffuser` 的分数都超过 100，这表明它甚至超越了参考专家策略的性能。单任务平均得分达 123.8，多任务平均得分达 128.4。 * **长视距规划：** 结果表明，`Diffuser` 的学习规划过程不会像基于射击的算法那样遭受短期视距失败模式，能够有效地在长视距、稀疏奖励设置中进行规划。 * **多任务灵活性：** 在 `Multi2D` 环境中，`Diffuser` 能够自然地作为多任务规划器。它不需要针对新目标进行重新训练，只需更改条件化目标即可。这使其在多任务设置中的性能与单任务设置几乎相同。相比之下，最佳的无模型算法 `IQL` 在适应多任务设置时性能显著下降，这突显了 `Diffuser` 的泛化能力。 * **MPPI 的局限性：** 即使 `MPPI` 使用了地面真值动力学 (ground-truth dynamics)，其表现仍然远低于 `Diffuser`，这强调了即使没有预测不准确性，长视距规划本身的难度，也突显了 `Diffuser` 学习规划算法的有效性。

下图（原文 Figure 7）可视化了 `Diffuser` 在 `Maze2D` 环境中生成规划的去噪过程：

![fig 7](/files/papers/69364b8c325b5ce79291fc74/images/7.jpg)
*该图像是一个示意图，展示了在不同规模（U-Maze，Medium，Large）环境中的轨迹去噪过程。图中使用条形向右指示去噪进程，展示了从噪声到清晰轨迹的转变，说明了扩散模型在轨迹优化中的应用。*

Figure 4. (Planning as inpainting) Plans are generated in the Maze2D environment by sampling trajectories consistent with a specified start $\odot$ and goal $\odot$ condition. The remaining states are "inpainted" by the denoising process.

该图展示了 Diffuser 如何通过修复 (inpainting) 策略，根据指定的起始和目标位置（分别用 $\odot$ 和 $\bigotimes$ 表示）生成轨迹。模型通过去噪过程“填充”轨迹中剩余的状态，从而找到一条从起点到目标的路径。

6.1.2. 测试时灵活性 (Test-time Flexibility)

本实验在块堆叠任务中评估了 Diffuser 泛化到新的测试时目标的能力。以下是原文 Table 3 的结果：

环境	CQL	Diffuser
无条件堆叠	24.4	58.7 ±2.5
条件堆叠	0.0	45.6 ±3.1
重新排列	0.0	58.9 ±3.4
平均	8.1	54.4

**分析：** * **Diffuser 的卓越表现：** `Diffuser` 在所有块堆叠任务中都显著优于 `BCQ` 和 `CQL`。在平均得分上，`Diffuser` 达到了 54.4，而 `BCQ` 为 0.0，`CQL` 为 8.1。 * **条件任务的挑战：** 对于 `BCQ` 和 `CQL` 来说，条件堆叠和重新排列任务尤其困难，它们的得分均为 0.0。这表明这些无模型算法难以在训练配置中未见的复杂状态下生成灵活行为以满足条件。 * **Diffuser 的灵活性：** `Diffuser` 仅通过修改扰动函数

h(\tau)

就在所有任务中表现出色，这验证了其在测试时生成灵活行为的能力。它能够有效地结合目标配置的匹配（终态匹配）和接触约束来引导轨迹生成。 * **视觉演示：** 论文提到该任务最好通过视频展示（在 `diffusion-planning.github.io`），这表明任务的复杂性和行为的精细性。下图（原文 Figure 8）提供了堆叠过程的视觉示意图：

![fig 8](/files/papers/69364b8c325b5ce79291fc74/images/8.jpg)
*该图像是一个示意图，展示了通过扩散模型进行行为合成的过程。从左侧的原始物体到右侧的变换过程，图中展示了不同的状态和位置，逐步过渡到目标构型，强调了在控制任务中长期决策的灵活性。*

Figure 5. (Block stacking) A block stacking sequence executed by Diffuser. This task is best illustrated by videos viewable at diffusion-planning.github.io.

该图展示了 Diffuser 执行的块堆叠序列，从左到右逐步完成堆叠动作。

6.1.3. 离线强化学习 (Offline Reinforcement Learning)

论文在 D4RL 离线运动控制基准上评估了 Diffuser 从异构数据中恢复有效单任务控制器的能力。以下是原文 Table 2 的结果：

Dataset	Environment	BC	CQL	IQL	DT	TT	MOPO	MORel.	MBOP	Diffuser
Medium-Expert	HalfCheetah	55.2	91.6	86.7	86.8	95.0	63.3	53.3	105.9	88.9 ±0.3
	Hopper	52.5	105.4	91.5	107.6	110.0	23.7	108.7	55.1	103.3 ±1.3
	Walker2d	107.5	108.8	109.6	108.1	101.9	44.6	95.6	70.2	106.9 ±0.2
Medium	HalfCheetah	42.6	44.0	47.4	42.6	46.9	42.3	42.1	44.6	42.8 ±0.3
	Hopper	52.9	58.5	66.3	67.6	61.1	28.0	95.4	48.8	74.3 ±1.4
	Walker2d	75.3	72.5	78.3	74.0	79.0	17.8	77.8	41.0	79.6 ±0.55
Medium-Replay	HalfCheetah	36.6	45.5	44.2	36.6	41.9	53.1	40.2	42.3	37.7 ±0.5
	Hopper	18.1	95.0	94.7	82.7	91.5	67.5	93.6	12.4	93.6 ±0.4
	Walker2d	26.0	77.2	73.9	66.6	82.6	39.0	49.8	9.7	70.6 ±1.6
平均		51.9	77.6	77.0	74.7	78.9	42.1	72.9	47.8	77.5

**分析：** * **竞争力：** `Diffuser` 在单任务离线强化学习设置中表现出与现有算法相当的性能。在一些任务中，它取得了领先或接近领先的成绩（例如 `Hopper-Medium`, `Walker2d-Medium`, `Hopper-Medium-Expert`, `Walker2d-Medium-Expert`）。 * **与模型基方法的比较：** `Diffuser` 表现优于其他模型基方法 `MORE` 和 `MBOP`，以及基于回报条件化的 `DT`。 * **与最强离线RL方法的比较：** 尽管 `Diffuser` 表现良好，但在一些特定任务中，它略逊于专门为单任务性能设计的最佳离线技术，如 `CQL`, `IQL`, `TT`。例如，在 `HalfCheetah-Medium-Expert` 上，`MBOP` 和 `TT` 表现更优。 * **耦合建模与规划的重要性：** 论文还尝试了将 `Diffuser` 作为动力学模型，插入到传统的轨迹优化器（如 `MPPI`）中，但发现这种组合的性能不比随机策略好。这强烈暗示了 `Diffuser` 的有效性源于其**紧密耦合的建模和规划**方式，而非仅仅提高了开环预测 (open-loop predictive accuracy) 的准确性。

下图（原文 Figure 2）展示了引导采样过程：

![fig 2](/files/papers/69364b8c325b5ce79291fc74/images/2.jpg)
*该图像是一个示意图，展示了基于扩散模型的轨迹去噪和规划过程。图中从上到下分别显示了去噪的不同阶段，并通过不同颜色的路径表明了规划的时间跨度。图中涉及的过程强调了轨迹优化与决策之间的关系，展示了该方法在长时间决策中的有效性。*

Figure 6. (Guided sampling) Diffuser generates all timesteps of a plan concurrently, instead of autoregressively, through the denoising process.

该图形象地展示了 Diffuser 如何通过去噪过程同时生成一个计划的所有时间步，而非自回归地一步步生成。

6.1.4. 暖启动扩散模型以加速规划 (Warm-Starting Diffusion for Faster Planning)

由于 Diffuser 的规划过程是迭代生成，每次生成一个新计划可能速度较慢。为了提高执行速度，论文探索了暖启动 (warm-starting) 策略：重用先前生成的计划来初始化后续计划的生成。

方法： 从先前生成的计划开始，运行有限数量的前向扩散步骤（加噪），然后从这个部分带噪的轨迹开始运行相应数量的去噪步骤来生成更新后的计划。
结果： 在 Walker2d Medium-Expert 任务中，即使将去噪步数减少到十分之一（例如从 100 步减少到 10 步），只要计划是从前一个时间步的计划中初始化（暖启动），性能损失也微乎其微。这表明在实际应用中，可以通过暖启动显著减少规划预算，从而提高实时控制的效率。

下图（原文 Figure 3）展示了性能与规划预算的权衡：

该图像是一个图表，展示了规划预算（秒）与性能（标准化得分，单位：a.u.）之间的关系。横轴表示规划预算，呈对数尺度，而纵轴则显示带有误差条的标准化得分。随着规划预算的增加，性能得分逐渐提高。

Figure 7. (Fast Planning) Performance of Diffuser on Walker2d Medium-Expert when varying the number of diffusion steps to warm-start planning. Performance suffers only minimally even when using one-tenth the number of diffusion steps, as long as plans are initialized from the previous timestep's plan.

该图显示，随着去噪步数的减少（规划预算降低），Diffuser 的性能（标准化得分）仅有轻微下降，特别是当使用暖启动时。这证实了暖启动在加速规划方面的有效性。

7. 总结与思考

7.1. 结论总结

本文提出了 Diffuser，一个用于轨迹数据的去噪扩散模型，为深度模型基强化学习引入了一种新颖的规划范式。Diffuser 的核心思想是将轨迹优化流程融入到生成建模问题中，使得从模型中采样和用模型进行规划几乎相同，并通过迭代去噪轨迹来实现规划。

Diffuser 展示了多项有用的特性：

长视距规划能力： 它能够优雅地处理稀疏奖励和长视距决策问题，避免了传统单步动力学模型中的误差累积。
任务和时间组合性： Diffuser 模型独立于奖励函数，能够通过灵活的引导函数适应未见过的任务。同时，它通过迭代改进局部一致性来构建全局连贯的轨迹，使其能通过拼接训练数据中的子序列来泛化生成新颖的轨迹。
测试时灵活性： 结合分类器引导采样和图像修复的策略，Diffuser 能够有效地解决目标条件规划和约束满足问题。
竞争性表现： 在 Maze2D 环境中显著超越了现有方法，在块堆叠任务中展现了强大的测试时泛化能力，并在 D4RL 离线强化学习基准上取得了与最先进算法相当的性能。
效率优化： 暖启动策略可以有效加速规划过程，使其在实际应用中更具可行性。

总的来说，本文的工作为模型基强化学习开辟了新的研究方向，利用扩散模型的强大生成能力和条件采样灵活性，解决了传统模型基方法中模型与规划器不匹配以及长视距规划困难的挑战。

7.2. 局限性与未来工作

尽管 Diffuser 展现了强大的能力，但论文中也暗示或存在一些潜在的局限性：

计算效率： 扩散模型的迭代去噪过程本质上是顺序的，导致单个计划的生成速度相对较慢。虽然提出了暖启动策略来缓解这一问题，但在对实时性要求极高的场景中可能仍是一个挑战。
奖励预测器的需求： Diffuser 的引导采样依赖于一个单独训练的奖励预测器 $\mathcal{J}_{\phi}$ 。这个预测器的准确性直接影响规划效果，并且其训练可能引入额外的复杂性和误差来源。如何更鲁棒地获取高质量的引导信号是一个问题。
模型训练数据依赖： 作为一个数据驱动的生成模型，Diffuser 的性能高度依赖于训练数据的质量和覆盖范围。对于稀疏或分布外 (out-of-distribution) 的数据，模型的泛化能力可能会受限。
复杂约束的处理： 虽然图像修复策略可以处理简单的状态/动作约束，但对于更复杂、高维或时间依赖的约束，设计有效的扰动函数 $h(\tau)$ 可能仍是一个挑战。
探索能力： Diffuser 主要关注从给定数据中学习和规划。在需要在线探索的环境中，如何将其与有效的探索策略结合，以持续改进模型和规划能力，是一个未探讨的方向。

未来工作可以从以下几个方面展开：
提高规划效率： 探索更快的扩散采样方法（如 DDIMs 或其他快速采样器）或更高效的暖启动机制，以进一步降低规划的计算成本。
集成奖励学习： 将奖励预测器的学习与扩散模型的训练更紧密地集成，甚至探索能够直接从原始感知输入中学习奖励并进行规划的端到端系统。
结合在线学习： 将 Diffuser 与在线强化学习框架结合，使其能够从实时环境交互中持续学习和改进，而不仅仅是依赖离线数据集。
处理更复杂环境： 探索 Diffuser 在高维、连续观测空间（如像素输入）和更复杂的机器人操作任务中的应用。
理论分析： 对扩散模型在规划中的收敛性、稳健性以及与传统规划算法的理论联系进行更深入的分析。

7.3. 个人启发与批判

这篇论文提供了一个非常强大的新视角，将扩散模型这一在图像生成领域取得巨大成功的工具引入到强化学习的规划问题中。其核心启发在于：

生成模型在RL中的潜力： 扩散模型作为一种强大的生成工具，不仅仅可以生成静态数据，其迭代去噪的特性使其在生成序列数据（如轨迹）时能够实现从全局噪声到局部连贯性的逐步演化，这与规划过程的本质有异曲同工之妙。
打破模型与规划的抽象边界： 论文成功挑战了传统模型基RL中模型与规划器分离的范式。通过设计一个从一开始就考虑规划需求的模型，可以避免许多因模型不准确性导致的规划问题。这种紧密耦合的设计理念值得在其他领域借鉴。
非自回归序列建模的优势： 对于规划问题，智能体通常需要同时考虑过去、现在和未来的信息。非自回归的轨迹生成方式天然适应了这种需求，尤其是在目标条件任务中，能够更直接地利用未来的目标信息进行规划，这比自回归模型需要复杂推理或修改才能实现要优雅得多。
灵活的条件化能力： 扩散模型通过引导函数实现灵活条件化的能力是其在RL中应用的关键。这意味着一个核心的动力学模型可以在训练后通过简单的“插件式”引导函数适应多种任务、奖励和约束，极大地提高了模型的通用性和复用性。

批判性思考：

计算成本： 尽管论文提出了暖启动策略，但扩散模型的迭代性质意味着其在推理时的计算成本通常高于单步策略网络。在对决策速度有严格要求的实时机器人控制中，这仍然是一个需要权衡的关键因素。未来的研究可能需要探索更少步数甚至单步的扩散采样器在规划中的适用性。
奖励函数设计与引导： 论文依赖于一个独立的奖励预测器来提供引导梯度。这引入了额外的模型（奖励预测器）和其可能的不准确性。如果奖励函数本身很难学习，或者训练数据质量不高，那么引导效果会大打折扣。此外，alpha 等引导尺度参数的调整也可能比较敏感。
数据效率： 作为一种复杂的生成模型，训练 Diffuser 需要大量的轨迹数据。尽管其在离线RL中表现良好，但对于数据稀缺或需要高效在线探索的环境，其数据效率可能不如一些专门设计的在线RL算法。如何将其与数据增强或少量样本学习结合，值得进一步探索。
可解释性： 扩散模型的去噪过程虽然直观，但其内部的卷积网络和复杂交互可能使得理解特定规划决策的“原因”变得困难。在某些安全关键型应用中，对决策的可解释性要求可能更高。
与经典控制理论的结合： Diffuser 提供了一种数据驱动的规划方法。如何将其与经典控制理论中成熟的稳定性、鲁棒性分析工具结合，以提供更强的性能保证，是一个有价值的研究方向。例如，能否将控制理论中的Lyapunov函数等概念融入到扩散模型的引导或损失函数中。

总而言之，Diffuser 为强化学习和行为合成领域带来了令人兴奋的新工具和新思路，其将复杂的规划问题转化为优雅的生成任务，展示了扩散模型在更广泛AI问题中的巨大潜力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。