论文状态：已完成

High-Resolution Image Synthesis with Latent Diffusion Models

发表：2021/12/21

潜空间扩散模型 (2)高分辨率图像合成 (3)图像修复与重建 (1)跨注意力机制 (2)条件图像生成 (1)

原文链接 PDF 下载

价格：0.100000

已有 7 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出潜在扩散模型（LDM），通过在预训练自编码器的潜在空间进行扩散，显著降低计算成本同时提升图像细节与视觉质量。结合交叉注意力机制，LDM支持多种条件输入，实现高分辨率图像生成和修复，达成多项视觉任务新高。

摘要

By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism to control the image generation process without retraining. However, since these models typically operate directly in pixel space, optimization of powerful DMs often consumes hundreds of GPU days and inference is expensive due to sequential evaluations. To enable DM training on limited computational resources while retaining their quality and flexibility, we apply them in the latent space of powerful pretrained autoencoders. In contrast to previous work, training diffusion models on such a representation allows for the first time to reach a near-optimal point between complexity reduction and detail preservation, greatly boosting visual fidelity. By introducing cross-attention layers into the model architecture, we turn diffusion models into powerful and flexible generators for general conditioning inputs such as text or bounding boxes and high-resolution synthesis becomes possible in a convolutional manner. Our latent diffusion models (LDMs) achieve a new state of the art for image inpainting and highly competitive performance on various tasks, including unconditional image generation, semantic scene synthesis, and super-resolution, while significantly reducing computational requirements compared to pixel-based DMs. Code is available at https://github.com/CompVis/latent-diffusion .

思维导图

论文精读

中文精读约 23 分钟读完 · 13,293 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): High-Resolution Image Synthesis with Latent Diffusion Models (基于潜在扩散模型的高分辨率图像合成)
作者 (Authors): Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer. 作者隶属于德国慕尼黑大学 (Ludwig Maximilian University of Munich)、海德堡大学 (Heidelberg University) 以及 Runway ML。
发表期刊/会议 (Journal/Conference): 本文最初作为预印本发表于 arXiv。后续版本在 CVPR 2022 (Conference on Computer Vision and Pattern Recognition) 上发表，这是计算机视觉领域的顶级会议之一，具有极高的学术声誉和影响力。
发表年份 (Publication Year): 2021 (arXiv 预印本), 2022 (CVPR 正式发表)
摘要 (Abstract): 扩散模型 (Diffusion Models, DMs) 通过将图像生成过程分解为一系列去噪自编码器，在图像合成任务上取得了顶尖成果，并允许通过引导机制在不重新训练的情况下控制生成过程。然而，这些模型通常直接在像素空间操作，导致训练和推理成本极高（消耗数百个 GPU 天）。为了在有限的计算资源下训练 DM，同时保持其高质量和灵活性，本研究提出在强大的预训练自编码器的潜在空间 (latent space) 中应用扩散模型。与以往工作不同，这种方法首次在复杂度降低和细节保留之间达到了近乎最佳的平衡点，极大地提升了视觉保真度。通过在模型架构中引入交叉注意力 (cross-attention) 层，作者将扩散模型转变为强大而灵活的生成器，能够处理文本、边界框等通用条件输入，并以卷积方式实现高分辨率合成。该模型被称为潜在扩散模型 (Latent Diffusion Models, LDMs)，在图像修复 (inpainting) 任务上取得了新的 SOTA (state-of-the-art) 成绩，并在无条件图像生成、语义场景合成和超分辨率等多个任务上表现出极强的竞争力，同时显著降低了计算需求。
原文链接 (Source Link):
- 原文链接: https://arxiv.org/abs/2112.10752
- PDF 链接: http://arxiv.org/pdf/2112.10752v2
- 发布状态: 本文为已在顶级会议 CVPR 2022 正式发表的论文的预印本版本。

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题： 近年来，扩散模型 (DMs) 在图像生成领域取得了惊人的效果，但其巨大的计算成本是其进一步发展和应用的主要障碍。由于 DMs 直接在像素空间 (pixel space) 中进行训练和推理，每一步都需要对高维度的图像数据进行计算，这导致训练过程需要数百个 GPU 天，推理（采样）过程也极其缓慢。
- 重要性与挑战： 这种高昂的成本不仅限制了只有少数拥有大规模计算资源的机构能够进行相关研究，产生了巨大的碳足迹，也使得普通研究者和开发者难以使用和探索这一强大的模型。因此，如何在不牺牲生成质量的前提下，大幅降低 DMs 的计算复杂度，成为一个亟待解决的关键问题 (Gap)。
- 创新思路： 论文作者观察到，图像的大部分信息（如高频细节）在感知上是冗余的，而 DMs 在像素空间训练时，会耗费大量算力去建模这些无关紧要的细节。受此启发，作者提出了一个创新的两阶段思路：
  1. 第一阶段 (Perceptual Compression): 首先训练一个独立的自编码器 (Autoencoder)，将高维图像压缩到一个维度更低、感知上等效的潜在空间 (latent space)。这个过程可以滤除无关紧要的高频细节。
  2. 第二阶段 (Semantic Compression): 然后，在这个低维、高效的潜在空间中训练扩散模型。由于潜在空间的维度远低于像素空间，训练和推理的计算成本得以大幅降低。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出潜在扩散模型 (LDM): 本文最核心的贡献是提出了 LDM，一种在预训练自编码器的潜在空间中训练的扩散模型。这种方法显著降低了训练和推理的计算成本，同时保持了高质量的生成效果。
- 实现高保真度与效率的平衡: LDM 允许使用温和的下采样率（例如 $f=4$ 或 $f=8$ ），在有效降低数据维度的同时，保留了足够的图像细节，从而在计算效率和生成质量之间取得了比先前工作更优的平衡（见图1）。
- 通用的条件生成框架: 通过在模型的 U-Net 骨干中引入交叉注意力 (cross-attention) 机制，LDM 成为了一个灵活的条件生成器，能够接受文本、类别标签、语义图等多种形式的条件输入，极大地拓展了扩散模型的应用范围。
- 多任务上的卓越表现: LDM 在多个图像生成任务上取得了 SOTA 或极具竞争力的结果，包括无条件图像生成、文本到图像合成、图像修复、超分辨率和语义场景合成，证明了其方法的有效性和通用性。
- 实现高分辨率卷积式合成: 对于依赖空间信息的条件任务（如语义图生成），LDM 可以在推理时以卷积方式 (convolutional fashion) 应用，生成远大于训练分辨率（如 1024x1024 像素）的连贯大图。
- 开源模型与社区贡献: 作者发布了预训练的自编码器和 LDM 模型，极大地推动了后续研究，并直接催生了后来广为人知的 Stable Diffusion 模型，实现了“民主化高分辨率图像合成”的目标。

基础概念 (Foundational Concepts):
- 扩散模型 (Diffusion Models, DMs): 一类生成模型，其核心思想包含两个过程：
  1. 前向过程 (Forward Process): 对一张真实的图像，逐步、多次地添加少量高斯噪声，直到图像完全变成纯噪声。这个过程是固定的、无须学习的。
  2. 反向过程 (Reverse Process): 训练一个神经网络（通常是 U-Net 架构），学习如何从一个充满噪声的图像中，逐步地、一次次地去除噪声，最终恢复出清晰的原始图像。生成新图像时，只需从一个纯高斯噪声开始，反复应用这个去噪网络即可。
- 自编码器 (Autoencoder, AE): 一种无监督神经网络，由编码器 (Encoder) 和解码器 (Decoder) 两部分组成。编码器将输入数据（如图像）压缩成一个低维的潜在表示 (latent representation)，也称为潜在空间。解码器则尝试从这个潜在表示中重建出原始数据。其目标是让重建的输出尽可能接近原始输入。
- 变分自编码器 (Variational Autoencoder, VAE): AE 的一种变体，它学习的不是一个固定的潜在向量，而是一个概率分布（通常是高斯分布）。这使得潜在空间更加规整，便于从中采样生成新的数据。
- VQ-VAE / VQGAN: 都是基于自编码器的模型。它们使用一种名为矢量量化 (Vector Quantization, VQ) 的技术，将连续的潜在空间离散化为一个有限的码本 (codebook)。VQGAN 在 VQ-VAE 的基础上引入了 GAN 的对抗性损失和感知损失，以生成更清晰、细节更丰富的图像。
- 交叉注意力 (Cross-Attention): Attention 机制的一种变体。标准的 self-attention 在一个序列内部计算相关性（如一个句子中的单词之间），而 cross-attention 则在两个不同的序列之间计算相关性。例如，在文本到图像任务中，它可以计算图像特征与文本描述之间的关联，从而将文本信息注入到图像生成过程中。
- U-Net: 一种常用于图像分割和图像生成的神经网络架构，其特点是具有一个对称的编码器-解码器结构，并且在编码器和解码器之间有跳跃连接 (skip connections)，这有助于在生成过程中保留图像的底层细节。
前人工作 (Previous Works):
- 像素空间的扩散模型 (Pixel-based DMs): 如 DDPM、ADM 等模型直接在像素空间进行操作，虽然效果好，但计算成本极高，是本文主要试图改进的对象。
- 两阶段生成模型 (Two-Stage Models): 为了解决高分辨率图像生成的计算难题，许多工作采用两阶段方法。
  - VQ-VAE + Autoregressive Model (ARM): VQ-VAE 将图像压缩为离散的 token 序列，然后用自回归模型（如 Transformer）来学习这些 token 的分布。这种方法的缺点是，自回归模型在生成长序列时非常慢，且为了让 ARM 可行，VQ-VAE 必须进行非常激进的空间压缩，导致图像细节损失严重。DALL-E 和 CogView 均属此类。
  - VQGAN + Transformer: VQGAN 通过对抗性训练提高了第一阶段的重建质量，但仍然依赖于昂贵的自回归 Transformer 来建模潜在空间。
- 联合训练模型 (Jointly Trained Models): 如 LSGM，尝试同时学习编码器/解码器和潜在空间上的生成模型（先验）。这种方法需要小心地平衡重建损失和生成损失，优化起来比较困难。
技术演进 (Technological Evolution): 图像生成技术经历了从 GANs 到 VAEs，再到自回归模型，最终到扩散模型的发展路径。为了处理高分辨率图像，业界逐渐转向两阶段模型。早期两阶段模型主要依赖自回归模型来建模潜在空间，但受限于其串行生成和对高度压缩潜在空间的需求。本文的工作正是在这个技术脉络上，提出用扩散模型替代自回归模型来建模轻度压缩的潜在空间，从而开创了一个更高效、更高质量的新范式。
差异化分析 (Differentiation): 与之前工作的核心区别在于：
1. 潜在空间生成器的选择不同: LDM 在潜在空间中使用扩散模型，而 VQGAN 等工作使用自回归模型 (ARM)。由于 DMs 的 U-Net 架构天然适合处理具有空间结构的数据，因此 LDM 不需要像 ARM 那样对潜在空间进行极度压缩，可以保留更多图像细节。
2. 训练方式不同: LDM 采用解耦的两阶段训练，即先独立训练好一个高质量的自编码器，然后固定住它，再在其潜在空间中训练扩散模型。这避免了像 LSGM 那样联合训练时需要精细调整损失权重的麻烦，保证了第一阶段的重建质量。
3. 效率和质量的权衡更优: 由于可以在轻度压缩的潜在空间上工作，LDM 在大幅降低计算成本的同时，其生成图像的保真度上限远高于依赖重度压缩的 $VQGAN+Transformer$ 结构（如图1所示）。

4. 方法论 (Methodology - Core Technology & Implementation Details)

本论文的核心方法是将扩散模型的生成过程从高维像素空间转移到低维潜在空间，并通过交叉注意力机制实现灵活的条件控制。

方法原理 (Methodology Principles): 其核心思想是分而治之。论文观察到，图像的生成过程可以分为两个阶段（如图2所示）：
1. 感知压缩 (Perceptual Compression): 移除人眼不敏感的高频细节和冗余信息。这个任务计算量大但相对简单，适合交给一个高效的自编码器来完成。
2. 语义压缩 (Semantic Compression): 学习数据的核心语义和概念构成。这个任务是生成模型的真正挑战，但可以在一个更紧凑的表示空间中进行。 LDM 的设计完美地匹配了这一思想：用一个预训练的自编码器负责第一阶段，用一个扩散模型在潜在空间中负责第二阶段。
  
  该图像是图表，展示了感知压缩与语义压缩之间的区别，图中曲线显示不同压缩率下的失真（RMSE）变化，图中指出潜在扩散模型（LDM）在语义压缩阶段表现突出，而自动编码器+GAN则用于感知压缩阶段，图下方展示了不同压缩率对应的图像质量。
方法步骤与流程 (Steps & Procedures): 整个 LDM 的工作流程分为两个主要部分：

步骤 1: 感知图像压缩 (Perceptual Image Compression, Sec 3.1)
- 目标: 训练一个自编码器模型，包含一个编码器 $\mathcal{E}$ 和一个解码器 $\mathcal{D}$ 。
- 过程:
  - 给定一张 RGB 图像 $x \in \mathbb{R}^{H \times W \times 3}$ ，编码器 $\mathcal{E}$ 将其映射为一个低维的潜在表示 $z = \mathcal{E}(x)$ ，其中 $z \in \mathbb{R}^{h \times w \times c}$ 。
  - 这里的空间下采样因子为 $f = H/h = W/w$ 。论文探索了不同的 $f$ 值，如 $f \in \{1, 2, 4, 8, 16, 32\}$ 。
  - 解码器 $\mathcal{D}$ 则从潜在表示 $z$ 中重建图像 $\tilde{x} = \mathcal{D}(z)$ 。
- 训练: 为了保证重建图像 $\tilde{x}$ 在感知上与原图 $x$ 相似且细节真实，训练时结合了感知损失 (perceptual loss) 和基于 patch 的对抗性损失 (adversarial loss)，类似于 VQGAN。
- 正则化: 为了防止潜在空间方差过大，作者探索了两种正则化方法：
  1. KL-reg: 在潜在表示上施加一个轻微的 KL 散度惩罚，使其接近标准正态分布，类似于 VAE。
  2. VQ-reg: 在解码器中使用一个矢量量化层，将模型变成一个 VQGAN。
- 关键优势: 由于后续的扩散模型善于处理二维空间结构，这里的自编码器可以采用较小的下采样因子 $f$ （如4或8），从而比依赖自回归模型的方法保留更多细节。
步骤 2: 潜在扩散模型 (Latent Diffusion Models, Sec 3.2)
- 目标: 在步骤 1 得到的固定、低维的潜在空间中，训练一个扩散模型来学习数据分布 p(z)。
- 标准 DM 目标函数: 在像素空间中，扩散模型的目标是训练一个去噪网络 $\epsilon_{\theta}(x_t, t)$ 来预测添加到干净图像 $x$ 上的噪声 $\epsilon$ 。其简化的损失函数为： $L_{DM} = \mathbb{E}_{x, \epsilon \sim \mathcal{N}(0, 1), t} \left[ \| \epsilon - \epsilon_{\theta}(x_t, t) \|_2^2 \right]$ 其中， $x_t$ 是在时间步 $t$ 时对 $x$ 加噪后的版本。
- LDM 目标函数: 在潜在空间中，目标函数形式相同，但操作对象从图像 $x$ 变成了潜在表示 $z = \mathcal{E}(x)$ ： $L_{LDM} := \mathbb{E}_{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0, 1), t} \left[ \| \epsilon - \epsilon_{\theta}(z_t, t) \|_2^2 \right]$ 这里的 $\epsilon_{\theta}$ 是一个以时间步 $t$ 为条件的 U-Net 网络。
- 生成过程:
  1. 从标准正态分布中随机采样一个噪声向量 $z_T$ 。
  2. 使用训练好的去噪网络 $\epsilon_{\theta}$ 反复迭代 $T$ 步，从 $z_T$ 逐步去噪得到潜在表示 $z_0$ 。
  3. 最后，将 $z_0$ 输入到预训练的解码器 $\mathcal{D}$ 中，只需一次前向传播，即可生成一张高分辨率图像 $\tilde{x} = \mathcal{D}(z_0)$ 。
步骤 3: 条件生成机制 (Conditioning Mechanisms, Sec 3.3)
- 目标: 使 LDM 能够根据外部条件 $y$ （如文本、语义图等）来生成图像。
- 架构: 论文提出了一种基于交叉注意力的通用条件注入机制，如图3所示。
  
  该图像是示意图，展示了高分辨率图像合成中潜在扩散模型（LDM）的整体流程，包括像素空间到潜在空间的编码解码过程、潜在空间中的扩散过程及多层交叉注意力机制的条件输入。
- 流程:
  1. 一个特定领域的编码器 $\tau_{\theta}$ 将条件输入 $y$ 转换为一个中间表示 $\tau_{\theta}(y)$ 。例如，当 $y$ 是文本时， $\tau_{\theta}$ 可以是一个 Transformer 模型。
  2. 在 LDM 的 U-Net 骨干网络的多个中间层中，通过交叉注意力层将条件表示 $\tau_{\theta}(y)$ 注入。
- 数学公式与关键细节 (Mathematical Formulas & Key Details): 交叉注意力层的计算公式为： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d}}\right) \cdot V$ 其中：
  - Query ( $Q$ ): 来自 U-Net 的中间特征图 $\varphi_i(z_t)$ ，经过线性投影 $W_Q^{(i)}$ 得到。 $Q = W_Q^{(i)} \cdot \varphi_i(z_t)$ 。
  - Key ( $K$ ): 来自条件编码器 $\tau_{\theta}$ 的输出 $\tau_{\theta}(y)$ ，经过线性投影 $W_K^{(i)}$ 得到。 $K = W_K^{(i)} \cdot \tau_{\theta}(y)$ 。
  - Value ( $V$ ): 同样来自 $\tau_{\theta}(y)$ ，经过线性投影 $W_V^{(i)}$ 得到。 $V = W_V^{(i)} \cdot \tau_{\theta}(y)$ 。
- 条件 LDM 目标函数: 最终，条件 LDM 的训练目标函数变为： $L_{LDM} := \mathbb{E}_{\mathcal{E}(x), y, \epsilon \sim \mathcal{N}(0, 1), t} \left[ \| \epsilon - \epsilon_{\theta}(z_t, t, \tau_{\theta}(y)) \|_2^2 \right]$ 在训练过程中，去噪网络 $\epsilon_{\theta}$ 和条件编码器 $\tau_{\theta}$ 会被联合优化。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):
- 无条件生成: CelebA-HQ (高质量人脸), FFHQ (高质量人脸), LSUN-Churches (教堂), LSUN-Bedrooms (卧室)。这些都是高质量、特定领域的标准图像生成数据集。
- 条件生成: ImageNet (大规模多类别物体), MS-COCO (复杂场景与文本描述), LAION-400M (大规模图像-文本对), OpenImages (带边界框和分割掩码的大规模数据集)。这些数据集用于评估类别条件、文本条件和布局条件的生成任务。
- 特定任务: DIV2K (超分辨率), Places (场景图像，用于图像修复)。
- 选择这些数据集是因为它们是各自任务领域的标准基准，覆盖了从简单到复杂、从无条件到多模态条件的各种场景，能够全面验证 LDM 的性能和泛化能力。
评估指标 (Evaluation Metrics):
- FID (Fréchet Inception Distance):
  1. 概念定义: FID 是一种衡量两组图像（通常是真实图像和生成图像）分布之间距离的指标。它通过一个预训练的 Inception-V3 网络提取图像的特征，然后计算这两组特征分布的均值和协方差，并用 Fréchet 距离来量化它们的差异。FID 既考虑了生成图像的质量（保真度），也考虑了多样性。分数越低，表示生成图像的分布与真实图像的分布越接近，效果越好。
  2. 数学公式: $\mathrm{FID}(x, g) = \left\| \mu_x - \mu_g \right\|_2^2 + \mathrm{Tr}\left( \Sigma_x + \Sigma_g - 2(\Sigma_x \Sigma_g)^{1/2} \right)$
  3. 符号解释:
    - $x$ 和 $g$ 分别代表真实图像分布和生成图像分布。
    - $\mu_x$ 和 $\mu_g$ 分别是真实图像和生成图像在 Inception 网络特征空间中的特征均值向量。
    - $\Sigma_x$ 和 $\Sigma_g$ 分别是对应的特征协方差矩阵。
    - $\mathrm{Tr}(\cdot)$ 代表矩阵的迹（trace）。
- IS (Inception Score):
  1. 概念定义: IS 旨在同时评估生成图像的清晰度 (quality) 和多样性 (diversity)。清晰度通过条件概率分布 $p(y|x)$ 的低熵来衡量（即一张图像应明确属于某一类），多样性通过边缘概率分布 p(y) 的高熵来衡量（即所有类别应被均匀覆盖）。分数越高越好。
  2. 数学公式: $\mathrm{IS}(G) = \exp\left(\mathbb{E}_{x \sim G} \left[ D_{KL}(p(y|x) \| p(y)) \right]\right)$
  3. 符号解释:
    - $G$ 是生成图像的集合。
    - $x$ 是从 $G$ 中采样的一张生成图像。
    - $p(y|x)$ 是 Inception 模型预测的图像 $x$ 的类别条件概率分布。
    - p(y) 是所有生成图像的平均类别概率分布（边缘分布）。
    - $D_{KL}(\cdot \| \cdot)$ 是 KL 散度 (Kullback-Leibler divergence)。
- Precision and Recall:
  1. 概念定义: 这对指标用于更精细地评估生成模型的保真度 (Precision) 和多样性 (Recall)。Precision 衡量生成图像有多大比例看起来像真实图像，而 Recall 衡量真实图像的多样性有多大比例被生成模型所覆盖。两者都是越高越好。
  2. 数学公式: 这组指标没有统一的数学公式，其计算依赖于构建真实样本和生成样本特征之间的多维流形。简而言之，Precision 是生成样本流形中落在真实样本流形内的部分，Recall 是真实样本流形中被生成样本流形覆盖的部分。
  3. 符号解释: 计算过程依赖于 VGG-16 特征空间中的 K近邻 (k-NN) 算法来估计流形。
- PSNR (Peak Signal-to-Noise Ratio):
  1. 概念定义: PSNR 是衡量图像重建质量的经典指标，主要用于评估有损压缩或图像恢复任务。它基于像素级的均方误差 (MSE) 计算。值越高，表示重建图像与原始图像在像素上越接近。 但它与人类主观感知质量有时不一致。
  2. 数学公式: $\mathrm{PSNR} = 10 \cdot \log_{10}\left(\frac{\mathrm{MAX}_I^2}{\mathrm{MSE}}\right)$ 其中 MSE 定义为: $\mathrm{MSE} = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} [I(i, j) - K(i, j)]^2$
  3. 符号解释:
    - $\mathrm{MAX}_I$ 是图像可能的最大像素值（对于8位图像是255）。
    - $I$ 和 $K$ 分别是原始图像和重建图像。
    - $H$ 和 $W$ 是图像的高度和宽度。
- SSIM (Structural Similarity Index Measure):
  1. 概念定义: SSIM 是一种衡量两张图像结构相似性的指标，它比 PSNR 更符合人类视觉感知。它从亮度、对比度和结构三个方面进行比较。值域为-1到1，越接近1表示两张图像越相似。
  2. 数学公式: $\mathrm{SSIM}(x, y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)}$
  3. 符号解释:
    - $\mu_x, \mu_y$ 是图像 x, y 的平均亮度。
    - $\sigma_x^2, \sigma_y^2$ 是图像的方差（对比度）。
    - $\sigma_{xy}$ 是图像的协方差（结构）。
    - $c_1, c_2$ 是用于避免分母为零的稳定常数。
- LPIPS (Learned Perceptual Image Patch Similarity):
  1. 概念定义: LPIPS 是一种基于深度学习的感知相似度度量。它通过计算两张图像在深度网络（如 VGG, AlexNet）不同层级特征图之间的距离来衡量它们的相似性。它比传统指标更能反映人类的感知判断。值越低，表示两张图像在感知上越相似。
  2. 数学公式: $d(x, x_0) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \| w_l \odot ( \hat{y}_{hw}^l - \hat{y}_{0hw}^l ) \|_2^2$
  3. 符号解释:
    - $d(x, x_0)$ 是图像 $x$ 和 $x_0$ 之间的距离。
    - $l$ 表示网络的第 $l$ 层。
    - $\hat{y}^l, \hat{y}_0^l$ 是从 $x, x_0$ 提取的第 $l$ 层的特征图。
    - $w_l$ 是用于缩放各层激活的权重。
对比基线 (Baselines): 论文与当时最先进的各类生成模型进行了比较，包括：
- GANs: PGGAN, StyleGAN, StyleGAN2, BigGAN-deep, ProjectedGAN, CoModGAN。
- VAEs: DC-VAE。
- Autoregressive Models: ImageBART, CogView。
- Pixel-based Diffusion Models: DDPM, ADM, SR3。
- Other Two-Stage Models: $VQGAN+Transformer$ , LSGM, LaMa (用于图像修复)。这些基线具有代表性，覆盖了当时所有主流的生成模型技术路线，能够充分证明 LDM 的相对优势。

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis):

感知压缩的权衡 (Sec 4.1): Figure 6 和 Figure 7 清晰地展示了下采样因子 $f$ 的重要性。
- 过小的 $f$ (如 $f=1$ ，即像素空间DM): 训练非常缓慢，因为模型需要耗费大量算力处理高维数据。
- 过大的 $f$ (如 $f=32$ ): 虽然训练快，但由于第一阶段的自编码器压缩过度，丢失了太多图像细节，导致生成质量很快达到瓶颈，无法进一步提升。
- 适中的 $f$ (如 $f=4$ 到 $f=16$ ): 在计算效率和生成质量之间取得了最佳平衡。LDM-4 和 LDM-8 在相同的训练步数下，FID 分数远低于像素空间的 LDM-1，且推理速度也快得多。
  
  $Figure 6. Analyzing the training of class-conditional LDMs with different downsampling factors $f$ over 2M train steps on the ImageNet dataset. Pixel-based LDM-1 requires substantially larger train t…$ 该图像是两幅折线图，展示了不同下采样因子 $f$ 的类条件LDM模型在ImageNet数据集上训练2百万步时的性能变化。左图为FID指标随训练进展的下降趋势，显示LDM-1训练时间较长且FID下降幅度有限；右图为Inception Score随训练进展的提升趋势，表明较大下采样因子的模型（如LDM-8和LDM-16）在训练后期表现更优。过度压缩的LDM-32整体样本质量受限，均在相同计算资源下完成训练。
  
  $Figure 7. Comparing LDMs with varying compression on the CelebA-HQ (left) and ImageNet (right) datasets. Different markers indicate $\\{ 1 0 , 2 0 , 5 0 , 1 0 0 , 2 0 0 \\}$ sampling steps using DDIM,…$ 该图像是图表，展示了在CelebA-HQ（左）和ImageNet（右）数据集中不同压缩率的LDM模型的FID与样本吞吐量关系。图中标记表示DDIM采样步骤 $\{10, 20, 50, 100, 200\}$ ，虚线表示200步的FID性能，横轴为吞吐量，纵轴为对数FID。

无条件图像生成 (Sec 4.2): Table 1 的数据显示，LDM 在多个数据集上表现出色。

在 CelebA-HQ 256x256 上，LDM 取得了 5.11 的 FID，超越了当时所有的 GAN 和似然模型，达到了新的 SOTA。
在 Precision 和 Recall 指标上，LDM 也优于 GAN，表明其不仅生成图像保真度高，而且多样性好，能更好地覆盖真实数据分布。

定性结果见 Figure 4，展示了生成图像的高质量和多样性。

以下为 Table 1 的转录结果：

CelebA-HQ 256 × 256				FFHQ 256 × 256
Method	FID ↓	Prec. ↑	Recall ↑	Method	FID ↓	Prec. ↑	Recall ↑
DC-VAE [63]	15.8	-	-	ImageBART [21]	9.57		-
VQGAN+T. [23] (k=400)	10.2	-	-	U-Net GAN (+aug) [77]	10.9 (7.6)	-	-
PGGAN [39]	8.0			UDM [43]	5.54	-	-
LSGM [93]	7.22		-	StyleGAN [41]	4.16	0.71	0.46
UUDM [43]	7.16	-	-	ProjectedGAN [76]	3.08	0.65	0.46
LDM-4 (ours, 500-s†)	5.11	0.72	0.49	LDM-4 (ours, 200-s)	4.98	0.73	0.50
LSUN-Churches 256 × 256				LSUN-Bedrooms 256 × 256
Method	FID ↓	Prec. ↑	Recall ↑	Method	FID ↓	Prec. ↑	Recall ↑
DDPM [30]	7.89	-	-	ImageBART [21]	5.51	-	-
ImageBART [21]	7.32	-	-	DDPM [30]	4.9	-	-
PGGAN [39]	6.42			UDM [43]	4.57	-	-
StyleGAN [41]	4.21	-	-	StyleGAN [41]	2.35	0.59	0.48
StyleGAN2 [42]	3.86		-	ADM [15]	1.90	0.66	0.51
ProjectedGAN [76]	1.59	0.61	0.44	ProjectedGAN [76]	1.52	0.61	0.34
LDM-8* (ours, 200-s)	4.02	0.64	0.52	LDM-4 (ours, 200-s)	2.95	0.66	0.48

该图像是人脸、教堂、卧室和自然物体类别图像的示例对比图，展示了CelebAHQ、FFHQ、LSUN-Churches、LSUN-Beds和ImageNet数据集中的样本，用于验证高分辨率图像合成效果。

条件图像生成 (Sec 4.3):
- 文本到图像: Table 2 和 Figure 5 展示了 LDM 在文本到图像合成上的强大能力。在 MS-COCO 数据集上，使用了分类器无关引导 (classifier-free guidance) 的 LDM-KL-8-G 取得了 12.63 的 FID，与当时参数量大得多的 SOTA 模型（如 GLIDE 和 Make-A-Scene）表现相当，证明了其架构的有效性和参数效率。
- 类条件生成: Table 3 显示，在 ImageNet 上，带引导的 LDM-4-G 取得了 3.60 的 FID，显著优于之前的 SOTA 扩散模型 ADM-G (4.59)，同时参数量更少，计算成本更低。
- 卷积式采样: Figure 9 展示了一个惊人的能力：一个在 256x256 图像上训练的 LDM，可以在推理时生成 512x1024 的大尺寸图像，且图像内容连贯一致。这得益于模型的全卷积特性和在潜在空间操作的优势。
  
  $Figure 9. A LDM trained on $2 5 6 ^ { 2 }$ resolution can generalize to larger resolution (here: $5 1 2 \\times 1 0 2 4 )$ for spatially conditioned tasks such as semantic synthesis of landscape image…$ 该图像是一个插图，展示了图9中LDM模型对256²分辨率训练后，能推广到更大分辨率（512×1024）进行空间条件下的语义景观图像合成能力。
图像修复 (Sec 4.5): Table 6 和 Table 7 表明 LDM 在图像修复任务上的优越性。
- 效率: Table 6 显示，与像素空间的 LDM-1 相比，潜在空间的 LDM-4 训练吞吐量提升了2.7倍以上，同时 FID 分数提高了1.6倍以上。
- 性能: Table 7 中，经过微调的大模型 LDM-4 (big, w/ ft) 在 Places 数据集上取得了 1.50 的 FID，创造了新的 SOTA 记录，优于专门为修复任务设计的 LaMa 模型。Table 4 的用户研究也表明，用户更偏爱 LDM 的修复结果。

消融实验/参数分析 (Ablation Studies / Parameter Analysis):
- 下采样因子 $f$ 的影响: 如上文 核心结果分析 中所述，Sec 4.1 的实验是对模型最关键的超参数 $f$ 进行的详尽消融研究，证明了 $f=4$ 或 $f=8$ 是最佳选择。
- 第一阶段正则化的影响: Table 6 比较了 KL 正则化和 VQ 正则化的 LDM，发现两者性能相近，但 VQ-reg 在某些情况下（如无注意力）解码时更节省显存。
- 注意力机制的影响: Table 6 还比较了第一阶段自编码器带或不带注意力机制的版本，发现不带注意力的版本在效率略有提升的同时，性能稍有下降，说明注意力机制是有益的。
- 分类器无关引导 (Classifier-free guidance) 的影响: Table 2 和 Table 3 中的 -G 模型（带引导）与不带引导的版本相比，FID 和 IS 分数均有大幅提升，证明了该技术对提升条件生成质量至关重要。

7. 总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary): 论文成功地提出了潜在扩散模型 (LDM)，通过将扩散过程从像素空间转移到低维潜在空间，显著提升了 DMs 的训练和推理效率，同时保持甚至超越了原有的生成质量。结合灵活的交叉注意力条件机制，LDM 在无条件生成、文本到图像、图像修复等一系列任务上都取得了卓越的性能，有效降低了高分辨率图像合成的门槛，使其成为一种通用、高效且强大的生成模型框架。
局限性与未来工作 (Limitations & Future Work):
- 局限性:
  1. 推理速度: 尽管比像素空间 DMs 快很多，但 LDM 的推理过程仍然是顺序采样的，比 GANs 等单步生成模型要慢。
  2. 重建瓶颈: 模型的最终生成质量受限于第一阶段自编码器的重建能力。对于需要极高像素级精度的任务（如某些科学图像或医学图像处理），自编码器的有损压缩可能成为瓶颈。
- 未来工作: 论文暗示了未来研究可以探索更高效的采样策略，以及改进第一阶段自编码器以支持更高精度的应用场景。
个人启发与批判 (Personal Insights & Critique):
- 个人启发:
  1. “空间转换”的思维范式: 这篇论文最核心的启发是“解决问题不行，就换个空间解决”。将复杂问题从一个高维、棘手的空间映射到一个低维、更易于处理的空间，是一种非常强大和通用的思想，不仅适用于生成模型，也适用于许多其他机器学习领域。
  2. 解耦与模块化设计的力量: LDM 将感知压缩和语义生成解耦，使得两个模块可以独立优化和替换。这种模块化设计极大地增强了系统的灵活性和可扩展性。例如，我们可以保持扩散模型不变，而去尝试使用更好的自编码器。
  3. 对社区的深远影响: 这篇论文不仅仅是一次技术上的突破，它通过开源模型直接催生了 Stable Diffusion，这是AI生成内容 (AIGC) 领域最具影响力的开源模型之一。它真正意义上“民主化”了高质量的AI图像生成技术，激发了无数的创新应用和研究，其影响力已经超越了学术界。
- 批判性思考:
  1. 对第一阶段的依赖: 整个 LDM 框架的性能上限被第一阶段的自编码器“锁定”了。如果自编码器在训练数据中存在偏见，或者对某些类型的细节（如细小的文字）重建不佳，那么后续的扩散模型无论多强大，也无法生成这些细节。这是一种固有的信息瓶颈。
  2. 社会伦理影响讨论不足: 论文在 Societal Impact 一节中简要提及了深度伪造 (deep fakes)、数据偏见和隐私泄露等问题，但讨论相对简短和常规。鉴于该技术后来产生的巨大社会影响，从今天的视角回看，论文对这些潜在风险的探讨显得不够深入。技术的“民主化”是一把双刃剑，它在降低创新门槛的同时，也极大地降低了恶意使用的门槛。
  3. 可控性的粒度: 虽然交叉注意力提供了强大的条件控制能力，但其控制的粒度有时仍然是宏观的。如何实现对生成图像中物体位置、姿态、数量等更精细、更符合逻辑的控制，仍然是一个开放的挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。