Effective Diffusion Transformer Architecture for Image Super-Resolution

Jie Hu

论文状态：已完成

Effective Diffusion Transformer Architecture for Image Super-Resolution

发表：2024/09/29

图像超分辨率 (5)Diffusion模型 (8)Diffusion Transformer (6)多尺度层次特征提取 (1)频率自适应时步条件模块 (1)

原文链接 PDF 下载

价格：0.10

已有 5 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

提出DiT-SR扩散Transformer架构，采用U型多尺度层次特征提取和统一各向同性设计，提升计算资源利用效率。引入频率自适应时间步条件模块，强化不同时间步频率信息处理能力。在无预训练下达到并超越先验方法的超分辨率效果。

摘要

Recent advances indicate that diffusion models hold great promise in image super-resolution. While the latest methods are primarily based on latent diffusion models with convolutional neural networks, there are few attempts to explore transformers, which have demonstrated remarkable performance in image generation. In this work, we design an effective diffusion transformer for image super-resolution (DiT-SR) that achieves the visual quality of prior-based methods, but through a training-from-scratch manner. In practice, DiT-SR leverages an overall U-shaped architecture, and adopts a uniform isotropic design for all the transformer blocks across different stages. The former facilitates multi-scale hierarchical feature extraction, while the latter reallocates the computational resources to critical layers to further enhance performance. Moreover, we thoroughly analyze the limitation of the widely used AdaLN, and present a frequency-adaptive time-step conditioning module, enhancing the model's capacity to process distinct frequency information at different time steps. Extensive experiments demonstrate that DiT-SR outperforms the existing training-from-scratch diffusion-based SR methods significantly, and even beats some of the prior-based methods on pretrained Stable Diffusion, proving the superiority of diffusion transformer in image super-resolution.

思维导图

论文精读

中文精读约 37 分钟读完 · 26,518 字

1. 论文基本信息

1.1. 标题

Effective Diffusion Transformer Architecture for Image Super-Resolution (图像超分辨率的有效扩散Transformer架构)

1.2. 作者

Kun Cheng, Lei Yu, Zhijun Tu, Xiao He, Liyu Chen, Yong Guo, Mingrui Zhu, Nannan Wang, Xinbo Gao, Jie Hu

1.3. 隶属机构

西安电子科技大学综合业务网理论及关键技术国家重点实验室 (State Key Laboratory of Integrated Services Networks, Xidian University)
华为诺亚方舟实验室 (Huawei Noah's Ark Lab)
华为消费者业务集团 (Consumer Business Group, Huawei)
重庆邮电大学重庆图像认知重点实验室 (Chongqing Key Laboratory of Image Cognition, Chongqing University of Posts and Telecommunications)

1.4. 发表年份

2024年（预印本发布时间为 2024-09-29T07:14:16.000Z）

1.5. 摘要

扩散模型 (diffusion models) 在图像超分辨率 (image super-resolution, SR) 领域展现出巨大潜力。目前主流方法主要基于采用卷积神经网络 (convolutional neural networks) 的潜在扩散模型 (latent diffusion models)，但很少有工作探索在图像生成中表现出色的 Transformer 架构。本研究提出了一种用于图像超分辨率的有效扩散 Transformer (DiT-SR) 架构，旨在通过从头开始训练 (training-from-scratch) 的方式，达到甚至超越基于先验 (prior-based) 方法的视觉质量。

DiT-SR 整体采用 $U$ 形架构，并在不同阶段的所有 Transformer 块 (transformer blocks) 中采用统一的各向同性 (uniform isotropic) 设计。 $U$ 形架构有助于多尺度分层特征提取 (multi-scale hierarchical feature extraction)，而各向同性设计则将计算资源重新分配到关键层，以进一步提升性能。此外，论文深入分析了广泛使用的自适应层归一化 (Adaptive Layer Normalization, AdaLN) 的局限性，并提出了一种频率自适应时间步条件模块 (frequency-adaptive time-step conditioning module)，增强了模型在不同时间步处理不同频率信息的能力。

广泛的实验结果表明，DiT-SR 在现有从头训练的基于扩散的 SR 方法中表现显著优异，甚至在某些方面超越了基于预训练 Stable Diffusion 的先验方法，证明了扩散 Transformer 在图像超分辨率任务中的优越性。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2409.19589
PDF 链接: https://arxiv.org/pdf/2409.19589v1.pdf 本文为 arXiv 预印本。

2. 整体概括

2.1. 研究背景与动机

图像超分辨率 (image super-resolution, SR) 旨在从低分辨率 (low-resolution, LR) 输入图像重建出高分辨率 (high-resolution, HR) 图像。近年来，扩散模型 (diffusion models, DMs) 在图像生成任务中取得了显著的进展，并被广泛应用于图像超分辨率领域。

当前基于扩散的 SR 方法主要分为两类：

从头训练 (Training-from-scratch) 方法: 这类方法将 LR 图像直接注入扩散模型并从零开始训练，如 SR3、LDM、ResShift 等。它们具有灵活性高、易于根据架构修改进行再训练的优点，非常适合轻量级应用。然而，这些方法通常难以达到基于先验方法所能达到的性能上限，因为后者受益于在海量数据集上经过数千 GPU 日训练所获得的丰富生成先验。
基于先验 (Prior-based) 方法: 这类方法利用预训练的扩散模型（如 Stable Diffusion）的生成先验来指导图像超分辨率。它们通常能取得出色的视觉效果，但在推理速度上受限，因为冗余的去噪器架构和多步迭代去噪过程导致推理缓慢。虽然一些工作尝试通过知识蒸馏 (knowledge distillation) 来减少去噪步数，但其扩散架构通常无法在不进行大量再训练的情况下进行修改。

核心问题与挑战: 当前领域面临的核心问题是，如何开发一种从头训练的扩散架构，使其在性能上能与基于先验的方法相媲美，从而平衡性能和灵活性。现有的从头训练方法在性能上通常不及基于先验的方法，而基于先验的方法则缺乏灵活性且推理速度慢。

论文的切入点或创新思路: 受到扩散 Transformer (Diffusion Transformer, DiT) 在图像生成中展现的卓越性能和可扩展性的启发，本文提出将 Transformer 架构引入图像超分辨率领域。然而，不同于直接应用标准 DiT 架构，本文提出了一种结合 $U$ 形架构和各向同性设计 (isotropic design) 的 DiT-SR 模型，并结合一种新的频率自适应时间步条件模块，旨在克服现有方法的局限性。

2.2. 核心贡献/主要发现

本研究的主要贡献可以总结如下：

提出了 DiT-SR 架构: 首次将 $U$ $U$ 形架构与各向同性设计无缝结合，专门用于图像超分辨率任务。
- $U$ 形架构 (U-shaped architecture) 有助于多尺度分层特征提取，这对于图像重建任务至关重要。
- 各向同性设计 (isotropic design) 在不同阶段的所有 Transformer 块中采用统一的通道数，并将计算资源重新分配到对 SR 任务更关键的高分辨率层，从而在更少的参数和计算量下提升了模型容量和性能。
引入了频率自适应时间步条件模块 AdaFM: 深入分析了广泛使用的 AdaLN (Adaptive Layer Normalization) 在处理频率信息方面的局限性，并提出 AdaFM (Adaptive Frequency Modulation)。AdaFM 通过在频率域进行时间步条件化，自适应地重加权 (reweight) 不同频率成分，增强了模型在不同去噪阶段强调特定频率信息的能力，特别是高频细节的恢复。
实现了从头训练模型的性能突破: 实验证明，DiT-SR 在从头训练的扩散 SR 方法中表现显著优于现有方法。它甚至能够超越一些基于预训练 Stable Diffusion 的先验方法，但参数量仅为其约 5%，实现了性能与灵活性的平衡。这一发现证明了扩散 Transformer 在图像超分辨率领域的优越性。

2.3. CLIPIQA vs. Parameters & FLOPs 对比

以下是论文中展示的 CLIPIQA 与模型参数及 FLOPs 对比图，直观展现了 DiT-SR 在性能和效率上的优势。

Figure 1. Comparisons between the proposed method and the latest SR methods on RealSR dataset. Top: CLIPIQA vs. Parameters. Bottom: CLIPIQA vs. FLOPs. Specifically, "Diff-based SR" refers to diffusio… 该图像是图表，展示了在RealSR数据集上，所提方法与最新图像超分辨率方法在CLIPIQA指标与参数数量（上图）及FLOPs（下图）间的对比。图中区分了基于GAN、扩散模型及先验模型的方法，显示所提方法在性能与资源消耗上的优势。

Figure 1. Comparisons between the proposed method and the latest SR methods on RealSR dataset. Top: CLIPIQA vs. Parameters. Bottom: CLIPIQA vs. FLOPs. Specifically, "Diff-based SR" refers to diffusion-based image super-resolution methods trained from scratch.

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 图像超分辨率 (Image Super-Resolution, SR)

概念定义: 图像超分辨率是一项计算机视觉任务，旨在从一个或多个低分辨率 (low-resolution, LR) 图像中重建出一个高分辨率 (high-resolution, HR) 图像。其目标是恢复图像的细节、清晰度和纹理，以提升视觉质量。

3.1.2. 扩散模型 (Diffusion Models, DMs)

概念定义: 扩散模型 (diffusion models, DMs) 是一类生成模型，它通过模拟一个逐渐向数据中添加噪声的“正向扩散过程”来学习数据的分布，然后训练一个神经网络来反向“去噪”，从而从纯噪声中生成出高质量的数据样本。

正向扩散过程 (Forward Diffusion Process): 在这个过程中，通过一系列预定义的时间步 $t=1, \dots, T$ $t = 1, \dots, T$ ，逐渐向原始数据 $\mathbf{x}_0$ $x_{0}$ 中添加高斯噪声，直到数据完全变为随机噪声 $\mathbf{x}_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ $x_{T} \sim N (0, I)$ 。每一步的噪声添加是根据一个预设的方差调度 (variance schedule) $\alpha_t$ $α_{t}$ 进行的。 $q \left( { { \pmb x } _ { t } } | { \pmb x } _ { \bf 0 } \right) = \mathcal { N } \left( { { \pmb x } _ { t } } ; \sqrt { { { \bar { \alpha } } _ { t } } } { { \pmb x } _ { \bf 0 } } , \left( 1 - { { \bar { \alpha } } _ { t } } \right) { \pmb I } \right) \mathrm { w i t h } { { \bar { \alpha } } _ { t } } = \prod _ { i = 0 } ^ { t } { \alpha _ { i } }$
- 符号解释:
  - $q(\mathbf{x}_t | \mathbf{x}_0)$ : 从原始数据 $\mathbf{x}_0$ 到时间步 $t$ 的加噪数据 $\mathbf{x}_t$ 的条件概率分布。
  - $\mathcal{N}(\cdot; \mu, \Sigma)$ : 表示均值为 $\mu$ 、协方差为 $\Sigma$ 的高斯分布。
  - $\mathbf{x}_t$ : 在时间步 $t$ 时被噪声污染的数据。
  - $\mathbf{x}_0$ : 原始的无噪声数据。
  - $\bar{\alpha}_t$ : 在时间步 $t$ 时，累积的无噪声信号保持系数， $\bar{\alpha}_t = \prod_{i=0}^t \alpha_i$ 。
  - $\alpha_i$ : 在时间步 $i$ 时，无噪声信号的保持系数，通过预定义的方差调度确定。
  - $\mathbf{I}$ : 单位矩阵。
反向去噪过程 (Reverse Denoising Process): 训练一个神经网络（通常称为去噪器，denoiser）来学习每一步从 $\mathbf{x}_t$ $x_{t}$ 恢复 $\mathbf{x}_{t-1}$ $x_{t - 1}$ 的逆向过程。这个去噪器通常预测添加到 $\mathbf{x}_0$ $x_{0}$ 的噪声 $\epsilon$ $ϵ$ ，从而推断出 $\mathbf{x}_0$ $x_{0}$ 。 $p _ { \theta } \left( { { x } _ { t - 1 } } | { { x } _ { t } } , { { y } _ { 0 } } \right) = \mathcal { N } \left( \mu _ { \theta } \left( { { x } _ { t } } , { { y } _ { 0 } } , t \right) , \Sigma \left( { { x } _ { t } } , t \right) \right)$
- 符号解释:
  - $p_{\theta}(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{y}_0)$ : 从加噪数据 $\mathbf{x}_t$ 和条件 $\mathbf{y}_0$ （在 SR 任务中通常是 LR 图像）恢复前一步数据 $\mathbf{x}_{t-1}$ 的条件概率分布，由参数 $\theta$ 的模型学习。
  - $\mu_{\theta}(\mathbf{x}_t, \mathbf{y}_0, t)$ : 由去噪器预测的均值。
  - $\Sigma(\mathbf{x}_t, t)$ : 协方差矩阵，通常是预定义或模型预测的，在许多扩散模型中是一个常数。

3.1.3. 潜在扩散模型 (Latent Diffusion Models, LDM)

概念定义: LDM 在潜在空间 (latent space) 而非像素空间 (pixel space) 执行扩散过程，显著提高了训练和推理的效率。它通过一个预训练的自编码器 (autoencoder) 将高维图像压缩到低维潜在表示，然后在这个潜在空间进行扩散和去噪，最后再通过解码器将潜在表示恢复为图像。

3.1.4. Transformer

概念定义: Transformer 是一种基于自注意力机制 (self-attention mechanism) 的深度学习模型架构，最初为自然语言处理任务设计，但后来在计算机视觉等领域也取得了巨大成功。其核心是多头自注意力 (Multi-Head Self-Attention, MHSA) 模块和前馈网络 (Feed-Forward Network, FFN)。

自注意力机制 (Self-Attention Mechanism): 允许模型在处理序列中的一个元素时，同时考虑序列中所有其他元素的信息，并根据它们之间的相关性分配不同的权重。 $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
- 符号解释:
  - $Q$ : 查询 (Query) 矩阵。
  - $K$ : 键 (Key) 矩阵。
  - $V$ : 值 (Value) 矩阵。
  - $Q K^T$ : 查询和键的点积，表示查询与每个键的相似度。
  - $\sqrt{d_k}$ : 缩放因子，用于防止点积结果过大，导致 softmax 梯度过小。 $d_k$ 是键向量的维度。
  - $\mathrm{softmax}(\cdot)$ : 归一化指数函数，将相似度转换为权重。
  - $\mathrm{Attention}(Q, K, V)$ : 计算得到的加权值，代表了注意力机制的输出。

3.1.5. Diffusion Transformer (DiT)

概念定义: DiT 是一个全 Transformer 架构的扩散模型，它摒弃了传统的 U-Net 去噪器设计，转而采用各向同性 (isotropic) 的 Transformer 块，即所有 Transformer 块具有相同的深度和通道维度，并且在所有分辨率上保持一致的特征图尺寸。DiT 在图像生成任务中展示了优越的可扩展性和性能。

3.1.6. U-Net 架构

概念定义: U-Net 是一种经典的编码器-解码器 (encoder-decoder) 结构，因其形状像字母 $U$ 而得名。它包含一个下采样路径（编码器）用于捕获上下文信息，和一个上采样路径（解码器）用于精确定位。编码器和解码器之间通过跳跃连接 (skip connections) 连接，这有助于将编码器中捕获的精细空间信息传递给解码器，从而提高重建细节的能力。U-Net 广泛应用于图像分割、去噪和超分辨率等任务。

3.2. 前人工作与技术演进

3.2.1. 扩散模型的超分辨率应用

SR3 [38]: 将扩散模型引入图像超分辨率的开创性工作，直接在像素空间进行扩散。
LDM [36]: 提升了扩散模型的效率，通过在潜在空间 (latent space) 进行扩散过程，减少了计算量。
ResShift [58]: 提出了一种残差偏移 (Residual Shifting) 的扩散过程，通过在 HR 和 LR 图像之间构建马尔可夫链 (Markov chain)，而不是纯粹的高斯噪声，从而有效缩短了去噪链的长度，减少了所需的去噪步数。
基于先验的方法: StableSR [45], DiffBIR [29], PASD [55], SeeSR [52] 等利用预训练的 Stable Diffusion 模型作为生成先验，指导 SR 任务，在视觉质量上表现出色。

3.2.2. 扩散模型架构演进

U-Net 为主导: 早期的扩散模型 (如 DDPM [16], ADM [6]) 和许多低级视觉任务 (low-level vision tasks) [50, 59] 主要采用 U-Net 架构作为去噪器。U-Net 擅长分层特征提取 (hierarchical feature extraction) 和拥有利于去噪的归纳偏置 (inductive bias)。
DiT 范式转变: DiT [34] 提出了一个全新的范式，采用各向同性 (isotropic) 的全 Transformer 架构替代 U-Net。它通过保持恒定的分辨率和通道维度，在图像生成方面展现了卓越的性能和可扩展性。后续工作 [9, 10, 13, 27, 31, 32] 进一步推动了 DiT 的发展。
U-ViT [2]: 尝试结合 U-Net 的长跳跃连接 (long skip connections) 和 ViT 的结构，但没有包含上采样 (upsampling) 和下采样 (downsampling) 操作。

3.3. 差异化分析

本文提出的 DiT-SR 与上述工作的主要区别和创新点在于：

架构融合: DiT-SR 并非简单地将 DiT 应用于 SR，而是创造性地将 U-Net 的整体 U 形结构与 DiT 的各向同性 Transformer 块设计相结合。这使得模型既能进行多尺度分层特征提取（ $U$ 形结构），又能利用 Transformer 块的强大建模能力和各向同性设计带来的计算资源重分配优势。
计算资源优化: 传统 U-Net 在低分辨率层使用更大的通道数，而 DiT-SR 观察到高分辨率 DiT 更能从参数扩展中受益，因此在 $U$ 形结构中，它为所有 Transformer 模块设置了统一的较大通道数，特别是在高分辨率层，从而更有效地利用计算预算。
频率感知条件化: 针对 SR 任务对高频细节恢复的特殊需求，DiT-SR 深入分析了 AdaLN 的局限性，并提出了 AdaFM。AdaFM 在频率域而非空间域进行时间步条件化，使得模型能够自适应地关注不同去噪阶段的特定频率信息，这对于 SR 任务至关重要。
性能与灵活性平衡: 现有从头训练的扩散 SR 方法通常性能不如基于先验的方法。DiT-SR 旨在通过其创新的架构设计，在保持从头训练的灵活性和低参数量的同时，将性能提升到能与基于先验的方法相媲美甚至超越的水平。

4. 方法论

本文提出的 DiT-SR (Diffusion Transformer for Image Super-Resolution) 旨在实现从头训练，同时达到与基于先验方法相当的视觉质量。其核心创新在于结合了 $U$ 形架构、各向同性 Transformer 块设计，以及一种频率自适应的时间步条件模块。

4.1. 方法原理

DiT-SR 的核心思想是利用 Transformer 的强大建模能力和扩散模型的生成优势，同时针对图像超分辨率任务的特点进行优化。它借鉴了 U-Net 的多尺度特征提取能力，并引入 DiT 的可扩展性，通过各向同性设计将计算资源更有效地分配给对 SR 任务至关重要的高分辨率层。此外，针对 SR 任务中频率信息恢复的关键性，设计了 AdaFM 模块来更精细地控制不同去噪阶段的频率调制。

4.2. 核心方法详解

4.2.1. 整体架构

DiT-SR 采用 $U$ 形编码器-解码器 (encoder-decoder) 结构，但其内部的去噪器模块由 Transformer 块构成。

下图（原文 Figure 3）展示了 DiT-SR 的整体架构，并与其他 DiT 变体进行了对比：

Figure 4. The percentage of FLOPs and parameters for each stage of the U-shaped DiT, both with and without isotropic design, show that more computational resources are allocated to high-resolution st… 该图像是论文中图4的图表，展示了U形DiT网络在不同阶段的FLOPs和参数百分比对比，分别包括带和不带各向同性设计。图表表明更多计算资源分配给高分辨率阶段，带各向同性设计时FLOPs在高分辨率阶段显著增加。

Figure 3. The illustration of DiT-SR architecture. (a) Isotropic DiT (e.g., DiT-XL/2). (b) U-shaped DiT. (c) Our U-shaped DiT with isotropic design. We rethink the isotropic design in DiT and adapt it to the U-shaped architecture, which reallocates computational resource to high-resolution layers $\Delta (4C_2 > C_3 > C_2)$ to boost the model capacity.

输入: 低分辨率图像 $\mathbf{y}$ 和噪声图像 $\mathbf{x}_t$ （或残差 $\mathbf{e}_0$ 的噪声版本）沿通道维度拼接，并与时间步 $t$ 一起作为去噪器的输入。
输出: 去噪器预测原始清晰图像 $\hat{\mathbf{x}}_0$ ，并通过迭代去噪过程进行细化。
U 形结构: 编码器路径逐渐降低特征图分辨率并增加通道维度，而解码器路径则执行相反的操作以重建图像。这种结构有助于捕获不同尺度的上下文信息和细节。
各向同性 Transformer 块设计: 在每个 Transformer 阶段内部，所有 Transformer 块都采用统一的通道配置。

4.2.2. Transformer 块结构

DiT-SR 的 Transformer 块 (transformer block) 结构如下图（原文 Figure 5）所示。

Figure 6. Visualization of the feature maps and their corresponding spectrums before and after applying AdaFM. AdaFM enhances the low-frequency components in the early stages of denoising (peripheral… 该图像是论文中图6展示的示意图，呈现了应用AdaFM前后不同时间步 $t=T, t=T/2, t=1$ 下的特征图及其频谱。AdaFM在去噪早期增强低频（频谱外围变暗），晚期增强高频（频谱外围变亮），提升模型对不同时间步频率的响应能力。

Figure 5. The illustration of transformer block in DiT-SR and Adaptive Frequency Modulation (AdaFM). AdaFM injects the time step into the frequency domain and adaptively reweights different frequency components.

每个 Transformer 块包含以下组件：

多头自注意力 (Multi-Head Self-Attention, MHSA) 机制: 用作空间混合器 (spatial mixer)。为了处理高分辨率输入带来的高计算成本和内存限制，DiT-SR 采用了带有窗口偏移 (window shifting) 的局部注意力 (local attention)，而不是原始的全局自注意力。
多层感知器 (Multi-Layer Perceptron, MLP): 包含两个全连接层和一个 GELU 激活函数，用作通道混合器 (channel mixer)。
归一化层 (Normalization Layers): 在 MHSA 和 MLP 之前应用组归一化 (Group Normalization)。
残差连接 (Residual Connections): MHSA 和 MLP 都采用残差连接，有助于训练深层网络。
自适应频率调制 (Adaptive Frequency Modulation, AdaFM): 在每个归一化层之后集成 AdaFM 模块，用于注入时间步信息。

Transformer 块的计算公式如下： $\begin{array} { r l } & { f _ { t i m e } ^ { 1 } , f _ { t i m e } ^ { 2 } = \mathrm { M L P } _ { \mathrm { t } } ( t ) , } \\ & { X = \mathrm { M H S A } ( \mathrm { A d a F M } ( \mathrm { N o r m } ( X ) , f _ { t i m e } ^ { 1 } ) ) + X , } \\ & { X = \mathrm { M L P } ( \mathrm { A d a F M } ( \mathrm { N o r m } ( X ) , f _ { t i m e } ^ { 2 } ) ) + X . \end{array}$

符号解释:
- $t$ : 当前的时间步 (time step)。
- $\mathrm{MLP_t}(t)$ : 一个小型的 MLP 网络，用于将时间步 $t$ 编码为两个时间步特征向量 $f_{time}^1$ 和 $f_{time}^2$ 。
- $X$ : 当前 Transformer 块的输入特征图。
- $\mathrm{Norm}(X)$ : 对特征图 $X$ 进行归一化操作（例如组归一化）。
- $\mathrm{AdaFM}(\mathrm{Norm}(X), f_{time}^1)$ : 应用 AdaFM 模块，将时间步特征 $f_{time}^1$ 条件化到归一化后的特征上。
- $\mathrm{MHSA}(\cdot)$ : 多头自注意力机制。
- $\mathrm{MLP}(\cdot)$ : 多层感知器。
- $+ X$ : 残差连接。

4.2.3. U 形 `DiT` 中的各向同性设计

U 形架构的集成: DiT-SR 采用了 U-Net 风格的编码器-解码器结构，以实现多尺度特征提取。编码器逐渐降低特征图分辨率并增加通道维度，解码器则反向操作。
各向同性设计原理: DiT-SR 受到两个关键观察的启发：
1. DiT (例如 DiT-XL/2、DiT-XL/4、DiT-XL/8) 能够有效地处理不同大小的输入 patch，这类似于 U-Net 中处理不同分辨率的特征。
2. 高分辨率的 DiT (例如 $DiT/2$ ) 比低分辨率的 DiT (例如 $DiT/8$ ) 从扩展中受益更多，即在高分辨率下增加模型容量更有效。
实现方式: DiT-SR 在多尺度 $U$ 形框架中引入了各向同性设计。具体而言：
- 每个 Transformer 阶段内的 Transformer 块都在相同的分辨率下操作。
- 所有阶段内部特征的通道维度被标准化为相同的大小。这意味着高分辨率层和低分辨率层在 Transformer 块内部都使用相同的通道数。
- 标准化后的通道数被设置得比传统 U-Net 中高分辨率阶段的原始设置更大，但比低分辨率阶段的原始设置小得多。
优势: 这种设计原则将计算资源重新分配到对图像超分辨率至关重要的高分辨率层，有效地利用了计算预算，避免了繁琐的调度策略设计，并在参数量远少于传统 U-Net 的情况下，大大提升了 Transformer 架构在多尺度范式中的容量。

下图（原文 Figure 4）展示了带和不带各向同性设计的 $U$ 形 DiT 在 FLOPs 和参数分配上的差异，表明更多计算资源被分配到高分辨率阶段。

该图像是论文中图5的示意图，展示了DiT-SR中的Transformer块结构及自适应频率调制模块（AdaFM）。AdaFM通过将时间步注入频率域，实现对不同频率成分的自适应加权。

Figure 4. The percentage of FLOPs and parameters for each stage of the U-shaped DiT, both with and without isotropic design, show that more computational resources are allocated to high-resolution stages.

4.2.4. 频率自适应时间步条件模块 (Frequency-Adaptive Time Step Conditioning, AdaFM)

AdaLN 的局限性: 扩散模型在不同时间步使用相同的去噪器，因此时间步条件化 (time-step conditioning) 至关重要。AdaLN (Adaptive Layer Normalization) 是 DiT 中广泛使用且被证明有效的方法。然而，AdaLN 仅在通道维度上调制特征，对所有空间位置应用统一的调制参数。这限制了其有效捕捉去噪过程中独特的时间动态和频率需求的能力，尤其是在 SR 任务中，模型需要在不同阶段关注不同的频率成分（例如，先重建低频结构，再恢复高频纹理）。
AdaFM 的提出: 为了克服 AdaLN 的局限性，本文提出了 AdaFM，将时间步调制从空间域 (spatial domain) 转移到频率域 (frequency domain)。
AdaFM 工作原理:
1. 分窗和 FFT: 为了适应不同的输入分辨率并提高效率，首先将空间域特征图 $f_{spat} \in \mathbb{R}^{C \times H \times W}$ 分割成 $p \times p$ 的窗口 (windows)。然后，在每个窗口内，使用快速傅里叶变换 (Fast Fourier Transform, FFT) 将这些窗口转换为频谱 $f_{spec} \in \mathbb{R}^{\frac{H \times W}{p^2} \times C \times p \times p}$ 。
2. 时间步到频率尺度矩阵: 时间步 $t$ 被映射到一个 $p^2$ 维向量 $f_{time}$ ，并重塑为频率尺度矩阵 $S_{spec} \in \mathbb{R}^{p \times p}$ 。
3. 频率自适应调制: $S_{spec}$ 用于自适应地重加权 (reweight) 不同的频率成分。
公式推导: 频率 $f_u, f_v$ 与频谱中空间位置 (u, v) 的关系为： $f _ { u } = \frac { u - H / 2 } { H } \times F _ { s } , \quad f _ { v } = \frac { v - W / 2 } { H } \times F _ { s } ,$
- 符号解释:
  - $f_u, f_v$ : 分别表示垂直和水平频率。
  - (u, v): 频谱中的空间位置。
  - H, W: 特征图的高度和宽度。
  - $F_s$ : 采样频率 (sampling frequency)。这个关系表明频谱中每个像素的频率成分是确定的，并且只取决于特征图的空间维度，与内容无关。因此，相同的频率尺度矩阵 $S_{spec}$ 可以应用于所有窗口和通道，从而显著提高效率。
AdaFM 的具体过程公式化为： $\begin{array} { r l } & { S _ { s p e c } = \mathrm { { r e s h a p e } } ( { f _ { t i m e } } , p \times p ) , } \\ & { { f _ { s p e c } } = \mathrm { { F F T } } \left( { \mathcal P \left( { { f _ { s p a t } } } \right) } \right) , } \\ & { { f _ { s p e c } ^ { \prime } } = { S _ { s p e c } } \odot { f _ { s p e c } } , } \\ & { { f _ { o u t } } = { \mathcal P ^ { - 1 } } \left( { \mathrm { { i F F T } } \left( { { f _ { s p e c } ^ { \prime } } } \right) } \right) , } \end{array}$
- 符号解释:
  - $S_{spec}$ : 频率尺度矩阵，通过将时间步特征 $f_{time}$ 重塑为 $p \times p$ 矩阵得到。
  - $f_{time}$ : 由时间步 $t$ 编码而来的 $p^2$ 维向量。
  - $\mathcal{P}(f_{spat})$ : 图像分块操作 (patch unfolding)，将空间域特征图 $f_{spat}$ 分割成 $p \times p$ 的不重叠块。
  - $\mathrm{FFT}(\cdot)$ : 快速傅里叶变换，将分块后的空间域特征转换为频率域频谱 $f_{spec}$ 。
  - $f_{spec}'$ : 经过 $S_{spec}$ 调制后的频率域频谱。
  - $\odot$ : 逐元素乘法 (element-wise multiplication)，表示频率尺度矩阵 $S_{spec}$ 对频谱 $f_{spec}$ 进行调制。
  - $\mathrm{iFFT}(\cdot)$ : 逆快速傅里叶变换，将调制后的频率域频谱转换回空间域。
  - $\mathcal{P}^{-1}(\cdot)$ : 图像重组操作 (patch folding)，将分块后的空间域特征重新组合成完整的特征图 $f_{out}$ 。
参数效率: 相比于 AdaLN 需要 $dim_{f_{time}} \times C \times 3 \times 2$ (scale, shift, gate for MHSA and MLP) 个映射参数，AdaFM 仅需要 $dim_{f_{time}} \times p^2 \times 2$ 个参数，参数量大大减少。
频率-时间步关联: AdaFM 通过在频率域进行调制，使扩散模型能够自适应地增强或抑制不同时间步的特定频率成分。例如，在去噪早期（时间步较大），模型更关注低频成分（图像结构）；在去噪后期（时间步较小），模型则更关注高频成分（图像纹理和细节）。

下图（原文 Figure 2）展示了扩散模型在不同去噪阶段预测图像的傅里叶频谱，验证了模型对不同频率的关注：

该图像是论文中关于三种不同Diffusion Transformer架构的示意图，分别为(a)标准DiT，(b)U型DiT，以及(c)本文提出的架构。图中展示了各自Transformer块的层次和特征图尺寸变化，体现了方法在多尺度特征提取上的差异。

Figure 2. Analysis of images generated at different stages with a diffusion-based super-resolution model [58]. The first row shows the predicted clean images at various steps, while the second row displays the Fourier spectrums of each predicted clean image. The diffusion model initially generates low-frequency components (center part of spectrums) and subsequently generates high-frequency components (peripheral part of spectrums).

下图（原文 Figure 6）进一步可视化了 AdaFM 应用前后特征图及其频谱的变化，说明了其频率调制能力。

Figure 7. Qualitative comparisons of different methods on both synthetic and real-world datasets. 该图像是一张图表，展示了不同方法在合成数据集和真实世界数据集上的超分辨率重建结果对比。每个子图中，左侧为低分辨率输入(LR)，右侧依次为各方法输出及高分辨率真实图像(HR)或参考。该图强调了Ours方法在细节恢复上的优越表现。

Figure 6. Visualization of the feature maps and their corresponding spectrums before and after applying AdaFM. AdaFM enhances the low-frequency components in the early stages of denoising (peripheral part of spectrums getting darker) and the high-frequency components in the later stages (peripheral part of spectrums getting brighter), thereby augmenting the diffusion model's ability to emphasize specific frequency at different time steps.

4.2.5. 残差偏移 (Residual Shifting)

本文遵循了 ResShift [58] 中提出的残差偏移扩散范式。

残差定义: 设 $\mathbf{e}_0 = \mathbf{y}_0 - \mathbf{x}_0$ 表示 LR 图像 $\mathbf{y}_0$ 和 HR 图像 $\mathbf{x}_0$ 之间的残差。
偏移序列: 引入一个偏移序列 $\{\eta_t\}_{t=1}^T$ ，从 $\eta_1 = 0$ 逐渐增加到 $\eta_T = 1$ 。
前向过程: 基于该序列，前向扩散过程被制定为： $q ( \pmb { x } _ { t } | \pmb { x } _ { 0 } , \pmb { y } _ { 0 } ) = \mathcal { N } ( \pmb { x } _ { t } ; \pmb { x } _ { 0 } + \eta _ { t } \pmb { e } _ { 0 } , \kappa ^ { 2 } \eta _ { t } \pmb { I } ) , t = 1 , 2 , \cdots , T ,$
- 符号解释:
  - $q(\mathbf{x}_t | \mathbf{x}_0, \mathbf{y}_0)$ : 在给定原始 HR 图像 $\mathbf{x}_0$ 和 LR 图像 $\mathbf{y}_0$ 的条件下，时间步 $t$ 的加噪图像 $\mathbf{x}_t$ 的条件概率分布。
  - $\mathcal{N}(\cdot; \mu, \Sigma)$ : 均值为 $\mu$ 、协方差为 $\Sigma$ 的高斯分布。
  - $\mathbf{x}_t$ : 在时间步 $t$ 的加噪图像。
  - $\mathbf{x}_0$ : 原始 HR 图像。
  - $\mathbf{y}_0$ : LR 图像。
  - $\mathbf{e}_0 = \mathbf{y}_0 - \mathbf{x}_0$ : LR 图像与 HR 图像之间的残差。
  - $\eta_t$ : 偏移序列中的一个值，随时间步 $t$ 增加。
  - $\kappa$ : 超参数，控制噪声方差。
  - $\mathbf{I}$ : 单位矩阵。
  - 其中， $\alpha_t = \eta_t - \eta_{t-1}$ 对于 $t > 1$ ，且 $\alpha_1 = \eta_1$ 。
去噪过程: 逆向的去噪过程 $q ( \pmb { x } _ { t - 1 } | \pmb { x } _ { t } , \pmb { x } _ { 0 } , \pmb { y } _ { 0 } )$ $q (x_{t - 1} ∣ x_{t}, x_{0}, y_{0})$ 被公式化为： $\begin{array} { r l } & { p _ { \theta } ( { \pmb x } _ { t - 1 } \vert { \pmb x } _ { t } , { \pmb x } _ { 0 } , { \pmb y } _ { 0 } ) = } \\ & { \mathcal { N } \left( { \pmb x } _ { t - 1 } \bigg \vert \frac { \eta _ { t - 1 } } { \eta _ { t } } { \pmb x } _ { t } + \frac { \alpha _ { t } } { \eta _ { t } } { f } _ { \theta } ( { \pmb x } _ { t } , { \pmb y } _ { 0 } , t ) , \kappa ^ { 2 } \frac { \eta _ { t - 1 } } { \eta _ { t } } \alpha _ { t } { \pmb I } \right) , } \end{array}$
- 符号解释:
  - $p_{\theta}(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0, \mathbf{y}_0)$ : 从当前加噪图像 $\mathbf{x}_t$ 和条件（HR 图像 $\mathbf{x}_0$ 、LR 图像 $\mathbf{y}_0$ ）恢复前一步图像 $\mathbf{x}_{t-1}$ 的条件概率分布，由参数 $\theta$ 的去噪器学习。
  - $f_{\theta}(\mathbf{x}_t, \mathbf{y}_0, t)$ : 去噪器，直接预测原始清晰图像 $\mathbf{x}_0$ 。这种设计通过直接预测 $\mathbf{x}_0$ 并利用 LR 和 HR 之间的残差关系，有效缩短了马尔可夫链的长度，从而减少了所需的去噪时间步。本文遵循这一范式来训练扩散模型。

5. 实验设置

5.1. 数据集

本文在 $x4$ 真实世界超分辨率任务上评估了所提出的模型。

5.1.1. 训练数据集

LSDIR [26]: 一个大规模图像恢复数据集。训练集包含 82991 张图像。
DIV2K [1]: 一个包含 2K 高质量图像的基准数据集。
DIV8K [11]: 包含 8K 高质量图像的数据集。
OutdoorSceneTraining [46]: 用于图像恢复的户外场景训练数据集。
Flicker2K [41]: 包含 2K 张图像的数据集。
FFHQ [20]: 从该数据集的前 1 万张人脸图像中选择用于训练。

HR-LR 对生成: 训练过程中，HR 图像被随机裁剪到 $256 \times 256$ 大小，并使用 RealESRGAN [48] 的退化管道 (degradation pipeline) 合成 LR/HR 对。

5.1.2. 测试数据集

LSDIR-Test: 从 LSDIR 中划分出的 2000 张图像作为测试集。这些图像被中心裁剪为 $512 \times 512$ ，并使用与训练阶段相同的退化管道生成合成 LR/HR 对。
RealSR [4]: 包含 100 张由 Canon 5D3 和 Nikon D810 相机捕获的真实图像。
RealSet65 [58]: 包含 65 张从常用数据集和互联网收集的低分辨率图像。
盲人脸恢复数据集 (Appendix E):
- 训练: 使用 FFHQ [20] 数据集中的 70K 高质量人脸图像，分辨率为 $1024 \times 1024$ ，首先调整为 $512 \times 512$ ，然后使用 GFPGAN [47] 典型的退化管道合成 LQ 图像。
- 合成测试集: 从 CelebA-HQ [19] 验证集中随机选择 2000 张 HR 图像作为测试集，并使用 GFPGAN [47] 合成相应的 LQ 图像。
- 真实世界测试集:
  - LFW [17]: 包含 1,711 张从真实世界来源收集的人脸图像，用于评估人脸识别算法在无约束条件下的性能。
  - WebPhoto [47]: 包含 407 张通过网络爬取的人脸图像，包括一些严重退化的旧照片。
  - WIDER [62]: 包含从 WIDER Face 数据集中选择的 970 张严重退化的人脸图像，具有遮挡、姿态、尺度和光照变化。

5.2. 评估指标

本文采用了多种评估指标来全面衡量模型性能，包括参考指标 (reference-based metrics) 和非参考指标 (non-reference metrics)。

5.2.1. 参考指标

用于有 Ground Truth (真实标注数据) 的数据集。

PSNR (Peak Signal-to-Noise Ratio, 峰值信噪比)
- 概念定义: PSNR 是一种衡量图像质量的客观标准，它通过计算图像的峰值信号与噪声之间的比率来评估图像的失真程度。PSNR 值越高，表示图像失真越小，质量越好。它主要关注像素级的误差。
- 数学公式: $\mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{MAX_I^2}{\mathrm{MSE}} \right)$ 其中， $\mathrm{MSE}$ (Mean Squared Error, 均方误差) 的计算公式为： $\mathrm{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2$
- 符号解释:
  - $MAX_I$ : 图像中像素的最大可能值（例如，对于 8 位图像，通常为 255）。
  - I(i,j): 原始图像中像素 (i,j) 的值。
  - K(i,j): 经过处理（例如超分辨率重建）图像中像素 (i,j) 的值。
  - m, n: 图像的行数和列数。
LPIPS (Learned Perceptual Image Patch Similarity, 学习感知图像块相似度) [61]
- 概念定义: LPIPS 是一种基于深度学习的感知图像质量评估指标，旨在更好地与人类的视觉感知判断对齐。它通过比较两张图像在预训练深度网络（如 AlexNet、VGG 等）提取的特征空间中的距离来衡量相似度。LPIPS 值越低，表示两张图像在感知上越相似。
- 数学公式: $\mathrm{LPIPS}(x_0, x_1) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \| w_l \odot (\phi_l(x_0)_{h,w} - \phi_l(x_1)_{h,w}) \|_2^2$
- 符号解释:
  - $x_0, x_1$ : 两张待比较的图像。
  - $\phi_l$ : 预训练深度网络在第 $l$ 层激活后的特征图。
  - $w_l$ : 在第 $l$ 层特征图上学习到的权重。
  - $\odot$ : 逐元素乘法。
  - $H_l, W_l$ : 第 $l$ 层特征图的高度和宽度。
  - $\sum_{h,w}$ : 对特征图所有空间位置求和。
  - $\|\cdot\|_2^2$ : $L_2$ 范数的平方。
  - $\sum_l$ : 对所有选定的网络层求和。
IDS (Identity Score, 身份分数)
- 概念定义: IDS 用于评估人脸图像恢复方法在保持人物身份信息方面的能力。它通过计算原始 HQ 图像和恢复图像之间的人脸特征嵌入 (face embedding) 的余弦相似度 (cosine similarity) 来衡量。IDS 值越低，表示身份保持越好。
- 数学公式: $\mathrm{IDS} = 1 - \mathrm{cosine\_similarity}(F_{gt}, F_{rec})$ 其中， $\mathrm{cosine\_similarity}(A, B) = \frac{A \cdot B}{\|A\| \|B\|}$ 。
- 符号解释:
  - $F_{gt}$ : Ground Truth 人脸图像的特征嵌入。
  - $F_{rec}$ : 恢复人脸图像的特征嵌入。
  - $\mathrm{cosine\_similarity}(\cdot, \cdot)$ : 余弦相似度函数。
LMD (Landmark Distance, 地标距离)
- 概念定义: LMD 用于衡量人脸图像恢复方法对人脸关键地标点 (facial landmark points) 几何结构的保持能力。它计算原始 HQ 图像和恢复图像之间地标点的平均欧氏距离。LMD 值越低，表示人脸结构恢复得越准确。
- 数学公式: $\mathrm{LMD} = \frac{1}{N} \sum_{k=1}^N \|P_{gt,k} - P_{rec,k}\|_2$
- 符号解释:
  - $N$ : 地标点的总数。
  - $P_{gt,k}$ : Ground Truth 图像中第 $k$ 个地标点的坐标。
  - $P_{rec,k}$ : 恢复图像中第 $k$ 个地标点的坐标。
  - $\|\cdot\|_2$ : 欧氏距离。
FID (Fréchet Inception Distance, Fréchet Inception 距离) [15]
- 概念定义: FID 是一种用于评估生成模型生成图像质量的指标，通过比较生成图像和真实图像在 Inception-v3 网络特征空间中的统计量（均值和协方差）来衡量两组图像分布的相似度。FID 值越低，表示生成图像的质量和多样性越接近真实图像。
- 数学公式: $\mathrm{FID} = \|\mu_1 - \mu_2\|_2^2 + \mathrm{Tr}(\Sigma_1 + \Sigma_2 - 2(\Sigma_1 \Sigma_2)^{1/2})$
- 符号解释:
  - $\mu_1, \mu_2$ : 分别是真实图像和生成图像在 Inception-v3 特征空间中的特征均值向量。
  - $\Sigma_1, \Sigma_2$ : 分别是真实图像和生成图像在 Inception-v3 特征空间中的特征协方差矩阵。
  - $\|\cdot\|_2^2$ : $L_2$ 范数的平方。
  - $\mathrm{Tr}(\cdot)$ : 矩阵的迹 (trace)。

5.2.2. 非参考指标

用于没有 Ground Truth 的真实世界数据集，或旨在更好地反映人类感知。

CLIPIQA [44]
- 概念定义: CLIPIQA 是一种基于 CLIP 模型学习到的图像质量评估指标，旨在更好地与人类感知对齐。它利用 CLIP 的视觉-语言联合嵌入空间来评估图像质量，特别是生成图像的视觉真实感和语义一致性。CLIPIQA 值越高，表示图像质量越好。
MUSIQ (Multi-scale Image Quality Transformer, 多尺度图像质量 Transformer) [21]
- 概念定义: MUSIQ 是一种基于 Transformer 的多尺度图像质量评估模型。它通过在多个尺度上分析图像特征来预测图像的感知质量，并被训练成与人类的质量评分高度相关。MUSIQ 值越高，表示图像质量越好。
MANIQA (Multi-dimension Attention Network for No-Reference Image Quality Assessment, 无参考图像质量评估的多维度注意力网络) [54]
- 概念定义: MANIQA 是一种用于无参考图像质量评估 (No-Reference Image Quality Assessment) 的多维度注意力网络。它通过捕捉图像不同维度（如空间、通道）的质量信息来预测图像的感知质量。MANIQA 值越高，表示图像质量越好。

5.3. 对比基线

论文将 DiT-SR 与以下几类最新的 SR 方法进行了比较：

基于 GAN (GAN-based) 的方法:
- RealSR-JPEG [18]
- BSRGAN [60]
- RealESRGAN [48]
- SwinIR [28] (Swin Transformer 用于图像恢复，通常与 GAN 损失结合或作为强大的判别器)
基于先验 (Prior-based) 的扩散方法:
- StableSR [45]
- DiffBIR [29]
- PASD [55]
- SeeSR [52] 这些方法利用预训练的 Stable Diffusion 等大型生成模型的先验知识。
从头训练 (Training-from-Scratch) 的扩散方法:
- LDM [36]
- ResShift [58] 这些方法不依赖大型预训练模型，而是从零开始训练。

5.4. 实现细节

潜在空间操作: 提出的架构在潜在空间 (latent space) 进行操作，使用了下采样因子为 4 的 Vector Quantized GAN (VQGAN) [7] 作为编码器和解码器。
训练参数:
- 训练迭代次数: 300K 次迭代。
- 批处理大小 (batch size): 64。
- GPU 数量: 8 块 NVIDIA Tesla V100 GPU。
- 优化器: Adam [23]。
- 学习率 (learning rate): $5 \times 10^{-5}$ 。
FFT 窗口大小: FFT 窗口大小 $p$ 经验性地设置为 8 [24, 43]。
盲人脸恢复训练细节 (Appendix E):
- 学习率调度: 学习率在 5000 次迭代内增长到 $5 \times 10^{-5}$ ，然后根据退火余弦调度 (annealing cosine schedule) 从 $5 \times 10^{-5}$ 逐渐衰减到 $2 \times 10^{-5}$ 。
- 训练结束: 200K 次迭代。
- VQGAN 下采样因子: 8。
- 扩散步数: 4。
- 损失函数: 除了潜在空间中的扩散损失 [16] 外，还在像素空间中采用了 LPIPS [61] 损失。

6. 实验结果与分析

6.1. 核心结果分析

本文通过在合成数据集 LSDIR-Test 和真实世界数据集 RealSR、RealSet65 上的大量实验，验证了 DiT-SR 的有效性和优越性。

6.1.1. 对比最新 SOTA 方法 (Table 1 & 3)

以下是原文 Table 1 和 Table 3 的结果，展示了 DiT-SR 与 GAN 基线、基于先验的扩散方法和从头训练的扩散方法的对比。

以下是原文 Table 1 的结果：

Methods	#Params	RealSR			RealSet65
Methods	#Params	CLIPIQA↑	MUSIQ↑	MANIQA↑	CLIPIQA↑	MUSIQ↑	MANIQA↑
GAN based Methods
RealSR-JPEG	17M	0.3611	36.068	0.1772	0.5278	50.5394	0.2943
BSRGAN	17M	0.5438	63.5819	0.3685	0.616	65.5774	0.3897
RealESRGAN	17M	0.4898	59.6766	0.3679	0.5987	63.2228	0.3871
SwinIR	12M	0.4653	59.6316	0.3454	0.5778	63.8212	0.3816
Prior based Methods
StableSR-200	919M	0.5207	59.4264	0.3563	0.5338	56.9207	0.3387
DiffBIR-50	1670M	0.7142	66.843	0.4802	0.7398	69.7260	0.5000
PASD-20	1469M	0.5170	58.4394	0.3682	0.5731	61.8813	0.3893
SeeSR-50	1619M	0.6819	66.3461	0.5035	0.7030	68.9803	0.5084
Training-from-Scratch Diff. based Methods
LDM-100	114M	0.5969	55.4359	0.3071	0.5936	56.112	0.356
ResShift-15	119M	0.6028	58.8790	0.3891	0.6376	58.0400	0.4048
Ours-15	61M	0.7161	65.8334	0.5022	0.7120	66.7413	0.4821

以下是原文 Table 3 的结果： Table 3. Performance comparison on the synthetic LSDIR-Test dataset. The best and second best results are highlighted in bold and underline.

Methods	LSDIR-Test
Methods	PSNR↑	LPIPS↓	CLIPIQA↑ MUSIQ↑MANIQA↑
GAN based Methods
RealSR-JPEG BSRGAN	22.16 23.74	0.360	0.546	59.02 67.94	0.342 0.394
RealESRGAN	23.15	0.274 0.259	0.570 0.568	68.23	0.414
SwinIR	23.17	0.247	0.598	68.20	0.414
Prior based Methods
StableSR-200 DiffBIR-50	22.68	0.267	0.660	68.91	0.416
PASD-20	22.84	0.274	0.709	70.05	0.455 0.440
SeeSR-50	23.57	0.279	0.624	69.07
	22.90	0.251	0.718	72.47	0.559
Training-from-Scratch Diff. based Methods
LDM-100	23.34	0.255	0.601	66.84	0.413
ResShift-15	23.83	0.247	0.640	67.74	0.464
Ours-15	23.60	0.244
			0.646	69.32	0.483

显著超越从头训练方法: 在 RealSR 和 RealSet65 真实世界数据集上（Table 1），DiT-SR 在 CLIPIQA、MUSIQ 和 MANIQA 等所有非参考指标上均取得了最佳性能，显著优于 LDM-100 和 ResShift-15 等现有从头训练的扩散 SR 方法。
媲美甚至超越基于先验方法: 令人印象深刻的是，DiT-SR 甚至能够与 DiffBIR-50 和 SeeSR-50 等基于预训练 Stable Diffusion 的先验方法相媲美，在某些指标上甚至表现更好。例如，在 RealSR 数据集上，DiT-SR 的 CLIPIQA (0.7161) 略高于 DiffBIR-50 (0.7142)，MANIQA (0.5022) 略低于 SeeSR-50 (0.5035)，但 MUSIQ (65.8334) 略低于 DiffBIR-50 (66.843) 和 SeeSR-50 (66.3461)。
参数效率高: DiT-SR 仅用 61M 参数量，相比于 DiffBIR-50 (1670M) 和 PASD-20 (1469M) 等基于先验的方法，参数量仅为它们的约 5%，展现了极高的参数效率。
合成数据集表现 (LSDIR-Test): 在合成数据集 LSDIR-Test 上 (Table 3)，DiT-SR 在 LPIPS 上取得了最佳性能 (0.244)，PSNR 达到了 23.60。在 CLIPIQA、MUSIQ 和 MANIQA 非参考指标上，DiT-SR 也取得了非常接近最优（或次优）的性能，再次验证了其有效性。

下图（原文 Figure 7）展示了在合成和真实世界数据集上的定性比较，进一步证实了 DiT-SR 在视觉效果上的优越性。

该图像是论文中真实世界数据集上的超分辨率视觉结果对比图，展示了LR图像及多种方法的重建效果。左侧红框表示关注区域，不同方法包括BSRGAN、StableSR、DiffBIR、PASD、SeeSR、RealESRGAN、SwinIR、LDM、ResShift和本文提出的方法。

Figure 7. Qualitative comparisons of different methods on both synthetic and real-world datasets.

6.1.2. 盲人脸恢复实验 (Appendix E, Table 7 & 8)

论文还在盲人脸恢复 (blind face restoration) 任务上评估了 DiT-SR 的性能。

以下是原文 Table 7 的结果： T underline.

Methods	CelebA-Test
Methods	LPIPS↓	IDS↓	LMD↓	FID↓	CLIPIQA↑	MUSIQ↑	ManIQA
DFDNet	0.739	86.323	20.784	76.118	0.619	51.173	0.433
PSFRGAN	0.475	74.025	10.168	60.748	0.630	69.910	0.477
GFPGAN	0.416	66.820	8.886	27.698	0.671	75.388	0.626
VQFR	0.411	65.538	8.910	25.234	0.685	73.155	0.568
CodeFormer	0.324	59.136	5.035	26.160	0.698	75.900	0.571
DiffFace-100	0.338	63.033	5.301	23.212	0.527	66.042	0.475
ResShift-4	0.309	59.623	5.056	17.564	0.613	73.214	0.541
Ours-4	0.337	61.4644	5.235	19.648	0.725	75.848	0.634

以下是原文 Table 8 的结果： in bold and underline.

Methods	LFW			WebPhoto			Wider
Methods	CLIPIQA↑ MUSIQ↑ MANIQA↑CLIPIQA↑ MUSIQ↑ MANIQA↑CLIPIQA↑								MUSIQ↑ MANIQA↑
DFDNet	0.716	73.109	0.6062	0.654	69.024	0.550	0.625	63.210	0.514
PSFRGAN	0.647	73.602	0.5148	0.637	71.674	0.476	0.648	71.507	0.489
GFPGAN	0.687	74.836	0.5908	0.651	73.367	0.577	0.663	74.694	0.602
VQFR	0.710	74.386	0.5488	0.677	70.904	0.511	0.707	71.411	0.520
CoderFormer	0.689	75.480	0.5394	0.692	74.004	0.522	0.699	73.404	0.510
DiffFace-100	0.593	70.362	0.4716	0.555	65.379	0.436	0.561	64.970	0.436
ResShift-4	0.626	70.643	0.4893	0.621	71.007	0.495	0.629	71.084	0.494
Ours-4	0.727	73.187	0.564	0.717	73.921	0.571	0.743	74.477	0.589

合成数据集 (CelebA-Test): 在合成数据集 CelebA-Test (Table 7) 上，DiT-SR (Ours-4) 在 CLIPIQA 和 MANIQA 上取得了最佳性能，MUSIQ 达到了次优。虽然在 LPIPS、IDS、LMD 和 FID 等参考指标上略逊于 ResShift-4，但整体感知质量指标表现突出。
真实世界数据集 (LFW, WebPhoto, Wider): 在 LFW、WebPhoto 和 Wider 等真实世界数据集上 (Table 8)，DiT-SR 在所有非参考指标 CLIPIQA、MUSIQ 和 MANIQA 上均取得了最佳性能，证明了其在处理真实世界复杂退化人脸图像时的强大能力。

下图（原文 Figure 10）提供了更多盲人脸恢复的定性结果。

该图像是多组人脸超分辨率重建结果的对比示意图，展示了LFW、WebPhoto和WIDER三个人脸数据集上不同方法（如GFPGAN、VQFR、CodeFormer、DiffFace、ResShift和本文方法）修复低分辨率（LR）人脸图像的效果。

Figure 10. More visualization results of blind face restoration on real-world datasets. Please zoom in for a better view.

6.2. 消融实验与参数分析

6.2.1. U 形 `DiT` 与各向同性设计 (Table 2)

本节探究了 $U$ 形 DiT 和各向同性设计的有效性。

以下是原文 Table 2 的结果： J-shaped DiT. The best results are highlighted in bold.

Configuration		#Params	FLOPs	RealSR		RealSet65
DiT Arch.	Time Conditioning	#Params	FLOPs	CLIPIQA↑	MUSIQ↑	CLIPIQA↑	MUSIQ↑
Isotropic	AdaLN	42.38M	122.99G	0.655	64.194	0.664	64.263
U-shape	AdaLN	264.39M	122.87G	0.688	64.062	0.693	65.604
Ours	AdaLN	100.64M(-62%)	93.11G(-24%)	0.700	64.676	0.699	67.634
Ours	AdaFM	60.79M(-77%)	93.03G(-24%)	0.716	65.833	0.712	66.741

标准 DiT (Isotropic DiT) vs. $U$ 形 DiT:
- 标准 DiT (Isotropic + AdaLN) 具有 42.38M 参数和 122.99G FLOPs。
- $U$ 形 DiT (U-shape + AdaLN) 在相似的 FLOPs (122.87G) 下，参数量高达 264.39M，但性能（CLIPIQA、MUSIQ）略优于标准 DiT。这表明 $U$ 形结构有助于性能提升，但参数效率较低。
U 形 DiT 与各向同性设计 (Ours + AdaLN):
- 本文提出的架构 (Ours + AdaLN) 在 FLOPs (93.11G) 减少 24% 的情况下，参数量从 $U$ 形 DiT 的 264.39M 大幅减少了 62%，仅为 100.64M。
- 尽管参数和 FLOPs 大幅减少，但性能却进一步提升（CLIPIQA 从 0.688 提升到 0.700，MUSIQ 从 64.062 提升到 64.676）。这强有力地证明了各向同性设计在 $U$ 形 DiT 中重新分配计算资源到关键高分辨率层的有效性。

6.2.2. 自适应频率调制 (AdaFM) (Table 2)

AdaLN vs. AdaFM:
- 在本文提出的架构 (Ours) 中，将 AdaLN 替换为 AdaFM (即 Ours + AdaFM)，在 FLOPs 保持不变的情况下，参数量从 100.64M 进一步减少了 77%，降至 60.79M。
- 同时，性能也得到了显著提升（CLIPIQA 从 0.700 提升到 0.716，MUSIQ 从 64.676 提升到 65.833）。
结论: AdaFM 不仅显著减少了模型参数，还在频率域实现了更有效的条件化，从而进一步提升了模型的性能，尤其是在处理对频率信息敏感的图像超分辨率任务中。

6.2.3. 压缩 $U$ 形 `DiT` (Appendix B, Table 5)

本节探讨了通过深度和宽度压缩 $U$ 形 DiT 的效果，以验证本文架构的参数效率。

以下是原文 Table 5 的结果： FLOPs are compared to the U-shaped DiT. The best results are highlighted in bold.

Methods	#Params	FLOPs	RealSR		RealSet65
Methods	#Params	FLOPs	CLIPIQA↑	MUSIQ↑	CLIPIQA↑	MUSIQ↑
U-shaped DiT	264.39M	122.87G	0.688	64.062	0.693	65.604
Shallower U-DiT	196.65M(-26%)	96.30G(-22%)	0.671	63.319	0.683	64.097
Narrower U-DiT	214.20M(-19%)	99.56G(-19%)	0.682	63.631	0.692	65.469
Ours w/ AdaLN	100.64M(-62%)	93.11G(-24%)	0.700	64.676	0.699	67.634

压缩尝试:
- Shallower U-DiT: 减少每个阶段的 Transformer 块数量（从 6 减到 4），参数减少 26%。
- Narrower U-DiT: 减少基础通道维度（从 160 减到 144），参数减少 19%。
结果: 尽管参数减少幅度相对温和（约 20%），但这两种压缩策略都导致了明显的性能下降。
结论: 这表明原始的 $U$ 形 DiT (d6c160 配置) 尚未达到冗余点。本文提出的架构 (Ours w/ AdaLN) 通过将计算资源重新分配到关键高分辨率层，在参数量显著减少 62% 的情况下，反而取得了更好的性能，再次验证了其设计的优越性。

6.2.4. 轻量化版本 (Appendix C, Table 6)

为了满足轻量级应用的需求，论文还开发了一个 DiT-SR 的轻量化版本。

以下是原文 Table 6 的结果：

Methods	#Params	RealSR			RealSet65
Methods	#Params	CLIPIQA↑	MUSIQ↑	MANIQA↑	CLIPIQA↑	MUSIQ↑	MANIQA↑
LDM-100	114M	0.5969	55.4359	0.3071	0.5936	56.1120	0.3560
ResShift-15	119M	0.6028	58.8790	0.3891	0.6376	58.0400	0.4048
Ours-15	61M	0.7161	65.8334	0.5022	0.7120	66.7413	0.4821
Ours-Lite-15	31M	0.6670	63.0544	0.4565	0.6694	64.3387	0.4420
Ours-Lite-1	31M	0.6993	63.3759	0.4262	0.7092	64.8329	0.4299

Ours-Lite-15 (轻量化版本，15步去噪):
- 参数量从 Ours-15 的 61M 减少到 31M (约 50%)。
- 尽管参数量仅为 ResShift 的 25%，Ours-Lite-15 仍显著优于 ResShift-15 在所有指标上。这进一步证明了 DiT-SR 架构在模型容量方面的优越性。
Ours-Lite-1 (轻量化版本，1步去噪):
- 通过与 SinSR [49] 结合进行步长蒸馏 (step distillation)，将 15 步去噪模型压缩到单步去噪。
- 在 CLIPIQA 和 MUSIQ 指标上有所提升，但 MANIQA 指标有所下降。这表明用户可以根据应用场景对不同指标的偏好选择是否进行步长蒸馏。
结论: DiT-SR 架构的灵活性使其能够轻松适应轻量级应用，并在大幅减少参数量的情况下，依然保持卓越的性能。

6.3. 架构超参数 (Appendix A & Table 4)

以下是原文 Table 4 的结果： Table 4. Diffusion Architecture Hyper-parameters.

DiT Arch.	Time Conditioning	#Params	FLOPs	Number of Blocks	Channels	Reallocated Channel
Isotropic	AdaLN	42.38M	122.99G	[6,6,6,6,6]	160	-
U-shape	AdaLN	264.39M	122.87G	[6,6,6,6]	[160,320,320,640]	-
Ours	AdaLN	100.64M	93.11G	[6,6,6,6]	[160,320,320,640]	192
Ours	AdaFM	60.79M	93.03G	[6,6,6,6]	[160,320,320,640]	192
Ours-Lite	AdaFM	30.89M	49.17G	[4,4,4]	[128,256,256]	160

块数量 (Number of Blocks): 对于 Isotropic DiT，每个阶段的块数量是 [6,6,6,6,6] (5个阶段)。对于 U-shape DiT 和 Ours，每个阶段的块数量是 [6,6,6,6] (4个阶段)。Ours-Lite 进一步减少为 [4,4,4] (3个阶段)。
通道数 (Channels):
- Isotropic DiT: 所有阶段通道数保持为 160。
- U-shape DiT: 通道数随着深度增加而增加，为 [160,320,320,640]。
- Ours: 基础通道数同样为 [160,320,320,640]，但在各向同性设计下，内部重新分配的通道数为 192。
- Ours-Lite: 基础通道数 [128,256,256]，内部重新分配的通道数为 160。
重新分配通道 (Reallocated Channel): 这是 Ours 架构各向同性设计中关键的参数。它表示在高分辨率层标准化和放大的通道数，从而更有效地利用计算资源。

这些详细的架构配置进一步解释了 DiT-SR 如何通过巧妙的资源分配和架构设计，在保持较低参数量的同时实现卓越的性能。

7. 总结与思考

7.1. 结论总结

本研究提出了一种名为 DiT-SR 的新型高效扩散 Transformer 架构，专为图像超分辨率任务设计。DiT-SR 成功地结合了 $U$ 形全局架构和各向同性块设计，通过将计算资源重新分配到对图像超分辨率至关重要的高分辨率层，有效地提升了模型性能。此外，论文还深入分析了传统 AdaLN 的局限性，并引入了一种创新性的频率自适应时间步条件模块 AdaFM。AdaFM 通过在频率域而非空间域进行调制，增强了扩散模型在不同去噪阶段强调特定频率信息（特别是高频细节）的能力。

通过大量的实验验证，DiT-SR 在从头训练的扩散 SR 方法中取得了显著的性能提升。它甚至在某些关键指标上超越了部分依赖大规模预训练模型（如 Stable Diffusion）的基于先验的方法，而其参数量仅为后者的约 5%。这不仅证明了扩散 Transformer 在图像超分辨率领域的巨大潜力，也为在保持从头训练的灵活性和资源效率的前提下，达到与 SOTA 先验方法相媲美的性能提供了新的范式。

7.2. 局限性与未来工作

7.2.1. 局限性

与文本到图像模型的差距: 论文指出，由于任务差异和数据限制，图像超分辨率模型通常不像文本到图像模型那样具有同等的可扩展性。
性能提升空间: 尽管 DiT-SR 在参数量上具有显著优势，并取得了与基于先验模型竞争的性能，但它距离完全超越这些模型仍有一定距离。这表明在性能的绝对上限上，可能还需要进一步的架构创新或更大规模的训练。

7.2.2. 未来工作

AdaFM 的普适性: AdaFM 作为一种新的时间步条件化范式，具有推广到其他扩散模型的潜力，包括其他低级视觉任务 (low-level visual tasks) 甚至文本到图像生成 (text-to-image generation) 任务。这些任务也遵循从低频到高频的生成模式，因此 AdaFM 有望在这些领域发挥作用。

7.3. 个人启发与批判

7.3.1. 个人启发

架构融合的威力: DiT-SR 成功融合了 U-Net 的多尺度分层特征提取优势和 DiT 的可扩展性与各向同性设计。这提示我们，在面对新任务或优化现有任务时，不应局限于单一架构范式，而是可以创造性地结合不同架构的优点，实现 1+1>2 的效果。
资源再分配的重要性: 各向同性设计在 $U$ 形结构中的应用，特别是在高分辨率层集中计算资源，这表明了对模型内部计算资源进行智能且有针对性的分配，比盲目增加整体模型容量可能更有效。这对于资源受限或需要轻量化部署的场景具有重要指导意义。
频率域条件化的潜力: AdaFM 的提出，将时间步条件化从空间域转向频率域，极大地提升了模型处理频率信息的能力。这对于图像处理领域中，许多任务（如去噪、去模糊、超分）都与频率信息密切相关。未来的研究可以更多地探索如何在频率域进行特征调制、信息融合或条件化，以实现更精细的控制和更优的性能。
从头训练的潜力再确认: 面对 Stable Diffusion 等预训练大模型的强大性能，许多研究倾向于利用其先验。然而，DiT-SR 证明了通过精巧的架构设计，从头训练的小型模型仍有能力在特定任务上达到甚至超越大型预训练模型的水平，且在灵活性和部署成本上具有显著优势。这鼓励我们继续探索基础架构创新，而不是完全依赖预训练大模型。

7.3.2. 潜在问题与改进方向

AdaFM 的复杂性与解释性: 尽管 AdaFM 表现出色且参数效率高，但其在频率域的调制可能不如空间域的调制直观。更深入地分析 AdaFM 在不同频率分量上具体是如何动态调整权重，以及这种调整的物理或感知意义，可能会进一步提升其解释性和可设计性。例如，它是否在早期的去噪步骤中抑制高频噪声，而在后期放大高频细节？
计算成本与推理速度: 虽然 DiT-SR 的参数量远低于基于先验的方法，但在推理速度方面（尤其是多步去噪），扩散模型通常仍慢于 GAN 或流模型 (flow-based models)。尽管论文提到了与 SinSR 结合进行步长蒸馏，但如何进一步优化推理速度，使其更适用于实时应用，仍是一个重要的研究方向。
超参数敏感性: FFT 窗口大小 $p$ 是一个经验性设置的超参数。研究其对性能和效率的影响，并探索自适应或学习型窗口大小的机制，可能会进一步提升模型的鲁棒性和性能。
泛化能力: 论文主要在图像超分辨率和盲人脸恢复任务上进行了验证。DiT-SR 的架构是否能在其他低级视觉任务（如去模糊、去雨等）中保持同样的优势，值得进一步探索。尤其是对于那些对频率信息有不同侧重或具有更复杂结构退化的任务。
损失函数的优化: 论文在盲人脸恢复中除了扩散损失外还引入了 LPIPS 损失。探索更多感知损失 (perceptual losses) 或对抗损失 (adversarial losses) 的组合，以进一步优化生成图像的真实感和细节。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Effective Diffusion Transformer Architecture for Image Super-Resolution

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 37 分钟读完 · 26,518 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 隶属机构

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

2.3. CLIPIQA vs. Parameters & FLOPs 对比

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 图像超分辨率 (Image Super-Resolution, SR)

3.1.2. 扩散模型 (Diffusion Models, DMs)

3.1.3. 潜在扩散模型 (Latent Diffusion Models, LDM)

3.1.4. Transformer

3.1.5. Diffusion Transformer (DiT)

3.1.6. U-Net 架构

3.2. 前人工作与技术演进

3.2.1. 扩散模型的超分辨率应用

3.2.2. 扩散模型架构演进

3.3. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 整体架构

4.2.2. Transformer 块结构

4.2.3. U 形 DiT 中的各向同性设计

4.2.4. 频率自适应时间步条件模块 (Frequency-Adaptive Time Step Conditioning, AdaFM)

4.2.5. 残差偏移 (Residual Shifting)

5. 实验设置

5.1. 数据集

5.1.1. 训练数据集

5.1.2. 测试数据集

5.2. 评估指标

5.2.1. 参考指标

5.2.2. 非参考指标

5.3. 对比基线

5.4. 实现细节

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 对比最新 SOTA 方法 (Table 1 & 3)

6.1.2. 盲人脸恢复实验 (Appendix E, Table 7 & 8)

6.2. 消融实验与参数分析

6.2.1. U 形 DiT 与各向同性设计 (Table 2)

6.2.2. 自适应频率调制 (AdaFM) (Table 2)

6.2.3. 压缩 UUU 形 DiT (Appendix B, Table 5)

6.2.4. 轻量化版本 (Appendix C, Table 6)

6.3. 架构超参数 (Appendix A & Table 4)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.2.1. 局限性

7.2.2. 未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 潜在问题与改进方向

相似论文推荐

4.2.3. U 形 `DiT` 中的各向同性设计

6.2.1. U 形 `DiT` 与各向同性设计 (Table 2)

6.2.3. 压缩 $U$ 形 `DiT` (Appendix B, Table 5)