AiPaper
论文状态:已完成

DiT4SR: Taming Diffusion Transformer for Real-World Image Super-Resolution

发表:2025/03/31
原文链接PDF 下载
价格:0.10
价格:0.10
已有 9 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出DiT4SR,通过将低分辨率图像嵌入集成到扩散变换器的注意力机制,实现生成潜在特征与低分辨率特征的双向交互。结合跨流卷积层补充局部信息捕获,显著提升真实世界图像超分辨率性能,验证了扩散变换器在该任务中的有效性。

摘要

Large-scale pre-trained diffusion models are becoming increasingly popular in solving the Real-World Image Super-Resolution (Real-ISR) problem because of their rich generative priors. The recent development of diffusion transformer (DiT) has witnessed overwhelming performance over the traditional UNet-based architecture in image generation, which also raises the question: Can we adopt the advanced DiT-based diffusion model for Real-ISR? To this end, we propose our DiT4SR, one of the pioneering works to tame the large-scale DiT model for Real-ISR. Instead of directly injecting embeddings extracted from low-resolution (LR) images like ControlNet, we integrate the LR embeddings into the original attention mechanism of DiT, allowing for the bidirectional flow of information between the LR latent and the generated latent. The sufficient interaction of these two streams allows the LR stream to evolve with the diffusion process, producing progressively refined guidance that better aligns with the generated latent at each diffusion step. Additionally, the LR guidance is injected into the generated latent via a cross-stream convolution layer, compensating for DiT's limited ability to capture local information. These simple but effective designs endow the DiT model with superior performance in Real-ISR, which is demonstrated by extensive experiments. Project Page: https://adam-duan.github.io/projects/dit4sr/.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

DiT4SR: Taming Diffusion Transformer for Real-World Image Super-Resolution

1.2. 作者

Zheng-Peng Duan, Jiawei Zhang, Xin Jin, Ziheng Zhang, Zheng Xiong, Dongqing Zou, Jimmy S. Ren, Chunle Guo, Chongyi Li 等。 作者来自多个机构,包括南开大学 (Nankai University)、商汤研究院 (SensTime Research)、香港都会大学 (Hong Kong Metropolitan University) 以及 pBVR (可能是一个公司或研究机构的缩写)。

1.3. 发表期刊/会议

该论文目前作为预印本 (preprint) 发布在 arXiv 上,尚未在正式的期刊或会议上发表。根据标题中提到的 "Published at (UTC):2025-03-30T20:27:22.000Z",这可能意味着它计划在未来某个会议或期刊上发表,或者这是其在 arXiv 上的发布日期。

1.4. 发表年份

2025年(根据 arXiv 发布日期)

1.5. 摘要

该论文提出了 DiT4SR 模型,旨在将大规模预训练的扩散变换器 (Diffusion Transformer, DiT) 模型应用于真实世界图像超分辨率 (Real-World Image Super-Resolution, Real-ISR) 任务。鉴于 DiT 模型在图像生成方面相较于传统的 UNet 架构展现出卓越性能,作者探究了将其应用于 Real-ISR 的可行性。与 ControlNet 等直接注入低分辨率 (Low-Resolution, LR) 图像嵌入的方法不同,DiT4SR 将 LR 嵌入集成到 DiT 原有的注意力机制中,实现了 LR 潜在特征与生成潜在特征之间的双向信息流。这种充分的交互使得 LR 信息流能够随着扩散过程一起演化,从而在每个扩散步骤中产生逐步细化并与生成潜在特征更好地对齐的引导。此外,LR 引导通过一个跨流卷积层注入到生成的潜在特征中,以弥补 DiT 在捕获局部信息方面的不足。这些简洁而有效的设计赋予了 DiT 模型在 Real-ISR 任务中卓越的性能,并通过大量实验得到了验证。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 真实世界图像超分辨率 (Real-ISR) 任务的目标是从具有各种复杂降质(如压缩、模糊、噪声)的低分辨率 (LR) 图像中恢复出高分辨率 (HR) 图像。这不仅要求模型能够去除复杂降质,还需要生成感知上真实感 (perceptually realistic) 的细节以提升视觉质量。这个任务具有高度的病态性 (ill-posedness),需要模型具备丰富的先验知识来避免生成模糊或不真实的图像。

为什么这个问题是重要的,以及现有研究的挑战或空白:

  • 病态性 (Ill-posedness): 从 LR 图像恢复 HR 图像是一个欠定问题,LR 图像可能对应多个 HR 图像。
  • 复杂降质: 真实世界的 LR 图像通常包含多种未知且复杂的降质类型,这使得传统的超分辨率方法难以处理。
  • 感知质量 (Perceptual Quality): 除了客观指标(如 PSNR、SSIM),生成具有真实感和视觉吸引力的细节对于用户体验至关重要。
  • 现有方法的局限性:
    • 传统的基于卷积神经网络 (Convolutional Neural Network, CNN) 和变换器 (Transformer) 的方法在处理复杂真实降质时表现不佳。
    • 基于生成对抗网络 (Generative Adversarial Network, GAN) 的方法虽然能生成真实感细节,但常遭受训练不稳定性和生成不自然伪影 (unnatural visual artifacts) 的问题。
    • 基于扩散模型 (Diffusion Model) 的方法,特别是基于 UNet 的大型预训练文本到图像 (Text-to-Image, T2I) 模型(如 Stable Diffusion),因其丰富的生成先验知识 (generative priors) 在 Real-ISR 中变得流行。然而,这些方法通常通过 ControlNet 或类似机制将 LR 信息作为条件注入,这种单向注入可能限制了信息交互的深度。
    • Diffusion Transformer (DiT) 的兴起: 最近,DiT 模型在图像生成领域超越了传统 UNet 架构,展现出强大的细节生成和图像质量能力(如 SD3 和 Flux)。这引发了一个关键问题:能否将这种先进的 DiT 架构应用于 Real-ISR 任务,并充分发挥其优势?现有的 DiT-based SR 模型要么从头训练 DiT,要么仍采用 ControlNet 方式注入 LR 信息,未能充分利用 DiT 固有的多模态交互优势。

这篇论文的切入点或创新思路: DiT4SR 的创新点在于,它认识到 DiT 模型在图像生成中的强大能力,并试图将其“驯服” (tame) 以适应 Real-ISR。其核心思路是:

  1. 放弃 ControlNet 式的单向注入: 避免将 LR 图像嵌入作为独立的条件直接注入到噪声流 (Noise Stream),因为这限制了信息交互。
  2. 集成 LR 嵌入到 DiT 的注意力机制: 将 LR 嵌入作为一个新的信息流(LR Stream)直接整合到 DiT 模型原有的多模态注意力机制中,实现 LR 潜在特征与生成潜在特征之间的双向信息流 (bidirectional information flow)
  3. 允许 LR 流与扩散过程共同演化: 这种双向交互使得 LR 流能够随着扩散过程的进行而不断细化和调整,从而提供更准确和上下文感知的引导。
  4. 引入跨流卷积层弥补 DiT 局部信息捕获不足: 考虑到 DiT 的注意力机制主要关注全局信息,通过一个跨流卷积层 (cross-stream convolution layer) 将 LR 引导注入到噪声流的 MLP (Multi-Layer Perceptron) 之间,以增强模型捕获局部细节的能力。

2.2. 核心贡献/主要发现

论文最主要的贡献:

  1. 开创性地将大型 DiT 模型应用于 Real-ISR 任务: DiT4SR 是将大规模 DiT 模型用于 Real-ISR 的先驱工作之一,且不同于 ControlNet 等复制模块的方法,它将 LR Stream 直接集成到原始 DiT 块中,实现了 LR 引导与扩散过程之间的双向信息交互。
  2. 提出创新的 LR 集成机制: 通过将 LR 嵌入整合到 DiT 原始的注意力机制中,使得 LR 信息流能够与噪声流充分交互并共同演化,提供更精确的渐进式引导。
  3. 引入跨流卷积层增强局部信息捕获: 设计了一个卷积层,用于在 MLP 之间将 LR 引导注入到噪声流中,有效弥补了 DiT 模型在捕获局部信息方面的局限性,对于恢复精细结构至关重要。

论文得出的关键结论或发现:

  • DiT4SR 在多个真实世界数据集上,特别是在 RealLR200 和 RealLQ250 数据集上,在非参考指标 (non-reference metrics) 上取得了领先的性能,表明其生成高质量恢复结果的能力。
  • 定性结果显示,DiT4SR 在处理模糊降质时能生成更清晰、细节更丰富的图像,尤其在处理精细结构(如文字)方面表现出显著优势,甚至优于基于 SD3 的 ControlNet 方法。
  • 消融实验证明了 LR Integration、LR Residual 和 LR Injection 各个组件的有效性。LR Integration 确保了 LR 引导的适应性,LR Residual 保证了 LR 引导在深层块中的一致性,而 LR Injection (特别是通过卷积层) 显著提升了模型对局部细节的恢复能力。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 DiT4SR,需要掌握以下几个关键概念:

  • 图像超分辨率 (Image Super-Resolution, ISR): 这是一个计算机视觉任务,旨在从低分辨率 (LR) 图像中重建出高分辨率 (HR) 图像。
  • 真实世界图像超分辨率 (Real-World Image Super-Resolution, Real-ISR): 相比于传统的 ISR,Real-ISR 面对的是真实世界中受复杂且未知降质(如模糊、噪声、压缩伪影)影响的 LR 图像。这使得任务更具挑战性,因为它不仅需要放大图像,还需要同时去除这些降质并生成逼真的细节。
  • 扩散模型 (Diffusion Models): 一类生成模型,通过模拟一个逐步添加噪声的前向扩散过程,然后学习一个反向去噪过程来生成数据。它们在图像生成领域展现出强大的能力,能够生成高质量、多样化的图像。其核心思想是学习如何从噪声中恢复原始数据。
  • 潜在空间扩散模型 (Latent Diffusion Models, LDM): 如 Stable Diffusion (SD) 系列,它们不在像素空间直接进行扩散,而是将图像编码到低维的潜在空间 (latent space) 中进行扩散和去噪,从而显著降低计算成本,同时保持生成质量。图像通过变分自编码器 (Variational AutoEncoder, VAE) 的编码器被映射到潜在空间,去噪后的潜在特征再通过 VAE 的解码器恢复到像素空间。
  • 变换器 (Transformer): 一种基于自注意力 (self-attention) 机制的神经网络架构,最初用于自然语言处理,后被广泛应用于计算机视觉领域。其核心特点是能够高效地处理序列数据,并通过注意力机制捕获长距离依赖关系。
  • 扩散变换器 (Diffusion Transformer, DiT): 将 Transformer 架构应用于扩散模型中的去噪骨干网络。它用 Transformer 块替代了传统扩散模型中的 UNet 骨干网络。DiT 尤其擅长处理长距离依赖和全局信息,并在图像生成方面展现出超越 UNet 的性能。
  • 多模态扩散变换器 (Multimodal Diffusion Transformers, MM-DiT): DiT 的一个变体,能够同时处理多种模态的信息,例如图像(视觉特征)和文本(文本嵌入)。它通过在注意力机制中融合来自不同模态的标记 (tokens),实现模态间的双向信息交互。SD3 等模型就采用了 MM-DiT 架构。
  • 注意力机制 (Attention Mechanism): Transformer 的核心组件。它允许模型在处理序列数据时,动态地为输入序列的不同部分分配不同的“注意力权重”。在自注意力中,序列中的每个元素都关注序列中的所有其他元素。在交叉注意力 (cross-attention) 中,一个序列的元素关注另一个序列的元素。 其基本计算公式为: Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V 其中:
    • QQ (Query), KK (Key), VV (Value) 分别是输入序列经过线性变换后的表示。
    • QKTQ K^T 计算查询与键之间的相似度。
    • dk\sqrt{d_k} 用于缩放,防止内积过大导致 softmax 梯度过小,dkd_k 是键向量的维度。
    • softmax\mathrm{softmax} 函数将相似度转换为注意力权重。
    • VV 乘以注意力权重,得到加权的输出。
  • ControlNet: 一种用于向预训练扩散模型(如 Stable Diffusion)添加条件控制的方法。它通过复制扩散模型的骨干网络,并对其进行微调来处理条件输入(如边缘图、姿态图),然后将 ControlNet 的输出注入到原始扩散模型的对应层中,以引导生成过程。ControlNet 通常采用单向信息流,即条件信息流入生成网络。

3.2. 前人工作

  • 图像超分辨率 (Image Super-Resolution, ISR):

    • 传统方法: 早期多基于插值或基于学习的方法。
    • 深度学习方法:
      • 基于 CNN: 从 SRCNN [18] 开始,大量基于 CNN 的模型如 EDSR [32], RCAN [72], SwinIR [29] 等提升了性能。
      • 基于 Transformer: 后来引入 Transformer 架构,如 IPT [10], DAT [13] 等。
    • 局限性: 这些方法主要针对理想降质,难以处理真实世界的复杂降质。
  • 真实世界图像超分辨率 (Real-ISR):

    • 复杂降质模型: BSRGAN [67] 和 Real-ESRGAN [53] 探索了更复杂的降质模型来生成合成数据进行训练。
    • GAN-based 方法: GAN-based 方法 [6, 9, 31, 52] 通过学习高品质图像的分布来生成真实感细节,但存在训练不稳定、易产生伪影 [8, 30, 60] 等问题。
    • 基于扩散模型的方法 (UNet 架构):
      • 基于 Stable Diffusion (SD1/SD2) 的方法: 稳定扩散模型因其丰富的生成先验被引入。
        • StableSR [51], DiffBIR [33]:通过 ControlNet [68] 或类似机制注入 LR 信息作为条件。
        • PASD [63], SeeSR [58]:进一步整合高级语义信息以指导扩散过程。
      • 基于 SDXL 的方法: SUPIR [64] 探索了 SDXL 在 Real-ISR 中的扩展效果。
      • 效率提升: 还有一些工作 [7, 27, 34, 35, 45, 54, 57, 61, 66] 致力于提高扩散过程的效率。
  • 扩散变换器 (Diffusion Transformer):

    • DiT 架构: Peebles 和 Xie [36] 提出了 DiT,用 Transformer 替代了 UNet 骨干网络,在可扩展性和生成能力上取得了显著进展。
    • 大型 T2I 模型: 基于 DiT 的大型文本到图像模型如 PixArt-α\alpha [11], SD3 [20], Flux [3] 进一步提升了图像生成性能。
    • 多模态交互: 特别是 SD3 和 Flux 利用多模态扩散变换器 (MM-DiT) 通过注意力操作整合文本和图像模态,实现充分的模态间交互,这是 DiT 的核心优势。
    • DiT-based SR 相关工作:
      • DiT-SR [14]:从头训练 DiT-based SR 模型。
      • DreamClear [2]:提出了一个 DiT-based 图像恢复模型,但仍采用 ControlNet 方式注入 LR 信息。
      • 并发工作: 有两个并发工作 [19, 28] 探索一步 DiT-based SR 模型。

3.3. 技术演进

该领域的技术演进大致可以概括为:

  1. 早期 (插值/基于学习): 最早的超分辨率方法通常是简单的插值(如双线性、双三次插值)或浅层学习模型。
  2. CNN 时代 (2014年至今): 以 SRCNN [18] 为代表,深度卷积神经网络在 ISR 领域取得了巨大成功,通过学习复杂的映射关系来重建细节。随后出现了更深、更复杂的网络结构,如残差网络 (Residual Networks)、注意力机制 (Attention Mechanisms) 等。
  3. GAN 时代 (2017年至今): 针对感知质量的提升,GAN 被引入 ISR 领域,如 SRGAN、ESRGAN [52],通过对抗训练生成更具真实感的纹理,但伴随训练不稳定和伪影问题。
  4. Transformer 时代 (2021年至今): Transformer 架构因其强大的全局建模能力被引入计算机视觉,也应用于 ISR 任务,如 SwinIR [29]、IPT [10],展现了对长距离依赖的捕获能力。
  5. 扩散模型时代 (2022年至今): 扩散模型在图像生成领域取得突破,其强大的生成先验被视为解决 Real-ISR 病态性的关键。早期工作多基于 UNet 架构的潜在扩散模型(如 Stable Diffusion),通过 ControlNet 等机制注入条件信息。
  6. DiT 时代 (2023年至今): 扩散变换器 (DiT) 的出现,用 Transformer 替代 UNet 作为扩散模型的骨干,进一步提升了生成性能。SD3、Flux 等大型 T2I 模型均采用 DiT 架构。本文 DiT4SR 正是在这一背景下,旨在将 DiT 的优势带入 Real-ISR 领域,并超越 ControlNet 传统的条件注入方式。

3.4. 差异化分析

DiT4SR 与相关工作的主要区别和创新点在于:

  • 与传统 UNet-based 扩散模型 (如 StableSR, DiffBIR) 的区别: DiT4SR 采用更先进、性能更强的 DiT 架构作为骨干网络,而非 UNet。DiT 在处理长距离依赖和全局信息方面更具优势,且在生成大尺寸图像时表现出更好的可扩展性。
  • 与 ControlNet-like 方法 (如 StableSR, DiffBIR, DreamClear) 的区别: 这是最核心的区别。
    • ControlNet 的方法: 通常是复制或添加额外的网络模块来处理条件输入(如 LR 图像),然后将其输出单向地注入到主生成网络的对应层。这种方式信息流是“单向”的,条件信息指导生成过程,但生成过程的中间状态无法反过来影响条件流的演化。
    • DiT4SR 的方法: 将 LR 图像嵌入作为一个新的、独立的“流”(LR Stream)直接集成到 DiT 原始的多模态注意力机制中。这种集成使得 LR Stream、噪声流 (Noise Stream) 和文本流 (Text Stream) 之间能够进行双向信息交互。这意味着 LR 信息流不再是静态的条件,它可以随着扩散过程和噪声流的演化而动态调整和细化,提供更准确和上下文感知的引导。
  • 与现有 DiT-based SR (如 DiT-SR, DreamClear) 的区别:
    • DiT-SR 从头开始训练 DiT-based SR 模型,可能无法充分利用大型预训练 DiT 模型的丰富先验。
    • DreamClear 虽然是 DiT-based,但仍采用 ControlNet 方式注入 LR 信息,未能充分发挥 DiT 固有的多模态交互优势。DiT4SR 则通过深度集成实现了更强的交互。
  • 独特的局部信息捕获机制: DiT 的注意力机制倾向于全局信息,而 Real-ISR 任务对局部细节恢复(如文字、纹理)要求很高。DiT4SR 通过在 MLP 之间引入一个跨流卷积层来注入 LR 引导,有效弥补了 DiT 在局部信息捕获上的不足,这是其独特的设计。

4. 方法论

4.1. 方法原理

DiT4SR 的核心原理在于将 Diffusion Transformer (DiT) 模型的强大生成能力与 Real-World Image Super-Resolution (Real-ISR) 任务的需求相结合。DiT 模型(如 SD3)在图像生成方面表现出色,因为它使用 Transformer 架构替代了传统的 UNet,并通过多模态扩散变换器 (MM-DiT) 实现了图像和文本之间的深度交互。DiT4SR 的直觉是,如果 DiT 能够有效地处理多模态信息并生成高质量图像,那么它也应该能够处理 LR 图像作为一种视觉条件来生成 HR 图像,并且通过更深度的信息集成,可以超越传统 ControlNet 式的条件注入。

该方法基于以下核心思想:

  1. 利用 DiT 的丰富生成先验: 大规模预训练的 DiT 模型(如 SD3)包含了大量的真实世界图像先验知识,这对于解决 Real-ISR 的病态性至关重要。
  2. 双向信息流: 与 ControlNet 这种单向注入 LR 嵌入的方式不同,DiT4SR 旨在建立 LR 潜在特征 (LR latent) 与生成潜在特征 (generated latent) 之间的双向信息流。这种双向性允许 LR 引导在整个扩散过程中动态地演化和自我调整,更好地对齐正在生成的图像内容。
  3. 弥补局部信息不足: DiT 的注意力机制偏向于全局信息处理,但 Real-ISR 任务需要精确的局部细节恢复。因此,DiT4SR 额外引入了卷积操作来增强对 LR 局部信息的捕获和注入。

4.2. 核心方法详解

DiT4SR 是基于 DiT-architectured SD3 构建的。其整体架构和核心模块都围绕如何有效地将 LR 图像信息整合到 DiT 的扩散去噪过程中。

4.2.1. 架构概述

如同之前的 Stable Diffusion 模型,SD3 也在潜在空间 (latent space) 中执行扩散过程。它由一系列多模态扩散变换器 (MM-DiT) 块组成。每个 MM-DiT 块为图像嵌入(Noise Stream)和文本标记(Text Stream)使用单独的权重集,并在注意力机制中合并它们的序列以实现跨模态交互。这种设计允许两个流在扩散过程中共同演化,是 DiT 的关键优势。

对比 SD3-ControlNet 与 DiT4SR:

  • SD3-ControlNet (如图 2(a) 所示): 如果采用 ControlNet 方式,SD3-ControlNet 会在额外的 DiT 块中处理 LR Stream,然后通过可训练的线性层将 LR 嵌入直接注入到 Noise Stream。这建立了一个从 LR Stream 到 Noise Stream 的单向信息流,限制了信息交互的深度。

  • DiT4SR (如图 2(b) 所示): DiT4SR 将 LR Stream 直接集成到原始的 DiT 块中。这种设计实现了双向信息流,允许 LR Stream 在整个扩散过程中不断适应,并生成与演化中的 Noise Stream 更有效对齐的引导。

    Figure 2. Network Structure comparison between SD3- ControlNet and our DiT4SR. The information flow across streams is marked with red lines and the direction is indicated by arrows. Notably, our DiT4… 该图像是论文中图2的示意图,比较了SD3-ControlNet与DiT4SR的网络结构。图中红色箭头表示信息流向,DiT4SR实现了LR流与噪声流的双向信息交互,而SD3-ControlNet仅为单向流动,限制了交互。

Figure 2. Network Structure comparison between SD3- ControlNet and our DiT4SR. The information flow across streams is marked with red lines and the direction is indicated by arrows. Notably, our DiT4SR enables bidirectional information interaction, allowing the LR Stream and Noise Stream to continuously interact and evolve together, whereas SD3-ControlNet relies on one-direction information flow, restricting the interaction.

输入处理:

  1. 噪声潜在特征 (Z\mathbf{Z}): 类似于 SD3,扩散过程的输入是带有噪声的潜在特征 ZRH×W×C\mathbf{Z} \in \mathbb{R}^{H \times W \times C}。它首先被展平为长度为 KK 的块序列 (K=H2W2K = \frac{H}{2} \cdot \frac{W}{2}),然后通过线性层投影到 DD 维空间,得到噪声图像标记 (noisy image token) XRK×D\mathbf{X} \in \mathbb{R}^{K \times D}。接着,添加位置嵌入 (position embedding)。
  2. 低分辨率图像 (ILR\mathbf{I}_{LR}): LR 图像 ILR\mathbf{I}_{LR} 首先通过预训练的 VAE 编码器 (pre-trained VAE encoder) 编码到潜在空间。由于 LR 潜在特征和噪声潜在特征都是视觉表示形式,它们遵循相同的处理过程,并添加相同的位置嵌入,得到 LR 图像标记 (LR image token) LRK×D\mathbf{L} \in \mathbb{R}^{K \times D}
  3. 文本描述 (C\mathbf{C}): 输入的 LR 图像描述(caption)由三个预训练的文本模型(CLIP-L [39], CLIP-G [15], T5 XXL [40])编码。CLIP 模型的输出被池化 (pooled) 并与时间步 tt 结合,用于调制 DiT 的内部特征。此外,所有三个文本表示结合起来构建一个长度为 MM 的文本标记 (text token) CRM×D\mathbf{C} \in \mathbb{R}^{M \times D}

MM-DiT-Control 块: DiT4SR 引入了一个新的 MM-DiT-Control 块,它在原始 MM-DiT 块的基础上进行了修改,以处理额外的 LR Stream。这个块允许 LR 信息指导 HR 潜在特征的生成。经过 NN 个 MM-DiT-Control 块和反块操作 (unpatch operation) 后,Noise Stream 输出当前时间步 tt 的去噪潜在特征。重复 TT 步扩散过程并解码干净的潜在特征 Z0\mathbf{Z}_0,最终获得所需的 HR 结果 R\mathbf{R}

该图像是论文中DiT4SR方法的结构示意图,包括(a)整体框架和(b)单个MM-DiT-Control模块的详细结构,展示了多流融合Transformer在扩散模型中的应用及LR信息的注入机制。 该图像是论文中DiT4SR方法的结构示意图,包括(a)整体框架和(b)单个MM-DiT-Control模块的详细结构,展示了多流融合Transformer在扩散模型中的应用及LR信息的注入机制。

Figure 3. (a) is the overall architecture of DiT4SR. (b) is the detailed structure of a single MM-DiT-Control block, which consists of two main parts: LR Integration in Attention and LR Injection between MLP. These two designs enable bidirectional information interaction between the LR Stream and the Noise Stream, and compensate for the limited local information-capturing ability of DiT, respectively. The LR stream is marked in blue, and the Noise Stream is marked in red.

4.2.2. LR 集成在注意力机制中 (LR Integration in Attention)

在 MM-DiT-Control 块中,所有三个流(Noise Stream X\mathbf{X}、LR Stream L\mathbf{L} 和 Text Stream C\mathbf{C})依次经过联合注意力机制 (joint attention mechanism) 和 MLP 操作。

联合注意力机制的输入构建: 联合注意力机制的 Query (Q\mathbf{Q})、Key (K\mathbf{K})、Value (V\mathbf{V}) 是通过连接 (concatenation) 三个流的投影得到的。 Q=PQX(X)PQL(L)PQC(C),K=PKX(X)PKL(L)PKC(C),V=PVX(X)PVL(L)PVC(C), \begin{array} { r } { \mathbf { Q } = P _ { \mathbf { Q } } ^ { \mathbf { X } } ( \mathbf { X } ) \circledast P _ { \mathbf { Q } } ^ { \mathbf { L } } ( \mathbf { L } ) \circledast P _ { \mathbf { Q } } ^ { \mathbf { C } } ( \mathbf { C } ) , } \\ { \mathbf { K } = P _ { \mathbf { K } } ^ { \mathbf { X } } ( \mathbf { X } ) \circledast P _ { \mathbf { K } } ^ { \mathbf { L } } ( \mathbf { L } ) \circledast P _ { \mathbf { K } } ^ { \mathbf { C } } ( \mathbf { C } ) , } \\ { \mathbf { V } = P _ { \mathbf { V } } ^ { \mathbf { X } } ( \mathbf { X } ) \circledast P _ { \mathbf { V } } ^ { \mathbf { L } } ( \mathbf { L } ) \circledast P _ { \mathbf { V } } ^ { \mathbf { C } } ( \mathbf { C } ) , } \end{array} 其中:

  • XRK×D\mathbf{X} \in \mathbb{R}^{K \times D} 是噪声图像标记 (Noise Stream)。
  • LRK×D\mathbf{L} \in \mathbb{R}^{K \times D} 是 LR 图像标记 (LR Stream)。
  • CRM×D\mathbf{C} \in \mathbb{R}^{M \times D} 是文本标记 (Text Stream)。
  • PQXP_{\mathbf{Q}}^{\mathbf{X}}, PKXP_{\mathbf{K}}^{\mathbf{X}}, PVXP_{\mathbf{V}}^{\mathbf{X}} 是针对 X\mathbf{X} 的预训练线性投影。
  • PQCP_{\mathbf{Q}}^{\mathbf{C}}, PKCP_{\mathbf{K}}^{\mathbf{C}}, PVCP_{\mathbf{V}}^{\mathbf{C}} 是针对 C\mathbf{C} 的预训练线性投影。
  • PQLP_{\mathbf{Q}}^{\mathbf{L}}, PKLP_{\mathbf{K}}^{\mathbf{L}}, PVLP_{\mathbf{V}}^{\mathbf{L}} 是针对 L\mathbf{L} 新创建的可训练线性投影。它们的权重被初始化为零,这意味着在训练初期 LR Stream 的影响可以忽略,并在训练过程中逐步增长。
  • \circledast 表示拼接 (concatenation) 操作,将所有 Query (Key, Value) 投影连接起来形成统一的 Q\mathbf{Q}, K\mathbf{K}, V\mathbf{V}

联合注意力计算: 联合注意力机制的计算遵循标准的自注意力公式: Attention(Q,K,V)=softmax(QKTd)attentionmapV \mathrm { A t t e n t i o n } ( \mathbf { Q } , \mathbf { K } , \mathbf { V } ) = \underbrace { \mathrm { s o f t m a x } ( \frac { \mathbf { Q } \mathbf { K } ^ { T } } { \sqrt { d } } ) } _ { \mathrm { a t t e n t i o n } \operatorname* { m a p } } \mathbf { V } 其中:

  • dd 是 Query/Key 向量的维度。
  • 这个公式允许三个流(噪声图像、LR 图像、文本)之间进行全面的信息交互。

双向交互与 LR Residual:

  • 这种设计实现了 LR Stream 与 Noise Stream 之间的双向交互。通过观察图 4(a) 中 XL\mathbf{X} \to \mathbf{L}LX\mathbf{L} \to \mathbf{X} 的注意力图,可以发现对角线区域被激活,表明两者之间存在信息交互。这不仅使 Noise Stream 受到 LR 引导的影响,也允许 LR Stream 根据 Noise Stream 的状态进行调整,提供更准确、上下文感知的引导。

    Figure 4. (a) Visualization of four attention maps for noisy image token X and LR image token L ( \(\\mathbf X \\to \\mathbf X\) , \(\\mathbf X \\to \\mathbf L\) , \(\\mathbf { L } \\to \\mathbf { X }\) , \$\\mathbf… 该图像是论文中图4的示意图,展示了24th MM-DiT-Control中噪声图像token X和低分辨率图像token L的四种注意力图(XX\mathbf{X} \to \mathbf{X}XL\mathbf{X} \to \mathbf{L}LX\mathbf{L} \to \mathbf{X}LL\mathbf{L} \to \mathbf{L})以及有无LR Residual情况下XL\mathbf{X} \to \mathbf{L}的注意力变化。带LR Residual时,低分辨率引导在更深层块中保持较好一致性。

Figure 4. (a) Visualization of four attention maps for noisy image token X and LR image token L ( XX\mathbf X \to \mathbf X , XL\mathbf X \to \mathbf L , LX\mathbf { L } \to \mathbf { X } , L\mathbf { L } L\mathbf { L } )in the 24th MM-DiT-Control. Diagonal lines of XL\mathbf X \to \mathbf L and LX\mathbf L \to \mathbf X indicate the information interaction between X\mathbf { X } and L\mathbf { L } . (b) Attention maps for XL\mathbf X \to \mathbf L w/ and w/o LR Residual. Without LR Residual, LR guidance diminishes with increasing block depth (in the 1st, 13th, and 24th MM-DiT-Control). LR Residual can significantly enhance the consistency of LR guidance.

  • LR Residual: 作者发现,L 和 X 之间的信息交互在连续的注意力块中会衰减(如图 4(b) 所示)。为了增强 LR 引导的一致性,DiT4SR 引入了一个额外的快捷连接 (shortcut),将输入 LR 信息直接传递到 LR Stream 的注意力模块输出。这确保了 LR 引导在更深层的 Transformer 块中也能有效保留,从而在整个扩散过程中对 Noise Stream 产生持续的影响。

4.2.3. LR 注入在 MLP 之间 (LR Injection between MLP)

尽管联合注意力机制提供了全局信息交互,但它仅依靠位置嵌入来提供空间信息,这对于需要精确局部细节恢复的 Real-ISR 任务来说是不够的。

注入机制: 为了增强 LR 信息的引导并捕获局部信息,DiT4SR 将 LR Stream 和 Noise Stream 的 MLP (Multi-Layer Perceptron) 之间的中间特征进行连接。

  1. 在 LR Stream 和 Noise Stream 的 MLP 中,隐藏状态维度首先会扩展 4 倍,然后通过两个线性投影恢复到原始大小。
  2. 这些中间特征被表示为 ϕ(X)ˉRK×4D\bar{\phi(\mathbf{X})} \in \mathbb{R}^{K \times 4D}(来自 Noise Stream)和 η(L)RK×4D\eta(\mathbf{L}) \in \mathbb{R}^{K \times 4D}(来自 LR Stream)。
  3. 首先,η(L)\eta(\mathbf{L}) 被重塑 (reshape) 为 η(L)RH2×W2×4D\eta(\mathbf{L})' \in \mathbb{R}^{\frac{H}{2} \times \frac{W}{2} \times 4D},即从标记序列形式恢复到二维图像形式。
  4. 然后,一个 3×33 \times 3深度可分离卷积层 (depth-wise convolution layer) 应用于 η(L)\eta(\mathbf{L})',其权重被初始化为零。
  5. 卷积层的输出再被重塑回图像标记形式,并加到 Noise Stream 的 MLP 中间特征 ϕ(X)ˉ\bar{\phi(\mathbf{X})} 上。通过这种方式,LR 信息有效地注入到 Noise Stream 中。

为什么选择深度可分离卷积层:

  • DiT 模型的全局注意力机制限制了其捕获局部信息的能力。

  • 简单的线性层注入 LR 引导在修复精细结构(如文字)方面仍然不足(如图 5(c) 所示)。

  • 3×33 \times 3 深度可分离卷积层能够从 LR Stream 中捕获更精确的局部信息,并将其注入到 Noise Stream,从而在恢复精细结构方面表现出更好的性能(如图 5(d) 所示)。

    Figure 5. (a) is the LR input. (b) is the result w/o LR Injection between MLP. (c) injects the LR information through a linear layer. (d) is the result of our DiT4SR which replaces the linear layer w… 该图像是图5的示意图,展示了使用不同方法注入低分辨率(LR)信息对超分辨率恢复的效果对比。(a)为LR输入,(b)未注入LR信息,(c)通过线性层注入LR信息,(d)为DiT4SR方法,用卷积层替代线性层,显著提升了局部细节恢复效果。

Figure 5. (a) is the LR input. (b) is the result w/o LR Injection between MLP. (c) injects the LR information through a linear layer. (d) is the result of our DiT4SR which replaces the linear layer with a convolution layer. The convolution layer helps capture more precise local information, reflected by remarkable performance in recovering fine structures. All results are obtained by retraining the specific models under the same settings.

总结来说,DiT4SR 通过“LR 集成在注意力机制中”实现 LR 引导与生成过程的双向、全局交互和共同演化,并通过“LR 注入在 MLP 之间”利用局部卷积增强 DiT 对 LR 局部信息的捕获,从而全面提升了 Real-ISR 任务的性能。

5. 实验设置

5.1. 数据集

5.1.1. 训练数据集

DiT4SR 采用的数据集组合与 SeeSR [58] 相似,包括:

  • DIV2K [1]: 一个包含 2K 高质量图像的基准数据集。

  • DIV8K [22]: 一个包含 8K 高分辨率图像的数据集。

  • Flickr2K [46]: 一个包含 2K 高质量图像的数据集。

  • FFHQ [24]: 一个包含 10K 人脸图像的高质量数据集,作者使用了其中前 10K 张人脸图像。

  • 自捕获高分辨率图像: 为了充分利用模型潜力并扩大训练数据集,额外加入了 1K 张自捕获的高分辨率图像。

    降质处理: 使用 Real-ESRGAN [53] 的降质管线来合成 LR-HR 训练对,参数配置与 SeeSR 相同。 分辨率: LR 图像分辨率设置为 128×128128 \times 128,HR 图像分辨率设置为 512×512512 \times 512

5.1.2. 评估数据集

DiT4SR 在四个广泛使用的真实世界数据集上进行评估,所有实验均使用 ×4\times 4 的放大因子。

  • DrealSR [56]: 包含 93 张图像。为了评估,采用中心裁剪 (center-cropping),LR 图像分辨率设置为 128×128128 \times 128
  • RealSR [5]: 包含 100 张图像。同样采用中心裁剪,LR 图像分辨率设置为 128×128128 \times 128
  • RealLR200 [58]: 由 SeeSR 提出,包含 200 张分辨率显著不同的图像。此数据集缺乏对应的真实标注 (Ground Truth, GT) 图像
  • RealLQ250 [2]: 由 DreamClear 建立,包含 200 张固定分辨率为 256×256256 \times 256 的图像。此数据集也缺乏对应的真实标注 (Ground Truth, GT) 图像

5.2. 评估指标

由于全参考指标(如 PSNR [55] 和 SSIM [55])难以反映恢复结果的视觉效果 [4, 23, 64],论文主要使用感知测量和非参考指标。

  • LPIPS (Learned Perceptual Image Patch Similarity) [69]:

    • 概念定义: LPIPS 是一种感知相似度指标,旨在更好地与人类的视觉感知判断对齐。它通过比较两个图像在预训练深度神经网络(如 AlexNet、VGG 等)的特征空间中的差异来衡量相似性。LPIPS 值越低表示图像越相似,感知质量越好。
    • 数学公式: LPIPS(x,x0)=l1HlWlwl(ϕl(x)ϕl(x0))22 \mathrm{LPIPS}(\mathbf{x}, \mathbf{x}_0) = \sum_l \frac{1}{H_l W_l} \|w_l \odot (\phi_l(\mathbf{x}) - \phi_l(\mathbf{x}_0))\|_2^2
    • 符号解释:
      • x\mathbf{x}: 原始图像(或真实标注图像)。
      • x0\mathbf{x}_0: 生成的图像。
      • ll: 表示预训练深度神经网络中不同的层。
      • ϕl()\phi_l(\cdot): 从预训练网络第 ll 层提取的特征堆栈(feature stack)。
      • Hl,WlH_l, W_l: 第 ll 层特征图的高度和宽度。
      • wlw_l: 可学习的权重,用于缩放不同层的重要性。
      • \odot: 逐元素乘法 (element-wise multiplication)。
      • 22\|\cdot\|_2^2: L2L_2 范数的平方。
  • MUSIQ (Multi-scale Image Quality Transformer) [25]:

    • 概念定义: MUSIQ 是一种非参考图像质量评估 (No-Reference Image Quality Assessment, NR-IQA) 指标,它使用 Transformer 架构从多个尺度(分辨率)评估图像质量,旨在更好地捕捉人类视觉系统对图像质量的感知。
    • 数学公式: (论文中未直接给出 MUSIQ 的数学公式,其核心是一个基于 Transformer 的深度学习模型。通常这类指标输出一个分数,代表感知质量。一般而言,分数越高表示质量越好。) MUSIQ(x)=fTransformer({ϕs(x)}sS) \mathrm{MUSIQ}(\mathbf{x}) = f_{\mathrm{Transformer}}(\{\phi_s(\mathbf{x})\}_{s \in S})
    • 符号解释:
      • x\mathbf{x}: 待评估的图像。
      • fTransformer()f_{\mathrm{Transformer}}(\cdot): 基于 Transformer 的质量预测模型。
      • ϕs(x)\phi_s(\mathbf{x}): 图像 x\mathbf{x} 在不同尺度 ss 下的特征表示。
      • SS: 评估所使用的多尺度集合。
  • MANIQA (Multi-Dimension Attention Network for No-Reference Image Quality Assessment) [62]:

    • 概念定义: MANIQA 也是一种非参考图像质量评估指标,它利用多维度注意力网络来预测图像质量。它旨在通过捕获图像不同维度(如空间、通道)的特征来提供更全面的质量评估。
    • 数学公式: (论文中未直接给出 MANIQA 的数学公式,其核心是一个基于深度学习的质量预测模型。通常这类指标输出一个分数,代表感知质量。一般而言,分数越高表示质量越好。) MANIQA(x)=gAttentionNet(ψ(x)) \mathrm{MANIQA}(\mathbf{x}) = g_{\mathrm{AttentionNet}}(\psi(\mathbf{x}))
    • 符号解释:
      • x\mathbf{x}: 待评估的图像。
      • gAttentionNet()g_{\mathrm{AttentionNet}}(\cdot): 基于多维度注意力网络的质量预测模型。
      • ψ(x)\psi(\mathbf{x}): 从图像 x\mathbf{x} 中提取的特征表示。
  • ClipIQA (Exploring CLIP for Assessing the Look and Feel of Images) [50]:

    • 概念定义: ClipIQA 利用预训练的 CLIP (Contrastive Language–Image Pre-training) 模型来评估图像质量。它通过衡量图像与描述高质量图像的文本提示之间的相似度来推断图像的感知质量。
    • 数学公式: (论文中未直接给出 ClipIQA 的数学公式,其核心是基于 CLIP 模型计算图像和文本嵌入的相似度。通常这类指标输出一个分数,分数越高表示质量越好。) ClipIQA(x,Tgood)=similarity(CLIP_image_encoder(x),CLIP_text_encoder(Tgood)) \mathrm{ClipIQA}(\mathbf{x}, T_{\mathrm{good}}) = \mathrm{similarity}(\mathrm{CLIP\_image\_encoder}(\mathbf{x}), \mathrm{CLIP\_text\_encoder}(T_{\mathrm{good}}))
    • 符号解释:
      • x\mathbf{x}: 待评估的图像。
      • TgoodT_{\mathrm{good}}: 描述高质量图像的文本提示(例如,“一张高质量的图像”)。
      • CLIP_image_encoder()\mathrm{CLIP\_image\_encoder}(\cdot): CLIP 模型的图像编码器。
      • CLIP_text_encoder()\mathrm{CLIP\_text\_encoder}(\cdot): CLIP 模型的文本编码器。
      • similarity(,)\mathrm{similarity}(\cdot, \cdot): 衡量两个嵌入向量相似度(如余弦相似度)。
  • LIQE (Blind Image Quality Assessment via Vision-Language Correspondence: A Multitask Learning Perspective) [70]:

    • 概念定义: LIQE 是一种盲图像质量评估 (Blind Image Quality Assessment, BIQA) 指标,它通过视觉-语言对应关系和多任务学习来预测图像质量。它旨在在没有参考图像的情况下,准确评估图像的感知质量。
    • 数学公式: (论文中未直接给出 LIQE 的数学公式,其核心是一个基于多任务学习和视觉-语言对应关系的深度学习模型。通常这类指标输出一个分数,分数越高表示质量越好。) LIQE(x)=hMultitaskNet(ρ(x)) \mathrm{LIQE}(\mathbf{x}) = h_{\mathrm{MultitaskNet}}(\rho(\mathbf{x}))
    • 符号解释:
      • x\mathbf{x}: 待评估的图像。
      • hMultitaskNet()h_{\mathrm{MultitaskNet}}(\cdot): 基于多任务学习网络的质量预测模型。
      • ρ(x)\rho(\mathbf{x}): 从图像 x\mathbf{x} 中提取的特征表示。
  • 用户研究 (User Study):

    • 概念定义: 通过邀请人类评估者对不同方法生成的图像进行主观评价,以衡量其感知质量(如真实感和保真度)。这是评估生成模型质量的黄金标准之一。
    • 具体问题:
      1. 哪个恢复结果具有更高的图像真实感 (image realism)?
      2. 哪个恢复结果与原始图像内容具有更好的保真度 (fidelity)?

5.3. 对比基线

论文将 DiT4SR 与以下最先进的 Real-ISR 方法进行了比较:

  • GAN-based 方法:
    • Real-ESRGAN [53]
    • SwinIR [29] (虽然 SwinIR 是基于 Transformer 的,但在 Real-ISR 的背景下,它通常被视为一种强大的基线,有时与 GAN 方法一同列出或作为感知导向方法的代表。)
  • 基于 UNet 架构的扩散模型:
    • ResShift [65]
    • StableSR [51]
    • SeeSR [58]
    • DiffBIR [33]
    • OSEDiff [57]
    • SUPIR [64]
  • 基于 DiT 架构的扩散模型:
    • DreamClear [2] (虽然是 DiT-based,但采用 ControlNet 方式注入 LR 信息。)
    • SD3-ControlNet (论文自行构建的基线,使用 SD3.5-medium 参数初始化,采用 ControlNet [48] 默认配置,并在与 DiT4SR 相同的设置下训练。)

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定量比较

以下是原文 Table 1 的结果:

DatasetsMetricsReal- ESRGANSwinIRResShift StableSRSeeSRDiffBIROSEDiffSUPIRDreamClearSD3- ControlNetDiT4SR
DrealSRLPIPS ↓0.2820.2740.3530.2730.3170.4520.2970.4190.3540.3230.365
MUSIQ ↑54.26752.73752.39258.51265.07765.66564.69259.74444.04755.95664.950
MANIQA ↑0.4900.4750.4760.5590.6050.6290.5900.5520.4550.5450.627
ClipIQA ↑0.4090.3960.3790.4380.5430.5720.5190.5180.3790.4490.548
LIQE2.9272.7452.7983.2434.1263.8943.9423.7282.4013.0593.964
RealSRLPIPS ↓0.2710.2540.3160.3060.2990.3470.2920.3570.3250.3050.319
MUSIQ ↑60.37058.69456.89265.65369.67568.34069.08761.92959.39662.60468.073
MANIQA ↑0.5510.5240.5110.6220.6430.6530.6340.5740.5460.5990.661
ClipIQA ↑0.4320.4220.4070.4720.5770.5860.5520.5430.4740.4840.550
LIQE ↑3.3582.9562.8533.7504.1234.0264.0653.7803.2213.3383.977
RealLR200MUSIQ ↑62.96163.54859.69563.43369.42868.02769.54764.83765.92665.62370.469
MANIQA ↑0.5530.5600.5250.5790.6120.6290.6060.6000.5970.5870.645
ClipIQA ↑0.451 3.4840.463 3.4650.452 3.0540.458 3.3790.566 4.0060.582 4.0030.551 4.0690.5240.5460.5260.588
LIQE ↑3.6263.7753.7334.331
RealLQ250MUSIQ ↑62.51463.37159.33756.85870.55669.87669.58066.01666.69366.38571.832
MANIQA ↑0.5240.5340.5000.5040.5940.6240.5780.5840.5850.5680.632
ClipIQA ↑0.4350.4400.4170.3820.5620.578 4.0030.5280.4830.5020.5090.578
LIQE ↑3.3413.2802.7532.7194.0053.9043.6053.6883.6394.356

分析:

  • DrealSR 和 RealSR 数据集: 在这两个数据集上,DiT4SR 取得了具有竞争力的结果。例如,在 DrealSR 上,虽然 LPIPS 略高于 SeeSR 和 ResShift StableSR,但在 MUSIQ, MANIQA, ClipIQA, LIQE 等感知质量和非参考指标上,DiT4SR 表现与 SeeSR 和 DiffBIR 相当甚至更优。在 RealSR 上,DiT4SR 在 MUSIQ, MANIQA 上也取得了领先或接近领先的性能。

  • RealLR200 和 RealLQ250 数据集: 这两个数据集缺乏真实标注 (Ground Truth),因此主要依赖非参考指标评估。DiT4SR 在这两个数据集上展现了压倒性的性能,在所有非参考指标上均取得了最佳结果。例如,在 RealLQ250 上,DiT4SR 的 MUSIQ (71.832)、MANIQA (0.632)、ClipIQA (0.578)、LIQE (4.356) 均显著高于所有其他基线方法,包括基于 SD3 的 SD3-ControlNet。

  • LPIPS 表现: 值得注意的是,DiT4SR 在 DrealSR 和 RealSR 上的 LPIPS 值相对较高(LPIPS 越低越好)。这可能表明模型在一些像素级别的特征相似性上可能略逊于某些基线,但其在非参考指标上的优异表现强烈支持了其在感知质量上的优势。对于 Real-ISR,感知质量通常比像素级精度更受重视。

  • 与 SD3-ControlNet 的对比: DiT4SR 在所有指标上均显著优于 SD3-ControlNet,这有力地证明了 DiT4SR 所提出的 LR 信息集成机制(双向交互、局部注入)相对于 ControlNet 式单向注入的优越性。

    这些定量结果突出表明,DiT4SR 能够产生高质量的恢复结果,特别是在真实世界无参考场景下,其生成高感知质量图像的能力非常突出。

6.1.2. 定性比较

该图像是多个真实世界低分辨率图像与不同超分辨率方法重建结果的对比示意图。图中包含DiT4SR和其他五种算法的细节放大区域,展示了DiT4SR在细节恢复上的优势。 该图像是多个真实世界低分辨率图像与不同超分辨率方法重建结果的对比示意图。图中包含DiT4SR和其他五种算法的细节放大区域,展示了DiT4SR在细节恢复上的优势。

Figure 6. Qualitative comparisons against other state-of-the-art methods. Our method generates results with better clarity and richer details, especially for fine structures like text.

分析: 从图 6 的定性比较中可以看出:

  • 清晰度和细节: 在面对严重的模糊降质时(前两行示例),DiT4SR 能够生成具有更好清晰度和更丰富细节的结果,例如建筑物轮廓、窗户装饰和砖墙纹理都更加锐利和真实。这归因于 DiT4SR 充分利用了 SD3 强大的生成能力。
  • 精细结构处理: 在处理精细结构,特别是文字和建筑细节方面(后两行示例),DiT4SR 展现出独特的优势。例如,图片中的文字(如商店招牌上的小字)得到了更好的恢复,边缘清晰可辨,而其他方法可能生成模糊或扭曲的文字。
  • 对比 SD3-ControlNet: 即使是同样基于 SD3 的 SD3-ControlNet,在处理这些精细结构时也未能达到 DiT4SR 的效果。这进一步突出了 DiT4SR 提出的控制机制(双向信息交互、局部卷积注入)相对于传统 ControlNet 的优越性,因为它能更全面地利用 LR 信息,生成高保真度的恢复结果。

6.1.3. 用户研究

以下是原文 Table 2 的结果:

Ours vs.SeeSRDiffBIRSUPIRDreamClear
Realism82.1%83.6%81.7%72.7%
Fidelity68.9%79.5%75.4%64.5%

分析: 用户研究的结果进一步验证了 DiT4SR 的卓越性能。

  • 图像真实感 (Image Realism): DiT4SR 在与所有对比方法进行比较时,在“图像真实感”方面均取得了显著的优势,胜率均超过 72%,最高达到 83.6% (对比 DiffBIR)。这表明人类评估者普遍认为 DiT4SR 生成的图像更具真实感。

  • 图像保真度 (Fidelity): 在“与原始图像内容的保真度”方面,DiT4SR 也表现出色,胜率均超过 64%,最高达到 79.5% (对比 DiffBIR)。这说明 DiT4SR 在生成真实感细节的同时,也很好地保持了与 LR 输入的一致性。

    这些主观评估结果与非参考客观指标的结论一致,共同强调了 DiT4SR 在 Real-ISR 任务中强大的感知质量和真实感生成能力。

6.2. 消融实验/参数分析

论文通过在 RealLQ250 数据集上进行消融研究,并使用 MUSIQ 和 MANIQA 作为评估指标,来验证 DiT4SR 各个组件的有效性。所有变体都在与完整模型相同的设置下进行训练,以确保公平比较。

以下是原文 Table 3 的结果:

ModelLR IntegationLR ResidualLR InjectionMUSIQ ↑MANIQA ↑
FULLvConv71.8320.632
A×Conv66.9630.574
B×Conv70.8870.614
CJJJ:X71.2020.610
DLinear71.6070.621

分析:

6.2.1. LR 集成在注意力机制中的有效性 (Effectiveness of LR Integration)

  • 变体 A (无 LR Integration): 删除了注意力计算中的 LR Stream,但保留了 LR Injection。
  • 结果: MUSIQ 从 FULL 模型的 71.832 下降到 66.963,MANIQA 从 0.632 下降到 0.574。这是一个显著的性能下降。
  • 解释: 这表明仅仅依靠 MLP 之间的 LR 注入不足以生成高质量结果。如果没有 LR Stream 和生成潜在特征之间的双向信息交互,LR 引导就无法根据演化中的噪声潜在特征进行自适应调整,从而限制了模型适应性地细化恢复的能力。图 7(b) 也显示,缺少 LR Integration 导致降质无法有效去除。

6.2.2. LR Residual 的有效性 (Effectiveness of LR Residual)

  • 变体 B (无 LR Residual): 移除了 LR Stream 中注意力模块输入和输出之间的快捷连接。
  • 结果: MUSIQ 从 71.832 下降到 70.887,MANIQA 从 0.632 下降到 0.614。虽然下降幅度小于 LR Integration,但仍有明显影响。
  • 解释: 这验证了 LR Residual 旨在保持 LR 引导在深层 DiT 块中一致性的作用。图 7(c) 显示,没有 LR Residual 的结果包含明显的伪影,降低了图像内容的保真度。这可能是因为 LR Stream 在缺乏残差连接的情况下,其信息演化变得不稳定,容易受到不期望的干扰。LR Residual 有效地稳定了 LR Stream,有助于生成更高保真度的结果。

6.2.3. LR Injection 的有效性 (Effectiveness of LR Injection)

  • 变体 C (无 LR Injection): 移除了 MLP 之间的 LR 注入连接。

  • 结果: MUSIQ 从 71.832 下降到 71.202,MANIQA 从 0.632 下降到 0.610。性能略有下降。

  • 解释: 这表明仅靠注意力中的 LR Integration 也能产生可接受的结果。然而,图 7(d) 显示,特别是眼睛区域出现了内容扭曲。这是因为注意力机制是全局操作,对于需要局部信息来准确恢复精细细节的 SR 任务来说,其捕捉局部信息的能力有限。

  • 变体 D (LR Injection 使用 Linear 层): 将 LR Injection 中的 3×33 \times 3 深度可分离卷积层替换为线性层。

  • 结果: MUSIQ (71.607) 和 MANIQA (0.621) 与完整模型相比略有下降,但与变体 C 相比有所提升。定量指标上与完整模型差异不大。

  • 解释: 虽然定量指标差异不显著,但图 7(e) 表明,使用线性层仍未能有效缓解伪影和扭曲。这强调了 3×33 \times 3 深度可分离卷积层在捕获更精确局部信息方面的独特优势。它有效地弥补了 DiT 捕获局部信息能力的局限性,显著增强了 DiT4SR 的保真度,尤其在精细结构恢复上,这是非参考指标数据可能无法完全反映的。

    Figure 7. Visual comparison for the ablation study. Variant A, B, and C remove the LR Integation, LR Residual, and LR Injection, respectively. Variant D replaces the convolution layer with the linear… 该图像是论文中图7的消融实验对比示意图,展示了不同变体对图像细节恢复的影响。变体A、B、C分别去除LR Integration、LR Residual和LR Injection;变体D用线性层替代了卷积层。完整模型效果最佳。

Figure 7. Visual comparison for the ablation study. Variant A, B, and C remove the LR Integation, LR Residual, and LR Injection, respectively. Variant D replaces the convolution layer with the linear layer in LR Injection.

总结: 消融实验清晰地表明,DiT4SR 中的每个组件——LR Integration、LR Residual 和 LR Injection(特别是使用卷积层)——都对提升 Real-ISR 性能至关重要。它们共同作用,实现了 LR 引导的深度、动态和局部精细化,从而使 DiT4SR 能够生成高质量的图像。

7. 总结与思考

7.1. 结论总结

本文提出了 DiT4SR,作为将大规模扩散变换器 (DiT) 模型应用于真实世界图像超分辨率 (Real-ISR) 任务的开创性工作之一。该方法通过以下创新设计,成功地“驯服”了 DiT 模型:

  1. LR 集成在注意力机制中: DiT4SR 将低分辨率 (LR) 嵌入直接整合到 DiT 原有的注意力机制中,而非采用 ControlNet 等传统方法直接注入。这种集成实现了 LR 潜在特征与生成潜在特征之间的双向信息流,使得 LR 引导能够随着扩散过程动态演化,并提供更精确、上下文感知的指导。

  2. LR Residual: 引入了一个快捷连接,以保持 LR 引导在深层 Transformer 块中的一致性,避免信息衰减。

  3. LR 注入在 MLP 之间 (通过卷积层): 设计了一个跨流的 3×33 \times 3 深度可分离卷积层,将 LR 引导注入到噪声流的 MLP 之间。这不仅增强了 LR 引导,还弥补了 DiT 模型在捕获局部信息方面的不足,对于恢复图像的精细结构至关重要。

    通过大量的定量和定性实验,DiT4SR 在多个真实世界数据集上展现出卓越的性能,特别是在非参考指标和用户研究中取得了领先结果,尤其在处理精细结构和文字方面表现突出。这证实了 DiT4SR 在生成高感知质量和真实感图像方面的强大能力。

7.2. 局限性与未来工作

论文明确指出其工作“为该方向的未来研究铺平了道路”,但并未直接列出 DiT4SR 模型的具体局限性。然而,我们可以根据其方法和现有技术挑战推断一些潜在的局限性以及可能的未来研究方向:

潜在局限性:

  • 计算成本: DiT 模型通常比 UNet 模型具有更高的计算复杂度,尤其是在处理高分辨率图像时。尽管 DiT4SR 在潜在空间进行操作,但其大规模的 Transformer 架构可能仍然需要大量的计算资源进行训练和推理,这可能限制其在资源受限环境下的应用。
  • 训练复杂性: 集成新的信息流和设计复杂的交互机制可能增加模型的训练难度和对超参数的敏感性。
  • 泛化能力: 尽管在多个真实世界数据集上表现出色,但真实世界降质的多样性是无限的。DiT4SR 对于未见过的极端降质或特定领域图像的泛化能力仍需进一步探究。
  • LPIPS 表现: 虽然感知指标表现优异,但其在 DrealSR 和 RealSR 数据集上的 LPIPS 值相对较高,这可能暗示在某些图像的底层特征相似性上仍有提升空间,或者LPIPS本身无法完全衡量其在Real-ISR任务中的全部优点。

未来工作方向:

  • 模型效率优化: 探索更高效的 DiT 变体或训练策略,以降低 DiT4SR 的计算和内存成本,例如模型剪枝 (pruning)、量化 (quantization) 或更先进的近似注意力机制。
  • 更深层次的模态交互: 除了 LR 和文本,是否可以引入其他模态(如深度信息、语义分割图)进行更丰富、更精细的控制,以应对更复杂的图像修复任务。
  • 动态控制机制: 研究如何根据图像内容或用户需求动态调整 LR 引导的强度和方式,实现更灵活的超分辨率。
  • 多尺度或多任务学习: 将 DiT4SR 扩展到多尺度超分辨率或与其他图像恢复任务(如去噪、去模糊)结合,构建更通用的图像处理模型。
  • 理论分析: 对双向信息流和局部信息注入机制进行更深入的理论分析,以更好地理解其工作原理和优化方向。
  • 特定领域应用: 探索 DiT4SR 在医学影像、遥感图像等特定领域的应用,并针对这些领域的特点进行定制化优化。

7.3. 个人启发与批判

个人启发:

  • DiT 的巨大潜力: 这篇论文进一步印证了 Diffusion Transformer 架构在图像生成和处理领域的巨大潜力。其强大的全局建模能力和可扩展性使其成为传统 UNet 架构的有力替代者。
  • 细致的信息流设计: 论文最主要的启发在于其对信息流设计的深度思考。传统 ControlNet 的简单注入方式虽然有效,但往往未能充分利用基模型的内在交互能力。DiT4SR 提出的将条件信息(LR Stream)作为一个平等的信息流集成到多模态注意力机制中,实现双向交互,这是一种更优雅、更有效的方法,值得在其他条件生成任务中借鉴。它强调了“对话”而非“命令”式的条件引导。
  • 局部与全局的平衡: DiT 擅长全局建模,但图像修复离不开局部细节。DiT4SR 通过巧妙地在 MLP 之间引入卷积层来弥补 DiT 在局部信息捕获上的不足,这提醒我们,在设计基于 Transformer 的视觉模型时,仍需考虑如何有效地整合局部归纳偏置 (local inductive biases),而不是完全抛弃卷积的优势。
  • 预训练模型的价值: 论文基于大规模预训练的 SD3 模型进行微调,这再次强调了利用大型基础模型 (foundation models) 丰富先验知识的重要性,能够显著加速特定下游任务的性能提升。

批判:

  • “驯服”的成本: 尽管论文标题是“Taming Diffusion Transformer”,但这种“驯服”可能伴随着巨大的计算成本。DiT 模型本身参数量就很大,加上复杂的双向交互和额外的卷积层,其训练和推理的效率可能成为实际部署的瓶颈,尤其对于实时性要求高的应用。论文并未深入探讨这方面的优化。
  • 可解释性挑战: 随着模型复杂度的增加,尤其是多模态信息流的深度交互,模型的决策过程变得更加不透明。LR Stream 和 Noise Stream 之间的双向交互具体是如何影响每个扩散步骤的去噪决策的,其内部机制的可解释性可能是一个挑战。
  • 对“Real-ISR”的定义: 论文中的“Real-ISR”主要通过合成降质数据进行训练,并在几个真实世界数据集上进行评估。尽管这些数据集被广泛接受,但真实世界降质的复杂性远超合成模型。模型在面对完全未知、极端或高度非均匀的真实世界降质时,其鲁棒性仍有待更广泛的验证。例如,如果 LR 图像本身模糊到无法辨认关键信息,模型是否会“幻觉”出不存在的细节,以及这种幻觉的控制程度如何。
  • “LL”的注意力图可视化: 在图 4(a) 中,展示了 LR image token L 的自注意力图 (LL\mathbf{L} \to \mathbf{L})。这表明 LR Stream 内部也进行了自注意力计算。虽然论文强调了 XL\mathbf{X} \to \mathbf{L}LX\mathbf{L} \to \mathbf{X} 的交互,但 LR Stream 内部的自注意力如何演化,以及它在提供一致性 LR 引导中的具体作用,可以更深入地分析。
  • 潜在的伪影风险: 扩散模型在生成真实感细节的同时,也存在生成“幻觉”或不完全真实细节的风险。虽然用户研究结果显示高保真度,但在极端情况下,这些深度交互是否可能导致模型对 LR 输入的过度解读,生成与原始 LR 图像意图不符的细节,这需要更细致的评估。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。