AiPaper
论文状态:已完成

DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

发表:2024/10/24
原文链接PDF 下载
价格:0.10
价格:0.10
已有 6 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出GenIR数据策划流程,通过双提示词学习生成百万级隐私安全图像数据集,解决现有数据集容量和版权问题。同时引入基于扩散Transformer的DreamClear模型,结合生成先验与多模态大语言模型,实现对多样真实降解的高效自适应图像修复,显著提升恢复效果。

摘要

Image restoration (IR) in real-world scenarios presents significant challenges due to the lack of high-capacity models and comprehensive datasets. To tackle these issues, we present a dual strategy: GenIR, an innovative data curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer (DiT)-based image restoration model. GenIR, our pioneering contribution, is a dual-prompt learning pipeline that overcomes the limitations of existing datasets, which typically comprise only a few thousand images and thus offer limited generalizability for larger models. GenIR streamlines the process into three stages: image-text pair construction, dual-prompt based fine-tuning, and data generation & filtering. This approach circumvents the laborious data crawling process, ensuring copyright compliance and providing a cost-effective, privacy-safe solution for IR dataset construction. The result is a large-scale dataset of one million high-quality images. Our second contribution, DreamClear, is a DiT-based image restoration model. It utilizes the generative priors of text-to-image (T2I) diffusion models and the robust perceptual capabilities of multi-modal large language models (MLLMs) to achieve photorealistic restoration. To boost the model's adaptability to diverse real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM). It employs token-wise degradation priors to dynamically integrate various restoration experts, thereby expanding the range of degradations the model can address. Our exhaustive experiments confirm DreamClear's superior performance, underlining the efficacy of our dual strategy for real-world image restoration. Code and pre-trained models are available at: https://github.com/shallowdream204/DreamClear.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

1.2. 作者

Yuang A,{ \bf A } ^ { * * , \heartsuit }, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han*, Zhengyu Chen*, Quanzeng You*, Hongxia Yang*。 作者来自中国科学院自动化研究所 (MAIS & NLPR, Institute of Automation, Chinese Academy of Sciences)、清华大学 (col tificial nteleceUnivrsi Chicadey)、字节跳动 (ByteDance, Inc) 和中国科学技术大学 (University of Science and Technology of China)。通讯作者邮箱为 shallowdream555@gmail.com, huaibo.huang@cripac.ia.ac.cn

1.3. 发表期刊/会议

该论文作为预印本 (arXiv preprint) 发布,而非正式的期刊或会议。预印本平台在学术界具有重要影响力,允许研究者在同行评审前快速分享研究成果。

1.4. 发表年份

2024年10月24日 (UTC)。

1.5. 摘要

在真实世界场景中的图像修复 (Image Restoration, IR) 面临着显著挑战,主要原因在于缺乏高容量模型和全面的数据集。为了解决这些问题,本文提出了一种双重策略:GenIR,一个创新的数据策划流程;以及 DreamClear,一个基于扩散Transformer (DiT) 的尖端图像修复模型。

GenIR 是本文的开创性贡献,它是一个双提示词 (dual-prompt) 学习流程,旨在克服现有数据集的局限性(通常只有数千张图像,导致大型模型泛化能力有限)。GenIR 将数据生成过程简化为三个阶段:图像-文本对构建、基于双提示词的微调、以及数据生成与过滤。这种方法避免了繁琐的数据抓取过程,确保了版权合规性,并为 IR 数据集构建提供了一种经济高效、隐私安全 (privacy-safe) 的解决方案。最终,GenIR 生成了一个包含一百万张高质量图像的大规模数据集。

本文的第二个贡献是 DreamClear,一个基于 DiT 的图像修复模型。它利用文本到图像 (Text-to-Image, T2I) 扩散模型的生成先验 (generative priors) 和多模态大语言模型 (Multi-modal Large Language Models, MLLMs) 强大的感知能力,实现逼真的图像修复。为了增强模型对各种真实世界降解 (degradations) 的适应性,本文引入了自适应调制器混合 (Mixture of Adaptive Modulator, MoAM)。MoAM 采用令牌级别 (token-wise) 的降解先验 (degradation priors) 来动态集成不同的修复专家 (restoration experts),从而扩展了模型能够处理的降解范围。

通过详尽的实验证实,DreamClear 表现出卓越的性能,突显了本文双重策略在真实世界图像修复中的有效性。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2410.18666 PDF 链接: https://arxiv.org/pdf/2410.18666v2.pdf

2. 整体概括

2.1. 研究背景与动机

图像修复 (Image Restoration, IR) 是计算机视觉领域的一个重要分支,旨在将低质量 (Low-Quality, LQ) 图像转换成高质量 (High-Quality, HQ) 图像。尽管在超分辨率 (super-resolution)、去噪 (denoising) 等预定义条件下的 IR 任务取得了显著进展,但真实世界 IR 仍然是一个巨大的挑战。主要挑战在于:

  1. 降解类型多样且复杂: 真实世界的图像降解 (degradation) 种类繁多且复杂,现有数据集难以充分捕捉其内在复杂性,导致训练数据与真实场景之间存在显著差距。

  2. 缺乏大规模高质量数据集: 现有 IR 数据集规模通常较小(数千张图像),不足以支持大型模型的训练,导致模型泛化能力受限。大规模数据集的构建通常依赖于网络爬取,这带来了版权侵犯和隐私泄露 (privacy concerns) 的问题。

  3. 缺乏高容量模型: 尽管大型模型在自然语言处理 (NLP) 和 AIGC 领域取得了巨大成功,但在 IR 领域,大规模数据和高容量模型的潜力尚未被充分挖掘。

    因此,本文的动机在于解决两个关键问题:

  • 如何获取一个大规模、准确代表真实世界 IR 场景的数据集,同时确保隐私安全和成本效益?
  • 在此基础上,如何构建一个强大且能有效处理真实世界 IR 场景的高容量模型?

2.2. 核心贡献/主要发现

本文提出了一个双重策略来解决上述挑战,其主要贡献如下:

  1. 提出了 GenIR: 一个开创性的自动化数据策划流程 (automated data curation pipeline),用于图像修复。GenIR 利用预训练的文本到图像 (T2I) 扩散模型的生成先验 (generative prior) 和多模态大语言模型 (MLLMs) 来生成高质量、无版权、隐私安全的大规模图像数据。它通过“图像-文本对构建”、“双提示词微调”和“数据生成与过滤”三个阶段,生成了包含一百万张高质量图像的数据集,有效解决了传统数据集在规模、版权和隐私方面的限制。
  2. 提出了 DreamClear: 一个鲁棒 (robust)、高容量的 IR 模型。DreamClear 基于 Diffusion Transformer (DiT) 架构,并利用 T2I 扩散模型的生成先验和 MLLMs 的感知能力实现逼真修复。为了增强模型对各种真实世界降解的适应性,它引入了新颖的“自适应调制器混合 (Mixture of Adaptive Modulator, MoAM)”模块,该模块能够根据令牌级 (token-wise) 的降解先验动态集成不同的修复专家。
  3. 广泛的实验验证: 通过在低级 (合成和真实世界) 和高级 (目标检测和语义分割) 基准上进行详尽实验,证实了 DreamClear 相比现有最先进方法具有卓越性能,突显了其在处理复杂真实世界场景中的强大能力。

3. 预备知识与相关工作

3.1. 基础概念

  • 图像修复 (Image Restoration, IR):旨在恢复或增强因各种因素(如模糊、噪声、下采样等)而降级的图像质量,使其恢复到原始高质量状态。
  • 低质量图像 (Low-Quality, LQ) 与高质量图像 (High-Quality, HQ)LQ 图像是受损或降级的图像,而 HQ 图像是原始、清晰、无损的图像。IR 的目标就是将 LQ 图像转换为 HQ 图像。
  • 文本到图像扩散模型 (Text-to-Image, T2I Diffusion Models):一类强大的生成模型,能够根据给定的文本描述生成逼真的图像。它们通过逐步去除图像中的噪声来生成图像,训练过程中学习如何从噪声中恢复数据。例如 Stable DiffusionPixArt-α
  • 多模态大语言模型 (Multi-modal Large Language Models, MLLMs):能够处理和理解多种类型数据(如文本、图像)的大型语言模型。它们可以执行图像描述、视觉问答等任务,在本文中用于生成图像描述和过滤数据。例如 Gemini-1.5-ProLLaVA
  • 扩散Transformer (Diffusion Transformer, DiT):一种将 Transformer 架构应用于扩散模型中噪声预测器 (noise predictor) 的方法。它用 Transformer 块取代了传统的 U-Net 结构,在图像生成任务中展现出优异的扩展性和性能,是许多现代扩散模型(如 SoraStable Diffusion 3)的基础。
  • 生成对抗网络 (Generative Adversarial Networks, GANs):由一个生成器和一个判别器组成的深度学习框架。生成器试图生成逼真的数据,而判别器则试图区分真实数据和生成数据。两者通过对抗训练相互提高。在 IR 任务中,GANs 可以生成具有逼真纹理的图像。
  • 分类器无关引导 (Classifier-Free Guidance, CFG):一种在扩散模型中用于提高生成图像与条件(如文本提示词)对齐程度的技术。它通过结合有条件和无条件的噪声预测来推断更符合提示词的生成方向。 ϵθ(zt,t,pos,neg)=ω×ϵθ(zt,t,pos)+(1ω)×ϵθ(zt,t,neg) \epsilon_{\theta}(z_t, t, \text{pos}, \text{neg}) = \omega \times \epsilon_{\theta}(z_t, t, \text{pos}) + (1 - \omega) \times \epsilon_{\theta}(z_t, t, \text{neg}) 其中:
    • ϵθ(zt,t,pos,neg)\epsilon_{\theta}(z_t, t, \text{pos}, \text{neg}):最终的降噪预测结果。
    • ω\omegaCFG 引导尺度 (guidance scale),控制条件引导的强度。
    • ϵθ(zt,t,pos)\epsilon_{\theta}(z_t, t, \text{pos}):给定正向提示词 pos 的降噪预测。
    • ϵθ(zt,t,neg)\epsilon_{\theta}(z_t, t, \text{neg}):给定负向提示词 neg 的降噪预测。
    • ztz_t:时间步 tt 的潜在空间噪声。
    • tt:时间步。
    • pos:正向提示词。
    • neg:负向提示词。
  • 专家混合 (Mixture-of-Experts, MoE):一种神经网络架构,其中包含多个“专家”网络,一个门控网络 (gating network) 或路由网络 (routing network) 负责为每个输入动态选择或加权组合这些专家的输出。这允许模型针对不同输入学习不同的处理路径,从而提高模型的容量和效率。
  • 自适应调制器 (Adaptive Modulator, AM):在神经网络中通过学习参数来动态调整特征图的尺度 (scale) 和偏移 (shift) 的模块。它通常用于将条件信息(如风格、类别或图像降解信息)嵌入到特征表示中。
  • 自适应层归一化 (Adaptive Layer Normalization, AdaLN):一种条件归一化技术,其归一化参数(尺度 γ\gamma 和偏移 β\beta)是根据外部条件(如文本嵌入或图像特征)动态生成的。它允许模型根据不同的条件自适应地调整特征分布。

3.2. 前人工作

  • 图像修复 (Image Restoration):早期的 IR 研究关注特定任务,如超分辨率 [92, 10]、去噪 [12, 40]、去模糊 [57, 69, 56]、去雨 [14, 34, 32, 33]、图像修复 (inpainting) [97, 3] 等。近年来,研究重点转向增强模型对真实世界多样化降解的泛化能力 [74, 68, 63]。
    • 降解模拟 (Degradation Simulation):为了弥补真实世界数据与合成数据之间的差距,许多工作改进了降解模拟过程,例如 BSRGAN [85]、Real-ESRGAN [64] 和 AnimeSR [71]。这些改进的模拟过程使得许多最新方法能够处理多样化的降解类型并取得良好性能 [43, 8]。
    • 领域适应 (Domain Adaptation):部分工作通过领域适应 [5, 74, 23, 81] 来处理真实世界 IR 中的领域差异。
  • 生成先验 (Generative Prior):利用预训练生成模型(如 GANs 或扩散模型)中学习到的强大图像先验来辅助 IR 任务已成为一个重要的方向 [52, 63, 4, 37, 66, 9]。
    • GANs 的生成先验:通常需要一个额外的编码器将输入图像转换到 GAN 的潜在空间 [76, 48]。
    • 扩散模型的生成先验:扩散模型的正向过程逐步向图像添加噪声,最终将其转换为潜在噪声空间 [15, 50]。通过在潜在特征空间进行操作,输入图像作为条件输入集成到生成过程中,合成过程利用了预训练模型中的图像先验 [63, 78, 35]。
  • 合成数据集 (Synthetic Dataset):数据量和数据质量对于许多视觉任务至关重要。大规模高质量数据集可以极大地促进大型模型训练和能力提升 [83, 22, 21, 24, 26]。然而,现有的通用大规模数据集通常是人工收集的,耗时耗力 [16, 39],且可能涉及隐私泄露 [58, 24] 和版权问题。合成数据集不仅可以减少人力成本,还可以避免隐私信息泄露。高质量的合成数据集已被证明在许多视觉任务中有效 [28, 25, 6]。本文是首次探索在图像修复领域进行数据集合成。

3.3. 技术演进

IR 领域从最初针对特定降解任务(如超分辨率、去噪)的独立模型,发展到追求通用性和真实世界泛化能力的方法。这一演进伴随着:

  • 降解模拟的进步:从简单的单一降解到复杂的混合降解。

  • 模型架构的演变:从传统的信号处理方法到基于深度学习的 CNNs、Transformers,再到结合生成模型(GANs、扩散模型)的强大生成先验。

  • 数据集的挑战:从小型、特定任务的合成数据集,到需要大规模、多样化、真实世界代表性数据的需求。

    本文的工作恰好处于这一技术演进的前沿,通过结合 T2I 扩散模型和 MLLMs 来解决大规模、隐私安全数据生成的问题,并在此基础上构建 DiT 架构的 IR 模型,以充分利用其高容量和强大的生成能力。

3.4. 差异化分析

  • 数据策划方面 (GenIR vs. 传统方法)
    • 传统方法:主要通过网络爬取 HQ 图像并模拟降解。面临版权、隐私问题,且耗时耗力。现有数据集规模普遍偏小(如 DIV2K 仅数千张),难以满足大型模型需求。
    • GenIR:提出了一种创新方法,通过利用预训练 T2I 模型的生成先验和 MLLMs 的辅助,生成高质量、无版权、隐私安全、大规模(一百万张)的图像数据。这从根本上规避了网络爬取带来的问题,提高了数据获取的效率和伦理合规性。其双提示词学习和数据过滤机制也确保了生成数据的质量和多样性。
  • 模型架构方面 (DreamClear vs. 现有 IR 模型)
    • 现有 SDIR 模型:通常利用 SD 的生成先验实现逼真修复,但可能忽视输入 LQ 图像中的降解先验。
    • DreamClear
      • 基于 DiT:采用更先进、可扩展性更强的 Diffusion Transformer (DiT) 架构,而非传统的 U-Net
      • 引入 ControlFormer:为 DiT 架构定制的控制机制,更好地利用 LQ 和参考图像引导生成内容。
      • 引入 MoAM:这是关键创新点。它通过令牌级 (token-wise) 的降解先验动态集成多个“修复专家”,从而增强模型对多样化和复杂真实世界降解的适应性,这在现有扩散基 IR 模型中是独特且重要的。
      • MLLM 文本引导:结合 MLLM 生成的详细文本描述作为 T2I 模型的指导,以实现更逼真的修复。

4. 方法论

4.1. 方法原理

本文的核心思想是采用双重策略来应对真实世界图像修复 (IR) 的挑战:

  1. 数据层面: 构建一个大规模、高质量、隐私安全且经济高效的 IR 数据集。这通过 GenIR 流程实现,利用 T2I 扩散模型的生成能力和 MLLM 的理解与过滤能力来合成数据,而非传统的网络爬取。
  2. 模型层面: 开发一个高容量、泛化能力强、能有效处理真实世界复杂降解的 IR 模型。这通过 DreamClear 模型实现,它基于 Diffusion Transformer (DiT) 架构,并引入 ControlFormerMixture of Adaptive Modulator (MoAM) 来增强控制和适应性。

4.2. 核心方法详解

4.2.1. GenIR:隐私安全的数据策划流程

GenIR 是一个三阶段流程,旨在生成适用于 IR 任务的高质量、隐私安全的数据集。

阶段一:图像-文本对构建 (Image-Text Pairs Construction)

  • 目的: 为微调 T2I 模型准备带有正向和负向条件提示词的图像数据。
  • 正向样本:从现有的 IR 数据集(如 DIV2K [44]、Flickr2K [2]、LSDIR [39]、DIV8K [22])中选取高分辨率、纹理丰富的图像作为 HQ 图像。这些图像缺乏对应的文本描述。
  • MLLM 生成提示词:利用先进的 MLLMGemini-1.5-Pro [62],为这些 HQ 图像生成详细的文本提示词。MLLM 被指示生成“语言描述,以捕捉图像的本质和增强图像质量”的文本。
  • 负向样本:为了表示不期望的图像属性(例如卡通化、过度平滑、模糊等),本文采用图像到图像 (image-to-image) 流程 [50] 生成负向样本。
    • 流程:如图 2 (a) 所示,使用 T2I 模型和手动设计的负向提示词(例如“cartoon, painting, over-smooth, dirty”)直接从 HQ 图像生成 LQ 图像作为负向样本。

4.2.2. 双提示词微调 (Dual-Prompt Based Fine-Tuning)

  • 目的: 适应预训练的 T2I 模型,使其能够根据抽象的“正向”和“负向”令牌来生成和控制图像质量,而无需依赖复杂的、劳动密集型的文本提示。

  • 学习过程:如图 2 (b) 所示,该阶段同时学习代表期望属性的 MM 个正向令牌 {p1,,pM}\{ \langle p _ { 1 } \rangle , \cdots , \langle p _ { M } \rangle \} 和代表不期望属性的 NN 个负向令牌 {n1,,nN}\{ \left. n _ { 1 } \right. , \cdots , \left. n _ { N } \right. \} 的嵌入 (embeddings)。

  • 初始化:这些新的正向和负向令牌使用常用文本提示词进行初始化,例如正向的“4k, highly detailed, professional...”和负向的“deformation, low quality, over-smooth...”。

  • 模型微调:由于文本条件通过交叉注意力 (cross-attention) 集成到扩散模型中,微调过程不仅学习令牌嵌入,还精炼注意力块 (attention block),以更好地理解这些新令牌。

  • 输出:经过微调的 T2I 模型和学到的正向/负向提示词嵌入,可以高效地用于后续大规模数据生成。

    下图(原文 Figure 2)展示了 GenIR 三阶段数据构建流程:

    Figure 2: An overview of the three-stage GenIR pipeline, which includes (a) Image-Text Pairs Construction, (b) Dual-Prompt Based Fine-Tuning, and (c) Data Generation & Filtering. 该图像是论文中图2的示意图,展示了GenIR三阶段数据构建流程:(a) 图文对构建,(b) 双提示词微调,(c) 数据生成与筛选,体现了通过多模态模型与扩散模型实现隐私安全的大规模高质量图像数据生成。

4.2.3. 数据生成与过滤 (Data Generation & Filtering)

  • 目的: 利用微调后的 T2I 模型和学到的提示词,生成大规模、多样化、高质量且隐私安全的图像数据集,并进行质量控制。
  • 文本提示词生成:为了确保数据集场景的多样性,再次利用 Gemini 模型生成一百万个文本提示词,描述各种场景。这些提示词被严格指示不得包含个人或敏感信息,以确保隐私。
  • 图像生成:如图 2 (c) 所示,使用微调后的 T2I 模型结合学到的正向和负向提示词来生成 HQ 图像。
  • 分类器无关引导 (Classifier-free guidance, CFG):在采样阶段,CFG [30] 被用来有效利用负向提示词,减少生成不期望内容。去噪模型 ϵθ\epsilon _ { \theta } 预测两种结果:一种与正向提示词 pos 相关,另一种与负向提示词 neg 相关。最终的 CFG 预测公式为: ϵθ(zt,t,pos,neg)=ω×ϵθ(zt,t,pos)+(1ω)×ϵθ(zt,t,neg) \epsilon _ { \theta } ( z _ { t } , t , \text{pos} , \text{neg} ) = \omega \times \epsilon _ { \theta } ( z _ { t } , t , \text{pos} ) + ( 1 - \omega ) \times \epsilon _ { \theta } ( z _ { t } , t , \text{neg} ) 其中:
    • ztz_t:时间步 tt 的潜在空间噪声。
    • tt:时间步。
    • pos:正向提示词。
    • neg:负向提示词。
    • ω\omegaCFG 引导尺度,控制引导的强度。
    • ϵθ(zt,t,pos)\epsilon _ { \theta } ( z _ { t } , t , \text{pos} ):给定正向提示词时的降噪预测。
    • ϵθ(zt,t,neg)\epsilon _ { \theta } ( z _ { t } , t , \text{neg} ):给定负向提示词时的降噪预测。
  • 数据过滤
    • 质量分类器:采样后,生成的图像由一个质量分类器评估,该分类器根据预测概率决定是否保留图像。这个二元分类器是基于正向和负向样本训练的。
    • Gemini 语义和内容过滤Gemini 随后被用于进一步检查图像是否存在明显的语义错误或不当内容,确保生成图像的高质量和隐私合规性。
  • 结果:通过 GenIR,本文最终生成了包含一百万张 2040×13562040 \times 1356 高分辨率图像的数据集,每张图像都具有卓越的质量,且隐私安全。

4.2.4. DreamClear:高容量图像修复模型

DreamClear 是一个基于 Diffusion Transformer (DiT) [53] 架构的高容量真实世界图像修复模型,它利用 PixArt-α [13] 作为预训练的 T2I 扩散模型,并整合了 MLLM 的文本指导。

架构总览 (Architecture Overview) 如图 3 所示,DreamClear 采用双分支架构:

  • LQ 分支 (LQ Branch):处理低质量输入图像 I _ { l q }

  • 参考分支 (Reference Branch):处理通过轻量级网络(如 SwinIR [41])从 I _ { l q } 生成的参考图像 I _ { r e f }

  • 引导机制:模型同时利用 I _ { l q }I _ { r e f } 来引导扩散模型。

  • 文本引导:使用开源 MLLM LLaVA [47] 为训练图像生成详细的文本标题(使用提示词“Describe this image and its style in a very detailed manner”),以支持 T2I 扩散模型实现更逼真的修复。

    下图(原文 Figure 3)展示了 DreamClear 的架构:

    Figure 7: Visual comparisons for ablation study on DreamClear.

    ControlFormer

  • 问题背景ControlNet [88] 是控制 U-Net 结构扩散模型(如 Stable Diffusion)的常用结构,但不适用于 DiT 架构。

  • 解决方案:本文提出了 ControlFormer,它继承了 ControlNet 的核心思想(可训练的复制块和零初始化层),但专门针对 DiT 架构的 T2I 模型进行了调整。

  • 结构ControlFormer 复制了 PixArt-α 中的所有 DiT 块。它使用 MoAM 块来结合 LQ 特征 x _ { l q } 和参考特征 x _ { r e f }

  • 目的:为 DiT 架构提供有效的空间控制,从而更好地利用 LQ 和参考图像来指导生成图像的内容。

自适应调制器混合 (Mixture of Adaptive Modulator, MoAM)

  • 目的:增强模型对真实世界多样化降解的鲁棒性,通过利用降解先验 (degradation priors) 动态融合 LQ 和参考特征。

  • 组成MoAM 包含多个自适应调制器 (AM)、一个交叉注意力层 (cross-attention layer) 和一个路由块 (router block)。

  • AM 工作原理AM 采用 AdaLN [54] 来学习维度级 (dimension-wise) 的尺度 γ\gamma 和偏移 β\beta 参数,将条件信息嵌入到输入特征中。

    MoAM 的操作分为三个步骤:

  1. 交叉注意力与降解图生成

    • 对于 DiT 特征 x _ { i n },首先计算 LQ 特征 xlqRN×Cx _ { l q } \in \mathbb { R } ^ { N \times C } 和参考特征 xrefRN×Cx _ { r e f } \in \mathbb { R } ^ { N \times C } 之间的交叉注意力输出 xattnR˙N×C\boldsymbol { x } _ { a t t n } \in \dot { \mathbb { R } } ^ { N \times C }。其中 NN 是视觉令牌的数量,CC 是隐藏层维度。
    • x _ { i n } 随后使用 x _ { a t t n } 进行调制,接着通过一个零线性层 (zero linear layer)。
    • 一个令牌级 (token-wise) 的降解图 DRN×C\overset { \cdots } { D } \in \mathbb { R } ^ { N \times C } 通过对 x _ { a t t n } 进行线性映射生成。这个降解图 DD 编码了每个令牌的降解信息。
  2. 通过 AM 进行特征调制

    • 特征进一步使用 AM 进行调制,其中 x _ { r e f } 作为 AM 的条件,用于提取清晰的特征。
  3. 降解感知专家混合 (Mixture of Degradation-Aware Experts)

    • 为了适应真实世界图像中多样的降解,MoAM 块包含 KK 个修复专家 {E1,,EK}\{ E _ { 1 } , \cdots , E _ { K } \},每个专家都专门处理特定的降解场景。
    • 一个路由网络 R()R ( \cdot ) 根据步骤 1 中生成的降解图 DD 动态地为每个令牌融合专家的指导。
    • 路由网络是一个两层 MLP (Multi-Layer Perceptron) 后面跟着 softmax 函数,它输出令牌级的专家权重 w=R(D)RN~×Kw = R ( D ) \in \mathbb { R } ^ { \tilde { N } \times K }
    • 动态专家混合的公式如下: γ(i)=k=1Kw(i,k)×Netkγ[xlq(i)] \gamma ( i ) = \sum _ { k = 1 } ^ { K } w ( i , k ) \times \text{Net} _ { k } ^ { \gamma } [ x _ { l q } ( i ) ] β(i)=k=1Kw(i,k)×Netkβ[xlq(i)] \beta ( i ) = \sum _ { k = 1 } ^ { K } w ( i , k ) \times \text{Net} _ { k } ^ { \beta } [ x _ { l q } ( i ) ] xout=(1+γ)xin+β x _ { o u t } = ( 1 + \gamma ) \otimes x _ { i n } + \beta
    • 其中:
      • ii:表示令牌的索引。

      • kk:表示专家的索引。

      • w ( i , k ):令牌 ii 对于专家 kk 的权重,由路由网络 R(D) 计算得到。

      • Netkγ[xlq(i)]\text{Net} _ { k } ^ { \gamma } [ x _ { l q } ( i ) ]Netkβ[xlq(i)]\text{Net} _ { k } ^ { \beta } [ x _ { l q } ( i ) ]:表示第 kk 个专家根据 LQ 特征 x _ { l q } ( i ) 预测的尺度 γ\gamma 和偏移 β\beta 参数。

      • γ(i)\gamma ( i )β(i)\beta ( i ):通过所有专家加权组合得到的最终尺度和偏移参数。

      • x _ { i n }:输入到 MoAM 块的 DiT 特征。

      • x _ { o u t }MoAM 块的输出特征。

      • \otimes:表示元素级的乘法。

        通过这种方式,MoAM 利用降解先验动态融合专家知识,从而有效地处理复杂的降解。

5. 实验设置

5.1. 数据集

  • 训练数据集:

    • 现有数据集: DIV2K [44]、Flickr2K [2]、LSDIR [39]、DIV8K [22]。这些数据集主要用于提供初始的高质量图像样本。
    • GenIR 生成数据集: 本文提出的 GenIR 流程生成的一百万张高质量图像数据集。这是训练 DreamClear 的核心资源。
    • 降解模拟: 采用 Real-ESRGAN [64] 的降解流程来生成低质量 (LQ) 图像,降解设置与 SeeSR [70] 相同,以确保公平比较。所有实验的放大因子设置为 ×4\times 4
  • 测试数据集: 遵循先前工作的做法 [63, 80, 70],在合成 (synthetic) 和真实世界 (real-world) 基准上评估方法。

    • 合成基准:
      • DIV2K-Val:从 DIV2K 验证集中随机裁剪 3,000 个图像块,并使用与训练相同的设置进行降解。
      • LSDIR-Val:从 LSDIR 验证集中随机裁剪 3,000 个图像块,并使用与训练相同的设置进行降解。
    • 真实世界基准:
      • RealSR [8]:常用真实世界超分辨率数据集。
      • DRealSR [68]:另一个真实世界超分辨率数据集。
      • RealLQ250:本文建立的真实世界基准,包含 250 张大小为 256×256256 \times 256LQ 图像,这些图像来源于先前工作 [70, 42, 64, 86, 80] 或从互联网获取,没有对应的真实标注 (Ground Truth, GT) 图像。
    • 图像分辨率: 对于所有带有 GT 图像的测试数据集,HQ-LQ 图像对的分辨率分别为 1024×10241024 \times 1024 (HQ) 和 256×256256 \times 256 (LQ)。

5.2. 评估指标

本文采用多种指标来全面评估图像修复效果,包括参考型失真指标、参考型感知指标、无参考指标以及用于下游任务的指标。

  • 参考型失真指标 (Reference-based Distortion Metrics)

    • 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR):衡量图像失真程度的客观指标,值越高表示失真越小,图像质量越好。通常在 YCbCr 颜色空间的 Y 通道上计算。 PSNR=10log10(MAXI2MSE) \text{PSNR} = 10 \cdot \log_{10} \left( \frac{\text{MAX}_I^2}{\text{MSE}} \right) 其中:
      • MAXI\text{MAX}_I:图像像素的最大可能值(例如,8 位图像为 255)。
      • MSE\text{MSE} (Mean Squared Error):原始图像和处理后图像之间像素值的均方误差。
      • MSE=1MNi=0M1j=0N1[I(i,j)K(i,j)]2\text{MSE} = \frac{1}{MN} \sum_{i=0}^{M-1} \sum_{j=0}^{N-1} [I(i,j) - K(i,j)]^2
      • I(i,j):原始图像在像素 (i,j) 处的像素值。
      • K(i,j):处理后图像在像素 (i,j) 处的像素值。
      • M, N:图像的宽度和高度。
    • 结构相似性指数 (Structural Similarity Index Measure, SSIM):衡量两幅图像相似度的指标,更符合人眼感知。值越接近 1 表示相似度越高。通常在 YCbCr 颜色空间的 Y 通道上计算。 SSIM(x,y)=(2μxμy+C1)(2σxy+C2)(μx2+μy2+C1)(σx2+σy2+C2) \text{SSIM}(x, y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)} 其中:
      • x, y:两幅图像(或图像块)的像素值。
      • μx,μy\mu_x, \mu_y:图像 xxyy 的平均值。
      • σx2,σy2\sigma_x^2, \sigma_y^2:图像 xxyy 的方差。
      • σxy\sigma_{xy}:图像 xxyy 的协方差。
      • C1=(K1L)2,C2=(K2L)2C_1 = (K_1L)^2, C_2 = (K_2L)^2:用于稳定除法的常数,其中 LL 是像素值的动态范围(例如 255),K1=0.01,K2=0.03K_1 = 0.01, K_2 = 0.03 为默认值。
  • 参考型感知指标 (Reference-based Perceptual Metrics)

    • LPIPS (Learned Perceptual Image Patch Similarity) [90]:使用深度神经网络提取的特征来衡量两幅图像之间的感知距离。值越低表示感知相似度越高,质量越好。
    • DISTS (Deep Image Structure and Texture Similarity) [17]:一种结合结构和纹理相似性的图像质量评估指标。值越低表示图像质量越好。
  • 无参考指标 (No-Reference Metrics)

    • NIQE (Natural Image Quality Evaluator) [89]:通过训练一个通用统计模型来评估图像的自然度,从而间接评估图像质量。值越低表示图像越自然,质量越好。
    • MANIQA (Multi-dimension Attention Network for No-Reference Image Quality Assessment) [75]:一种基于多维度注意力网络的无参考图像质量评估方法。值越高表示质量越好。
    • MUSIQ (Multi-scale Image Quality Transformer) [75]:一种基于多尺度 Transformer 的图像质量评估方法。值越高表示质量越好。
    • CLIPIQA (CLIP-based Image Quality Assessment) [75]:一种利用 CLIP 模型进行图像质量评估的方法。值越高表示质量越好。
  • 图像质量指标 (Image Quality Metrics)

    • FID (Fréchet Inception Distance) [29]:衡量生成图像与真实图像之间分布相似性的指标,常用于评估生成模型的质量。值越低表示生成图像与真实图像的分布越接近,质量越好。
  • 下游任务评估 (Evaluation on Downstream Tasks)

    • 目标检测 (Object Detection) - APb (Average Precision, bounding box):衡量目标检测模型在特定阈值下(通常是 IoU,Intersection over Union)的平均精度。
    • 实例分割 (Instance Segmentation) - APm (Average Precision, mask):衡量实例分割模型在掩码预测上的平均精度。
    • 语义分割 (Semantic Segmentation) - mIoU (Mean Intersection over Union):计算所有类别 IoU 的平均值,是语义分割任务的常用指标。

5.3. 对比基线

本文将 DreamClear 与以下最先进的方法进行了比较:

  • GAN-Based 方法:
    • BSRGAN [85]
    • Real-ESRGAN [64]
    • SwinIR-GAN [41]
    • DASR [43]
  • Diffusion-Based 方法:
    • StableSR [63]
    • DiffBIR [46]
    • ResShift [82]
    • SinSR [65]
    • SeeSR [70]
    • SUPIR [80]

5.4. 实施细节

  • 训练损失: GenIRDreamClear 都使用原始的潜在扩散损失 (latent diffusion loss) [59]。
  • GenIR 训练:
    • 基于 SDXL [55] 构建。
    • 使用 16 块 NVIDIA A100 GPU 训练 5 天。
    • 训练图像分辨率为 1024×10241024 \times 1024,批处理大小为 256。
  • 数据生成:
    • 使用 256 块 NVIDIA V100 GPU 耗时 5 天生成大规模数据集。
    • 生成负样本时,SDEdit [50] 中的强度 (strength) 设置为 0.6。
    • Gemini 用于文本提示词和生成图像的过滤,以确保隐私和内容适当性。
  • DreamClear 训练:
    • 基于 PixArt-α [13] 和 LLaVA [47] 构建。
    • DiffBIR [46] 中的 SwinIR 模型用作轻量级降解去除器。
    • 使用 AdamW 优化器,学习率为 5e55e^{-5}
    • 1024×10241024 \times 1024 分辨率图像上训练,使用 32 块 NVIDIA A100 GPU 运行 7 天,批处理大小为 128。
    • MoAM 中专家数量 KK 设置为 3。
  • DreamClear 推理:
    • 采用 iDDPM [51] 采样器,50 个采样步长。
    • CFG 引导尺度 ω=4.5\omega = 4.5

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定量比较

以下是原文 Table 1 的结果,展示了 DreamClear 与最先进的真实世界 IR 方法在合成和真实世界基准上的定量比较。最佳和次佳性能分别以红色和蓝色突出显示。

Datasets Metrics BSRGAN [85] Real-ESRGAN [64] SwinIR-GAN [41] DASR [43] StableSR [63] DiffBIR [46] ResShift [82] SinSR [65] SeeSR [70] SUPIR [80] DreamClear
DIV2K-Val PSNR ↑ 19.88 19.92 19.66 19.73 19.73 19.98 19.80 19.37 19.59 18.68 18.69
SSIM↑ 0.5137 0.5334 0.5253 0.5122 0.5039 0.4987 0.4985 0.4613 0.5045 0.4664 0.4766
LPIPS ↓ 0.4303 0.3981 0.3992 0.4350 0.4145 0.3866 0.4450 0.4383 0.3662 0.3976 0.3657
DISTS ↓ 0.2484 0.2304 0.2253 0.2606 0.2162 0.2396 0.2383 0.2175 0.1886 0.1818 0.1637
FID ↓ 54.42 48.44 49.17 59.62 29.64 37.00 46.12 37.84 24.98 28.11 20.61
NIQE ↓ 3.9322 3.8762 3.7468 3.9725 4.4255 4.5659 5.9852 5.7320 4.1320 3.4014 3.2126
MANIQA ↑ 0.3514 0.3854 0.3654 0.3110 0.2942 0.4268 0.3782 0.4206 0.5251 0.4291 0.4320
MUSIQ ↑ 63.93 64.50 64.54 59.66 58.60 64.77 62.67 65.27 72.04 69.34 68.44
CLIPIQA ↑ 0.5589 0.5804 0.5682 0.5565 0.5190 0.6527 0.6498 0.6961 0.7181 0.6035 0.6963
LSDIR-Val PSNR ↑ 18.27 18.13 17.98 18.15 18.11 18.42 18.24 17.94 18.03 16.95 17.01
SSIM ↑ 0.4673 0.4867 0.4783 0.4679 0.4508 0.4618 0.4579 0.4302 0.4564 0.4080 0.4236
LPIPS ↓ 0.4378 0.3986 0.4020 0.4503 0.4152 0.4049 0.4524 0.4523 0.3759 0.4119 0.3836
DISTS ↓ 0.2539 0.2278 0.2253 0.2615 0.2159 0.2439 0.2436 0.2265 0.1966 0.1838 0.1656
FID ↓ 53.25 46.46 45.31 60.60 31.26 35.91 43.25 36.01 25.91 30.03 22.06
NIQE ↓ 3.6885 3.4078 3.3715 3.6432 4.0218 4.3750 5.5635 5.4240 4.0590 2.9820 3.0707
MNIQA ↑ 0.3829 0.4381 0.3991 0.3315 0.3098 0.4551 0.3995 0.4309 0.5700 0.4683 0.4811
MUSIQ ↑ 65.98 68.25 67.10 60.96 59.37 65.94 63.25 65.35 73.00 70.98 70.40
CLIPIQA ↑ 0.5648 0.6218 0.5983 0.5681 0.5190 0.6592 0.6501 0.6900 0.7261 0.6174 0.6914
RealSR PSNR ↑ 25.01 24.22 24.89 25.51 24.60 24.77 24.94 24.47 24.66 22.67 22.56
SSIM ↑ 0.7422 0.7401 0.7543 0.7526 0.7387 0.6902 0.7178 0.6710 0.7209 0.6567 0.6548
LPIPS ↓ 0.2853 0.2901 0.2680 0.3201 0.2736 0.3436 0.3864 0.4208 0.2997 0.3545 0.3684
DISTS ↓ 0.1967 0.1892 0.1734 0.2056 0.1761 0.2195 0.2467 0.2432 0.2029 0.2185 0.2122
FID ↓ 84.49 90.10 80.07 91.16 88.89 69.94 88.91 70.83 71.92 71.63 65.37
NIQE ↓ 4.9261 5.0069 4.9475 5.9659 5.6124 6.1294 6.6044 6.4662 4.9102 4.5368 4.4381
MANIQA ↑ 0.3660 0.3656 0.3432 0.2819 0.3465 0.4182 0.3781 0.4009 0.5189 0.4296 0.4337
MUSIQ ↑ 64.67 62.06 60.97 50.94 61.07 61.74 60.28 60.36 69.38 66.09 65.33
CLIPIQA ↑ 0.5329 0.4872 0.4548 0.3819 0.5139 0.6202 0.5778 0.6587 0.6839 0.5371 0.6895
DRealSR PSNR ↑ 27.09 26.95 27.00 28.19 27.39 27.31 27.16 26.15 27.10 24.41 24.48
SSIM ↑ 0.7759 0.7812 0.7815 0.8051 0.7830 0.7140 0.7388 0.6564 0.7596 0.6696 0.6508
LPIPS ↓ 0.2950 0.2876 0.2789 0.3165 0.2710 0.3920 0.4101 0.4690 0.3117 0.3844 0.3972
DISTS ↓ 0.1956 0.1857 0.1787 0.2072 0.1737 0.2443 0.2553 0.2103 0.2264 0.2145 0.2264
FID ↓ 84.26 83.79 84.22 94.96 80.23 89.67 90.49 91.80 87.05 70.15 70.32
NIQE ↓ 5.5976 5.4746 5.4057 6.4172 6.1084 6.8580 7.2030 7.0863 5.5342 5.1090 5.0210
MANIQA ↑ 0.3540 0.3533 0.3321 0.2699 0.3353 0.4071 0.3683 0.3907 0.5085 0.4189 0.4229
MUSIQ ↑ 63.66 61.08 60.01 50.00 60.07 60.77 59.34 59.39 68.39 65.17 64.44
CLIPIQA ↑ 0.5228 0.4770 0.4446 0.3720 0.5034 0.6106 0.5670 0.6483 0.6738 0.5273 0.6791

分析:

  • 感知指标优势: 在合成数据集 DIV2K-ValLSDIR-Val 上,DreamClear 在 LPIPS、DISTS 和 FID 等感知指标上始终表现最佳,这表明其生成的图像在视觉上更具感知质量和真实感。例如,在 DIV2K-Val 上,DreamClear 的 FID 达到 20.61,远低于其他模型。
  • 无参考指标优势: 在真实世界基准上,DreamClear 在 NIQE、MANIQA、MUSIQ 和 CLIPIQA 等多数无参考指标上表现强劲,这进一步证明了其修复图像的高质量和自然度。例如,在 RealSR 上,DreamClear 的 NIQE 达到 4.4381,是所有模型中最低的(NIQE越低越好)。
  • PSNR/SSIM 权衡: 尽管 DreamClear 在 PSNR/SSIM 等失真指标上可能略低于某些方法(如 Real-ESRGANDiffBIR 在合成数据集上的 PSNR),但本文强调这些传统指标可能不足以完全代表视觉质量,尤其对于追求逼真修复的生成模型。这与近年来的研究 [79, 80] 观点一致,即需要更有效的指标来评估现代图像修复方法。DreamClear 优先追求逼真的修复效果,而非像素级的精确还原。

6.1.2. 定性比较

下图(原文 Figure 4)展示了合成和真实世界样本的定性比较。

该图像是多组图像修复对比结果的示意图,展示了作者方法DreamClear与多种主流图像超分辨率重建方法在建筑和飞鸟图像上的修复效果,突出DreamClear在细节和清晰度提升方面的优势。

分析:

  • 严重降解处理: 在处理严重降解的图像(如第一行示例)时,只有 DreamClear 不仅能够推断出正确的图像结构,还能生成清晰的细节。其他方法可能产生变形的结构和模糊的结果。
  • 真实世界图像: 对于真实世界图像(如第三行示例),DreamClear 能够实现细节丰富、更自然的修复结果。
  • 更多真实世界视觉比较可在附录 A.4 中查看 (原文 Figure 11, 12, 13)。这些视觉证据进一步支持了 DreamClear 在生成逼真、高质量图像方面的优越性。

6.1.3. 用户研究

  • 设置: 选取 100 张低质量图像,使用 DreamClear 和其他五种方法进行修复。邀请 256 名评估者对每组(包含原图和六种修复结果)图像进行排名,考虑视觉质量、自然度、细节准确性以及无失真或伪影等因素。为确保公平性,每个用户评估 10 组随机选择的图像,组内图像顺序随机,且隐藏方法名称。

  • 指标:

    • 投票百分比 (Vote Percentage):每个模型获得的总投票比例。
    • Top-K 比例 (Top-K Ratio):一个模型在多少比例的图像中被评为 Top-K(例如 Top-1Top-2)选择。
  • 结果: 如下图(原文 Figure 5)所示,DreamClear 在两项指标上均领先:

    • 获得超过 45% 的总投票,显示出强烈的用户偏好。
    • 80% 的图像中是首选,在 98% 的图像中被评为前两名。
  • 分析: 用户研究结果强有力地证实了 DreamClear 在生成高质量图像方面的一致优势,这比单纯的客观指标更能反映人类的感知偏好。

    下图(原文 Figure 5)展示了用户研究结果。

    Figure 9: Visual comparisons for ablation study on training datasets. 该图像是图9,展示了训练数据集消融实验的视觉对比。图片左侧为老虎低质量输入及不同训练数据集恢复结果,右侧为建筑物低质量输入及对应恢复效果,突出展示了使用本方法数据集提升恢复细节和质量的效果。

6.1.4. 下游基准评估

以下是原文 Table 2 的结果,展示了在 COCO val2017 (目标检测和实例分割) 和 ADE20K (语义分割) 上对图像修复的下游任务评估。

Metrics GT Zoomed LQ BSRGAN Real-ESRGAN SwinIR-GAN DASR StableSR DiffBIR ResShift SinSR SeeSR SUPIR DreamClear
Object Detection (APb) 49.0 7.4 11.0 12.8 11.8 10.5 16.9 18.7 15.6 13.8 18.2 16.6 19.3
Object Detection (APb) 70.6 12.0 17.6 20.7 18.9 17.0 26.7 29.9 25.0 22.3 29.1 27.2 30.8
Object Detection (APb5) 53.8 7.5 11.4 13.1 12.1 10.7 17.6 19.4 15.9 14.2 18.9 17.0 19.8
Instance Segmentation (APm) 43.9 6.4 9.6 11.3 10.2 9.3 14.6 16.2 13.6 12.0 15.9 14.1 16.7
Instance Segmentation (APm) 67.7 11.2 16.4 19.3 17.5 15.9 24.6 27.5 23.3 20.6 26.6 24.5 28.2
Instance Segmentation (APm) 47.3 6.3 9.7 11.5 10.2 9.4 14.9 16.6 13.7 12.1 16.1 14.0 16.8
Semantic Segmentation (mIoU) 50.4 11.5 18.6 17.3 14.3 30.4 19.6 23.6 29.7 19.6 26.9 27.7 31.9

分析:

  • DreamClearCOCO 2017 (目标检测和实例分割) 和 ADE20K (语义分割) 数据集上的评估中取得了最佳性能。
  • 例如,在目标检测 APb 指标上,DreamClear 达到 19.3,高于其他所有方法。在语义分割 mIoU 上,DreamClear 达到 31.9
  • 这表明 DreamClear 的图像修复不仅在低级视觉质量上表现出色,而且能够显著提升高级视觉任务的性能,这对于实际应用具有重要意义。

6.2. 消融实验/参数分析

6.2.1. GenIR 生成数据集对真实世界 IR 的影响分析

由于训练扩散模型耗时较长,本文使用 SwinIR-GAN 模型来研究 GenIR 生成数据集的影响。SwinIR 在不同数量的生成数据上进行训练,并与在 DF2K(DIV2K + Flickr2K)上训练的模型进行比较。

下图(原文 Figure 6)展示了合成训练数据量增加对 LSDIR-Val 性能的影响。

Figure 10: Visual comparison of images generated using the pre-trained T2I model and GenIR. Our proposed GenIR produces images with enhanced texture and more realistic details, exhibiting less blurri…

分析:

  • 数据量与性能提升: 随着训练数据量的增加,模型在 LSDIR-Val 上的所有指标(包括感知指标 LPIPS、DISTS、FID 和无参考指标 MANIQA、MUSIQ、CLIPIQA)都得到了改善。这强化了本文的观点:更大的数据集能够增强模型的泛化能力和修复性能。

  • 超越传统数据集: 值得注意的是,仅使用 100,000 张 GenIR 生成图像训练的模型,其性能已经超越了在 DF2K 上训练的模型。这证明了使用大规模合成数据集对真实世界 IR 的显著优势。

  • 质量与规模: 虽然在相同数量下,生成图像训练的模型在感知指标上略低于 DF2K 模型,但在无参考指标上表现更好。随着数据规模的扩大,生成数据的优势凸显。

    以下是原文 Table 4 的结果,展示了 GenIRLSDIR-Val 上使用 SwinIR-GAN 进行的消融结果。

    Training Data LPIPS ↓ DISTS ↓ FID ↓ MANIQA ↑ MUSIQ ↑ CLIPIQA ↑
    Pre-trained T2I Model (3450 images) 0.4819 0.2790 60.12 0.3271 61.94 0.5423
    Ours GenIR (3450 images) 0.4578 0.2435 51.29 0.3691 63.12 0.567

分析:

  • 本文比较了使用预训练 T2I 模型和 GenIR 生成的相同数量(3450 张)图像来训练 SwinIR-GAN 的结果。

  • 结果显示,使用 GenIR 生成图像训练的模型在所有指标上均显著优于使用预训练 T2I 模型生成的图像。这表明 GenIR 通过双提示词微调等机制,能够生成更真实、纹理更丰富的图像,从而对 IR 模型训练更有效。

  • 下图(原文 Figure 10)展示了使用预训练 T2I 模型和 GenIR 生成图像的视觉比较。GenIR 生成的图像纹理更丰富,细节更真实,模糊和失真更少,因此更适合训练真实世界 IR 模型。

    下图(原文 Figure 10)展示了使用预训练 T2I 模型和 GenIR 生成图像的视觉比较。

    Figure 2: An overview of the three-stage GenIR pipeline, which includes (a) Image-Text Pairs Construction, (b) Dual-Prompt Based Fine-Tuning, and (c) Data Generation & Filtering. 该图像是论文中图2的示意图,展示了GenIR三阶段数据构建流程:(a) 图文对构建,(b) 双提示词微调,(c) 数据生成与筛选,体现了通过多模态模型与扩散模型实现隐私安全的大规模高质量图像数据生成。

  • 双提示词学习的有效性: 如下图(原文 Figure 8)所示,双提示词学习策略能够有效增强图像的纹理细节,使生成的图像更适合 IR 训练。

  • 生成数据对 IR 模型视觉效果的增强: 如下图(原文 Figure 9)所示,本文生成的 GenIR 数据在增强 IR 模型的视觉效果方面具有显著优势。

    下图(原文 Figure 8)展示了 GenIR 消融研究的视觉比较。

    Figure 12: Visual comparisons on real-world benchmarks (2/3). Please zoom in for a better view. 该图像是论文中的图12展示,属于多图排列比较示意图,展示了不同算法在实际场景下图像恢复效果。图中包含六种恢复方法对低质量输入图像的还原对比,突出DreamClear方法在细节和清晰度上的优势。

下图(原文 Figure 9)展示了训练数据集消融研究的视觉比较。

Figure 13: Visual comparisons on real-world benchmarks (3/3). Please zoom in for a better view. 该图像是图像复原对比图,展示了真实场景中的两组图像通过多种方法处理后的视觉效果。图中包括低质量输入图像及StableSR、DiffBIR、SeeSR、SUPIR和本文提出的DreamClear的复原结果,突出DreamClear在细节和清晰度上的优势。

6.2.2. DreamClear 消融研究

以下是原文 Table 3 的结果,展示了 DreamClearDIV2K-ValCOCO val2017ADE20K 上的消融结果。

LPIPS ↓ DISTS ↓ FID ↓ MANIQA ↑ MUSIQ ↑ CLIPIQA ↑ APb APm mIoU
Mixture of AM 0.3657 0.1637 20.61 0.4320 68.44 0.6963 19.3 16.7 31.9
AM 0.3981 0.1843 25.75 0.4067 66.18 0.6646 18.0 15.6 28.6
Cross-Attention 0.4177 0.2016 29.74 0.3785 63.21 0.6497 17.2 15.1 26.3
Zero-Linear 0.4082 0.1976 29.89 0.4122 66.11 0.6673 17.6 15.3 27.2
Dual-Branch 0.3657 0.1637 20.61 0.4320 68.44 0.6963 19.3 16.7 31.9
w/o Reference Branch 0.4207 0.2033 30.91 0.3985 64.04 0.6582 15.9 14.0 24.7
Detailed Text Prompt 0.3657 0.1637 20.61 0.4320 68.44 0.6963 19.3 16.7 31.9
Null Prompt 0.3521 0.1607 20.47 0.4230 67.26 0.6812 18.8 16.2 29.8

分析:

  • 自适应调制器混合 (MoAM)
    • MoAM 被替换为单个 AM 时,所有指标都大幅下降(例如 LPIPS 从 0.3657 增加到 0.3981,FID 从 20.61 增加到 25.75)。这强调了 MoAM 中降解先验引导对于指导修复专家和增强模型鲁棒性的重要性。
    • AM 替换为简单的交叉注意力 (Cross-Attention) 或零线性层 (Zero-Linear) 导致性能进一步下降或感知质量显著降低。这证实了 MoAM 设计的有效性。
  • 双分支框架 (Dual-Branch Framework)
    • 移除参考分支 (w/o Reference Branch) 导致所有指标显著恶化(例如 LPIPS 从 0.3657 增加到 0.4207,mIoU 从 31.9 降到 24.7)。这表明参考分支的引入能够让模型更多地关注细节增强而非降解去除,从而生成更逼真的图像。
  • 文本提示词引导 (Text Prompt Guidance)
    • 使用 MLLM 生成的详细文本提示词 (Detailed Text Prompt) 相比空提示词 (Null Prompt),在感知指标(LPIPS、DISTS、FID)上略逊一筹。然而,在无参考指标(MANIQA、MUSIQ、CLIPIQA)和高级视觉任务指标(APb、APm、mIoU)上表现更好。

    • 结论: 这表明 MLLM 提供的详细文本提示词能够更有效地保留图像的语义信息,即使在像素级保真度上略有牺牲,但整体语义和感知质量更高,对下游任务更有益。

      下图(原文 Figure 7)展示了 DreamClear 消融研究的视觉比较。

      Figure 11: Visual comparisons on real-world benchmarks (1/3). Please zoom in for a better view.

      视觉结果分析:

  • 空提示词的影响: 在图 7 中,使用空提示词而不是 MLLM 生成的文本提示词时,修复结果(如熊的眼睛)出现显著的语义错误。这直观地证明了 MLLM 提供的语义信息对于模型实现理想修复结果的帮助。
  • MoAM 的有效性: 当使用 AM、零线性层或交叉注意力代替 MoAM 时,模型往往产生过于平滑或包含语义错误的结果,进一步验证了 MoAM 的有效性。
  • 参考分支的重要性: 移除参考分支会导致修复结果的显著退化。
  • 总结: 完整的 DreamClear 模型在保真度和感知方面都达到了最佳结果。

7. 总结与思考

7.1. 结论总结

本文针对真实世界图像修复 (IR) 中的核心挑战,提出了一套双重策略,并取得了显著进展。主要结论包括:

  1. GenIR 创新性数据策划: 提出了 GenIR,一个隐私安全、自动化的大规模图像数据集生成流程。它利用 T2I 扩散模型的生成能力和 MLLM 的智能过滤,成功克服了传统数据获取方式的版权、隐私和成本问题,生成了百万级高质量图像,为 IR 模型训练提供了丰富资源。

  2. DreamClear 高容量 IR 模型: 引入了 DreamClear,一个基于 Diffusion Transformer (DiT) 的强大 IR 模型。该模型巧妙地融合了 T2I 扩散模型的生成先验和 MLLM 的感知能力,并引入了 MoAM(自适应调制器混合)模块。MoAM 能够根据令牌级 (token-wise) 的降解先验动态集成多个修复专家,从而显著增强了模型对真实世界多样化和复杂降解的适应性和泛化能力。

  3. 卓越的性能验证: 广泛的实验(包括定量指标、定性视觉比较、用户研究以及下游高级视觉任务评估)一致表明,DreamClear 在处理复杂真实世界场景中的 IR 任务时,相比现有最先进方法展现出卓越的性能和逼真度。

    总体而言,本文的工作为解决真实世界图像修复中的数据和模型两大难题提供了创新且有效的解决方案,标志着 IR 领域的一个重要进展。

7.2. 局限性与未来工作

本文作者指出了 DreamClear 的以下局限性,并提出了未来的研究方向:

  1. 生成纹理细节的真实性挑战: DreamClear 依赖预训练扩散模型的生成先验。在图像降解严重的情况下,模型虽然能够预测合理且逼真的结果,但合成的纹理细节可能与真实标注 (Ground Truth) 图像不完全一致。未来可以通过引入高质量参考图像或明确的人工指令来弥补这一限制。
  2. 推理速度的限制: 作为一个基于扩散模型的 IR 模型,DreamClear 需要多个推理步骤来恢复图像,这使其难以满足许多实际应用中对实时推理速度的要求。未来的工作可以探索模型蒸馏 (model distillation) 和模型量化 (model quantization) 等技术来弥补推理速度的限制。

7.3. 个人启发与批判

7.3.1. 个人启发

  • 数据生成范式革新: GenIR 的提出极具启发性。它展示了如何通过结合生成模型和 MLLM 来主动构建大规模、高质量、合规的数据集,而非被动地依赖网络爬取。这种“生成数据以训练模型”的策略,在数据稀缺或存在隐私问题的领域具有巨大潜力,可推广到其他视觉或多模态任务的数据集构建中。
  • DiTIR 领域的应用潜力: DreamClear 成功将 DiT 这种先进的 Transformer 架构引入 IR 任务,并设计了 ControlFormer 这样的定制化控制机制,证明了 Transformer 在图像像素级生成任务中的强大能力和可控性。这为未来 IR 模型的设计提供了新的思路。
  • 动态专家融合的有效性: MoAM 模块通过令牌级 (token-wise) 降解先验动态融合多个专家,能够有效处理真实世界中复杂多变的降解类型。这种自适应、模块化的设计思想,对于提升模型在复杂场景下的泛化能力和鲁棒性具有普适意义。
  • 多模态融合的价值: MLLM 在数据生成阶段的提示词构建和过滤,以及在 DreamClear 模型中的语义引导,都突显了多模态信息(文本与图像)深度融合对于提升视觉任务性能的巨大价值。

7.3.2. 批判与潜在改进

  • 生成细节的真实性与可信度: 论文提到在严重降解下,合成的纹理细节可能不与真实标注 (Ground Truth) 严格一致。虽然这对追求逼真效果的生成模型是可接受的,但在某些对细节真实性要求极高的应用(如医学图像、司法鉴定)中可能存在风险。未来的研究可以探索更严格的感知损失或引入额外的真实性验证机制。
  • 推理速度的实际应用限制: 扩散模型固有的多步采样特性导致推理速度较慢,这限制了 DreamClear 在实时应用场景中的部署。虽然作者提出了模型蒸馏和量化的未来方向,但如何高效地实现这一目标,同时不显著牺牲修复质量,仍是一个重要的研究课题。可以探索更快的采样方法 (如 DDIMDPM-Solver) 或一步生成模型。
  • GenIR 的成本问题: 尽管 GenIR 相比人工爬取更具成本效益,但使用 256 块 NVIDIA V100 GPU 耗时 5 天生成数据集,以及 DreamClear 训练使用 32 块 NVIDIA A100 GPU 耗时 7 天,这表明其计算资源需求依然庞大,对于普通研究者或小型团队可能是一个高门槛。如何降低这种高容量模型的训练和数据生成成本,是推广其应用的关键。
  • MLLM 引导的鲁棒性: MLLM 生成的文本提示词对图像修复起到了语义引导作用。但 MLLM 本身可能存在幻觉 (hallucination) 问题,即生成不准确的描述。这种不准确性是否会反过来影响 IR 模型的修复质量,值得进一步探讨和验证。可以考虑引入一个反馈机制,让 IR 模型能够对 MLLM 提示词的质量进行评估。
  • MoAM 专家数量的优化: 论文将 MoAM 中的专家数量 KK 设置为 3,但并未详细探讨不同 KK 值对性能的影响。未来的工作可以进行更深入的超参数分析,或者探索自适应地确定专家数量的方法。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。