DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior
TL;DR 精炼摘要
DiffBIR提出了一种通用图像恢复流水线,能有效处理多种盲图像恢复任务。该方法分为两个阶段:去除降解与信息再生。在此过程中,IRControlNet利用潜在扩散模型生成真实细节,并引入区域自适应恢复指导机制,让用户可调节真实感与保真度的平衡。实验证明其在多项任务上优于现有方法。
摘要
We present DiffBIR, a general restoration pipeline that could handle different blind image restoration tasks in a unified framework. DiffBIR decouples blind image restoration problem into two stages: 1) degradation removal: removing image-independent content; 2) information regeneration: generating the lost image content. Each stage is developed independently but they work seamlessly in a cascaded manner. In the first stage, we use restoration modules to remove degradations and obtain high-fidelity restored results. For the second stage, we propose IRControlNet that leverages the generative ability of latent diffusion models to generate realistic details. Specifically, IRControlNet is trained based on specially produced condition images without distracting noisy content for stable generation performance. Moreover, we design a region-adaptive restoration guidance that can modify the denoising process during inference without model re-training, allowing users to balance realness and fidelity through a tunable guidance scale. Extensive experiments have demonstrated DiffBIR's superiority over state-of-the-art approaches for blind image super-resolution, blind face restoration and blind image denoising tasks on both synthetic and real-world datasets. The code is available at https://github.com/XPixelGroup/DiffBIR.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior
1.2. 作者
Xinqi Lin, Jingwen He, Ziyan Chen, Zhaoyang Lyu, Bo Dai, Fanghua Yu, Wanli Ouyang, Yu Qiao, Chao Dong。 作者们隶属于中国科学院深圳先进技术研究院 (Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences)、上海人工智能实验室 (Shanghai AI Laboratory) 以及香港中文大学 (The Chinese University of Hong Kong)。
1.3. 发表期刊/会议
该论文发布于 arXiv 预印本平台,发布时间为 2023-08-29T07:11:52.000Z。
1.4. 发表年份
2023年。
1.5. 摘要
本文提出了一种名为 DiffBIR 的通用图像恢复流水线 (general restoration pipeline),能够在统一框架下处理多种盲图像恢复 (blind image restoration) 任务。DiffBIR 将盲图像恢复问题解耦为两个阶段:1) 降解去除 (degradation removal),即去除图像中与内容无关的退化;2) 信息再生 (information regeneration),即生成丢失的图像内容。这两个阶段独立开发,但以级联 (cascaded manner) 的方式无缝协作。在第一阶段,模型利用恢复模块 (restoration modules) 去除降解并获得高保真的恢复结果。对于第二阶段,本文提出了 IRControlNet,它利用潜在扩散模型 (latent diffusion models) 的生成能力来生成逼真的细节。具体而言,IRControlNet 基于专门生成的、不含干扰噪声内容的条件图像 (condition images) 进行训练,以实现稳定的生成性能。此外,本文设计了一种区域自适应恢复指导 (region-adaptive restoration guidance) 机制,该机制可以在推理 (inference) 过程中修改去噪 (denoising) 过程,而无需重新训练模型,允许用户通过可调的指导尺度 (tunable guidance scale) 平衡真实感 (realness) 和保真度 (fidelity)。广泛的实验证明了 DiffBIR 在合成 (synthetic) 和真实世界 (real-world) 数据集上,在盲图像超分辨率 (blind image super-resolution)、盲人脸修复 (blind face restoration) 和盲图像去噪 (blind image denoising) 任务中,均优于现有最先进 (state-of-the-art) 的方法。
1.6. 原文链接
- 原文链接: https://arxiv.org/abs/2308.15070
- PDF 链接: https://arxiv.org/pdf/2308.15070v3.pdf
- 发布状态: 预印本 (preprint)
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题与挑战
图像恢复 (Image Restoration) 旨在从低质量图像中重建出高质量图像。传统的图像恢复问题(如图像去噪、去模糊和超分辨率)通常在受限设置下定义,即降解过程简单且已知(例如,双三次下采样 bicubic downsampling)。虽然这些方法取得了巨大成功,但其泛化能力 (generalization ability) 有限。
为了处理真实世界的降解图像,盲图像恢复 (Blind Image Restoration, BIR) 应运而生。BIR 的最终目标是对具有普遍降解 (general degradations) 的通用图像实现逼真的重建。BIR 不仅扩展了经典图像恢复任务的边界,还在许多实际应用领域(例如,老照片/电影修复)具有广泛的应用。
然而,现有 BIR 方法面临以下挑战:
- GAN-based 方法的局限性: 许多成功的 BIR 方法,如
BSRGAN和Real-ESRGAN,采用生成对抗网络 (Generative Adversarial Networks, GANs) 来模拟真实世界降解。它们在去除降解方面表现出强大的鲁棒性,但由于其有限的生成能力,通常难以生成逼真的细节。 - 特定任务的局限性: 针对特定任务(如盲人脸修复 BFR)的方法,例如
CodeFormer和GFPGAN,可以利用强大的生成性人脸先验 (generative facial priors) 来生成高质量的人脸细节。但它们通常假设固定的输入尺寸和受限的人脸图像空间,因此无法应用于通用图像。 - 扩散模型的限制: 近期,去噪扩散概率模型 (Denoising Diffusion Probabilistic Models, DDPMs) 在图像生成方面表现出色。一些工作尝试将扩散模型应用于图像恢复,但它们主要处理定义明确的降解 (clearly defined degradations),如线性或非线性降解,而无法很好地泛化到未知降解。也就是说,它们可以在通用图像上实现逼真的重建,但无法处理普遍降解。
- 降解与内容纠缠 (Degradation and Content Entanglement): 将低质量图像直接作为条件输入给生成模型时,由于图像的降解信息和内容信息是纠缠在一起的,这会导致生成过程不稳定,并引入不希望的伪影 (artifacts)。
2.1.2. 本文的创新思路
针对上述挑战,本文提出了 DiffBIR,一个在统一框架下解决不同 BIR 任务的方法。其核心创新思路是:
- 解耦 (Decoupling): 将盲图像恢复问题解耦为两个阶段:降解去除和信息再生。这使得每个阶段可以独立优化,并允许利用现有的专业恢复模块处理各种复杂的降解。
- 生成扩散先验 (Generative Diffusion Prior): 引入基于大规模预训练文本到图像潜在扩散模型 (text-to-image latent diffusion models) 的生成模块,以提供强大的图像细节生成能力。
- 稳定条件生成 (Stable Condition Generation): 提出
IRControlNet,并通过专门生成的条件图像进行训练,确保生成模块的稳定性和性能,避免降解信息对生成过程的干扰。 - 可控性与平衡 (Controllability and Balance): 设计了区域自适应恢复指导机制,允许用户在推理时灵活调整生成细节的真实感和与原始图像的保真度之间的平衡,而无需重新训练。
2.2. 核心贡献/主要发现
本文的主要贡献总结如下:
- 统一的两阶段框架:
DiffBIR首次将盲图像恢复问题解耦为降解去除和信息再生两个阶段。这种两阶段设计使得DiffBIR能够在一个统一的框架下,实现盲图像超分辨率 (BSR)、盲人脸修复 (BFR) 和盲图像去噪 (BID) 任务的最先进性能。 IRControlNet生成模块: 提出了IRControlNet,它利用文本到图像扩散先验 (text-to-image diffusion prior) 进行逼真的图像重建。通过对生成模块关键组件的全面探索,证明IRControlNet是盲图像恢复任务中一个稳固的生成骨干网络 (backbone)。- 训练无关 (Training-free) 的可控模块: 引入了训练无关的区域自适应恢复指导 (region-adaptive restoration guidance) 模块,该模块在采样过程 (sampling process) 中执行,可根据用户偏好在质量 (quality) 和保真度 (fidelity) 之间实现灵活的权衡。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 图像恢复 (Image Restoration, IR)
图像恢复是指从退化(如模糊、噪声、低分辨率等)的图像中重建出高质量图像的过程。其目标是尽可能恢复原始图像的细节和清晰度。
3.1.2. 盲图像恢复 (Blind Image Restoration, BIR)
盲图像恢复是图像恢复的一个更具挑战性的分支。在 BIR 中,图像的退化过程(例如,模糊核的大小和形状、噪声的类型和强度)是未知或部分已知的。这使得模型需要同时估计退化参数并进行图像恢复。
3.1.3. 图像超分辨率 (Image Super-Resolution, SR)
图像超分辨率是从一张或多张低分辨率 (Low-Resolution, LR) 图像中重建出高分辨率 (High-Resolution, HR) 图像的技术。在盲图像超分辨率 (Blind Image Super-Resolution, BSR) 中,降采样 (downsampling) 过程和可能存在的其他降解(如模糊、噪声)是未知的。
3.1.4. 图像去噪 (Image Denoising)
图像去噪是指从含有噪声的图像中去除噪声,恢复出清晰图像的过程。盲图像去噪 (Blind Image Denoising, BID) 指的是噪声类型和/或噪声水平未知的情况。
3.1.5. 人脸修复 (Face Restoration, FR)
人脸修复是一种专门针对人脸图像的图像恢复任务,旨在修复低质量、模糊或损坏的人脸图像。盲人脸修复 (Blind Face Restoration, BFR) 关注的是人脸图像在未知降解条件下的修复。
3.1.6. 生成对抗网络 (Generative Adversarial Networks, GANs)
GANs 是一种深度学习模型,由一个生成器 (Generator) 和一个判别器 (Discriminator) 组成。生成器尝试创建逼真的数据(如图像),而判别器则尝试区分真实数据和生成器生成的数据。两者通过对抗训练相互学习,最终生成器能够生成高度逼真的数据。
3.1.7. 去噪扩散概率模型 (Denoising Diffusion Probabilistic Models, DDPMs)
DDPMs 是一种新兴的生成模型。它通过一个前向扩散过程 (forward diffusion process) 逐步向数据(如图像)添加高斯噪声,直到数据完全变成随机噪声。然后,它学习一个逆向去噪过程 (reverse denoising process) 来从噪声中恢复数据。DDPMs 在生成高质量图像方面表现出色。
3.1.8. 潜在扩散模型 (Latent Diffusion Models, LDM) / 稳定扩散 (Stable Diffusion)
LDM 是 DDPMs 的一个变体,它在低维潜在空间 (latent space) 而不是原始像素空间中执行扩散和去噪过程。这显著提高了模型的训练和推理效率,同时保持了高质量的生成能力。Stable Diffusion 是一个基于 LDM 的大型文本到图像模型,能够根据文本提示生成图像。它通常包含一个变分自编码器 (Variational AutoEncoder, VAE) 用于在像素空间和潜在空间之间转换,以及一个 UNet 架构用于去噪。
3.1.9. ControlNet
ControlNet 是一种用于向预训练文本到图像扩散模型添加额外条件控制的方法。它通过复制并训练扩散模型 UNet 的编码器层,使其能够接受额外的条件输入(如边缘图、分割图等),从而在生成过程中实现更精细的控制,而无需对原始预训练模型进行大规模修改。
3.1.10. 均方误差 (Mean Squared Error, MSE)
均方误差是衡量预测值与真实值之间差异的常用指标。它的计算方法是预测值和真实值之差的平方的平均值。在图像处理中,MSE 常常用于衡量恢复图像与原始高质量图像之间的像素差异,值越小表示差异越小,图像保真度越高。其数学公式为:
其中 是数据点的数量, 是真实值, 是预测值。
3.1.11. 变分自编码器 (Variational AutoEncoder, VAE)
VAE 是一种生成模型,由编码器 (Encoder) 和解码器 (Decoder) 组成。编码器将输入数据映射到潜在空间中的一个概率分布(通常是高斯分布),解码器则从潜在空间中采样并重建数据。VAE 能够学习数据的紧凑、有意义的潜在表示 (latent representation)。在 LDM 中,VAE 用于将图像压缩到潜在空间进行扩散过程,并从潜在空间解码回像素空间。
3.2. 前人工作
论文在第2节《Related Work》中回顾了盲图像恢复和零样本图像恢复 (Zero-shot Image Restoration, ZIR) 的相关工作。
3.2.1. 盲图像超分辨率 (Blind Image Super-Resolution, BSR)
- 复杂降解模型:
BSRGAN[73] 提出了基于随机混洗策略 (random shuffling strategy) 的复杂降解模型,以合成更实用的降解。Real-ESRGAN[56] 进一步利用“高阶”降解建模。 - 强大的骨干网络 (Backbone):
SwinIR-GAN[29] 采用了Swin Transformer[32] 作为骨干网络以提高性能。 - 生成先验 (Generative Prior):
FeMaSR[5] 将超分辨率 (SR) 问题建模为基于预训练VQ-GAN[13] 的特征匹配问题。 - 利用
Stable Diffusion:StableSR[52] 和PASD[66] 尝试将Stable Diffusion引入图像恢复。StableSR设计了时间感知编码器 (time-aware encoder) 来控制Stable Diffusion。PASD提出了PACA模块,能有效注入像素级条件信息。 - 局限性: 尽管这些方法在真实世界超分辨率中取得了巨大成功,但它们通常需要针对不同图像恢复任务进行重新训练。
3.2.2. 盲人脸修复 (Blind Face Restoration, BFR)
GAN先验 (GAN Prior):GAN先验方法 [4, 18, 55, 65] 能够重建具有高度真实感的人脸。- 矢量量化 (Vector-Quantized, VQ) 字典学习:
CodeFormer[77]、VQFR[16]、DR2[61] 等引入高质量码本 (HQ codebook) 和VQ字典学习 [13, 50] 来生成逼真的人脸细节。 - 扩散先验 (Diffusion Prior):
DR2[61]、PGDiff[63]、DifFace[67] 等利用扩散模型的强大生成能力来实现高质量和鲁棒的人脸修复。 - 局限性: 这些方法仅对人脸图像表现良好,无法应用于通用图像。
3.2.3. 盲图像去噪 (Blind Image Denoising, BID)
- 深度学习方法:
DnCNN[71] 是一个端到端 (end-to-end) 的深度卷积神经网络 (CNN),用于处理多噪声水平 (multiple noise levels) 的高斯去噪。 GAN用于噪声建模:GCBD[7] 利用GAN进行噪声建模。CBDNet[17] 使用更真实的噪声模型合成低质量数据。- 变分去噪网络 (Variational Denoising Network):
VDNet[68] 提出同时实现噪声估计和去噪。 - 局限性: 尽管能够有效去除未知噪声,但这些方法通常会产生平滑 (smooth) 的结果,缺乏细节。
3.2.4. 零样本图像恢复 (Zero-shot Image Restoration, ZIR)
- 基于
GAN先验: 早期工作 [2, 9, 36, 39] 主要通过在预训练GAN的潜在空间 (latent space) 中搜索潜在码 (latent code) 来实现无监督图像恢复。 - 基于
DDPM先验:DDRM[23] 引入基于奇异值分解 (SVD) 的方法处理线性图像恢复任务。DDNM[57] 基于零空间分解 (null-space decomposition) 设计采样调度。GDP[14] 引入了更方便有效的指导方法,可以在推理时估计降解模型。 - 局限性:
ZIR方法只能处理明确定义的降解,无法很好地泛化到真实世界中的低质量图像,即它们可以在通用图像上实现逼真重建,但不能处理普遍降解。
3.3. 技术演进
图像恢复领域的技术演进大致经历了从传统基于模型的方法到深度学习,再到生成模型的阶段:
-
传统方法: 早期方法依赖于手工设计的先验和优化算法,如基于稀疏表示、低秩矩阵分解等。
-
CNN时代: 随着深度学习的兴起,CNN在图像恢复任务中取得了突破。例如,SRCNN[12] 将CNN应用于超分辨率,DnCNN[71] 用于去噪。这些方法通常通过监督学习直接从退化图像映射到高质量图像。 -
GAN时代: 为了生成更逼真的纹理和细节,GANs被引入图像恢复。SRGAN[27]、ESRGAN[54]、BSRGAN[73]、Real-ESRGAN[56] 等利用对抗损失 (adversarial loss) 克服了MSE损失导致的过平滑问题。然而,GANs在生成过程中可能存在模式崩溃 (mode collapse) 和训练不稳定的问题,且生成能力仍有局限。 -
Transformer时代:Transformer架构 [6, 29, 58, 69] 凭借其强大的全局建模能力,也被引入图像恢复,例如SwinIR。 -
扩散模型时代: 近年来,去噪扩散概率模型
DDPMs[20] 在图像生成方面展现了前所未有的能力。LDMs[42] 进一步提高了效率。研究人员开始探索将扩散模型作为生成先验应用于图像恢复,以生成更丰富、更真实的细节。然而,直接应用于盲图像恢复时,扩散模型也面临如何处理未知降解和避免降解信息干扰的问题。DiffBIR正是处于这一演进的最新阶段,它致力于解决扩散模型在盲图像恢复中的挑战,通过解耦策略和ControlNet机制,使其能够更稳健地处理真实世界中的复杂降解。
3.4. 差异化分析
DiffBIR 与相关工作的主要区别和创新点体现在以下几个方面:
-
统一框架处理多任务:
- 现有工作: 大多数最先进的
BSR、BFR和BID方法都是针对特定任务设计的,通常无法直接泛化到其他任务。例如,BFR方法(如CodeFormer、GFPGAN)利用人脸先验,但不能处理通用图像。BSR方法(如Real-ESRGAN)在超分辨率上表现出色,但难以直接用于去噪或人脸修复。 DiffBIR创新: 首次提出了一个统一的框架,能够同时处理BSR、BFR和BID三种盲图像恢复任务,并在所有任务上达到最先进性能。这种统一性极大地提高了方法的通用性和实用性。
- 现有工作: 大多数最先进的
-
两阶段解耦策略:
- 现有工作: 许多
GAN或扩散模型直接尝试从低质量图像生成高质量图像,降解去除和内容生成通常是耦合在一起的。这使得降解信息可能干扰生成过程,导致伪影或生成不稳定。 DiffBIR创新: 明确将盲图像恢复解耦为“降解去除”和“信息再生”两个阶段。- 第一阶段使用专门的恢复模块去除图像独立 (image-independent) 的降解,生成一个高保真的中间条件图像。
- 第二阶段的生成模块只关注基于这个“干净”条件图像生成丢失的细节。这种解耦方式使得生成模块在更稳定的条件下工作,避免了降解信息对生成过程的干扰。
- 现有工作: 许多
-
IRControlNet的设计:- 现有
Stable Diffusion应用: 一些工作尝试将Stable Diffusion用于图像恢复,如StableSR、PASD。但它们可能需要针对特定任务设计时间感知编码器或注入模块,或者在条件编码上不够高效。ControlNet[75] 提供了一种通用控制机制,但直接应用于IR任务时可能存在色彩偏移等问题。 DiffBIR创新: 提出了IRControlNet,在ControlNet的基础上进行了专门优化,特别是在条件编码方面,利用预训练VAE编码器来编码条件图像,使其能更好地保留图像信息,并解决了ControlNet在图像恢复中可能出现的色彩偏移问题。同时,通过引入噪声潜在表示 作为条件网络的输入,促进了模型收敛并提升了生成质量。
- 现有
-
区域自适应恢复指导 (Region-Adaptive Restoration Guidance):
- 现有扩散模型: 扩散模型通常难以在生成质量和保真度之间进行灵活权衡,或者需要重新训练模型才能调整。
DiffBIR创新: 引入了一种训练无关的、区域自适应的恢复指导机制。该机制通过在采样过程中,根据图像区域的梯度密度自适应地调整对高保真条件图像的遵循程度。高频区域(如纹理、边缘)受生成能力影响更大,而低频区域(如平坦区域)则更倾向于保持保真度。用户可以通过一个指导尺度 (guidance scale) 灵活控制这种权衡,这在实际应用中非常有用。
-
对真实世界降解的鲁棒性:
- 现有
ZIR方法:ZIR方法(如DDRM、DDNM)虽然利用扩散先验,但往往只能处理定义明确的降解,对真实世界中复杂的未知降解泛化能力有限。 DiffBIR创新: 通过第一阶段的恢复模块,能够有效地去除各种复杂的真实世界降解,为第二阶段的生成模块提供可靠的条件。这使得DiffBIR在处理真实世界数据集时表现出卓越的鲁棒性。
- 现有
4. 方法论
4.1. 方法原理
DiffBIR 的核心思想是将盲图像恢复问题解耦为两个独立但相互协作的阶段:降解去除 (degradation removal) 和 信息再生 (information regeneration)。其原理基于以下观察:
-
降解的干扰性: 低质量 (Low Quality, LQ) 图像中的降解(如噪声、模糊)与图像内容纠缠在一起。如果直接将
LQ图像作为生成模型的条件,这些降解信息会干扰生成过程,导致不希望的伪影或生成不稳定的问题(如 Figure 2 所示)。 -
内容与降解的分离: 如果能将
LQ图像中的降解信息去除,得到一个相对“干净”、高保真 (High Fidelity) 但可能仍然缺乏细节的图像,那么这个“干净”图像就可以作为生成模块的更可靠条件,引导其专注于生成缺失的细节,而不是同时处理降解。 -
扩散模型的生成能力: 潜在扩散模型 (Latent Diffusion Models, LDM) 如
Stable Diffusion具有强大的图像生成能力,能够根据条件生成逼真的纹理和细节。基于此,
DiffBIR提出了一个两阶段流水线:
- 第一阶段:恢复模块 (Restoration Module, RM)
- 目标:去除
LQ图像中的图像无关降解,得到一个高保真但可能仍平滑的图像 。 - 方法:采用现成的 (off-the-shelf) 或专门训练的
MSE损失基础的恢复模型。对于训练生成模块,会训练一个专门的RM来产生多样化的条件图像。
- 目标:去除
- 第二阶段:生成模块 (Generation Module, GM)
- 目标:基于第一阶段输出的高保真图像 ,利用生成扩散先验生成逼真的细节,再生丢失的图像内容。
- 方法:提出了
IRControlNet,一个基于Stable Diffusion的定制化ControlNet,以 作为条件进行高效、稳定的图像生成。
- 可控性: 引入区域自适应恢复指导 (region-adaptive restoration guidance) 机制,在推理时允许用户在生成质量和保真度之间进行灵活权衡。
4.2. 核心方法详解
4.2.1. 整体框架
DiffBIR 的整体框架如 Figure 3 所示,它包括一个恢复模块、一个生成模块以及一个可选的训练无关 (training-free) 可控模块。
该图像是一个示意图,展示了DiffBIR的恢复管道,包括低质量图像(lq images)通过恢复模块(Restoration Module)生成高保真图像(high fidelity images),并利用生成模块(Generation Module)进行信息再生,展示了区域自适应恢复指导在恢复过程中的作用。
Figure 3. DiffBIR 的恢复流水线。 低质量图像首先经过恢复模块,去除图像无关的降解,生成一个高保真图像。这个高保真图像随后作为生成模块的条件,用于信息再生。在采样过程中,通过区域自适应恢复指导,实现质量和保真度之间的权衡。
4.2.2. 恢复模块 (Restoration Module, RM)
在第一阶段,RM 的目标是去除低质量图像 中分散注意力的降解,而不生成任何新的内容,以获得一个高保真的中间图像 。
- 任务特异性: 由于不同的
BIR任务(如BID、BFR)在降解过程和图像数据集方面有其独特的特点,论文为不同的BIR任务使用了单独的恢复模块,以保持其专业性。在推理时,这些RM是现成的 (off-the-shelf) 任务特定模型。 - 生成模块训练的条件预处理: 为了训练一个稳定的生成模块,需要可靠的条件图像。为此,论文额外训练了一个
RM来生成用于训练生成模块的条件图像。这个RM使用经典的降解模型和均方误差 (Mean Squared Error, MSE) 损失进行训练: 其中:-
:高质量 (High Quality, HQ) 图像。
-
:合成的低质量 (Low Quality, LQ) 图像。
-
:恢复模块
RM从 恢复得到的图像。 -
:均方误差损失,衡量 与 之间的像素级差异。
-
:L2 范数的平方,即平方欧几里得距离。
值得注意的是,为了生成足够多样化的条件图像,这个
RM的降解范围 (degradation range) 设置得很大。这个在训练阶段用于生成条件图像的RM在推理阶段会被丢弃,因为其简单性使其无法处理真实世界的复杂降解。
-
4.2.3. 生成模块 (Generation Module, GM) - IRControlNet
生成模块的目标是利用强大的生成先验来再生图像中丢失的细节。本文基于大规模文本到图像潜在扩散模型 (text-to-image latent diffusion model) Stable Diffusion 2.1-base 实现。
4.2.3.1. 预备知识:Stable Diffusion
Stable Diffusion 通过预训练的变分自编码器 (Variational AutoEncoder, VAE) 实现更高的效率和训练稳定性。VAE 包括一个编码器 将图像 转换为潜在表示 ,以及一个解码器 将 重建为 。扩散 (diffusion) 和去噪 (denoising) 过程都在潜在空间进行。
-
扩散过程: 在时间步 时,将方差为 的高斯噪声添加到编码后的潜在表示 中,生成噪声潜在表示 (noisy latent) : 其中:
- :从标准高斯分布中采样的噪声。
- :在时间步 的噪声衰减系数。
- :累积噪声衰减系数。 当 足够大时, 近似于标准高斯分布。
-
去噪过程及优化:
Stable Diffusion学习一个网络 ,在随机选择的时间步 下,根据条件 (例如文本提示)预测噪声 。潜在扩散模型的优化目标定义如下: 其中:x, c:从数据集中采样的图像和条件(如文本提示)。- :图像 的潜在表示。
- :均匀采样的随机时间步。
- :从标准高斯分布中采样的噪声。
- :噪声预测网络(通常是
UNet架构)。 - :L2 范数的平方。
4.2.3.2. IRControlNet
在获取了可靠的条件图像 后,IRControlNet 利用预训练的 Stable Diffusion 作为生成模块。其主要涉及三个方面:1) 条件编码 (condition encoding);2) 条件网络 (condition network);3) 特征调制 (feature modulation)。IRControlNet 的架构如 Figure 4 所示。
该图像是 IRControlNet 的架构示意图及其四种模型变体。左侧展示了 IRControlNet 的主要结构,包括固定和可训练的模块。右侧则分别展示四个变体的设计,突出了条件编码和特征调制的不同实现方式。
Figure 4. IRControlNet 及其四种模型变体的架构图。 左侧是 IRControlNet 的核心设计,展示了如何通过 VAE 编码条件图像,以及如何将条件网络与冻结的 UNet 去噪器连接。右侧显示了用于消融研究的四种变体。
-
条件编码 (Condition Encoding): 在
IRControlNet中,使用预训练且冻结的VAE编码器 将条件图像 编码到潜在空间,得到条件潜在表示 (condition latent) : 由于VAE在大规模数据集上训练,得到的 能够保留足够的图像信息。这与ControlNet原始设计中使用一个从头训练的小型网络进行条件编码不同,实验证明这对于IR任务至关重要。 -
条件网络 (Condition Network): 条件网络的设计遵循
ControlNet[75]:复制预训练UNet编码器和中间块 (middle block) 的可训练副本,记作 。这个副本接收条件信息并输出控制信号。这种复制策略为条件网络提供了良好的权重初始化。 然后,将条件潜在表示 和噪声潜在表示 在时间步 进行拼接 (concatenation) 作为 的输入: 由于拼接操作会增加通道数,论文在 的第一层引入了少量参数并将其初始化为零。这种零初始化 (zero initialization) 的作用类似于ControlNet中的零卷积 (zero convolution),旨在避免训练早期随机噪声作为梯度,从而提高训练稳定性。 -
特征调制 (Feature Modulation): 条件网络输出的多尺度特征 (multi-scale features) 用于调制冻结的
UNet去噪器 (denoiser) 的中间特征。遵循ControlNet的做法,只调制中间块特征和跳跃连接特征 (skipped features),通过加法操作进行。此外,零卷积也被用来连接条件网络和固定的UNet去噪器,以进一步提高模型训练的稳定性。
在训练过程中,只有条件网络和特征调制的参数会被更新,预训练的 UNet 和 VAE 保持冻结。具体的潜在扩散目标损失函数为:
其中:
- :噪声潜在表示。
- :文本条件(在本文中通常为空或用于负提示)。
- :时间步。
- :从标准高斯分布中采样的噪声。
- :由恢复模块生成的条件潜在表示。
- :被
IRControlNet修改的噪声预测网络。 - :L2 范数的平方。 这个阶段的最终输出图像记为 。
4.2.3.3. IRControlNet 的设计讨论与变体分析
论文通过构建四种模型变体(如 Figure 4 所示)对 IRControlNet 的关键组件进行了深入的实证分析:
- 变体 1 (Variant 1): 在条件编码方面,用一个从头训练的小型卷积网络替代
IRControlNet的VAE编码器。这与原始ControlNet的设计更接近。- 发现:
Variant 1无法保持输入LQ图像的原始颜色,且PSNR等量化指标显著低于IRControlNet(平均下降 3dB)。这表明VAE编码器在IR任务中对控制潜在扩散先验起着至关重要的作用,因为图像生成是在潜在空间进行的,条件也应投影到相同的空间。
- 发现:
- 变体 2 (Variant 2): 在条件网络方面,移除噪声 ,仅使用条件潜在表示 作为条件网络的输入。
- 发现:
Variant 2的训练损失始终高于IRControlNet(Figure 5),且在 IQA (Image Quality Assessment) 指标上表现较差,尽管在衡量保真度的指标上略好。定性结果显示,Variant 2通常产生平滑结果,缺乏足够的纹理细节(Figure 12)。这表明 作为条件网络的输入可以加速收敛,并有助于生成高质量结果,因为它使条件网络感知每个时间步的随机性。
- 发现:
- 变体 3 (Variant 3): 在条件网络方面,不复制
UNet去噪器的原始权重,而是从随机初始化开始训练条件网络。- 发现:
Variant 3在训练损失收敛上表现不佳(Figure 5),并且在所有指标上都达到最差性能。这强调了条件网络良好权重初始化的重要性。
- 发现:
- 变体 4 (Variant 4): 在特征调制方面,控制中间块特征和解码器特征,而不是跳跃连接特征。
-
发现:
Variant 4实现了与IRControlNet相当的收敛速度和量化结果。这表明对跳跃连接特征或解码器特征进行调制具有相似的效果。然而,解码器特征的通道数通常是相应跳跃连接特征的两倍,会引入更多参数和计算。因此,IRControlNet在跳跃连接特征上的调制已经足够高效。结论: 综合以上分析,
IRControlNet被证明是BIR任务中生成模块的稳固骨干网络,其主要组件(VAE编码、 输入、复制初始化、跳跃连接调制)对于模型收敛和性能至关重要。
-
4.2.4. 恢复指导 (Restoration Guidance)
论文设计了一个可控模块,以在质量 (quality) 和保真度 (fidelity) 之间实现权衡。这个模块是训练无关的 (training-free),在每个采样步骤 (sampling step) 中应用。用户的目标通常是在高频区域(如纹理、边缘)生成更多细节,而在平坦区域(如天空、墙壁)生成更少内容。为此,论文提出了区域自适应恢复指导。
4.2.4.1. 指导机制
在时间步 时,UNet 去噪器首先预测噪声潜在表示 的噪声 。然后从 中移除预测的噪声 以获得干净的潜在表示 (clean latent) :
其中:
-
:
IRControlNet预测的噪声。 -
和 :扩散过程中的系数,用于从噪声潜在表示 中估计出原始的干净潜在表示 。
此时,目标是引导解码器 靠近高保真条件图像 。通过在像素空间中应用区域自适应
MSE损失函数,并使用梯度下降算法更新干净潜在表示 。
4.2.4.2. 区域自适应 MSE 损失函数
损失函数定义如下: 其中:
H, W, C:图像 的空间尺寸(高、宽、通道数)。- :权重图 (weight map),用于调整不同区域的损失贡献。
- :元素乘法 (element-wise multiplication)。
- :由解码器 从干净潜在表示 解码得到的图像。
- :第一阶段恢复模块输出的高保真指导图像。
- :L2 范数的平方。
4.2.4.3. 权重图 的计算
为了实现区域自适应,权重图 的计算基于指导图像 的梯度信息。
- 计算梯度幅值 (Gradient Magnitude): 首先,通过应用 Sobel 算子计算 中每个像素的梯度幅值 : 其中 和 分别表示 Sobel 算子在 轴和 轴上的卷积结果。
- 补丁级梯度密度 (Patch-level Gradient Density): 由于图像中具有强梯度信号的像素通常很少,论文将 划分为多个不重叠的等大小补丁 (non-overlapping patches),以更好地估计梯度密度。对于每个补丁 ,计算所有像素梯度幅值的总和,并使用
tanh函数将其映射到[0, 1)范围: 其中(i,j)表示补丁 中的一个像素。 越接近 1,表示相应补丁的梯度信号越强。 - 最终梯度幅值图 : 最终的梯度幅值图 是通过将每个像素的梯度幅值映射到其所属补丁的 值来得到的:
其中 是指示函数 (indicator function),当像素
(i,j)位于补丁 中时,其值为 1,否则为 0。 - 权重图 : 最终的权重图 通过 计算。这意味着:
- 低频区域 (Low-frequency regions): 梯度较弱的区域(如平坦区域)对应的 值较小,因此 值较大。这些区域在损失计算中权重更高,受高保真指导图像 的影响更大,有助于保持保真度并去除噪声。
- 高频区域 (High-frequency regions): 梯度较强的区域(如纹理、边缘)对应的 值较大,因此 值较小。这些区域在损失计算中权重较低,受高保真指导图像 的影响较小,从而能够保持生成能力,产生更多细节和纹理。
4.2.4.4. 梯度下降更新
在每个采样步骤 中,通过梯度下降算法优化区域自适应 MSE 损失,更新干净潜在表示 :
其中 是指导尺度 (guidance scale)。
- 指导尺度 : 是一个可调参数,用于控制从指导图像 中保留信息的程度。
- 较大的 值会使 更接近 ,表示更高的保真度 (fidelity)。
- 较小的 值会给予生成能力更大的自由,可能产生更多细节但保真度略低。 这允许用户根据自己的偏好在生成质量和保真度之间进行平滑过渡和权衡。
Figure 6. 区域自适应恢复指导。
该图像是示意图,展示了区域自适应恢复引导机制。图中界定了不同权重地区的处理方法,其中较大的权重用于高频区域,而较小的权重针对低频区域。具体来说,区域自适应均方误差损失 通过梯度下降算法最小化清洁潜在表示 与高保真引导图 之间的损失。图例展示了过程中的权重图和梯度图计算。
该图展示了在给定高保真指导图像 的情况下,区域自适应恢复指导如何通过梯度下降算法,在每个采样步骤最小化干净潜在表示 与 之间的区域自适应 MSE 损失。图中也直观地显示了低频区域(噪声)被消除,而高频区域(玻璃纹理)的生成细节得以保留。
4.2.4.5. 算法 1:恢复指导流程
论文在附录中提供了算法流程,如下所示:
| Algorithm 1 Restoration guidance, given a diffusion model θ, and the VAE's encoder E and decoder D |
| Input: Guidance image IRM, text description c (set to empty), diffusion steps T, gradient scale s Output: Output image D(z0) Sample zT from N (0, I) for t from T to 1 do zt √1 − ¯αtθ(zt, c, t, ε (IRM )) |
算法 1:恢复指导 输入: 指导图像 ,文本描述 (通常设置为空),扩散步数 ,梯度尺度 输出: 输出图像
- 从标准正态分布 中采样 。
- 对于从 到
1的每个时间步 执行循环: a. 预测噪声\epsilon_t = \epsilon_\theta(z_t, c, t, c_{RM})。 b. 计算干净潜在表示 。 c. (此处原文算法描述缺失了梯度下降更新的步骤,但根据正文的详细描述,应在此处进行 的更新) 根据区域自适应MSE损失 计算梯度 。 更新干净潜在表示 。 然后使用 进行后续的采样步骤。 d. 从 分布中采样 。 - 返回 。
符号解释 (Algorithm 1 补足的符号):
- : 初始的纯噪声潜在表示,从标准正态分布中采样。
- : 扩散过程中的总时间步数。
- : 在时间步 时,由噪声预测网络 预测的噪声。
- : 从指导图像 中编码得到的条件潜在表示。
- : 最终从干净潜在表示 解码得到的图像。
- : 扩散模型的逆向去噪过程中的采样分布,用于从 和估计的 中采样得到 。
- : 损失函数 对干净潜在表示 的梯度。
5. 实验设置
5.1. 数据集
5.1.1. 训练数据集
DiffBIR 在一个过滤后的 laion2b-en [46] 数据集上进行训练,该数据集包含大约 1500 万张高质量图像。所有图像在训练期间被随机裁剪为 像素。
5.1.2. 评估数据集
实验评估了 DiffBIR 在多种任务和数据集上的性能:
-
盲图像超分辨率 (BSR) 任务:
- 合成数据集:
- DIV2K-Val [1]
- DRealSR [62]
- RealSR [3]
- 真实世界数据集:
- RealSRSet [73]
- real47 (作者自行收集)
- 合成数据集:
-
盲人脸修复 (BFR) 任务:
- 真实世界数据集:
- LFW-Test [55]
- WIDER-Test [77]
- 真实世界数据集:
-
盲图像去噪 (BID) 任务:
- 真实世界混合数据集: 包含来自 real3 [74]、real9 [74] 和 RNI15 [72] 的图像。
5.2. 评估指标
论文使用了多种评估指标,包括传统的参考指标和最新的无参考图像质量评估 (Image Quality Assessment, IQA) 指标。
5.2.1. 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)
概念定义: PSNR 是衡量图像质量的传统客观指标,主要通过比较图像像素值差异来量化重建图像与原始图像之间的失真程度。PSNR 值越高表示失真越小,图像质量越好。它对亮度误差非常敏感。
数学公式:
其中:
- : 图像中像素的最大可能值,对于8位灰度图像,通常为255。
- : 均方误差 (Mean Squared Error),定义为:
m, n: 图像的行数和列数。I(i,j): 原始图像在坐标(i,j)处的像素值。K(i,j): 恢复图像在坐标(i,j)处的像素值。
5.2.2. 结构相似性指数 (Structural Similarity Index Measure, SSIM)
概念定义: SSIM 是一种感知指标,旨在更好地模拟人类视觉系统对图像质量的判断。它从亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面衡量两幅图像的相似性。SSIM 值接近1表示两幅图像高度相似,质量越好。
数学公式:
通常情况下 ,且 ,则简化为:
其中:
x, y: 两个待比较的图像块。- : 图像块 和 的平均亮度。
- : 图像块 和 的标准差(衡量对比度)。
- : 图像块 和 的协方差(衡量结构相似性)。
- : 稳定常数,用于避免除数为零或数值不稳定。 是像素值的动态范围(例如,8位图像为255), 是小常数(通常 )。
5.2.3. 感知图像块相似性 (Learned Perceptual Image Patch Similarity, LPIPS)
概念定义: LPIPS 是一种基于深度学习的感知指标,通过计算两张图像在预训练深度网络(如 AlexNet、VGG)的特征空间中的距离来评估它们的相似性。它能更好地捕捉人类感知的图像质量差异,值越小表示两幅图像在感知上越相似,质量越高。
数学公式: (该指标没有统一的简单数学公式,其计算涉及特征提取和加权距离,通常通过现有库调用。这里仅描述概念。)
LPIPS 的计算涉及:
- 从两张图像 和 中提取特征
f(x)和 ,通常使用预训练的CNN网络(如AlexNet或VGG)。 - 在特征空间中计算这两组特征的加权 L2 距离:
其中 表示网络层数, 是该层的特征图尺寸, 是特征图在
(h,w)位置的特征向量, 是学习到的权重。
5.2.4. 多尺度图像质量Transformer (Multi-scale Image Quality Transformer, MUSIQ)
概念定义: MUSIQ 是一种无参考图像质量评估 (No-Reference Image Quality Assessment, NR-IQA) 方法,它使用 Transformer 架构来评估图像在多个尺度下的质量。MUSIQ 旨在预测人类对图像质量的主观评价,值越高表示图像质量越好。
数学公式: (作为深度学习模型,其内部机制复杂,没有简单的数学公式来表示其评估过程。它输出一个质量分数。)
5.2.5. 多维度注意力网络图像质量评估 (Multi-dimension Attention Network for No-Reference Image Quality Assessment, MANIQA)
概念定义: MANIQA 也是一种无参考图像质量评估方法,它利用多维度注意力机制来捕捉图像的局部和全局质量信息,并预测图像的质量分数。值越高表示图像质量越好。
数学公式: (同 MUSIQ,作为一个深度学习模型,没有简单的数学公式来表示其评估过程。它输出一个质量分数。)
5.2.6. CLIP图像质量评估 (CLIP Image Quality Assessment, CLIP-IQA)
概念定义: CLIP-IQA 是一种利用 CLIP (Contrastive Language-Image Pre-training) 模型评估图像质量的方法。它通过衡量图像与“高质量图像”文本描述的语义相似度,以及与“低质量图像”文本描述的语义差异来间接评估图像质量。值越高表示图像质量越好。
数学公式: (同 MUSIQ 和 MANIQA,它依赖于 CLIP 模型的特征空间相似度计算。)
5.2.7. Fréchet Inception Distance (FID)
概念定义: FID 是衡量生成图像质量和多样性的常用指标,特别是在评估生成模型时。它通过计算生成图像与真实图像在 Inception-v3 模型特征空间中的 Fréchet 距离来衡量它们的相似性。FID 值越小表示生成图像的质量越高,与真实图像分布越接近。
数学公式:
其中:
X, Y: 分别是真实图像和生成图像的特征集合。- : 真实图像和生成图像特征的均值向量。
- : 真实图像和生成图像特征的协方差矩阵。
- : 矩阵的迹 (trace) 运算。
- : L2 范数的平方。
5.3. 对比基线
DiffBIR 与以下最先进的方法进行了比较:
- 盲图像超分辨率 (BSR) 方法:
FeMaSR[5]、DASR[30]、Real-ESRGAN+[56]、BSRGAN[73]、SwinIR-GAN[29]、StableSR[52] 和PASD[66]。 - 盲人脸修复 (BFR) 方法:
CodeFormer[77]、DifFace[67]、DMDNet[28]、DR2[61]、GCFSR[18]、GFP-GAN[55]、GPEN[65]、 [60]、VQFR[16] 和PGDiff[63]。 - 盲图像去噪 (BID) 方法:
CBDNet[17]、DeamNet[41]、Restormer[69]、SwinIR[29] 和SCUNet-GAN[74]。
5.4. 实施细节
5.4.1. 训练细节
- 恢复模块 (RM): 训练了 次迭代 (iterations),批大小 (batch size) 为 96。
- 生成模块 (GM) -
IRControlNet:- 基准:采用
Stable Diffusion 2.1-base作为生成先验。 - 微调 (Finetune):
IRControlNet微调了 次迭代,批大小为 256。 - 优化器:使用
Adam[25] 优化器。 - 学习率:前 次迭代学习率设置为 ,随后 次迭代降至 。
- 基准:采用
- 硬件: 训练过程在 8 块
NVIDIA A100 GPU上进行,图像分辨率为 。
5.4.2. 推理细节
- 恢复模块替换: 在推理时,论文用现成的任务特定恢复模型替换了训练阶段使用的
RM:BSR任务:使用BSRNet[73]。BFR任务:使用DifFace[67] 中使用的SwinIR[29]。BID任务:使用SCUNet-PSNR[74]。
IRControlNet: 训练好的IRControlNet保持不变,用于所有任务。- 文本提示 (Prompt): 正向提示 (positive prompt) 设置为空,负向提示 (negative prompt) 使用“low quality”、“blurry”等描述。
- 恢复指导尺度 (Restoration Guidance Scale):
- 合成数据集:设置为 0、0.5 和 1 进行比较。
- 真实世界场景:为追求更高质量,通常设置为 0。
- 采样加速: 采用间隔
DDPM采样调度 (spaced DDPM sampling schedule) [38],需要 50 个采样步骤。 - 图像尺寸处理:
- 大于 的图像直接输入
DiffBIR。 - 边长小于 512 的图像,首先将其短边放大到 512 进行上采样,恢复后再调整回原始尺寸。
- 大于 的图像直接输入
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. BSR 在合成数据集上的表现
以下是原文 Table 2 的结果:
| Metrics | FeMaSR [5] | DASR [30] | Real-ESRGAN+ [56] | BSRGAN [73] | SwinIR-GAN [29] | StableSR [52] | PASD [66] | DiffBIR | ||
|---|---|---|---|---|---|---|---|---|---|---|
| (s=0) | (s=0.5) | (s=1) | ||||||||
| PSNR↑ | 20.1303 | 21.2141 | 21.0348 | 21.4531 | 20.7488 | 21.2392 | 20.7838 | 20.5824 | 21.5808 | 21.9154 |
| SSIM↑ | 0.4451 | 0.4773 | 0.4899 | 0.4814 | 0.4844 | 0.4790 | 0.4727 | 0.4277 | 0.4794 | 0.4986 |
| LPIPS↓ | 0.3971 | 0.4479 | 0.3921 | 0.4095 | 0.3907 | 0.3993 | 0.4353 | 0.3939 | 0.3935 | 0.4263 |
| MUSIQ↑ | 62.7855 | 58.1591 | 64.6389 | 62.9271 | 65.4945 | 57.8069 | 63.8094 | 73.1019 | 68.6657 | 61.1476 |
| MANIQA↑ | 0.1443 | 0.1531 | 0.2238 | 0.1833 | 0.2061 | 0.1648 | 0.2354 | 0.3836 | 0.3146 | 0.2466 |
| CLIP-IQA↑ | 0.5674 | 0.5571 | 0.5905 | 0.5195 | 0.5779 | 0.5541 | 0.6125 | 0.7656 | 0.7158 | 0.6347 |
Table 2. DIV2K-Val 数据集上的定量比较。
分析:
- 质量指标 (IQA Metrics): 当恢复指导尺度 时 (
DiffBIR (s=0)),DiffBIR在MUSIQ、MANIQA和CLIP-IQA等无参考图像质量评估 (IQA) 指标上显著优于所有基线方法。这表明DiffBIR在生成图像的感知质量和真实感方面表现出色。 - 保真度指标 (Fidelity Metrics): 当指导尺度 时 (
DiffBIR (s=1)),DiffBIR在PSNR和SSIM上取得了最佳性能。这表明通过调整指导尺度,DiffBIR能够达到非常高的像素级保真度。此时,IQA 指标(MANIQA、CLIP-IQA)仍位列前三。 - 平衡: 用户可以通过调整指导尺度 来平衡质量和保真度(例如,设置 )。
- LPIPS:
LPIPS旨在衡量感知相似性,值越小越好。DiffBIR (s=0.5)和DiffBIR (s=0)取得了与Real-ESRGAN+等GAN模型相近或更好的LPIPS结果,显示了其在感知质量上的优势。
6.1.2. BSR 在真实世界数据集上的表现
以下是原文 Table 3 的结果:
| Datasets | Metrics | FeMaSR [5] | DASR [30] | Real-ESRGAN+ [56] | BSRGAN [73] | SwinIR-GAN [29] | StableSR [52] | PASD [66] | DiffBIR (s=0) |
|---|---|---|---|---|---|---|---|---|---|
| RealSRSet [73] | MUSIQ↑ | 64.6735 | 59.2695 | 63.2675 | 67.6705 | 64.2512 | 64.8372 | 67.4052 | 69.4208 |
| MANIQA↑ | 0.2142 | 0.1595 | 0.1963 | 0.2240 | 0.2054 | 0.2083 | 0.2370 | 0.3211 | |
| CLIP-IQA↑ | 0.6879 | 0.5236 | 0.5772 | 0.6456 | - | 0.6008 | 0.6418 | 0.7637 | |
| real47 | MUSIQ↑ | 68.9384 | 62.2026 | 68.1098 | 69.4741 | 68.8467 | 68.3422 | 70.9712 | 73.1397 |
| MANIQA↑ | 0.2347 | 0.1454 | 0.2055 | 0.2063 | 0.2217 | 0.2264 | - | 0.3682 | |
| CLIP-IQA↑ | 0.6911 | 0.5445 | 0.6382 | 0.6111 | 0.6246 | 0.6574 | - | 0.7781 |
Table 3. 真实世界数据集上 BSR 任务的定量比较。 分析:
-
在
RealSRSet和real47两个真实世界数据集上,当 时 (DiffBIR (s=0)),DiffBIR在所有 IQA 指标上均取得了最佳分数。 -
这表明
DiffBIR在处理具有挑战性的真实世界场景时,相对于基线方法具有卓越的优越性。 -
视觉比较 (Figure 7):
DiffBIR能够产生比基于GAN的方法更锐利 (sharper) 的结果,后者输出往往过平滑。与基于扩散的方法相比,DiffBIR的恢复结果更逼真,例如恢复的胡须、嘴唇、花蕊、文字等细节。
该图像是图表,展示了不同盲图像超分辨率(BSR)方法在真实世界数据集上的视觉比较。图中包含四种方法的效果对比,展示了DiffBIR在恢复图像内容方面的优越性。
Figure 7. 真实世界数据集上 BSR 方法的视觉比较。 该图展示了 DiffBIR在复杂纹理(如胡须和花瓣)和文字恢复上的优越性。
6.1.3. BFR 在真实世界数据集上的表现
以下是原文 Table 4 的结果:
| Datasets | Metrics | CodeFormer[77] | DifFace[67] | DMDNet[28] | DR2 [61] | GCFSR[18] | GFP-GAN[55] | GPEN[65] | RestoreFormer++[60] | VQFR[16] | PGDiff[63] | DiffBIR (s=0) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| LFW-Test [21] | MUSIQ | 75.4830 | 70.4957 | 73.4027 | 67.5357 | 71.3789 | 76.3779 | 76.6210 | 72.2492 | 74.3847 | 72.2175 | 76.4206 |
| MANIQA↑ | 0.3188 | 0.2692 | 0.2973 | 0.2830 | 0.2790 | 0.3688 | 0.3616 | 0.3179 | 0.3280 | 0.2927 | 0.4499 | |
| CLIP-IQA↑ | 0.6890 | 0.5945 | 0.6467 | 0.5728 | 0.6143 | 0.196 | 0.7181 | 0.7025 | 0.7099 | 0.6133 | 0.7948 | |
| FID (ref. FFHQ)↓ | 52.8765 | 44.9201 | 43.5403 | 45.9420 | 52.6972 | 47.4717 | 51.9862 | 50.7309 | 50.1300 | 41.5814 | 4.9065 | |
| Wider-Test [77] | MUSIQ | 73.4081 | 65.2397 | 69.4709 | 67.3163 | 69.9634 | 74.8308 | 75.6160 | 71.5155 | 71.4163 | 66.0014 | 75.3213 |
| MANIQA | 0.2971 | 0.2403 | 0.263 | 0.2795 | 0.2803 | 0.3508 | 0.3472 | 0.29055 | 0.3060 | 0.2406 | 0.4443 | |
| CLIP-IQA↑ | 0.6984 | 0.5639 | 0.6335 | 0.5821 | 0.6266 | 0.7147 | 0.7039 | 0.7171 | 0.7069 | 0.5685 | 0.8085 | |
| FID (ref. FFHQ)↓ | 39.2517 | 37.8440 | 38.9580 | 40.1202 | 41.1986 | 41.3247 | 46.4419 | 45.4686 | 38.1675 | 40.2700 | 35.094 |
Table 4. 真实世界数据集上 BFR 任务的定量比较。 分析:
DiffBIR (s=0)在LFW和Wider数据集上均取得了最高的FID分数,这表明它能够生成更逼真的人脸,并且生成分布与真实人脸分布最接近。- 在 IQA 指标方面,
DiffBIR在CLIP-IQA和MANIQA上也取得了最高分数,而MUSIQ分数接近最高。 - 尽管
IRControlNet没有在人脸数据集(如FFHQ)上进行微调,但它超越了所有其他基线方法。这证明了DiffBIR提出的恢复流水线具有出色的泛化能力。 - 视觉比较 (Figure 8): 图中展示了
DiffBIR在复杂场景下(如人手、侧脸)的独特优势。-
在第一个例子中,只有
DiffBIR能正确修复手部,而其他方法受人脸先验影响,导致手部扭曲。 -
在第二个例子中,只有
DiffBIR成功修复了侧脸,而其他方法在牙齿、鼻子、下巴等区域修复失败。 这证明了DiffBIR使用的生成先验适用于通用图像,而不仅仅是人脸图像。
该图像是对比不同盲人面部恢复(BFR)方法在真实世界数据集上的视觉效果。展示了多种方法的恢复结果,包括LQ、GPEN、GFPGAN、VQFR、CodeFormer等及DiffBIR的效果。从上到下、左到右排列,每种方法的效果对比清晰可见。
Figure 8. 真实世界数据集上 BFR 方法的视觉比较。 该图展示了 DiffBIR在人手修复和复杂侧脸细节修复方面的独特优势。
-
6.1.4. BID 在真实世界数据集上的表现
以下是原文 Table 5 的结果:
| Methods | MUSIQ↑ | MANIQA↑ | CLIP-IQA↑ |
|---|---|---|---|
| CBDNet [17] | 48.1149 | 0.1103 | 0.4709 |
| DeamNet [41] | 45.9942 | 0.0949 | 0.4391 |
| Restormer [69] | 47.4605 | 0.0927 | 0.3857 |
| SwinIR [29] | 55.0493 | 0.1595 | 0.4130 |
| SCUNet-GAN [74] | 58.2170 | 0.1822 | 0.5045 |
| DiffBIR (s=0) | 69.7278 | 0.3404 | 0.7420 |
Table 5. 真实世界数据集上 BID 任务的定量比较。 分析:
-
DiffBIR (s=0)在所有MUSIQ、MANIQA和CLIP-IQA指标上都显著优于所有基线方法。 -
这种显著差异归因于
DiffBIR引入了强大的生成扩散先验,使其能够有效地进行高质量图像恢复。 -
视觉比较 (Figure 9): 只有
DiffBIR能够去除噪声并生成逼真的纹理。SwinIR和SCUNet-GAN虽然成功去除了噪声,但产生了平滑且缺乏生动纹理细节的结果。
该图像是图表,展示了不同盲图像恢复算法的视觉对比效果。比较包括低质量图像(LQ)、Restormer、SwinIR、SCUNet-GAN和我们的DiffBIR模型,展示了各算法在真实数据集上的恢复效果。
Figure 9. 真实世界数据集上 BID 任务的视觉比较。 该图展示了 DiffBIR在去噪同时生成逼真细节方面的优势,而其他方法可能产生过平滑的结果。
6.1.5. BSR 在合成数据集上的更多定量和定性比较
以下是原文 Table 10 的结果:
| Datasets | Metrics | FeMaSR [5] | DASR [30] | Real-ESRGAN+ [56] | BSRGAN [73] | SwinIR-GAN [29] | StableSR [52] | PASD [66] | DiffBIR | ||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| (s=0) | (s=0.5) | (s=1) | |||||||||||
| PSNR↑ | SSIM | PSNR↑ | SSIM | PSNR↑ | SSIM | LPIPS | |||||||
| DRealSR [62] | PSNR↑ | 23.1977 | 26.3844 | 24.6878 | 25.6903 | 25.3898 | 23.8669 | 24.2037 | 25.6238 | 24.8735 | 24.9891 | 26.1557 | |
| SSIM↑ | 0.6239 | 0.7271 | 0.6705 | 0.6765 | 0.6962 | 0.6400 | 0.6529 | 0.6874 | 0.5874 | 0.6246 | 0.6544 | ||
| LPIPS↓ | 0.2190 | 0.1793 | 0.22290 | 0.2308 | 0.2057 | 0.2355 | 0.2016 | 0.2448 | 0.2328 | 0.2350 | 0.2483 | ||
| MUSIQ↑ | 68.7458 | 66.0651 | 67.4608 | 68.9388 | 68.1393 | 69.2621 | 70.7670 | 72.3514 | 71.5339 | 69.8821 | 67.0945 | ||
| MANIQA↑ | 0.3073 | 0.2048 | 0.2315 | 0.2309 | 0.235 | 0.2565 | 0.2889 | 0.3915 | 0.3847 | 0.3530 | 0.2934 | ||
| CLIP-IQA↑ | 0.6327 | 0.5086 | 0.5022 | 0.528 | 0.5244 | 0.5988 | 0.6151 | 0.6878 | 0.6761 | 0.6440 | 0.5843 | ||
| RealSR [3] | PSNR↑ | 23.1627 | 25.5503 | 24.2400 | 24.9717 | 24.6244 | 23.5627 | 24.5385 | 23.5237 | 24.2216 | 24.7531 | 25.3347 | |
| SSIM↑ | 0.66534 | 0.7183 | 0.6793 | 0.6839 | 0.7051 | 0.66549 | 0.6694 | 0.55989 | 0.6346 | 0.6615 | 0.6978 | ||
| LPIPS↓ | 0.2520 | 0.2397 | 0.2556 | 0.2545 | 0.2340 | 0.2429 | 0.2317 | 0.2646 | 0.2544 | 0.2565 | 0.2687 | ||
| MUSIQ↑ | 66.1208 | 59.5565 | 66.7333 | 68.0673 | 67.0964 | 68.4594 | 70.0043 | 72.3909 | 71.3969 | 69.5167 | 66.9023 | ||
| MANIQA↑ | 0.2652 | 0.1713 | 0.2243 | 0.2329 | 0.2281 | 0.2407 | 0.2746 | 0.3820 | 0.3792 | 0.3504 | 0.2921 | ||
| CLIP-IQA↑ | 0.5925 | 0.4300 | 0.4787 | 0.5233 | 0.4920 | 0.5852 | 0.5822 | 0.6868 | 0.6817 | 0.66478 | 0.6015 | ||
Table 10. DRealSR 和 RealSR 数据集上的定量比较。
分析:
-
在
DRealSR和RealSR数据集上,观察结果与DIV2K-Val类似。 -
当指导尺度 时,
DiffBIR在所有 IQA 指标上(MUSIQ、MANIQA、CLIP-IQA)显著优于基线方法。 -
当指导尺度 时,
DiffBIR在PSNR方面表现与基于GAN的方法相当,但优于其他基于扩散的方法,同时在MANIQA和CLIP-IQA方面仍有优势。这表明DiffBIR能够很好地平衡质量和保真度。 -
视觉比较 (Figure 13):
DiffBIR能够生成具有正确语义信息的恢复结果,例如正确恢复头盔后的眼睛、烟花的线条和企鹅的翅膀。基于GAN的方法缺乏生成能力,产生过平滑结果。基于扩散的基线方法则常受严重降解影响,无法生成正确语义。
该图像是图表,展示了在合成数据集(DIV2K-Val)上不同盲图像超分辨率(BSR)方法的视觉比较。左侧是低质量(LQ)图像,右侧是多个恢复方法的输出结果,包括GT、DASR、Real-ESRGAN+、BSRGAN、SwinIR-GAN、StableSR、PASD和我们的方法DiffBIR,显示了不同方法在细节恢复上的差异。
Figure 13. 合成数据集 (DIV2K-Val) 上 BSR 方法的视觉比较。 该图展示了 DiffBIR在语义准确性和细节恢复方面的优势,尤其是在复杂场景和精细纹理中。
6.2. 消融实验/参数分析
6.2.1. 恢复模块 (RM) 的重要性
以下是原文 Table 6 的结果:
| Datasets | Metrics | w/o RM | w/RM |
|---|---|---|---|
| RealSRSet [73] | MANIQA↑ | 0.2386 | 0.2477 |
| MUSIQ↑ | 62.5683 | 64.7319 | |
| CLIP-IQA↑ | 0.6818 | 0.7075 | |
| ImageNet-Val-1k [10] | PSNR↑ | 22.8481 | 23.0078 |
| SSIM↑ | 0.5039 | 0.5198 | |
| LPIPS↓ | 0.4076 | 0.4026 |
Table 6. RM 的消融研究。
分析:
- 移除恢复模块 (
w/o RM) 导致在真实世界和合成数据集上的所有IQA和参考指标性能显著下降。 - 视觉比较 (Figure 10, 左侧):
-
没有
RM的单阶段模型 (w/o RM) 在人脸生成中造成严重失真。 -
单阶段模型可能将降解解释为语义信息,产生彩色背景和异常的眼睛形状。
-
这强调了
RM的重要性:它负责去除降解,使得生成模块能够接收干净的条件,从而避免将降解视为内容并生成错误的语义信息,确保更高的保真度和更逼真的结果。
该图像是对消融实验的视觉比较。左侧显示了无恢复模块(w/o RM)与有恢复模块(w/ RM)的结果,显示了恢复模块对细节保留的重要性;右侧展示了控制网络(w/ ControlNet)与改进控制网络(w/ IRControlNet)的效果对比,证明了改进算法在细节生成上的优势。
Figure 10. 消融研究的视觉比较。 左侧展示了 RM的重要性,右侧比较了ControlNet和IRControlNet。
-
6.2.2. IRControlNet 的有效性
以下是原文 Table 7 的结果:
| Set14 [70] | BSD100 [34] | manga109 [35] | ImageNet-Val-1k [10] | |
|---|---|---|---|---|
| w/ ControlNet | 20.9435 | 22.4923 | 20.2692 | 22.2874 |
| w/ IRControlNet | 23.5193 | 23.8778 | 23.2439 | 24.2534 |
Table 7. ControlNet 与 IRControlNet 在 PSNR 上的比较。
分析:
IRControlNet在所有数据集上均取得了显著更高的PSNR分数,优于原始ControlNet。- 视觉比较 (Figure 10, 右侧):
ControlNet倾向于输出存在色彩偏移 (color shifts) 的结果,这可能是因为它在训练期间缺乏颜色一致性 (color consistency) 的明确正则化。而IRControlNet解决了这个问题。 - 这再次强调了
IRControlNet在条件编码(使用VAE编码器)和特征调制方面的改进对于图像恢复任务的有效性。
更多 IRControlNet 变体的定量比较
以下是原文 Table 9 的结果:
| Variants | PSNR↑ | SSIM↑ | MANIQA↑ |
|---|---|---|---|
| IRControlNet | 22.9865 | 0.5200 | 0.2689 |
| Variant 5: w/ control concat features | 23.0449 | 0.5261 | 0.2567 |
| Variant 6: w/ SFT modulation | 22.9974 | 0.5292 | 0.2622 |
Table 9. IRControlNet、变体 5 和变体 6 在 ImageNet1k-Val 数据集上使用 Real-ESRGAN 降解的定量比较。
分析:
Variant 5(控制拼接特征)和Variant 6(使用SFT调制)在PSNR和SSIM方面取得了更好的性能,这表明它们提高了保真度。- 然而,它们的
MANIQA分数都低于IRControlNet。这说明这两个变体为了保真度牺牲了生成质量。 IRControlNet通过其设计,特别是结合区域自适应恢复指导,能够在保持生成能力的同时,实现质量和保真度的良好权衡。
6.2.3. 广泛降解范围 (Wide Degradation Range) 的有效性
以下是原文 Table 8 的结果:
| Degradation | MANIQA↑ | MUSIQ↑ | CLIP-IQA↑ |
|---|---|---|---|
| RealESRGAN [56] | 0.2351 | 64.1718 | 0.6936 |
| Ours | 0.2504 | 64.7319 | 0.7075 |
Table 8. 在 RealSRSet [73] 上评估降解模型的消融研究。
分析:
- 使用作者提出的带有广泛降解范围的经典降解模型(
Ours)来训练生成模块的条件,在MANIQA、MUSIQ和CLIP-IQA所有指标上都优于使用RealESRGAN[56] 复杂降解模型。 - 这表明,即使
RealESRGAN使用更复杂的降解过程,但其较小的降解范围限制了生成能力。而使用更广泛降解范围的降解模型,能够更好地利用生成能力,从而提高恢复结果的质量。
6.2.4. 效率 (Efficiency)
以下是原文 Table 11 的结果:
| Metrics | Real-ESRGAN+ [56] | BSRGAN [73] | SwinIR-GAN [29] | FeMaSR [5] | DASR [30] | StableSR [52] | PASD [66] | DiffBIR |
|---|---|---|---|---|---|---|---|---|
| Inference Time (ms) | 46.19 | 46.42 | 126.44 | 89.01 | 12.69 | 19278.46 | 16951.08 | 10906.51 |
| Model Size (M) | 16.69 | 16.69 | 11.71 | 34.05 | 8.06 | 1409.11 | 1675.76 | 1716.7 |
Table 11. 推理效率和模型复杂度的定量比较。 分析:
- 推理时间:
DiffBIR的推理时间为 10906.51 毫秒,在基于扩散模型 (DM-based) 的基线中是最快的,比StableSR快约 1.8 倍,比PASD快约 1.6 倍。 - 模型大小:
DiffBIR的模型大小为 1716.7M,与其他基于扩散模型的方法(如StableSR1409.11M,PASD1675.76M)相似。 - 与
GAN方法的对比: 尽管DiffBIR在DM方法中效率较高,但基于GAN的方法(如Real-ESRGAN+、BSRGAN)在推理时间上远快于DM方法(几十毫秒 vs. 一万多毫秒),且模型尺寸也小得多。然而,正如前面实验所示,GAN方法在性能上显著低于DM方法。 - 未来前景: 论文指出,扩散模型的发展非常迅速,已有工作 [33, 44] 能够在仅 1~4 步内实现满意的生成性能,这意味着未来扩散模型的耗时问题有望得到解决。
6.3. 更多真实世界视觉比较
论文在附录中提供了更多 BSR、BID 和 BFR 任务的视觉比较图。
该图像是图表,展示了不同盲图像恢复方法在真实世界数据集上的视觉比较。第一行展示了包括 FeMaSR 和 DiffBIR 在内的多个方法恢复的结果,底部则是另一组低质量图像的比较,突显了每个方法在恢复过程中的表现差异。
Figure 14. 真实世界数据集上 BSR 任务的更多视觉比较。 进一步展示了 DiffBIR 在复杂真实场景下进行超分辨率的细节恢复能力。
该图像是图表,展示了不同方法在真实世界数据集上进行盲图像恢复的对比结果。其中展示了低质量图像(LQ)及由多种恢复算法生成的恢复图像,包括CBDNet、DeamNet、Restormer、SwinIR、SCUNet-GAN和DiffBIR(我们的方法)。
Figure 15. 真实世界数据集上 BID 任务的更多视觉比较。 提供了更多 DiffBIR 在去除真实世界噪声并恢复细节方面的视觉效果,与基线方法进行对比。
该图像是一个用于比较不同盲人图像恢复方法(如DiffBIR及其他算法)的视觉结果。通过多种算法处理的图像展示了在真实世界数据集上恢复效果的差异,特别强调了在处理复杂细节方面的改进。
Figure 16. 真实世界数据集上 BFR 任务的更多视觉比较。 展示了 DiffBIR 在人脸修复任务中,处理不同降解程度和复杂背景人脸的卓越性能。
7. 总结与思考
7.1. 结论总结
本文提出了 DiffBIR,一个用于盲图像恢复 (Blind Image Restoration, BIR) 的统一框架。DiffBIR 创造性地将 BIR 问题解耦为两个阶段:降解去除和信息再生。这种解耦设计允许模型分别处理图像无关的退化和丢失内容的生成。在第一阶段,它利用恢复模块获得高保真的中间图像。在第二阶段,本文提出了 IRControlNet,该模块基于预训练的潜在扩散模型 (Latent Diffusion Models, LDM) 并通过专门生成的条件图像进行训练,从而稳定地生成逼真的细节。此外,DiffBIR 引入了一种训练无关 (training-free) 的区域自适应恢复指导机制,使用户能够通过一个可调的指导尺度 (guidance scale) 在生成质量和保真度之间灵活权衡。广泛的实验证明,DiffBIR 在盲图像超分辨率 (BSR)、盲人脸修复 (BFR) 和盲图像去噪 (BID) 任务中,无论是在合成数据集还是真实世界数据上,都显著优于现有的最先进方法。
7.2. 局限性与未来工作
论文作者指出了以下局限性和未来研究方向:
- 计算成本:
DiffBIR需要 50 个采样步骤来恢复一张低质量图像,这在计算上是昂贵的。这意味着在对实时性有较高要求的场景下,其应用可能会受到限制。 - 其他
BIR任务的探索: 作者指出,本文提出的两阶段恢复流水线可能适用于其他BIR任务,因此未来可以进行更多的探索。
7.3. 个人启发与批判
7.3.1. 个人启发
DiffBIR 的研究为 BIR 领域带来了几点重要启发:
- 解耦策略的有效性: 将复杂的
BIR问题解耦为降解去除和内容再生,是一个非常直观且高效的思路。它使得每个子问题可以被更专注于解决,并能更好地利用现有(或专门训练的)专业模块。这种“分而治之”的思想在处理多模态或多任务复杂问题时具有普遍的指导意义。 - 扩散模型潜力的释放:
DiffBIR成功地将Stable Diffusion强大的生成能力从文本到图像生成拓展到更具挑战性的BIR领域。通过IRControlNet和条件预处理,它解决了扩散模型直接应用于BIR时遇到的降解信息干扰问题,这为未来基于扩散模型的图像处理任务(如图像编辑、图像到图像转换)提供了宝贵的经验。 - 可控性与实用性: 区域自适应恢复指导机制是一个非常实用的创新。在实际应用中,用户对图像质量和保真度的偏好往往是动态变化的。这种训练无关、可调尺度的指导方式,极大地增强了模型的灵活性和用户体验,使得模型不再是一个黑盒,而是能根据需求进行精细调整的工具。
- 统一框架的价值: 在一个统一框架下解决多个
BIR任务,不仅提高了模型的通用性,也为研究者提供了更广阔的平台去探索不同任务之间的潜在联系和共享知识。这有助于减少重复开发,并可能催生更通用的图像智能体 (agent)。
7.3.2. 潜在问题与改进方向
- 推理效率: 正如作者指出的,50步采样对于实际应用,尤其是在移动设备或需要高吞吐量的云服务中,仍然是一个瓶颈。未来的工作可以探索更快的采样方法(如
DDIM、DPM-Solver的少量步数采样,或最新的加速技术如LCM[33]、Adversarial Diffusion Distillation[44]),或者研究知识蒸馏 (knowledge distillation) 技术将DiffBIR蒸馏到更小、更快的模型。 - 恢复模块的局限性: 尽管恢复模块能有效去除降解,但其性能上限仍然会影响到生成模块的条件质量。如果恢复模块在某些极端降解下表现不佳,可能会向下游传递误差。未来可以探索更先进、更鲁棒的恢复模块,或者设计一种允许恢复模块和生成模块进行更深层次交互(而非简单的级联)的框架。
- 泛化到更广泛的降解类型: 论文主要关注超分辨率、去噪和人脸修复。虽然其两阶段设计具有通用性,但对于其他复杂的
BIR任务(如去模糊、去雨、去雾、HDR重建),IRControlNet和恢复指导是否能直接或通过少量修改后保持性能,仍需进一步验证。 - 指导尺度 的自动选择: 虽然指导尺度 提供了灵活性,但在许多情况下,用户可能希望模型能根据图像内容或降解程度自动选择一个最优的 值,以达到最佳的视觉效果。这可以是一个基于质量感知 (quality perception) 的自适应机制。
- 负提示 (Negative Prompt) 的优化: 论文提及使用“low quality”、“blurry”作为负提示,但在不同任务和降解场景下,如何系统性地生成更有效的负提示,以进一步引导生成模块避免生成不期望的特征,是一个值得探索的方向。
- 硬件资源需求: 训练和运行基于
Stable Diffusion的模型通常需要大量的计算资源。虽然IRControlNet比微调整个Stable Diffusion更高效,但对于个人研究者或资源受限的团队来说,仍是一个挑战。未来的研究可以关注如何进一步压缩模型或优化资源利用。
相似论文推荐
基于向量语义检索推荐的相关论文。