LightenDiffusion: Unsupervised Low-Light Image Enhancement with Latent-Retinex Diffusion Models

Shuaicheng Liu

论文状态：已完成

LightenDiffusion: Unsupervised Low-Light Image Enhancement with Latent-Retinex Diffusion Models

发表：2024/07/12

无监督低光图像增强 (1)潜在-瑞丁模型 (1)内容转移分解网络 (1)自我约束一致性损失 (1)低光特征引导恢复 (1)

原文链接 PDF 下载

价格：0.10

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为LightenDiffusion的无监督低光照图像增强框架，结合了可解释的Retinex理论与扩散模型。核心方法是使用内容转移分解网络在潜在空间中进行Retinex分解，从无配对的低光和正常光照图像中提取反射图和照明图，并提出自约束一致性损失以提高恢复质量。实验结果显示，该方法在性能上优于现有无监督竞争者，且具有更强的场景泛化能力。

摘要

In this paper, we propose a diffusion-based unsupervised framework that incorporates physically explainable Retinex theory with diffusion models for low-light image enhancement, named LightenDiffusion. Specifically, we present a content-transfer decomposition network that performs Retinex decomposition within the latent space instead of image space as in previous approaches, enabling the encoded features of unpaired low-light and normal-light images to be decomposed into content-rich reflectance maps and content-free illumination maps. Subsequently, the reflectance map of the low-light image and the illumination map of the normal-light image are taken as input to the diffusion model for unsupervised restoration with the guidance of the low-light feature, where a self-constrained consistency loss is further proposed to eliminate the interference of normal-light content on the restored results to improve overall visual quality. Extensive experiments on publicly available real-world benchmarks show that the proposed LightenDiffusion outperforms state-of-the-art unsupervised competitors and is comparable to supervised methods while being more generalizable to various scenes. Our code is available at https://github.com/JianghaiSCU/LightenDiffusion.

思维导图

论文精读

中文精读约 48 分钟读完 · 34,565 字

1. 论文基本信息

1.1. 标题

LightenDiffusion: Unsupervised Low-Light Image Enhancement with Latent-Retinex Diffusion Models (LightenDiffusion：基于潜在-Retinex扩散模型的无监督低光照图像增强)

1.2. 作者

Hai Jiang, Ao Luo, Xiaohong Liu, Songchen Han, and Shuaicheng Li。主要隶属机构包括四川大学 (Sichuan University)、西南交通大学 (Southwest Jiaotong University)、电子科技大学 (University of Electronic Science and Technology of China)、上海交通大学 (Shanghai Jiao Tong University) 和旷视科技 (Megvii Technology)。其中 Shuaicheng Li 为通讯作者。

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台，状态为预印本 (preprint)，尚未经过正式同行评审发表于特定期刊或会议。

1.4. 发表年份

2024 年。

1.5. 摘要

本文提出了一种名为 LightenDiffusion 的基于扩散模型的无监督框架，该框架将物理可解释的 Retinex 理论与扩散模型相结合，用于低光照图像增强 (low-light image enhancement, LLIE)。具体来说，作者提出了一个内容转移分解网络 (content-transfer decomposition network, CTDN)，它在潜在空间 (latent space) 而非图像空间 (image space) 中执行 Retinex 分解，使得无配对的低光照和正常光照图像的编码特征能够被分解为富含内容信息的反射图 (reflectance maps) 和不含内容信息的照明图 (illumination maps)。随后，低光照图像的反射图和正常光照图像的照明图作为扩散模型的输入，在低光照特征的引导下进行无监督恢复。为了消除正常光照内容对恢复结果的干扰并提高整体视觉质量，作者进一步提出了一种自约束一致性损失 (self-constrained consistency loss)。在公开可用的真实世界基准上进行的广泛实验表明，所提出的 LightenDiffusion 在性能上优于现有最先进的无监督竞争方法，并且与有监督方法相当，同时对各种场景具有更强的泛化能力。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2407.08939v1
PDF 链接: https://arxiv.org/pdf/2407.08939v1.pdf
代码链接: https://github.com/JianghaiSCU/LightenDiffusion

2. 整体概括

2.1. 研究背景与动机

核心问题： 图像在弱光照条件下拍摄时，会遭受能见度差和噪声等多种退化，严重影响后续视觉任务（如目标检测、识别）的性能。

重要性与挑战：

传统方法局限性： 传统的低光照图像增强 (LLIE) 方法（如直方图均衡化 (Histogram Equalization, HE) 和 Retinex 理论）主要依赖于手工设计的先验知识。然而，低光照图像增强是一个不适定问题 (ill-posed problem)，难以针对各种光照条件采用合适的先验，限制了其实际应用。
学习型方法泛化性差： 随着深度学习的发展，学习型方法在 LLIE 任务中取得了显著进展。但大多数学习型方法依赖于大规模配对数据进行训练，这在真实世界中难以收集。这导致它们常面临过拟合 (overfitting) 问题，并泛化能力 (generalization ability) 较差，在未见过的数据或不同场景下可能产生曝光不正确、颜色失真、细节模糊或噪声放大等不理想的结果。
生成模型与扩散模型： 近年来，生成模型 (generative models)，特别是扩散模型 (diffusion models)，因其强大的生成能力和避免了生成对抗网络 (Generative Adversarial Networks, GANs) 和变分自编码器 (Variational Autoencoders, VAEs) 中存在的训练不稳定和模式崩溃 (mode-collapse) 问题而受到关注。然而，大多数基于扩散模型的方法仍然是有监督的，依赖于配对数据。少数零样本 (zero-shot) 解决方案虽然利用预训练扩散模型的先验知识，但在真实世界复杂多样的退化场景中表现不佳。

本文的切入点与创新思路： 为了解决上述挑战，本文提出将物理可解释的 Retinex 理论与扩散模型结合，构建一个可学习的无监督框架 LightenDiffusion。该框架旨在：

利用 Retinex 理论的物理可解释性对图像进行分解。
在更具信息密度的潜在空间中进行分解，以更好地分离图像内容和光照信息。
利用扩散模型的强大生成能力进行图像恢复，补偿分解过程中的信息损失，并消除潜在的伪影。
通过无监督学习范式，利用大量的无配对真实世界数据进行训练，提高模型在各种场景下的泛化能力。

2.2. 核心贡献/主要发现

本文的核心贡献可以总结如下：

提出了 LightenDiffusion 框架： 这是一个基于扩散模型的无监督框架，将 Retinex 理论的优势与扩散模型的生成能力相结合，用于低光照图像增强。框架中还进一步提出了自约束一致性损失 (self-constrained consistency loss)，以提高视觉质量。
引入了内容转移分解网络 (CTDN)： 该网络在潜在空间中执行 Retinex 分解，而非传统图像空间。其目标是获得富含内容信息的反射图 (reflectance maps) 和不含内容信息的照明图 (illumination maps)，从而促进后续的无监督恢复。
实现了高效且鲁棒的恢复： 通过将低光照图像的反射图和正常光照图像的照明图作为扩散模型的输入进行训练，并辅以自约束一致性损失，模型能够有效地消除正常光照内容对恢复结果的干扰，生成具有相同内在内容信息的图像，从而在保持内容一致性的同时提升图像质量。
在多场景下展现卓越性能和泛化能力： 大量实验表明，所提出的方法在定量和定性上都优于现有最先进的无监督竞争方法。在与有监督方法比较时，LightenDiffusion 表现出相当的性能，并且在泛化能力上更胜一筹，能有效处理各种真实世界场景。
潜在的实际应用价值： 在低光照人脸检测 (low-light face detection) 等下游任务中的应用实验也揭示了该方法的潜在实际价值。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 低光照图像增强 (Low-Light Image Enhancement, LLIE)

低光照图像增强 (Low-Light Image Enhancement, LLIE) 是一项旨在提升在昏暗光照条件下拍摄的图像视觉质量的任务。这些图像通常存在曝光不足、对比度低、颜色失真、细节丢失以及噪声严重等问题。LLIE 的目标是将这些质量受损的图像转换成在正常光照下拍摄的、视觉上令人愉悦的高质量图像，从而改善人眼感知和下游计算机视觉任务的性能。

3.1.2. Retinex 理论 (Retinex Theory)

Retinex 理论 (Retinex Theory) 是一种用于解释人类颜色恒常性 (color constancy) 感知机制的图像处理理论。它由 Land 于 1977 年提出，其核心思想是图像的感知亮度 (luminance) 和颜色是由物体本身的反射特性 (reflectance) 和环境光照 (illumination) 独立决定的。根据 Retinex 理论，一幅图像 $I$ 可以被分解为一个反射图 $\mathbf{R}$ 和一个照明图 $\mathbf{L}$ 的 Hadamard 乘积 (Hadamard product)。Hadamard 乘积是一种逐元素乘法。 $I = \mathbf{R} \odot \mathbf{L}$ 其中：

$I$ : 观察到的图像。
$\mathbf{R}$ : 反射图 (reflectance map)，代表场景中物体固有的颜色和纹理信息，它被认为是图像的内在属性，与光照条件无关。理想情况下，它在不同光照下应保持一致。
$\mathbf{L}$ : 照明图 (illumination map)，代表场景中的光照条件，包括亮度、对比度和光照分布。它通常是局部平滑的。
$\odot$ : Hadamard 乘积，表示两个相同维度的矩阵或张量之间的逐元素乘法。 Retinex 理论在 LLIE 中的应用通常是先将低光照图像分解，然后对照明图进行调整（如提高亮度、增加对比度），最后再将调整后的照明图与反射图合成，以得到增强后的图像。其优点在于能够分离光照和内容，从而独立处理，但挑战在于如何准确地分解出这两个分量。

3.1.3. 扩散模型 (Diffusion Models, DMs)

扩散模型 (Diffusion Models, DMs) 是一类强大的生成模型，近年来在图像生成、图像修复等任务中展现出卓越的性能。其核心思想是通过一个逐步加噪声的“前向扩散过程”将数据（如图像）转换为随机噪声，然后学习一个“反向去噪过程”来从噪声中逐步恢复数据。

前向扩散过程 (Forward Diffusion Process): 这个过程是预先定义好的，它在每个时间步 $t$ 向数据 $\mathbf{x}_{t-1}$ 中添加少量高斯噪声，直到数据完全变为纯高斯噪声 $\mathbf{x}_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ 。这个过程是马尔可夫链 (Markov chain)，即 $\mathbf{x}_t$ 只依赖于 $\mathbf{x}_{t-1}$ 。
反向去噪过程 (Reverse Denoising Process): 这是模型需要学习的部分。它从随机采样的纯高斯噪声 $\mathbf{x}_T$ 开始，通过一系列的去噪步骤，逐步去除噪声，最终生成目标数据 $\mathbf{x}_0$ 。每个时间步，模型会预测并减去添加到数据中的噪声，从而恢复数据的原始结构。这个过程通常由一个深度神经网络（如 U-Net）来参数化，该网络学习预测每个时间步添加到数据中的噪声。扩散模型训练稳定，生成质量高，且能通过条件机制 (conditional mechanism) 实现有条件的图像生成或修复（如在文本描述或低质量图像的引导下生成）。

3.1.4. 潜在空间 (Latent Space)

在深度学习中，潜在空间 (latent space) 是指数据经过编码器 (encoder) 转换后的低维、抽象的表示空间。原始高维数据（如图像的像素值）在潜在空间中被压缩成更紧凑、更有语义意义的特征向量。操作在潜在空间而非原始图像空间有几个优点：

效率： 潜在空间通常维度更低，因此在其中进行操作（如分解、生成）计算效率更高。
语义性： 潜在空间中的特征往往捕获了数据的更高层次语义信息，例如物体的形状、颜色、纹理等，这使得在潜在空间中进行编辑和操作能够更好地保持图像的语义一致性。
去噪/去伪影： 潜在表示可以过滤掉原始图像中的冗余信息和噪声，使得在潜在空间中进行处理时，模型对噪声的鲁棒性更强。在本文中，在潜在空间进行 Retinex 分解，意味着分解的是图像的特征表示，而不是直接分解像素值，这有助于更纯净地分离内容和光照信息。

3.1.5. 无监督学习 (Unsupervised Learning)

无监督学习 (Unsupervised Learning) 是一种机器学习范式，其特点是模型在训练过程中无需配对的输入-输出样本。对于图像增强任务，这意味着模型不需要“低光照图像 - 正常光照图像”这样的成对数据。相反，无监督方法通常利用未标记数据中的内在结构、统计特性或结合物理先验来学习。无监督学习的优势在于：

数据可及性： 真实世界的配对数据集（如同一场景下不同光照条件的图像）难以获取。无监督方法只需大量的低光照图像和/或正常光照图像，大大降低了数据收集的成本。
泛化能力： 由于不依赖于特定数据集的配对模式，无监督模型往往对各种真实世界场景具有更好的泛化能力。本文的 LightenDiffusion 框架就是一种无监督方法，它通过利用无配对的低光照和正常光照图像进行训练，提高了模型在真实世界场景中的实用性。

3.2. 前人工作

本文将 LLIE 方法分为传统方法、学习型方法（包括有监督、半监督和无监督）以及基于扩散模型的方法。

3.2.1. 传统方法

基于直方图均衡化 (HE-based) 的方法 [42, 44]: 这类方法通过改变图像的像素值直方图分布来增强对比度。它们操作简单，但容易过度增强或引入噪声。
基于 Retinex 理论的方法 [9, 14]: 这类方法将图像分解为反射图和照明图，并通过调整照明图来改善视觉质量。例如，LIME [14] 通过估计照明图来增强图像。
局限性： 传统方法依赖手工设计的先验知识，难以适应多样化的光照条件，因此实际应用受限。

3.2.2. 学习型方法

学习型方法利用深度神经网络直接学习从低光照图像到正常光照图像的映射。

有监督方法 [13, 23, 34, 54, 60, 63, 64, 72]: 依赖于大规模配对数据集（低光照图像及其对应的正常光照图像）进行端到端训练。
- 结合 Retinex 的有监督方法 [5, 15, 58, 59, 74]: 如 RetinexNet [58] 和 URetinexNet [59]，将 Retinex 理论与深度网络结合，建立可学习的分解和调整框架。
- 局限性： 严重依赖配对数据，容易过拟合，泛化能力有限。
无监督方法 [10, 12, 24, 32, 40, 67]: 不要求配对数据，通过对抗学习 (adversarial learning)、曲线估计 (curve estimation) 或神经架构搜索 (neural architecture search) 等方式解决 LLIE 问题。例如 Zero-DCE [12] 和 EnlightenGAN [24]。
半监督方法 [29, 68]: 结合了有监督和无监督的优点，旨在实现稳定训练的同时保持更好的泛化能力。

3.2.3. 基于扩散模型的方法

扩散模型 (Diffusion Models, DMs) 因其强大的生成能力和训练稳定性，在图像修复任务中获得关注。

有监督扩散模型 [20, 22, 43, 47, 48, 71, 76]: 大多数方法使用条件机制 [6] 和配对数据从头开始训练扩散模型，其中退化图像作为扩散过程中的引导。例如 PyDiff [76] 和 GSAD [20]。
零样本扩散模型 [8, 25, 35, 55, 78]: 利用预训练的扩散模型，无需额外训练，通过其内部的先验知识来修复图像。例如 GDP [8]。
局限性： 有监督方法仍面临配对数据稀缺的问题，而零样本方法受预训练模型先验的限制，在真实世界复杂退化场景中表现不佳。

3.3. 技术演进

LLIE 领域的技术演进大致经历了以下阶段：

传统图像处理阶段 (2000s - 2010s)： 早期方法侧重于利用图像统计特性（如直方图）和物理模型（如 Retinex）进行启发式增强。这些方法缺乏灵活性，难以适应复杂多变的真实场景。
深度学习初期 (2015s - 2018s)： 随着深度学习的兴起，基于卷积神经网络 (Convolutional Neural Networks, CNNs) 的有监督方法成为主流。这些方法通过学习低光照到正常光照的映射，在特定数据集上取得了显著效果，但严重依赖配对数据。
无监督与半监督探索 (2018s - 至今)： 鉴于配对数据难以获取的实际问题，研究者开始探索无监督和半监督方法。这些方法利用 GANs、自编码器 (autoencoders) 或物理先验，在无需配对数据的情况下进行训练，提高了模型的泛化能力。
生成模型与扩散模型崛起 (2020s - 至今)： 近年来，以 GANs 和 VAEs 为代表的生成模型，以及更近期的扩散模型，在图像生成和修复领域表现出强大能力。扩散模型以其高质量生成和训练稳定性，逐渐成为 LLIE 领域的新焦点。然而，多数基于扩散模型的 LLIE 方法仍停留在有监督或零样本应用层面。

3.4. 差异化分析

本文提出的 LightenDiffusion 方法与上述相关工作的主要区别和创新点在于：

无监督学习范式： 与大多数有监督的深度学习和扩散模型方法不同，LightenDiffusion 采用无监督学习，无需配对的低光照/正常光照图像，极大地提高了其在真实世界场景中的实用性和泛化能力。
潜在空间 Retinex 分解： 现有多数 Retinex 学习型方法在图像空间进行分解。LightenDiffusion 创新性地在潜在空间中执行 Retinex 分解，通过 内容转移分解网络 (CTDN) 确保更纯净地分离内容丰富的反射图和内容无关的照明图。这解决了图像空间分解中内容信息残留于照明图的挑战。
Retinex 理论与扩散模型的深度融合： 本文不是简单地将 Retinex 作为预处理步骤，而是将 Retinex 分解后的关键信息（低光照反射图和正常光照照明图）作为扩散模型的输入，并以低光照特征作为引导。这种融合利用 Retinex 的物理可解释性提供结构化的先验，同时借助扩散模型强大的生成能力来补偿分解过程中的信息损失和消除潜在伪影。
自约束一致性损失 ( $\mathcal{L}_{scc}$ )： 针对潜在的照明图仍保留内容信息导致恢复结果受干扰的问题，LightenDiffusion 引入了自约束一致性损失。该损失确保恢复的特征与输入低光照图像的内在内容信息保持一致，进一步提升了视觉质量和模型鲁棒性。
综合性能和泛化能力： 通过上述创新，LightenDiffusion 在量化指标上超越了所有现有的无监督竞争者，并能与有监督方法相媲美，同时在各种真实世界场景中展现出卓越的泛化能力，避免了传统方法和多数学习型方法常见的过曝、颜色失真、细节模糊或噪声放大等问题。

4. 方法论

4.1. 方法原理

本文提出的 LightenDiffusion 框架旨在通过结合 Retinex 理论和扩散模型的优势，实现无监督的低光照图像增强。其核心思想是，首先将低光照和正常光照图像的特征编码到潜在空间，然后在潜在空间中对这些特征进行 Retinex 分解，以获得内容纯净的反射图和照明图。随后，利用低光照图像的反射图和正常光照图像的照明图作为输入，并通过低光照特征引导扩散模型进行图像恢复。最后，将恢复的潜在特征解码回图像空间，得到增强后的图像。

Retinex 理论是该方法的基础，它假设图像 $I$ 可以分解为反射图 $\mathbf{R}$ 和照明图 $\mathbf{L}$ 的逐元素乘积： $I = \mathbf{R} \odot \mathbf{L}$ 其中：

$I$ : 观察到的图像。
$\mathbf{R}$ : 反射图，表示物体固有的颜色和纹理，应在不同光照条件下保持一致。
$\mathbf{L}$ : 照明图，表示场景的光照条件，应局部平滑。
$\odot$ : Hadamard 乘积，即逐元素乘法。

理想情况下，反射图应富含内容信息且与光照无关，而照明图应只反映光照条件且不含内容信息。然而，在图像空间中进行分解往往难以完全实现这一目标。本文通过在潜在空间进行分解，并结合扩散模型的强大生成能力，旨在克服这些挑战。

4.2. 核心方法详解

4.2.1. 整体架构 (Overall Pipeline)

图 2 展示了 LightenDiffusion 框架的整体流程。给定一对无配对的低光照图像 $I_{low} \in \mathbb{R}^{H \times W \times 3}$ 和正常光照图像 $I_{high} \in \mathbb{R}^{H \times W \times 3}$ ：

编码器 (Encoder): 首先，使用一个编码器 $\mathcal{E}(\cdot)$ 将输入的 $I_{low}$ 和 $I_{high}$ 转换到潜在空间，得到潜在特征 $\mathcal{F}_{low} \in \mathbb{R}^{\frac{H}{2^k} \times \frac{W}{2^k} \times C}$ 和 $\mathcal{F}_{high} \in \mathbb{R}^{\frac{H}{2^k} \times \frac{W}{2^k} \times C}$ 。其中 $k$ 是编码器中的下采样块数，每个块将输入尺寸缩小 2 倍。
内容转移分解网络 (Content-Transfer Decomposition Network, CTDN): 接着，这些潜在特征被送入所提出的 CTDN，将其分解为富含内容信息的反射图 $\mathbf{R}_{low}, \mathbf{R}_{high}$ 和不含内容信息的照明图 $\mathbf{L}_{low}, \mathbf{L}_{high}$ 。
潜在-Retinex扩散模型 (Latent-Retinex Diffusion Model, LRDM): 低光照图像的反射图 $\mathbf{R}_{low}$ 和正常光照图像的照明图 $\mathbf{L}_{high}$ 被组合作为扩散模型的初始输入 $\mathbf{x}_0 = \mathbf{R}_{low} \odot \mathbf{L}_{high}$ 。扩散模型在前向扩散过程中逐步添加噪声，然后在反向去噪过程中，在低光照特征 $\mathcal{F}_{low}$ (在模型中表示为 $\tilde{\mathbf{x}}$ ) 的引导下，逐步从噪声中恢复出增强的潜在特征 $\hat{\mathcal{F}}_{low}$ 。
解码器 (Decoder): 最后，恢复的潜在特征 $\hat{\mathcal{F}}_{low}$ 被送入解码器 $\mathcal{D}(\cdot)$ 进行重建，生成最终的增强图像 $\hat{I}_{low}$ 。

$Fig. 2: The overall pipeline of our proposed framework. We first employ an encoder $\\mathcal { E } ( \\cdot )$ to convert the unpaired low-light image $\\iota _ { l o w }$ and normal-light image `I _ { h i g h }` into latent space denoted as ${ \\mathcal { F } } _ { l o w }$ and $\\mathcal { F } _ { h i g h }$ . The encoded features are sent to the proposed content-transfer decomposition network (CTDN) to generate content-rich reflectance maps denoted as $\\mathbf { R } _ { l o w }$ and $\\mathbf { R } _ { h i g h }$ and content-free illumination maps as $\\mathbf { L } _ { l o w }$ and $\\mathbf { L } _ { h i g h }$ . Then, the reflectance map of the low-light image $\\mathbf { R } _ { l o w }$ and the illumination of the normal-light image $\\mathbf { L } _ { h i g h }$ are taken as the input of the diffusion model to perform the forward diffusion process. Finally, we perform the reverse denoising process to gradually transform the randomly sampled Gaussian noise $\\hat { \\mathbf { x } } _ { T }$ into the restored feature $\\hat { \\mathcal { F } } _ { l o w }$ with the guidance of the low-light feature ${ \\mathcal { F } } _ { l o w }$ denoted as $\\tilde { \\bf x }$ , and subsequently send it to a decoder $\\mathcal { D } ( \\cdot )$ to produce the final result $\\hat { I } _ { l o w }$ .$ 该图像是一个示意图，展示了LightenDiffusion框架的整体流程。首先，通过编码器 ext{E}(ullet) 将低光照图像 $I_{ ext{low}}$ 和正常光照图像 $I_{ ext{high}}$ 转换为潜在空间 ext{F}_{ ext{low}} 和 ext{F}_{ ext{high}}，然后进入内容转移分解网络生成反射图和照明图。最后，通过扩散模型进行前向扩散和反向去噪处理，以恢复低光照图像。

Fig. 2: The overall pipeline of our proposed framework. We first employ an encoder $\\mathcal { E } ( \\cdot )$ to convert the unpaired low-light image $\\iota _ { l o w }$ and normal-light image I _ { h i g h } into latent space denoted as ${ \\mathcal { F } } _ { l o w }$ and $\\mathcal { F } _ { h i g h }$ . The encoded features are sent to the proposed content-transfer decomposition network (CTDN) to generate content-rich reflectance maps denoted as $\\mathbf { R } _ { l o w }$ and $\\mathbf { R } _ { h i g h }$ and content-free illumination maps as $\\mathbf { L } _ { l o w }$ and $\\mathbf { L } _ { h i g h }$ . Then, the reflectance map of the low-light image $\\mathbf { R } _ { l o w }$ and the illumination of the normal-light image $\\mathbf { L } _ { h i g h }$ are taken as the input of the diffusion model to perform the forward diffusion process. Finally, we perform the reverse denoising process to gradually transform the randomly sampled Gaussian noise $\\hat { \\mathbf { x } } _ { T }$ into the restored feature $\\hat { \\mathcal { F } } _ { l o w }$ with the guidance of the low-light feature ${ \\mathcal { F } } _ { l o w }$ denoted as $\\tilde { \\bf x }$ , and subsequently send it to a decoder $\\mathcal { D } ( \\cdot )$ to produce the final result $\\hat { I } _ { l o w }$ .

4.2.2. 内容转移分解网络 (Content-Transfer Decomposition Network, CTDN)

传统的 Retinex 分解方法通常在图像空间进行，这往往导致内容信息未能完全分解到反射图，部分残留在照明图中（如图 3(a) 所示）。为解决此问题，本文提出了 内容转移分解网络 (CTDN)，在潜在空间进行分解。

$Fig. 3: Illustration of the decomposition results obtained by different methods. (a) shows the results of previous methods, i.e., RetinexNet \[58\], $\\mathrm { K i n D + + }$ \[74\], URetinexNet \[59\], and PairLIE \[10\], that perform decomposition in image space. (b) presents the results of our CTDN that performs decomposition in latent space. Our method can generate content-rich reflectance maps and content-free illumination maps.$
该图像是一个示意图，展示了不同方法在图像空间和潜在空间中的分解结果。图(a)显示了RetinexNet、KinD++、URetinexNet和PairLIE等方法在图像空间的分解结果，而图(b)展示了我们的CTDN在潜在空间的分解结果，能够生成内容丰富的反射图与内容无关的照明图。

Fig. 3: Illustration of the decomposition results obtained by different methods. (a) shows the results of previous methods, i.e., RetinexNet [58], $\\mathrm { K i n D + + }$ [74], URetinexNet [59], and PairLIE [10], that perform decomposition in image space. (b) presents the results of our CTDN that performs decomposition in latent space. Our method can generate content-rich reflectance maps and content-free illumination maps.

如图 4 所示，CTDN 的详细架构如下：

初始估计： 首先，根据 [14] 的方法估计初始的反射图 $\tilde{\mathbf{R}}$ 和照明图 $\tilde{\mathbf{L}}$ 。对于每个像素 $x$ ： $\tilde{\mathbf{L}}(x) = \operatorname*{max}_{c \in [0, C)} \mathcal{F}^c(x)$ $\tilde{\mathbf{R}}(x) = \mathcal{F}(x) / (\tilde{\mathbf{L}}(x) + \tau)$ 其中：
- $\mathcal{F}(x)$ : 在像素 $x$ 处的潜在特征。
- $\mathcal{F}^c(x)$ : 潜在特征在通道 $c$ 上的值。
- $C$ : 潜在特征的通道数。
- $\tau$ : 一个很小的常数，用于避免除以零。
- 此步骤旨在从潜在特征中初步分离出光照（取通道最大值作为照明）和内容（特征除以照明）。
特征嵌入： 估计出的初始图 $\tilde{\mathbf{L}}$ 和 $\tilde{\mathbf{R}}$ 经过几个卷积块 (Conv blocks) 进一步处理，得到嵌入特征 $\mathbf{L}' = \mathrm{Conv s}(\tilde{\mathbf{L}})$ 和 $\mathbf{R}' = \mathrm{Convs}(\tilde{\mathbf{R}})$ 。
内容强化与提取：
- 交叉注意力 (Cross-Attention, CA): 使用一个交叉注意力模块 [21] 来利用照明图 $\mathbf{L}'$ 强化反射图 $\mathbf{R}'$ 中的内容信息，得到 $\mathbf{R}'' = \mathrm{CA}(\mathbf{R}', \mathbf{L}')$ 。这使得反射图能更好地吸收内容。
- 自注意力 (Self-Attention, SA): 采用一个自注意力模块 [50] 进一步从照明图 $\mathbf{L}'$ 中提取可能残余的内容信息，得到 $\mathbf{L}'' = \mathrm{SA}(\mathbf{L}')$ 。
最终输出： 将提取出的内容信息 $\mathbf{L}''$ 补充到反射图 $\mathbf{R}''$ 中，并将 $\mathbf{L}''$ 从照明图 $\mathbf{L}'$ 中减去。最终的反射图 $\mathbf{R}$ 和照明图 $\mathbf{L}$ 分别通过卷积块生成： $\mathbf{R} = \mathrm{Convs}(\mathbf{R}'' + \mathbf{L}'')$ $\mathbf{L} = \mathrm{Convs}(\mathbf{L}' - \mathbf{L}'')$ 通过这种设计，CTDN 能够生成内容丰富的反射图和内容无关的照明图（如图 3(b) 所示），从而更好地分离图像的内在内容和光照条件。

该图像是论文中提出的CTDN架构示意图。图中展示了Retinex分解的过程，包括低光照图像的反射率和正常光照图像的照明图的特征提取与合成。

Fig. 4: The detailed architecture of our proposed CTDN.

4.2.3. 潜在-Retinex扩散模型 (Latent-Retinex Diffusion Models, LRDM)

LRDM 旨在利用扩散模型的生成能力来补偿 Retinex 分解过程中可能发生的信息损失，并消除由于照明图不准确（即使 CTDN 表现良好，仍可能存在极端情况）而导致的伪影。它遵循标准扩散模型的前向扩散和反向去噪过程。

前向扩散 (Forward Diffusion)

给定无配对图像的分解分量，我们将低光照图像的反射图 $\mathbf{R}_{low}$ 和正常光照图像的照明图 $\mathbf{L}_{high}$ 作为输入，定义为 $\mathbf{x}_0 = \mathbf{R}_{low} \odot \mathbf{L}_{high}$ 。这个 $\mathbf{x}_0$ 是我们希望扩散模型生成的目标增强特征。前向扩散过程使用预定义的方差调度 $\{\beta_1, \beta_2, \dots, \beta_T\}$ ，在 $T$ 个时间步内逐步将 $\mathbf{x}_0$ 转换为高斯噪声 $\mathbf{x}_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ 。这个过程可以表示为： $q(\mathbf{x}_t \mid \mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t; \sqrt{1 - \beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I})$ 其中：

$\mathbf{x}_t$ : 在时间步 $t \in [0, T]$ 时的带噪数据。
$\mathcal{N}(\cdot; \boldsymbol{\mu}, \boldsymbol{\Sigma})$ : 表示均值为 $\boldsymbol{\mu}$ 、协方差矩阵为 $\boldsymbol{\Sigma}$ 的高斯分布。
$\sqrt{1 - \beta_t} \mathbf{x}_{t-1}$ : 上一步带噪数据 $\mathbf{x}_{t-1}$ 的均值项，表示在当前步噪声较小的情况下，数据主要来自上一步。
$\beta_t \mathbf{I}$ : 当前步添加的高斯噪声的方差项， $\mathbf{I}$ 是单位矩阵，表示噪声是各向同性的。

通过参数重整化 (parameter reparameterization) 技巧，我们可以直接从原始输入 $\mathbf{x}_0$ 得到任意时间步 $t$ 的带噪数据 $\mathbf{x}_t$ ，而无需迭代地应用扩散过程： $\mathbf{x}_t = \sqrt{\bar{\alpha}_t} \mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t} \boldsymbol{\epsilon}_t$ 其中：
$\alpha_t = 1 - \beta_t$ : 衰减系数，表示每一步保留的信号量。
$\bar{\alpha}_t = \prod_{i=0}^t \alpha_i$ : 累积衰减系数，表示从 $\mathbf{x}_0$ 到 $\mathbf{x}_t$ 累积保留的信号量。
$\boldsymbol{\epsilon}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ : 在时间步 $t$ 添加的纯高斯噪声。

反向去噪 (Reverse Denoising)

在训练阶段，反向去噪的目标是优化一个神经网络 $\epsilon_\theta$ 的参数 $\theta$ ，使其能够从带噪数据 $\mathbf{x}_t$ 和低光照特征引导 $\tilde{\mathbf{x}} = \mathcal{F}_{low}$ 中预测出添加的噪声 $\boldsymbol{\epsilon}_t$ 。通过预测噪声，模型可以逐步将随机采样的纯高斯噪声 $\hat{\mathbf{x}}_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ 去噪成清晰的结果 $\hat{\mathbf{x}}_0$ 。反向去噪过程可以表示为： $p_\theta(\hat{\mathbf{x}}_{t-1} \mid \hat{\mathbf{x}}_t, \tilde{\mathbf{x}}) = \mathcal{N}(\hat{\mathbf{x}}_{t-1}; \boldsymbol{\mu}_\theta(\hat{\mathbf{x}}_t, \tilde{\mathbf{x}}, t), \sigma_t^2 \mathbf{I})$ 其中：

$\hat{\mathbf{x}}_{t-1}$ : 从时间步 $t$ 恢复到时间步 t-1 的去噪结果。
$\tilde{\mathbf{x}}$ : 低光照图像编码特征 $\mathcal{F}_{low}$ ，作为扩散模型的条件引导 (guidance)。
$\sigma_t^2 = \frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \beta_t$ : 反向过程的方差。
$\boldsymbol{\mu}_\theta(\hat{\mathbf{x}}_t, \tilde{\mathbf{x}}, t) = \frac{1}{\sqrt{\alpha_t}} \left( \hat{\mathbf{x}}_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}} \epsilon_\theta(\hat{\mathbf{x}}_t, \tilde{\mathbf{x}}, t) \right)$ $μ_{θ} (\hat{x}_{t}, \tilde{x}, t) = \frac{1}{α _{t}} (\hat{x}_{t} - \frac{β _{t}}{1 - α ˉ _{t}} ϵ_{θ} (\hat{x}_{t}, \tilde{x}, t))$ : 反向过程的均值。
- $\epsilon_\theta(\hat{\mathbf{x}}_t, \tilde{\mathbf{x}}, t)$ : 由神经网络 $\epsilon_\theta$ 预测的在时间步 $t$ 添加到 $\hat{\mathbf{x}}_t$ 中的噪声。
  
  扩散模型的训练目标是使预测的噪声 $\epsilon_\theta(\mathbf{x}_t, \tilde{\mathbf{x}}, t)$ 尽可能接近真实添加的噪声 $\boldsymbol{\epsilon}_t$ ： $\mathcal{L}_{diff} = \| \boldsymbol{\epsilon}_t - \epsilon_\theta(\mathbf{x}_t, \tilde{\mathbf{x}}, t) \|_2$ 其中：
$\|\cdot\|_2$ : L2 范数，表示均方误差。

自约束一致性损失 (Self-Constrained Consistency Loss, $\mathcal{L}_{scc}$ )

尽管 CTDN 旨在生成纯净的照明图，但在某些挑战性情况下，估计出的正常光照照明图 $\mathbf{L}_{high}$ 可能仍包含顽固的内容信息，这会干扰扩散模型学习的分布，并可能导致恢复结果 $\hat{\mathcal{F}}_{low}$ 出现伪影。为了解决这个问题，本文提出了 自约束一致性损失 $\mathcal{L}_{scc}$ ，它鼓励恢复的特征 $\hat{\mathcal{F}}_{low}$ 与输入低光照图像的内在内容信息保持一致。具体来说，在训练阶段，首先通过反向去噪过程生成恢复的特征 $\hat{\mathcal{F}}_{low}$ 。然后，构建一个伪标签 (pseudo label) $\ddot{\mathcal{F}}_{low}$ 作为参考，该伪标签基于低光照图像自身的分解结果： $\ddot{\mathcal{F}}_{low} = \mathbf{R}_{low} \odot \mathbf{L}_{low}^\gamma$ 其中：

$\gamma$ : 照明校正因子 (illumination correction factor)，用于调整低光照照明图的亮度。
$\mathbf{R}_{low}$ : 低光照图像的反射图。
$\mathbf{L}_{low}$ : 低光照图像的照明图。自约束一致性损失 $\mathcal{L}_{scc}$ 旨在约束恢复特征与伪标签之间的特征相似性： $\mathcal{L}_{scc} = \| \ddot{\mathcal{F}}_{low} - \hat{\mathcal{F}}_{low} \|_1$ 其中：
$\|\cdot\|_1$ : L1 范数，表示平均绝对误差。

整体训练目标 (Overall Training Objective)

结合扩散损失和自约束一致性损失，LRDM 的整体优化目标是： $\mathcal{L} = \mathcal{L}_{diff} + \lambda_1 \mathcal{L}_{scc}$ 其中：

$\lambda_1$ : 平衡 $\mathcal{L}_{diff}$ 和 $\mathcal{L}_{scc}$ 之间重要性的超参数。

算法 1: LRDM 训练 (Algorithm 1: LRDM training)

以下是 LRDM 训练的伪代码：

input : The decomposition results Rlow and Lhigh, low-light feature Flow, time step T, and sampling step S. x0 = Rlow Lhigh, = Flow while Not converged do

∼ N (0, I), t ∼ Uniform{1, · · · , T } Perform gradient descent steps on θ∥t − θ(√¯αtx0 + √1 − ¯αtt, x, t)k2

xT ∼ N (0, I) for i = S : 1 do

t = (i − 1) · T/S + 1 tnext = (i − 2) · T/S + 1 if i > 1, else 0

Z( xt−√1−αt -θ(xt,x,t) + 1 − αtnext · θ(t, x, t) xt ← √¯αtnext √¯αt end

Perform gradient descent steps on θ|Rlow Low − 0∥2 end

算法 1 逐行解释：

输入 (input):
- $\mathbf{R}_{low}$ : 低光照图像的反射图。
- $\mathbf{L}_{high}$ : 正常光照图像的照明图。
- $\mathcal{F}_{low}$ : 低光照图像的潜在特征 (作为引导 $\tilde{\mathbf{x}}$ )。
- $T$ : 前向扩散的总时间步。
- $S$ : 反向去噪的采样步数。
初始化 (Initialization):
- $\mathbf{x}_0 = \mathbf{R}_{low} \odot \mathbf{L}_{high}$ : 扩散模型的初始数据，由低光照反射图和正常光照照明图的 Hadamard 乘积构成。
- $\tilde{\mathbf{x}} = \mathcal{F}_{low}$ : 低光照特征作为条件引导。
训练循环 (while Not converged do):
- $\boldsymbol{\epsilon}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ : 从标准正态分布中采样噪声。
- $t \sim \mathrm{Uniform}\{1, \dots, T\}$ : 随机均匀采样一个时间步 $t$ 。
- Perform gradient descent steps on $\theta\|\boldsymbol{\epsilon}_t - \epsilon_\theta(\sqrt{\bar{\alpha}_t}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t}\boldsymbol{\epsilon}_t, \tilde{\mathbf{x}}, t)\|_2$ $θ ∥ ϵ_{t} - ϵ_{θ} (\overset{α}{ˉ}_{t} x_{0} + 1 - \overset{α}{ˉ}_{t} ϵ_{t}, \tilde{x}, t) ∥_{2}$ :
  - 这一行对应于扩散损失 $\mathcal{L}_{diff}$ 的优化。
  - $\sqrt{\bar{\alpha}_t}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t}\boldsymbol{\epsilon}_t$ : 这是根据前向扩散的闭式解计算出的带噪数据 $\mathbf{x}_t$ 。
  - 模型 $\epsilon_\theta$ 预测在 $\mathbf{x}_t$ 中添加的噪声，目标是使预测噪声与真实噪声 $\boldsymbol{\epsilon}_t$ 的 L2 距离最小。
  - 这一步更新的是扩散模型 $\epsilon_\theta$ 的参数 $\theta$ 。
- 反向去噪过程（用于计算 $\mathcal{L}_{scc}$ ）：
  - $\hat{\mathbf{x}}_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ : 随机采样纯高斯噪声作为反向去噪的起点。
  - $for i = S : 1 do$ $f or i = S : 1 d o$ : 从 $S$ $S$ 到 1 步进行迭代去噪。
    - $t = (i - 1) \cdot T/S + 1$ : 计算当前采样的粗略时间步 $t$ 。
    - $t_{next} = (i - 2) \cdot T/S + 1$ (if $i > 1$ , else 0): 计算下一个时间步。这里使用了隐式采样策略 (implicit sampling strategy)，通过跳过一些时间步来加速去噪。
    - Z(...): 这一行似乎原文伪代码有误或简化，通常这里是根据预测噪声 $\epsilon_\theta$ 计算均值 $\boldsymbol{\mu}_\theta$ 和方差 $\sigma_t^2$ ，然后采样 $\hat{\mathbf{x}}_{t-1}$ 。它应该对应于公式 (4) 的过程，即使用 $\epsilon_\theta$ 来估计 $\hat{\mathbf{x}}_{t-1}$ 。
    - $\hat{\mathbf{x}}_t \leftarrow \sqrt{\bar{\alpha}_{t_{next}}} / \sqrt{\bar{\alpha}_t} \cdot (\text{去噪后的 } \hat{\mathbf{x}}_t)$ : 这行是在隐式采样中从 $\hat{\mathbf{x}}_t$ 恢复 $\hat{\mathbf{x}}_{t_{next}}$ 的一步，它利用了预测的噪声 $\epsilon_\theta$ 来计算去噪后的值。
  - Perform gradient descent steps on $\theta\|\mathbf{R}_{low} \odot \mathbf{L}_{low}^\gamma - \hat{\mathcal{F}}_{low}\|_2$ $θ ∥ R_{l o w} ⊙ L_{l o w}^{γ} - \hat{F}_{l o w} ∥_{2}$ :
    - 这一行对应于自约束一致性损失 $\mathcal{L}_{scc}$ 的优化。
    - $\mathbf{R}_{low} \odot \mathbf{L}_{low}^\gamma$ : 这是伪标签 $\ddot{\mathcal{F}}_{low}$ 。
    - $\hat{\mathcal{F}}_{low}$ : 是通过反向去噪过程得到的恢复特征（即最终的 $\hat{\mathbf{x}}_0$ ）。
    - 目标是使恢复特征 $\hat{\mathcal{F}}_{low}$ 与伪标签 $\ddot{\mathcal{F}}_{low}$ 的 L2 距离最小。
    - 注意： 原文此处公式写作 $\|\mathbf{R}_{low} \odot \mathbf{L}_{low}^\gamma - \hat{\mathcal{F}}_{low}\|_2$ ，但文本描述为 L1 损失 $\mathcal{L}_{scc} = \| \ddot{\mathcal{F}}_{low} - \hat{\mathcal{F}}_{low} \|_1$ 。在实际实现中，通常会选择其中一种，此处遵循伪代码的 L2 范数。但根据文本描述，实际使用的是 L1 范数，这可能是伪代码简化或笔误。考虑到文本明确说明为 L1，我们优先采用文本描述。

4.2.4. 网络训练 (Network Training)

训练过程分为两个阶段：

第一阶段：编码器、CTDN 和解码器优化
- 目标： 优化编码器 $\mathcal{E}(\cdot)$ 、CTDN 和解码器 $\mathcal{D}(\cdot)$ 的参数。在此阶段，扩散模型的参数被冻结 (freezing)。
- 数据集： 使用来自 SICE 数据集 [3] 的两对低光照图像 $I_{low}^1$ 和 $I_{low}^2$ 进行训练。
- 损失函数：
  - 内容损失 ( $\mathcal{L}_{con}$ ): 用于优化编码器和解码器，确保它们能够忠实地重建输入图像。 $\mathcal{L}_{con} = \sum_{i=1}^2 \|\boldsymbol{I}_{low}^i - \mathcal{D}(\mathcal{E}(\boldsymbol{I}_{low}^i))\|_2$ 其中：
    - $\|\cdot\|_2$ : L2 范数。
    - $\boldsymbol{I}_{low}^i$ : 输入的第 $i$ 个低光照图像。
    - $\mathcal{D}(\mathcal{E}(\boldsymbol{I}_{low}^i))$ : 经过编码器和解码器重建的图像。
  - 分解损失 ( $\mathcal{L}_{dec}$ ): 用于优化 CTDN，它由三部分组成：
    - 重建损失 ( $\mathcal{L}_{rec}$ ): 确保分解后的分量能够重建输入特征。 $\mathcal{L}_{rec} = \sum_{i=1}^2 \sum_{j=1}^2 \|\mathcal{F}_{low}^j - \mathbf{R}_{low}^i \odot \mathbf{L}_{low}^j\|_1$ 其中：
      - $\|\cdot\|_1$ : L1 范数。
      - $\mathcal{F}_{low}^j$ : 第 $j$ 个低光照图像的潜在特征。
      - $\mathbf{R}_{low}^i$ : 第 $i$ 个低光照图像的反射图。
      - $\mathbf{L}_{low}^j$ : 第 $j$ 个低光照图像的照明图。
    - 反射一致性损失 ( $\mathcal{L}_{ref}$ ): 强制网络生成不变的反射图，即使在不同的输入低光照图像之间也应保持一致（例如 $I_{low}^1$ 和 $I_{low}^2$ 理论上可能对应相同的场景内容但不同光照）。 $\mathcal{L}_{ref} = \|\mathbf{R}_{low}^1 - \mathbf{R}_{low}^2\|_1$
    - 照明平滑损失 ( $\mathcal{L}_{ill}$ ): 确保照明图具有局部平滑性，这是 Retinex 理论的一个常见先验。同时，它通过梯度惩罚来保留图像边缘。 $\mathcal{L}_{ill} = \sum_{i=1}^2 \|\nabla \mathbf{L}_{low}^i \cdot \exp(-\lambda_g \nabla \mathbf{R}_{low}^i)\|_2$ 其中：
      - $\nabla$ : 表示水平和垂直梯度运算符。
      - $\lambda_g$ : 平衡结构感知强度的系数。
      - 通过 $\exp(-\lambda_g \nabla \mathbf{R}_{low}^i)$ 项，照明图的平滑惩罚在反射图梯度较大的区域（即边缘）会减弱，从而避免模糊图像的结构边缘。
    - CTDN 的总分解损失为： $\mathcal{L}_{dec} = \mathcal{L}_{rec} + \lambda_2 \mathcal{L}_{ref} + \lambda_3 \mathcal{L}_{ill}$ 其中 $\lambda_2$ 和 $\lambda_3$ 是平衡各项损失的超参数。
第二阶段：扩散模型优化
- 目标： 优化扩散模型 $\epsilon_\theta$ 的参数。在此阶段，其他模块（编码器、CTDN、解码器）的参数被冻结。
- 数据集： 收集约 180k 张无配对的低光照/正常光照图像对进行训练。
- 损失函数： 如前所述，使用 $\mathcal{L} = \mathcal{L}_{diff} + \lambda_1 \mathcal{L}_{scc}$ 。

5. 实验设置

5.1. 数据集

本文在多个公开可用的数据集上进行了实验，包括配对数据集和无配对的真实世界基准。

5.1.1. 配对数据集

这些数据集包含低光照图像及其对应的正常光照（或高质量）参考图像。主要用于定量评估 PSNR、SSIM 和 LPIPS 等全参考指标。

LOL [58]:
- 来源： 由 Wei et al. 于 2018 年发布。
- 特点： 包含少量但高质量的配对低光照和正常光照图像。这些图像通常在受控环境下拍摄，光照变化明显但内容一致。
- 用途： 常用于训练和评估有监督 LLIE 方法。本文使用其测试集进行评估。
LSRW [16]:
- 来源： 由 Hai et al. 于 2023 年发布。
- 特点： 是一个相对较新的数据集，专注于真实世界低光照图像。它提供配对的低光照和正常光照图像，通常更具挑战性，包含更复杂的场景和退化。
- 用途： 用于评估模型在更真实低光照场景下的性能。本文使用其测试集进行评估。

5.1.2. 无配对真实世界基准

这些数据集只包含低光照图像，没有对应的正常光照参考。主要用于定量评估 NIQE 和 PI 等无参考指标，以及定性评估模型的泛化能力。

DICM [28]:
- 来源： 由 Lee et al. 于 2013 年发布。
- 特点： 包含一系列来自不同场景的真实世界低光照图像，通常具有较强的对比度不足和细节模糊问题。
- 用途： 用于评估模型在真实世界无参考条件下的增强效果。
NPE [53]:
- 来源： 由 Wang et al. 于 2013 年发布。
- 特点： 专注于非均匀光照 (non-uniform illumination) 图像，这些图像在不同区域的光照强度差异较大。
- 用途： 评估模型处理复杂光照分布的能力。
VV [51]:
- 来源： 由 Vonikakis et al. 于 2018 年发布。
- 特点： 这是一个用于评估光照补偿算法的数据集，包含各种具有挑战性光照条件的图像。
- 用途： 评估模型在多样化真实场景下的泛化性能。

5.1.3. 低光照人脸检测数据集

DARK FACE [69]:
- 来源： 由 Wang et al. 于 2020 年发布。
- 特点： 包含 6,000 张在弱光照条件下拍摄的图像，并带有标注的人脸标签。
- 用途： 用于评估 LLIE 方法作为预处理步骤对下游任务（如人脸检测）性能提升的有效性。

5.2. 评估指标

本文采用了多种评估指标，包括全参考指标（用于配对数据集）和无参考指标（用于无配对数据集），以全面衡量模型的性能。

5.2.1. 全参考指标 (Full-Reference Metrics)

这些指标需要原始高质量参考图像作为评估基准。

峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)
- 概念定义： PSNR 用于量化图像压缩或处理后图像的质量。它通过比较原始图像和处理后图像的像素级差异来衡量图像失真程度。PSNR 值越高，表示图像失真越小，恢复质量越好。
- 数学公式： $\mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right)$ 其中： $\mathrm{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2$
- 符号解释：
  - $\mathrm{MAX}_I$ : 图像像素的最大可能值。对于 8 位灰度图像，通常为 255。对于归一化到 [0, 1] 的浮点图像，为 1.0。
  - $\mathrm{MSE}$ : 均方误差 (Mean Squared Error)，表示原始图像 $I$ 和处理后图像 $K$ 之间像素值平方差的平均值。
  - m, n: 图像的宽度和高度。
  - I(i,j): 原始图像在坐标 (i,j) 处的像素值。
  - K(i,j): 处理后图像在坐标 (i,j) 处的像素值。
结构相似性指数 (Structural Similarity Index Measure, SSIM)
- 概念定义： SSIM 是一种感知指标，旨在衡量两幅图像之间的结构相似性，更符合人眼对图像质量的感知。它从亮度、对比度和结构三个方面进行评估，而不是简单地计算像素差异。SSIM 值范围通常在 [-1, 1] 之间，1 表示两幅图像完全相同，值越大表示相似度越高。
- 数学公式： $\mathrm{SSIM}(x, y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}$
- 符号解释：
  - x, y: 待比较的两幅图像（或图像块）。
  - $\mu_x$ : 图像 $x$ 的平均亮度。
  - $\mu_y$ : 图像 $y$ 的平均亮度。
  - $\sigma_x^2$ : 图像 $x$ 的方差（衡量对比度）。
  - $\sigma_y^2$ : 图像 $y$ 的方差。
  - $\sigma_{xy}$ : 图像 $x$ 和 $y$ 的协方差（衡量结构相似性）。
  - $C_1 = (K_1 L)^2, C_2 = (K_2 L)^2$ : 两个常数，用于避免分母为零或不稳定。 $L$ 是像素值的动态范围（如 255）， $K_1, K_2$ 是很小的常数（如 $K_1=0.01, K_2=0.03$ ）。
LPIPS (Learned Perceptual Image Patch Similarity)
- 概念定义： LPIPS 是一种基于深度学习的感知相似度指标，它使用预训练的深度神经网络（如 VGG、AlexNet）提取图像特征，然后在特征空间中计算两幅图像补丁之间的距离。它旨在更好地匹配人类的感知判断，即人眼认为相似的图像，LPIPS 值也应该较低。LPIPS 值越低表示感知质量越好，与参考图像的感知差异越小。
- 数学公式： $\mathrm{LPIPS}(x, x_0) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \|w_l \odot (\phi_l(x)_{h,w} - \phi_l(x_0)_{h,w})\|_2$
- 符号解释：
  - $x$ : 生成图像。
  - $x_0$ : 真实参考图像。
  - $\phi_l$ : 预训练网络在第 $l$ 层提取的特征。
  - $w_l$ : 第 $l$ 层的特征权重。
  - $H_l, W_l$ : 第 $l$ 层特征图的高度和宽度。
  - $\odot$ : Hadamard 乘积 (逐元素乘法)。
  - $\|\cdot\|_2$ : L2 范数。

5.2.2. 无参考指标 (No-Reference Metrics)

这些指标不需要原始参考图像，直接评估图像的感知质量。

自然图像质量评估器 (Natural Image Quality Evaluator, NIQE)
- 概念定义： NIQE 是一种基于统计模型的无参考图像质量评估器。它通过从大量高质量自然图像中学习到的统计特征（如多元高斯模型）来评估待测图像的质量。NIQE 值越低，表示图像的“自然度”越高，视觉质量越好。
- 数学公式： NIQE 的计算相对复杂，涉及到从图像中提取局部归一化图像特征，并将其与从高质量自然图像集合中学习到的广义高斯模型进行比较。它通常不直接提供一个简单的数学公式，而是作为一个算法流程。 $D(\nu_1, \Sigma_1, \nu_2, \Sigma_2) = \sqrt{(\nu_1 - \nu_2)^T (\frac{\Sigma_1 + \Sigma_2}{2})^{-1} (\nu_1 - \nu_2)}$
- 符号解释：
  - $\nu_1, \Sigma_1$ : 从高质量自然图像中学习到的多元高斯模型的均值向量和协方差矩阵。
  - $\nu_2, \Sigma_2$ : 从待评估图像中提取的特征并拟合的多元高斯模型的均值向量和协方差矩阵。
  - $D$ : 两个多元高斯模型之间的距离，NIQE 值即为这个距离。
感知指数 (Perceptual Index, PI)
- 概念定义： PI 是一个综合性的无参考图像质量评估指标，常用于图像超分辨率和图像增强等任务。它结合了多个无参考指标的优点，旨在更好地反映人眼对图像感知质量的判断。PI 值越低，通常认为图像的感知质量越好。
- 数学公式： PI 通常定义为： $\mathrm{PI} = \frac{1}{2} (\mathrm{Ma} + \mathrm{NIQE})$ 其中，Ma (Maishness) 是另一个无参考质量指标，它衡量图像的失真和噪声水平。
- 符号解释：
  - $\mathrm{Ma}$ : 衡量图像“非自然性”或失真程度的指标，值越高表示失真越大。
  - $\mathrm{NIQE}$ : 自然图像质量评估器，如上所述。

5.3. 对比基线

本文将 LightenDiffusion 与以下四类现有 LLIE 方法进行了比较：

传统方法 (Traditional Methods, T):
- LIME [14]
- SDDLLE [17]
- CDEF [30]
- BrainRetinex [4]
- 代表性： 这些方法代表了基于手工设计先验知识的经典 LLIE 技术。
有监督方法 (Supervised Methods, SL):
- RetinexNet [58]
- KinD++ [74]
- LCDPNet [52]
- URetinexNet [59]
- SMG [64]
- PyDiff [76]
- GSAD [20]
- 代表性： 这些是基于深度学习的先进有监督方法，其中一些结合了 Retinex 理论，另一些则是基于扩散模型。它们通常在配对数据集上表现出色。
半监督方法 (Semi-supervised Methods, SSL):
- DRBN [68]
- BLL [39]
- 代表性： 这些方法尝试结合有监督和无监督的优点，平衡训练稳定性和泛化能力。
无监督方法 (Unsupervised Methods, UL):
- Zero-DCE [12]
- EnlightenGAN [24]
- RUAS [32]
- SCI [40]
- GDP [8] (基于扩散模型的零样本方法)
- PairLIE [10]
- NeRCo [67]
- 代表性： 这些方法无需配对数据，代表了当前 LLIE 领域在泛化能力方面的重要研究方向。其中 GDP 是一个基于扩散模型的零样本方法，与本文方法有一定联系。
  
  注意： 有监督方法在 LOL 数据集上进行训练。GDP 和本文方法的报告性能是五次评估的平均值。

5.4. 实现细节

实现平台： 使用 PyTorch 深度学习框架。
硬件： 在四块 NVIDIA RTX 2080Ti GPU 上进行训练。
批次大小 (Batch Size)： 设置为 12。
图像块大小 (Patch Size)： 设置为 $512 \times 512$ 像素。
训练迭代次数：
- 第一阶段（编码器、CTDN、解码器）： $1 \times 10^5$ 次迭代。
- 第二阶段（扩散模型）： $4 \times 10^5$ 次迭代。
优化器： 采用 Adam 优化器 [26]。
学习率：
- 第一阶段：初始学习率设置为 $1 \times 10^{-4}$ 。
- 第二阶段：重新初始化为固定值 $2 \times 10^{-5}$ 。
超参数：
- 特征下采样尺度 $k$ (编码器下采样块数)：设置为 3。
- 照明校正因子 $\gamma$ (用于 $\mathcal{L}_{scc}$ 的伪标签)：设置为 0.2。
- 损失函数权重： $\lambda_1=0.01$ (平衡 $\mathcal{L}_{diff}$ 和 $\mathcal{L}_{scc}$ )， $\lambda_2=0.1$ (平衡 $\mathcal{L}_{rec}$ 和 $\mathcal{L}_{ref}$ )， $\lambda_3=0.01$ (平衡 $\mathcal{L}_{rec}$ 和 $\mathcal{L}_{ill}$ )， $\lambda_g=10$ (平衡照明平滑损失中的结构感知强度)。
LRDM 配置：
- 噪声估计器网络：采用 U-Net [46] 架构。
- 前向扩散时间步 $T$ : 设置为 1000。
- 反向去噪采样步 $S$ : 设置为 20。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定量比较

以下是原文 Table 1 的结果：

Type	Method	PSNR ↑	SSIM ↑	LPIPS ↓	PSNR ↑	SSIM ↑	LPIPS ↓	NIQE ↓	PI ↓	NIQE ↓	PI ↓	NIQE ↓	PI ↓
Type	Method	LOL [58]			LSRW [16]			DICM [28]		NPE [53]		VV [51]
T	LIME [14]	17.546	0.531	0.290	17.342	0.520	0.416	4.476	4.216	4.170	3.789	3.713	3.335
	SDDLLE [17]	13.342	0.634	0.261	14.708	0.486	0.382	4.581	3.828	4.179	3.315	4.274	3.382
	CDEF [30]	16.335	0.585	0.351	16.758	0.465	0.314	4.142	4.242	3.862	2.910	5.051	3.272
	BrainRetinex [4]	11.063	0.475	0.327	12.506	0.390	0.374	4.350	3.555	3.707	3.044	4.031	3.114
SL	RetinexNet [58]	16.774	0.462	0.390	15.609	0.414	0.393	4.487	3.242	4.732	3.219	5.881	3.727
	KinD++ [74]	17.752	0.758	0.198	16.085	0.394	0.366	4.027	3.399	4.005	3.144	3.586	2.773
	LCDPNet [52]	14.506	0.575	0.312	15.689	0.474	0.344	4.110	3.250	4.106	3.127	5.039	3.347
	URetinexNet [59]	19.842	0.824	0.128	18.271	0.518	0.295	4.774	3.565	4.028	3.153	3.851	2.891
	SMG [64]	23.814	0.809	0.144	17.579	0.538	0.456	6.224	4.228	5.300	3.627	5.752	3.757
	PyDiff [76]	23.275	0.859	0.108	17.264	0.510	0.335	4.499	3.792	4.082	3.268	4.360	3.678
	GSAD [20]	22.021	0.848	0.137	17.414	0.507	0.294	4.496	3.593	4.489	3.361	5.252	3.657
SSL	DRBN [68]	16.677	0.730	0.252	16.734	0.507	0.376	4.369	3.800	3.921	3.267	3.671	3.117
SSL	BLL [39]	10.305	0.401	0.382	12.444	0.333	0.384	5.046	4.055	4.885	3.870	5.740	4.030
UL	Zero-DCE [12]	14.861	0.562	0.330	15.867	0.443	0.315	3.951	3.149	3.826	2.918	5.080	3.307
	EnlightenGAN [24]	17.606	0.653	0.319	17.106	0.463	0.322	3.832	3.256	3.775	2.953	3.689	2.749
	RUAS [32]	16.405	0.503	0.257	14.271	0.461	0.455	7.306	5.700	7.198	5.651	4.987	4.329
	SCI [40]	14.784	0.525	0.333	15.242	0.419	0.321	4.519	3.700	4.124	3.534	5.312	3.648
	GDP [8]	15.896	0.542	0.337	12.887	0.362	0.386	4.358	3.552	4.032	3.097	4.683	3.431
PairLIE [10]	19.514	0.731	0.254	17.602	0.501	0.323	4.282	3.469	4.661	3.543	3.373	2.734
NeRCo [67]	19.738	0.740	0.239	17.844	0.535	0.371	4.107	3.345	3.902	3.037	3.765	3.094
Ours	20.453	0.803	0.192	18.555	0.539	0.311	3.724	3.144	3.618	2.879	2.941	2.558

**分析：**

LOL 和 LSRW (配对数据集)：
- 在 LOL 数据集上，LightenDiffusion 在 PSNR、SSIM 和 LPIPS 三个指标上都取得了当前无监督方法中的最佳表现。尤其值得注意的是，其 PSNR 达到 20.453，SSIM 达到 0.803，LPIPS 达到 0.192，显著优于其他无监督方法如 PairLIE 和 NeRCo。
- 尽管有监督方法 (如 PyDiff 和 SMG) 在 LOL 上能取得更高的 PSNR/SSIM，但这是因为它们在 LOL 的训练集上进行训练，并且该数据集通常较小且图像特征相对固定。
- 在更具挑战性和真实感的 LSRW 数据集上，LightenDiffusion 在 PSNR (18.555) 和 SSIM (0.539) 上均超越了所有竞争方法，包括有监督方法。LPIPS (0.311) 表现也仅略逊于 GSAD (0.294) 和 URetinexNet (0.295)。这表明 LightenDiffusion 不仅在性能上领先，而且在更真实世界的配对场景中展现出更强的泛化能力。
DICM, NPE, VV (无配对真实世界基准)：
- 这些数据集是无配对的，主要使用无参考指标 NIQE 和 PI 进行评估。
- 在所有三个无配对数据集上 (DICM, NPE, VV)，LightenDiffusion 在 NIQE 和 PI 两个指标上均取得了最佳结果。例如，在 VV 数据集上，NIQE 达到 2.941，PI 达到 2.558，远低于其他所有方法。
- 无监督方法 (UL) 在这些“未见过”的数据集上通常比有监督方法 (SL) 表现出更好的泛化能力，这一点与预期一致。LightenDiffusion 作为无监督方法的佼佼者，其在这些数据集上的领先优势尤为突出，有力证明了其强大的泛化能力和生成高质量图像的能力。
  
  结论： 综合来看，LightenDiffusion 在定量评估中全面超越了所有无监督竞争对手。在配对数据集上，其性能与最先进的有监督方法相当，甚至在 LSRW 数据集上表现更优。在无配对真实世界基准上，它展现出卓越的泛化能力和最佳的视觉质量。

6.1.2. 定性比较

配对数据集上的定性比较 (LOL 和 LSRW)

$Fig.5: Qualitative comparison of our method and competitive methods on the LOL \[58\] and LSRW \[16\] test sets. Best viewed by zooming in.$
该图像是一个比较图，展示了在LOL和LSRW测试集上，我们的方法（最右侧）与其他竞争方法的定性比较。图像中展示了不同方法对低光图像增强的效果。

Fig.5: Qualitative comparison of our method and competitive methods on the LOL [58] and LSRW [16] test sets. Best viewed by zooming in.

分析： Figure 5 展示了在 LOL 和 LSRW 测试集上，LightenDiffusion 与竞争方法的视觉比较。

LOL (第一行): 许多现有方法在处理 LOL 图像时，可能出现曝光不足（图像仍然偏暗）、颜色失真（如颜色不自然或偏色）或噪声放大等问题。例如，SMG 可能导致部分区域过度曝光或色彩饱和度过高，而 URetinexNet 可能在某些细节上显得模糊。相比之下，LightenDiffusion 能够更准确地恢复图像的全局和局部对比度，呈现出更自然的色彩，并有效抑制噪声，使得图像在视觉上更加清晰和悦目。
LSRW (第二行): 在 LSRW 数据集上，图像通常更具挑战性。其他方法可能在增强亮度的同时引入可见的伪影或过度锐化，导致图像不自然。LightenDiffusion 则能够更好地平衡亮度增强和细节保留，避免了过度的修正和伪影的引入，呈现出更真实、更精细的增强结果。

无配对数据集上的定性比较 (DICM, NPE, VV)

$Fig.6: Qualitative comparison of our method and competitive methods on the DICM \[28\], NPE \[53\], and VV \[51\] datasets. Best viewed by zooming in.$
该图像是图表，展示了我们的LightenDiffusion方法与其他竞争方法在DICM、NPE和VV数据集上的定性比较。图中包含输入图像和多种方法的处理结果，便于观察不同方法对低光照图像的增强效果。

Fig.6: Qualitative comparison of our method and competitive methods on the DICM [28], NPE [53], and VV [51] datasets. Best viewed by zooming in.

分析： Figure 6 展示了在 DICM、NPE 和 VV 数据集上，LightenDiffusion 与竞争方法的视觉比较。这些是真实世界的无配对数据集，更能考验模型的泛化能力。

DICM (第一行): 许多方法在 DICM 图像上可能出现曝光不足或色彩不够鲜艳的问题。LightenDiffusion 则能提供更均衡的亮度分布和更生动的色彩表现。
NPE (第二行): NPE 数据集以其非均匀光照条件而闻名。在这一行中，我们可以看到许多现有方法（尤其是其他无监督方法）在处理复杂光照时效果不佳。例如，一些方法可能在光源周围产生光晕 (halo artifacts) 或过度曝光的区域，而另一些则可能导致整体图像偏暗或对比度不足。LightenDiffusion 则能更好地适应这些非均匀光照条件，提供正确的曝光和鲜明的色彩，且不引入明显伪影。
VV (第三行): 在 VV 数据集上，LightenDiffusion 同样展现了其强大的泛化能力。与其他方法相比，它能够生成曝光更准确、细节更清晰、色彩更自然的图像。例如，其他方法可能导致图像整体偏暗、颜色灰暗，或者在增强后出现模糊。LightenDiffusion 的结果则更加清晰、鲜艳且具有良好的对比度。

结论： 定性比较结果进一步证实了 LightenDiffusion 的优越性。它能够有效地改善全局和局部对比度，重建更锐利的细节，抑制噪声，并避免过度校正，从而在多种场景下生成视觉上令人满意的图像，特别是在泛化能力方面表现出色。

6.1.3. 低光照人脸检测 (Low-Light Face Detection)

$Fig. 7: Comparison of low-light face detection results on the DARK FACE dataset \[69\].$
该图像是一个比较低光照人脸检测结果的图表，展示了不同方法在DARK FACE数据集上的平均精确度与召回率的关系。左侧为相应的方法精确度曲线，右侧为输入图像及三种不同方法的增强效果，包括我们的改进方法。

Fig. 7: Comparison of low-light face detection results on the DARK FACE dataset [69].

分析： Figure 7 展示了在 DARK FACE 数据集上，不同 LLIE 方法作为预处理步骤对人脸检测任务的影响。实验采用 IoU 阈值为 0.3 的 RetinaFace [7] 检测器，并计算了平均精确度 (Average Precision, AP) 和精确率-召回率 (Precision-Recall, P-R) 曲线。

P-R 曲线和 AP 值：
- 原始低光照图像 (Raw) 的 AP 仅为 20.2%。这表明在低光照条件下，人脸检测器的性能会大幅下降。
- 经过 LightenDiffusion 增强后的图像，其 AP 提高到 36.4%，相较于原始图像有显著提升，证明了本文方法对下游视觉任务的有效性。
- 在 AP 值和 P-R 曲线方面，LightenDiffusion 优于所有其他对比的 LLIE 方法。特别是在高召回率 (high recall) 区域（即检测出尽可能多的人脸时），LightenDiffusion 的精确率 (precision) 明显高于其他方法，这对于实际应用中需要尽可能不错过目标的情况非常重要。
  
  结论： 该实验结果表明，LightenDiffusion 不仅能生成视觉上更令人愉悦的图像，还能作为有效的预处理步骤，显著提升下游计算机视觉任务（如人脸检测）的性能。这验证了本文方法在实际应用中的潜在价值。

6.2. 消融实验/参数分析

本文进行了一系列消融实验，以验证不同组件选择的影响。定量结果在 LOL [58] 和 DICM [28] 数据集上进行，如 Table 2 所示。

以下是原文 Table 2 的结果：

	Method	LOL [58]			DICM [28]		Time (s) ↓
	Method	PSNR ↑	SSIM ↑	LPIPS ↓	NIQE ↓	PI ↓	Time (s) ↓
1)	k = 0 (Image Space)	17.054	0.715	0.372	4.519	4.377	4.733
2)	k = 1 (Latent Space)	19.228	0.728	0.355	4.101	3.457	0.872
3)	k = 2 (Latent Space)	20.097	0.798	0.210	4.021	3.402	0.411
4)	k = 4 (Latent Space)	20.104	0.785	0.195	3.906	3.332	0.256
5)	RetinexNet [58]	16.616	0.563	0.579	5.859	6.056	0.296
6)	URetinexNet [59]	17.916	0.703	0.391	4.371	4.561	0.293
7)	PairLIE [10]	17.089	0.605	0.568	6.017	6.349	0.295
8)	w/o Lscc (S = 20)	19.184	0.785	0.213	4.045	3.408	0.314
9)	w/o Lscc (S = 50)	19.473	0.791	0.209	3.998	3.392	0.687
10)	w/o Lscc (S = 100)	20.255	0.801	0.209	3.831	3.228	1.208
11)	Default	20.453	0.803	0.192	3.724	3.144	0.314

6.2.1. 潜在空间与图像空间分解 (Latent Space v.s. Image Space)

Fig. 8: Visual results of the ablation study about our employed latent-Retinex decomposition strategy and the proposed content-transfer decomposition network. The first row shows the restored results with different settings, and the second row presents estimated illumination maps of low/normal-light images.
该图像是图8，展示了我们采用的潜在-Retinex分解策略和提出的内容转移分解网络的消融研究的可视化结果。第一行显示了不同设置下的恢复结果，第二行呈现了低光/正常光图像的估计照明图。

Fig. 8: Visual results of the ablation study about our employed latent-Retinex decomposition strategy and the proposed content-transfer decomposition network. The first row shows the restored results with different settings, and the second row presents estimated illumination maps of low/normal-light images.

分析：

图像空间分解 (k=0): Table 2 的第 1 行显示，在图像空间 ( $k=0$ ) 进行分解时，模型性能显著下降 (PSNR 17.054, SSIM 0.715, LPIPS 0.372)。图 8(a) 的第二行也显示，图像空间的照明图会保留较多的内容信息，导致恢复图像出现伪影。此外，推理速度也相对较慢 (4.733s)。
潜在空间分解 (k=1, 2, 3, 4):
- 随着 $k$ 从 0 增加到 3 (第 1-3 行和第 11 行)，性能持续提升，推理速度也加快。这表明在潜在空间进行分解能够更好地分离内容和光照信息，并且更高效。图 8(b)-(d) 的第二行展示了潜在空间分解的照明图，它们更平滑，内容信息更少，这有助于扩散模型生成视觉保真度更高的恢复图像。
- 当 $k=4$ 时 (第 4 行)，性能略有下降 (LOL 的 SSIM 从 0.798 降到 0.785)，尽管推理速度最快 (0.256s)。这可能是因为过大的下采样尺度 ( $k=4$ ) 导致潜在特征的信息丰富度大幅降低，从而对扩散模型的生成能力产生了不利影响。
结论： 潜在空间分解策略优于图像空间分解。在性能和效率之间权衡，本文选择了 $k=3$ 作为默认设置，达到了最佳的性能。

6.2.2. Retinex 分解网络 (Retinex Decomposition Network)

分析： 为了验证本文提出的 内容转移分解网络 (CTDN) 的有效性，实验将其替换为其他三种经典的 Retinex 分解网络：RetinexNet [58] (第 5 行)、URetinexNet [59] (第 6 行) 和 PairLIE [10] (第 7 行)。

从 Table 2 可以看出，使用这些替代分解网络时，模型性能均显著下降。例如，使用 RetinexNet 时，LOL 的 PSNR 仅为 16.616，LPIPS 高达 0.579。
图 8(e)-(g) 也直观地显示，这些传统的分解网络难以获得真正“内容无关”的照明图（第二行仍然有可见的图像内容），导致恢复结果出现模糊细节和伪影。
结论： 本文精心设计的 CTDN 能够更有效地在潜在空间中分离内容和光照，生成富含内容的反射图和内容无关的照明图，从而为后续的扩散模型提供了更纯净的输入，最终实现了显著的性能提升。

6.2.3. 损失函数 ( $\mathcal{L}_{scc}$ )

$Fig. 9: Visual results of the ablation study about our proposed $\\mathcal { L } _ { s c c }$$
该图像是图表，展示了不同参数设置下对比的视觉结果，分别为 (a) w/o $L_{scc}$ (S = 20)、(b) w/o $L_{scc}$ (S = 50)、(c) w/o $L_{scc}$ (S = 100) 和 (d) w/ $L_{scc}$ (default)。各部分展示了低光照图像增强效果的变化。

Fig. 9: Visual results of the ablation study about our proposed $\\mathcal { L } _ { s c c }$

分析： 为验证 $\text{自约束一致性损失} ($ \mathcal{L}_{scc}) 的有效性，实验对比了有无该损失对模型性能的影响。

移除 $\mathcal{L}_{scc}$ (S=20): Table 2 的第 8 行显示，当移除 $\mathcal{L}_{scc}$ 且采样步数 $S=20$ 时，模型性能明显下降。例如，LOL 的 PSNR 从默认设置 (20.453) 的 19.184，LPIPS 从 0.192 增加到 0.213。这表明 $\mathcal{L}_{scc}$ 在确保恢复结果与输入内容一致性方面发挥了关键作用。
增加采样步数 $S$ (无 $\mathcal{L}_{scc}$ ): 扩散模型的生成质量通常会随着采样步数 $S$ 的增加而提高。第 9 行 (w/o $\mathcal{L}_{scc}$ , $S=50$ ) 和第 10 行 (w/o $\mathcal{L}_{scc}$ , $S=100$ ) 表明，在没有 $\mathcal{L}_{scc}$ 的情况下，通过大幅增加采样步数，模型性能可以接近甚至达到默认设置的水平。例如，当 $S=100$ 时，LOL 的 PSNR (20.255) 和 SSIM (0.801) 接近默认设置，LPIPS (0.209) 也相对较低。
效率考量： 尽管增加 $S$ 可以弥补 $\mathcal{L}_{scc}$ 缺失带来的性能下降，但这会带来巨大的计算开销。Table 2 显示，当 $S=100$ 时，推理时间 (1.208s) 几乎是默认设置 (0.314s) 的 4 倍。图 9 的视觉结果也证实了这一点：图 9(a) (w/o $\mathcal{L}_{scc}$ , S=20) 结果明显差于图 9(d) (w/ $\mathcal{L}_{scc}$ , default)，而图 9(c) (w/o $\mathcal{L}_{scc}$ , S=100) 的视觉质量与图 9(d) 相当，但需要更长的推理时间。
结论： $\mathcal{L}_{scc}$ 损失是至关重要的。它能够促使模型在较少的采样步数下实现高效且鲁棒的恢复，避免了为达到同等性能而大幅增加推理时间的代价。这证明了 $\mathcal{L}_{scc}$ 对于提高模型效率和质量的有效性。

7. 总结与思考

7.1. 结论总结

本文提出了 LightenDiffusion，一个创新的基于扩散模型的无监督框架，用于低光照图像增强。该框架巧妙地将物理可解释的 Retinex 理论与扩散模型的强大生成能力相结合。

核心贡献包括：

潜在空间内容转移分解网络 (CTDN)： 提出 CTDN 在潜在空间中执行 Retinex 分解，有效地将图像编码特征分解为富含内容信息的反射图和内容无关的照明图，克服了传统图像空间分解的局限性。
潜在-Retinex扩散模型 (LRDM) 与引导机制： 联合利用低光照图像的反射图和正常光照图像的照明图作为扩散模型的输入，并以低光照特征作为引导，进行无监督的图像恢复。
自约束一致性损失 ( $\mathcal{L}_{scc}$ )： 引入 $\mathcal{L}_{scc}$ 进一步约束恢复结果，确保其与输入低光照图像的内在内容信息保持一致，从而消除潜在的伪影并提升视觉质量。

实验结果表明，LightenDiffusion 在量化指标和视觉质量上均优于现有的无监督竞争方法。同时，在与有监督方法比较时，它展现出相当的性能，并在面对多样化真实世界场景时具有更强的泛化能力。此外，在低光照人脸检测等下游任务中的应用也验证了该方法的实际价值。

7.2. 局限性与未来工作

论文明确指出了模型在某些挑战性情况下，照明图的准确性可能会受到影响，从而可能导致恢复图像出现伪影，这正是引入 $\mathcal{L}_{scc}$ 的原因。尽管论文未在结论中明确提出未来工作方向，但从其研究内容和现有局限性中可以推断：

更鲁棒的潜在空间分解： 虽然 CTDN 表现出色，但在极端光照条件或复杂纹理下，如何进一步确保反射图和照明图的纯净分离仍是一个挑战。未来的工作可以探索更先进的分解机制或利用更多语义信息来辅助分解。
扩散模型的效率提升： 尽管 $\mathcal{L}_{scc}$ 有助于在较少采样步数下实现良好性能，但扩散模型通常仍比非生成模型慢。未来可以研究更高效的采样策略或模型架构，以进一步提高推理速度，使其更适用于实时应用。
多任务泛化： 除了人脸检测，还可以探索 LightenDiffusion 在更多下游视觉任务（如目标识别、语义分割）中的应用效果和潜在提升。
实时视频增强： 将该框架扩展到低光照视频增强是一个有前景的方向，需要考虑时间一致性和计算效率。

7.3. 个人启发与批判

个人启发：

Retinex与深度学习的协同： 本文再次证明了将经典的物理模型（如 Retinex）与现代深度学习（特别是扩散模型）相结合的巨大潜力。Retinex 提供了物理上的可解释性，指导了分解的方向，而深度学习提供了强大的学习和生成能力，弥补了物理模型在复杂场景下的不足。这种“物理先验 + 学习能力”的结合是图像处理领域一个非常有力的范式。
潜在空间操作的优势： 在潜在空间而非像素空间进行分解和操作，是提高模型性能和效率的关键。潜在特征能够更好地捕获高级语义信息，过滤掉噪声，使后续处理更加稳定和有效。这对于其他图像生成和编辑任务也具有普遍的指导意义。
无监督学习的实用性： 论文在无监督设置下取得了超越多数有监督方法的性能，尤其是在泛化能力上。这对于真实世界应用至关重要，因为获取大规模配对数据往往是瓶颈。无监督方法的发展将极大地推动 LLIE 技术的实际落地。
损失函数的巧妙设计： 自约束一致性损失 $\mathcal{L}_{scc}$ 的引入非常巧妙，它通过一个简单的伪标签机制，弥补了无监督学习中缺乏明确监督信号的不足，同时避免了对复杂真实标签的依赖。这种“软约束”在无监督生成模型中是值得借鉴的设计。

批判：

$\mathcal{L}_{scc}$ 的 L1/L2 范数不一致： 在方法论部分，伪代码中 $\mathcal{L}_{scc}$ 的优化使用了 L2 范数，而文本描述中明确指出是 L1 范数。尽管这可能是笔误，但在严谨的学术论文中应保持一致，并明确解释选择该范数的原因。如果确实是 L1，那么伪代码应修正。
$\mathbf{L}_{low}^\gamma$ 的选择： 伪标签 $\ddot{\mathcal{F}}_{low} = \mathbf{R}_{low} \odot \mathbf{L}_{low}^\gamma$ 中的 $\gamma$ 作为一个经验值（0.2），其敏感性分析或更系统的确定方法可以进一步探讨。这个值直接影响伪标签的亮度，可能会对 $\mathcal{L}_{scc}$ 的效果产生影响。
计算资源需求： 尽管 LightenDiffusion 在推理速度上表现出优势，但扩散模型的训练过程通常非常耗时且需要大量计算资源。论文使用了四块 NVIDIA RTX 2080Ti GPU，这对于许多研究者来说仍是相当高的配置。如何进一步优化训练效率，降低对硬件的需求，将是其广泛应用的一个考量。
纯粹无监督的定义： 论文称其为“无监督框架”，且在第二阶段训练中使用了“约 180k 无配对的低光照/正常光照图像对”。这里“无配对”是指图像内容不对应，但数据集仍需要分别包含“低光照图像”和“正常光照图像”这两个类别。这与一些“零样本”或仅需要单类数据的“纯粹无监督”方法仍有区别。虽然这在实践中是合理的，但对其“无监督”的定义可以更明确地加以区分。
图 8(a) 图像质量： 图 8(a) 中的图像空间分解结果，其原始图像的质量看起来已经相对较好，这可能使得在图像空间分解的劣势不那么极端。如果能在更严重低光照的图像上展示这一对比，效果会更明显。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

LightenDiffusion: Unsupervised Low-Light Image Enhancement with Latent-Retinex Diffusion Models

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 48 分钟读完 · 34,565 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 低光照图像增强 (Low-Light Image Enhancement, LLIE)

3.1.2. Retinex 理论 (Retinex Theory)

3.1.3. 扩散模型 (Diffusion Models, DMs)

3.1.4. 潜在空间 (Latent Space)

3.1.5. 无监督学习 (Unsupervised Learning)

3.2. 前人工作

3.2.1. 传统方法

3.2.2. 学习型方法

3.2.3. 基于扩散模型的方法

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 整体架构 (Overall Pipeline)

4.2.2. 内容转移分解网络 (Content-Transfer Decomposition Network, CTDN)

4.2.3. 潜在-Retinex扩散模型 (Latent-Retinex Diffusion Models, LRDM)

前向扩散 (Forward Diffusion)

反向去噪 (Reverse Denoising)

自约束一致性损失 (Self-Constrained Consistency Loss, Lscc\mathcal{L}_{scc}Lscc​)

整体训练目标 (Overall Training Objective)

算法 1: LRDM 训练 (Algorithm 1: LRDM training)

4.2.4. 网络训练 (Network Training)

5. 实验设置

5.1. 数据集

5.1.1. 配对数据集

5.1.2. 无配对真实世界基准

5.1.3. 低光照人脸检测数据集

5.2. 评估指标

5.2.1. 全参考指标 (Full-Reference Metrics)

5.2.2. 无参考指标 (No-Reference Metrics)

5.3. 对比基线

5.4. 实现细节

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定量比较

6.1.2. 定性比较

配对数据集上的定性比较 (LOL 和 LSRW)

无配对数据集上的定性比较 (DICM, NPE, VV)

6.1.3. 低光照人脸检测 (Low-Light Face Detection)

6.2. 消融实验/参数分析

6.2.1. 潜在空间与图像空间分解 (Latent Space v.s. Image Space)

6.2.2. Retinex 分解网络 (Retinex Decomposition Network)

6.2.3. 损失函数 (Lscc\mathcal{L}_{scc}Lscc​)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐

自约束一致性损失 (Self-Constrained Consistency Loss, $\mathcal{L}_{scc}$ )

6.2.3. 损失函数 ( $\mathcal{L}_{scc}$ )