Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement
TL;DR 精炼摘要
本文提出了一种新颖的单阶段Retinex框架(ORF),有效增强低光照图像。通过估算光照信息和恢复图像腐败,结合照明引导Transformer (IGT),该方法在非局部交互建模上表现出色。实验证明,Retinexformer在多个基准上显著超越现有最先进技术,展现了其实际应用价值。
摘要
When enhancing low-light images, many deep learning algorithms are based on the Retinex theory. However, the Retinex model does not consider the corruptions hidden in the dark or introduced by the light-up process. Besides, these methods usually require a tedious multi-stage training pipeline and rely on convolutional neural networks, showing limitations in capturing long-range dependencies. In this paper, we formulate a simple yet principled One-stage Retinex-based Framework (ORF). ORF first estimates the illumination information to light up the low-light image and then restores the corruption to produce the enhanced image. We design an Illumination-Guided Transformer (IGT) that utilizes illumination representations to direct the modeling of non-local interactions of regions with different lighting conditions. By plugging IGT into ORF, we obtain our algorithm, Retinexformer. Comprehensive quantitative and qualitative experiments demonstrate that our Retinexformer significantly outperforms state-of-the-art methods on thirteen benchmarks. The user study and application on low-light object detection also reveal the latent practical values of our method. Code, models, and results are available at https://github.com/caiyuanhao1998/Retinexformer
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement
1.2. 作者
该论文由 Yuanhao Cai、Hao Bian、Jing Lin、Haoqian Wang、Radu Timofte 和 Yulun Zhang 共同撰写。 作者们的所属机构包括 清华大学 (Tsinghua University)、维尔茨堡大学 (University of Würzburg) 和 苏黎世联邦理工学院 (ETH Zürich)。
1.3. 发表期刊/会议
该论文以预印本 (pre-print) 形式发布在 arXiv 平台。
1.4. 发表年份
2023年
1.5. 摘要
在低光照图像增强 (low-light image enhancement) 领域,许多深度学习 (deep learning) 算法都基于 Retinex 理论 (Retinex theory)。然而,传统的 Retinex 模型未能考虑隐藏在黑暗中或由提亮过程引入的图像 腐败 (corruptions)(例如噪声、伪影、色彩失真等)。此外,这些方法通常需要繁琐的多阶段训练流程 (multi-stage training pipeline),并且依赖于 卷积神经网络 (Convolutional Neural Networks, CNNs),这在捕获长距离依赖 (long-range dependencies) 方面存在局限性。
本文提出了一种简单而有原则的 单阶段基于Retinex的框架 (One-stage Retinex-based Framework, ORF)。ORF 首先 估计 (estimates) 光照信息 (illumination information) 以 点亮 (light up) 低光照图像,然后 恢复 (restores) 其中的 腐败 (corruption),生成增强后的图像。为了解决长距离依赖问题,作者设计了一个 照明引导Transformer (Illumination-Guided Transformer, IGT),它利用光照表示 (illumination representations) 来指导对不同光照条件下区域 非局部交互 (non-local interactions) 的建模。通过将 IGT 嵌入到 ORF 中,得到了 Retinexformer 算法。全面的定量 (quantitative) 和定性 (qualitative) 实验表明,Retinexformer 在十三个基准测试中显著优于 最先进的 (state-of-the-art, SOTA) 方法。用户研究 (user study) 和在低光照 目标检测 (object detection) 上的应用也揭示了该方法的潜在实用价值。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2303.06705v3 PDF 链接: https://arxiv.org/pdf/2303.06705v3.pdf
2. 整体概括
2.1. 研究背景与动机
核心问题
论文旨在解决低光照图像增强这一具有挑战性的任务。在低光照环境下拍摄的图像通常存在 能见度差 (poor visibility)、对比度低 (low contrast) 以及各种 图像腐败 (image corruptions),包括噪声、伪影 (artifacts) 和色彩失真 (color distortion)。这些问题不仅影响人类的视觉感知,也严重阻碍了下游计算机视觉任务,例如夜间 目标检测 (object detection)。
现有研究的挑战或空白 (Gap)
- Retinex 理论的局限性: 传统的 Retinex 理论将图像分解为
反射分量 (reflectance)和光照分量 (illumination)。但它通常假设图像是无腐败的,这与真实低光照场景不符。特别地,它没有考虑隐藏在暗部区域的噪声和伪影,也没有考虑在提亮图像过程中可能引入的过曝、欠曝或色彩失真。 - 多阶段训练流程的繁琐: 许多基于 Retinex 理论的深度学习方法,如
RetinexNet,需要复杂的多阶段训练流程 (multi-stage training pipeline)。它们通常使用不同的卷积神经网络 (CNNs)分别处理图像分解、反射分量去噪、光照调整等步骤,然后独立训练再进行端到端 (end-to-end) 微调 (fine-tuning),导致训练过程耗时且复杂。 - CNN 在长距离依赖捕获上的局限性: 大多数现有方法依赖于 CNN,但 CNN 的
感受野 (receptive field)通常有限,这使得它们在捕获图像的长距离依赖 (long-range dependencies)和非局部自相似性 (non-local self-similarity)方面表现不佳。而这些特性对于图像恢复任务至关重要。 - Transformer 计算成本过高: 尽管
Transformer模型在建模长距离依赖方面表现出色,但直接应用于高分辨率图像时,其全局自注意力 (global self-attention)机制的计算复杂度与输入空间尺寸的平方成正比,导致计算成本巨大,难以承受。这使得Transformer在低光照图像增强领域的潜力尚未被充分挖掘。
本文的切入点或创新思路
针对上述挑战,本文提出了 Retinexformer,其核心思路是:
- 修订 Retinex 模型: 引入
扰动项 (perturbation terms)来显式建模图像中的腐败,从而更真实地反映低光照图像的特性。 - 提出单阶段框架 (ORF): 将光照估计和腐败恢复集成到一个
端到端 (end-to-end)的单阶段训练 (one-stage training)框架中,简化了训练流程。 - 设计照明引导Transformer (IGT): 克服
Transformer的计算复杂度问题,并利用光照信息作为关键线索,指导非局部交互 (non-local interactions)的建模,以有效捕获长距离依赖。
2.2. 核心贡献/主要发现
本文的主要贡献总结如下:
- 首个基于 Transformer 的低光照图像增强算法: 提出了
Retinexformer,首次将 Transformer 引入低光照图像增强领域,有效解决了长距离依赖建模问题。 - 提出单阶段 Retinex 框架 (ORF): 建立了一个简单而有原则的
单阶段基于Retinex的框架 (ORF)。该框架通过引入扰动项 (perturbation terms)成功地建模了图像腐败 (corruptions),并实现了端到端 (end-to-end)的单阶段训练 (one-stage training),简化了复杂的训练流程。 - 设计照明引导自注意力机制 (IG-MSA): 提出了创新的
照明引导多头自注意力 (Illumination-Guided Multi-head Self-Attention, IG-MSA)机制。该机制巧妙地利用光照信息 (illumination information)作为关键线索,指导自注意力 (self-attention)的计算,从而高效地建模图像的长距离依赖 (long-range dependencies)和不同光照区域间的交互 (interactions),同时显著降低了计算复杂度。 - 卓越的性能和实用价值: 通过在十三个基准数据集上进行的大量定量和定性实验,
Retinexformer显著优于最先进的 (SOTA)方法。此外,用户研究 (user study) 和在低光照目标检测 (object detection)任务上的应用也进一步验证了该方法的实用价值和鲁棒性。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 低光照图像增强 (Low-light Image Enhancement)
低光照图像增强 (Low-light Image Enhancement) 是一项 计算机视觉 (computer vision) 任务,旨在改善在光线不足环境下拍摄的图像的视觉质量。这些图像通常表现为 能见度差 (poor visibility)、对比度低 (low contrast),并可能伴随 噪声 (noise)、伪影 (artifacts) 和 色彩失真 (color distortion) 等 腐败 (corruptions)。增强的目标是提高图像的亮度、对比度,同时去除这些不良因素,使其在视觉上更接近正常光照下的效果,并有利于后续的图像分析任务。
3.1.2. Retinex 理论 (Retinex Theory)
Retinex 理论 (Retinex Theory) 是由 Edwin Land 在1970年代提出的一个图像处理理论,旨在解释人类视觉系统如何感知颜色和亮度,即使在不断变化的光照条件下也能保持颜色恒常性。
其核心思想是将图像分解为两个基本分量:
-
反射分量 (Reflectance, ): 代表物体本身的固有属性,即它反射光线的比例,与光照无关。通常认为这是我们想要得到的增强后的图像内容,因为它包含了图像的结构、纹理和颜色信息。
-
光照分量 (Illumination, ): 代表场景中的光照强度和分布。低光照图像的问题主要在于光照分量过低。
数学上,Retinex 模型通常将图像 表示为反射分量 和光照分量 的
逐元素乘积 (element-wise multiplication): 其中 表示逐元素乘法。增强任务的目标就是从低光照图像 中估计出 和 ,然后通常通过调整或去除 来得到一个高亮度的 。
3.1.3. 卷积神经网络 (Convolutional Neural Networks, CNNs)
卷积神经网络 (Convolutional Neural Networks, CNNs) 是一种专门处理具有网格状拓扑结构数据(如图像)的 深度学习 (deep learning) 模型。它的核心是 卷积层 (convolutional layer),通过在输入数据上滑动 卷积核 (convolutional kernel)(或 滤波器 (filter))来提取局部特征。
- 优势: CNN 在捕获局部特征方面非常有效,因为它共享权重 (weight sharing) 和
局部感受野 (local receptive fields)的特性。这使得它在图像分类、物体检测等任务中取得了巨大成功。 - 局限性: 由于其
局部感受野 (local receptive field)的设计,CNN 在直接捕获图像中相距较远的像素之间的长距离依赖 (long-range dependencies)方面存在固有的挑战。虽然可以通过堆叠多层卷积、使用空洞卷积 (dilated convolution)或池化 (pooling)操作来扩大感受野 (receptive field),但这种方式仍然不如自注意力机制 (self-attention mechanism)在建模全局信息上那样直接和高效。
3.1.4. Transformer 模型 (Transformer Model)
Transformer 模型最初由 Google 在2017年提出,用于 自然语言处理 (Natural Language Processing, NLP) 任务,特别是 机器翻译 (machine translation)。它完全摒弃了 循环神经网络 (Recurrent Neural Networks, RNNs) 和 卷积神经网络 (CNNs),转而完全依赖于 自注意力机制 (self-attention mechanism)。
- 自注意力机制 (Self-Attention Mechanism): 这是
Transformer的核心组成部分。它允许模型在处理序列中的每个元素时,动态地权衡序列中所有其他元素的重要性。这意味着模型可以捕获序列中任意两个位置之间的依赖关系,无论它们在序列中相距多远。 基本的自注意力 (Self-Attention)计算涉及三个关键向量:查询 (Query, Q)、键 (Key, K)和值 (Value, V)。对于输入序列中的每个元素,都会生成一个 Q、K 和 V。注意力权重是通过计算 Q 和 K 的点积 (dot product) 并通过softmax函数归一化得到的,然后这些权重被应用于 V 以产生最终的输出。 其中 是键向量的维度,用于缩放点积以防止梯度过大。 - 多头自注意力 (Multi-head Self-Attention, MSA):
MSA是自注意力 (Self-Attention)的扩展,它并行运行多个自注意力 (Self-Attention)机制(“头”),每个头学习不同的查询 (Query)、键 (Key)和值 (Value)投影。然后,这些头的输出被拼接 (concatenated) 起来并进行线性投影,以产生最终结果。MSA允许模型在不同的表示子空间 (representation subspaces)中关注不同的信息,从而增强了模型的表达能力。 - Transformer 在图像领域的挑战: 尽管
Transformer在建模长距离依赖方面非常强大,但其全局自注意力 (global self-attention)机制的计算复杂度是输入序列长度(对于图像,即像素数量 )的平方。对于高分辨率图像,这会导致巨大的计算开销和内存需求,难以直接应用。例如,如果输入图像大小为 ,通道数为 ,则标准全局多头自注意力 (Global Multi-head Self-Attention, G-MSA)的计算复杂度为 。
3.1.5. 图像腐败 (Image Corruptions)
在低光照图像增强的背景下,图像腐败 (Image Corruptions) 是指那些降低图像质量和视觉效果的不良因素。论文中主要提及的 腐败 (corruptions) 包括:
- 噪声 (Noise): 在低光照环境下,为了捕捉足够的光线,相机通常会提高
ISO 感光度 (ISO sensitivity)或延长曝光时间 (exposure time)。这两种设置都极易引入随机噪声 (random noise),使图像出现颗粒感或不清晰。 - 伪影 (Artifacts): 指的是图像中不自然的、由数字处理或传感器限制引起的结构或图案。在低光照条件下,传感器性能不足或图像处理算法不当都可能产生伪影。
- 欠曝/过曝 (Under-/Over-exposure):
欠曝 (under-exposure)是低光照图像的直接表现,图像整体过暗,细节丢失。但在提亮过程中,如果处理不当,亮部区域可能会变得过曝 (over-exposure),导致细节丢失和色彩饱和。 - **色彩失真 (Color Distortion):
低光照会影响颜色的准确性,导致图像出现偏色 (color casts)或色彩饱和度 (color saturation)` 不足。提亮过程也可能加剧这种失真。
3.2. 前人工作
3.2.1. 平面方法 (Plain Methods)
这类方法直接操作图像的像素值以增强亮度或对比度,但通常不考虑光照因素或图像内容。
- 直方图均衡化 (Histogram Equalization): 例如
[1, 8, 12, 40, 41],通过重新分布图像的像素强度值来增强对比度。 - 伽马校正 (Gamma Correction, GC): 例如
[19, 42, 53],通过非线性变换来调整图像的亮度响应。 - 缺点: 这些方法往往会产生不期望的
伪影 (artifacts),因为它们没有考虑到图像的底层光照因素,使得增强后的图像在感知上与真实的正常光照场景不一致。
3.2.2. 传统认知方法 (Traditional Cognition Methods)
这类方法基于 Retinex 理论 (Retinex theory) [15, 23, 24, 29, 50],将图像分解为 反射分量 (reflectance) 和 光照分量 (illumination),并通常将反射分量视为增强结果。
- 代表工作: Guo 等人
[18]提出了LIME (Low-light Image Enhancement via Illumination Map Estimation),通过对初始估计的光照图施加结构先验 (structure prior)来进行优化。 - 缺点: 这些方法通常
朴素地假设 (naively assume)低光照图像是无腐败的 (corruption-free),这与真实的欠曝 (under-exposed)场景不符,导致增强结果中出现严重的噪声 (noise)和色彩失真 (color distortion)。此外,它们依赖于手工设计的先验 (hand-crafted priors),通常需要仔细调整参数,并且泛化能力 (generalization ability)较差。
3.2.3. 深度学习方法 (Deep Learning Methods)
随着 深度学习 (deep learning) 的发展,CNN [16, 17, 22, 33, 35, 38, 45, 49, 61, 66, 68] 被广泛应用于低光照图像增强。
- 第一类:直接映射 CNN: 这类方法直接使用 CNN 学习从低光照图像到正常光照图像的
暴力映射函数 (brute-force mapping function),例如EnGAN [22]、LLNet [33]、MBLLEN [35]。- 缺点: 它们忽略了人类的颜色感知,缺乏
可解释性 (interpretability),也缺乏理论上可证明的特性。
- 缺点: 它们忽略了人类的颜色感知,缺乏
- 第二类:基于 Retinex 的 CNN: 受
Retinex 理论 (Retinex theory)启发,这类方法[54, 65, 66]试图将 Retinex 分解与深度学习结合。- 代表工作:
RetinexNet [54]及其后续工作[65, 66]。 - 缺点: 它们通常需要
多阶段训练流程 (multi-stage training pipeline),使用多个 CNN 分别进行图像分解、反射分量去噪和光照调整。这些 CNN 通常先独立训练,再连接起来进行端到端 (end-to-end)微调 (fine-tuning),过程繁琐耗时。 - 单阶段 Retinex-based CNN: Wang 等人
[49]提出了DeepUPE,它是一个单阶段 (one-stage)的基于 Retinex 的 CNN,直接预测光照图 (illumination map)。- 缺点:
DeepUPE没有考虑腐败因素 (corruption factors),导致在提亮欠曝 (under-exposed)照片时噪声 (noise)和色彩失真 (color distortion)被放大。
- 缺点:
- 代表工作:
- CNN 的共同局限性: 无论哪种类型的 CNN 方法,都普遍存在难以有效捕获图像
长距离依赖 (long-range dependencies)的问题。
3.2.4. Vision Transformer (视觉Transformer)
Transformer 模型 [46] 最初为 自然语言处理 (NLP) 而生。近年来,Transformer 及其变体 [2, 4, 14, 6, 11, 60, 20, 21, 64] 已被成功应用于多种 计算机视觉 (computer vision) 任务,并在 高级视觉 (high-level vision)(如图像分类 [2, 4, 14]、语义分割 [7, 55, 67]、目标检测 [3, 13, 62])和 低级视觉 (low-level vision)(如图像恢复 [6, 11, 60]、图像合成 [20, 21, 64])中取得了令人瞩目的成果。
- CNN-Transformer 混合模型: 例如 Xu 等人
[57]提出的SNR-Net,一个SNR (信噪比)-aware的 CNN-Transformer 混合网络,用于低光照图像增强。 - 局限性: 由于
香草全局Transformer (vanilla global Transformer)巨大的计算成本,SNR-Net等方法通常只在U型 CNN (U-shaped CNN)的最低空间分辨率层使用单个全局Transformer层。这意味着Transformer在低光照图像增强中的潜力仍未被充分挖掘。
3.3. 技术演进
低光照图像增强技术的发展脉络可以概括为:
- 早期/平面方法:
直方图均衡化 (Histogram Equalization)和伽马校正 (Gamma Correction),简单直接,但易产生伪影 (artifacts)。 - 传统认知方法: 基于
Retinex 理论 (Retinex theory)的方法,如LIME,考虑了光照因素,但依赖于手工设计的先验 (hand-crafted priors)且对腐败 (corruptions)不敏感。 - 基于 CNN 的深度学习方法:
- 初期直接学习映射的 CNN,缺乏
可解释性 (interpretability)。 - 后续结合
Retinex 理论 (Retinex theory)的 CNN,如RetinexNet,但受限于多阶段训练 (multi-stage training)和 CNN 难以捕获长距离依赖 (long-range dependencies)的特性。
- 初期直接学习映射的 CNN,缺乏
- 基于 Transformer 的深度学习方法 (当前趋势): 随着
Transformer在视觉领域兴起,其捕获长距离依赖 (long-range dependencies)的能力被寄予厚望。但Transformer在图像任务中面临计算复杂度 (computational complexity)过高的挑战。 本文的Retinexformer正是处于这一技术脉络的尖端,旨在结合Retinex 理论 (Retinex theory)的物理先验,同时利用Transformer的全局建模能力,并创新性地解决其计算效率问题,实现单阶段 (one-stage)且腐败感知 (corruption-aware)的增强。
3.4. 差异化分析
Retinexformer 与 相关工作 (related work) 的主要差异化体现在以下几个方面:
- 与基于 Retinex 的深度学习方法 (如 RetinexNet, KinD, DeepUPE) 的区别:
- 腐败建模: 大多数现有基于 Retinex 的深度学习方法主要关注反射分量去噪,通常忽略了光照估计误差 ( 扰动项) 导致的
欠曝 (under-/over-exposure)和色彩失真 (color distortion)。Retinexformer通过引入扰动项 (perturbation terms)显式地将这些腐败 (corruptions)纳入模型,并通过专门的污染恢复器 (corruption restorer)进行处理。 - 训练流程: 现有方法多为
多阶段训练 (multi-stage training),流程繁琐。Retinexformer提出了单阶段基于Retinex的框架 (ORF),实现了端到端 (end-to-end)的单阶段训练 (one-stage training),大大简化了训练过程。 - 长距离依赖: 现有方法主要基于
CNN,在捕获长距离依赖 (long-range dependencies)方面表现受限。Retinexformer引入Transformer来弥补这一不足。
- 腐败建模: 大多数现有基于 Retinex 的深度学习方法主要关注反射分量去噪,通常忽略了光照估计误差 ( 扰动项) 导致的
- 与基于 CNN 的深度学习方法 (如 EnlightenGAN, DRBN) 的区别:
- 可解释性与物理先验:
Retinexformer基于Retinex 理论 (Retinex theory)的物理模型,具有更好的可解释性 (interpretability)。而许多直接映射的 CNN 方法缺乏明确的物理依据。 - 全局建模能力:
Retinexformer通过Transformer机制更有效地建模了图像的长距离依赖 (long-range dependencies),这对于图像恢复任务中的全局一致性和细节纹理重建至关重要,而 CNN 在这方面存在固有劣势。
- 可解释性与物理先验:
- 与基于 Transformer 的图像恢复方法 (如 IPT, Uformer, Restormer) 和混合方法 (如 SNR-Net) 的区别:
- 计算效率:
Retinexformer提出了照明引导多头自注意力 (IG-MSA)机制,将自注意力 (self-attention)的计算复杂度从平方级 降低到线性级 。这使得Transformer可以被更广泛地应用于网络的每个基本单元中,充分发挥其潜力,而不是像SNR-Net那样仅限于最低分辨率层。 - 信息引导:
Retinexformer的IG-MSA利用光照表示 (illumination representations)来引导 (direct)自注意力 (self-attention)的计算,特别关注不同光照区域间的交互 (interactions),这是一种针对低光照增强任务的特定领域 (domain-specific)优化,而其他通用的Transformer结构可能没有这种显式引导。
- 计算效率:
4. 方法论
4.1. 方法原理
Retinexformer 方法的核心思想是结合 Retinex 理论 (Retinex theory) 的物理模型和 Transformer 在捕获 长距离依赖 (long-range dependencies) 方面的优势,同时解决传统 Retinex 模型在处理 图像腐败 (corruptions) 上的不足以及 Transformer 在高分辨率图像上计算成本过高的问题。
其基本原理可以概括为:
- 修订 Retinex 模型以建模腐败: 认识到真实低光照图像并非纯粹的反射分量和光照分量的乘积,而是包含了各种
腐败 (corruptions)。因此,通过引入扰动项 (perturbation terms)来重新形式化 (reformulate)经典的 Retinex 模型,使其能够显式地考虑这些腐败 (corruptions)。 - 单阶段处理流程: 设计一个
单阶段基于Retinex的框架 (ORF),将图像增强过程分解为两个主要步骤:首先估计 (estimate)光照信息并点亮 (light up)图像,然后恢复 (restore)提亮过程中或原始图像中存在的腐败 (corruptions)。整个框架可以端到端 (end-to-end)地进行训练 (training),避免了繁琐的多阶段 (multi-stage)训练。 - 照明引导的Transformer 架构: 针对
Transformer模型的计算效率问题及其在低光照任务中的潜力,提出了照明引导Transformer (IGT)。IGT的核心在于其照明引导多头自注意力 (IG-MSA)机制,它利用光照表示 (illumination representations)作为关键线索 (key clue)来引导 (direct)自注意力 (self-attention)的计算,从而高效且有针对性地建模不同光照区域间的非局部交互 (non-local interactions)和长距离依赖 (long-range dependencies)。
4.2. 核心方法详解
Retinexformer 的整体架构如 Figure 2 (a) 所示,主要由两部分组成:\mathcal{E}) 和 \mathcal{R})。光照估计器 负责初步提亮图像并生成 光照特征 (light-up feature),污染恢复器 则是一个 照明引导Transformer (IGT),用于去除图像中的各种 腐败 (corruptions)。
4.2.1. 单阶段基于Retinex的框架 (One-stage Retinex-based Framework, ORF)
根据经典的 Retinex 理论 (Retinex theory),低光照图像 (高度 、宽度 、3个颜色通道)可以分解为 反射分量 (reflectance) 和 光照图 (illumination map) 的 逐元素乘积 (element-wise multiplication):
其中 表示 逐元素乘法 (element-wise multiplication)。
作者指出,这个原始的 Retinex 模型假设图像 是 无腐败的 (corruption-free),这与真实的 欠曝 (under-exposed) 场景不符。图像中的 腐败 (corruptions) 主要来源于两个因素:
-
拍摄过程中的腐败: 高
ISO 感光度 (ISO)和长曝光时间 (exposure)会不可避免地引入噪声 (noise)和伪影 (artifacts)。 -
提亮过程中的腐败: 图像提亮过程可能会放大原始
噪声 (noise)和伪影 (artifacts),同时可能导致欠曝 (under-exposure)/过曝 (over-exposure)和色彩失真 (color distortion)。为了建模这些
腐败 (corruptions),作者通过引入反射分量 (reflectance)的扰动项 (perturbation term)和光照图 (illumination map)的扰动项 (perturbation term)来重新形式化 (reformulate)方程 (1): 展开后得到: 其中:
-
:表示
反射分量 (reflectance)中的腐败 (corruptions),主要是隐藏在暗处的噪声 (noise)和伪影 (artifacts)。 -
:表示
光照图 (illumination map)中的腐败 (corruptions),例如估计误差。类似于
[15, 18, 49],作者将反射分量 (reflectance)视为曝光良好 (well-exposed)的图像。为了点亮 (light up)低光照图像 ,作者用一个点亮图 (light-up map)逐元素相乘 (element-wise multiply)方程 (2) 的两边,使得 (其中 是所有元素均为1的张量)。 在这个方程中,腐败 (corruptions)的组成项被明确: -
代表隐藏在暗场景中的
噪声 (noise)和伪影 (artifacts),它们会被 放大。 -
表示由
点亮过程 (light-up process)引起的欠曝 (under-/over-exposure)和色彩失真 (color distortion)。方程 (3) 可以简化为: 其中 代表
点亮后的图像 (lit-up image),而 表示整体腐败项 (overall corruption term)。
基于此,作者将 单阶段基于Retinex的框架 (ORF) 形式化 (formulate) 为:
其中:
- 代表
光照估计器 (illumination estimator)。 - 代表
污染恢复器 (corruption restorer)。 - 以低光照图像 及其
光照先验图 (illumination prior map)作为输入。光照先验图是通过计算图像 沿通道维度 (channel dimension) 的像素均值得到的,即 。 - 输出
点亮后的图像 (lit-up image)和光照特征 (light-up feature)。 - 随后, 和 被送入
污染恢复器 (corruption restorer)以恢复 (restore)腐败 (corruptions),并生成增强后的图像 (enhanced image)。
光照估计器 () 的架构 (Figure 2 (a) (i)):
- 首先使用一个
1x1 卷积 (conv1x1)将 和 的拼接 (concatenation)进行融合。 - 为了建模不同光照条件下区域的
交互 (interactions)(因为曝光良好 (well-exposed)区域可以为欠曝 (under-exposed)区域提供语义上下文信息),接着使用一个深度可分离 5x5 卷积 (depth-wise separable conv5x5)来生成光照特征 (light-up feature)。 - 然后, 使用另一个
1x1 卷积 (conv1x1)从 中聚合信息,生成点亮图 (light-up map)。作者选择将 设计为三通道 RGB张量 (tensor),而非像[15, 18]那样的单通道,以提高其在模拟 RGB 通道间非线性关系 (nonlinearity)和颜色增强 (color enhancement)方面的表示能力 (representation capacity)。 - 最终,
点亮图 (light-up map)被用于根据方程 (3)点亮 (light up)原始图像 ,生成 。
讨论:
- 为何估计 而非 : 区别于传统基于 Retinex 的深度学习方法
[30, 49, 54, 65, 66]估计光照图 (illumination map)。如果估计 ,则点亮后的图像 (lit-up image)将通过逐元素除法 (element-wise division)获得。这种操作对计算机来说非常脆弱,因为张量 (tensor)的值可能非常小(甚至为0),除法容易导致数据溢出 (data overflow)。此外,计算机随机生成的小误差也会被此操作放大,导致不准确的估计 (inaccurate estimation)。因此,建模 (modeling)更加鲁棒 (robust)。 - 对腐败的全面考虑: 之前的基于 Retinex 的深度学习方法主要关注抑制
反射分量 (reflectance)上的噪声 (noise)等腐败 (corruptions)(即方程 (2) 中的 )。它们忽视了光照图 (illumination map)上的估计误差 (estimation error)(即方程 (2) 中的 ),这容易在点亮过程 (light up process)中导致欠曝 (under-/over-exposure)和色彩失真 (color distortion)。相比之下,ORF考虑了所有这些腐败 (corruptions),并利用污染恢复器 (corruption restorer)来恢复 (restore)它们。
4.2.2. 照明引导Transformer (Illumination-Guided Transformer, IGT)
为了解决传统深度学习方法(主要依赖 CNNs)在捕获 长距离依赖 (long-range dependencies) 方面的局限性,以及 Transformer 模型 全局多头自注意力 (G-MSA) 巨大的计算成本问题,作者设计了 照明引导Transformer (IGT) 来扮演 污染恢复器 (corruption restorer) 的角色。
网络结构 (Figure 2 (a) (ii)):
IGT 采用了 U型架构 (U-shaped architecture) [44],具有三个尺度 (three-scale)。
-
输入:
IGT的输入是点亮后的图像 (lit-up image)。 -
下采样分支 (Downsampling branch):
- 首先经过一个
3x3 卷积 (conv3x3)。 - 然后是一个
照明引导注意力块 (Illumination-Guided Attention Block, IGAB)。 - 接着是一个
步长为4x4 的卷积 (strided conv4x4)进行特征下采样。 - 再经过两个
IGAB。 - 最后再次通过一个
步长为4x4 的卷积 (strided conv4x4),生成层次化特征 (hierarchical features),其中 代表不同的尺度。 - 最深层的特征 会再经过两个
IGAB。
- 首先经过一个
-
上采样分支 (Upsampling branch):
- 采用
对称结构 (symmetrical structure)。 - 利用
步长为2 的反卷积 (deconv2x2 with stride=2)上采样 (upscale)特征。 - 使用
跳跃连接 (skip connections)来缓解下采样分支 (downsampling branch)造成的信息损失。
- 采用
-
输出:
上采样分支 (upsampling branch)输出一个残差图像 (residual image)。 -
最终增强图像: 最终的
增强图像 (enhanced image)是由点亮后的图像 (lit-up image)和残差图像 (residual image)之和得到的,即 。照明引导注意力块 (IGAB)是IGT的基本单元,其结构如Figure 2 (b)所示,由两个层归一化 (layer normalization, LN)、一个照明引导多头自注意力 (IG-MSA)模块和一个前馈网络 (feed-forward network, FFN)组成。
照明引导多头自注意力 (Illumination-Guided Multi-head Self-Attention, IG-MSA) (Figure 2 (c)):
IG-MSA 是 Retinexformer 的关键创新。它解决了 Transformer 在高分辨率图像上的计算成本问题,同时利用 光照信息 (illumination information) 引导 (guide) 自注意力 (self-attention) 的计算。
- 输入:
光照估计器 (illumination estimator)估计出的光照特征 (light-up feature)被送入IGT的每个IG-MSA模块。对于较小的尺度,conv4x4层(步长为2)用于对 进行下采样,使其空间尺寸与当前尺度匹配。 - 特征重塑与分头: 首先,输入特征 被
重塑 (reshaped)为令牌 (tokens)。然后 被分成 个头 (heads): 其中 ,,且 。Figure 2 (c)描绘了 的简化情况。 - 查询、键、值投影: 对于每个
头 (head),使用三个无偏置全连接层 (fully connected, fc layers without bias)将 线性投影 (linearly project) 到查询元素 (query elements)、键元素 (key elements)和值元素 (value elements): 其中 是全连接层 (fc layers)的可学习参数 (learnable parameters), 表示矩阵转置 (matrix transpose)。 - 照明引导: 作者观察到图像中不同区域的光照条件可能不同,暗区通常
腐败 (corruptions)更严重,更难恢复,而光照较好的区域可以提供语义上下文信息来帮助增强暗区。因此,使用编码光照信息 (illumination information)和不同光照区域间交互 (interactions)的光照特征 (light-up feature)来引导 (direct)自注意力 (self-attention)的计算。 为了与 的形状对齐, 也被重塑 (reshaped)为 并分成 个头 (heads): 其中 。 - 自注意力计算: 然后,每个
头 (head)的自注意力 (self-attention)计算形式化 (formulated)为: 这个公式是IG-MSA的核心。与标准自注意力 (self-attention)机制不同的是,值元素 (value elements)首先与照明引导特征 (illumination-guided feature)进行逐元素乘法 (element-wise multiplication)。这意味着光照信息 (illumination information)显式地调制 (modulates)了值 (Value)向量,从而引导 (direct)自注意力 (self-attention)关注对图像增强更重要的信息区域。 其中 是一个可学习参数 (learnable parameter),用于自适应地 (adaptively)缩放矩阵乘法 (matrix multiplication)的结果。 - 输出: 随后, 个
头 (heads)的输出被拼接 (concatenated)起来,并通过一个全连接层 (fc layer),然后加上位置编码 (positional encoding)(可学习参数 (learnable parameters)),以生成输出令牌 (tokens)。最后, 被重塑 (reshaped)回原来的特征图形式 。
复杂度分析 (Complexity Analysis):
作者分析了 IG-MSA 的计算复杂度。主要计算成本来自方程 (9) 中的两个 矩阵乘法 (matrix multiplication): 和 。由于有 个 头 (heads),因此 IG-MSA 的复杂度 可以 形式化 (formulated) 为:
其中 H, W 是空间尺寸, 是通道数, 是 头 (head) 的数量。
相比之下,一些现有 CNN-Transformer 方法(如 SNR-Net)使用的 全局多头自注意力 (Global Multi-head Self-Attention, G-MSA) 的复杂度为:
通过比较方程 (10) 和 (11) 可以看出:
G-MSA的复杂度与输入空间尺寸(HW)的平方成正比,即 。这导致其计算负担巨大,限制了Transformer在低光照图像增强中的应用。IG-MSA的复杂度与空间尺寸(HW)呈线性关系,即 。这种显著降低的计算复杂度使得IG-MSA可以被嵌入到网络中的每个基本单元IGAB中,从而更充分地发挥Transformer在低光照图像增强中的潜力。
5. 实验设置
5.1. 数据集
为了全面评估 Retinexformer,研究人员在多个广泛使用的低光照图像增强基准数据集上进行了实验。
5.1.1. 有 真值 (Ground Truth) 的数据集
- LOL (Low-Light) 数据集:
- 包含 v1 和 v2 两个版本。
- LOL-v1: 训练集与测试集比例为 485:15。
- LOL-v2: 分为
真实 (real)和合成 (synthetic)子集。- LOL-v2-real: 训练集与测试集比例为 689:100。
- LOL-v2-synthetic: 训练集与测试集比例为 900:100。
- SID (See-in-the-Dark) 数据集
[9]:- 使用 Sony II 相机捕获。
- 包含 2697 对短曝光/长曝光的
RAW 图像 (RAW image)。 - 低光照/正常光照的 RGB 图像通过 SID
[9]中相同的相机内信号处理 (in-camera signal processing)从RAW转换而来。 - 2099 对图像用于训练,598 对用于测试。
- SMID (Synthetic Multi-Exposure Image Dataset) 数据集
[10]:- 包含 20809 对短曝光/长曝光的
RAW 图像 (RAW image)。 - 同样将
RAW数据转换为低光照/正常光照的 RGB 图像对。 - 15763 对图像用于训练,其余用于测试。
- 包含 20809 对短曝光/长曝光的
- SDSD (Seeing Dynamic Scene in the Dark) 数据集
[48]:- 采用静态版本。
- 由 Canon EOS 6D Mark II 相机配合
ND 滤镜 (ND filter)捕获。 - 包含室内 (indoor) 和室外 (outdoor) 子集。
- SDSD-indoor: 训练集与测试集分别使用 62:6 对低光照/正常光照视频帧。
- SDSD-outdoor: 训练集与测试集分别使用 116:10 对低光照/正常光照视频帧。
- FiveK (MIT-Adobe FiveK) 数据集
[5]:- 分为训练集和测试集,分别包含 4500 和 500 对低光照/正常光照图像。
- 这些图像由五位专业摄影师 ( ~ ) 手动调整。
- 实验使用专家 调整的图像作为
参考 (reference),并采用sRGB 输出模式 (sRGB output mode)。
5.1.2. 无 真值 (Ground Truth) 的数据集
为了进一步评估 Retinexformer 的 泛化能力 (generalization ability) 和在真实世界场景中的表现,还在以下五个没有 真值 (Ground Truth) 的数据集上进行了测试:
- LIME
[18] - NPE
[50] - MEF
[36] - DICM
[28] - VV
[47]
5.1.3. 用于低光照 目标检测 (Object Detection) 的数据集
- ExDark 数据集
[32]:- 用于比较不同增强算法对
高级视觉理解 (high-level vision understanding)(如目标检测 (object detection))的预处理效果 (preprocessing effects)。 - 包含 7363 张
欠曝 (under-exposed)图像,标注有 12 个物体类别 (object category)的边界框 (bounding boxes)。 - 5890 张图像用于训练,1473 张用于测试。
- 用于比较不同增强算法对
5.2. 评估指标
论文中使用了多种评估指标来全面衡量模型在图像增强和目标检测任务上的性能。
5.2.1. 图像质量评估指标
- 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)
- 概念定义:
PSNR是一种广泛用于衡量图像增强或压缩后图像质量的客观指标。它量化了处理后图像相对于原始图像的失真程度。PSNR值越高,表示图像失真越小,处理后的图像质量越好,越接近真值 (Ground Truth)。它基于像素的亮度差异,对误差比较敏感。 - 数学公式:
- 符号解释:
- : 图像中像素可能的最大值。对于8位图像(每个颜色通道有256个亮度级别),。
- :
均方误差 (Mean Squared Error),表示原始图像和处理后图像之间像素值差异的平方的平均值。I(i, j): 原始图像在坐标(i, j)处的像素值。K(i, j): 处理后图像在坐标(i, j)处的像素值。m, n: 图像的行数和列数。
- 概念定义:
- 结构相似性 (Structural Similarity Index Measure, SSIM)
- 概念定义:
SSIM是一种更符合人类视觉感知 (human visual perception) 的图像质量评估指标。它从三个方面衡量两幅图像的相似度:亮度 (luminance)、对比度 (contrast)和结构 (structure)。SSIM值通常介于 -1 和 1 之间,值越接近 1,表示两幅图像越相似,图像质量越好。它比PSNR更能反映人眼对图像变化的感知。 - 数学公式:
- 符号解释:
x, y: 待比较的两幅图像的图像块。通常,SSIM是在图像的局部窗口上计算的,然后取平均值。- : 图像块 的平均像素值。
- : 图像块 的平均像素值。
- : 图像块 的方差。
- : 图像块 的方差。
- : 图像块 和 的协方差。
- , : 用来避免分母为零的常数,其中 是非常小的常数(通常取 ), 是像素值的动态范围(对于8位灰度图像, )。
- 概念定义:
5.2.2. 目标检测评估指标
- 平均精度 (Average Precision, AP)
- 概念定义:
AP是在目标检测 (object detection)任务中评估模型性能的关键指标。它通过计算精确率-召回率曲线 (Precision-Recall curve)下方的面积来衡量模型在检测特定类别时的性能。AP值越高,表示模型在召回率和精确率之间取得了更好的平衡,检测性能越好。对于多类别检测,通常会计算平均平均精度 (mean Average Precision, mAP),即所有类别的AP的平均值。 - 数学公式: 或者更直观地,作为精确率-召回率曲线的积分:
- 符号解释:
p(r): 精确率-召回率曲线,表示在召回率 下的精确率。- : 第 个独特
召回率 (recall)值。 - : 第
n-1个独特召回率 (recall)值。 - : 在召回率 下的最大
精确率 (precision)。 精确率 (Precision): 模型正确识别出的正样本数量占所有被模型识别为正样本数量的比例。召回率 (Recall): 模型正确识别出的正样本数量占所有实际正样本数量的比例。
- 概念定义:
5.3. 对比基线
为了全面展示 Retinexformer 的性能,论文将其与多种 最先进的 (SOTA) 低光照图像增强算法进行了比较,这些基线模型代表了该领域不同类型的方法和最新的进展:
-
基于 CNN 的方法 (CNN-based methods):
SID [9]:可能指的是基于 SID 数据集训练的早期深度学习方法。3DLUT [63]:基于3D查找表 (3D lookup table)的方法,用于图像增强。DeepUPE [49]:基于 Retinex 理论的单阶段 (one-stage)CNN,预测光照图。RF [26]:强化学习 (Reinforcement Learning)控制图像编辑软件的方法。DeepLPF [38]:深度局部参数滤波器 (Deep Local Parametric Filters)。RetinexNet [54]:经典的基于 Retinex 理论的多阶段 (multi-stage)CNN。Sparse [59]:稀疏梯度正则化 (Sparse Gradient Regularized)的深度 Retinex 网络。EnGAN [22]:无监督 (unsupervised)的低光照增强网络。RAS [30]:Retinex 启发 (Retinex-inspired)的合作先验架构搜索 (cooperative prior architecture search)方法。FIDE [56]:基于分解和增强的低光照图像恢复。DRBN [58]:带表示 (Band Representation)的半监督低光照图像增强。KinD [66]:点燃黑暗 (Kindling the Darkness),一个实用的低光照图像增强器。MIRNet [61]:用于真实图像恢复和增强的丰富特征学习 (Learning Enriched Features)。ZeroDCE [17]:零参考 (Zero-Reference)的低光照增强,无需配对数据。SCI [37]:针对快速、灵活、鲁棒的低光照图像增强。
-
基于 Transformer 或混合方法 (Transformer-based or Hybrid methods):
-
IPT [11]:预训练图像处理Transformer (Pre-trained Image Processing Transformer)。 -
UFormer [52]:通用的U型 Transformer (U-shaped Transformer)。 -
Restormer [60]:用于高分辨率图像恢复的高效Transformer。 -
SNR-Net [57]:SNR (信噪比)-aware的低光照图像增强 CNN-Transformer 混合网络。这些基线模型涵盖了从传统 CNN 到最新的 Transformer 架构,以及 Retinex 理论在深度学习中的不同应用方式,确保了
Retinexformer性能评估的全面性和说服力。
-
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 定量结果 (Quantitative Results)
论文在多个基准数据集上对 Retinexformer 进行了全面的定量评估,并将其与各种 最先进的 (SOTA) 方法进行了比较。结果如 Table 1 和 Table 2 所示。
以下是原文 Table 1 的结果:
| Methods | Complexity | LOL-v1 | LOL-v2-real | LOL-v2-syn | SID | SMID | SDSD-in | SDSD-out | ||||||||
| FLOPS (G) | Params (M) | PSNR | SSIM | PSNR | SSIM | PSNR | SSIM | PSNR | SSIM | PSNR | SSIM | PSNR | SSIM | PSNR | SSIM | |
| SID [9] | 13.73 | 7.76 | 14.35 | 0.436 | 13.24 | 0.442 | 15.04 | 0.610 | 16.97 | 0.591 | 24.78 | 0.718 | 23.29 | 0.703 | 24.90 | 0.693 |
| 3DLUT [63] | 0.075 | 0.59 | 14.35 | 0.445 | 17.59 | 0.721 | 18.04 | 0.800 | 20.11 | 0.592 | 23.86 | 0.678 | 21.66 | 0.655 | 21.89 | 0.649 |
| DeepUPE [49] | 21.10 | 1.02 | 14.38 | 0.446 | 13.27 | 0.452 | 15.08 | 0.623 | 17.01 | 0.604 | 23.91 | 0.690 | 21.70 | 0.662 | 21.94 | 0.698 |
| RF [26] | 46.23 | 21.54 | 15.23 | 0.452 | 14.05 | 0.458 | 15.97 | 0.632 | 16.44 | 0.596 | 23.11 | 0.681 | 20.97 | 0.655 | 21.21 | 0.689 |
| DeepLPF [38] | 5.86 | 1.77 | 15.28 | 0.473 | 14.10 | 0.480 | 16.02 | 0.587 | 18.07 | 0.600 | 24.36 | 0.688 | 22.21 | 0.664 | 22.76 | 0.658 |
| IPT [11] | 6887 | 115.31 | 16.27 | 0.504 | 19.80 | 0.813 | 18.30 | 0.811 | 20.53 | 0.561 | 27.03 | 0.783 | 26.11 | 0.831 | 27.55 | 0.850 |
| UFormer [52] | 12.00 | 5.29 | 16.36 | 0.771 | 18.82 | 0.771 | 19.66 | 0.871 | 18.54 | 0.577 | 27.20 | 0.792 | 23.17 | 0.859 | 23.85 | 0.748 |
| RetinexNet [54] | 587.47 | 0.84 | 16.77 | 0.560 | 15.47 | 0.567 | 17.13 | 0.798 | 16.48 | 0.578 | 22.83 | 0.684 | 20.84 | 0.617 | 20.96 | 0.629 |
| Sparse [59] | 53.26 | 2.33 | 17.20 | 0.640 | 20.06 | 0.816 | 22.05 | 18.68 | 0.606 | 25.48 | 0.766 | 23.25 | 0.863 | 25.28 | 0.804 | |
| EnGAN [22] | 61.01 | 114.35 | 17.48 | 0.650 | 18.23 | 0.617 | 16.57 | 0.734 | 17.23 | 0.543 | 22.62 | 0.674 | 20.02 | 0.604 | 20.10 | 0.616 |
| RAS [30] | 0.83 | 0.003 | 18.23 | 0.720 | 18.37 | 0.723 | 16.55 | 0.652 | 18.44 | 0.581 | 25.88 | 0.744 | 23.17 | 0.696 | 23.84 | 0.743 |
| FIDE [56] | 28.51 | 8.62 | 18.27 | 0.665 | 16.85 | 0.678 | 15.20 | 0.612 | 18.34 | 0.578 | 24.42 | 0.692 | 22.41 | 0.659 | 22.20 | 0.629 |
| DRBN [58] | 48.61 | 5.27 | 20.13 | 0.830 | 20.29 | 0.831 | 23.22 | 0.927 | 19.02 | 0.577 | 26.60 | 0.781 | 24.08 | 0.868 | 25.77 | 0.841 |
| KinD [66] | 34.99 | 8.02 | 20.86 | 0.790 | 14.74 | 0.641 | 13.29 | 0.578 | 18.02 | 0.583 | 22.18 | 0.634 | 21.95 | 0.672 | 21.97 | 0.654 |
| Restormer [60] | 144.25 | 26.13 | 22.43 | 0.823 | 19.94 | 0.827 | 21.41 | 0.830 | 22.27 | 0.649 | 26.97 | 0.758 | 25.67 | 0.827 | 24.79 | 0.802 |
| MIRNet [61] | 785 | 31.76 | 24.14 | 0.830 | 20.02 | 0.820 | 21.94 | 0.876 | 20.84 | 0.605 | 25.66 | 0.762 | 24.38 | 0.864 | 27.13 | 0.837 |
| SNR-Net [57] | 26.35 | 4.01 | 24.61 | 0.842 | 21.48 | 0.849 | 24.14 | 0.928 | 22.87 | 0.625 | 28.49 | 0.805 | 29.44 | 0.894 | 28.66 | 0.866 |
| Retinexformer | 15.57 | 1.61 | 25.16 | 0.845 | 22.80 | 0.840 | 25.67 | 0.930 | 24.44 | 0.680 | 29.15 | 0.815 | 29.77 | 0.896 | 29.84 | 0.877 |
以下是原文 Table 2 的结果:
| Methods | DeepUPE [49] | MIRNet [61] | SNR-Net [57] | Restormer [60] | Ours |
| PSNR (dB) | 23.04 | 23.73 | 23.81 | 24.13 | 24.94 |
| FLOPS (G) | 21.10 | 785.0 | 26.35 | 144.3 | 15.57 |
分析:
-
整体优势:
Retinexformer在八个数据集(LOL-v1、LOL-v2-real、LOL-v2-synthetic、SID、SMID、SDSD-indoor、SDSD-outdoor 和 FiveK)上显著优于最先进的 (SOTA)方法,同时保持了适中的计算和内存成本。 -
与
SNR-Net比较: 相比目前最佳方法SNR-Net,Retinexformer在 LOL-v1、LOL-v2-real、LOL-v2-synthetic、SID、SMID、SDSD-indoor、SDSD-outdoor 和 FiveK 数据集上分别取得了 0.55、1.32、1.53、1.57、0.66、0.33、1.18 和 1.13 dB 的PSNR提升。然而,Retinexformer的参数量 (Params)仅为SNR-Net的 40% (1.61/4.01 M),浮点运算次数 (FLOPS)仅为 59% (15.57/26.35 G)。这表明Retinexformer在效率和效果上都具有显著优势。 -
与基于 Retinex 的深度学习方法比较: 相比
DeepUPE [49]、RetinexNet [54]、RUAS [30]和KinD [66]等SOTA基于 Retinex 的深度学习方法,Retinexformer在Table 1中的七个基准测试中取得了 4.30 到 8.54 dB 的显著PSNR提升。特别是在 SID 和 SDSD 等受噪声 (noise)和伪影 (artifacts)严重影响的数据集上,提升超过 6 dB (如Figure 1所示),这验证了Retinexformer对腐败 (corruptions)的有效处理能力。 -
与基于 Transformer 的图像恢复算法比较: 相比
IPT [11]、UFormer [52]和Restormer [60]等SOTATransformer图像恢复算法,Retinexformer在Table 1的七个数据集上获得了 1.95 到 4.26 dB 的PSNR提升。同时,Retinexformer仅需要IPT和Restormer参数量的 1.4% 和 6.2%,FLOPS的 0.2% 和 10.9%。这证明了Retinexformer在效率上的巨大优势,克服了通用Transformer计算成本过高的问题。所有这些结果都清晰地表明了
Retinexformer卓越的有效性和效率优势。
6.1.2. 定性结果 (Qualitative Results)
Figure 3, 4, 5, 7 展示了 Retinexformer 与 SOTA 算法的视觉比较。
以下是原文 Figure 3 的内容:
该图像是一个对比图,展示了低光照图像增强技术的效果,包含输入图像、多个算法(RUAS、KinD、Restormer、MIRNet、SNR-Net、Retinexformer)生成的结果,以及真实增强效果(Ground Truth)。每行展示不同图像的增强效果,最后一行为真实效果对比。
图 3 展示了在 LOL-v2-real 数据集上的视觉对比。
-
RUAS 产生了明显的色彩失真,例如天空的蓝色被不自然地增强。
-
KinD 图像整体偏暗,未能充分提亮。
-
Restormer 和 MIRNet 图像整体亮度有所提升,但细节不够清晰,可能存在轻微模糊。
-
SNR-Net 效果较好,但在某些区域仍可能存在细节丢失。
-
Retinexformer 生成的图像亮度适中,色彩自然,细节清晰,与
真值 (Ground Truth)最为接近。以下是原文 Figure 4 的内容:
该图像是一个对比图,展示了低光照图像增强的不同算法效果。上方展示了输入图像和多种算法(包括RetinexNet、DeepUPE、Restormer、SNR-Net、Retinexformer)的输出,下方是相应的小图。右下角为真实场景的图片作为对照。
图 4 展示了在 SID 数据集上的视觉对比。
-
RetinexNet 和 DeepUPE 明显存在过曝、欠曝区域,且未能有效抑制噪声,使得图像看起来粗糙且细节丢失。
-
Restormer 和 SNR-Net 图像显得有些模糊,细节不够锐利。
-
Retinexformer 能够有效地增强低光照区域的能见度和对比度,同时可靠地去除噪声,避免了过曝或模糊,并鲁棒地保留了颜色。
以下是原文 Figure 5 的内容:
该图像是比较不同低光照图像增强算法的示意图,上方展示了输入图像及各算法的输出,包括EnlightenGAN、DRBN、IPT、SNR-Net、Retinexformer和Ground Truth,突出显示了算法的效果差异。
图 5 展示了在 SMID 数据集上的视觉对比。
-
EnlightenGAN 和 DRBN 在图像中引入了黑色斑点或不自然的伪影。
-
IPT 存在一定的噪声。
-
SNR-Net 尽管效果不错,但在某些区域仍有轻微伪影。
-
Retinexformer 在去除噪声和伪影方面表现出色,同时保持了图像的自然度和细节。
以下是原文 Figure 7 的内容:
该图像是插图,展示了多个低光照图像的增强效果对比,包括多个算法的结果如LIME、ZeroDCE、Retinexformer等。图像清晰地展示了不同算法在视觉表现上的差异,特别突出Retinexformer在低光照条件下的优越性。
图 7 展示了在 LIME、NPE、MEF、DICM 和 VV 等无 真值 (Ground Truth) 数据集上的视觉对比。
-
LIME 和 ZeroDCE 等方法在某些场景下可能会产生不自然的增强效果,如过亮或色彩失真。
-
Retinexformer 在这些真实场景下也表现出一致的优越性,能够生成高质量、自然且无伪影的增强图像。这尤其具有说服力,因为它证明了
Retinexformer在未知真值 (Ground Truth)的真实世界图像上的泛化能力 (generalization ability)。总的来说,
Retinexformer能够有效地增强低光照区域的能见度 (visibility)和对比度 (contrast),可靠地去除噪声 (noise)和伪影 (artifacts)而不引入黑斑,并稳健地保留颜色。
6.1.3. 用户研究评分 (User Study Score)
为了量化人类对增强图像的 主观视觉感知质量 (subjective visual perception quality),研究人员进行了一项用户研究。
以下是原文 Table 3a 的内容:
| Methods | L-v1 | L-v2-R | L-v2-S | SID | SMID | SD-in | SD-out | Mean |
| EnGAN [22] | 2.43 | 1.39 | 2.13 | 1.04 | 2.78 | 1.83 | 1.87 | 1.92 |
| RetinexNet [54] | 2.17 | 1.91 | 1.13 | 1.09 | 2.35 | 3.96 | 3.74 | 2.34 |
| DRBN [58] | 2.70 | 2.26 | 3.65 | 1.96 | 2.22 | 2.78 | 2.91 | 2.64 |
| FIFDE [56] | 2.87 | 2.52 | 3.48 | 2.22 | 2.57 | 3.04 | 2.96 | 2.81 |
| KinD [66] | 2.65 | 2.48 | 3.17 | 1.87 | 3.04 | 3.43 | 3.39 | 2.86 |
| MIRNet [61] | 2.96 | 3.57 | 3.61 | 2.35 | 2.09 | 2.91 | 3.09 | 2.94 |
| Restormer [60] | 3.04 | 3.48 | 3.39 | 2.43 | 3.17 | 2.48 | 2.70 | 2.96 |
| UAS [30] | 3.83 | 3.22 | 2.74 | 2.26 | 3.48 | 3.39 | 3.04 | 3.14 |
| SNR-Net [57] | 3.13 | 3.83 | 3.57 | 3.04 | 3.30 | 2.74 | 3.17 | 3.25 |
| Retinexformer | 3.61 | 4.17 | 3.78 | 3.39 | 3.87 | 3.65 | 3.91 | 3.77 |
分析:
- 研究设置: 23 名受试者被邀请独立评分来自七个数据集的增强结果,评分范围从 1(最差)到 5(最佳)。评分标准包括:(i) 是否包含
欠曝 (under-/over-exposed)区域,(ii) 是否包含色彩失真 (color distortion),(iii) 是否被噪声 (noise)或伪影 (artifacts)破坏。 - 结果:
Retinexformer平均得分最高 (3.77)。在 LOL-v2-real (L-v2-R)、LOL-v2-synthetic (L-v2-S)、SID、SMID 和 SDSD-outdoor (SD-out) 数据集上,Retinexformer的结果最受人类喜爱。在 LOL-v1 (L-v1) 和 SDSD-indoor (SD-in) 数据集上,也位居第二。这表明Retinexformer不仅在客观指标上表现出色,在人类视觉感知上同样具有卓越的质量。
6.1.4. 低光照目标检测 (Low-light Object Detection)
为了评估 Retinexformer 对 高级视觉任务 (high-level vision tasks) 的实际价值,论文在 ExDark 数据集上进行了低光照 目标检测 (object detection) 实验。
以下是原文 Table 3b 的内容:
| Methods | Bicycle | Boat | Bottle | Bus | Car | Cat | Chair | Cup | Dog | Motor | People | Table | Mean |
| MIRNet [61] | 71.8 | 63.8 | 62.9 | 81.4 | 71.1 | 58.8 | 58.9 | 61.3 | 63.1 | 52.0 | 68.8 | 45.5 | 63.6 |
| RetinexNet [54] | 73.8 | 62.8 | 64.8 | 84.9 | 80.8 | 53.4 | 57.2 | 68.3 | 61.5 | 51.3 | 65.9 | 43.1 | 64.0 |
| RUAS [30] | 72.0 | 62.2 | 65.2 | 72.9 | 78.1 | 57.3 | 62.4 | 61.8 | 60.2 | 61.5 | 69.4 | 46.8 | 64.2 |
| Restormer [60] | 76.2 | 65.1 | 64.2 | 84.0 | 76.3 | 59.2 | 53.0 | 58.7 | 66.1 | 62.9 | 68.6 | 45.0 | 64.9 |
| KinD [66] | 72.2 | 66.5 | 58.9 | 83.7 | 74.5 | 55.4 | 61.7 | 61.3 | 63.8 | 63.0 | 70.5 | 47.8 | 65.0 |
| ZeroDCE [117] | 75.8 | 66.5 | 65.6 | 84.9 | 77.2 | 56.3 | 53.8 | 59.0 | 63.5 | 64.0 | 68.3 | 46.3 | 65.1 |
| SNR-Net [57] | 75.3 | 64.4 | 63.6 | 85.3 | 77.5 | 59.1 | 54.1 | 59.6 | 66.3 | 65.2 | 69.1 | 44.6 | 65.3 |
| SCI [37] | 74.6 | 65.3 | 65.8 | 85.4 | 76.3 | 59.4 | 57.1 | 60.5 | 65.6 | 63.9 | 69.1 | 45.9 | 65.6 |
| Retinexformer | 76.3 | 66.7 | 65.9 | 84.7 | 77.6 | 61.2 | 53.5 | 60.7 | 67.5 | 63.4 | 69.5 | 46.0 | 66.1 |
分析:
-
实验设置: 使用
YOLO-v3 [43]作为检测器,从零开始训练。不同的低光照增强方法作为预处理模块 (preprocessing modules),采用固定参数。 -
定量结果:
Retinexformer在 ExDark 数据集上取得了最高的平均精度 (AP),达到 66.1 AP。这比最近的最佳自监督 (self-supervised)方法SCI [37]高 0.5 AP,比最近的最佳全监督 (fully-supervised)方法SNR-Net [57]高 0.8 AP。此外,Retinexformer在自行车 (bicycle)、船 (boat)、瓶子 (bottle)、猫 (cat)和狗 (dog)这五个物体类别上取得了最佳结果。 -
定性结果 (Figure 6): 以下是原文 Figure 6 的内容:
该图像是一个对比图,左侧展示了低光照条件下的物体检测结果,右侧展示了经过我们方法增强后的图像。图中显示的船只标注了检测置信度,左侧的置信度较低,而右侧的检测效果显著提升。Figure 6展示了在低光照场景(左)和经Retinexformer增强后场景(右)中的目标检测 (object detection)视觉比较。在欠曝 (under-exposed)图像中,检测器容易漏检某些船 (boats)或预测不准确的位置。相比之下,在经Retinexformer增强的图像上,检测器能够可靠地预测位置良好 (well-placed)的边界框 (bounding boxes)来覆盖所有船只,这表明Retinexformer有效地提升了高级视觉任务 (high-level vision)的性能。
6.2. 消融实验/参数分析
论文在 SDSD-outdoor 数据集上进行了 消融研究 (ablation study),以分析 Retinexformer 各组件的有效性。结果如 Table 4 所示。
以下是原文 Table 4 的内容:
| (a) Break-down ablation to higher performance. | ||||||||||||||||||
| Baseline-1 | ORF | IG-MSA | PSNR | SSIM | Params (M) | FLOPS (G) | ||||||||||||
| ✓ | 26.47 | 0.843 | 1.01 | 9.18 | ||||||||||||||
| ✓ | ✓ | 27.92 | 0.857 | 1.27 | 11.37 | |||||||||||||
| ✓ | ✓ | 28.86 | 0.868 | 1.34 | 13.38 | |||||||||||||
| ✓ | ✓ | ✓ | 29.84 | 0.877 | 1.61 | 15.57 | ||||||||||||
| (b) Ablation of the proposed ORF. | ||||||||||||||||||
| Method | Ilu = I | Ilu = I./L | Ilu = I L | +Flu | ||||||||||||||
| PSNR | 28.86 | 28.97 | 29.26 | 29.84 | ||||||||||||||
| SSIM | 0.868 | 0.868 | 0.870 | 0.877 | ||||||||||||||
| Params (M) | 1.34 | 1.61 | 1.61 | 1.61 | ||||||||||||||
| FLOPS (G) | 13.38 | 14.01 | 14.01 | 15.57 | ||||||||||||||
| (c) Ablation of self-attention schemes. | ||||||||||||||||||
| Method | Baseline-2 | G-MSA | W-MSA | IG-MSA | ||||||||||||||
| PSNR | 27.92 | 28.43 | 28.65 | 29.84 | ||||||||||||||
| SSIM | 0.857 | 0.841 | 0.845 | 0.877 | ||||||||||||||
| Params (M) | 1.27 | 1.61 | 1.61 | 1.61 | ||||||||||||||
| FLOPS (G) | 11.37 | 17.65 | 16.43 | 15.57 | ||||||||||||||
分析:
6.2.1. 分解消融 (Break-down Ablation)
Table 4a 展示了 Retinexformer 各组件对性能的贡献。
- Baseline-1: 这是从
Retinexformer中移除ORF和IG-MSA后的模型。它取得了 26.47 dB 的PSNR。 - 加入 ORF: 在
Baseline-1的基础上加入ORF(即使用光照估计器 (illumination estimator)来生成 和 ,但污染恢复器 (corruption restorer)仍是简单基线),PSNR提升了 1.45 dB (27.92 - 26.47)。 - 加入 IG-MSA: 在
Baseline-1的基础上加入IG-MSA(即污染恢复器 (corruption restorer)使用IGT,但不使用ORF的 和 ,而是直接输入 ),PSNR提升了 2.39 dB (28.86 - 26.47)。 - 同时加入 ORF 和 IG-MSA: 当同时使用
ORF和IG-MSA时,Baseline-1获得了 3.37 dB (29.84 - 26.47) 的总提升。 这个证据表明ORF和IG-MSA都是有效的组件,并且它们的组合带来了显著的性能提升。
6.2.2. 所提 ORF 的消融 (Ablation of the Proposed ORF)
Table 4b 深入研究了 ORF 的不同设计选择。
- : 这是移除了
ORF的情况,污染恢复器 (corruption restorer)的输入直接是原始图像 。模型得到 28.86 dB 的PSNR。 - : 作者尝试让 估计
光照图 (illumination map),并使用逐元素除法 (element-wise division)来生成 。为了避免计算机中的异常,对 添加了一个很小的常数 。然而,如3.1节分析,这种除法操作对小值非常敏感,模型只获得了有限的 0.11 dB (28.97 - 28.86) 提升,说明其鲁棒性不足。 - **\odot\bar{\mathbf{L}}:** 作者改用估计 `点亮图 (light-up map)` $\bar{\mathbf{L}}$,并使用 `逐元素乘法 (element-wise multiplication)` $(\mathbf{I} \odot \bar{\mathbf{L}})$ 来生成 \mathbf{I}{lu}。这种方式带来了 0.40 dB (29.26 - 28.86) 的提升,验证了 `建模 (modeling)` $\bar{\mathbf{L}}$ 的优势。
* **$+Flu$:** 在使用 \mathbf{I}{lu} = \mathbf{I} \odot \bar{\mathbf{L}} 的基础上,进一步使用 `光照特征 (light-up feature)` $\mathbf{F}_{lu}$ 来 `引导 (direct)` `污染恢复器 (corruption restorer)` $\mathcal{R}$。这使得模型在 `PSNR` 上继续提升了 0.58 dB (29.84 - 29.26),在 `SSIM` 上提升了 0.007 (0.877 - 0.870)。这强调了 `光照特征 (light-up feature)` 在指导 `腐败恢复 (corruption restoration)` 中的关键作用。
### 6.2.3. 自注意力方案的消融 (Ablation of Self-Attention Schemes)
`Table 4c` 比较了不同 `自注意力 (self-attention)` 方案的效果。
* **Baseline-2:** 这是从 `Retinexformer` 中移除 `IG-MSA` 后的模型(即 `污染恢复器 (corruption restorer)` 内部不使用 `Transformer` 模块,`PSNR` 为 27.92 dB)。
* **G-MSA (Global Multi-head Self-Attention):** 将 `全局多头自注意力 (G-MSA)` 替换到 \mathcal{R} 的每个基本单元中。为了避免 `内存溢出 (out of memory)`,`G-MSA` 的输入特征图被下采样到 1/4 大小。尽管如此,`G-MSA` 仍然导致了更高的 `FLOPS` (17.65 G),但 `PSNR` 仅为 28.43 dB,甚至低于 `W-MSA`。这验证了 `G-MSA` 在高分辨率图像上的计算成本和性能权衡问题。
* **W-MSA (Window-based Multi-head Self-Attention):** 借鉴 `Swin Transformer [31]` 中提出的 `基于窗口的多头自注意力 (Window-based Multi-head Self-Attention)`。`W-MSA` 的 `PSNR` 为 28.65 dB,`FLOPS` 为 16.43 G。
* **IG-MSA (Illumination-Guided Multi-head Self-Attention):** `Retinexformer` 中提出的 `IG-MSA`。它在 `PSNR` 上达到了 29.84 dB,`FLOPS` 仅为 15.57 G。
`IG-MSA` 相比 `G-MSA` 和 `W-MSA` 分别提升了 1.41 dB (29.84 - 28.43) 和 1.19 dB (29.84 - 28.65),同时 `FLOPS` 分别减少了 2.08 G (17.65 - 15.57) 和 0.86 G (16.43 - 15.57)。这些结果证明了 `IG-MSA` 在性能和计算效率上的 `成本效益 (cost-effectiveness)` 优势。
# 7. 总结与思考
## 7.1. 结论总结
本文提出了 `Retinexformer`,一个新颖的基于 `Transformer` 的低光照图像增强方法。该方法从 `Retinex 理论 (Retinex theory)` 出发,通过分析 `欠曝 (under-exposed)` 场景中隐藏的 `腐败 (corruptions)` 以及 `点亮过程 (light-up process)` 可能引入的 `腐败 (corruptions)`,引入了 `扰动项 (perturbation terms)`,并 `形式化 (formulated)` 了一个新的 `单阶段基于Retinex的框架 (One-stage Retinex-based Framework, ORF)`。
`ORF` 旨在首先 `估计 (estimate)` 光照信息以 `点亮 (light up)` 低光照图像,然后 `恢复 (restore)` 其中的 `腐败 (corruptions)`。为了实现 `腐败恢复 (corruption restoration)` 并有效建模图像的 `长距离依赖 (long-range dependencies)`,作者设计了 `照明引导Transformer (Illumination-Guided Transformer, IGT)`。`IGT` 巧妙地利用 `ORF` 捕获的 `光照信息 (illumination information)` 来指导 `自注意力 (self-attention)` 的计算,特别是建模不同光照条件下区域间的 `交互 (interactions)`,同时解决了传统 `Transformer` 在高分辨率图像上计算成本过高的问题。
通过将 `IGT` 嵌入 `ORF`,`Retinexformer` 在十三个数据集上进行了广泛的定量和定性实验,结果表明其显著优于 `最先进的 (SOTA)` 方法。此外,用户研究 (user study) 和在低光照 `目标检测 (object detection)` 上的应用进一步验证了 `Retinexformer` 的实用价值和鲁棒性。
## 7.2. 局限性与未来工作
论文中并未直接列出自身的“局限性”,但从其创新点和当前研究的趋势来看,可以推断出一些潜在的局限性和未来的研究方向:
* **对光照先验的依赖:** `ORF` 使用 \mathbf{L}_p = \mathrm{mean}_c(\mathbf{I})\hat{\mathbf{R}}\hat{\mathbf{L}} `扰动项 (perturbation terms)` 来 `形式化 (formulate)` `腐败 (corruptions)`,但 `污染恢复器 (corruption restorer)` $\mathcal{R}$ 实际上是隐式地学习去除这些 `腐败 (corruptions)`。未来工作可以探索更显式地建模或预测这些 `扰动项 (perturbation terms)`,例如通过多任务学习 (multi-task learning) 的方式,可能会带来更精细的控制和恢复效果。
* **实时性与边缘部署:** 尽管 `IG-MSA` 显著降低了 `Transformer` 的计算复杂度,使其线性于空间尺寸,但整个 `U型 Transformer (U-shaped Transformer)` 模型仍具有一定的 `参数量 (parameters)` 和 `浮点运算次数 (FLOPS)`。对于需要极低延迟的实时应用或在 `边缘设备 (edge devices)` 上的部署,可能还需要进一步探索更轻量级的 `Retinexformer` 变体或 `模型压缩 (model compression)` 技术。
* **视频增强:** 论文主要关注静态图像增强。将 `Retinexformer` 扩展到低光照视频增强是一个自然且具有挑战性的未来方向,这需要考虑 `时间一致性 (temporal consistency)` 和 `帧间信息 (inter-frame information)` 的利用。
## 7.3. 个人启发与批判
### 7.3.1. 个人启发
1. **领域知识与深度学习的有效结合:** `Retinexformer` 的成功再次印证了将传统图像处理的 `物理模型 (physical model)`(如 `Retinex 理论 (Retinex theory)`)与先进的 `深度学习架构 (deep learning architectures)`(如 `Transformer`)相结合的强大潜力。物理先验提供了 `可解释性 (interpretability)` 和 `归纳偏置 (inductive bias)`,而深度学习则提供了强大的特征学习和非线性映射能力。
2. **`Transformer` 高效利用的创新思路:** `IG-MSA` 的设计是本文的一大亮点。它巧妙地解决了 `Transformer` 在高分辨率图像上 `计算复杂度 (computational complexity)` 过高的问题,通过将注意力机制的复杂度从平方级降低到线性级,从而使得 `Transformer` 能够在整个 U 形网络中广泛应用。更重要的是,它利用了特定任务的 `光照信息 (illumination information)` 来 `引导 (guide)` `自注意力 (self-attention)`,这是一种非常高效且有针对性的信息利用方式。
3. <strong>对 `腐败 (corruptions)` 的显式建模:</strong> 传统 Retinex 模型的一个主要不足是对 `腐败 (corruptions)` 的忽视。`Retinexformer` 通过引入 `扰动项 (perturbation terms)` 并在 `ORF` 框架中显式地将其纳入考虑,这使得模型能够更全面、更鲁棒地处理真实世界低光照图像的复杂性。
4. **实际应用价值的验证:** 论文不仅在传统的图像质量指标上取得了显著成果,还通过用户研究 (user study) 和在低光照 `目标检测 (object detection)` 任务上的表现,有力地证明了其在实际应用中的潜力和价值。这种多维度的评估对于衡量研究的实际影响力至关重要。
### 7.3.2. 批判与改进
1. <strong>`扰动项 (perturbation terms)` 的建模深度:</strong> 尽管论文概念性地引入了 \hat{\mathbf{R}}\hat{\mathbf{L}}\mathbf{L}_p = \mathrm{mean}_c(\mathbf{I})\alpha_i\alpha_i\alpha_i\alpha_i$$ 在训练过程中如何变化?它对不同
头 (heads)和不同图像区域的影响有何不同?对它的详细分析可能会揭示更多关于IG-MSA学习到的光照引导策略。
- 模型通用性与
泛化能力 (generalization ability)的边界: 尽管Retinexformer在多个数据集上表现出色,但其在完全无监督或领域自适应 (domain adaptation)场景下的泛化能力 (generalization ability)还有待进一步探索。例如,当面对与训练数据分布差异很大的新型传感器数据或极端光照条件时,模型的性能是否依然稳健?这可能需要结合无监督学习 (unsupervised learning)或半监督学习 (semi-supervised learning)的思想。
相似论文推荐
基于向量语义检索推荐的相关论文。