论文状态：已完成

Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement

发表：2023/03/13

低光图像增强 (1)基于Retinex的变换器 (1)光照引导模型 (1)长距离依赖建模 (2)图像质量评估 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新颖的单阶段Retinex框架（ORF），有效增强低光照图像。通过估算光照信息和恢复图像腐败，结合照明引导Transformer (IGT)，该方法在非局部交互建模上表现出色。实验证明，Retinexformer在多个基准上显著超越现有最先进技术，展现了其实际应用价值。

摘要

When enhancing low-light images, many deep learning algorithms are based on the Retinex theory. However, the Retinex model does not consider the corruptions hidden in the dark or introduced by the light-up process. Besides, these methods usually require a tedious multi-stage training pipeline and rely on convolutional neural networks, showing limitations in capturing long-range dependencies. In this paper, we formulate a simple yet principled One-stage Retinex-based Framework (ORF). ORF first estimates the illumination information to light up the low-light image and then restores the corruption to produce the enhanced image. We design an Illumination-Guided Transformer (IGT) that utilizes illumination representations to direct the modeling of non-local interactions of regions with different lighting conditions. By plugging IGT into ORF, we obtain our algorithm, Retinexformer. Comprehensive quantitative and qualitative experiments demonstrate that our Retinexformer significantly outperforms state-of-the-art methods on thirteen benchmarks. The user study and application on low-light object detection also reveal the latent practical values of our method. Code, models, and results are available at https://github.com/caiyuanhao1998/Retinexformer

思维导图

论文精读

中文精读约 17 分钟读完 · 14,858 字

1. 论文基本信息

1.1. 标题

Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement

1.2. 作者

该论文由 Yuanhao Cai、Hao Bian、Jing Lin、Haoqian Wang、Radu Timofte 和 Yulun Zhang 共同撰写。作者们的所属机构包括清华大学 (Tsinghua University)、维尔茨堡大学 (University of Würzburg) 和苏黎世联邦理工学院 (ETH Zürich)。

1.3. 发表期刊/会议

该论文以预印本 (pre-print) 形式发布在 arXiv 平台。

1.4. 发表年份

2023年

1.5. 摘要

在低光照图像增强 (low-light image enhancement) 领域，许多深度学习 (deep learning) 算法都基于 Retinex 理论 (Retinex theory)。然而，传统的 Retinex 模型未能考虑隐藏在黑暗中或由提亮过程引入的图像 腐败 (corruptions)（例如噪声、伪影、色彩失真等）。此外，这些方法通常需要繁琐的多阶段训练流程 (multi-stage training pipeline)，并且依赖于 卷积神经网络 (Convolutional Neural Networks, CNNs)，这在捕获长距离依赖 (long-range dependencies) 方面存在局限性。

本文提出了一种简单而有原则的 单阶段基于Retinex的框架 (One-stage Retinex-based Framework, ORF)。ORF 首先 估计 (estimates) 光照信息 (illumination information) 以 点亮 (light up) 低光照图像，然后 恢复 (restores) 其中的 腐败 (corruption)，生成增强后的图像。为了解决长距离依赖问题，作者设计了一个 照明引导Transformer (Illumination-Guided Transformer, IGT)，它利用光照表示 (illumination representations) 来指导对不同光照条件下区域 非局部交互 (non-local interactions) 的建模。通过将 IGT 嵌入到 ORF 中，得到了 Retinexformer 算法。全面的定量 (quantitative) 和定性 (qualitative) 实验表明，Retinexformer 在十三个基准测试中显著优于 最先进的 (state-of-the-art, SOTA) 方法。用户研究 (user study) 和在低光照 目标检测 (object detection) 上的应用也揭示了该方法的潜在实用价值。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2303.06705v3 PDF 链接: https://arxiv.org/pdf/2303.06705v3.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题

论文旨在解决低光照图像增强这一具有挑战性的任务。在低光照环境下拍摄的图像通常存在 能见度差 (poor visibility)、对比度低 (low contrast) 以及各种 图像腐败 (image corruptions)，包括噪声、伪影 (artifacts) 和色彩失真 (color distortion)。这些问题不仅影响人类的视觉感知，也严重阻碍了下游计算机视觉任务，例如夜间 目标检测 (object detection)。

现有研究的挑战或空白 (Gap)

Retinex 理论的局限性: 传统的 Retinex 理论将图像分解为 反射分量 (reflectance) 和 光照分量 (illumination)。但它通常假设图像是无腐败的，这与真实低光照场景不符。特别地，它没有考虑隐藏在暗部区域的噪声和伪影，也没有考虑在提亮图像过程中可能引入的过曝、欠曝或色彩失真。
多阶段训练流程的繁琐: 许多基于 Retinex 理论的深度学习方法，如 RetinexNet，需要复杂的 多阶段训练流程 (multi-stage training pipeline)。它们通常使用不同的 卷积神经网络 (CNNs) 分别处理图像分解、反射分量去噪、光照调整等步骤，然后独立训练再进行端到端 (end-to-end) 微调 (fine-tuning)，导致训练过程耗时且复杂。
CNN 在长距离依赖捕获上的局限性: 大多数现有方法依赖于 CNN，但 CNN 的 感受野 (receptive field) 通常有限，这使得它们在捕获图像的 长距离依赖 (long-range dependencies) 和 非局部自相似性 (non-local self-similarity) 方面表现不佳。而这些特性对于图像恢复任务至关重要。
Transformer 计算成本过高: 尽管 Transformer 模型在建模长距离依赖方面表现出色，但直接应用于高分辨率图像时，其 全局自注意力 (global self-attention) 机制的计算复杂度与输入空间尺寸的平方成正比，导致计算成本巨大，难以承受。这使得 Transformer 在低光照图像增强领域的潜力尚未被充分挖掘。

本文的切入点或创新思路

针对上述挑战，本文提出了 Retinexformer，其核心思路是：

修订 Retinex 模型: 引入 扰动项 (perturbation terms) 来显式建模图像中的腐败，从而更真实地反映低光照图像的特性。
提出单阶段框架 (ORF): 将光照估计和腐败恢复集成到一个 端到端 (end-to-end) 的 单阶段训练 (one-stage training) 框架中，简化了训练流程。
设计照明引导Transformer (IGT): 克服 Transformer 的计算复杂度问题，并利用光照信息作为关键线索，指导 非局部交互 (non-local interactions) 的建模，以有效捕获长距离依赖。

2.2. 核心贡献/主要发现

本文的主要贡献总结如下：

首个基于 Transformer 的低光照图像增强算法: 提出了 Retinexformer，首次将 Transformer 引入低光照图像增强领域，有效解决了长距离依赖建模问题。
提出单阶段 Retinex 框架 (ORF): 建立了一个简单而有原则的 单阶段基于Retinex的框架 (ORF)。该框架通过引入 扰动项 (perturbation terms) 成功地建模了图像 腐败 (corruptions)，并实现了 端到端 (end-to-end) 的 单阶段训练 (one-stage training)，简化了复杂的训练流程。
设计照明引导自注意力机制 (IG-MSA): 提出了创新的 照明引导多头自注意力 (Illumination-Guided Multi-head Self-Attention, IG-MSA) 机制。该机制巧妙地利用 光照信息 (illumination information) 作为关键线索，指导 自注意力 (self-attention) 的计算，从而高效地建模图像的 长距离依赖 (long-range dependencies) 和不同光照区域间的 交互 (interactions)，同时显著降低了计算复杂度。
卓越的性能和实用价值: 通过在十三个基准数据集上进行的大量定量和定性实验，Retinexformer 显著优于 最先进的 (SOTA) 方法。此外，用户研究 (user study) 和在低光照 目标检测 (object detection) 任务上的应用也进一步验证了该方法的实用价值和鲁棒性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 低光照图像增强 (Low-light Image Enhancement)

低光照图像增强 (Low-light Image Enhancement) 是一项 计算机视觉 (computer vision) 任务，旨在改善在光线不足环境下拍摄的图像的视觉质量。这些图像通常表现为 能见度差 (poor visibility)、对比度低 (low contrast)，并可能伴随 噪声 (noise)、伪影 (artifacts) 和 色彩失真 (color distortion) 等 腐败 (corruptions)。增强的目标是提高图像的亮度、对比度，同时去除这些不良因素，使其在视觉上更接近正常光照下的效果，并有利于后续的图像分析任务。

3.1.2. Retinex 理论 (Retinex Theory)

Retinex 理论 (Retinex Theory) 是由 Edwin Land 在1970年代提出的一个图像处理理论，旨在解释人类视觉系统如何感知颜色和亮度，即使在不断变化的光照条件下也能保持颜色恒常性。其核心思想是将图像分解为两个基本分量：

反射分量 (Reflectance, $\mathbf{R}$ ): 代表物体本身的固有属性，即它反射光线的比例，与光照无关。通常认为这是我们想要得到的增强后的图像内容，因为它包含了图像的结构、纹理和颜色信息。
光照分量 (Illumination, $\mathbf{L}$ ): 代表场景中的光照强度和分布。低光照图像的问题主要在于光照分量过低。

数学上，Retinex 模型通常将图像 $\mathbf{I}$ 表示为反射分量 $\mathbf{R}$ 和光照分量 $\mathbf{L}$ 的 逐元素乘积 (element-wise multiplication)： $\mathbf{I} = \mathbf{R} \odot \mathbf{L}$ 其中 $\odot$ 表示逐元素乘法。增强任务的目标就是从低光照图像 $\mathbf{I}$ 中估计出 $\mathbf{R}$ 和 $\mathbf{L}$ ，然后通常通过调整或去除 $\mathbf{L}$ 来得到一个高亮度的 $\mathbf{R}$ 。

3.1.3. 卷积神经网络 (Convolutional Neural Networks, CNNs)

卷积神经网络 (Convolutional Neural Networks, CNNs) 是一种专门处理具有网格状拓扑结构数据（如图像）的 深度学习 (deep learning) 模型。它的核心是 卷积层 (convolutional layer)，通过在输入数据上滑动 卷积核 (convolutional kernel)（或 滤波器 (filter)）来提取局部特征。

优势: CNN 在捕获局部特征方面非常有效，因为它共享权重 (weight sharing) 和 局部感受野 (local receptive fields) 的特性。这使得它在图像分类、物体检测等任务中取得了巨大成功。
局限性: 由于其 局部感受野 (local receptive field) 的设计，CNN 在直接捕获图像中相距较远的像素之间的 长距离依赖 (long-range dependencies) 方面存在固有的挑战。虽然可以通过堆叠多层卷积、使用 空洞卷积 (dilated convolution) 或 池化 (pooling) 操作来扩大 感受野 (receptive field)，但这种方式仍然不如 自注意力机制 (self-attention mechanism) 在建模全局信息上那样直接和高效。

3.1.4. Transformer 模型 (Transformer Model)

Transformer 模型最初由 Google 在2017年提出，用于 自然语言处理 (Natural Language Processing, NLP) 任务，特别是 机器翻译 (machine translation)。它完全摒弃了 循环神经网络 (Recurrent Neural Networks, RNNs) 和 卷积神经网络 (CNNs)，转而完全依赖于 自注意力机制 (self-attention mechanism)。

自注意力机制 (Self-Attention Mechanism): 这是 Transformer 的核心组成部分。它允许模型在处理序列中的每个元素时，动态地权衡序列中所有其他元素的重要性。这意味着模型可以捕获序列中任意两个位置之间的依赖关系，无论它们在序列中相距多远。基本的 自注意力 (Self-Attention) 计算涉及三个关键向量：查询 (Query, Q)、键 (Key, K) 和 值 (Value, V)。对于输入序列中的每个元素，都会生成一个 Q、K 和 V。注意力权重是通过计算 Q 和 K 的点积 (dot product) 并通过 softmax 函数归一化得到的，然后这些权重被应用于 V 以产生最终的输出。 $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中 $d_k$ 是键向量的维度，用于缩放点积以防止梯度过大。
多头自注意力 (Multi-head Self-Attention, MSA): MSA 是 自注意力 (Self-Attention) 的扩展，它并行运行多个 自注意力 (Self-Attention) 机制（“头”），每个头学习不同的 查询 (Query)、键 (Key) 和 值 (Value) 投影。然后，这些头的输出被拼接 (concatenated) 起来并进行线性投影，以产生最终结果。MSA 允许模型在不同的 表示子空间 (representation subspaces) 中关注不同的信息，从而增强了模型的表达能力。
Transformer 在图像领域的挑战: 尽管 Transformer 在建模长距离依赖方面非常强大，但其 全局自注意力 (global self-attention) 机制的计算复杂度是输入序列长度（对于图像，即像素数量 $H \times W$ ）的平方。对于高分辨率图像，这会导致巨大的计算开销和内存需求，难以直接应用。例如，如果输入图像大小为 $H \times W$ ，通道数为 $C$ ，则标准 全局多头自注意力 (Global Multi-head Self-Attention, G-MSA) 的计算复杂度为 $\mathcal{O}((HW)^2 C)$ 。

3.1.5. 图像腐败 (Image Corruptions)

在低光照图像增强的背景下，图像腐败 (Image Corruptions) 是指那些降低图像质量和视觉效果的不良因素。论文中主要提及的 腐败 (corruptions) 包括：

噪声 (Noise): 在低光照环境下，为了捕捉足够的光线，相机通常会提高 ISO 感光度 (ISO sensitivity) 或延长 曝光时间 (exposure time)。这两种设置都极易引入 随机噪声 (random noise)，使图像出现颗粒感或不清晰。
伪影 (Artifacts): 指的是图像中不自然的、由数字处理或传感器限制引起的结构或图案。在低光照条件下，传感器性能不足或图像处理算法不当都可能产生伪影。
欠曝/过曝 (Under-/Over-exposure): 欠曝 (under-exposure) 是低光照图像的直接表现，图像整体过暗，细节丢失。但在提亮过程中，如果处理不当，亮部区域可能会变得 过曝 (over-exposure)，导致细节丢失和色彩饱和。
**色彩失真 (Color Distortion):低光照会影响颜色的准确性，导致图像出现偏色 (color casts)或色彩饱和度 (color saturation)` 不足。提亮过程也可能加剧这种失真。

3.2. 前人工作

3.2.1. 平面方法 (Plain Methods)

这类方法直接操作图像的像素值以增强亮度或对比度，但通常不考虑光照因素或图像内容。

直方图均衡化 (Histogram Equalization): 例如 [1, 8, 12, 40, 41]，通过重新分布图像的像素强度值来增强对比度。
伽马校正 (Gamma Correction, GC): 例如 [19, 42, 53]，通过非线性变换来调整图像的亮度响应。
缺点: 这些方法往往会产生不期望的 伪影 (artifacts)，因为它们没有考虑到图像的底层光照因素，使得增强后的图像在感知上与真实的正常光照场景不一致。

3.2.2. 传统认知方法 (Traditional Cognition Methods)

这类方法基于 Retinex 理论 (Retinex theory) [15, 23, 24, 29, 50]，将图像分解为 反射分量 (reflectance) 和 光照分量 (illumination)，并通常将反射分量视为增强结果。

代表工作: Guo 等人 [18] 提出了 LIME (Low-light Image Enhancement via Illumination Map Estimation)，通过对初始估计的光照图施加 结构先验 (structure prior) 来进行优化。
缺点: 这些方法通常 朴素地假设 (naively assume) 低光照图像是 无腐败的 (corruption-free)，这与真实的 欠曝 (under-exposed) 场景不符，导致增强结果中出现严重的 噪声 (noise) 和 色彩失真 (color distortion)。此外，它们依赖于 手工设计的先验 (hand-crafted priors)，通常需要仔细调整参数，并且 泛化能力 (generalization ability) 较差。

3.2.3. 深度学习方法 (Deep Learning Methods)

随着 深度学习 (deep learning) 的发展，CNN [16, 17, 22, 33, 35, 38, 45, 49, 61, 66, 68] 被广泛应用于低光照图像增强。

第一类：直接映射 CNN: 这类方法直接使用 CNN 学习从低光照图像到正常光照图像的 暴力映射函数 (brute-force mapping function)，例如 EnGAN [22]、LLNet [33]、MBLLEN [35]。
- 缺点: 它们忽略了人类的颜色感知，缺乏 可解释性 (interpretability)，也缺乏理论上可证明的特性。
第二类：基于 Retinex 的 CNN: 受 Retinex 理论 (Retinex theory) 启发，这类方法 [54, 65, 66] 试图将 Retinex 分解与深度学习结合。
- 代表工作: RetinexNet [54] 及其后续工作 [65, 66]。
- 缺点: 它们通常需要 多阶段训练流程 (multi-stage training pipeline)，使用多个 CNN 分别进行图像分解、反射分量去噪和光照调整。这些 CNN 通常先独立训练，再连接起来进行 端到端 (end-to-end) 微调 (fine-tuning)，过程繁琐耗时。
- 单阶段 Retinex-based CNN: Wang 等人 [49] 提出了 DeepUPE，它是一个 单阶段 (one-stage) 的基于 Retinex 的 CNN，直接预测 光照图 (illumination map)。
  - 缺点: DeepUPE 没有考虑 腐败因素 (corruption factors)，导致在提亮 欠曝 (under-exposed) 照片时 噪声 (noise) 和 色彩失真 (color distortion) 被放大。
CNN 的共同局限性: 无论哪种类型的 CNN 方法，都普遍存在难以有效捕获图像 长距离依赖 (long-range dependencies) 的问题。

3.2.4. Vision Transformer (视觉Transformer)

Transformer 模型 [46] 最初为 自然语言处理 (NLP) 而生。近年来，Transformer 及其变体 [2, 4, 14, 6, 11, 60, 20, 21, 64] 已被成功应用于多种 计算机视觉 (computer vision) 任务，并在 高级视觉 (high-level vision)（如图像分类 [2, 4, 14]、语义分割 [7, 55, 67]、目标检测 [3, 13, 62]）和 低级视觉 (low-level vision)（如图像恢复 [6, 11, 60]、图像合成 [20, 21, 64]）中取得了令人瞩目的成果。

CNN-Transformer 混合模型: 例如 Xu 等人 [57] 提出的 SNR-Net，一个 SNR (信噪比)-aware 的 CNN-Transformer 混合网络，用于低光照图像增强。
局限性: 由于 香草全局Transformer (vanilla global Transformer) 巨大的计算成本，SNR-Net 等方法通常只在 U型 CNN (U-shaped CNN) 的最低空间分辨率层使用单个全局 Transformer 层。这意味着 Transformer 在低光照图像增强中的潜力仍未被充分挖掘。

3.3. 技术演进

低光照图像增强技术的发展脉络可以概括为：

早期/平面方法: 直方图均衡化 (Histogram Equalization) 和 伽马校正 (Gamma Correction)，简单直接，但易产生 伪影 (artifacts)。
传统认知方法: 基于 Retinex 理论 (Retinex theory) 的方法，如 LIME，考虑了光照因素，但依赖于 手工设计的先验 (hand-crafted priors) 且对 腐败 (corruptions) 不敏感。
基于 CNN 的深度学习方法:
- 初期直接学习映射的 CNN，缺乏 可解释性 (interpretability)。
- 后续结合 Retinex 理论 (Retinex theory) 的 CNN，如 RetinexNet，但受限于 多阶段训练 (multi-stage training) 和 CNN 难以捕获 长距离依赖 (long-range dependencies) 的特性。
基于 Transformer 的深度学习方法 (当前趋势): 随着 Transformer 在视觉领域兴起，其捕获 长距离依赖 (long-range dependencies) 的能力被寄予厚望。但 Transformer 在图像任务中面临 计算复杂度 (computational complexity) 过高的挑战。本文的 Retinexformer 正是处于这一技术脉络的尖端，旨在结合 Retinex 理论 (Retinex theory) 的物理先验，同时利用 Transformer 的全局建模能力，并创新性地解决其计算效率问题，实现 单阶段 (one-stage) 且 腐败感知 (corruption-aware) 的增强。

3.4. 差异化分析

Retinexformer 与 相关工作 (related work) 的主要差异化体现在以下几个方面：

与基于 Retinex 的深度学习方法 (如 RetinexNet, KinD, DeepUPE) 的区别:
- 腐败建模: 大多数现有基于 Retinex 的深度学习方法主要关注反射分量去噪，通常忽略了光照估计误差 ( $\hat{\mathbf{L}}$ 扰动项) 导致的 欠曝 (under-/over-exposure) 和 色彩失真 (color distortion)。Retinexformer 通过引入 扰动项 (perturbation terms) 显式地将这些 腐败 (corruptions) 纳入模型，并通过专门的 污染恢复器 (corruption restorer) 进行处理。
- 训练流程: 现有方法多为 多阶段训练 (multi-stage training)，流程繁琐。Retinexformer 提出了 单阶段基于Retinex的框架 (ORF)，实现了 端到端 (end-to-end) 的 单阶段训练 (one-stage training)，大大简化了训练过程。
- 长距离依赖: 现有方法主要基于 CNN，在捕获 长距离依赖 (long-range dependencies) 方面表现受限。Retinexformer 引入 Transformer 来弥补这一不足。
与基于 CNN 的深度学习方法 (如 EnlightenGAN, DRBN) 的区别:
- 可解释性与物理先验: Retinexformer 基于 Retinex 理论 (Retinex theory) 的物理模型，具有更好的 可解释性 (interpretability)。而许多直接映射的 CNN 方法缺乏明确的物理依据。
- 全局建模能力: Retinexformer 通过 Transformer 机制更有效地建模了图像的 长距离依赖 (long-range dependencies)，这对于图像恢复任务中的全局一致性和细节纹理重建至关重要，而 CNN 在这方面存在固有劣势。
与基于 Transformer 的图像恢复方法 (如 IPT, Uformer, Restormer) 和混合方法 (如 SNR-Net) 的区别:
- 计算效率: Retinexformer 提出了 照明引导多头自注意力 (IG-MSA) 机制，将 自注意力 (self-attention) 的计算复杂度从平方级 $\mathcal{O}((HW)^2C)$ 降低到线性级 $\mathcal{O}(HWC^2/k)$ 。这使得 Transformer 可以被更广泛地应用于网络的每个基本单元中，充分发挥其潜力，而不是像 SNR-Net 那样仅限于最低分辨率层。
- 信息引导: Retinexformer 的 IG-MSA 利用 光照表示 (illumination representations) 来 引导 (direct) 自注意力 (self-attention) 的计算，特别关注不同光照区域间的 交互 (interactions)，这是一种针对低光照增强任务的 特定领域 (domain-specific) 优化，而其他通用的 Transformer 结构可能没有这种显式引导。

4. 方法论

4.1. 方法原理

Retinexformer 方法的核心思想是结合 Retinex 理论 (Retinex theory) 的物理模型和 Transformer 在捕获 长距离依赖 (long-range dependencies) 方面的优势，同时解决传统 Retinex 模型在处理 图像腐败 (corruptions) 上的不足以及 Transformer 在高分辨率图像上计算成本过高的问题。

其基本原理可以概括为：

修订 Retinex 模型以建模腐败: 认识到真实低光照图像并非纯粹的反射分量和光照分量的乘积，而是包含了各种 腐败 (corruptions)。因此，通过引入 扰动项 (perturbation terms) 来 重新形式化 (reformulate) 经典的 Retinex 模型，使其能够显式地考虑这些 腐败 (corruptions)。
单阶段处理流程: 设计一个 单阶段基于Retinex的框架 (ORF)，将图像增强过程分解为两个主要步骤：首先 估计 (estimate) 光照信息并 点亮 (light up) 图像，然后 恢复 (restore) 提亮过程中或原始图像中存在的 腐败 (corruptions)。整个框架可以 端到端 (end-to-end) 地进行 训练 (training)，避免了繁琐的 多阶段 (multi-stage) 训练。
照明引导的Transformer 架构: 针对 Transformer 模型的计算效率问题及其在低光照任务中的潜力，提出了 照明引导Transformer (IGT)。IGT 的核心在于其 照明引导多头自注意力 (IG-MSA) 机制，它利用 光照表示 (illumination representations) 作为 关键线索 (key clue) 来 引导 (direct) 自注意力 (self-attention) 的计算，从而高效且有针对性地建模不同光照区域间的 非局部交互 (non-local interactions) 和 长距离依赖 (long-range dependencies)。

4.2. 核心方法详解

Retinexformer 的整体架构如 Figure 2 (a) 所示，主要由两部分组成： $\text{光照估计器} (illumination estimator,$ \mathcal{E}) 和 $\text{污染恢复器} (corruption restorer,$ \mathcal{R})。光照估计器 负责初步提亮图像并生成 光照特征 (light-up feature)，污染恢复器 则是一个 照明引导Transformer (IGT)，用于去除图像中的各种 腐败 (corruptions)。

4.2.1. 单阶段基于Retinex的框架 (One-stage Retinex-based Framework, ORF)

根据经典的 Retinex 理论 (Retinex theory)，低光照图像 $\mathbf{I} \in \mathbb{R}^{H \times W \times 3}$ （高度 $H$ 、宽度 $W$ 、3个颜色通道）可以分解为 反射分量 (reflectance) $\mathbf{R} \in \mathbb{R}^{H \times W \times 3}$ 和 光照图 (illumination map) $\mathbf{L} \in \mathbb{R}^{H \times W}$ 的 逐元素乘积 (element-wise multiplication)： $\mathbf{I} = \mathbf{R} \odot \mathbf{L} \quad (1)$ 其中 $\odot$ 表示 逐元素乘法 (element-wise multiplication)。

作者指出，这个原始的 Retinex 模型假设图像 $\mathbf{I}$ 是 无腐败的 (corruption-free)，这与真实的 欠曝 (under-exposed) 场景不符。图像中的 腐败 (corruptions) 主要来源于两个因素：

拍摄过程中的腐败: 高 ISO 感光度 (ISO) 和长 曝光时间 (exposure) 会不可避免地引入 噪声 (noise) 和 伪影 (artifacts)。
提亮过程中的腐败: 图像提亮过程可能会放大原始 噪声 (noise) 和 伪影 (artifacts)，同时可能导致 欠曝 (under-exposure) / 过曝 (over-exposure) 和 色彩失真 (color distortion)。

为了建模这些 腐败 (corruptions)，作者通过引入 反射分量 (reflectance) 的 扰动项 (perturbation term) $\hat{\mathbf{R}} \in \mathbb{R}^{H \times W \times 3}$ 和 光照图 (illumination map) 的 扰动项 (perturbation term) $\hat{\mathbf{L}} \in \mathbb{R}^{H \times W}$ 来 重新形式化 (reformulate) 方程 (1)： $\mathbf{I} = (\mathbf{R} + \hat{\mathbf{R}}) \odot (\mathbf{L} + \hat{\mathbf{L}}) \quad (2)$ 展开后得到： $\mathbf{I} = \mathbf{R} \odot \mathbf{L} + \mathbf{R} \odot \hat{\mathbf{L}} + \hat{\mathbf{R}} \odot (\mathbf{L} + \hat{\mathbf{L}})$ 其中：

$\hat{\mathbf{R}}$ ：表示 反射分量 (reflectance) 中的 腐败 (corruptions)，主要是隐藏在暗处的 噪声 (noise) 和 伪影 (artifacts)。
$\hat{\mathbf{L}}$ ：表示 光照图 (illumination map) 中的 腐败 (corruptions)，例如估计误差。

类似于 [15, 18, 49]，作者将 反射分量 (reflectance) $\mathbf{R}$ 视为 曝光良好 (well-exposed) 的图像。为了 点亮 (light up) 低光照图像 $\mathbf{I}$ ，作者用一个 点亮图 (light-up map) $\bar{\mathbf{L}}$ 逐元素相乘 (element-wise multiply) 方程 (2) 的两边，使得 $\bar{\mathbf{L}} \odot \mathbf{L} = \mathbf{1}$ （其中 $\mathbf{1}$ 是所有元素均为1的张量）。 $\mathbf{I} \odot \bar{\mathbf{L}} = \mathbf{R} + \mathbf{R} \odot (\hat{\mathbf{L}} \odot \bar{\mathbf{L}}) + (\hat{\mathbf{R}} \odot (\mathbf{L} + \hat{\mathbf{L}})) \odot \bar{\mathbf{L}} \quad (3)$ 在这个方程中，腐败 (corruptions) 的组成项被明确：
$\hat{\mathbf{R}} \odot (\mathbf{L} + \hat{\mathbf{L}})$ 代表隐藏在暗场景中的 噪声 (noise) 和 伪影 (artifacts)，它们会被 $\bar{\mathbf{L}}$ 放大。
$\mathbf{R} \odot (\hat{\mathbf{L}} \odot \bar{\mathbf{L}})$ 表示由 点亮过程 (light-up process) 引起的 欠曝 (under-/over-exposure) 和 色彩失真 (color distortion)。

方程 (3) 可以简化为： $\mathbf{I}_{lu} = \mathbf{I} \odot \bar{\mathbf{L}} = \mathbf{R} + \mathbf{C} \quad (4)$ 其中 $\mathbf{I}_{lu} \in \mathbb{R}^{H \times W \times 3}$ 代表 点亮后的图像 (lit-up image)，而 $\mathbf{C} \in \mathbb{R}^{H \times W \times 3}$ 表示 整体腐败项 (overall corruption term)。

基于此，作者将 单阶段基于Retinex的框架 (ORF) 形式化 (formulate) 为： $(\mathbf{I}_{lu}, \mathbf{F}_{lu}) = \mathcal{E}(\mathbf{I}, \mathbf{L}_p), \quad \mathbf{I}_{en} = \mathcal{R}(\mathbf{I}_{lu}, \mathbf{F}_{lu}) \quad (5)$ 其中：

$\mathcal{E}$ 代表 光照估计器 (illumination estimator)。
$\mathcal{R}$ 代表 污染恢复器 (corruption restorer)。
$\mathcal{E}$ 以低光照图像 $\mathbf{I}$ 及其 光照先验图 (illumination prior map) $\mathbf{L}_p \in \mathbb{R}^{H \times W}$ 作为输入。光照先验图 $\mathbf{L}_p$ 是通过计算图像 $\mathbf{I}$ 沿通道维度 (channel dimension) 的像素均值得到的，即 $\mathbf{L}_p = \mathrm{mean}_c(\mathbf{I})$ 。
$\mathcal{E}$ 输出 点亮后的图像 (lit-up image) $\mathbf{I}_{lu}$ 和 光照特征 (light-up feature) $\mathbf{F}_{lu} \in \mathbb{R}^{H \times W \times C}$ 。
随后， $\mathbf{I}_{lu}$ 和 $\mathbf{F}_{lu}$ 被送入 污染恢复器 (corruption restorer) $\mathcal{R}$ 以 恢复 (restore) 腐败 (corruptions)，并生成 增强后的图像 (enhanced image) $\mathbf{I}_{en} \in \mathbb{R}^{H \times W \times 3}$ 。

光照估计器 ( $\mathcal{E}$ ) 的架构 (Figure 2 (a) (i))：

首先使用一个 1x1 卷积 (conv1x1) 将 $\mathbf{I}$ 和 $\mathbf{L}_p$ 的 拼接 (concatenation) 进行融合。
为了建模不同光照条件下区域的 交互 (interactions)（因为 曝光良好 (well-exposed) 区域可以为 欠曝 (under-exposed) 区域提供语义上下文信息），接着使用一个 深度可分离 5x5 卷积 (depth-wise separable conv5x5) 来生成 光照特征 (light-up feature) $\mathbf{F}_{lu}$ 。
然后， $\mathcal{E}$ 使用另一个 1x1 卷积 (conv1x1) 从 $\mathbf{F}_{lu}$ 中聚合信息，生成 点亮图 (light-up map) $\bar{\mathbf{L}} \in \mathbb{R}^{H \times W \times 3}$ 。作者选择将 $\bar{\mathbf{L}}$ 设计为三通道 RGB 张量 (tensor)，而非像 [15, 18] 那样的单通道，以提高其在模拟 RGB 通道间 非线性关系 (nonlinearity) 和 颜色增强 (color enhancement) 方面的 表示能力 (representation capacity)。
最终，点亮图 (light-up map) $\bar{\mathbf{L}}$ 被用于根据方程 (3) 点亮 (light up) 原始图像 $\mathbf{I}$ ，生成 $\mathbf{I}_{lu}$ 。

讨论：

为何估计 $\bar{\mathbf{L}}$ 而非 $\mathbf{L}$ : 区别于传统基于 Retinex 的深度学习方法 [30, 49, 54, 65, 66] 估计 光照图 (illumination map) $\mathbf{L}$ 。如果估计 $\mathbf{L}$ ，则 点亮后的图像 (lit-up image) 将通过 逐元素除法 (element-wise division) $(\mathbf{I} ./ \mathbf{L})$ 获得。这种操作对计算机来说非常脆弱，因为 张量 (tensor) 的值可能非常小（甚至为0），除法容易导致 数据溢出 (data overflow)。此外，计算机随机生成的小误差也会被此操作放大，导致 不准确的估计 (inaccurate estimation)。因此，建模 (modeling) $\bar{\mathbf{L}}$ 更加 鲁棒 (robust)。
对腐败的全面考虑: 之前的基于 Retinex 的深度学习方法主要关注抑制 反射分量 (reflectance) 上的 噪声 (noise) 等 腐败 (corruptions)（即方程 (2) 中的 $\hat{\mathbf{R}}$ ）。它们忽视了 光照图 (illumination map) 上的 估计误差 (estimation error)（即方程 (2) 中的 $\hat{\mathbf{L}}$ ），这容易在 点亮过程 (light up process) 中导致 欠曝 (under-/over-exposure) 和 色彩失真 (color distortion)。相比之下，ORF 考虑了所有这些 腐败 (corruptions)，并利用 污染恢复器 (corruption restorer) $\mathcal{R}$ 来 恢复 (restore) 它们。

4.2.2. 照明引导Transformer (Illumination-Guided Transformer, IGT)

为了解决传统深度学习方法（主要依赖 CNNs）在捕获 长距离依赖 (long-range dependencies) 方面的局限性，以及 Transformer 模型 全局多头自注意力 (G-MSA) 巨大的计算成本问题，作者设计了 照明引导Transformer (IGT) 来扮演 污染恢复器 (corruption restorer) $\mathcal{R}$ 的角色。

网络结构 (Figure 2 (a) (ii))： IGT 采用了 U型架构 (U-shaped architecture) [44]，具有三个尺度 (three-scale)。

输入: IGT 的输入是 点亮后的图像 (lit-up image) $\mathbf{I}_{lu}$ 。
下采样分支 (Downsampling branch):
1. $\mathbf{I}_{lu}$ 首先经过一个 3x3 卷积 (conv3x3)。
2. 然后是一个 照明引导注意力块 (Illumination-Guided Attention Block, IGAB)。
3. 接着是一个 步长为4x4 的卷积 (strided conv4x4) 进行特征下采样。
4. 再经过两个 IGAB。
5. 最后再次通过一个 步长为4x4 的卷积 (strided conv4x4)，生成 层次化特征 (hierarchical features) $\mathbf{F}_i \in \mathbb{R}^{\frac{H}{2^i} \times \frac{W}{2^i} \times 2^i C}$ ，其中 $i = 0, 1, 2$ 代表不同的尺度。
6. 最深层的特征 $\mathbf{F}_2$ 会再经过两个 IGAB。
上采样分支 (Upsampling branch):
1. 采用 对称结构 (symmetrical structure)。
2. 利用 步长为2 的反卷积 (deconv2x2 with stride=2) 上采样 (upscale) 特征。
3. 使用 跳跃连接 (skip connections) 来缓解 下采样分支 (downsampling branch) 造成的信息损失。
输出: 上采样分支 (upsampling branch) 输出一个 残差图像 (residual image) $\mathbf{I}_{re} \in \mathbb{R}^{H \times W \times 3}$ 。
最终增强图像: 最终的 增强图像 (enhanced image) $\mathbf{I}_{en}$ 是由 点亮后的图像 (lit-up image) $\mathbf{I}_{lu}$ 和 残差图像 (residual image) $\mathbf{I}_{re}$ 之和得到的，即 $\mathbf{I}_{en} = \mathbf{I}_{lu} + \mathbf{I}_{re}$ 。

照明引导注意力块 (IGAB) 是 IGT 的基本单元，其结构如 Figure 2 (b) 所示，由两个 层归一化 (layer normalization, LN)、一个 照明引导多头自注意力 (IG-MSA) 模块和一个 前馈网络 (feed-forward network, FFN) 组成。

照明引导多头自注意力 (Illumination-Guided Multi-head Self-Attention, IG-MSA) (Figure 2 (c))： IG-MSA 是 Retinexformer 的关键创新。它解决了 Transformer 在高分辨率图像上的计算成本问题，同时利用 光照信息 (illumination information) 引导 (guide) 自注意力 (self-attention) 的计算。

输入: 光照估计器 (illumination estimator) $\mathcal{E}$ 估计出的 光照特征 (light-up feature) $\mathbf{F}_{lu} \in \mathbb{R}^{H \times W \times C}$ 被送入 IGT 的每个 IG-MSA 模块。对于较小的尺度，conv4x4 层（步长为2）用于对 $\mathbf{F}_{lu}$ 进行下采样，使其空间尺寸与当前尺度匹配。
特征重塑与分头: 首先，输入特征 $\mathbf{F}_{in} \in \mathbb{R}^{H \times W \times C}$ 被 重塑 (reshaped) 为 令牌 (tokens) $\mathbf{X} \in \mathbb{R}^{HW \times C}$ 。然后 $\mathbf{X}$ 被分成 $k$ 个 头 (heads)： $\mathbf{X} = [\mathbf{X}_1, \mathbf{X}_2, \dots, \mathbf{X}_k] \quad (6)$ 其中 $\mathbf{X}_i \in \mathbb{R}^{HW \times d_k}$ ， $d_k = C/k$ ，且 $i = 1, 2, \dots, k$ 。Figure 2 (c) 描绘了 $k=1$ 的简化情况。
查询、键、值投影: 对于每个 头 (head) $i$ ，使用三个 无偏置全连接层 (fully connected, fc layers without bias) 将 $\mathbf{X}_i$ 线性投影 (linearly project) 到 查询元素 (query elements) $\mathbf{Q}_i \in \mathbb{R}^{HW \times d_k}$ 、键元素 (key elements) $\mathbf{K}_i \in \mathbb{R}^{HW \times d_k}$ 和 值元素 (value elements) $\mathbf{V}_i \in \mathbb{R}^{HW \times d_k}$ ： $\mathbf{Q}_i = \mathbf{X}_i \mathbf{W}_{\mathbf{Q}_i}^\mathrm{T}, \quad \mathbf{K}_i = \mathbf{X}_i \mathbf{W}_{\mathbf{K}_i}^\mathrm{T}, \quad \mathbf{V}_i = \mathbf{X}_i \mathbf{W}_{\mathbf{V}_i}^\mathrm{T} \quad (7)$ 其中 $\mathbf{W}_{\mathbf{Q}_i}, \mathbf{W}_{\mathbf{K}_i}, \mathbf{W}_{\mathbf{V}_i} \in \mathbb{R}^{d_k \times d_k}$ 是 全连接层 (fc layers) 的 可学习参数 (learnable parameters)， $\mathrm{T}$ 表示 矩阵转置 (matrix transpose)。
照明引导: 作者观察到图像中不同区域的光照条件可能不同，暗区通常 腐败 (corruptions) 更严重，更难恢复，而光照较好的区域可以提供语义上下文信息来帮助增强暗区。因此，使用编码 光照信息 (illumination information) 和不同光照区域间 交互 (interactions) 的 光照特征 (light-up feature) $\mathbf{F}_{lu}$ 来 引导 (direct) 自注意力 (self-attention) 的计算。为了与 $\mathbf{X}$ 的形状对齐， $\mathbf{F}_{lu}$ 也被 重塑 (reshaped) 为 $\mathbf{Y} \in \mathbb{R}^{HW \times C}$ 并分成 $k$ 个 头 (heads)： $\mathbf{Y} = [\mathbf{Y}_1, \mathbf{Y}_2, \dots, \mathbf{Y}_k] \quad (8)$ 其中 $\mathbf{Y}_i \in \mathbb{R}^{HW \times d_k}$ 。
自注意力计算: 然后，每个 头 (head) $i$ 的 自注意力 (self-attention) 计算 形式化 (formulated) 为： $\operatorname{Attention}(\mathbf{Q}_i, \mathbf{K}_i, \mathbf{V}_i, \mathbf{Y}_i) = (\mathbf{Y}_i \odot \mathbf{V}_i) \operatorname{softmax}\left(\frac{\mathbf{K}_i^\mathrm{T} \mathbf{Q}_i}{\alpha_i}\right) \quad (9)$ 这个公式是 IG-MSA 的核心。与标准 自注意力 (self-attention) 机制不同的是，值元素 (value elements) $\mathbf{V}_i$ 首先与 照明引导特征 (illumination-guided feature) $\mathbf{Y}_i$ 进行 逐元素乘法 (element-wise multiplication) $\mathbf{Y}_i \odot \mathbf{V}_i$ 。这意味着 光照信息 (illumination information) 显式地 调制 (modulates) 了 值 (Value) 向量，从而 引导 (direct) 自注意力 (self-attention) 关注对图像增强更重要的信息区域。其中 $\alpha_i \in \mathbb{R}^1$ 是一个 可学习参数 (learnable parameter)，用于 自适应地 (adaptively) 缩放 矩阵乘法 (matrix multiplication) 的结果。
输出: 随后， $k$ 个 头 (heads) 的输出被 拼接 (concatenated) 起来，并通过一个 全连接层 (fc layer)，然后加上 位置编码 (positional encoding) $\mathbf{P} \in \mathbb{R}^{HW \times C}$ （可学习参数 (learnable parameters)），以生成输出 令牌 (tokens) $\mathbf{X}_{out} \in \mathbb{R}^{HW \times C}$ 。最后， $\mathbf{X}_{out}$ 被 重塑 (reshaped) 回原来的特征图形式 $\mathbf{F}_{out} \in \mathbb{R}^{H \times W \times C}$ 。

复杂度分析 (Complexity Analysis): 作者分析了 IG-MSA 的计算复杂度。主要计算成本来自方程 (9) 中的两个 矩阵乘法 (matrix multiplication)： $\mathbb{R}^{d_k \times HW} \times \mathbb{R}^{HW \times d_k}$ 和 $\mathbb{R}^{HW \times d_k} \times \mathbb{R}^{d_k \times d_k}$ 。由于有 $k$ 个 头 (heads)，因此 IG-MSA 的复杂度 $\mathcal{O}(\text{IG-MSA})$ 可以 形式化 (formulated) 为： $\mathcal{O}(\operatorname{IG-MSA}) = k \cdot [d_k \cdot (d_k \cdot HW) + HW \cdot (d_k \cdot d_k)]$ $= 2HWkd_k^2 = 2HWk \left(\frac{C}{k}\right)^2 = \frac{2HWC^2}{k} \quad (10)$ 其中 H, W 是空间尺寸， $C$ 是通道数， $k$ 是 头 (head) 的数量。相比之下，一些现有 CNN-Transformer 方法（如 SNR-Net）使用的 全局多头自注意力 (Global Multi-head Self-Attention, G-MSA) 的复杂度为： $\mathcal{O}(\mathrm{G-MSA}) = 2(HW)^2C \quad (11)$ 通过比较方程 (10) 和 (11) 可以看出：

G-MSA 的复杂度与输入空间尺寸 (HW) 的平方成正比，即 $\mathcal{O}((HW)^2C)$ 。这导致其计算负担巨大，限制了 Transformer 在低光照图像增强中的应用。
IG-MSA 的复杂度与空间尺寸 (HW) 呈线性关系，即 $\mathcal{O}(HWC^2/k)$ 。这种显著降低的计算复杂度使得 IG-MSA 可以被嵌入到网络中的每个基本单元 IGAB 中，从而更充分地发挥 Transformer 在低光照图像增强中的潜力。

5. 实验设置

5.1. 数据集

为了全面评估 Retinexformer，研究人员在多个广泛使用的低光照图像增强基准数据集上进行了实验。

5.1.1. 有 `真值 (Ground Truth)` 的数据集

LOL (Low-Light) 数据集:
- 包含 v1 和 v2 两个版本。
- LOL-v1: 训练集与测试集比例为 485:15。
- LOL-v2: 分为 真实 (real) 和 合成 (synthetic) 子集。
  - LOL-v2-real: 训练集与测试集比例为 689:100。
  - LOL-v2-synthetic: 训练集与测试集比例为 900:100。
SID (See-in-the-Dark) 数据集 [9]:
- 使用 Sony $\alpha7S$ II 相机捕获。
- 包含 2697 对短曝光/长曝光的 RAW 图像 (RAW image)。
- 低光照/正常光照的 RGB 图像通过 SID [9] 中相同的 相机内信号处理 (in-camera signal processing) 从 RAW 转换而来。
- 2099 对图像用于训练，598 对用于测试。
SMID (Synthetic Multi-Exposure Image Dataset) 数据集 [10]:
- 包含 20809 对短曝光/长曝光的 RAW 图像 (RAW image)。
- 同样将 RAW 数据转换为低光照/正常光照的 RGB 图像对。
- 15763 对图像用于训练，其余用于测试。
SDSD (Seeing Dynamic Scene in the Dark) 数据集 [48]:
- 采用静态版本。
- 由 Canon EOS 6D Mark II 相机配合 ND 滤镜 (ND filter) 捕获。
- 包含室内 (indoor) 和室外 (outdoor) 子集。
- SDSD-indoor: 训练集与测试集分别使用 62:6 对低光照/正常光照视频帧。
- SDSD-outdoor: 训练集与测试集分别使用 116:10 对低光照/正常光照视频帧。
FiveK (MIT-Adobe FiveK) 数据集 [5]:
- 分为训练集和测试集，分别包含 4500 和 500 对低光照/正常光照图像。
- 这些图像由五位专业摄影师 ( $A$ ~ $E$ ) 手动调整。
- 实验使用专家 $C$ 调整的图像作为 参考 (reference)，并采用 sRGB 输出模式 (sRGB output mode)。

5.1.2. 无 `真值 (Ground Truth)` 的数据集

为了进一步评估 Retinexformer 的 泛化能力 (generalization ability) 和在真实世界场景中的表现，还在以下五个没有 真值 (Ground Truth) 的数据集上进行了测试：

LIME [18]
NPE [50]
MEF [36]
DICM [28]
VV [47]

5.1.3. 用于低光照 `目标检测 (Object Detection)` 的数据集

ExDark 数据集 [32]:
- 用于比较不同增强算法对 高级视觉理解 (high-level vision understanding)（如 目标检测 (object detection)）的 预处理效果 (preprocessing effects)。
- 包含 7363 张 欠曝 (under-exposed) 图像，标注有 12 个 物体类别 (object category) 的 边界框 (bounding boxes)。
- 5890 张图像用于训练，1473 张用于测试。

5.2. 评估指标

论文中使用了多种评估指标来全面衡量模型在图像增强和目标检测任务上的性能。

5.2.1. 图像质量评估指标

峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)
- 概念定义: PSNR 是一种广泛用于衡量图像增强或压缩后图像质量的客观指标。它量化了处理后图像相对于原始图像的失真程度。PSNR 值越高，表示图像失真越小，处理后的图像质量越好，越接近 真值 (Ground Truth)。它基于像素的亮度差异，对误差比较敏感。
- 数学公式: $\text{PSNR} = 10 \log_{10} \left( \frac{MAX_I^2}{\text{MSE}} \right)$
- 符号解释:
  - $MAX_I$ : 图像中像素可能的最大值。对于8位图像（每个颜色通道有256个亮度级别）， $MAX_I = 2^8 - 1 = 255$ 。
  - $\text{MSE}$ $MSE$ : 均方误差 (Mean Squared Error)，表示原始图像和处理后图像之间像素值差异的平方的平均值。 $\text{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i, j) - K(i, j)]^2$
    - I(i, j): 原始图像在坐标 (i, j) 处的像素值。
    - K(i, j): 处理后图像在坐标 (i, j) 处的像素值。
    - m, n: 图像的行数和列数。
结构相似性 (Structural Similarity Index Measure, SSIM)
- 概念定义: SSIM 是一种更符合人类视觉感知 (human visual perception) 的图像质量评估指标。它从三个方面衡量两幅图像的相似度：亮度 (luminance)、对比度 (contrast) 和 结构 (structure)。SSIM 值通常介于 -1 和 1 之间，值越接近 1，表示两幅图像越相似，图像质量越好。它比 PSNR 更能反映人眼对图像变化的感知。
- 数学公式: $\text{SSIM}(x, y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)}$
- 符号解释:
  - x, y: 待比较的两幅图像的图像块。通常，SSIM 是在图像的局部窗口上计算的，然后取平均值。
  - $\mu_x$ : 图像块 $x$ 的平均像素值。
  - $\mu_y$ : 图像块 $y$ 的平均像素值。
  - $\sigma_x^2$ : 图像块 $x$ 的方差。
  - $\sigma_y^2$ : 图像块 $y$ 的方差。
  - $\sigma_{xy}$ : 图像块 $x$ 和 $y$ 的协方差。
  - $c_1 = (K_1L)^2$ , $c_2 = (K_2L)^2$ : 用来避免分母为零的常数，其中 $K_1, K_2$ 是非常小的常数（通常取 $K_1=0.01, K_2=0.03$ ）， $L$ 是像素值的动态范围（对于8位灰度图像， $L=255$ ）。

5.2.2. 目标检测评估指标

平均精度 (Average Precision, AP)
- 概念定义: AP 是在 目标检测 (object detection) 任务中评估模型性能的关键指标。它通过计算 精确率-召回率曲线 (Precision-Recall curve) 下方的面积来衡量模型在检测特定类别时的性能。AP 值越高，表示模型在召回率和精确率之间取得了更好的平衡，检测性能越好。对于多类别检测，通常会计算 平均平均精度 (mean Average Precision, mAP)，即所有类别的 AP 的平均值。
- 数学公式: $\text{AP} = \sum_{n} (R_n - R_{n-1}) P_n$ 或者更直观地，作为精确率-召回率曲线的积分： $\text{AP} = \int_{0}^{1} p(r) dr$
- 符号解释:
  - p(r): 精确率-召回率曲线，表示在召回率 $r$ 下的精确率。
  - $R_n$ : 第 $n$ 个独特 召回率 (recall) 值。
  - $R_{n-1}$ : 第 n-1 个独特 召回率 (recall) 值。
  - $P_n$ : 在召回率 $R_n$ 下的最大 精确率 (precision)。
  - 精确率 (Precision): 模型正确识别出的正样本数量占所有被模型识别为正样本数量的比例。
  - 召回率 (Recall): 模型正确识别出的正样本数量占所有实际正样本数量的比例。

5.3. 对比基线

为了全面展示 Retinexformer 的性能，论文将其与多种 最先进的 (SOTA) 低光照图像增强算法进行了比较，这些基线模型代表了该领域不同类型的方法和最新的进展：

基于 CNN 的方法 (CNN-based methods):
- SID [9]：可能指的是基于 SID 数据集训练的早期深度学习方法。
- 3DLUT [63]：基于 3D查找表 (3D lookup table) 的方法，用于图像增强。
- DeepUPE [49]：基于 Retinex 理论的 单阶段 (one-stage) CNN，预测光照图。
- RF [26]：强化学习 (Reinforcement Learning) 控制图像编辑软件的方法。
- DeepLPF [38]：深度局部参数滤波器 (Deep Local Parametric Filters)。
- RetinexNet [54]：经典的基于 Retinex 理论的 多阶段 (multi-stage) CNN。
- Sparse [59]：稀疏梯度正则化 (Sparse Gradient Regularized) 的深度 Retinex 网络。
- EnGAN [22]：无监督 (unsupervised) 的低光照增强网络。
- RAS [30]：Retinex 启发 (Retinex-inspired) 的 合作先验架构搜索 (cooperative prior architecture search) 方法。
- FIDE [56]：基于分解和增强的低光照图像恢复。
- DRBN [58]：带表示 (Band Representation) 的半监督低光照图像增强。
- KinD [66]：点燃黑暗 (Kindling the Darkness)，一个实用的低光照图像增强器。
- MIRNet [61]：用于真实图像恢复和增强的 丰富特征学习 (Learning Enriched Features)。
- ZeroDCE [17]：零参考 (Zero-Reference) 的低光照增强，无需配对数据。
- SCI [37]：针对快速、灵活、鲁棒的低光照图像增强。
基于 Transformer 或混合方法 (Transformer-based or Hybrid methods):
- IPT [11]：预训练图像处理Transformer (Pre-trained Image Processing Transformer)。
- UFormer [52]：通用的 U型 Transformer (U-shaped Transformer)。
- Restormer [60]：用于高分辨率图像恢复的高效 Transformer。
- SNR-Net [57]：SNR (信噪比)-aware 的低光照图像增强 CNN-Transformer 混合网络。
  
  这些基线模型涵盖了从传统 CNN 到最新的 Transformer 架构，以及 Retinex 理论在深度学习中的不同应用方式，确保了 Retinexformer 性能评估的全面性和说服力。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定量结果 (Quantitative Results)

论文在多个基准数据集上对 Retinexformer 进行了全面的定量评估，并将其与各种 最先进的 (SOTA) 方法进行了比较。结果如 Table 1 和 Table 2 所示。

以下是原文 Table 1 的结果：

0.905

Methods	Complexity		LOL-v1		LOL-v2-real		LOL-v2-syn		SID		SMID		SDSD-in		SDSD-out
Methods	FLOPS (G)	Params (M)	PSNR	SSIM	PSNR	SSIM	PSNR	SSIM	PSNR	SSIM	PSNR	SSIM	PSNR	SSIM	PSNR	SSIM
SID [9]	13.73	7.76	14.35	0.436	13.24	0.442	15.04	0.610	16.97	0.591	24.78	0.718	23.29	0.703	24.90	0.693
3DLUT [63]	0.075	0.59	14.35	0.445	17.59	0.721	18.04	0.800	20.11	0.592	23.86	0.678	21.66	0.655	21.89	0.649
DeepUPE [49]	21.10	1.02	14.38	0.446	13.27	0.452	15.08	0.623	17.01	0.604	23.91	0.690	21.70	0.662	21.94	0.698
RF [26]	46.23	21.54	15.23	0.452	14.05	0.458	15.97	0.632	16.44	0.596	23.11	0.681	20.97	0.655	21.21	0.689
DeepLPF [38]	5.86	1.77	15.28	0.473	14.10	0.480	16.02	0.587	18.07	0.600	24.36	0.688	22.21	0.664	22.76	0.658
IPT [11]	6887	115.31	16.27	0.504	19.80	0.813	18.30	0.811	20.53	0.561	27.03	0.783	26.11	0.831	27.55	0.850
UFormer [52]	12.00	5.29	16.36	0.771	18.82	0.771	19.66	0.871	18.54	0.577	27.20	0.792	23.17	0.859	23.85	0.748
RetinexNet [54]	587.47	0.84	16.77	0.560	15.47	0.567	17.13	0.798	16.48	0.578	22.83	0.684	20.84	0.617	20.96	0.629
Sparse [59]	53.26	2.33	17.20	0.640	20.06	0.816	22.05	18.68	0.606	25.48	0.766	23.25	0.863	25.28	0.804
EnGAN [22]	61.01	114.35	17.48	0.650	18.23	0.617	16.57	0.734	17.23	0.543	22.62	0.674	20.02	0.604	20.10	0.616
RAS [30]	0.83	0.003	18.23	0.720	18.37	0.723	16.55	0.652	18.44	0.581	25.88	0.744	23.17	0.696	23.84	0.743
FIDE [56]	28.51	8.62	18.27	0.665	16.85	0.678	15.20	0.612	18.34	0.578	24.42	0.692	22.41	0.659	22.20	0.629
DRBN [58]	48.61	5.27	20.13	0.830	20.29	0.831	23.22	0.927	19.02	0.577	26.60	0.781	24.08	0.868	25.77	0.841
KinD [66]	34.99	8.02	20.86	0.790	14.74	0.641	13.29	0.578	18.02	0.583	22.18	0.634	21.95	0.672	21.97	0.654
Restormer [60]	144.25	26.13	22.43	0.823	19.94	0.827	21.41	0.830	22.27	0.649	26.97	0.758	25.67	0.827	24.79	0.802
MIRNet [61]	785	31.76	24.14	0.830	20.02	0.820	21.94	0.876	20.84	0.605	25.66	0.762	24.38	0.864	27.13	0.837
SNR-Net [57]	26.35	4.01	24.61	0.842	21.48	0.849	24.14	0.928	22.87	0.625	28.49	0.805	29.44	0.894	28.66	0.866
Retinexformer	15.57	1.61	25.16	0.845	22.80	0.840	25.67	0.930	24.44	0.680	29.15	0.815	29.77	0.896	29.84	0.877

以下是原文 Table 2 的结果：

Methods	DeepUPE [49]	MIRNet [61]	SNR-Net [57]	Restormer [60]	Ours
PSNR (dB)	23.04	23.73	23.81	24.13	24.94
FLOPS (G)	21.10	785.0	26.35	144.3	15.57

分析：

整体优势: Retinexformer 在八个数据集（LOL-v1、LOL-v2-real、LOL-v2-synthetic、SID、SMID、SDSD-indoor、SDSD-outdoor 和 FiveK）上显著优于 最先进的 (SOTA) 方法，同时保持了适中的计算和内存成本。
与 SNR-Net 比较: 相比目前最佳方法 SNR-Net，Retinexformer 在 LOL-v1、LOL-v2-real、LOL-v2-synthetic、SID、SMID、SDSD-indoor、SDSD-outdoor 和 FiveK 数据集上分别取得了 0.55、1.32、1.53、1.57、0.66、0.33、1.18 和 1.13 dB 的 PSNR 提升。然而，Retinexformer 的 参数量 (Params) 仅为 SNR-Net 的 40% (1.61/4.01 M)，浮点运算次数 (FLOPS) 仅为 59% (15.57/26.35 G)。这表明 Retinexformer 在效率和效果上都具有显著优势。
与基于 Retinex 的深度学习方法比较: 相比 DeepUPE [49]、RetinexNet [54]、RUAS [30] 和 KinD [66] 等 SOTA 基于 Retinex 的深度学习方法，Retinexformer 在 Table 1 中的七个基准测试中取得了 4.30 到 8.54 dB 的显著 PSNR 提升。特别是在 SID 和 SDSD 等受 噪声 (noise) 和 伪影 (artifacts) 严重影响的数据集上，提升超过 6 dB (如 Figure 1 所示)，这验证了 Retinexformer 对 腐败 (corruptions) 的有效处理能力。
与基于 Transformer 的图像恢复算法比较: 相比 IPT [11]、UFormer [52] 和 Restormer [60] 等 SOTA Transformer 图像恢复算法，Retinexformer 在 Table 1 的七个数据集上获得了 1.95 到 4.26 dB 的 PSNR 提升。同时，Retinexformer 仅需要 IPT 和 Restormer 参数量的 1.4% 和 6.2%，FLOPS 的 0.2% 和 10.9%。这证明了 Retinexformer 在效率上的巨大优势，克服了通用 Transformer 计算成本过高的问题。

所有这些结果都清晰地表明了 Retinexformer 卓越的有效性和效率优势。

6.1.2. 定性结果 (Qualitative Results)

Figure 3, 4, 5, 7 展示了 Retinexformer 与 SOTA 算法的视觉比较。

以下是原文 Figure 3 的内容：

该图像是一个对比图，展示了低光照图像增强技术的效果，包含输入图像、多个算法（RUAS、KinD、Restormer、MIRNet、SNR-Net、Retinexformer）生成的结果，以及真实增强效果（Ground Truth）。每行展示不同图像的增强效果，最后一行为真实效果对比。

图 3 展示了在 LOL-v2-real 数据集上的视觉对比。

RUAS 产生了明显的色彩失真，例如天空的蓝色被不自然地增强。
KinD 图像整体偏暗，未能充分提亮。
Restormer 和 MIRNet 图像整体亮度有所提升，但细节不够清晰，可能存在轻微模糊。
SNR-Net 效果较好，但在某些区域仍可能存在细节丢失。
Retinexformer 生成的图像亮度适中，色彩自然，细节清晰，与 真值 (Ground Truth) 最为接近。

以下是原文 Figure 4 的内容：

该图像是一个对比图，展示了低光照图像增强的不同算法效果。上方展示了输入图像和多种算法（包括RetinexNet、DeepUPE、Restormer、SNR-Net、Retinexformer）的输出，下方是相应的小图。右下角为真实场景的图片作为对照。

图 4 展示了在 SID 数据集上的视觉对比。

RetinexNet 和 DeepUPE 明显存在过曝、欠曝区域，且未能有效抑制噪声，使得图像看起来粗糙且细节丢失。
Restormer 和 SNR-Net 图像显得有些模糊，细节不够锐利。
Retinexformer 能够有效地增强低光照区域的能见度和对比度，同时可靠地去除噪声，避免了过曝或模糊，并鲁棒地保留了颜色。

以下是原文 Figure 5 的内容：

该图像是比较不同低光照图像增强算法的示意图，上方展示了输入图像及各算法的输出，包括EnlightenGAN、DRBN、IPT、SNR-Net、Retinexformer和Ground Truth，突出显示了算法的效果差异。

图 5 展示了在 SMID 数据集上的视觉对比。

EnlightenGAN 和 DRBN 在图像中引入了黑色斑点或不自然的伪影。
IPT 存在一定的噪声。
SNR-Net 尽管效果不错，但在某些区域仍有轻微伪影。
Retinexformer 在去除噪声和伪影方面表现出色，同时保持了图像的自然度和细节。

以下是原文 Figure 7 的内容：

该图像是插图，展示了多个低光照图像的增强效果对比，包括多个算法的结果如LIME、ZeroDCE、Retinexformer等。图像清晰地展示了不同算法在视觉表现上的差异，特别突出Retinexformer在低光照条件下的优越性。

图 7 展示了在 LIME、NPE、MEF、DICM 和 VV 等无 真值 (Ground Truth) 数据集上的视觉对比。

LIME 和 ZeroDCE 等方法在某些场景下可能会产生不自然的增强效果，如过亮或色彩失真。
Retinexformer 在这些真实场景下也表现出一致的优越性，能够生成高质量、自然且无伪影的增强图像。这尤其具有说服力，因为它证明了 Retinexformer 在未知 真值 (Ground Truth) 的真实世界图像上的 泛化能力 (generalization ability)。

总的来说，Retinexformer 能够有效地增强低光照区域的 能见度 (visibility) 和 对比度 (contrast)，可靠地去除 噪声 (noise) 和 伪影 (artifacts) 而不引入黑斑，并稳健地保留颜色。

6.1.3. 用户研究评分 (User Study Score)

为了量化人类对增强图像的 主观视觉感知质量 (subjective visual perception quality)，研究人员进行了一项用户研究。

以下是原文 Table 3a 的内容：

Methods	L-v1	L-v2-R	L-v2-S	SID	SMID	SD-in	SD-out	Mean
EnGAN [22]	2.43	1.39	2.13	1.04	2.78	1.83	1.87	1.92
RetinexNet [54]	2.17	1.91	1.13	1.09	2.35	3.96	3.74	2.34
DRBN [58]	2.70	2.26	3.65	1.96	2.22	2.78	2.91	2.64
FIFDE [56]	2.87	2.52	3.48	2.22	2.57	3.04	2.96	2.81
KinD [66]	2.65	2.48	3.17	1.87	3.04	3.43	3.39	2.86
MIRNet [61]	2.96	3.57	3.61	2.35	2.09	2.91	3.09	2.94
Restormer [60]	3.04	3.48	3.39	2.43	3.17	2.48	2.70	2.96
UAS [30]	3.83	3.22	2.74	2.26	3.48	3.39	3.04	3.14
SNR-Net [57]	3.13	3.83	3.57	3.04	3.30	2.74	3.17	3.25
Retinexformer	3.61	4.17	3.78	3.39	3.87	3.65	3.91	3.77

分析：

研究设置: 23 名受试者被邀请独立评分来自七个数据集的增强结果，评分范围从 1（最差）到 5（最佳）。评分标准包括：(i) 是否包含 欠曝 (under-/over-exposed) 区域，(ii) 是否包含 色彩失真 (color distortion)，(iii) 是否被 噪声 (noise) 或 伪影 (artifacts) 破坏。
结果: Retinexformer 平均得分最高 (3.77)。在 LOL-v2-real (L-v2-R)、LOL-v2-synthetic (L-v2-S)、SID、SMID 和 SDSD-outdoor (SD-out) 数据集上，Retinexformer 的结果最受人类喜爱。在 LOL-v1 (L-v1) 和 SDSD-indoor (SD-in) 数据集上，也位居第二。这表明 Retinexformer 不仅在客观指标上表现出色，在人类视觉感知上同样具有卓越的质量。

6.1.4. 低光照目标检测 (Low-light Object Detection)

为了评估 Retinexformer 对 高级视觉任务 (high-level vision tasks) 的实际价值，论文在 ExDark 数据集上进行了低光照 目标检测 (object detection) 实验。

以下是原文 Table 3b 的内容：

Methods	Bicycle	Boat	Bottle	Bus	Car	Cat	Chair	Cup	Dog	Motor	People	Table	Mean
MIRNet [61]	71.8	63.8	62.9	81.4	71.1	58.8	58.9	61.3	63.1	52.0	68.8	45.5	63.6
RetinexNet [54]	73.8	62.8	64.8	84.9	80.8	53.4	57.2	68.3	61.5	51.3	65.9	43.1	64.0
RUAS [30]	72.0	62.2	65.2	72.9	78.1	57.3	62.4	61.8	60.2	61.5	69.4	46.8	64.2
Restormer [60]	76.2	65.1	64.2	84.0	76.3	59.2	53.0	58.7	66.1	62.9	68.6	45.0	64.9
KinD [66]	72.2	66.5	58.9	83.7	74.5	55.4	61.7	61.3	63.8	63.0	70.5	47.8	65.0
ZeroDCE [117]	75.8	66.5	65.6	84.9	77.2	56.3	53.8	59.0	63.5	64.0	68.3	46.3	65.1
SNR-Net [57]	75.3	64.4	63.6	85.3	77.5	59.1	54.1	59.6	66.3	65.2	69.1	44.6	65.3
SCI [37]	74.6	65.3	65.8	85.4	76.3	59.4	57.1	60.5	65.6	63.9	69.1	45.9	65.6
Retinexformer	76.3	66.7	65.9	84.7	77.6	61.2	53.5	60.7	67.5	63.4	69.5	46.0	66.1

分析：

实验设置: 使用 YOLO-v3 [43] 作为检测器，从零开始训练。不同的低光照增强方法作为 预处理模块 (preprocessing modules)，采用固定参数。
定量结果: Retinexformer 在 ExDark 数据集上取得了最高的平均精度 (AP)，达到 66.1 AP。这比最近的最佳 自监督 (self-supervised) 方法 SCI [37] 高 0.5 AP，比最近的最佳 全监督 (fully-supervised) 方法 SNR-Net [57] 高 0.8 AP。此外，Retinexformer 在 自行车 (bicycle)、船 (boat)、瓶子 (bottle)、猫 (cat) 和 狗 (dog) 这五个物体类别上取得了最佳结果。
定性结果 (Figure 6): 以下是原文 Figure 6 的内容：

该图像是一个对比图，左侧展示了低光照条件下的物体检测结果，右侧展示了经过我们方法增强后的图像。图中显示的船只标注了检测置信度，左侧的置信度较低，而右侧的检测效果显著提升。

Figure 6 展示了在低光照场景（左）和经 Retinexformer 增强后场景（右）中的 目标检测 (object detection) 视觉比较。在 欠曝 (under-exposed) 图像中，检测器容易漏检某些 船 (boats) 或预测不准确的位置。相比之下，在经 Retinexformer 增强的图像上，检测器能够可靠地预测 位置良好 (well-placed) 的 边界框 (bounding boxes) 来覆盖所有船只，这表明 Retinexformer 有效地提升了 高级视觉任务 (high-level vision) 的性能。

6.2. 消融实验/参数分析

论文在 SDSD-outdoor 数据集上进行了 消融研究 (ablation study)，以分析 Retinexformer 各组件的有效性。结果如 Table 4 所示。

以下是原文 Table 4 的内容：

(a) Break-down ablation to higher performance.
Baseline-1	ORF	IG-MSA	PSNR	SSIM	Params (M)	FLOPS (G)
✓			26.47	0.843	1.01	9.18
✓	✓		27.92	0.857	1.27	11.37
✓		✓	28.86	0.868	1.34	13.38
✓	✓	✓	29.84	0.877	1.61	15.57
(b) Ablation of the proposed ORF.
Method	Ilu = I	Ilu = I./L	Ilu = I L	+Flu
PSNR	28.86	28.97	29.26	29.84
SSIM	0.868	0.868	0.870	0.877
Params (M)	1.34	1.61	1.61	1.61
FLOPS (G)	13.38	14.01	14.01	15.57
(c) Ablation of self-attention schemes.
Method	Baseline-2	G-MSA	W-MSA	IG-MSA
PSNR	27.92	28.43	28.65	29.84
SSIM	0.857	0.841	0.845	0.877
Params (M)	1.27	1.61	1.61	1.61
FLOPS (G)	11.37	17.65	16.43	15.57

分析：

6.2.1. 分解消融 (Break-down Ablation)

Table 4a 展示了 Retinexformer 各组件对性能的贡献。

Baseline-1: 这是从 Retinexformer 中移除 ORF 和 IG-MSA 后的模型。它取得了 26.47 dB 的 PSNR。
加入 ORF: 在 Baseline-1 的基础上加入 ORF（即使用 光照估计器 (illumination estimator) 来生成 $\mathbf{I}_{lu}$ 和 $\mathbf{F}_{lu}$ ，但 污染恢复器 (corruption restorer) 仍是简单基线），PSNR 提升了 1.45 dB (27.92 - 26.47)。
加入 IG-MSA: 在 Baseline-1 的基础上加入 IG-MSA（即 污染恢复器 (corruption restorer) 使用 IGT，但不使用 ORF 的 $\mathbf{I}_{lu}$ 和 $\mathbf{F}_{lu}$ ，而是直接输入 $\mathbf{I}$ ），PSNR 提升了 2.39 dB (28.86 - 26.47)。
同时加入 ORF 和 IG-MSA: 当同时使用 ORF 和 IG-MSA 时，Baseline-1 获得了 3.37 dB (29.84 - 26.47) 的总提升。这个证据表明 ORF 和 IG-MSA 都是有效的组件，并且它们的组合带来了显著的性能提升。

6.2.2. 所提 ORF 的消融 (Ablation of the Proposed ORF)

Table 4b 深入研究了 ORF 的不同设计选择。

$Ilu = I$ : 这是移除了 ORF 的情况，污染恢复器 (corruption restorer) 的输入直接是原始图像 $\mathbf{I}$ 。模型得到 28.86 dB 的 PSNR。
$Ilu = I./L$ : 作者尝试让 $\mathcal{E}$ 估计 光照图 (illumination map) $\mathbf{L}$ ，并使用 逐元素除法 (element-wise division) $(\mathbf{I} ./ \mathbf{L})$ 来生成 $\mathbf{I}_{lu}$ 。为了避免计算机中的异常，对 $\mathbf{L}$ 添加了一个很小的常数 $\epsilon = 1 \times 10^{-4}$ 。然而，如 3.1 节分析，这种除法操作对小值非常敏感，模型只获得了有限的 0.11 dB (28.97 - 28.86) 提升，说明其鲁棒性不足。
** $Ilu = I$ \odot\bar{\mathbf{L}} $:** 作者改用估计 `点亮图 (light-up map)` $\bar{\mathbf{L}}$，并使用 `逐元素乘法 (element-wise multiplication)` $(\mathbf{I} \odot \bar{\mathbf{L}})$ 来生成$ \mathbf{I}{lu} $。这种方式带来了 0.40 dB (29.26 - 28.86) 的提升，验证了 `建模 (modeling)` $\bar{\mathbf{L}}$ 的优势。 * **$+Flu$:** 在使用$ \mathbf{I}{lu} = \mathbf{I} \odot \bar{\mathbf{L}} $的基础上，进一步使用 `光照特征 (light-up feature)` $\mathbf{F}_{lu}$ 来 `引导 (direct)` `污染恢复器 (corruption restorer)` $\mathcal{R}$。这使得模型在 `PSNR` 上继续提升了 0.58 dB (29.84 - 29.26)，在 `SSIM` 上提升了 0.007 (0.877 - 0.870)。这强调了 `光照特征 (light-up feature)` 在指导 `腐败恢复 (corruption restoration)` 中的关键作用。 ### 6.2.3. 自注意力方案的消融 (Ablation of Self-Attention Schemes) `Table 4c` 比较了不同 `自注意力 (self-attention)` 方案的效果。 * **Baseline-2:** 这是从 `Retinexformer` 中移除 `IG-MSA` 后的模型（即 `污染恢复器 (corruption restorer)` 内部不使用 `Transformer` 模块，`PSNR` 为 27.92 dB）。 * **G-MSA (Global Multi-head Self-Attention):** 将 `全局多头自注意力 (G-MSA)` 替换到$ \mathcal{R}\mathbf{L}_p = \mathrm{mean}_c(\mathbf{I}) $作为简单的 `光照先验图 (illumination prior map)`。虽然这有效，但一个更复杂、更智能的、甚至可学习的 `光照先验 (illumination prior)` 可能会进一步提高性能，尤其是在极端光照条件或复杂场景下。 * `扰动项 (perturbation terms)` 的隐式建模: 尽管 `ORF` 引入了$ \hat{\mathbf{R}} $和$ \hat{\mathbf{L}} $`扰动项 (perturbation terms)` 来 `形式化 (formulate)` `腐败 (corruptions)`，但 `污染恢复器 (corruption restorer)` $\mathcal{R}$ 实际上是隐式地学习去除这些 `腐败 (corruptions)`。未来工作可以探索更显式地建模或预测这些 `扰动项 (perturbation terms)`，例如通过多任务学习 (multi-task learning) 的方式，可能会带来更精细的控制和恢复效果。 * **实时性与边缘部署:** 尽管 `IG-MSA` 显著降低了 `Transformer` 的计算复杂度，使其线性于空间尺寸，但整个 `U型 Transformer (U-shaped Transformer)` 模型仍具有一定的 `参数量 (parameters)` 和 `浮点运算次数 (FLOPS)`。对于需要极低延迟的实时应用或在 `边缘设备 (edge devices)` 上的部署，可能还需要进一步探索更轻量级的 `Retinexformer` 变体或 `模型压缩 (model compression)` 技术。 * **视频增强:** 论文主要关注静态图像增强。将 `Retinexformer` 扩展到低光照视频增强是一个自然且具有挑战性的未来方向，这需要考虑 `时间一致性 (temporal consistency)` 和 `帧间信息 (inter-frame information)` 的利用。 ## 7.3. 个人启发与批判 ### 7.3.1. 个人启发 1. **领域知识与深度学习的有效结合:** `Retinexformer` 的成功再次印证了将传统图像处理的 `物理模型 (physical model)`（如 `Retinex 理论 (Retinex theory)`）与先进的 `深度学习架构 (deep learning architectures)`（如 `Transformer`）相结合的强大潜力。物理先验提供了 `可解释性 (interpretability)` 和 `归纳偏置 (inductive bias)`，而深度学习则提供了强大的特征学习和非线性映射能力。 2. **`Transformer` 高效利用的创新思路:** `IG-MSA` 的设计是本文的一大亮点。它巧妙地解决了 `Transformer` 在高分辨率图像上 `计算复杂度 (computational complexity)` 过高的问题，通过将注意力机制的复杂度从平方级降低到线性级，从而使得 `Transformer` 能够在整个 U 形网络中广泛应用。更重要的是，它利用了特定任务的 `光照信息 (illumination information)` 来 `引导 (guide)` `自注意力 (self-attention)`，这是一种非常高效且有针对性的信息利用方式。 3. 对 `腐败 (corruptions)` 的显式建模: 传统 Retinex 模型的一个主要不足是对 `腐败 (corruptions)` 的忽视。`Retinexformer` 通过引入 `扰动项 (perturbation terms)` 并在 `ORF` 框架中显式地将其纳入考虑，这使得模型能够更全面、更鲁棒地处理真实世界低光照图像的复杂性。 4. **实际应用价值的验证:** 论文不仅在传统的图像质量指标上取得了显著成果，还通过用户研究 (user study) 和在低光照 `目标检测 (object detection)` 任务上的表现，有力地证明了其在实际应用中的潜力和价值。这种多维度的评估对于衡量研究的实际影响力至关重要。 ### 7.3.2. 批判与改进 1. `扰动项 (perturbation terms)` 的建模深度: 尽管论文概念性地引入了$ \hat{\mathbf{R}} $和$ \hat{\mathbf{L}} $`扰动项 (perturbation terms)`，但 `污染恢复器 (corruption restorer)` 仍然是以端到端 (end-to-end) 的方式隐式学习去除这些 `腐败 (corruptions)`。未来可以探索更显式地建模这些 `扰动项 (perturbation terms)`，例如，是否可以设计一个子网络专门预测这些 `扰动项 (perturbation terms)`，然后将它们从图像中减去，或者通过多任务学习 (multi-task learning) 的方式进行优化。这或许能提供更精细的 `腐败控制 (corruption control)` 和 `可解释性 (interpretability)`。 2. `光照先验图 (illumination prior map)` 的简单性:$ \mathbf{L}_p = \mathrm{mean}_c(\mathbf{I}) $是一个非常简单的 `光照先验 (illumination prior)`。虽然在许多情况下有效，但在复杂光照条件、包含多种光源或极端暗区亮区的场景中，这种简单的均值可能无法捕获足够精细的光照信息。研究更先进的、甚至可学习的 `光照先验 (illumination prior)` 提取方法（例如，基于图像内容或语义信息的先验）可能进一步提升模型在复杂场景下的性能。 3. **$ \alpha_i $缩放参数的分析:** `IG-MSA` 中的 `可学习参数 (learnable parameter)`$ \alpha_i $用于 `自适应地 (adaptively)` 缩放 `矩阵乘法 (matrix multiplication)`。论文中并未深入探讨$ \alpha_i $的行为和作用机制。例如，$ \alpha_i$$ 在训练过程中如何变化？它对不同 头 (heads) 和不同图像区域的影响有何不同？对它的详细分析可能会揭示更多关于 IG-MSA 学习到的光照引导策略。

模型通用性与 泛化能力 (generalization ability) 的边界: 尽管 Retinexformer 在多个数据集上表现出色，但其在完全无监督或 领域自适应 (domain adaptation) 场景下的 泛化能力 (generalization ability) 还有待进一步探索。例如，当面对与训练数据分布差异很大的新型传感器数据或极端光照条件时，模型的性能是否依然稳健？这可能需要结合 无监督学习 (unsupervised learning) 或 半监督学习 (semi-supervised learning) 的思想。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 17 分钟读完 · 14,858 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

核心问题

现有研究的挑战或空白 (Gap)

本文的切入点或创新思路

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 低光照图像增强 (Low-light Image Enhancement)

3.1.2. Retinex 理论 (Retinex Theory)

3.1.3. 卷积神经网络 (Convolutional Neural Networks, CNNs)

3.1.4. Transformer 模型 (Transformer Model)

3.1.5. 图像腐败 (Image Corruptions)

3.2. 前人工作

3.2.1. 平面方法 (Plain Methods)

3.2.2. 传统认知方法 (Traditional Cognition Methods)

3.2.3. 深度学习方法 (Deep Learning Methods)

3.2.4. Vision Transformer (视觉Transformer)

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 单阶段基于Retinex的框架 (One-stage Retinex-based Framework, ORF)

4.2.2. 照明引导Transformer (Illumination-Guided Transformer, IGT)

5. 实验设置

5.1. 数据集

5.1.1. 有 真值 (Ground Truth) 的数据集

5.1.2. 无 真值 (Ground Truth) 的数据集

5.1.3. 用于低光照 目标检测 (Object Detection) 的数据集

5.2. 评估指标

5.2.1. 图像质量评估指标

5.2.2. 目标检测评估指标

5.3. 对比基线

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定量结果 (Quantitative Results)

6.1.2. 定性结果 (Qualitative Results)

6.1.3. 用户研究评分 (User Study Score)

6.1.4. 低光照目标检测 (Low-light Object Detection)

6.2. 消融实验/参数分析

6.2.1. 分解消融 (Break-down Ablation)

6.2.2. 所提 ORF 的消融 (Ablation of the Proposed ORF)

相似论文推荐

5.1.1. 有 `真值 (Ground Truth)` 的数据集

5.1.2. 无 `真值 (Ground Truth)` 的数据集

5.1.3. 用于低光照 `目标检测 (Object Detection)` 的数据集