摘要

ISPDiffuser: Learning RAW-to-sRGB Mappings with Texture-Aware Diffusion Models and Histogram-Guided Color Consistency Yang Ren 1,4, * , Hai Jiang 1,4, * , Menglong Yang 1,2, † , Wei Li 1,2 , Shuaicheng Liu 3,4, † 1 School of Aeronautics and Astronautics, Sichuan University 2 Key Laboratory of Advanced Spatial Mechanism and Intelligent Spacecraft, Sichuan University 3 University of Electronic Science and Technology of China 4 Megvii Technology { renyang@stu.,jianghai@stu.,mlyang@,li.wei@ } scu.edu.cn, liushuaicheng@uestc.edu.cn Abstract RAW-to-sRGB mapping, or the simulation of the traditional camera image signal processor (ISP), aims to generate DSLR- quality sRGB images from raw data captured by smartphone sensors. Despite achieving comparable results to sophisti- cated handc…

1. 论文基本信息

1.1. 标题

ISPDiffuser: Learning RAW-to-sRGB Mappings with Texture-Aware Diffusion Models and Histogram-Guided Color Consistency (ISPDiffuser：利用纹理感知扩散模型和直方图引导色彩一致性学习 RAW 到 sRGB 映射)

1.2. 作者

Yang Ren, Hai Jiang, Menglong Yang, Wei Li, Shuaicheng Liu

1.3. 发表期刊/会议

该论文尚未正式发表，但在 ArXiv 上作为预印本提供，并标注了计划发表日期为 2025 年 4 月 11 日。作者来自四川大学航空航天学院、四川大学先进空间机构与智能航天器重点实验室、电子科技大学以及旷视科技（Megvii Technology）。这些机构在计算机视觉、人工智能和深度学习领域都有活跃的研究。

1.4. 发表年份

2025

1.5. 摘要

RAW 到 sRGB 映射（或传统相机图像信号处理器 ISP 的模拟）旨在从智能手机传感器捕获的原始 (RAW) 数据生成数码单反相机 (DSLR) 质量的 sRGB 图像。尽管现有的基于学习的方法已能达到与复杂的手工 ISP 解决方案相当的结果，但它们在细节差异和色彩失真方面仍面临挑战。本文提出了 ISPDiffuser，一个基于扩散的解耦框架，将 RAW 到 sRGB 映射分为灰度空间中的细节重建和从灰度到 sRGB 的色彩一致性映射。具体来说，作者提出了一个纹理感知扩散模型 (Texture-Aware Diffusion Model, TADM)，它利用扩散模型的生成能力专注于局部细节恢复，并进一步提出了纹理增强损失 (texture enrichment loss) 以促使扩散模型生成更复杂的纹理细节。随后，作者引入了一个直方图引导色彩一致性模块 (Histogram-Guided Color Consistency Module, HCCM)，该模块利用色彩直方图作为指导，学习精确的色彩信息，以实现从灰度到 sRGB 的色彩一致性映射，并设计了色彩一致性损失 (color consistency loss) 来约束学习到的色彩信息。广泛的实验结果表明，所提出的 ISPDiffuser 在定量和视觉效果上均优于现有的最先进竞争对手。

1.6. 原文链接

/files/papers/69265598cf8f4a5b3dcb83fb/paper.pdf

2. 整体概括

2.1. 研究背景与动机

图像信号处理器 (ISP) 管线是相机将传感器捕获的原始 RAW 数据转换为人眼可感知的 sRGB 图像的核心过程。传统的 ISP 管线包含去马赛克、去噪、白平衡、伽马校正和色彩校正等一系列离散步骤，每个步骤都需要复杂且广泛的手动参数调整。

随着移动摄影的快速发展，智能手机因其便利性和便携性成为主流的摄影工具。然而，由于光圈和传感器尺寸的限制，移动设备通常生成的图像质量低于数码单反相机 (DSLR)。为了弥补这种差距，将移动传感器捕获的 RAW 数据转换为具有 DSLR 级质量的 sRGB 图像的深度学习 ISP 模型引起了越来越多的关注。

现有深度 ISP 解决方案主要关注两个方面：

补偿不同捕获设备造成的错位 (misalignment)：例如，训练对中的 RAW 和 sRGB 图像可能来自不同设备，导致空间错位和分辨率差异。
将 RAW 到 sRGB 映射单纯视为色彩映射任务。

尽管取得了显著进展，但这些模型普遍存在一个局限性：大多数基于卷积神经网络 (Convolutional Neural Networks, CNNs) 的模型，受限于其固有的局部感受野，容易导致局部细节差异 (local detail disparity) 和全局色彩失真 (global color distortion)。例如，之前的最先进方法 FourierISP 在图 1 中显示出模糊的细节和色彩失真。

近年来，以扩散模型 (Diffusion Models) 为代表的生成模型在各种低级视觉任务中展现出优异的感知质量生成能力。然而，它们在 RAW 到 sRGB 映射中的应用仍处于探索阶段。DiffRAW 是一个扩散模型框架，但其通过使用 LiteISPNet 生成的 sRGB 图像作为条件，可能会限制学习到的色彩和细节分布，使其与 LiteISPNet 相似。此外，扩散模型虽然在生成高频细节信息方面表现出色，但在处理色彩和亮度等低频信息时通常存在生成偏差 (generative bias)。这为同时处理 RAW 到 sRGB 映射中的局部细节重建和全局色彩映射带来了挑战。

为了解决上述问题，本论文旨在提出一种新的扩散模型框架，能够有效处理 RAW 到 sRGB 映射中的细节和色彩问题。

2.2. 核心贡献/主要发现

本文的主要贡献可以总结如下：

提出了一个名为 ISPDiffuser 的基于扩散的解耦框架 (diffusion-based decoupled framework)。该框架将 RAW 到 sRGB 映射任务解耦为灰度空间中的细节重建 (detail reconstruction in grayscale space) 和从灰度到 sRGB 的色彩一致性映射 (color consistency mapping from grayscale to sRGB)，从而实现视觉上令人满意的结果。
提出了一个纹理感知扩散模型 (Texture-Aware Diffusion Model, TADM)。该模型利用扩散模型的生成能力专注于细节重建，并引入了纹理增强损失 (texture enrichment loss) 来促使模型生成更复杂的纹理细节。
提出了一个直方图引导色彩一致性模块 (Histogram-Guided Color Consistency Module, HCCM)。该模块利用色彩直方图 (color histogram) 作为指导，学习稳定的全局色彩映射，以实现从灰度到 sRGB 的色彩一致性。
通过广泛的实验证明，所提出的方法在定量和定性上都优于现有的最先进竞争对手，能够生成具有更好感知质量的图像。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文提出的方法，需要了解以下几个基础概念：

3.1.1. 图像信号处理器 (Image Signal Processor, ISP)

图像信号处理器 (ISP) 是数字相机（包括智能手机相机和数码单反相机）中的一个关键组件，负责将图像传感器捕获的原始 RAW (Raw) 数据转换为标准的 sRGB (Standard Red Green Blue) 格式图像。RAW 数据是传感器直接接收到的光信号，未经任何处理，包含原始的亮度信息。ISP 管线通常包括一系列离散的处理步骤：

去马赛克 (Demosaicing)：将拜耳滤镜阵列 (Bayer Filter Array, BFA) 捕获的单通道颜色信息（每个像素只记录红、绿、蓝中的一种颜色）插值为全彩色图像。
去噪 (Denoising)：去除图像中的噪声，提高图像清晰度。
白平衡 (White Balance)：调整图像的颜色，使其在不同光源下呈现出正确的颜色。
伽马校正 (Gamma Correction)：调整图像的亮度响应，使其更符合人眼对亮度的感知。
色彩校正 (Color Correction)：调整图像的颜色，使其更准确、更鲜艳。
色调映射 (Tone Mapping)：将高动态范围 (High Dynamic Range, HDR) 图像的亮度信息压缩到低动态范围 (Low Dynamic Range, LDR) 显示器上，同时保留细节。

传统 ISP 管线通常需要经验丰富的工程师进行大量手动参数调整，并且各步骤的顺序执行可能导致误差累积。

3.1.2. 卷积神经网络 (Convolutional Neural Networks, CNNs)

卷积神经网络 (CNNs) 是一类特殊的深度学习模型，在图像处理任务中表现出色。它们通过卷积层 (convolutional layer) 自动学习图像特征，例如边缘、纹理和形状。然而，CNNs 具有局部感受野 (locality restriction) 的固有局限性，这意味着每个神经元只能处理其输入数据的一个局部区域。这使得它们在处理需要全局信息或长距离依赖的任务时可能表现不佳，例如本文中提到的图像全局色彩一致性问题。

3.1.3. 生成模型 (Generative Models)

生成模型 (Generative Models) 是一类机器学习模型，旨在学习训练数据的分布，并能够生成与训练数据相似的新样本。常见的生成模型包括：

生成对抗网络 (Generative Adversarial Networks, GANs)：由一个生成器和一个判别器组成，两者相互对抗训练，以生成逼真的数据。
变分自编码器 (Variational Autoencoders, VAEs)：通过学习数据的潜在表示来生成数据。
扩散模型 (Diffusion Models)：通过模拟数据的逐步噪声化和去噪过程来生成数据，近年来在图像生成方面表现出卓越的性能。

3.1.4. 扩散模型 (Diffusion Models)

扩散模型 (Diffusion Models) 是一种新兴的生成模型，灵感来源于非平衡热力学。它们通过两个主要过程运作：

前向扩散过程 (Forward Diffusion Process)：逐步向输入数据添加高斯噪声，直到数据完全变成纯噪声。这个过程是马尔可夫链式的，可以通过数学公式直接计算。
反向扩散过程 (Reverse Diffusion Process)：学习从纯噪声中逐步去除噪声，恢复原始数据。这个过程是神经网络需要学习的，它通过预测每个时间步添加的噪声来去噪。

扩散模型因其高质量的生成结果和避免了 GANs 训练不稳定性及模式崩溃问题而受到广泛关注。然而，它们通常在生成低频信息 (low-frequency information)（如色彩和光照）时存在偏差 (bias)，而更擅长生成高频细节 (high-frequency details)。

3.1.5. 色彩直方图 (Color Histogram)

色彩直方图 (Color Histogram) 是一种表示图像中颜色分布的统计图。它统计了图像中每个颜色通道（如红、绿、蓝）在不同强度级别上像素的数量。色彩直方图可以有效地描述图像的整体色彩特征，但不包含任何空间信息（即不关心颜色在图像中的位置）。在本文中，色彩直方图被用作引导，以学习精确的全局色彩信息。

3.1.6. Canny 边缘检测器 (Canny Edge Detector)

Canny 边缘检测器 (Canny Edge Detector) 是一种经典的图像处理算法，用于检测图像中的边缘。它以多级算法实现，旨在满足三个主要标准：低错误率、高定位准确性和最小响应。本文利用其在非极大值抑制 (non-maximum suppression) 之前的输出作为图像的纹理图 (texture map)，以量化和约束生成的图像的纹理细节。

3.2. 前人工作

3.2.1. 传统 ISP

传统的 ISP 管线包括一系列模块，如去噪 (Dabov et al. 2007; Zhang et al. 2017)、去马赛克 (Gharbi et al. 2016)、白平衡 (Cheng et al. 2015)、色彩校正 (Kwok et al. 2013; Rizzi et al. 2003) 和色调映射 (Rana et al. 2019; Liu et al. 2021, 2022)。这些模块通常是手动设计和调优的，以将 RAW 图像转换为高质量的 sRGB 图像。然而，这种手动工作流程耗时且需要专业知识。

3.2.2. 基于学习的 ISP

随着深度学习的发展，研究人员开始利用神经网络来学习和模拟 ISP 过程，以解决传统方法的硬件限制和手动调整问题。

早期工作：Schwartz et al. (2018)、Zamir et al. (2020)、Xing et al. (2021) 等工作尝试在受控条件下（RAW 和 sRGB 图像由同一设备捕获）学习 ISP 过程。
跨设备 RAW-to-sRGB 映射：Ignatov et al. (2020a) 提出了一个新挑战，即处理由不同设备捕获的 RAW 和 sRGB 图像之间的映射，这涉及到空间错位和分辨率变化。
- AWNet (Dai et al. 2020) 探索了小波变换和非局部注意力机制在 ISP 管线中的潜力。
- LiteISPNet (Zhang et al. 2021) 引入了全局色彩映射模块来解决色彩不一致问题，并使用对齐损失 (aligned loss) 计算预测 sRGB 图像与真实图像之间的光流。
- FourierISP (He et al. 2024b) 利用傅里叶先验 (Fourier prior) 来分离和细化色彩和结构表示。
- TransformISP (Shekhar Tripathi et al. 2022) 使用带掩码对齐损失 (masked aligned loss) 的颜色条件 ISP 网络来优化颜色和色调映射。

3.2.3. 低级视觉中的扩散模型

扩散模型 (Sohl-Dickstein et al. 2015) 因其强大的生成能力，已广泛应用于各种低级视觉任务，如图像编辑 (Kawar et al. 2023; Zhang et al. 2023)、图像修复 (Jiang et al. 2023, 2025; Lugmayr et al. 2022; Kawar et al. 2022) 和图像对齐 (Luo et al. 2024; Li et al. 2024; Zhou et al. 2024)。

RAW-to-sRGB 领域的扩散模型：
- DiffRAW (Yi et al. 2024) 引入了一个基于扩散的 RAW-to-sRGB 映射框架，该框架使用 LiteISPNet 生成的 sRGB 图像作为颜色和位置保留条件。然而，这种方法可能导致学习到的色彩和细节分布与 LiteISPNet 相似，从而限制了其生成能力。

3.3. 技术演进

ISP 技术从完全依赖手动参数调优的传统硬件管线，逐步演进到利用深度学习模型自动学习 RAW 到 sRGB 的映射。早期基于学习的方法主要集中在 CNN 上，但在处理细节和全局色彩一致性方面存在固有局限性。随着生成模型，特别是扩散模型的兴起，研究者开始探索其在低级视觉任务中的潜力。然而，扩散模型在处理低频信息（如颜色）时存在的偏差，为直接应用于 RAW 到 sRGB 映射带来了挑战。本文正是在这一背景下，通过解耦策略和引入特定机制（纹理感知扩散、直方图引导色彩一致性）来弥补现有扩散模型在 RAW 到 sRGB 任务中的不足，进一步推动了该领域的技术发展。

3.4. 差异化分析

本文提出的 ISPDiffuser 与现有工作相比，主要差异化体现在：

解耦策略 (Decoupled Framework)：与大多数将 RAW 到 sRGB 映射作为一个整体任务处理的方法不同，ISPDiffuser 将其解耦为灰度细节重建和色彩一致性映射两个独立的子任务。这种解耦策略能更好地利用扩散模型在细节生成方面的优势，同时用专门的模块解决色彩问题。
纹理感知扩散模型 (TADM)：针对扩散模型在处理低频信息时的偏差，TADM 被设计为专注于灰度空间中的细节重建，避免了色彩信息对其细节生成能力的干扰。引入的纹理增强损失进一步强调了高频纹理细节的恢复，弥补了 CNNs 在局部细节上的不足。
直方图引导色彩一致性模块 (HCCM)：为了解决全局色彩失真问题，HCCM 利用色彩直方图这一全局色彩统计信息作为指导，学习精确的色彩转换，确保生成的 sRGB 图像具有与 DSLR 图像一致的色彩。这与 DiffRAW 等简单地将其他模型的输出作为条件的方法不同，HCCM 更直接地利用了色彩分布信息。
避免条件约束问题：与 DiffRAW 使用 LiteISPNet 的 sRGB 输出作为条件可能导致学习分布受限不同，ISPDiffuser 的解耦设计允许其在细节和色彩方面学习更自由、更准确的分布。

4. 方法论

本文提出的 ISPDiffuser 框架，旨在将 RAW 图像转换为高质量的 sRGB 图像，其核心思想是将 RAW 到 sRGB 映射解耦为两个主要阶段：灰度空间中的细节重建和从灰度到 sRGB 的色彩一致性映射。这种解耦有助于分别解决细节恢复和色彩校正的挑战。

4.1. 方法原理

ISPDiffuser 框架的整体流程如原文 Figure 2 所示。

$Figure 2: The overall pipeline of our proposed framework. We first employ an encoder $\\mathcal { E } ( \\cdot )$ to convert RAW image `I _ { r }` and grayscale version `I _ { g }` of the sRGB image into latent space denoted as ${ \\mathcal { F } } _ { r }$ and $\\mathcal { F } _ { g }$ The encoded feature $\\mathcal { F } _ { g }$ is taken as the input ee e raw feature $\\mathcal { F } _ { r }$ we generate the reconstruced gray feature $\\hat { \\mathcal { F } } _ { g }$ from the noised tensor $\\mathbf { x } _ { t }$ during training, which is replaced by randomly sampled Gaussian noise $\\hat { \\mathbf { x } } _ { T }$ during inference. Finally, we utilize the proposed histogram-guided color consistency module (HCCM) to colorize the generated $\\hat { \\mathcal { F } } _ { g }$ and subsequently send it to a decoder $\\mathcal { D } ( \\cdot )$ to produce the final sRGB result $\\hat { I } _ { s }$ .$ 该图像是示意图，展示了ISPDiffuser框架的整体流程。左侧分别输入RAW图像 $I_r$ 和灰度图像 $I_g$ ，经过编码器后生成特征表示 $\mathcal{F}_r$ 和 $\mathcal{F}_g$ 。图中展示了纹理感知扩散模型的前向和反向扩散过程，最终通过直方图引导色彩一致性模块（HCCM）和解码器生成最终的sRGB结果 $\hat{I}_s$ 。

Figure 2: The overall pipeline of our proposed framework. We first employ an encoder $\\mathcal { E } ( \\cdot )$ to convert RAW image I _ { r } and grayscale version I _ { g } of the sRGB image into latent space denoted as ${ \\mathcal { F } } _ { r }$ and $\\mathcal { F } _ { g }$ The encoded feature $\\mathcal { F } _ { g }$ is taken as the input ee e raw feature $\\mathcal { F } _ { r }$ we generate the reconstruced gray feature $\\hat { \\mathcal { F } } _ { g }$ from the noised tensor $\\mathbf { x } _ { t }$ during training, which is replaced by randomly sampled Gaussian noise $\\hat { \\mathbf { x } } _ { T }$ during inference. Finally, we utilize the proposed histogram-guided color consistency module (HCCM) to colorize the generated $\\hat { \\mathcal { F } } _ { g }$ and subsequently send it to a decoder $\\mathcal { D } ( \\cdot )$ to produce the final sRGB result $\\hat { I } _ { s }$ .

给定一个 RAW 图像 $I_r \in \mathbb{R}^{H \times W \times \mathbf{\breve{1}}}$ （其中 H, W 是高度和宽度， $\mathbf{\breve{1}}$ 代表 RAW 数据的通道数，通常为 4 通道拜耳模式或 1 通道原始亮度），以及对应的 sRGB 图像的灰度版本 $I_g \in \mathbb{R}^{H \times W \times 1}$ 。首先，使用一个编码器 (Encoder) $\mathcal{E}(\cdot)$ 将 $I_r$ 和 $I_g$ 转换为潜在空间中的特征表示。编码器由 $k$ 个级联的残差块组成，每个块将输入下采样 2 倍。得到的潜在特征分别为 $\mathcal{F}_r \in \mathbb{R}^{\frac{H}{2^k} \times \frac{W}{2^k} \times c}$ 和 $\mathcal{F}_g \in \mathbb{R}^{\frac{H}{2^k} \times \frac{W}{2^k} \times c}$ ，其中 $c$ 是通道数。

接下来，主要流程分为两个阶段：

灰度细节重建：纹理感知扩散模型 (Texture-Aware Diffusion Model, TADM) 接收编码后的 RAW 特征 $\mathcal{F}_r$ 作为条件，并以编码后的灰度特征 $\mathcal{F}_g$ 作为目标，生成内容丰富的重建灰度特征 $\hat{\mathcal{F}}_g$ 。该阶段特别注重细节的恢复。
色彩一致性映射：直方图引导色彩一致性模块 (Histogram-Guided Color Consistency Module, HCCM) 接收重建的灰度特征 $\hat{\mathcal{F}}_g$ 和原始 RAW 特征 $\mathcal{F}_r$ ，利用色彩直方图信息，将灰度特征“着色”为具有一致色彩的 sRGB 特征 $\hat{\mathcal{F}}_s$ 。

最后，得到的 sRGB 特征 $\hat{\mathcal{F}}_s$ 被送入解码器 (Decoder) $\mathcal{D}(\cdot)$ ，重建出最终的 sRGB 图像 $\hat{I}_s$ 。

4.2. 核心方法详解

4.2.1. 纹理感知扩散模型 (Texture-Aware Diffusion Model, TADM)

RAW 到 sRGB 映射有两个关键关注点：局部细节恢复和全局色彩映射。然而，扩散模型通常存在低频生成偏差（如色彩和曝光）。为了解决这个问题，TADM 被设计为专注于重建 sRGB 图像的细节，而不关注低频的色彩映射。它遵循标准的扩散模型原理，包括前向扩散和反向扩散过程。

4.2.1.1. 前向扩散 (Forward Diffusion)

前向扩散过程从目标灰度特征 $\mathcal{F}_g$ 开始，将其视为初始输入 $\mathbf{x}_0$ 。通过预定义的方差调度 $\{\beta_1, \beta_2, ..., \beta_T\}$ ，逐步向 $\mathbf{x}_0$ 添加高斯噪声，在 $T$ 个时间步后将其转换为纯高斯噪声 $\mathbf{x}_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ 。这个过程可以表示为： $q(\mathbf{x}_t | \mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t; \sqrt{1 - \beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I})$ 其中， $\mathbf{x}_t$ 表示在时间步 $t \in [0, T]$ 的噪声数据。通过参数重新归一化 (parameter renormalization)，可以直接从初始输入 $\mathbf{x}_0$ 得到 $\mathbf{x}_t$ ，简化为： $\mathbf{x}_t = \sqrt{\bar{\alpha}_t} \mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t} \pmb{\epsilon}_t$ 这里， $\alpha_t = 1 - \beta_t$ ， $\bar{\alpha}_t = \prod_{i=0}^{t} \alpha_i$ ，且 $\pmb{\epsilon}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ 是从标准正态分布中采样的噪声。

4.2.1.2. 反向扩散 (Reverse Diffusion)

反向扩散过程旨在学习非马尔可夫前向过程，逐步从随机采样的高斯噪声 $\hat{\mathbf{x}}_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ 中去噪，以生成清晰的结果 $\hat{\mathbf{x}}_0$ （即重建的灰度特征 $\hat{\mathcal{F}}_g$ ），使其符合目标数据分布。为了增强生成过程的可控性，引入了条件机制，利用编码后的 RAW 特征 $\mathcal{F}_r$ 作为条件，表示为 $\tilde{\mathbf{x}}$ 。反向扩散过程可以表述为： $p_\theta(\hat{\mathbf{x}}_{t-1} | \hat{\mathbf{x}}_t, \tilde{\mathbf{x}}) = \mathcal{N}(\hat{\mathbf{x}}_{t-1}; \mu_\theta(\hat{\mathbf{x}}_t, \tilde{\mathbf{x}}, t), \sigma_t^2 \mathbf{I})$ 其中， $\sigma_t^2 = \frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \beta_t$ 是方差，而均值 $\mu_\theta(\hat{\mathbf{x}}_t, \tilde{\mathbf{x}}, t)$ 为： $\mu_\theta(\hat{\mathbf{x}}_t, \tilde{\mathbf{x}}, t) = \frac{1}{\sqrt{\alpha_t}} \left( \hat{\mathbf{x}}_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}} \pmb{\epsilon}_\theta(\hat{\mathbf{x}}_t, \tilde{\mathbf{x}}, t) \right)$ 在训练阶段，模型不是直接优化预测噪声 $\pmb{\epsilon}_\theta$ 的参数 $\theta$ ，而是根据 Luo et al. (2024) 和 Li et al. (2024) 的方法，直接生成清晰的灰度特征 $\hat{\mathbf{x}}_0$ (即 $\hat{\mathcal{F}}_g$ )。

4.2.1.3. 内容损失 (Content Loss)

用于优化 TADM 的内容损失 $\mathcal{L}_{con}$ 定义为预测的清晰灰度特征 $\hat{\mathbf{x}}_0$ 与真实灰度特征 $\mathbf{x}_0$ 之间的 L2 距离： $\mathcal{L}_{con} = ||\hat{\mathbf{x}}_0 - \mathbf{x}_0||_2$ 其中，扰动噪声数据 $\mathbf{x}_t$ 中估计出的 $\hat{\mathbf{x}}_0$ 为： $\hat{\mathbf{x}}_0 = \frac{1}{\sqrt{\bar{\alpha}_t}} \left( \mathbf{x}_t - \sqrt{1 - \bar{\alpha}_t} \pmb{\epsilon}_\theta\left(\mathbf{x}_t, \tilde{\mathbf{x}}, t\right) \right)$ 这里， $\pmb{\epsilon}_\theta(\mathbf{x}_t, \tilde{\mathbf{x}}, t)$ 是一个神经网络（在本文中采用 U-Net 架构）预测的噪声。

4.2.1.4. 纹理增强损失 (Texture Enrichment Loss)

为了使重建的特征包含与原始输入相似的丰富纹理信息，本文引入了纹理增强损失 $\mathcal{L}_{tel}$ 。该损失通过约束生成特征的纹理图与原始灰度特征的纹理图相似性来实现。具体来说，使用传统的 Canny 边缘检测器在非极大值抑制 (non-maximum suppression) 之前提取生成特征 $\hat{\mathcal{F}}_g$ 和原始灰度特征 $\mathcal{F}_g$ 的纹理图，分别表示为 $\hat{\mathbf{T}}_g = \mathrm{Canny}(\hat{\mathcal{F}}_g)$ 和 $\mathbf{T}_g = \mathrm{Canny}(\mathcal{F}_g)$ 。 纹理增强损失 $\mathcal{L}_{tel}$ 定义为： $\mathcal{L}_{tel} = ||\hat{\mathbf{T}}_g - \mathbf{T}_g||_1$ 该损失促使扩散模型生成具有更复杂纹理细节的 $\hat{\mathcal{F}}_g$ 。

4.2.1.5. TADM 总体目标函数

TADM 的总体目标函数结合了内容损失和纹理增强损失： $\mathcal{L}_{diff} = \mathcal{L}_{con} + \lambda_1 \mathcal{L}_{tel}$ 其中 $\lambda_1$ 是平衡两种损失的权重超参数。在推理阶段，通过反向扩散过程并采用隐式采样策略 (implicit sampling strategy) (Song et al. 2020) 从学习到的分布中恢复特征 $\hat{\mathcal{F}}_g$ 。

4.2.2. 直方图引导色彩一致性模块 (Histogram-Guided Color Consistency Module, HCCM)

由于拜耳滤镜阵列 (BFA) 捕获颜色信息的方式，RAW 到 sRGB 的转换通常存在色彩差异和不稳定的色彩映射。为了解决这一问题，HCCM 利用色彩直方图作为指导，将 TADM 生成的灰度特征转换为具有鲜艳色彩的 sRGB 特征。HCCM 的详细架构如原文 Figure 3 所示。

Figure 3: The detailed architecture of our proposed histogram-guided color consistency module. 该图像是图示，展示了我们提出的色彩直方图预测器的详细结构。图中包含多个处理模块，如卷积层、线性层和跨注意力机制，旨在增强RAW到sRGB映射的色彩一致性。

Figure 3: The detailed architecture of our proposed histogram-guided color consistency module.

4.2.2.1. 色彩直方图预测器 (Color Histogram Predictor, $\mathcal{CHP}$ )

RAW 特征 $\mathcal{F}_r$ 被输入到设计的色彩直方图预测器 $\mathcal{CHP}(\cdot)$ 中，用于预测目标 sRGB 分布的色彩直方图 $\mathcal{H}$ 。 $\mathcal{H} = \mathcal{C}\mathcal{H}\mathcal{P}(\mathcal{F}_r)$ 其中 $\mathcal{H} \in \mathbb{R}^{N \times 256}$ ，表示 $N=3$ 个颜色通道（R、G、B）在 256 个像素值范围内的直方图。

4.2.2.2. 位置特定色彩特征 (Position-Specific Color Feature)

由于色彩直方图主要描述图像整体的颜色比例，不包含空间排列信息，因此需要结合 RAW 特征来提取位置特定色彩特征 $\mathcal{F}_c$ ： $\mathcal{F}_c = \mathrm{Conv}(\mathcal{H}) \times \mathcal{F}_r'$ 这里，Conv 表示一个卷积操作，用于将直方图 $\mathcal{H}$ 转换为与特征维度匹配的形式； $\mathcal{F}_r'$ 是经过重塑 (reshaped) 的 RAW 特征，以满足维度对齐要求； $\times$ 表示矩阵乘法，将直方图提供的全局色彩信息与 RAW 特征的空间信息结合起来。

4.2.2.3. 交叉注意力机制 (Cross-Attention Mechanism)

随后，HCCM 采用一个交叉注意力层 (cross-attention layer) 来利用估计的位置特定色彩特征 $\mathcal{F}_c$ 为灰度特征上色，将其转换为富含细节信息和一致色彩的 sRGB 特征 $\hat{\mathcal{F}}_s$ 。在该交叉注意力机制中：

查询向量 (Query) $q$ 来自于位置特定色彩特征 $\mathcal{F}_c$ 。
键向量 (Key) $k$ 和值向量 (Value) $v$ 则从原始灰度特征 $\hat{\mathcal{F}}_g$ 计算得到。通过这种方式，色彩信息能够有选择性地融入到灰度特征中，实现精细的着色。

4.2.2.4. 色彩一致性损失 (Color Consistency Loss)

为了促使 $\mathcal{CHP}(\cdot)$ 预测更准确的色彩直方图，设计了色彩一致性损失 $\mathcal{L}_{ccl}$ ，用于优化预测的直方图 $\mathcal{H}$ 与编码的真实 sRGB 特征 $\mathcal{F}_s$ 的色彩直方图 $\mathcal{H}_s$ 对齐： $\mathcal{L}_{ccl} = ||\mathcal{H} - \mathcal{H}_s||_2$

4.2.2.5. 特征损失 (Feature Loss)

此外，还采用了特征损失 $\mathcal{L}_{fea}$ 来约束重建的 sRGB 特征 $\hat{\mathcal{F}}_s$ 与真实的 sRGB 特征 $\mathcal{F}_s$ 接近： $\mathcal{L}_{fea} = ||\hat{\mathcal{F}}_s - \mathcal{F}_s||_2$

4.2.2.6. HCCM 总体目标函数

HCCM 的总体目标函数为： $\mathcal{L}_{hccm} = \mathcal{L}_{fea} + \lambda_2 \mathcal{L}_{ccl}$ 其中 $\lambda_2$ 是平衡两种损失的权重超参数。

4.2.3. 网络训练 (Network Training)

本文采用两阶段训练策略 (two-stage training strategy)：

第一阶段：使用配对的 RAW-sRGB 图像训练编码器 $\mathcal{E}(\cdot)$ 和解码器 $\mathcal{D}(\cdot)$ 。在此阶段，扩散模型 TADM 和 HCCM 的参数被冻结。编码器和解码器通过内容损失 $\mathcal{L}_{stage1}$ 进行优化： $\mathcal{L}_{stage1} = ||I - \mathcal{D}(\mathcal{E}(I))||_2$ 其中 $I$ 可以是输入 RAW 图像、sRGB 图像或灰度图像。这个阶段的目标是让编码器和解码器能够有效地在图像空间和潜在特征空间之间进行转换。
第二阶段：同时优化 TADM 和 HCCM，而编码器和解码器的参数被冻结。此阶段的总损失为： $\mathcal{L}_{stage2} = \mathcal{L}_{diff} + \mathcal{L}_{hccm}$ 这个阶段专注于学习细节重建和色彩一致性映射的核心任务。

5. 实验设置

5.1. 数据集

实验在两个公开可用的基准数据集上进行：

5.1.1. ZRR 数据集 (Ignatov et al. 2020b)

来源与特点：该数据集包含由华为 P20 捕获的 RAW 图像和由佳能相机捕获的 sRGB 图像。这种跨设备捕获导致了 RAW 和 sRGB 图像之间存在空间错位 (spatial misalignment)。RAW 图像是 10 位数据。
规模：
- 训练集：46.8k 对 RAW-sRGB 图像。
- 评估集：1.2k 对 RAW-sRGB 图像。

5.1.2. MAI 数据集 (Ignatov et al. 2021b)

来源与特点：该数据集旨在将由索尼 IMX586 捕获的 RAW 图像映射到富士相机的 sRGB 分布。RAW 图像是 12 位数据。
规模：由于 MAI 数据集的测试集缺乏真实 sRGB 图像 (GT sRGB images)，作者遵循 He et al. (2024b) 的做法，将训练集分割为：
- 训练集：90% (21.7k 对图像)。
- 评估集：10% (2.4k 对图像)。

5.2. 评估指标

本文采用了多种评估指标来全面衡量模型的性能，包括全参考失真指标和非参考感知指标。

5.2.1. 全参考失真指标 (Full-Reference Distortion Metrics)

这些指标需要真实图像 (Ground Truth, GT) 作为参考进行比较。

峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)
- 概念定义：PSNR 是衡量图像质量的经典指标，通过计算信号的最大可能功率与噪声功率的比值来评估图像失真程度。PSNR 值越高，表示图像失真越小，质量越好。它通常以分贝 (dB) 为单位。
- 数学公式： $\mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right)$ 其中，MSE 是均方误差 (Mean Squared Error)： $\mathrm{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2$
- 符号解释：
  - $\mathrm{MAX}_I^2$ ：图像可能的最大像素值。对于 8 位图像，通常为 $255^2$ 。
  - $\mathrm{MSE}$ ：原始图像 $I$ 和处理后图像 $K$ 之间的均方误差。
  - m, n：图像的行数和列数。
  - I(i,j)：原始图像在像素 (i,j) 处的像素值。
  - K(i,j)：处理后图像在像素 (i,j) 处的像素值。
结构相似性指数 (Structural Similarity Index Measure, SSIM)
- 概念定义：SSIM 是一种感知指标，旨在更好地模拟人眼对图像质量的感知。它从亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面衡量两幅图像的相似性。SSIM 值接近 1 表示图像非常相似，质量很好。
- 数学公式： $\mathrm{SSIM}(x,y) = [l(x,y)]^{\alpha} \cdot [c(x,y)]^{\beta} \cdot [s(x,y)]^{\gamma}$ 通常， $\alpha = \beta = \gamma = 1$ ，并且： $l(x,y) = \frac{2\mu_x\mu_y + C_1}{\mu_x^2 + \mu_y^2 + C_1}$ $c(x,y) = \frac{2\sigma_x\sigma_y + C_2}{\sigma_x^2 + \sigma_y^2 + C_2}$ $s(x,y) = \frac{\sigma_{xy} + C_3}{\sigma_x\sigma_y + C_3}$
- 符号解释：
  - x, y：待比较的两幅图像的像素块（通常是局部窗口）。
  - $\mu_x, \mu_y$ ：图像 $x$ 和 $y$ 的平均像素值。
  - $\sigma_x, \sigma_y$ ：图像 $x$ 和 $y$ 的标准差。
  - $\sigma_{xy}$ ：图像 $x$ 和 $y$ 的协方差。
  - $C_1, C_2, C_3$ ：为避免分母为零或过小而设置的常数，通常为 $(K_1 L)^2$ 和 $(K_2 L)^2$ ，其中 $L$ 是像素值的动态范围（如 255）， $K_1, K_2 \ll 1$ 。
学习感知图像块相似度 (Learned Perceptual Image Patch Similarity, LPIPS)
- 概念定义：LPIPS 是一种基于深度学习的感知指标，通过预训练的深度卷积网络（如 VGG、AlexNet）提取图像特征，然后计算这些特征之间的 L2 距离来衡量图像相似度。LPIPS 值越小，表示两幅图像在感知上越相似。它被认为与人类感知判断更一致。
- 数学公式： $\mathrm{LPIPS}(x, y) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \| w_l \odot (\phi_l(x)_{h,w} - \phi_l(y)_{h,w}) \|_2$
- 符号解释：
  - x, y：待比较的两幅图像。
  - $\phi_l(\cdot)$ ：预训练深度网络中第 $l$ 层的特征提取器。
  - $w_l$ ：对不同通道特征进行加权的向量。
  - $H_l, W_l$ ：第 $l$ 层特征图的高度和宽度。
  - $\odot$ ：元素级乘法。

5.2.2. 非参考感知指标 (Non-Reference Perceptual Metrics)

这些指标不需要真实图像作为参考，直接评估图像的视觉质量。

多尺度图像质量变换器 (Multi-scale Image Quality Transformer, MUSIQ) (Ke et al. 2021)
- 概念定义：MUSIQ 是一种基于 Transformer 架构的图像质量评估模型，能够从多个尺度捕获图像特征，并预测人类对图像质量的主观评分。MUSIQ 值越高，表示图像的感知质量越好。
- 数学公式：MUSIQ 没有一个简单的封闭数学公式，因为它是一个复杂的深度学习模型，其输出是根据训练数据（人类主观评分）学习得到的。其核心在于多尺度特征提取和 Transformer 的自注意力机制。
- 符号解释：作为一个深度学习模型，其内部机制涉及复杂的权重和激活函数。在输出层，它通常会预测一个标量值，代表图像的质量分数。
从语义到失真的图像质量评估 (A Top-Down Approach From Semantics to Distortions for Image Quality Assessment, TOPIQ) (Chen et al. 2024)
- 概念定义：TOPIQ 是一种从语义到失真自顶向下的图像质量评估方法，旨在综合考虑图像的语义内容和底层失真来评估其感知质量。TOPIQ 值越高，表示图像的感知质量越好。
- 数学公式：与 MUSIQ 类似，TOPIQ 也是一个复杂的深度学习模型，没有简单的数学公式。它可能包含语义理解模块和失真评估模块，最终结合输出一个质量分数。
- 符号解释：同 MUSIQ，其具体实现依赖于神经网络架构和训练过程。

5.3. 对比基线

为了全面评估 ISPDiffuser 的性能，本文将其与以下最先进的方法进行了比较：

PyNet (Ignatov et al. 2020b)
AWNet (Dai et al. 2020)：包括 AWNet-R (RAW 版本) 和 AWNet-D (demosaic 版本)。
MW-ISPNet (Ignatov et al. 2020)
LiteISPNet (Zhang et al. 2021)
FourierISP (He et al. 2024b)
DiffRAW (Yi et al. 2024)

这些基线模型代表了 RAW 到 sRGB 映射领域中基于 CNN 和近期基于扩散模型的主流方法。DiffRAW 的指标直接引用其论文结果，因为其源代码不可用。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定量比较

以下是原文 Table 1 的结果，展示了 ISPDiffuser 与其他方法在 ZRR 和 MAI 数据集上的定量性能比较（包括推理时间 Time 和三个全参考指标 PSNR、SSIM、LPIPS）。

以下是原文 Table 1 的结果：

Method	Time (ms)	ZRR (Original GT)			ZRR (Align GT with RAW)			MAI
Method	Time (ms)	PSNR ↑	SSIM ↑	LPIPS ↓	PSNR ↑	SSIM ↑	LPIPS ↓	PSNR ↑	SSIM ↑	LPIPS ↓
PyNet	62.7	21.19	0.747	0.193	22.73	0.845	0.152	23.81	0.848	0.139
AWNet-R	55.7	21.42	0.748	0.198	23.27	0.854	0.151	24.53	0.872	0.136
AWNet-D	62.7	21.53	0.749	0.212	23.38	0.850	0.164	24.64	0.866	0.147
MW-ISPNet	110.5	21.42	0.754	0.213	23.07	0.848	0.165	25.02	0.885	0.133
LiteISPNet	23.3	21.55	0.749	0.187	23.76	0.873	0.133	24.90	0.877	0.123
FourierISP	25.0	21.65	0.755	0.182	23.93	0.874	0.124	25.37	0.891	0.072
DiffRAW	-	21.31	0.743	0.145	-	-	-	-	-	-
ISPDiffuser (Ours)	490.0	21.77	0.754	0.157	24.09	0.881	0.111	25.64	0.894	0.071

ZRR 数据集：
- Original GT：在未对齐的原始 GT 设置下，ISPDiffuser 在 PSNR 方面以 21.77dB 优于 FourierISP (21.65dB)，成为最佳。在 SSIM 方面略低于 FourierISP，但在 LPIPS 方面（0.157）优于 FourierISP (0.182)，但略逊于 DiffRAW (0.145)。这表明在图像未对齐的情况下，ISPDiffuser 在感知质量上仍有竞争力。
- Align GT with RAW：在对齐后的 GT 设置下，ISPDiffuser 在所有三个指标上均表现最佳。PSNR (24.09dB) 优于 FourierISP (23.93dB) 0.16dB；SSIM (0.881) 和 LPIPS (0.111) 也优于 FourierISP (0.874, 0.124)。这表明 ISPDiffuser 在处理对齐良好的数据时，能够生成视觉质量更优的图像，更适合 RAW-to-sRGB 映射任务。
MAI 数据集：
- ISPDiffuser 在所有三个指标上均取得了最先进的性能：PSNR (25.64dB) 优于 FourierISP (25.37dB) 0.27dB；SSIM (0.894) 和 LPIPS (0.071) 也均是最高。这验证了 ISPDiffuser 强大的泛化能力和在不同数据集上的优越性。

推理时间 (Time)：值得注意的是，ISPDiffuser 的推理时间为 490.0ms，显著高于其他基于 CNN 的方法（如 FourierISP 25.0ms，LiteISPNet 23.3ms）。这反映了扩散模型固有的计算成本，是其主要局限性之一。

以下是原文 Table 2 的结果，展示了 ISPDiffuser 与其他方法在 ZRR 和 MAI 数据集上的非参考感知指标 (MUSIQ、TOPIQ) 比较。

Method	ZRR		MAI
Method	MUS. ↑	TOP. ↑	MUS. ↑	TOP. ↑
PyNet	43.796	0.362	39.823	0.445
AWNet-R	43.441	0.355	40.211	0.441
AWNet-D	45.100	0.362	39.839	0.432
MW-ISPNet	42.448	0.340	40.652	0.449
LiteISPNet	47.310	0.370	40.365	0.445
FourierISP	44.534	0.369	47.614	0.535
ISPDiffuser (Ours)	50.117	0.392	48.032	0.535

在 MUSIQ 和 TOPIQ 这两个非参考感知指标上，ISPDiffuser 在 ZRR 和 MAI 数据集上均取得了最佳性能，尤其是在 MUSIQ 方面有显著提升。这进一步证实了 ISPDiffuser 能够生成具有更优感知质量的图像，与人类视觉体验更一致。

6.1.2. 定性比较

原文 Figure 1 和 Figure 4 展示了 ISPDiffuser 与其他竞争方法的定性比较结果。

Figure 1: Visual comparison with the previous state-of-theart method FourierISP (He et al. 2024b). Our approach exhibits better local detail reconstruction (the red boxes show the content difference between generated images and GT images) and global color consistency mapping capabilities. 该图像是比较不同方法生成的图像的插图，包括原始 RAW 图像、FourierISP 方法生成的图像、我们的方法生成的图像和真实图像（GT）。通过红框标示的区域显示了生成图像与真实图像的内容差异，表明我们的方法在局部细节重建和全局色彩一致性方面表现更佳。

该图像是示意图，展示了本研究中不同方法在RAW至sRGB映射任务中的输出结果，包括GT图像和各个模型的错误图。图中通过比较不同方法的表现，突出显示了我们的算法在处理细节方面的优越性。

l generated sRGB images and the GT images, the darker the better. Best viewed by zooming in.

细节重建：从 Figure 1 和 Figure 4 中红色框内的细节对比可以看出，ISPDiffuser 能够生成更清晰、更锐利的细节。相比之下，PyNet、AWNet 等方法生成的图像细节模糊，甚至出现伪影。MW-ISPNet、LiteISPNet 和 FourierISP 虽有改进，但在复杂纹理区域（如 Figure 4 中的树叶、文字）仍存在不足。ISPDiffuser 的结果更接近 GT 图像，尤其是在复杂纹理和精细结构上表现更佳。
色彩一致性：ISPDiffuser 生成的图像具有更准确和生动的色彩表现。其他方法，如 PyNet 和 AWNet，经常出现色彩偏差和失真。即使是 FourierISP 这种先进方法，在某些区域也存在色彩不自然的问题（如 Figure 1 中的天空颜色）。ISPDiffuser 能够有效捕捉和再现准确、鲜艳的色彩，使得图像视觉上更令人愉悦。
误差图：Figure 4 下方的误差图（generated sRGB images and the GT images, the darker the better）直观地显示了生成图像与 GT 图像之间的内容差异。ISPDiffuser 的误差图通常更暗，表明其输出与 GT 图像的差异最小，进一步验证了其优越性。

6.1.3. 用户研究

原文 Figure 5 展示了用户研究的评分分布。

Figure 5: Score distributions of user study, where the ordinate axis records the rating frequency received from the 26 participants. Our method receives more "best" ratings. 该图像是图表，展示了用户研究中不同方法的评分分布。纵轴记录了来自26名参与者的评分频率，结果显示我们的算法获得了更多的 "最佳" 评分。

Figure 5: Score distributions of user study, where the ordinate axis records the rating frequency received from the 26 participants. Our method receives more "best" ratings.

设置：研究从 ZRR 和 MAI 测试集中随机选取 20 张图像，邀请 26 名参与者对 AWNet-D、MW-ISPNet、LiteISPNet、FourierISP 和 ISPDiffuser 五种方法的输出进行主观偏好评估。参与者根据局部细节和全局色彩的感知质量，将结果从 1（最佳）到 5（最差）进行排名。
结果：ISPDiffuser 获得了最多的“最佳”评分 (评分 1)，远超其他竞争方法。这表明人类受试者普遍认为 ISPDiffuser 生成的图像在感知质量上更优。

6.2. 消融实验/参数分析

6.2.1. 框架消融实验

为了验证所提出的解耦框架和 HCCM 模块的有效性，进行了消融研究。定量结果在 ZRR 数据集（Original GT 设置）上进行报告。

以下是原文 Table 3 的结果：

Methods	Decouple	PSNR ↑	SSIM ↑	LPIPS ↓
Baseline		20.12	0.731	0.208
+DDColor	✓	18.83	0.711	0.293
+ColorFormer	✓	19.24	0.716	0.278
+HCCM	✓	20.93	0.740	0.204

解耦框架的有效性：
- Baseline：仅使用 TADM 直接在图像空间进行 RAW 到 sRGB 映射（即不进行解耦），输入 sRGB 图像，RAW 图像作为条件。结果显示 PSNR 为 20.12，SSIM 为 0.731，LPIPS 为 0.208。
- 原文 Figure 6(b) 视觉结果显示，未解耦的基线模型在细节重建和色彩映射同时处理时，会导致糟糕的清晰度、不正确的曝光和色彩失真。
- 相比之下，当采用解耦框架（在灰度空间进行细节重建，再由 HCCM 进行着色）时，性能显著提升，如第 4 行（ $+HCCM$ ）所示。这证明了将细节重建和色彩映射分离处理的有效性。
HCCM 模块的有效性：
- 为了验证 HCCM，将其替换为两个现有的最先进自动图像着色方法：DDColor (Kang et al. 2023) 和 ColorFormer (Ji et al. 2022)。
- $+DDColor$ 和 $+ColorFormer$ ：将这些方法集成到解耦框架中后，它们的性能均低于 Baseline 模型，并且远低于 $+HCCM$ 。这表明通用着色方法可能无法很好地适应 RAW-to-sRGB 转换的特定需求。
- $+HCCM$ ：使用本文提出的 HCCM 模块后，模型在所有指标上均优于其他着色方法，并实现了显著的性能提升 (PSNR 20.93，SSIM 0.740，LPIPS 0.204)。
- 原文 Figure 6(c) 和 (d) 的视觉对比也显示，ColorFormer 生成的 sRGB 图像存在整体色彩差异，而 HCCM 生成的结果具有更准确和一致的色彩。
- 视觉效果：原文 Figure 6 提供了框架和 HCCM 模块消融研究的视觉结果。
  
  该图像是图表，展示了我们提出的框架和 HCCM 模块的消融研究的视觉结果。上方显示了不同方法生成的图像，下方为对应的色彩直方图，标记了 GT、Baseline、ColorFormer 和 HCCM 的效果对比。

Figure 6: Visual results of the ablation study about our proposed framework and HCCM module. The second row showcases the color histogram of the image.

6.2.2. 损失函数消融实验

为了验证所提出的纹理增强损失 $\mathcal{L}_{tel}$ 和色彩一致性损失 $\mathcal{L}_{ccl}$ 的有效性，在默认设置下，分别移除了这两个组件。定量结果在 ZRR 数据集（Original GT 设置）上进行报告。

以下是原文 Table 4 的结果：

Ltel	Lccl	PSNR ↑	SSIM ↑	LPIPS ↓
		21.30	0.736	0.161
√		21.33	0.751	0.156
	✓	21.62	0.750	0.158
√	✓	21.77	0.754	0.157

移除所有损失：第一行结果显示，如果同时移除 $\mathcal{L}_{tel}$ 和 $\mathcal{L}_{ccl}$ ，模型性能会整体下降。
色彩一致性损失 ( $\mathcal{L}_{ccl}$ )：
- 当移除 $\mathcal{L}_{ccl}$ （第二行，只有 $\mathcal{L}_{tel}$ ）时，PSNR 为 21.33，SSIM 为 0.751，LPIPS 为 0.156。与默认设置（第四行）相比，PSNR 和 SSIM 均有所下降。
- 原文 Figure 7(b) 和 (d) 的视觉对比显示，包含 $\mathcal{L}_{ccl}$ 有助于纠正全局色彩失真，生成更令人满意的结果。这表明 $\mathcal{L}_{ccl}$ 确实能够引导 HCCM 生成具有鲜艳色彩的 sRGB 特征，提高恢复图像的视觉保真度。
纹理增强损失 ( $\mathcal{L}_{tel}$ )：
- 当移除 $\mathcal{L}_{tel}$ （第三行，只有 $\mathcal{L}_{ccl}$ ）时，PSNR 为 21.62，SSIM 为 0.750，LPIPS 为 0.158。与默认设置（第四行）相比，PSNR 和 SSIM 均有所下降。
- 原文 Figure 7(c) 和 (d) 的视觉对比显示，包含 $\mathcal{L}_{tel}$ 有助于生成具有更丰富纹理信息的图像，从而在失真指标方面取得显著改进。
结论：两种损失函数都对模型的性能提升起到了关键作用。它们的协同作用使得 ISPDiffuser 能够同时实现出色的细节重建和准确的色彩映射。
视觉效果：原文 Figure 7 提供了损失函数消融研究的视觉结果。

$Figure 7: Visual results of the ablation study about our proposed texture enrichment loss $\\mathcal { L } _ { t e l }$ and color consistency loss $\\mathcal { L } _ { c c l }$ . 'w/o' denotes without.$ 该图像是示意图，展示了我们提出的纹理增强损失 $\mathcal{L}_{tel}$ 和颜色一致性损失 $\mathcal{L}_{ccl}$ 的消融研究结果。图中包含四个部分，分别为真实图像（GT）、去掉颜色一致性损失（w/o $\mathcal{L}_{ccl}$ ）、去掉纹理增强损失（w/o $\mathcal{L}_{tel}$ ）和默认设置（Default），每个部分的下方均有放大区域的细节展示。

Figure 7: Visual results of the ablation study about our proposed texture enrichment loss $\\mathcal { L } _ { t e l }$ and color consistency loss $\\mathcal { L } _ { c c l }$ . 'w/o' denotes without.

7. 总结与思考

7.1. 结论总结

本文提出了 ISPDiffuser，一个创新的基于扩散的解耦框架，用于解决 RAW 到 sRGB 映射任务中的细节差异和色彩失真问题。其核心在于将任务分解为灰度空间中的细节重建和从灰度到 sRGB 的色彩一致性映射。 ISPDiffuser 引入了两个关键模块：

纹理感知扩散模型 (TADM)：利用扩散模型强大的生成能力，专注于重建图像的精细细节。通过引入纹理增强损失，进一步促使模型生成更复杂、更真实的纹理。
直方图引导色彩一致性模块 (HCCM)：利用色彩直方图作为全局色彩分布的指导，学习精确的色彩信息，并结合色彩一致性损失，确保生成的 sRGB 图像具有与真实 DSLR 图像一致的鲜艳色彩。通过在 ZRR 和 MAI 等标准数据集上的广泛实验，ISPDiffuser 在 PSNR、SSIM、LPIPS 等全参考指标以及 MUSIQ、TOPIQ 等非参考感知指标上均超越了现有的最先进方法，并在用户研究中获得了最高的偏好评分。定性结果也表明 ISPDiffuser 能够生成具有更清晰细节和更准确色彩的图像。

7.2. 局限性与未来工作

论文作者指出了以下局限性和未来研究方向：

泛化能力：尽管方法有效，但其对不同天气、光照和设备的泛化能力仍受限于特定相机训练数据。未来需要构建更具多样性的数据集来提升模型的鲁棒性。
推理效率：由于扩散模型依赖迭代去噪过程，ISPDiffuser 的推理效率远低于一些轻量级方法。这限制了其在实时应用（如相机内置 ISP 管线）中的部署潜力。
未来工作：作者计划探索更有效的采样策略，如 DPM-Solver (Lu et al. 2022) 和一致性模型 (Consistency Model) (Song et al. 2023)，以提高推理效率。同时，他们也将继续研究如何增强方法的泛化性。

7.3. 个人启发与批判

7.3.1. 个人启发

解耦思想的有效性：该论文最大的启发在于其解耦策略。对于像 RAW 到 sRGB 映射这样涉及多个复杂视觉属性（细节、颜色、曝光）的任务，将它们分解为更易于管理和优化的子任务，可以有效提高模型性能。这在其他多目标图像生成或处理任务中也可能是一种有益的范式。
利用扩散模型优势：扩散模型在生成高频细节方面的强大能力被充分利用在灰度细节重建阶段，避免了其在低频色彩处理上的不足。这提醒我们，在应用生成模型时，应根据其固有特性选择合适的任务或设计相应的辅助机制。
结合领域知识：HCCM 中引入色彩直方图作为指导，是结合传统图像处理领域知识（色彩统计特性）来辅助深度学习模型的典范。这种将可解释的、全局性的领域特征作为条件或引导的方式，可以有效提升模型在特定属性上的表现，并提供更好的可控性。
损失函数的精细设计：纹理增强损失和色彩一致性损失的引入，分别从细节和颜色两个关键维度对生成过程进行显式约束，是模型取得成功的关键。这表明，针对具体任务痛点设计的专用损失函数，往往比通用损失函数更为有效。

7.3.2. 批判

推理效率问题：尽管论文指出了扩散模型推理速度慢的局限性并提出了未来改进方向，但目前来看，490ms 的推理时间对于智能手机的实时 ISP 而言是无法接受的。这使得该方法更适用于离线处理或对速度要求不高的场景。未来在保持质量的前提下大幅提升速度是其商业化落地的关键挑战。
Canny 边缘检测器的局限性：在 TADM 中使用传统的 Canny 边缘检测器来提取纹理图并计算纹理增强损失，虽然简单有效，但 Canny 算法对噪声敏感，且阈值选择可能影响纹理提取的准确性。未来可以考虑使用基于深度学习的边缘检测器或更鲁棒的纹理特征提取方法来替代，以进一步提高纹理细节的质量。
色彩直方图的表示：色彩直方图虽然提供了全局颜色分布，但忽略了空间信息。尽管论文通过 $Conv(H) x F_r'$ 的方式尝试引入空间感知，但这种组合方式的有效性以及是否存在更优的、更具空间感知的颜色表示形式值得进一步探索。例如，是否可以从语义分割或场景理解的角度，对不同区域进行不同的色彩校正。
数据集的单一性：尽管使用了 ZRR 和 MAI 两个数据集，但它们都聚焦于特定手机（华为 P20, 索尼 IMX586）到特定相机（佳能, 富士）的映射。这种“一对一”的映射学习，可能导致模型在面对更多样化的手机传感器、ISP 风格或极端场景（如低光、复杂高光）时泛化能力不足。未来的研究应关注构建更具多样性的、跨厂商、跨场景的大规模数据集。
缺乏对噪声的显式处理：RAW 数据通常含有大量噪声。论文中提到的 ISP 管线包含去噪，但 ISPDiffuser 框架中，细节重建阶段主要关注纹理，色彩一致性关注颜色。虽然扩散模型本身具有去噪能力，但文章并未详细阐述其如何显式处理 RAW 噪声，以及这是否与去噪模块的效果相匹配。

ISPDiffuser: Learning RAW-to-sRGB Mappings with Texture-Aware Diffusion Models and Histogram-Guided Color Consistency

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 35 分钟读完 · 22,677 字