摘要

DiffRAW: Leveraging Diffusion Model to Generate DSLR-Comparable Perceptual Quality sRGB from Smartphone RAW Images Mingxin Yi 1 , Kai Zhang 1,3 ∗ , Pei Liu 2 , Tanli Zuo 2 , Jingduo Tian 2* 1 Tsinghua Shenzhen International Graduate School, Tsinghua University, China 2 Media Technology Lab, Huawei, China 3 Research Institute of Tsinghua, Pearl River Delta ymx21@mails.tsinghua.edu.cn, zhangkai@sz.tsinghua.edu.cn, { liupei55,zuotanli,tianjingduo } @huawei.com Abstract Deriving DSLR-quality sRGB images from smartphone RAW images has become a compelling challenge due to discernible detail disparity, color mapping instability, and spatial misalignment in RAW-sRGB data pairs. We present DiffRAW, a novel method that incorporates the diffusion model for the first time in learning…

1. 论文基本信息

1.1. 标题

DiffRAW: Leveraging Diffusion Model to Generate DSLR-Comparable Perceptual Quality sRGB from Smartphone RAW Images

1.2. 作者

Mingxin Yi (清华大学深圳国际研究生院)
Kai Zhang (清华大学深圳国际研究生院, 清华大学珠三角研究院)
Pei Liu (华为媒体技术实验室)
Tanli Zuo (华为媒体技术实验室)
Jingduo Tian (华为媒体技术实验室)

1.3. 发表期刊/会议

未明确提及，但论文格式和内容表明其为学术会议或期刊论文。根据页眉 "The Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI-24)"，可知其发表于 AAAI 2024。AAAI Conference on Artificial Intelligence 是人工智能领域享有盛誉的顶级会议之一。

1.4. 发表年份

2024年

1.5. 摘要

将智能手机 RAW 图像转换为可与数码单反相机 (DSLR) 相媲美的感知质量 sRGB 图像，一直是一个具有挑战性的任务。这主要由于细节差异显著、色彩映射不稳定以及 RAW-sRGB 数据对中的空间未对齐问题。本文提出了 DiffRAW，一种首次将扩散模型 (diffusion model) 引入 RAW-to-sRGB 映射学习的新方法。DiffRAW 利用扩散模型有效学习 DSLR 图像的高质量细节分布，从而增强输出图像的细节。同时，它将 RAW 图像作为扩散条件 (diffusion condition) 来维持图像的轮廓和纹理等结构信息。为了减轻训练数据对中色彩和空间未对齐造成的干扰，DiffRAW 嵌入了色彩-位置保持条件 (color-position preserving condition)，确保输出图像不会出现色彩偏差和像素偏移问题。为了加速 DiffRAW 的推理过程，作者设计了一种高效的扩散过程及其对应的反向过程，称为域转换扩散方法 (Domain Transform Diffusion Method)。该方法能够减少基于扩散模型的图像恢复/增强算法所需的推理步骤，同时提升生成图像的质量。在 ZRR 数据集上的评估表明，DiffRAW 在所有感知质量指标 (如 LPIPS, FID, MUSIQ) 上均表现出最先进的 (state-of-the-art) 性能，并在 PSNR 和 SSIM 上取得了可比的结果。

1.6. 原文链接

/files/papers/692655157b21625c663f25cf/paper.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

论文旨在解决的核心问题是如何从智能手机 RAW 图像生成具有数码单反相机 (DSLR) 级别感知质量的 sRGB 图像。

2.1.2. 问题重要性与现有挑战

重要性: 随着移动摄影的快速发展，智能手机已成为主要的照片拍摄设备。然而，由于智能手机相机在硬件（如光圈大小、传感器尺寸）上的限制，其拍摄的图像质量与专业 DSLR 相机相比仍存在显著差距。弥合这一差距对于提升移动摄影的用户体验至关重要。
现有挑战 (Gap):
1. 细节差异 (Detail Disparity): 智能手机的硬件限制导致其 RAW 图像在细节上不如 DSLR sRGB 图像丰富。从细节损失的 RAW 图像重建 DSLR 级别的 sRGB 图像是一个病态问题 (ill-posed problem)。
2. 色彩映射不稳定 (Color Mapping Instability): 智能手机 RAW 图像和 DSLR sRGB 图像在不同环境条件和相机参数下采集，导致它们之间存在色彩差异和不稳定的色彩映射关系。
3. 空间未对齐 (Spatial Misalignment): 数据对（智能手机 RAW 和 DSLR sRGB）通常是从不同设备采集并粗略对齐的，这不可避免地导致数据对之间存在非精确的空间未对齐问题。这种未对齐可能导致模型学习到模糊或像素偏移的伪影。

2.1.3. 论文切入点与创新思路

针对上述挑战，本文提出了 DiffRAW 模型，其核心创新思路在于：

首次引入扩散模型 (Diffusion Model): 将扩散模型引入 RAW-to-sRGB 映射任务，利用其强大的细节生成能力学习 DSLR 图像的高质量细节分布。
条件扩散 (Conditional Diffusion):
- 使用智能手机 RAW 图像作为扩散条件，专注于保留图像的结构信息（如轮廓和纹理），而不依赖其细节，从而避免 RAW 图像的细节损失对生成结果造成干扰。
- 引入色彩-位置保持条件 (color-position preserving condition)，以应对训练数据对中存在的色彩和空间未对齐问题，确保输出图像的色彩一致性并避免像素偏移。
高效扩散过程 (Efficient Diffusion Process): 设计了一种新颖的域转换扩散方法 (Domain Transform Diffusion Method, DTDM)，包括其前向和反向过程。DTDM 旨在减少扩散模型推理所需的迭代步骤，同时有效提升生成图像的质量。

2.2. 核心贡献/主要发现

本文的主要贡献总结如下：

提出了域转换扩散方法 (Domain Transform Diffusion Method, DTDM): 这是一种新颖高效的前向和反向扩散过程，能够减少推理阶段所需的迭代步骤，同时提高生成图像的质量。DTDM 是一种通用的加速方法，可灵活应用于其他基于扩散模型的图像恢复/增强算法。
首次将扩散模型应用于 RAW-to-sRGB 映射任务: 提出了 DiffRAW 模型，并在感知质量指标上取得了最先进的 (state-of-the-art) 结果。
创新性地使用 RAW 图像作为扩散条件: 首次将 RAW 图像作为条件，以保留生成图像中的纹理和轮廓等结构信息。
设计了色彩-位置保持条件 (Color-Position Preserving Condition): 通过特殊设计的条件，缓解了训练数据对中色彩和空间未对齐导致的训练干扰，确保模型生成的图像不产生色彩偏差和像素偏移。DiffRAW 还具有“色彩可插拔”特性，通过注入不同色彩表示的色彩-位置保持条件，可以灵活调整生成图像的色彩风格。
在 ZRR 数据集上取得卓越性能: DiffRAW 在所有感知质量指标 (如 LPIPS, FID, MUSIQ) 上均优于现有最先进方法，并在 PSNR 和 SSIM 上取得了可比的结果。值得注意的是，DiffRAW 首次在无参考图像质量评估 (no-reference IQA) 指标上达到了与 DSLR 图像相当的水平。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 扩散模型 (Diffusion Model)

扩散模型 (diffusion model) 是一类生成模型，它通过模拟一个逐渐向数据添加噪声的“前向扩散过程”，然后学习一个“反向去噪过程”来生成新的数据样本。其核心思想是将复杂的真实数据分布转换为简单的噪声分布（通常是高斯噪声），然后学习如何反转这个过程，从噪声中恢复数据。

前向过程 (Forward Process):
- 该过程逐步向原始数据 $y_0$ （例如一张真实图像）添加高斯噪声。
- 在 $T$ 个时间步 (time step) 中，原始图像 $y_0$ 逐渐变为一系列带噪声的图像 $y_1, y_2, \dots, y_T$ 。
- 每一步 $t$ ， $y_{t-1}$ 变为 $y_t$ 的过程由一个高斯分布定义： $q ( y _ { t } | y _ { t - 1 } ) = \mathcal { N } ( y _ { t } ; \sqrt { 1 - \beta _ { t } } y _ { t - 1 } , \beta _ { t } I )$ 其中， $\mathcal{N}$ 表示高斯分布， $\beta_t$ 是预定义的方差调度参数 (variance schedule)，通常在 $(0, 1)$ 之间。
- 通过定义 $\alpha_t = 1 - \beta_t$ 和 $\bar{\alpha}_t = \prod_{i=1}^{t} \alpha_i$ ，可以直接从 $y_0$ 采样出任意时间步 $t$ 的 $y_t$ ： $q ( y _ { t } | y _ { 0 } ) = \mathcal N ( y _ { t } ; \sqrt { \overline { { \alpha } } _ { t } } y _ { 0 } , ( 1 - \overline { { \alpha } } _ { t } ) I )$ 这个公式表明， $y_t$ 可以被看作是 $y_0$ 和一个标准高斯噪声 $\epsilon$ 的加权和，即 $y_t = \sqrt{\bar{\alpha}_t} y_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon$ ，其中 $\epsilon \sim \mathcal{N}(0, I)$ 。随着 $t$ 增大， $\bar{\alpha}_t$ 单调递减， $y_t$ 越来越接近纯噪声。
训练过程 (Training Process):
- 训练的目标是学习一个去噪网络 $f_\theta(y_t, t)$ ，该网络能够预测在给定 $y_t$ 和时间步 $t$ 的情况下，添加到 $y_0$ 上的噪声 $\epsilon$ 。
- 通常使用一个 U-Net 架构作为去噪网络。
- 损失函数 (loss function) 鼓励网络准确预测噪声： $L ( \theta ) = \mathbb { E } _ { y _ { 0 } , t , \epsilon } \| f _ { \theta } ( y _ { t } , t ) - \epsilon \| ^ { 2 }$ 其中 $\theta$ 是 U-Net 网络的参数。
反向过程 (Reverse Process) / 推理 (Inference):
- 训练完成后，从随机采样的纯高斯噪声 $y_T \sim \mathcal{N}(0, I)$ 开始，逐步逆转前向过程，迭代地从 $y_t$ 估计 $y_{t-1}$ ，直到生成最终的无噪声图像 $y_0$ 。
- 每一步的反向过程由一个高斯分布建模： $p _ { \theta } ( y _ { t - 1 } | y _ { t } ) = \mathcal { N } ( y _ { t - 1 } ; \mu _ { \theta } ( y _ { t } , t ) , \sigma _ { t } ^ { 2 } I )$ 其中 $\sigma_t$ 是预定义的常数， $\mu_\theta(y_t, t)$ 是由训练好的去噪网络 $f_\theta(y_t, t)$ 估计的均值： $\mu _ { \theta } ( y _ { t } , t ) = \frac { 1 } { \sqrt { \alpha _ { t } } } ( y _ { t } - \frac { 1 - \alpha _ { t } } { \sqrt { 1 - \overline { { \alpha _ { t } } } } } f _ { \theta } ( y _ { t } , t ) )$
- 通过 $T$ 次迭代，最终得到生成的图像 $\hat{y}_0$ 。

3.1.2. 条件扩散模型 (Conditional Diffusion Model)

在图像恢复/增强任务中，扩散模型通常需要一个低质量 (Low Quality, LQ) 图像 $x$ 作为条件，来引导生成高质量 (High Quality, HQ) 图像 $y$ 。

前向过程仍是对 HQ 图像 $y$ 添加噪声： $\{ y _ { t } = \sqrt { \overline { { \alpha _ { t } } } } y + \sqrt { 1 - \overline { { \alpha } } _ { t } } \epsilon \} _ { t = 1 } ^ { T }$ 。
训练时，将 LQ 图像 $x$ 作为条件注入到 U-Net 网络中，即 $f _ { \theta } ( y _ { t } , x , t )$ ，使其学习条件分布 $p(y|x)$ 下的噪声 $\epsilon$ 。
推理时，均值 $\mu_\theta(y_t, x, t)$ 的计算也依赖于条件 $x$ ： $\mu _ { \theta } ( y _ { t } , x , t ) = \frac { 1 } { \sqrt { \alpha _ { t } } } ( y _ { t } - \frac { 1 - \alpha _ { t } } { \sqrt { 1 - \overline { { \alpha } } _ { t } } } f _ { \theta } ( y _ { t } , x , t ) )$ 从 $y_T \sim \mathcal{N}(0, I)$ 开始，迭代 $T$ 步即可生成目标图像 $y$ 。

3.2. 前人工作

3.2.1. 深度学习 `ISP` 网络 (Deep Learning-based ISP Networks)

背景: 传统图像信号处理 (Image Signal Processing, ISP) 流水线由一系列手动设计的低级视觉操作组成（如去马赛克、白平衡、色彩校正、去噪、伽马校正等）。随着深度学习的发展，研究者开始探索端到端 (end-to-end) 的 ISP 算法。
代表工作:
- PyNet (Ignatov et al., 2020): 利用华为 P20 智能手机和佳能 5D Mark IV DSLR 采集的 RAW-sRGB 数据集，设计了一个端到端 ISP 网络来取代智能手机内置的传统 ISP。
- AWNet (Dai et al., 2020): 引入全局上下文块 (global context block) 以减轻图像未对齐的影响。
- CoBi Loss (Zhang et al., 2019): 提出上下文双边损失 (contextual bilateral loss)，寻找最佳匹配块进行监督，部分缓解了数据未对齐问题，但未能完全解决由物体深度变化引起的空间位移。
- LiteISPNet (Zhang et al., 2021): 设计了抗色彩偏移的 GCM 模块，并引入了一个轻量级光流对齐模块 (lightflow alignment module)，将 DSLR sRGB 图像与移动设备坐标系同步，有效减轻了训练数据未对齐导致的输出图像模糊和偏移问题。
- Perceiver 架构 (Shekhar Tripathi et al., 2022): 利用基于 Perceiver 架构的色彩预测网络来解决移动 RAW 图像和 DSLR 图像之间显著的色彩差异。

3.2.2. 扩散模型 (Diffusion Model)

起源与发展: 扩散模型最初由 Sohl-Dickstein et al. (2015) 提出，灵感来源于非平衡统计物理学。Ho et al. (2020) 建立了扩散模型与去噪分数匹配 (denoising score matching) 的联系，大大推动了其发展。Song et al. (2020) 通过随机微分方程 (Stochastic Differential Equations, SDEs) 提出了统一的扩散模型框架。
图像生成与编辑: 扩散模型在图像生成和编辑领域已超越生成对抗网络 (GANs)，成为最先进的方法，以其卓越的复杂细节生成能力著称。
相关工作: 与 DiffRAW 类似，一些同期工作也利用了类似的扩散过程来解决图像恢复问题，但采用了不同的数学公式。例如，Delbracio 和 Milanfar (2023) 使用直接迭代反演 (Inversion by Direct Iteration, InDI) 对过程进行建模，而 Luo et al. (2023) 和 Liu et al. (2023) 则尝试将其表达为 SDE。

3.3. 技术演进

RAW-to-sRGB 转换领域从最初的传统 ISP 流水线，发展到基于深度学习的端到端网络，再到如今引入生成模型（如扩散模型）。早期的深度学习方法主要关注如何通过神经网络模拟 ISP 流程，或解决数据对齐、色彩一致性等挑战。DiffRAW 则代表了该领域的最新进展，它将扩散模型强大的细节生成能力与针对 RAW-sRGB 转换特有问题的条件控制相结合，旨在从根本上提升生成图像的感知质量，使其真正达到 DSLR 级别。

3.4. 差异化分析

与传统 ISP 网络 (如 PyNet, MW-ISPNet, LiteISPNet) 相比: 传统 ISP 网络通常通过学习一个映射函数来直接转换图像，这类方法在处理细节损失和不稳定的色彩映射时容易受到限制，且可能因为数据未对齐导致模糊和伪影。DiffRAW 引入扩散模型，通过学习高质量图像的细节分布而非直接映射，能更好地重建细节。此外，它通过专门设计的条件机制（RAW 条件和色彩-位置保持条件）更有效地应对未对齐和色彩偏差问题。
与通用扩散模型相比: DiffRAW 的创新点在于将扩散模型首次应用于 RAW-to-sRGB 转换这一特定任务，并针对该任务的特点（需要保留结构、避免细节损失、处理色彩/空间未对齐）设计了独特的条件机制。更重要的是，它提出了域转换扩散方法 (DTDM)，解决了扩散模型推理速度慢的问题，并在不牺牲质量的前提下显著减少了迭代步骤，这对于实际应用至关重要。传统的扩散模型在图像恢复任务中通常需要大量迭代才能达到高重建质量，而 DTDM 在每次迭代中不仅去噪，还进行从低质量域到高质量域的转换，从而实现更高效的细节增强。

4. 方法论

本节将详细阐述 DiffRAW 的方法论，包括其如何利用智能手机 RAW 图像作为条件，如何通过色彩-位置保持条件处理数据对齐问题，以及其核心创新——域转换扩散方法 (DTDM)。

4.1. `RAW` 条件 (RAW Condition)

DiffRAW 将智能手机 RAW 图像 $w$ 作为扩散过程的一个条件。这个条件的引入旨在：

保留图像结构信息: 确保生成的图像能够维持原始 RAW 图像的轮廓 (contours) 和纹理 (textures)。
避免细节干扰: DiffRAW 明确不依赖 RAW 图像提供复杂的细节。这是因为智能手机 RAW 图像本身就存在细节损失，如果模型依赖它来重建细节，可能会将这些损失传播到最终生成的 sRGB 图像中。
结合优势: 通过 RAW 图像的结构信息和扩散模型学习到的 DSLR 级别的高质量细节分布，DiffRAW 能够生成既保持原始构图又具有 DSLR 质量细节的图像。

4.2. 色彩-位置保持条件 (Color-Position Preserving Condition)

为了应对智能手机 RAW 图像 $w$ 与目标 DSLR sRGB 图像 $y$ 之间不稳定的色彩映射关系和空间未对齐问题，DiffRAW 嵌入了一个色彩-位置保持条件 $c$ 。这个条件的目标是确保输出图像没有色彩偏差 (color biases) 和像素偏移 (pixel shift) 问题。

4.2.1. 条件的生成

训练阶段 ( $c^{train}$ ): 在训练过程中， $c^{train}$ 是通过对目标 DSLR sRGB 图像 $y$ 使用一个高阶退化模型 (high-order degradation model) $\mathcal{D}^2$ 进行退化得到的： $c^{train} = \mathcal{D}^2(y)$ 作者对高阶退化模型 $\mathcal{D}^2$ 的参数和退化方法进行了微调，以确保 $c^{train}$ 和 $y$ 之间在色彩上严格一致 (strict color consistency)。由于 $c^{train}$ 和 $y$ 在训练时是色彩一致且空间对齐的，DiffRAW 可以有效地学习条件分布 $p(y|c, w)$ 中 $c$ 和 $y$ 之间的色彩和空间一致性。
测试阶段 ( $c^{test}$ ): 在测试过程中，为了向模型注入色彩信息，DiffRAW 使用一个预训练的色彩提取网络 (color extraction network) $\mathcal{G}(w; \Theta_\mathcal{G})$ 从智能手机 RAW 图像 $w$ 中提取一个自然色彩的 sRGB 图像作为 $c^{test}$ ： $c^{test} = \mathcal{G}(w; \Theta_\mathcal{G})$ 作者指出，色彩提取网络 $\mathcal{G}$ 可以是任何能够从 RAW 图像中提取色彩信息的预训练 ISP 网络，例如 LiteISPNet (本文采用)、PyNet、MWISPNet 等。 $c^{test}$ 的主要功能是注入色彩信息，生成的图像将与 $c^{test}$ 保持色彩一致性。

4.2.2. 作用机制

通过引入 $c$ 条件，DiffRAW 能够学习 $y$ 与 $c$ 之间的精确色彩和空间关系。这意味着，在推理时，即使 RAW 图像 $w$ 与真实的 DSLR sRGB 图像 $y$ 存在未对齐或色彩偏差，模型也能利用 $c^{test}$ 提供一个稳定、对齐的色彩和空间参考，从而避免生成结果出现色彩偏差和像素偏移。此外，这种设计还使得模型具有“色彩可插拔”特性，通过改变 $c^{test}$ 的色彩，可以灵活调整生成图像的色彩风格。

4.3. 域转换扩散方法 (Domain Transform Diffusion Method, DTDM)

传统的扩散模型在推理时通常需要大量的迭代步骤 (例如 $T$ 步) 来从纯噪声中生成图像，这导致推理速度较慢。为了加速推理并增强细节，DiffRAW 提出了域转换扩散方法 (DTDM)。

4.3.1. 基本思路

在传统的条件扩散模型中，推理从 $y_T \sim \mathcal{N}(0, I)$ 开始，迭代 $T$ 步生成 $y_0$ 。如果直接从一个低质量图像 $x$ 的带噪声版本 $x_s$ 开始，可以减少迭代步骤 $s$ 。但当 $s$ 过小，即迭代次数过少时， $x_s$ 和目标 $y_s$ 之间可能存在较大的域间隙 (domain gap)，导致训练与测试不一致，细节增强效果减弱。

DTDM 的核心思想是构建一个特殊的图像扩散序列 $\{m_t\}_{t=0}^s$ ，使得 $m_0 = y$ （目标高质量图像）而 $m_s = x_s$ （带噪声的低质量图像 $x$ ）。这样，在反向过程中，模型不仅进行去噪，还同时进行从 $x$ 域到 $y$ 域的转换，从而在更少的迭代步骤内实现更好的细节增强。

为了表示方便，定义 $x$ 为低质量图像。在训练阶段， $x$ 是 DSLR 退化后的图像 $\mathcal{D}^2(y)$ ；在测试阶段， $x$ 是色彩提取网络 $\mathcal{G}(w; \Theta_\mathcal{G})$ 的输出 $c^{test}$ 。 $\boldsymbol { x } ^ { train } = \mathcal { D } ^ { 2 } ( \boldsymbol { y } ) , \boldsymbol { x } ^ { test } = \mathcal { G } ( \boldsymbol { w } ; \boldsymbol { \Theta } _ { \mathcal { G } } )$ 传统扩散模型中 $x_s$ 和 $y_s$ 的定义如下，其中 $s \in \{1, 2, 3, \cdots, T\}$ ： $\begin{array} { r } { x _ { s } = \sqrt { \overline { { \alpha } } _ { s } } x + \sqrt { 1 - \overline { { \alpha } } _ { s } } \epsilon } \\ { y _ { s } = \sqrt { \overline { { \alpha } } _ { s } } y + \sqrt { 1 - \overline { { \alpha } } _ { s } } \epsilon } \end{array}$ 这里 $x_s$ 是对低质量图像 $x$ 添加噪声 $s$ 步后的结果， $y_s$ 是对高质量图像 $y$ 添加噪声 $s$ 步后的结果。

4.3.2. 前向过程 (Forward Process)

为了实现训练-测试一致性并利用 $x_s$ 作为生成起点，DTDM 构建了一个新的图像序列\{m_t\}_{t=0}^s，其中m_0 = y，而`m_s = x_s$。在前向过程中，从 $m_{t-1}$ 到 $m_t$ 的每一步扩散都包含两个阶段：

从 $y$ 到 $x$ 方向的轻微退化 (minor degradation): 将图像向低质量 $x$ 的方向稍微移动。
轻微噪声添加 (slight noise addition): 类似于传统扩散模型，添加少量噪声。

为了便于表达，定义 $m_{t-1} = \check{m}_{t-1}^{t-1}$ 和 $m_t = m_t^t$ 。在第一阶段，从 $m_{t-1}$ 退化后的中间图像表示为 $m_{t-1}^t$ ： $m _ { t - 1 } ^ { t } = m _ { t - 1 } ^ { t - 1 } + \sqrt { \overline { { { \alpha } } } _ { t - 1 } } ( m _ { 0 } ^ { t } - m _ { 0 } ^ { t - 1 } )$ 其中 $t \in \{1, 2, 3, \cdots, s\}$ 。序列 $\{m_0^t\}_{t=0}^s$ 和常数 $\gamma_s$ 的定义如下： $m _ { 0 } ^ { t } = y + \frac { \sqrt { 1 - \overline { { \alpha } } _ { t } } } { \sqrt { \overline { { \alpha } } _ { t } } } [ \gamma _ { s } ( x - y ) ] , \gamma _ { s } = \frac { \sqrt { \overline { { \alpha } } _ { s } } } { \sqrt { 1 - \overline { { \alpha } } _ { s } } }$ 然后，在第二阶段添加噪声： $m _ { t } ^ { t } = \sqrt { \alpha _ { t } } m _ { t - 1 } ^ { t } + \sqrt { 1 - \alpha _ { t } } \epsilon$ 结合上述两个步骤，从 $m_{t-1}$ 到 $m_t$ 的扩散过程可以表示为： $q ( m _ { t } | m _ { t - 1 } , x , y ) = \mathcal { N } ( m _ { t } ; \mu _ { t } ^ { diff } , ( 1 - \alpha _ { t } ) I )$ 其中，均值 $\mu_t^{diff}$ 为： $\mu _ { t } ^ { diff } = \sqrt { \alpha _ { t } } m _ { t - 1 } + \sqrt { \overline { { { \alpha } } } _ { t } } ( m _ { 0 } ^ { t } - m _ { 0 } ^ { t - 1 } )$ 递归应用上述公式， $m_t$ 的分布可以直接从 $x$ 和 $y$ 计算得到： $q ( m _ { t } | x , y ) = \mathcal { N } ( m _ { t } ; \sqrt { \overline { { \alpha } } _ { t } } m _ { 0 } ^ { t } , ( 1 - \overline { { \alpha } } _ { t } ) I )$ 这可以理解为：对 $m_0^t$ 添加 $t$ 次噪声得到 $m_t^t = m_t$ 。将 $m_0^t$ 的定义代入上述公式，最终得到 $m_t$ 的表达式： $m _ { t } = \sqrt { \overline { { \alpha } } _ { t } } y + \sqrt { 1 - \overline { { \alpha } } _ { t } } [ \gamma _ { s } ( x - y ) + \epsilon ]$ 从这个表达式可以看出，当 $t=0$ 时， $m_0 = y$ 。当 $t=s$ 时，根据 $\gamma_s$ 的定义， $m _ { s } = \sqrt { \overline { { \alpha } } _ { s } } y + \sqrt { 1 - \overline { { \alpha } } _ { s } } [ \frac { \sqrt { \overline { { \alpha } } _ { s } } } { \sqrt { 1 - \overline { { \alpha } } _ { s } } } ( x - y ) + \epsilon ] = \sqrt { \overline { { \alpha } } _ { s } } y + \sqrt { \overline { { \alpha } } _ { s } } ( x - y ) + \sqrt { 1 - \overline { { \alpha } } _ { s } } \epsilon = \sqrt { \overline { { \alpha } } _ { s } } x + \sqrt { 1 - \overline { { \alpha } } _ { s } } \epsilon = x_s$ 因此，DTDM 的前向过程成功构建了一个从 $y$ 到 $x_s$ 的序列。

该图像是示意图，展示了DiffRAW算法的扩散过程与反向过程。上半部分呈现了从原手机RAW图像到经过处理的各阶段，包括模糊、调整大小、添加噪声和JPEG压缩等。下半部分则展示了反向过程，通过U-Net生成高质量的sRGB图像。图中涉及的公式以方程（15）和（23）形式标识。

图 2: DiffRAW 整体框架。该图展示了 DTDM 的扩散过程和反向过程。在前向过程中，我们通过随机方式将 $y$ 退化到 $x$ ，并构建了一个以 $y$ 为起点， $x_s$ 为终点的序列 $m_t$ 。在反向过程中，我们首先从 $w$ 中提取 $x$ ，对 $x$ 添加 $s$ 步噪声得到反向过程的起点 $x_s$ ，然后使用公式 23 进行逐步迭代推理，直到生成 $\hat{y}$ 。

4.3.3. 训练过程 (Training Process)

DiffRAW 使用一个 U-Net 网络 $f_\theta(m_t, w, c, t)$ 进行训练。网络的学习目标是预测 DTDM 序列中的特定噪声项。根据 $m_t$ 的表达式 (公式 18)，可以推导出网络应该预测的目标： $\frac { m _ { t } - \sqrt { \overline { { \alpha } } _ { t } } y } { \sqrt { 1 - \overline { { \alpha } } _ { t } } } = \gamma _ { s } ( x - y ) + \epsilon$ 这里， $\gamma_s (x - y)$ 表征了 $x$ 和 $y$ 之间的高频细节，而 $\epsilon$ 代表 $m_t$ 中的随机噪声。网络的损失函数定义为： $L ( \theta ) = \mathbb { E } _ { x , y , t , \epsilon } \| f _ { \theta } ( m _ { t } , w , c , t ) - [ \gamma _ { s } ( x - y ) + \epsilon ] \| ^ { 2 }$ 这个损失函数鼓励网络预测出与目标图像 $y$ 相比，低质量图像 $x$ 缺失的细节信息 $\gamma_s (x-y)$ 以及扩散过程中的噪声 $\epsilon$ 。

训练完成后，对于任何时间步 $t$ 和当前图像 $m_t$ ，目标图像 $y$ 的估计值 $\hat{y}$ 可以通过以下公式计算： $\hat { y } ( m _ { t } , x , t ) = \frac { m _ { t } - \sqrt { 1 - \overline { { \alpha } } _ { t } } f _ { \theta } ( m _ { t } , w , c , t ) } { \sqrt { \overline { { \alpha } } _ { t } } }$ 这个公式是基于公式 18，将预测的噪声项 $f_\theta(m_t, w, c, t)$ 代替真实噪声项 $\gamma_s(x-y) + \epsilon$ 进行反推得到的。

4.3.4. 反向过程 (Reverse Process)

在反向过程中，DTDM 从 $m_s = x_s = \sqrt{\bar{\alpha}_s} x + \sqrt{1 - \bar{\alpha}_s} \epsilon$ 开始作为生成起点。它逐步迭代推断 $m_{s-1}, m_{s-2}, \dots$ ，直到 $m_0 = y$ 。在每次迭代中，模型同时执行去噪操作和从 $x$ 到 $y$ 方向的域转换。

具体而言，对于任意时间步 $t$ 和当前图像 $m_t$ ，可以使用贝叶斯定理 (Bayes' theorem) 来同时实现 $m_t$ 的去噪以及从 $x$ 到 $y$ 方向的域转换，直接从 $m_t$ 推断 $m_{t-1}$ 。 $q ( m _ { t - 1 } | m _ { t } , x , y ) = q ( m _ { t } | m _ { t - 1 } , x , y ) \frac { q ( m _ { t - 1 } | x , y ) } { q ( m _ { t } | x , y ) }$ 将公式 15、公式 17 和公式 21 代入上述贝叶斯公式，可以得到反向过程的均值 $\hat{\mu}_\theta^{bayes}(m_t, x)$ ： $p _ { \theta } ( m _ { t - 1 } | m _ { t } , x ) = \mathcal { N } ( m _ { t - 1 } ; \hat { \mu } _ { \theta } ^ { bayes } ( m _ { t } , x ) , \sigma _ { t } ^ { 2 } I )$ 其中，均值 $\hat{\mu}_\theta^{bayes}(m_t, x)$ 由以下公式计算： $\begin{array} { l } { { \hat { \mu } _ { \theta } ^ { bayes } ( m _ { t } , x ) = [ \displaystyle \frac { \sqrt { 1 - \overline { { \alpha _ { t } } } } } { \sqrt { \overline { { \alpha _ { t } } } } } \lambda _ { t } - \frac { 1 - \alpha _ { t } } { \sqrt { \alpha _ { t } } \sqrt { 1 - \overline { { \alpha _ { t } } } } } ] f _ { \theta } ( m _ { t } , w , c , t ) } } \\ { { + [ \displaystyle \frac { 1 } { \sqrt { \alpha _ { t } } } - \frac { 1 } { \sqrt { \overline { { \alpha _ { t } } } } } \lambda _ { t } ] m _ { t } + \lambda _ { t } x } } \end{array}$ 这里， $\lambda_t$ 是一个辅助参数： $\lambda _ { t } = [ \sqrt { 1 - \overline { { \alpha } } _ { t - 1 } } ( 1 - \sqrt { \alpha _ { t } } \frac { \sqrt { 1 - \overline { { \alpha } } _ { t - 1 } } } { \sqrt { 1 - \overline { { \alpha } } _ { t } } } ) ] \gamma _ { s }$ DTDM 的训练和采样过程分别展示在算法 1 和算法 2 中。相较于以往的基于扩散模型的图像恢复/增强算法，DTDM 在每个生成步骤中不仅去噪，还执行从 $x$ 到 $y$ 的域转换，使其能以更少的迭代次数将 $x_s$ 转换为 $y$ ，同时提升生成图像的质量。

4.3.5. 算法详情

以下是 DTDM 的训练和推理算法。

算法 1: DiffRAW 训练 (Algorithm 1: DiffRAW Training)

重复:
从数据分布中采样 (w, y) ~ q(w, y)
$x = D2(y)$ (对高质量图像 $y$ 进行退化得到低质量图像 $x$ )
$c = x$ (在训练时，色彩-位置保持条件 $c$ 等同于 $x$ )
从均匀分布中随机选择时间步 $t ~ Uniform({1, 2, 3, ..., s})$
从标准高斯分布中采样噪声 $ε ~ N(0, I)$
计算 $mt = √αt * y + √1 - αt * [γs(x - y) + ε]$ (根据公式 18 构建 $m_t$ )
对损失函数 $\nabla_\theta \| \bar{f_\theta}(m_t, w, c, t) - [\gamma_s(x - y) + \epsilon] \|^2$ 执行梯度下降步骤。
直到收敛

算法 2: DiffRAW 推理 (Algorithm 2: DiffRAW Inference)

$x = G(w; ΘG)$ (从 RAW 图像 $w$ 中提取低质量图像 $x$ 作为条件)
$c = x$ (在推理时，色彩-位置保持条件 $c$ 等同于 $x$ )
从 $N(ms; √αs * x, (1 - αs) * I)$ 中采样得到起始图像 ms
对于 t 从 s 递减到 1 执行以下步骤:
如果 $t > 1$ ，则 $z ~ N(0, I)$ ，否则 $z = 0$ (噪声项)
计算 $mt-1 = [ (√1 - αt / √αt) * λt - (1 - αt) / (√αt * √1 - αt) ] * fθ(mt, w, c, t) + [ 1 / √αt - λt / √αt ] * mt + λt * x + σt * z$ (根据公式 24 计算反向过程的均值，并添加噪声)
循环结束
返回 m0 (最终生成的 sRGB 图像)

5. 实验设置

5.1. 数据集

名称: Zurich RAW to RGB (ZRR) 数据集 (Ignatov et al., 2020)
构成: 该数据集包含 20,000 对图像，其中包含智能手机 RAW 图像和 DSLR sRGB 图像。
对齐处理: 图像对通过 SIFT 关键点 (Lowe, 2004) 和 RANSAC 算法 (Vedaldi and Fulkerson, 2010) 进行粗略对齐。为了确保质量，裁剪掉互相关 (cross-correlation) 小于 0.9 的图像块。
规模: 最终得到 48,043 对大小为 $448 \times 448$ 像素的 RAW-sRGB 图像对。
划分: 作者遵循官方划分，使用 46.8k 对图像进行 DiffRAW 模型的训练，并在剩余的 1.2k 对图像上报告定量结果。
用途: ZRR 数据集是评估 RAW-to-sRGB 转换算法的标准数据集，其图像对包含了智能手机和 DSLR 之间的真实质量差距，以及由于设备差异和粗略对齐可能产生的未对齐问题，非常适合验证 DiffRAW 旨在解决的挑战。

5.2. 评估指标

论文使用了多种感知质量指标和传统图像质量指标来评估 DiffRAW 的性能。

5.2.1. 感知质量指标 (Perceptual Quality Metrics)

5.2.1.1. 学习感知图像相似度 (Learned Perceptual Image Patch Similarity, LPIPS)

概念定义: LPIPS 旨在量化两幅图像在人类感知上的相似度。它利用预训练的深度学习网络（如 AlexNet 或 VGG 的特征提取层）来提取图像的深层特征，然后计算这些特征之间的距离。分数越低表示两幅图像在感知上越相似。它比传统的像素级指标（如 PSNR, SSIM）更能反映人类的视觉感受。
数学公式: $\text{LPIPS}(I_1, I_2) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \| w_l \odot (\phi_l(I_1)_{h,w} - \phi_l(I_2)_{h,w}) \|_2^2$
符号解释:
- $I_1, I_2$ : 待比较的两幅图像。
- $\phi_l$ : 预训练深度神经网络的第 $l$ 层特征提取器。
- $w_l$ : 第 $l$ 层的通道权重。
- $\odot$ : 元素乘法。
- $H_l, W_l$ : 第 $l$ 层特征图的高度和宽度。
- $\|\cdot\|_2^2$ : $L_2$ 范数（欧几里得距离）。

5.2.1.2. 弗雷歇距离 (Fréchet Inception Distance, FID)

概念定义: FID 用于评估生成图像的真实性和多样性。它通过比较生成图像分布和真实图像分布在特征空间（通常是 Inception-v3 网络的中间层特征）中的距离来衡量。FID 越低，表示生成图像的质量越高，与真实图像的分布越接近。
数学公式: $\text{FID}(P_r, P_g) = \| \mu_r - \mu_g \|_2^2 + \text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2})$
符号解释:
- $P_r$ : 真实图像在特征空间中的分布。
- $P_g$ : 生成图像在特征空间中的分布。
- $\mu_r, \mu_g$ : 真实图像和生成图像特征分布的均值向量。
- $\Sigma_r, \Sigma_g$ : 真实图像和生成图像特征分布的协方差矩阵。
- $\|\cdot\|_2^2$ : $L_2$ 范数。
- $\text{Tr}(\cdot)$ : 矩阵的迹 (trace)。

5.2.1.3. 多尺度图像质量变压器 (Multi-scale Image Quality Transformer, MUSIQ)

概念定义: MUSIQ 是一种基于 Transformer 架构的无参考图像质量评估 (No-Reference Image Quality Assessment, NR-IQA) 模型。它通过在多个尺度上分析图像特征来预测图像的感知质量得分，旨在更好地与人类主观评价对齐。论文中提到了 MUSIQ-K (musiq-koniq) 和 MUSIQ-S (musiq-spaq)，它们是针对不同数据集训练的 MUSIQ 模型变体。分数越高表示图像质量越好。
数学公式: 作为一个复杂的深度学习模型，MUSIQ 没有简单的数学公式来表示其评分机制。其核心是 Transformer 网络对多尺度特征的聚合和质量预测。
符号解释: 无简单数学公式可解释的符号。其输出是预测的质量得分。

5.2.1.4. `CLIP`-感知图像质量评估 (`CLIP`-IQA)

概念定义: $CLIPIQA+$ 是一种基于 CLIP 模型（Contrastive Language-Image Pre-training）的图像质量评估方法。CLIP 模型在大量图像-文本对上进行训练，学习到强大的多模态特征表示。 $CLIPIQA+$ 利用 CLIP 的这种能力来评估图像的感知质量，因为它能够捕捉图像的高级语义和美学特征，从而更好地反映人类对图像质量的判断。论文中提到 $CLIPIQA+RN50$ ，表示使用了 CLIP 的 ResNet-50 骨干网络。分数越高表示图像质量越好。
数学公式: 类似于 MUSIQ， $CLIPIQA+$ 也是一个复杂的深度学习模型，没有简单的数学公式来表示其评分机制。它通常涉及计算图像特征与高质量图像/文本描述的相似度。
符号解释: 无简单数学公式可解释的符号。其输出是预测的质量得分。

5.2.2. 传统图像质量指标

5.2.2.1. 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)

概念定义: PSNR 是一种广泛使用的图像质量评估指标，它通过计算原始图像和处理后图像之间的均方误差 (Mean Squared Error, MSE) 来衡量图像的失真程度。PSNR 值越高，表示图像失真越小，质量越好。通常以分贝 (dB) 为单位。
数学公式: $\text{MSE} = \frac{1}{MN} \sum_{i=0}^{M-1} \sum_{j=0}^{N-1} [I(i,j) - K(i,j)]^2$ $\text{PSNR} = 10 \cdot \log_{10} \left( \frac{\text{MAX}_I^2}{\text{MSE}} \right)$
符号解释:
- I(i,j): 原始图像在像素 (i,j) 处的像素值。
- K(i,j): 处理后图像在像素 (i,j) 处的像素值。
- M, N: 图像的行数和列数。
- $\text{MAX}_I$ : 图像中像素的最大可能值（例如，对于 8 位图像， $\text{MAX}_I = 255$ ）。

5.2.2.2. 结构相似性指数 (Structural Similarity Index Measure, SSIM)

概念定义: SSIM 是一种基于图像结构信息（亮度、对比度、结构）的图像质量评估指标。它认为人眼更关注图像中的结构信息，因此通过比较两幅图像的这些结构特征来评估相似度。SSIM 值介于 -1 和 1 之间，越接近 1 表示两幅图像越相似，质量越好。
数学公式: $\text{SSIM}(x, y) = [l(x,y)]^{\alpha} \cdot [c(x,y)]^{\beta} \cdot [s(x,y)]^{\gamma}$ 其中，亮度 (luminance) l(x,y)、对比度 (contrast) c(x,y) 和结构 (structure) s(x,y) 定义如下： $l(x,y) = \frac{2\mu_x\mu_y + C_1}{\mu_x^2 + \mu_y^2 + C_1}$ $c(x,y) = \frac{2\sigma_x\sigma_y + C_2}{\sigma_x^2 + \sigma_y^2 + C_2}$ $s(x,y) = \frac{\sigma_{xy} + C_3}{\sigma_x\sigma_y + C_3}$ 通常取 $\alpha = \beta = \gamma = 1$ ，且 $C_3 = C_2 / 2$ 。
符号解释:
- x, y: 图像的局部窗口（通常为 $8 \times 8$ ）。
- $\mu_x, \mu_y$ : 图像 $x$ 和 $y$ 的均值。
- $\sigma_x, \sigma_y$ : 图像 $x$ 和 $y$ 的标准差。
- $\sigma_{xy}$ : 图像 $x$ 和 $y$ 的协方差。
- $C_1, C_2, C_3$ : 为避免分母为零的常数，通常 $C_1 = (K_1 L)^2, C_2 = (K_2 L)^2$ ，其中 $K_1 \ll 1, K_2 \ll 1$ ， $L$ 是像素值的动态范围（例如 255）。

5.2.2.3. 自然图像质量评估器 (Natural Image Quality Evaluator, NIQE)

概念定义: NIQE 是一种无参考图像质量评估 (NR-IQA) 指标。它通过学习“自然图像”的统计特性模型，然后将待评估图像的统计特性与该模型进行比较来计算质量得分。NIQE 的分数越低，表示图像的自然度越高，质量越好。
数学公式: NIQE 的计算涉及广义高斯分布 (Generalized Gaussian Distribution, GGD) 和多元高斯模型 (Multivariate Gaussian Model, MVG) 对图像局部特征的建模。其核心是计算待评估图像特征与预训练自然图像特征模型之间的 Fréchet 距离，但没有一个简单的封闭式数学公式。
符号解释: 无简单数学公式可解释的符号。

5.2.2.4. 改进的局部自然图像质量评估器 (Improved Local Natural Image Quality Evaluator, ILNIQE)

概念定义: ILNIQE 是 NIQE 的改进版本，旨在更好地处理图像的局部质量差异。它通过将图像划分为局部区域，并独立评估每个区域的质量，然后聚合这些局部评估结果来得到最终得分。与 NIQE 类似，ILNIQE 分数越低表示图像质量越好。
数学公式: 与 NIQE 类似，ILNIQE 也是基于统计模型，没有简单的封闭式数学公式。
符号解释: 无简单数学公式可解释的符号。

5.3. 对比基线 (Contrast Baselines)

论文将 DiffRAW 与以下三种最先进的 RAW-to-sRGB 转换方法进行了比较：

PyNet (Ignatov, Van Gool, and Timofte 2020): 较早期的端到端 ISP 学习模型，通过神经网络直接取代传统 ISP 管线。
MW-ISPNet (Ignatov et al. 2020): 另一个用于 ISP 学习的模型，可能是 PyNet 的改进或同期工作。
LiteISPNet (Zhang et al. 2021): 旨在解决数据对中色彩和像素位置未对齐问题的轻量级 ISP 网络，通过色彩偏移抵抗模块和光流对齐模块来提高性能。

这些基线模型都是在 RAW-to-sRGB 转换领域具有代表性的深度学习方法，可以有效验证 DiffRAW 在处理这一任务上的优越性。

5.4. 训练细节

训练步数: 模型训练了 1M (1,000,000) 步。
批大小 (Batch Size): 32。
优化器 (Optimizer): 使用 Adam 优化器。
学习率调度 (Learning Rate Schedule): 采用线性预热 (linear warmup) 策略，在最初的 10k (10,000) 训练步中进行线性预热，之后学习率固定为 1e-4。
扩散模型超参数:
- $T$ : 噪声调度 (noise scheduling) 的总时间步数，设置为 2000。
- $s$ : DTDM 图像序列的步数，设置为 100。
超参数说明: 作者指出，这些超参数 ( $s=100, T=2000$ ) 主要是为了验证 DTDM 在推理加速和图像质量提升方面的效果，并未进行更广泛的工程尝试。作者推测，进一步优化 $s$ 和 $T$ 可能会带来更好的实验指标结果。

5.5. 测试细节

推理迭代步数: 在推理过程中，去噪步骤和迭代步骤的数量设置为 93。
平衡考量: 作者强调，适当减少推理迭代次数会在无参考指标上降低性能，但会提高全参考指标的性能。选择 93 步是为了平衡这两类指标。
潜在优化: 如果将推理迭代步数设置为 $s=100$ ，无参考指标的性能可能会更好，这与人类视觉对图像细节和质量的感知是一致的。

6. 实验结果与分析

6.1. 核心结果分析

DiffRAW 在 ZRR 数据集上的实验结果表明，它在感知质量方面显著优于现有的最先进方法，并在传统像素级指标上取得了可比的性能。

6.1.1. 感知质量指标表现

从表 1 可以看出，DiffRAW 在所有无参考感知质量指标 (MUSIQ-K, MUSIQ-S, CLIPIQA+, CLIPIQA+RN50) 上均取得了最佳性能，且得分非常接近甚至超过了 DSLR 参考图像。这表明 DiffRAW 生成的图像在细节丰富度、清晰度和整体视觉体验上，已经达到了与专业 DSLR 相机相当的水平，甚至在某些指标上略优于 DSLR 参考图像（例如 MUSIQ-K 56.67 vs 56.62， $CLIPIQA+RN50$ 0.3739 vs 0.3895 略低，但 $CLIPIQA+$ 0.5596 vs 0.5622 也接近）。同时，DiffRAW 在 NIQE 和 ILNIQE 这两个无参考质量指标上获得了最低分（7.0072 和 42.65），再次验证了其生成图像的自然度和高质量。

6.1.2. 全参考指标表现

从表 2 可以看出，DiffRAW 在 LPIPS (0.145 vs 0.193 for PyNet) 和 FID (15.10 vs 18.69 for PyNet) 等全参考感知质量指标上也显著优于所有基线方法。这意味着 DiffRAW 生成的图像不仅在视觉上更真实、更自然，而且与真实 DSLR 图像在特征空间上的分布也更接近。在传统的像素级全参考指标 PSNR 和 SSIM 上，DiffRAW 取得了与基线方法相当的结果（PSNR 21.31 vs 21.55 for LiteISPNet，SSIM 0.7433 vs 0.7487 for LiteISPNet）。虽然 PSNR 和 SSIM 略低于 LiteISPNet，但考虑到 DiffRAW 在感知质量指标上的巨大优势，这种差异是可以接受的。这再次强调了 PSNR 和 SSIM 往往不能完全反映人类视觉感知质量，而 LPIPS 和 FID 等指标能更好地捕捉感知质量。当 GT 与结果对齐时（Align GT with result），DiffRAW 的 LPIPS 和 FID 优势依然存在，并且 PSNR 和 SSIM 也维持在较高水平。

6.2. 数据呈现 (表格)

以下是原文 Table 1 和 Table 2 的结果：

以下是原文 Table 1 的结果：

Method	MUSIQ-K↑	MUSIQ-S↑	CLIPIQA+↑	CLIPIQA+RN50↑	NIQE↓	ILNIQE↓
PyNet	43.56	46.4990	0.5353	0.3196	7.6856	50.55
MW-ISPNet	43.34	45.5973	0.5230	0.3097	7.9001	55.19
LiteISPNet	48.52	50.4763	0.5377	0.3063	7.4839	53.50
DiffRAW (ours)	56.67	57.3660	0.5596	0.3739	7.0072	42.65
DSLR(Reference)	56.62	57.4589	0.5622	0.3895	7.0181	44.13

以下是原文 Table 2 的结果：

Method	Original GT				Align GT with result
Method	LPIPS↓	FID	PSNR↑	SSIM↑	LPIPS↓	FID↓	PSNR↑	SSIM↑
PyNet	0.193	18.69	21.19	0.7471	0.152	17.11	22.96	0.8510
MW-ISPNet	0.213	20.41	21.42	0.7544	0.164	18.48	23.31	0.8578
LiteISPNet	0.187	17.04	21.55	0.7487	0.133	15.30	23.87	0.8737
DiffRAW (ours)	0.145	15.10	21.31	0.7433	0.118	14.61	23.54	0.8682

6.3. 消融实验/参数分析

6.3.1. 扩散条件 (Diffusion Condition) 的影响

论文通过图 3 展示了不同扩散条件对生成结果的影响。

RAW 图像 (a): 原始的智能手机 RAW 图像。
无条件生成 (b): 在没有 RAW 条件和色彩-位置保持条件的情况下生成的图像。图像质量差，细节模糊，色彩不准确。
仅 $w$ 条件生成 (c): 引入 RAW 图像 $w$ 作为条件后，图像的轮廓和纹理得到了保留，结构信息更加稳定。
$w$ 和 $c$ 共同条件生成 (d): 同时引入 RAW 图像 $w$ 和色彩-位置保持条件 $c$ 后，图像不仅保留了结构，而且消除了色彩偏差和模糊偏移，颜色更准确，细节更清晰。
用作条件的图像 $x$ (e): 用于实验的低质量图像 $x$ 。
DSLR sRGB 图像 (f): 真实 DSLR sRGB 图像作为参考。

该图像是一个示意图，展示了从RAW图像生成不同条件下的sRGB图像的效果。包括RAW图像（a）、无条件图像（b）、w条件（c）、w+c条件（d）、生成图像（e）以及与DSLR相当的sRGB图像（f）。

图 3: (a) 是手机 RAW 图像。图 3(b) 是在没有条件的情况下生成的图像。图 3(c) 表示使用条件 $w$ 生成的结果。图 3(d) 表示使用 $w$ 和 $c$ 作为条件的结果。图 3(e) 展示了这些实验中使用的图像 $x$ 。图 3(f) 表示 DSLR sRGB 图像。

分析: 结果表明，RAW 条件 $w$ 对于稳定图像结构至关重要，而色彩-位置保持条件 $c$ 则负责精确的色彩控制和消除像素偏移。两者结合能够产生高质量、无偏差、无偏移的生成图像。作者还提到 $c$ 条件的“色彩可插拔”特性，可以通过注入不同色彩的 $c$ 来灵活调整生成图像的色彩风格（详细内容在补充材料中）。

6.3.2. 扩散过程和推理过程 (Diffusion Process and Inference Process) 的影响

论文通过图 4 比较了 DDPM (现有方法) 和 DTDM (本文改进方法) 在不同迭代步数下的生成效果。

DDPM 1500 步: 传统 DDPM 模型在 1500 步迭代下的结果。
DDPM 500 步: 传统 DDPM 模型在 500 步迭代下的结果，质量相比 1500 步有所下降。
DDPM 100 步: 传统 DDPM 模型在 100 步迭代下的结果，质量进一步下降。
DTDM 100 步: DiffRAW 中提出的 DTDM 在仅 100 步迭代下的结果。

该图像是四个不同步骤生成的图像比较，分别为DDPM 1500步、DDPM 500步、DDPM 100步和DTDM 100步。每个图像展示了从手机RAW图像生成的sRGB图像的质量差异，突出DiffRAW方法在生成高质量图像方面的有效性。

图 4: DDPM 和 DTDM 在不同迭代步数下的生成结果比较。

分析: 实验结果清晰地表明，随着迭代步数的增加，生成的图像细节会相应增强。最重要的是，DTDM 在仅 100 步迭代的情况下，其细节增强效果就超越了 DDPM 在 1500 步迭代下的效果。这有力地证明了 DTDM 能够在显著减少推理步骤的同时，有效提升生成图像的质量。DTDM 的这种效率提升得益于其在每个反向步骤中不仅进行去噪，还同时执行从低质量 $x$ 域到高质量 $y$ 域的转换。

7. 总结与思考

7.1. 结论总结

本文提出了 DiffRAW，一种创新性地将扩散模型应用于智能手机 RAW 图像到 DSLR 质量 sRGB 图像转换任务的方法。DiffRAW 通过以下核心设计解决了该任务中的关键挑战：

利用扩散模型学习高质量细节分布： 首次将扩散模型引入 RAW-to-sRGB 映射，有效克服了智能手机 RAW 图像固有的细节损失问题。
创新的条件机制：
- 使用 RAW 图像作为结构条件，确保生成图像保持原始的轮廓和纹理。
- 引入色彩-位置保持条件，通过生成一致的 $x$ 和 $y$ 域图像，有效缓解了训练数据对中色彩不稳定和空间未对齐导致的色彩偏差和像素偏移问题。
高效的域转换扩散方法 (DTDM)： 设计了独特的 DTDM 前向和反向过程，能够在显著减少推理迭代步骤的同时，实现更好的细节增强和图像质量。实验结果在 ZRR 数据集上证明，DiffRAW 在所有感知质量指标 (LPIPS, FID, MUSIQ, $CLIPIQA+$ ) 上均超越了现有最先进方法，并在无参考图像质量评估指标上首次达到了与 DSLR 图像相当的水平，同时在传统 PSNR 和 SSIM 指标上也取得了可比的结果。

7.2. 局限性与未来工作

论文中并未明确列出局限性与未来工作，但根据其内容，可以推断和展望以下几点：

训练成本： 扩散模型通常需要大量的计算资源和时间进行训练。尽管 DTDM 显著加速了推理过程，但庞大的训练成本仍可能是其一个潜在局限。未来工作可以探索更高效的训练策略，例如知识蒸馏 (knowledge distillation) 或更轻量级的网络架构。
泛化能力： DiffRAW 在 ZRR 数据集上表现出色，该数据集的图像对经过了精心对齐。但在更“野外” (in-the-wild) 的场景，即未经过预处理或对齐的任意智能手机 RAW 图像，其性能是否能保持稳定还有待验证。未来可以探索对更具多样性和挑战性的数据集进行训练和评估。
实时性要求： 即使 DTDM 减少了推理步数，扩散模型相比于传统的判别式模型（如 PyNet, LiteISPNet）在推理速度上仍可能存在差距。对于要求实时图像处理的应用（如相机预览），可能需要进一步优化推理速度，例如通过模型剪枝 (pruning)、量化 (quantization) 或硬件加速。
色彩可控性： 论文提及 DiffRAW 具有“色彩可插拔”特性，可以通过 $c$ 条件灵活调整色彩风格。未来可以深入研究如何提供更精细、用户友好的色彩控制接口，实现更丰富的艺术创作效果。
多任务扩展： 扩散模型在图像生成、编辑、超分辨率等多个领域都展现出强大潜力。DiffRAW 的成功为将扩散模型应用于其他低级视觉任务（如去模糊、去雨等）提供了新的思路，可以探索其在这些领域与其他条件（如模糊核、雨条纹）结合的可能性。
理论分析： DTDM 的有效性在实验中得到了验证，但其在理论上为何能如此高效地实现域转换和去噪的结合，以及其收敛性、稳定性等方面的更深入理论分析，可能会为进一步优化提供指导。

7.3. 个人启发与批判

启发：
- 扩散模型的潜力： DiffRAW 再次证明了扩散模型在图像恢复和增强任务中的巨大潜力，尤其是在生成高质量细节方面远超传统判别式模型。其能够学习高维数据分布的强大能力，使其成为处理病态问题的有力工具。
- 条件控制的艺术： 论文通过精心设计的两个条件 (RAW 条件和色彩-位置保持条件) 来精确控制生成过程，这提供了一个很好的范例，说明如何在生成模型中有效地注入先验知识和解决特定任务的挑战。特别是色彩-位置保持条件，优雅地解决了数据未对齐这一普遍存在的问题。
- 推理效率的创新： DTDM 的提出是扩散模型走向实际应用的关键一步。它打破了传统扩散模型推理慢的瓶颈，通过巧妙地将去噪和域转换结合，实现了效率和质量的双赢。这种思想对于其他计算密集型生成模型也具有借鉴意义。
- 以感知质量为核心： DiffRAW 专注于优化感知质量指标，而非仅仅追求 PSNR/SSIM 等像素级指标，这体现了图像处理领域向更符合人类视觉感受的方向发展。
批判：
- 超参数 $T$ 和 $s$ 的敏感性： 作者提到 $T=2000, s=100$ 只是初步尝试，更好的组合可能存在。这暗示着 DTDM 可能对这些超参数比较敏感，需要仔细调优。未来的工作可以探索一种自适应的步数选择策略，或者更鲁棒的调度设计。
- 色彩提取网络 $\mathcal{G}$ 的影响： DiffRAW 的性能依赖于预训练的色彩提取网络 $\mathcal{G}$ 。如果 $\mathcal{G}$ 提取的色彩信息本身有偏差或质量不佳，可能会影响最终生成图像的色彩准确性。论文没有深入探讨 $\mathcal{G}$ 对整体性能的影响敏感性分析。
- 数据对齐的潜在假设： 尽管 ZRR 数据集经过粗略对齐，并使用 $c$ 条件进一步缓解未对齐问题，但扩散模型的训练和生成仍然在一定程度上隐含地假设了输入条件与目标之间存在某种对应关系。如果遇到极端未对齐的情况，DiffRAW 的鲁棒性可能仍面临挑战。
- 模型复杂性与可解释性： 扩散模型本身就较为复杂，DiffRAW 叠加了多种条件和定制的扩散过程，使得整个系统的可解释性进一步降低。理解其内部工作机制和失败模式可能需要更深入的分析工具。
- 存储需求： 扩散模型通常需要存储大量的中间状态（例如 U-Net 的特征图），这可能对内存造成较大压力，尤其是在处理高分辨率图像时。