论文状态:已完成

NTIRE 2025 Challenge on RAW Image Restoration and Super-Resolution

发表:2025/06/03
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本论文回顾了NTIRE 2025 RAW图像恢复与超分辨率挑战,重点介绍了提出的解决方案和结果。新方法针对RAW图像的模糊和噪声恢复及Bayer图像的2倍放大,参赛的230名参与者中有45名提交了结果,为现代图像处理管道提供了前沿技术。

摘要

This paper reviews the NTIRE 2025 RAW Image Restoration and Super-Resolution Challenge, highlighting the proposed solutions and results. New methods for RAW Restoration and Super-Resolution could be essential in modern Image Signal Processing (ISP) pipelines, however, this problem is not as explored as in the RGB domain. The goal of this challenge is two fold, (i) restore RAW images with blur and noise degradations, (ii) upscale RAW Bayer images by 2x, considering unknown noise and blur. In the challenge, a total of 230 participants registered, and 45 submitted results during thee challenge period. This report presents the current state-of-the-art in RAW Restoration.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

NTIRE 2025 RAW图像恢复与超分辨率挑战 (NTIRE 2025 Challenge on RAW Image Restoration and Super-Resolution)

1.2. 作者

Marcos V. Conde, Radu Timofte, Zihao Lu, Xiangyu Kong, Xiaoxia Xing, Fan Wang, Suejin Han, MinKyu Park, Tianyu Zhang, Xin Luo, Yeda Chen, Dong Liu, Li Pang, Yuhang Yang, Hongzhong Wang, Xiangyong Cao, Ruixuan Jiang, Senyan Xu, Siyuan Jiang, Xueyang Fu, Zheng-Jun Zha, Tianyu Hao, Yuhong He, Ruoqi Li, Yueqi Yang, Xiang Yu, Guanlan Hong, Minmin Yi, Yuanjia Chen, Liwen Zhang, Zijie Jin, Cheng Li, Lian Liu, Wei Song, Heng Sun, Yubo Wang, Jinghua Wang, Jiajie Lu, Watchara Ruangsang。

* 和 † 符号通常表示共同第一作者或通讯作者,但论文未明确解释其具体含义。例如,Marcos V. Conde 和 Radu Timofte 可能是挑战组织者或主要撰稿人。作者团队涵盖了来自三星 (Samsung AI)、中国科学技术大学 (USTC)、西安交通大学 (XJTU)、南京大学 (NJU)、E-surfing Vision Technology Co., Ltd、米兰理工大学 (Politecnico di Milano)、朱拉隆功大学 (Chulalongkorn University)、小米公司 (Xiaomi Inc.)、哈尔滨工业大学 (Harbin Institute of Technology (Shenzhen))、华中科技大学 (Huazhong University of Science and Technology)、东北大学 (Northeastern University)、大连理工大学 (Dalian University of Technology) 等多个机构的研究人员。

1.3. 发表期刊/会议

该论文是 NTIRE 2025 研讨会 (NTIRE 2025 Workshop) 的挑战报告,将在计算机视觉与模式识别会议 (IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR) 的研讨会论文集 (Workshops) 中发表。NTIRE 系列挑战赛在图像处理和计算机视觉领域享有盛誉,每年都会吸引全球顶尖团队参与。

1.4. 发表年份

2025年。

1.5. 摘要

这篇论文综述了 NTIRE 2025 RAW图像恢复与超分辨率挑战 (NTIRE 2025 RAW Image Restoration and Super-Resolution Challenge),重点介绍了所提出的解决方案和取得的结果。针对 RAW图像恢复 (RAW Restoration) 和超分辨率 (Super-Resolution, SR) 的新方法在现代图像信号处理 (Image Signal Processing, ISP) 流水线中至关重要,然而,与 RGB 领域相比,这个问题尚未得到充分探索。本次挑战的目标是双重的:(i) 恢复具有模糊 (blur) 和噪声 (noise) 降质 (degradation) 的 RAW 图像;(ii) 将 RAW Bayer 图像上采样 (upscale) 2倍,同时考虑未知的噪声和模糊。挑战期间,共有230名参与者注册,45名提交了结果。本报告展示了 RAW 图像恢复领域的当前最先进水平 (state-of-the-art)。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2506.02197 PDF 链接: https://arxiv.org/pdf/2506.02197v2.pdf 发布状态: 该论文于2025-06-02T19:34:21.000Z发布在 arXiv 上,目前为预印本 (preprint) 状态,将作为 NTIRE 2025 Workshop 的报告在 CVPR Workshops 2025 上发表。

2. 整体概括

2.1. 研究背景与动机

核心问题: 论文关注 RAW 图像的恢复和超分辨率,旨在解决便携式相机设备在图像质量方面的固有瓶颈,包括像素密度不足、传感器噪声过高以及长时间曝光导致的运动模糊。

重要性:

  1. 物理限制: 现代便携设备受到物理尺寸、功耗和散热的限制,无法部署大型传感器和高质量光学组件。这导致每像素光收集量减少,信噪比 (Signal-to-Noise Ratio, SNR) 降低,光学分辨率和抗畸变能力受限,难以同时实现高分辨率和低噪声。

  2. RAW 图像的优势: RAW 图像仅经过最少的线性放大和白平衡处理,保留了接近线性的传感器信号响应,包含更多原始信息。相比之下,经过图像信号处理 (ISP) 流水线处理的 sRGB 图像会经历一系列强烈的非线性操作(如去马赛克 (demosaicing)、色调映射 (tone mapping)、伽马校正 (gamma correction) 和色彩调整),这些操作会引入不可逆的信息损失,并放大量化误差和噪声纹理,限制了在 sRGB 域进行去噪和超分辨率的性能。

  3. 泛化性与鲁棒性: 由于缺乏统一的 ISP 调整标准以及相机制造商不同的风格偏好,来自同一传感器的 sRGB 格式图像可能存在显著差异,这增加了依赖 sRGB 输入的跨传感器模型在泛化性和鲁棒性方面的难度。RAW 图像在数据层面更具一致性。

  4. 计算资源限制: 便携设备计算资源有限,因此模型尺寸和计算复杂度是模型设计中需要优先考虑的因素。

    创新思路: 本次挑战通过设立 RAW 图像恢复和超分辨率两个赛道,鼓励研究者直接在 RAW 域开发新的算法。通过提供统一的 RAW 数据集和评估标准,推动该领域的发展,探索在便携设备上实现高性能且高效的图像处理方案。

2.2. 核心贡献/主要发现

  1. 推动 RAW 域图像处理研究: NTIRE 2025 挑战赛首次全面地聚焦于 RAW 图像的恢复和超分辨率问题,填补了该领域研究相对 RGB 域不足的空白。
  2. 建立最先进水平 (SOTA): 挑战赛收集了来自全球230名注册参与者和45份提交结果,系统地总结并展示了 RAW 图像恢复和超分辨率领域的当前最先进算法及其性能。
  3. 发布高质量数据集: 挑战赛使用了基于 BSRAW [18] 和 NTIRE 2024 RAWSR Challenge [19] 的 RAWSR 数据集,以及基于 RAW2RAW [1] 并扩展了更多移动设备传感器的 RAWIR 数据集,为研究者提供了高质量、多样化的 RAW 图像数据和降质合成流水线。
  4. 评估高效与通用解决方案: 挑战赛设立了“高效 (Efficient)”和“通用 (General)”两种赛道,分别对模型的参数量进行了严格限制(高效赛道要求小于200K参数),以同时推动学术界在性能和实际部署效率上的进步。
  5. 总结多样化技术方案: 报告详细介绍了多个顶级团队的解决方案,涵盖了基于 Transformer、CNN、以及结合知识蒸馏 (knowledge distillation) 和重参数化 (reparameterization) 等多种先进技术。这些方案在提升 RAW 图像质量和分辨率、减少模糊和噪声方面取得了显著进展,并且没有引入可检测的色彩伪影 (color artifacts)。
  6. 指出未来研究方向: 报告指出,虽然合成 RAW 图像超分辨率问题可以类似 RAW 去噪问题解决,但更真实的下采样 (downsampling) 仍然是一个开放的挑战。在 RAWIR 挑战中,模型在同时处理去噪和去模糊方面仍面临困难,尤其是在处理模糊方面,因为这两种操作可能需要相反的处理。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解本篇论文,我们需要了解以下核心概念:

  • RAW 图像 (RAW Image)RAW 图像是数码相机或扫描仪图像传感器捕获的未经任何处理的原始数据。它包含了传感器直接接收到的光信号信息,通常以 Bayer 模式存储。与常见的 JPEGPNG 格式图像不同,RAW 图像未经过相机内部的图像信号处理 (Image Signal Processing, ISP) 流水线处理,因此保留了最多的图像信息,具有更高的位深 (bit depth) 和更宽的动态范围。

  • 图像信号处理 (Image Signal Processing, ISP) 流水线 (ISP pipeline):这是将 RAW 图像转换为人类可观看的 RGB 图像(如 JPEG)的一系列处理步骤。典型的 ISP 流水线包括:

    • 黑电平校正 (Black Level Correction):去除传感器在完全黑暗时产生的最小信号。
    • 白平衡 (White Balance):调整图像的颜色,使其在不同光源下呈现正确的白色。
    • 去马赛克 (Demosaicing):将 Bayer 模式的 RAW 图像(每个像素只记录一种颜色)转换为每个像素都包含红、绿、蓝三通道信息的完整 RGB 图像。
    • 伽马校正 (Gamma Correction):调整图像亮度,使其更符合人眼对亮度的感知。
    • 色调映射 (Tone Mapping):将图像的动态范围压缩到显示设备可接受的范围内。
    • 色彩空间转换 (Color Space Conversion):将图像从相机内部色彩空间转换为标准色彩空间(如 sRGB)。
    • 锐化 (Sharpening)降噪 (Denoising) 等。 论文指出,ISP 流水线的非线性操作会引入不可逆的信息损失和误差,影响后续的图像恢复任务。
  • Bayer 模式 (Bayer pattern):这是最常用的一种彩色滤光片阵列 (Color Filter Array, CFA) 模式,由 Kodak 公司的 Bryce Bayer 发明。在 Bayer 模式下,图像传感器上的每个像素只覆盖红、绿、蓝三原色滤镜中的一种,通常是两倍的绿色像素(因为人眼对绿色最敏感),形成 RGGB (Red-Green-Green-Blue) 的重复模式。例如,一个 2×22 \times 2 的像素块可能排列为:

    R G
    G B
    

    RAW 图像通常以这种 Bayer 模式存储,论文中提到的将图像转换为“RGGB Bayer pattern (4-channels)”意味着将原始的单通道 Bayer 数据“打包”成一个四通道图像,其中每个通道对应 Bayer 模式中的一个子采样网格,例如:通道1对应所有 RR 像素,通道2对应所有上方 GG 像素,通道3对应所有下方 GG 像素,通道4对应所有 BB 像素。这种打包方式有利于在神经网络中处理 Bayer 图像,而不会损坏原始颜色模式信息。

  • 超分辨率 (Super-Resolution, SR):指从一张低分辨率 (Low-Resolution, LR) 图像重建出高质量的高分辨率 (High-Resolution, HR) 图像的技术。在本挑战中,目标是将 RAW Bayer 图像上采样 2x

  • 图像恢复 (Image Restoration, IR):旨在去除图像中各种降质因素(如噪声、模糊、雨、雾等),从而恢复图像原始清晰度的技术。本挑战关注的是去噪 (Denoising) 和去模糊 (Deblurring)。

  • 去噪 (Denoising):从受噪声污染的图像中去除噪声,同时尽可能保留图像细节和纹理。

  • 去模糊 (Deblurring):从受运动模糊、离焦模糊等影响的图像中恢复清晰图像。由于模糊核 (blur kernel) 通常是未知的,这通常被称为盲去模糊 (blind deblurring)。

  • 最先进的 (state-of-the-art, SOTA):指在特定任务或数据集上,目前已知性能最佳的模型、算法或技术。

  • 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR):用于衡量图像重建质量的客观指标。它通过比较原始图像和重建图像的均方误差 (Mean Squared Error, MSE) 来计算,单位是分贝 (dB)。PSNR 值越高表示图像质量越好。其定义如下: PSNR=10log10(MAXI2MSE) \mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right) 其中 MAXI\mathrm{MAX}_I 是图像中像素的最大可能值(例如,对于8位图像为255),MSE\mathrm{MSE} 是均方误差 (Mean Squared Error),定义为: MSE=1MNi=0M1j=0N1[I(i,j)K(i,j)]2 \mathrm{MSE} = \frac{1}{MN} \sum_{i=0}^{M-1}\sum_{j=0}^{N-1} [I(i,j) - K(i,j)]^2 其中 II 是原始(真实标注数据 (Ground Truth))图像,KK 是处理后的(恢复或超分辨率)图像,M×NM \times N 是图像的尺寸。

  • 结构相似性指数 (Structural Similarity Index Measure, SSIM):另一种衡量图像质量的客观指标,它更符合人眼的视觉感知。SSIM 考虑了图像的亮度、对比度和结构信息,取值范围通常在0到1之间,值越高表示两幅图像越相似。其定义如下: SSIM(x,y)=(2μxμy+c1)(2σxy+c2)(μx2+μy2+c1)(σx2+σy2+c2) \mathrm{SSIM}(x,y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)} 其中:

    • xxyy 是两张待比较的图像块。
    • μx\mu_xxx 的平均像素值。
    • μy\mu_yyy 的平均像素值。
    • σx2\sigma_x^2xx 的方差。
    • σy2\sigma_y^2yy 的方差。
    • σxy\sigma_{xy}xxyy 的协方差。
    • c1=(K1L)2c_1 = (K_1L)^2c2=(K2L)2c_2 = (K_2L)^2 是为避免分母为零的常数,LL 是像素值的动态范围(例如,对于8位图像为255),K1=0.01K_1 = 0.01K2=0.03K_2 = 0.03 是默认值。
  • 十亿浮点运算次数 (Giga Floating Point Operations per Second, GFLOPS) / 每秒万亿次运算 (Tera MACs):衡量模型计算复杂度或吞吐量的指标。MAC (Multiply-Accumulate Operation) 指乘加运算。GFLOPS 通常指 Giga Floating Point Operations,但有时也指 Giga Floating Point Operations per Second,在本论文中,MACsFLOPs 用于衡量模型的计算量。较低的 GFLOPSMACs 值表示模型计算效率更高。

  • 参数量 (Parameters):神经网络模型中所有可学习权重和偏置的总数。参数量越小,模型通常越轻量,在部署到资源受限设备时越有利。挑战赛的高效 (Efficient) 赛道严格限制了参数量。

  • Transformer (变换器):一种基于自注意力 (self-attention) 机制的神经网络架构,最初用于自然语言处理,后来在计算机视觉领域也取得了巨大成功,尤其是在处理长距离依赖和全局信息方面表现出色。

  • 卷积神经网络 (Convolutional Neural Network, CNN):一种专门用于处理图像数据的神经网络,通过卷积层 (convolutional layers) 提取图像中的局部特征。

  • PixelShuffle (像素重排):一种用于图像超分辨率的高效上采样 (upsampling) 技术。它通过重新排列低分辨率特征图的像素,直接生成高分辨率图像,避免了传统插值方法(如双三次插值 (bicubic interpolation))可能引入的伪影 (artifacts)。具体来说,它将一个 H×W×Cr2H \times W \times C \cdot r^2 的特征图重塑为一个 Hr×Wr×CH \cdot r \times W \cdot r \times C 的特征图,其中 rr 是上采样因子。

  • 知识蒸馏 (Knowledge Distillation):一种模型压缩技术,通过训练一个小型学生模型 (student model) 来模仿一个大型、高性能的教师模型 (teacher model) 的输出,从而使学生模型在保持较高性能的同时,拥有更小的尺寸和更快的推理速度。

  • 重参数化 (Reparameterization):一种在训练和推理阶段使用不同网络结构的优化技术。在训练时,为了增加模型的表达能力或稳定性,可能使用多分支 (multi-branch) 结构;在推理时,这些多分支结构可以等效地融合成一个单一、高效的结构(例如,多个卷积层融合成一个卷积层),从而减少参数量和计算量,加速推理。

  • AdamW 优化器 (AdamW optimizer):一种常用的自适应学习率优化器,是 Adam 优化器的改进版,通过解耦权重衰减 (weight decay) 和 L2 正则化 (L2 regularization) 来提高模型的泛化能力。

  • 余弦退火学习率调度器 (Cosine Annealing learning rate scheduler):一种学习率调度策略,它将学习率从一个初始值按照余弦函数的形状逐渐降低,并在训练过程中可能周期性地重启学习率,有助于模型跳出局部最优解。

  • Charbonnier 损失 (Charbonnier loss):一种鲁棒的损失函数,常用于图像恢复任务。它对大的误差不如 L2 损失敏感,从而减少了对异常值 (outliers) 的关注,有助于生成更平滑、视觉效果更好的结果。其公式通常为 (xy)2+ϵ2\sqrt{(x-y)^2 + \epsilon^2},其中 ϵ\epsilon 是一个小的常数。

  • L1 损失 (L1 loss) / L2 损失 (L2 loss) / MSE 损失 (MSE loss)

    • L1 损失 (Mean Absolute Error, MAE)L1(x,y)=xyL_1(x, y) = |x - y|,即预测值和真实值之间差的绝对值。
    • L2 损失 (Mean Squared Error, MSE)L2(x,y)=(xy)2L_2(x, y) = (x - y)^2,即预测值和真实值之间差的平方。MSE 损失对较大的误差惩罚更多。

3.2. 前人工作

论文提及了多个相关研究和基线模型,这些工作为本次挑战提供了背景和技术基础:

  • BSRAW [18]:这是一篇关于盲 RAW 图像超分辨率 (blind RAW image super-resolution) 的工作,也是 NTIRE 2024 RAWSR 挑战的基线之一。它提出了一个降质流水线 (degradation pipeline) 来合成低分辨率 RAW 图像,该流水线被 NTIRE 2025 挑战广泛用于生成训练数据。
  • NTIRE 2024 RAWSR Challenge [19]:本次挑战赛的直接前身,为 RAW 图像超分辨率建立了初步的基准和方法。
  • RAW2RAW [1]:一篇关于半监督 RAW-to-RAW 映射的工作,为 RAWIR 挑战提供了部分数据集来源(如 Samsung Galaxy S9iPhone X 图像)。
  • PMRID [65]MOFA [9]NAFNet [7]:这些是 RAW 图像恢复(特别是去噪)领域的流行且高效的基线模型。
    • NAFNet [7]:全称 Simple Baselines for Image Restoration,以其简洁而高效的 UNet-like 架构和 NAFBlock 在图像恢复任务中表现出色,被多个挑战团队作为基础架构进行改进。
    • MOFA [9]A Model Simplification Roadmap for Image Restoration on Mobile Devices,专注于为移动设备上的图像恢复任务提供模型简化策略。
  • RawIR [20]Toward Efficient Deep Blind Raw Image Restoration,也是 NTIRE 2024 的一个相关工作,关注高效盲 RAW 图像恢复。
  • RBSFormer [33]Enhanced Transformer Network for Raw Image Super-Resolution,在 NTIRE 2024 中表现突出,也被 USTC-VIDAR 团队作为其 RAWSR 解决方案的简化版本基础。
  • XRestormer [10]A Comparative Study of Image Restoration Networks for General Backbone Network Design,一个高性能的图像恢复网络,在多个挑战团队的解决方案中被用作教师模型 (teacher model) 进行知识蒸馏。
  • SwinFIR-Tiny [76]Revisiting the SwinIR with Fast Fourier Convolution and Improved Training for Image Super-Resolution,一个基于 Swin Transformer 的图像超分辨率模型,被 Miers 团队作为 RAWIR 解决方案的基线框架。
  • MPRNet [74]Multi-Stage Progressive Image Restoration,一个多阶段渐进式图像恢复模型,被 WIRTeamLMPR-Net 解决方案作为基础。
  • PromptIR [51]Restormer [75]PromptIR: Prompting for All-in-One Image RestorationRestormer: Efficient Transformer for High-Resolution Image Restoration,这两个模型结合了 CNNTransformer 的优点,被 WIRTeamMulti-PromptIR 解决方案作为基础。

3.3. 技术演进

图像恢复和超分辨率领域的技术演进经历了从传统方法到深度学习方法的转变,并且在深度学习内部也持续发展:

  1. 传统图像处理时代: 早期方法多基于信号处理理论,如插值 (interpolation)、小波变换 (wavelet transform)、稀疏编码 (sparse coding) 等。这些方法通常依赖于手工设计的特征和先验知识,对特定类型的降质(如高斯噪声、简单模糊)效果较好,但泛化能力和处理复杂降质的能力有限。
  2. 早期深度学习时代 (CNN为主):
    • SRCNN [Dong et al., 2014] 开启了深度学习在超分辨率领域的应用,直接学习从 LRHR 的映射。
    • 随着 CNN 架构的发展,出现了更深、更宽的网络(如 ResNetDenseNet 及其变体),以及专门针对图像恢复任务设计的架构,如 UNet 及其变体(如 NAFNet),能够更好地捕获图像特征并处理复杂的降质。
    • 研究开始关注 损失函数 (loss function) 的设计,从简单的 L1/L2L1/L2 损失到感知损失 (perceptual loss)、对抗损失 (adversarial loss) 等,以改善视觉质量。
  3. RAW 域的崛起:
    • 随着对 ISP 流水线中信息损失的认识,研究者开始意识到直接在 RAW 域进行图像处理的优势。RAW 域处理可以避免 ISP 引入的非线性失真和信息损失,为高质量恢复提供了更大的潜力。
    • BSRAW [18]、RAW2RAW [1] 等工作开始探索 RAW 图像的超分辨率和恢复问题,并构建了相应的 RAW 数据集和降质模型。
  4. Transformer 的引入:
    • Transformer 架构在 NLP 领域取得成功后,也逐渐被引入计算机视觉,并在图像恢复任务中展示出强大的全局上下文建模能力。
    • Restormer [75]、SwinIR [Liang et al., 2021] 等模型将 Transformer 应用于图像超分辨率和恢复,并取得了显著成果。本次挑战中,RBSFormerMulti-PromptIR 等方案也采用了 Transformer 结构。
  5. 效率与部署:
    • 随着深度学习模型变得越来越大,如何在资源受限的移动设备上部署高性能模型成为一个重要课题。

    • 知识蒸馏 (knowledge distillation)、重参数化 (reparameterization)、量化 (quantization) 以及设计轻量级网络结构(如 MobileNet 系列、MOFA [9])成为主流研究方向。本次挑战的“高效 (Efficient)”赛道正是为了推动这方面的研究。

    • NAFNet [7] 也因其简洁高效的 NAFBlock 结构,成为许多轻量化图像恢复模型的基础。

      本次 NTIRE 2025 挑战站在了这一技术演进的交叉点上,旨在推动 RAW 域的 SRIR 发展,同时兼顾性能和在便携设备上的实际部署效率。

3.4. 差异化分析

本文本身是挑战报告,而不是提出新方法的论文。它总结并分析了多个团队提出的 RAW 图像恢复和超分辨率方法。因此,其差异化分析主要体现在以下几个方面:

  1. 与传统 RGB 域方法的区别:

    • 数据特性: RGB 域方法处理的是经过 ISP 流水线处理的图像,这些图像通常是 sRGB 颜色空间,位深较低,且已丢失大量原始信息。RAW 域方法直接处理传感器原始数据,具有更高的位深和更丰富的原始信息,避免了 ISP 的非线性失真和信息损失,理论上能实现更高质量的恢复。
    • 处理难度: RAW 图像处理需要考虑 Bayer 模式的特性(例如,4-channel packing),噪声模型与 RGB 域也不同,这增加了处理的复杂性,但也提供了更大的优化空间。
    • 泛化性: RAW 图像在不同相机之间的一致性比 sRGB 图像更高,因此在 RAW 域训练的模型有望实现更好的跨设备泛化能力。
  2. 与以往 RAW 域工作的区别:

    • 挑战的全面性: 本次挑战首次在一个竞赛中同时关注 RAW 图像的超分辨率和恢复(去噪、去模糊)这两个核心任务,并提供了大规模、多样化的数据集。
    • 效率约束: 引入了严格的“高效 (Efficient)”赛道,明确鼓励和评估在计算资源受限环境下的解决方案,这与一些只追求性能而不考虑模型大小和速度的传统研究有所不同。
    • 最新 SOTA 汇总: 作为年度挑战报告,它汇总并比较了 2025 年度全球研究团队在 RAW 图像处理领域的最新、最先进的方法,为该领域设立了新的基准。
  3. 不同团队解决方案的差异化:

    • 架构选择: 各团队采用了多样化的网络架构,包括基于 CNN (NAFBN, ECAN)、Transformer (USTC-VIDARRBSFormer 简化版, EGROUPERBSFormer 增强版)、以及结合两者的混合架构 (Samsung AIRawRTSR 基于 CASRXRestormer 蒸馏, MiersSwinFIR-Tiny 改进版, WIRTeamMulti-PromptIR 基于 PromptIRRestormer)。
    • 轻量化策略: 为了满足高效赛道的要求,团队采用了多种轻量化技术,如减少通道数、减少块数、知识蒸馏、重参数化、深度可分离卷积 (depthwise separable convolution) 等。
    • 训练策略: 多阶段训练 (multi-stage training)、不同的损失函数组合 (L1, L2, Charbonnier, Frequency loss)、数据增强和降质流水线的定制 (custom degradation pipeline) 也是各团队优化性能的关键。
    • 性能与效率的权衡: “高效 (Efficient)”和“通用 (General)”赛道的结果清晰地展示了不同方法在 PSNR/SSIM 性能与参数量/计算量之间的权衡。

4. 方法论

本次 NTIRE 2025 挑战赛分为两个主要赛道:RAW 图像超分辨率 (RAWSR) 和 RAW 图像恢复 (RAWIR)。参赛团队针对这两个赛道提出了多种解决方案。本节将详细阐述挑战赛所涉及的方法原理,并深入分析各个团队提交的核心方法。

4.1. 方法原理

RAW 图像恢复和超分辨率的核心挑战在于处理传感器原始数据,这要求模型能够理解 Bayer 模式的特性、精确建模噪声和模糊降质,并有效重建高频细节。与 sRGB 图像处理不同,RAW 域处理能够利用更丰富的原始信息,避免 ISP 流水线引入的不可逆信息损失。

挑战目标:

  • RAW 图像超分辨率 (RAWSR):给定一个低分辨率 (Low-Resolution, LR) 的 RAW Bayer 图像(可能含有未知噪声和模糊),目标是生成一个 2x 上采样的高分辨率 (High-Resolution, HR) RAW Bayer 图像。
  • RAW 图像恢复 (RAWIR):给定一个具有模糊 (blur) 和噪声 (noise) 降质的 RAW 图像,目标是恢复其清晰无降质的版本。

通用方法原理: 大多数解决方案遵循深度学习范式,通常包含以下几个核心组件:

  1. 数据预处理与打包 (Data Pre-processing and Packing)RAW 图像通常以 Bayer 模式存储。为了方便神经网络处理,通常会将原始单通道 Bayer 图像“打包”成一个 4 通道图像(RGGB 模式),其中每个通道对应 Bayer 模式中的一个子采样网格,从而在不破坏原始颜色模式信息的情况下进行卷积操作。
  2. 降质合成流水线 (Degradation Pipeline):由于缺乏大量的真实配对 LR-HR RAW 数据,挑战赛鼓励参赛者使用或改进现有的降质流水线(如 BSRAW [18] 中提出的流水线)来合成训练数据。该流水线通常包含多种噪声模型(如真实噪声剖面 (real noise profiles))、多种模糊核 (blur kernels, Point Spread Functions, PSFs) 以及下采样策略。
  3. 特征提取主干网络 (Feature Extraction Backbone Network)
    • 浅层特征提取 (Shallow Feature Extraction):通常使用一个简单的卷积层从输入 LR 图像中提取初始特征。
    • 深层特征提取 (Deep Feature Extraction):这是模型的核心部分,负责捕获图像中的多尺度信息、建模长距离依赖以及去除降质。这通常通过堆叠多个网络块实现,这些块可能是基于 CNN (如 NAFBlock、残差块 (Residual Block)) 或 Transformer (如 Swin Transformer Block、注意力模块 (Attention Module)),或者两者的混合。
  4. 上采样机制 (Upsampling Mechanism) (仅 RAWSR):对于超分辨率任务,模型需要将低分辨率特征图转换为高分辨率特征图。常用的方法包括:
    • PixelShuffle (像素重排) [58]:一种高效的子像素卷积层,能够直接生成高分辨率输出,同时减少计算量。
    • 转置卷积 (Transposed Convolution) / 反卷积 (Deconvolution):通过学习的方式进行上采样。
  5. 重建模块 (Reconstruction Module):将深层特征转换为最终的高分辨率或恢复的 RAW 图像。通常是一个或多个卷积层。
  6. 损失函数 (Loss Function):指导模型训练,常用的包括 L1 损失、L2 (MSE) 损失、Charbonnier 损失 [64] (对异常值更鲁棒) 和频率损失 (frequency loss) [49] (关注图像的频率域信息,有助于恢复纹理细节)。
  7. 优化与效率 (Optimization and Efficiency):为了在移动设备上部署,许多解决方案采用了轻量化设计、知识蒸馏和重参数化等策略,以减少参数量和计算复杂度。

4.2. 核心方法详解

4.2.1. NTIRE 2025 RAWSR 挑战解决方案

4.2.1.1. RawRTSR: 实时RAW超分辨率 (Samsung AI)

RawRTSR 团队(三星AI)的解决方案基于 CASR [71],并结合了知识蒸馏 (knowledge distillation) 和重参数化 (reparameterization) 策略,以满足参数和推理时间要求。

方法描述与模型框架: RawRTSRRAW 超分辨率任务分解为去噪 (denoising) 和细节增强 (detail enhancement) 两个基本过程。

  • 教师模型 (Teacher Model):采用 XRestormer [10] 作为教师模型。
  • 学生模型 (Student Model):学生模型在训练阶段包含重参数化卷积块。在部署时,这些多分支卷积组件通过参数融合 (parameter fusion) 结构化地转换为统一的卷积层。

高效模型 (Efficient Model), RawRTSR: 该模型架构如下图(原文 Figure 2)所示,包含一个去噪模块 (Denoising Module) 和一个细节增强模块 (Detail Enhancement Module)。

  • 去噪模块: 首先通过 unPixelshuffle 下采样 (downsampling) 降低图像分辨率,以有效捕获全局信息进行噪声去除。它通过四个卷积层处理特征进行去噪,然后通过上采样 (upsampling) 恢复分辨率以匹配原始输入尺寸。

  • 细节增强模块: 采用五个卷积层来恢复精细纹理。为防止去噪过程中过多的细节丢失,明确引入了来自原始输入的残差连接 (residual connections)。

  • 最终输出通过 PixelShuffle 操作进行上采样以实现超分辨率重建。网络在两个模块中都保持最大特征通道数为48,以平衡性能和复杂度。

    该图像是一个示意图,展示了学生模型和提交模型在进行RAW图像超分辨率处理时的网络结构。上半部分为教师模型的结构,显示了输入低分辨率图像LR通过多个卷积层和SSAB模块逐步生成高分辨率图像SR。下半部分展示了学生模型的训练模式与提交模型的推理模式,强调了不同阶段的操作和结构设计。 该图像是一个示意图,展示了学生模型和提交模型在进行RAW图像超分辨率处理时的网络结构。上半部分为教师模型的结构,显示了输入低分辨率图像LR通过多个卷积层和SSAB模块逐步生成高分辨率图像SR。下半部分展示了学生模型的训练模式与提交模型的推理模式,强调了不同阶段的操作和结构设计。

图示为学生模型和提交模型在进行RAW图像超分辨率处理时的网络结构。上半部分为教师模型的结构,显示了输入低分辨率图像LR通过多个卷积层和SSAB模块逐步生成高分辨率图像SR。下半部分展示了学生模型的训练模式与提交模型的推理模式,强调了不同阶段的操作和结构设计。

通用模型 (General Model), RawRTSR-L: 该模型架构如下图(原文 Figure 3)所示。与 RawRTSR 不同,RawRTSR-L 将特征通道数从48增加到64,以增强表示能力。为了防止通道扩展在去噪阶段可能导致的信息冗余,它额外引入了通道注意力 (channel attention) 机制来自适应地重新校准特征响应。

Figure 3. The overall structure of the RawRTSR-L network: 0.311M parameters and running at \(4 . 4 4 \\mathrm { m s }\) on the A100 GPU. 该图像是一个示意图,展示了RawRTSR-L网络的整体结构。左侧是低分辨率(LR)图像,经过去噪模块和细节增强模块处理后,生成右侧的超分辨率(SR)图像。网络架构包括多个卷积层和激活层,能够有效地提升RAW图像的质量。

图示为RawRTSR-L网络的整体结构。左侧是低分辨率(LR)图像,经过去噪模块和细节增强模块处理后,生成右侧的超分辨率(SR)图像。网络架构包括多个卷积层和激活层,能够有效地提升RAW图像的质量。

实施细节:

  • 合成降质方法: 采用两种方法获取低质量 (LQ) 图像:

    1. RAW 域随机多次添加噪声和模糊。
    2. RAW 图像转换为 RGB,添加运动模糊和噪声,然后转换回 RAW
  • 三步训练策略:

    1. 第一步: 分别训练教师模型和学生模型。LQ 图像块从 256×256256 \times 256 大小的合成降质 LQ 图像中裁剪。使用 AdamW [47] 优化器 (β1=0.9,β2=0.999\beta_1 = 0.9, \beta_2 = 0.999, 权重衰减 (weight decay) 0.0001),学习率 (learning rate) 0.0005,共800个 epoch。使用 L1 损失。
    2. 第二步: 模型用第一步训练的权重初始化,使用特征蒸馏 (feature distillation)。共800个 epoch。初始学习率设置为 0.00005,使用 L2 损失。
    3. 第三步: 模型用前一步训练的权重初始化。LR 图像块从 512×512512 \times 512 大小的合成降质 LQ 图像中裁剪。
  • 最终提交模型: 经过重参数化的学生模型。

  • 硬件: PyTorch 框架,A100 GPU

    以下是原文 Table 3 的结果:

    TypeModelInputTraining TimeTrain E2EExtra Data# Params. (M)Inference TimeGPU
    Efficient ModelRawRTSR2512 × 512 × 424hYesNo0.194.45 msA100
    General ModelRawRTSR-L 3512 × 512 × 424hYesNo0.264.44 msA100

4.2.1.2. Streamlined Transformer Network for RealTime Raw Image Super Resolution (USTC-VIDAR)

USTC-VIDAR 团队的解决方案是 RBSFormer [33] 的流线型版本,旨在实现高效处理。

方法描述与模型框架: 该方法的整体框架如下图(原文 Figure 4)所示。

  • 主分支 (Main Branch):包含一个 3×33 \times 3 卷积层,NN 个级联的变换器块 (transformer blocks),以及一个上采样块 (upsample block)。

  • 残差分支 (Residual Branch):只包含一个上采样块。

  • 上采样块: 每个上采样块都使用一个 3×33 \times 3 卷积层,后接 PixelShuffle [58] 操作,将特征上采样 2 倍。

  • 变换器块 (Transformer Block):为了降低 Transformer 的计算复杂度,该团队引入了 InceptionNeXt [72] 和 ShuffleNet [78] 的思想:

    • InceptionNeXt: 利用部分卷积 (partial convolution) 和深度可分离卷积 (depth-wise convolution) 进行 Q, K, V (Query, Key, Value) 投影,实现高效的空间特征提取。
    • ShuffleNet: 在前馈网络 (feed-forward networks) 中采用带有 GG 通道组的 ShuffleNet,以减少输入投影参数。
    • 输出投影: 受 [33, 48] 启发,使用元素乘法 (element-wise multiplication) 和深度可分离卷积门控 (depth-wise convolution gate) 来进一步简化输出投影。
  • 模型参数设置:N=8N = 8 (8个变换器块),G=4G = 4 (4个通道组)。

  • 对于一个 4 通道、1MP1\mathrm{MP} RGGB RAW 图像,模型需要 519.72 GFLOPS,包含 1.94M 参数,符合挑战赛的参数限制(0.2M-2M 参数)。在 NVIDIA RTX 3090 上,全分辨率图像的前向推理 (forward pass) 需要 96ms

    Figure 4. Team USTC framework for RAW image super resolution. 该图像是团队USTC在RAW图像超分辨率任务中的框架示意图。该框架通过多个Transformer块处理输入的低分辨率RAW图像,并通过上采样技术生成高分辨率RAW图像,展示了现代图像信号处理中的新方法。

图示为团队USTC在RAW图像超分辨率任务中的框架示意图。该框架通过多个Transformer块处理输入的低分辨率RAW图像,并通过上采样技术生成高分辨率RAW图像,展示了现代图像信号处理中的新方法。

实施细节:

  • 数据集: 仅使用挑战组织者提供的数据集(超过 1,000RAW 图像)。
  • 数据增强 (Data Augmentation): 随机水平翻转 (horizontal flips)、垂直翻转 (vertical flips) 和转置 (transpositions)。
  • 降质模拟: 使用 BSRAW [18] 降质流水线,并添加额外的 PSF 核 [26]。
  • 两阶段训练:
    1. 第一阶段: 训练 300k 步,批大小 (batch size) 为8,图像块大小 (patch size) 为192。学习率从 2×1042 \times 10^{-4} 衰减到 10610^{-6}。在 NVIDIA RTX 3090 GPU 上约需12小时。
    2. 第二阶段: 批大小增加到64,图像块大小设置为256。训练 147k 步,学习率从 10410^{-4} 衰减到 10610^{-6}。在 A800 GPU 上约需31小时。
  • 优化器: Adam 优化器,默认超参数。
  • 损失函数: Charbonnier 损失和频率损失 (Frequency loss) [49] 的组合,频率损失权重为0.5。

4.2.1.3. SMFFRaw: 简化多级特征融合网络用于RAW图像超分辨率 (XJTU)

XJTU 团队提出了 SMFFRaw (Simplified Multi-Level Feature Fusion Network for RAW Image Super-Resolution),一个计算高效的网络,基于 MFFSSR [41],通过新颖的迭代训练策略逐步提升模型性能。

方法描述与模型框架: SMFFRaw 的网络架构如下图(原文 Figure 5)所示,包含三个主要组件:浅层特征提取 (shallow feature extraction)、深层特征提取 (deep feature extraction) 和重建 (reconstruction)。

该图像是一个示意图,展示了SMFFRaw模型的整体框架和各个组成部分,包括浅层特征提取、深层特征提取和图像重建过程。同时,图中展示了混合注意力特征提取块(HAFEB)及其通道注意力(CA)和大内核注意力(LKA)的工作机制。 该图像是一个示意图,展示了SMFFRaw模型的整体框架和各个组成部分,包括浅层特征提取、深层特征提取和图像重建过程。同时,图中展示了混合注意力特征提取块(HAFEB)及其通道注意力(CA)和大内核注意力(LKA)的工作机制。

图示为SMFFRaw模型的整体框架和各个组成部分,包括浅层特征提取、深层特征提取和图像重建过程。同时,图中展示了混合注意力特征提取块(HAFEB)及其通道注意力(CA)和大内核注意力(LKA)的工作机制。

  • 浅层特征提取: 给定一个降质输入图像 ILRI_{LR},使用一个简单的 3×33 \times 3 卷积操作来提取浅层特征 F0F_0
  • 深层特征提取: 使用一系列混合注意力特征提取块 (Hybrid Attention Feature Extraction Block, HAFEB) 模块来提取深层特征。每个 HAFEB 模块包含点卷积 (Point-wise Convolution, Pconv)、深度可分离卷积 (Depthwise Convolution, DWconv)、重参数化卷积 (Reparameterized Convolution, RepConv)、通道注意力 (Channel Attention, CA) 和大核注意力 (Large Kernel Attention, LKA) 等操作。在推理阶段不应用重参数化。
  • 重建: 在重建阶段,特征图首先通过一个带有 PixelShuffle [58] 的 3×33 \times 3 卷积层进行上采样,然后与双线性插值 (bilinearly interpolated) 的输入相加,以生成最终结果 ISRI_{SR}。这种设计降低了训练复杂度,同时增强了网络的 SR 性能。

实施细节:

  • 数据集: 仅使用挑战组织者提供的数据集。

  • 数据增强: 常用增强(旋转、翻转)和 mixup [76]。

  • 降质模拟: 使用 BSRAW [18] 提出的降质流水线生成 RAW 降质图像对。

  • 五阶段训练策略: 训练流水线包含五个阶段,详情见下表(原文 Table 5)。

    • 优化器: Adam 优化器 [35],初始学习率 1e31 \mathrm{e}-3,使用余弦退火 (Cosine Annealing) 衰减到 1e61 \mathrm{e}-6
    • 损失函数: 前四个阶段使用 Charbonnier 损失 [64] 和频率损失 [31] 的组合,类似于 RBSFormer [33];最后一个阶段使用 MSE 和频率损失的组合。
  • 硬件: PyTorchRTX 4090 GPU

    以下是原文 Table 4 的结果:

    InputTraining TimeTrain E2EExtra Data# Params (M)GPU
    (512, 512, 4)99hYesNo0.182RTX 4090
    (512, 512, 4)174hYesNo1.994RTX 4090

以下是原文 Table 5 的结果:

Training PhaseMixupDownsampleNoiseBlurPatch SizeBatch SizeIterationsTraining Loss
Phase 1--5128372KCharbonnier L1+Frequency
Phase 2-5128372KCharbonnier L1+Frequency
Phase 3Y5128372KCharbonnier L1+Frequency
Phase 4-10244266KCharbonnier L1+Frequency
Phase 5-10244266KMSE+Frequency

4.2.1.4. An Enhanced Transformer Network for Raw Image Super-Resolution (EGROUP)

EGROUP 团队的方法利用 RBSFormer [32] 架构直接处理 RAW 图像以进行超分辨率任务。通过在 RAW 域操作而不是在 ISP 处理后的 sRGB 图像上操作,避免了非线性变换的复杂性,使降质建模更具挑战性。

方法描述与模型框架: 该方法保持了 RBSFormer [32] 的三组件结构。整体流程如下:

  1. 浅层特征提取: 给定一个带有降质的原始低分辨率图像 ILRRH×W×4I_{LR} \in \mathbb{R}^{H \times W \times 4},首先通过一个 3×33 \times 3 卷积层提取浅层特征 FsF_sFs=Conv3×3(ILR) F_s = \mathbf{Conv}_{3 \times 3} (I_{LR})

  2. 深层特征提取: 接下来,使用一系列变换器块 (transformer blocks) 来提取深层特征: Fi=Htbi(Fi1),i=1,2,...,KFd=Conv3×3(FK) \begin{array}{r} F_i = \mathcal{H}_{tb_i} (F_{i-1}), i = 1, 2, ..., K \\ F_d = \mathrm{Conv}_{3 \times 3} (F_K) \end{array} 其中 Htbi\mathcal{H}_{tb_i} 表示第 ii 个变换器块的操作,KK 是变换器块的数量。

  3. 图像重建: 最后,通过聚合特征来重建 HR 图像: IHR=Hrec(ILR,Fd)=Up(Fs+Fd) I_{HR} = \mathcal{H}_{rec} (I_{LR}, F_d) = \mathbf{Up} (F_s + F_d) 其中 Up\mathbf{Up} 表示上采样操作,通常包含 PixelShuffle 等。

    Figure 6. The architecture of the RBSFormer \[32\] used by Team EGROUP for RAW image super-resolution. 该图像是示意图,展示了Team EGROUP为RAW图像超分辨率使用的RBSFormer架构。图中包括多个组件,如原始低分辨率图像(Raw LR)、多个变换器块(Transformer Block)以及增强的交叉协方差注意机制(EXCA)和增强门控前馈网络(EGFN)。每个模块的功能和操作通过图例进行说明,清晰阐释了信息流和数据处理的过程,最后输出高分辨率图像(Raw HR)。

图示为Team EGROUP为RAW图像超分辨率使用的RBSFormer架构。图中包括多个组件,如原始低分辨率图像(Raw LR)、多个变换器块(Transformer Block)以及增强的交叉协方差注意机制(EXCA)和增强门控前馈网络(EGFN)。每个模块的功能和操作通过图例进行说明,清晰阐释了信息流和数据处理的过程,最后输出高分辨率图像(Raw HR)。

实施细节:

  • 数据集: 使用组织者提供的官方训练数据集。
  • 数据增强:RAW 域进行仔细的数据增强,包括实现随机噪声和模糊降质模式。
  • 优化器: AdamW 优化器,β1=0.9,β2=0.999\beta_1 = 0.9, \beta_2 = 0.999
  • 学习率调度: 初始学习率 7×1047 \times 10^{-4},采用余弦退火策略 (cosine annealing strategy) 逐渐衰减到 1×1061 \times 10^{-6}
  • 硬件: PyTorch 1.11.0,两块 NVIDIA 4090 GPU
  • 训练设置: 批大小 (batch-size) 为8,裁剪大小 (crop-size) 为192。
  • 两阶段训练:
    1. 使用 L1 损失训练 100k 迭代。
    2. 使用 FFT (Fast Fourier Transform) 损失进行 20k 迭代的微调 (fine-tuning)。
  • 评估结果:在验证集上达到 42.54 dB PSNR0.98 SSIM,参数量仅为 3.3M

4.2.1.5. A fast neural network to do super-resolution based on NAFSSR (NJU)

NJU RSR 团队提出了一个基于 NAFBlock [14] 的 CNN 框架,用于 RAW 图像超分辨率,并在推理时采用重参数化 (reparameterization),将批归一化 (Batch Normalization) 的额外参数融合到之前的 CNN 层中,实现高效推理。

方法描述与模型框架: NJU RSR 的架构如下图(原文 Figure 7)所示。

  • NAFBlock 重新设计: 该团队重新设计了 NAFSSR [14] 中的 NAFBlock,将其 SimpleGate 组件替换为 CNN 层和 GeLU 激活函数,并移除 FFN (Feed-Forward Network) 组件以限制块的参数,从而构建了一个轻量级模型。采用的 NAFBlock 结构如下图(原文 Figure 8)所示。

  • 批归一化 (Batch Normalization, BN):用 BN 替换了 层归一化 (Layer Normalization, LN),因为 BN 可以在推理时与相邻的 CNN 层融合,进一步提高效率。

  • 计算成本: 对于一个 256×256256 \times 256 大小、4 通道的 RGGB RAW 图像块,NAFBN 的计算成本为 11.90 GFLOPS。在融合 BN 层后,可训练参数数量为 189K

  • 推理时间:NVIDIA RTX3090 上,256×256256 \times 256 图像块的前向推理时间:融合 BN 后为 7.19 ms;使用半精度 (half precision) 时为 5.19 ms;不进行融合操作时为 9.49 ms

    Figure 7. NAFBN proposed by Team NJU RSR. 该图像是示意图,展示了Team NJU RSR提出的NAFBN网络架构。图中展示了从低分辨率(LR)图像经过三个卷积层和多个NAFBlock模块处理后,最终生成超分辨率(SR)图像的过程。通过逐层处理和特征提升,最后使用像素重排(Pixel Shuffle)方法将处理结果转换为高分辨率图像。

图示为Team NJU RSR提出的NAFBN网络架构。图中展示了从低分辨率(LR)图像经过三个卷积层和多个NAFBlock模块处理后,最终生成超分辨率(SR)图像的过程。通过逐层处理和特征提升,最后使用像素重排(Pixel Shuffle)方法将处理结果转换为高分辨率图像。

Figure 8. Adopted NAFBlock used by Team NJU RSR. 该图像是示意图,展示了团队 NJU RSR 采用的 NAFBlock 结构。该结构通过多个卷积层和批量归一化层,以及深度卷积和通道注意力机制,提升了图像处理的效果。

图示为团队 NJU RSR 采用的 NAFBlock 结构。该结构通过多个卷积层和批量归一化层,以及深度卷积和通道注意力机制,提升了图像处理的效果。

实施细节:

  • 数据集: 使用 NTIRE 2025 RAW 图像超分辨率挑战提供的数据,降质流水线 [18]。
  • 框架: PyTorch,在 AutoDL 平台上的单 vGPU-32 设备上运行。
  • 模型配置: NAFBN 模型使用12个宽度为48的 NAFBlock
  • 优化器: AdamW 优化器,衰减参数 β1=0.9,β2=0.99\beta_1 = 0.9, \beta_2 = 0.99。批归一化的动量 (momentum) 设置为0.03。
  • 学习率调度: 初始学习率 1×1031 \times 10^{-3},使用余弦退火方案 (Cosine Annealing scheme) 衰减到 1×1061 \times 10^{-6}
  • 训练时长: 50k 迭代,约7小时。
  • 数据增强: 随机裁剪 32×3232 \times 32 图像块,随机白平衡 (white balance),随机水平或垂直翻转,随机直角旋转,曝光调整(线性缩放因子在 [-0.1, 0.1] 范围内)。所有增强以0.5的概率应用。为了在较低分辨率图像上获得更好性能,在每次图像块裁剪过程中,以0.3的概率添加了使用 AvePool2d 和双三次插值 (bicubic interpolation) 进行的随机下采样。
  • 损失函数: L1 损失。

4.2.1.6. A efficient neural network baseline report using Mamba (TYSL)

TYSL 团队在 RAW 数据上实现了 MambaIRv2 [24] 方法,旨在为竞赛提供一个不同视角的基线。

方法描述与模型框架: 该团队在 RAW 数据上实现了 MambaIRv2 [24] 方法,并简化了其架构,以获得一个小于 0.2M 参数的轻量级模型。模型的架构如下图(原文 Figure 9)所示,其中 embeddingdim=32embedding dim = 32, m=4m = 4, n=2n = 2

  • 团队选择 Mamba 模型是由于其轻量化的巨大潜力,以及之前没有人将其用于 RAW 数据。

  • 在下采样方面,团队进行了大量工作,尝试了多种方法,包括:

    1. 直接对每个通道进行双三次下采样。
    2. 使用竞赛提供的 AvgPool2D
    3. 使用带偏差的双三次下采样 (bicubic downsampling with bias),如下图(原文 Figure 10)所示。
  • 在这些方法中,AvgPool2D 表现远优于其他方法。团队指出,如果测试集图像是合成数据,合成方法中的下采样将产生显著影响。

    Figure 9. MambaIRv2 structure 该图像是图示,展示了 MambaIRv2 的结构。图中包含多个模块和连接,包括 W-MSA 和 ASSM,以及合并和重构的过程。

图示为 MambaIRv2 的结构。图中包含多个模块和连接,包括 W-MSA 和 ASSM,以及合并和重构的过程。

Figure 10. Downsampling structure 该图像是一个示意图,展示了双三次插值和平均池化在图像下采样中的应用。其中(a)部分介绍了双三次插值和平均池化的基本过程,(b)部分展示了带有偏差的双三次插值及其对每种颜色的详细计算方式。

图示为一个示意图,展示了双三次插值和平均池化在图像下采样中的应用。其中(a)部分介绍了双三次插值和平均池化的基本过程,(b)部分展示了带有偏差的双三次插值及其对每种颜色的详细计算方式。

实施细节:

  • 新下采样方法: 基于中心像素值更接近区域平均像素值的直觉。以最小的 4×44 \times 4 单元为例,下采样后转换为 RGGB 排列的 2×22 \times 2 单元。下采样后左上角的红色像素代表下采样前左上角 2×22 \times 2 像素的平均值。如果直接对原始图像的红色通道应用双三次下采样或 avgpool2d,得到的值应该近似于原始 4×44 \times 4 图像中的对应位置,即坐标 (1,1)(1,1) 处的像素。这个值最终位于下采样后 2×22 \times 2 图像中红色像素的右下角,而不是中心。因此,如果使用最近的16个点进行双三次插值,插值点位于下采样红色像素的中心,这种方法可以实现更精确的下采样。
  • 数据集: 使用提供的训练集,遵循给定的降质流水线,除了下采样步骤,没有应用任何图像增强。
  • 硬件: PyTorch 框架,多个 A100 GPU
  • 训练设置: 批大小 (batch size) 为64,学习率 (learning rate) 为 8e48 \mathrm{e}-4
  • 训练时长: 约26小时。训练速度慢的主要因素是长时间的图像降质过程。

4.2.1.7. RepRawSR: 使用重参数化加速RAW图像超分辨率 (EiffLowCVer)

EiffLowCVer 团队为 RAW 图像超分辨率设计了 SYEnet [23] 的两个轻量级变体,结合了结构重参数化 (structural reparameterization) 和高效网络设计。

方法描述与模型框架: 团队对 SYEnet [23] 进行了二次开发。发现增加处理块数量或简单地扩大通道数通常会导致训练不稳定,性能不佳。通过大量实验,最终训练了以下两个模型:

  • RepTiny-21k:
    • 原始 SYEnet 只使用一个特征提取模块,限制了特征提取能力。Tiny-21k 模型将其增加到四个,并引入跳跃连接 (skip connections)(红色箭头)以减轻梯度消失 (gradient vanishing) 问题,如下图(原文 Figure 11)所示。
    • 为提高效率,通道数设置为16。
    • 在输入为 (512,512,4)(512, 512, 4) 时,模型实现 5.65G FLOPs21k 参数,并在自组织验证集上达到 39.00 dB PSNR
  • RepLarge-97k:
    • 另一种增强模型的方法是增加通道宽度而不是网络深度。该模型将通道数设置为32,只使用一个特征提取模块,并引入了 FEBlockSYEnet 中用于超分辨率任务的预处理模块)。

    • 这种配置在自组织验证集上将 PSNR 提高了 0.22 dB。然而,由于更宽的通道和增加的 FEBlock,参数量和 FLOPs 增加了5倍。

      Figure 11. Main branch of RepRawSR proposed by Team EffiLowCVer. 该图像是图示,展示了Team EffiLowCVer提出的RepRawSR的主要结构。图中包含特征提取模块及通道注意力机制,主要运算由多个卷积层和批归一化组成。该模型在Tiny-21k上进行了四次迭代。

图示为Team EffiLowCVer提出的RepRawSR的主要结构。图中包含特征提取模块及通道注意力机制,主要运算由多个卷积层和批归一化组成。该模型在Tiny-21k上进行了四次迭代。

实施细节:

  • 优化器和学习率: Adam 优化器,初始学习率 8×1048 \times 10^{-4},采用 CosineAnnealingRestartLR 调度学习率。

  • 硬件: NVIDIA GeForce RTX 3090 24Gb

  • 数据集: 仅使用组织者提供的 1,064RAW 图像作为数据集,其中 40 张随机选作训练期间的验证集。

  • 训练时长: 22 小时 (Tiny-21k),26 小时 (Large-97k)。

  • 训练策略: 采用多阶段训练策略。

    1. 第一阶段: 100,000 训练步,随机裁剪 256×256256 \times 256 GT 图像块,应用随机旋转和翻转,然后使用组织者提供的降质流水线生成 LQ 图像作为模型输入。
    2. 第二阶段: 图像块大小增加到 384×384384 \times 384,继续训练 50,000 步。
  • 效率优化策略: 为了稳定训练,额外的一个尾部 (tail) 从中间特征图 (intermediate feature maps) 生成第二个预测图像,并将其纳入损失计算。这个分支在推理时被移除。

    以下是原文 Table 7 的结果:

    MethodFLOPsVal (Self)Val
    NAFnet-1.9M(baseline)9.68G40.2141.70
    RepLarge-97k24.42G39.2240.80
    RepTiny-21k5.65G39.00

以下是原文 Table 8 的结果:

InputTraining TimeTrain E2EExtra Data# Params. (M)GPU
(256,256,3)22hYesNo0.021 Million for Tiny-21k3090
(256,256,3)26hYesNo0.097 Million for Large-97k3090

4.2.1.8. ECAN: 用于RAW图像超分辨率的高效通道注意力网络 (CUEE-MDAP)

CUEE-MDAP 团队提出了 ECAN (Efficient Channel Attention Network),旨在为 NTIRE 2025 高效 (Efficient) 赛道 (i.e. 小于 0.2M 参数) 创建一个“高效超分辨率算法” [54]。

方法描述与模型框架: ECAN 是一个基于 CNN 的模型,不使用任何外部预训练模型,在 NTIRE 2025 RAW 训练数据集上进行端到端 (end-to-end) 训练,使用了标准数据增强和特定的降质流水线。 ECAN 架构如下图(原文 Figure 12)所示,包含四个阶段:

  1. 浅层特征提取 (Shallow Feature Extraction):对 4 通道 RAW 输入进行 3×33 \times 3 卷积。
  2. 深层特征提取 (Deep Feature Extraction):包含 8 个“高效残差块 (EfficientResidualBlocks)”和一个全局跳跃连接 (global skip connection)。
    • 每个“高效残差块”采用倒置残差结构 (inverted residual structure),结合深度可分离卷积 (depthwise separable convolutions)(受 MobileNetV2 [57] 启发)和压缩-激励 (Squeeze-and-Excitation, SE) 块 [27] 进行通道注意力 (channel attention)。
  3. 上采样 (Upsampling):使用 PixelShuffle
  4. 重建 (Reconstruction)3×33 \times 3 卷积输出 4 通道 RAW
  • 效率: ECAN 仅有 93,092 个参数 (0.093M\approx 0.093\mathrm{M}),远低于 0.2M 的限制。

  • 计算成本: 对于 512×512×4512 \times 512 \times 4 的输入(输出为 1MP),估计计算成本为 21.82 GMACs (或 43.65 GFLOPs)。

  • 推理时间:NVIDIA RTX 4090 上,每输出兆像素 (megapixel) 约 8.25ms

    该图像是一个示意图,展示了RAW图像处理中的高效残差模块堆叠结构,包括全局跳跃连接、像素重排和压缩-激励(SE)块。图中详细描述了输入、特征提取和输出的各个环节。此结构在图像信号处理和超分辨率重建中起到关键作用。 该图像是一个示意图,展示了RAW图像处理中的高效残差模块堆叠结构,包括全局跳跃连接、像素重排和压缩-激励(SE)块。图中详细描述了输入、特征提取和输出的各个环节。此结构在图像信号处理和超分辨率重建中起到关键作用。

图示为一个示意图,展示了RAW图像处理中的高效残差模块堆叠结构,包括全局跳跃连接、像素重排和压缩-激励(SE)块。图中详细描述了输入、特征提取和输出的各个环节。此结构在图像信号处理和超分辨率重建中起到关键作用。

实施细节:

  • 框架: PyTorch
  • 优化器: AdamW (β1=0.9,β2=0.999\beta_1 = 0.9, \beta_2 = 0.999),权重衰减 1×1041 \times 10^{-4}
  • 学习率: 初始学习率 4×1044 \times 10^{-4},余弦退火 (cosine annealing) 衰减到 1×1071 \times 10^{-7}
  • 硬件: NVIDIA RTX 4090 (24GB)
  • 数据集: NTIRE 2025 RAW 训练集。未额外使用数据。
  • 数据增强: 随机 90/180/27090/180/270 度旋转,水平翻转。
  • 降质模拟: 高斯模糊 (σ4.0,p=0.7\sigma \le 4.0, p = 0.7) + 高斯噪声 (level0.04,p=0.95\mathrm{level} \le 0.04, p = 0.95)。
  • 训练时长: 600epoch (1.6\approx 1.6 小时)。
  • 训练策略: 从头开始端到端训练 (end-to-end from scratch),自动混合精度 (Automatic Mixed Precision, AMP)。输入图像块大小 128×128128 \times 128,批大小 (batch size) 64。L1 损失。梯度裁剪 (Gradient clipping) 为1.0。

4.2.2. NTIRE 2025 RAWIR 挑战解决方案

4.2.2.1. Efficient RAW Image Restoration (SamsungAI)

SamsungAI 团队在 RAW 恢复挑战中,主要基于 Nafnet [7] 架构设计其模型结构,Nafnet 是一种用于 RAW 图像恢复的轻量级网络。为了在多样化的移动 RAW 降质下满足参数限制并保持性能,他们减少了 Nafnet 参数并实施了蒸馏策略。

方法描述与模型框架: RAW 图像恢复处理涉及噪声抑制 (noise suppression) 和模糊校正 (blur correction) 等耦合降质过程。团队选择 NafBlock 架构作为关键组件,因其在联合去噪和去模糊任务中展现出 SOTA 功效。为实现参数效率而不损害恢复保真度,他们设计了基于窄深 (narrow-and-deep) 架构原则的网络,减少了通道维度但保留了层深度,从而产生了两种具有不同参数配置的架构变体。

  • 教师模型 (Teacher Model):采用 X-Restormer [10] 作为教师模型,并在每个移动设备上进行了微调。
  • 学生模型 (Student Model)
    • ERIRNet-S: NAFNet 的简化版本,减少了通道宽度和编码器-解码器块的数量,以提高效率。其架构如下图(原文 Figure 15)所示。

    • ERIRNet-T: 通过减少块数量和使用更小的 FFN (Feed-Forward Network) 扩展比进一步降低复杂性。它还用 ConvTranspose 替换了 PixelUnshuffle 层,从而在严格的参数预算下实现更深层的架构。其架构如下图(原文 Figure 16)所示。

      Figure 15. Architectures of ERIRNet-S, with reduced channels and fewer blocks. Proposal by Samsung AI. 该图像是ERIRNet-S的架构示意图,展示了采用NafBlock和PixelShuffle模块的网络结构,其中包含下采样和上采样的卷积层,构建了处理RAW图像的深度学习模型。

图示为ERIRNet-S的架构示意图,展示了采用NafBlock和PixelShuffle模块的网络结构,其中包含下采样和上采样的卷积层,构建了处理RAW图像的深度学习模型。

Figure 16. Architectures of ERIRNet-T, with ConvTranspose and reduced FFN expansion. Proposal by Samsung AI. 该图像是ERIRNet-T的架构示意图,展示了不同的NafBlock配置及用于 RAW 图像恢复的上下采样过程。该结构通过多层卷积和转置卷积来处理图像的模糊和噪声,旨在有效地进行RAW图像恢复与超分辨率。图中的标注显示了每层的输出尺寸和通道数变化。

图示为ERIRNet-T的架构示意图,展示了不同的NafBlock配置及用于 RAW 图像恢复的上下采样过程。该结构通过多层卷积和转置卷积来处理图像的模糊和噪声,旨在有效地进行RAW图像恢复与超分辨率。图中的标注显示了每层的输出尺寸和通道数变化。

实施细节: 训练过程分为三个阶段,如下图(原文 Figure 14)所示:

Figure 14. Training Stage Description by Samsung AI 该图像是一个示意图,展示了NTIRE 2025挑战中的模型训练阶段。上半部分包括X-Restorer模型的第二阶段,下半部分是ERNnet模型的第一阶段,而右侧则展示了与Distillation Loss相关的第三阶段。

图示为NTIRE 2025挑战中的模型训练阶段。上半部分包括X-Restorer模型的第二阶段,下半部分是ERNnet模型的第一阶段,而右侧则展示了与Distillation Loss相关的第三阶段。

  1. 阶段1 - 训练基础模型 (Train Base Model):每个 ERIRNet 变体都使用原始真实标注数据 (Ground Truth) 监督独立训练。
  2. 阶段2 - 训练教师模型 (Train Teacher Model):基于 X-Restormer 训练教师模型,并在每个移动设备上进行微调。
  3. 阶段3 - 使用教师模型进行蒸馏 (Distillation with Teacher Model):应用知识蒸馏,以教师模型的输出作为目标来指导 ERIRNet-SERIRNet-T。模型用阶段1训练的权重初始化。
  • 框架: PyTorch 框架,A100 GPU

  • 优化器: Adam 优化器 [35] (β1=0.5,β2=0.999\beta_1 = 0.5, \beta_2 = 0.999)。

  • 损失函数: L1 损失。

  • 学习率: 阶段1初始学习率 1e41 \mathrm{e}-4,阶段3降至 1e51 \mathrm{e}-5

  • 训练 Epoch 数: 阶段1为 1000,阶段2为 2000,阶段3为 1000

  • 学习率调度: 实现 MultiStepLR 调度器。

  • 批大小: 16。

    以下是原文 Table 9 的结果:

    ModelInputTraining TimeTrain E2EExtra DataFLOPs (GMac)# Params. (M)GPU
    ERIRNet-S(512, 512, 4)24hYesNo23.794.97A100
    ERIRNet-T(512, 512, 4)26hYesNo10.980.19A100

4.2.2.2. Modified SwinFIR-Tiny for Raw Image Restoration (Miers)

Miers 团队(小米公司)的方法基于 SwinFIR-Tiny [76] 的改进版本。他们通过聚合不同 RSTB (Residual Swin Transformer Block) 模块的输出以增强模型的特征表示能力,并通过零卷积 (zero convolution) 引入了 HAT [8] 中的 HAB (Hybrid Attention Block) 模块,并应用了重参数化 (reparameterization) 技术 [23]。

方法描述与模型框架: 完整的网络架构如下图(原文 Figure 17)所示。

  • 基线框架: SwinFIR-Tiny [76]。

  • 核心组件: 包含了四个残差 Swin Transformer 块 (RSTB),这些块通过经验分析被证明在层次特征提取 (hierarchical feature extraction) 方面表现出色。每个 RSTB 包含5或6个混合注意力块 (HAB) 和1个 HSFB。每个 HAB 整合了多头自注意力 (multi-head self-attention) 机制和一个局部受限注意力模块 (locally constrained attention module),有助于捕获多尺度上下文信息。

  • 层次特征融合策略 (Hierarchical Feature Fusion Strategy):设计了一个新颖的层次特征融合策略,系统地聚合来自每个 RSTB 块的输出,有效缓解深层特征提取过程中浅层特征的降质问题。

  • 专用增强: 结合了通道注意力块 (CAB [8]) 和 CovRep5 [23] 模块,旨在提高噪声鲁棒性和模糊弹性。

    Figure 17. CABATTSwinFIR proposed method by Team Miers (Xiaomi Inc.). 该图像是示意图,展示了CABATTSwinFIR模型的整体架构及其各个组成部分。图中包含多个模块,包括RSTB、HAB和特征融合块,分别对RAW图像进行处理与提升。

图示为CABATTSwinFIR模型的整体架构及其各个组成部分。图中包含多个模块,包括RSTB、HAB和特征融合块,分别对RAW图像进行处理与提升。

实施细节:

  • 代码: 使用 PyTorch 框架实现,基于 SwinFIR 项目修改。
  • 数据集: 训练集 2,099 样本,验证集 40 样本。
  • 数据降质流水线: 来源于 BSRAW [18],并增强了噪声水平:
    • log_max_shot_noise 值从 -3 增加到 -2。
    • 异方差高斯噪声 (heteroscedastic Gaussian noise) 的 sigma1sigma_1 范围从 (5e3,5e2)(5\mathrm{e}-3, 5\mathrm{e}-2) 扩展到 (5e3,1e1)(5\mathrm{e}-3, 1\mathrm{e}-1)sigma2sigma_2 范围从 (1e3,1e2)(1\mathrm{e}-3, 1\mathrm{e}-2) 扩展到 (1e3,5e2)(1\mathrm{e}-3, 5\mathrm{e}-2)
  • 硬件: 配备四块 H800 80G GPU 的机器。
  • 数据增强: mixup
  • 优化器: Adam 优化器。
  • 损失函数: Charbonnier 损失。
  • 四阶段开发:
    1. 第一阶段: 以原始 SwinFIR-Tiny 模型为基线,采用原始数据降质方法。初始学习率 2e42\mathrm{e}-4,批大小8,输入大小 180×180180 \times 180。训练 250K 迭代。
    2. 第二阶段:SwinFIR-Tiny 模型中添加特征融合模块、通道注意力模块和 ConvRep5 模块。以第一阶段训练的模型作为初始参数集。保留原始数据降质方法,初始学习率 2e42\mathrm{e}-4,批大小8,输入大小 180×180180 \times 180。训练 170K 迭代。
    3. 第三阶段: 在第二阶段基础上,使用零卷积引入 CAB 模块,并增加噪声强度。初始学习率 3e53\mathrm{e}-5,批大小8,输入大小 180×180180 \times 180。训练 140K 迭代。
    4. 第四阶段: 在第三阶段基础上,进一步调整初始学习率到 2e52\mathrm{e}-5,批大小减小到2,输入大小增加到 360×360360 \times 360。训练 15K 迭代。
  • 最终模型: 提交的模型利用重参数化技术将 ConvRep5 模块转换为标准的 5×55 \times 5 卷积。最终模型参数量为 4.76M

4.2.2.3. Multi-PromptIR: 基于多尺度提示的RAW图像恢复 (WIRTeam)

WIRTeam 提出了 Multi-PromptIR (Multi-scale Prompt-base Raw Image Restoration) 方法,该方法基于图像恢复研究的最新进展 [11, 37],旨在将降质 RAW 图像 IRH×W×4\textbf{I} \in \mathbb{R}^{H \times W \times 4} 转换为高质量、清晰的图像 IˉRH×W×4\bar{\textbf{I}} \in \mathbb{R}^{H \times W \times 4}

方法描述与模型框架: 该方法的核心是一个四层编码器-解码器 (encoder-decoder) 架构,其中集成了变换器块 (Transformer Blocks) [75],以实现跨通道的全局特征提取。

  • 编码阶段 (Encoding Stage):借鉴了多分辨率图像在图像恢复中成功的经验 [11],引入了分辨率降低的图像(原始尺寸的 1/2,1/4,1/81/2, 1/4, 1/8),这些额外的图像流显著丰富了编码过程。

  • 解码阶段 (Decoding Phase):采用了一种专门的提示机制 (prompt mechanism) [51],该机制由一个提示生成模块 (Prompt Generation Module, PGM) 和一个提示交互模块 (Prompt Interaction Module, PIM) 组成。

  • 模型基础: 该模型基于 PromptIR [51] 和 Restormer [75],结合了 CNNTransformer 的特定设计,如下图(原文 Figure 18)所示。

  • 参数量: 最终模型总参数量为 39.92M

    Figure 18. Overall architecture proposed by the Team WIRTeam. 该图像是示意图,展示了WIRTeam提出的整体架构。图中左侧是输入RAW图像(Input I),右侧是恢复后的图像(Restored Ũ),中间部分描述了信号处理流程,包括多个下采样和Transformer模块。关键组件包括提示迭代模块(PIM)和提示生成模块(PGM),利用不同深度的信息逐步恢复图像,旨在有效处理图像的模糊和噪声问题。

图示为WIRTeam提出的整体架构。图中左侧是输入RAW图像(Input I),右侧是恢复后的图像(Restored Ũ),中间部分描述了信号处理流程,包括多个下采样和Transformer模块。关键组件包括提示迭代模块(PIM)和提示生成模块(PGM),利用不同深度的信息逐步恢复图像,旨在有效处理图像的模糊和噪声问题。

实施细节:

  • 优化器和学习率: AdamW 优化器,初始学习率 2×1042 \times 10^{-4},使用余弦退火调度 (cosine annealing schedule) 衰减到 1×1061 \times 10^{-6}
  • 硬件: 1×NVIDIAA100(80G)1 \times NVIDIA A100 (80G)
  • 数据集: 仅采用组织者提供的数据集。应用 psf 模糊 (psf blur) 并添加噪声到原始图像以合成降质。
  • 训练和推理: 模型进行 700epoch 的端到端训练。
    • 优化器参数: AdamW 优化器,衰减参数 β1=0.9,β2=0.99\beta_1 = 0.9, \beta_2 = 0.99
    • 数据增强: 数据加载器 (dataloader) 中采用了水平和垂直翻转。
    • 推理: 将输入降质图像分割成 256×256256 \times 256 图像块,经过所提出的架构处理后进行恢复。
  • 训练时长: 约12小时。

4.2.2.4. LMPR-Net: 轻量级多阶段渐进RAW恢复 (WIRTeam)

WIRTeam 提出了 LMPR-Net (Lightweight Multi-Stage Progressive RAW Restoration),一个轻量级模型,用于 RAW 图像恢复,基于 MPRNet [74],充分考虑了多阶段特征交互在图像恢复过程中的巨大潜力。

方法描述与模型框架: 该团队提出的 LMPR-Net(如下图(原文 Figure 19)所示)基于 MPRNet [74],旨在通过引入有针对性的改进,在增强性能的同时显著降低模型复杂度,从而提供一个参数量低、计算量小但 RAW 恢复性能卓越的轻量级架构。

  • 多阶段模型:RAW 图像恢复任务分解为多个子任务,以处理挑战中各种降质信息(如噪声、模糊和其他未知降质)。

  • 核心组件:

    • 原始分辨率块 (Original Resolution Block, ORB):由卷积和通道注意力机制组成,用于提取跨通道的关键特征。
    • SAM (Stage-wise Attention Module):可以有效地在每个阶段细化传入特征。
  • 轻量化设计: 为了实现轻量化,团队简化了一些组件,并将隐藏维度设置为8。

  • 深度过参数化卷积 (Depthwise Overparameterized Convolution) [4]:引入该技术以提高训练速度并增强模型的表达能力,而不会显著增加计算成本。

  • 参数量: 最终模型总参数量为 0.19MMACs2.63G FLOPs

    Figure 19. Overall architecture of the LMPR-Net method proposed by the Team WIRTeam. 该图像是示意图,展示了团队 WIRTeam 提出的 LMPR-Net 方法的整体架构。该网络通过多个阶段处理降质的 RAW 图像,采用多个卷积、注意力模块和 U-Net 结构,实现RAW图像的恢复与超分辨率。

图示为团队 WIRTeam 提出的 LMPR-Net 方法的整体架构。该网络通过多个阶段处理降质的 RAW 图像,采用多个卷积、注意力模块和 U-Net 结构,实现RAW图像的恢复与超分辨率。

实施细节:

  • 框架: PyTorch
  • 优化器和学习率: AdamW 优化器,初始学习率 2×1042 \times 10^{-4},使用余弦退火调度 (cosine annealing schedule) 衰减到 1×1061 \times 10^{-6}
  • 硬件: NVIDIA GeForce RTX 4090 (24G) * 1
  • 数据集: 仅采用组织者提供的数据集。应用 psf 模糊并添加噪声到原始 RAW 图像以合成降质。
  • 数据增强: 水平翻转和垂直翻转。
  • 训练和推理: 模型进行 600epoch 的端到端训练。
    • 优化器参数: AdamW 优化器,衰减参数 β1=0.9,β2=0.99\beta_1 = 0.9, \beta_2 = 0.99
    • 损失函数: 使用 Charbonnier 损失 [5] 进行约束,以避免恢复图像过度平滑。
    • 推理: 将输入降质图像分割成 256×256256 \times 256 图像块,经过所提出的架构处理后,无缝合并以恢复原始尺寸。
  • 训练时长: 约10小时。

4.2.2.5. ER-NAFNet Raw Restoration (ER-NAFNet)

ER-NAFNet 团队(Team ER-NAFNet)引入了 ER-NAFNet,这是一个 UU 形框架,专为高效 RAW 图像恢复而设计。其架构和压缩机制基于 NAFNet [6] 中提出的 NAFNet 块,旨在增强其在图像恢复任务中的效率和性能。

方法描述与模型框架: ER-NAFNet 直接从 4 通道 RGGB RAW 数据进行训练和学习,并采用复杂的模糊和噪声降质流水线,其中噪声模型、模糊核和降质模型在 AISP [20] 中有详细说明。 ER-NAFNet 的架构如下图(原文 Figure 20)所示,由三个主要组件构成:浅层特征提取 (shallow feature extraction)、深层特征提取 (deep feature extraction) 和 RAW 重建 (raw reconstruction)。

  • 浅层特征提取: 初始时,提供一个低质量 RAW 图像 ILQRH×W×4I^{LQ} \in \mathcal{R}^{H \times W \times 4} 作为输入。团队应用一个 3×33 \times 3 卷积滤波器来提取浅层特征编码 FsF^s

  • 深层特征提取: 接下来,采用一个经典的带有跳跃连接 (skip connections) 的 UU 形架构进行深层特征提取。

  • RAW 重建: 最后,应用一个 3×33 \times 3 卷积来重建高质量 (HQ) 图像。

  • NAFNet 块: NAFNet (Non-Attention Feature Network) 块在 UU 形架构中扮演核心角色,解决了传统注意力机制在神经网络中的局限性。NAFNet 块集成了多层卷积操作,包括 1×11 \times 13×33 \times 3 扩张卷积 (dilated convolutions),以有效捕获输入数据中的细粒度细节和大规模模式。通过消除对复杂注意力机制的依赖,NAFNet 块以显著降低的计算开销实现了卓越性能。此外,引入 SimpleGateSimple Channel Attention (SCA) 模块使得网络能够关注最相关的特征,同时抑制不相关的特征,从而增强了特征表示的整体质量。

    Figure 20. The overall network architecture proposed by Team ER-NAFNet. 该图像是图示,展示了团队ER-NAFNet提出的整体网络架构。图中包含多个NAFNet模块和相应的层归一化、卷积等操作,显示了网络的数据流动和结构设计。

图示为团队ER-NAFNet提出的整体网络架构。图中包含多个NAFNet模块和相应的层归一化、卷积等操作,显示了网络的数据流动和结构设计。

实施细节:

  • 数据集: 仅在 NTIRE 2024 官方挑战数据 [20] 上进行优化,使用所提供的开发阶段提交集进行验证。
  • 框架: PyTorch 框架。
  • 模型配置: 模型宽度为16,每个阶段的编码器块 (encoder blocks) 为 [2, 2, 4, 8],解码器块 (decoder blocks) 为 [2, 2, 2, 2]。中间块数量设置为6。
  • 数据增强: 结合了简单的水平或垂直翻转、通道偏移 (channel shifts) 和 mixup 增强。
  • 损失函数: L2 损失。
  • 优化器: AdamW [46] 优化器 (β1=0.9,β2=0.999\beta_1 = 0.9, \beta_2 = 0.999, 权重衰减 0.00001)。
  • 学习率调度: 余弦退火策略 (cosine annealing strategy),学习率从 3×1043 \times 10^{-4} 逐渐衰减到 1×1061 \times 10^{-6},共 300000 迭代。
  • 训练设置: 训练批大小 (batch size) 为12,图像块大小 (patch size) 为512。
  • 硬件: 所有实验均在 A100 GPU 上进行。

5. 实验设置

5.1. 数据集

本次 NTIRE 2025 挑战赛使用了专门为 RAW 图像恢复和超分辨率任务设计的数据集。

5.1.1. RAW Image Super-Resolution (RAWSR) 挑战数据集

  • 基础数据集: 基于 BSRAW [18] 和 NTIRE 2024 RAWSR Challenge [19]。

  • 图像来源: 采用了 Adobe MIT5K 数据集 [3] 中的图像,该数据集包含了来自多种 CanonNikon DSLR 相机的图像。

  • 筛选与特点: 图像经过手动筛选,以确保多样性和自然属性(例如,去除极暗或过曝的图像),并移除了模糊图像(只考虑低 ISO 下的清晰对焦图像)。

  • 预处理:

    • 根据相机的黑电平 (black level) 和位深 (bit-depth) 对所有 RAW 图像进行归一化。
    • 将图像转换为众所周知的 RGGB Bayer 模式(4 通道),这允许在不损坏原始颜色模式信息的情况下应用变换和降质。
  • 训练数据: 提供了 1064 张分辨率为 1024×1024×41024 \times 1024 \times 4 的干净高分辨率 (HR) RAW 图像。

  • 降质数据生成: 参赛者可以使用 BSRAW [18] 提出的降质流水线在训练期间在线生成低分辨率 (LR) 降质图像。该流水线考虑了不同的噪声剖面 (noise profiles)、多个模糊核 (PSFs) 和简单的下采样策略。参赛者也可以应用其他数据增强技术或扩展降质流水线以生成更真实的训练数据。

    以下是原文 Figure 1 的图像样本:

    Figure 1. Samples of the NTIRE 2025 RAW Image Super-Resolution Challenge testing set. 该图像是NTIRE 2025 RAW图像超分辨率挑战测试集的样本,对比了高分辨率(HR)地面真相与低分辨率(LR)输入图像。上半部分展示了花丛场景,下半部分则呈现了市区商店,二者都强调了恢复过程中的细节差异。

图示为NTIRE 2025 RAW图像超分辨率挑战测试集的样本,对比了高分辨率(HR)地面真相与低分辨率(LR)输入图像。上半部分展示了花丛场景,下半部分则呈现了市区商店,二者都强调了恢复过程中的细节差异。

5.1.2. RAW Image Restoration (RAWIR) 挑战数据集

  • 图像来源: 采用了来自多种传感器的图像,包括 Samsung Galaxy S9iPhone X (RAW2RAW [1])。此外,还从 Google Pixel 10Vivo X90Samsung S21 收集了图像,以丰富相机传感器和构建完整测试集的多样性。

  • 场景与条件: 数据集涵盖了各种场景(室内和室外)、光照条件(白天和夜晚)和拍摄主体。

  • 筛选与特点: 所有图像均经过手动筛选,以确保高质量、锐度和清晰细节,即图像在低 ISO (400\le 400)、对焦清晰(无明显离焦或运动模糊)和曝光正确的情况下拍摄。原始 RAW 文件以 DNG 格式保存,未经智能手机 ISP 处理。

  • 预处理流水线:

    • 所有图像根据相机黑电平 (blacklevel) 和位深 (bit depth)(例如,每像素10、12、14位)进行归一化。
    • 图像转换为 RGGB Bayer 模式(4 通道)。
    • 将图像裁剪成尺寸为 512×512×4512 \times 512 \times 4 的非重叠(打包)图像块。
  • 训练数据: 提供了 2139 个干净图像块用于训练模型。

  • 降质数据生成: 参赛者使用基线降质流水线 [18] 来模拟真实的降质。作为挑战的一部分,参赛者也开发了自己的降质流水线来模拟更真实的模糊和噪声。降质流水线的核心组件包括不同的噪声剖面和多个模糊核 (PSFs)。

    以下是原文 Figure 13 的图像样本:

    Figure 13. RAW image samples from RawIR Dataset. 该图像是几张RAW图像样本,各自展示了不同环境下的细节,如标语、植物、街道等。这些样本来源于RawIR数据集,展示了图像恢复和超分辨率挑战下的多样性。

图示为几张RAW图像样本,各自展示了不同环境下的细节,如标语、植物、街道等。这些样本来源于RawIR数据集,展示了图像恢复和超分辨率挑战下的多样性。

5.2. 评估指标

挑战赛使用以下评估指标来量化 RAW 图像恢复和超分辨率算法的性能:

  • 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)

    • 概念定义: PSNR 是一种广泛使用的客观图像质量评估指标,主要衡量图像重建的失真程度。它通过比较原始(无降质)图像和处理后图像的像素级差异来工作。PSNR 值以分贝 (dB) 表示,值越高表示图像质量越好,失真越小。它通常用于评估去噪、去模糊和超分辨率等任务中图像保真度。
    • 数学公式: PSNR=10log10(MAXI2MSE) \mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right) 其中,MSE (Mean Squared Error) 均方误差的计算公式为: MSE=1MNi=0M1j=0N1[I(i,j)K(i,j)]2 \mathrm{MSE} = \frac{1}{MN} \sum_{i=0}^{M-1}\sum_{j=0}^{N-1} [I(i,j) - K(i,j)]^2
    • 符号解释:
      • I(i,j):原始图像在像素坐标 (i,j) 处的像素值。
      • K(i,j):经过处理(例如,恢复或超分辨率)的图像在像素坐标 (i,j) 处的像素值。
      • M, N:图像的宽度和高度,所以 M×NM \times N 是图像的总像素数。
      • MAXI\mathrm{MAX}_I:图像中像素的最大可能值。例如,对于 8 位图像,像素值范围是 0-255,则 MAXI=255\mathrm{MAX}_I = 255。对于 16RAW 图像,其最大值通常是 2161=655352^{16}-1 = 65535 (或根据实际位深而定)。
      • MSE\mathrm{MSE}:原始图像与处理后图像之间像素值差的平方的平均值。
  • 结构相似性指数 (Structural Similarity Index Measure, SSIM)

    • 概念定义: SSIM 是一种基于图像结构信息、亮度信息和对比度信息来衡量两幅图像相似度的客观指标,设计上更符合人眼的视觉感知。与 PSNR 侧重于像素级误差不同,SSIM 旨在评估图像的感知质量,即人眼观察到的相似度。SSIM 的取值范围通常在 01 之间,值越接近 1 表示两幅图像越相似,感知质量越好。
    • 数学公式: SSIM(x,y)=(2μxμy+c1)(2σxy+c2)(μx2+μy2+c1)(σx2+σy2+c2) \mathrm{SSIM}(x,y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)}
    • 符号解释:
      • x, y:通常是原始图像和处理后图像的局部窗口(例如,一个 8×88 \times 811×1111 \times 11 的图像块)。
      • μx\mu_x:图像块 xx 的平均像素值(亮度)。
      • μy\mu_y:图像块 yy 的平均像素值(亮度)。
      • σx2\sigma_x^2:图像块 xx 的方差(对比度)。
      • σy2\sigma_y^2:图像块 yy 的方差(对比度)。
      • σxy\sigma_{xy}:图像块 xxyy 的协方差(结构相似性)。
      • c1=(K1L)2,c2=(K2L)2c_1 = (K_1L)^2, c_2 = (K_2L)^2:用于稳定分母的常数,避免除以零。
      • LL:像素值的动态范围(例如,对于 8 位图像为 255)。
      • K1,K2K_1, K_2:小的常数,通常取 K1=0.01,K2=0.03K_1 = 0.01, K_2 = 0.03
  • 参数量 (Parameters):模型中可学习权重和偏置的总数,以百万 (M) 为单位。衡量模型大小和复杂度的指标。高效赛道 (Efficient track) 限制最大 200K 参数。

  • 计算复杂度 (MACs / FLOPs):模型执行推理所需的乘加运算 (Multiply-Accumulate Operations, MACs) 或浮点运算次数 (Floating Point Operations, FLOPs),通常以吉伽 (G) 为单位。衡量模型计算效率的指标。

    重要说明: 挑战赛中所有保真度指标 (fidelity metrics) 都是在 RAW 域计算的。这意味着评估是在原始传感器数据层面上进行的,而不是在经过 ISP 处理后的 RGB 图像上,从而更准确地反映了 RAW 图像处理的性能。

5.3. 对比基线

5.3.1. RAW Image Super-Resolution (RAWSR) 挑战基线

  • NTIRE 2024 RAWSR Challenge [19] 的基线:
    • RBSFormer [33] (2024): 在 NTIRE 2024 挑战中表现优秀的 Transformer 模型,参数量为 3.3M
    • BSRAW [18] (2024): 一种盲 RAW 图像超分辨率方法,参数量为 1.5M
    • Bicubic [19] (2024): 传统的双三次插值方法,作为基本性能参考。 这些基线代表了 RAW 图像超分辨率领域的先前最先进水平和传统方法。

5.3.2. RAW Image Restoration (RAWIR) 挑战基线

  • PMRID [65]:一种用于移动设备实用深度 RAW 图像去噪方法。
  • MOFA [9]:一种用于移动设备图像恢复的模型简化路线图。
  • NAFNet [7]:一种用于图像恢复的简单基线,作为 UNet-like 模型的代表。
  • RawIR [20]:一种致力于高效深度盲 RAW 图像恢复的方法。 这些基线代表了 RAW 图像去噪和恢复领域的流行且高效的方法。

通过与这些基线进行比较,挑战赛能够明确新提交解决方案的性能提升,并分析其在设计和计算复杂性方面的权衡。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. RAWSR 挑战结果分析

原文 Table 1 提供了 NTIRE 2025 RAWSR 挑战的详细结果,包括高效 (Efficient) 和通用 (General) 两个赛道的 PSNR、SSIM 和参数量。

以下是原文 Table 1 的结果:

MethodTrackPSNRSSIM# Par.
SMFFRaw-S 4.3Efficient42.120.94330.18
RawRTSR 4.1Efficient41.740.94170.19
NAFBN 4.5Efficient40.670.93470.19
MambaIRv2 4.6Efficient40.320.93960.19
RepRAW-SR-Tiny 4.7Efficient40.010.92970.02
RepRAW-SR-Large 4.7Efficient40.560.93390.09
ECAN 4.8Efficient39.130.90570.09
USTC 4.2General42.700.94791.94
SMFFRaw-S 4.3General42.600.94671.99
RawRTSR-L 4.1General42.580.94750.26
ERBSFormer 4.4General42.450.94483.30
ER-NAFNet 5.5General41.170.9348-
RBSFormer [33]202443.6490.9873.3
BSRAW [18]202442.8530.9861.5
Bicubic [19]202436.0380.952-

主要观察:

  1. 高效赛道 (Efficient Track)
    • SMFFRaw-S 4.3 取得了最佳性能 (PSNR: 42.12, SSIM: 0.9433),且参数量仅为 0.18M,低于 0.2M 的限制。这表明其在保持紧凑模型尺寸的同时,实现了出色的恢复质量。
    • RawRTSR 4.1 紧随其后,性能为 (PSNR: 41.74, SSIM: 0.9417),参数量为 0.19M
    • RepRAW-SR-Tiny 4.7 以其极低的参数量 (0.02M) 实现了 40.01 PSNR,展示了在极端资源受限环境下的潜力。
    • 2024 年的基线 Bicubic (36.038 PSNR) 相比,所有高效方法都取得了显著的性能提升,证明了深度学习在 RAW 图像超分辨率方面的优越性。
  2. 通用赛道 (General Track)
    • USTC 4.2 表现最为出色 (PSNR: 42.70, SSIM: 0.9479),参数量为 1.94M
    • SMFFRaw-S 4.3 的通用版本也取得了非常接近的性能 (PSNR: 42.60, SSIM: 0.9467),参数量为 1.99M
    • RawRTSR-L 4.1 在通用赛道中也表现强劲 (PSNR: 42.58, SSIM: 0.9475),且参数量仅为 0.26M,相对较低。
    • 2024 年的基线 BSRAW (42.853 PSNR) 和 RBSFormer (43.649 PSNR) 相比, 2025 年通用赛道的前几名方法性能接近甚至略低于 2024 年的顶尖方案。这可能表明 2025 挑战在降质模型或数据集特性上可能有所不同,或者 2025 年的通用赛道有更宽泛的参数限制(原文未明确列出通用赛道参数上限,但 RBSFormer 3.3M 也在通用范围)。值得注意的是,RBSFormer [33] 在 2024 年的 PSNR43.649,高于 2025 年的任何方法。
  3. 总体结论:
    • 所有提出的方法都能够显著提高 RAW 图像的质量和分辨率,同时减少模糊和噪声,且没有可检测的色彩伪影。
    • 报告指出,(合成的)RAW 图像超分辨率问题可以类似于 RAW 去噪问题来解决。然而,更真实的下采样仍然是一个开放的挑战。

6.1.2. RAWIR 挑战结果分析

原文 Table 2 提供了 NTIRE 2025 RAWIR 挑战的详细结果,包括高效 (Efficient) 和通用 (General) 两个赛道的 SSIM、PSNR、参数量和 MACs。

以下是原文 Table 2 的结果:

MethodTypeTest Level 1Test Level 2Test Level 3# Params. (M)# MACs (G)
Test Images0.953 / 39.560.931 / 35.300.907 / 33.03
PMRID []Baseline0.982 / 42.410.965 / 38.430.951 / 35.971.0321.21
NAFNET [7]Baseline0.983 / 43.500.972 / 39.700.962 / 37.491.1303.99
MOFA [9]Baseline0.982 / 42.540.966 / 38.710.974 / 36.330.9711.14
RawIR [20]Baseline0.984 / 44.200.978 / 40.300.974 / 38.301.512.3
Samsung AI 5.1Efficient0.991 / 45.100.980 / 40.820.971 / 38.460.1910.98
LMPR-Net 5.4Efficient0.989 / 42.570.973 / 39.170.961 / 37.260.192.63
Samsung AI 5.1General0.993 / 46.040.985 / 42.250.978 / 40.104.9723.79
Miers 5.2General0.993 / 45.720.983 / 41.730.974 / 39.504.76#N/A
Multi-PromptIR 5.3General0.986 / 44.800.978 / 41.380.968 / 38.9639.92158.24
ER-NAFNet 5.5General0.992 / 45.100.972 / 39.320.953 / 36.134.57#N/A

降质级别定义:

  • Test Level 1 (仅噪声): y=x+ny = x + n,降质仅为从真实噪声剖面中采样的噪声。
  • Test Level 2 (噪声和/或模糊): y=(xk)+ny = (x * k) + n,降质为噪声和/或模糊,模糊概率为0.3,真实噪声概率为0.5。
  • Test Level 3 (真实模糊和噪声): y=(xk)+ny = (x * k) + n,所有图像都具有真实的模糊和噪声。

主要观察:

  1. Samsung AI 团队表现卓越:
    • 高效赛道 (Efficient Track)Samsung AI 5.1 (ERIRNet-T) 以 PSNR: 45.10 (Level 1), 40.82 (Level 2), 38.46 (Level 3) 的成绩在所有降质级别上表现最佳,且参数量仅为 0.19M,计算量 10.98 GMac。这展示了其在严格资源限制下的高性能。
    • 通用赛道 (General Track)Samsung AI 5.1 (ERIRNet-S) 再次夺冠,取得更高的 PSNR 值 (46.04 (Level 1), 42.25 (Level 2), 40.10 (Level 3)),参数量为 4.97M,计算量 23.79 GMac
  2. 基线模型性能:
    • 所有参赛方法都显著超越了基线模型(如 PMRIDNAFNETMOFARawIR)在所有降质级别上的性能,尤其是在更复杂的 Level 2Level 3 降质下,性能提升更为明显。例如,在 Level 3 下,最佳的 Samsung AI 方法达到 40.10 PSNR,远高于 RawIR38.30 PSNR
  3. 不同降质级别下的挑战:
    • 随着降质级别的增加(从 Level 1Level 3),所有方法的 PSNRSSIM 都会相应下降,这表明同时处理噪声和模糊(尤其是更强的模糊)仍然是一个挑战。
    • 报告指出,在 Level 1 测试集上,大多数解决方案通过增加锐度 (sharpness) 并完全减少噪声,展示了出色的性能。然而,在 Level 2Level 3 上,Samsung AIMiers 团队的解决方案表现最佳,而其他团队如 WIRTeamChickentRun(ER-NAFNet)在模糊去除方面效果较差。
    • 普遍认为,由于去噪和去模糊可能需要相反的操作,模型在同时处理两者时会遇到困难,尤其是在处理模糊方面。
  4. 计算复杂度与性能的权衡:
    • 高效赛道的解决方案在参数量和计算量上受到了严格限制,但 Samsung AI 等团队依然能够实现高性能。
    • 通用赛道的模型(如 Multi-PromptIR 5.3)虽然参数量高达 39.92M,计算量 158.24 GMac,但其性能提升并不总是与复杂度成正比,例如 Samsung AI 5.1 (General) 用更少的参数和计算量取得了更好的结果。

6.1.3. 定性结果分析

原文 Figure 21 提供了挑战方法的定性结果。

该图像是一个比较不同算法对相同输入图像处理效果的示意图。图中展示了三个不同级别的输入图像及五个不同模型(PMRID、NAFNET、MOFA、Samsung AI、WIRTteam)输出的结果,便于分析各种算法在RAW图像恢复与超分辨率方面的表现。 该图像是一个比较不同算法对相同输入图像处理效果的示意图。图中展示了三个不同级别的输入图像及五个不同模型(PMRID、NAFNET、MOFA、Samsung AI、WIRTteam)输出的结果,便于分析各种算法在RAW图像恢复与超分辨率方面的表现。

图示为一个比较不同算法对相同输入图像处理效果的示意图。图中展示了三个不同级别的输入图像及五个不同模型(PMRID、NAFNET、MOFA、Samsung AI、WIRTteam)输出的结果,便于分析各种算法在RAW图像恢复与超分辨率方面的表现。

定性观察:

  • Level 1 (仅噪声): 大多数解决方案,包括基线模型,都能有效去除噪声并增加图像锐度,视觉效果良好。
  • Level 2 和 Level 3 (噪声+模糊): 随着模糊和噪声程度的增加,模型间的视觉差异变得更加明显。
    • Samsung AI 和 Miers 的解决方案在去除模糊和恢复细节方面表现出更好的能力,图像看起来更清晰、细节更丰富。
    • WIRTeam 和 ChickentRun (ER-NAFNet) 的输出在模糊去除方面效果不佳,图像可能仍然显得模糊,表明在处理复杂的联合降质时,特别是模糊,仍有改进空间。
  • 整体而言,顶尖方法能够显著改善 RAW 图像的感知质量,成功地减少了噪声和模糊,并恢复了更多细节,验证了这些方法的有效性。

6.2. 数据呈现

挑战赛结果主要通过表格 Table 1 (RAWSR) 和 Table 2 (RAWIR) 进行呈现,这些表格详细列出了各个团队的解决方案在不同赛道和降质级别下的 PSNRSSIM、参数量和 MACs

所有表格已在 6.1.16.1.2 小节中完整转录。

此外,原文也包含了一些团队提交方案的训练细节表格,如 Samsung AI 团队的 Table 3Table 9XJTU 团队的 Table 4Table 5,以及 EiffLowCVer 团队的 Table 8。这些表格提供了模型输入、训练时长、是否端到端训练、是否使用额外数据、参数量、推理时间/FLOPs和所用 GPU 等信息。

6.3. 消融实验/参数分析

论文主要是一份挑战报告,总结了参赛团队的成果,因此主要呈现的是最终的性能数据,而非详细的消融实验或参数分析。然而,一些团队在其解决方案描述中提及了其模型设计和训练策略中的一些“消融”或参数选择的考量,这些可以被视为间接的分析:

  • Samsung AI (RawRTSR 4.1)

    • RawRTSR-L (通用模型) 中,将特征通道数从48增加到64,并引入通道注意力机制来防止信息冗余,这可以看作是通道宽度和注意力机制对性能影响的一种探索。
    • 采用了三阶段训练策略,包括单独训练教师和学生模型,以及使用特征蒸馏,这表明了蒸馏策略对最终性能和模型效率的贡献。
  • USTC-VIDAR (4.2)

    • 其方法是 RBSFormer [33] 的流线型版本,通过引入 InceptionNeXt [72] 和 ShuffleNet [78] 来降低 Transformer 的计算复杂度,这本身就是对不同组件和设计选择影响效率和性能的探索。
    • 两阶段训练策略中,通过调整批大小和图像块大小,探索了训练参数对模型性能和收敛的影响。
  • XJTU (SMFFRaw 4.3)

    • 采用了五阶段迭代训练策略,其中不同阶段使用不同的降质组合、图像块大小和损失函数(Charbonnier L1 + FrequencyMSE + Frequency)。这表明了逐步增加降质复杂性和调整损失函数对模型性能的提升作用。
    • HAFEB 模块中集成了 PconvDWconvRepConvCALKA,这反映了对不同注意力机制和卷积形式的组合探索。
  • EiffLowCVer (RepRawSR 4.7)

    • RepTiny-21kRepLarge-97k 两个变体本身就是对模型深度、通道宽度和特征提取模块数量的消融研究。
    • Tiny-21k 增加了特征提取模块数量并引入跳跃连接以稳定训练,这验证了这些设计对性能和稳定性的重要性。
    • Large-97k 增加了通道宽度,但参数量和 FLOPs 显著增加,这揭示了通道宽度与效率之间的权衡。
    • 引入额外的尾部 (tail) 预测分支进行损失计算,并在推理时移除,这是训练稳定性优化策略的体现。
    • 原文 Table 7 直接展示了 NAFnet 基线与 RepLarge-97kRepTiny-21kFLOPsPSNR 上的对比,这明确体现了消融实验的结果。
  • ECAN (4.8)

    • 模型设计使用了倒置残差结构、深度可分离卷积和 SE 块进行通道注意力,这些都是为了在保持性能的同时,最大化模型效率的组件选择。
  • Miers (5.2)

    • 其方法改进自 SwinFIR-Tiny [76],通过聚合不同 RSTB 模块的输出、引入 HAB 模块和 CovRep5 模块来增强特征表示能力和噪声/模糊弹性,这些都是对模型组件有效性的探索。

    • 其四阶段训练策略中逐步调整了噪声强度、学习率、批大小和输入大小,这表明了这些超参数和训练设置对模型性能优化的影响。

      总的来说,虽然报告本身没有提供集中的消融实验章节,但各团队在其方法描述和实施细节中,都不同程度地体现了对模型架构、组件选择、训练策略和超参数的探索和优化,这些都是构建高效且高性能 RAW 图像处理方案的关键。

7. 总结与思考

7.1. 结论总结

NTIRE 2025 RAW图像恢复与超分辨率挑战成功地推动了 RAW 域图像处理领域的研究,并确立了当前最先进水平 (state-of-the-art)。本次挑战不仅吸引了众多研究者参与,还针对 RAW 图像的去噪、去模糊和超分辨率问题提出了多样化且高效的解决方案。

主要发现和贡献包括:

  1. RAW 域处理的优势得到验证: 挑战结果再次强调了直接在 RAW 域进行图像处理的优越性,因为它避免了 ISP 流水线引入的信息损失和非线性失真,为高质量恢复提供了基础。
  2. 多样化技术路线的融合: 参赛团队采用了包括基于 CNNTransformer 及其混合架构,并结合了知识蒸馏 (knowledge distillation)、重参数化 (reparameterization)、多阶段训练 (multi-stage training)、定制降质流水线 (custom degradation pipeline) 等多种先进技术。这表明了该领域技术路线的丰富性和交叉性。
  3. 性能与效率的平衡: 挑战赛设立的“高效 (Efficient)”和“通用 (General)”赛道,成功鼓励了研究者在追求高性能的同时,也关注模型的轻量化和部署效率。Samsung AI 团队在 RAWIR 挑战中,无论在高效还是通用赛道都取得了最佳性能,这充分展示了在严格参数和计算量限制下实现卓越性能的可能性。
  4. 挑战与进步并存: 尽管许多方法在 RAW 图像质量和分辨率提升方面取得了显著成果,并且没有引入明显的色彩伪影,但在处理更复杂的联合降质(特别是强模糊)时,模型仍然面临挑战,表明该领域仍有进一步研究的空间。

7.2. 局限性与未来工作

论文本身作为挑战报告,主要总结了挑战结果。根据报告中提及的观察和参赛团队的经验,可以归纳出以下局限性和未来工作方向:

  1. 更真实的降质建模:

    • 挑战: 报告指出,虽然(合成的)RAW 图像超分辨率问题可以类似于 RAW 去噪问题来解决,但“更真实的下采样 (downsampling) 仍然是一个开放的挑战”。这意味着当前用于生成训练数据的合成降质流水线可能与真实世界的复杂降质模式仍有差距。
    • 未来工作: 需要开发更高级的降质模型,能够更准确地模拟真实相机采集图像过程中发生的噪声、模糊和下采样等复杂非线性过程,以提高模型在真实场景中的泛化能力。
  2. 联合去噪和去模糊的挑战:

    • 挑战:RAW 图像恢复挑战中,尤其是在 Test Level 2Level 3 的复杂降质下,模型在同时处理去噪和去模糊方面仍面临困难。报告明确指出,“由于去噪和去模糊可能需要相反的操作,模型在同时处理两者时会遇到困难,特别是模糊”。例如,去噪可能倾向于平滑图像,而去模糊则需要恢复高频细节,两者之间存在内在的冲突。
    • 未来工作: 需要设计更精巧的网络架构和训练策略,能够更好地解耦 (decouple) 或协同 (collaborate) 处理不同类型的降质,例如,多任务学习 (multi-task learning) 或级联 (cascaded) 架构,以更有效地处理联合降质。
  3. 模型效率与性能的进一步平衡:

    • 挑战: 虽然高效赛道推动了轻量级模型的发展,但性能最优的通用模型通常仍然具有较大的参数量和计算复杂度。如何在保持甚至超越当前最先进性能的同时,进一步压缩模型以满足更严苛的移动设备部署需求,仍是一个持续的挑战。
    • 未来工作: 探索更深层次的模型压缩技术(如更高效的量化、稀疏化)、更轻量化的架构设计(例如,基于神经架构搜索 (Neural Architecture Search, NAS) 发现更优的轻量级结构),以及专门针对 RAW 图像特点进行优化的硬件加速。
  4. 跨传感器和跨场景的泛化性:

    • 挑战: 虽然 RAW 域处理本身比 sRGB 域具有更好的泛化潜力,但不同相机传感器(例如 DSLR 和智能手机传感器)的特性仍然存在差异。如何在不同传感器和各种复杂场景(如极低光照、高速运动等)下保持模型的鲁棒性仍是难题。
    • 未来工作: 构建更大规模、更多样化的 RAW 数据集,涵盖更多传感器类型和极端场景;开发自适应 (adaptive) 或零样本 (zero-shot) 的 RAW 图像处理模型,减少对特定传感器数据的依赖。
  5. 实时处理能力:

    • 挑战: 尽管一些高效模型已能达到毫秒级的推理速度,但对于需要实时视频处理等应用,仍需要进一步优化。
    • 未来工作: 持续优化模型架构以降低计算延迟,并结合硬件加速器(如 NPUDSP)进行协同设计,以实现真正的实时 RAW 图像处理。

7.3. 个人启发与批判

个人启发:

  1. RAW 域的巨大潜力: 这篇挑战报告再次坚定了我对直接在 RAW 域进行图像处理的信念。与其在 ISP 流水线后期修补丢失的信息,不如在信息最原始、最丰富的阶段进行处理。这对于未来的计算摄影和图像质量提升具有战略意义。
  2. 效率与性能的共生关系: 挑战赛设置的“高效”和“通用”赛道非常有远见。它提醒我们,在实际应用中,性能并非唯一指标;模型的大小和运行速度同样关键。能够同时在这两个方面取得平衡的解决方案才真正有价值。知识蒸馏和重参数化等技术在弥合这一鸿沟方面的作用非常显著。
  3. 降质建模的重要性: 许多团队花大力气定制或扩展降质流水线,这表明高质量的合成数据是训练高性能图像恢复模型的关键。对于 RAW 图像这种难以获取大量真实配对数据的场景,如何更真实、更多样化地模拟降质,是模型泛化能力的基石。
  4. TransformerCNN 的融合: 许多顶尖方案都尝试将 CNN 的局部特征提取能力和 Transformer 的全局上下文建模能力结合起来。这种混合架构似乎是处理复杂图像恢复任务的有效路径。

批判:

  1. “更真实的下采样”缺乏明确定义: 报告多次提及“更真实的下采样”是一个开放挑战,但缺乏对“真实”的量化或具体特征描述。这可能使得未来研究者在改进降质模型时缺乏明确的方向。例如,是需要考虑光学畸变、更复杂的传感器噪声非线性、还是更高级的 ISP 模拟?清晰的问题定义有助于集中研究力量。

  2. 通用赛道的参数限制模糊: 虽然高效赛道明确限制了 200K 参数,但通用赛道的参数上限并未明确指出。从 Table 1 来看,通用赛道的模型参数从 0.26M3.3M 不等,甚至 Multi-PromptIRRAWIR 挑战中达到了 39.92M。这种模糊性可能导致通用赛道参赛者在模型规模上没有统一的预期,从而在结果比较时难以判断效率与性能的真正权衡。

  3. 去模糊效果仍待提升: 报告明确指出,在 RAWIR 挑战中,模型在去模糊方面表现相对较弱。这可能暗示 RAW 图像的模糊特性与 RGB 图像有所不同,或者当前降质模型对 RAW 域的模糊建模不够精细。未来的挑战可以考虑更专注于 RAW 域盲去模糊的专门赛道,并引入更具挑战性的真实模糊数据集。

  4. 缺乏对模型泛化性的深入探讨: 论文虽然强调了 RAW 域处理在跨传感器泛化方面的潜力,但挑战结果的展示主要是基于特定测试集的性能。如果能增加一些跨传感器或跨场景的泛化性测试(例如,使用一种相机训练的模型在另一种相机上测试),将更能体现 RAW 域处理的真正价值和挑战。

  5. 对“无法检测的色彩伪影”的评估方法: 报告中提到所有方法都没有引入“无法检测的色彩伪影”。这通常是定性评估的结果,或者依赖于某些特定的指标。如果能更详细地说明评估色彩保真度的具体方法或指标,将提高这一结论的严谨性。

    总体而言,这份报告是一份非常有价值的文献,它为 RAW 图像处理领域的研究者提供了丰富的基线、最先进的方法和明确的未来研究方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。