Unsupervised Degradation Representation Learning for Unpaired Restoration of Images and Point Clouds
TL;DR 精炼摘要
本文提出了一种无监督降解表示学习方案,以应对图像和点云非配对恢复中的挑战。通过在表示空间中区分各种降解,提取隐含信息,同时开发了降解感知卷积以适应多样化降解,从而建立了一个通用的非配对恢复框架,展示其在图像与点云恢复中的有效性。
摘要
Restoration tasks in low-level vision aim to restore high-quality (HQ) data from their low-quality (LQ) observations. To circumnavigate the difficulty of acquiring paired data in real scenarios, unpaired approaches that aim to restore HQ data solely on unpaired data are drawing increasing interest. Since restoration tasks are tightly coupled with the degradation model, unknown and highly diverse degradations in real scenarios make learning from unpaired data quite challenging. In this paper, we propose a degradation representation learning scheme to address this challenge. By learning to distinguish various degradations in the representation space, our degradation representations can extract implicit degradation information in an unsupervised manner. Moreover, to handle diverse degradations, we develop degradation-aware (DA) convolutions with flexible adaption to various degradations to fully exploit the degradation information in the learned representations. Based on our degradation representations and DA convolutions, we introduce a generic framework for unpaired restoration tasks. Based on our framework, we propose UnIRnet and UnPRnet for unpaired image and point cloud restoration tasks, respectively. It is demonstrated that our degradation representation learning scheme can extract discriminative representations to obtain accurate degradation information. Experiments on unpaired image and point cloud restoration tasks show that our UnIRnet and UnPRnet achieve state-of-the-art performance.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Unsupervised Degradation Representation Learning for Unpaired Restoration of Images and Point Clouds
中文标题: 图像与点云非配对恢复的无监督降解表示学习
1.2. 作者
Longguang Wang, Yulan Guo, Yingqian Wang, Xiaoyu Dong, Qingyu Xu, Jungang Yang, and Wei An
1.3. 发表期刊/会议
论文的抽象和正文并未明确指出当前版本发表的期刊或会议名称,但从 Published at (UTC) 信息和参考文献 [22] (其标题与本文标题高度相似,且发表于 Proc. IEEE Int. Conf. Comput. Vis. Workshops, 2021) 推断,本文可能是其会议版本的扩展或期刊版本。
1.4. 发表年份
2024年(根据 Published at (UTC):2024-10-30T00:00:00.000Z 推断,可能是预期发表年份或接受年份,实际发表可能在2024年末或2025年。)
1.5. 摘要
低级视觉 (low-level vision) 中的 恢复任务 (restoration tasks) 旨在从 低质量 (Low-Quality, LQ) 观测数据中恢复 高质量 (High-Quality, HQ) 数据。为了规避在真实场景中难以获取 配对数据 (paired data) 的问题,非配对方法 (unpaired approaches) 越来越受到关注,这些方法旨在仅基于 非配对数据 (unpaired data) 恢复 HQ数据 (HQ data)。由于 恢复任务 (restoration tasks) 与 降解模型 (degradation model) 紧密耦合,真实场景中未知且高度多样化的 降解 (degradations) 使得从 非配对数据 (unpaired data) 中学习变得极具挑战性。
本文提出了一种 降解表示学习 (degradation representation learning) 方案来解决这一挑战。通过在 表示空间 (representation space) 中学习区分各种 降解 (degradations),我们的 降解表示 (degradation representations) 能够以 无监督 (unsupervised) 方式提取隐含的 降解信息 (degradation information)。此外,为了处理多样化的 降解 (degradations),我们开发了 降解感知 (Degradation-Aware, DA) 卷积 (convolutions),它们能灵活适应各种 降解 (degradations),以充分利用学到的 表示 (representations) 中的 降解信息 (degradation information)。基于我们的 降解表示 (degradation representations) 和 DA卷积 (DA convolutions),我们引入了一个用于 非配对恢复任务 (unpaired restoration tasks) 的通用框架。基于该框架,我们分别提出了 UnIRnet 和 UnPRnet 用于 非配对图像恢复 (unpaired image restoration) 和 非配对点云恢复 (unpaired point cloud restoration) 任务。实验证明,我们的 降解表示学习 (degradation representation learning) 方案能够提取 判别性表示 (discriminative representations) 以获取准确的 降解信息 (degradation information)。在 非配对图像 (unpaired image) 和 点云恢复任务 (point cloud restoration tasks) 上的实验表明,我们的 UnIRnet 和 UnPRnet 实现了 最先进 (state-of-the-art) 的性能。
1.6. 原文链接
/files/papers/6932aa82574a23595ada7188/paper.pdf
发布状态:未知(可能是预印本或已接受未正式发表)。
2. 整体概括
2.1. 研究背景与动机
核心问题: 低级视觉 (low-level vision) 领域中的 图像 (images) 和 点云 (point clouds) 恢复任务 (restoration tasks) 面临着在 真实场景 (real scenarios) 中获取 配对数据 (paired data) (即 高质量 (HQ) 数据及其对应的 低质量 (LQ) 观测数据对)的巨大困难。现有的 配对方法 (paired methods) 通常依赖于合成的 LQ数据 (LQ data) 进行训练,但这些合成的 降解 (degradations) 往往无法充分覆盖 真实世界 (real-world) 中 未知 (unknown) 且 高度多样化 (highly diverse) 的 降解 (degradations) 类型(例如模糊、噪声、下采样、量化和压缩等),从而导致模型在 真实数据 (real data) 上的性能受限。
问题重要性: 无法有效处理 真实世界 (real-world) 中的 LQ数据 (LQ data) 会降低 感知质量 (perceptual quality) 并限制下游任务的性能。非配对方法 (unpaired approaches) 在无需 HQ-LQ配对数据 (HQ-LQ paired data) 的情况下,直接从 非配对数据 (unpaired data) 中学习 恢复模型 (restoration models),是解决这一挑战的关键方向。然而,非配对恢复 (unpaired restoration) 面临两大挑战:
-
真实降解未知:
恢复任务 (restoration tasks)与降解模型 (degradation model)紧密耦合。准确的降解信息 (degradation information)有助于恢复网络 (restoration network)适应特定降解 (degradation)以提高性能。但真实降解 (true degradations)是不可用的,使得传统的降解估计 (degradation estimation)方法无法直接应用。 -
真实降解高度多样: 现有
非配对恢复方法 (unpaired restoration methods)(通常基于生成对抗网络 (GANs))难以生成像真实 LQ数据 (real LQ data)一样多样化的伪 LQ数据 (pseudo LQ data),并且可能遭遇模式崩溃 (mode collapse)。此外,直接将降解表示 (degradation representations)与数据特征 (data features)拼接输入网络可能因域鸿沟 (domain gap)引入干扰。论文切入点与创新思路: 论文旨在通过提出一种
无监督降解表示学习 (unsupervised degradation representation learning)方案来解决上述挑战。核心思想是:不直接估计 (estimate)具体的降解 (degradation)参数,而是学习一种能够区分不同降解 (distinguish different degradations)的隐式表示 (implicit representation)。同时,开发降解感知卷积 (Degradation-Aware, DA convolutions)来灵活利用这些降解信息 (degradation information),从而在非配对 (unpaired)设置下实现高质量 (HQ)数据的恢复 (restoration)。
2.2. 核心贡献/主要发现
本文的主要贡献体现在以下四个方面:
- 无监督降解信息提取: 提出了一个
无监督降解表示学习 (unsupervised degradation representation learning)方案,通过对比学习 (contrastive learning)在表示空间 (representation space)中区分不同的降解 (degradations),从而提取隐式 (implicit)的降解信息 (degradation information)。这是首次无需真实降解 (true degradations)监督即可从LQ数据 (LQ data)中提取降解信息 (degradation information)的技术。 - 高降解多样性的
LQ数据合成 (LQ data synthesis): 提出了一种新的LQ数据合成 (LQ data synthesis)范式。伪 LQ数据 (pseudo LQ data)的生成以非配对 LQ数据 (unpaired LQ data)的降解表示 (degradation representation)为条件,并鼓励合成数据 (synthetic data)具有相似的降解表示 (degradation representations)。这使得合成 LQ数据 (synthetic LQ data)能够覆盖更广泛的真实降解 (real degradations)多样性,避免了传统GAN (Generative Adversarial Network)方法的模式崩溃 (mode collapse)问题。 - 灵活适应多样化降解: 开发了
降解感知 (Degradation-Aware, DA) 卷积 (convolutions)。这些DA卷积 (DA convolutions)能够根据学到的降解表示 (degradation representation)动态预测卷积核 (convolutional kernels)和通道级调制系数 (channel-wise modulation coefficients),从而使恢复网络 (restoration network)能够灵活地适应各种降解 (degradations)。 最先进 (state-of-the-art)的性能: 在非配对图像恢复 (unpaired image restoration)和非配对点云恢复 (unpaired point cloud restoration)任务上进行了广泛实验,证明了UnIRnet和UnPRnet的有效性,并取得了最先进 (state-of-the-art)的性能。
3. 预备知识与相关工作
3.1. 基础概念
低级视觉 (Low-Level Vision): 计算机视觉的一个子领域,主要关注图像和视频的像素级处理任务,旨在改善图像质量或从中提取基础信息。常见的任务包括图像去噪 (image denoising)、图像去模糊 (image deblurring)、图像超分辨率 (image super-resolution, SR)、图像去雨 (image deraining)等。高质量 (High-Quality, HQ)和低质量 (Low-Quality, LQ)数据: 在恢复任务 (restoration tasks)中,HQ数据 (HQ data)是指原始、清晰、无损的数据,而LQ数据 (LQ data)则是指受到各种降解 (degradations)(如模糊、噪声、下采样、压缩等)影响的观测数据。配对数据 (Paired Data)和非配对数据 (Unpaired Data):配对数据 (Paired Data): 指HQ数据 (HQ data)和与其一一对应的LQ数据 (LQ data)对。例如,一张清晰图像和其对应的模糊版本。在深度学习中,模型可以直接学习从LQ到HQ的映射。非配对数据 (Unpaired Data): 指HQ数据 (HQ data)集合和LQ数据 (LQ data)集合之间没有明确的一一对应关系。例如,我们有一批清晰的图像和一批模糊的图像,但无法确定哪张模糊图像对应哪张清晰图像。这种情况下,模型需要学习如何在没有明确配对监督的情况下进行恢复 (restoration)。
降解模型 (Degradation Model): 描述HQ数据 (HQ data)如何通过一系列物理过程(如光学系统缺陷、传感器噪声、压缩算法等)退化为LQ数据 (LQ data)的数学模型。典型的降解模型 (degradation model)可能包括模糊 (blur)、加性噪声 (additive noise)、下采样 (downsampling)和压缩 (compression)等操作。生成对抗网络 (Generative Adversarial Networks, GANs): 由一个生成器 (generator)和一个判别器 (discriminator)组成的深度学习模型。生成器 (generator)试图生成与真实数据 (real data)尽可能相似的伪造数据 (fake data),而判别器 (discriminator)则试图区分真实数据 (real data)和生成器 (generator)生成的伪造数据 (fake data)。两者在对抗中共同进步,最终生成器 (generator)能够生成高度逼真的数据。对比学习 (Contrastive Learning): 一种无监督 (unsupervised)或自监督 (self-supervised)表示学习 (representation learning)方法。其核心思想是学习一个编码器 (encoder),使得相似样本对 (positive pairs)在表示空间 (representation space)中距离更近,而不相似样本对 (negative pairs)距离更远。在图像领域,正样本 (positive samples)通常是同一图像经过不同数据增强的版本,负样本 (negative samples)则是不同图像的增强版本。动态卷积 (Dynamic Convolutions): 传统的卷积神经网络 (Convolutional Neural Networks, CNNs)使用固定参数的卷积核 (convolutional kernels)。动态卷积 (dynamic convolutions)允许卷积核 (convolutional kernels)的参数根据输入数据动态生成或调整。这使得模型能够更灵活地适应不同的输入特征或任务条件,提高了模型的表达能力和泛化性。点云 (Point Clouds): 在三维空间中表示物体或环境的一组离散点的集合。每个点通常包含其三维坐标(X、Y、Z),可能还包括颜色信息(RGB)、法线向量、强度等属性。点云 (point clouds)是三维数据的重要表示形式,在自动驾驶、机器人、三维重建等领域有广泛应用。
3.2. 前人工作
本文的 相关工作 (Related Work) 部分详细回顾了 图像恢复 (Image Restoration)、点云恢复 (Point Cloud Restoration)、动态卷积 (Dynamic Convolutions) 和 对比学习 (Contrastive Learning) 四个领域,以下将进行总结并补充必要的背景知识。
3.2.1. 图像恢复 (Image Restoration)
图像恢复 (Image Restoration) 旨在从 LQ观测 (LQ observations) 中恢复 HQ图像 (HQ images)。
配对图像恢复 (Paired Image Restoration):- 特点: 依赖
配对 LQ-HQ图像 (paired LQ-HQ images)进行训练。由于真实配对数据 (real paired data)难以获取,通常使用预定义降解 (pre-defined degradations)从HQ图像 (HQ images)合成LQ图像 (LQ images)。 - 早期方法 (单类型降解): 专注于
图像去噪 (image denoising)(如DnCNN[24])、图像去模糊 (image deblur)(如Sun et al. [33]) 和图像超分辨率 (image super-resolution, SR)(如SRCNN[2]、EDSR[34]、RCAN[9])。 - 近期方法 (多功能网络): 关注能够处理不同类型
降解 (degradations)的通用网络设计。例如RDN[35]、PANet[36]、Zamir et al. [37]和SwinIR[11]。 - 处理复杂降解:
零样本方法 (zero-shot methods):如ZSSR[38]、Soh et al. [39],在测试时适应单个图像。条件恢复 (conditional restoration):将降解信息 (degradation information)作为额外输入,如Zhang et al. [19]和IKC[20]。基于模型的方法 (model-based framework):如Zhang et al. [40],将CNN去噪器 (CNN denoiser)融入迭代算法。实用降解模型 (practical degradation models):如BSRNet[13]、Real-ESRGAN[14],合成更真实的LQ图像 (LQ images)。
- 特点: 依赖
非配对图像恢复 (Unpaired Image Restoration):- 特点: 直接在
非配对图像 (unpaired images)上训练,以应对真实降解 (real degradations)与合成降解 (synthetic degradations)之间的域鸿沟 (domain gap)。 - 基于 disentangled representations: 如
Lu et al. [42],用于域特定去模糊 (domain-specific deblurring)。 - 基于单张图像去噪: 如
Alexander et al. [43]和Neighbor2Neighbor[44],假设噪声空间不相关,但难以扩展到更复杂降解。 - 基于
GAN (Generative Adversarial Network)建模降解:Bulat et al. [15]和Lugmayr et al. [16]:训练降解网络 (degradation network)合成伪 LQ图像 (pseudo LQ images),再用于训练SR网络 (SR network)。CinCGAN[45] 和Maeda et al. [17]:统一框架同时学习降解网络 (degradation network)和SR网络 (SR network)。物理性质正则化 (physical properties as regularizations):如Liu et al. [46]和Yang et al. [47]。DeFlow[48]:使用条件流 (conditional flows)建模随机降解 (stochastic degradations),但计算成本高。
- 局限性: 传统
GAN (GAN)方法通常学习确定性映射,忽略降解 (degradations)的随机性 (stochasticity),导致合成 LQ数据 (synthetic LQ data)多样性有限,容易模式崩溃 (mode collapse)。
- 特点: 直接在
3.2.2. 点云恢复 (Point Cloud Restoration)
相对于 图像恢复 (image restoration),点云恢复 (point cloud restoration) 的研究较少。
配对点云恢复 (Paired Point Cloud Restoration):PointProNet[51]:通过投影到学习到的局部框架来去噪 (denoise)点云补丁。PU-Net[52]:从低分辨率 (low-resolution)点云重建高分辨率 (high-resolution)点云。EC-Net[53]:边缘感知点云整合 (point cloud consolidation)。
非配对点云恢复 (Unpaired Point Cloud Restoration):Total Denoising[54]:将非配对图像去噪 (unpaired image denoising)方法扩展到点云去噪 (point cloud denoising),但仅限于去噪。Cycle4Completion[55]:非配对点云补全 (unpaired point cloud completion)。
3.2.3. 动态卷积 (Dynamic Convolutions)
动态网络 (Dynamic networks) 具有强大的模型能力、灵活适应性和更好的通用性。
- 核心思想: 根据输入条件化地参数化
卷积滤波器 (convolutional filters),通过超网络 (hypernetworks)[57]、[58] 或结合多个专家 [59]、[60] 实现。 - 图像恢复领域:
CResMD[61]:使用可控残差连接 (residual connections)进行交互式图像恢复 (image restoration)。ArbSR[62]:根据尺度因子 (scale factors)定制动态卷积 (dynamic convolutions)实现尺度任意 SR (scale-arbitrary SR)。
- 点云处理领域:
PointConv[63]:使用MLPs (Multi-Layer Perceptrons)动态合成每个点的滤波器 (filters)。PAConv[64]:扩展CondConv思想,通过动态组装基本核 (kernels)来定制滤波器 (filters)。Chen et al. [65]:提出旋转不变卷积 (rotation invariant convolution),其滤波器 (filters)根据相对姿态动态调整。
3.2.4. 对比学习 (Contrastive Learning)
对比学习 (Contrastive learning) 在 无监督表示学习 (unsupervised representation learning) 中表现出有效性。
- 核心思想: 最大化
表示空间 (representation space)中的互信息 (mutual information),即查询样本 (query sample)的表示 (representation)应吸引正样本 (positive counterparts),同时排斥负样本 (negative counterparts)。 正样本 (Positive counterparts)来源: 输入的转换版本 [70]、[71]、[72]、多视图 [73]、同一图像中的相邻补丁 [74]、[75]、多模态 [76]。- 代表性方法:
SimCLR[71]:用于视觉表示 (visual representations)的对比学习 (contrastive learning)框架。MoCo[72]、MoCo v2[77]:使用动量编码器 (momentum encoder)实现小批次对比学习 (contrastive learning)。InfoNCE 损失 (InfoNCE loss):衡量相似度。
3.3. 技术演进
图像恢复 (image restoration) 和 点云恢复 (point cloud restoration) 领域经历了从传统 基于先验 (prior-based) 方法到 深度学习 (deep learning) 方法的转变。早期 深度学习 (deep learning) 方法主要聚焦于 配对数据 (paired data),通过合成 LQ数据 (LQ data) 进行监督学习。然而,由于 真实世界 (real-world) 降解 (degradations) 的复杂性和多样性,合成降解 (synthetic degradations) 往往无法完全覆盖 真实降解 (real degradations),导致 配对方法 (paired methods) 在 真实数据 (real data) 上的性能受限。
为了解决这一 域鸿沟 (domain gap),研究开始转向 非配对恢复 (unpaired restoration)。GAN (GAN) 最初被用于 非配对图像翻译 (unpaired image-to-image translation),随后被应用于 非配对 SR (unpaired SR),通过学习 HQ-to-LQ降解 (HQ-to-LQ degradation) 映射来生成 伪配对数据 (pseudo-paired data)。然而,GAN (GAN) 常常遭遇 模式崩溃 (mode collapse),且难以建模 降解 (degradations) 的 随机性 (stochasticity) 和多样性。
与此同时,动态网络 (dynamic networks) 发展起来,使得模型能够根据输入动态调整其行为,增强了适应性。对比学习 (contrastive learning) 作为一种强大的 无监督表示学习 (unsupervised representation learning) 工具,在无需 人工标注 (human annotations) 的情况下,学习 判别性特征 (discriminative features) 方面展现出巨大潜力。
本文的工作正是在这一技术脉络中:它认识到 降解信息 (degradation information) 对 恢复任务 (restoration tasks) 的重要性,并结合 对比学习 (contrastive learning) 的优势,以 无监督 (unsupervised) 方式从 非配对数据 (unpaired data) 中提取 降解信息 (degradation information)。然后,利用 动态卷积 (dynamic convolutions) 的灵活性,将这些 降解信息 (degradation information) 融入 恢复网络 (restoration network),从而克服了 非配对恢复 (unpaired restoration) 的核心挑战。
3.4. 差异化分析
本文的方法与相关工作中的主要方法相比,核心区别和创新点如下:
-
无监督降解信息提取:
- 区别于传统
降解估计 (degradation estimation)方法: 传统方法(如IKC[20]、KernelGAN[21])通常需要真实降解 (groundtruth degradations)作为监督信号来估计 (estimate)具体的降解参数 (degradation parameters)(如模糊核),且推理时间长。本文的降解表示学习 (degradation representation learning)方案则以无监督 (unsupervised)方式通过对比学习 (contrastive learning)提取隐含 (implicit)的降解信息 (degradation information),使其更适用于真实世界 (real-world)中降解未知 (unknown degradations)的场景,并且效率更高。 - 区别于直接拼接
降解表示 (degradation representations): 现有方法(如Zhang et al. [19])常将降解表示 (degradation representations)与图像特征 (image features)直接拼接输入CNNs (CNNs)。本文发现这种方式会因域鸿沟 (domain gap)引入干扰。本文采用DA卷积 (DA convolutions),通过动态预测卷积核 (convolutional kernels)和调制系数 (modulation coefficients)来更精细地利用降解信息 (degradation information),避免了直接拼接的弊端。
- 区别于传统
-
高多样性
LQ数据合成 (LQ data synthesis):- 区别于传统
GAN (GAN)-based非配对 SR (unpaired SR)方法: 大多数GAN (GAN)-based 方法(如Lugmayr et al. [16]、CinCGAN[45])通常假设LQ数据 (LQ data)遵循特定分布,并学习确定性映射来生成伪 LQ数据 (pseudo LQ data)。这容易导致模式崩溃 (mode collapse)和合成数据 (synthetic data)多样性不足,无法覆盖真实降解 (real degradations)的复杂性。本文的降解器 (degrader)明确地将降解分布 (degradation distribution)从LQ数据分布 (LQ data distribution)中解耦,并以非配对 LQ数据 (unpaired LQ data)的降解表示 (degradation representation)为条件来合成伪 LQ数据 (pseudo LQ data)。同时,通过降解一致性损失 (degradation consistency loss)确保合成数据 (synthetic data)的降解 (degradation)与引导图像 (guidance image)相似,从而生成具有高多样性的伪 LQ数据 (pseudo LQ data)。
- 区别于传统
-
通用框架与跨模态应用:
- 区别于特定任务方法: 许多
图像恢复 (image restoration)方法只关注图像,而点云恢复 (point cloud restoration)方法相对独立。本文提出了一个通用框架 (generic framework),并通过UnIRnet和UnPRnet成功将其应用于非配对图像恢复 (unpaired image restoration)和非配对点云恢复 (unpaired point cloud restoration)任务,展示了其跨模态的泛化能力。
- 区别于特定任务方法: 许多
4. 方法论
本文提出了一种基于 无监督降解表示学习 (unsupervised degradation representation learning) 的 非配对恢复 (unpaired restoration) 框架,适用于 图像 (images) 和 点云 (point clouds)。该框架通过学习 降解 (degradations) 的 判别性表示 (discriminative representations),并利用这些表示来指导 降解感知 (degradation-aware) 的 LQ数据合成 (LQ data synthesis) 和 HQ数据恢复 (HQ data restoration)。
4.1. 方法原理
本文方法的核心思想是:在 真实世界 (real-world) 恢复任务 (restoration tasks) 中,降解 (degradations) 是 未知 (unknown) 且 多样化 (diverse) 的,并且难以获取 配对数据 (paired data)。为了解决这个问题,论文提出了一种 无监督 (unsupervised) 的方式来“理解”这些 降解 (degradations)。具体来说,该方法不尝试精确估计 降解 (degradation) 的参数(例如模糊核的具体形状),而是学习一个 抽象 (abstract) 的 降解表示 (degradation representation)。这个 表示 (representation) 的目标是能够 区分 (distinguish) 不同的 降解类型 (degradation types),并且对 图像/点云内容 (image/point cloud content) 不敏感(即 内容无关 (content-invariant))。
直观上,如果一个 编码器 (encoder) 能够将具有相同 降解 (degradation) 的不同 图像/点云 (images/point clouds) 片段映射到 表示空间 (representation space) 中相近的位置,而将具有不同 降解 (degradation) 的片段映射到相远的位置,那么这个 表示 (representation) 就捕获了有效的 降解信息 (degradation information)。一旦获得这样的 降解表示 (degradation representation),它就可以被用来:
-
降解感知 LQ数据合成 (Degradation-Aware LQ Data Synthesis): 根据某个真实 LQ数据 (real LQ data)的降解表示 (degradation representation),从HQ数据 (HQ data)中合成具有相似降解 (degradation)的伪 LQ数据 (pseudo LQ data)。这有助于生成多样化的伪配对数据 (pseudo paired data),从而更好地覆盖真实世界 (real-world)的降解空间 (degradation space)。 -
降解感知 HQ数据恢复 (Degradation-Aware HQ Data Restoration): 在HQ数据恢复 (HQ data restoration)过程中,利用降解表示 (degradation representation)来动态调整恢复网络 (restoration network)的行为,使其能够灵活适应各种降解类型 (degradation types),而不是使用一个固定的恢复模型 (restoration model)。这种方法巧妙地避开了
真实降解 (true degradations)不可用的监督问题,通过无监督学习 (unsupervised learning)从数据本身 (data itself)中挖掘降解特征 (degradation features),从而实现了非配对 (unpaired)设置下的高性能恢复 (high-performance restoration)。
4.2. 核心方法详解
本文的框架由 编码器 (encoder)、降解器 (degrader) 和 生成器 (generator) 组成,分为 LQ数据合成 (LQ data synthesis) 和 HQ数据恢复 (HQ data restoration) 两个阶段。
4.2.1. 降解表示学习 (Degradation Representation Learning)
为了从 LQ数据 (LQ data) 中以 无监督 (unsupervised) 方式提取 判别性降解表示 (discriminative degradation representations),本文采用了一个 对比学习 (contrastive learning) 框架。
下图(原文 Figure 1)展示了我们的 降解表示学习 (degradation representation learning) 方案:
该图像是一个示意图,展示了低质量(LR)图像补复任务中的降级表示学习方案。图中展示了LR图像补丁经过编码器后生成的降级表示,并使用两层多层感知器(MLP)进行对比学习,以提取相同和不同降级的信息。
-
基本假设: 在同一张
图像/点云 (image/point cloud)中,其降解 (degradation)是相同的,但不同图像/点云 (images/point clouds)之间的降解 (degradations)可以不同。 -
样本构建 (Sample Construction):查询补丁 (query patch): 从一张LQ图像 (LQ image)中随机裁剪的补丁 (patch)(图中橙色框)。正样本 (positive samples): 从同一张LQ图像 (LQ image)中裁剪的另一个补丁 (patch)(图中红色框),因为它们具有相同的降解 (degradation)。负样本 (negative samples): 从其他LQ图像 (LQ images)中裁剪的补丁 (patches)(图中蓝色框),因为它们具有不同的降解 (degradations)。
-
表示学习 (Representation Learning)过程:查询 (query)、正样本 (positive)和负样本补丁 (negative sample patches)通过一个编码器网络 (encoder network)编码成降解表示 (degradation representations)。- 这些
表示 (representations)进一步输入一个两层多层感知器 (two-layer Multi-Layer Perceptron, MLP) 投影头 (projection head),得到 (对应查询 (query))、 (对应正样本 (positive)) 和 (对应负样本 (negative))。 - 目标是让 与 相似,同时与 不相似。
-
InfoNCE 损失 (InfoNCE Loss): 使用InfoNCE 损失 (InfoNCE loss)来衡量相似度,其定义为:- 符号解释:
- :
查询 (query)补丁 (patch)的降解表示 (degradation representation)。 - :
正样本 (positive sample)补丁 (patch)的降解表示 (degradation representation)。 - : 第 个
负样本 (negative sample)补丁 (patch)的降解表示 (degradation representation)。 - :
负样本 (negative samples)的数量。 - :
温度超参数 (temperature hyper-parameter),控制正负样本 (positive/negative samples)区分的难度。 - : 两个向量之间的
点积 (dot product),用于衡量相似度。
- :
- 符号解释:
-
队列 (Queue)和总损失 (Overall Loss): 为了获得内容无关 (content-invariant)的降解表示 (degradation representations),并覆盖丰富的负样本 (negative samples),维护一个包含不同内容 (contents)和降解 (degradations)的样本队列 (queue)。- 在训练过程中,随机选择 个
LQ图像 (LQ images)(代表 种不同的降解 (degradations)),从每张图像中裁剪两个补丁 (patches)。这些2B个补丁 (patches)通过降解编码器 (degradation encoder)编码成表示 (representations)。 - 对于第 张图像,其两个
补丁 (patches)的表示 (representations)和 分别作为查询 (query)和正样本 (positive sample)。 总损失 (overall loss)定义为:- 符号解释:
- :
LQ图像 (LQ images)的批处理大小 (batch size)(即批处理 (batch)中不同的降解 (degradations)数量)。 - : 第 张图像的第一个
补丁 (patch)经过编码器 (encoder)后的降解表示 (degradation representation)(作为查询 (query))。 - : 第 张图像的第二个
补丁 (patch)经过编码器 (encoder)后的降解表示 (degradation representation)(作为正样本 (positive sample))。 - : 存储在
队列 (queue)中的负样本 (negative samples)的数量。 - :
队列 (queue)中第 个负样本 (negative sample)的降解表示 (degradation representation)。 - :
温度超参数 (temperature hyper-parameter)。 - :
点积 (dot product)。
- :
- 在训练过程中,随机选择 个
4.2.2. 提出的通用框架 (Proposed Generic Framework)
本文提出的 通用框架 (generic framework) 包含三个核心组件:一个 编码器 (encoder)、一个 降解器 (degrader) 和一个 生成器 (generator)。该框架分为两个主要阶段:LQ数据合成 (LQ data synthesis) 和 HQ数据恢复 (HQ data restoration)。
下图(原文 Figure 2)展示了我们的 非配对图像 (unpaired image) 和 点云恢复框架 (point cloud restoration framework) 的概述:
该图像是一个示意图,展示了低质量(LQ)数据生成和高质量(HQ)数据恢复的框架。在该框架中,降噪器(Degrader)和生成器(Generator)协同工作,通过不同的输入和输出,处理降质数据以恢复高质量输出,展示了实现无配对数据恢复的方法。
4.2.2.1. 降解感知 LQ 数据合成 (Degradation-Aware LQ Data Synthesis)
此阶段的目标是从 输入 HQ数据 (input HQ data) () 合成 (synthesize) 伪 LQ数据 (pseudo LQ data),以模仿 非配对 LQ数据 (unpaired LQ data) ()。
- 挑战:
LQ数据 (LQ data)的分布p(y)与降解 (degradations)的分布p(d)紧密耦合,直接建模p(y)难以处理降解 (degradations)的复杂性。 - 解决方案: 论文通过建模联合分布
p(y,d)而不是直接建模p(y),将问题解耦。由于降解分布 (distribution of degradations)p(d)独立于HQ数据 (HQ data),条件分布可以重写为:-
符号解释:
- : 给定
HQ数据 (HQ data),生成LQ数据 (LQ data)和降解 (degradation)的联合条件概率。 - : 给定
HQ数据 (HQ data)和降解 (degradation),生成LQ数据 (LQ data)的条件概率。 p(d):降解 (degradation)的边缘概率分布。
- : 给定
-
编码器 (encoder)学习的降解表示 (degradation representation)能够近似p(d)(即 )。 -
降解器 (degrader)的目标是建模 ,即给定HQ数据 (HQ data)和一个降解 (degradation),合成具有相同降解 (degradation)的伪 LQ数据 (pseudo LQ data)。
-
- 具体流程:
LQ输入数据 (LQ input data)( 或 ) 首先被送入编码器 (encoder),提取降解表示 (degradation representation)。输入 HQ数据 (input HQ data)( 或 ) 传入降解器 (degrader),以合成伪 LQ数据 (pseudo LQ data)( 或 )。降解表示 (degradation representation)被整合到降解器 (degrader)中,提供降解信息 (degradation information)。噪声 (noises)被注入以引入随机性 (stochasticity)。降解器 (degrader)根据 定制其参数,以生成具有与输入 LQ数据 (input LQ data)相似降解 (degradation)的伪 LQ数据 (pseudo LQ data)。合成伪 LQ数据 (synthetic pseudo LQ data)的降解表示 (degradation representation)被鼓励与 相似。
4.2.2.2. 降解感知 HQ 数据恢复 (Degradation-Aware HQ Data Restoration)
此阶段旨在从 输入 LQ数据 (input LQ data) 恢复 HQ数据 (HQ data)。
- 训练阶段:
生成器 (generator)从合成伪 LQ数据 (synthetic pseudo LQ data)( 或 ) 恢复HQ数据 (HQ data)( 或 ),以降解表示 (degradation representation)为条件。 - 推理阶段:
真实 LQ数据 (real LQ data)( 或 ) 直接送入生成器 (generator)和编码器 (encoder)进行恢复 (restoration)。 降解表示 (degradation representation)同样被利用在生成器 (generator)中,以实现对多样化降解 (diverse degradations)的灵活适应。
4.2.3. UnIRnet:非配对图像恢复网络 (Unpaired Image Restoration Network)
4.2.3.1. 编码器 (Encoder)
下图(原文 Figure 3a)展示了 UnIRnet 的 编码器 (encoder) 架构:
该图像是示意图,展示了我们提出的用于图像和点云恢复的无监督退化表示学习框架。图中的不同部分分别标记为编码器、退化器和生成器,并详细说明了退化感知卷积(DA conv)的结构和功能,其中涉及到的噪声注入与残差结构等。具体方法可以参考文中描述。
- 结构: 包含 8 个
卷积层 (convolutional layers),分布在四个不同的分辨率级别 (resolution levels)。 - 组件: 每个
卷积层 (convolutional layer)后接一个批归一化 (Batch Normalization, BN)层和一个Leaky ReLU (Leaky Rectified Linear Unit)激活层,用于特征归一化 (feature normalization)和激活 (activation)。 - 输出: 最后一个
卷积层 (convolutional layer)后,使用一个平均池化层 (average pooling layer)来获得降解表示 (degradation representation)。
4.2.3.2. 降解器 (Degrader)
下图(原文 Figure 3b)展示了 UnIRnet 的 降解器 (degrader) 架构:
该图像是示意图,展示了我们提出的用于图像和点云恢复的无监督退化表示学习框架。图中的不同部分分别标记为编码器、退化器和生成器,并详细说明了退化感知卷积(DA conv)的结构和功能,其中涉及到的噪声注入与残差结构等。具体方法可以参考文中描述。
- 目标: 从
HQ图像 (HQ image)合成真实感 (realistic)且具有多样化降解 (diverse degradations)的LQ图像 (LQ images)。 - 结构: 采用
编码器-解码器架构 (encoder-decoder architecture)。输入 HQ图像 (Input HQ image)首先通过 5 个步长为2 (stride 2)的卷积层 (convolutional layers)进行编码,生成特征 (feature)。- 同时,
降解表示 (degradation representation)被传入一个全连接层 (Fully-Connected, FC layer)进行特征压缩 (feature compression),得到 。 - 在解码过程中,使用
降解感知卷积 (Degradation-Aware, DA convolutions)和噪声注入模块 (noise injection modules)在不同分辨率级别 (resolution levels)注入污染 (contamination)。 - 首先进入一个
DA卷积 (DA convolution),根据 引入污染 (contamination)。 - 接着,
噪声 (noises)通过噪声注入模块 (noise injection module)注入。在此模块中, 经过两个FC层 (FC layers)生成每通道因子 (per-channel factors)来缩放高斯噪声 (Gaussian noise)。 - 随后,
特征 (features)经过上采样 (upsampling)并送入后续层,以在不同分辨率 (resolutions)进行渐进式污染注入 (progressive contamination injection),最终生成伪 LQ图像 (pseudo LQ image)。
4.2.3.3. 生成器 (Generator)
下图(原文 Figure 3c)展示了 UnIRnet 的 生成器 (generator) 架构:
该图像是示意图,展示了我们提出的用于图像和点云恢复的无监督退化表示学习框架。图中的不同部分分别标记为编码器、退化器和生成器,并详细说明了退化感知卷积(DA conv)的结构和功能,其中涉及到的噪声注入与残差结构等。具体方法可以参考文中描述。
- 高层结构: 借鉴
RCAN[9] 的结构,但以降解感知块 (Degradation-Aware block, DA block)作为基本构建单元。 - 组成: 包含五个
残差组 (residual groups),每个残差组 (residual group)由五个DA块 (DA blocks)组成。 - 数据流:
输入 LQ图像 (Input LQ image)( 或 ) 首先通过一个卷积层 (convolutional layer)进行初始特征提取 (initial feature extraction)。- 同时,
输入降解表示 (input degradation representation)通过一个FC层 (FC layer)进行特征压缩 (feature compression),得到 。 初始特征 (initial features)随后传入残差组 (residual groups),以在 中降解信息 (degradation information)的条件下提取深层特征 (deep features)。- 最后,使用一个
重建器 (reconstructor)生成HQ图像 (HQ image)。
- DA 块 (DA Block): 每个
DA块 (DA block)中包含两个DA卷积 (DA convolutions)和两个卷积 (convolutions),用于根据降解表示 (degradation representation)调整特征 (features)。
4.2.3.4. DA 卷积 (Degradation-Aware Convolution)
下图(原文 Figure 3d)展示了 DA卷积 (DA convolution) 的结构:
该图像是示意图,展示了我们提出的用于图像和点云恢复的无监督退化表示学习框架。图中的不同部分分别标记为编码器、退化器和生成器,并详细说明了退化感知卷积(DA conv)的结构和功能,其中涉及到的噪声注入与残差结构等。具体方法可以参考文中描述。
- 核心思想: 基于
降解表示 (degradation representation)动态预测卷积核 (convolutional kernels)和通道级调制系数 (channel-wise modulation coefficients),以实现对不同降解 (degradations)的灵活适应。 - 组成部分:
卷积核预测分支 (Convolutional Kernel Prediction Branch):降解表示 (Degradation representation)被送入两个FC层 (FC layers)和一个reshape层 (reshape layer),生成一个深度卷积核 (depth-wise convolutional kernel)。输入特征 (input feature)随后使用这个 执行深度卷积 (depth-wise convolution),并结合一个卷积 (convolution)生成 。
通道级调制系数预测分支 (Channel-wise Modulation Coefficient Prediction Branch):降解表示 (Degradation representation)传入另外两个FC层 (FC layers)和一个sigmoid激活层 (sigmoid activation layer),生成通道级调制系数 (channel-wise modulation coefficients)。- 用于缩放
输入特征 (input feature)的不同通道分量 (channel components),生成 。
特征融合 (Feature Fusion): 最终输出特征 是 和 的求和。
4.2.4. UnPRnet:非配对点云恢复网络 (Unpaired Point Cloud Restoration Network)
4.2.4.1. 编码器 (Encoder)
下图(原文 Figure 10a)展示了 UnPRnet 的 编码器 (encoder) 架构:
该图像是示意图,展示了用于无配对点云恢复的网络架构,包括编码器(a)、降噪器(b)、生成器(c)以及降解感知点卷积(d)的结构。图中明确标识了不同模块的功能及其连接关系,强调了降解感知卷积在处理数据中的重要性。整体结构旨在通过无监督学习方式,提高低质量点云数据的恢复能力。
- 初始处理: 首先使用一个
FC层 (FC layer)进行初始特征提取 (initial feature extraction)。 - 多阶段结构: 随后,
特征 (features)传入一个四阶段结构,每个阶段包含一个点卷积 (point convolution)和一个FC层 (FC layer)。点卷积 (Point Convolution): 采用几何感知点卷积 (geometry-aware point convolution)[96] 以提高效率。
- 标准化与激活: 每个
点卷积 (point convolution)和FC层 (FC layer)后接一个BN层 (BN layer)和一个Leaky ReLU层 (Leaky ReLU layer)。 - 输出: 最后一个
卷积层 (convolutional layer)后,使用平均池化层 (average pooling layer)获取降解表示 (degradation representation)。
4.2.4.2. 降解器 (Degrader)
下图(原文 Figure 10b)展示了 UnPRnet 的 降解器 (degrader) 架构:
该图像是示意图,展示了用于无配对点云恢复的网络架构,包括编码器(a)、降噪器(b)、生成器(c)以及降解感知点卷积(d)的结构。图中明确标识了不同模块的功能及其连接关系,强调了降解感知卷积在处理数据中的重要性。整体结构旨在通过无监督学习方式,提高低质量点云数据的恢复能力。
- 目标: 从
HQ点云 (HQ point cloud)合成真实感 (realistic)且具有多样化降解 (diverse degradations)的LQ点云 (LQ point clouds)。 - 结构: 采用带
跳跃连接 (skip connections)的编码器-解码器架构 (encoder-decoder architecture)。输入 HQ点云 (Input HQ point cloud)( 用于3D坐标 (3D coordinates)或 用于3D坐标 (3D coordinates)+RGB (RGB))首先送入FC层 (FC layer)进行初始特征提取 (initial feature extraction)。输入降解表示 (Input degradation representation)传入另一个FC层 (FC layer)进行特征压缩 (feature compression),得到 。- 四个
点卷积 (point convolutions)用于提取深层特征 (deep features)。 - 每个
点卷积 (point convolution)后,使用平均池化层 (average pooling layer)对点云 (point cloud)进行降采样 (downsample),抽取率 (decimation ratio)为四倍(随机采样 点,对每个选定点在其K近邻 (K-nearest neighbors)上平均特征)。 - 在解码过程中,使用
降解感知点卷积 (Degradation-Aware point convolutions, DA point convolutions)和噪声注入模块 (noise injection modules)在不同分辨率级别 (resolution levels)注入污染 (contamination)。 - 首先
上采样 (upsampled)并送入DA点卷积 (DA point convolution),根据 引入污染 (contamination)。 - 接着,
噪声 (noises)通过噪声注入模块 (noise injection module)注入。 - 随后,
特征 (features)经过上采样 (upsampling)并送入后续层,以在不同分辨率 (resolutions)进行渐进式污染注入 (progressive contamination injection),最终生成伪 LQ点云 (pseudo LQ point cloud)。
4.2.4.3. 生成器 (Generator)
下图(原文 Figure 10c)展示了 UnPRnet 的 生成器 (generator) 架构:
该图像是示意图,展示了用于无配对点云恢复的网络架构,包括编码器(a)、降噪器(b)、生成器(c)以及降解感知点卷积(d)的结构。图中明确标识了不同模块的功能及其连接关系,强调了降解感知卷积在处理数据中的重要性。整体结构旨在通过无监督学习方式,提高低质量点云数据的恢复能力。
- 结构: 采用带
跳跃连接 (skip connections)的编码器-解码器结构 (encoder-decoder structure),以降解感知块 (DA block)作为基本构建单元。 - 数据流:
输入 LQ点云 (Input LQ point cloud)( 或 ) 首先送入FC层 (FC layer)进行初始特征提取 (initial feature extraction)。- 同时,
输入降解表示 (input degradation representation)通过FC层 (FC layer)进行特征压缩 (feature compression),得到 。 初始特征 (initial features)随后传入三个DA块 (DA blocks),以在 中降解信息 (degradation information)的条件下提取深层特征 (deep features)。- 每个
DA块 (DA block)后,使用平均池化层 (average pooling layer)对点云 (point cloud)进行降采样 (downsample),抽取率 (decimation ratio)为四倍。 - 接着,使用三个
上采样层 (upsampling layers)、三个DA点卷积 (DA point convolutions)和一个FC层 (FC layer)将 解码为HQ点云 (HQ point cloud)。
4.2.4.4. DA 点卷积 (Degradation-Aware Point Convolution)
DA点卷积 (DA point convolution) 与 DA图像卷积 (DA image convolution) 类似,也根据 降解表示 (degradation representation) 学习预测 卷积核 (convolutional kernel) 和 调制系数 (modulation coefficients) 以适应相应 降解 (degradation)。
卷积核预测 (Convolutional Kernel Prediction):降解表示 (Degradation representation)传入两个FC层 (FC layers)和一个reshape层 (reshape layer),生成一个核 (kernel)。这个 被视为点卷积 (point convolution)[96] 的查找表 (look-up table)(即卷积核 (convolutional kernel))。通道级调制系数预测 (Channel-wise Modulation Coefficient Prediction): 传入另外两个FC层 (FC layers)和一个sigmoid激活层 (sigmoid activation layer),生成通道级调制系数 (channel-wise modulation coefficients)。特征应用与融合 (Feature Application and Fusion): 用于缩放点卷积 (point convolution)结果 的不同通道分量 (channel components),最终生成输出特征 。
4.2.5. 损失函数 (Loss Function)
4.2.5.1. 编码器 (Encoder)
降解对比损失 (Degradation Contrastive Loss): 使用公式 (2) 定义的 来训练编码器 (encoder)学习判别性降解表示 (discriminative degradation representations)。
4.2.5.2. 降解器 (Degrader)
降解器 (degrader) 的总损失函数定义为:
-
符号解释:
- :
内容损失 (content loss)。 - :
降解器 (degrader)的对抗损失 (adversarial loss)。 - :
降解一致性损失 (degradation consistency loss)。 - : 损失项的权重
超参数 (hyper-parameters),实验中分别设置为1, 0.01, 0.005。
- :
-
内容损失 (Content Loss): 旨在保持合成 LQ图像 (synthetic LQ image)与HQ图像 (HQ image)之间的内容一致性 (content consistency)。定义为合成 LQ图像 (synthetic LQ image)经过高斯滤波 (Gaussian filtering)后与HQ图像 (HQ image)双三次降采样 (bicubic downsampled)后经过高斯滤波 (Gaussian filtering)之间的L1损失 (L1 loss):- 符号解释:
- : 一个
高斯滤波器 (Gaussian filter)。 - :
合成伪 LQ图像 (synthetic pseudo LQ image)。 - :
输入 HQ图像 (input HQ image)。 - : 表示
双三次降采样 (bicubic downsampling)操作。 - :
L1范数 (L1 norm)。
- : 一个
- 符号解释:
-
对抗损失 (Adversarial Loss): 强制合成 LQ图像 (synthetic LQ image)位于自然图像域 (natural image domain)。判别器 (discriminator)的损失 和降解器 (degrader)的损失 分别定义为:- 符号解释:
- :
判别器网络 (discriminator network)的输出(表示输入图像 (input image)是真实 (real)的概率)。 - :
真实 LQ图像 (real LQ image)。 - :
合成伪 LQ图像 (synthetic pseudo LQ image)。 - :
期望值 (expectation)。
- :
判别器 (discriminator)网络采用六层卷积层 (convolutional layers)、一个扁平化层 (flattening layer)和一个两层 MLP 头 (two-layer MLP head)。
-
降解一致性损失 (Degradation Consistency Loss): 确保合成伪 LQ图像 (synthetic pseudo LQ image)具有与输入非配对 LQ图像 (input unpaired LQ image)相似的降解 (degradations)。使用类似于公式 (2) 的对比损失 (contrastive loss):- 符号解释:
- :
合成伪 LQ图像 (synthetic pseudo LQ image)的降解表示 (degradation representation)。 - : 其对应
输入 LQ图像 (input LQ image)的降解表示 (degradation representation)。 - :
队列 (queue)中第 个负样本 (negative sample)的降解表示 (degradation representation)。 - : 与
降解对比损失 (degradation contrastive loss)中含义相同。
- :
- 符号解释:
4.2.5.3. 生成器 (Generator)
恢复损失 (Restoration Loss): 在HQ图像恢复 (HQ image restoration)过程中,使用恢复的 HQ图像 (restored HQ image)与输入 HQ图像 (input HQ image)之间的L1损失 (L1 loss):- 符号解释:
- :
生成器 (generator)恢复出的HQ图像 (HQ image)。 - : 对应的
真实 HQ图像 (true HQ image)。 - :
L1范数 (L1 norm)。
- :
- 符号解释:
4.2.6. 训练策略 (Training Strategy)
本文采用 渐进式训练策略 (progressive training strategy) 来优化整个网络,分为三个阶段:
- 阶段 1:
编码器 (Encoder)训练- 目标:使用
降解对比损失 (degradation contrastive loss)(公式 2) 训练编码器 (encoder)学习判别性降解表示 (discriminative degradation representations)。
- 目标:使用
- 阶段 2:
降解器 (Degrader)训练- 目标:
冻结 (freeze)编码器 (encoder),并训练降解器 (degrader)模仿多样化复杂降解 (diverse complicated degradations)。 - 损失:使用公式 (5) (
总损失 (overall loss)) 优化降解器 (degrader)。同时,使用公式 (7) 优化一个判别器 (discriminator)。
- 目标:
- 阶段 3:
生成器 (Generator)训练- 目标:
冻结 (freeze)编码器 (encoder)和降解器 (degrader),训练生成器 (generator)从伪 LQ图像 (pseudo LQ images)恢复HQ图像 (HQ images)。 - 损失:使用
恢复损失 (restoration loss)(公式 10) 优化生成器 (generator)。
- 目标:
5. 实验设置
5.1. 数据集
5.1.1. 图像恢复任务
- 合成数据训练:
HQ图像 (HQ images):来自DIV2K[83] 的 800 张训练图像和Flickr2K[84] 的 2650 张训练图像。LQ图像 (LQ images):在线合成,降解 (degradations)类型包括:各向异性高斯模糊 (anisotropic Gaussian blur):高斯概率密度函数 (Gaussian probability density function),协方差矩阵 (covariance matrix)由两个随机特征值 (eigenvalues)和一个随机旋转角度 (rotation angle)确定。高斯核 (Gaussian kernel)大小固定为 。双三次降采样 (bicubic downsampling)。噪声 (noise):噪声水平范围设置为[0, 30]。JPEG压缩 (JPEG compression):质量因子 (quality factor)设置为[30, 95]。
- 重要说明: 尽管使用了合成
LQ图像 (LQ images)作为训练数据,但训练时采用的是非配对 (unpaired)的HQ和LQ图像。
- 合成数据评估:
基准数据集 (Benchmark dataset):Set14[85]。- 测试降解多样性: 结合 5 种典型的
各向异性高斯核 (anisotropic Gaussian kernels)(如Table I右上角所示)、2 种噪声水平(15 和 25)和 2 种JPEG压缩质量因子 (JPEG compression quality factors)(75 和 90),共形成 20 种代表性降解 (degradations)。 AIM Real-World SR (AIM-RWSR)挑战赛数据集 [92]:- 训练集:2650 张来自
Flickr2K[84] 的带未知降解 (unknown degradations)的噪声和压缩LQ图像 (LQ images),以及 800 张来自DIV2K[83] 的HQ图像 (HQ images)。 - 验证集:100 张
LQ图像 (LQ images),与训练集具有相同类型的降解 (degradations),并提供了配对 HQ图像 (paired HQ images)用于定量评估。
- 训练集:2650 张来自
- 真实数据评估:
LQ图像 (LQ images):PASCAL VOC[93] 数据集中的 17125 张包含多样真实世界降解 (diverse real-world degradations)的图像。HQ图像 (HQ images):DIV2K数据集中的 800 张图像。- 评估集:
VOC数据集中另外 100 张真实 LQ图像 (real LQ images)。
5.1.2. 点云恢复任务
XYZ点云 (XYZ Point Clouds)(仅三维坐标)- 训练数据集:
PU[52] 数据集。 - 评估数据集:
PU和PC[101] 数据集。 降解 (degradation)类型:高斯坐标噪声 (Gaussian coordinate noise),噪声范围 设置为 。
- 训练数据集:
XYZ-RGB点云 (XYZ-RGB Point Clouds)(三维坐标 + RGB颜色值)- 训练数据集:
S3DIS数据集的区域 和区域 6。 - 评估数据集:
S3DIS数据集的区域 5。 降解 (degradations)类型:高斯坐标噪声 (Gaussian coordinate noise):范围 设置为 。高斯颜色噪声 (Gaussian color noise):范围 设置为[0, 20]。GPCC几何压缩 (GPCC geometry compression):质量因子 (quality factor)设置为[7, 12]。
- 训练数据集:
5.2. 评估指标
对论文中出现的每一个评估指标,进行以下三段结构说明:
5.2.1. PSNR (Peak Signal-to-Noise Ratio)
- 概念定义:
峰值信噪比 (PSNR)是一种衡量图像或视频压缩/恢复质量的客观标准。它通过比较原始(HQ)图像与处理后(LQ或恢复后)图像之间的像素差异来量化失真程度。PSNR值以分贝(dB)表示,其值越高,表示图像质量越好,失真越小。它主要关注像素级的误差。 - 数学公式:
其中,
均方误差 (Mean Squared Error, MSE)的计算公式为: - 符号解释:
- : 图像中像素可能的最大值。例如,对于8位灰度图像,。
- :
均方误差 (Mean Squared Error),衡量两幅图像像素值差异的平方平均值。 I(i,j): 原始图像在坐标(i,j)处的像素值。K(i,j): 经压缩或恢复后的图像在坐标(i,j)处的像素值。m, n: 图像的行数和列数。- : 以10为底的对数。
5.2.2. SSIM (Structural Similarity Index Measure)
- 概念定义:
结构相似性指数 (SSIM)是一种旨在更好地模拟人类视觉系统对图像质量感知的指标。它从亮度、对比度和结构三个方面来评估两幅图像的相似度。SSIM值介于-1和1之间,其中1表示两幅图像完全相同,值越高表示图像质量越好,越接近原始图像的视觉感知。 - 数学公式:
- 符号解释:
x, y: 两幅待比较的图像块。- : 图像块 和 的平均亮度。
- : 图像块 和 的标准差(衡量对比度)。
- : 图像块 和 的协方差(衡量结构相似性)。
- : 用于稳定除法的小常数,避免分母为零。 是像素值的动态范围(例如,8位图像 )。通常 。
5.2.3. LPIPS (Learned Perceptual Image Patch Similarity)
- 概念定义:
LPIPS (Learned Perceptual Image Patch Similarity)是一种基于深度学习的感知图像相似度指标。与PSNR和SSIM等传统指标相比,LPIPS被设计为更符合人类对图像相似度的判断。它通过比较两幅图像在预训练深度神经网络(如AlexNet或VGG)的特征空间中的激活值差异来评估相似度。LPIPS值越低,表示两幅图像在感知上越相似。 - 数学公式:
LPIPS没有一个简单的封闭数学公式,因为它依赖于深度特征提取 (deep feature extraction)和距离计算 (distance calculation)。其核心思想是将两幅图像 和 输入一个预训练的特征提取器 (feature extractor)(主干网络 (backbone),如AlexNet),并在网络的多个层级提取特征图。然后,计算这些特征图之间的加权L2距离 (L2 distance)或L1距离 (L1 distance)。 或更精确地考虑空间维度和加权平均: - 符号解释:
x, y: 两幅输入图像。- : 预训练
主干网络 (backbone)(如AlexNet或VGG)的第 层输出的特征图。 - : 第 层特征图的
可学习权重 (learnable weights),通常通过额外的训练以匹配人类感知判断。 - :
L2范数 (L2 norm)(欧氏距离)。 - : 元素级乘法。
- : 第 层特征图的高度和宽度。
5.2.4. NIQE (Natural Image Quality Evaluator)
- 概念定义:
NIQE (Natural Image Quality Evaluator)是一种无参考图像质量评估 (no-reference image quality assessment, NR-IQA)指标。它不依赖于原始参考图像 (original reference image),而是通过从大量高质量自然图像 (high-quality natural images)中学习统计特征模型来评估图像质量。它将待评估图像的统计特征与预先学习的自然图像模型进行比较,并计算它们之间的距离。NIQE值越低,表示图像质量越好,越接近自然图像的统计特征。 - 数学公式:
NIQE没有一个简单的封闭数学公式,因为它是一个基于特征提取 (feature extraction)和模型拟合 (model fitting)的复杂算法。其核心是提取局部归一化图像块 (local normalized image patches)的广义高斯分布 (Generalized Gaussian Distribution, GGD)参数,并使用这些参数构建多元高斯模型 (Multivariate Gaussian Model, MGM)。 若用两个多元高斯模型 (MGM)之间的马氏距离 (Mahalanobis distance)来近似表示: 论文中通常给出的形式更简单,直接表示两个MGM之间的距离: - 符号解释:
- : 待评估的图像。
- : 从输入图像 中提取的
特征向量 (feature vector)(通常是GGD参数的均值)和协方差矩阵 (covariance matrix)。 - : 从大量
高质量自然图像 (high-quality natural images)训练得到的参考MGM的均值向量 (mean vector)和协方差矩阵 (covariance matrix)。
5.2.5. CNNIQA (Convolutional Neural Networks for Image Quality Assessment)
- 概念定义:
CNNIQA (Convolutional Neural Networks for Image Quality Assessment)是一种无参考图像质量评估 (NR-IQA)方法,它利用卷积神经网络 (CNNs)直接从图像中学习特征并预测其质量分数。该方法通过训练一个CNN模型 (CNN model)来预测图像的感知质量 (perceptual quality),无需参考图像 (reference image)。其输出分数通常与人类的主观感知质量评价高度相关。 - 数学公式:
CNNIQA的核心是一个深度学习模型 (deep learning model),其输出是一个标量质量分数。没有一个简单的数学公式来表示整个过程,因为它包含卷积 (convolution)、池化 (pooling)、激活函数 (activation functions)和全连接层 (fully-connected layers)等复杂操作。最终的质量分数是CNN模型 (CNN model)的预测结果。
5.2.6. CD (Chamfer Distance)
- 概念定义:
Chamfer Distance (CD)是一种衡量两个点集 (point sets)之间相似度的指标,在点云处理 (point cloud processing)任务中广泛使用。它计算一个点集 (point set)中的每个点到另一个点集 (point set)中最近点的距离的平方和,然后将这两个方向的距离和加起来。CD值越小,表示两个点云 (point clouds)越相似。 - 数学公式:
- 符号解释:
- : 两个
点集 (point sets)。 - :
点集 (point set)中的一个点。 - :
点集 (point set)中的一个点。 - :
点 (point)到点集 (point set)中最近点的欧氏距离 (Euclidean distance)的平方。
- : 两个
5.2.7. P2M (Point-to-Mesh Distance)
- 概念定义:
Point-to-Mesh Distance (P2M)是一种衡量点云 (point cloud)到参考网格模型 (reference mesh model)之间几何相似度的指标。它计算点云 (point cloud)中每个点到参考网格 (reference mesh)上最近点的距离,并将这些距离进行平均或求和。P2M值越小,表示点云 (point cloud)与网格模型 (mesh model)2D投影 (projection)越接近。 - 数学公式:
P2M的具体计算方式可能因实现而异,通常没有一个统一的标准化公式。但其核心思想是计算点云 (point cloud)中的点到网格 (mesh)表面最近点的距离。一个常见的形式是计算所有点到网格 (mesh)的平均距离: - 符号解释:
- : 待评估的
点云 (point cloud)。 - :
参考网格模型 (reference mesh model)。 - :
点云 (point cloud)中的一个点。 - :
点 (point)到网格 (mesh)上最近点的距离(这通常涉及点到三角形 (point-to-triangle)的距离计算)。 - :
点云 (point cloud)中的点数量。
- : 待评估的
5.3. 对比基线
5.3.1. 图像恢复任务
零样本 (Zero-Shot)SR方法:ZSSR[38]:Zero-shot超分辨率 (super-resolution),在推理时为每个图像进行训练。
配对 (Paired)SR方法:RCAN[9]:图像超分辨率 (image super-resolution)残差通道注意力网络 (Residual Channel Attention Networks)。IKC[20]:迭代核校正 (Iterative Kernel Correction)的盲超分辨率 (blind super-resolution)。DAN[87]:动态注意力网络 (Dynamic Attention Network)。BSRNet[13]:盲图像超分辨率 (blind image super-resolution)的实用降解模型 (degradation model)。BSRGAN[13]:基于GAN的BSRNet版本。Real-ESRNet[14]:使用纯合成数据 (synthetic data)训练真实世界 (real-world)盲超分辨率 (blind super-resolution)。Real-ESRGAN[14]:基于GAN的Real-ESRNet版本。
非配对 (Unpaired)SR方法:CinCGAN[45]:Cycle-in-Cycle 生成对抗网络 (Generative Adversarial Network)的无监督图像超分辨率 (unsupervised image super-resolution)。Lugmayr et al. [16]:真实世界 (real-world)超分辨率 (super-resolution)的无监督学习 (unsupervised learning)。FSSR[91]:流基超分辨率 (Flow-based Super-Resolution)。DASR[18]:非配对真实世界图像超分辨率 (unpaired real-world image super-resolution)的域不可知适应 (domain-agnostic adaptation)。DeFlow[48]:使用条件流 (conditional flows)从非配对数据 (unpaired data)中学习复杂图像降解 (image degradations)。
5.3.2. 点云恢复任务
- 传统方法:
Bilateral[99]:双边网格去噪 (Bilateral mesh denoising)。GLR[100]:使用图拉普拉斯正则化 (graph Laplacian regularization)的3D点云去噪 (3D point cloud denoising)。
学习基 (Learning-Based)配对 (Paired)方法:PCNet[101]:PointCleanNet,学习从密集点云 (dense point clouds)中去噪 (denoise)和移除异常值 (remove outliers)。DMR[102]:可微分流形重建 (Differentiable Manifold Reconstruction)的点云去噪 (point cloud denoising)。SBPCD[97]:基于分数的点云去噪 (Score-based point cloud denoising)。RePCD-Net[98]:特征感知循环点云去噪网络 (Feature-aware Recurrent Point Cloud Denoising Network)。
无监督/非配对 (Unsupervised/Unpaired)方法:TD[54]:Total Denoising,3D点云清洗 (3D point cloud cleaning)的无监督学习 (unsupervised learning)。DMR-un[102]:DMR的无监督 (unsupervised)版本。
6. 实验结果与分析
6.1. 核心结果分析
本部分将详细分析论文中提供的实验结果,包括 消融实验 (ablation studies) 和在 基准数据集 (benchmark datasets) 上的性能评估。
6.1.1. 模型分析 (Model Analyses)
论文通过 消融实验 (ablation studies) 验证了所提出网络设计的有效性,包括 降解表示学习 (degradation representation learning)、噪声注入 (noise injection)、降解一致性损失 (degradation consistency loss) 和 DA卷积 (DA convolutions) 的不同组件。
以下是原文 Table I 的结果,展示了 Set14 上实现的 PSNR 结果,评估了不同模型变体(E1:无 降解表示学习 (Degradation Representation Learning);D1:无 噪声注入 (Noise Injection)、DA Conv 和 Consistency Loss;D2:有 噪声注入 (Noise Injection) 但无 DA Conv 和 Consistency Loss;D3:有 噪声注入 (Noise Injection) 和 DA Conv 但无 Consistency Loss;G1:无 生成器 (Generator) 中的 DA Conv;G2:生成器 (Generator) 中有 DA Conv 但无 调制系数 (Modulation) 分支;Baseline (Ours):完整模型)。
以下是原文 Table I 的结果:
| Model | Encoder | Degrader | Generator | K1 | K2 | K3 | K4 | K5 | |||
| Contrastive Loss (Eq. 2) | Noise Injection | DA Conv | Consistency Loss (Eq. 9) | DA Conv | |||||||
| E1 | × | ✓ | ✓ | × | Kernel ✓ | Modulation √ | 22.92 | 22.71 | 22.47 | 22.26 | 22.16 |
| D1 | ✓ | X | X | X | ✓ | ✓ | 18.07 | 17.59 | 17.44 | 17.37 | 17.25 |
| D2 | ✓ | ✓ | X | X | ✓ | ✓ | 22.86 | 22.67 | 22.44 | 22.26 | 22.13 |
| D3 | ✓ | √ | ✓ | X | ✓ | ✓ | 23.07 | 22.91 | 22.62 | 22.41 | 22.29 |
| G1 | ✓ | √ | ✓ | ✓ | X | X | 21.55 | 21.45 | 21.33 | 21.26 | 21.20 |
| G2 | ✓ | ✓ | ✓ | ✓ | ✓ | × | 23.03 | 22.81 | 22.57 | 22.40 | 22.27 |
| Baseline (Ours) | ✓ | ✓ | √ | ✓ | ✓ | ✓ | 23.16 | 23.01 | 22.75 | 22.57 | 22.43 |
-
右上角降解核图示:
该图像是示意图。上半部分展示了不同噪声强度()和质量因子()下的图像恢复效果,从无噪声到高噪声且低质量的变化过程;下半部分包含三个小图(a),(b)和(c),分别展示了在不同噪声和质量条件下的特征点的聚类分布情况。这些聚类结果展示了在各自条件下,特征之间的可分性和差异性。上图(原文 Figure 4)的上半部分展示了不同降解类型(高斯模糊核K1-K5,噪声水平,JPEG压缩因子)下的图像恢复效果。下半部分则通过
T-SNE方法可视化了不同降解类型下的降解表示 (degradation representations)的聚类情况。
6.1.1.1. 编码器 (Encoder) - 降解表示学习 (Degradation Representation Learning)
-
降解表示学习 (Degradation Representation Learning)的有效性:E1模型通过移除降解对比损失 (degradation contrastive loss)() 和降解一致性损失 (degradation consistency loss)() 来模拟不进行降解表示学习 (degradation representation learning)的情况。从Table I可以看出,E1的PSNR结果显著低于Baseline模型(例如,K1 的PSNR从 23.16 下降到 22.92)。这表明,如果编码器 (encoder)无法提取判别性降解信息 (discriminative degradation information),降解器 (degrader)在生成多样化伪 LQ图像 (pseudo LQ images)方面会受限,生成器 (generator)也无法很好地处理多重降解 (degradations)。Baseline模型通过准确的降解信息 (degradation information)实现了更好的SR性能。 -
降解表示 (Degradation Representations)的可视化: 为了直观地验证降解编码器 (degradation encoder)的能力,论文使用T-SNE[86] 方法可视化了不同模糊核 (blur kernels)、噪声水平 (noise levels)和JPEG压缩因子 (JPEG compression factors)下的降解表示 (degradation representations)。 上图(原文 Figure 4)展示了可视化结果。可以观察到,降解编码器 (degradation encoder)能够大致区分不同的模糊核 (blur kernels)(Figure 4a),并能轻松将不同噪声水平 (noise levels)(Figure 4b) 和JPEG压缩因子 (JPEG compression factors)(Figure 4c) 的降解 (degradations)聚类成判别性组 (discriminative groups)。这有力地证明了所学到的降解表示 (degradation representations)具有足够的判别性 (discriminative),能够提供隐式降解信息 (implicit degradation information)。 -
降解表示 (Degradation Representations)的内容不变性研究: 论文进一步实验验证了降解表示 (degradation representations)对图像内容 (image content)的鲁棒性 (robustness)。具体做法是:给定一张HQ图像 (HQ image)(Set14中的Barbara),使用一个降解模型 (degradation model)生成LQ图像 (LQ image)。然后,随机选择Set14中另外 9 张HQ图像 (HQ images),使用相同的降解模型 (degradation model)生成LQ图像 (LQ images)I_i (i = 2, ..., 10)。最后,从 中提取降解表示 (degradation representations)来对 进行超分辨率 (super-resolution)。下图(原文 Figure 5)展示了使用不同
图像内容 (image contents)学到的降解表示 (degradation representations)所实现的PSNR结果:
该图像是一个图表,展示了使用不同噪声水平和压缩质量对10幅图像恢复任务的PSNR结果。数据点由不同形状的标记表示,分别代表不同的噪声标准差和压缩质量。可以看出,随着图像内容的变化,PSNR值在不同条件下的表现差异显著。从 Figure 5 可以看出,即使使用从不同
图像内容 (image contents)中提取的降解表示 (degradation representations),网络也能实现相对稳定的性能。这表明降解表示 (degradation representations)对图像内容变化 (image content variations)具有鲁棒性 (robustness),能够有效地提取内容无关 (content-invariant)的降解信息 (degradation information)。
6.1.1.2. 降解器 (Degrader)
-
噪声注入 (Noise Injection)的有效性:D1模型移除了噪声注入模块 (noise injection modules)、DA卷积 (DA convolutions)和降解一致性损失 (consistency loss),这相当于遵循了传统GAN (GAN)-based 方法的LQ图像合成 (LQ image synthesis)范式,学习一个确定性的HQ-to-LQ映射。D2模型在D1的基础上增加了噪声注入模块 (noise injection modules)。- 从
Table I可以看出,D2的性能显著优于D1(例如,K1 的PSNR从 18.07 提升到 22.86)。没有噪声注入 (noise injection),D1合成的伪 LQ图像 (pseudo LQ images)多样性非常有限,导致生成器 (generator)难以处理训练中未见过的复杂降解 (degradations)。而D2通过噪声注入 (noise injection)可以合成具有随机降解 (stochastic degradations)的伪 LQ图像 (pseudo LQ images),提供了更丰富多样的训练数据,从而实现了更好的SR性能。
-
降解一致性损失 (Degradation Consistency Loss)的有效性:D3模型移除了降解一致性损失 (degradation consistency loss)(),与Baseline进行比较。从Table I可以看出,D3的性能相比Baseline有明显下降(例如,K1 的PSNR从 23.16 下降到 23.07)。这表明,如果没有降解一致性损失 (degradation consistency loss),降解器 (degrader)可能会遭受模式崩溃 (mode collapse),导致合成 LQ图像 (synthetic LQ images)的多样性受限,从而影响整体性能。降解一致性损失 (degradation consistency loss)使得降解器 (degrader)能够通过模仿非配对 LQ图像 (unpaired LQ images)中的降解 (degradations)来生成多样化的LQ图像 (LQ images)。 -
合成伪 LQ图像 (Synthetic Pseudo LQ Images)的多样性: 论文通过可视化进一步展示了噪声注入 (noise injection)和降解一致性损失 (degradation consistency loss)对LQ图像合成 (LQ image synthesis)多样性的贡献。下图(原文 Figure 6)展示了
Baseline、D1、D2和D3模型合成的LQ图像 (LQ images)的视觉比较:
该图像是一个展示不同去噪效果的示意图,包含多个恢复效果的比较,分别标记为Guidance、Baseline、D1、D2和D3。图中展示了在处理图像去噪任务时,使用不同方法对同一图像进行恢复的效果对比。-
D1(无噪声注入 (noise injection)):只能从HQ图像 (HQ image)合成确定性的LQ图像 (LQ image)。 -
D2(有噪声注入 (noise injection)):可以生成随机降解 (stochastic degradations)的LQ图像 (LQ images),但多样性有限,差异微小。 -
D3(有DA卷积 (DA convolutions)但无降解一致性损失 (consistency loss)):能合成更多样化的LQ图像 (LQ images),但合成 LQ图像 (synthetic LQ images)的降解分布 (degradation distribution)不可控,无法很好地匹配引导图像 (guidance images)的分布。 -
Baseline(完整模型):受益于降解表示学习 (degradation representation learning)和降解一致性损失 (degradation consistency loss),能够合成多样化的LQ图像 (LQ images),以模仿引导图像 (guidance images)中的降解 (degradations)(例如,第二列的强噪声和最后一列的JPEG阻塞伪影)。这确保了合成伪 LQ图像 (synthetic pseudo LQ images)能够很好地覆盖真实 LQ数据 (real LQ data)中的多样化降解 (degradations)。为了进一步验证
合成伪 LQ图像 (synthetic pseudo LQ images)与引导图像 (guidance images)之间的降解一致性 (degradation consistency),论文可视化了合成伪 LQ图像 (synthetic pseudo LQ images)的降解表示 (degradation representations)。
下图(原文 Figure 7)展示了使用不同
引导图像 (guidance images)生成的伪 LQ图像 (pseudo LQ images)的降解表示 (degradation representations)可视化:
该图像是示意图,展示了不同引导图生成的伪低质量(LQ)图像对应的降级表示。图中使用不同颜色的三角形代表四种不同的引导图标识,黑色、红色、绿色和蓝色区域分别对应不同的降级表示。给定一张
HQ图像 (HQ image)(Set14中的Barbara),使用四种不同降解 (degradations)生成四张LQ图像 (LQ images)作为引导 (guidance)来合成伪 LQ图像 (pseudo LQ images)。从 Figure 7 可以看出,使用不同引导图像 (guidance images)合成的伪 LQ图像 (pseudo LQ images)聚类成判别性组 (discriminative groups)。更重要的是,合成 LQ图像 (synthetic LQ images)的表示 (representations)接近其对应的引导图像 (guidance images)(用三角形标记)。这进一步证明了降解感知 LQ数据合成 (degradation-aware LQ data synthesis)的有效性。 -
6.1.1.3. 生成器 (Generator)
降解感知卷积 (Degradation-Aware Convolutions)的有效性:生成器 (generator)中的DA卷积 (DA convolutions)通过预测卷积核 (convolutional kernels)和通道级调制系数 (channel-wise modulation coefficients)来适应不同降解 (degradations)。G1模型用普通卷积 (vanilla convolutions)替换了DA卷积 (DA convolutions),即生成器 (generator)中没有利用降解信息 (degradation information)。G2模型移除了DA卷积 (DA convolutions)中的通道级调制系数 (channel-wise modulation coefficient)分支,但保留了动态卷积核 (dynamic convolutional kernels)。- 从
Table I可以看出,G1在处理多样化降解 (degradations)时性能较低。G2在引入动态卷积核 (dynamic convolutional kernels)后性能显著提高(例如,K1 的PSNR从 21.55 提升到 23.03)。在此基础上,Baseline模型进一步加入了通道级调制系数 (channel-wise modulation coefficients),获得了额外的性能提升,并在各种降解 (degradations)下实现了最佳结果。这清晰地证明了DA卷积 (DA convolutions)中动态卷积核 (dynamic convolutional kernels)和通道级调制 (channel-wise modulation)两个组件的有效性。
6.1.2. 基准评估 (Evaluation on Benchmarks)
6.1.2.1. 在合成数据上的评估 (Evaluation on Synthetic Data)
-
数据集:
AIM-RWSR挑战赛数据集。 -
评估指标:
PSNR、SSIM和LPIPS。 -
对比方法:
ZSSR[38]、RCAN[9]、IKC[20]、DAN[87]、BSRNet[13]、BSRGAN[13]、Real-ESRNet[14]、Real-ESRGAN[14] (配对/零样本);CinCGAN[45]、Lugmayr et al. [16]、FSSR[91]、DASR[18]、DeFlow[48] (非配对)。以下是原文 Table II 的结果,展示了
AIM-RWSRSR任务上的定量结果:Method Training Data Training Degradation #Params. Time PSNR (↑) SSIM (↑) LPIPS (↓) Zero-shot Bicubic ZSSR [38] - - 0.2M 230s 22.351 0.6173 0.537 ZSSR [38] - - 0.2M 230s 22.327 0.6022 0.630 Paired RCAN [9] DIV2K Bicubic 16M 0.26s 22.322 0.6042 0.472 IKC [20] DIV2K+Flickr2K Blur+Noise 5.2M 0.52s 22.245 0.6001 0.479 DAN [87] DIV2K+Flickr2K Blur+Noise 4.2M 0.35s 22.405 0.6094 0.471 BSRNet [13] DIV2K+Flickr2K+WED [88]+FFHQ [89] Randomly Shuffled 16M 0.26s 23.180 0.6676 0.334 BSRGAN [13] DIV2K+Flickr2K+WED [88]+FFHQ [89] Randomly Shuffled 16M 0.26s 22.468 0.6223 0.236 Real-ESRNet [14] DIV2K+Flickr2K+OST [90] Second-Order 16M 0.26s 23.169 0.6707 0.333 Real-ESRGAN [14] DIV2K+Flickr2K+OST [90] Second-Order 16M 0.26s 22.078 0.6217 0.238 Unpaired CinCGAN [45] AIM-RWSR Unknown 43M - 21.602 0.6129 0.461 FSSR [91] AIM-RWSR Unknown 16M 0.26s 21.590 - - Lugmayr et al. [16] AIM-RWSR Unknown - - - 0.5500 0.472 DASR [18] AIM-RWSR Unknown 16M 0.26s 20.820 0.5103 0.390 DeFlow [48] AIM-RWSR Unknown 16M 0.26s 21.600 0.5640 0.336 Ours UnIRnet (Ours) AIM-RWSR Unknown 16M 0.26s 22.673 0.6449 0.301 UnIRGAN (Ours) AIM-RWSR Unknown 5.1M+4.5M 0.09s 22.462 0.6273 0.238 -
定量结果分析:
-
零样本 (Zero-shot)方法 (ZSSR): 在推理阶段进行训练,非常耗时且准确性有限。 -
配对 (Paired)方法:RCAN仅用双三次降解 (bicubic degradations)训练,在真实降解 (real degradations)下表现不佳。IKC和DAN需要降解估计 (degradation estimation),推理效率低,且由于训练时只包含高斯模糊 (Gaussian blur)和噪声 (noise)组合,性能受限。BSRNet、BSRGAN、Real-ESRNet和Real-ESRGAN利用更复杂的降解设置 (degradation settings)、更多训练数据和更大的模型,在真实世界降解 (real-world degradations)上表现出色,但计算成本相对较高。
-
非配对 (Unpaired)方法:-
UnIRnet(本文方法,PSNR导向) 在PSNR和SSIM上显著优于所有现有非配对 SR方法(例如,UnIRnet的PSNR/SSIM为 22.673/0.6449,而DeFlow为 21.600/0.5640),且参数量更少(UnIRnet16M,而CinCGAN43M)。 -
UnIRGAN(本文方法,感知 (perception)导向) 在所有指标上均优于其他非配对方法 (unpaired methods),并且与BSRGAN和Real-ESRGAN等配对方法 (paired methods)相比,在效率更高的前提下 (UnIRGAN0.09s vsBSRGAN/Real-ESRGAN0.26s) 取得了相当甚至更好的准确性。下图(原文 Figure 8)进一步比较了不同
非配对方法 (unpaired methods)生成的视觉结果:
该图像是图表,展示了在 AIM-RWSR 数据集上恢复图像的视觉比较。图中从左到右依次为低质量(LR)图像、Bicubic 插值、FFSR、DASR、DeFlow、UnIRnet(我们的模型)和UnIRGAN(我们的模型)的输出结果。这些结果展现了不同恢复方法在视觉质量上的差异。
-
-
视觉结果分析: 从 Figure 8 可以观察到,先前方法(如
FSSR、DASR、DeFlow)在恢复图像 (restored images)中存在明显的伪影(例如,第二场景中的短裤)。相比之下,UnIRnet和UnIRGAN生成的视觉结果具有更少的伪影、更精细的细节和更高的感知质量 (perceptual quality)。
-
6.1.2.2. 在真实数据上的评估 (Evaluation on Real Data)
-
数据集:
PASCAL VOCLQ图像 (LQ images)和DIV2K HQ图像 (HQ images)。 -
评估指标: 由于
真实数据 (real data)没有地面真值 (groundtruth),使用无参考指标 (no-reference metrics):NIQE[94] 和CNNIQA[95]。 -
对比方法:
RCAN[9]、DAN[87]、Real-ESRNet[14] (配对);FSSR[91]、DASR[18] (非配对)。下图(原文 Figure 9)比较了不同方法在
VOC数据集上生成图像的视觉结果:
该图像是图表,展示了在VOC数据集上恢复的图像的视觉比较。左侧为低质量图像(LR),右侧展示了使用不同方法(如Bicubic、RCAN、FSR、DASR、UnIRnet(我们的方法)、UnIRGAN(我们的方法))恢复的高质量图像(HQ)。- 视觉结果分析: 从 Figure 9 可以看出,
FSSR和DASR等非配对 SR方法生成的结果存在不愉快的伪影,感知质量 (perceptual quality)较低。相比之下,UnIRnet生成的SR结果伪影更少,质量更高。为了与FSSR和DASR等感知导向方法 (perception-oriented methods)进行公平比较,UnIRnet进一步微调 (finetuned)获得了UnIRGAN。UnIRGAN能够恢复更精细、更真实的细节(例如,第二场景中的条纹),展示出卓越的感知质量 (perceptual quality)。
- 视觉结果分析: 从 Figure 9 可以看出,
6.1.3. 点云恢复任务 (Point Cloud Restoration)
6.1.3.1. 在 XYZ点云 (XYZ Point Clouds) 上的评估
-
数据集:
PU和PC数据集。 -
降解 (degradation):高斯坐标噪声 (Gaussian coordinate noise)。 -
评估指标:
Chamfer Distance (CD)和Point-to-Mesh Distance (P2M)。 -
对比方法:
Bilateral[99]、GLR[100] (传统);PCNet[101]、DMR[102]、SBPCD[97]、RePCD-Net[98] (配对);TD[54]、DMR-un[102] (无监督/非配对)。以下是原文 Table III 的结果,展示了
PU和PC数据集上 结果 (),评估了不同点云恢复方法:#Points Noise Level Paired Unsupervised/Unpaired Bilateral* [99] GLR* [100] PCNet* [101] DMR* [102] SBPCD* [97] RePCD-Net† [98] PRnet (Ours) TD†[54] DMR-un [102] UnPRnet (Ours) PU 10K 1% 3.646/1.342 2.959/1.052 3.515/1.148 4.482/1.722 2.521/0.463 5.140/- 2.267/0.415 8.350/- 8.255/4.790 2.922/0.700 2% 5.007/2.018 3.773/1.306 7.467/3.965 4.982/2.115 3.686/1.074 - 3.304/1.036 - 9.729/5.991 4.538/1.665 3% 6.998/3.557 4.909/2.114 13.067/8.737 5.892/2.846 4.708/1.942 - 4.539/1.911 - 11.516/7.477 6.547/3.345 PU 50K 1% 0.877/0.234 0.696/0.161 1.049/0.346 1.162/0.469 0.716/0.150 - 0.618/0.135 - 2.241/1.301 1.108/0.387 2% 2.376/1.389 1.587/0.830 1.447/0.608 1.566/0.800 1.288/0.566 - 1.113/0.523 - 3.389/2.247 2.012/1.005 3% 6.304/4.730 3.839/2.707 2.289/1.285 2.432/1.528 1.928/1.041 - 1.805/0.922 - 5.794/4.415 3.927/2.677 PC 10K 1% 4.320/1.351 3.399/0.956 3.847/1.221 4.482/1.722 3.132/0.755 3.369/0.830 3.299/0.755 13.266/6.959 6.602/2.152 5.189/1.305 2% 6.171/1.646 5.274/1.146 8.752/3.043 7.145/2.237 5.027/1.103 5.132/1.195 5.189/1.305 14.399/7.610 7.299/2.668 7.299/2.668 3% 8.295/2.392 7.249/1.674 14.525/5.873 8.087/2.487 6.662/1.891 6.776/1.941 6.776/1.941 15.834/8.449 10.453/4.601 10.453/4.601 PC 50K 1% 1.172/0.198 0.964/0.134 1.293/0.289 1.566/0.350 0.922/0.155 1.066/0.177 0.922/0.155 3.182/1.423 1.561/0.430 1.561/0.430 2% 2.478/0.634 2.015/0.417 1.913/0.505 2.009/0.485 1.508/0.301 1.659/0.354 1.508/0.301 4.245/1.986 2.377/0.801 2.377/0.801 3% 6.077/2.189 4.488/1.306 3.249/1.076 2.993/0.859 2.313/0.606 2.494/0.657 2.313/0.606 6.462/3.181 3.914/1.553 3.914/1.553 -
定量结果分析:
-
与
无监督/非配对方法 (Unsupervised/Unpaired Approaches)比较:UnPRnet在不同噪声水平下取得了显著优于其他无监督/非配对方法 (unsupervised/unpaired approaches)的性能。例如,在PU数据集 (10K 点) 噪声水平下,UnPRnet的 从DMR-un的 8.255/4.790 提高到 2.922/0.700。 -
与
配对方法 (Paired Approaches)比较:UnPRnet取得了有竞争力 (competitive)的结果。对于 10K 点的点云 (point clouds),UnPRnet在 噪声水平下以显著优势超越了DMR(在PU和PC数据集上 分别为 2.922/5.189 对比 4.482/6.602)。对于 50K 点的点云 (point clouds),UnPRnet在大多数噪声水平下表现出可比 (comparable)性能。 -
自监督训练的
PRnet: 论文还训练了一个监督版本 (supervised version)的PRnet(表格中的PRnet (Ours),训练设置与 [97] 相同),在某些情况下取得了最佳性能。这表明了其主干网络 (backbone)架构的强大。下图(原文 Figure 11)进一步可视化了不同方法生成的
点云恢复 (point cloud restoration)结果:
该图像是插图,展示了不同算法在低质量(LQ)和高质量(GT)点云修复任务上的比较。上方展示了椅子的修复结果,左侧为低质量数据,右侧为我们提出的UnPRnet方法的结果;下方展示了猫的形象,左侧为低质量数据,右侧为算法输出。比较的算法包括DMR、SBPCD与DMR-un。 -
视觉结果分析:
Figure 11通过颜色指示点到网格距离 (point-to-mesh distance)。与DMR-un相比,UnPRnet生成了更清晰、更精细的结果,点到网格距离 (point-to-mesh distance)更低。与配对方法 (paired approaches)相比,UnPRnet优于DMR,并大幅缩小了与SBPCD的性能差距。
-
-
降解表示 (Degradation Representations)的可视化: 下图(原文 Figure 12)可视化了从不同坐标噪声水平 (coordinate noise levels)的点云 (point clouds)中提取的降解表示 (degradation representations):
该图像是一个示意图,展示了不同坐标噪声水平下的降解表示,左侧为10K点的表示,右侧为50K点的表示。不同颜色的点分别表示不同的噪声标准差,其中蓝色表示 ,红色表示 ,绿色表示 ,黑色表示 。从 Figure 12 可以看出,
降解编码器 (degradation encoder)能够区分具有不同噪声水平 (noise levels)的点云 (point clouds),尤其是在噪声水平 (noise levels)大于 时。这表明降解表示 (degradation representations)具有判别性 (discriminative),能够提供3D几何 (3D geometry)的隐式降解信息 (implicit degradation information)。 -
合成伪 LQ点云 (Synthetic Pseudo LQ Point Clouds)的可视化: 下图(原文 Figure 13)可视化了合成 LQ点云 (synthetic LQ point clouds):
该图像是示意图,展示了在不同 值下生成的合成低质量(LQ)点云的可视化效果。其中,指导图和合成图分别在上方和下方展示, 的值在 到 之间变化,体现了点云的不同质量和分布特征。从 Figure 13 可以观察到,
降解器 (degrader)能够合成多样化的LQ点云 (LQ point clouds),以模仿引导点云 (guidance point clouds)中不同噪声水平 (noise levels)的降解 (degradations)。这表明,通过降解表示学习 (degradation representation learning)和降解一致性损失 (degradation consistency loss),合成伪 LQ点云 (synthetic pseudo LQ point clouds)能够很好地覆盖 中多样化的降解 (degradations)。
6.1.3.2. 在 XYZ-RGB点云 (XYZ-RGB Point Clouds) 上的评估
-
数据集:
S3DIS数据集。 -
降解 (degradations):高斯坐标噪声 (Gaussian coordinate noise)、高斯颜色噪声 (Gaussian color noise)和GPCC几何压缩 (GPCC geometry compression)。 -
评估指标:
Chamfer Distance (CD)(几何准确性) 和PSNR(外观/颜色信息)。 -
对比方法:
高斯滤波器 (Gaussian filter)和双边滤波器 (bilateral filter)[99] (传统方法)。以下是原文 Table IV 的结果,展示了
S3DIS数据集上XYZ-RGB点云 (XYZ-RGB Point Clouds)恢复任务的性能:Method CD (× 10−4, ↓) PSNR (↑) LQ Data 4.244 71.35 Gaussian 3.926 65.64 Bilateral [99] 3.956 75.33 UnPRnet (Ours) 3.956 78.23 UnPRnet+ (Ours) 3.681 78.37 -
定量结果分析: 从 Table IV 可以看出,
UnPRnet显著优于双边滤波器 (bilateral filter),PSNR值从 75.33 提高到 78.23。采用自集成策略 (self-ensemble strategy)的 进一步提升了性能,取得了最低的CD和最高的PSNR分数。这表明UnPRnet在处理复杂XYZ-RGB点云 (XYZ-RGB point clouds)降解时具有卓越的能力。下图(原文 Figure 14)进一步展示了
UnPRnet生成的视觉结果:
该图像是对比恢复后点云的视觉效果,左侧为低质量(LQ)点云,中间为我们方法UnPRnet的恢复结果,右侧为真实高质量(GT)点云。该图展示了不同方法在点云恢复任务中的表现。- 视觉结果分析: 从 Figure 14 可以观察到,
UnPRnet大幅提升了输入 LQ点云 (input LQ point clouds)的感知质量 (perceptual quality)。恢复后的点云 (point clouds)更加清晰,细节更精细(例如,第一行的墙壁和第二行的屋顶),这进一步验证了UnPRnet的有效性。
- 视觉结果分析: 从 Figure 14 可以观察到,
6.2. 消融实验/参数分析
论文通过 模型分析 (Model Analyses) 中的 消融实验 (ablation studies) 详细验证了各组件的贡献,如 Table I 所示。
-
降解表示学习 (Degradation Representation Learning):E1变体(移除降解对比损失 (degradation contrastive loss)和降解一致性损失 (degradation consistency loss))的性能远低于Baseline。这明确指出降解表示学习 (degradation representation learning)对于编码器 (encoder)提取有效降解信息 (degradation information)至关重要。这些判别性表示 (discriminative representations)能够帮助降解器 (degrader)合成多样化的LQ图像 (LQ images),并使生成器 (generator)更好地适应不同的降解 (degradations)。
-
噪声注入 (Noise Injection):D1变体(移除了噪声注入 (noise injection))性能最差,几乎无法有效恢复。这表明在降解器 (degrader)中引入噪声注入 (noise injection)对于合成具有随机性 (stochasticity)和多样性的伪 LQ图像 (pseudo LQ images)是不可或缺的。多样化的LQ图像 (LQ images)训练数据能够提高生成器 (generator)处理复杂降解 (degradations)的能力。
-
降解一致性损失 (Degradation Consistency Loss):D3变体(移除了降解一致性损失 (degradation consistency loss))的性能低于Baseline。这说明该损失对于确保降解器 (degrader)生成的伪 LQ图像 (pseudo LQ images)的降解 (degradation)能够准确模仿引导 LQ图像 (guidance LQ images)是至关重要的。它有助于避免模式崩溃 (mode collapse),保证合成数据 (synthetic data)的降解多样性 (degradation diversity)。
-
生成器 (Generator)中的DA卷积 (DA Convolutions):-
G1变体(用普通卷积 (vanilla convolutions)替换DA卷积 (DA convolutions))的性能最低,表明没有DA卷积 (DA convolutions),生成器 (generator)无法有效利用降解信息 (degradation information)来适应各种降解 (degradations)。 -
G2变体(移除了DA卷积 (DA convolutions)中的通道级调制系数 (channel-wise modulation coefficient)分支)性能有所下降,但仍优于G1。这证明了DA卷积 (DA convolutions)中动态卷积核 (dynamic convolutional kernels)的有效性,能够使网络适应不同的降解 (degradations)。 -
Baseline在G2的基础上增加了通道级调制系数 (channel-wise modulation coefficients),进一步提升了性能。这表明动态卷积核 (dynamic convolutional kernels)和通道级调制 (channel-wise modulation)共同作用,使生成器 (generator)能够更灵活、更精确地利用降解信息 (degradation information)。这些
消融实验 (ablation studies)结果清晰地验证了本文所有核心技术设计——无监督降解表示学习 (unsupervised degradation representation learning)、噪声注入 (noise injection)、降解一致性损失 (degradation consistency loss)和DA卷积 (DA convolutions)及其内部组件——对于提升非配对恢复 (unpaired restoration)性能的必要性和有效性。
-
7. 总结与思考
7.1. 结论总结
本文提出了一种新颖的 无监督降解表示学习 (unsupervised degradation representation learning) 方案,并在此基础上构建了一个用于 图像 (images) 和 点云 (point clouds) 非配对恢复 (unpaired restoration) 的 通用框架 (generic framework)。
- 核心创新: 论文通过
对比学习 (contrastive learning),实现了无监督 (unsupervised)地从低质量 (LQ)数据中提取判别性 (discriminative)降解信息 (degradation information),克服了真实降解 (true degradations)未知和配对数据 (paired data)稀缺的挑战。 - 技术突破: 开发了
降解感知 (Degradation-Aware, DA) 卷积 (convolutions),它们能够根据学习到的降解表示 (degradation representations)动态调整其行为(预测卷积核 (convolutional kernels)和通道级调制系数 (channel-wise modulation coefficients)),从而灵活地适应各种降解类型 (degradation types)。 - 框架优势: 提出的框架能够合成具有高
降解多样性 (degradation diversity)的伪配对数据 (pseudo-paired data),有效覆盖真实降解空间 (real degradation space),并进行降解感知恢复 (degradation-aware restoration)。 - 性能表现: 在
非配对图像恢复 (unpaired image restoration)任务中,UnIRnet和UnIRGAN在AIM-RWSR和VOC数据集上取得了最先进 (state-of-the-art)的性能。在非配对点云恢复 (unpaired point cloud restoration)任务中,UnPRnet也在XYZ和XYZ-RGB点云 (XYZ-RGB point clouds)上展示了卓越的性能。
7.2. 局限性与未来工作
论文本身并未在专门的章节中明确指出自身的 局限性 (limitations) 或 未来工作 (future work) 方向。但可以从其背景介绍、方法描述和实验结果中推断出一些潜在的 局限性 (limitations) 和 未来工作 (future work):
降解表示 (Degradation Representation)的精细度: 虽然无监督降解表示学习 (unsupervised degradation representation learning)能够区分不同的降解类型 (degradation types),但这种隐式表示 (implicit representation)的精细度是否能达到甚至超越显式降解估计 (explicit degradation estimation)的水平,尤其是在某些对降解参数 (degradation parameters)敏感的特定任务中(例如,精确去模糊 (deblurring)需要准确的模糊核 (blur kernel)),仍有待深入探讨。目前的表示 (representation)更多是类别级 (class-level)或粗粒度 (coarse-grained)的。- 计算效率:
DA卷积 (DA convolutions)需要动态预测卷积核 (convolutional kernels)和调制系数 (modulation coefficients),这可能引入额外的计算开销。尽管论文在AIM-RWSR评估中显示了较高的效率,但对于更大规模、更复杂的网络或实时应用,其效率仍需进一步优化。 降解器 (Degrader)的模式崩溃 (Mode Collapse)风险: 尽管降解一致性损失 (degradation consistency loss)有助于缓解模式崩溃 (mode collapse),但GAN (GAN)-based 的数据合成 (data synthesis)本身仍然存在模式崩溃 (mode collapse)的内在风险。在面对极其多样化或罕见的降解模式 (degradation patterns)时,降解器 (degrader)是否能始终保持高多样性仍是一个挑战。- 泛化能力: 尽管该框架在
图像 (images)和点云 (point clouds)上都取得了成功,但其在其他低级视觉任务 (low-level vision tasks)(如去雨 (deraining)、去雾 (dehazing))或更广泛的数据模态 (data modalities)上的泛化能力 (generalization)仍需验证。 - 理论支撑: 论文主要侧重于
实证研究 (empirical studies)。如果能提供更强的理论分析 (theoretical analysis),例如降解表示 (degradation representations)的信息论 (information-theoretic)解释,或者DA卷积 (DA convolutions)对特征 (features)适应性的数学证明 (mathematical proof),将进一步增强其严谨性。
未来工作方向:
- 更精细的
降解表示学习 (degradation representation learning): 探索学习能够捕获降解 (degradation)更多细粒度 (fine-grained)信息的表示 (representations),可能结合自监督 (self-supervised)或弱监督 (weakly supervised)信号。 - 更高效的
DA机制 (DA mechanisms): 设计更轻量级、更高效的动态卷积 (dynamic convolutions)或其他自适应 (adaptive)模块,以降低计算成本同时保持性能。 - 多模态
降解感知 (degradation-aware)融合: 进一步探索图像 (images)和点云 (point clouds)之间降解信息 (degradation information)的协同作用,可能实现更强大的跨模态恢复 (cross-modal restoration)。 - 强化学习与
降解 (degradation)交互: 结合强化学习 (reinforcement learning)来动态选择和组合降解 (degradations),或优化恢复 (restoration)过程中的自适应策略 (adaptive strategies)。
7.3. 个人启发与批判
7.3.1. 个人启发
无监督降解表示学习 (Unsupervised Degradation Representation Learning)的强大潜力: 本文最引人注目的创新在于其无监督 (unsupervised)地提取降解信息 (degradation information)的能力。在真实世界 (real-world)应用中,降解 (degradations)往往是未知的且难以量化的,这使得配对训练 (paired training)不切实际。通过对比学习 (contrastive learning)从数据本身挖掘降解特征 (degradation features),为解决这一根本问题提供了一个优雅而通用的解决方案。这种思想不仅限于图像 (images)和点云 (point clouds),有望推广到其他低级视觉任务 (low-level vision tasks)甚至多模态数据 (multi-modal data)的数据增强 (data augmentation)或域适应 (domain adaptation)场景。降解信息 (Degradation Information)的灵活利用:DA卷积 (DA convolutions)的设计非常巧妙,它避免了直接拼接降解表示 (degradation representations)可能引入的域鸿沟 (domain gap)问题,而是通过动态调整网络参数来深度整合降解信息 (degradation information)。这种“条件化”网络行为的范式,对于构建能够适应复杂输入变化的通用模型 (general-purpose models)具有重要启发。跨模态 (Cross-Modality)的通用框架 (Generic Framework): 成功将同一核心思想应用于图像 (images)和点云 (point clouds)两种截然不同的数据模态,证明了该方法具有很强的抽象性 (abstractness)和泛化能力 (generalization)。这表明降解 (degradation)的概念和其表示学习 (representation learning)的方法在不同数据结构 (data structures)中可能存在普适性。
7.3.2. 批判性思考
-
降解表示 (Degradation Representation)的可解释性与控制力: 尽管隐式降解表示 (implicit degradation representations)有效,但其可解释性 (interpretability)相对较低。我们知道这些表示 (representations)能够区分不同降解 (degradations),但它们具体编码了哪些降解属性 (degradation attributes)(例如,是模糊核的对称性还是噪声的频率成分)并不直观。在某些应用中,如果需要对恢复过程 (restoration process)进行精细控制或对降解类型 (degradation types)进行精确诊断,这种隐式表示 (implicit representation)可能不如显式估计 (explicit estimation)提供的信息全面。未来的工作可以尝试结合可解释性 AI (Explainable AI)技术来揭示这些表示 (representations)的内在含义。 -
训练成本 (Training Cost)和复杂度 (Complexity): 尽管无监督 (unsupervised)方法省去了配对数据 (paired data)收集的成本,但其三阶段训练策略 (three-stage training strategy)和GAN (GAN)-based 的降解器 (degrader)仍然可能带来较高的训练复杂性 (training complexity)和计算资源 (computational resources)需求。特别是在对比学习 (contrastive learning)中,负样本队列 (negative sample queue)的维护以及大批大小 (batch sizes)的需求可能会增加内存和计算负担。 -
伪 LQ数据 (Pseudo LQ Data)的真实性 (Realism):降解器 (degrader)生成的伪 LQ数据 (pseudo LQ data)的真实性 (realism)和多样性 (diversity)是整个框架成功的关键。尽管论文通过噪声注入 (noise injection)和降解一致性损失 (degradation consistency loss)进行了改进,但合成降解 (synthetic degradations)始终难以完全复现所有真实世界 (real-world)降解 (degradations)的复杂性和细微差别。例如,某些特殊的传感器噪声 (sensor noise)或光学畸变 (optical distortions)可能难以通过简单模型或高斯噪声 (Gaussian noise)模拟。这可能依然是模型泛化 (model generalization)到极端真实世界场景 (real-world scenarios)的瓶颈。 -
超参数 (Hyper-parameter)敏感性:对比学习 (contrastive learning)中的温度超参数 (temperature hyper-parameter)以及损失函数 (loss function)中的权重系数 (weight coefficients)都可能对模型性能产生显著影响。这些超参数 (hyper-parameters)的调优 (tuning)通常需要大量的实验,并可能因任务和数据集的不同而有所差异。总的来说,本文为
非配对低级视觉恢复 (unpaired low-level vision restoration)提供了一个坚实的基础和令人信服的解决方案,特别是在无监督降解表示学习 (unsupervised degradation representation learning)和自适应网络设计 (adaptive network design)方面具有显著的创新。未来的研究可以在表示 (representations)的可解释性 (interpretability)、计算效率 (computational efficiency)和降解合成 (degradation synthesis)的真实性 (realism)方面进行更深入的探索。
相似论文推荐
基于向量语义检索推荐的相关论文。