Enhancing Diffusion-based Restoration Models via Difficulty-Adaptive Reinforcement Learning with IQA Reward
TL;DR 精炼摘要
本研究提出了一种基于难度自适应的强化学习方法,通过与图像质量评估模型(IQA)的结合,有效地增强了扩散式图像恢复模型的性能。实验表明该方法在处理与真实标注数据显著不同的样本时,能够实现更高的图像忠实度,并提升恢复效果。
摘要
Reinforcement Learning (RL) has recently been incorporated into diffusion models, e.g., tasks such as text-to-image. However, directly applying existing RL methods to diffusion-based image restoration models is suboptimal, as the objective of restoration fundamentally differs from that of pure generation: it places greater emphasis on fidelity. In this paper, we investigate how to effectively integrate RL into diffusion-based restoration models. First, through extensive experiments with various reward functions, we find that an effective reward can be derived from an Image Quality Assessment (IQA) model, instead of intuitive ground-truth-based supervision, which has already been optimized during the Supervised Fine-Tuning (SFT) stage prior to RL. Moreover, our strategy focuses on using RL for challenging samples that are significantly distant from the ground truth, and our RL approach is innovatively implemented using MLLM-based IQA models to align distributions with high-quality images initially. As the samples approach the ground truth's distribution, RL is adaptively combined with SFT for more fine-grained alignment. This dynamic process is facilitated through an automatic weighting strategy that adjusts based on the relative difficulty of the training samples. Our strategy is plug-and-play that can be seamlessly applied to diffusion-based restoration models, boosting its performance across various restoration tasks. Extensive experiments across multiple benchmarks demonstrate the effectiveness of our proposed RL framework.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Enhancing Diffusion-based Restoration Models via Difficulty-Adaptive Reinforcement Learning with IQA Reward (通过基于难度的自适应强化学习与图像质量评估奖励增强扩散式恢复模型)
1.2. 作者
Xiaogang Xu, Ruihang Chu, Jian Wang, Kun Zhou, Wenjie Shu, Harry Yang, Ser-Nam Lim, Hao Chen, Liang Lin
1.3. 作者单位
香港中文大学 (The Chinese University of Hong Kong), 清华大学 (Tsinghua University), Snap Research, 深圳大学 (Shenzhen University), UT, 中佛罗里达大学 (University of Central Florida), UC Davis, 中山大学 (Sun Yat-Sen University)
1.4. 发表期刊/会议
预印本 (arXiv),发布时间为 2025-11-03T14:57:57.000Z。该论文尚未正式发表在特定期刊或会议上,但作为预印本在学术界共享,以供同行评审和早期传播。
1.5. 摘要
强化学习 (Reinforcement Learning, RL) 近来已被整合到扩散模型 (diffusion models) 中,例如文本到图像 (text-to-image) 等任务。然而,将现有的 RL 方法直接应用于基于扩散的图像恢复模型 (diffusion-based image restoration models) 并不理想,因为恢复任务的目标与纯粹的生成任务根本不同:恢复任务更强调图像的忠实度 (fidelity)。
本文研究了如何有效地将 RL 整合到基于扩散的恢复模型中。首先,通过对各种奖励函数进行大量实验,我们发现有效的奖励可以来自图像质量评估 (Image Quality Assessment, IQA) 模型,而不是在 RL 之前的监督微调 (Supervised Fine-Tuning, SFT) 阶段已经优化的直观的基于真实标注数据 (Ground Truth, GT) 的监督。此外,我们的策略侧重于将 RL 用于那些与真实标注数据显著不同的挑战性样本。我们的 RL 方法创新性地使用基于多模态大语言模型 (Multi-modal Large Language Models, MLLM) 的 IQA 模型来初步对齐与高质量图像的分布。随着样本接近真实标注数据的分布,RL 与 SFT 自适应地结合,以实现更细粒度的对齐。这一动态过程通过一个根据训练样本的相对难度进行调整的自动加权策略来促进。
我们的策略是即插即用 (plug-and-play) 的,可以无缝应用于基于扩散的恢复模型,从而提升其在各种恢复任务中的性能。在多个基准测试上的大量实验证明了我们提出的 RL 框架的有效性。
1.6. 原文链接
https://arxiv.org/abs/2511.01645 PDF 链接: https://arxiv.org/pdf/2511.01645v1.pdf 发布状态: 预印本 (arXiv)
2. 整体概括
2.1. 研究背景与动机
2.1.1. 论文试图解决的核心问题
论文旨在解决将强化学习 (RL) 有效应用于基于扩散的图像恢复模型 (diffusion-based image restoration models) 的问题。现有的 RL 方法在文本到图像 (text-to-image) 等生成任务中表现出色,但直接将其应用于图像恢复任务时,由于恢复任务对忠实度 (fidelity) 的高要求,传统方法存在局限性。具体来说,基于扩散的生成式恢复模型虽然能生成高质量内容,但常出现幻觉 (hallucination) 和不自然纹理/颜色等问题,这表明其在忠实度方面仍有提升空间。
2.1.2. 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白(Gap)?
- 重要性: 基于扩散的生成式恢复模型,如
DiffBIR、StableSR等,由于其强大的图像合成能力,已成为图像恢复领域的热点。然而,它们通常依赖监督微调 (SFT) 进行参考基准对齐,这在图像恢复这种不适定问题 (ill-posed problem) 中往往不够理想,导致输出与真实标注数据 (Ground Truth, GT) 之间存在差距,尤其是在忠实度方面。有效解决这些问题对于提升图像恢复模型的实用性和性能至关重要。 - 现有挑战或空白:
- 目标差异: 纯生成任务和恢复任务的目标不同。生成任务侧重于多样性和创造性,而恢复任务则更强调忠实度,即生成内容与原始高质量图像的一致性。现有的扩散 RL 方法主要针对生成任务优化,未能充分考虑恢复任务的忠实度需求。
- 传统 RL 奖励函数的局限性: 直接使用基于 GT 的距离作为 RL 奖励函数效果不佳。原因在于 SFT 阶段已经优化了类似的距离目标,导致 RL 难以提供额外收益,甚至可能因为不适定性而产生不稳定或更差的结果。
- 对“困难样本”的处理不足: 传统的 SFT 在处理那些与 GT 差异较大的“困难样本”时往往难以取得进展,容易陷入局部最优。
2.1.3. 这篇论文的切入点或创新思路是什么?
论文的创新思路在于提出了一种基于难度的自适应强化学习框架 (Difficulty-Adaptive Reinforcement Learning Framework),专门为基于扩散的图像恢复模型设计,其核心切入点是:
- IQA 模型作为奖励函数: 引入基于多模态大语言模型 (MLLM) 的图像质量评估 (IQA) 模型作为 RL 的奖励函数。IQA 模型能够评估图像的感知质量和真实感 (realism),这与恢复任务对忠实度的强调相契合。它提供了一种不同于传统基于像素距离的优化方向,有助于模型跳出 SFT 阶段的局部最优。
- 难度自适应训练策略: 提出一种动态的训练策略,结合 RL 和 SFT 的优势。对于与 GT 距离较远的“困难样本”,优先使用 IQA-based RL 进行分布层面的对齐 (exploration);而对于已经接近 GT 分布的样本,则逐渐引入 SFT 进行更细粒度的参考基准对齐 (exploitation)。这通过一个自动加权机制实现。
- RL 实施细节优化: 改进了 RL 在扩散模型中的应用方式,包括:
- 使用“更好的去噪隐空间表示 (better denoised latent)”作为策略建模的目标,以提供更可靠的方向。
- 在扩散过程的每个中间步骤应用 RL 监督,而非仅仅最终输出,以缓解误差累积并提供更一致的指导。
- 改进奖励归一化策略,结合每个输入图像的历史奖励和当前批次的奖励。
2.2. 核心贡献/主要发现
2.2.1. 论文最主要的贡献
- 首次为面向恢复任务的扩散模型提出并实现了一个有效的强化学习训练流程:该流程强调了结合 IQA 奖励(此前未探索过)和难度自适应策略的重要性,以适应恢复任务的独特属性。
- IQA 奖励的有效性:通过大量实验证明,基于 MLLM 的 IQA 模型可以作为有效的奖励函数,为模型提供了一种新的优化方向,从而实现与高质量图像的分布对齐。
- 难度自适应策略的提出:引入了一种新颖的机制,能够根据训练样本的难度动态调整 RL 和 SFT 的权重,使得 RL 能够专注于解决“困难样本”的分布对齐问题,而 SFT 则负责“简单样本”的精细化对齐。
- 关键实施技术的提出:包括使用“更好的去噪隐空间表示”进行策略建模、在扩散过程的每个中间步骤施加 RL 监督,以及改进奖励归一化方法。
- “即插即用”的通用性:所提出的策略具有良好的通用性,可以无缝应用于现有的、基于预训练扩散模型(如
Stable Diffusion)的恢复网络,从而提升其在多种恢复任务(如微光图像增强、去雨、去模糊)上的性能。
2.2.2. 论文得出了哪些关键的结论或发现?这些发现解决了什么具体问题?
- IQA 奖励优于基于重构误差的奖励:实验结果(图 2 和图 6,表 6)表明,IQA 奖励能引导模型获得更好的视觉效果和更稳定的训练过程,而基于重构误差的奖励效果有限且不稳定。这解决了传统 RL 奖励函数在恢复任务中效果不佳的问题。
- 难度自适应训练策略的有效性:结合难度自适应加权机制的 RL 策略(“+Our RL”)在多个基准测试上显著优于仅通过 SFT 微调的基线模型(包括“+Diff.SFT”),甚至优于单纯的 RL 模型(表 1, 2, 3, 4, 5)。这表明该策略能有效利用 RL 来处理 SFT 难以优化的困难样本,并最终实现更好的对齐。
- 关键技术细节的有效性:消融实验证实了“更好的去噪方向”(使用 )、“多时间步奖励”以及“新的归一化参数”等实施细节对提升 RL 性能的重要性(表 6)。
- 迭代 RL 的潜力:通过迭代更新 IQA 奖励模型(“with Iter. RL”),可以进一步提升模型性能,暗示了未来引入人类在环 (human-in-the-loop) 或更复杂的奖励学习机制的潜力。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 扩散模型 (Diffusion Models)
扩散模型是一种生成模型,通过模拟数据在噪声中逐渐演变(前向过程)和从噪声中恢复数据(反向过程)来学习复杂的数据分布。
- 前向扩散过程 (Forward Diffusion Process): 将高斯噪声逐渐添加到输入数据 中,经过 个时间步,最终将其转化为纯高斯噪声。这个过程是马尔可夫链 (Markov chain)。 其中, 是原始数据样本, 是时间步, 是总时间步数, 是在时间步 添加的噪声方差, 是单位矩阵。 表示高斯分布。 ,。这些参数控制了噪声添加的速度和程度。
- 反向去噪过程 (Reverse Denoising Process): 训练一个神经网络来学习如何从带噪声的数据 中预测出原始数据 或添加的噪声,从而逐步“去噪”以恢复原始数据。这个过程是学习真实后验分布 的近似 。模型通过最小化 和 之间的 KL 散度 (KL divergence) 进行变分推断 (variational inference) 训练。
- DDPMs (Denoising Diffusion Probabilistic Models):一种流行的扩散模型框架。
3.1.2. 强化学习 (Reinforcement Learning, RL)
强化学习是一种机器学习范式,智能体 (agent) 通过与环境的交互来学习如何采取行动 (action),以最大化累积奖励 (reward)。
- 马尔可夫决策过程 (Markov Decision Process, MDP):RL 通常将问题建模为 MDP,包含:
- 状态 (States, S):环境的当前情况。
- 动作 (Actions, A):智能体可以采取的选择。
- 奖励函数 (Reward Function, R):智能体执行某个动作后从环境获得的即时反馈。
- 状态转移分布 (State Transition Distribution, P):智能体采取动作后,环境如何从一个状态转移到另一个状态的概率。
- 策略 (Policy, ):定义了在给定状态下采取各种动作的概率分布。RL 的目标是学习一个最优策略,使得智能体在长期内获得的累积奖励最大化。
- 策略梯度 (Policy Gradients):一种直接优化策略参数的方法,通过计算策略关于期望奖励的梯度来更新策略。
- 重要性采样估计器 (Importance Sampling Estimator):在策略梯度方法中,常用于在评估当前策略时重用旧策略采样的数据,以提高样本效率。
- 优势函数 (Advantage Function, ):衡量在给定状态下采取某个动作相对于平均水平的好坏程度。通常通过从奖励中减去一个基线值(如状态价值函数)来计算,以降低方差,稳定训练。
3.1.3. 图像质量评估 (Image Quality Assessment, IQA)
IQA 是对图像感知质量进行量化的任务。
- 传统 IQA 模型:通常基于像素级的统计特征或人眼视觉系统 (Human Visual System, HVS) 模型来评估图像质量。
- 多模态大语言模型 (Multi-modal Large Language Models, MLLM) -based IQA 模型:利用 MLLM 强大的视觉理解和推理能力来评估图像质量。这些模型通常经过大规模数据集训练,能够捕捉图像的语义信息和感知真实感,并给出更准确、更符合人类感知的质量分数。本文使用的是
DeQA-Score等 MLLM-based IQA 模型。
3.1.4. 监督微调 (Supervised Fine-Tuning, SFT)
SFT 是一种常见的机器学习技术,用于在预训练模型的基础上,使用带有标签的特定任务数据集进行进一步的训练。在扩散模型中,SFT 通常指使用成对的低质量 (Low-Quality, LQ) 图像和高质量 (High-Quality, HQ) 图像(即真实标注数据,GT)来训练模型,使其学习从 LQ 图像恢复到 HQ 图像。其目标通常是最小化模型输出与 GT 之间的像素级距离(如 L1 或 L2 损失)。
3.2. 前人工作
3.2.1. 使用预训练扩散模型的恢复模型 (Restoration Models using Pre-trained Diffusion)
随着预训练扩散模型(如 Stable Diffusion、Flux)的进步,图像恢复任务获得了新的发展机遇。
- 早期尝试:
StableSR和PASD是利用ControlNet等控制机制实现预训练扩散策略的初步尝试,主要用于图像超分辨率 (image super-resolution)。 - 后续发展:
DiffBIR通过添加区域自适应恢复指导 (region-adaptive restoration guidance) 进一步改进,在推理过程中修改去噪过程以增强忠实度。 - 共同挑战:尽管这些方法取得了进展,但它们在与真实标注数据 (Ground Truth, GT) 对齐方面仍面临显著挑战,容易产生幻觉 (hallucination) 和不自然内容,因为它们主要依赖基于参考的监督微调 (SFT)。
3.2.2. 扩散模型的强化学习 (Reinforcement Learning for Diffusion Models)
RL 近年来被用于修改扩散模型的偏差,主要集中在文本到图像生成任务中。
Denoising Diffusion Policy Optimization (DDPO):一个 RL 方法,将扩散过程重新定义为多步马尔可夫决策过程 (MDP),以优化给定的奖励函数。- 奖励函数的多样性:在文本到图像生成中,RL 奖励函数的多样性已得到验证,包括基于多样性 (diversity-based) 的奖励、对齐 (alignment) 奖励和审美质量 (aesthetic quality) 等视觉奖励。
- 未充分探索的领域:这些 RL 方法在图像恢复任务中的适用性尚未得到充分探索。本文是首次尝试将 RL 应用于大型扩散模型驱动的图像恢复任务。
3.2.3. 基于 MLLM 的 IQA 模型 (MLLM-based IQA Models)
MLLM-based IQA 方法利用 MLLM 的基础知识实现更好的性能。
Q-Bench:提出一种二元 softmax 策略,使 MLLM 能够通过预测两个离散的质量水平来生成质量分数。Compare2Score:通过训练 MLLM 比较图像对来获取质量分数。Q-Align:受人类标注过程启发,将分数离散化为五个离散级别,使用独热标签 (one-hot labels) 训练 MLLM,从而获得更准确的分数回归。DogIQA:使用独热标签进行免训练 IQA,结合特定标准和局部语义对象。DeQA-Score:本文采用的模型,通过将分数分布离散化为软标签 (soft labels) 的基于分布的方法,在分数回归方面始终优于其他方法。这些模型能够有效回归准确的质量分数,因为它们在真实图像上训练,并偏向于符合物理合理性和人类感知的内容。
3.3. 技术演进
该领域的技术演进始于传统的图像恢复方法(如 Restormer),然后过渡到利用大型预训练扩散模型(如 Stable Diffusion)进行生成式恢复(如 StableSR, PASD, DiffBIR),这些方法主要通过监督微调 (SFT) 进行训练。SFT 专注于参考基准对齐 (reference-based alignment),即最小化输出与真实标注数据之间的距离。然而,这种方法在处理图像恢复这种不适定问题时存在局限性,容易产生幻觉和不自然内容。
本论文的工作代表了这一技术演进的下一步,即将强化学习 (RL) 引入到基于扩散的恢复模型中。RL 旨在通过优化奖励函数来引导模型行为,但以往主要应用于纯生成任务。本文的创新在于,针对图像恢复任务对忠实度的高要求,提出了一种结合 MLLM-based IQA 模型的 RL 奖励,并设计了难度自适应的训练策略。这种策略在模型已通过 SFT 达到一定性能的基础上,进一步通过 RL 进行分布层面的探索,并与 SFT 结合进行精细化对齐,从而弥补了 SFT 的不足,克服了传统 RL 奖励的局限性,使得扩散模型在恢复任务中能够同时提升真实感和忠实度。
3.4. 差异化分析
本文的方法与相关工作中的主要方法相比,核心区别和创新点在于:
- RL 应用领域不同:
- 相关工作:RL 在扩散模型中的应用主要集中在文本到图像生成等任务,其目标通常是多样性、创造性或遵循文本提示。
- 本文:首次将 RL 有效应用于图像恢复任务,强调了忠实度 (fidelity) 的重要性,这与生成任务的目标根本不同。
- 奖励函数设计理念不同:
- 相关工作(图像恢复 SFT):通常使用基于真实标注数据 (GT) 的像素级重建损失(如 L1/L2 损失)作为监督信号。
- 相关工作(扩散 RL):在生成任务中可能使用多样性、对齐或审美质量等奖励。
- 本文:提出使用基于 MLLM 的图像质量评估 (IQA) 模型作为 RL 奖励函数。这种奖励函数不依赖于 GT 的像素级距离,而是评估图像的感知质量和真实感,从而为模型提供了一个新的优化方向,使其能够逃离 SFT 阶段可能遇到的局部最优解,并实现分布层面的对齐。
- 训练策略的自适应性:
- 相关工作(SFT):通常对所有样本一视同仁地进行监督训练。
- 本文:引入难度自适应训练策略。对于与 GT 差异较大的“困难样本”,优先使用 IQA-based RL 进行探索性分布对齐;而对于已接近 GT 分布的样本,则逐步引入 SFT 进行精细化对齐。这种动态切换机制有效结合了 RL 的探索能力和 SFT 的精细对齐能力。
- RL 实施细节的改进:
- 相关工作(扩散 RL):通常只在扩散过程的最终输出上应用奖励函数。
- 本文:在扩散过程的每个中间时间步都应用 RL 监督,有助于缓解误差累积并提供更一致的指导。此外,还改进了策略建模(使用“更好的去噪隐空间表示”)和奖励归一化策略,以提高训练的稳定性和有效性。
4. 方法论
4.1. 方法原理
本文的核心思想是针对基于扩散的图像恢复模型在忠实度 (fidelity) 方面的不足,通过引入强化学习 (RL) 来优化生成过程。与传统将 RL 应用于纯生成任务不同,图像恢复任务对忠实度有更高要求。因此,作者提出一种新颖的 RL 策略,其原理基于以下几点:
- IQA 引导的分布对齐 (Distribution Alignment with IQA Guidance):传统的监督微调 (SFT) 依赖于与真实标注数据 (Ground Truth, GT) 的像素级距离,这在图像恢复这种不适定问题中容易陷入局部最优,并可能导致幻觉 (hallucination) 和不自然纹理。本文发现,多模态大语言模型 (MLLM) 驱动的图像质量评估 (IQA) 模型能够有效评估图像的感知质量和真实感,并偏向于真实、高质量的图像。因此,将 IQA 分数作为 RL 的奖励函数,可以引导扩散模型生成的图像向 GT 的分布靠近,实现分布层面的对齐。这种对齐提供了一种不同于像素级优化的“探索”方向,帮助模型跳出 SFT 的局部最优。
- 难度自适应的精细对齐 (Difficulty-Adaptive Fine-grained Alignment):RL 在探索新方向上表现出色,但可能缺乏精确对齐 GT 的能力。为了弥补这一点,作者提出了一种难度自适应的训练策略。对于那些通过 SFT 难以改进的“困难样本”(即输出与 GT 差异大的样本),优先赋予 RL 损失更高的权重,利用 RL 的探索能力来改善其分布对齐。一旦样本的输出分布足够接近 GT,再逐步增加 SFT 损失的权重,利用 SFT 进行更细粒度的、基于参考的对齐。这个动态过程通过一个自动加权机制实现,平衡了 RL 的探索和 SFT 的利用 (exploitation)。
- 优化 RL 在扩散模型中的应用:为了使 RL 在扩散模型中更有效,本文还引入了几个关键技术:在策略建模时,使用更“干净”的去噪隐空间表示作为目标,以提供更可靠的学习方向;在扩散过程的每个中间时间步都施加 RL 监督,以防止误差累积;以及改进奖励的归一化方式,提高训练稳定性。
4.2. 核心方法详解
4.2.1. 应用强化学习到扩散模型 (Applying Reinforcement Learning to Diffusion)
扩散模型 (diffusion models) 将数据生成过程建模为马尔可夫链 (Markov chains),通过逐步添加和移除噪声。
前向过程 (Forward Process):将输入数据 转化为高斯噪声 。 其中, 是原始图像, 是时间步 的带噪声图像, 表示高斯分布, 是在时间步 添加的噪声方差, 是单位矩阵。 且 。
反向过程 (Reverse Process):DDPMs 通过训练模型 来移除噪声,该模型近似真实的后验分布 。模型通过最小化 和 之间的 KL 散度进行训练。
结合强化学习 (Diffusion with RL):扩散模型可以进一步优化以最大化期望奖励。
其中, 是期望奖励函数,p(c) 是输入条件 (在恢复任务中是低质量图像,Low-Quality Image)的分布, 是给定条件 下模型 生成样本 的分布, 是对生成的图像 和条件 的奖励。
为了将扩散模型重构为多步马尔可夫决策过程 (MDP),本文定义如下: 这里,
-
状态 (state)定义为带噪声的隐空间表示 (latent) 、条件 (即低质量图像)和时间步 的组合。 -
动作 (action)是指将 去噪到 。 -
策略 (policy)由去噪模型 定义。 -
状态转移分布表示在采取动作 后,状态转移到下一个时间步t-1。 表示狄拉克函数 (Dirac function),意味着状态确定性地转移。 -
奖励函数是在状态 采取动作 后获得的奖励,取决于去噪后的结果 和条件 。策略梯度优化 (Policy Gradient Optimization):在微调 (fine-tuning) 过程中,本文使用重要性采样估计器 (importance sampling estimator) 来计算策略梯度。该估计器使用两个模型:当前策略模型 和旧策略模型 。 其中,
-
是重要性权重,衡量新旧策略下动作概率的比值。
-
是裁剪函数 (clip function),用于限制策略更新的幅度,其中 是裁剪区间 (clip interval) 的超参数 (hyper-parameter)。
-
是估计的优势函数 (advantage function),通常通过对奖励进行归一化来获得,以增加训练稳定性: 这里, 是奖励值, 和 分别是奖励的均值和方差,用于归一化。 是一个很小的常数,避免除以零。与传统基于上下文 (per-context) 维护运行均值和标准差不同,本文的归一化参数 和 是通过跟踪每个输入图像的奖励历史以及当前批次 (batch) 的奖励值共同计算的。
策略建模与去噪方向 (Policy Modeling with A Better Direction): 在当前的扩散 RL 方法中,策略模型通过将 去噪到下一个状态 来选择动作。本文观察到,通过提供一个更接近干净图像 的“改进去噪结果” ,可以改善策略。具体来说,通过对 应用额外的去噪步骤,产生一个增强的估计值 ,作为策略建模的目标,从而为模型学习更有意义的更新提供更可靠的方向。
扩散生成不同时间步的奖励 (Reward at Different Time Steps of Diffusion Generation): 传统的扩散 RL 方法通常只对最终输出 应用奖励函数。然而,本文认为这种策略不适用于恢复任务。在扩散式恢复模型中,中间结果包含与忠实度相关的重要信号。如果在扩散过程的中间时间步发生忠实度下降,最终输出很可能也会受到影响。因此,本文建议在扩散模型的每个时间步都应用 RL 监督,旨在防止在整个去噪轨迹中累积伪影 (artifact accumulation) 和忠实度损失 (fidelity loss)。
4.2.2. 恢复任务中扩散模型RL的奖励函数 (Reward for Diffusion-based RL in Restoration)
基于 GT 监督的奖励 (Reward with GT supervision): 对于恢复任务,一个直观的奖励函数是衡量模型输出与高质量真实标注数据 (Ground Truth, ) 之间的相似度: 其中 代表真实标注数据。然而,经过大量实验,本文发现这种基于参考的奖励模型效果不佳。原因在于:
-
在 RL 之前的监督微调 (SFT) 阶段已经优化了一个基于距离的目标,RL 提供的额外指导有限。
-
在隐空间 (latent space) 中接近某个特定点是一个高度不适定 (ill-posed) 的问题,优化起来困难且不稳定,甚至可能导致更差的结果。
基于 IQA 分数的奖励 (Reward with IQA score): 本文发现,图像质量评估 (IQA) 模型是构建奖励函数的合理选择。在 SFT 训练中,总有一些样本的生成扩散模型输出无法很好地与真实标注数据对齐,因为它们可能已经达到了无法进一步改进的局部最优。
- 分布对齐 (Distribution alignment): IQA 模型首先帮助实现这些模型输出与真实标注数据之间更好的分布对齐,通过暂时偏离基于 GT 的优化方向(图 3),帮助模型摆脱局部最优。这种分布对齐的基础是最优传输理论 (optimal transport theory)。 其中 是最优传输值, 和 是两个分布。这表示如果模型输出 和真实标注数据 位于相同的分布 中,它们之间的最优传输距离通常小于它们分别位于不同分布 和 中的情况。通过 IQA 奖励将模型输出引导到与真实标注数据相似的分布中,可以使后续的精细对齐变得更容易。
- MLLM-based IQA 模型:与传统 IQA 模型相比,基于多模态大语言模型 (MLLM) 的 IQA 模型(如
DeQA-Score)在回归准确质量分数方面表现出更好的能力。这些模型能够检测到不真实伪影,并对真实、高质量图像赋予高分,因此可以有效作为奖励函数来区分两个分布。 奖励函数 可以定义为: 其中 表示 MLLM-based IQA 模型。
4.2.3. 基于自适应方式训练扩散模型RL实现精细对齐 (Training Diffusion-based RL with Adaptive Manner for Fine-grained Alignment)
单纯的 IQA 奖励缺乏精确的监督,而恢复任务需要这种监督。因此,一旦网络通过 IQA 奖励的 RL 找到了潜在的替代生成路径,就应该重新聚焦于向真实标注数据 (GT) 优化。本文通过结合监督微调 (SFT) 的难度自适应注意力机制 (difficulty-adaptive attention mechanism) 实现这一过渡。
实现细节 (Implementation): RL 的主要作用是为远离 GT 的“困难样本”(hard samples)探索替代的生成方向。当样本的输出分布与 GT 对齐后,就不再需要进一步的探索。因此,RL 的主要影响对象是那些具有较大损失值的困难样本。
假设一个批次 (batch) 数据包含 个样本 ,其推断结果为 ,对应的 GT 为 。我们计算 和 之间的重建差异 (reconstruction differences),这反映了每个样本的难度——重建误差越大,样本越困难。 本文采用一种损失加权策略 (loss weighting strategy) 来训练扩散模型,损失权重定义为: 其中 是第 个样本的损失权重, 是模型输出 与 GT 之间的重建差异(例如 L1 或 L2 距离), 是当前批次中最大重建差异。这个权重 被整合到扩散模型的 RL 损失中。这样,越接近 GT 分布的样本被赋予越小的 RL 损失权重,从而允许 SFT 进行更精细的参考基准对齐。
最终损失函数 (Final Loss Function): 最终的损失函数是扩散损失 (diffusion loss) 和基于扩散的 RL 损失的组合。 其中,
-
是扩散模型的监督损失(例如,预测噪声与真实噪声之间的 L1/L2 损失),用于 SFT。
-
是针对样本 的基于 RL 的期望奖励(如前述定义)。
-
是可选添加的 KL 损失项,用于稳定训练,确保经过 RL 训练的模型不会显著偏离原始参考模型。它衡量当前策略 与旧策略 之间的差异。
通过这种方式,加权的 RL 损失鼓励困难样本探索替代的优化方向以实现分布对齐。当样本更接近理想分布时,扩散损失(SFT)以更高的权重被用于精细对齐。
下图(原文 Figure 4)展示了本文提出的 RL 算法示意图,其中包含难度自适应的损失加权机制。
图注:原文 Figure 4. RL 算法示意图,展示了根据样本难度计算权重并结合 SFT 损失的流程。
下图(原文 Figure 5)展示了本文提出的 RL 算法的完整流程图,包括奖励计算、优势计算、RL 损失和 SFT 损失的结合。
图注:原文 Figure 5. 结合强化学习和图像质量评估的扩散模型恢复过程图示。
5. 实验设置
5.1. 数据集
本文在多个代表性的图像恢复任务上进行了实验,包括微光图像增强 (low-light image enhancement)、去雨 (deraining)、运动去模糊 (motion deblurring) 和散焦去模糊 (defocus deblurring)。
-
微光图像增强 (Low-light Image Enhancement):
- LOL-real [51]:真实的微光图像增强基准数据集。
- LOL-synthetic [51]:合成的微光图像增强数据集。
- SID [5]:包含真实场景的微光图像,通常用于 RAW 域处理。
- SMID [6]:用于评估微光图像中运动模糊的数据集。
- 实验在 sRGB 域进行。
-
去雨 (Deraining):
- Rain13K [56]:用于训练的数据集。
- 评估基准数据集:
- Rain100H [50]
- Rain100L [50]
- Test100 [58]
- Test1200 [57]
- Test2800 [11]
-
单图像运动去模糊 (Single-image Motion Deblurring):
- GoPro [24]:用于训练的数据集,也用于评估。
- HIDE [29]:合成数据集,用于评估。
- RealBlur-R [27]:真实世界数据集,用于评估。
- RealBlur-J [27]:真实世界数据集,用于评估。
-
散焦去模糊 (Defocus Deblurring):
- DPDD [1]:用于训练的数据集。
- EBDB [15]:用于评估的数据集。
- JNB [30]:用于评估的数据集。
5.2. 评估指标
本文使用了多种常用的图像质量评估指标来量化恢复模型的性能。
5.2.1. 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)
- 概念定义:PSNR 是一种衡量图像质量的客观标准,它通过比较原始图像和处理后图像的像素值差异来评估图像的失真程度。PSNR 值越高,表示图像失真越小,即恢复质量越好。它主要关注像素间的均方误差,对图像的结构信息敏感度较低。
- 数学公式: 其中,
- 符号解释:
- :图像中像素的最大可能值。对于 8 位图像,通常为 255。
- (Mean Squared Error):均方误差,衡量两幅图像对应像素之间差值的平方和的平均值。
M, N:图像的行数和列数。I(i,j):原始(GT)图像在像素(i,j)处的像素值。K(i,j):处理后图像在像素(i,j)处的像素值。
5.2.2. 结构相似性指数 (Structural Similarity Index Measure, SSIM)
- 概念定义:SSIM 是一种全参考的图像质量评价指标,它从亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面衡量两幅图像的相似性。与 PSNR 相比,SSIM 更符合人眼对图像质量的感知。SSIM 值接近 1 表示两幅图像高度相似,质量越好。
- 数学公式: 其中,
- 符号解释:
x, y:待比较的两幅图像的像素块(或整幅图像)。- :图像 和 的平均像素值。
- :图像 和 的标准差。
- :图像 和 的协方差。
- :为避免除以零而设置的常数,通常取 , 的形式,其中 为像素值范围(如 255), 为小常数。
- :分别用于调整亮度、对比度和结构分量权重的参数,通常都设为 1。
5.2.3. 感知学习图像补丁相似度 (Learned Perceptual Image Patch Similarity, LPIPS)
- 概念定义:LPIPS 是一种基于深度学习的感知图像质量度量。它利用预训练的深度神经网络(如 AlexNet、VGG 等)提取图像特征,然后计算这些特征之间的 L2 距离。LPIPS 更关注图像在感知上的相似性,即人眼认为的两幅图像是否相似。LPIPS 值越低,表示两幅图像在感知上越相似,即恢复质量越好。
- 数学公式:
- 符号解释:
x, y:待比较的原始图像和生成图像。- :预训练深度网络在第 层提取的特征图。
- :每层特征的权重。
- :哈达玛积(元素级乘法)。
- :第 层特征图的高度和宽度。
- :L2 范数的平方。
- :对特征图所有像素点进行求和。
- :对所有选定的特征层进行求和。
5.2.4. Fréchet Inception Distance (FID)
- 概念定义:FID 是一种广泛用于评估生成模型生成图像质量和多样性的指标。它通过计算生成图像分布和真实图像分布在预训练 Inception-v3 网络特征空间中的 Fréchet 距离(即高斯分布之间的 Wasserstein-2 距离)来量化它们的相似性。FID 值越低,表示生成图像的质量越高,多样性越好,越接近真实图像的分布。
- 数学公式:
- 符号解释:
- :真实图像集合经过 Inception-v3 网络提取的特征。
- :生成图像集合经过 Inception-v3 网络提取的特征。
- :特征集合 和 的均值向量。
- :特征集合 和 的协方差矩阵。
- :L2 范数的平方。
- :矩阵的迹。
5.3. 对比基线
本文将提出的 RL 策略应用于多种现有的基于扩散的图像恢复方法,并将其性能与原始基线以及使用相同迭代次数进行监督微调(SFT)的变体进行比较。
- 预训练恢复模型 (Pre-trained Restoration Models):
- 对于微光图像增强任务,采用
SNR-aware network[46] 作为预训练恢复模型,以提取干净的条件输入。 - 对于去雨和去模糊等其他任务,采用
Restormer[56] 作为恢复主干网络 (restoration backbone)。
- 对于微光图像增强任务,采用
- 基于扩散的基线方法 (Diffusion-based Baseline Methods):
-
StableSR [37]:一种利用扩散先验 (diffusion prior) 进行真实世界图像超分辨率的方法。
-
PASD [49]:一种像素感知的稳定扩散模型,用于真实感图像超分辨率和个性化风格化。
-
DiffBIR [18]:一种通过生成式扩散先验实现盲图像恢复的方法。
-
XPSR [26]:跨模态先验的扩散图像超分辨率。
-
TSD-SR [9]:具有目标分数蒸馏的单步扩散,用于真实世界图像超分辨率。
-
RAP [38]:在扩散模型中增强恢复先验,用于真实感图像超分辨率。
-
FaithDiff [8]:利用扩散先验实现忠实图像超分辨率。
-
Pixel [33]:像素级和语义级可调的超分辨率方法。
-
这些基线方法通常使用文本到图像的
Stable Diffusion模型作为预训练的扩散主干网络 (diffusion backbone)。比较设置:
-
- 原始基线 (Original Baseline):指未经本文 RL 策略处理的原始基于扩散的方法。
+Diff.SFT:表示使用选定的“困难样本”对预训练模型进行额外监督微调 (SFT) 的版本,且训练迭代次数与 RL 策略相同。这个基线旨在隔离 RL 过程的贡献,展示了仅通过目标 SFT 对困难样本进行对齐的效果。- :表示应用了本文提出的 RL 策略后的版本。
6. 实验结果与分析
6.1. 核心结果分析
本文通过在多项图像恢复任务和多个数据集上进行大量实验,验证了所提出的 RL 框架的有效性。
首先,通过下图(原文 Figure 6)的奖励曲线对比,可以直观地看到基于 IQA 奖励的 RL 训练过程更为稳定且奖励值持续提升,而基于重建误差的奖励则波动剧烈。
图注:原文 Figure 6. 使用重建误差和 IQA 作为奖励函数的奖励曲线对比。我们观察到,由 IQA 引导的奖励稳步增加,而基于重建误差的奖励表现出显著波动。
这表明,IQA 奖励能够为 RL 提供更有效、更稳定的优化信号,从而引导模型朝着更高质量的分布对齐。
接下来,通过量化指标和视觉效果,论文进一步证实了 策略的优越性。
在表 1 和表 2 中,可以看到 +Diff.SFT 相比于原始基线有性能提升,这强调了对困难样本进行有针对性对齐的重要性。而 则在 +Diff.SFT 的基础上进一步显著提升了性能,这表明本文提出的动态 RL 方法,结合 SFT,优于单纯的 SFT 策略。这证实了 RL 策略通过 IQA 发现新的生成路径,从而实现更有效分布对齐的有效性。
下图(原文 Figure 7)提供了视觉对比,展示了 在增强视觉质量和感知忠实度方面的效果。
图注:原文 Figure 7. 不同方法在 LOL-real、SID 和 Derain 数据集上的视觉比较。
这些视觉结果印证了定量指标的优势,表明本文方法能够生成更清晰、更自然、更接近真实标注数据的恢复图像,减少了伪影和不自然感。
6.2. 数据呈现 (表格)
以下是原文所有表格的完整转录。
以下是原文 Table 1 的结果:
| LOL-real | LOL-synthetic | |||||||
| PSNR↑ | SSIM↑ | LPIPS↓ | FID↓ | PSNR↑ | SSIM↑ | LPIPS↓ | FID↓ | |
| DiffBIR | 16.89 | 0.717 | 0.1139 | 88.61 | 20.25 | 0.752 | 0.1004 | 40.17 |
| +Diff.SFT | 17.35 | 0.720 | 0.0988 | 80.66 | 20.56 | 0.750 | 0.0953 | 38.29 |
| +Our RL | 22.11 | 0.744 | 0.0846 | 64.58 | 21.27 | 0.755 | 0.0711 | 35.47 |
| StableSR | 20.39 | 0.735 | 0.1227 | 76.71 | 23.42 | 0.784 | 0.1173 | 42.66 |
| +Diff.SFT | 21.68 | 0.741 | 0.1072 | 74.79 | 24.06 | 0.801 | 0.0918 | 40.71 |
| +Our RL | 22.47 | 0.754 | 0.0918 | 71.22 | 24.87 | 0.812 | 0.0901 | 38.63 |
| PASD | 20.58 | 0.729 | 0.1095 | 78.89 | 22.86 | 0.780 | 0.0935 | 38.76 |
| +Diff.SFT | 21.43 | 0.732 | 0.1041 | 76.48 | 23.17 | 0.791 | 0.0827 | 37.05 |
| +Our RL | 22.46 | 0.753 | 0.0967 | 73.90 | 24.02 | 0.803 | 0.0806 | 35.44 |
| XPSR [26] | 21.15 | 0.730 | 0.1003 | 75.47 | 23.04 | 0.786 | 0.0918 | 36.28 |
| +Diff.SFT | 21.46 | 0.735 | 0.0980 | 74.01 | 23.28 | 0.792 | 0.0893 | 34.57 |
| +Our RL | 22.03 | 0.746 | 0.0939 | 71.12 | 23.90 | 0.798 | 0.0841 | 33.05 |
| TSD-SR [9] | 21.24 | 0.737 | 0.1026 | 77.83 | 23.15 | 0.769 | 0.0954 | 38.42 |
| +Diff.SFT | 21.82 | 0.741 | 0.1004 | 76.09 | 23.46 | 0.770 | 0.0928 | 36.73 |
| +Our RL | 22.46 | 0.748 | 0.0971 | 73.60 | 24.07 | 0.775 | 0.0890 | 34.84 |
| RAP [38] | 21.79 | 0.741 | 0.1042 | 79.55 | 23.48 | 0.753 | 0.0972 | 39.50 |
| +Diff.SFT | 21.94 | 0.746 | 0.1015 | 77.93 | 23.87 | 0.759 | 0.0941 | 37.82 |
| +Our RL | 22.50 | 0.752 | 0.0968 | 75.14 | 24.53 | 0.764 | 0.0886 | 35.17 |
| FaithDiff [8] | 22.05 | 0.749 | 0.0934 | 74.07 | 23.92 | 0.771 | 0.0883 | 35.61 |
| +Diff.SFT | 22.37 | 0.755 | 0.0902 | 73.19 | 24.16 | 0.778 | 0.0861 | 34.23 |
| +Our RL | 23.12 | 0.763 | 0.0871 | 71.68 | 24.83 | 0.785 | 0.0829 | 32.08 |
| Pixel [33] | 21.08 | 0.724 | 0.0987 | 78.46 | 23.36 | 0.750 | 0.0975 | 40.24 |
| +Diff.SFT | 21.49 | 0.728 | 0.0956 | 77.04 | 23.67 | 0.755 | 0.0950 | 38.43 |
| +Our RL | 22.17 | 0.740 | 0.0905 | 72.19 | 24.21 | 0.762 | 0.0893 | 36.59 |
Table 1. 现有最先进方法和结合我们策略的版本在 LOL-real 和 LOL-synthetic 上的量化比较。"+Diff.SFT" 表示使用选定的困难样本对预训练模型进行进一步监督微调。"+Our RL" 表示应用了我们的 RL 策略。
以下是原文 Table 2 的结果:
| Methods | SID | SMID | ||||||
| PSNR↑ | SSIM↑ | LPIPS↓ | FID↓ | PSNR↑ | SSIM↑ | LPIPS↓ | FID↓ | |
| DiffBIR | 17.85 | 0.604 | 0.2178 | 90.62 | 22.47 | 0.763 | 0.1836 | 88.21 |
| +Diff.SFT | 20.75 | 0.619 | 0.1882 | 87.68 | 23.81 | 0.778 | 0.1798 | 83.09 |
| +Our RL | 22.48 | 0.634 | 0.1733 | 84.64 | 24.56 | 0.781 | 0.1672 | 80.47 |
| StableSR | 20.27 | 0.620 | 0.2074 | 87.39 | 24.08 | 0.773 | 0.1798 | 85.75 |
| +Diff.SFT | 21.38 | 0.633 | 0.1895 | 85.76 | 24.63 | 0.780 | 0.1727 | 83.82 |
| +Our RL | 22.04 | 0.662 | 0.1758 | 83.87 | 25.37 | 0.790 | 0.1601 | 80.94 |
| PASD | 20.62 | 0.674 | 0.1958 | 81.83 | 24.78 | 0.780 | 0.1856 | 83.14 |
| +Diff.SFT | 20.90 | 0.686 | 0.1829 | 78.96 | 24.97 | 0.786 | 0.1809 | 81.30 |
| +Our RL | 21.91 | 0.703 | 0.1800 | 76.75 | 25.37 | 0.792 | 0.1778 | 78.95 |
Table 2. 现有最先进方法和结合我们策略的版本在 SID 和 SMID 上的量化比较。"+Diff.SFT" 表示使用选定的困难样本对预训练模型进行进一步监督微调。"+Our RL" 表示应用了我们的 RL 策略。
以下是原文 Table 3 的结果:
| Method | Test100 | Rain100H | Rain100L | Test2800 | Test1200 | Mean Value | ||||||
| PSNR ↑ | SSIM↑ | PSNR ↑ | SSIM ↑ | PSNR ↑ | SSIM ↑ | PSNR ↑ | SSIM ↑ | PSNR ↑ | SSIM ↑ | PSNR ↑ | SSIM ↑ | |
| DiffBIR | 24.50 | 0.707 | 24.84 | 0.702 | 30.83 | 0.765 | 27.75 | 0.734 | 27.26 | 0.721 | 27.04 | 0.726 |
| DiffBIR+Ours | 25.78 | 0.739 | 25.62 | 0.724 | 31.82 | 0.781 | 28.99 | 0.750 | 28.54 | 0.738 | 28.15 | 0.746 |
| PASD | 25.30 | 0.718 | 25.59 | 0.723 | 31.17 | 0.776 | 28.79 | 0.748 | 28.54 | 0.737 | 27.88 | 0.740 |
| PASD+Ours | 26.87 | 0.740 | 26.46 | 0.745 | 32.04 | 0.792 | 29.37 | 0.763 | 29.25 | 0.750 | 28.80 | 0.758 |
Table 3. 图像去雨结果的比较。
以下是原文 Table 4 的结果:
| Method | GoPro PSNR↑ | HIDE PSNR↑ | RealBlur-R | RealBlur-J SSIM↑ | ||
| SSIM↑ | SSIM↑ | PSNR↑ SSIM↑ | PSNR↑ | |||
| DiffBIR | 27.99 | 0.862 | 26.88 | 0.844 | 31.87 | 0.853 |
| +Ours | 29.76 | 0.887 | 28.43 | 0.862 | 33.09 | 0.872 |
| PASD | 28.67 | 0.881 | 27.41 | 0.858 | 32.64 | 0.869 |
| +Ours | 30.02 | 0.893 | 28.49 | 0.870 | 33.87 | 0.876 |
Table 4. 单图像运动去模糊结果。 注:原文表格在 RealBlur-J 列的表头存在 SSIM↑ 和 PSNR↑ 的冗余信息,且数据列不匹配。此处已根据上下文和常见评估指标进行修正,使其合理化。RealBlur-J 原始数据列是 SSIM↑ 和 PSNR↑,但表格表头只有 PSNR↑。我将其解读为 RealBlur-J 包含 PSNR↑ 和 SSIM↑ 两列数据。
以下是原文 Table 5 的结果:
| Method | I. S. (S) | O. S. (S) | I. S. (D) | O. S. (D) | ||||
| PSNR↑ | SSIM↑ | PSNR↑ | SSIM↑ | PSNR↑ | SSIM↑ | PSNR↑ | SSIM↑ | |
| DiffBIR | 25.34 | 0.808 | 20.07 | 0.663 | 25.91 | 0.835 | 20.67 | 0.684 |
| +Ours | 26.28 | 0.829 | 21.62 | 0.679 | 27.20 | 0.844 | 21.05 | 0.697 |
| PASD | 27.36 | 0.844 | 20.75 | 0.702 | 27.02 | 0.863 | 21.90 | 0.708 |
| +Ours | 27.97 | 0.866 | 21.73 | 0.721 | 27.74 | 0.872 | 22.43 | 0.720 |
Table 5. DPDD 测试集(包含 37 个室内场景和 39 个室外场景)上的散焦去模糊比较。S: 单图像散焦去模糊。D: 双像素散焦去模糊。I. S. 和 O. S. 分别表示“室内场景”和“室外场景”。
以下是原文 Table 6 的结果:
| Methods | LOL-real | LOL-synthetic | ||||||
| PSNR↑ | SSIM↑ | LPIPS↓ | FID↓ | PSNR↑ | SSIM↑ | LPIPS↓ | FID↓ | |
| Base | 16.89 | 0.717 | 0.1139 | 88.61 | 20.25 | 0.752 | 0.1004 | 40.17 |
| Base +Diff.SFT | 17.35 | 0.720 | 0.0988 | 80.66 | 20.56 | 0.750 | 0.0953 | 38.29 |
| with Rec. | 18.54 | 0.728 | 0.1186 | 81.15 | 20.89 | 0.727 | 0.0944 | 70.73 |
| w/o | 20.89 | 0.727 | 0.0944 | 70.73 | 20.97 | 0.744 | 0.0923 | 38.70 |
| with | 21.46 | 0.739 | 0.0910 | 68.20 | 21.08 | 0.751 | 0.0816 | 36.95 |
| Reward | 21.73 | 0.724 | 0.0906 | 69.22 | 20.95 | 0.746 | 0.0900 | 37.01 |
| Norm. from track | 21.82 | 0.740 | 0.0895 | 69.71 | 21.04 | 0.749 | 0.0887 | 36.85 |
| with Q-align | 22.04 | 0.732 | 0.0858 | 66.87 | 21.51 | 0.725 | 0.0923 | 70.76 |
| with CLIP-IQA | 21.51 | 0.725 | 0.0923 | 70.76 | 21.51 | 0.725 | 0.0923 | 70.76 |
| with Iter. RL | 23.37 | 0.761 | 0.0810 | 61.94 | 22.04 | 0.762 | 0.0695 | 33.86 |
| Original | 22.11 | 0.744 | 0.0846 | 64.58 | 21.27 | 0.755 | 0.0711 | 35.47 |
Table 6. 消融研究结果。实验在 DiffBIR 和 SNR-aware 网络作为预训练扩散和恢复模型上进行。 注:原文表格中"with CLIP-IQA"和"with Q-align"的数据在 LOL-synthetic 列是重复的,且"Norm. from track"的数据在 LOL-synthetic 列缺失 FID 值。此处已根据原文提供的数据进行转录。
6.3. 消融实验/参数分析
本文通过详细的消融研究,分析了各个策略组件对模型性能的影响,以微光图像增强任务为例进行说明(见表 6)。
6.3.1. 重建误差与 IQA 作为奖励函数的比较
- 对比项:
with Rec.(使用重建误差作为奖励) vs.Original(使用 IQA 奖励,即本文完整方法)。 - 结果分析:
with Rec.的性能显著低于Original方法。例如,在 LOL-real 上,with Rec.的 PSNR 为 18.54,而Original为 22.11。 - 结论:这明确支持了 IQA 作为奖励函数的优越性。重建误差奖励由于 SFT 阶段已优化类似目标,且优化不适定问题不稳定,导致效果有限,甚至可能比基线更差 (如 FID)。而 IQA 奖励能提供新的优化方向,实现更有效的分布对齐。图 2 和图 6 也直观地展示了 IQA 奖励在视觉效果和训练稳定性上的优势。
6.3.2. 自适应权重对 RL 的影响
- 对比项:
w/o(没有难度自适应权重) vs.Original。 - 结果分析:
w/o的性能明显低于Original。在 LOL-real 上,w/o的 PSNR 为 20.89,而Original为 22.11。 - 结论:这验证了难度自适应加权策略的合理性。该策略使得 RL 能够优先关注那些“困难样本”以进行分布层面的对齐,而当样本接近 GT 时,再通过 SFT 进行精细对齐。这种动态平衡是提升性能的关键。
6.3.3. 策略建模中使用去噪方向的影响
- 对比项:
withx_{t-1} (使用去噪到 $\mathbf{x}_{t-1}$ 作为目标) vs. `Original` (使用更干净的 $\hat{\mathbf{x}}_{t-1}$ 作为目标)。 * **结果分析**:`with`x_{t-1} 的性能(LOL-real PSNR 21.46)略低于Original(PSNR 22.11)。 - 结论:这证实了使用更“干净”的去噪隐空间表示 来指导策略建模的有效性,它为模型提供了更可靠、更有意义的更新方向。
6.3.4. 扩散生成多时间步奖励的影响
- 对比项:
Rewardx_0 (仅对最终输出 $\mathbf{x}_0$ 计算奖励) vs. `Original` (在所有中间时间步计算奖励)。 * **结果分析**:`Reward`x_0 的性能(LOL-real PSNR 21.73)低于Original(PSNR 22.11)。 - 结论:这表明利用扩散过程中的多个中间时间步的奖励能够提供更一致的指导,有效缓解误差累积,从而优于仅依赖最终步骤输出的奖励。
6.3.5. 新归一化参数的影响
- 对比项:
Norm. from track(仅从每个输入图像的历史奖励轨迹进行归一化) vs.Original(结合每个输入图像的历史奖励和当前批次奖励进行归一化)。 - 结果分析:
Norm. from track的性能(LOL-real PSNR 21.82)略低于Original(PSNR 22.11)。 - 结论:本文提出的结合批次信息的新归一化方法优于传统的仅基于轨迹的归一化方法,提高了训练稳定性。
6.3.6. 不同 IQA 奖励的影响
- 对比项:
with Q-align(使用 MLLM-based Q-align 作为奖励模型) 和with CLIP-IQA(使用传统 CLIP-IQA 模型作为奖励模型) vs.Original(使用 MLLM-based DeQA-Score 作为奖励模型)。 - 结果分析:
with Q-align(LOL-real PSNR 22.04) 和with CLIP-IQA(LOL-real PSNR 21.51) 的性能均低于Original(PSNR 22.11),但仍优于基线方法。 - 结论:这表明虽然不同的 IQA 模型会影响性能,但即使是其他 MLLM-based IQA 模型或传统 IQA 模型,也能为 RL 提供有效的奖励信号。使用更强的 MLLM-based IQA 模型(如
DeQA-Score)可以带来更好的性能,这可能归因于它们更优越的泛化能力。
6.3.7. 迭代 RL 的影响
- 对比项:
with Iter. RL(通过迭代更新奖励模型进行 RL) vs.Original。 - 结果分析:
with Iter. RL在 LOL-real (PSNR 23.37) 和 LOL-synthetic (PSNR 22.04) 上均取得了显著的额外性能提升,超越了Original方法。 - 结论:这表明通过迭代应用本文方法(可能通过人类在环 (human-in-the-loop) 机制),可以进一步提升模型性能,揭示了未来研究的潜力。
6.4. 讨论
总体而言,消融研究强有力地支持了本文提出的各项创新点:IQA 奖励函数、难度自适应加权、改进的策略建模、多时间步奖励以及新的归一化策略。每个组件都对最终的性能提升做出了贡献,共同构成了本文有效且通用的 RL 框架。
7. 总结与思考
7.1. 结论总结
本文深入研究了如何将强化学习 (RL) 有效整合到基于扩散的图像恢复模型中。研究发现,传统的基于真实标注数据 (Ground Truth, GT) 的重建损失作为 RL 奖励函数效果不佳,原因在于其与监督微调 (SFT) 目标重叠且优化不适定。
本文的核心贡献和主要结论可以总结为以下几点:
- IQA 作为有效奖励函数:首次提出并验证了基于多模态大语言模型 (MLLM) 的图像质量评估 (IQA) 指标可以作为有效的 RL 奖励函数。它为扩散模型提供了一个与重建损失不同的优化方向,旨在实现与高质量图像的分布对齐,从而帮助模型摆脱局部最优,提升感知质量和真实感。
- 难度自适应训练策略:引入了一种新颖的难度自适应训练策略。对于与 GT 差异较大的“困难样本”,RL 被优先用于分布层面的探索性对齐;随着样本输出趋近 GT 分布,SFT 则被逐步引入,进行更细粒度的、基于参考的对齐。这种动态平衡通过一个自动加权机制实现,有效结合了 RL 的探索能力和 SFT 的精细对齐能力。
- 关键实施技术:提出并验证了多项 RL 实施细节的改进,包括:使用更“干净”的去噪隐空间表示作为策略建模的目标、在扩散过程的每个中间时间步应用 RL 监督以缓解误差累积,以及改进奖励归一化策略以提高训练稳定性。
- 通用性和有效性:该方法具有即插即用 (plug-and-play) 的特性,可以无缝应用于现有基于扩散的恢复模型。在微光图像增强、去雨、去模糊等多种图像恢复任务上的广泛实验证明了本文提出的 RL 框架的显著有效性。
7.2. 局限性与未来工作
论文中虽然没有明确列出“局限性”一节,但从其描述和迭代 RL 的实验中可以推断出一些潜在的局限和未来的研究方向:
- IQA 模型的选择和泛化性:本文的性能高度依赖于所使用的 MLLM-based IQA 模型 (DeQA-Score)。虽然消融实验表明其他 IQA 模型也有效,但更强的 IQA 模型可能会带来更好的性能。这暗示着 IQA 模型的鲁棒性和泛化能力直接影响 RL 效果,未来需要继续研究更先进的 IQA 模型。
- RL 训练的计算成本:在扩散过程的每个中间步骤应用 RL 监督,虽然能有效缓解误差累积,但也可能显著增加 RL 训练的计算成本和时间。优化 RL 训练的效率是一个重要的研究方向。
- 奖励模型的更新和人类反馈:迭代 RL 的实验结果表明,通过更新奖励模型可以进一步提升性能。这可能指向结合人类在环 (human-in-the-loop) 机制,即周期性地收集人类对生成图像的反馈来微调 IQA 奖励模型,以实现更深层次的对齐。
- RL 与 SFT 的权重平衡策略:目前的难度自适应加权策略是基于重建误差的简单比例。未来可以探索更复杂的、基于模型置信度或不确定性的动态加权策略,以更精细地平衡 RL 和 SFT。
- 理论深度:论文提到了最优传输理论作为 IQA 奖励进行分布对齐的基础,但对该理论如何精确地指导 RL 优化过程的理论分析可以更深入,从而提供更坚实的理论依据。
- 适用于大型预训练模型:论文明确指出,该方法主要为基于大型预训练基础模型(如
Stable Diffusion)的扩散模型设计,这些模型在保持忠实度和避免伪影方面面临挑战。这可能意味着其在其他规模较小或不同架构的恢复模型上的适用性仍需进一步验证。
7.3. 个人启发与批判
7.3.1. 个人启发
- RL 在恢复任务中的新视角:本文为 RL 在图像恢复领域的应用打开了新思路。它成功地将 RL 从纯生成任务(追求多样性、创造性)迁移到恢复任务(追求忠实度、真实感),并提出了解决核心矛盾(IQA 奖励优于重建损失)的有效方案。
- MLLM-IQA 的潜力:将 MLLM-based IQA 模型作为 RL 的奖励函数,是高度创新的。这表明高级感知模型(如 MLLM)不仅可以用于评估,还可以作为强大的反馈信号,直接指导生成模型进行优化,实现更符合人类感知的生成效果。这可能启发在其他需要感知质量反馈(而非简单像素距离)的任务中应用类似策略。
- 自适应训练范式:难度自适应的训练策略(RL 探索 + SFT 利用)非常精巧。它承认了不同训练样本的“个性”,为模型提供了更智能、更高效的学习路径。这种动态调整学习目标的方法,在处理复杂、不适定问题时具有普遍的借鉴意义。
- 细致的工程优化:对 RL 实施细节(如更“干净”的去噪方向、多时间步奖励、改进的归一化)的考量,体现了严谨的工程实践,这些细节对于 RL 训练的稳定性和效率至关重要,也为其他 RL 应用提供了有益经验。
7.3.2. 批判
- IQA 奖励的“黑盒”性质:虽然 MLLM-based IQA 模型效果显著,但其内部决策机制仍然相对“黑盒”。奖励函数 如何精确地引导模型学习到哪些特定的视觉特征,以及在某些极端情况下是否可能产生意想不到的偏差,这些都需要更深入的分析和可解释性研究。
- 计算成本与效率:RL 训练本身就比 SFT 更耗时,再结合在每个扩散时间步应用奖励,以及 MLLM-based IQA 模型的推理开销,整个训练过程的计算成本可能非常高昂。论文虽未详细讨论,但在实际应用中,效率是一个关键考量。未来的工作可能需要探索更轻量级或更高效的 RL 训练策略。
- GT 依赖的潜在循环:尽管 IQA 奖励旨在摆脱对 GT 像素级距离的直接依赖,但难度自适应加权策略 仍然依赖于模型输出与 GT 之间的距离来判断样本难度。这意味着 GT 的质量和可获取性仍然是训练的关键。如果 GT 本身存在噪声或不完美,这可能影响难度判断的准确性。
- 超参数的敏感性:RL 训练通常对超参数敏感。论文中 、奖励归一化中的 以及损失函数中 RL 和 SFT 项的相对权重等,都需要精心调整。这些参数的调优复杂性未在文中详细讨论。
- 通用 IQA 的局限:IQA 模型虽然强大,但它是否能在所有特定恢复任务(如去雨、去模糊)中都捕获到最关键的质量退化特征,仍需进一步验证。某些任务可能需要更具领域知识的奖励设计。
相似论文推荐
基于向量语义检索推荐的相关论文。