HIIF: Hierarchical Encoding based Implicit Image Function for Continuous Super-resolution
TL;DR 精炼摘要
HIIF提出基于分层编码的隐式图像函数用于连续超分。它通过新颖分层位置编码增强局部细节捕获,并嵌入多头线性注意力机制引入非局部信息。实验证明,HIIF优于现有SOTA方法,PSNR最高提升0.17dB。
摘要
Recent advances in implicit neural representations (INRs) have shown significant promise in modeling visual signals for various low-vision tasks including image super-resolution (ISR). INR-based ISR methods typically learn continuous representations, providing flexibility for generating high-resolution images at any desired scale from their low-resolution counterparts. However, existing INR-based ISR methods utilize multi-layer perceptrons for parameterization in the network; this does not take account of the hierarchical structure existing in local sampling points and hence constrains the representation capability. In this paper, we propose a new \textbf{H}ierarchical encoding based \textbf{I}mplicit \textbf{I}mage \textbf{F}unction for continuous image super-resolution, \textbf{HIIF}, which leverages a novel hierarchical positional encoding that enhances the local implicit representation, enabling it to capture fine details at multiple scales. Our approach also embeds a multi-head linear attention mechanism within the implicit attention network by taking additional non-local information into account. Our experiments show that, when integrated with different backbone encoders, HIIF outperforms the state-of-the-art continuous image super-resolution methods by up to 0.17dB in PSNR. The source code of HIIF will be made publicly available at \url{www.github.com}.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): HIIF: Hierarchical Encoding based Implicit Image Function for Continuous Super-resolution (HIIF: 基于分层编码的隐式图像函数用于连续超分辨率)
- 作者 (Authors): Yuxuan Jiang, Ho Man Kwan, Tianhao Peng, Ge Gao, Fan Zhang, David Bull (均来自英国布里斯托大学视觉信息实验室);Xiaoqing Zhu, Joel Sole (来自 Netflix Inc.)。
- 发表期刊/会议 (Journal/Conference): 本文目前发布于 arXiv,这是一个预印本 (Preprint) 服务器,意味着它尚未经过同行评审或在正式的学术会议/期刊上发表。
- 发表年份 (Publication Year): 2024 (根据 arXiv ID
2412.03748v1推断)。 - 摘要 (Abstract): 隐式神经表示 (INR) 在图像超分辨率 (ISR) 等底层视觉任务中显示出巨大潜力,特别是其能够学习连续表示,从而以任意尺度生成高分辨率图像。然而,现有方法通常使用多层感知机 (MLP),忽略了局部采样点之间存在的分层结构,限制了模型的表达能力。为解决此问题,本文提出了一种名为 HIIF (Hierarchical encoding based Implicit Image Function) 的新方法。HIIF 利用一种新颖的分层位置编码来增强局部隐式表示,使其能捕捉多尺度下的精细细节。此外,该方法在隐式网络中嵌入了多头线性注意力机制,以引入非局部信息。实验表明,HIIF 与不同的骨干编码器结合后,其峰值信噪比 (PSNR) 表现优于当前最先进的连续超分辨率方法,最高提升了 0.17dB。
- 原文链接 (Source Link):
- 摘要页:
https://arxiv.org/abs/2412.03748v1 - PDF 链接:
http://arxiv.org/pdf/2412.03748v1 - 发布状态: 预印本 (Preprint)。
- 摘要页:
2. 整体概括 (Executive Summary)
- 研究背景与动机 (Background & Motivation - Why):
- 核心问题: 在连续图像超分辨率 (Continuous Image Super-resolution) 任务中,如何更有效地恢复图像的高频细节。连续超分辨率允许使用单个模型将低分辨率图像放大到任意(非整数)倍率,具有很高的灵活性。
- 现有挑战 (Gap): 当前主流的基于隐式神经表示 (INR) 的方法,如
LIIF,虽然实现了连续缩放,但它们通常使用简单的多层感知机 (MLP) 结构和单一尺度的位置编码。这种设计未能充分利用查询点周围局部特征之间的空间层次关系,导致模型在捕捉和重建精细纹理方面的能力受限。 - 创新思路: 本文的切入点是,图像的局部区域天然具有多尺度的结构信息。作者认为,通过显式地为模型提供分层级 (hierarchical) 的位置信息,可以让网络在不同层级上学习不同尺度的特征表示,从而更精细地重建图像。同时,引入注意力机制来捕捉更大范围的上下文信息,以弥补纯局部方法的感受野限制。
- 核心贡献/主要发现 (Main Contribution/Findings - What):
- 主要贡献:
- 提出了一种新颖的分层位置编码网络: 这是首次将多尺度分层位置编码用于超分辨率任务,打破了以往方法依赖单尺度编码的局限。
- 设计了一种新的多尺度解码器架构: 该架构将分层编码逐步注入网络的不同层,使网络能隐式地学习聚合多尺度信息,而非像先前工作那样依赖固定的或可学习的集成权重。
- 首次引入多头线性注意力机制: 在解码器中嵌入了多头线性注意力模块,以增强模型捕捉不同表示子空间中的非局部信息的能力,同时保持计算效率。
- 主要发现:
- HIIF 框架性能卓越: 实验结果表明,无论是在训练范围内的放大倍率(如
×2,×3,×4)还是在范围外的倍率(如×6到×30),HIIF 在多个基准数据集上均取得了超越现有最先进方法的性能,在 PSNR 指标上最高领先 0.17dB。 - 框架通用性强: HIIF 作为一个灵活的解码器框架,可以无缝地与多种不同的骨干编码器(如
EDSR、RDN、SwinIR)结合,并持续带来性能提升。
- HIIF 框架性能卓越: 实验结果表明,无论是在训练范围内的放大倍率(如
- 主要贡献:
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
- 基础概念 (Foundational Concepts):
- 图像超分辨率 (Image Super-Resolution, ISR): 一项经典的计算机视觉任务,旨在从一张或多张低分辨率 (Low-Resolution, LR) 图像中恢复出高分辨率 (High-Resolution, HR) 的图像。这是一个病态问题 (ill-posed problem),因为一张 LR 图像可能对应多张不同的 HR 图像。
- 连续超分辨率 (Continuous Super-resolution): 与传统的固定倍率(如
×2,×4)超分辨率不同,连续超分辨率技术旨在训练一个单一模型,该模型可以处理任意、连续的放大倍率(如×2.5,×3.7)。 - 隐式神经表示 (Implicit Neural Representations, INRs): 一种用神经网络来表示信号(如图像、3D形状)的方法。其核心思想是训练一个网络(通常是
MLP),将输入坐标(例如像素的(x, y)坐标)映射到该坐标对应的信号值(例如像素的RGB颜色)。由于坐标是连续的,INR 可以以任意分辨率对信号进行采样,非常适合连续超分辨率任务。 - 多层感知机 (Multi-Layer Perceptron, MLP): 一种基础的前馈神经网络,由多个全连接层组成。在 INR 中,它充当了从坐标到信号值的映射函数。
- 位置编码 (Positional Encoding): 由于
MLP本身不关心输入的顺序或位置,直接输入(x, y)坐标难以学习高频信息。位置编码将坐标映射到一个更高维的向量空间,使得网络能够区分不同的位置,并更容易学习细节。
- 前人工作 (Previous Works):
LIIF(Local Implicit Image Function): 这是 INR 用于连续超分辨率的开创性工作。它不直接预测整个 HR 图像,而是为 LR 图像的每个特征向量学习一个局部的隐式函数。查询 HR 图像中任意一个点的RGB值时,LIIF会找到其在 LR 特征图上对应的最近的四个特征向量,并结合查询点与这四个特征点的相对坐标,分别输入到MLP解码器中,最后将四个输出结果进行加权平均。HIIF正是建立在LIIF的思想之上。LTE(Local Texture Estimator):LIIF的一个改进,它认为在频率域进行纹理估计更有效,因此其解码器工作在傅里叶变换后的频率空间。CiaoSR和CLIT: 这些工作进一步改进了LIIF,例如CiaoSR学习了更智能的集成权重,而CLIT引入了局部注意力机制和级联结构以处理大尺度放大。- 问题与局限: 尽管这些方法不断进步,但它们大多依赖于单尺度的相对坐标编码,没有显式地建模局部区域的多尺度特性。
- 技术演进 (Technological Evolution):
- 该领域从早期基于
CNN的固定尺度模型(如SRCNN,EDSR,RDN)演进到基于Transformer的模型(如SwinIR)。为了解决任意尺度问题,出现了MetaSR等方法。最终,INR的引入(以LIIF为代表)为连续超分辨率提供了一个非常优雅和强大的框架,后续工作 (LTE,CiaoSR,HIIF) 都是在这一框架下进行优化和改进。
- 该领域从早期基于
- 差异化分析 (Differentiation):
- 与
LIIF,LTE,CiaoSR等依赖单尺度相对坐标的方法相比,HIIF的核心创新在于其分层编码和多尺度架构。HIIF将单一的相对坐标分解为多个不同粒度的分层编码,并在解码器的不同深度阶段逐步引入这些编码。这使得网络能够“由粗到细”地重建像素,更好地捕捉层次化细节。 - 此外,
HIIF是首个在该任务中引入多头线性注意力的工作,用于增强非局部信息的建模能力,而此前的CLIT使用的是局部注意力。
- 与
4. 方法论 (Methodology - Core Technology & Implementation Details)
HIIF 的整体架构如下图所示,主要由一个编码器 和一个创新的解码器 Dϱ 组成。
该图像是HIIF模型的示意图,展示了其连续超分辨率的架构。它通过编码器 处理低分辨率图像 ,利用多头线性注意力机制和新颖的分层位置编码(Level 0到Level L-1)来增强局部隐式表示。最终,解码器 和上采样的 结合生成高分辨率图像 。该模型旨在捕捉多尺度细节并提升表现。
-
方法原理 (Methodology Principles):
- 核心思想: 通过将一个查询点的局部相对位置分解成一个从粗到细的层次化编码序列,并让解码器网络的不同阶段分别处理不同层次的编码,从而引导网络学习多尺度的图像特征,最终实现更精细的细节重建。
- 直觉 (Intuition): 在一个局部
2x2的特征邻域内,靠近中心的点和靠近边缘的点应该有不同的重建方式。在粗尺度上,它们可能共享大部分信息;但在细尺度上,它们应该依赖更具体的位置信息。分层编码正是为网络提供了这种区分能力。
-
方法步骤与流程 (Steps & Procedures):
- 特征提取: 输入一张低分辨率图像 ,使用一个标准的超分辨率骨干网络(如
EDSR)作为编码器 ,提取出与LR图像同样空间大小的深度特征图(或称为“潜在编码”latent codes)。 - 坐标查询: 对于目标高分辨率图像 中的任意一个待预测像素,记其坐标为 。
- 局部信息收集: 找到 在特征图上投影位置周围最近的四个潜在编码 (其中 )。
- 分层编码生成: 计算查询坐标 相对于这四个潜在编码的局部相对坐标,并利用下述公式将其分解为 个级别的分层编码 。
- 多尺度解码: 将四个潜在编码 、分层编码 以及尺度信息
cell送入HIIF解码器 。解码器内部包含多头线性注意力和多个MLP块,分层编码被逐步注入到MLP块中。 - 残差学习: 解码器输出一个残差
RGB值,与通过双线性插值 (Bilinear Interpolation) 放大到目标尺寸的LR图像 相加,得到最终的HR像素值。
- 特征提取: 输入一张低分辨率图像 ,使用一个标准的超分辨率骨干网络(如
-
数学公式与关键细节 (Mathematical Formulas & Key Details):
-
HIIF 整体流程:
- 符号解释:
- : 目标
HR图像在坐标 处的RGB值。 - : 带有可训练参数 的
HIIF解码器。 - : 带有可训练参数 的特征编码器。
- : 输入的
LR图像。 - : 从第
0级到第L-1级的分层编码集合。 cell: 表示像素单元格大小的向量,与放大倍率相关。- : 双线性上采样后的
LR图像在 处的RGB值。
- : 目标
- 符号解释:
-
分层编码 (Hierarchical Encoding): 首先计算查询点相对于左上角特征 的局部坐标 并归一化到
[0, 1]范围。然后,第 层的分层坐标通过以下公式计算:-
符号解释:
- : 分层的级别,从
0到L-1。 - : 缩放因子 (Scaling factor),论文中设为
2。这意味着在每个级别,局部区域被划分为2x2的子网格。 - : 向下取整。
- : 取模运算。
- : 分层的级别,从
-
图解: 这个过程如下图所示。在
Level 0,由于 较小,邻近的查询点 和 可能会得到相同的分层编码11,因此它们在解码器的早期阶段共享相同的网络路径和特征。但在Level 1, 变大, 和 会得到不同的编码 (00和11),从而在后续网络层中被区别对待,学习更精细的特征。
该图像是图3所示的多尺度架构示意图。它展示了在解码器中应用分层编码如何在不同层次上影响采样点。在较粗级别(Level 0),相邻采样点(如在区域11内的b和c)共享相同的网络特征。然而,在较细级别(Level 1),当引入更精细的编码后(如b为00,c为11),这些点不再共享相同特征,从而能够捕获多尺度的精细细节。
-
-
多头线性注意力 (Multi-head Linear Attention): 为了高效地捕捉非局部信息,
HIIF使用了线性注意力机制。对于输入特征 ,首先通过三个可学习的投影矩阵 计算出查询 (Query)、键 (Key) 和值 (Value): 然后,注意力输出计算如下:- 符号解释:
- : 注意力头的索引。
- : 输入特征。
HW: 特征图的空间维度大小。
- 与标准
Dot-Product Attention() 不同,这里的计算顺序是 ,避免了计算 大小的注意力矩阵,从而将计算复杂度从二次方降低到线性。
- 符号解释:
-
5. 实验设置 (Experimental Setup)
- 数据集 (Datasets):
- 训练集:
DIV2K数据集,包含 800 张2K分辨率的高质量图像,是超分辨率领域的标准训练数据。 - 测试集: 使用了五个广泛应用的基准测试集:
DIV2K验证集 (100 张图像)Set5(5 张图像)Set14(14 张图像)BSD100(100 张图像)Urban100(100 张图像),该数据集包含大量具有挑战性的结构和纹理,如建筑物的格栅和线条。
- 选择原因: 这些数据集覆盖了从自然场景到人造结构的多种图像类型,能够全面评估模型的性能和泛化能力。
- 训练集:
- 评估指标 (Evaluation Metrics):
- 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR):
- 概念定义 (Conceptual Definition):
PSNR是衡量图像质量最常用和最经典的客观指标之一。它通过计算重建图像与原始高分辨率图像之间的均方误差 (Mean Squared Error, MSE) 来评估失真程度。PSNR的值越高,表示重建图像与原图越接近,失真越小,质量越好。该指标单位为分贝 (dB),更关注像素级别的差异。 - 数学公式 (Mathematical Formula):
首先计算两张大小为 的图像 (原图) 和 (重建图) 之间的均方误差
MSE: 然后,PSNR的计算公式为: - 符号解释 (Symbol Explanation):
m, n: 图像的高度和宽度。I(i,j), K(i,j): 分别表示原图和重建图在坐标(i,j)处的像素值。- : 图像像素值的最大可能值。对于一个 8 位灰度图像,。
- : 以 10 为底的对数函数。
- 概念定义 (Conceptual Definition):
- 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR):
- 对比基线 (Baselines):
- 论文将
HIIF与当前主流的连续超分辨率方法进行了比较,这些基线都具有很强的代表性:MetaSR: 较早的任意尺度超分辨率方法。LIIF: 基于INR的开创性工作。LTE:LIIF在频域的改进版本。CLIT: 引入局部注意力的级联模型。CiaoSR: 改进了局部集成的权重学习。SRNO: 基于神经算子 (Neural Operator) 的方法。
- 此外,还比较了仅使用骨干编码器(如
EDSR only)在固定尺度上的性能。
- 论文将
6. 实验结果与分析 (Results & Analysis)
-
核心结果分析 (Core Results Analysis):
-
定量结果: 以下是论文中 Table 1 和 Table 2 的转录结果,展示了
HIIF与其他方法在多个数据集和尺度上的PSNR(dB) 对比。表 1: 在 DIV2K 和 Set5 数据集上的 PSNR (dB) 对比
- 由于原始表格数据量巨大且复杂,这里使用其图像转录版本以便清晰展示。
表 2: 在 Set14, BSD100 和 Urban100 数据集上的 PSNR (dB) 对比
-
同样,使用图像转录版本以保证数据准确性和可读性。
分析: 从表格数据可以看出,无论使用
EDSR,RDN还是SwinIR作为编码器,HIIF(ours) 在几乎所有的测试场景(不同数据集、不同放大倍率)中都取得了最佳或并列最佳的PSNR分数。特别是在与SwinIR结合时,性能优势尤为明显,例如在DIV2K数据集×3尺度上,HIIF达到了31.62dB,比次优的CiaoSR(31.55dB) 高出0.07dB。在某些情况下,性能提升高达0.17dB,这在超分辨率领域是相当显著的进步。
-
可视化图表分析:
该图像是图1,展示了顶部两个雷达图和底部三个柱状图。雷达图比较了HIIF与五种INR-based连续ISR方法在ESDR和SwinIR骨干网络下的性能。柱状图则展示了HIIF集成到EDSR、RDN和SwinIR后在固定上采样尺度(x2, x3, x4)下的PSNR提升,所有结果均基于DIV2K验证集。- 上图中的雷达图直观地展示了
HIIF(橙色线) 在多个尺度上的性能包络面积最大,全面优于其他方法。 - 底部的柱状图显示,集成了
HIIF解码器的模型(如EDSR + HIIF)性能远超仅使用固定尺度训练的原始模型(EDSR only),证明了HIIF作为一个通用框架的强大能力。
- 上图中的雷达图直观地展示了
-
定性结果 (视觉效果):
该图像是图4,展示了图像超分辨率的定性比较结果。所有方法均使用RDN [56] 作为编码器。图中包含两组图像:书籍(0867)和桥梁(0861)。每组展示了原始高分辨率(HR)、低分辨率(LR)以及Bicubic、LIIF、LTE、SRNO和“ours”方法处理后的效果。通过对比细节,可以看出“ours”方法在恢复图像细节方面表现更优,例如书籍上的文字和桥梁的结构,优于其他方法。
该图像是针对图片0828 (DIV2K, ×3.3)的连续超分辨率结果对比图。它展示了原始高分辨率图像(HR)、低分辨率(LR)、双三次插值(Bicubic)以及LIIF、LTE、SRNO和本文提出的HIIF(ours)方法在超分辨率重建细节方面的表现。HIIF方法在恢复精细线条和纹理上展现出更佳的视觉质量,与HR图像更接近。- 从上方的视觉对比图中可以看出,
HIIF(ours) 在重建具有挑战性的纹理(如图4的书籍文字和图6的钢丝光轨)时,产生的伪影更少,线条更清晰、更连续,整体效果最接近原始高分辨率图像 (HR)。
- 从上方的视觉对比图中可以看出,
-
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
-
作者通过消融实验验证了其三个核心设计的有效性。以下是 Table 4 的转录结果。
表 4: 在 Urban100 数据集上的消融实验结果 (PSNR in dB)
Method ×2 ×3 ×4 ×6 ×8 ×12 EDSR only 31.99 28.15 26.03 - - - v1-H (无分层编码) 32.56 28.47 26.38 23.91 22.59 21.00 v2-MS (无多尺度架构) 32.47 28.45 26.35 23.92 22.56 20.98 v3-MH (无多头注意力) 32.34 28.34 26.25 23.86 22.52 20.96 HIIF (ours) 32.69 28.59 26.51 23.99 22.72 21.09 -
分析:
v1-H(移除分层编码) 性能大幅下降,证明分层编码是提升性能的关键。v2-MS(将所有分层编码在开始时一次性输入,而非逐步注入) 性能同样下降,说明多尺度架构对于有效利用分层信息至关重要。v3-MH(移除多头线性注意力) 性能也有明显降低,表明非局部信息的捕获对于高质量重建是必要的。- 完整的
HIIF模型在所有尺度上都取得了最好的结果,这强有力地证明了其每个设计组件都是有效且不可或缺的。
-
-
复杂度分析:
-
以下是 Table 3 的转录结果。
表 3: 模型复杂度对比 (基于 EDSR_baseline 编码器)
Encoder/Method #Params (M) Runtime (s) Memory (GB) EDSR_baseline [33] 1.5 3.23 2.2 + MetaSR [20] + 0.45 8.23 1.2 + LIIF [10] + 0.35 18.48 1.3 + LTE [29] + 0.49 18.54 1.4 + CLIT [9] + 15.7 398.02 16.3 + CiaoSR [5] + 1.43 251.80 12.6 + SRNO [51] + 0.81 20.23 7.1 + HIIF (Ours) + 1.33 35.17 1.5 -
分析:
HIIF在参数量和内存使用上与LIIF,LTE处于同一量级,非常轻量。其推理时间比LIIF/LTE慢,但远快于CLIT和CiaoSR。这表明HIIF在性能和效率之间取得了很好的平衡。
-
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary): 本文成功地提出了一种用于连续图像超分辨率的新型隐式图像函数
HIIF。其核心贡献在于引入了分层位置编码和多尺度解码器架构,使得模型能够有效捕捉和利用局部区域的多尺度信息。同时,结合多头线性注意力机制来建模非局部依赖。大量的定量和定性实验结果证明,HIIF显著优于现有的 SOTA 方法,为连续超分辨率领域提供了一个性能更强、设计更优雅的新基准。 -
局限性与未来工作 (Limitations & Future Work):
- 论文提及的未来工作: 论文本身未明确指出局限性或未来工作。
- 推测的局限性:
- 性能增益的边际效应: 尽管
PSNR提升显著,但在视觉上的提升可能在某些场景下并不如数字那么明显。该方法依然依赖于PSNR这一传统指标进行优化,可能没有充分考虑人类的感知偏好。 - 对更复杂降质的泛化性: 实验主要基于标准的双三次下采样 (
bicubic),模型在面对真实世界中更复杂的降质(如模糊、噪声、压缩伪影)时的表现尚待验证。 - 计算开销: 虽然比
CiaoSR等模型高效,但其推理速度仍慢于LIIF,对于实时应用场景可能仍有挑战。
- 性能增益的边际效应: 尽管
-
个人启发与批判 (Personal Insights & Critique):
- 启发:
- 层次化思想的威力:
HIIF最具启发性的一点是将“分层”或“多尺度”的思想巧妙地融入到了INR的坐标编码中。这种“由粗到细”的处理范式不仅符合人类视觉系统和图像信号的自然属性,也为其他基于坐标的神经表示任务(如视频插帧、3D 重建)提供了新的思路。 - 架构与信息的匹配: 将不同层次的信息注入到网络的不同深度,而不是一次性全部喂给网络,这种设计非常精妙。它使得网络的浅层可以专注于学习粗粒度的结构,而深层则可以专注于修正高频细节,实现了计算任务的有效分工。
- 层次化思想的威力:
- 批判性思考:
- 评估指标的单一性: 论文完全依赖
PSNR作为评估指标。引入一些感知指标,如LPIPS或DISTS,可能会更全面地反映模型的视觉质量优势。 - 超参数的敏感性分析: 论文中固定了分层级别 和缩放因子 。对这些关键超参数进行更详细的分析(例如, 取不同值对结果的影响)将有助于更深入地理解模型的工作机制。
- 与固定尺度SOTA的差距: 尽管
HIIF在连续SR方法中领先,但与那些专门为某一固定尺度(如×4)设计和训练的最强模型相比,可能仍存在性能差距。将这种差距量化,并探讨如何进一步缩小它,将是一个有价值的研究方向。
- 评估指标的单一性: 论文完全依赖
- 启发:
相似论文推荐
基于向量语义检索推荐的相关论文。