$\text{S}^{3}$Mamba: Arbitrary-Scale Super-Resolution via Scaleable State Space Model
TL;DR 精炼摘要
本文提出S³Mamba,采用可扩展状态空间模型和尺度感知自注意力机制,实现任意尺度图像超分辨率,突破传统方法计算复杂度高、长距离依赖建模差的瓶颈。该模型实现线性复杂度连续表示,提升了合成及真实数据上的性能和泛化能力。
摘要
Arbitrary scale super-resolution (ASSR) aims to super-resolve low-resolution images to high-resolution images at any scale using a single model, addressing the limitations of traditional super-resolution methods that are restricted to fixed-scale factors (e.g., , ). The advent of Implicit Neural Representations (INR) has brought forth a plethora of novel methodologies for ASSR, which facilitate the reconstruction of original continuous signals by modeling a continuous representation space for coordinates and pixel values, thereby enabling arbitrary-scale super-resolution. Consequently, the primary objective of ASSR is to construct a continuous representation space derived from low-resolution inputs. However, existing methods, primarily based on CNNs and Transformers, face significant challenges such as high computational complexity and inadequate modeling of long-range dependencies, which hinder their effectiveness in real-world applications. To overcome these limitations, we propose a novel arbitrary-scale super-resolution method, called Mamba, to construct a scalable continuous representation space. Specifically, we propose a Scalable State Space Model (SSSM) to modulate the state transition matrix and the sampling matrix of step size during the discretization process, achieving scalable and continuous representation modeling with linear computational complexity. Additionally, we propose a novel scale-aware self-attention mechanism to further enhance the network's ability to perceive global important features at different scales, thereby building the Mamba to achieve superior arbitrary-scale super-resolution. Extensive experiments on both synthetic and real-world benchmarks demonstrate that our method achieves state-of-the-art performance and superior generalization capabilities at arbitrary super-resolution scales.
思维导图
论文精读
中文精读
论文基本信息 (Bibliographic Information)
- 标题 (Title): S³Mamba: Arbitrary-Scale Super-Resolution via Scaleable State Space Model (S³Mamba:通过可扩展状态空间模型实现任意尺度超分辨率)
- 作者 (Authors): Peizhe Xia, Long Peng, Xin Di, Renjing Pei, Yang Wang, Yang Cao, Zheng-Jun Zha. 作者主要来自中国科学技术大学 (University of Science and Technology of China) 和华为诺亚方舟实验室 (Huawei Noah's Ark Lab)。
- 发表期刊/会议 (Journal/Conference): 本文目前发布在预印本服务器 arXiv 上,尚未在顶级学术会议或期刊上正式发表。arXiv 是计算机科学领域研究人员分享最新成果的重要平台。
- 发表年份 (Publication Year): 2024年
- 摘要 (Abstract): 论文旨在解决任意尺度超分辨率 (ASSR) 问题,即使用单一模型将低分辨率图像放大到任意指定的倍数。现有基于隐式神经表示 (INR) 的方法大多依赖于 CNN 或 Transformer,存在计算复杂度高、长距离依赖建模不足等问题。为克服这些限制,本文提出了一个名为
S³Mamba的新方法。其核心是提出了一个可扩展状态空间模型 (Scalable State Space Model, SSSM),通过在离散化过程中调节状态转移矩阵和采样步长矩阵,以线性计算复杂度实现了可扩展的连续表示建模。此外,作者还设计了一种新颖的尺度感知自注意力机制 (scale-aware self-attention mechanism),进一步增强网络感知不同尺度下全局重要特征的能力。实验表明,S³Mamba在合成和真实世界数据集上均达到了最先进的性能和优越的泛化能力。 - 原文链接 (Source Link):
-
发布状态: 预印本 (Preprint)。
整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 传统的超分辨率 (SR) 模型通常只能对图像进行固定倍数(如×2, ×4)的放大,无法满足现实世界中对任意放大倍数的需求。任意尺度超分辨率 (Arbitrary-Scale Super-Resolution, ASSR) 旨在用一个模型解决所有放大尺度的问题。
- 现有挑战与空白 (Gap): 近年来,基于隐式神经表示 (Implicit Neural Representations, INR) 的方法成为 ASSR 的主流。这类方法通过学习一个从坐标到像素值的连续函数来实现任意尺度放大。然而,现有实现主要依赖两种架构:
- 基于 MLP 的方法 (如
LIIF): 虽然概念简单,但 MLP 的感受野有限,学习的是点对点的映射,难以捕捉图像的上下文和长距离依赖关系,导致生成的图像细节不足或出现伪影。 - 基于 Transformer 的方法 (如
CiaoSR): Transformer 能够通过自注意力机制捕捉全局信息,显著提升了性能。但其计算复杂度与输入图像块大小成二次方关系 (),这使得它在处理高分辨率图像时效率低下,难以在实际应用中部署。
- 基于 MLP 的方法 (如
- 创新切入点: 鉴于以上挑战,论文的作者思考:是否存在一种架构,既能像 Transformer 一样高效地建模长距离依赖关系,又能像 CNN 一样保持线性计算复杂度?最近在序列建模领域大放异彩的状态空间模型 (State Space Model, SSM) / Mamba 正好具备这两个优点。因此,本文的切入点是首次将 SSM 引入 ASSR 任务,并对其进行改造,使其能够适应“任意尺度”这一特定需求。
-
核心贡献/主要发现 (Main Contribution/Findings - What):
-
提出了可扩展状态空间模型 (SSSM): 本文最大的贡献是设计了
Scalable State Space Model (SSSM)。它通过引入“尺度”和“坐标”信息来动态调整 SSM 核心参数(状态转移矩阵 和输入矩阵 的离散化过程),使得模型能够感知到不同放大尺度下像素之间的关联性变化,从而构建一个统一且一致的连续表示空间。 -
提出了
S³Mamba框架: 结合 SSSM,作者设计了一个名为S³Mamba的高效模块。该模块包含一个新颖的尺度感知自注意力机制,利用 SSSM 根据当前尺度和坐标生成注意力图,进一步增强了网络在不同尺度下提取全局特征的能力。 -
实现了最先进的性能: 实验结果显示,
S³Mamba在合成数据集 (DIV2K) 和更具挑战性的真实世界数据集 (COZ) 上,均取得了当前最优 (State-of-the-Art, SOTA) 的性能,尤其在真实场景下展现了更好的细节恢复和伪影抑制能力,同时保持了高效的计算。
-
预备知识与相关工作 (Prerequisite Knowledge & Related Work)
本部分旨在为初学者铺垫理解论文所需的基础知识。
-
基础概念 (Foundational Concepts):
- 超分辨率 (Super-Resolution, SR): 一种图像处理技术,旨在从一张或多张低分辨率 (Low-Resolution, LR) 图像中恢复出高分辨率 (High-Resolution, HR) 图像。
- 任意尺度超分辨率 (Arbitrary-Scale Super-Resolution, ASSR): SR 的一个子领域,目标是训练一个单一模型,该模型可以接收任意(包括非整数)的放大因子(如 ×1.5, ×3.7, ×10)并生成对应分辨率的 HR 图像。
- 隐式神经表示 (Implicit Neural Representations, INR): 一种用神经网络来参数化信号(如图像、三维形状)的方法。对于图像而言,INR 不直接存储像素网格,而是学习一个连续函数 ,输入是任意一个二维坐标
(x, y),输出是该坐标对应的颜色值。通过在这个连续函数上密集采样,就可以得到任意分辨率的图像,这使其天然适用于 ASSR 任务。 - 状态空间模型 (State Space Model, SSM): 最初源于控制理论,用于描述动态系统。它通过一个隐藏的状态变量
h(t)来连接输入x(t)和输出y(t)。近期的研究(如 S4, Mamba)发现,经过特定结构设计和高效的并行化扫描计算,SSM 可以作为一种强大的序列模型,有效捕捉长距离依赖关系,且计算复杂度仅为线性 (),优于 Transformer 的二次方复杂度 ()。Mamba 进一步引入了输入依赖的参数,使其建模能力更强。
-
前人工作 (Previous Works):
MetaSR: 早期尝试 ASSR 的工作之一,它提出了一个元学习模块来为不同尺度动态生成上采样网络的权重。LIIF: 首次将 INR 引入 ASSR 的开创性工作。它使用一个简单的多层感知机 (Multi-Layer Perceptron, MLP) 作为解码器,将查询坐标和其周围的 LR 图像特征作为输入,预测该坐标的 RGB 值。其主要局限是 MLP 感受野小,无法利用全局上下文信息。LTE&LINF:LIIF的改进工作,它们尝试在解码器中融入傅里叶特征(频域信息),以帮助模型更好地学习图像的高频细节(如纹理),但仍受限于 MLP 的局部性。CiaoSR&CLIT: 这些工作认识到全局信息的重要性,将 Transformer 引入 ASSR。通过自注意力机制,模型可以建模图像块之间的全局关系,显著提升了性能,成为当时的 SOTA。然而,它们的二次方计算复杂度是一个无法回避的缺点。
-
技术演进 (Technological Evolution): ASSR 领域的技术演进路线清晰可见:
- 早期探索期: 以
MetaSR为代表,通过元学习等方式动态调整网络参数。 - INR 引入期: 以
LIIF为代表,利用 MLP 将图像表示为连续函数,奠定了现代 ASSR 的主流范式。 - 全局信息增强期: 以
CiaoSR为代表,引入 Transformer 捕捉全局上下文,将性能推向新高度,但也带来了高昂的计算成本。 - 效率与性能平衡期: 本文
S³Mamba开启了新的方向,利用 SSM/Mamba 替代 Transformer,试图在保持全局建模能力的同时,将计算复杂度降至线性,寻求性能与效率的最佳平衡。
- 早期探索期: 以
-
差异化分析 (Differentiation): 与之前工作的核心区别在于骨干网络的选择和改造:
-
相较于
LIIF(MLP-based):S³Mamba使用 SSM 代替 MLP,从根本上解决了感受野受限的问题,能够建模全局信息。 -
相较于
CiaoSR(Transformer-based):S³Mamba使用 SSM 代替 Transformer 的自注意力模块,将计算复杂度从二次方降低到线性,模型效率更高。更重要的是,它不只是简单替换,而是提出了SSSM,专门解决了标准 SSM 在“任意尺度”任务中水土不服的问题,使其具备尺度感知能力。
-
方法论 (Methodology - Core Technology & Implementation Details)
本部分将详细拆解 S³Mamba 的核心技术方案。
图注:上图 (a) 展示了 S³Mamba 的整体框架。LR 图像经过特征提取器后,特征被送入 S³Mamba 模块进行局部与全局信息的融合和增强,最终通过一个 MLP 解码器生成 HR 图像的像素值。图 (b) 和 (c) 展示了核心的 SSSM 模块的结构。
方法原理 (Methodology Principles):
S³Mamba 的核心思想是利用状态空间模型 (SSM) 的连续系统本质和高效序列建模能力,来构建一个尺度可扩展的 (scalable) 连续图像表示。标准 SSM 并不直接关心输入数据点之间的“距离”或“尺度”,而 ASSR 任务中,放大倍数的变化意味着采样点(像素)之间物理距离的变化。因此,本文的关键直觉是:必须让 SSM 的动态特性能够感知到当前的放大尺度。
方法步骤与流程 (Steps & Procedures):
1. 提出可扩展状态空间模型 (Scalable State Space Model, SSSM)
首先,我们回顾一下标准的状态空间模型 (SSM)。它源于一个连续的线性时不变 (LTI) 系统,由以下常微分方程 (ODE) 描述:
-
: 系统的隐状态 (latent state),维度为 。
-
: 系统的输入信号。
-
: 系统的输出信号。
-
: 状态转移矩阵 (state transition matrix),决定了系统内部状态如何随时间演化。
-
: 输入矩阵 (input matrix),决定了输入如何影响状态。
-
: 输出矩阵 (output matrix),决定了状态如何转化为输出。
-
: 直通项 (feedthrough term)。
为了处理离散数据(如图像像素序列),需要将上述连续系统离散化。这通过一个采样步长 (sampling step) 来实现,常用的离散化方法是零阶保持 (Zero-Order Hold, ZOH): 离散化后,系统变为: 在 Mamba 等现代 SSM 中,参数 , , 是根据输入 动态生成的,这增强了模型的表达能力。
SSSM 的创新之处:
作者指出,对于 ASSR,仅让参数依赖于输入 是不够的。因为对于同一场景的不同放大图像,相邻像素间的物理距离不同,其相关性也应随尺度 scale 变化。因此,SSSM 对此进行了改进:
-
: 代表 MLP 网络。
-
: 像标准 Mamba 一样,由当前输入 决定。
-
: 这是创新的尺度调制因子,由放大尺度
scale和当前坐标coord共同决定。 -
: 最终的采样步长是输入依赖部分和尺度依赖部分的乘积。
这个设计使得采样步长 能够自适应地调整。例如,在高放大倍率下,像素更密集,模型可以通过一个较小的 来建模更精细的局部相关性。
同样地,作者也将这种尺度感知能力赋予了输入矩阵 :
其中 同样由 scale 和 coord 生成。
最终,SSSM 的离散化过程变为:
以及状态更新方程:
通过这种方式,SSSM 能够为不同尺度的同一场景,学习到一个一致的连续表示,这正是 ASSR 的核心目标。
2. S³Mamba 整体架构
S³Mamba 框架(如图 2(a))巧妙地利用了 SSSM 来实现高效的特征融合和渲染。
-
特征提取与融合: 对于输入的 LR 特征 ,模型并行地提取两种信息:
- 局部特征 (
local feature) : 采用Unfold操作(类似卷积中的滑窗操作)来聚合每个查询点周围的局部邻域特征。 - 全局特征 (
global feature) : 使用SSSM对 进行处理,高效地捕捉全局上下文信息。 然后将这两种特征拼接起来,形成融合特征 :
- 局部特征 (
-
尺度感知自注意力机制 (Scale-aware Self-attention, SFAtt): 为了让最终的像素渲染过程也具备尺度感知能力,作者提出了一个新颖的注意力机制。它并非像 Transformer 那样计算特征之间的相似度,而是利用
SSSM直接生成一个全局的注意力图谱: 这个注意力图谱 是由目标 HR 图像的坐标coord_HR和放大尺度scale生成的,它编码了在当前尺度下,图像不同位置的重要性。然后,这个注意力图谱被用于加权 HR 特征 ,最后再通过一个SSSM层(或 MLP)解码出最终的 RGB 值。 这一设计非常巧妙,它将尺度信息深度融入到特征提取和最终渲染的每一个环节,确保了模型在任意尺度下的表现一致性和高质量。
实验设置 (Experimental Setup)
-
数据集 (Datasets):
DIV2K: 这是一个广泛用于 SR 研究的合成数据集。它包含 800 张 2K 分辨率的高质量图像用于训练。训练时,通过对 GT 图像进行双三次 (bicubic) 插值下采样来生成 LR-HR 图像对。尺度因子 在 的均匀分布中随机采样。COZ: 这是一个真实世界的 ASSR 基准数据集。它包含 153 张 2K 分辨率的真实场景图像用于训练,这些图像由光学变焦镜头在不同焦段下拍摄,模拟了连续变焦过程。相比合成数据,真实世界数据包含更复杂的降质(如噪声、模糊),更能考验模型的泛化能力。
-
评估指标 (Evaluation Metrics):
-
峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR):
- 概念定义: PSNR 是衡量图像质量最常用和最经典的指标之一。它通过计算重建图像与原始图像之间像素级别的均方误差 (Mean Squared Error, MSE) 来评估失真程度。PSNR 值越高,代表重建图像的失真越小,质量越接近原始图像。它主要关注像素值的绝对差异。
- 数学公式: 其中,MSE 的计算公式为:
- 符号解释:
- : 图像像素值的最大可能值(对于 8-bit 图像,此值为 255)。
H, W: 图像的高度和宽度。I(i, j): 原始高质量图像在坐标(i, j)处的像素值。K(i, j): 重建图像在坐标(i, j)处的像素值。
-
结构相似性指数 (Structural Similarity Index, SSIM):
- 概念定义: 与 PSNR 不同,SSIM 旨在从人类视觉感知的角度评估图像质量。它不只关注像素误差,而是综合衡量两张图像在亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面的相似度。SSIM 值越接近 1,表示两张图像在结构上越相似,视觉效果越好。
- 数学公式:
- 符号解释:
x, y: 分别代表原始图像和重建图像的某个窗口。- : 图像窗口 和 的平均值(亮度)。
- : 图像窗口 和 的方差(对比度)。
- : 图像窗口 和 的协方差(结构)。
- : 为避免分母为零而设置的稳定常数。
-
-
对比基线 (Baselines):
-
本文与多个主流和 SOTA 的 ASSR 方法进行了比较,包括:
MetaSR,LIIF,LTE,LINF,SRNO,LIT,CiaoSR, 和LMI。 -
这些方法覆盖了从元学习、MLP-based INR 到 Transformer-based INR 的主要技术路线。
-
为了公平比较,所有这些方法都在两种流行的 SR 骨干网络
EDSR和RDN上进行了评估。
-
实验结果与分析 (Results & Analysis)
核心结果分析 (Core Results Analysis):
-
真实世界数据集 (
COZ) 上的表现:Backbones Methods In-scale Out-of-scale ×3 ×3.5 ×4 ×5 ×5.5 ×6 EDSR [34] MetaSR [23] 26.65/0.767 25.80/0.752 25.22/0.740 24.39/0.720 24.09/0.711 23.31/0.678 LIIF [10] 26.61/0.767 25.76/0.752 25.16/0.741 24.32/0.721 24.01/0.711 23.23/0.679 LTE [30] 26.55/0.767 25.71/0.752 25.15/0.740 24.37/0.720 24.05/0.712 23.26/0.679 LINF [68] 26.53/0.762 25.66/0.750 25.10/0.737 24.29/0.719 23.99/0.711 23.21/0.677 SRNO [61] 26.59/0.766 25.70/0.752 25.15/0.741 24.31/0.722 24.05/0.712 23.25/0.680 LIT [7] 26.58/0.766 25.71/0.753 25.16/0.741 24.35/0.721 24.00/0.712 23.19/0.679 RDN [73] CiaoSR [2] 26.56/0.770 25.65/0.755 25.13/0.746 24.31/0.725 23.96/0.721 23.23/0.709 LMI [18] 26.71/0.773 25.84/0.755 25.27/0.746 24.39/0.726 24.09/0.723 23.34/0.709 Ours 26.74/0.777 25.92/0.760 25.34/0.749 24.50/0.728 24.15/0.724 23.39/0.710 注:以上为 Table 1 核心数据的简化转录,以 RDN 为骨干网的结果更能体现 SOTA 对比。数据显示为 PSNR/SSIM。
-
分析: 从上表可以看出,在更具挑战性的
COZ真实数据集上,S³Mamba(Ours) 在所有尺度上均取得了最好的 PSNR 和 SSIM 指标。尤其值得注意的是 SSIM 指标的显著提升(例如,在 RDN backbone 和 ×3.5 尺度下,SSIM 达到 0.760,远高于其他方法),这表明S³Mamba生成的图像在结构和纹理上更接近真实图像,视觉质量更好。这印证了SSSM在建模复杂真实降质场景下的连续表示方面的优越性。
图注:上图展示了在 COZ数据集上 ×3 放大的视觉效果。可以看到,S³Mamba(Ours) 恢复的文字边缘更清晰、锐利,伪影更少,最接近真实图像 (GT),而其他方法或多或少存在模糊或振铃效应。
-
-
合成数据集 (
DIV2K) 上的表现:Backbones Methods In-scale Out-of-scale ×2 ×3 ×4 ×6 ×12 ×18 ×24 ×30 RDN [73] CiaoSR [2] 35.15 31.42 29.45 27.16 24.06 22.48 21.43 20.70 Ours 35.17 31.40 29.47 27.17 24.07 22.50 21.43 20.68 注:以上为 Table 2 核心数据的简化转录,仅展示 RDN 骨干网上的 SOTA 对比(PSNR dB)。
-
分析: 在合成的
DIV2K数据集上,S³Mamba的性能与当时的 SOTA 方法CiaoSR(基于 Transformer) 相当,并在多个尺度上(如 ×2, ×4, ×6, ×12, ×18)取得了微弱优势。论文中提到,S³Mamba的计算复杂度仅为CiaoSR的一半,这表明S³Mamba在达到甚至超越 SOTA 性能的同时,效率更高。
图注:上图展示了在 DIV2K数据集上 ×4 放大的视觉效果。S³Mamba(Ours) 成功恢复了格栅的精细线条结构,而其他方法(包括CiaoSR)则出现了明显的伪影和结构混叠。这再次证明了S³Mamba强大的细节表示能力。
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
-
SSSM的有效性验证:MLP SSM Our SSSM PSNR on x2 PSNR on x4 ✓ X X 34.78 29.09 X ✓ X 34.85 29.17 X X ✓ 34.91 29.24 注:转录自 Table 3
- 分析:
- SSM vs. MLP: 将基准的 MLP 模块替换为传统的 SSM 模块后,性能在 ×2 和 ×4 尺度上分别提升了 0.07 dB 和 0.08 dB。这证明了 SSM 的全局建模能力优于 MLP 的局部点对点映射。
- SSSM vs. SSM: 在传统 SSM 的基础上,引入尺度和坐标感知的
SSSM后,性能进一步提升了 0.06 dB 和 0.07 dB。这强有力地证明了本文核心创新——尺度可扩展性——的有效性。
- 分析:
-
S³Mamba核心组件的有效性:GFE SFAtt PSNR on x2 PSNR on x3 PSNR on x4 X X 34.71 30.98 29.06 X ✓ 34.78 31.03 29.12 ✓ X 34.85 31.09 29.19 ✓ ✓ 34.91 31.13 29.24 注:转录自 Table 4。GFE (Global Feature Extraction) 和 SFAtt (Scale-aware Self-Attention) 均基于 SSSM 实现。
- 分析:
-
基线 (无 GFE, 无 SFAtt): 性能最低。
-
加入 SFAtt: 仅加入尺度感知自注意力机制,性能有明显提升(如在 ×2 上提升 0.07 dB),说明在渲染阶段引入尺度感知是有效的。
-
加入 GFE: 仅加入全局特征提取模块,性能提升更显著(如在 ×2 上提升 0.14 dB),说明全局上下文信息对于构建连续表示空间至关重要。
-
两者结合: 同时使用 GFE 和 SFAtt 取得了最佳性能,证明了这两个模块是互补且都不可或缺的。
-
- 分析:
总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary): 这篇论文成功地将状态空间模型 (SSM) 引入任意尺度超分辨率 (ASSR) 领域,并提出了一个名为
S³Mamba的高效框架。其核心贡献是设计了可扩展状态空间模型 (SSSM),通过让模型动态感知放大尺度和坐标信息,解决了标准 SSM 在此任务上的局限性。结合新颖的尺度感知自注意力机制,S³Mamba能够以线性计算复杂度高效地建模全局信息,构建高质量的连续图像表示。大量的实验证明,该方法在合成和真实世界基准上均达到了最先进的性能,特别是在真实场景下的泛化能力和视觉细节恢复上表现突出,为 ASSR 领域开辟了一条兼顾性能与效率的新路径。 -
局限性与未来工作 (Limitations & Future Work):
- 论文提及: 论文正文没有明确指出局限性,但提到附录中有更多讨论。
- 潜在局限:
- 对更极端尺度的泛化: 实验中的“out-of-scale”最大到 ×30,对于更大或极小尺度(如 < ×1)的泛化能力仍有待验证。
- 对复杂降质的鲁棒性: 虽然在
COZ真实数据集上表现优异,但对于更特定、更严重的降质(如强烈的 JPEG 压缩伪影、传感器噪声等),模型的鲁棒性可能需要进一步研究。 - 训练稳定性: SSM/Mamba 模型的训练有时比 Transformer 更具挑战性,本文未讨论训练过程中的细节和稳定性问题。
-
个人启发与批判 (Personal Insights & Critique):
-
启发性:
- Mamba 在视觉任务中的新范式: 本文是 Mamba 类模型在底层视觉(特别是连续信号表示)任务中一次非常成功且巧妙的应用。它没有简单地将图像“展平”为序列,而是深刻理解了 ASSR 的本质——尺度连续性,并对 SSM 的核心机制(采样率 )进行了针对性改造,这种思想非常具有启发性。
- 任务驱动的模型设计:
SSSM的设计是“任务驱动”创新的典范。作者并非为了用 Mamba 而用 Mamba,而是分析了任务(ASSR)的核心痛点(尺度变化),并对模型(SSM)进行了根本性的调整以适应任务需求。 - 效率与性能的权衡: 这项工作再次证明,在追求性能的同时,对计算效率的关注是推动技术走向实际应用的关键。
S³Mamba为解决 Transformer 在高分辨率视觉任务中的效率瓶颈提供了一个强有力的替代方案。
-
批判性思考:
- “尺度感知自注意力”的命名: 文中提出的
SFAtt机制,虽然效果显著,但其工作方式(直接由坐标和尺度生成权重图)与传统自注意力(计算 query-key 相似度)有本质区别。称之为“自注意力”可能会引起一些混淆,或许“尺度引导的调制 (Scale-Guided Modulation)”等描述会更精确。 - 与并行解码方法的比较: ASSR 领域还有一些并行解码(一次性预测所有 HR 像素)的方法,它们在推理速度上可能更有优势。本文主要与基于坐标查询的 INR 方法对比,若能补充与并行解码方法的比较,将使评估更加全面。
- 可解释性: SSM/Mamba 的内部工作机制相较于 Transformer 的注意力图谱,可解释性稍弱。模型是如何通过调整 和 来适应不同尺度的,其内部的动态变化过程值得进一步的可视化和分析。
- “尺度感知自注意力”的命名: 文中提出的
-
相似论文推荐
基于向量语义检索推荐的相关论文。