论文状态：已完成

VideoMamba: State Space Model for Efficient Video Understanding

发表：2024/03/12

多模态视频理解 (1)视频状态空间模型 (1)长时程视频理解 (1)线性复杂度视频建模 (1)视频自蒸馏技术 (1)

价格：0.100000

已有 5 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

VideoMamba创新性地将状态空间模型Mamba引入视频理解领域，旨在高效解决视频中的局部冗余和长时依赖难题，超越现有3D CNNs和Transformer的局限。它利用Mamba的线性复杂度算子进行长时序建模，并结合新颖的自蒸馏技术增强模型可扩展性。实验证明，VideoMamba在长视频理解上显著优于传统方法，能敏感识别细微动作，且在多模态任务中表现出良好的兼容性与鲁棒性，为视频理解提供了可扩展且高效的新范式。

摘要

Addressing the dual challenges of local redundancy and global dependencies in video understanding, this work innovatively adapts the Mamba to the video domain. The proposed VideoMamba overcomes the limitations of existing 3D convolution neural networks and video transformers. Its linear-complexity operator enables efficient long-term modeling, which is crucial for high-resolution long video understanding. Extensive evaluations reveal VideoMamba's four core abilities: (1) Scalability in the visual domain without extensive dataset pretraining, thanks to a novel self-distillation technique; (2) Sensitivity for recognizing short-term actions even with fine-grained motion differences; (3) Superiority in long-term video understanding, showcasing significant advancements over traditional feature-based models; and (4) Compatibility with other modalities, demonstrating robustness in multi-modal contexts. Through these distinct advantages, VideoMamba sets a new benchmark for video understanding, offering a scalable and efficient solution for comprehensive video understanding. All the code and models are available at https://github.com/OpenGVLab/VideoMamba.

思维导图

论文精读

中文精读约 18 分钟读完 · 11,171 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): VideoMamba: State Space Model for Efficient Video Understanding (VideoMamba：用于高效视频理解的状态空间模型)
作者 (Authors): Kunchang Li, Xinhao Li, Yi Wang, Yinan He, alli Wang, Limin Wang, and Yu Qiao.
- 研究背景与机构: 作者主要来自上海人工智能实验室 (OpenGVLab, Shanghai AI Laboratory)、中国科学院深圳先进技术研究院 (Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences)、中国科学院大学 (University of Chinese Academy of Sciences) 以及南京大学 (Nanjing University)。这些机构在计算机视觉和深度学习领域享有盛誉，特别是 OpenGVLab，是该领域的顶尖研究团队之一。
发表期刊/会议 (Journal/Conference): 本文是一篇预印本 (Preprint) 论文，提交到了 arXiv。通常这类高质量的工作会投递到顶级的计算机视觉会议，如 CVPR, ICCV, ECCV 或机器学习会议 NeurIPS, ICML。
发表年份 (Publication Year): 2024年3月。
摘要 (Abstract): 论文旨在解决视频理解中的两大挑战：局部冗余和全局依赖。为此，作者创新性地将 Mamba 模型（一种状态空间模型）应用于视频领域，提出了 VideoMamba。该模型旨在克服现有三维卷积神经网络 (3D CNNs) 和视频变换器 (Video Transformers) 的局限性。VideoMamba 的核心优势在于其线性复杂度的算子，使其能够高效地进行长时序建模，这对于处理高分辨率长视频至关重要。通过大量实验，论文展示了 VideoMamba 的四项核心能力：(1) 可扩展性：通过一种新颖的自蒸馏技术，模型在无需大规模数据集预训练的情况下也能很好地扩展；(2) 敏感性：能有效识别具有细微运动差异的短期动作；(3) 优越性：在长视频理解任务上显著优于传统方法；(4) 兼容性：在多模态任务中表现出良好的兼容性和鲁棒性。VideoMamba 为视频理解设定了新的基准，提供了一种可扩展且高效的解决方案。
原文链接 (Source Link):
- arXiv 链接: https://arxiv.org/abs/2403.06977
- PDF 链接: http://arxiv.org/pdf/2403.06977v2
- 发布状态: 预印本 (Preprint)。

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题: 视频理解的核心在于学习有效的时空表征，但这面临两大挑战：局部冗余 (视频相邻帧之间变化微小，信息重复度高) 和 全局依赖 (理解长视频中的复杂事件需要捕捉相距很远的帧之间的关联)。
- 现有研究的空白 (Gap):
  - 3D 卷积神经网络 (3D CNNs): 通过局部卷积核操作，能很好地处理局部冗余，但其感受野有限，难以捕捉长程依赖关系。
  - 视频变换器 (Video Transformers): 利用自注意力机制 (self-attention)，能有效建模全局依赖关系，但其计算和内存复杂度与输入序列长度成二次方关系 ( $O(N^2)$ )，这使得它在处理高分辨率或长时视频时变得异常昂贵和低效。
  - 混合模型 (Hybrid Models): 如 UniFormer 尝试结合 CNN 和 Transformer 的优点，但在处理长视频时仍然面临效率瓶颈。
- 创新思路: 近期在自然语言处理 (NLP) 领域兴起的 Mamba 模型，其核心是一种选择性状态空间模型 (Selective State Space Model)，它在保持线性计算复杂度的同时，又能有效地进行长序列动态建模。这为解决视频领域的效率瓶颈提供了全新的思路。因此，本文的切入点是：将 Mamba 的高效长序列建模能力从一维文本域适配到三维视频域，以期同时解决局部冗余和全局依赖的挑战。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出了 VideoMamba 模型: 这是第一个纯粹基于状态空间模型 (SSM) 的视频理解通用骨干网络。它遵循 Vision Transformer (ViT) 的简洁设计，但用高效的双向 Mamba 模块替代了自注意力模块。
- 验证了 Mamba 架构在视频领域的四大核心能力:
  1. 可扩展性 (Scalability): 提出了一种简单的自蒸馏 (Self-Distillation) 策略，有效解决了 Mamba 模型在扩大规模时出现的过拟合问题，使其在不依赖超大规模预训练的情况下也能实现性能的稳步提升。
  2. 敏感性 (Sensitivity): VideoMamba 对细微的运动变化非常敏感，在区分相似动作（如“开”和“关”）的短期动作识别任务上表现优于现有的注意力模型。
  3. 长视频理解的优越性 (Superiority in Long-term Video Understanding): VideoMamba 的线性复杂度使其在处理长视频时比 Transformer 快6倍，内存消耗减少40倍 (见下图 Figure 1)。它能够进行端到端的长视频训练，性能显著超越了依赖预提取特征的传统方法。
  4. 多模态兼容性 (Compatibility with Other Modalities): 在视频-文本检索等多模态任务中，VideoMamba 表现出强大的能力，尤其在处理长视频和复杂场景时，其性能优于基于 ViT 的同类模型。
    
    $Fig. 1: Comparisons of throughput and memory. The TimeSformer-Ti \[4\] is built based on DeiT-Ti \[75\] with joint spatiotemporal attention. All the input frames are sized to $2 2 4 \\times 2 2 4$ The tes…$ 该图像是图表，展示了VideoMamba-Ti与TimeSformer-Ti在视频帧数不同情况下的吞吐率（左图，单位img/s）和显存使用（右图，单位G）。测试采用分辨率224×224，批量大小128，在NVIDIA A100-80G GPU上进行。结果显示VideoMamba在吞吐率和显存方面均优于TimeSformer，且在长视频帧数下优势更加显著，分别提升了2至6倍的速度和20至40倍的显存效率。图中小插图对比了两者在不同任务上显存OOM的问题，进一步凸显VideoMamba的高效性。

上图展示了 VideoMamba-Ti 与 TimeSformer-Ti 在不同视频帧数下的吞吐率（左）和GPU显存占用（右）对比。结果清晰表明，随着视频帧数的增加，VideoMamba 的优势愈发明显，在64帧时实现了6倍的吞吐率提升和40倍的显存节省，验证了其在处理长视频上的巨大效率优势。

基础概念 (Foundational Concepts):
- 状态空间模型 (State Space Models, SSMs): SSM 是一种源于经典控制理论的数学模型，用于描述动态系统。它通过一个内部的、不可见的“状态”向量 $h(t)$ 来连接输入 $x(t)$ 和输出 $y(t)$ 。其连续形式由以下常微分方程 (ODE) 描述： $\begin{array} { l } { { h ^ { \prime } ( t ) = \mathbf { A } h ( t ) + \mathbf { B } x ( t ) , } } \\ { { y ( t ) = \mathbf { C } h ( t ) , } } \end{array}$ 其中， $h(t)$ 是隐藏状态， $x(t)$ 是输入， $y(t)$ 是输出。 $\mathbf{A}, \mathbf{B}, \mathbf{C}$ 是控制系统动态的矩阵。在深度学习中，这个连续系统被离散化，使其可以像循环神经网络 (RNN) 一样按步处理序列数据，但可以通过并行扫描 (Parallel Scan) 算法实现类似卷积神经网络 (CNN) 的高效并行训练。
- Mamba: Mamba 是对传统 SSM 的一次重大革新。它的核心是选择性扫描机制 (Selective Scan Mechanism, S6)。与传统 SSM 的矩阵 $\mathbf{A}, \mathbf{B}, \mathbf{C}$ 是固定不变的不同，Mamba 的参数 $\mathbf{B}, \mathbf{C}$ 以及离散化步长 $\Delta$ 是根据输入数据动态生成的。这赋予了模型“选择性”的能力，即可以根据输入内容动态地决定关注或遗忘哪些信息，从而在建模长距离依赖方面表现出色，同时保持线性计算复杂度。
- 视频理解 (Video Understanding): 计算机视觉的一个核心领域，旨在让机器理解视频内容，包括识别动作、检测事件、描述场景等。
前人工作 (Previous Works):
- 3D CNNs: 如 I3D、SlowFast 等模型，将 2D 图像卷积扩展到 3D 时空维度，直接从原始像素中学习时空特征。它们擅长捕捉局部运动模式，但受限于卷积核大小，难以建模长程依赖。
- 视频变换器 (Video Transformers): 如 TimeSformer、ViViT 等模型，将 Transformer 架构应用于视频。它们将视频切分成一系列时空块 (patches)，并利用自注意力机制捕捉所有块之间的关系。虽然全局建模能力强，但计算成本高昂。为了降低成本，常采用“时空分离注意力”等策略，但这会牺牲一定的性能。
- 视觉中的 Mamba 应用: 在 VideoMamba 之前，Mamba 已被应用于 2D 图像任务，如 Vision Mamba (Vim) 和 VMamba。这些工作通过设计二维扫描路径（如“Z字形”扫描）将 2D 图像转换为 1D 序列，再送入 Mamba 模块处理。VideoMamba 正是借鉴并扩展了这一思想。
技术演进 (Technological Evolution): 视频理解架构经历了从 局部建模 (CNNs) -> 全局建模 (Transformers) 的演进。CNN 高效但全局能力弱，Transformer 全局能力强但效率低。SSM（特别是 Mamba）的出现，提供了一条新的技术路线：高效的全局建模，有望结合两者的优点，特别是在长视频这一 Transformer 的“痛点”领域。
差异化分析 (Differentiation):
- 与 3D CNNs 相比: VideoMamba 通过其内在的循环机制和选择性扫描，能有效建模长距离时空依赖，弥补了 CNN 感受野有限的缺陷。
- 与 Video Transformers 相比: VideoMamba 的核心优势是线性复杂度。这使其在处理长视频时，速度更快、内存占用更低，实现了 Transformer 难以企及的效率。
- 与 Vim 和 VMamba 相比: VideoMamba 是一个纯粹的、各向同性 (isotropic) 的视频模型，严格遵循 ViT 的设计，没有 VMamba 中的下采样层和额外卷积。同时，它创新性地引入自蒸馏策略来解决大模型训练不稳定的问题，并专门为 3D 视频数据设计了时空扫描策略。

4. 方法论 (Methodology - Core Technology & Implementation Details)

方法原理 (Methodology Principles): VideoMamba 的核心思想是利用 Mamba 的 S6 算子高效地处理被展平的 3D 视频时空块序列。通过设计合适的扫描策略，将 3D 数据转换为 1D 序列，使其能够利用 Mamba 强大的长序列建模能力，同时保持计算效率。
方法步骤与流程 (Steps & Procedures): VideoMamba 的整体架构如下图所示，它严格遵循了 ViT 的设计范式。

$Fig. 3: Framework of VideoMamba. We strictly follow the architecture of vanilla ViT \[15\], and adapt the bidirectional mamba block \[91\] for 3D video sequences.$ 该图像是论文中VideoMamba模型的结构示意图，展示了基于ViT架构的Bidirectional Mamba Block处理3D视频序列的流程。左图(a)说明输入视频先进行3D分块嵌入，结合时空位置信息进入多层双向Mamba模块，最终由分类头输出动作类别。右图(b)以示意路径图形式说明双向时空扫描策略，包括“Forward Scan”和“Backward Scan”，用于捕获时空依赖。
1. 输入与分块 (Input & Patching): 输入视频 $\mathbf{X}^v \in \mathbb{R}^{3 \times T \times H \times W}$ (通道、帧数、高、宽) 首先被一个 3D 卷积层（核大小为 $1 \times 16 \times 16$ ）切分成一系列不重叠的时空块 (spatiotemporal patches)，得到 $\mathbf{X}^p \in \mathbb{R}^{L \times C}$ ，其中 $L = t \times h \times w$ 是块的总数。
2. 添加特殊 Token 与位置编码:
  - 在序列开头加入一个可学习的分类令牌 [CLS]。
  - 添加可学习的空间位置嵌入 $\mathbf{p}_s$ 和时间位置嵌入 $\mathbf{p}_t$ 。由于 SSM 对 Token 的位置顺序敏感，这一步至关重要。最终输入到编码器的序列为： $\mathbf { X } = [ \mathbf { X } _ { c l s } , \mathbf { X }^p ] + \mathbf { p } _ { s } + \mathbf { p } _ { t }$
3. VideoMamba 编码器: 序列 $\mathbf{X}$ 经过 L 个堆叠的 双向 Mamba 模块 (Bidirectional Mamba Block) 进行处理。
4. 分类头 (Classification Head): 最后，取最后一个模块输出的 [CLS] 令牌的表征，通过一个归一化层和线性层进行分类。
关键技术细节 (Key Technical Details):
- 双向 Mamba 模块 (Bidirectional Mamba Block, B-Mamba): 为了处理不具备天然顺序的视觉数据，VideoMamba 采用了 Vim 中提出的双向 Mamba 模块。如下图所示，它将输入序列复制一份，一份正向扫描，一份反向扫描，然后将两个方向的输出结果相加。这使得每个位置的 Token 都能聚合来自两个方向的信息，增强了空间感知能力。
  
  $Fig. 2: Mamba blocks for 1D \[25\] and 2D \[91\] sequence. We omit the initial normalization and the final residual for simplification.$ 该图像是示意图，展示了论文中提出的Mamba块的结构，包括(a) 一维序列的Mamba块和(b) 双向Mamba块。图中用绿色框表示序列变换模块（如Conv卷积和SSM状态空间模型），箭头表示数据流动，符号标明激活函数和乘法等操作，整体结构体现了线性投影、序列变换及残差连接的组合方式。
- 时空扫描 (Spatiotemporal Scan): 如何将 3D 时空块（ $t \times h \times w$ ）有效地转换为 1D 序列是关键。论文探索了多种扫描策略：
  
  $Fig. 4: Different scan methods. We omit the \[CLS\] token for simplification.$ 该图像是示意图，展示了四种不同的视频帧扫描路径方法：(a) 空间优先双向扫描、(b) 时间优先双向扫描、(c) 时空双向扫描v1和(d) 时空双向扫描v2。箭头表示扫描顺序，图中省略了[CLS]标记以简化说明。横轴为空间维度S，纵轴为时间维度T。
  - (a) 空间优先 (Spatial-First): 先按空间顺序（从左到右，从上到下）扫描完一帧内的所有块，然后再处理下一帧。这种方式类似于逐帧阅读，实验证明效果最好，因为它能更好地利用从 2D 图像预训练中获得的知识。
  - (b) 时间优先 (Temporal-First): 先扫描完每个空间位置上所有时间帧的块，再移动到下一个空间位置。
  - (c, d) 混合扫描 (Spatiotemporal): 结合了上述两种策略。实验结果表明，Spatial-First 这种简单直接的方式效果最佳。
- 自蒸馏 (Self-Distillation): 作者发现，当 VideoMamba 模型规模增大时（如从 Small 到 Base），会出现严重的过拟合现象，导致性能不升反降。为解决此问题，他们提出了一种简单的自蒸馏策略：用一个已经训练好的、较小的模型（如 VideoMamba-S）作为“教师”，来指导一个更大的模型（如 VideoMamba-M）的训练。具体做法是通过 L2 损失函数来约束学生模型和教师模型的最终输出特征图保持一致。这种方法有效缓解了过拟合，使得大模型能够正常收敛并取得更好的性能。
  
  该图像是图表，展示了自蒸馏（Self-Distillation）与提前停止（Early Stopping）对模型性能的消融研究。左图(a)显示自蒸馏能有效避免过拟合，使Top-1准确率随训练轮数稳步提升；右图(b)表明提前停止对性能提升无显著帮助，两者均以Top-1准确率随训练轮数的变化曲线形式呈现，并配有局部放大视图突出细节对比。
  
  上图 (a) 展示了自蒸馏的效果。没有自蒸馏的 VideoMamba-B 和 VideoMamba-M 性能不如 VideoMamba-S，而加入了自蒸馏 (w/ SD) 的 VideoMamba-M 则取得了预期的性能提升。
- 掩码建模 (Masked Modeling): 为了增强模型的时序敏感性，论文还探索了掩码建模预训练。受 UMT 等工作的启发，VideoMamba 被训练来重建被掩码的视频块。论文特别设计了与 Mamba 架构更兼容的掩码策略：
  
  该图像是示意图，展示了论文中多种视频帧掩码策略的对比：(a) 输入视频帧序列；(b) 随机掩码；(c) 管状掩码；(d) 以视频片段为单位的行掩码；(e) 以单帧为单位的行掩码；(f) 注意力掩码。每种掩码在时间和空间维度上覆盖的视频区域均不同，体现了其在视频建模中的差异和作用。
  
  实验发现，行掩码 (Row Masking) 和 注意力掩码 (Attention Masking) 的效果优于传统的 随机掩码 (Random Masking) 和 管状掩码 (Tube Masking)，因为它们保留了更多连续的、有意义的 Token，这与 Mamba 模块中 1D 卷积的特性更契合。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):
- 图像分类 (Image Classification): ImageNet-1K，用于基础模型的预训练和性能评估。
- 短期视频理解 (Short-term Video Understanding):
  - Kinetics-400 (K400): 场景相关的通用动作识别数据集，视频长度约10秒。
  - Something-Something V2 (SthSthV2): 时序关系敏感的数据集，包含大量需要理解物体交互和运动方向的动作，视频长度约4秒。
- 长期视频理解 (Long-term Video Understanding):
  - Breakfast: 包含10种烹饪活动的视频，平均时长超过2分钟。
  - COIN: 包含180种程序性任务的教学视频，平均时长约2.36分钟。
  - Long-form Video Understanding (LVU): 包含约3万个电影片段，时长1-3分钟，涵盖9个不同的理解任务。
- 多模态视频理解 (Multi-modality Video Understanding):
  - 预训练数据: WebVid-2M (视频-文本对), CC3M (图像-文本对)。
  - 评估数据: MSRVTT, DiDeMo, ActivityNet, LSMDC, MSVD (用于零样本视频-文本检索任务)。
评估指标 (Evaluation Metrics):
- Top-k 准确率 (Top-k Accuracy):
  1. 概念定义: 这是分类任务中最常用的指标。Top-1 Accuracy 指的是模型预测的概率最高的类别与真实类别完全一致的样本比例。Top-5 Accuracy 指的是模型预测的概率最高的5个类别中，只要有一个包含了真实类别，就算预测正确，这个指标衡量了模型将正确答案排在靠前位置的能力。
  2. 数学公式: $\text{Top-k Acc} = \frac{1}{N} \sum_{i=1}^{N} \mathbb{I}(y_i \in \text{top}_k(\hat{y}_i))$
  3. 符号解释:
    - $N$ : 样本总数。
    - $y_i$ : 第 $i$ 个样本的真实标签。
    - $\hat{y}_i$ : 模型对第 $i$ 个样本的预测输出（通常是一个概率分布向量）。
    - $\text{top}_k(\hat{y}_i)$ : 模型预测概率最高的 $k$ 个类别组成的集合。
    - $\mathbb{I}(\cdot)$ : 指示函数，当条件为真时值为1，否则为0。
- 均方误差 (Mean-Squared Error, MSE):
  1. 概念定义: 这是回归任务中常用的损失函数和评估指标。它计算的是模型预测值与真实值之间差值的平方的平均值。MSE 值越小，说明模型的预测越接近真实值。在 LVU 数据集的 User engagement 任务中被用作评估指标。
  2. 数学公式: $\text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2$
  3. 符号解释:
    - $N$ : 样本总数。
    - $y_i$ : 第 $i$ 个样本的真实值（一个标量）。
    - $\hat{y}_i$ : 模型对第 $i$ 个样本的预测值。
- 召回率@k (Recall@k, R@k):
  1. 概念定义: 这是信息检索任务（如文-视频检索）中的核心指标。它衡量的是在前 $k$ 个检索结果中，包含了正确（相关）的项目的查询比例。例如，R@1 表示排名第一的结果就是正确的查询比例；R@5 表示排名前五的结果中包含正确项的查询比例。
  2. 数学公式: $\text{Recall@k} = \frac{1}{|Q|} \sum_{q \in Q} \mathbb{I}(\text{rel}_q \cap \text{ret}_k(q) \neq \emptyset)$
  3. 符号解释:
    - $|Q|$ : 查询的总数。
    - $q$ : 一个具体的查询实例（例如一段文本）。
    - $\text{rel}_q$ : 与查询 $q$ 相关的真实项目集合（例如对应的视频）。
    - $\text{ret}_k(q)$ : 模型为查询 $q$ 返回的前 $k$ 个结果的集合。
    - $\mathbb{I}(\cdot)$ : 指示函数。
对比基线 (Baselines): 论文与多种主流架构进行了比较，包括：
- CNNs: ConvNeXt, SlowFast, X3D
- Transformers: DeiT, Swin Transformer, TimeSformer, ViViT
- CNN+Transformer 混合模型: UniFormer, MViT
- SSM 混合模型: VMamba
- 自监督/掩码建模方法: VideoMAE, ST-MAE, UMT
- 长视频理解方法: ViS4mer, Turbo

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis):

图像分类与可扩展性 (Table 2): 以下为 ImageNet-1K 上的性能对比表格（转录自原文 Table 2）。

Arch.	Model	iso.	InputSize	#Param(M)	FLOPs(G)	IN-1KTop-1
SSM	VideoMamba-Ti	√	224²	7	1.1	76.9
	VideoMamba-S	√	224²	26	4.3	81.2
	VideoMamba-M	√	224²	74	12.7	82.8
	VideoMamba-M	√	576²	75	83.1	84.0

分析: VideoMamba-M 在224分辨率下达到 82.8% 的 Top-1 准确率，超越了同为各向同性架构的 DeiT-B (81.8%) 和 ConvNeXt-B (82.0%)。通过提升分辨率到576，准确率进一步提升至 84.0%，展示了其强大的扩展潜力。这证明了自蒸馏策略的有效性，并为后续视频任务提供了坚实的预训练基础。

短期视频理解 (Table 3 & 4):
- Kinetics-400 (场景相关): VideoMamba-M (32帧, 224分辨率) 取得了 82.4% 的 Top-1 准确率，显著优于 TimeSformer-L (80.7%) 和 ViViT-L (81.3%)。通过增加帧数和分辨率，性能可达 83.3%。
- SthSthV2 (时序相关): VideoMamba-M (16帧, 224分辨率) 取得了 68.3% 的 Top-1 准确率，大幅领先 TimeSformer-HR (62.5%) 和 ViViT-L (65.4%)。这表明 VideoMamba 对细微的运动和时序关系具有出色的建模能力。
- 自监督预训练: 经过掩码建模预训练的 VideoMamba-M 在 K400 和 SthSthV2 上性能进一步提升，分别达到 83.9% 和 71.0%，超越了同等设置下的 VideoMAE，证明了 Mamba 架构与掩码建模任务的兼容性和潜力。

长期视频理解 (Table 6 & 7): 以下为 Breakfast 和 COIN 数据集上的性能对比表格（转录自原文 Table 6）。

Method	e2e	Backbone	Pretraining Dataset	BF Top-1	COIN Top-1
ViS4mer [35]	×	Swin-B	IN-21K+K600	88.2	88.4
Turbo† [29]	✓	VideoMAE-B	K400+HTM-AA	91.3	87.5
VideoMamba† (f64)	✓	VideoMamba-M	K400	96.9	90.4

分析: VideoMamba 凭借其效率优势，可以进行端到端 (e2e) 的长视频训练，而无需像 ViS4mer 那样先提取特征。在 Breakfast 数据集上，VideoMamba-M (经过掩码预训练，64帧输入) 达到了惊人的 96.9% 准确率，远超所有基线。在 COIN 数据集上也取得了 90.4% 的 SOTA 性能。这强有力地证明了 VideoMamba 在长视频理解领域的巨大优势。

多模态视频理解 (Table 8): 在5个视频-文本检索基准上，VideoMamba 在同等预训练数据量下，性能全面优于基于 ViT 的 UMT 模型。特别是在视频较长、场景较复杂的 ActivityNet 和 DiDeMo 数据集上，优势更为明显。这表明 VideoMamba 强大的长序列建模能力同样适用于多模态的对齐任务。

消融实验/参数分析 (Ablation Studies / Parameter Analysis):
- 扫描策略 (Fig. 7a): 实验对比了不同的扫描方法，Spatial-First 取得了 65.1% 的准确率，效果最好；而 Temporal-First 效果最差 (62.4%)。这证实了优先扫描空间维度，能更好地利用 2D 预训练权重。
- 帧数与分辨率 (Fig. 7b): 在 K400 上，增加帧数能持续带来性能提升。但在视频时长很短的 SthSthV2 上，帧数过多反而效果下降。这说明输入长度需要与任务特性相匹配。
- 掩码预训练 (Table 5):
  - 掩码类型: Attention Masking (68.5%) 和 Clip-Row Masking (68.2%) 效果最好，优于 Random (67.4%) 和 Tube (66.3%)。
  - 对齐层: 只对齐最后一层 (Last 1) 的输出效果最好 (68.5%)。
  - 掩码率: 80% 的掩码率是最佳选择 (68.5%)。

7. 总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary): VideoMamba 成功地将 Mamba 这一高效序列模型引入视频理解领域，提出了一种纯粹基于 SSM 的新架构。该模型不仅在效率上（速度、内存）远超 Video Transformer，而且在性能上也表现出色，特别是在长视频理解和细粒度动作识别方面树立了新的标杆。通过引入自蒸馏策略，论文还解决了 Mamba 模型在视觉领域扩展时遇到的过拟合难题，展示了其作为通用视频骨干网络的巨大潜力。
局限性与未来工作 (Limitations & Future Work): 作者坦诚地指出了当前工作的局限性：
- 模型规模: 由于资源限制，未能将 VideoMamba 扩展到更大尺寸（如 VideoMamba-g 级别）。
- 模态融合: 未能集成更多模态，如音频。
- 与大语言模型 (LLM) 的结合: 未能探索 VideoMamba 与 LLM 的结合，以实现对小时级别超长视频的理解。这些都是未来值得探索的方向。
个人启发与批判 (Personal Insights & Critique):
- 启发:
  1. 架构创新的新范式: VideoMamba 的成功表明，源于 NLP 的高效序列模型可以成为替代 Transformer 的有力竞争者，为计算机视觉，特别是视频处理，开辟了新的架构设计思路。线性复杂度的模型有望成为处理海量、长时序视频数据的基石。
  2. 简单策略的有效性: 论文提出的“空间优先扫描”和“自蒸馏”策略都非常简单，但却异常有效。这提醒我们，在设计复杂模型时，有时回归简单、符合直觉的解决方案反而能取得突破。
  3. 模型与任务的匹配: 消融实验揭示了输入长度、分辨率等超参数与具体任务（如 K400 vs. SthSthV2）的强相关性，这对于方法的实际应用具有重要的指导意义。
- 批判性思考:
  1. 空间归纳偏置的缺失: Mamba 的核心是 1D 扫描，虽然通过双向和多策略扫描进行了弥补，但它是否会像 CNN 的卷积或 Swin Transformer 的窗口注意力那样，天然地具备强大的局部空间归纳偏置 (inductive bias)？在一些需要精细空间结构理解的任务上（如目标检测、分割），纯 Mamba 架构可能仍然面临挑战。
  2. 可解释性: Mamba 的选择性机制虽然强大，但其内部状态的动态变化可能比 Transformer 的注意力图更难解释，这可能会影响其在一些高可靠性要求场景中的应用。
  3. “银弹”还是“补充”?: VideoMamba 在长视频上表现卓越，但在短视频或图像任务上，其相对于成熟的 Swin Transformer 或 ConvNeXt 的优势并不总是压倒性的。未来，Mamba 更有可能作为一种强大的构建模块，与 CNN 和 Transformer 结合，形成更高效、更全能的混合架构，而不是完全取代它们。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。