论文状态：已完成

Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers

发表：2023/08/26

视觉 transformer 时序冗余利用 (1)视频对象检测优化 (1)动作识别加速方法 (1)动态计算控制机制 (1)Eventful Transformers 模型 (1)

价格：0.100000

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文旨在解决视觉Transformer在视频处理中计算开销巨大的问题，通过提出“事件驱动型Transformer”系列模型，核心贡献在于有效利用了视频帧间的时间冗余。其关键方法是智能识别并仅重新处理那些在时间维度上发生显著变化的视觉token。实验结果表明，该方法在视频目标检测和动作识别等大规模任务中，能在准确率仅轻微下降的情况下，实现2-4倍的显著计算量节省，并支持从现有模型转换且无需大规模重训练，同时允许运行时自适应控制计算成本。

摘要

Vision Transformers achieve impressive accuracy across a range of visual recognition tasks. Unfortunately, their accuracy frequently comes with high computational costs. This is a particular issue in video recognition, where models are often applied repeatedly across frames or temporal chunks. In this work, we exploit temporal redundancy between subsequent inputs to reduce the cost of Transformers for video processing. We describe a method for identifying and re-processing only those tokens that have changed significantly over time. Our proposed family of models, Eventful Transformers, can be converted from existing Transformers (often without any re-training) and give adaptive control over the compute cost at runtime. We evaluate our method on large-scale datasets for video object detection (ImageNet VID) and action recognition (EPIC-Kitchens 100). Our approach leads to significant computational savings (on the order of 2-4x) with only minor reductions in accuracy.

思维导图

论文精读

中文精读约 15 分钟读完 · 9,164 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers (事件驱动型 Transformer：利用视觉 Transformer 中的时间冗余)
作者 (Authors): Matthew Dutson, Yin Li, and Mohit Gupta (均来自威斯康星大学麦迪逊分校)
发表期刊/会议 (Journal/Conference): 本文为预印本 (Preprint)，发布于 arXiv。通常，这类高质量工作会投递至顶级的计算机视觉会议，如 CVPR, ICCV, ECCV 或机器学习会议 NeurIPS, ICML。
发表年份 (Publication Year): 2023
摘要 (Abstract): 视觉 Transformer (Vision Transformers) 在多种视觉识别任务中取得了优异的准确率，但这通常伴随着高昂的计算成本，在需要对视频帧或片段进行重复处理的视频识别任务中尤为突出。本文利用连续输入之间的时间冗余来降低 Transformer 在视频处理中的成本。作者提出了一种方法，用于识别并仅重新处理那些随时间发生显著变化的 token。这个名为 Eventful Transformers 的模型系列可以从现有的 Transformer 模型转换而来（通常无需重新训练），并能在运行时自适应地控制计算成本。该方法在视频目标检测 (ImageNet VID) 和动作识别 (EPIC-Kitchens 100) 的大规模数据集上进行了评估，结果表明，该方法在准确率仅有轻微下降的情况下，带来了显著的计算节省（约 2-4 倍）。
原文链接 (Source Link):
- 官方来源 (arXiv): https://arxiv.org/abs/2308.13494
- PDF 链接: http://arxiv.org/pdf/2308.13494v1
- 发布状态: 预印本 (Preprint)。

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题： 视觉 Transformer (ViT) 模型虽然性能强大，但计算量巨大。在视频处理任务中，模型需要逐帧或逐片段运行，这使得高昂的计算成本问题被进一步放大，限制了其在资源受限或对延迟敏感的设备（如移动设备、边缘计算平台）上的部署。
- 重要性与空白 (Gap)： 自然视频的相邻帧之间通常存在大量时间冗余 (Temporal Redundancy)，即大部分场景内容保持不变，只有少量区域发生变化。然而，标准模型在处理每一帧时都“从零开始”进行全部计算，完全忽略并浪费了前一帧的计算结果，这是极其低效的。此外，现实应用中的计算资源可能是动态变化的，因此需要模型具备在运行时自适应调整 (Adaptive Inference) 计算量的能力，而大多数 ViT 模型计算成本是固定的。
- 创新思路： 本文的切入点是模仿事件相机 (Event Camera) 的工作原理——只响应变化。作者提出，可以通过识别和更新模型中那些表示了场景显著变化的 token，来跳过对静态背景 token 的重复计算，从而大幅节省算力。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出了 Eventful Transformers 框架： 这是一种新颖的 Transformer 模型，通过引入门控机制 (Gating Mechanism) 来利用视频中的时间冗余。它可以识别出随时间变化不大的 token，并复用它们之前的计算结果，只对变化显著的 token 进行更新。
- 实现了对 Transformer 核心算子的全面加速： 与之前仅关注 token 级别操作的工作不同，本文的方法不仅加速了多层感知机 (MLP) 等 token 级别的运算，还创新性地提出了针对计算瓶颈——自注意力机制 (Self-Attention) 中矩阵乘法（query-key 乘积和 attention-value 乘积）的稀疏更新策略。
- 提供了即插即用且自适应的解决方案： 该方法可以直接应用于现有的、预训练好的 ViT 模型，大多数情况下无需重新训练，极大地降低了使用门槛。同时，通过调整一个简单的超参数，用户可以在运行时动态控制计算预算，实现效率和精度的灵活权衡。
- 验证了显著的性能提升： 在视频目标检测和动作识别任务上，Eventful Transformers 实现了 2-4 倍的计算量节省，而模型精度仅有微小的下降，证明了该方法的有效性和实用性。

基础概念 (Foundational Concepts):
- 视觉 Transformer (Vision Transformer, ViT): 一种将 Transformer 架构应用于计算机视觉任务的模型。其标准流程是：1) 将输入图像分割成一系列固定大小的图像块 (Patches)；2) 将每个图像块线性地映射为一个向量，称为 token；3) 为这些 token 添加位置编码 (Positional Embedding) 以保留空间信息；4) 将 token 序列送入标准的 Transformer 编码器中进行处理。
- Transformer 模块 (Transformer Block): ViT 的核心构建单元。每个模块通常由两个主要部分组成：一个多头自注意力 (Multi-Headed Self-Attention, MSA) 层和一个多层感知机 (Multilayer Perceptron, MLP)。每个部分都伴随着层归一化 (Layer Normalization, LN) 和残差连接 (Residual Connection)。MSA 负责捕捉 token 之间的全局依赖关系，而 MLP 对每个 token 进行独立的非线性变换。
- 时间冗余 (Temporal Redundancy): 指在视频序列中，相邻帧之间的大部分内容是相同或高度相似的。例如，在一段固定机位的监控视频中，背景几乎不变，只有行人和车辆在移动。利用这种冗余可以避免对不变内容进行重复计算。
- 自适应推理 (Adaptive Inference): 指模型能够在推理（即预测）阶段根据可用的计算资源或输入数据的复杂度动态调整其计算量。这对于在资源波动的设备上部署模型至关重要。
前人工作 (Previous Works):
- 高效 Transformer (Efficient Transformers): 许多工作致力于降低自注意力机制 $O(N^2)$ 的复杂度，例如使用稀疏注意力或低秩近似。本文的方法与这些工作是正交的 (Orthogonal)，可以结合使用。
- 空间冗余利用 (Spatial Redundancy): 一些工作通过修剪或融合图像内部的冗余 token 来提升效率（如 Adaptive Token Sampling）。本文与之不同，关注的是视频帧之间的时间冗余，二者可以互补。
- 时间冗余利用 (Temporal Redundancy):
  - 在 CNNs 中： 已有研究利用帧间差异来加速卷积神经网络 (CNNs)，但这些方法因架构差异无法直接用于 Transformer。
  - 在 ViTs 中： 与本文最相关的工作是 Spatio-temporal Gated Transformers (STGT)。但 STGT 存在两个主要局限：1) 它只加速了 MLP 等 token 级别的操作，没有解决自注意力这个计算瓶颈；2) 其门控逻辑存在信息损失，可能在渐变场景中导致精度持续下降。本文提出的方法解决了这两个问题。
差异化分析 (Differentiation):
- 相较于空间冗余方法： 本文关注的是“跨时间”的冗余，而非“单帧内”的冗余，这是一个不同的维度。
- 相较于 STGT： 本文的核心创新在于：1) 全面加速，首次提出了加速自注意力中 query-key 和 attention-value 矩阵乘法的稀疏更新方案；2) 更优的门控逻辑，采用基于参考 token 的无损更新机制，避免了 STGT 的累积误差问题。
- 相较于多数自适应网络： 本文的方法通常无需重新训练，且专注于利用视频的特性，适用范围更广。

4. 方法论 (Methodology - Core Technology & Implementation Details)

Eventful Transformers 的核心思想是在标准的 Transformer 模块中嵌入门控 (Gating) 和缓冲 (Buffering) 机制，以实现对 token 的选择性更新。

4.1. Token 门控：检测冗余

为了识别哪些 token 发生了显著变化，作者设计了 Gate 和 Buffer 两个核心模块。

门控模块 (Gate module):
- 原理： 该模块的核心任务是比较当前帧的输入 token 和一个存储在内存中的参考 token (Reference tokens)，并筛选出差异较大的 token 进行更新。
- 流程 (见下图 4)：
  1. 计算误差 (Compute error): 模块维护一个参考张量 $\pmb{u}$ ，它存储了每个 token 上一次被更新时的值。当新的输入 token $\pmb{c}$ 到达时，首先计算误差 $e = \pmb{u} - \pmb{c}$ 。
  2. 应用选择策略 (Apply selection policy): 根据误差 $e$ 应用一个策略（如选择误差最大的前 r 个），生成一个二进制掩码 $\pmb{m}$ ，标记哪些 token 需要更新。
  3. 提取选中 token (Extract selected tokens): 使用掩码 $\pmb{m}$ 从当前输入 $\pmb{c}$ 中“收集”(gather) 出需要更新的 token，得到一个更小的张量 $\tilde{\pmb{c}}$ （大小为 $M \times D$ ，其中 $M \le N$ ）。这个 $\tilde{\pmb{c}}$ 就是门控的输出。
  4. 更新参考 token (Update reference tokens): 将被选中的新 token 的值“散布”(scatter) 回参考张量 $\pmb{u}$ 中对应的位置，以备下一帧使用。未被选中的 token 在 $\pmb{u}$ 中的值保持不变。
    
    该图像是示意图，展示了论文中“Token Gating”（令牌门控）方法的四个步骤：1）计算当前令牌与参考令牌之间的误差；2）根据误差应用选择策略生成掩码；3）提取需要更新的令牌作为输出；4）利用掩码更新参考令牌以备下一次比较。图中以分块的羊的图像表示了令牌的选择和更新过程。
缓冲模块 (Buffer module):
- 原理： Buffer 模块与 Gate 模块配对使用，负责将稀疏更新的结果合并回一个完整的 token 张量中。
- 流程 (见下图 5)： 它维护一个状态张量 $\pmb{b}$ ，存储了所有 token 的最新值。当接收到经过一系列操作后的稀疏 token $f(\tilde{\pmb{c}})$ 时，它将这些 token “散布”(scatter) 回 $\pmb{b}$ 中对应的位置，然后输出更新后的完整张量 $\pmb{b}$ 。
  
  $Figure 3. Accelerating token-wise operations. The gate reduces the number of active tokens from $N$ to $M$ .Subsequent token-wise operations operate on a smaller tensor and therefore have a lower com…$ 该图像是示意图，展示了通过门控机制减少活跃token数量（由 $N$ 降低到 $M$ ）的过程。图中先由Gate模块选择性收集（Gather）部分token，经过Token-wise操作后，再通过Buffer模块将结果分散（Scatter）回原始结构，从而降低计算开销。

4.2. 构建时序冗余感知的 Transformer

作者将上述门控和缓冲模块集成到 Transformer 模块的各个计算环节，如下图 1 所示，实现了端到端的加速。

该图像是一个流程示意图，展示了Eventful Transformers中针对视频处理的改进Transformer操作流程。图中用不同形状和颜色模块区分了现有Transformer操作、门控模块、缓存模块和增量门控模块，突出说明了稀疏计算（行稀疏和列稀疏）和矩阵乘法的执行顺序，反映了该方法通过选择性处理显著变化的token来节省计算资源的机制。

加速 token 级操作 (Token-wise operations):
- 对于 MLP 和自注意力中的线性变换（如 $W_{qkv}$ 和 $W_p$ ）这类 token 之间独立计算的操作，处理起来最简单。在这些操作前后分别插入 Gate 和 Buffer 模块。Gate 将 token 数量从 $N$ 减少到 $M$ ，后续计算量也随之按比例 N/M 下降。
加速 query-key 乘积 ( $B=qk^T$ ):
- 原理： query-key 乘积是自注意力中的核心计算瓶颈。矩阵 $B$ 中的元素 $B_{ij}$ 仅当 query 的第 $i$ 行 ( $q_i$ ) 或 key 的第 $j$ 行 ( $k_j$ ) 发生变化时才需要更新。因此，我们只需计算变化的行和列对应的子矩阵。
- 流程：
  1. 设 $\tilde{\pmb{q}}$ 和 $\tilde{\pmb{k}}$ 是由门控筛选出的已更新的 query 和 key token。
  2. 更新由 q 变化引起的行： 计算 $\tilde{\pmb{q}}\pmb{k}^T$ ，这是一个 $M \times N$ 的小矩阵。然后将结果按行 scatter 回完整的 $N \times N$ 注意力矩阵 $B$ 的相应位置。
  3. 更新由 k 变化引起的列： 计算 $\pmb{q}\tilde{\pmb{k}}^T$ ，这是一个 $N \times M$ 的小矩阵。然后将结果按列 scatter 回矩阵 $B$ 的相应位置。
- 成本分析： 原始计算成本为 $O(N^2D)$ ，而稀疏更新的成本约为 $O(2NMD)$ ，当更新的 token 数量 $M < N/2$ 时，即可实现计算节省。
加速 attention-value 乘积 (Av):
- 原理： 即使只有少数 value token ( $\pmb{v}$ ) 发生变化，由于注意力矩阵 $A$ 是稠密的，最终输出 Av 的几乎所有元素都会改变。因此，不能简单地只更新部分元素。本文创新地提出了基于增量 (delta-based) 的更新策略。
- 数学公式与关键细节: 令下标 $o$ 代表旧值 (old)， $n$ 代表新值 (new)， $\Delta$ 代表变化量。我们有 $A_n = A_o + A_\Delta$ 和 $\pmb{v}_n = \pmb{v}_o + \pmb{v}_\Delta$ 。目标是计算 $A_n \pmb{v}_n$ 。 $\begin{aligned} A_n \pmb{v}_n &= (A_o + A_\Delta)(\pmb{v}_o + \pmb{v}_\Delta) \\ &= A_o \pmb{v}_o + A_o \pmb{v}_\Delta + A_\Delta \pmb{v}_o + A_\Delta \pmb{v}_\Delta \\ &= A_o \pmb{v}_o + A_n \pmb{v}_\Delta + A_\Delta \pmb{v}_n - A_\Delta \pmb{v}_\Delta \end{aligned}$ 这个公式的含义是，新的结果可以通过旧的结果 $A_o \pmb{v}_o$ 加上三个增量项得到。这三个增量项都涉及到稀疏矩阵 $A_\Delta$ 或 $\pmb{v}_\Delta$ ，因此可以高效计算。
- 流程 (见下图 6)：
  1. 使用一种特殊的 delta gate 来同时获取新值 ( $A_n, \pmb{v}_n$ ) 和变化量 ( $A_\Delta, \pmb{v}_\Delta$ )。
  2. 在计算三个增量项的乘积时，通过移除稀疏矩阵中的零行和零列来大幅减少实际的计算量。
  3. 最终将计算出的总增量加到上一时刻的结果上。
    
    $Figure 6. The attention-value product. We propose a delta-based strategy for sparsely updating the product `_ { A v }` We reduce the cost of each sub-product by cutting rows and columns that do not c…$ 该图像是示意图，展示了基于增量（delta）策略稀疏更新注意力-值乘积的过程。图中通过矩阵行列的裁剪，避免了零乘法运算，从而减少计算开销。不同颜色标注分别对应注意力更新、值更新、联合更新、无更新及非零相关行列。公式涉及矩阵相乘和增量拆解。
- 成本分析： 原始计算成本为 $O(N^2D)$ ，该方法的成本约为 $O(2NMD)$ ，同样在 $M < N/2$ 时实现节省。

4.3. `Token` 选择策略

Top-r 策略:
- 描述: 选择误差 $e$ 的 L2 范数最大的 r 个 token 进行更新。
- 优缺点: r 是一个直接控制计算量的参数，易于调节，可以实现固定的计算预算。这是本文实验中主要使用的策略。
阈值策略 (Threshold policy):
- 描述: 选择误差 $e$ 的 L2 范数超过某个阈值 h 的所有 token。
- 优缺点: 计算量会根据场景的动态程度自适应变化，可能在精度和成本之间取得更好的平衡。但阈值 h 难以设定，且无法保证固定的计算成本。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):
- 视频目标检测: ImageNet VID (ILSVRC 2015)。这是一个大规模数据集，用于评估视频中的目标检测性能。验证集包含 555 个视频。
- 视频动作识别: EPIC-Kitchens 100。这是一个包含第一人称视角（egocentric）视频的数据集，场景动态性强，用于评估动作识别（如动词分类）任务。
评估指标 (Evaluation Metrics):
- mAP50 (mean Average Precision at IoU=0.5):
  1. 概念定义 (Conceptual Definition): 这是目标检测任务中最常用的评估指标之一。它衡量的是模型检测框的准确性和召回率的综合性能。IoU (Intersection over Union) 是指预测框与真实框的交并比，用于判断一个检测是否正确。mAP50 表示在 IoU 阈值为 0.5 的标准下，计算所有类别的平均精度 (Average Precision, AP)，然后再对这些 AP 值求平均。分数越高，代表模型的检测性能越好。
  2. 数学公式 (Mathematical Formula): $\text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}, \quad \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}$ AP 是通过在不同召回率水平下对精度进行积分（即计算 Precision-Recall 曲线下的面积）得到的： $\text{AP} = \int_0^1 p(r) dr$ mAP 则是对所有 $C$ 个类别的 AP 求平均值： $\text{mAP} = \frac{1}{C} \sum_{i=1}^{C} \text{AP}_i$
  3. 符号解释 (Symbol Explanation): TP (True Positive) 是正确检测到的目标数量；FP (False Positive) 是错误检测（将背景或错误物体识别为目标）；FN (False Negative) 是漏掉的目标数量； $p(r)$ 是召回率为 $r$ 时的精度。
- Top-1 Accuracy:
  1. 概念定义 (Conceptual Definition): 这是分类任务中最直观的评估指标。它衡量的是模型预测的最可能类别与真实类别完全一致的样本比例。在动作识别中，即模型预测的动作类别恰好是正确答案的视频所占的百分比。
  2. 数学公式 (Mathematical Formula): $\text{Top-1 Accuracy} = \frac{\text{Number of correctly classified samples}}{\text{Total number of samples}}$
  3. 符号解释 (Symbol Explanation): “正确分类的样本”指模型输出的概率最高的类别与该样本的真实标签一致。
对比基线 (Baselines):
- Base model: 原始的、未作任何修改的 ViT 模型（ViTDet 和 ViViT）。
- STGT: Spatiotemporal Gated Transformers，最相关的先前工作。由于其代码未开源，作者实现了一个简化版进行公平比较。
- Token-wise only: 本文方法的一个消融版本，只加速 MLP 等 token 级操作，而不加速自注意力机制，用以验证加速自注意力的贡献。

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis):
- 视频目标检测 (ViTDet on VID):
  - 计算节省与精度权衡 (见下图 7): 结果表明，随着更新 token 数量 r 的减少，计算节省率（Savings ratio）显著提升，而 mAP50 的下降则相对平缓。例如，在 1024 分辨率下，当 r=768（更新约 1/5 的 token）时，计算量降低了 3.8 倍，而 mAP50 仅从 82.93% 下降到 81.25%（绝对值下降 1.68%），展示了极高的效率。
    
    $Figure 7. Video object detection results. Computation savings ratio (positive axis) and relative reductions in mAP50 score (negative axis) for our method. Results are for the ViTDet model \[38\] on the…$ 该图像是图表，展示了不同大小（1024和672）输入下，更新的token数量对计算节省比率（绿色，上半部分）和mAP50准确率变化（红色，下半部分）的影响。横轴表示更新的token数，纵轴显示计算节省比率和相对mAP50变化，图中数据反映了随着token数减少，计算效率增加但准确率略有下降的趋势。
  - 与基线对比 (见下图 8): 本文的完整方法在精度-成本曲线上全面优于 STGT 和 Token-wise only 消融版本。这证明：1) 本文的门控和更新机制比 STGT 更有效；2) 加速自注意力机制是实现大幅计算节省的关键，仅加速 token 级操作是不够的。
    
    $Figure 8. Video object detection comparison and ablation. The accuracy-cost tradeoff for our method, compared with STGT \[37\] and an ablation that only accelerates token-wise operations. See the suppl…$ 该图像是两幅折线图，展示了视频目标检测任务中不同方法的准确率（mAP50%）与计算成本（GFLOPs）之间的权衡关系。上图为图像尺寸1024，下图为尺寸672。图中对比了基线模型、作者方法、仅加速Token操作的消融实验及STGT方法，作者方法在相同计算量下表现出更高准确率，体现了较佳的效率-效果平衡。
- 视频动作识别 (ViViT on EPIC-Kitchens):
  - 在动态场景下的表现 (见下图 9): 即便是在场景变化剧烈的 EPIC-Kitchens 数据集上，该方法依然有效。例如，当 r=140 时，计算量（TFlops）降低了 2.4 倍，而 Top-1 准确率仅下降 1.62%。
  - 模型适应性: 实验发现，尽管模型在 fine-tuning 时只使用了一个固定的 r 值，但在测试时改变 r 值，模型仍然能表现出良好的自适应能力，在不同的计算预算下都维持了较好的精度-成本权衡。
  - 需要 Fine-tuning: 作者提到，在 ViViT 模型上，为了恢复精度，需要对模型的后半部分（时间模块）进行微调。这是因为 Eventful 空间模块的输出分布发生了变化，需要让时间模块适应这种新的输入模式。
    
    $Figure 9. Video action recognition results. Our results for action recognition on EPIC-Kitchens 100 using the ViViT model \[1\]. We report the total TFlops per video (spatial $^ +$ temporal sub-models)…$ 该图像是图表，展示了不同参数r值调优后模型在EPIC-Kitchens 100动作识别任务上，随着计算量（TFLOPs）变化的准确率（Accuracy %）比较。图中包括基础模型及r=50、100、200三种调优模型的性能趋势。
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
- 与空间冗余方法的结合 (见下表 1): 作者进行了一个概念验证实验，将本文的时间冗余方法与一种简单的空间冗余方法（对 key 和 value 进行池化）相结合。结果显示，两种方法是互补的，结合后可以取得更大的计算节省。这证明了本文方法与其他效率提升技术结合的潜力。
  - 以下

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。