Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity

Song Han

论文状态：已完成

Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity

发表：2025/02/04

扩散模型加速 (1)视频生成Transformer (1)空间-时间稀疏性 (1)高效推理框架 (1)动态稀疏模式 (1)

原文链接 PDF 下载

价格：0.10

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

提出了一种名为Sparse VideoGen (SVG) 的视频生成框架，通过利用3D全注意力机制的稀疏性，显著提升推理效率。SVG通过动态分析注意力头，将其分为空间头和时间头，实现高达2.33倍的加速，保持生成质量，并开源代码。

摘要

Diffusion Transformers (DiTs) dominate video generation but their high computational cost severely limits real-world applicability, usually requiring tens of minutes to generate a few seconds of video even on high-performance GPUs. This inefficiency primarily arises from the quadratic computational complexity of 3D Full Attention with respect to the context length. In this paper, we propose a training-free framework termed Sparse VideoGen (SVG) that leverages the inherent sparsity in 3D Full Attention to boost inference efficiency. We reveal that the attention heads can be dynamically classified into two groups depending on distinct sparse patterns: (1) Spatial Head, where only spatially-related tokens within each frame dominate the attention output, and (2) Temporal Head, where only temporally-related tokens across different frames dominate. Based on this insight, SVG proposes an online profiling strategy to capture the dynamic sparse patterns and predicts the type of attention head. Combined with a novel hardware-efficient tensor layout transformation and customized kernel implementations, SVG achieves up to 2.28x and 2.33x end-to-end speedup on CogVideoX-v1.5 and HunyuanVideo, respectively, while preserving generation quality. Our code is open-sourced and is available at https://github.com/svg-project/Sparse-VideoGen

思维导图

论文精读

中文精读约 29 分钟读完 · 17,569 字

1. 论文基本信息

1.1. 标题

Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity

1.2. 作者

Haocheng Xi, Shuo Yang, Yilong Zhao, Chenfeng Xu, Muyang Li, Xiuyu Li, Yujun Lin, Han Cai, Jintao Zhang, Dacheng Li, Jianfei Chen, Ion Stoica, Kurt Keutzer, Song Han

1.3. 作者机构

加州大学伯克利分校 (University of California, Berkeley)
麻省理工学院 (Massachusetts Institute of Technology)
图森未来 (TuSimple)
清华大学 (Tsinghua University)

1.4. 发表年份

2025年2月3日 (UTC)

1.5. 摘要

扩散变换器 (Diffusion Transformers, DiTs) 在视频生成领域占据主导地位，但其高昂的计算成本严重限制了实际应用，即使在高性能 GPU 上，生成几秒钟的视频通常也需要数十分钟。这种低效率主要源于3D全注意力 (3D Full Attention) 随上下文长度呈二次方的计算复杂度。本文提出了一种名为 Sparse VideoGen (SVG) 的免训练 (training-free) 框架，该框架利用3D全注意力固有的稀疏性来提高推理效率。我们揭示了注意力头 (attention heads) 可以根据其独特的稀疏模式动态地分为两组：(1) 空间头 (Spatial Head)，其中只有帧内与空间相关的词元 (spatially-related tokens) 主导注意力输出；(2) 时间头 (Temporal Head)，其中只有跨帧与时间相关的词元 (temporally-related tokens) 主导。基于这一洞察，SVG 提出了一种在线分析策略 (online profiling strategy) 来捕获动态稀疏模式并预测注意力头的类型。结合新颖的硬件高效张量布局转换 (hardware-efficient tensor layout transformation) 和定制化核函数 (customized kernel implementations)，SVG 在 CogVideoX-v1.5 和 HunyuanVideo 上分别实现了高达 $2.28 \times$ 和 $2.33 \times$ 的端到端加速，同时保持了生成质量。我们的代码已开源，可在 https://github.com/svg-project/Sparse-VideoGen 获取。

1.6. 原文链接

原文链接 (arXiv abstract): https://arxiv.org/abs/2502.01776
PDF 链接: https://arxiv.org/pdf/2502.01776v2.pdf
发布状态: 预印本 (arXiv preprint)

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题： 视频生成领域的扩散变换器 (DiTs) 模型，尽管在生成高质量、时间一致的视频方面取得了显著进展，但其巨大的计算成本严重阻碍了在实际场景中的应用。具体而言，生成几秒钟的视频可能需要数十分钟甚至一个小时（例如 HunyuanVideo 生成5秒视频在 NVIDIA A100 GPU 上需要近一小时），这使得交互式或大规模部署变得不切实际。

为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白？

高计算成本： 视频生成模型中的3D全注意力 (3D Full Attention) 机制，其计算复杂度随上下文长度（即视频帧数和分辨率）呈二次方增长，导致注意力计算占据了总运行时间的绝大部分（对于长上下文，可超过80%）。这是主要的性能瓶颈。
现有稀疏注意力方法的局限性： 尽管在大型语言模型 (LLMs) 中，稀疏注意力 (sparse attention) 已被证明能有效降低计算冗余，但这些方法通常侧重于词元级别 (token-level) 的稀疏性，且无法直接应用于视频数据。视频数据具有独特的多模态性质和时空结构，其稀疏模式与文本数据存在根本性差异，导致现有方法无法有效利用视频数据的内在冗余。
硬件效率挑战： 即使理论上识别出稀疏模式，将其转化为实际的硬件加速也面临挑战。某些稀疏模式（如时间头中的非连续数据访问）对 GPU 的张量核心 (Tensor Core) 不友好，可能导致效率大幅下降。

这篇论文的切入点或创新思路是什么？ 本文的切入点在于深入分析视频 DiTs 中3D全注意力的内在稀疏性模式。作者发现，视频注意力头可以根据其功能动态地分为两种截然不同的稀疏模式：空间头 (Spatial Head) 和 时间头 (Temporal Head)。基于这一发现，论文提出了一种免训练框架，通过在线识别这些模式并结合硬件友好的优化，显著加速视频生成。

2.2. 核心贡献/主要发现

深入分析视频 DiTs 的稀疏模式： 首次揭示了视频 DiTs 中注意力头的两种固有稀疏注意力模式：空间头 (Spatial Head)（关注帧内空间关系）和 时间头 (Temporal Head)（关注跨帧时间关系），这对于高效视频生成至关重要。
提出 SVG 免训练稀疏注意力框架： 设计了一个名为 Sparse VideoGen (SVG) 的框架，该框架无需重新训练即可利用这些稀疏模式。SVG 包含：
- 高效在线分析策略 (Efficient Online Profiling Strategy)： 能够以最小开销（约3%）动态识别每个注意力头的最佳稀疏模式，即判断其属于空间头还是时间头。
- 高效推理系统 (Efficient Inference System)： 包含硬件高效的张量布局转换和定制化核函数 (customized kernels)，将理论上的稀疏性转化为实际的端到端加速。
显著提升视频生成效率和质量： SVG 在主流开源视频生成模型（如 CogVideoX-v1.5 和 HunyuanVideo）上实现了显著的端到端加速（高达 $2.33 \times$ ），同时保持了高质量的视频生成，PSNR 超过29。这优于所有现有基线方法，并为视频生成模型的实际应用铺平了道路。
兼容其他优化： SVG 与 FP8 量化 (quantization) 等技术兼容，可进一步提升效率而不牺牲质量。

3. 预备知识与相关工作

3.1. 基础概念

扩散变换器 (Diffusion Transformers, DiTs):
- 概念定义: DiTs 是结合了扩散模型 (Diffusion Models) 和变换器 (Transformers) 架构的生成模型。扩散模型通过逐步向数据添加噪声，然后学习如何逆转这个过程来生成数据。变换器模型，最初在自然语言处理领域取得巨大成功，通过其自注意力 (self-attention) 机制能够有效地建模长距离依赖关系。DiTs 将变换器应用于扩散模型的去噪步骤中，用变换器替代传统的 U-Net 架构，从而在图像和视频生成任务中实现了最先进的性能。
- 在视频生成中的应用: 在视频生成中，DiTs 通常将视频视为一系列图像帧，并使用3D注意力机制来同时捕获帧内空间关系和帧间时间关系。
3D 全注意力 (3D Full Attention):
- 概念定义: Attention 机制是变换器模型的核心。它允许模型在处理序列中的每个元素时，动态地权衡序列中其他元素的重要性。其基本思想是通过计算查询 (Query, $Q$ ) 与键 (Key, $K$ ) 的相似度，得到注意力分数 (attention scores)，然后用这些分数对值 (Value, $V$ ) 进行加权求和，从而得到输出。
- 计算公式 (通用 Attention): $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
  - 符号解释:
    - $Q$ : 查询矩阵，形状为 $[N_{query}, d_k]$ 。
    - $K$ : 键矩阵，形状为 $[N_{key}, d_k]$ 。
    - $V$ : 值矩阵，形状为 $[N_{key}, d_v]$ 。
    - $N_{query}$ : 查询的数量。
    - $N_{key}$ : 键和值的数量（通常等于序列长度）。
    - $d_k$ : 键和查询的维度。
    - $\mathrm{softmax}(\cdot)$ : 归一化函数，将注意力分数转换为概率分布。
    - $\sqrt{d_k}$ : 缩放因子，用于防止当 $d_k$ 较大时， $QK^T$ 的值过大导致 softmax 梯度消失。
- 3D 特性: 在视频生成中，3D全注意力意味着模型需要同时考虑空间维度（每个帧内的像素关系）和时间维度（跨帧的像素或特征关系）。传统的注意力机制通常处理一维序列。3D注意力将视频数据扁平化为长序列词元，然后对所有词元执行标准的自注意力计算。
- 计算复杂度: 对于一个包含 $N$ 帧、每帧有 $L$ 个词元（即分辨率为 $R \times R$ 时， $L = R \times R$ ）的视频，总词元长度为 $S = N \times L$ 。3D全注意力的计算复杂度为 $O(S^2)$ ，即 $O((NL)^2)$ 。当 $N$ 和 $L$ 增加时，这种二次方复杂度会导致计算量急剧上升，成为瓶颈。
稀疏注意力 (Sparse Attention):
- 概念定义: 稀疏注意力是一种优化技术，旨在降低全注意力 (Full Attention) 的计算成本。它通过识别并只计算序列中“重要”词元之间的注意力分数，而忽略或近似处理“不重要”词元之间的关系。这样可以避免计算所有词元对之间的注意力，从而将计算复杂度从二次方降低到更低的级别（例如线性或次二次方）。

3.2. 前人工作

论文将相关工作分为两类：高效扩散模型 (Efficient Diffusion Models) 和高效注意力方法 (Efficient Attention Methods)。

3.2.1. 高效扩散模型 (Efficient Diffusion Models)

减少去噪步骤 (Decreasing the denoising steps):
- 扩散模型通常需要大量的采样步骤 (sampling steps)。DDIM (Song et al., 2020) 将 SDEs (stochastic differential equations) 近似为 ODEs (ordinary differential equations)。后续工作如 DPM (Lu et al., 2022a)、 $DPM++$ (Lu et al., 2022b) 和 Rectified Flows (Liu et al., 2022; 2024c) 进一步改进了 ODE 路径和求解器。
- 蒸馏 (Distillation) 方法： Consistency Models (Song et al., 2023; Luo et al., 2023) 和其他蒸馏方法 (Yin et al., 2024a;b) 旨在训练更简单、步骤更少的模型。
- 与本文差异： 这些方法通常需要昂贵的重新训练 (re-training) 或微调 (fine-tuning)，这对于大多数视频使用场景来说并不实用。相比之下，SVG 直接使用现成的预训练模型，无需任何额外训练，这正是其“免训练 (training-free)”框架的关键优势。
扩散模型压缩 (Diffusion model compression):
- 权重压缩 (Weight compression)： 通过量化 (quantization) 减少模型大小和计算量是常见策略，例如将注意力模块量化到 INT8 (Zhang et al., 2025a) 甚至 $INT4/FP8$ (Zhang et al., 2024)。例如 Q-Diffusion (Li et al., 2023) 和 SVDQuant (Li* et al., 2025) 专注于扩散模型的量化。
- 高效架构 (Efficient architectures)： 提出了新的架构 (Xie et al., 2024; Cai et al., 2024; Chen et al., 2025) 或高压缩自编码器 (Chen et al., 2024a) 来提高性能。
- 与本文差异： Sparse VideoGen 与这些技术是正交的 (orthogonal)，意味着它可以与这些压缩技术结合使用，以获得额外的性能提升，例如 SVG 就兼容 FP8 量化。
高效系统实现 (Efficient system implementation):
- 系统级优化： 侧重于动态批处理 (dynamic batching) (Kodaira et al., 2023; Liang et al., 2024)、缓存 (caching) (Chen et al., 2024b; Zhao et al., 2024b) 或混合策略 (hybrid strategies) (Lv et al., 2024; Liu et al., 2024a)。例如 PAB (Zhao et al., 2024b) 是一种基于缓存的 DiT 加速算法。
- 与本文差异： 这些方法虽然可以提高吞吐量，但其输出质量通常会下降，PSNR 可能低于22。相比之下，SVG 在保持高输出保真度（PSNR 高于30）方面表现出色，显著优于这些方法。

3.2.2. 高效注意力方法 (Efficient Attention Methods)

大型语言模型 (LLMs) 中的稀疏注意力 (Sparse attention in LLMs):
- 不同稀疏模式： 针对 LLMs 的稀疏注意力研究揭示了多种模式来减少计算开销。StreamingLLM (Xiao et al., 2023) 和 LM-Infinite (Han et al., 2023) 发现注意力分数通常集中在最初的几个词元或局部词元上，强调了时间局部性。H2O (Zhang et al., 2023b)、Scissorhands (Liu et al., 2024d) 和 DoubleSparsity (Yang et al., 2024b) 识别出一小部分“重击手 (heavy hitter)”词元主导整体注意力分数。TidalDecode (Yang et al., 2024a) 表明跨层的注意力模式高度相关，而 DuoAttention (Xiao et al., 2024a) 和 MInference (Jiang et al., 2024) 展示了不同注意力头 (attention heads) 之间存在独特的稀疏模式。
- 与本文差异： 这些方法主要关注词元级别 (token-level) 的稀疏性，并且没有利用视频数据固有的冗余。视频数据具有独特的时空结构，SVG 正是利用了这种时空稀疏性，而这是现有 LLM 稀疏注意力方法所缺失的。
线性注意力 (Linear Attention) 和低位注意力 (Low-bit Attention):
- 线性注意力： 如 Performer (Choromanski et al., 2020) 和 Linformer (Wang et al., 2020) 等技术旨在将注意力复杂度从二次方降低到线性 (Cai et al., 2023; Xie et al., 2024; Yu et al., 2022; Katharopoulos et al., 2020)。
- 低位注意力： 如 SageAttention (Zhang et al., 2025a) 和 SageAttention2 (Zhang et al., 2024) 等方法通过在降低精度 (reduced precision) 下操作来加速注意力模块。
- 与本文差异： Sparse VideoGen 与这两种方法也是正交的。它可以与 FP8 注意力等技术结合，同时仍然受益于视频扩散模型中特定于视频的时空稀疏性。

3.3. 技术演进

视频生成领域从早期的2D图像生成模型逐渐演变到现在的3D视频生成模型，其中核心的注意力机制也从处理图像的2D注意力发展到同时处理时空信息的3D全注意力。随着视频长度、分辨率和帧数的增加，3D全注意力的计算负担日益加剧，成为了模型部署的主要瓶颈。

在这一背景下，学术界一直在探索如何提升注意力机制的效率。在大型语言模型 (LLM) 领域，稀疏注意力、线性注意力等技术已经取得了显著进展，通过减少不必要的注意力计算来加速推理。然而，这些技术未能充分考虑视频数据的独特时空特性。

本文的工作 (Sparse VideoGen) 正处在这一技术演络的关键节点：它将稀疏注意力的思想引入到视频扩散变换器中，但不仅仅是简单地应用 LLM 上的稀疏模式，而是通过深入分析视频数据的内在结构，识别出专为视频设计的两种独特稀疏模式（空间头和时间头），并结合硬件优化，将这些理论上的稀疏性转化为实际的、高质量的视频生成加速。这代表了高效视频生成技术的一个重要演进方向。

3.4. 差异化分析

SVG 与现有工作的主要区别和创新点在于：

视频特定稀疏模式的发现与利用： 现有 LLM 稀疏注意力方法主要关注词元级别的稀疏性，如“重击手 (heavy hitter)”词元或局部注意力。SVG 创新性地发现并利用了视频 DiTs 中3D全注意力固有的、且截然不同的两种视频特定稀疏模式：空间头 (Spatial Head)（关注帧内空间局部性）和 时间头 (Temporal Head)（关注跨帧时间一致性）。这是 SVG 的核心洞察，也是其能够高效处理视频数据的关键。
免训练框架： 许多高效扩散模型的方法（如减少去噪步骤、蒸馏）需要昂贵的模型重新训练或微调。SVG 是一个免训练 (training-free) 框架，可以直接应用于现有的预训练 DiTs 模型，无需任何额外训练成本，大大降低了应用门槛。
质量保持能力： 与一些系统级优化方法（如缓存策略 PAB）可能导致输出质量下降不同，SVG 能够在显著加速的同时保持甚至提升生成视频的高保真度（PSNR 超过29），这在实际应用中至关重要。
硬件友好的优化： SVG 不仅停留在理论稀疏性上，还解决了将稀疏性转化为实际硬件加速的难题。通过引入硬件高效的张量布局转换和定制化核函数，它克服了时间头非连续内存访问对 GPU 张量核心利用率的限制，确保了稀疏性带来的理论加速能够转化为实际的端到端性能提升。
综合性方法： SVG 结合了在线分析、特定稀疏模式识别、硬件优化和核函数定制，形成了一个全面的解决方案，而非仅仅依赖单一技术。

4. 方法论

4.1. 方法原理

Sparse VideoGen (SVG) 的核心思想是利用视频扩散变换器 (DiTs) 中3D全注意力固有的稀疏性来加速视频生成。论文观察到，DiTs 中的注意力头可以动态地分为两种具有不同稀疏模式的类型：空间头 (Spatial Head) 和 时间头 (Temporal Head)。SVG 通过一种高效的在线分析策略来识别每个注意力头属于哪种类型，并为之应用相应的稀疏注意力机制。为了将理论上的稀疏性转化为实际的硬件加速，SVG 还引入了硬件高效的张量布局转换和定制化核函数。

4.2. 核心方法详解 (逐层深入)

4.2.1. 3D 全注意力固有的稀疏性 (3D Full Attention shows instinct sparsity)

论文深入分析了3D全注意力机制，发现其具有内在的稀疏性，并根据不同的功能特性，将注意力头划分为两类：空间头和时间头。

空间头 (Spatial Head):
- 原理: 空间头主要关注同一帧内的空间局部词元，以及相邻帧的空间局部词元。其注意力图呈现出块状 (block-wise) 布局。由于同一帧内的像素被标记化为连续词元，空间头主要关注同一帧内部的像素，这对于保持生成视频的空间一致性 (spatial consistency) 至关重要。
- 计算复杂度和稀疏性: 假设一个模型具有隐藏维度 $H$ (hidden dimension)、每帧词元数 $L$ (tokens per frame) 和总帧数 $N$ (total frames)。全注意力的总计算量 (FLOPS) 为： $2 \cdot 2 \cdot (LN)^2 \cdot H = 4L^2N^2H$ 对于空间头，假设每个头只关注附近的 $c_s$ 帧，则计算量减少为 $(2 \cdot 2 \cdot L^2H) \cdot c_sN$ 。这里的 $2 \cdot 2$ 表示在计算 $QK^T$ 和 AV 时乘法和加法操作各进行两次。 $L^2H$ 是单帧内部注意力计算的近似复杂度，乘以 c_sN 是因为每个帧会关注到 $c_s$ 个帧，且有 $N$ 个帧。相应的稀疏度 (sparsity) 为 $\frac{c_s}{N}$ 。由于 $c_s$ 通常远小于 $N$ ，稀疏度可以显著降低。
时间头 (Temporal Head):
- 原理: 时间头呈现出斜线状 (slash-wise) 布局，具有恒定的间隔。由于每帧都被标记化为固定数量的词元 $L$ ，不同帧中占据相同空间位置的像素会以 $L$ 的步长排列。因此，时间头会捕获跨多个帧中相同空间位置词元的信息。这种模式对于确保视频生成的时间一致性 (temporal consistency) 至关重要。
- 计算复杂度和稀疏性: 对于时间头，假设每个词元只关注跨所有帧的 $c_t$ 个词元（在相同空间位置）。则计算量为 $(2 \cdot 2 \cdot N^2H) \cdot c_tL$ 。这里的 $N^2H$ 是单点跨帧注意力计算的近似复杂度，乘以 c_tL 是因为每个词元会关注到 $c_t$ 个词元，且有 $L$ 个空间位置的词元。相应的稀疏度为 $\frac{c_t}{L}$ 。由于 $c_t$ 通常远小于 $L$ ，稀疏度也可以显著降低。
文本提示与首帧的重要性: 除了上述时空模式外，论文还观察到文本提示 (text prompts) 和视频的首帧 (first frame) 对空间头和时间头都具有显著的注意力分数。因此，SVG 将这些词元包含在两种注意力模式中。

下图（原文 Figure 3）可视化了空间头和时间头的注意力分布。

该图像是示意图，展示了硬件高效的布局转换。图中左侧(a)展示了非连续布局，其硬件效率较低，右侧(b)展示了通过转置生成的连续布局，具有较高的硬件效率。

4.2.2. 在线稀疏性识别策略 (Online profiling strategy for sparsity identification)

由于稀疏模式在不同的去噪步骤和输入提示之间是高度动态的，SVG 提出了一种在线分析策略，以最小的开销 (minimal overhead) 动态识别每个注意力头的最佳稀疏模式。

策略描述: SVG 不计算整个全注意力来识别稀疏模式。相反，它只对输入行 (input rows) 进行采样（例如，采样 $x\%$ 的词元）。然后，对于这些采样词元，它会计算使用全注意力、空间稀疏注意力和时间稀疏注意力三种方式的结果。通过比较空间稀疏注意力和时间稀疏注意力与全注意力之间的均方误差 (Mean Squared Error, MSE)，选择具有较低 MSE 的稀疏模式作为该注意力头的最佳模式。
算法流程 (Algorithm 1 Online Profiling Strategy):
```
# Q, K, V, O: [B, H, S, D]_- query, key, value, output
# S: Total Token Number E.g., 18k
# t: Sampled Token Number. E.g., 32

# 1. 采样索引
indices = sample_indices(s, t) # (t,)
Q_i = Q[:, :, indices, :]

# 2. 生成注意力掩码
mask_spatial = gen_spatial_mask()[:, :, indices, :]
mask_temporal = gen_temporal_mask()[:, :, indices, :]

# 3. 计算采样词元上的注意力分数
# Shape: [B, H, t, D]
O_full = mask_attention(Q_i, K, V, None)
O_spatial = mask_attention(Q_i, K, V, mask_spatial)
O_temporal = mask_attention(Q_i, K, V, mask_temporal)

# 4. 计算均方误差 (MSE) 并获取最佳掩码配置
# Shape: [B, H]
MSE_s = (O_full - O_spatial).norm().mean(dim=(2,3))
MSE_t = (O_full -O_temporal).norm().mean(dim=(2,3))
best_mask_config = (MSE_s < MSE_t)
```
- 符号解释:
  - Q, K, V, O: 分别代表查询 (Query)、键 (Key)、值 (Value) 和输出 (Output) 张量。它们的形状是 [B, H, S, D]。
    - $B$ : 批次大小 (Batch size)。
    - $H$ : 注意力头数量 (Number of attention heads)。
    - $S$ : 总词元数 (Total Token Number)。例如，对于视频，这等于帧数乘以每帧词元数。
    - $D$ : 注意力头的维度 (Dimension of each attention head)。
  - $t$ : 采样词元数 (Sampled Token Number)。例如，32个词元。
  - indices: 通过 sample_indices(s, t) 函数从总词元数 $S$ 中随机采样 $t$ 个词元的索引。
  - $Q_i$ : 从原始查询矩阵 $Q$ 中提取的采样查询词元，形状为 [B, H, t, D]。
  - mask_spatial: 针对采样词元生成的空间注意力掩码。
  - mask_temporal: 针对采样词元生成的时间注意力掩码。
  - $mask_attention(Q_i, K, V, mask)$ : 一个通用的注意力计算函数，根据提供的掩码 (mask) 来计算注意力。
  - O_full: 使用全注意力（无掩码）计算的采样词元输出。
  - O_spatial: 使用空间注意力掩码计算的采样词元输出。
  - O_temporal: 使用时间注意力掩码计算的采样词元输出。
  - $MSE_s$ : 空间注意力输出与全注意力输出之间的均方误差。norm() 计算范数， $mean(dim=(2,3))$ 在词元维度和特征维度上取平均，得到每个批次和每个头的 MSE。
  - $MSE_t$ : 时间注意力输出与全注意力输出之间的均方误差。
  - best_mask_config: 一个布尔张量，指示每个注意力头是选择空间模式（True）还是时间模式（False）。
    
    下图（原文 Figure 4）展示了SVG注意力工作流程和每个头的在线配置。
    
    该图像是示意图，展示了使用Sparse VideoGen生成的视频效果对比，包括CogVideoX-v1.5和HunyuanVideo的示例。不同的提示内容对应不同的视频帧展示，如一艘蓝船在海洋中航行和书本被火焰吞没的场景。

4.2.3. 硬件高效布局转换 (Hardware-efficient layout transformation)

挑战: 尽管时间头具有稀疏性，但其稀疏模式是非连续的。具体来说，相同空间位置的跨帧词元在内存中以步长 $L$ （每帧词元数）排列，这使得它们在内存中不连续。NVIDIA 的张量核心 (Tensor Core) 等硬件加速器需要至少16个连续元素才能有效利用，非连续访问会导致效率显著下降，无法将理论稀疏性转化为实际加速。
解决方案: SVG 引入了一种布局转换策略，将时间头的稀疏布局转换为硬件高效的连续布局。该策略通过转置 (transposing) 一个词元主序 (token-major) 的张量为一个帧主序 (frame-major) 的张量。
- 转换过程: 原始的词元排列方式可能是 [Frame1_Token1, Frame1_Token2, ..., Frame1_TokenL, Frame2_Token1, ..., FrameN_TokenL]。这意味着跨帧的相同空间位置词元（例如 Frame1_Token1, Frame2_Token1, ..., FrameN_Token1）是分散的。通过转置，可以使得相同空间位置的跨帧词元在内存中变得连续，例如 [Token1_Frame1, Token1_Frame2, ..., Token1_FrameN, Token2_Frame1, ..., TokenL_FrameN]。这种连续的布局能够被块稀疏注意力 (block sparse attention) 高效处理，从而充分利用 GPU 的张量核心。
  
  下图（原文 Figure 5）可视化了这种硬件高效的布局转换。
  
  该图像是图表，展示了HunyuanVideo在生成5.3秒720p视频时的端到端运行时分解。SVG通过系统与算法的协同设计，将推理时间从2253秒有效减少至968秒，整体实现了2.33 imes的加速效果。

4.2.4. 其他优化 (Other optimizations)

高效核函数定制 (Efficient kernel customization):
- 问题: 现有的 QK-norm 和 RoPE (Rotary Position Embedding) 实现可能由于小的头维度 (head dimensions)（例如 CogVideoX-v1.5 中为64）而面临性能问题，并行度有限。
- 解决方案: SVG 通过子规约 (sub-warp reduction) 实现，使用 CUDA 定制了这些操作，相比 PyTorch 实现可提供高达 $5 \times$ 的加速。
- 集成: 此外，SVG 使用 Triton (Tillet et al., 2019) 来实现融合 (fused) 的在线分析策略和布局转换核函数，并结合 FlashInfer (Ye et al., 2025) 实现块稀疏注意力核函数。
量化 (Quantization):
- 策略: SVG 进一步将 FP8 量化 (Zhang et al., 2025a; 2024; Zhao et al., 2024c) 整合到稀疏注意力中。
- 效果: 这可以在保持最小精度损失的情况下，将吞吐量额外提升高达 $1.3 \times$ 。
- 定制: SVG 还定制了一个同时支持 FP8 量化和块稀疏计算的注意力核函数。

5. 实验设置

5.1. 数据集

CogVideoX-v1.5-I2V (Image-to-Video) 和 CogVideoX-v1.5-T2V (Text-to-Video):
- 分辨率: 720p。
- 视频时长: 10秒，80帧。
- 词元配置: 经过3D VAE (Variational Autoencoder) 处理后，CogVideoX-v1.5 在3D全注意力中消耗11帧，每帧4080个词元。
- 评估数据集: 使用 VBench (Huang et al., 2023) 数据集，并根据 CogVideoX (Yang et al., 2024c) 的建议进行了提示优化 (prompt optimization)。
HunyuanVideo-T2V (Text-to-Video):
- 分辨率: 720p。
- 视频时长: 5.33秒，128帧。
- 词元配置: HunyuanVideo 在3D全注意力中处理33帧，每帧3600个词元。
- 评估数据集: 使用 HunyuanVideo (Kong et al., 2024) 发布的 Penguin Video Benchmark 中的提示进行基准测试。

5.2. 评估指标

论文使用了以下指标来评估生成视频的质量和效率。

质量指标:
- 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR):
  1. 概念定义: 衡量图像/视频重建质量的客观指标，通常用于量化有损压缩对图像质量的影响。PSNR 值越高，表示重建图像与原始图像之间的差异越小，图像质量越好。
  2. 数学公式: $\mathrm{PSNR} = 10 \cdot \log_{10}\left(\frac{\mathrm{MAX}_I^2}{\mathrm{MSE}}\right)$ 其中， $\mathrm{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1}\sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2$
  3. 符号解释:
    - $\mathrm{PSNR}$ : 峰值信噪比。
    - $\mathrm{MAX}_I$ : 图像中像素可能的最大值。对于8位灰度图像，通常为255。
    - $\mathrm{MSE}$ : 均方误差 (Mean Squared Error)。
    - m, n: 图像的行数和列数。
    - I(i,j): 原始图像在坐标 (i,j) 处的像素值。
    - K(i,j): 噪声图像（或重建图像）在坐标 (i,j) 处的像素值。
- 学习感知图像块相似度 (Learned Perceptual Image Patch Similarity, LPIPS):
  1. 概念定义: 衡量两幅图像在人类感知上的相似度。与 PSNR 和 SSIM 等像素级或结构级指标不同，LPIPS 使用深度学习模型提取特征，从而更好地反映人眼对图像差异的感知。LPIPS 值越低，表示两幅图像在感知上越相似。
  2. 数学公式: $\mathrm{LPIPS}(x, x_0) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \|w_l \odot (\phi_l(x)_{h,w} - \phi_l(x_0)_{h,w})\|_2^2$
  3. 符号解释:
    - $\mathrm{LPIPS}(x, x_0)$ : 图像 $x$ 和图像 $x_0$ 之间的 LPIPS 值。
    - $l$ : 深度网络中不同层的索引。
    - $H_l, W_l$ : 第 $l$ 层特征图的高度和宽度。
    - $w_l$ : 在第 $l$ 层特征上学习到的权重。
    - $\odot$ : 元素级乘法。
    - $\phi_l(\cdot)$ : 预训练深度网络（如 VGG 或 AlexNet）在第 $l$ 层提取的特征。
    - (h,w): 特征图上的空间位置。
    - $\|\cdot\|_2^2$ : 2范数的平方。
- 结构相似性指数 (Structural Similarity Index Measure, SSIM):
  1. 概念定义: 一种用于衡量两幅图像相似度的指标，它从亮度、对比度和结构三个方面对图像质量进行评估。SSIM 值介于-1到1之间，值越接近1表示两幅图像越相似。
  2. 数学公式: $\mathrm{SSIM}(x, y) = [l(x, y)]^\alpha \cdot [c(x, y)]^\beta \cdot [s(x, y)]^\gamma$ 其中， $l(x, y) = \frac{2\mu_x\mu_y + C_1}{\mu_x^2 + \mu_y^2 + C_1}$ ， $c(x, y) = \frac{2\sigma_x\sigma_y + C_2}{\sigma_x^2 + \sigma_y^2 + C_2}$ ， $s(x, y) = \frac{\sigma_{xy} + C_3}{\sigma_x\sigma_y + C_3}$ 通常设置 $\alpha = \beta = \gamma = 1$ ，且 $C_3 = C_2 / 2$ 。
  3. 符号解释:
    - $\mathrm{SSIM}(x, y)$ : 图像 $x$ 和图像 $y$ 之间的 SSIM 值。
    - l(x, y): 亮度比较函数。
    - c(x, y): 对比度比较函数。
    - s(x, y): 结构比较函数。
    - $\mu_x, \mu_y$ : 图像 $x$ 和 $y$ 的均值。
    - $\sigma_x, \sigma_y$ : 图像 $x$ 和 $y$ 的标准差。
    - $\sigma_{xy}$ : 图像 $x$ 和 $y$ 的协方差。
    - $C_1, C_2, C_3$ : 避免分母为零的常数，通常 $C_1 = (K_1L)^2, C_2 = (K_2L)^2$ ，其中 $K_1, K_2 \ll 1$ ， $L$ 是像素值的动态范围（如255）。
- VBench Score (Image Quality, SubConsist): VBench (Huang et al., 2023) 是一个全面的视频生成模型基准测试套件。论文中报告了两个 VBench 子指标：
  - ImageQual (Image Quality): 衡量生成视频的图像质量。
  - SubConsist (Subject Consistency): 衡量生成视频中主体对象在时间上的连贯性和一致性。
效率指标:
- 浮点运算次数 (FLOPS): 衡量模型执行计算操作的总次数，反映计算量大小。
- 延迟 (Latency): 衡量生成一个视频所需的时间，通常以秒计，反映端到端推理速度。
- 加速比 (Speedup): 相较于基线模型（通常是原始全注意力模型）的推理速度提升倍数。

5.3. 对比基线

论文将 SVG 与以下稀疏注意力算法和 DiT 加速算法进行了比较：

DiTFastAttn (Yuan et al., 2024): 这是一种稀疏注意力算法，可视为仅空间头 (Spatial-only) 的算法，因为它主要关注空间局部性。
Temporal-only: 论文手动实现了一个仅时间头 (Temporal-only) 的基线，用于隔离时间稀疏模式的效果。
MInference (Jiang et al., 2024): 一种针对长上下文 LLM 的动态稀疏注意力方法，但其主要针对文本数据中的词元级别稀疏性。
PAB (Pyramid Attention Broadcast) (Zhao et al., 2024b): 一种基于缓存 (cache-based) 的 DiT 加速算法，通过重用先前层的计算结果来减少3D全注意力的计算。

5.4. 参数

稀疏度参数 ( $c_s$ , $c_t$ ):
- 对于 CogVideoX-v1.5： $c_s = 4$ 帧（空间头关注的帧数）， $c_t = 1224$ 词元（时间头关注的词元数）。
- 对于 HunyuanVideo： $c_s = 10$ 帧， $c_t = 1200$ 词元。
- 这些配置旨在实现大约30%的稀疏度，同时确保无损生成质量。
去噪步骤 (Denoising steps): 遵循先前工作的惯例 (Zhao et al., 2024b; Li et al., 2024; Lv et al., 2024; Liu et al., 2024a)，所有基线和 SVG 在前25%的去噪步骤中跳过稀疏化，因为这些步骤对生成质量至关重要。

6. 实验结果与分析

6.1. 核心结果分析

实验结果表明，SVG 在质量和效率上均显著优于所有基线方法。

质量评估:
- SVG 在 HunyuanVideo 上平均 PSNR 超过29.55，在 CogVideoX-v1.5-T2V 上平均 PSNR 达到29.99，这表明它能够保持高保真度并准确重建视频细节。
- SVG 通过自适应地应用不同的稀疏模式，同时保持了空间和时间一致性。相比之下，其他基线方法在这方面表现不佳。例如，MInference 无法有效捕捉斜线状 (slash-wise) 的时间稀疏性，导致 PSNR 显著下降。PAB 通过重用结果跳过3D全注意力计算，也大大损害了生成质量。
- SVG 与 FP8 量化兼容，在 HunyuanVideo 上只引入了0.1 PSNR 的轻微下降，但带来了 $1.3 \times$ 的额外效率提升。然而，由于 CogVideoX-v1.5 的头维度为64，算术强度有限，因此未在其上应用 FP8 量化。下图（原文 Figure 6）展示了 SVG 生成视频的视觉质量。
  
  该图像是图表，展示了不同稀疏注意力实现的延迟比较。我们的硬件高效布局转换优化了时间头的稀疏模式，使得速度比原始简单稀疏注意力快 1.7 imes，接近理论速度提升。
效率评估:
- 端到端加速: SVG 在 CogVideoX-v1.5-I2V 和 T2V 上分别实现 $2.23 \times$ 和 $2.28 \times$ 的端到端加速，在 HunyuanVideo 上达到 $1.92 \times$ ，结合 FP8 量化后更是达到 $2.33 \times$ 。这在所有基线中表现最佳。
- 运行时分解: 对 HunyuanVideo 的端到端推理时间分解（原文 Figure 7）显示，SVG 将推理时间从2253秒减少到968秒。其中，稀疏注意力贡献了最显著的 $1.81 \times$ 改进。
  
  下图（原文 Figure 7）展示了 HunyuanVideo 端到端运行时的分解。
  
  该图像是图表，展示了采用稀疏视频生成技术的HunyuanVideo文本到视频生成的比较，显示了不同生成阶段的多个场景和动作。
核函数级别效率:
- 定制的 QK-norm 和 RoPE 核函数在不同帧数下均表现出更高的吞吐量，平均加速比分别为 $7.4 \times$ 和 $15.5 \times$ 。
- 稀疏注意力核函数在应用硬件高效布局转换后，能够实现接近理论值的加速比，优于未进行转换的原始实现。

6.2. 数据呈现 (表格)

以下是原文 Table 1 的结果：

Type	Method	Quality					Efficiency
Type	Method	PSNR ↑	SSIM↑	LPIPS ↓	ImageQual ↑	SubConsist ↑	FLOPS ↓	Latency ↓	Speedup ↑
I2V	CogVideoX-v1.5 (720p, 10s, 80 frames)	-	-	-	70.09%	95.37%	147.87 PFLOPs	528s	1x
	DiTFastAttn (Spatial-only)	24.591	0.836	0.167	70.44%	95.29%	78.86 PFLOPs	338s	1.56x
	Temporal-only	23.839	0.844	0.157	70.37%	95.13%	70.27 PFLOPs	327s	1.61x
	MInference	22.489	0.743	0.264	58.85%	87.38%	84.89 PFLOPs	357s	1.48x
	PAB	23.234	0.842	0.145	69.18%	95.42%	105.88 PFLOPs	374s	1.41x
Ours		28.165	0.915	0.104	70.41%	95.29%	74.57 PFLOPs	237s	2.23x
T2V	CogVideoX-v1.5 (720p, 10s, 80 frames)	-	-	-	62.42%	98.66%	147.87 PFLOPs	528s	1x
	DiTFastAttn (Spatial-only)	23.202	0.741	0.256	62.22%	96.95%	78.86 PFLOPs	338s	1.56x
	Temporal-only	23.804	0.811	0.198	62.12%	98.53%	70.27 PFLOPs	327s	1.61x
	MMInference	22.451	0.691	0.304	54.87%	91.52%	84.89 PFLOPs	357s	1.48x
	PAB	22.486	0.740	0.234	57.32%	98.76%	105.88 PFLOPs	374s	1.41x
Ours		29.989	0.910	0.112	63.01%	98.67%	74.57 PFLOPs	232s	2.28x
T2V	HunyuanVideo (720p, 5.33s, 128 frames)	-	-	-	66.11%	93.69%	612.37 PFLOPs	2253s	1x
	DiTFastAttn (Spatial-only)	21.416	0.646	0.331	67.33%	90.10%	260.48 PFLOPs	1238s	1.82x
	Temporal-only	25.851	0.857	0.175	62.12%	98.53%	259.10 PFLOPs	1231s	1.83x
	nference	23.157	0.823	0.163	63.96%	91.12%	293.87 PFLOPs	1417s	1.59x
Ours		29.546	0.907	0.127	65.90%	93.51%	259.79 PFLOPs	1171s	1.92x
	Ours + FP8	29.452	0.906	0.128	65.70%	93.51%	259.79 PFLOPs	968s	2.33x

6.3. 消融实验/参数分析

6.3.1. 在线分析策略比例的敏感性测试 (Sensitivity test on online profiling strategy ratios)

以下是原文 Table 3 的结果：

Ratios	PSNR ↑	SSIM ↑	LPIPS ↓
CogVideoX-v1.5-I2V (720p, 10s, 80 frames)
profiling 0.1%	30.791	0.941	0.0799
profiling 1%	31.118	0.945	0.0757
profiling 5%	31.008	0.944	0.0764
profiling 100%	31.324	0.947	0.0744

分析: 实验结果（Table 3）表明，即使仅对1%的词元进行在线分析，SVG 也能实现与“神谕 (oracle)”方法（100%分析）相当的生成质量（PSNR 达到31.118 vs. 31.324），而引入的运行时开销仅为3%。这验证了在线分析策略在高效识别稀疏模式方面的有效性。

6.3.2. 硬件高效布局转换的有效性 (Effectiveness of hardware-efficient layout transformation)

分析: 论文通过比较有无布局转换的稀疏注意力核函数延迟（原文 Figure 8）来评估其有效性。结果显示，带有布局转换的稀疏注意力在稀疏度为10%时，比没有转换的原始实现额外加速了 $1.7 \times$ ，总加速达到 $3.63 \times$ ，并接近理论加速。这证明了布局转换成功地优化了时间头的稀疏模式，使其更适合硬件加速器，从而将理论速度提升转化为实际性能增益。

下图（原文 Figure 8）展示了不同稀疏注意力实现的延迟比较。

该图像是一个示意图，展示了不同场景下的动态视频生成效果，包括滑板运动、动物互动和表情变化等，比较了稠密注意力和稀疏注意力的生成质量和速度。

6.3.3. 定制化核函数的性能 (Performance of customized kernel implementations)

以下是原文 Table 2 的结果：

Frame Number	8	9	10	11
QK-norm	7.44x	7.45x	7.46x	7.47x
RoPE	14.50x	15.23x	15.93x	16.47x

分析: 定制化的 QK-norm 和 RoPE 核函数在不同帧数下均实现了显著加速，平均加速比分别为 $7.4 \times$ 和 $15.5 \times$ 。这表明通过底层 CUDA 优化和子规约 (sub-warp reduction) 技术，能够有效解决小头维度带来的并行度问题，从而提升了这些关键操作的效率。

6.3.4. 不同稀疏比下的生成质量 (Generation quality over different sparsity ratios)

以下是原文 Table 4 的结果：

Sparsity↓	0.13	0.18	0.35	0.43	0.52
LPIPS↓	0.154	0.135	0.141	0.129	0.116

分析: 实验结果（Table 4）展示了 HunyuanVideo 在不同稀疏比下的 LPIPS 值。随着稀疏比的增加（即更多的注意力被计算），LPIPS 值总体呈下降趋势，表示生成质量提高。即使在13%的稀疏度下，SVG 仍能实现0.154的 LPIPS 值，证明了其在效率和准确性之间实现权衡的能力。这为用户提供了灵活选择不同稀疏度以满足特定应用需求的可能性。

7. 总结与思考

7.1. 结论总结

本文提出了 Sparse VideoGen (SVG)，一个用于加速视频扩散变换器 (DiTs) 的免训练框架。SVG 的核心在于发现了3D全注意力中固有的两种独特稀疏模式：空间头 (Spatial Head) 和 时间头 (Temporal Head)。为了利用这些模式，SVG 设计了一个高效的在线分析策略来动态识别注意力头的类型，并结合了硬件高效的张量布局转换以及定制化核函数。实验结果表明，SVG 在 CogVideoX-v1.5 和 HunyuanVideo 等主流视频生成模型上实现了高达 $2.33 \times$ 的显著端到端加速，同时保持了高质量的视频生成。此外，SVG 还与 FP8 量化兼容，可进一步提升效率。这些贡献极大地提高了视频生成模型的实际应用潜力。

7.2. 局限性与未来工作

论文明确指出，未来的工作方向之一是自适应稀疏度控制 (adaptive sparsity control)。目前 SVG 中的稀疏比 ( $c_s, c_t$ ) 是手动设置的，以达到一个普遍的无损生成水平。但不同的视频内容、生成阶段或用户需求可能需要不同的稀疏度，例如在某些阶段可能可以采用更高的稀疏度以获得更大加速，或在质量敏感场景下降低稀疏度。实现自适应控制将使 SVG 更加灵活和通用。

除了论文提及的未来工作，我个人认为还存在以下潜在局限性：

在线分析的开销： 尽管在线分析策略的开销被描述为“可忽略不计”（约3%），但对于极度低延迟或资源受限的实时应用，这仍然是一个需要考虑的因素。如果能找到一种完全预测性的、无需采样和 MSE 计算的方法来判断注意力头类型，将是进一步的优化。
稀疏模式的普适性： 论文在 CogVideoX-v1.5 和 HunyuanVideo 上验证了两种稀疏模式。这些模式是否能完全普适于所有未来或更复杂的视频 DiTs 架构（例如包含更多层级结构或不同注意力变体的模型）仍需进一步探索。
对硬件的依赖： SVG 的性能提升在很大程度上依赖于定制化核函数和硬件高效布局转换，这需要对底层硬件（如 NVIDIA GPU 及其 Tensor Core）有深入理解。在不同硬件平台（如 AMD GPU、TPU 或其他加速器）上部署可能需要重新进行定制化开发。

7.3. 个人启发与批判

启发：
- 领域特定稀疏性的挖掘： SVG 最重要的启发在于，对于特定领域的数据（如视频），不能简单地套用通用模型（如 LLM）的优化方法。深入分析数据模态的内在结构和模型组件（如注意力头）的功能，可以发现独特且高效的稀疏模式。将注意力头根据其功能（空间、时间）进行分类，是非常直观且有力的洞察。
- 系统与算法协同设计的重要性： 论文强调了理论上的算法优化（稀疏性）必须与底层的硬件优化（布局转换、定制核函数）相结合，才能真正转化为端到端的性能提升。这种系统-算法协同设计 (system-algorithm co-design) 的理念对于所有高性能计算任务都具有指导意义。
- 免训练优化的价值： 作为一个免训练框架，SVG 能够直接应用于现有的大型预训练模型，这极大地降低了研究成果的落地成本和门槛，使其更具实用价值。
批判：
- “黑盒”决策的解释性：虽然 SVG 能够动态地分类注意力头，但其背后导致一个头成为“空间头”或“时间头”的深层机制，以及这种分类在模型训练过程中是如何形成的，论文并未深入探讨。这可能会限制对模型行为的更深层次理解和未来优化方向。
- $c_s$ 和 $c_t$ 选择的指导原则： 论文提到 $c_s$ 和 $c_t$ 的选择旨在实现大约30%的稀疏度以保证无损生成。但这种“无损”的定义和选择 $c_s, c_t$ 的通用指导原则不够明确。未来的研究可以探索更系统的方法来确定这些参数，甚至使其在推理过程中根据内容自适应调整。
- 通用化与可移植性： 尽管 SVG 在 DiTs 上表现出色，但其提出的时空稀疏模式和硬件优化是否能泛化到其他基于变换器或类变换器架构的视频处理任务（如视频理解、视频编辑）仍待验证。此外，定制 CUDA 核函数和 Triton 实现虽然高效，但也可能增加在不同硬件或软件栈上移植和维护的复杂性。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。