论文状态：已完成

Training-Free Efficient Video Generation via Dynamic Token Carving

发表：2025/05/23

视频生成加速 (4)视频扩散模型高效推理 (1)动态令牌雕刻 (1)梯度分辨率生成 (1)块状注意力机制 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种无需训练的高效视频生成方法Jenga，通过动态注意力雕刻和渐进分辨率生成，显著解决了视频扩散变换器模型的计算瓶颈问题。研究表明，该方法在保持生成质量的同时，实现了8.83倍的推理加速，极大提升了实际应用效率。

摘要

Despite the remarkable generation quality of video Diffusion Transformer (DiT) models, their practical deployment is severely hindered by extensive computational requirements. This inefficiency stems from two key challenges: the quadratic complexity of self-attention with respect to token length and the multi-step nature of diffusion models. To address these limitations, we present Jenga, a novel inference pipeline that combines dynamic attention carving with progressive resolution generation. Our approach leverages two key insights: (1) early denoising steps do not require high-resolution latents, and (2) later steps do not require dense attention. Jenga introduces a block-wise attention mechanism that dynamically selects relevant token interactions using 3D space-filling curves, alongside a progressive resolution strategy that gradually increases latent resolution during generation. Experimental results demonstrate that Jenga achieves substantial speedups across multiple state-of-the-art video diffusion models while maintaining comparable generation quality (8.83 $\times$ speedup with 0.01% performance drop on VBench). As a plug-and-play solution, Jenga enables practical, high-quality video generation on modern hardware by reducing inference time from minutes to seconds -- without requiring model retraining. Code: https://github.com/dvlab-research/Jenga

思维导图

论文精读

中文精读约 10 分钟读完 · 6,331 字

1. 论文基本信息

1.1. 标题

无需训练的高效视频生成：通过动态词元雕刻 (Training-Free Efficient Video Generation via Dynamic Token Carving)

1.2. 作者

Yuechen Zhang, Jinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, Jiaya Jia。作者来自香港中文大学 (CUHK)、香港科技大学 (HKUST)、快手科技 (Kuaishou Technology) 以及思谋科技 (SmartMore)。其中，贾佳亚教授 (Jiaya Jia) 是计算机视觉领域的著名学者。

1.3. 发表期刊/会议

ArXiv 预印本。该研究于 2025 年 5 月发布，主要针对当前最先进的视频扩散变换器 (Video Diffusion Transformer, DiT) 进行推理加速优化。

1.4. 发表年份

2025 年。

1.5. 摘要

尽管视频扩散变换器 (DiT) 模型生成的视频质量卓越，但其高昂的计算需求严重阻碍了实际应用。这种低效源于两个核心挑战：自注意力 (self-attention) 机制相对于词元 (token) 长度的平方复杂度，以及扩散模型多步迭代的特性。为了解决这些局限，本文提出了 Jenga，一个结合了动态注意力雕刻 (Dynamic Attention Carving)与渐进分辨率生成 (Progressive Resolution Generation)的创新推理流水线。 Jenga 基于两个核心洞察：(1) 早期去噪步骤不需要高分辨率的潜变量 (latents)；(2) 后期步骤不需要密集的全局注意力。实验结果表明，Jenga 在保持生成质量的同时，实现了显著的加速（在 VBench 上性能下降仅 0.01% 的情况下实现 8.83 倍加速）。作为一种即插即用的方案，Jenga 无需重新训练模型即可将推理时间从分钟级降低到秒级。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2505.16864
PDF 链接: https://arxiv.org/pdf/2505.16864v2.pdf
代码仓库: https://github.com/dvlab-research/Jenga

2. 整体概括

2.1. 研究背景与动机

核心问题： 当前的视频生成模型（如 HunyuanVideo、Wan2.1）虽然效果惊人，但推理速度极慢。例如，在单张 H800 GPU 上生成 5 秒 720P 视频需要约 27 分钟。 现有挑战：

自注意力瓶颈： 视频分辨率越高，词元 (token) 数量越多，自注意力机制的计算量按词元数量的平方增长（ $O(N^2)$ ）。
多步去噪： 扩散模型通常需要执行 50 步或更多迭代，每一步都需要完整的模型前向计算。
动态性不足： 现有的加速方案通常使用固定的稀疏模式，无法适应不同视频内容的动态变化。

创新思路： 论文借鉴了经典的“积木游戏”(Jenga) 理念，认为在视频生成过程中，并非所有词元间的互动都是必要的。作者提出：在去噪初期先生成低分辨率的轮廓（节省词元数量），在后期则通过“雕刻”掉不重要的注意力权重（保持稀疏计算），从而实现极高的推理效率。

2.2. 核心贡献/主要发现

动态分块注意力雕刻 (Block-wise Attention Carving): 利用 3D 空间填充曲线将视频词元重排，并动态选择重要的块进行计算，极大地减少了注意力开销。
渐进分辨率策略 (Progressive Resolution, ProRes): 将生成过程分为多个阶段，从低分辨率逐渐提升至目标分辨率，大幅削减了总计算负载。
文本注意力增强器 (Text-Attention Amplifier): 解决了低分辨率阶段因视场 (Field of View, FOV) 变化导致的语义对齐问题。
即插即用且无需训练: 该方法不需要对现有预训练模型进行任何参数微调，具有极强的通用性。

3. 预备知识与相关工作

3.1. 基础概念

词元 (Token): 在变换器 (Transformer) 架构中，图像或视频会被切成小块（Patch），每个小块被编码为一个向量，称为词元。视频生成的计算量主要取决于这些词元的数量。
扩散变换器 (Diffusion Transformer, DiT): 一种结合了扩散模型（通过加噪和去噪生成数据）和变换器架构（利用自注意力处理长序列）的模型，是目前视频生成领域的主流架构。
潜空间 (Latent Space): 模型不在原始像素空间操作，而是在经过压缩的低维特征空间（潜空间）进行计算，以节省资源。

3.2. 前人工作

理解本文需要掌握 自注意力 (Self-Attention) 的计算机制。其核心公式为： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

其中 $Q$ (Query), $K$ (Key), $V$ (Value) 分别代表查询、键和值。
$d_k$ 是特征维度的缩放因子。
计算 $QK^T$ 的复杂度是 $O(N^2)$ ， $N$ 是序列长度。在视频中， $N$ 包含时间、高度和宽度三个维度，数值巨大。

以往的加速方法如 TeaCache 采用特征重用（跳过某些步骤），而 CLEAR 或 SVG 则使用固定的局部注意力窗口。Jenga 的不同之处在于它通过动态选择最重要的“块”来实现稀疏性，既保证了效率又保留了长程语义联系。

3.3. 空间填充曲线 (Space-Filling Curves)

为了将 3D 的视频张量（时间 $T$ 、高度 $H$ 、宽度 $W$ ）转为 1D 序列进行计算，通常使用简单的线性展开。但线性展开会破坏空间上的邻里关系。Jenga 使用了 希尔伯特曲线 (Hilbert Curve) 的广义版本，这种曲线能让 3D 空间中靠近的点在 1D 序列中也尽可能靠近，从而方便进行“分块”处理。

4. 方法论

Jenga 的核心是由两个互补的技术组成的推理流水线：分块注意力雕刻 (Block-wise Attention Carving) 和 渐进分辨率 (Progressive Resolution)。

4.1. 分块注意力雕刻 (Block-wise Attention Carving)

其核心目标是减少查询词元需要关注的键值对 (KV pairs) 数量。

4.1.1. 词元重排与分块

首先，为了让相邻的词元聚集在一起，Jenga 使用广义希尔伯特重排函数 $\mathcal{G}(\cdot)$ 对潜变量进行索引重排： $z_{blk} = \mathcal{G}(z_{thw}), \quad z_{thw} = \mathcal{G}^{-1}(z_{blk})$

$z_{thw}$ 是传统的按时间-高-宽排列的词元。
$z_{blk}$ 是重排后的词元。这样做是为了确保在将 1D 序列划分为大小为 $m$ 的块时，每个块在 3D 空间中也是局部紧凑的。

4.1.2. 动态掩码构建

Jenga 为每个注意力头构建一个分块稀疏掩码 $\mathbf{B} \in \mathbb{R}^{M \times M}$ （其中 $M$ 是块的总数）。这个掩码由三个部分合并而成： $\mathbf{B} = \mathbf{B}_{top} \cup \mathbf{B}_{cond} \cup \mathbf{B}_{adja}$

重要性掩码 (Importance Mask) $\mathbf{B}_{top}$ : 利用块的平均值来预估块间的相关性。首先通过均值池化算子 $\hat{(\cdot)}$ 计算块间的相关性矩阵 $\mathbf{R}$ ： $\mathbf{R} = \mathbf{softmax}\left(\frac{\hat{Q}\hat{K}^\intercal}{\sqrt{d_k}}\right)$ 然后，对于每个查询块，保留概率最高的前 $k$ 个 KV 块。同时为了防止丢失全局信息，还设置了一个截止概率阈值 $p$ ，要求选出的块累计概率之和超过 $p$ 。
条件掩码 (Condition Mask) $\mathbf{B}_{cond}$ : 确保所有的文本提示词 (Text Prompt) 相关的注意力被完整计算，因为文本引导对生成至关重要。
邻接掩码 (Adjacency Mask) $\mathbf{B}_{adja}$ : 强制计算 3D 空间中物理相邻的块，以消除块边界处的伪影。

下图（原文 Figure 3）展示了注意力雕刻的具体流程：

$Figure 3: Attention Carving (AttenCarve). Here we illustrate a toy example of a $4 \\times 4 \\times 4$ latent, where $m = 8$ latent items form a block. Left: The latent 3D re-ordering and block partition via space filling curves (SFC). Right: After the block-wise attention in Eq. (3), we can construct the Importance Mask, combined with the pre-computed Condition Mask and Adjacency Mask, a block-wise dense attention mask is passed to the customized kernel for device-efficient attention.$ 该图像是示意图，展示了 4 imes 4 imes 4 潜在空间的 3D 重排序与块分区。左侧部分展示了通过空间填充曲线 (SFC) 进行的重排序过程，右侧展示了计算重要性掩码、条件掩码以及邻接掩码的步骤，最终生成一热块级注意力掩码。

4.2. 渐进分辨率 (Progressive Resolution, ProRes)

Jenga 利用了扩散模型“由粗到细”生成内容的特性，将 $T$ 个时间步分为 $S$ 个阶段。

4.2.1. 阶段切换与重采样

在早期阶段使用低分辨率 $R_1$ ，在后期逐渐增加到目标分辨率 $R_S$ 。在阶段 $s$ 结束时，模型预测一个干净的潜变量 $\hat{x}_0^s$ ，然后通过插值函数 $\mathcal{U}(\cdot)$ 将其放大，并重新加入对应时间步的噪声： $x_{t-1} = (1 - \sigma_t) \times \mathcal{U}(\hat{x}_0^s) + \sigma_t \tilde{\epsilon}, \quad \text{其中} \ \hat{x}_0^s = x_t - \sigma_t \epsilon_t$

$\epsilon_t$ 是模型在当前步预测的噪声。
$\sigma_t$ 是调度器确定的标准差。
$\tilde{\epsilon}$ 是重新引入的随机噪声。

4.2.2. 文本注意力增强器 (Text-Attention Amplifier)

由于降低分辨率会改变模型的视场 (FOV)，导致内容发生偏移。Jenga 在低分辨率阶段引入了一个与分辨率相关的偏差 $\beta$ ： $\text{Attention Score} = Q_v K_c^\intercal + \beta, \quad \beta = -\rho \log\left(\frac{\mathrm{numel}(R_s)}{\mathrm{numel}(R_S)}\right)$

$Q_v, K_c$ 分别是视觉查询和文本键。
$\rho$ 是平衡因子。这个偏差项就像是给模型某种“催眠”，让它在词元较少时依然能关注到全局语义，保持稳定的视场。

下图（原文 Figure 4）展示了渐进分辨率及其文本增强机制：

该图像是示意图，展示了Jenga视频生成方法中的时间跳过和多阶段潜在缩放机制，以及文本注意力增强过程。图中包含了与各个阶段相关的关键特征，突出了低分辨率与高分辨率生成的影响与场景变化。

5. 实验设置

5.1. 数据集

HunyuanVideo: 用于评估文本生成视频 (T2V) 和图像生成视频 (I2V) 的性能。
Wan2.1: 另一个最先进的开源视频生成大模型。
VBench / VBench-I2V: 专业的视频生成综合评测基准，包含质量和语义多个维度。
Sora Prompts: 引用了 OpenAI 公布的高难度提示词进行定性对比。

5.2. 评估指标

CLIPScore:
- 概念定义: 衡量生成视频的每一帧与输入文本提示词之间的语义一致性。
- 数学公式: $\mathrm{CLIPScore} = w \cdot \cos(f_{image}, f_{text})$
- 符号解释: $w$ 是缩放系数， $f_{image}$ 和 $f_{text}$ 分别是图像和文本经过 CLIP 模型提取的特征向量。
VBench Score:
- 概念定义: 包含多个子项（如物体一致性、背景对齐、动态程度等），通过计算生成视频在这些维度的得分并加权。
加速比 (Speedup): 推理时间缩减的倍数。
FLOPs (每秒浮点运算数): 衡量理论计算复杂度的降低。

5.3. 对比基线

基础模型: HunyuanVideo, Wan2.1 1.3B。
注意力优化方法: MInference (来自 LLM 领域的稀疏注意力), CLEAR, SVG。
采样优化方法: TeaCache (特征重用), Bottleneck Sampling。

6. 实验结果与分析

6.1. 核心结果分析

Jenga 在多个模型上展现了惊人的加速能力，且几乎没有质量损失。

以下是原文 Table 1 在 HunyuanVideo 上的结果：

Methods	NFE	Computation Loads		Quality Evaluation				Latency & Speed
Methods	NFE	PFLOPs↓	PFLOPs/step↓	VBench	VBench-Q↑	VBench-S↑	CLIP-score↑	DiT time	Speedup↑
HunyuanVideo [Baseline]	50	534.44	10.68	82.74%	85.21%	72.84%	30.67	1625s	1.00×
CLEAR	50	479.97	9.60	82.68%	86.06%	69.17%	30.43	1848s	0.89×
AttenCarve (Ours)	50	163.04	3.26	83.42%	85.31%	75.85%	30.60	748s	2.17×
TeaCache-fast	23	245.84	10.68	82.39%	85.51%	69.91%	30.39	703s	2.31×
Jenga-Base	23	75.49	3.28	83.34%	85.19%	75.92%	30.59	347s	4.68×
Jenga-Turbo	24	47.77	1.99	83.07%	84.47%	77.48%	30.78	225s	7.22×
Jenga-Flash	24	32.97	1.37	82.73%	84.01%	77.58%	30.77	184s	8.83×

分析：

效率： Jenga-Flash 实现了 8.83 倍 的推理加速。
质量： 令人惊讶的是，Jenga-Turbo 的语义得分 (VBench-S) 甚至高于原始模型（77.48% vs 72.84%），这表明动态稀疏注意力可能有助于模型过滤掉噪声，更专注于文本提示词核心信息。

6.2. 消融实验分析

空间填充曲线 (SFC) 的作用: 使用希尔伯特曲线重排比传统的线性展开显著减少了视频中的“漂移伪影”，且由于局部性更强，加速效果更好。
掩码组件: 如果去掉邻接掩码 $\mathbf{B}_{adja}$ ，视频块之间会出现明显的边界网格效应（见 Figure 7）。
多阶段加速: 采用 2 阶段（先 540P 再 720P）是性能与速度的最佳平衡点；3 阶段虽然更快（10 倍），但会产生轻微的潜变量对齐伪影。

7. 总结与思考

7.1. 结论总结

Jenga 证明了在视频生成中，算力并不需要均匀地分布在所有时间和空间位置上。通过在时间轴上采用渐进分辨率、在空间和结构上采用动态稀疏注意力，Jenga 成功打破了 DiT 模型的高算力枷锁。它不仅在技术上实现了 8 倍以上的加速，更重要的是它是一个通用、训练无关的插件，能够直接赋能现有的各种开源模型。

7.2. 局限性与未来工作

潜变量对齐: 在不同分辨率阶段切换时，简单的插值可能导致边界处偶尔出现细微闪烁。作者指出这是未来可以改进的方向，例如引入更精细的潜变量对齐机制。
静态分块限制: 目前的块划分是基于预设曲线的，未来可以探索基于语义内容的自适应分块。
多卡并行: 虽然论文展示了 8 卡环境下的良好扩展性，但跨节点通信开销在极高稀疏度下可能成为新的瓶颈。

7.3. 个人启发与批判

启发: Jenga 的思路非常符合人类视觉认知的逻辑：我们看东西时，先看整体轮廓，再看局部细节，且注意力总是集中在关键区域。将这种生物启发式的设计引入推理加速，往往比单纯的底层算子优化更有效。

批判性思考: 论文中提到的“文本注意力增强器”是一个非常巧妙的补丁，它揭示了模型分辨率与语义感受野之间的深层联系。然而，这种人工设置的偏差 $\beta$ 是否具有跨模型的一致性还有待商榷。此外，虽然该方法号称“无需训练”，但在特定任务（如高动态运动视频）下，可能仍需要针对稀疏率 $k$ 进行一定的手动调优，以达到最佳视觉效果。总的来说，Jenga 为实时视频生成铺平了道路，是 DiT 时代非常务实且强大的推理优化方案。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。