论文状态:已完成

Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression

发表:2025/12/04
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了深度强制机制,解决了自回归视频扩散中的时间重复、漂移和运动减速问题。通过无训练的深度汇点和参与式压缩,模型实现超过12倍的视频外推,显著提升生成质量和一致性,为长视频生成提供了新思路。

摘要

Recent advances in autoregressive video diffusion have enabled real-time frame streaming, yet existing solutions still suffer from temporal repetition, drift, and motion deceleration. We find that naively applying StreamingLLM-style attention sinks to video diffusion leads to fidelity degradation and motion stagnation. To overcome this, we introduce Deep Forcing, which consists of two training-free mechanisms that address this without any fine-tuning. Specifically, 1) Deep Sink dedicates half of the sliding window to persistent sink tokens and re-aligns their temporal RoPE phase to the current timeline, stabilizing global context during long rollouts. 2) Participative Compression performs importance-aware KV cache pruning that preserves only tokens actively participating in recent attention while safely discarding redundant and degraded history, minimizing error accumulation under out-of-distribution length generation. Together, these components enable over 12x extrapolation (e.g. 5s-trained to 60s+ generation) with better imaging quality than LongLive, better aesthetic quality than RollingForcing, almost maintaining overall consistency, and substantial gains in dynamic degree, all while maintaining real-time generation. Our results demonstrate that training-free KV-cache management can match or exceed training-based approaches for autoregressively streaming long-video generation.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression (深度强制:基于深度汇点和参与式压缩的免训练长视频生成)

1.2. 作者

Jung Yi, Wooseok Jang, Paul Hyunbin Cho, Jisu Nam, Heeji Yoon, Seungryong Kim

1.3. 隶属机构

KAIST AI (韩国科学技术院人工智能)

1.4. 发表年份

2025

1.5. 摘要

尽管自回归视频扩散 (autoregressive video diffusion) 在实时帧流传输方面取得了进展,但现有解决方案仍面临时间重复、漂移和运动减速等问题。研究发现,将 StreamingLLM 风格的注意力汇点 (attention sinks) 简单应用于视频扩散会导致保真度下降和运动停滞。为解决此问题,本文引入了 Deep Forcing (深度强制) 机制,包含两种无需训练的机制,无需任何微调即可解决上述问题。具体而言,1) Deep Sink (深度汇点) 将滑动窗口的一半空间专用于持久性汇点词元 (sink tokens),并将其时间旋转位置编码 (RoPE) 相位重新对齐到当前时间线,从而在长时间推演 (long rollouts) 过程中稳定全局上下文。2) Participative Compression (参与式压缩) 执行重要性感知键值缓存 (KV cache) 剪枝,仅保留积极参与近期注意力计算的词元,并安全丢弃冗余和劣化的历史信息,从而在超出分布长度生成时最小化错误累积。这些组件共同作用,使得模型能够实现超过 12×12\times 的外推(例如,从训练的 5 秒视频生成 60 秒以上的视频),在成像质量上优于 LongLive,在美学质量上优于 RollingForcing,几乎保持了整体一致性,并在动态程度上显著提升,同时保持实时生成。研究结果表明,无需训练的 KV 缓存管理方法在自回归流式长视频生成方面可以匹敌甚至超越基于训练的方法。

1.6. 原文链接与发布状态

原文链接: https://arxiv.org/abs/2512.05081 PDF 链接: https://arxiv.org/pdf/2512.05081.pdf 发布状态: 预印本 (arXiv, 发布日期 2025-12-04T00:00:00.000Z)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题与重要性

当前视频扩散模型 (video diffusion models) 在合成短视频片段(例如 50-81 帧)方面表现出色,具有高视觉保真度 (visual fidelity) 和连贯的运动动态 (coherent motion dynamics)。然而,对于新兴的交互式系统,如世界模型 (world models) 或实时下游应用,需要进行自回归视频生成 (autoregressive video generation),即以实时流式方式顺序生成帧,通常要求视频长度达到 1-2 分钟。

现有自回归视频生成方法,如 Self Forcing 及其变体,通过利用因果注意力掩码 (causal attention mask) 和来自先前帧的键值缓存 (KV cache) 来实现。然而,这种自回归方式天生容易在长序列生成中出现错误累积 (error accumulation)。这意味着每个预测帧都依赖于先前生成(且可能不完美)的帧,导致随着时间推移出现:

  • 保真度下降 (fidelity degradation): 视觉质量恶化,颜色漂移至过饱和,纹理模糊,细节丢失。
  • 时间重复 (temporal repetition): 视频内容在时间上出现不自然的重复。
  • 漂移 (drift): 视频内容逐渐偏离初始提示或主题。
  • 运动减速 (motion deceleration): 视频中的运动变得迟缓或停滞。

2.1.2. 现有挑战与研究空白

  • 训练-推理不匹配 (train-inference mismatch): 模型在训练时通常使用真实历史数据,但在推理时则使用自身生成的历史数据,这引入了分布差异。
  • 历史噪声鲁棒性 (robustness to noisy generated histories): 尽管一些工作尝试通过向训练时的历史数据添加噪声来提高鲁棒性,但生成的噪声与人工注入的噪声之间仍存在差异。
  • 注意力汇点 (attention sink) 的局限性: 借鉴大型语言模型 (LLM) 中的注意力汇点机制(即新生成的词元强烈关注一小组初始全局词元以稳定注意力分布),在视频领域中的适应性尚未得到充分探索,且简单应用可能导致保真度下降和运动停滞。特别是,如何在无需训练 (training-free) 的情况下将注意力汇点有效地应用于自回归视频扩散模型以实现稳定效果,是一个未被解决的问题。
  • KV 缓存管理 (KV cache management): 随着序列增长,KV 缓存呈线性增长,导致内存占用增加。同时,注意力会分散到越来越多的词元上,稀释了对关键上下文的关注,进而降低生成质量。现有的 FIFO (First-In, First-Out) 策略在剔除旧词元时,可能丢失关键上下文。

2.1.3. 本文的切入点

本文观察到,预训练的 Self Forcing 模型本身就展现出强烈的注意力汇点行为,不仅关注最初的几个词元,而且强烈关注中间词元。基于这一发现,本文提出了一种无需训练的解决方案 Deep Forcing,通过创新的 Deep SinkParticipative Compression 机制来解决长视频生成中的错误累积问题。

2.2. 核心贡献/主要发现

本文的主要贡献总结如下:

  • 提出 Deep Forcing 框架: 引入了一个无需训练的自回归视频生成框架,显著缓解了长序列生成中的错误累积问题。
  • 引入 Deep Sink (深度汇点):
    • 利用 Self Forcing 模型固有的深层注意力汇点行为,将其滑动窗口的约一半空间分配给持久性汇点词元。
    • 通过动态调整这些汇点词元的时间旋转位置编码 (RoPE) 相位,使其与当前时间线对齐,从而稳定了长序列生成过程中的全局上下文,解决了时间不连续性导致的问题(如闪烁、保真度下降和回滚)。
  • 提出 Participative Compression (参与式压缩):
    • 设计了一种轻量级的 KV 缓存选择机制,通过根据词元对近期注意力查询的重要性进行排序,动态识别并仅保留最相关的词元。
    • 安全地丢弃冗余和劣化的历史词元,最小化了在超出训练长度生成时因噪声累积导致的错误。
  • 卓越的性能表现:
    • 无需任何微调,在 VBenc-Long 评估基准、用户研究和 VLM (Vision-Language Model) 评估中均达到了最先进的性能,甚至超越了现有的基于训练的方法(如 Rolling ForcingLongLive)。
    • 实现了超过 12×12\times 的视频长度外推(例如,从 5 秒训练视频生成 60 秒以上的视频),同时保持了实时生成。
    • 在成像质量上优于 LongLive,美学质量上优于 RollingForcing,几乎维持了整体一致性,并在动态程度上显著提升。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 扩散模型 (Diffusion Models)

扩散模型是一类生成模型,它通过一个逐步去噪 (denoising) 的过程来生成数据。在训练阶段,模型学习如何从一个充满噪声的数据(通常是纯高斯噪声)中逐步恢复出原始数据。在生成阶段,模型从随机噪声开始,通过迭代应用学习到的去噪步骤,最终生成高质量的数据样本。对于视频生成,这意味着模型学习从噪声视频帧中恢复清晰的视频帧。

3.1.2. 自回归模型 (Autoregressive Models)

自回归模型是一种序列模型,其核心思想是根据序列中前面的元素来预测当前元素。在视频生成中,自回归视频扩散模型会根据已经生成的历史帧来生成新的帧或帧块。这种机制允许模型生成任意长度的视频,但缺点是错误可能会随着生成过程的进行而累积。

3.1.3. 键值缓存 (KV Cache)

在基于注意力机制 (attention mechanism) 的模型(如 Transformer)中,KV cache 用于存储先前计算出的键 (Key) 和值 (Value) 向量。在生成长序列时,每次生成新的词元 (token) 或帧时,查询 (Query) 只需与缓存中的所有键进行注意力计算,而无需重新计算整个历史序列的键和值,从而显著提高推理效率。

3.1.4. 注意力机制 (Attention Mechanism)

注意力机制允许模型在处理序列数据时,动态地聚焦于输入序列中最重要的部分。对于 Transformer 模型中的自注意力 (self-attention),它计算查询 (Query) 与一系列键 (Key) 的相似度,然后用这些相似度作为权重来加权求和对应的值 (Value),从而得到一个上下文感知的表示。 其标准计算公式如下: Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V 其中:

  • QQ (Query): 查询矩阵,形状为 (Nq,dk)(N_q, d_k)NqN_q 是查询的数量,dkd_k 是键和查询的维度。
  • KK (Key): 键矩阵,形状为 (Nk,dk)(N_k, d_k)NkN_k 是键的数量。
  • VV (Value): 值矩阵,形状为 (Nk,dv)(N_k, d_v)dvd_v 是值的维度。
  • KTK^T: 键矩阵的转置。
  • dk\sqrt{d_k}: 缩放因子,用于防止当 dkd_k 很大时点积结果过大,导致 softmax 函数梯度消失。
  • softmax()\mathrm{softmax}(\cdot): 归一化指数函数,将注意力分数转换为概率分布。
  • QKTQK^T: 查询与键的点积,表示查询与每个键的相似度。
  • Attention(Q,K,V)\mathrm{Attention}(Q, K, V): 最终的注意力输出,是值的加权和。

3.1.5. 旋转位置编码 (Rotary Positional Embedding, RoPE)

RoPE 是一种相对位置编码方法,它通过对查询和键向量进行旋转操作,将相对位置信息融入到自注意力计算中。与绝对位置编码不同,RoPE 能够让模型更好地捕捉序列中词元之间的相对距离,这对于长序列生成尤为重要。在视频扩散模型中,通常采用三维 RoPE (3D RoPE),分别编码时间、高度和宽度维度。

3.2. 前人工作

3.2.1. 自回归视频扩散 (Autoregressive Video Diffusion)

  • MAGI-1 [24]: 以块为单位自回归地生成视频,并通过渐进式去噪 (progressive denoising) 实现流式生成。
  • CausVid [35]: 将预训练的双向扩散 Transformer 转换为带有 KV 缓存的因果自回归生成器。
  • Self Forcing [12]: 通过以自身生成的帧为条件进行训练,解决了训练-推理不匹配问题。它使用滚动 KV 缓存机制,固定大小的缓存存储最近 LL 帧的 KV 对,满时淘汰最旧的帧。
  • Rolling Forcing [17]: 建议扩展扩散窗口,并在其注意力汇点机制中引入了原始键存储和动态 RoPE 重应用。
  • LongLive [31]: 引入了 KV reaching (键值到达) 机制,以在场景转换中保持视觉连续性和提示遵循性。
  • Self Forcing++ [8]:Self Forcing 的一个变体,旨在生成分钟级高质量视频。

3.2.2. 注意力汇点 (Attention Sink)

  • StreamingLLM [29]: 发现自回归模型中的注意力会不成比例地集中在初始词元上,称之为注意力汇点。通过在滑动窗口中保留这些汇点词元,实现了超越训练上下文长度的稳定生成。
  • 在视频模型中,Rolling Forcing [17] 和 LongLive [31] 也借鉴了注意力汇点,通常通过模型蒸馏 (model distillation) 或微调 (fine-tuning) 的方式将前三帧作为注意力汇点。

3.2.3. KV 缓存压缩 (KV Cache Compression)

随着自回归生成中文本长度的增加,KV 缓存的线性增长导致内存占用增加和注意力分散。为了解决这个问题,许多工作提出了压缩策略:

  • H2O [37] 和 SnapKV [16]: 基于累积注意力分数或观察窗口保留重要词元。
  • D2O [26]: 动态地在不同层之间分配预算。
  • MorphKV [9]: 通过相关性感知排名 (correlation-aware ranking) 维护固定大小的缓存。 这些方法主要针对语言模型,但其原则可应用于自回归视频扩散,以高效地维护时间上下文。

3.3. 技术演进与差异化分析

3.3.1. 技术演进

该领域的技术演进主要体现在从短视频生成向长视频生成、从离线生成向实时流式自回归生成的发展。早期工作聚焦于高保真短视频,随后发展出自回归方法以延长视频长度。为了解决自回归固有的错误累积问题,研究者们尝试了多种策略,包括训练时引入历史噪声 (Diffusion Forcing [4])、以模型自身生成历史数据进行训练 (Self Forcing [12])。最近,LLM 领域引入的注意力汇点概念 (StreamingLLM [29]) 被尝试应用于视频生成,以稳定长序列的注意力分布。KV 缓存的内存效率问题也促使了各种压缩策略的出现。

3.3.2. 差异化分析

Deep Forcing 与上述相关工作的主要区别和创新点在于:

  • 无需训练 (Training-Free):Rolling Forcing [17] 和 LongLive [31] 等需要模型蒸馏或微调的方法不同,Deep Forcing 是一个完全无需训练 (training-free) 的方法,直接建立在预训练的 Self Forcing [12] 模型之上。这大大降低了实现长视频生成所需的时间和计算资源。
  • “深层”注意力汇点 (Deep Sink): 现有方法通常只保留少数几个初始帧作为注意力汇点。Deep Forcing 通过分析发现 Self Forcing 具有更深的固有注意力汇点行为,因此将滑动窗口约一半的上下文用于持久性汇点词元。
  • 时间 RoPE 调整 (Temporal RoPE Adjustment): Deep Sink 结合了 RoPE 调整机制,动态校准汇点词元的时间 RoPE 索引,解决了长序列中时间差异过大导致的闪烁、保真度下降和回滚问题。这与 LongLive 等不调整 RoPE 的方法形成对比,并比 Rolling Forcing 的全局 RoPE 重应用更具针对性。
  • 重要性感知 KV 缓存压缩 (Participative Compression): Deep Forcing 不仅依赖固定汇点,还引入了基于注意力重要性选择的 Participative Compression。它不是简单地采用 FIFO (First-In, First-Out) 策略,而是根据词元对近期查询的参与度来动态保留最重要的中间词元,从而有效去除冗余并最小化错误累积。这比 Self Forcing 的 FIFO 策略更智能,并扩展了 LLM 领域的 KV 压缩思想以适应视频扩散模型。

4. 方法论

4.1. 方法原理

Deep Forcing 旨在通过两种无需训练的机制,解决自回归长视频生成中的错误累积、保真度下降和运动停滞问题。其核心思想是:

  1. 稳定全局上下文: 通过引入 Deep Sink,利用预训练模型固有的深层注意力汇点行为,并结合时间旋转位置编码 (RoPE) 的动态调整,确保在长时间生成过程中,模型能够始终访问稳定的全局参考帧,从而维持视觉一致性和动态度。

  2. 优化 KV 缓存管理: 通过 Participative Compression,智能地管理键值缓存 (KV cache)。它不再简单地丢弃最旧的帧,而是根据词元对近期帧注意力计算的重要性进行评估和选择,只保留那些对当前和未来生成最关键的词元,从而减少注意力稀释和噪声累积。

    这两种机制协同作用,使得模型在不进行任何额外训练的情况下,能够将生成长度外推到远超训练数据分布的范围,同时保持高质量的视频输出。

4.2. Deep Sink (深度汇点)

4.2.1. 动机

Self Forcing [12] 等模型通过滑动窗口自回归地生成视频帧。然而,由于这些模型通常是从短视频片段(例如 5 秒)中蒸馏或训练而来,当生成长度远超其训练域的序列时,帧的保真度会显著下降。这种退化是自回归系统中的常见挑战。

在大型语言模型 (LLM) 领域,注意力汇点 (attention sink) [29] 机制被引入作为一种简单而有效的方法,用于在滑动窗口推理期间缓解性能漂移。虽然一些工作 [17, 31] 探索了将注意力汇点机制应用于视频扩散模型,以重新分配注意力概率并稳定性能,但此前没有工作在无需训练 (training-free) 的情况下,探索如何在自回归视频扩散模型中实现类似的稳定效果。

4.2.2. 分析与“深化”汇点大小

为了弥补这一空白,本文首先分析了预训练 Self Forcing 模型的注意力行为。研究发现(如图 4 所示),新生成的潜在帧 (latent frames) 不仅强烈关注 KV 缓存中最早的词元,而且将相当大的注意力分配给了序列的中间部分。这与传统理解(即只需保留一小组初始 KV 词元)有所不同。

基于此观察,研究假设保留更多中间词元对于高质量长视频生成至关重要。为了验证这一假设,作者测量了不同注意力汇点大小对长视频生成质量的影响。通过使用 VBenc [13] 中的整体一致性 (Overall Consistency)美学质量 (Aesthetic Quality) 指标,并计算美学质量漂移 (ΔDriftQuality\Delta_{\mathrm{Drift}}^{\mathrm{Quality}})(即 50 秒生成视频的最初 5 秒和最后 5 秒之间美学质量的绝对差异),结果如图 5 所示: 随着汇点帧大小的增加,整体一致性 (Overall Consistency) 提高,而美学质量漂移 (ΔDriftQuality\Delta_{\mathrm{Drift}}^{\mathrm{Quality}}) 降低。这表明中间帧作为关键的锚点,有效地维护了长时间生成过程中的时间连贯性和视觉保真度。因此,在 Self Forcing 中,有效的注意力汇点机制来源于深层、扩展的时间锚定,这与 StreamingLLM [29] 中使用的浅层、初始帧固定机制不同。最终,本文发现最佳汇点范围为 10-15 帧(占滑动窗口的 40-60%)。

fig 7 该图像是一个折线图,展示了不同时间点的审美漂移和一致性变化,其中紫色线表示审美漂移(↓),蓝色线代表一致性(↑)。随着时间的推移,两者的数据趋势出现波动,审美漂移总体呈下降趋势,而一致性则有所上升,反映了视频生成的质量变化。

Figure 4. Attention weight distribution across earlier frames. Query-averaged attention showing how the last chunk (frames 19-21) attends to earlier KV cache entries (frames 0-18). We visualize two representative attention heads from different layers—L1H1 (layer 1, head 1) and L5H10 (layer 5, head 10)—demonstrating that substantial attention is maintained across the entire context window, not just initial frames. See Appendix H for additional heads analysis.

fig 7 该图像是一个折线图,展示了不同时间点的审美漂移和一致性变化,其中紫色线表示审美漂移(↓),蓝色线代表一致性(↑)。随着时间的推移,两者的数据趋势出现波动,审美漂移总体呈下降趋势,而一致性则有所上升,反映了视频生成的质量变化。

Figure 5. Ablation study on Deep Sink depth. We evaluate the effect of sink depth on video quality using Aesthetic Drift ()(\downarrow) and Overall Consistency ()(\uparrow) metrics on 50-second videos from the first 21 prompts in MovieGen [19].

4.2.3. 时间旋转位置编码调整 (Temporal RoPE Adjustment)

RoPE [23] 作为视频扩散模型中常用的位置编码,通常采用 3D RoPE,单独编码时间、高度和宽度维度。然而,在视频注意力汇点设置下,模型需要关注历史帧,直接应用 3D RoPE 会导致巨大的时间差异(例如,时间 t=1t=1 的词元与 t=200t=200 的词元被迫相互关注)。这会破坏视频的连续性,导致:

  1. 闪烁 (flickering): 帧之间出现不稳定的视觉变化。

  2. 保真度下降 (fidelity degradation): 视觉质量恶化。

  3. 回滚 (roll-back): 生成内容退回到先前已汇点的帧。

    为解决此问题,本文提出仅调整时间维度,同时保留原始空间编码。 具体来说,通过对注意力汇点的时间索引应用一个时间偏移量 (Δsink\Delta_{\mathrm{sink}}),有选择地修改时间 RoPE 索引。这减少了注意力汇点和其余词元之间的时间差距,同时保持空间索引不变。

将当前滑动窗口中的键 (Key) 和值 (Value) 缓存 KKVV 分为两部分:Deep Sink 词元的汇点部分 (KSink,VSink)(K_{\mathrm{Sink}}, V_{\mathrm{Sink}}) 和其余词元的尾部部分 (Ktail,Vtail)(K_{\mathrm{tail}}, V_{\mathrm{tail}})K=[KSinkKtail](3) K = \big[K_{\mathrm{Sink}}\parallel K_{\mathrm{tail}}\big] \quad (3) V=[VsinkVtail](4) V = \big[V_{\mathrm{sink}}\parallel V_{\mathrm{tail}}\big] \quad (4) 其中,\parallel 表示拼接 (concatenation)。

stails_{\mathrm{tail}} 表示尾部部分的第一个帧索引, ssinks_{\mathrm{sink}} 表示 Deep Sink 的最后一个帧索引。 然后定义 Δsink\Delta_{\mathrm{sink}},即 stails_{\mathrm{tail}}ssinks_{\mathrm{sink}} 之间的时间差距: Δsink=stailssink(5) \Delta_{\mathrm{sink}} = s_{\mathrm{tail}} - s_{\mathrm{sink}} \quad (5) Δsink\Delta_{\mathrm{sink}} 应用于 Ksink(time)K_{\mathrm{sink}}^{\mathrm{(time)}} (即 KsinkK_{\mathrm{sink}} 的时间分量),使用 RoPE 时间频率向量 ωt\omega_{t} 进行调整: Ksink(time)Ksink(time)exp(iωtΔsink)(6) K_{\mathrm{sink}}^{\mathrm{(time)}}\leftarrow K_{\mathrm{sink}}^{\mathrm{(time)}}\odot \exp \left(i\omega_t\Delta_{\mathrm{sink}}\right) \quad (6) 其中,ii 是虚数单位,\odot 表示逐元素乘法。这个操作进一步旋转了 KsinkK_{\mathrm{sink}},以对齐汇点词元和尾部词元的相对时间位置,从而维持时间连贯性。

4.3. Participative Compression (参与式压缩)

4.3.1. 动机

尽管 Deep Sink 有效缓解了保真度下降,但其本身不足以完全解决分钟级视频生成中的质量退化。当从 5 秒的训练片段外推到超过 12×12\times 更长的序列时,会出现一个关键问题:退化 (degeneration),即视觉保真度和整体质量逐渐恶化。这种现象在自回归长上下文生成中已被充分证明 [9, 11]:当生成长度超出训练分布时,不加区分地保留词元会导致注意力分散在相关和不相关的上下文上,引入复合噪声。KV 缓存的持续增长会保留越来越多不相关的词元,进一步稀释注意力。

对视频扩散模型的最新分析表明,注意力集中在一小部分语义关键词元上,而大多数词元对生成贡献甚微 [32]。这表明修剪低注意力词元可以在不显著影响质量的情况下大幅减少计算。基于此洞察和重要性感知压缩方法 [9, 16, 37],本文提出了 Participative Compression (PC)。

4.3.2. 概述

Self Forcing [12] 通过在缓存满时驱逐最早的帧来实现滚动 KV 缓存。相比之下,Participative Compression (PC) 在词元级别操作,通过根据最近帧的聚合注意力分数对词元进行排序来选择性地移除冗余词元,而不是使用简单的 FIFO (First-In, First-Out) 策略,如图 2 所示。

fig 11 该图像是一个用户界面示意图,展示了视频质量评估的四个方面,包括色彩一致性、动态运动、主体一致性和整体质量。用户可以选择模型 A 或模型 B 来评估对应的视频质量。

Figure 2. Comparison of KV Cache Management. (a) Self Forcing [12] adopts a FIFO policy that discards the earliest tokens regardless of their importance, often losing critical context and degrading generation quality. In contrast, our (b) Deep Forcing performs selective eviction by preserving Deep Sink tokens and applying KV-cache compression, effectively mitigating visual degradation during long-horizon generation.

PC 引入了两个关键超参数:

  1. Budget (NN): 压缩后要保留的目标词元数量。
  2. Recent (RR): 从最新帧中排除压缩的词元数量,以保留局部连贯性。 此外,还有 SSDeep Sink 帧的词元始终被保留。

PC 在滑动窗口达到最大长度 MM 个词元时应用,将缓存压缩到大小 NMN \leq M。压缩操作作用于 Kcand,VcandK_{\mathrm{cand}}, V_{\mathrm{cand}},它们包含除前 SS 个汇点词元和最近 RR 个词元之外的所有词元。

  • Recent (Kret,VretK_{\mathrm{ret}}, V_{\mathrm{ret}}): 包含来自最近 RR 帧的词元,它们被排除在压缩之外,以保留局部连贯性。

  • Candidate (Kcand,VcandK_{\mathrm{cand}}, V_{\mathrm{cand}}): 包含 SinkRecent 之间的所有中间词元,它们是压缩的对象。

    对于 Kcand,VcandK_{\mathrm{cand}}, V_{\mathrm{cand}} 中的每个词元,PC 通过汇总其从所有最近 RR 帧的注意力权重来计算重要性分数——频繁被关注的词元被认为是维持时间连贯性的关键。然后,PC 选择重要性分数最高的 Top-CC 个词元来形成 Ktop,VtopK_{\mathrm{top}}, V_{\mathrm{top}},其中 C=NRSC = N - R - S。最终的 KV 缓存包含 NN 个词元:SS 个汇点词元、CC 个压缩词元和 RR 个最近词元。

4.3.3. Top-CC 选择

PC 根据候选词元与当前生成的关联性,选择性地保留最重要的 CC 个词元,并驱逐未被选中的词元。为了确定要保留哪些词元,PC 计算近期查询 (QretQ_{\mathrm{ret}}) 和候选键 (KcandK_{\mathrm{cand}}) 之间的注意力分数。通过沿查询维度求和,聚合所有近期查询的这些分数,为每个候选键生成一个统一的重要性分数 ϕj\phi_{j}ϕj=r=1Rqrkj(7) \phi_{j} = \sum_{r = 1}^{R}\mathbf{q}_{r}^{\top}\mathbf{k}_{j} \quad (7) 其中,jj 索引候选键,qr\mathbf{q}_{r} 表示 QretQ_{\mathrm{ret}} 中的第 rr 个查询,kj\mathbf{k}_{j} 表示 KcandK_{\mathrm{cand}} 中的第 jj 个键。更高的 ϕj\phi_{j} 表示对当前生成具有更高的重要性。然后形成重要性向量 ϕ=[ϕ1,ϕ2,,ϕKcand]\phi = [\phi_{1}, \phi_{2}, \ldots , \phi_{\lfloor K_{\mathrm{cand}}\rfloor}],并选择分数最高的 Top-CC 个词元: Ktop=TopC(ϕ)(8) K_{\mathrm{top}} = \mathrm{Top - C} (\phi) \quad (8) 最后,通过按时间顺序拼接保留的组件来形成压缩缓存: Kcompressed=[KsinkKtopKret](9) K_{\mathrm{compressed}} = \left[K_{\mathrm{sink}}\parallel K_{\mathrm{top}}\parallel K_{\mathrm{ret}}\right] \quad (9) 其中 KretK_{\mathrm{ret}} 包含来自前 SS 个和最近 RR 个键。值 (VtopV_{\mathrm{top}}) 的处理方式相同。这产生了一个紧凑的缓存结构,结合了长期初始上下文 (Sink)、选择性重要的中间词元 (Top-C) 和新鲜的近期上下文 (Recent),所有这些都在固定预算 NN 内。

4.3.4. 时间 RoPE 统一 (Temporal RoPE Unification)

在选择 Top-CC 词元后,为了保持时间维度的一致性,本文应用 RoPE 调整,方法与 Deep Sink (第 4.2 节) 相同。仅调整 Top-CC 键的 RoPE 的时间维度,同时保持其空间信息不变。

stops^{\mathrm{top}} 表示 Top-CC 块应对齐的期望绝对时间位置, sbasetops_{\mathrm{base}}^{\mathrm{top}} 表示每个缓存 Top-CC 键的当前时间位置。计算时间调整量: Δtop=stopsbasetop(10) \Delta_{\mathrm{top}} = s^{\mathrm{top}} - s_{\mathrm{base}}^{\mathrm{top}} \quad (10) 然后将此时间偏移量 Δtop\Delta_{\mathrm{top}} 应用于 Ktop(time)K_{\mathrm{top}}^{\mathrm{(time)}} (即 KtopK_{\mathrm{top}} 的时间分量),使用 RoPE 时间频率 ωt\omega_{t} 定义的复数相位旋转,重新对齐每个 Top-CC 键: Ktop(time)Ktop(time)exp(iωtΔtop)(11) K_{\mathrm{top}}^{\mathrm{(time)}}\leftarrow K_{\mathrm{top}}^{\mathrm{(time)}}\odot \exp \left(i\omega_{t}\Delta_{\mathrm{top}}\right) \quad (11) 其中 ii 是虚数单位,\odot 表示逐元素乘法。 这种旋转调整了 KtopK_{\mathrm{top}} 的时间定位,以在所有三个缓存组件 (SinkTop-CRecent) 之间创建连续的时间序列,防止时间不连续性导致保真度下降、闪烁和回滚伪影。

4.3.5. 算法流程

以下是结合了 Deep SinkParticipative Compression 的算法 1 流程:

算法 1 带有深度汇点 (Deep Sink) 的参与式压缩 (Participative Compression)

输入: KV 缓存 [K, V] 大小为 MM;汇点大小 SS;近期词元数量 RR;Top-C 容量 CC;时间步 tt;第一个时间步 TT

1: 如果 MMAX_WINDOW_LENGTHM \geq \mathrm{MAX\_WINDOW\_LENGTH}t=Tt = T 2: // 将缓存划分为三个区域 3: Tsink[0,S)T_{sink}\leftarrow [0, S) \rhdSS 帧 4: Trc[MR,M)T_{\mathrm{rc}}\leftarrow [M - R, M) \rhd 最后 RR 帧 5: Tcand[S,MR)T_{\mathrm{cand}}\leftarrow [S, M - R) \rhd 候选词元/帧 6: 如果 Tcand>0|T_{\mathrm{cand}}| >0C>0C > 0 7: // 计算重要性分数 (等式 7) 8: QretQ[Tret]Q_{\mathrm{ret}}\leftarrow Q[T_{\mathrm{ret}}] \rhd 近期查询 9: KcandK[Tcand]K_{\mathrm{cand}}\gets K[T_{\mathrm{cand}}] \rhd 候选键 10: 对于 j=1j = 1Tcand|T_{\mathrm{cand}}| 执行 11: ϕjr=1Rqrkj\phi_{j}\leftarrow \sum_{r = 1}^{R}\mathbf{q}_{r}^{\top}\mathbf{k}_{j} \rhd 聚合注意力 12: // 选择 Top-CC 词元 (等式 8) 13: ϕ[ϕ1,ϕ2,,ϕTcand]\phi \leftarrow [\phi_{1}, \phi_{2}, \ldots , \phi_{\lfloor T_{\mathrm{cand}}\rfloor} ] 14: TtopTOPC(ϕ)T_{\mathrm{top}}\leftarrow \mathrm{TOP}C(\phi) \rhd 选择 CC 个分数最高的词元 15: // 时间 RoPE 统一 (第 4.3 节) 16: Δtopstopsbasetop\Delta_{\mathrm{top}}\gets s^{\mathrm{top}} - s_{\mathrm{base}}^{\mathrm{top}} 17: Ktop(time)Ktop(time)exp(iωtΔtop)K_{\mathrm{top}}^{(\mathrm{time})}\gets K_{\mathrm{top}}^{(\mathrm{time})}\odot \exp (i\omega_{t}\Delta_{\mathrm{top}}) 18: 否则 19: TtopT_{\mathrm{top}}\gets \emptyset 20: // 组装压缩缓存 (等式 9) 21: Kcompressed[KsinkKtopKret]K_{\mathrm{compressed}}\gets [K_{\mathrm{sink}}\parallel K_{\mathrm{top}}\parallel K_{\mathrm{ret}}] 22: Vcompressed[VsinkVtopVret]V_{\mathrm{compressed}}\gets [V_{\mathrm{sink}}\parallel V_{\mathrm{top}}\parallel V_{\mathrm{ret}}] 23: 返回 Kcompressed,VcompressedK_{\mathrm{compressed}}, V_{\mathrm{compressed}} 24: 否则 25: 返回 KVK_{\mathrm{V}} \rhd 无压缩

4.3.6. 效率

Participative Compression (PC) 的计算复杂性可能看似会带来显著的计算开销。然而,它的计算负担被其稀疏的激活条件最小化了。PC 仅在两个特定条件下启用:当滑动上下文窗口完全填满时,以及在第一个扩散时间步 (t=Tt = T)。尽管 Top-C 选择机制涉及词元收集和排序,但效率分析(见附录 E)表明,这种操作是合理的,因为压缩后,生成后续帧所需的注意力计算成本会降低。

fig 6 该图像是图示,展示了 Deep Forcing 和 Participative Compression 两个机制的工作原理。图中左侧 (a) 描述了 Deep Sink 和其时间 RoPE 调整功能,右侧 (b) 说明了参与性压缩的注意力得分计算及候选和最近令牌的选择过程。

Figure 3. Overview of Deep Forcing. (a) Deep Forcing maintains a substantially enlarged attention sink (Deep Sink) covering approximately half the context window, combined with Participative Compression for the remaining rolling portion. Temporal RoPE adjustment aligns the sink tokens' temporal indices with current frames to maintain temporal coherence. (b) Participative Compression computes query-averaged attention scores between recent tokens and candidate tokens, selecting the top-C most important tokens to retain in the compressed cache while evicting redundant tokens.

5. 实验设置

5.1. 实验设置

5.1.1. 实现细节

  • 基础模型 (Base Model): 使用分块式 (chunk-wise) Self Forcing [12] 作为基础模型。
  • Deep Sink (DS) 参数: 汇点大小 S=10S = 10 帧。
  • Participative Compression (PC) 参数: 预算 N=16N = 16 帧,近期词元 R=4R = 4 帧。
  • 对比基线: CausVid [35], Self Forcing [12], Rolling Forcing [17], LongLive [31]。

5.1.2. 数据集

  • VBenc-Long [13]: 使用 VBenc-Long 进行长视频生成评估。
  • MovieGen [19]: 采用来自 MovieGen 的 128 个提示 (prompts),遵循 Self Forcing++ [8] 相同的提示选择协议。
  • 提示精炼: 每个提示都使用 Qwen/Qwen2.5-7B-Instruct [30] 按照 Self Forcing [12] 的协议进行精炼。

5.1.3. 评估指标

论文使用了 VBenc [13] 提供的多项视频质量评估指标,并进行了用户研究和 VLM 评估。

  1. 吞吐量 (Throughput, FPS):

    • 概念定义: 每秒生成的帧数 (Frames Per Second),衡量视频生成的速度和效率。
    • 数学公式: FPS=总帧数总生成时间 \mathrm{FPS} = \frac{\text{总帧数}}{\text{总生成时间}}
    • 符号解释:
      • 总帧数\text{总帧数}: 视频中所有生成帧的数量。
      • 总生成时间\text{总生成时间}: 生成这些帧所需的总时间(以秒为单位)。
  2. 动态程度 (Dynamic Degree, \uparrow):

    • 概念定义: 衡量视频中运动的活跃程度,包括主体移动和镜头运动。更高的值表示视频内容更加生动和富有变化。
    • 数学公式: (VBenc 内部指标,通常基于光流或帧间差异计算,具体公式未在论文中给出,但其设计目标是量化运动强度。)
    • 符号解释: (此处省略,因论文未提供具体公式,但概念明确。)
  3. 运动平滑度 (Motion Smoothness, \uparrow):

    • 概念定义: 衡量视频中运动过渡的自然程度,避免突然的跳跃或卡顿。更高的值表示运动更流畅。
    • 数学公式: (VBenc 内部指标,通常基于相邻帧的光流平滑度计算,具体公式未在论文中给出。)
    • 符号解释: (此处省略,因论文未提供具体公式,但概念明确。)
  4. 整体一致性 (Overall Consistency, \uparrow):

    • 概念定义: 衡量整个视频在视觉风格、内容和叙事方面的连贯性。高的整体一致性意味着视频不会出现不连贯的场景变化或风格漂移。
    • 数学公式: (VBenc 内部指标,通常基于 CLIP/ViT-CLIP 特征嵌入在时间上的相似性计算,具体公式未在论文中给出。)
    • 符号解释: (此处省略,因论文未提供具体公式,但概念明确。)
  5. 成像质量 (Imaging Quality, \uparrow):

    • 概念定义: 衡量视频帧的视觉清晰度、细节表现和真实感。更高的值表示生成的图像更清晰、更逼真。
    • 数学公式: (VBenc 内部指标,可能基于 FID 或其他图像质量评估指标在视频帧上的平均,具体公式未在论文中给出。)
    • 符号解释: (此处省略,因论文未提供具体公式,但概念明确。)
  6. 美学质量 (Aesthetic Quality, \uparrow):

    • 概念定义: 衡量视频内容在视觉上的吸引力、构图和美感。通常通过预训练的美学预测器(如 LAION aesthetic predictor [15])来评估。
    • 数学公式: (通常由一个分类器或回归模型输出,具体公式未在论文中给出。)
    • 符号解释: (此处省略,因论文未提供具体公式,但概念明确。)
  7. 主体一致性 (Subject Consistency, \uparrow):

    • 概念定义: 衡量视频中主要主体(例如人物或物体)在外观、身份和形态上的一致性。高的主体一致性意味着主体在整个视频中不会发生身份漂移或显著变形。
    • 数学公式: (VBenc 内部指标,可能基于面部识别或物体识别模型在不同帧间的主体特征相似度,具体公式未在论文中给出。)
    • 符号解释: (此处省略,因论文未提供具体公式,但概念明确。)
  8. 背景一致性 (Background Consistency, \uparrow):

    • 概念定义: 衡量视频背景在视觉元素、布局和风格上的一致性。高的背景一致性意味着背景不会出现不自然的突变。
    • 数学公式: (VBenc 内部指标,可能基于帧背景区域的特征相似度,具体公式未在论文中给出。)
    • 符号解释: (此处省略,因论文未提供具体公式,但概念明确。)
  9. 美学漂移 (Aesthetic Drift, \downarrow):

    • 概念定义: 衡量视频美学质量随时间变化的程度。漂移越小表示视频的美学质量在整个生成过程中越稳定。
    • 数学公式: ΔDriftQuality=AestheticQualityfirst_5sAestheticQualitylast_5s \Delta_{\mathrm{Drift}}^{\mathrm{Quality}} = |\mathrm{AestheticQuality}_{\mathrm{first\_5s}} - \mathrm{AestheticQuality}_{\mathrm{last\_5s}}|
    • 符号解释:
      • AestheticQualityfirst_5s\mathrm{AestheticQuality}_{\mathrm{first\_5s}}: 视频最初 5 秒的美学质量分数。
      • AestheticQualitylast_5s\mathrm{AestheticQuality}_{\mathrm{last\_5s}}: 视频最后 5 秒的美学质量分数。
  10. 视觉稳定性 (Visual Stability, \uparrow):

    • 概念定义: 衡量视频在曝光、色彩和整体视觉元素上的稳定性,避免闪烁、颜色突变或明显的降级。通过最先进的视觉语言模型 (VLM) Gemini 2.5-Pro [7] 评估,遵循 Self Forcing++ [8] 协议。
    • 数学公式: (由 VLM Gemini 2.5-Pro 输出的稳定性评分,然后归一化到 100,具体内部计算公式未在论文中给出。)
    • 符号解释: (此处省略,因论文未提供具体公式,但概念明确。)

5.1.4. 对比基线

  • CausVid [35]: 一个将预训练的双向扩散 Transformer 转换为因果自回归生成器的方法。
  • Self Forcing [12]: 通过在模型自身生成的帧上进行条件化训练,解决训练-推理不匹配问题的基线。
  • Rolling Forcing [17]: 提出扩展扩散窗口,并采用注意力汇点和动态 RoPE 的方法。
  • LongLive [31]: 引入 KV reaching 机制以维持视觉连续性和提示遵循性的方法。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定量结果

以下是原文 Table 1 的结果:

ModelThroughput (FPS) \uparrowDynamic Degree \uparrowMotion Smoothness \uparrowOverall Consistency \uparrowImaging Quality \uparrowAesthetic Quality \uparrowSubject Consistency \uparrowBackground Consistency \uparrow
Trained with Attention Sink (训练带注意力汇点)
30 seconds (30 秒)
Rolling Forcing [17]15.7930.7198.7520.9970.5860.2498.1296.91
LongLive [31]18.1645.5598.7620.1669.0761.5197.9796.83
Trained without Attention Sink (训练不带注意力汇点)
CausVid [35]15.7847.2198.0819.1566.3659.7797.9296.77
Self Forcing [12]15.7836.6298.6320.5068.5859.4497.3496.47
Deep Forcing (Ours)15.7557.5698.2720.5469.3160.6897.3496.48
Trained with Attention Sink (训练带注意力汇点)
60 seconds (60 秒)
Rolling Forcing [17]15.7931.3598.6920.6470.2559.7597.9796.76
LongLive [31]18.1643.4998.7520.2969.1161.2997.8596.74
Trained without Attention Sink (训练不带注意力汇点)
CausVid [35]15.7846.4498.0918.7865.8459.4297.8196.75
Self Forcing [12]15.7831.9898.2118.6366.3356.4596.8296.31
Deep Forcing (Ours)15.7557.1998.2320.3869.2759.8696.9696.32

分析:

  • 无需训练的卓越性能: Deep Forcing 作为一种无需训练的方法,其性能与专门为长视频生成而蒸馏或训练的方法(如 Rolling Forcing [17] 和 LongLive [31])相当,甚至在某些方面有所超越。
  • 更高的动态程度 (Dynamic Degree): Deep Forcing 在 30 秒和 60 秒的视频生成中,动态程度分别达到 57.56 和 57.19,显著高于所有基线方法,包括 Rolling Forcing (30.71/31.35) 和 LongLive (45.55/43.49)。这表明 Deep Forcing 能够生成更具活力和变化的视频内容,这归因于其无需训练的特性避免了在训练过程中可能引入的运动约束。
  • 竞争性的图像和美学质量: 在 30 秒视频上,Deep Forcing 实现了 69.31 的成像质量,优于 LongLive (69.07) 和所有不带注意力汇点训练的基线。在美学质量方面,它以 60.68 的分数优于 Rolling Forcing (60.24)。在 60 秒视频上,成像质量和美学质量也保持了竞争力。
  • 保持整体一致性: Deep Forcing 在 30 秒和 60 秒视频上都取得了 20.54 和 20.38 的整体一致性分数,与 Rolling Forcing (20.99/20.64) 和 LongLive (20.16/20.29) 相比,几乎保持了相同的水平。这验证了 Deep SinkParticipative Compression 在长时间序列中稳定全局上下文的有效性。
  • 吞吐量 (Throughput): Deep Forcing 的吞吐量为 15.75 FPS,与 Self ForcingCausVid 几乎相同,略低于 LongLive。这表明其引入的压缩机制并未带来显著的实时性下降。
  • 主体和背景一致性: Deep Forcing 的主体一致性 (97.34/96.96) 和背景一致性 (96.48/96.32) 与 Self Forcing 相似,略低于 Rolling ForcingLongLive。这可能是在无需训练和更强调动态性方面的一种权衡。

6.1.2. 定性结果

fig 1 该图像是一个示意图,展示了五种不同生成方法(CausVid, Self Forcing, LongLive, Rolling Forcing, Deep Forcing)在多个时间帧(0, 98, 206, 339, 443)下的生成效果对比,展示了在长视频生成中各方法的表现差异。

Figure 8. Qualitative results on 30-second videos. Frame-by-frame comparison across different methods for two representative prompts. Deep Forcing (training-free) achieves temporal consistency and visual quality comparable to training-based baselines (CausVid [35], Self Forcing [12], LongLive [31], Rolling Forcing [17]) while generating more dynamic content with greater subject consistency.

分析: 图 8 中的定性结果直观地证实了 Deep Forcing 的优势。与基于训练的基线模型相比,Deep Forcing 生成的帧具有可比甚至更好的视觉质量和时间一致性。特别是,Deep Forcing 生成的视频在相机和主体运动方面展现出更强的动态性,视觉表现力更丰富。虽然 VBenc-Long 的主体一致性指标较低,但图 8 的底部示例表明,Deep Forcing 在有限降级的情况下保持了比基于训练方法更好的整体质量。

6.1.3. 用户研究

以下是原文 Table 2 的结果:

MethodColor Cons. \uparrowDyn. Motion \uparrowSubject Cons. \uparrowOverall Quality \uparrow
CausVid98.9%95.8%96.8%100%
Self Forcing85.9%86.9%84.8%87.9%
LongLive71.2%83.5%72.2%72.2%
Rolling Forcing76.7%76.7%80.0%78.9%

分析: 用户研究结果进一步验证了 Deep Forcing 的优势。在颜色一致性、动态运动、主体一致性和整体质量这四个方面,参与者对 Deep Forcing 均表现出明显的偏好。例如,在与 CausVid 比较时,Deep Forcing 在所有指标上都获得了极高的偏好率(颜色一致性 98.9%,动态运动 95.8%,主体一致性 96.8%,整体质量 100%)。即使与 LongLiveRolling Forcing 等强基线相比,Deep Forcing 也获得了显著的偏好。这在主体一致性方面尤为突出,表明 Deep Forcing 在整个视频中能够更好地保留主体身份,且漂移最小。这些结果印证了定性评估,即尽管 VBenc-Long 的主体一致性分数可能相对较低,但其感知质量仍然很高。

6.1.4. VLM 评估

以下是原文 Table 3 的结果:

MethodAttention Sink Training (注意力汇点训练)Visual Stability (视觉稳定性) \uparrow
CausVid [35]No42.84
Self Forcing [12]No43.94
Rolling Forcing [17]Yes72.6
LongLive [31]Yes78.58
Deep Forcing (Ours)No75.44

分析: 通过使用最先进的视觉语言模型 (VLM) Gemini 2.5-Pro [7] 评估视觉稳定性,Deep Forcing 取得了 75.44 的分数。这与基于训练的方法 Rolling Forcing (72.6) 和 LongLive (78.58) 相比具有竞争力。值得注意的是,Deep Forcing 在没有进行注意力汇点训练的情况下,却能达到与经过注意力汇点训练的模型相似的视觉稳定性,再次突显了其无需训练方法的有效性。

6.2. 消融实验/参数分析

6.2.1. Deep SinkParticipative Compression 的影响

以下是原文 Table 4 的结果:

MethodDynamic Degree \uparrowOverall Consistency \uparrowImage Quality \uparrow
SF [12] (Baseline)36.6220.5068.58
SF [12] + DS48.5820.5468.54
SF [12] + DS + PC (Ours)57.5620.5469.31

分析:

  • Deep Sink (DS) 的贡献:Self Forcing (SF) 基础上添加 Deep Sink (SF + DS),动态程度从 36.62 显著提升到 48.58,整体一致性略有提高 (20.50 -> 20.54)。这表明 Deep Sink 能够有效稳定全局上下文,从而带来更具活力的运动。图像质量略有下降 (68.58 -> 68.54),这在 30 秒视频中可能不明显,但在 50 秒视频中已证明其积极影响(见第 4.2 节)。
  • Participative Compression (PC) 的贡献:SF+DSSF + DS 基础上进一步添加 Participative Compression (PC) 形成了完整的 Deep Forcing。动态程度进一步大幅提升至 57.56。图像质量也得到显著改善 (68.54 -> 69.31),整体一致性保持不变。这验证了 Participative Compression 通过智能 KV 缓存管理,有效减少了噪声累积,进一步提升了视频质量。
  • 整体框架的渐进改进: Deep Forcing 框架通过逐步添加 Deep SinkParticipative Compression,在动态程度、整体一致性和图像质量方面展现出渐进式改进,特别是动态程度的显著提升。

6.2.2. 消融可视化

fig 6 该图像是图示,展示了 Deep Forcing 和 Participative Compression 两个机制的工作原理。图中左侧 (a) 描述了 Deep Sink 和其时间 RoPE 调整功能,右侧 (b) 说明了参与性压缩的注意力得分计算及候选和最近令牌的选择过程。

Figure 6. Qualitative ablation results over 30-second generation: Comparison of Self Forcing (SF) [12], SF with Deep Sink (SF+DS), and SF with both Deep Sink and Participative Compression (Deep Forcing). Baseline SF exhibits severe color drift. SF+DS improves stability but shows residual artifacts. Deep Forcing maintains consistent visual quality.

分析: 图 6 直观展示了消融实验的定性结果:

  • Self Forcing (SF) 基线 (顶部): 在生成长视频时,错误累积导致严重的保真度下降和视觉质量恶化,颜色漂移至过饱和。
  • SF + Deep Sink (SF + DS) (中间): 显著减少了保真度下降,并维持了更一致的颜色。然而,在帧 460 附近仍然存在一些细微的伪影,例如咖啡颜色略有偏移,船只细节出现纹理模糊。
  • Deep Forcing (SF + DS + PC) (底部): 在同时应用 Deep SinkParticipative Compression 时,明显的退化被有效消除,成功缓解了长序列错误累积,同时保留了整体视觉质量和精细细节。

6.2.3. Top-CC 可视化

fig 8 该图像是一个热图,展示了Top-C重复频率与标记索引的关系。图中显示了随机高斯生成的Top-C与去噪查询的Top-C在不同标记索引下的热度分布,颜色由浅到深表示频率的变化,方便观察各类Token的使用情况。

Figure 7. Visualization of Top-CC token selection. For each example, Frame 37 (middle) shows the Top-CC tokens selected for generating Frame 82 (right). Yellow highlights indicate the spatial locations of tokens chosen as Top-CC. Our method effectively identifies and preserves regions that are critical for maintaining contextual coherence during subsequent generation.

分析: 图 7 可视化了 Top-C 词元选择。黄色高亮区域表示在生成帧 82 时,从帧 37 中选择作为 Top-C 的词元空间位置。这些高亮区域显示出与上下文重要内容的语义对齐:例如,机器人的身体和背景建筑,章鱼的触手和螃蟹,以及圆形咖啡杯的结构。这表明 Participative Compression 能够识别并保留对维持后续生成中上下文连贯性至关重要的语义显著区域。

6.2.4. Participative Compression 消融

以下是原文 Table 5 的结果:

MethodMotion Smoothness \uparrowOverall Consistency \uparrowImage Quality \uparrow
Only Denoising (仅去噪查询)97.8620.4468.24
Only Past (仅过去查询)97.9120.4768.54
Both (两者结合)98.2720.5469.31

分析: 该消融实验比较了 Participative CompressionTop-C 选择时使用的查询类型:仅使用干净的过去帧查询 (Only Past)、仅使用当前去噪查询 (Only Denoising),或两者结合 (Both)。

  • Only Past: 使用干净的过去帧查询进行 Top-C 选择,图像质量达到 68.54,整体一致性为 20.47。
  • Only Denoising: 仅依赖当前去噪词元进行选择时,由于初始时间步 (t=1000t=1000) 查询的噪声性质,图像质量 (68.24) 和运动平滑度 (97.86) 略低,这可能源于初始去噪步骤中不稳定的词元选择。
  • Both (两者结合): 将两种查询类型结合起来,在所有指标上均取得了最高分,包括运动平滑度 (98.27)、整体一致性 (20.54) 和图像质量 (69.31)。这表明干净的过去查询提供了相对稳定的重要性估计,而当前去噪查询有助于确保所选词元与即时生成上下文保持相关,两者结合具有互补优势。

6.2.5. 去噪查询不是随机噪声

fig 4 该图像是一个图表,展示了不同时间帧(Frame 40,161,224,225,226)的图像,比较了随机高斯生成和去噪查询下的Top-C效果。图中呈现的毛象在雪地中行走,揭示了上下文漂移的问题。

Figure 12. Qualitative comparison: Random Top-C vs. Denoising Query Top-CC. Gaussian random selection causes severe artifacts during compression - faces abruptly rotate, heads appear floating in mid-air, and random context drift occurs, resulting in incoherent scene transitions. In contrast, denoising query-based selection maintains subject consistency with natural emergent camera movements and preserves contextual coherence throughout the generation.

fig 8 该图像是一个热图,展示了Top-C重复频率与标记索引的关系。图中显示了随机高斯生成的Top-C与去噪查询的Top-C在不同标记索引下的热度分布,颜色由浅到深表示频率的变化,方便观察各类Token的使用情况。

Figure 13. Token-wise Top-CC selection frequency heatmap during 1-minute generation. Color intensity ranges from white (rarely selected) to dark purple (frequently selected as Top CC), indicating how often each token is reused throughout the generation. The x-axis spans tokens 0-32,760, where 0-15,600 are Deep Sink tokens, 15,600-28,080 are candidates for compression, and 28,080+ are recent tokens. Gaussian random selection (top) distributes selections uniformly across candidate tokens, whereas denoising query-based selection (bottom) concentrates heavily on specific semantically important tokens—particularly those immediately after the sink boundary—that effectively bridge established and newly formed context.

分析: 为了更明确地证明去噪查询的有效性,实验直接比较了基于去噪查询的 Top-C 选择与高斯随机选择。

  • 定性比较 (图 12): 随机选择导致严重的场景重复和上下文丢失,出现面部突然旋转、头部悬浮在空中以及随机上下文漂移等不连贯的场景过渡。相反,基于去噪查询的选择则生成了上下文感知的视频,具有显著更好的主体一致性和上下文连贯性,并伴随自然的相机运动。

  • 词元选择频率热图 (图 13): 在 1 分钟生成过程中,高斯随机选择 (顶部) 在候选词元中均匀分布选择,而基于去噪查询的选择 (底部) 则集中在特定位置,特别是在汇点边界 (15,600) 之后。这些高频位置并不对应于固定的帧,而是语义重要的锚点,它们连接了已建立的上下文 (Sink) 和当前生成 (Recent)。这表明去噪查询中的词元选择具有有意义的上下文关系,而非任意噪声。

    研究推断这种有效性源于:(1) Self Forcing 的四步蒸馏扩散过程,使其即使在 t=1000t=1000 的噪声查询下也能快速收敛到有意义的注意力模式;(2) 每层 KV 缓存允许基于层特定上下文相关性独立选择语义重要词元。

6.2.6. FPS 测量

以下是原文 Table 6 的结果:

MethodFPS \uparrowLatency(Min/Max)
Self Forcing [12]15.780.770 / 0.776s
Deep Forcing (Ours)15.750.747 / 0.797s

分析: 在单块 NVIDIA H100 GPU 上生成 60 秒视频时,Deep Forcing 的吞吐量为 15.75 FPS,与基线 Self Forcing 的 15.78 FPS 相当。 尽管压缩操作存在计算开销,但 Deep Forcing 在两个方面取得了平衡:(1) 从 21 帧压缩到 16 帧需要额外的计算;(2) 但后续帧仅使用 16 帧缓存进行生成,与对完整 21 帧进行注意力计算相比,成本更低。这种权衡使得平均延迟几乎相同。吞吐量在压缩阶段(略慢)和生成阶段(略快)之间振荡,平均性能与基线几乎相同,表明压缩机制有效分摊了开销,实现了长序列生成而性能损失最小。

6.3. 不同注意力汇点机制的对比

fig 6 该图像是图示,展示了 Deep Forcing 和 Participative Compression 两个机制的工作原理。图中左侧 (a) 描述了 Deep Sink 和其时间 RoPE 调整功能,右侧 (b) 说明了参与性压缩的注意力得分计算及候选和最近令牌的选择过程。

Figure 9. Qualitative results on different Attention Sink. The result shows that Deep Sink substantially outperforms both LongLifestyle [31] and Rolling Forcing-style [17] attention sinks.

分析: 在附录 A 中,论文比较了 LongLive [31] 和 Rolling Forcing [17] 的注意力汇点机制在无需训练设置下的表现与 Deep Forcing 的对比。

  • LongLive 风格的注意力汇点(不调整 RoPE)在帧 800 出现保真度下降,帧 801 出现闪烁,并在帧 802 出现回滚现象,即生成内容退回到早期的汇点帧。
  • Rolling Forcing 风格的注意力汇点(采用动态 RoPE)在帧 800-801 仍然表现出严重的保真度下降。
  • Deep Forcing 则显著优于这两种方法,在长序列生成中保持了更好的视觉质量和时间一致性。这表明 Deep Sink深度汇点设计和针对性的时间 RoPE 调整对于长视频生成至关重要。

6.4. 不同汇点大小的定性结果

fig 2 该图像是一个展示了不同时间帧的动画场景的图表。上部展示了一只毛茸茸的怪物在蜡烛旁边的特写镜头,随着时间的推移,场景的细节和整体氛围逐渐变化;下部展示了一辆白色SUV沿着土路行驶的动态镜头,两者都标示了不同的沉没(Sink)状态,反映视频生成的过程和效果。

Figure 10. Qualitative comparison of different sink sizes on 60-second videos. As the sink size decreases, degradation becomes more severe. Once the sink size exceeds 10 frames, degradation is substantially reduced.

分析: 图 10 展示了不同汇点大小对 60 秒视频生成质量的定性影响:

  • 无注意力汇点 (Sink 0): 保真度迅速严重下降,如怪物的纹理恶化,颜色明显偏移,并在帧 690 完全崩溃。SUV 场景也出现显著保真度下降。

  • 小汇点 (Sink 4, 9): 随着汇点大小增加,降级逐渐减少,但在精细细节中仍可见。

  • 大汇点 (Sink 14): 当汇点大小超过 10 帧时,保真度下降大幅减少。

  • 过大汇点 (Sink 18): 过大的汇点导致重复性生成,早期帧被过度保留。

    这些结果验证了论文中提出的最佳汇点范围为 10-15 帧(占滑动窗口的 40-60%)。同时也表明,尽管 Deep Sink 大幅缓解了降级,但其本身仍不足以在分钟级视频生成中,跨不同场景维持视觉保真度。这进一步论证了 Participative Compression 的必要性。

7. 总结与思考

7.1. 结论总结

本文提出了 Deep Forcing,一个无需训练的自回归长视频生成框架。该框架通过两个核心组件有效缓解了长序列生成中的错误累积问题:

  1. Deep Sink (深度汇点): 利用预训练 Self Forcing 模型固有的深层注意力汇点行为,将滑动窗口约一半的上下文分配给持久性汇点词元,并通过动态调整其时间 RoPE 相位来稳定全局上下文。

  2. Participative Compression (参与式压缩): 引入了一种重要性感知的 KV 缓存剪枝机制,根据词元对近期注意力计算的参与度,选择性地保留最重要的词元,并安全地丢弃冗余历史信息,从而最小化超出训练长度生成时的错误累积。

    实验结果表明,Deep ForcingVBenc-Long 基准、用户研究和 VLM 评估中均达到了最先进的性能,甚至超越了现有的基于训练的方法。该方法实现了超过 12×12\times 的视频长度外推,同时保持了实时生成,并在成像质量、美学质量、整体一致性和动态程度上取得了显著提升。这证明了无需训练的 KV 缓存管理方法在自回归流式长视频生成方面的强大潜力。

7.2. 局限性与未来工作

论文作者指出了以下局限性:

  • 预训练模型的约束和偏差: 作为一个在冻结主干网络 (frozen backbone) 上进行推理时操作的方法,Deep Forcing 受到预训练模型自身能力和偏差的限制。

  • 缺乏显式长期记忆: 该方法缺乏显式的长期记忆模块,这可能导致在具有重复遮挡 (repeated occlusions) 的极长序列中出现逐渐漂移。

    作者提出了未来的研究方向:

  • 整合分层记忆模块 (hierarchical memory modules) 以解决长期记忆问题。

  • 将方法扩展到更广泛的视频生成设置。

7.3. 个人启发与批判

7.3.1. 个人启发

  • “训练-免费”范式的潜力: Deep Forcing 最具启发性的一点是其“训练-免费”的特性。在当前大模型时代,训练成本高昂,而这种在现有预训练模型基础上通过巧妙的推理优化实现性能飞跃的方法,具有巨大的实际应用价值和研究潜力。它表明,深入理解模型固有行为(如 Self Forcing 的深层注意力汇点)并加以利用,比盲目追求更大规模的训练可能更有效率。
  • LLM 经验的跨领域迁移:StreamingLLM 的注意力汇点思想成功迁移到视频扩散领域,并根据视频数据的特性(如时间维度和 RoPE)进行适配,再次证明了不同模态模型之间技术思想迁移的重要性。这鼓励研究者在解决某一领域问题时,拓宽视野,借鉴其他领域的最新进展。
  • KV 缓存管理的精细化: Participative Compression 强调了 KV 缓存管理不仅仅是内存优化,更是质量优化的关键环节。通过重要性感知而非简单 FIFO 的策略,能够有效对抗错误累积和注意力稀释,这对于任何长序列生成任务都具有借鉴意义。
  • 动态程度的意外提升: Deep Forcing 在动态程度上显著优于训练基线,这有点出乎意料但极具价值。作者将其归因于避免了训练模型时可能引入的运动约束,这提示我们,过度训练或在特定损失函数下优化可能会无意中限制模型的某些生成能力,而“训练-免费”的方法可能反而能释放这些潜力。

7.3.2. 批判与潜在改进

  • 主体一致性的权衡: 尽管用户研究表明 Deep Forcing 在主体一致性方面获得了高偏好,但 VBenc-Long 的定量结果显示其主体一致性略低于一些训练基线。这可能反映了感知质量与自动化指标之间存在的差异,也可能暗示在某些复杂场景下,Deep Forcing 在维持主体精细细节和身份方面仍有提升空间。未来的工作可以探索一种轻量级的、无需训练的主体绑定机制,以进一步提升定量指标。
  • RoPE 调整的普适性: 文中强调了 RoPE 调整对于 Deep Sink 的重要性,但其具体调整方式(如 Δsink\Delta_{\mathrm{sink}}stops^{\mathrm{top}} 的确定)是否是最优或最普适的,仍有待更深入的理论分析或更广泛的实验验证。例如,是否存在更动态或自适应的 RoPE 调整策略,以适应不同类型视频内容的独特时间特征?
  • “语义重要性”的定义: Participative Compression 基于查询与键的注意力分数来定义“语义重要性”。这种定义是有效的,但在极端情况下,模型对某一帧的注意力可能受到短期噪声或漂移影响,导致“错误”的词元被保留。探索更鲁棒或更长期的“语义重要性”评估机制(例如,结合多个时间步的注意力、或者语义嵌入的稳定性)可能是一个方向。
  • 计算开销的进一步优化: 尽管论文表明 Participative Compression 的开销被抵消,但毕竟引入了额外的计算步骤(计算重要性分数、排序、选择)。对于资源受限的部署场景,进一步优化压缩算法的计算效率,例如采用近似选择或硬件友好的稀疏化技术,仍有探索空间。
  • 长尾内容和复杂交互: 论文指出的“缺乏显式长期记忆”是一个关键局限。对于包含复杂叙事、场景切换频繁或需要长时间记忆特定物体/人物状态的视频,现有的滑动窗口机制(即使有 Deep SinkParticipative Compression)仍然可能不足。未来的工作可以考虑引入分层注意力、外部记忆网络或事件图等机制,以更好地处理极长序列的复杂性和一致性。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。