论文状态:已完成

One-Minute Video Generation with Test-Time Training

发表:2025/04/08
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种新颖的测试时训练(TTT)层,解决了生成一分钟视频的挑战。通过引入TTT层到预训练的Transformer中,研究者能够根据文本故事生成更连贯的视频。实验表明,与现有方法相比,TTT层在故事连贯性上有显著提升,尽管仍存在伪影问题,且效率有待改善。

摘要

Transformers today still struggle to generate one-minute videos because self-attention layers are inefficient for long context. Alternatives such as Mamba layers struggle with complex multi-scene stories because their hidden states are less expressive. We experiment with Test-Time Training (TTT) layers, whose hidden states themselves can be neural networks, therefore more expressive. Adding TTT layers into a pre-trained Transformer enables it to generate one-minute videos from text storyboards. For proof of concept, we curate a dataset based on Tom and Jerry cartoons. Compared to baselines such as Mamba~2, Gated DeltaNet, and sliding-window attention layers, TTT layers generate much more coherent videos that tell complex stories, leading by 34 Elo points in a human evaluation of 100 videos per method. Although promising, results still contain artifacts, likely due to the limited capability of the pre-trained 5B model. The efficiency of our implementation can also be improved. We have only experimented with one-minute videos due to resource constraints, but the approach can be extended to longer videos and more complex stories. Sample videos, code and annotations are available at: https://test-time-training.github.io/video-dit

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

利用测试时训练实现一分钟视频生成 (One-Minute Video Generation with Test-Time Training)

论文标题直接点明了研究的核心:生成长达一分钟的视频,并指出了实现这一目标所采用的核心技术——测试时训练 (Test-Time Training, TTT)

1.2. 作者

论文作者团队来自多个顶级学术和工业研究机构,包括英伟达 (NVIDIA)、斯坦福大学 (Stanford University)、加州大学圣迭戈分校 (UCSD)、加州大学伯克利分校 (UC Berkeley) 和德克萨斯大学奥斯汀分校 (UT Austin)。这种产学研结合的强大阵容通常预示着研究工作兼具前沿的理论创新和强大的工程实现能力。

1.3. 发表期刊/会议

该论文是一篇预印本 (preprint),发布在 arXiv 上。arXiv 是一个开放获取的学术论文存档网站,允许研究人员在同行评审 (peer review) 之前分享他们的研究成果。论文中提及的目标发表时间为2025年,这表明它可能正在或将要投递到计算机视觉或机器学习领域的顶级会议,如 CVPR, ICCV, NeurIPS, ICML 等。

1.4. 发表年份

2025年 (预印本发布于 2025-04-07 UTC)。

1.5. 摘要

当前的 Transformer 模型由于 self-attention 层的计算成本过高,难以生成长达一分钟的视频。而 Mamba 等计算高效的替代方案,其隐藏状态 (hidden states) 的表达能力有限,难以处理复杂的多场景故事。本文探索了一种名为 测试时训练 (Test-Time Training, TTT) 的层,其隐藏状态本身可以是神经网络,因此具有更强的表达能力。通过将 TTT 层添加到一个预训练的 Transformer 模型中,研究者使其能够根据文本故事板 (storyboards) 生成一分钟的视频。

为了进行概念验证 (proof of concept),研究者基于《猫和老鼠》(Tom and Jerry) 卡通片创建了一个数据集。在包含每种方法100个视频的人类评估中,与 Mamba 2Gated DeltaNetsliding-window attention 等基线方法相比,TTT 层生成的视频在故事连贯性上表现优异,领先了 34 个 Elo 分数

尽管结果充满希望,但生成视频中仍存在伪影 (artifacts),这可能源于预训练的 5B 模型的性能限制。此外,该实现的效率也有待提高。由于资源限制,实验仅限于一分钟视频,但该方法有潜力扩展到更长的视频和更复杂的故事。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

当前视频生成技术取得了巨大进步,但在生成时长故事复杂性方面仍面临巨大瓶颈。主流模型如 OpenAI 的 Sora、Google 的 Veo 等,其公开的生成时长通常在 20 秒以内,并且大多局限于单一场景,难以自主生成包含多个场景转换和复杂情节的“长篇故事”。

造成这一瓶颈的核心技术挑战是 Transformer 架构的 长上下文处理能力

  • 核心问题: Transformer 的核心组件 self-attention 机制的计算和内存成本随序列长度(在视频中即帧数)成二次方增长。对于一分钟的高帧率视频,序列长度可达数十万个词元 (tokens),这使得全局 self-attention 在计算上变得不可行。

  • 现有研究的空白 (Gap):

    1. 高效替代方案的表达能力不足: 为了解决二次方复杂度问题,研究者们提出了 MambaDeltaNet 等具有线性复杂度的循环神经网络 (RNN) 变体。然而,这些模型的隐藏状态通常是一个固定大小的矩阵,其“记忆容量”有限,难以压缩和存储长序列中复杂的、远距离的依赖关系,导致它们在生成需要跨越多个场景的复杂故事时表现不佳。
    2. 局部注意力方法的局限性: 另一种常见方法是 sliding-window attention(滑动窗口注意力),即只在局部窗口内计算注意力。这虽然降低了成本,但也牺牲了全局信息,使得模型难以捕捉视频开头和结尾之间的关联,影响了故事的整体连贯性。
  • 本文的创新思路: 本文提出,问题的关键在于提升长程记忆模型的“隐藏状态”的表达能力。如果隐藏状态本身不再是一个简单的向量或矩阵,而是一个功能更强大的模型(例如一个神经网络),那么它就能容纳更丰富、更复杂的历史信息。基于此,本文引入了 测试时训练 (TTT) 层,其核心思想是:将隐藏状态设计成一个小型神经网络,并在处理序列的每一步中,通过“训练”这个小型网络来更新它。这种动态更新的、模型化的隐藏状态,理论上比 Mamba 等模型的静态矩阵隐藏状态具有更强的表达力。

下图(原文 Figure 1)展示了使用该方法生成的《猫和老鼠》风格的多场景视频片段,体现了其在处理复杂故事上的潜力。

该图像是插图,展示了《汤姆和杰瑞》中的多个场景,包括城市街道、办公室、插座、会议、以及地下空间,展现了角色间的互动与幽默。整体色彩鲜明,富有生动的动画特征。 该图像是插图,展示了《汤姆和杰瑞》中的多个场景,包括城市街道、办公室、插座、会议、以及地下空间,展现了角色间的互动与幽默。整体色彩鲜明,富有生动的动画特征。

2.2. 核心贡献/主要发现

  1. 提出了一种新的长视频生成范式: 首次将 测试时训练 (TTT) 层 应用于长视频生成任务。通过将 TTT 层集成到预训练的视频 Transformer 中,成功将模型的生成能力从几秒钟的短片扩展到长达一分钟的、包含复杂多场景故事的视频。

  2. 验证了“表达性隐藏状态”的有效性: 实验证明,与 Mamba 2 等拥有固定大小矩阵隐藏状态的先进模型相比,TTT 层中作为隐藏状态的神经网络(本文中为 MLP)能够更好地捕捉长程依赖,生成故事连贯性显著更强的视频。在人类评估中,TTT-MLP 方法平均领先次优方法 34 个 Elo 分数,这是一个非常显著的优势。

  3. 构建了一个用于长程故事视频研究的数据集: 为了专注于长程、多场景、动态运动的视频生成挑战,研究者们精心制作并开源了一个基于《猫和老鼠》动画的数据集,包含详细的文本故事板标注。这为后续相关研究提供了一个宝贵的基准。

  4. 探索了高效的 TTT 实现方法: 论文不仅提出了理论模型,还深入探讨了其在 GPU 上的高效实现。为了解决 TTT 隐藏状态(即神经网络权重)过大无法存入单个处理器核心高速缓存的问题,作者创新性地应用了 片上张量并行 (On-Chip Tensor Parallel) 技术,显著提升了计算效率。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. Transformer 与自注意力 (Self-Attention)

Transformer 是一种在自然语言处理和计算机视觉领域取得巨大成功的神经网络架构。其核心是 自注意力 (self-attention) 机制。

  • 核心思想: 在处理一个序列(如一句话或一系列视频帧)时,self-attention 允许模型在计算序列中任何一个位置的表示时,都能直接关注并加权序列中所有其他位置的信息。这使得模型能轻易捕捉长距离依赖关系。
  • 计算方式: 对于输入序列中的每个元素,模型会生成三个向量:查询 (Query, Q)键 (Key, K)值 (Value, V)QQ 代表当前元素想要查找什么信息,KK 代表序列中其他元素“我是什么”,VV 代表这些元素实际携带的信息。通过计算 QQ 与所有 KK 的相似度(点积),得到注意力权重,然后用这些权重对所有 VV 进行加权求和,得到当前元素的输出。
  • 核心公式: Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
  • 瓶颈: 从公式中可以看出,需要计算一个 T×TT \times T 的矩阵(TT 是序列长度),因此计算和内存复杂度都是 O(T2)O(T^2)。对于长视频(TT 很大),这个成本是无法接受的。

3.1.2. 循环神经网络 (RNN) 与状态空间模型 (SSM)

RNN 是为处理序列数据设计的经典模型。

  • 核心思想: RNN 逐个处理序列中的元素。在处理当前元素 xtx_t 时,它会结合上一步的 隐藏状态 (hidden state) ht1h_{t-1} 来生成新的隐藏状态 hth_t 和输出 yty_t。这个隐藏状态 hth_t 就像模型的“短期记忆”,压缩了序列 x1,,xtx_1, \dots, x_t 的历史信息。
  • 优势: 其计算复杂度与序列长度 TT 呈线性关系 O(T)O(T),非常高效。
  • 瓶颈: 传统的 RNN 存在梯度消失/爆炸问题,难以学习长程依赖。状态空间模型 (State Space Models, SSMs),特别是其现代变体如 Mamba,可以看作是 RNN 的一种高级形式,它们通过更精巧的结构解决了长程依赖问题,同时保持了线性复杂度。然而,它们的隐藏状态仍然是一个固定大小的向量或矩阵,表达能力有限,这正是本文试图解决的问题。

3.1.3. 扩散模型 (Diffusion Models)

本文使用的基础模型是一个 扩散 Transformer (Diffusion Transformer)

  • 核心思想: 扩散模型是一种生成模型,其过程分为两步:
    1. 前向过程 (Forward Process): 不断地向一张清晰的图像(或视频)中添加少量高斯噪声,直到它完全变成纯噪声。这个过程是固定的,不需要学习。
    2. 反向过程 (Reverse Process): 训练一个神经网络(如 Transformer),让它学会“去噪”,即从一张噪声图中逐步恢复出清晰的原始图像。
  • 生成过程: 在生成新内容时,模型从一个随机噪声图开始,利用学到的去噪能力,一步步将其还原成一张全新的、清晰的图像或视频。

3.2. 前人工作

  • 高效 Transformer 变体: 许多工作尝试解决 self-attention 的效率问题。
    • 线性注意力 (Linear Attention): 如论文 [23, 37] 所示,通过数学变换将注意力计算简化为线性复杂度。
    • Mamba / DeltaNet: 如论文 [8, 12, 35, 52] 所示, bunlar 是当前最先进的 SSM 模型,它们通过选择性机制和高效的硬件实现,在语言任务上取得了媲美 Transformer 的性能,同时保持线性复杂度。本文将它们作为强有力的基线进行比较。
  • 长视频生成:
    • 级联 (Cascading) / 流式 (Streaming) 方法: 如 LaVie [50] 和 StreamingT2V [17] 等工作,通过生成短片断然后将它们拼接起来,或者以流式方式逐段生成,来构建长视频。这些方法通常需要额外的模块来保证片段间的连贯性。
    • 故事合成 (Story Synthesis): 如 StoryGAN [26] 和 StoryDiffusion [56] 等,专注于根据故事文本生成一系列连贯的图像或视频片段。这些方法通常不是端到端的,需要复杂的流程来维持场景一致性。
  • 测试时训练 (Test-Time Training, TTT):
    • 本文的核心思想直接来源于 TTT 的原始论文 [43]。TTT 的概念最初是为了让模型在测试阶段也能适应新的数据分布。其核心是将模型的隐藏状态看作是另一个“内部模型”的权重。在处理序列的每一步时,通过在当前输入上执行一步优化(如梯度下降),来更新这个“内部模型”的权重(即隐藏状态)。这使得隐藏状态变得极其灵活和强大。

      下图(原文 Figure 2)直观地解释了 TTT 层的核心机制。

      该图像是一个示意图,展示了 Test-Time Training (TTT) 层的输入、输出及隐藏状态的更新过程。图中表示了输入标记 \(x_t\)、输出标记 \(z_t\) 以及隐藏状态 \(W_t\) 之间的关系。输出规则为 `z_t = f(x_t; W_t)`,更新规则为 `W_t = W_{t-1} - \\eta \\nabla \\ell(W_{t-1}; x_t)`。该结构强调了如何通过动态更新隐藏状态来提升模型表达能力。 该图像是一个示意图,展示了 Test-Time Training (TTT) 层的输入、输出及隐藏状态的更新过程。图中表示了输入标记 xtx_t、输出标记 ztz_t 以及隐藏状态 WtW_t 之间的关系。输出规则为 z_t = f(x_t; W_t),更新规则为 W_t = W_{t-1} - \eta \nabla \ell(W_{t-1}; x_t)。该结构强调了如何通过动态更新隐藏状态来提升模型表达能力。

3.3. 差异化分析

  • 与 Mamba/DeltaNet 的核心区别: Mamba 等模型的隐藏状态是一个数据容器(矩阵),其大小固定,表达能力受限于其维度。而本文 TTT 层的隐藏状态是一个计算单元(一个神经网络),它不仅存储信息,还能通过内部的训练过程动态地学习和提炼历史信息的表示。这使得 TTT 的隐藏状态在理论上具有无限的表达能力,仅受限于其内部网络的大小和计算预算。

  • 与级联/故事合成方法的区别: 本文的方法是更加端到端 (end-to-end) 的。TTT 层被直接整合进 Transformer 的主干网络中,作为一个全局记忆模块来处理整个长序列。它不需要额外的拼接或过渡模块,而是通过自身强大的长程依赖建模能力来自然地保证视频的全局连贯性。

4. 方法论

本论文的方法论可以分为两个主要部分:首先回顾作为基础的 测试时训练 (TTT) 层 的原理,然后介绍如何将 TTT 层整合到一个预训练的视频生成模型中,并进行高效实现

4.1. 方法原理

TTT 层的核心思想是将 RNN 的隐藏状态本身设计成一个神经网络模型。在处理序列的每一步,通过对这个“内部模型”进行一步类似训练的操作来更新隐藏状态。

4.2. 核心方法详解 (逐层深入)

4.2.1. TTT 层作为一种特殊的 RNN

一个标准的 RNN 层将输入序列 x1,,xTx_1, \dots, x_T 映射到输出序列 z1,,zTz_1, \dots, z_T。在 TTT 层中,这个过程被重新定义:

  1. 隐藏状态 (Hidden State): 隐藏状态不再是一个向量,而是内部模型 ff 的权重,记为 WW。在时间步 tt,隐藏状态为 WtW_t

  2. 更新规则 (Update Rule): 隐藏状态的更新过程就是对内部模型 ff 进行一步梯度下降。具体来说,模型首先定义一个自监督损失函数 \ell,然后根据当前输入 xtx_t 计算损失的梯度,并用它来更新权重。这可以看作是“在测试时进行训练”。 Wt=Wt1η(Wt1;xt) W_t = W_{t-1} - \eta \nabla \ell(W_{t-1}; x_t)

    • WtW_t: 在时间步 tt 的隐藏状态(即内部模型 ff 的权重)。
    • Wt1W_{t-1}: 上一步的隐藏状态。
    • η\eta: 内部循环 (inner loop) 的学习率,是一个超参数。
    • (Wt1;xt)\nabla \ell(W_{t-1}; x_t): 损失函数 \ell 对上一步权重 Wt1W_{t-1} 的梯度,该损失是基于当前输入 xtx_t 计算的。
  3. 自监督损失 (Self-Supervised Loss): 损失函数 \ell 的设计至关重要。一个简单的想法是让模型 ff 学会从一个“损坏”的输入 x~t\tilde{x}_t 中重建出“完整”的输入 xtx_t。本文不采用手工设计的损坏方式,而是学习如何进行投影。最终的损失函数形式如下: (W;xt)=f(θKxt;W)θVxt2 \ell(W; x_t) = \| f(\theta_K x_t; W) - \theta_V x_t \|^2

    • θK,θV\theta_K, \theta_V: 两个可学习的投影矩阵,它们在外部循环 (outer loop),即训练整个大模型时被优化。它们的作用类似于 self-attention 中的 键 (Key)值 (Value) 投影。θKxt\theta_K x_t 创造了一个低维的、类似“损坏”的输入,而 θVxt\theta_V x_t 则是重建的目标。
  4. 输出规则 (Output Rule): TTT 层的输出 ztz_t 是用更新后的隐藏状态 WtW_t 和另一个投影后的输入 θQxt\theta_Q x_t 通过内部模型 ff 计算得到的。 zt=f(θQxt;Wt) z_t = f(\theta_Q x_t; W_t)

    • θQ\theta_Q: 另一个可学习的投影矩阵,类似于 self-attention 中的 查询 (Query) 投影。它在外部循环中被优化。
  5. TTT-MLP 实例化: 本文将内部模型 ff 实现为一个包含残差连接和层归一化 (Layer Norm) 的两层 多层感知机 (MLP),称为 TTT-MLPf(x)=x+LN(fMLP(x)) f(x) = x + \mathsf{LN}(f_{\mathsf{MLP}}(x))

    • fMLP(x)f_{\mathsf{MLP}}(x): 一个标准的两层 MLP,其隐藏层维度是输入维度的4倍,并使用 GELU 激活函数。
    • LN: 层归一化 (Layer Norm)。

4.2.2. 将 TTT 层集成到扩散 Transformer 中

作者并没有从零开始训练模型,而是将 TTT 层巧妙地插入一个预训练好的视频扩散模型 CogVideo-X 中。

下图(原文 Figure 3)左侧展示了修改后的 Transformer 模块结构,右侧展示了整个视频生成流程。

该图像是示意图,展示了包含 TTT 层的 Transformer 模型架构及其在生成一段一分钟视频时的处理过程。左侧展示了模型的内部结构,包括 Gate、TTT Layer、Local Attention 和 LayerNorm,右侧显示了一分钟视频的分段和对应的文本描述。 该图像是示意图,展示了包含 TTT 层的 Transformer 模型架构及其在生成一段一分钟视频时的处理过程。左侧展示了模型的内部结构,包括 Gate、TTT Layer、Local Attention 和 LayerNorm,右侧显示了一分钟视频的分段和对应的文本描述。

  1. 门控机制 (Gating): 为了在微调 (fine-tuning) 初期避免随机初始化的 TTT 层破坏预训练模型的性能,作者引入了一个门控机制。 gate(TTT,X;α)=tanh(α)TTT(X)+X \mathtt{gate}(\mathsf{TTT}, X; \alpha) = \operatorname{tanh}(\alpha) \otimes \mathsf{TTT}(X) + X

    • TTT(X)\mathsf{TTT}(X): TTT 层的输出序列。
    • XX: TTT 层的输入序列。
    • α\alpha: 一个可学习的向量。tanh(α)tanh(α) 的值域在 (-1, 1) 之间,并与 TTT 的输出进行逐元素相乘。
    • \otimes: 逐元素相乘。
    • 初始化技巧: α\alpha 被初始化为接近 0 的小值(如 0.1),这样 tanh(α)tanh(α) 也接近 0。在微调开始时,TTT 层的输出几乎被“关闭”,整个模块近似于一个残差连接,从而保证了训练的稳定性。
  2. 双向处理 (Bi-direction): 扩散模型是非因果的,即预测当前词元时可以依赖整个序列的信息。而标准的 RNN (包括 TTT) 是因果的。为了适应这一点,作者采用了标准的双向处理技巧:让 TTT 层分别从前向后和从后向前处理序列各一次,然后将结果结合起来。

  3. 修改后的架构: 作者修改了 Transformer 中的序列建模模块。原始模块的计算为 Y=self_attn(LN(X))+XY = \mathsf{self\_attn}(\mathsf{LN}(X)) + X。修改后的模块在此基础上增加了两个门控的 TTT 层(一个前向,一个后向),计算流程如下:

    • X=self_attn(LN(X))X' = \mathsf{self\_attn}(\mathsf{LN}(X))
    • Z = \tt{gate(TTT, } X'; \alpha) (前向 TTT)
    • Z=gate(TTT,Z;β)Z' = \tt{gate(TTT', } Z; \beta) (后向 TTT)
    • Y=Z+XY = Z' + X (最终输出)

4.2.3. 整体流程与高效实现

  1. 局部注意力,全局 TTT (Local Attention, Global TTT): 这是本文一个非常关键的工程决策。为了控制计算成本,self-attention 层只在局部(3秒的视频片段内)进行计算。而计算高效的 TTT 层则在全局(整个一分钟的视频序列上)运行,负责捕捉长程依赖关系。

  2. 并行化 (Parallelization): 标准的 TTT 更新规则是串行的,效率低下。作者采用了一种内部循环小批量 (inner-loop mini-batch) 的方法进行并行化。它不是逐个词元更新隐藏状态 WW,而是一次性处理一小批(例如 b=64b=64 个)词元。 Wib=W(i1)bηbt=(i1)b+1ib(W(i1)b;xt) \mathcal{W}_{ib} = \mathcal{W}_{(i-1)b} - \frac{\eta}{b} \sum_{t=(i-1)b+1}^{ib} \nabla \ell\bigl(W_{(i-1)b}; x_t\bigr)

    • WibW_{ib}: 处理完第 ii 个小批量后的隐藏状态。
    • W(i1)bW_{(i-1)b}: 处理上一个小批量后的隐藏状态。
    • 这个公式的含义是:使用旧的隐藏状态 W(i1)bW_{(i-1)b} 并行计算出小批量中所有词元的梯度,然后将这些梯度平均后,进行一次大的更新,得到新的隐藏状态 WibW_{ib}。之后,用这个新的 WibW_{ib} 来计算这整个小批量中所有词元的输出。
  3. 片上张量并行 (On-Chip Tensor Parallel): TTT-MLP 的隐藏状态(即 MLP 的权重 WW)对于单个 GPU 流多处理器 (Streaming Multiprocessor, SM) 的片上高速缓存 (SMEM) 来说太大了。如果频繁在 SMEM 和全局显存 (HBM) 之间读写 WW,会造成巨大的性能瓶颈。

    • 解决方案: 作者借鉴了多 GPU 训练中使用的张量并行 (Tensor Parallelism) 思想,并将其创新性地应用到单个 GPU 内部的多个 SM 之间。他们将 MLP 的权重 WW 切分到不同的 SM 上,计算时 SM 之间通过高速互联(如 NVIDIA Hopper 架构的 DSMEM 功能)交换必要的中间结果,从而将大部分计算和数据交换都限制在芯片内部,极大地减少了对慢速 HBM 的访问。

      下图(原文 Figure 4)示意了片上张量并行的实现方式。

      该图像是示意图,展示了在进行视频生成过程中,使用的不同结构和步骤。左侧部分阐述了高带宽内存(HBM)和多个SM(流处理器)之间的数据分配与共享机制,包括权重的分布式处理。右侧部分描述了如何在每个SM中利用共享权重进行推理和反向传播,包括AllReduce操作以整合来自不同SM的结果。整个流程展示了如何通过有效的数据管理,提高生成模型在长时序视频上的表现。 该图像是示意图,展示了在进行视频生成过程中,使用的不同结构和步骤。左侧部分阐述了高带宽内存(HBM)和多个SM(流处理器)之间的数据分配与共享机制,包括权重的分布式处理。右侧部分描述了如何在每个SM中利用共享权重进行推理和反向传播,包括AllReduce操作以整合来自不同SM的结果。整个流程展示了如何通过有效的数据管理,提高生成模型在长时序视频上的表现。

5. 实验设置

5.1. 数据集

  • 来源与规模: 实验使用的数据集基于 1940 年至 1948 年间发布的 81 集《猫和老鼠》(Tom and Jerry) 动画片,总时长约 7 小时。
  • 预处理:
    1. 超分辨率: 作者首先使用视频超分辨率模型 [49] 将原始的低分辨率视频统一提升至 720×480720 \times 480 分辨率,以提高视觉质量。
    2. 标注: 人类标注员将每一集动画分解为多个场景 (scenes),再从每个场景中提取出 3 秒钟的片段 (segments)。然后,为每个 3 秒片段撰写一个详细的描述段落(3-5句话),构成故事板 (storyboard)
  • 数据格式: 训练数据严格遵循一种包含场景边界标记的详细格式(原文称为 Format 3)。在推理时,用户可以提供从简短情节梗概到详细故事板等不同详尽程度的文本提示,系统内部会使用大语言模型 (Claude 3.7 Sonnet) 将其统一转换为详细格式。
    • 样本示例 (原文 Figure 8 所示):
      • 格式 1 (简短总结): "汤姆快要抓住杰瑞了,杰瑞钻进了老鼠洞,汤姆撞到了墙上。" (Tom is about to catch Jerry, Jerry makes it through the mouse hole and Tom slams into the wall.)
      • 格式 2 (详细情节): "场景1:汤姆走进厨房,端着一个苹果派。他坐在桌边开始吃。杰瑞看着汤姆吃派,并急切地揉着肚子。然后他向右冲出画面..." (Scene 1: Tom walks into the kitchen carrying an apple pie. He sits at the table and begins eating. Jerry watches Tom eating the pie, and eagerly rubs his tummy. He then darts off-screen to the right.)
      • 格式 3 (故事板): " 汤姆走进厨房... 摄像机从左到右平滑地跟随汤姆... 杰瑞从盐瓶后面探出头来... 摄像机捕捉到杰瑞从盐瓶后面出现并站在台面上的瞬间..." ( Tom walks into the kitchen... The camera smoothly follows Tom from left to right... Jerry emerges from behind the salt shaker... The camera captures Jerry as he emerges from behind the salt shaker and stands on the countertop.)
  • 选择理由: 作者特意选择这个卡通领域,因为它强调了复杂的、多场景的、长程的故事以及动态的运动,而这正是当前视频生成技术的短板。通过在这个特定但具有挑战性的领域取得突破,其方法和见解有望迁移到通用的视频生成任务上。

5.2. 评估指标

论文没有采用传统的计算指标(如 FVD, IS),而是采用了更符合评估故事连贯性等主观质量的人类评估方法。

  • 评估协议: 采用成对比较 (pairwise comparison) 的方式。评估者会看到由两种不同方法生成的、基于相同文本提示的视频,然后被要求在四个评估维度中的随机一个维度上,选出更好的视频。

  • 评估维度:

    1. 文本遵循度 (Text following): 视频内容与给定文本提示的对齐程度。
    2. 运动自然度 (Motion naturalness): 角色肢体运动、面部表情的自然程度以及是否符合物理规律。
    3. 美学质量 (Aesthetics): 内容是否有趣、引人入胜,以及光照、色彩、镜头效果等是否出色。
    4. 时间一致性 (Temporal consistency): 场景内部以及跨场景之间,角色、物体和背景的外观是否保持一致。
  • 评分系统: Elo 评分系统 (Elo Rating System)

    • 概念定义: Elo 系统源于国际象棋,是一种计算竞争者相对实力水平的方法。它不是一个绝对分数,而是一个相对排名。当一个模型在与另一个模型的对决中获胜时,它的 Elo 分数会增加,失败者的分数会减少。分数增减的幅度取决于两者初始分数的差距。战胜一个分数远高于自己的对手会获得大量加分。
    • 数学公式: 假设模型 A 和模型 B 的当前 Elo 分数分别为 RAR_ARBR_B。模型 A 战胜模型 B 的期望胜率 EAE_A 为: EA=11+10(RBRA)/400 E_A = \frac{1}{1 + 10^{(R_B - R_A)/400}}
    • 更新规则:当一轮比较结束后(例如,模型 A 获胜),新的分数 R'_A 更新如下: RA=RA+K(SAEA) R'_A = R_A + K(S_A - E_A)
    • 符号解释:
      • RA,RBR_A, R_B: 模型 A 和 B 的当前 Elo 分数。
      • EAE_A: 模型 A 的期望胜率。
      • R'_A: 模型 A 的新分数。
      • KK: K-factor,一个常数,决定了每次比赛后分数变化的最大幅度(通常为16或32)。
      • SAS_A: 比赛的实际结果。获胜为 1,平局为 0.5,失败为 0。
    • 通过汇总大量成对比较的结果,Elo 系统可以为所有参与比较的模型给出一个相对稳定的实力排名。

5.3. 对比基线

论文将自己的方法 TTT-MLP 与五个具有代表性的、同样具有线性计算复杂度的基线模型进行了比较。所有基线都采用与 TTT-MLP 相同的预训练模型和微调流程。

  1. 局部注意力 (Local attention): 即原始的 CogVideo-X 模型,只在 3 秒的片段内独立进行 self-attention,没有任何跨片段的长程记忆机制。这是评估长程记忆模块有效性的下限基准
  2. TTT-Linear: TTT 层的一种变体,其内部模型 ff 是一个简单的线性模型,而不是 MLP。用于验证 TTT 内部模型的非线性是否是性能提升的关键。
  3. Mamba 2: 当时最先进的 SSM 模型之一,是 Transformer 在长序列任务上的有力竞争者。
  4. Gated DeltaNet: Mamba 2 的一种改进版本,具有更优的更新规则。
  5. 滑动窗口注意力 (Sliding-window attention): 一种常见的长上下文处理方法,self-attention 的计算范围被限制在一个固定大小的滑动窗口内(本文中为 8192 个词元)。

6. 实验结果与分析

6.1. 核心结果分析

核心实验在生成的 63 秒长视频上进行。

以下是原文 Table 1 的结果,展示了在 63 秒视频上各方法在四个评估维度上的 Elo 分数。

Text following Motion naturalness Aesthetics Temporal consistency Average
Mamba 2 985 976 963 988 978
Gated DeltaNet 983 984 993 1004 991
Sliding window 1016 1000 1006 975 999
TTT-MLP 1014 1039 1037 1042 1033
  • TTT-MLP 表现最佳: 从平均分来看,TTT-MLP (1033) 显著优于所有其他基线方法,比第二名的 Sliding window (999) 高出 34 个 Elo 分。作者提到,这个差距在实践中非常有意义,可类比于 GPT-4o 相对于 GPT-4 Turbo 的提升。

  • 在关键维度上优势明显: TTT-MLP 的最大优势体现在 Temporal consistency (时间一致性, +38 分)Motion naturalness (运动自然度, +39 分)Aesthetics (美学质量, +37 分) 上(与 Gated DeltaNet 相比)。这强有力地证明了其强大的长程记忆能力对于维持角色和场景在长时间内的一致性至关重要。

  • Sliding window 的表现: 有趣的是,Sliding windowText following 上表现最好,但在 Temporal consistency 上表现最差之一。这符合直觉:滑动窗口能很好地关注局部文本描述,但由于缺乏全局视野,容易在场景切换时丢失一致性。

  • Mamba 2 vs Gated DeltaNet: Gated DeltaNet 在所有维度上都优于 Mamba 2,验证了其作为改进版本的有效性。

    下图(原文 Figure 5, 6, 7, 8)直观对比了 TTT-MLP 与基线方法生成的视频帧,可以看出 TTT-MLP 在角色一致性和场景连贯性上更优。

    该图像是一组经典的《猫和老鼠》动画截图,展示了汤姆猫和杰瑞鼠的互动场景。每一帧都表现出它们之间的幽默追逐,呈现了多样的场景和情感,体现了动画生动的叙事风格。 TTT-MLP 生成的样本

    该图像是插图,展示了《汤姆与杰瑞》中一系列经典场景,表现了汤姆猫与杰瑞鼠之间的互动与追逐。每个画面都呈现出他们在不同情境中的幽默表现,体现了多场景故事叙述的特点。 Gated DeltaNet 生成的样本

    该图像是一个插图,展示了《汤姆和杰瑞》中的多个场景,体现了故事情节的连贯性和动态变化。这些场景展示了汤姆和杰瑞之间的经典追逐,反映了复杂的多场景叙事。为了验证生成视频的效果,作者使用了基于此类卡通的数据集进行实验。 Sliding Window Attention 生成的样本

6.2. 消融实验/参数分析

6.2.1. 18秒视频上的“淘汰赛”

为了节约昂贵的人类评估成本,作者首先在 18 秒的视频上进行了一轮“淘汰赛”。

以下是原文附录 Table 3 的结果:

Text following Motion naturalness Aesthetics Temporal consistency Average
Local Attention 965 972 969 944 962
TTT-Linear 1003 995 1007 1001 1001
Mamba 2 1023 987 1008 1004 1005
Gated DeltaNet 1020 1039 1044 1026 1032
SWA (Sliding window) 995 1004 993 980 993
TTT-MLP 994 1002 1002 1019 1004
  • Gated DeltaNet 在短视频上胜出: 在 18 秒视频这个“中等长度”的场景下,Gated DeltaNet (1032) 表现最好,甚至超过了 TTT-MLP (1004)。
  • TTT-MLP 的优势在于极长上下文: 这个结果揭示了一个重要洞见:TTT-MLP 的优势主要体现在处理非常长的上下文(如63秒视频,约 30 多万词元)时。对于中等长度的序列(18秒视频,约 10 万词元),MambaDeltaNet 这样拥有高效矩阵隐藏状态的模型已经足够胜任,并且可能由于结构更简单、优化更成熟而表现更好。这说明 TTT 的“表达能力优势”需要足够长的上下文才能完全发挥出来。
  • 淘汰结果: Local Attention 表现最差,证实了长程记忆的必要性。TTT-Linear 表现不如 TTT-MLP,证实了 TTT 内部模型非线性的重要性。因此这两种方法未进入最终的 63 秒视频评估。

6.2.2. 效率分析

下图(原文 Figure 6,在 markdown 中被标记为 Figure 9)对比了不同方法的推理和训练延迟。

Figure 6. For 63-second videos, inference with full attention (over 300k tokens) would have taken \(1 1 \\times\) longer than local attention, and training \(1 2 \\times\) longer, as discussed in Section 1. TTT-MLP takes \(2 . 5 \\times\) and \(3 . 8 \\times\) respectively significantly more efficient than full attention, but still less efficient than, for example, Gated DeltaNet, which takes \(1 . 8 \\times\) longer than local attention in both inference and training. 该图像是一个图表,展示了不同视频长度下的推理和训练延迟时间。左侧图表显示推理延迟,右侧则展示训练延迟,比较了全注意力、TTT-MLP、Gated DeltaNet、Mamba 2和局部注意力的方法。可以看出,TTT-MLP在推理和训练中的性能优于全注意力,但仍然逊色于Gated DeltaNet.

  • TTT-MLP 的效率权衡: TTT-MLP 的推理和训练速度显著快于理论上的全局注意力(full attention),但仍然比 Mamba 2Gated DeltaNet 慢。例如,在训练时,TTT-MLP 的耗时是 local attention 的 3.8 倍,而 Gated DeltaNet 仅为 1.8 倍。
  • 结论: TTT-MLP 在长视频生成质量上取得了领先,但这是以牺牲了一部分计算效率为代价的。它在效果效率之间提供了一个新的权衡点,介于极慢但理论上限高的全局注意力和极快但表达能力稍弱的 SSM 模型之间。

7. 总结与思考

7.1. 结论总结

本文成功地将 测试时训练 (TTT) 层 应用于长视频生成,并取得了突破性进展。核心结论如下:

  1. TTT 层是生成长而连贯视频的有效方案: 通过引入具有神经网络作为其隐藏状态的 TTT 层,模型能够有效捕捉和维持长达一分钟视频中的全局信息,生成的故事连贯性远超 Mamba 2 等先进的线性时间模型。
  2. 隐藏状态的表达能力是关键: 实验结果有力地支持了论文的核心假设——对于复杂的长程依赖任务,拥有一个更具表达能力的隐藏状态(如 TTT-MLP)比拥有一个固定大小的矩阵隐藏状态(如 Mamba)更为重要。
  3. 这是一个有前景的概念验证: 尽管生成的视频仍有瑕疵,且计算开销高于 SSM 模型,但本文作为一个概念验证,为未来突破长视频生成瓶颈指明了一个极具潜力的新方向。

7.2. 局限性与未来工作

作者清晰地指出了当前工作的局限性并展望了未来方向。

  • 局限性 (Limitations):

    1. 视频伪影 (Video Artifacts): 生成的视频仍存在明显的视觉缺陷,如物体变形、运动不自然等(如下图所示)。作者推测这主要是由于其所基于的预训练模型 CogVideo-X 5B 本身的能力有限。

      该图像是插图,展示了《汤姆与杰瑞》中汤姆猫和杰瑞鼠的互动场景。画面分为四个格子,分别描绘了他们在进行各种搞笑行为,比如搬箱子和玩弄机关,这些动作反映出他们典型的对立和幽默风格。 该图像是插图,展示了《汤姆与杰瑞》中汤姆猫和杰瑞鼠的互动场景。画面分为四个格子,分别描绘了他们在进行各种搞笑行为,比如搬箱子和玩弄机关,这些动作反映出他们典型的对立和幽默风格。

      该图像是一个动画片段,展示了汤姆与杰瑞的一幕,其中杰瑞在奔跑并躲避从上方掉落的奶酪块。此图像包含了多个帧,展示了动作的流动性和动态效果。 该图像是一个动画片段,展示了汤姆与杰瑞的一幕,其中杰瑞在奔跑并躲避从上方掉落的奶酪块。此图像包含了多个帧,展示了动作的流动性和动态效果。

      该图像是来自《猫和老鼠》的插图,展示了汤姆猫在追逐一只老鼠的过程。每一帧展示了汤姆猫的动作和表情,形象生动,突显了卡通中的幽默与紧张情节。 该图像是来自《猫和老鼠》的插图,展示了汤姆猫在追逐一只老鼠的过程。每一帧展示了汤姆猫的动作和表情,形象生动,突显了卡通中的幽默与紧张情节。

    2. 计算效率 (Wall-clock time): 尽管通过片上张量并行等技术进行了深度优化,TTT-MLP 的速度仍不及 Gated DeltaNet 等基线。

    3. 短上下文性能: 在 18 秒视频的评估中,TTT-MLP 并不占优势,表明其高表达能力的优势需要在更长的上下文中才能体现。

  • 未来工作 (Future Work):

    1. 更快的实现: 通过进一步优化 GPU 内核,如减少寄存器压力和改进异步操作,来提升 TTT-MLP 的运行效率。
    2. 更好的集成策略: 探索除门控和双向处理之外的更优策略,将 TTT 层集成到预训练模型中。
    3. 更长的视频和更强的隐藏状态: 将该方法扩展到数分钟甚至更长的视频。关键在于将 TTT 的内部模型 ff 从一个简单的 MLP 扩展为一个更强大的网络,例如,一个 Transformer。这将是一个激动人心的“模型中的模型”的递归探索。

7.3. 个人启发与批判

这篇论文非常具有启发性,其核心思想巧妙且强大。

  • 启发:

    1. 对“记忆”的重新思考: 论文最深刻的启发在于,它打破了将神经网络的“记忆”(即隐藏状态)视为静态数据容器的传统观念,而是将其视为一个动态的、可学习的计算过程。这种“元学习 (meta-learning)”的思想,即“学习如何(在测试时)学习”,为设计更强大的序列模型开辟了新思路。
    2. 软硬件协同设计的重要性: 论文不仅提出了一个新颖的算法,还深入到了 GPU 底层实现,通过“片上张量并行”来克服硬件瓶颈。这体现了当今顶尖 AI 研究中算法创新与系统优化密不可分的趋势。
    3. “局部-全局”架构的智慧: “局部注意力 + 全局 TTT”的设计是一种非常实用的折衷方案,它将昂贵但强大的 self-attention 用于处理局部细节,将廉价但能看得更远的 TTT 用于维持全局一致性,实现了能力与成本的平衡。
  • 批判性思考:

    1. 泛化性问题: 最大的疑问在于该方法能否从卡通领域泛化到真实世界视频。卡通视频的物理规律、纹理复杂度和场景多样性都远低于真实世界。在真实视频上,维持外观一致性(如一个特定的人在不同光照、角度下的样子)的挑战要大得多。TTT-MLP 在《猫和老鼠》上的成功,多大程度上可以复制到写实风格的视频上,仍是一个开放问题。
    2. 复杂性的权衡: TTT 引入了额外的复杂性,包括内部循环的超参数(如学习率 η\eta)、更复杂的训练流程(多阶段上下文扩展)和高难度的底层实现。这种复杂性是否值得,取决于它相比于未来更简单、更成熟的 SSM 模型(如 Mamba-3, Mamba-4...)能带来多大的持续优势。
    3. 对基础模型的依赖: 结果的好坏严重依赖于预训练的 Transformer 主干网络。如果基础模型本身能力不足,TTT 作为“记忆增强模块”也无力回天。未来的工作需要在一个更强大的基础模型(如 Sora 级别的模型)上验证 TTT 的价值。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。