论文状态:已完成

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

发表:2024/08/12
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

CogVideoX 是一种大规模文本到视频生成模型,采用扩散 Transformer 架构,能够生成10秒、16帧每秒、分辨率高达768×1360的视频。为解决现有模型在连贯性和语义对齐方面的不足,论文提出了3D变分自编码器、专家 Transformer 和渐进式训练等方法,实现了显著的生成质量提升,并且开源了模型权重。

摘要

We present CogVideoX, a large-scale text-to-video generation model based on diffusion transformer, which can generate 10-second continuous videos aligned with text prompt, with a frame rate of 16 fps and resolution of 768 * 1360 pixels. Previous video generation models often had limited movement and short durations, and is difficult to generate videos with coherent narratives based on text. We propose several designs to address these issues. First, we propose a 3D Variational Autoencoder (VAE) to compress videos along both spatial and temporal dimensions, to improve both compression rate and video fidelity. Second, to improve the text-video alignment, we propose an expert transformer with the expert adaptive LayerNorm to facilitate the deep fusion between the two modalities. Third, by employing a progressive training and multi-resolution frame pack technique, CogVideoX is adept at producing coherent, long-duration, different shape videos characterized by significant motions. In addition, we develop an effective text-video data processing pipeline that includes various data preprocessing strategies and a video captioning method, greatly contributing to the generation quality and semantic alignment. Results show that CogVideoX demonstrates state-of-the-art performance across both multiple machine metrics and human evaluations. The model weight of both 3D Causal VAE, Video caption model and CogVideoX are publicly available at https://github.com/THUDM/CogVideo.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

中文解析: CogVideoX:一个带有专家Transformer的文本到视频扩散模型。

  • CogVideoX: 这是模型的名称,继承自清华大学 KEG 实验室的 "Cog" 系列模型(如 CogView, CogVideo),"X" 可能代表其在架构和性能上的扩展或升级。
  • Text-to-Video Diffusion Models: 指明了模型的核心任务(根据文本生成视频)和技术路线(基于扩散模型)。扩散模型是一种强大的生成模型,通过模拟一个从清晰数据到噪声的“扩散”过程,然后学习其逆过程来从噪声中生成新数据。
  • Expert Transformer: 这是模型架构上的一个关键创新点,指代一种特殊设计的 Transformer 网络,它能像“专家”一样,专门处理和融合不同模态(文本和视觉)的信息。

1.2. 作者

论文作者团队主要来自清华大学 (Tsinghua University)智谱AI (Zhipu AI)

  • 清华大学的知识工程研究室 (KEG) 在大规模预训练模型领域有着深厚积累,是国内AI研究的顶尖团队之一,此前已发布 CogView、CogVideo、CogVLM 等一系列有影响力的工作。

  • 智谱AI 是由清华大学计算机系技术成果转化而来的公司,专注于大模型研发,其知名的 ChatGLM 系列模型也是该团队的成果。

    这种产学研结合的背景,使得该研究兼具学术前沿性和工程实践能力,能够调动大规模计算资源和数据来训练顶尖模型。

1.3. 发表期刊/会议

该论文于2024年8月12日提交至 arXiv,这是一个开放获取的预印本(Pre-print)服务器。

  • arXiv 是物理学、数学、计算机科学等领域研究者用于快速分享最新研究成果的平台。发表在 arXiv 上的论文尚未经过正式的同行评审(Peer Review),但它允许研究成果被快速传播和讨论,是当前快节奏的 AI 领域发表工作的主流方式之一。

1.4. 发表年份

2024

1.5. 摘要

我们提出了 CogVideoX,一个基于扩散Transformer的大规模文本到视频生成模型。该模型能够生成与文本提示紧密对齐的 10秒 连续视频,帧率为 16 fps,分辨率高达 768 x 1360 像素。以往的视频生成模型通常存在运动幅度有限、持续时间短的问题,并且难以根据文本生成具有连贯叙事的视频。我们提出了几项设计来解决这些问题:

  1. 3D变分自编码器 (3D VAE): 我们提出了一个3D VAE,用于在空间和时间维度上压缩视频,以同时提高压缩率和视频保真度。

  2. 专家Transformer (Expert Transformer): 为了改善文本-视频对齐,我们提出了一种带有专家自适应层归一化 (Expert Adaptive LayerNorm) 的专家Transformer,以促进两种模态的深度融合。

  3. 先进训练技术: 通过采用渐进式训练 (progressive training)多分辨率帧打包 (multi-resolution frame pack) 技术,CogVideoX 擅长生成具有显著运动、连贯且长时程、不同形状的视频。

  4. 数据处理流水线: 此外,我们开发了一个有效的文本-视频数据处理流水线,包括多种数据预处理策略和一个创新的视频字幕(captioning)方法,极大地提升了生成质量和语义对齐。

    实验结果表明,CogVideoX 在多项机器指标和人类评估中均展现出最先进的 (state-of-the-art) 性能。模型权重已公开发布。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

论文旨在解决文本到视频生成领域的一个核心瓶颈:如何生成长时程、高分辨率、具有大幅度连贯运动和复杂叙事能力的视频。

2.1.2. 问题的重要性与现有挑战

随着 Sora 的惊艳亮相,高质量视频生成成为 AI 领域的前沿焦点。然而,在 Sora 发布时,其技术细节并未公开,使得学术界和开源社区难以复现其效果。当时,主流的开源视频生成模型普遍面临以下挑战 (Gap):

  1. 持续时间短与运动幅度小: 大多数模型只能生成几秒钟的短视频,且视频内容往往是静态或微小变化的,难以生成主体发生显著位移或复杂交互的“大动作”场景。例如,生成“一个人从左跑到右”可能都很困难。
  2. 时间不连贯与伪影: 视频在时间维度上缺乏一致性,容易出现主体身份突变、背景闪烁(flickering)等问题。这部分源于视频压缩技术的不足,直接在像素空间或使用2D压缩方法处理视频,无法有效捕捉时间冗余。
  3. 语义对齐能力弱: 模型难以准确理解和执行复杂的文本指令,特别是包含多个步骤或复杂交互的叙事性描述,例如论文中提到的“一道闪电劈开岩石,一个人从石头里跳出来”。
  4. 高质量训练数据匮乏: 互联网上的视频数据虽然海量,但大多没有与之精确匹配的文本描述。训练数据的质量直接限制了模型的语义理解和生成质量。

2.1.3. 论文的切入点与创新思路

CogVideoX 的创新之处在于它没有依赖单一的技术突破,而是提出了一套系统性的解决方案,从数据、压缩、模型架构到训练策略进行了全方位的优化,旨在攻克上述挑战。其核心思路是:

  • 更好的压缩: 设计一个全新的 3D VAE,同时在空间和时间上压缩视频,既能大幅降低计算量,又能从根本上保证生成视频的帧间连续性。
  • 更强的融合: 提出 专家Transformer 结构,通过 Expert AdaLN 精细地处理文本和视频这两种不同模态的信息,实现更深层次的语义对齐。
  • 更高效的训练: 借鉴大语言模型的成功经验,采用 3D全注意力 捕捉长距离时空依赖,并利用 渐进式训练多分辨率帧打包 等策略,使模型能高效学习生成长视频和不同宽高比的视频。
  • 更高质量的数据: 自建一套数据清洗和字幕生成流水线,为海量视频数据生成高质量、高密度的文本描述,从源头上提升模型的学习质量。

2.2. 核心贡献/主要发现

论文的主要贡献可以总结为以下四点:

  1. 提出 CogVideoX 架构: 提出了一个简洁且可扩展的文本到视频生成模型 CogVideoX。该架构以 3D因果VAE专家Transformer 为核心,能够生成长达10秒、分辨率高达 768x1360、具有多种宽高比和显著动态的视频。

  2. 实现最先进的性能: 通过大量的自动化指标评测和人类评估,证明了 CogVideoX 在视频生成质量、动态表现和文本对齐方面均达到了开源模型中的最先进水平,甚至在人类偏好上优于部分顶尖的闭源模型(如 Kling)。

  3. 首次开源商业级视频生成模型: 团队开源了 50亿 和 20亿 参数的 CogVideoX 模型(包括文生视频和图生视频版本),以及其关键组件 3D VAE视频字幕模型。这是社区首次获得如此规模和性能的开源视频生成大模型,极大地推动了该领域的发展。

  4. 开发并验证了完整的数据处理流程: 论文详细介绍了一套有效的数据筛选和视频字幕生成流水线。这一流程不仅为 CogVideoX 的成功训练奠定了基础,也为后续相关研究提供了宝贵的经验和工具。


3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 扩散模型 (Diffusion Models)

扩散模型是一种生成模型,其核心思想分为两个过程:

  1. 前向过程 (Forward Process): 这是一个固定的、不可学习的过程。它从一张清晰的图像(或视频帧)开始,在多个时间步(timestep)中逐步、少量地向其中添加高斯噪声,直到图像最终变成完全的纯噪声。

  2. 反向过程 (Reverse Process): 这是模型需要学习的核心部分。模型(通常是一个神经网络)的任务是接收一个加了噪声的图像和当前的时间步 tt,并预测出添加到图像中的噪声。通过从纯噪声开始,一步步地减去模型预测的噪声,就可以“逆转”前向过程,最终生成一张清晰的图像。

    CogVideoX 正是利用这一原理,训练一个模型来从噪声中逐步“去噪”,从而生成视频。

3.1.2. 变分自编码器 (Variational Autoencoder, VAE)

VAE 是一种无监督的深度学习模型,属于生成模型的一种,主要用于数据压缩和生成。它由两部分组成:

  1. 编码器 (Encoder): 将高维的输入数据(如图像)压缩成一个低维的潜空间 (latent space) 表示。这个潜空间通常被设计成一个概率分布(如高斯分布),由均值 (μ) 和方差 (σ) 两个向量来描述。

  2. 解码器 (Decoder): 从潜空间中采样一个点,并将其重建回原始的高维数据。

    通过同时优化重建损失(确保解码后的图像与原始图像相似)和 KL散度损失(确保潜空间分布接近标准正态分布),VAE 能够学习到一个平滑且有意义的潜空间。在 CogVideoX 中,VAE 用于将高计算成本的视频数据压缩到低维潜空间,扩散过程在此潜空间中进行,从而大幅降低计算量。

3.1.3. Transformer 与自注意力机制 (Self-Attention)

Transformer 是一种最初为自然语言处理设计的深度学习架构,其核心是自注意力机制 (Self-Attention)

  • 自注意力机制允许模型在处理一个序列(如一句话中的单词)时,动态地计算序列中每个元素对其他元素的重要性。对于序列中的每一个元素,它都会生成三个向量:查询 (Query, Q)键 (Key, K)值 (Value, V)。通过计算一个 Q 和所有 K 的相似度,可以得到一个权重分布,这个权重决定了应该将多少“注意力”放在每个 V 上。最终的输出是所有 V 的加权和。

  • 计算公式: Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

  • 符号解释:

    • QQ: 查询矩阵,代表当前正在处理的元素。
    • KK: 键矩阵,代表序列中所有可被关注的元素。
    • VV: 值矩阵,代表序列中所有元素的实际内容。
    • QKTQK^T: 计算查询与所有键的点积相似度。
    • dk\sqrt{d_k}: 缩放因子,其中 dkd_k 是键向量的维度。用于稳定梯度,防止点积结果过大。
    • softmax\mathrm{softmax}: 将相似度得分归一化为概率分布(权重)。

3.1.4. 扩散Transformer (Diffusion Transformer, DiT)

DiT 是一种将 Transformer 架构用作扩散模型主干网络的设计。在传统的扩散模型中,主干网络通常是 U-Net 架构。而 DiT 则将加噪后的潜变量(latent)视为一个序列,并使用 Transformer 对其进行处理来预测噪声。SoraCogVideoX 的成功表明,Transformer 优异的可扩展性(Scaling Law)同样适用于扩散模型,使其成为构建大规模生成模型的主流选择。

3.2. 前人工作

  • 早期视频生成模型:

    • CogVideo (Hong et al., 2022): 作者团队的前作,基于自回归 Transformer,逐帧生成视频,在当时取得了不错的效果,但自回归方式生成速度慢且容易累积误差。
    • Phenaki (Villegas et al., 2022): 能够生成分钟级别的长视频,但分辨率较低,且视频质量和连贯性有限。
  • 基于扩散的视频生成模型:

    • Imagen Video & Make-A-Video: Google 和 Meta 的早期工作,展示了扩散模型在视频生成方面的巨大潜力,但通常需要级联多个模型(超分、插值)来生成高分辨率长视频,系统复杂且运动幅度有限。
    • Stable Video Diffusion (SVD) (Blattmann et al., 2023): 一个重要的开源工作,它通过在 Stable Diffusion 的图像 VAE 基础上进行微调,来适应视频数据。但其本质上仍是 2D VAE,时间压缩能力有限,容易产生闪烁。
    • AnimateDiff (Guo et al., 2023): 提出在固定的图像生成模型上插入一个可学习的时序注意力模块,使得静态图像模型能够生成动态视频。这类方法通常采用分离的时空注意力(先在每帧内部做空间注意力,再在帧之间做时间注意力),以降低计算成本。
  • 数据处理:

    • DALL-E 3 (Betker et al., 2023): OpenAI 的工作强调了高质量、高密度字幕对文生图模型的重要性。他们使用一个字幕改善模型 (captioner) 来为训练数据生成更详细的描述,显著提升了模型的指令跟随能力。CogVideoX 的数据处理流水线正是借鉴并发展了这一思想。

3.3. 技术演进

视频生成技术经历了从 GANs (生成对抗网络) 和 自回归模型扩散模型 的演进。

  1. GANs 能够生成高质量图像,但在视频上难以训练稳定,且容易模式崩溃。
  2. 自回归模型 (如 Transformer) 逐帧生成,逻辑清晰,但在长视频上速度慢、误差累积严重。
  3. 扩散模型 展现了强大的生成质量和多样性,成为当前的主流。
    • 架构上:U-Net 主干网络演进到更具扩展性的 Transformer (DiT) 主干网络。
    • 空间上: 从直接在像素空间操作,演进到在 VAE 压缩的潜空间操作 (Latent Diffusion),大幅降低了计算复杂度。
    • 时间维度处理上: 从使用 2D VAE 演进到使用 3D VAE 进行时空联合压缩;从分离的时空注意力演进到 3D全注意力,以更好地捕捉复杂的时空动态。

3.4. 差异化分析

  • 相较于 SVD: CogVideoX 的核心区别在于 3D VAE。SVD 仅微调 2D VAE,无法利用时间冗余进行压缩;而 CogVideoX 从头训练 3D VAE,实现了时空联合压缩 (8×8×48 \times 8 \times 4),不仅压缩率更高,而且重建视频的闪烁更少,时间连续性更好。

  • 相较于 AnimateDiff 等采用分离注意力的模型: CogVideoX 采用 3D全注意力。分离注意力虽然计算成本低,但在处理大幅度运动时,物体在相邻帧的不同位置之间无法直接建立联系,信息传递路径长且低效(如原文 Figure 5 所示)。3D全注意力 允许视频中的任意两个时空块直接交互,理论上能更好地建模复杂运动和保持对象一致性。

  • 相较于 MMDiT 架构: MMDiT (Multi-modal Diffusion Transformer) 使用两个独立的 Transformer 分别处理视觉和文本信息,再通过交叉注意力融合。CogVideoX 的 专家AdaLN 设计更为简洁,它在同一个 Transformer 内部为不同模态设置专属的归一化层,参数效率更高,也更接近当前大语言模型的架构范式。

  • 相较于 Sora (闭源): CogVideoX 最大的差异化是开源。它提供了目前最接近 Sora 性能的开源实现,并详细阐述了技术细节,为社区提供了宝贵的研究和实践基础。


4. 方法论

4.1. 方法原理

CogVideoX 的整体框架是一个基于扩散Transformer (DiT)潜空间扩散模型 (Latent Diffusion Model)。其工作原理可以概括为:

  1. 视频压缩: 使用一个特制的 3D因果VAE 将输入的高维视频压缩到一个低维、紧凑的潜空间表示中。

  2. 潜空间扩散: 在这个潜空间中执行扩散过程。训练时,向视频的潜空间表示中加入噪声;推理时,从一个纯噪声的潜空间张量开始。

  3. 条件化去噪: 核心的 专家Transformer 网络接收加噪的视频潜变量文本提示的嵌入以及扩散时间步作为输入,并预测出添加到视频潜变量中的噪声。通过反复迭代这个去噪步骤,最终从纯噪声中恢复出清晰的视频潜变量。

  4. 视频重建: 将去噪后的视频潜变量送入 3D因果VAE 的解码器,将其重建为最终的像素级视频。

    其核心思想是通过在高效的潜空间中利用强大的 Transformer 模型进行去噪,来生成高质量、长时程且与文本对齐的视频。

4.2. 核心方法详解 (逐层深入)

4.2.1. CogVideoX 整体架构

下图(原文 Figure 3)展示了 CogVideoX 的完整架构和数据流:

Figure 3: The overall architecture of CogVideoX. 该图像是一个示意图,展示了CogVideoX模型中专家变压器的结构与流程,包括文本编码器和3D因果VAE的关联,以及3D全注意力机制的详细设计。

  1. 输入 (Input): 一个视频-文本对。
  2. 视频编码: 原始视频通过 3D Causal VAE 的编码器被压缩成潜空间张量(latents)。
  3. 文本编码: 文本提示(text prompt)通过一个 T5 文本编码器转换成文本嵌入 ztextz_{text}
  4. 数据准备:
    • 视频潜空间张量被添加了噪声,得到 z~vision\tilde{z}_{vision}
    • z~vision\tilde{z}_{vision} 被分割成一个个小的时空块(patches),然后展平成一个序列。
  5. 序列拼接: 展平后的视频潜变量序列与文本嵌入 ztextz_{text} 沿着序列维度进行拼接。
  6. 专家Transformer去噪:
    • 拼接后的序列被送入一系列 专家Transformer 模块。
    • 扩散时间步 tt 被编码后,送入 Expert Adaptive LayerNorm (AdaLN) 模块,用于调节 Transformer 内部的归一化层。
  7. 输出与解码:
    • Transformer 的输出被重新塑形为潜空间张量的形状。
    • 最后,3D Causal VAE 的解码器将这个干净的潜空间张量解码,生成最终的视频。

4.2.2. 3D 因果 VAE (3D Causal VAE)

为了高效处理视频数据,论文设计了一个能在时间和空间维度上同时进行压缩的 3D VAE

Figure 4: (a) The structure of the 3D VAE in CogVideoX. It comprises an encoder, a decoder and a latent space regularizer, achieving a \(8 \\times 8 \\times 4\) compression from pixels to the latents. (b) The context parallel implementation on the temporally causal convolution. 该图像是示意图,展示了CogVideoX模型的编码解码结构及其处理流程。左侧部分展示了视频数据的编码过程,其中包含多层次的下采样(Enc Stage)和KL正则化设计;右侧部分描述了不同Rank的处理流程,展示了数据如何在多进程间传输和填充。整体结构强调空间与时间的处理,为生成和解码视频信号提供了框架。

  • 架构 (Figure 4a):

    • 它由一个编码器、一个解码器和一个 KL 散度正则化器组成。
    • 编码器和解码器结构对称,由多个 ResNet 块堆叠而成。部分块执行 3D 下/上采样(同时在时空维度操作),部分块只执行 2D 下/上采样(只在空间维度操作)。
    • 最终实现了 8×8×48 \times 8 \times 4 的压缩率,意味着空间上每 8×88 \times 8 的像素块和时间上每 4 帧被压缩成一个潜空间向量。
  • 时间因果性 (Figure 4b):

    • 为了确保生成当前帧时不会“看到”未来帧的信息,VAE 中的 3D 卷积采用了时间因果卷积 (temporally causal convolution)
    • 如上图所示,在时间维度上进行卷积时,所有的填充 (padding) 都放在序列的开头。这保证了在计算任何一个时间点的输出时,卷积核只能接触到当前和过去的信息。
  • 训练:

    • 采用多阶段训练,先在低分辨率、短视频上训练,再在长视频上进行微调。
    • 损失函数包含 L1 重建损失、LPIPS 感知损失、KL 散度损失,后期还引入了来自 3D 判别器的 GAN 损失以提升重建的清晰度。

4.2.3. 专家 Transformer (Expert Transformer)

这是模型的核心去噪网络,其内部设计有几个关键点:

  • 3D RoPE (Rotary Position Embedding):

    • 为了让模型理解视频块(patch)在三维时空(高、宽、时间)中的位置,论文将 RoPE 从 2D 扩展到了 3D。
    • 对于每个视频块的三维坐标 (x, y, t),模型独立地对每个坐标轴应用 1D RoPE,然后将得到的三个位置编码拼接起来,形成最终的 3D-RoPE。RoPE 是一种相对位置编码,特别适合处理长序列和不同尺寸的输入。
  • 专家自适应层归一化 (Expert Adaptive LayerNorm, AdaLN):

    • 文本和视频的特征分布差异巨大,直接将它们拼接在一起送入同一个 Transformer 处理,可能会导致“模态打架”。
    • 为了解决这个问题,论文提出了 Expert AdaLN。如下图(原文 Figure 3 局部)所示,在 Transformer 块内部,模型为视觉特征和文本特征分别设置了独立的 LayerNorm 层,即 Vision Expert AdaLNText Expert AdaLN
    • 这两个“专家”归一化层都接收来自扩散时间步 tt 的调节信号,但它们各自学习不同的缩放 (γ\gamma) 和偏移 (β\beta) 参数来归一化对应的模态。
    • 这种设计既能让模型以不同的方式处理两种模态,又能通过共享后续的自注意力和前馈网络来促进它们的深度融合,相比 MMDiT 的双 Transformer 结构更加参数高效。
  • 3D 全注意力 (3D Full Attention):

    • 许多模型为了节省计算量,采用分离的时空注意力。如下图(原文 Figure 5)所示,这种方法存在弊端。

      Figure 5: The separated spatial and temporal attention makes it challenging to handle the large motion between adjacent frames. In the figure, the head of the person in frame \(i + 1\) cannot directly attend to the head in frame \(i\) . Instead, visual information can only be implicitly transmitted through other background patches. This can lead to inconsistency issues in the generated videos. 该图像是示意图,展示了视频帧之间的注意力机制。左侧是当前帧(frame i)的图像,右侧是下一个帧(frame i+1)。图中用箭头标示了“no attention”(无注意力)和“implicit transmission”(隐式传递)的区分,强调了时间维度的相互影响。右上角的图例说明了不同颜色代表的空间注意力(红色)和时间注意力(黄色)。此图反映了CogVideoX模型在视频生成中的注意力机制设计。

    • 在分离注意力中,如果一个物体(如人形的头部)在相邻两帧之间发生了大的位移,那么第 i+1i+1 帧的头部无法直接 attend 到第 ii 帧的头部。信息只能通过它们共同关注的背景块间接传递,这增加了学习难度,容易导致物体一致性丢失。

    • CogVideoX 则采用了3D全注意力,即把所有时空块组成的序列拉平,然后计算一个全局的注意力。这允许视频中的任意两个点直接交互,从而能更好地捕捉大幅度运动和长距离依赖关系。得益于 FlashAttention 等优化技术,这种计算密集型操作变得可行。

4.2.4. 训练策略

  • 多分辨率帧打包 (Multi-Resolution Frame Pack):

    • 传统的训练方法通常将视频裁剪成固定长度,这会浪费掉很多短视频或长视频的片段。

    • 如下图(原文 Figure 6)所示,CogVideoX 借鉴了 Patch'n Pack 的思想,将不同时长、不同分辨率的视频“打包”到同一个训练批次中,填满 Transformer 的上下文窗口。

      Figure 6: The diagram of mixed-duration training and Frame Pack. To fully utilize the data and enhance the model's generalization capability, we train on videos of different duration within the same batch. 该图像是示意图,展示了传统的图像视频联合训练与提出的多分辨率帧打包方法之间的对比。左侧说明了旧方法中图像与固定长度视频训练任务之间的较大差距,而右侧则展示了通过多分辨率帧打包(Multi-Resolution Frame Pack)以缩小这个差距的方法。图中包含一个示例,展示了不同帧数的视频及其分辨率。

    • 这样不仅能充分利用所有数据,还能让模型学会在一个批次内处理多样化的输入,增强泛化能力。3D-RoPE 的相对位置编码特性使其能自然地处理这种混合形状的输入。

  • 渐进式训练 (Progressive Training):

    • 模型训练分为多个阶段,从低分辨率(如 256px)开始,逐步提升到高分辨率(如 768px)。
    • 在低分辨率阶段,模型学习内容、语义和低频信息;在高分辨率阶段,模型学习高清细节和高频纹理。这种策略能显著节省计算资源并稳定训练过程。
  • 显式均匀采样 (Explicit Uniform Sampling):

    • 这是对扩散模型标准训练过程的一个巧妙优化。在分布式训练中,通常每个 GPU (rank) 都会独立地从 [1, T] 范围内随机采样一个时间步 tt。由于随机性,一个批次内所有 GPU 采样到的 tt 可能分布不均,导致损失值剧烈波动(因为不同 tt 对应的损失大小差异很大)。
    • CogVideoX 提出的方法是:将 [1, T] 的范围划分成 nn 个互不重叠的区间(nn 为 GPU 数量),每个 GPU 只在自己被分配到的区间内进行均匀采样。
    • 这保证了每个训练批次采样到的时间步 tt 总是均匀地覆盖了从 1TT 的整个范围,从而使得训练损失曲线更加平滑稳定,并加速了收敛。
    • 扩散模型的标准训练目标函数如下,其中 tt 的采样方式对训练稳定性有重要影响。 Lsimple(θ):=Et,x0,ϵϵϵθ(αˉtx0+1αˉtϵ,t)2 L _ { \mathrm { s i m p l e } } ( \theta ) : = \mathbf { E } _ { t , x _ { 0 } , \epsilon } \big \| \epsilon - \epsilon _ { \theta } \big ( \sqrt { \bar { \alpha } _ { t } } x _ { 0 } + \sqrt { 1 - \bar { \alpha } _ { t } } \epsilon , t \big ) \big \| ^ { 2 }
    • 符号解释:
      • x0x_0: 原始的清晰数据(视频潜变量)。
      • tt: 扩散时间步,从 1TT 均匀采样。
      • ϵ\epsilon: 从标准正态分布中采样的噪声。
      • αˉt\bar{\alpha}_t: 与时间步 tt 相关的噪声调度系数,决定了信号和噪声的比例。
      • ϵθ\epsilon_{\theta}: 参数为 θ\theta 的去噪模型(即 CogVideoX 的专家 Transformer)。
      • αˉtx0+1αˉtϵ\sqrt { \bar { \alpha } _ { t } } x _ { 0 } + \sqrt { 1 - \bar { \alpha } _ { t } } \epsilon: 根据 x0x_0tt 生成的加噪数据。
      • E\mathbf{E}: 求期望。
      • 2\| \cdot \|^2: L2 损失,即预测噪声与真实噪声之间的均方误差。

4.2.5. 数据流水线

高质量的数据是训练强大模型的基石。CogVideoX 的成功很大程度上归功于其精心设计的数据流水线。

  • 视频筛选: 首先,团队训练了多个基于 Video-LLaMA 的分类器,用于过滤掉低质量视频。过滤的负面标签包括:人工剪辑缺乏运动连贯性低画质演讲类视频文本主导带噪声的屏幕录像等。

  • 密集视频字幕生成: 由于大多数视频缺乏高质量文本描述,团队建立了一个创新的字幕生成流水线,如下图(原文 Figure 7)所示:

    Figure 7: The pipeline for dense video caption data generation. In this pipeline, we generate short video captions with the Panda70M model, extract frames to create dense image captions, and use GPT-4 to summarize these into final video captions. To accelerate this process, we fine-tuned a Llama 2 model with the GPT-4 summaries. 该图像是示意图,展示了CogVLM2-Video模型的数据处理流程,包括输入视频的分帧、短视频字幕生成、图像字幕生成和长视频字幕输出。图中标示出不同版本的数据路径,体现了信息流的转化和处理机制。

    1. 初步字幕: 使用一个现有的视频字幕模型(如 Panda70M)为视频生成一个简短的概括性字幕。

    2. 密集帧字幕: 从视频中均匀抽取关键帧,然后使用一个强大的图文多模态大模型 CogVLM 为每一帧生成详细的图像描述。

    3. 总结生成: 将所有帧的详细描述和初步字幕一起输入给 GPT-4,让它总结成一段连贯、详细、描述动态变化的最终视频字幕。

    4. 规模化: 为了能够大规模地处理海量视频,团队收集了约5万个由 GPT-4 生成的总结数据,用这些数据微调了一个 LLaMA2 模型。这个微调后的模型可以替代昂贵的 GPT-4 来执行总结任务。

    5. 端到端模型: 最后,团队还利用这个高质量的字幕数据集,训练了一个端到端的视频理解模型 CogVLM2-Caption,可以直接输入视频输出高质量字幕,进一步提升了效率。


5. 实验设置

5.1. 数据集

  • 训练数据:

    • 视频: 作者构建了一个包含约 3500万 个视频片段的内部数据集。这些数据经过了前述的严格筛选流程,平均时长约为6秒。
    • 图像: 为了辅助训练,额外使用了来自 LAION-5BCOYO-700M 数据集的 20亿 张图片。这些图片同样经过筛选,只保留美学评分较高的部分。将图像视为单帧视频进行混合训练,可以增强模型的静态场景生成能力。
  • 评估数据集:

    • WebVid: 一个大规模的文本-视频数据集,包含从网络上搜集的短视频及其原始文本描述。常用于视频生成和检索任务的基准测试。
    • Vbench: 一个专门为评估视频生成模型而设计的综合性基准测试套件。它包含一系列精心设计的文本提示,覆盖了对模型不同能力的考察维度。

5.2. 评估指标

论文使用了多维度指标来全面评估模型性能。

5.2.1. VAE 重建质量指标

  • 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR):

    1. 概念定义: PSNR 是衡量图像或视频重建质量最常用的指标之一。它通过计算原始数据与重建数据之间的均方误差 (MSE) 来评估失真程度。PSNR 值越高,代表重建质量越好,失真越小。
    2. 数学公式: PSNR=10log10(MAXI2MSE) \text{PSNR} = 10 \cdot \log_{10}\left(\frac{\text{MAX}_I^2}{\text{MSE}}\right)
    3. 符号解释:
      • MAXI\text{MAX}_I: 图像像素值的最大可能值(例如,对于8位图像是255)。
      • MSE\text{MSE}: 原始图像与重建图像之间像素差的均方误差。
  • 闪烁度 (Flickering):

    1. 概念定义: 该指标用于量化视频中连续帧之间的不一致性,即“闪烁”或“抖动”的程度。一个时间上连贯的视频,其相邻帧之间应该变化平滑。
    2. 数学公式: 论文中定义为计算每对相邻帧之间的 L1 差异。 Flickering=1T1t=1T1Framet+1Framet1 \text{Flickering} = \frac{1}{T-1} \sum_{t=1}^{T-1} \| \text{Frame}_{t+1} - \text{Frame}_t \|_1
    3. 符号解释:
      • TT: 视频的总帧数。
      • Framet\text{Frame}_t: 第 tt 帧的像素矩阵。
      • 1\| \cdot \|_1: L1 范数,即计算矩阵中所有元素绝对值之和。值越低,闪烁越不明显。

5.2.2. 文生视频质量指标

  • Fréchet 视频距离 (Fréchet Video Distance, FVD):

    1. 概念定义: FVD 是 Fréchet Inception Distance (FID) 在视频领域的扩展。它通过一个预训练的视频分类模型(如 I3D)提取真实视频和生成视频的特征,然后计算这两个特征分布之间的 Fréchet 距离。FVD 能够同时评估视频的单帧质量时间连贯性。FVD 分数越低,表示生成视频的分布与真实视频的分布越接近,质量越高。
    2. 数学公式: FVD(x,g)=μxμg2+Tr(Σx+Σg2(ΣxΣg)1/2) \text{FVD}(x, g) = \| \mu_x - \mu_g \|^2 + \text{Tr}(\Sigma_x + \Sigma_g - 2(\Sigma_x \Sigma_g)^{1/2})
    3. 符号解释:
      • x, g: 分别代表真实视频和生成视频的集合。
      • μx,μg\mu_x, \mu_g: 真实视频和生成视频特征向量的均值。
      • Σx,Σg\Sigma_x, \Sigma_g: 真实视频和生成视频特征向量的协方差矩阵。
      • Tr()\text{Tr}(\cdot): 矩阵的迹(主对角线元素之和)。
  • CLIP Score:

    1. 概念定义: CLIP Score 用于衡量生成的视频内容与输入文本提示的语义一致性。它分别计算视频(通常是其帧)和文本的 CLIP 嵌入,然后计算它们之间的余弦相似度。分数越高,表示视频和文本的语义对齐越好。
    2. 数学公式: CLIP Score=cos(Evideo,Etext) \text{CLIP Score} = \cos(\mathbf{E}_{\text{video}}, \mathbf{E}_{\text{text}})
    3. 符号解释:
      • Evideo\mathbf{E}_{\text{video}}: 视频的 CLIP 特征嵌入。
      • Etext\mathbf{E}_{\text{text}}: 文本提示的 CLIP 特征嵌入。
      • cos(,)\cos(\cdot, \cdot): 余弦相似度函数。
  • Vbench 指标: 论文从 Vbench 中选取了几个与人类感知高度相关的维度:Human Action (人类动作), Scene (场景), Dynamic Degree (动态程度), Multiple Objects (多物体), Appearance Style (外观风格)。

  • 动态评估指标:

    • Dynamic Quality: 一个综合性指标,结合了视频质量和动态分数,以避免模型通过生成静态视频来获得高分。
    • GPT4o-MTScore: 使用 GPT-4o 来评估视频中“质变”的幅度,特别适用于评估物理、生物或气象变化等场景。

5.3. 对比基线

论文将 CogVideoX 与一系列顶尖的开源及商业闭源模型进行了比较,这些基线具有很强的代表性。

  • 开源模型: T2V-Turbo, AnimateDiff, VideoCrafter-2.0, OpenSora V1.2, Show-1, LaVie-2。这些模型覆盖了不同的技术路线和架构,是当时社区内最先进的代表。

  • 商业闭源模型: Gen-2 (by Runway), Pika。这是两款广为人知的商业化视频生成产品。

  • 顶尖闭源模型 (用于人类评估): Kling (快手出品)。这是在论文发布时,被认为是性能最接近 Sora 的闭源模型之一,选择它作为人类评估的对手,极具挑战性。


6. 实验结果与分析

6.1. 核心结果分析

论文的核心实验结果展示在原文的 Table 3 中,通过自动化指标对比了 CogVideoX 与其他主流模型。

以下是原文 Table 3 的结果:

Models Human Action Scene Vbench Metrics Dynamic Quality GPT4o-MT Score
Dynamic Degree Multiple Objects Appear. Style
T2V-Turbo 95.2 55.58 49.17 54.65 24.42 - -
AnimateDiff 92.6 50.19 40.83 36.88 22.42 - 2.62
VideoCrafter-2.0 95.0 55.29 42.50 40.66 25.13 43.6 2.68
OpenSora V1.2 85.8 42.47 47.22 58.41 23.89 63.7 2.52
Show-1 95.6 47.03 44.44 45.47 23.06 57.7 -
Gen-2 89.2 48.91 18.89 55.47 19.34 43.6 2.62
Pika 88.0 44.80 37.22 46.69 21.89 52.1 2.48
LaVie-2 96.4 49.59 31.11 64.88 25.09 - 2.46
CogVideoX-2B 96.6 55.35 66.39 57.68 24.37 57.7 3.09
CogVideoX-5B 96.8 55.44 62.22 70.95 24.44 69.5 3.36

分析:

  1. 全面领先: CogVideoX-5B 在七个指标中的五个取得了最高分,包括 Human Action, Scene, Multiple Objects, Dynamic QualityGPT4o-MTScore。这表明其在生成质量和语义理解上达到了顶尖水平。

  2. 动态能力突出: CogVideoX 在 Dynamic DegreeDynamic QualityGPT4o-MTScore 这三个与“运动”直接相关的指标上表现尤为出色。例如,在 Dynamic Degree 上,CogVideoX-2B (66.39) 远超所有其他模型。这强有力地证明了其解决了以往模型“运动幅度小”的痛点。

  3. 强大的可扩展性:CogVideoX-2BCogVideoX-5B,模型的性能在多个维度上都有明显提升,尤其是在处理复杂场景(Multiple Objects)和动态质量(Dynamic Quality)上,验证了该架构良好的可扩展性。

  4. 人类评估结果 (Table 4): 以下是原文 Table 4 的结果,对比了 CogVideoX-5B 和顶尖闭源模型 Kling:

    Model Sensory Quality Instruction Following Physics Simulation Cover Quality Total Score
    Kling 0.638 0.367 0.561 0.668 2.17
    CogVideoX-5B 0.722 0.495 0.667 0.712 2.74

    分析: 这是一个非常惊人的结果。在人类主观评估中,CogVideoX-5B所有四个维度(感官质量、指令跟随、物理模拟、封面质量)上都超过了 Kling。这表明 CogVideoX 不仅在客观指标上强大,其生成视频的综合观感和对复杂指令的理解能力也达到了业界顶尖水准。

6.2. 消融实验/参数分析

论文通过一系列消融实验,验证了其关键设计决策的有效性。

Figure 10: Training loss curve of different ablations. 该图像是多个实验结果的对比图,其中包含四个子图:分别比较RoPE与Sinusoidal、3D与2D+1D注意力机制、不同架构,以及有无显式均匀采样的效果。这些实验旨在展示模型在不同设置下的表现变化。

  • 3D RoPE vs. 绝对位置编码 (Figure 10a): 使用 RoPE 的模型(蓝线)比使用传统正弦绝对位置编码的模型(红线)收敛速度更快,损失更低。这证明了 RoPE 在处理视频时空序列上的优越性。

  • 专家 AdaLN 的作用 (Figure 10c): 对比三种架构:Expert AdaLN (蓝线)、无Expert AdaLN (绿线)、MMDiT 结构 (黄线)。Expert AdaLN 的损失显著低于其他两者,证明了这个看似简单的设计在有效融合多模态信息方面,比更复杂的 MMDiT 结构更优,并且远胜于不做特殊处理的朴素融合。

  • 3D 全注意力 vs. 分离注意力 (Figure 10b): 3D全注意力(蓝线)的损失曲线比 2D+1D2D+1D 分离注意力(红线)更低且更稳定。作者提到,分离注意力在训练中非常不稳定,容易崩溃。这验证了 3D全注意力 在建模复杂运动和稳定大规模训练中的必要性。

  • 显式均匀采样的效果 (Figure 10d): 使用 显式均匀采样(蓝线)的损失曲线明显比标准随机采样(红线)平滑得多。原文 Table 9 进一步展示,在各个时间步区间,该方法的损失都更低。这证明了该策略能有效稳定训练过程并加速收敛。


7. 总结与思考

7.1. 结论总结

CogVideoX 是一项在文本到视频生成领域的里程碑式工作。它通过一套系统性的创新,成功地解决了先前模型在生成时长、运动幅度和叙事连贯性上的核心痛点。

  • 贡献:
    1. 提出了一个由 3D因果VAE专家Transformer 构成的强大且可扩展的 CogVideoX 架构。
    2. 开发并开源了包括模型、VAE、字幕工具在内的全套技术栈,极大地推动了开源社区的发展。
    3. 通过精细的数据工程,构建了高质量的训练数据集,再次印证了数据在驱动AI模型能力突破中的核心地位。
  • 意义: CogVideoX 的发布,标志着开源社区首次拥有了性能可与顶尖闭源模型相媲美的商业级视频生成工具。它不仅展示了一条通往更高质量视频生成的可行技术路径,也为全球的研究者和开发者提供了一个坚实的平台,以探索视频生成在艺术、娱乐、教育等领域的无限可能。

7.2. 局限性与未来工作

  • 作者指出的局限性与未来工作:

    • 探索具有更大压缩率的 VAE,以进一步降低计算成本,支持更长更高清的视频生成。
    • 继续探索视频生成模型的扩展法则(Scaling Laws),训练更大规模、能力更强的模型。
  • 个人思考的潜在局限性:

    • 物理世界模拟的真实性: 尽管在 Physics Simulation 上得分很高,但生成视频中的物理交互(如碰撞、流体、光影)离完全真实还有距离,偶尔会出现“反物理”的现象。
    • 复杂组合泛化能力: 对于极其复杂、包含多个对象及其精确空间关系和交互的“组合性”文本提示,模型可能仍然会出错,这是当前所有生成模型面临的共同挑战。
    • 计算成本: 3D全注意力 虽然效果好,但其计算和内存复杂性随序列长度(即视频时长和分辨率)的平方级增长。尽管有 FlashAttention 优化,要将此架构直接扩展到分钟级别的视频生成,仍然面临巨大的工程挑战。

7.3. 个人启发与批判

  • 启发:

    1. 系统工程的胜利: CogVideoX 的成功并非源于某一个单一的“银弹”,而是架构、数据、训练策略三位一体、协同优化的结果。这给AI研究的启示是,追求SOTA性能需要系统性的思考和工程实践,而不仅仅是算法的创新。
    2. 数据为王,精细为后: 论文花费大量篇幅介绍其数据清洗和字幕生成流水线,这充分说明了“Garbage in, garbage out”的道理。高质量的数据是模型能力上限的决定性因素,而精细的数据工程则是通往高质量数据的必由之路。
    3. 开源精神的价值: 在 Sora 等闭源模型引发广泛关注和焦虑的背景下,清华与智谱AI团队毅然选择开源如此重量级的模型,展现了顶尖研究机构的担当和对推动整个技术生态发展的贡献,其价值不可估量。
  • 批判性思考:

    1. 消融实验的缺失: 论文论证了其数据流水线的重要性,但并未提供一个直接的消融实验来量化其影响。例如,使用公开的 WebVid 数据集(及其自带的简单字幕)训练一个同等规模的模型,与使用自建高质量数据集训练的模型进行对比。这样的实验将能更直观地揭示这套复杂的数据工程到底带来了多大的收益。
    2. “专家”的命名: Expert AdaLN 的设计非常巧妙且有效,但将其命名为“专家”可能略带夸张成分。其本质是为不同模态设置独立的、可调节的归一化层。虽然效果显著,但其思想与深度学习中其他条件归一化技术一脉相承。
    3. 长视频的定义: 10秒的视频在当前技术水平下已属“长时程”,但距离满足电影、短剧等实际应用场景的需求还有很大差距。未来的研究需要攻克分钟级别甚至更长视频生成中的一致性、故事发展和内存限制等更严峻的挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。