论文状态：已完成

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

发表：2023/11/26

扩散模型 (9)文本到视频生成 (5)视频生成模型 (8)高质量视频微调 (1)视频数据集策划 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文介绍了稳定视频扩散模型（SVD），用于高分辨率文本到视频和图像到视频生成。研究评估了三阶段训练过程，强调精心策划的数据集在生成高质量视频中的重要性，并提出了一种系统化的数据整理过程。这项研究为下游任务提供了强大的运动表征，并展示了其优越性能。

摘要

We present Stable Video Diffusion - a latent video diffusion model for high-resolution, state-of-the-art text-to-video and image-to-video generation. Recently, latent diffusion models trained for 2D image synthesis have been turned into generative video models by inserting temporal layers and finetuning them on small, high-quality video datasets. However, training methods in the literature vary widely, and the field has yet to agree on a unified strategy for curating video data. In this paper, we identify and evaluate three different stages for successful training of video LDMs: text-to-image pretraining, video pretraining, and high-quality video finetuning. Furthermore, we demonstrate the necessity of a well-curated pretraining dataset for generating high-quality videos and present a systematic curation process to train a strong base model, including captioning and filtering strategies. We then explore the impact of finetuning our base model on high-quality data and train a text-to-video model that is competitive with closed-source video generation. We also show that our base model provides a powerful motion representation for downstream tasks such as image-to-video generation and adaptability to camera motion-specific LoRA modules. Finally, we demonstrate that our model provides a strong multi-view 3D-prior and can serve as a base to finetune a multi-view diffusion model that jointly generates multiple views of objects in a feedforward fashion, outperforming image-based methods at a fraction of their compute budget. We release code and model weights at https://github.com/Stability-AI/generative-models .

思维导图

论文精读

中文精读约 58 分钟读完 · 30,160 字

1. 论文基本信息

1.1. 标题

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

1.2. 作者

Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi Zion English, Vikram Voleti, Adam Letts, Varun Jampani, Robin Rombach (Stability AI)

1.3. 发表期刊/会议

预印本 (arXiv)

1.4. 发表年份

2023年 (UTC时间 2023-11-25T22:28:38.000Z)

1.5. 摘要

本文介绍了 Stable Video Diffusion (SVD)——一个用于高分辨率、最先进的文生视频 (text-to-video) 和图生视频 (image-to-video) 生成的潜在视频扩散模型 (latent video diffusion model)。近年来，经过二维图像合成训练的潜在扩散模型 (latent diffusion models) 通过插入时间层并在小型高质量视频数据集上进行微调 (finetuning) 后，已转变为生成视频模型。然而，文献中的训练方法差异很大，并且该领域尚未就视频数据整理达成统一策略。本文识别并评估了成功训练视频潜在扩散模型 (LDMs) 的三个不同阶段：文生图预训练 (text-to-image pretraining)、视频预训练 (video pretraining) 和高质量视频微调 (high-quality video finetuning)。此外，本文证明了精心策划的预训练数据集对于生成高质量视频的必要性，并提出了一个系统的整理过程来训练一个强大的基础模型 (base model)，包括字幕生成 (captioning) 和过滤 (filtering) 策略。

随后，本文探讨了在高质量数据上微调基础模型的影响，并训练了一个与闭源视频生成模型具有竞争力的文生视频模型。本文还展示了基础模型为下游任务（如图生视频生成和适应相机运动特定 LoRA 模块）提供了强大的运动表征。最后，本文证明了模型提供了一个强大的多视角 (multi-view) 3D 先验 (3D-prior)，并且可以作为基础来微调一个多视角扩散模型，以一次性 (feedforward) 生成对象的多个视图，其性能优于基于图像的方法，而计算预算仅为其一小部分。

1.6. 原文链接

https://arxiv.org/abs/2311.15127

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

当前视频生成领域面临的核心挑战是如何通过有效的数据策略和训练范式，实现高分辨率、高质量的文生视频 (text-to-video) 和图生视频 (image-to-video) 生成，并弥补现有研究在数据选择和多阶段训练策略上的空白。具体来说，主要问题包括：

缺乏统一的视频数据整理策略： 现有研究中的训练方法差异大，缺乏对视频数据进行系统化整理和筛选的共识。
数据选择对模型性能影响研究不足： 尽管数据分布对生成模型性能影响深远，但视频生成领域的研究主要集中在模型架构（如空间层和时间层的排列），而较少深入探讨数据选择的影响。
未能充分利用多阶段训练的潜力： 图像生成领域已证明，在大规模多样化数据集上预训练再在小规模高质量数据集上微调能显著提升性能，但在视频生成中，这种分阶段训练（特别是视频预训练和高质量微调的分离）的有效性尚未得到充分研究。

2.1.2. 为什么这个问题在当前领域是重要的

视频生成是人工智能领域一个极具挑战性且应用潜力巨大的方向。随着图像生成扩散模型 (diffusion models) 的飞速发展，将这些成功经验扩展到视频领域成为自然趋势。高质量的视频生成技术在内容创作、电影制作、虚拟现实、广告等多个行业具有变革性影响。然而，视频数据比图像数据更复杂，涉及时间一致性、运动多样性等维度，这使得数据整理和模型训练更为困难。现有方法的局限性阻碍了视频生成模型达到与图像生成模型相当的质量和多样性。因此，系统性地解决数据整理和多阶段训练的问题，对于推动视频生成技术向前发展至关重要。

2.1.3. 这篇论文的切入点或创新思路

本文的创新思路在于将研究焦点从模型架构的微调转向数据策略的优化和多阶段训练范式的构建。具体切入点包括：

数据驱动的方法： 强调数据选择的重要性，并提出一套系统性的视频数据整理工作流，包括切片检测、多模态字幕生成、光流分析、OCR 和美学评分等，旨在从大规模、未经整理的视频集合中提取高质量数据。
三阶段训练策略： 明确提出并评估了视频潜在扩散模型训练的三个关键阶段：文生图预训练、大规模视频预训练和高质量视频微调。这借鉴了图像领域已验证的成功经验，并针对视频的特性进行了调整和验证。
基础模型作为强大先验： 训练一个强大的视频预训练基础模型，并证明其不仅在文生视频和图生视频任务上表现出色，还能作为通用的运动和 3D 理解先验，支持下游任务如相机运动 LoRA 和多视角生成。

2.2. 核心贡献/主要发现

2.2.1. 论文最主要的贡献

系统性的视频数据整理工作流： 提出并实践了一套将大规模、未整理视频集合转化为高质量生成视频建模数据集的系统方法，包括切片检测、多种合成字幕生成以及基于光流、OCR、CLIP 嵌入的美学和相似度过滤策略。
三阶段训练范式的确立与验证： 识别并深入分析了文生图预训练、视频预训练和高质量视频微调这三个关键训练阶段，并通过消融实验证明了每个阶段对最终模型性能（特别是高质量微调后性能）的必要性和积极影响。
训练出最先进的文生视频和图生视频模型： 基于提出的数据整理和训练策略，成功训练了 Stable Video Diffusion 模型，其在文生视频和图生视频任务上达到了最先进的 (state-of-the-art) 水平，并在人类偏好研究中优于现有闭源模型。
揭示模型强大的运动和 3D 理解先验： 首次系统性地探索了预训练视频扩散模型作为通用运动和 3D 先验的潜力，并通过将其微调到相机运动 LoRA 和多视角生成任务中，展示了其出色的性能，尤其在多视角合成方面以远低于现有方法的计算成本实现了最先进的结果。

2.2.2. 论文得出了哪些关键的结论或发现

数据质量是视频生成成功的关键： 经过系统性整理的数据集在视频预训练阶段能显著提升模型性能，且这种提升在后续的高质量微调阶段仍然保持。
三阶段训练策略是高效的： 将视频模型训练分为图像预训练、视频预训练和高质量视频微调，能够有效利用不同类型数据和训练目标，优化最终模型的表现。
图像预训练是视频生成的基础： 使用预训练的图像模型初始化空间层能够显著提高视频模型的质量和对提示的遵循能力。
大型数据集在整理后效益更高： 即使是更大规模（如 50M 样本）的视频数据集，经过整理后其训练效果也优于未整理的同等规模数据集，并且数据集规模本身也是影响性能的关键因素。
SVD 具有强大的泛化能力： 训练出的基础模型不仅在核心文生视频和图生视频任务上表现卓越，还能轻松微调以适应特定相机运动控制（通过 LoRA）和多视角 3D 生成等下游任务，展现了其作为通用运动和 3D 先验的强大潜力，这有助于缓解 3D 领域数据稀缺的问题。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 扩散模型 (Diffusion Models, DMs)

概念定义： 扩散模型是一类生成模型，它们通过模拟一个逐步加噪（前向扩散）和逐步去噪（反向扩散）的过程来学习数据的分布。在前向扩散过程中，模型逐渐向数据添加高斯噪声，直到数据完全变成随机噪声。在反向扩散过程中，模型学习逆转这个过程，即从噪声中逐步去除噪声，最终生成清晰、真实的数据样本。其核心思想是学习每一步去噪的“得分函数” (score function)，即数据分布梯度的估计。

数学公式： 扩散模型通常通过学习一个去噪器 (denoiser) $D_\theta(\mathbf{x}; \sigma)$ 来预测原始数据 $\mathbf{x}_0$ 。训练目标通常是去噪得分匹配 (denoising score matching, DSM) 的形式： $\mathbb{E}_{(\mathbf{x}_0, \mathbf{c}) \sim p_{\mathrm{data}}(\mathbf{x}_0, \mathbf{c}), (\sigma, \mathbf{n}) \sim p(\sigma, \mathbf{n})} \left[ \lambda_{\sigma} \lVert D_{\theta}(\mathbf{x}_0 + \mathbf{n}; \sigma, \mathbf{c}) - \mathbf{x}_0 \rVert_2^2 \right]$ 符号解释：

$\mathbf{x}_0$ : 原始的、干净的数据样本。
$\mathbf{c}$ : 任意的条件信号 (conditioning signal)，如文本提示或图像。
$p_{\mathrm{data}}(\mathbf{x}_0, \mathbf{c})$ : 真实数据和条件信号的联合分布。
$\sigma$ : 噪声水平 (noise level)，表示添加到数据中的噪声量。
$\mathbf{n}$ : 从标准正态分布 $\mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{I})$ 中采样的噪声。
$p(\sigma, \mathbf{n})$ : 噪声水平 $\sigma$ 和噪声 $\mathbf{n}$ 的联合分布，其中 $p(\sigma, \mathbf{n}) = p(\sigma) \mathcal{N}(\mathbf{n}; \mathbf{0}, \sigma^2 \mathbf{I})$ 。
$\lambda_{\sigma}$ : 一个权重函数 (weighting function)，根据噪声水平 $\sigma$ 调整损失的权重。
$D_{\theta}(\mathbf{x}_0 + \mathbf{n}; \sigma, \mathbf{c})$ : 学习到的去噪器 (denoiser)，参数为 $\theta$ ，输入是加噪后的数据 $\mathbf{x}_0 + \mathbf{n}$ 、噪声水平 $\sigma$ 和条件 $\mathbf{c}$ 。它试图预测原始的干净数据 $\mathbf{x}_0$ 。
$\lVert \cdot \rVert_2^2$ : $L_2$ 范数的平方，表示预测值与目标值之间的平方误差。

3.1.2. 潜在扩散模型 (Latent Diffusion Models, LDMs)

概念定义： 潜在扩散模型 (LDMs) 是一种特殊的扩散模型，它不在原始像素空间（或视频帧空间）直接进行扩散和去噪，而是在一个低维的“潜在空间” (latent space) 中操作。通过使用一个编码器 (encoder) 将高维数据（如图像或视频帧）压缩到潜在空间，并在潜在空间中训练扩散模型，再通过一个解码器 (decoder) 将潜在表示转换回高维数据。这样做可以显著降低计算复杂度，使得训练高分辨率生成模型变得更加可行。

3.1.3. 文生图 (Text-to-Image)、图生视频 (Image-to-Video) 和文生视频 (Text-to-Video)

概念定义：

文生图 (Text-to-Image)： 根据文本描述（提示词，prompt）生成相应图像的任务。
图生视频 (Image-to-Video)： 根据一张输入图像（通常是第一帧）和可能的文本描述生成一段视频的任务，要求视频内容与输入图像保持一致并在时间上连贯演进。
文生视频 (Text-to-Video)： 根据文本描述直接生成一段视频的任务，视频内容和运动应与文本描述相符。

3.1.4. 分类器自由引导 (Classifier-Free Guidance, CFG)

概念定义： 分类器自由引导是一种在扩散模型中提升生成质量和对条件信号遵循程度的技术。它通过在训练时随机丢弃一部分条件信号（例如，在一定比例的训练步中不提供文本提示），使模型同时学习条件生成和无条件生成。在推理时，通过结合条件模型和无条件模型的预测，可以放大条件信号的影响，从而在不依赖额外分类器的情况下，实现更强的引导效果。

数学公式： 分类器自由引导的去噪器预测 $D^w(\mathbf{x}; \sigma, \mathbf{c})$ 通常计算为： $D^w(\mathbf{x}; \sigma, \mathbf{c}) = w D(\mathbf{x}; \sigma, \mathbf{c}) - (w - 1) D(\mathbf{x}; \sigma)$ 符号解释：

$D^w(\mathbf{x}; \sigma, \mathbf{c})$ : 经过引导后的去噪器预测。
$w$ : 引导强度 (guidance strength) 或引导尺度 (guidance scale)，一个非负超参数。当 $w=1$ 时，退化为无引导的条件生成；当 $w>1$ 时，会放大条件信号的影响。
$D(\mathbf{x}; \sigma, \mathbf{c})$ : 条件去噪器 (conditional denoiser) 的预测，即模型在给定条件 $\mathbf{c}$ 下对原始数据的预测。
$D(\mathbf{x}; \sigma)$ : 无条件去噪器 (unconditional denoiser) 的预测，即模型在没有给定条件的情况下对原始数据的预测。

3.1.5. LoRA (Low-Rank Adaptation)

概念定义： LoRA (Low-Rank Adaptation) 是一种参数高效的微调技术，主要用于大型预训练模型（如大型语言模型或扩散模型）。它通过在原始模型的某些层（例如注意力层）中注入小的、低秩 (low-rank) 的可训练矩阵对，而不是微调整个模型的所有参数。在微调过程中，只训练这些低秩矩阵的参数，而原始模型的权重保持冻结。这大大减少了需要训练的参数数量，从而节省了计算资源和存储空间，同时仍能实现与全模型微调相当的性能。在本文中，LoRA 被用于控制视频生成中的相机运动。

3.2. 前人工作

3.2.1. 视频扩散模型架构

早期的视频生成模型涵盖了变分 RNN (variational RNNs)、基于流 (flow-based) 的方法、自回归模型 (autoregressive models) 和 GANs。随着扩散模型在图像生成领域的成功，许多工作开始将其应用于视频生成。这些方法通常基于预训练的文生图模型，并通过插入各种形式的时间混合层 (temporal mixing layers) 来扩展其能力，使其能够处理时间维度的数据。例如，Blattmann et al. [9] 提出了在潜在空间进行视频扩散建模，并在空间和时间层之后插入时间卷积和注意力层。Ge et al. [29] 引入了时间相关的噪声来增强时间一致性。Guo et al. [32] (Animatediff) 则探索了在现有文生图模型上添加少量可训练时间层来实现视频生成。

3.2.2. 视频数据集

视频生成领域依赖于高质量的视频-文本数据集。WebVid-10M [7] 是一个常用的公开视频数据集，尽管它包含水印且规模次优。InternVid-10M [100] 是另一个为高美学质量而筛选的数据集。许多工作还会结合图像数据进行联合图像-视频训练，但这使得分离图像和视频数据对最终模型效果的影响变得困难。本文指出，这些数据集的整理策略通常是临时性的 (ad-hoc)，缺乏系统性。

3.2.3. 数据整理在图像生成中的成功经验

在图像生成领域，大规模数据集上的预训练和高质量数据集上的微调被认为是提升模型性能的关键策略。例如，LAION-5B [80] 这样的多模态大规模数据集在训练强大的判别性和生成性图像模型中发挥了重要作用。研究表明，利用 CLIP [66] 等高效的语言-图像表示进行数据筛选和整理，能够显著提高生成图像模型的性能，例如 Emu [13] 和 SDXL [64] 的成功。

3.3. 技术演进

视频生成技术从最初的基于 RNN、GAN 等模型，逐渐演进到以扩散模型为核心的范式。早期工作主要关注如何将时间维度融入生成模型架构，例如设计特定的空间-时间层排列 (spatial and temporal layers)。然而，这些研究往往忽视了数据选择和整理对模型性能的决定性影响。本文的工作代表了一个重要的技术演进方向：

从架构中心到数据中心： 将关注点从“如何设计更好的模型结构”转向“如何准备更高质量的数据”和“如何设计更有效的训练策略”。
借鉴图像领域成功经验： 将图像生成领域中“大规模多样化预训练 + 小规模高质量微调”的策略引入视频生成，并通过系统性研究验证其有效性。
多阶段训练的精细化： 明确划分并评估了图像预训练、视频预训练和高质量视频微调三个阶段，为视频生成模型的训练提供了一个清晰、可复现的范式。
模型泛化能力的拓展： 不仅关注传统的文生视频和图生视频，还探索了预训练视频模型作为通用运动和 3D 先验的潜力，从而拓展了视频生成模型的应用边界。

3.4. 差异化分析

本文的工作与相关工作的主要区别和创新点在于：

数据整理的系统性与实证分析： 现有视频生成工作大多采用临时性的数据处理和过滤策略，而本文首次提出了一个系统性的数据整理工作流，并通过实证研究（基于人类偏好评估）来校准各种过滤阈值（如光流、美学、OCR、CLIP 相似度）。这使得数据整理不再是一个“黑盒”，而是成为一个可优化和分析的关键环节。
三阶段训练策略的明确提出与验证： 尽管一些工作可能隐含地使用了多阶段训练，但本文是第一篇明确识别、定义并单独评估文生图预训练、视频预训练和高质量视频微调这三个阶段影响的论文。这为未来的视频生成模型训练提供了一个清晰、高效的范式。
对数据质量和规模影响的深入研究： 本文不仅证明了数据整理的重要性，还通过消融实验展示了整理后的数据即使在规模较小的情况下也优于未整理的数据，并且在大规模整理数据集上的训练优势在微调后依然保持。这与之前将图像和视频数据混合训练，导致难以分离其效果的研究形成对比。
强大的通用运动与 3D 先验： 本文证明了预训练的 Stable Video Diffusion 模型不仅在核心视频生成任务上表现优异，还天然地具备了强大的运动表征和 3D 理解能力，可以高效地微调到如相机运动控制 LoRA 和多视角 3D 生成等领域，甚至在多视角合成方面超越了专门的图像基线方法，且计算成本大大降低。这拓展了视频扩散模型的应用潜力，并为 3D 内容生成提供了新思路。

4. 方法论

本文的核心是提出一套系统性的数据整理流程和三阶段训练策略，用于训练高质量的潜在视频扩散模型 (LDMs)。

4.1. 方法原理

本文所用方法的核心思想是：**高质量的视频生成始于高质量的数据，并通过分阶段的训练策略逐步提升模型的生成能力和泛化性。**其直觉是，如同图像生成领域，一个强大的视觉基础（来自图像预训练）与大规模、精心整理的视频数据（来自视频预训练）相结合，能够赋予模型强大的运动理解能力，而在此基础上再进行高质量数据的微调，可以进一步提升生成视频的分辨率和视觉保真度。此外，这种分层训练也能让模型学习到通用的运动和 3D 结构先验。

具体来说，方法原理体现在以下三个主要方面：

数据为王： 视频生成质量受限于训练数据的质量和多样性。通过系统性的数据处理和过滤（切片检测、多模态字幕、光流、OCR、美学评分），可以从噪声大的原始视频集合中提取出更适合生成任务的高质量、高运动、无文本干扰的视频片段。
分阶段知识传递：
- 图像预训练 (Stage I)： 利用大规模图像数据训练的 2D 扩散模型，为视频模型提供强大的空间视觉表征基础，避免从零开始学习基本图像特征。
- 视频预训练 (Stage II)： 在大规模、精心整理的视频数据集上进行预训练，使模型学习到通用的时间一致性和运动表征。这一阶段侧重于学习视频的时空动态，即使分辨率较低，也能建立强大的运动先验。
- 高质量微调 (Stage III)： 在小规模、极高视觉质量的视频数据集上进行高分辨率微调，进一步提升生成视频的细节、真实感和分辨率，将模型从通用运动先验转化为特定高质量视频生成器。
泛化性与多任务能力： 通过这种分阶段训练，尤其是视频预训练阶段，模型能够学习到通用的运动和 3D 结构，使其不仅仅局限于文生视频和图生视频，还能通过少量微调适应更广泛的下游任务，如相机运动控制和多视角 3D 生成，展现其强大的通用先验能力。

4.2. 核心方法详解 (逐层深入)

4.2.1. 数据处理与标注 (Data Processing and Annotation)

初始数据收集与切片检测：
- 首先，收集一个包含长视频的初始数据集，作为视频预训练的基础数据。
- 为了避免视频中的剪辑 (cuts) 和淡入淡出 (fades) 混入合成视频中（这会损害生成视频的时间一致性），应用一个级联的切片检测流水线 (cascaded cut detection pipeline)。这个流水线在三个不同的帧率 (FPS) 级别上运行。
- 目的分析： 传统的视频元数据可能无法检测到所有的剪辑，特别是快速剪辑或隐式剪辑。通过在不同 FPS 级别进行级联检测，可以更鲁棒地识别视频中的场景切换点，从而将长视频分割成多个连贯的短视频片段，每个片段内部具有更好的时间一致性。下图（原文 Figure 2）展示了我们的处理前后每视频的平均片段数，揭示了我们的流水线检测出大量额外剪辑。
  
  该图像是柱状图和概率分布图，展示了视频数据处理中原始数据与处理后数据的剪辑数对比，以及光流得分的分布情况。处理后数据中的剪辑数量为 11.09，而原始数据为 2.65。
- 效果展示： 图 2 (左) 表明，经过切片检测流水线处理后，每个视频的平均片段数量显著增加（约 4 倍），这说明原始数据集中许多视频片段包含未被元数据捕获的剪辑。
多模态字幕生成：
- 对每个检测到的视频片段进行三种不同的合成字幕生成：
  - CoCa [108]： 使用图像字幕生成器 CoCa 来标注每个视频片段的中间帧 (mid-frame)。
  - V-BLIP [109]： 使用视频字幕模型 V-BLIP 来获取基于整个视频内容的字幕。
  - LLM 摘要： 通过一个基于大语言模型 (LLM) 的摘要器，对前两个字幕进行汇总，生成第三个描述。
- 目的分析： 结合图像和视频级别的字幕，并利用 LLM 进行摘要，可以获得更丰富、更准确、更全面的视频内容描述，为后续的文本条件生成提供高质量的配对数据。
初始数据集构建：
- 以上述处理得到的初始数据集被称为 Large Video Dataset (LVD)，包含约 5.8 亿 (580M) 个标注过的视频片段对，总时长达 212 年。

数据过滤策略：

为了进一步提升数据质量，过滤掉可能降低模型性能的示例（如运动较少、文本过多或美学价值低的片段），应用以下附加标注和过滤方法：

光流 (Optical Flow) 检测与运动过滤：
- 计算每个片段的稠密光流 (dense optical flow) [24, 48]，以 2 FPS 进行计算。
- 通过移除平均光流大小低于某个阈值的视频，筛选出静态场景。
- 目的分析： 光流可以量化视频中的运动程度。过滤掉运动不足的静态视频，可以确保模型学习到更丰富的动态变化，避免生成僵硬或静止的视频。下图（原文 Figure 2）显示了 LVD 经过处理前的子集的光流得分分布，其中包含许多静态片段。
  
  该图像是柱状图和概率分布图，展示了视频数据处理中原始数据与处理后数据的剪辑数对比，以及光流得分的分布情况。处理后数据中的剪辑数量为 11.09，而原始数据为 2.65。
效果展示： 图 2 (右) 显示，在 LVD 的运动分布中，通过光流得分可以识别出大量接近静态的片段。
光学字符识别 (Optical Character Recognition, OCR) 过滤：
- 使用 OCR [5] 来识别并剔除包含大量书面文本的视频片段。
- 目的分析： 文本内容可能干扰模型学习纯粹的视觉元素和运动，过滤掉文本可以提高生成视频的视觉纯净度。

CLIP 嵌入与美学/相似度评分：

使用 CLIP [66] 嵌入来标注每个视频片段的起始帧、中间帧和结束帧。
基于 CLIP 嵌入计算美学评分 (aesthetics scores) [80] 和文本-图像相似度 (text-image similarities)。

目的分析： 美学评分可以帮助筛选出视觉上更吸引人、质量更高的片段。文本-图像相似度则可以确保字幕与视频内容的高度匹配，从而提升模型对文本提示的遵循能力。以下是原文 Table 1 的结果，对比了我们数据集在过滤前后与公开研究数据集的统计信息：

	LVD			LVD-F	LVD-10M	LVD-10M-F	WebVid	InternVid
#Clips	577M	152M	9.8M	2.3M	10.7M	234M
Clip Duration (s)	11.58	10.53	12.11	10.99	18.0	11.7
Total Duration (y)	212.09	50.64	3.76	0.78	5.94	86.80
Mean #Frames	325	301	335	320	-	-
Mean Clips/Video	11.09	4.76	1.2	1.1	1.0	32.96
Motion Annotations?	✓	✓	✓	✓	X	X

4.2.2. 阶段 I: 图像预训练 (Stage I: Image Pretraining)

初始化：
- 将图像预训练作为训练流水线的第一阶段。
- 模型以一个预训练的图像扩散模型作为基础，具体是 Stable Diffusion 2.1 (SD 2.1) [71]。
- 目的分析： 借鉴并行工作的经验 [9, 41, 82]，通过使用预训练的图像模型初始化空间权重 (spatial weights)，为视频模型提供一个强大的视觉表征能力，使其具备处理高分辨率图像的潜力，而无需从头学习基础的视觉概念。
效果评估：
- 为了分析图像预训练的效果，训练并比较了两个相同的视频模型在一个 10M 大小的 LVD 子集上：一个模型使用了预训练的空间权重，另一个则没有。
- 结果： 通过人类偏好研究 (human preference study)，结果清晰地表明，使用了图像预训练的模型在视觉质量和对提示词的遵循能力方面都明显优于未使用的模型。下图（原文 Figure 3a）展示了从预训练图像模型初始化空间层可显著提升性能。
  
  该图像是一个条形图，展示了在用户偏好方面，经过图像预训练和未经过图像预训练的模型在提示对齐、质量和综合评分上的比较。图中，蓝色条形代表经过图像预训练的模型，橙色条形代表未经过图像预训练的模型。总体来看，经过图像预训练的模型在各项指标上均表现出更高的用户偏好。

4.2.3. 阶段 II: 策划视频预训练数据集 (Stage II: Curating a Video Pretraining Dataset)

系统性视频数据整理方法：
- 核心思想： 由于视频领域缺乏像 CLIP 那样强大的现成表示来直接过滤掉不良示例，本文依赖人类偏好作为信号来创建合适的预训练数据集。
- 具体过程：
  - 对于 4.2.1 节中介绍的每种标注类型（CLIP 分数、美学分数、OCR 检测率、合成字幕、光流分数），从一个未过滤的、随机抽样的 9.8M 大小的 LVD 子集（称为 LVD-10M）开始。
  - 系统性地移除底部 12.5%、25% 和 50% 的示例（对于合成字幕，则评估不同字幕方法的 Elo 排名）。
  - 在每个过滤后的子集上，使用相同的训练超参数训练视频模型，并通过人类偏好投票的 Elo 排名 [21] 来比较模型性能。
  - 根据投票结果，为每种标注类型选择表现最佳的过滤阈值。
- 结果： 将这种过滤方法应用于整个 LVD，得到一个包含 1.52 亿 (152M) 训练示例的最终预训练数据集，称为 LVD-F。
策划训练数据提升性能：
- 实验设计： 将上述过滤策略应用于 LVD-10M，得到一个缩小四倍的子集 LVD-10M-F。训练一个使用标准架构和训练计划的基线模型，并将其与在未整理的 LVD-10M 上训练的模型进行比较，评估视觉质量和提示-视频对齐的用户偏好得分。
- 结果： 在图 3b 中，可以看到过滤的好处：在视觉质量和提示-视频对齐两个类别中，人类更偏好在小得多的 LVD-10M-F 上训练的模型。下图（原文 Figure 3b）展示了视频数据整理在视频预训练后可提升性能。
  
  该图像是一个图表，展示了 LVD-10M-F 和 LVD-10M 在不同用户偏好维度（提示对齐、质量和聚合）的表现对比。图中显示，LVD-10M-F 在提示对齐和质量上的用户偏好略高于 LVD-10M，而聚合得分相近。
- 与现有数据集比较： 将在 LVD-10M-F 上训练的模型与在 WebVid-10M [7]（最受认可的许可研究数据集）和 InternVid-10M [100]（专门为高美学质量筛选的数据集）上训练的类似视频模型进行比较。尽管 LVD-10M-F 的规模也小四倍，但人类评估者更偏爱其在时空质量和提示对齐方面的表现。下图（原文 Figure 4b）展示了 LVD-10M-F 与 WebVid-10M 的用户偏好比较。
  
  该图像是图表，显示了用户对不同视频生成模型的偏好评估。图中包含五个子图：图(a)比较了LVD-10M-F和WebVid的用户偏好；图(b)比较了LVD-10M-F和InternVid的用户偏好；图(c)展示了在50M样本规模下的用户偏好；图(d)分析了在不同数据集规模下的用户偏好；图(e)显示了在第三阶段中，随着时间推移，基于图像、未经处理和经过处理的数据的相对ELO进展情况。
数据整理在大规模数据集上依然有效：
- 实验设计： 重复上述实验，但在更大规模的、更具实际相关性的数据集上进行，训练一个包含 50M 示例的过滤子集和一个相同大小的未整理子集上的视频扩散模型。
- 结果： 图 4c 显示，数据整理的优势在处理更大规模数据时依然存在。下图（原文 Figure 4c）展示了 50M 样本规模下的用户偏好比较。
  
  该图像是图表，显示了用户对不同视频生成模型的偏好评估。图中包含五个子图：图(a)比较了LVD-10M-F和WebVid的用户偏好；图(b)比较了LVD-10M-F和InternVid的用户偏好；图(c)展示了在50M样本规模下的用户偏好；图(d)分析了在不同数据集规模下的用户偏好；图(e)显示了在第三阶段中，随着时间推移，基于图像、未经处理和经过处理的数据的相对ELO进展情况。
数据集大小的重要性：
- 实验设计： 比较在 50M 整理样本上训练的模型与在 LVD-10M-F 上训练的模型。
- 结果： 图 4d 显示，在相同训练步数下，在 50M 整理样本上训练的模型优于在 LVD-10M-F 上训练的模型，表明数据集规模在整理数据训练中也是一个关键因素。下图（原文 Figure 4d）展示了在不同数据集规模下的用户偏好比较。
  
  该图像是图表，显示了用户对不同视频生成模型的偏好评估。图中包含五个子图：图(a)比较了LVD-10M-F和WebVid的用户偏好；图(b)比较了LVD-10M-F和InternVid的用户偏好；图(c)展示了在50M样本规模下的用户偏好；图(d)分析了在不同数据集规模下的用户偏好；图(e)显示了在第三阶段中，随着时间推移，基于图像、未经处理和经过处理的数据的相对ELO进展情况。

4.2.4. 阶段 III: 高质量微调 (Stage III: High-Quality Finetuning)

目的与策略：
- 在视频预训练阶段之后，本文主要关注如何通过视频微调来优化最终性能。
- 借鉴潜在图像扩散建模 [13, 64] 的训练技术，提高训练示例的分辨率。
- 使用一个较小但包含 250K 个高质量、已标注视频片段的微调数据集。
影响分析：
- 为了分析视频预训练对最终阶段的影响，微调了三个相同的模型，它们仅在初始化方式上不同：
  - 模型 1 (图像模型初始化)： 权重用预训练的图像模型初始化，跳过视频预训练。这是许多近期视频建模方法的常见选择 [9, 82]。
  - 模型 2 (未整理视频预训练初始化)： 权重用在未整理视频片段（50M 样本）上预训练的潜在视频模型初始化。
  - 模型 3 (整理视频预训练初始化)： 权重用在整理视频片段（50M 样本）上预训练的潜在视频模型初始化。
- 训练： 所有模型都微调 50K 步。在微调早期（10K 步）和结束时评估人类偏好排名，以衡量性能差异如何随微调过程演变。
- 结果： 图 4e 显示，微调从整理预训练权重初始化的模型始终比从图像模型初始化或从未整理视频预训练初始化的模型排名更高。下图（原文 Figure 4e）展示了在第三阶段中，随着时间推移，基于图像、未经处理和经过处理的数据的相对 Elo 进展情况。
  
  该图像是图表，显示了用户对不同视频生成模型的偏好评估。图中包含五个子图：图(a)比较了LVD-10M-F和WebVid的用户偏好；图(b)比较了LVD-10M-F和InternVid的用户偏好；图(c)展示了在50M样本规模下的用户偏好；图(d)分析了在不同数据集规模下的用户偏好；图(e)显示了在第三阶段中，随着时间推移，基于图像、未经处理和经过处理的数据的相对ELO进展情况。
结论：
- 将视频模型训练分为视频预训练和视频微调对最终模型性能是有益的。
- 视频预训练应理想地在大型、整理过的数据集上进行，因为预训练后的性能差异在微调后仍然保持。

4.2.5. 训练视频模型的规模化实现 (Training Video Models at Scale)

基础模型 (Pretrained Base Model)：
- 噪声调度 (Noise Schedule) 调整： SD 2.1 的噪声调度在最高噪声水平时信噪比 (SNR) 仍然较高，这在处理高分辨率图像时可能导致问题。本文采用 Karras et al. [51] 提出的网络预处理，并调整了噪声调度，使其更倾向于高噪声值，这对于高分辨率微调至关重要。
- 预处理函数： SD 2.1 使用以下预处理函数： $\begin{array} { r l } & { c _ { \mathrm { skip } } ^ { \mathrm { SD2.1 } } ( \sigma ) = 1 , } \\ & { c _ { \mathrm { out } } ^ { \mathrm { SD2.1 } } ( \sigma ) = - \sigma , } \\ & { c _ { \mathrm { in } } ^ { \mathrm { SD2.1 } } ( \sigma ) = \cfrac { 1 } { \sqrt { \sigma ^ { 2 } + 1 } } , } \\ & { c _ { \mathrm { noise } } ^ { \mathrm { SD2.1 } } ( \sigma ) = \underset { j \in [ 1000 ] } { \mathrm { arg } } ( \sigma - \sigma _ { j } ) , } \end{array}$ 符号解释： $\sigma$ 是噪声水平， $\sigma_j$ 是离散噪声水平集合中的第 $j$ 个值。 $c_{\mathrm{skip}}, c_{\mathrm{out}}, c_{\mathrm{in}}, c_{\mathrm{noise}}$ 是预处理函数，用于调整模型的输入和输出。
- 修改后的预处理函数： 本文将其替换为： $\begin{array} { r } { c _ { \mathrm { skip } } ( \sigma ) = \left( \sigma ^ { 2 } + 1 \right) ^ { - 1 } , } \\ { c _ { \mathrm { out } } ( \sigma ) = \frac { - \sigma } { \sqrt { \sigma ^ { 2 } + 1 } } , } \\ { c _ { \mathrm { in } } ( \sigma ) = \cfrac { 1 } { \sqrt { \sigma ^ { 2 } + 1 } } , } \\ { \ c _ { \mathrm { noise } } ( \sigma ) = 0.25 \log \sigma , } \end{array}$ 符号解释： 这里设定 $\sigma_{\mathrm{data}} = 1$ 。噪声水平 $\log \sigma$ 服从正态分布 $\mathcal{N}(P_{\mathrm{mean}}, P_{\mathrm{std}}^2)$ ，权重函数 $\lambda(\sigma) = (1 + \sigma^2)\sigma^{-2}$ 。在图像模型微调阶段，设置 $P_{\mathrm{mean}} = -1.2$ 和 $P_{\mathrm{std}} = 1$ 。
- 训练步骤：
  1. 图像模型微调： 使用新的预处理函数对 SD 2.1 的 $F_{\theta}$ 进行 31k 迭代微调。前 1k 迭代冻结除时间嵌入层外的所有参数，在 $512 \times 512$ 分辨率上训练。之后，所有层在 $256 \times 384$ 分辨率上再训练 30k 迭代。
  2. 视频预训练： 在图像骨干模型中插入时间层，然后在 LVD-F 数据集上以 $256 \times 384$ 分辨率训练 14 帧视频 150k 迭代（使用 AdamW [59]，学习率 $10^{-4}$ ，批大小 1536）。使用分类器自由引导 [36]，以 15% 的概率丢弃文本条件。
  3. 高分辨率视频预训练： 将空间分辨率提高到 $320 \times 576$ ，再训练 100k 迭代。在此阶段，将噪声分布参数 $P_{\mathrm{mean}}$ 增加到 0，进一步调整噪声调度以适应更高分辨率。
- 基础模型能力： 训练出的基础模型学习到了强大的运动表征，在 UCF-101 [88] 零样本文生视频生成任务中显著优于所有基线模型。
高分辨率文生视频模型 (High-Resolution Text-to-Video Model)：
- 在高质量视频数据集（约 1M 样本，包含大量物体运动、稳定相机运动和良好对齐字幕）上微调基础文生视频模型。
- 训练设置： 50k 迭代，分辨率 $576 \times 1024$ ，批大小 768，学习率 $3 \times 10^{-5}$ 。再次调整噪声调度，设置 $P_{\mathrm{mean}} = 0.5$ 和 $P_{\mathrm{std}} = 1.4$ 。
高分辨率图生视频模型 (High Resolution Image-to-Video Model)：
- 条件设置： 将文本嵌入替换为条件图像的 CLIP 图像嵌入。将噪声增强 [39] 版本的条件帧按通道维度与 UNet [73] 的输入拼接。不使用任何遮罩技术，直接沿时间轴复制帧。
- 训练设置：
  1. 在基础分辨率 ( $320 \times 576$ ) 上微调基础模型 50k 迭代（批大小 768，学习率 $3 \times 10^{-5}$ ）。鉴于条件信号非常强，将噪声分布进一步调整为 $P_{\mathrm{mean}} = 0.7$ 和 $P_{\mathrm{std}} = 1.6$ 。
  2. 在高质量数据集（约 1M 样本）上以 $576 \times 1024$ 分辨率微调两个版本：一个生成 14 帧，一个生成 25 帧。两个模型都训练 50k 迭代，学习率 $3 \times 10^{-5}$ ，设置 $P_{\mathrm{mean}} = 1.0$ 和 $P_{\mathrm{std}} = 1.6$ 。
- 线性增加引导 (Linearly Increasing Guidance)： 发现标准的分类器自由引导可能导致伪影（引导不足导致与条件帧不一致，引导过强导致过饱和）。解决方案是沿帧轴线性增加引导尺度（从小到大）。下图（原文 Figure 15）展示了我们新型线性增加引导技术的 PyTorch 代码。
  
  该图像是图表，展示了一个名为 LinearPredictionGuider 的类的 PyTorch 代码实现。该代码包含方法 append_dims 和 call，用于调整张量维度和进行线性预测。该方法强调了输入张量的维度与目标维度之间的关系。
相机运动 LoRA (Camera Motion LoRA)：
- 为了实现图生视频生成中的受控相机运动，在模型的时间注意力块 (temporal attention blocks) 中训练了多种相机运动 LoRA 模块 [32]。
- 训练设置： 在具有丰富相机运动元数据的小型数据集上训练这些额外的参数。具体使用了相机运动分类为“水平移动 (horizontally moving)”、“缩放 (zooming)”和“静态 (static)”的三个子集。下图（原文 Figure 7）展示了将三种相机运动 LoRA（横向、缩放、静态）应用于相同的条件帧的效果。
  
  该图像是插图，展示了应用于同一条件帧的三种相机运动 LoRA（横向、缩放、静态）的效果。每种 LoRA 产生的图像展现了不同的运动效果，突出显示了模型在生成高质量视频时的灵活性和适应性。
帧插值 (Frame Interpolation)：
- 将高分辨率文生视频模型微调为帧插值模型，以获得高帧率的流畅视频。
- 遵循 Blattmann et al. [9] 的方法，通过遮罩 (masking) 将左右帧拼接作为 UNet 的输入。模型学习预测两个条件帧之间的三帧，从而将帧率提高四倍。
- 训练设置： 在高质量数据集上以 $576 \times 1024$ 空间分辨率训练。使用 AdamW [59]，学习率 $10^{-4}$ ，指数移动平均衰减率 0.9999。噪声调度设置为 $P_{\mathrm{mean}} = 1$ 和 $P_{\mathrm{std}} = 1.2$ 。令人惊讶的是，即使只进行少量迭代（约 10k）也能获得很好的模型。
多视角生成 (Multi-View Generation)：
- 为了同时获得对象的多个新视图，在多视角数据集 [14, 15, 111] 上微调图生视频 SVD 模型。
- 数据集：
  - Objaverse [15] 子集： 包含 150K 个整理过的、CC 许可的合成 3D 对象。每个对象渲染 21 帧的 $360^\circ$ 轨道视频，包含随机采样的 HDRI 环境贴图和 $[ -5^\circ, 30^\circ ]$ 的仰角。
  - MVImgNet [111]： 包含约 200K 训练视频和 900 个测试视频，是随意捕获的普通家用物品的多视角视频。
- 模型： 微调后的多视角模型称为 SVD-MV。
- 训练设置： 训练 12k 迭代（约 16 小时），使用 8 个 80GB A100 GPU，总批大小 16，学习率 $1 \times 10^{-5}$ 。Objaverse 训练的模型还会以输入图像的仰角为条件，并输出该仰角的轨道视频。

5. 实验设置

5.1. 数据集

本文使用了多个数据集进行不同阶段的训练和评估：

Large Video Dataset (LVD)：
- 来源与特点： 这是本文最初收集并进行处理的原始视频集合，旨在作为视频预训练的基础数据。
- 规模： 包含 5.8 亿 (580M) 个标注过的视频片段对，总时长达 212 年。
- 用途： 经过切片检测、多模态字幕生成后，形成初始的大规模未整理数据集。
LVD-F (LVD-Filtered)：
- 来源与特点： 经过本文提出的系统性数据整理流程（包括光流过滤、OCR 过滤、CLIP 嵌入美学和相似度过滤）后得到的 LVD 子集。
- 规模： 包含 1.52 亿 (152M) 个训练示例。
- 用途： 作为主要视频预训练阶段的数据集，用于训练强大的基础模型。
LVD-10M 和 LVD-10M-F：
- 来源与特点： LVD-10M 是 LVD 中一个随机抽样的 9.8M 大小的子集。LVD-10M-F 是将 LVD-10M 经过相同的过滤策略处理后得到的子集，规模约 2.3M。
- 用途： 主要用于数据整理策略的消融研究，以评估不同过滤方法对模型性能的影响。通过比较在 LVD-10M 和 LVD-10M-F 上训练的模型，验证数据整理的有效性。
高质量微调数据集：
- 来源与特点： 一个较小但包含约 250K 个高质量、已标注视频片段的数据集。这些样本具有高视觉保真度，通常包含丰富的物体运动、稳定的相机运动和良好对齐的字幕。
- 用途： 用于阶段 III 的高质量微调，将预训练模型提升到更高的分辨率和视觉质量。
UCF-101 [88]：
- 来源与特点： 一个行为识别数据集，包含 13,320 个视频片段，分为 101 个人类行为类别。视频帧率 25 FPS，分辨率 $240 \times 320$ 。
- 用途： 用于评估基础模型在零样本文生视频生成任务上的性能，使用 FVD (Fréchet Video Distance) 作为评估指标。
Objaverse [15] 子集：
- 来源与特点： 包含 150K 个整理过的、CC 许可的合成 3D 对象。每个对象渲染 21 帧的 $360^\circ$ 轨道视频，随机采样 HDRI 环境贴图，仰角在 $[ -5^\circ, 30^\circ ]$ 之间。
- 用途： 用于微调 SVD 模型进行多视角生成，尤其是生成 $360^\circ$ 轨道视图。
MVImgNet [111]：
- 来源与特点： 包含约 200K 训练视频和 900 个测试视频，是随意捕获的普通家用物品的多视角视频。
- 用途： 同样用于微调 SVD 模型进行多视角生成，但通常不以姿态为条件，模型可以生成任意相机路径。
Google Scanned Objects (GSO) [20]：
- 来源与特点： 一个高品质的 3D 扫描家用物品数据集，包含 50 个未见的测试对象。
- 用途： 用于评估多视角生成模型的性能。

5.1.1. 数据集示例

由于原文未提供数据集中的具体样本图像或视频片段，我们从其描述中理解数据形态：

LVD/LVD-F： 大规模的视频片段，涵盖各种日常场景、活动和对象，可能包含不同程度的运动、亮度、清晰度等。经过过滤后，保留了更高运动、更少文本、更高美学质量的片段。
高质量微调数据集： 视觉质量高，字幕与内容对齐好，物体和相机运动稳定。
UCF-101： 包含各种人类动作（如跳舞、打球、游泳）的短视频。
Objaverse 子集： 渲染的 3D 物体（如玩具、家具）的 $360^\circ$ 旋转视频。
MVImgNet： 手机或手持设备拍摄的日常物品（如杯子、遥控器）的多视角视频。

5.2. 评估指标

5.2.1. 人类偏好研究 (Human Preference Study)

概念定义： 人类偏好研究是一种主观评估方法，通过收集大量人类评估员对不同模型生成结果的对比反馈，来量化模型的感知质量和对用户意图（如文本提示）的遵循程度。它通常被认为是生成模型，特别是视频生成模型，最可靠的评估方式之一，因为它直接反映了用户体验。
数学公式 (Elo 评分)： 本文使用 Elo 评分 [21] 来量化人类偏好。Elo 评分系统最初用于衡量国际象棋选手的相对技能水平。在每次“比赛”中（即两位评估员比较两个模型），胜者的评分增加，败者的评分减少。对于两位选手 $R_1$ 和 $R_2$ (代表两个模型的当前 Elo 评分)，其预期获胜概率分别为： $E_1 = \frac{1}{1 + 10^{\frac{R_2 - R_1}{400}}}$ $E_2 = \frac{1}{1 + 10^{\frac{R_1 - R_2}{400}}}$ 观察到比赛结果后，选手的评分 $R_i$ 通过以下规则更新： $R_i' = R_i + K \cdot (S_i - E_i)$
符号解释：
- $R_1, R_2$ : 两个被比较模型的当前 Elo 评分。
- $E_1, E_2$ : 模型 1 和模型 2 预期获胜的概率。
- $R_i'$ : 模型 $i$ 更新后的 Elo 评分。
- $K$ : 一个权重常数，通常用于强调近期比赛的重要性。本文选择 $K=1$ 。
- $S_i$ : 模型 $i$ 在比赛中的实际得分。如果模型 $i$ 获胜， $S_i = 1$ ；如果失败， $S_i = 0$ 。如果打平，则 $S_i = 0.5$ (本文中未提及平局处理)。
- 初始时，所有模型的评分 $R_{\mathrm{init}} = 1000$ 。下图（原文 Figure 20）展示了评估视觉质量的样本指令。
  
  该图像是一个比较视频质量的示意图，左侧展示了一杯啤酒的清晰图像，右侧为另一杯啤酒在倒入时的模糊图像。图中的讨论围绕哪个视频看起来更真实和高质量，具有更清晰的物体和场景，无不必要的伪影和良好的运动表现。
下图（原文 Figure 21）展示了评估视频提示遵循度的样本指令。

该图像是插图，展示了两个视频帧，左侧是一个狮子在海浪中走动，右侧是一个狮子站在冲浪板上，漂浮在海面上。上方有提示文本“一个狮子站在海洋中的冲浪板上”，询问哪个视频更能代表这一描述。整个图像旨在进行视频生成内容的比较和评估。

5.2.2. FVD (Fréchet Video Distance)

概念定义： FVD (Fréchet Video Distance) 是一种用于评估生成视频质量的客观指标。它通过计算真实视频分布和生成视频分布之间的 Fréchet 距离来量化它们的相似性。FVD 通常将视频视为特征向量序列，并提取这些序列的统计量（如均值和协方差），然后计算它们之间的距离。FVD 值越低，表示生成视频的质量和多样性越接近真实视频，通常被认为是比 FID (Fréchet Inception Distance) 更适用于视频的指标。
数学公式： FVD 的计算基于两个多变量高斯分布的均值和协方差矩阵。假设真实视频特征的分布由 $\mathcal{N}(\mu_1, \Sigma_1)$ 表示，生成视频特征的分布由 $\mathcal{N}(\mu_2, \Sigma_2)$ 表示。FVD 的公式为： $\mathrm{FVD} = ||\mu_1 - \mu_2||^2 + \mathrm{Tr}(\Sigma_1 + \Sigma_2 - 2(\Sigma_1 \Sigma_2)^{1/2})$
符号解释：
- $\mu_1$ : 真实视频特征分布的均值向量。
- $\mu_2$ : 生成视频特征分布的均值向量。
- $\Sigma_1$ : 真实视频特征分布的协方差矩阵。
- $\Sigma_2$ : 生成视频特征分布的协方差矩阵。
- $||\cdot||^2$ : $L_2$ 范数的平方。
- $\mathrm{Tr}(\cdot)$ : 矩阵的迹。
- $(\Sigma_1 \Sigma_2)^{1/2}$ : 矩阵乘积的平方根（通常指主平方根或正定平方根）。

5.2.3. PSNR (Peak Signal-to-Noise Ratio)

概念定义： PSNR (Peak Signal-to-Noise Ratio) 是一种常用的客观图像质量评估指标，用于衡量图像或视频重建的失真程度。它通过计算原始图像与重建图像之间均方误差 (MSE) 的对数来表示。PSNR 值越高，表示重建图像与原始图像的相似度越高，失真越小，质量越好。
数学公式： $\mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right)$ 其中，MSE (Mean Squared Error) 的计算公式为： $\mathrm{MSE} = \frac{1}{MN} \sum_{i=0}^{M-1}\sum_{j=0}^{N-1} [I(i,j) - K(i,j)]^2$
符号解释：
- $\mathrm{MAX}_I$ : 图像中像素可能的最大值。对于 8 位图像，通常为 255。
- $\mathrm{MSE}$ : 原始图像 $I$ 和重建图像 $K$ 之间像素值的均方误差。
- M, N: 图像的宽度和高度。
- I(i,j): 原始图像在坐标 (i,j) 处的像素值。
- K(i,j): 重建图像在坐标 (i,j) 处的像素值。

5.2.4. LPIPS (Learned Perceptual Image Patch Similarity)

概念定义： LPIPS (Learned Perceptual Image Patch Similarity) 是一种基于深度学习的图像感知相似度指标。与传统的 PSNR 或 SSIM 不同，LPIPS 旨在更好地模拟人类的感知系统。它通过比较两张图像在预训练深度网络（如 VGG、AlexNet）中间层提取的特征向量之间的距离来评估它们的相似性。LPIPS 值越低，表示两张图像在人类感知上越相似。
数学公式： LPIPS 的计算通常涉及将图像通过一个预训练的特征提取器 $\phi$ ，然后在不同层级 $l$ 比较特征差异，并加权求和： $\mathrm{LPIPS}(\mathbf{x}, \mathbf{x}_0) = \sum_l \frac{1}{H_l W_l} ||\mathbf{w}_l \odot (\phi_l(\mathbf{x}) - \phi_l(\mathbf{x}_0))||_2^2$
符号解释：
- $\mathbf{x}$ : 原始图像（或参考图像）。
- $\mathbf{x}_0$ : 生成图像（或待比较图像）。
- $l$ : 深度网络中的层索引。
- $\phi_l(\cdot)$ : 深度网络在第 $l$ 层提取的特征图。
- $H_l, W_l$ : 第 $l$ 层特征图的高度和宽度。
- $\mathbf{w}_l$ : 每层特征的权重向量，通常通过线性回归从人类判断数据中学习得到。
- $\odot$ : 元素乘法（哈达玛积）。
- $||\cdot||_2^2$ : $L_2$ 范数的平方。

5.2.5. CLIP Similarity Scores (CLIP-S)

概念定义： CLIP Similarity Scores (CLIP-S) 衡量的是两个图像（或一个图像与一个文本描述）在 CLIP (Contrastive Language-Image Pre-training) 模型嵌入空间中的语义相似度。CLIP 模型通过对比学习在大量图像-文本对上进行训练，能够将图像和文本映射到同一个嵌入空间。通过计算两个嵌入向量之间的余弦相似度，可以量化它们在语义上的相关性。在多视角生成中，通常用于评估生成视图与地面真值视图之间的语义一致性。CLIP-S 值越高，表示语义相似度越高。
数学公式： 对于两个图像（或图像特征向量） $V_{I_1}$ 和 $V_{I_2}$ ，它们在 CLIP 嵌入空间中的余弦相似度计算为： $\mathrm{CLIP-S}(I_1, I_2) = \frac{V_{I_1} \cdot V_{I_2}}{||V_{I_1}|| \cdot ||V_{I_2}||}$
符号解释：
- $V_{I_1}$ : 图像 $I_1$ 经过 CLIP 图像编码器提取的特征向量。
- $V_{I_2}$ : 图像 $I_2$ 经过 CLIP 图像编码器提取的特征向量。
- $\cdot$ : 向量点积。
- $||\cdot||$ : 向量的 $L_2$ 范数。

5.3. 对比基线

论文将自己的方法与以下基线模型进行了比较：

视频生成任务 (UCF-101 FVD)：
- CogVideo (ZH) [43]：一个基于 Transformer 的大规模预训练文生视频模型。
- CogVideo (EN) [43]：CogVideo 的英文版本。
- Make-A-Video [82]：一个无需文生视频数据即可实现文生视频生成的方法。
- Video LDM [9]：一个基于潜在扩散模型的高分辨率视频合成方法。
- MagicVideo [115]：一个利用潜在扩散模型进行高效视频生成的方法。
- PYOCO [29]：一个用于视频扩散模型的噪声先验方法。
- 代表性： 这些模型是当前文生视频领域最先进或具有代表性的扩散模型或 Transformer 基模型，涵盖了不同的架构和训练策略，用于衡量 SVD 基础模型在客观指标上的竞争力。
图生视频任务 (人类评估)：
- GEN-2 [74] (RunwayML)：一个闭源的最先进的视频生成模型，提供图生视频功能。
- PikaLabs [54]：另一个闭源的最先进的视频生成平台，也提供图生视频功能。
- 代表性： 均为业界领先的闭源商业化视频生成工具，其性能代表了当前可用的最佳用户体验，用于通过人类偏好研究评估 SVD 在感知质量上的竞争力。
多视角生成任务 (客观指标和人类评估)：
- Zero123 [57]：一个零样本图像到 3D 对象生成模型。
- Zero123XL [14, 57]：Zero123 的扩展版本，用于生成更多 3D 对象。
- SyncDreamer [58]：一个从单视图图像生成多视图一致图像的模型。
- SD2.1-MV (Image-Prior)：从图像先验 (Stable Diffusion 2.1) 微调的多视角模型，用于与 SVD-MV 对比，验证视频先验的重要性。
- Scratch-MV (No-Prior)：从随机初始化训练的多视角模型，用于与 SVD-MV 对比，验证有无先验的影响。
- 代表性： Zero123 和 SyncDreamer 是多视角生成领域的最新技术，用于衡量 SVD-MV 在 3D 理解和多视角一致性上的表现。SD2.1-MV 和 Scratch-MV 作为消融基线，用于验证 SVD 模型中视频先验的特定贡献。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 阶段 I: 图像预训练的重要性

下图（原文 Figure 3a）展示了图像预训练对视频预训练性能的影响。

该图像是一个条形图，展示了在用户偏好方面，经过图像预训练和未经过图像预训练的模型在提示对齐、质量和综合评分上的比较。图中，蓝色条形代表经过图像预训练的模型，橙色条形代表未经过图像预训练的模型。总体来看，经过图像预训练的模型在各项指标上均表现出更高的用户偏好。

结果： 图 3a 显示，用预训练图像模型（如 Stable Diffusion 2.1）初始化空间层 (spatial layers) 的视频模型，在视觉质量和提示词遵循度方面，均明显优于使用随机初始化空间权重的模型。
分析： 这验证了图像预训练作为视频生成流水线第一阶段的重要性。它为模型提供了强大的视觉表征基础，使其能够更好地理解图像内容，从而在视频生成中产生更高质量的帧并更好地响应文本提示。

6.1.2. 阶段 II: 视频数据整理的有效性

下图（原文 Figure 3b）强调了数据整理对预训练的重要性。

该图像是一个图表，展示了 LVD-10M-F 和 LVD-10M 在不同用户偏好维度（提示对齐、质量和聚合）的表现对比。图中显示，LVD-10M-F 在提示对齐和质量上的用户偏好略高于 LVD-10M，而聚合得分相近。

结果： 图 3b 展示了在 LVD-10M-F（整理过的 10M 子集）上训练的模型，在人类偏好评估中，视觉质量和提示词遵循度均优于在未整理的 LVD-10M 上训练的模型。
分析： 这强有力地证明了数据整理的有效性。通过过滤掉低质量、静态或包含过多文本的视频片段，模型能够从更纯净、更相关的运动数据中学习，从而提升其生成能力。

下图（原文 Figure 4）进一步展示了数据整理的广泛影响。

该图像是图表，显示了用户对不同视频生成模型的偏好评估。图中包含五个子图：图(a)比较了LVD-10M-F和WebVid的用户偏好；图(b)比较了LVD-10M-F和InternVid的用户偏好；图(c)展示了在50M样本规模下的用户偏好；图(d)分析了在不同数据集规模下的用户偏好；图(e)显示了在第三阶段中，随着时间推移，基于图像、未经处理和经过处理的数据的相对ELO进展情况。
结果：
- 图 4b (未展示，但原文有提及) 显示，与 WebVid-10M 和 InternVid-10M 相比，尽管 LVD-10M-F 规模更小，但其训练的模型在人类评估中仍然更受欢迎。
- 图 4c 表明，数据整理的优势在更大规模的数据集（50M 样本）上依然存在，整理后的 50M 数据集训练的模型优于未整理的同规模数据集。
- 图 4d 强调了数据集规模的重要性，在 50M 整理样本上训练的模型优于在 LVD-10M-F 上训练的模型，即使训练步数相同。
分析： 这些结果共同强调了数据整理的普适性和规模效应。整理策略不仅对小规模数据集有效，对大规模数据集同样具有提升作用，并且在数据质量得到保证的前提下，数据集规模的增加仍能带来性能提升。这为大规模视频生成模型的训练指明了方向。

6.1.3. 阶段 III: 高质量微调与预训练优势的持久性

下图（原文 Figure 4e）展示了在第三阶段中，基于图像、未经处理和经过处理的数据的相对 Elo 进展情况。

该图像是图表，显示了用户对不同视频生成模型的偏好评估。图中包含五个子图：图(a)比较了LVD-10M-F和WebVid的用户偏好；图(b)比较了LVD-10M-F和InternVid的用户偏好；图(c)展示了在50M样本规模下的用户偏好；图(d)分析了在不同数据集规模下的用户偏好；图(e)显示了在第三阶段中，随着时间推移，基于图像、未经处理和经过处理的数据的相对ELO进展情况。

结果： 图 4e 显示，在高质量微调阶段，从整理过的视频预训练权重初始化的模型（“Curated”曲线）始终比从图像模型初始化（“Image-Only”曲线）或从未整理视频预训练初始化（“Uncurated”曲线）的模型获得更高的 Elo 评分提升。
分析： 这表明，**数据整理带来的优势并非短暂的，而是贯穿整个训练过程并持续到最终的高质量微调阶段。**视频预训练和高质量微调的分离是有效的，且预训练阶段在高质量、整理过的数据集上进行至关重要。

6.1.4. 基础模型的性能：UCF-101 FVD

以下是原文 Table 2 的结果，比较了我们的基础模型与基线模型在 UCF-101 零样本文生视频生成任务上的性能。

Method	FVD (↓)
CogVideo (ZH) [43]	751.34
CogVideo (EN) [43]	701.59
Make-A-Video [82]	367.23
Video LDM [9]	550.61
MagicVideo [115]	655.00
PYOCO [29]	355.20
SVD (ours)	242.02

结果： 我们的 SVD 基础模型在 UCF-101 数据集上的 FVD 得分为 242.02，显著低于所有基线模型，包括 Make-A-Video (367.23) 和 PYOCO (355.20) 等最先进的方法。
分析： FVD 越低表示生成视频的质量和多样性越好。这一结果客观地证明了 SVD 基础模型学到了强大的运动表征，能够生成更真实、更多样化的视频，即使是在零样本设置下。这为后续的高分辨率微调和下游任务提供了坚实的基础。

6.1.5. 高分辨率文生视频和图生视频

下图（原文 Figure 5）展示了分辨率 $576 \times 1024$ 的样本。

该图像是多张通过稳定视频扩散模型生成的高分辨率图像展示，涵盖了不同场景和主题，包括宇航员、火车、人物和鸟类，展示出该模型在文本到视频和图像到视频生成上的能力。

结果： 图 5 (顶行) 展示了图生视频样本 (以最左侧帧为条件)，底部展示了文生视频样本。这些高质量的样本证明了 SVD 模型在生成高分辨率、视觉逼真且符合提示的视频方面的能力。下图（原文 Figure 6）展示了我们的 25 帧图生视频模型在人类评估中优于 GEN-2 和 PikaLabs。

该图像是一个条形图，展示了不同视频生成模型（Ours vs Pika 和 Ours vs Gen2）在用户偏好上的比较。蓝色条表示我们的模型，橙色条代表基线模型。用户偏好值在0到0.7之间，结果显示我们的模型在这两个比较中都有明显的优势。
结果： 图 6 的人类偏好研究结果显示，SVD 的 25 帧图生视频模型在视觉质量方面优于闭源的最先进模型 GEN-2 和 PikaLabs。
分析： 这表明 SVD 不仅在客观指标上表现出色，在主观感知质量上也能与顶尖商业产品竞争，甚至超越。线性增加引导策略以及精心策划的高质量微调数据集对此贡献巨大。

6.1.6. 相机运动 LoRA

下图（原文 Figure 7）展示了将三种相机运动 LoRA（横向、缩放、静态）应用于相同的条件帧的效果。

Figure 7. Applying three camera motion LoRAs (horizontal, zooming, static) to the same conditioning frame (on the left). 该图像是插图，展示了应用于同一条件帧的三种相机运动 LoRA（横向、缩放、静态）的效果。每种 LoRA 产生的图像展现了不同的运动效果，突出显示了模型在生成高质量视频时的灵活性和适应性。

结果： 图 7 展示了对同一条件帧应用“水平移动”、“缩放”和“静态”三种相机运动 LoRA 后生成的效果。模型成功地在保持内容一致性的同时，实现了不同的相机运动轨迹。
分析： 这证明了 SVD 基础模型提供了强大的运动表示，并且可以通过轻量级的 LoRA 模块进行高效微调，以实现细粒度的、可控的相机运动，而无需重新训练整个大型模型。这为视频创作提供了灵活的控制能力。

6.1.7. 多视角生成

下图（原文 Figure 8）展示了使用 SVD-MV 模型（即为多视角生成微调的 SVD）以及其他方法生成的 GSO 测试对象的多视角帧。

$Figure 8. Generated multi-view frames of a GSO test object using our SVD-MV model (i.e. SVD finetuned for Multi-View generation), SD2.1-MV \[72\], Scratch-MV, SyncDreamer \[58\], and Zero123XL \[14\].$ 该图像是多视角生成的示例，展示了一个GSO测试对象的不同视角帧。图中显示了SVD-MV模型（我们的模型）与其他生成模型SD2.1-MV、Scratch-MV、SyncDreamer和Zero123XL的对比结果。

结果： 图 8 定性地比较了 SVD-MV 与 SD2.1-MV、Scratch-MV、SyncDreamer 和 Zero123XL 在 GSO 测试对象上的多视角生成效果。SVD-MV 生成的帧在多视角一致性和真实感方面表现出色。下图（原文 Figure 9）展示了在 Google Scanned Objects (GSO) 测试数据集上的多视角生成指标，以及多视角生成模型训练进展。

该图像是图表，展示了在Google Scanned Objects (GSO)测试数据集上，SVD-MV与其他方法在LPIPS、PSNR和CLIP-S指标上的比较（图a），以及多视角生成模型在训练迭代过程中的进展（图b）。结果显示，SVD-MV在LPIPS和PSNR指标上优于其他方法，且训练过程中表现逐渐提升。
结果：
- 图 9a 显示，SVD-MV 在 GSO 测试数据集上的 LPIPS、PSNR 和 CLIP-S 指标上均优于图像先验 (SD2.1-MV) 和无先验 (Scratch-MV) 版本，也优于其他最先进的方法 Zero123XL 和 SyncDreamer。
- 图 9b 展示了训练过程中的收敛情况，SVD-MV 在仅 1k 迭代后就展现出比其图像先验和无先验对应物更好的 CLIP-S 和 PSNR 分数，并持续保持优势。
分析：
- 视频先验的优势： SVD-MV 显著优于 SD2.1-MV 和 Scratch-MV，这明确证明了 SVD 模型学习到的视频先验对于多视角生成至关重要。视频模型天然地包含了时间一致性和对象在不同视角下外观变化的知识，这在生成多视图时转化为强大的 3D 一致性。
- 计算效率： SVD-MV 在极短的训练时间（12k 迭代，16 小时）内取得了最先进的结果，相比之下，现有模型通常需要更长的训练时间（例如，SyncDreamer 在 Objaverse 上训练了四天）。这凸显了 SVD 作为强大 3D 先验的计算效率和价值，有助于克服 3D 领域数据稀缺和训练成本高昂的问题。

6.2. 数据呈现 (表格)

6.2.1. 数据集统计对比 (Table 1)

以下是原文 Table 1 的结果，对比了我们数据集在过滤前后与公开研究数据集的统计信息：

	LVD			LVD-F	LVD-10M	LVD-10M-F	WebVid	InternVid
#Clips	577M	152M	9.8M	2.3M	10.7M	234M
Clip Duration (s)	11.58	10.53	12.11	10.99	18.0	11.7
Total Duration (y)	212.09	50.64	3.76	0.78	5.94	86.80
Mean #Frames	325	301	335	320	-	-
Mean Clips/Video	11.09	4.76	1.2	1.1	1.0	32.96
Motion Annotations?	✓	✓	✓	✓	X	X

分析：
- 过滤效果： 从 LVD 到 LVD-F，视频片段数量从 577M 减少到 152M，总时长从 212.09 年减少到 50.64 年，表明过滤过程有效地去除了大量数据。然而，片段平均时长和平均帧数变化不大，说明过滤主要针对内容质量而非长度。
- 剪辑检测效果： LVD 的平均每视频片段数 (Mean Clips/Video) 为 11.09，远高于 WebVid (1.0) 和 LVD-10M-F (1.1)，这归因于本文的级联切片检测流水线识别出更多内部剪辑。InternVid 的每视频片段数较高 (32.96)，可能也得益于其数据处理。
- 运动标注： LVD 及其子集都带有运动标注，而 WebVid 和 InternVid 则没有。这体现了本文在数据处理上的独特优势，即通过光流等方式量化运动信息，并利用其进行过滤。

6.2.2. UCF-101 零样本文生视频生成 (Table 2)

以下是原文 Table 2 的结果，比较了我们的基础模型与基线模型在 UCF-101 零样本文生视频生成任务上的性能：

Method	FVD (↓)
CogVideo (ZH) [43]	751.34
CogVideo (EN) [43]	701.59
Make-A-Video [82]	367.23
Video LDM [9]	550.61
MagicVideo [115]	655.00
PYOCO [29]	355.20
SVD (ours)	242.02

分析：
- SVD 模型取得了最低的 FVD 分数 (242.02)，这表明其生成的视频在质量和与真实视频的分布相似度方面显著优于所有对比基线。
- 这强调了 SVD 基础模型在学习通用运动表征上的卓越能力，即使在没有针对 UCF-101 进行微调的零样本设置下，也能表现出优异的性能。

6.3. 消融实验/参数分析

本文进行了多项消融实验和参数分析，以验证不同组件和训练策略的有效性：

图像预训练的消融 (Section 3.2, Figure 3a)：
- 实验： 比较了在 10M LVD 子集上训练的两个视频模型：一个使用预训练图像模型（SD 2.1）初始化空间层，另一个使用随机初始化。
- 结果： 图像预训练模型在视觉质量和提示遵循度上均获得人类评估的更高偏好。
- 结论： 图像预训练为视频模型提供了强大的视觉基础，是视频生成流水线中不可或缺的第一阶段。
数据整理策略的消融 (Section 3.3, Figure 3b, 4c, 4d, Figure 22)：
- 实验：
  - 比较在 LVD-10M (未整理) 和 LVD-10M-F (整理) 上训练的模型。
  - 比较在 50M 未整理和 50M 整理样本上训练的模型。
  - 比较在不同规模整理数据集（LVD-10M-F vs 50M 整理）上训练的模型。
  - 对不同过滤策略（字幕、运动、美学、CLIP 相似度、OCR）的阈值进行校准 (Appendix E.2.2, Figure 22)，通过 Elo 排名选择最佳阈值。
- 结果： 整理过的数据集（无论大小）训练出的模型性能均优于未整理数据集。更大的整理数据集性能优于较小的整理数据集。最佳过滤阈值通过人类偏好评估确定。下图（原文 Figure 22）展示了不同策略对视频生成质量的影响，包括标题策略、运动阈值、美学阈值、CLIP得分阈值和文本检测阈值。
  
  该图像是一个图表，显示了不同策略对视频生成质量的影响，包括标题策略、运动阈值、美学阈值、CLIP得分阈值和文本检测阈值。各策略在不同评估标准下的Elo评分被展示，明确各方法在提示对齐、质量和聚合上的表现。
- 结论： 系统性的数据整理对于提升视频预训练性能至关重要，且其效果可以扩展到大规模数据集。数据集规模在数据质量得到保证的前提下，仍是影响性能的关键因素。
微调初始化策略的消融 (Section 3.4, Figure 4e)：
- 实验： 比较了三种不同初始化方式的模型在高质量微调阶段的性能：仅图像模型初始化、从未整理视频预训练初始化、从整理视频预训练初始化。
- 结果： 从整理视频预训练初始化的模型在整个微调过程中始终保持最优性能。
- 结论： 视频预训练和视频微调的分离是有效的，且预训练阶段的数据质量对最终微调性能具有持久影响。
噪声调度调整 (Section 4.1, Appendix D.2)：
- 实验： 调整了 Stable Diffusion 2.1 的预处理函数，并对噪声调度进行了改变，使其在训练高分辨率图像和视频时倾向于更高噪声值（ $P_{\mathrm{mean}}$ 增加）。
- 结果： 发现调整噪声调度对于高分辨率微调至关重要，证实了 Hoogeboom et al. [44] 对图像模型的发现。
- 结论： 适配噪声调度能够有效提升模型在不同分辨率下的训练稳定性和生成质量。
线性增加引导尺度 (Section 4.3, Appendix D.4.1)：
- 实验： 在图生视频生成中，提出并采用了沿帧轴线性增加分类器自由引导尺度 (guidance scale) 的策略，而非使用恒定尺度。
- 结果： 发现这种策略能够解决恒定引导尺度下可能出现的伪影（如与条件帧不一致或过饱和）。
- 结论： 动态调整引导尺度可以更好地平衡与条件帧的一致性和生成视频的视觉质量。
多视角生成中视频先验的消融 (Section 4.5, Figure 9)：
- 实验： 比较了 SVD-MV (视频先验)、SD2.1-MV (图像先验) 和 Scratch-MV (无先验) 三种模型在多视角生成任务上的性能。
- 结果： SVD-MV 显著优于其他两种模型，并在各项指标上表现最佳。
- 结论： SVD 模型中学习到的视频先验对于生成多视角一致且真实的 3D 对象视图至关重要，它天然包含了处理对象运动和多视角变化的知识。

6.4. 示例样本展示

论文中包含了大量高质量的生成样本，这些样本直观地展示了 SVD 在各种任务上的能力：

文生视频样本 (Figure 2, 5, 8, 9, 23)： 展示了从文本提示生成具有复杂场景、角色和动态（如兔子在奇幻景观中行走、芬奇在树枝上、火车在山边移动）的高分辨率视频。
图生视频样本 (Figure 5, 8, 9, 24)： 展示了从一张静态图像生成连贯视频的能力，如从静帧生成机器人 DJ、爆炸奶酪屋的动态。
相机运动 LoRA 样本 (Figure 7, 25)： 演示了通过 LoRA 模块对相机运动（水平移动、缩放、静态）的精确控制。
多视角生成样本 (Figure 3, 8, 10, 12, 13, 14, 26, 27, 28, 29, 30)： 展示了模型在生成不同 3D 对象（如城堡、吹风机、卡通向日葵）的多个一致视图方面的强大能力。

这些定性结果与量化指标和人类偏好研究结果相互印证，共同证明了 Stable Video Diffusion 的卓越性能。

7. 总结与思考

7.1. 结论总结

本文提出了 Stable Video Diffusion (SVD)，一个用于高分辨率、最先进的文生视频 (text-to-video) 和图生视频 (image-to-video) 合成的潜在视频扩散模型。其核心贡献在于：

系统性数据整理： 引入了一个创新的数据整理工作流，能够将大规模、嘈杂的视频集合转化为高质量、适合生成视频模型的训练数据集。这个流程包括切片检测、多模态字幕生成、以及基于光流、OCR、CLIP 嵌入的美学和相似度过滤策略。
三阶段训练范式： 明确识别并深入分析了视频模型训练的三个关键阶段——文生图预训练、视频预训练和高质量视频微调，并通过严谨的消融实验验证了每个阶段对最终模型性能的积极且持久的影响。
最先进的性能： 基于上述数据和训练策略，SVD 成功地训练出在文生视频和图生视频任务上达到最先进水平的模型，在人类偏好研究和客观指标（如 FVD）上均超越了现有基线模型和闭源商业产品。
强大的通用运动和 3D 先验： 本文首次开创性地研究了视频扩散模型的多视角微调，并证明 SVD 构成了强大的 3D 先验。它在多视角合成任务中取得了最先进的结果，且所需计算成本仅为传统方法的极小一部分，展示了视频模型在解决 3D 领域数据稀缺问题上的巨大潜力。

总而言之，SVD 的研究不仅提升了视频生成技术的水平，更重要的是为视频扩散模型的训练提供了系统的指导方针，强调了数据整理和多阶段训练策略的关键作用，并揭示了视频模型在更广泛视觉生成任务中的强大泛化能力。

7.2. 局限性与未来工作

7.2.1. 作者指出的局限性

在附录 A 中，作者指出了 SVD 目前存在的一些局限性：

VRAM 需求： 虽然 SVD 在生成高质量视频方面表现出色，但它对显存 (VRAM) 的要求较高，这限制了其在资源受限环境下的部署和使用。
推理速度： 扩散模型通常需要多次迭代才能生成高质量样本，这意味着 SVD 在生成视频时可能不是实时的。

7.2.2. 作者提出的未来研究方向

作者希望这些发现能为生成视频建模领域带来广泛的启发，并暗示了可能的未来研究方向：

更快的合成方法： 提及了扩散蒸馏 (diffusion distillation) 方法 [61, 79] 是加速生成过程的潜在途径，这有助于解决实时性问题。
解决相关风险和偏见： 在附录 A 中，作者强调了对生成内容相关的风险和潜在偏见进行讨论和缓解的必要性，这暗示了未来研究可能会关注模型安全和伦理问题。

7.3. 个人启发与批判

7.3.1. 个人启发

数据质量是生成模型上限的决定因素： 这篇论文再次强调了“数据为王”的原则，特别是在视频这种复杂的多模态数据领域。其系统性的数据整理流程（切片检测、多模态字幕、光流过滤等）为其他生成任务的数据预处理提供了宝贵的借鉴经验，提醒我们在投入大量精力优化模型架构前，应先确保数据的质量。
多阶段训练的强大潜力： 将训练过程划分为图像预训练、视频预训练和高质量微调三个阶段，是一种非常高效且模块化的策略。这不仅能有效利用不同类型的数据资源，还能在每个阶段专注于学习特定的知识（空间特征、通用运动、高保真细节），从而逐步提升模型的综合能力。这种分层学习的范式在其他复杂生成任务中也值得推广。
视频模型作为通用 3D 先验的巨大价值： SVD 能够以极低的计算成本在多视角生成任务中超越专门的图像基线模型，这揭示了视频模型学习到的时间一致性和运动表征，天然地包含了丰富的 3D 结构和对象属性信息。这对于 3D 内容生成领域是一个革命性的发现，有望缓解 3D 数据稀缺的瓶颈，并为“图像-视频-3D”的统一生成模型开辟了道路。
人类偏好评估的重要性： 在缺乏完美客观指标的情况下，通过人类偏好研究来指导数据整理和模型选择，是一种非常务实且有效的策略。Elo 评分系统作为量化主观评价的工具，提供了可操作的量化反馈。

7.3.2. 批判与潜在改进

计算资源依赖性： 尽管 SVD 取得了最先进的结果，但其训练和推理仍然需要大量的 VRAM 和计算资源，这限制了其在学术研究和小型团队中的可访问性。未来的工作可以探索更参数高效的架构、更优化的训练策略或更高效的推理方法（如蒸馏），以降低门槛。
“黑盒”过滤阈值的透明度：论文提到通过人类偏好评估来校准各种过滤阈值，但具体的校准过程和人类反馈的细节在正文中描述较少，主要放在附录。对于初学者来说，如果能更详细地阐述如何从人类反馈中量化并确定最佳阈值，以及这些阈值对生成结果的具体影响，将更有助于理解和复现。
时间一致性的量化评估： 尽管 FVD 可以衡量视频的整体质量和多样性，但对于视频生成中至关重要的“时间一致性”和“运动流畅性”，是否可以引入更具针对性的客观指标进行量化评估，而不仅仅依赖人类偏好？这将使模型的性能评估更全面。
对噪声调度调整的深入分析： 论文指出调整噪声调度对高分辨率训练至关重要，并提供了修改后的预处理函数。然而，关于这种调整的理论依据、与原始 SD 2.1 调度的具体差异如何影响训练动态、以及不同 $P_{\mathrm{mean}}, P_{\mathrm{std}}$ 参数选择的敏感性分析，如果能更深入探讨，将提升方法的透明度和可解释性。
数据偏见的讨论： 大规模视频数据集的整理仍然可能引入或放大某些数据偏见（例如，特定场景、人物、肤色、文化等），这可能会影响生成内容的公平性和泛化性。尽管作者在“Broader Impact”中提到了相关风险，但未来可以更具体地探讨其整理流程中可能存在的偏见来源以及潜在的缓解策略。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。