标签筛选：视频生成模型 - 论文列表

One-Minute Video Generation with Test-Time Training

发表：2025/4/8

视频生成模型自回归生成模型基于Transformer的视频生成Test-Time Training复杂多场景故事生成

本文提出了一种新颖的测试时训练（TTT）层，解决了生成一分钟视频的挑战。通过引入TTT层到预训练的Transformer中，研究者能够根据文本故事生成更连贯的视频。实验表明，与现有方法相比，TTT层在故事连贯性上有显著提升，尽管仍存在伪影问题，且效率有待改善。

03

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

发表：2023/11/26

扩散模型视频生成模型文本到视频生成高质量视频微调视频数据集策划

本文介绍了稳定视频扩散模型（SVD），用于高分辨率文本到视频和图像到视频生成。研究评估了三阶段训练过程，强调精心策划的数据集在生成高质量视频中的重要性，并提出了一种系统化的数据整理过程。这项研究为下游任务提供了强大的运动表征，并展示了其优越性能。

02

VideoGPT: Video Generation using VQ-VAE and Transformers

发表：2021/4/21

视频生成模型VQ-VAE 和 Transformer 联合应用BAIR 机器人数据集UCF-101 数据集自回归生成模型

本文提出了VideoGPT，采用VQVAE和简洁的Transformer架构用于自然视频的生成。模型分为两个阶段：首先通过3D卷积和轴向自注意力机制学习视频的离散潜在表示，然后使用自回归方式建模。这种方法在BAIR机器人数据集上生成的样本质量优于先进的GAN模型，在UCF101和TGIF数据集上也能生成高保真的自然视频，具有可复现性。

04

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

发表：2001/11/6

视觉语言模型视频生成模型多模态推理视频思维基准

思考视频”范式通过整合视频生成模型，提升了多模态推理的能力。该方法在“视频思考基准”上得到验证，表明在视觉与文本任务中性能均有所改善，克服了现有方法的静态约束与模态分离的问题。

03