标签筛选：UCF-101 数据集 - 论文列表

VideoGPT: Video Generation using VQ-VAE and Transformers

发表：2021/4/21

视频生成模型VQ-VAE 和 Transformer 联合应用BAIR 机器人数据集UCF-101 数据集自回归生成模型

本文提出了VideoGPT，采用VQVAE和简洁的Transformer架构用于自然视频的生成。模型分为两个阶段：首先通过3D卷积和轴向自注意力机制学习视频的离散潜在表示，然后使用自回归方式建模。这种方法在BAIR机器人数据集上生成的样本质量优于先进的GAN模型，在UCF101和TGIF数据集上也能生成高保真的自然视频，具有可复现性。