论文
登录后可查看剩余解析次数。
标签筛选
UCF-101 数据集
Unsupervised Learning of Video Representations using LSTMs
发表:2015/2/17
视频表示的无监督学习长短期记忆网络 (LSTM) 应用人类动作识别UCF-101 数据集HMDB-51 数据集
本研究提出了一种利用多层长短期记忆(LSTM)网络进行视频表示无监督学习的方法。模型通过编码器LSTM将视频序列映射为固定长度表示,并利用解码器LSTM进行任务处理,如重建和预测。实验证明这些表示在UCF101和HMDB51人类动作识别任务中提升了分类准确率,尤其在少量训练样本情况下表现优异。
02
VideoGPT: Video Generation using VQ-VAE and Transformers
发表:2021/4/21
视频生成模型VQ-VAE 和 Transformer 联合应用BAIR 机器人数据集UCF-101 数据集自回归生成模型
本文提出了VideoGPT,采用VQVAE和简洁的Transformer架构用于自然视频的生成。模型分为两个阶段:首先通过3D卷积和轴向自注意力机制学习视频的离散潜在表示,然后使用自回归方式建模。这种方法在BAIR机器人数据集上生成的样本质量优于先进的GAN模型,在UCF101和TGIF数据集上也能生成高保真的自然视频,具有可复现性。
04