论文

登录后可查看剩余解析次数。
标签筛选
文本到视频生成
CameraCtrl: Enabling Camera Control for Text-to-Video Generation
发表:2024/4/3
视频生成控制摄像机轨迹参数化扩散模型摄像机控制文本到视频生成可控视频生成
本文介绍了CameraCtrl,一种实现视频生成中相机姿态精确控制的方法。通过有效的相机轨迹参数化和即插即用的控制模块,CameraCtrl能够在不影响基础模型其他模块的情况下,增强用户对视频生成的可控性与创意表达。实验结果表明,其有效性显著提升了生成视频的叙事能力。
02
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models
发表:2024/12/2
自定义动作转移多模态大语言模型视频扩散模型动作建模文本到视频生成
本研究提出了一种名为 MoTrans 的定制化动作迁移方法,通过基于多模态大语言模型的重描述器和外观注入模块,将特定人物动作从参考视频迁移到新视频中,从而提升复杂动作生成的效果,且实验结果显示其优于现有方法。
04
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
发表:2024/8/12
文本到视频生成扩散模型视觉 transformer3D变分自编码器视频生成质量提升
CogVideoX 是一种大规模文本到视频生成模型,采用扩散 Transformer 架构,能够生成10秒、16帧每秒、分辨率高达768×1360的视频。为解决现有模型在连贯性和语义对齐方面的不足,论文提出了3D变分自编码器、专家 Transformer 和渐进式训练等方法,实现了显著的生成质量提升,并且开源了模型权重。
03
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
发表:2023/11/26
扩散模型视频生成模型文本到视频生成高质量视频微调视频数据集策划
本文介绍了稳定视频扩散模型(SVD),用于高分辨率文本到视频和图像到视频生成。研究评估了三阶段训练过程,强调精心策划的数据集在生成高质量视频中的重要性,并提出了一种系统化的数据整理过程。这项研究为下游任务提供了强大的运动表征,并展示了其优越性能。
02
StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
发表:2024/3/22
文本到视频生成长视频生成自回归视频生成条件注意力机制视频增强应用
本论文提出了一种名为StreamingT2V的自回归长视频生成方法,解决了现有文本生成视频模型在生成长视频时的局限性。通过条件注意力模块(CAM)和外观保持模块(APM),确保了视频帧之间的平滑过渡和场景特征的保留。此外,随机混合技术提升了视频质量,实验表明该方法能够生成超过1200帧的高质量动态视频。
02
Phenaki: Variable Length Video Generation From Open Domain Textual Description
发表:2022/10/6
文本到视频生成长视频生成变长度视频生成联合训练图像-文本对基于Transformer的时序编码
本文提出了Phenaki模型,专为从文本提示生成可变长度视频而设计。通过引入新的视频表示学习方法,结合因果注意力和双向掩码Transformer,Phenaki成功解决了高计算成本和有限数据的问题。与传统逐帧生成方法相比,该模型在时空一致性上表现更佳,能够处理多样化的文本描述。
04