论文
登录后可查看剩余解析次数。
标签筛选
长视频生成
LongLive: Real-time Interactive Long Video Generation
发表:2025/9/27
长视频生成自回归长视频生成框架实时交互生成动态内容创作长视频训练与推理
本文提出了LongLive,一个用于实时和交互式长视频生成的帧级自回归框架。它通过因果注意力和KVrecache机制解决了长视频生成中的效率和质量挑战,同时增强了用户交互能力,确保生成过程中的视觉一致性和语义连贯性。
01
StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
发表:2024/3/22
文本到视频生成长视频生成自回归视频生成条件注意力机制视频增强应用
本论文提出了一种名为StreamingT2V的自回归长视频生成方法,解决了现有文本生成视频模型在生成长视频时的局限性。通过条件注意力模块(CAM)和外观保持模块(APM),确保了视频帧之间的平滑过渡和场景特征的保留。此外,随机混合技术提升了视频质量,实验表明该方法能够生成超过1200帧的高质量动态视频。
02
Phenaki: Variable Length Video Generation From Open Domain Textual Description
发表:2022/10/6
文本到视频生成长视频生成变长度视频生成联合训练图像-文本对基于Transformer的时序编码
本文提出了Phenaki模型,专为从文本提示生成可变长度视频而设计。通过引入新的视频表示学习方法,结合因果注意力和双向掩码Transformer,Phenaki成功解决了高计算成本和有限数据的问题。与传统逐帧生成方法相比,该模型在时空一致性上表现更佳,能够处理多样化的文本描述。
04