论文
登录后可查看剩余解析次数。
标签筛选
自回归视频生成
Pretraining Frame Preservation in Autoregressive Video Memory Compression
发表:2001/12/29
自回归视频生成视频记忆压缩帧保持预训练
本文提出了一种神经网络架构,通过预训练目标实现帧保留,将长视频压缩为短上下文。该方法可在极低的上文长度(约5k tokens)下,保持高频细节及一致性,从而提升自回归视频生成的质量。
02
VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory
发表:2025/12/4
自回归视频生成长视频生成模型混合状态空间记忆视频合成动态建模时序一致性保证
本文提出了VideoSSM,一种结合自回归扩散和混合状态空间记忆的长视频生成模型。其独特的状态空间模型和上下文窗口设计有效解决了分钟级视频生成中的误差累积、运动漂移和内容重复问题,提升了时间一致性和运动稳定性,支持交互式提示词生成,展现了出色的全局一致性。
01
RELIC: Interactive Video World Model with Long-Horizon Memory
发表:2025/12/4
交互式世界模型长时序记忆自回归视频生成实时内容检索视频扩散蒸馏
论文提出了RELIC,一个统一的交互式视频世界模型,能同时解决实时长时程生成、一致的空间记忆和精确的用户控制三大挑战。它通过压缩的历史潜在词元编码相对动作和相机位姿,支持高效的三维一致内容检索,以实现长期连贯性。
03
StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
发表:2024/3/22
文本到视频生成长视频生成自回归视频生成条件注意力机制视频增强应用
本论文提出了一种名为StreamingT2V的自回归长视频生成方法,解决了现有文本生成视频模型在生成长视频时的局限性。通过条件注意力模块(CAM)和外观保持模块(APM),确保了视频帧之间的平滑过渡和场景特征的保留。此外,随机混合技术提升了视频质量,实验表明该方法能够生成超过1200帧的高质量动态视频。
02