论文
登录后可查看剩余解析次数。
标签筛选
自回归模型
Memorize-and-Generate: Towards Long-Term Consistency in Real-Time Video Generation
发表:2025/12/21
实时视频生成视频生成框架历史记忆保持记忆压缩与生成自回归模型
本文提出了MAG(记忆与生成)框架,通过解耦内存压缩与帧生成解决实时视频生成中的历史一致性问题。采用专用内存模型将历史信息压缩为紧凑的键值缓存,并利用生成器模型合成新帧。引入MAGBench基准评估历史记忆保持能力,实验表明在保持实时性能的同时显著提升场景一致性。
03
Infinite-Story: A Training-Free Consistent Text-to-Image Generation
发表:2025/11/17
文本到图像生成无训练文本到图像生成一致性生成框架多提示叙事场景自回归模型
本文提出了InfiniteStory,一个免训练的一致文本到图像生成框架,针对多提示叙事场景,解决身份和风格不一致问题。借助身份提示替换和统一注意力引导机制,该方法在不需微调的情况下,达到领先的生成性能,推理速度比现有模型快6倍,展现了广泛的应用潜力。
04
WaveNet: A Generative Model for Raw Audio
发表:2016/9/13
音频生成模型WaveNet结构文本到语音合成自回归模型音乐生成
本文提出了一种名为WaveNet的深度神经网络用于生成原始音频波形,具备完全的概率性与自回归特性,可高效处理每秒数万个样本的音频。在文本到语音合成中,WaveNet表现出优越的自然度,显著优于现有的语音合成系统,并能够生成多种说话者的声音特征。它在音乐生成方面也展现出高度真实感,同时可用于音素识别任务,取得良好结果。
01