论文
登录后可查看剩余解析次数。
标签筛选
扩散模型
A Survey on Personalized Content Synthesis with Diffusion Models
发表:2024/5/9
个性化内容合成扩散模型测试时微调方法预训练适应方法对象个性化
本文综述了扩散模型在个性化内容合成(PCS)中的应用,分析了超过150种方法,并将其框架分为测试时微调和预训练适应两类。讨论了面临的挑战,如过拟合及主题保真度与文本对齐的权衡,为未来研究提供发展方向。
02
Consistency Models
发表:2023/3/3
一致性模型扩散模型图像生成CIFAR-10数据集图像修复与上色
本文提出一致性模型,以解决扩散模型生成慢的问题。这类模型通过将噪声直接映射到数据,支持极速的一步生成,并允许多步采样以平衡计算和样本质量。此外,一致性模型具备零样本数据编辑能力,无需针对特定任务训练,实验表明其在CIFAR10等数据集上的性能优于现有技术。
02
HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation
发表:2025/5/10
文本到图像生成分层跨模型对齐多模态生成MS-COCO数据集扩散模型
本文提出了层次化跨模态对齐(HCMA)框架,旨在解决文本到图像生成中的语义保真度与空间控制的矛盾。HCMA结合全局和局部对齐模块,实现复杂场景的高质量生成。实验显示,该方法在MSCOCO 2014验证集上超越现有技术,提升了FID和CLIP分数,证明了其有效性。
02
Curriculum Conditioned Diffusion for Multimodal Recommendation
发表:2025/4/11
多模态推荐系统扩散模型基于负样本的知识采样课程学习框架多模态对齐模块
提出了一种课程条件扩散框架CCDRec,用于解决多模态推荐中的数据稀疏问题。该框架通过扩散模型整合了逆向阶段与负采样,有效挖掘多模态之间的相关性,提升推荐系统的个性化能力,且在多个数据集上验证了其有效性与鲁棒性。
01
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
发表:2024/8/12
文本到视频生成扩散模型视觉 transformer3D变分自编码器视频生成质量提升
CogVideoX 是一种大规模文本到视频生成模型,采用扩散 Transformer 架构,能够生成10秒、16帧每秒、分辨率高达768×1360的视频。为解决现有模型在连贯性和语义对齐方面的不足,论文提出了3D变分自编码器、专家 Transformer 和渐进式训练等方法,实现了显著的生成质量提升,并且开源了模型权重。
03
Scalable Diffusion Models with Transformers
发表:2022/12/20
扩散模型Transformer架构图像生成大规模扩散模型状态-条件图像生成
本研究提出了一种基于变换器架构的新型扩散模型,称为扩散变换器 (DiTs),替代了传统的UNet主干。分析表明,模型的前向传播复杂度(以Gflops衡量)与生成质量表现(FID分数)呈反比。最大模型DiTXL/2在ImageNet基准测试中达到了最先进的FID表现,显示出优越的可扩展性与性能。
05
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
发表:2023/11/26
扩散模型视频生成模型文本到视频生成高质量视频微调视频数据集策划
本文介绍了稳定视频扩散模型(SVD),用于高分辨率文本到视频和图像到视频生成。研究评估了三阶段训练过程,强调精心策划的数据集在生成高质量视频中的重要性,并提出了一种系统化的数据整理过程。这项研究为下游任务提供了强大的运动表征,并展示了其优越性能。
02
Taming Transformers for High-Resolution Image Synthesis
发表:2020/12/18
生成对抗策略优化扩散模型图像超分辨率图像合成
本文提出了一种结合卷积神经网络(CNN)高效归纳偏置与转换器(Transformer)强大表达能力的方法,以有效合成高分辨率图像。通过先使用CNN学习图像元素的上下文丰富“词汇表”,再利用Transformer建模这些元素的组合,成功实现了百万像素级的语义引导图像合成,并取得了当时在类条件ImageNet任务中的最先进成果。
04
Denoising Diffusion Probabilistic Models
发表:2020/6/20
扩散模型图像合成无训练加速方法CIFAR10数据集渐进式有损解压缩
本文提出了一种新型去噪扩散概率模型,灵感来源于非平衡热力学,实现了高质量图像合成。通过在加权变分下界上训练,建立了模型与去噪分数匹配之间的新联系。该模型支持渐进式有损解压缩方案,在CIFAR10数据集上达成9.46的Inception Score和3.17的Fréchet Inception Distance,展示出与当前最佳成果相媲美的样本质量。
02
DiffCL: A Diffusion-Based Contrastive Learning Framework with Semantic
Alignment for Multimodal Recommendations
发表:2025/1/2
多模态推荐系统扩散模型对比学习框架语义对齐图结构特征增强
本文提出DiffCL,一种基于扩散模型的多模态推荐对比学习框架。其通过扩散生成对比视图减少噪声,利用稳定的ID嵌入实现跨模态语义对齐,并引入物品物品图缓解数据稀疏性,显著提升推荐性能。
01