论文

登录后可查看剩余解析次数。
标签筛选
文本到图像生成
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
发表:2024/3/6
高分辨率图像合成扩散模型改进技术文本到图像生成双向信息流动架构噪声采样技术优化
本文提出了一种新型多模态扩散 Transformer(MMDiT)架构,结合修正流技术,以改善高分辨率图像合成质量。通过优化噪声采样策略并实现双向信息流,改进的模型在文本理解和用户偏好评分上优于现有最佳实践,验证了扩展定律的适用性。
02
Information to Users
发表:1989/9/1
无训练加速方法大语言模型安全机制机器人动作学习数学推理基准测试文本到图像生成
本文讨论了实时数据库系统中的并发控制算法,旨在确保多个用户能够安全、有效地访问数据。研究指出,当前文献中存在的技术缺陷及提高算法效率的潜在方法。这些发现对提升实时数据处理的可靠性具有重要意义。
02
ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation
发表:2023/4/13
文本到图像生成人类偏好奖励模型奖励反馈学习扩散模型优化专家评分比较
本研究提出了ImageReward,一个通用目的的文本到图像生成的人类偏好奖励模型,基于系统化的注释流程训练,已收集137,000条专家比较数据。ImageReward在自动评估中表现优于现有模型,并引入了奖励反馈学习算法(ReFL),直接优化扩散模型,实现更高效的生成。
02
Infinite-Story: A Training-Free Consistent Text-to-Image Generation
发表:2025/11/17
文本到图像生成无训练文本到图像生成一致性生成框架多提示叙事场景自回归模型
本文提出了InfiniteStory,一个免训练的一致文本到图像生成框架,针对多提示叙事场景,解决身份和风格不一致问题。借助身份提示替换和统一注意力引导机制,该方法在不需微调的情况下,达到领先的生成性能,推理速度比现有模型快6倍,展现了广泛的应用潜力。
03
HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation
发表:2025/5/10
文本到图像生成分层跨模型对齐多模态生成MS-COCO数据集扩散模型
本文提出了层次化跨模态对齐(HCMA)框架,旨在解决文本到图像生成中的语义保真度与空间控制的矛盾。HCMA结合全局和局部对齐模块,实现复杂场景的高质量生成。实验显示,该方法在MSCOCO 2014验证集上超越现有技术,提升了FID和CLIP分数,证明了其有效性。
02
Qwen-Image Technical Report
发表:2001/8/4
文本到图像生成图像生成模型图像编辑技术双编码机制数据管道优化
QwenImage是一款图像生成模型,通过全面的数据流水线和渐进式训练策略,显著提升了复杂文本渲染和图像编辑的能力。采用双编码机制,平衡语义一致性与视觉保真度,使其在中文文本生成上表现出色,取得了最先进的性能。
04
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
发表:2025/5/5
多模态理解与生成模型生成式对抗模型扩散模型与自回归模型融合文本到图像生成多模态数据集与基准
本文对统一多模态理解与生成模型进行了全面综述,探讨了自回归和扩散模型在各自领域的成功及架构差异带来的挑战。重点介绍了三种主要的统一框架:基于扩散、自回归和混合方法,并提供了为这些模型定制的数据集和基准,旨在推动未来的研究进展。
07
FreeFuse: Multi-Subject LoRA Fusion via Auto Masking at Test Time
发表:2025/10/28
多主体LoRA融合无训练融合方法跨注意力动态掩码文本到图像生成扩散模型推理优化
提出FreeFuse,通过测试时自动生成上下文感知动态掩码,实现多主体LoRA融合,无需额外训练或辅助模型。该方法直接应用于交叉注意力权重,有效提升多主体文本到图像生成的质量与实用性,简化流程并优于现有技术。
03
DreamAnime: Learning Style-Identity Textual Disentanglement for Anime and Beyond
发表:2024/5/7
文本到图像生成风格与身份表征解耦动漫角色生成文本嵌入空间学习少样本概念学习
DreamAnime提出通过少量示例图像,在文本到图像模型嵌入空间创建风格与身份解耦的独立词元,实现动漫角色及艺术风格的灵活组合和创意生成。实验证明其在准确捕获复杂概念及多场景应用中优于现有方法。
03