论文状态:已完成

Qwen-Image Technical Report

发表:2001/08/04
原文链接
价格:0.10
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

Qwen-Image是一款图像生成模型,通过全面的数据流水线和渐进式训练策略,显著提升了复杂文本渲染和图像编辑的能力。采用双编码机制,平衡语义一致性与视觉保真度,使其在中文文本生成上表现出色,取得了最先进的性能。

摘要

Qwen-Image, an image generation model, advances text rendering and image editing through a comprehensive data pipeline, progressive training, and dual-encoding mechanism.

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Qwen-Image 技术报告 (Qwen-Image Technical Report)

1.2. 作者

Qwen 团队 (Qwen Team)

1.3. 发表期刊/会议

该报告发布于 Hugging Face (https://huggingface.co/papers/2508.02324) 和 arXiv (https://arxiv.org/pdf/2508.02324) 作为预印本 (preprint),表明其已公开发布但可能尚未经过正式同行评审或在特定会议/期刊上发表。Qwen 团队在人工智能领域具有显著影响力,其模型如 Qwen-VL、Qwen3 等都备受关注。

1.4. 发表年份

2025 年 8 月 3 日 (根据提供的 UTC 时间 2001-08-03T16:00:00.000Z 可能是日期格式错误,从 arXiv 链接 2508.02324 推断为 2025 年 8 月)。

1.5. 摘要

我们提出了 Qwen-Image,一款在 Qwen 系列中的图像生成基础模型,它在复杂文本渲染和精确图像编辑方面取得了显著进展。为了解决复杂文本渲染的挑战,我们设计了一个全面的数据流水线,包括大规模数据收集、过滤、标注、合成和平衡。此外,我们采用了一种渐进式训练策略,从非文本到文本渲染开始,从简单到复杂的文本输入逐步演进,并逐渐扩展到段落级别的描述。这种课程学习方法显著增强了模型原生的文本渲染能力。因此,Qwen-Image 不仅在英文字母语言中表现出色,在更具挑战性的中文等表意文字语言上也取得了显著进步。为了增强图像编辑的一致性,我们引入了一种改进的多任务训练范式,该范式不仅包含传统的文本到图像 (T2I) 和文本图像到图像 (TI2I) 任务,还包括图像到图像 (I2I) 重建,有效地对齐了 Qwen2.5-VL 和 MMDiT 之间的潜在表示。此外,我们分别将原始图像输入到 Qwen2.5-VL 和 VAE 编码器中,以获得语义和重建表示。这种双编码机制使编辑模块能够在保持语义一致性和视觉保真度之间取得平衡。我们对 Qwen-Image 在多个公共基准测试中进行了全面评估,包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及用于图像编辑的 GEdit、ImgEdit 和 GSO。Qwen-Image 取得了最先进的 (state-of-the-art) 性能,展示了其在图像生成和编辑方面的强大能力。此外,在 LongText-Bench、ChineseWord 和 CVTG-2K 上的结果表明,它在文本渲染方面表现出色——尤其是在中文文本生成方面——显著优于现有最先进的模型。这凸显了 Qwen-Image 作为领先图像生成模型的独特地位,它结合了广泛的通用能力和卓越的文本渲染精度。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

图像生成模型,包括文本到图像 (Text-to-Image, T2I) 生成和图像编辑 (Image Editing, TI2I),已成为现代人工智能的基础组成部分,使得机器能够从文本提示合成或修改具有视觉吸引力和语义连贯性的内容。尽管扩散模型 (Diffusion-based architectures) 等架构取得了显著进展,但仍存在两大关键挑战:

  1. 复杂文本渲染 (Complex Text Rendering):

    • 即使是 GPT Image 1 和 Seedream 3.0 等最先进的商业模型,在处理需要多行文本渲染、非字母语言(如中文)、局部文本插入或文本与视觉元素无缝整合的任务时,仍面临困难。模型难以将输出与复杂的、多方面的提示对齐。
    • 重要性: 提高文本渲染能力对于生成包含文字的图像(如海报、漫画、带说明的图片)至关重要,极大地扩展了图像生成模型的实际应用范围。
  2. 图像编辑一致性 (Image Editing Consistency):

    • 在图像编辑中,实现编辑输出与原始图像之间的精确对齐面临双重挑战:

      • 视觉一致性 (Visual Consistency): 仅修改目标区域,同时保留所有其他视觉细节(例如,改变发色而不改变面部细节)。
      • 语义一致性 (Semantic Consistency): 维持人物姿态不变的同时保持身份和场景的连贯性。
    • 重要性: 精确且一致的图像编辑是提升用户体验、实现精细控制和扩展创意应用的关键。

      本文提出 Qwen-Image 模型,旨在通过全面的数据工程、渐进式学习策略、增强的多任务训练范式和可扩展的基础设施优化来克服这些挑战。

2.2. 核心贡献/主要发现

Qwen-Image 的关键贡献总结如下:

  • 卓越的文本渲染 (Superior Text Rendering):

    • Qwen-Image 在复杂文本渲染方面表现出色,包括多行布局、段落级语义和细粒度细节。
    • 它以高保真度支持英文字母语言(如英语)和表意文字语言(如中文)。
    • 通过综合数据流水线(收集、过滤、标注、合成、平衡)和渐进式训练策略(从非文本到文本,从简单到复杂,逐步扩展到段落级描述),显著增强了模型的原生文本渲染能力。
  • 一致的图像编辑 (Consistent Image Editing):

    • 通过增强的多任务训练范式,Qwen-Image 在编辑操作期间在保持语义意义和视觉真实感方面取得了卓越性能。
    • 引入了双编码机制:利用 Qwen2.5-VL 提取语义表示,利用 VAE 编码器提取重建表示,以平衡语义一致性和视觉保真度。
  • 强大的跨基准性能 (Strong Cross-Benchmark Performance):

    • 在多个基准测试中(包括 GenEval、DPG、OneIG-Bench 用于生成,GEdit、ImgEdit、GSO 用于编辑),Qwen-Image 始终优于现有模型。
    • 在 LongText-Bench、ChineseWord 和 CVTG-2K 上的文本渲染评估中,尤其是在中文文本生成方面,显著超越现有最先进模型。
    • 在 AI Arena 人工评估中,作为唯一的开源模型,其 Elo 评分排名第三,与顶级闭源 API 相当。
  • 可扩展的基础设施优化 (Scalable Infrastructure Optimization):

    • 设计了生产者-消费者 (Producer-Consumer) 框架,利用 Ray 和 TensorPipe 实现分布式数据加载和预处理,并结合 Megatron 框架进行分布式模型训练,确保了训练效率和稳定性。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 Qwen-Image 的技术细节,需要了解以下基础概念:

  • 扩散模型 (Diffusion Models): 这是一类生成模型,通过逐步向数据中添加噪声,然后学习如何逆转这个过程来生成新的数据。它们在图像生成领域取得了显著成功,能够生成高质量的图像。本文中特指 整流流 (Rectified Flow),它通过普通微分方程 (ODE) 实现稳定的学习动态,并与最大似然目标等效。
  • 变分自编码器 (Variational AutoEncoder, VAE): 一种生成模型,由编码器和解码器组成。编码器将输入数据(如图像)压缩成低维的潜在表示 (latent representation),解码器则从这些潜在表示中重建数据。VAE 的关键在于其潜在空间通常被强制服从某种先验分布(如高斯分布),这有助于生成具有多样性的数据。在 Qwen-Image 中,VAE 用于将图像压缩为紧凑的潜在表示,并在推理时进行解码。
  • 多模态大语言模型 (Multimodal Large Language Model, MLLM): 能够处理和理解多种模态信息(如文本和图像)的大型语言模型。在 Qwen-Image 中,Qwen2.5-VL 作为 MLLM,负责从文本输入中提取特征,并对齐语言和视觉空间。
  • Transformer (Transformer): 一种基于自注意力机制 (self-attention mechanism) 的神经网络架构,最初用于自然语言处理,现已广泛应用于计算机视觉等领域。它的核心在于能够并行处理输入序列,并捕获长距离依赖关系。
  • 多模态扩散 Transformer (Multimodal Diffusion Transformer, MMDiT): 一种结合了扩散模型和 Transformer 架构的模型,专门设计用于同时处理多模态数据(如文本和图像),进行图像生成。它作为 Qwen-Image 的主干扩散模型,负责建模噪声和图像潜在表示在文本指导下的复杂联合分布。
  • 位置编码 (Positional Encoding): 在 Transformer 模型中,由于自注意力机制不包含序列中元素的顺序信息,因此需要引入位置编码来为输入序列中的每个元素提供位置信息。
  • 课程学习 (Curriculum Learning): 一种训练策略,模型首先学习相对简单的任务或数据模式,然后逐渐过渡到更复杂、更具挑战性的任务。这有助于模型逐步积累知识,提高学习效率和最终性能。
  • 直接偏好优化 (Direct Preference Optimization, DPO): 一种强化学习 (Reinforcement Learning, RL) 算法,用于根据人类偏好数据直接优化策略。它将偏好建模为一个单步流匹配问题,计算效率高。
  • 组相对策略优化 (Group Relative Policy Optimization, GRPO): 另一种强化学习 (RL) 算法,它在训练过程中进行在策略 (on-policy) 采样,并使用奖励模型评估每个轨迹 (trajectory)。
  • Elo 评分系统 (Elo Rating System): 一种计算相对技能水平的排名系统,最初用于国际象棋。在本文中用于评估不同图像生成模型在人工评估中的相对表现。
  • 图像质量评估指标 (Image Quality Metrics):
    • 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR): 常用于衡量图像重建质量的客观指标,表示信号最大可能功率与噪声功率之比。PSNR 值越高,表示重建图像质量越好。
    • 结构相似性指数 (Structural Similarity Index Measure, SSIM): 一种感知指标,用于衡量两幅图像之间结构相似性,考虑亮度、对比度和结构信息。SSIM 值越接近 1,表示两幅图像越相似。
    • 感知距离 (Learned Perceptual Image Patch Similarity, LPIPS): 使用深度学习特征来评估图像之间的感知差异,旨在更好地模拟人类的视觉感知。LPIPS 值越低,表示图像越相似。
  • 深度估计指标 (Depth Estimation Metrics):
    • 相对绝对误差 (Absolute Relative Error, AbsRel): 衡量预测深度与真实深度之间相对误差的平均值。AbsRel 值越低,表示深度估计越准确。
    • 阈值精度 (Threshold Accuracy, δ1\delta1): 衡量预测深度在真实深度的某个比例(如 1.25 倍)范围内的像素比例。δ1\delta1 值越高,表示深度估计越准确。
  • 文本渲染评估指标 (Text Rendering Metrics):
    • 词准确率 (Word Accuracy): 衡量生成的文本中正确词语的比例。
    • 归一化编辑距离 (Normalized Edit Distance, NED): 衡量两个字符串之间转换为另一个所需的最小编辑操作次数(插入、删除、替换),然后进行归一化。NED 越低表示文本越相似。
    • CLIP 得分 (CLIPScore): 使用 CLIP 模型评估生成图像与文本提示之间的语义一致性。CLIPScore 越高表示一致性越好。
  • 图像编辑评估指标 (Image Editing Metrics):
    • 语义一致性 (Semantic Consistency, G_SC): 评估编辑后的图像在语义上与原始图像和编辑指令的一致程度。
    • 感知质量 (Perceptual Quality, G_PQ): 评估编辑后图像的视觉质量和真实感。
    • 总体得分 (Overall Score, G_O): 通常是 G_SC 和 G_PQ 的几何平均值或加权平均值,用于综合评估编辑性能。

3.2. 前人工作

Qwen-Image 的工作建立在当前图像生成和编辑领域的大量研究基础之上。

  • 文本到图像生成 (T2I Generation):
    • 论文引用了扩散模型 (Rombach et al., 2021; Ho et al., 2020; Liu et al., 2022) 的开创性工作,这些模型为高质量图像合成奠定了基础。
    • 同时提到了其他知名模型如 OpenAI 的 DALL-E 3 (ÖpenAI, 2023)、Podell et al., 2023、Chen et al., 2024c; Li et al., 2024b; Er al 202; BlackForest, 2024; Gao et al., 2025; Gong et al., 2025; Cai eal., 2025 等,这些工作在图像质量、效率和多样性方面不断推动 T2I 的边界。
  • 图像编辑 (Image Editing):
    • 引用了 Brooks et al., 2023; Zhang et al., 2023; Wang et al., 2025; Deng et al., 2025; Labs et al., 202; Wu et al., 2025b; Liu et al., 2025b; Cai et al., 2025; OpenAI, 2025 等工作,这些研究致力于提高编辑的精确性、一致性和指令遵循能力。
  • 多模态模型 (Multimodal Models):
    • 论文指出其使用了 Qwen2.5-VL (Bai et al., 2025) 作为文本特征提取模块,这是一款在语言和视觉空间已对齐的 MLLM。
    • 主干网络采用了多模态扩散 Transformer (MMDiT) (Esser et al., 2024),这种架构已被 FLUX (BlackForest, 2024; Labs et al., 2025) 系列和 Seedream (Gong et al., 2025; Gao et al., 2025) 系列等工作证明是有效的。
  • 强化学习在生成中的应用 (RL in Generation):
    • DPO (Rafailov et al., 2023) 和 GRPO (Shao et al., 2024) 等技术被用于模型的后训练阶段,以进一步根据人类偏好进行微调。
  • 分布式训练 (Distributed Training):
    • Ray (Moritz et al., 2018) 和 Megatron (Shoeybi et al., 2019; Korthikanti et al., 2023) 等框架在大型模型训练中的应用是行业标准。

3.3. 技术演进

图像生成领域经历了从基于生成对抗网络 (Generative Adversarial Networks, GANs) 到变分自编码器 (VAEs),再到目前主流的扩散模型 (Diffusion Models) 的演进。扩散模型以其高质量的生成能力和稳定性,迅速成为 T2I 和图像编辑的主流范式。随着模型规模的扩大,Transformer 架构被引入到扩散模型中,形成了扩散 Transformer (DiT) 或 MMDiT,进一步提升了处理复杂条件信息的能力。

在文本渲染方面,早期的 T2I 模型通常难以生成清晰、准确的文本,特别是对于非字母语言和长文本。解决这一问题的方法包括专门的文本合成数据集、多阶段训练和改进的架构设计。

在图像编辑方面,从简单的基于掩码 (mask-based) 的编辑到基于指令 (instruction-based) 的复杂编辑,模型需要更好地理解语义、保持上下文一致性,并精确修改指定区域。多模态输入的引入,如同时提供文本指令和参考图像,是提升编辑能力的关键方向。

Qwen-Image 正是在这一技术演进背景下,通过整合先进的 MLLM、优化 VAE、采用 MMDiT 架构,并结合独特的数据工程和训练策略,来克服现有模型在复杂文本渲染和图像编辑一致性方面的局限。

3.4. 差异化分析

Qwen-Image 与现有相关工作的主要区别和创新点在于:

  • 对复杂文本渲染的深度优化:

    • 全面的数据流水线: 区别于仅依赖现有数据集或简单合成,Qwen-Image 设计了大规模数据收集、过滤、标注、合成和平衡的完整流程,特别是为中文等表意文字语言进行了针对性增强。
    • 渐进式训练策略 (Progressive Training Strategy): 从非文本到文本、从简单到复杂、再到段落级描述的课程学习方法,显著提升了模型原生文本渲染能力。这是许多现有模型所缺乏的细致训练范式。
    • 优化的 VAE 和 MSRoPE: 通过微调 VAE 解码器使其在小文本和细粒度细节重建上表现更佳,并引入 MSRoPE (Multimodal Scalable RoPE) 解决图像-文本联合位置编码问题,使得模型能更好地处理文本在图像中的位置和缩放。
  • 增强的图像编辑一致性:

    • 改进的多任务训练范式: 不仅包含传统的 T2I 和 TI2I,还引入了 I2I 重建任务,以更好地对齐潜在表示。
    • 双编码机制 (Dual-Encoding Mechanism): 分别通过 Qwen2.5-VL 获得语义表示和 VAE 编码器获得重建表示,使得编辑模块能在保持高层语义一致性 (instruction following) 和低层视觉保真度 (visual fidelity) 之间取得平衡。许多模型在编辑时往往难以同时兼顾这两点。
  • 端到端的通用性和性能:

    • Qwen-Image 旨在成为一个“基础模型”,其设计使其在通用图像生成和多种图像编辑任务(包括新视角合成、深度估计等)上均能达到最先进的 (state-of-the-art) 性能,而非专注于某一特定子任务。这种广泛的能力使其成为更强大的视觉基础模型。
  • 可扩展的训练基础设施:

    • 生产者-消费者 (Producer-Consumer) 框架和针对 Megatron 的混合并行策略,确保了在大规模 GPU 集群上训练的效率和稳定性,支持模型持续扩展。

4. 方法论

Qwen-Image 的架构建立在三个核心组件之上:一个多模态大语言模型 (MLLM) 作为条件编码器、一个变分自编码器 (VAE) 作为图像编码器和解码器、以及一个多模态扩散 Transformer (MMDiT) 作为主干扩散模型。这些组件协同工作,实现了高质量的文本到图像生成和精确的图像编辑。

4.1. 模型架构

Qwen-Image 采用标准的双流 MMDiT (Multimodal Diffusion Transformer) 架构,如图 Figure 7 所示。

4.1.1. 多模态大语言模型 (MLLM)

Qwen-Image 采用 Qwen2.5-VL 模型作为文本输入的特征提取模块。选择 Qwen2.5-VL 的原因有三点:

  1. 其语言和视觉空间已对齐,更适合文本到图像 (T2I) 任务。

  2. Qwen2.5-VL 保持了强大的语言建模能力,与纯语言模型相比没有显著退化。

  3. 它支持多模态输入,使 Qwen-Image 能够实现更广泛的功能,如图像编辑。

    对于用户输入(例如文本提示和图像),Qwen2.5-VL 用于提取特征。为了更好地指导模型生成精炼的潜在表示 (latent representation),同时考虑到不同任务中输入模态的差异,研究人员为纯文本输入和文本-图像输入设计了不同的系统提示 (system prompts)。

以下是用于文本到图像生成任务的系统提示模板:

<|im_start|>system   
You are a helpful assistant. <|im_end|>   
<|im_start|>user   
<|user_text|> <|im_end|>   
<|im_start|>assistant

在此模板中,<|user_text|> 是用户输入的文本提示。

以下是用于图像编辑 (TI2I) 任务的系统提示模板:

<|im_start|>system   
Describe the key features of the input image (color, shape, size, texture, objects, background), then   
explain how the user's text instruction should alter or modify the image. Generate a new image that   
meets the user's requirements while maintaining consistency with the original input where appropri  
ate. <|im_end|>   
<|im_start|>user   
<|vision_start|> <|user_image|> <|vision_end|> <|user_text|> <|im_end|>   
<|im_start|>assistant

在此模板中,<|user_image|> 是用户输入的图像,<|user_text|> 是用户输入的文本指令。

最终,Qwen-Image 利用 Qwen2.5-VL 语言模型主干网络的最后一层隐藏状态 (hidden state) 作为用户输入的表示。

4.1.2. 变分自编码器 (VAE)

强大的 VAE 表示对于构建强大的图像基础模型至关重要。与通常使用 2D 卷积在大量图像数据集上训练图像 VAE 的现有模型不同,Qwen-Image 旨在开发一种与图像和视频都兼容的更通用的视觉表示。考虑到现有联合图像-视频 VAEs(如 Wan-2.1-VAE)通常存在性能权衡,导致重建能力下降,Qwen-Image 采用了 单编码器、双解码器 (single-encoder, dual-decoder) 架构。这种设计使用一个与图像和视频兼容的共享编码器,同时为每种模态配备单独的、专门的解码器,这使得 Qwen-Image 的图像基础模型可以作为未来视频模型的主干。具体而言,它采用了 Wan-2.1-VAE 的架构,冻结其编码器,并仅对图像解码器进行微调。

为了增强重建保真度,特别是对于小文本和细粒度细节,解码器在一个内部文本丰富图像语料库上进行训练。该数据集包含真实世界的文档(PDF、PowerPoint 幻灯片、海报)以及合成段落,涵盖字母语言(如英语)和表意文字语言(如中文)。

在训练过程中,研究人员观察到:

  1. 平衡重建损失 (reconstruction loss) 和感知损失 (perceptual loss) 能有效减少网格伪影 (grid artifacts),这些伪影常出现在灌木丛等重复纹理中。

  2. 随着重建质量的提高,对抗性损失 (adversarial loss) 变得无效,因为判别器 (discriminator) 无法提供有效的指导。

    基于这些观察,研究人员仅使用重建损失和感知损失,并在微调期间动态调整它们的比例。值得注意的是,仅微调解码器即可有效增强细节并改善小文本的渲染,从而为 Qwen-Image 的文本渲染能力奠定了坚实基础。

4.1.3. 多模态扩散 Transformer (MMDiT)

Qwen-Image 采用多模态扩散 Transformer (MMDiT) (Esser et al., 2024) 来联合建模文本和图像。这种方法已在 FLUX (BlackForest, 2024; Labs et al., 2025) 系列和 Seedream (Gong et al., 2025; Gao et al., 2025) 系列等工作中被证明是有效的。

在每个 MMDiT 块中,研究人员引入了一种新颖的位置编码方法:多模态可扩展 RoPE (Multimodal Scalable RoPE, MSRoPE)

MSRoPE 的设计

为了解决传统 MMDiTSeedream 3.0 中图像-文本联合位置编码的挑战,Qwen-Image 引入了 MSRoPE

  • 传统 MMDiT 文本词元 (token) 直接连接在扁平化的图像位置嵌入之后。

  • Seedream 3.0 引入了 Scaling RoPE,其中图像位置编码被移到图像的中心区域,文本词元被视为 2D 词元,形状为 [L, 1]。此调整有助于分辨率缩放训练。然而,文本和图像的某些行位置编码(例如 Figure 8 (B) 中的第 0 行中间行)变得同构 (isomorphic),使得模型更难区分文本词元和第 0 行中间行中的图像潜在词元。而且,确定合适的图像行来连接文本词元也非易事。

    为了解决上述挑战,Qwen-Image 引入了 MSRoPE。在这种方法中,文本输入被视为 2D 张量,并在两个维度上应用相同的位置 ID。如图 Figure 8 (C) 所示,文本被概念化为沿图像对角线连接。这种设计允许 MSRoPE 利用图像侧的分辨率缩放优势,同时在文本侧保持与 1D-RoPE 的功能等效性,从而避免了确定文本最佳位置编码的需要。

以下是不同图像-文本联合位置编码策略的比较图示:

Figure 8: Comparison of different image-text joint positional encoding strategies. We design the Multimodal Scalable RoPE (MSRoPE) strategy, which starts encoding from the image center and positions textual encodings along the diagonal of the grid, enabling better image resolution scaling and improved text-image alignment. 该图像是一个示意图,展示了不同的图像-文本联合位置编码策略的比较。图中展示了我们设计的多模态可扩展RoPE(MSRoPE)策略,能够从图像中心开始编码,并沿对角线排列文本编码,从而实现更好的图像分辨率缩放和文本图像对齐。

Figure 8: Comparison of different image-text joint positional encoding strategies. We design the Multimodal Scalable RoPE (MSRoPE) strategy, which starts encoding from the image center and positions textual encodings along the diagonal of the grid, enabling better image resolution scaling and improved text-image alignment.

Qwen-Image 的架构和配置如 Table 1 所示: 以下是原文 Table 1 的结果:

Configuration VLM VAE MMDiT
ViT LLM Enc Dec
# Layers 32 28 11 15 60
# Num Heads (Q / KV) 16 / 16 28 / 4 - - 24 / 24
Head Size 80 128 - 128
Intermediate Size 3,456 18,944 - - 12,288
Patch / Scale Factor 14 - 8x8 8x8 2
Channel Size - 16 16 -
# Parameters 7B 54M 73M 20B

Table 1: Configuration of Qwen-Image architecture.

Qwen-Image 采用 RMSNorm (Zhang & Sennrich, 2019) 进行 QK-Norm,而所有其他归一化层都使用 LayerNorm

4.2. 数据

4.2.1. 数据收集 (Data Collection)

研究人员系统地收集并标注了数十亿图像-文本对 (image-text pairs) 以支持图像生成模型的训练。他们优先考虑数据质量和平衡的数据分布,旨在构建一个能密切反映真实世界场景的均衡且有代表性的数据集。

数据集被组织成四个主要领域,如图 Figure 10 所示:

Figure 9: Overview of Data Collection. The dataset includes four main categories: Nature (generalpurpose generation), People (human-centric generation), Design (artistic styles, text rendering, and complex layouts), and Synthetic Data (text rendering enhancement). Our colection strategy balances diversity and quality while training, ensuring broad coverage and high-fidelity annotations to support robust model training. 该图像是一个示意图,展示了数据集的四个主要类别:自然、人物、设计和合成数据。每个类别的占比通过饼图形式表示,旨在平衡多样性和质量,从而支持强大的模型训练。

Figure 9: Overview of Data Collection. The dataset includes four main categories: Nature (generalpurpose generation), People (human-centric generation), Design (artistic styles, text rendering, and complex layouts), and Synthetic Data (text rendering enhancement). Our colection strategy balances diversity and quality while training, ensuring broad coverage and high-fidelity annotations to support robust model training.

  • 自然 (Nature): 占比最大,约 55%。包含物体、风景、城市风光、植物、动物、室内和食物等子类别。作为通用生成的基础,用于提高模型生成真实多样自然图像的能力。
  • 设计 (Design): 第二大类别,约 27%。主要包括结构化视觉内容,如海报、用户界面、演示幻灯片,以及各种形式的艺术品。这类数据通常包含丰富的文本元素、复杂的布局和设计特定的视觉语义,对于增强模型遵循复杂艺术风格、文本渲染和布局设计指令的能力至关重要。
  • 人物 (People): 约 13%。涵盖人像、运动和人类活动等子类别。对于改进模型生成真实多样人类图像的能力,确保用户体验和实际适用性非常重要。
  • 合成数据 (Synthetic Data): 约 5%。特指通过受控文本渲染技术合成的数据,不包括由其他 AI 模型生成的数据,以避免引入视觉伪影、文本失真、偏差和幻觉。

4.2.2. 数据过滤 (Data Filtering)

为了在图像生成模型的迭代开发过程中策展高质量训练数据,研究人员提出了一个多阶段过滤流水线,包含七个顺序阶段,如图 Figure 11 所示。这些阶段在训练过程中逐步应用,数据分布随时间不断优化。值得注意的是,合成数据从阶段 4 开始引入,此时基础模型已达到一定的稳定性水平。

Figure 10: Overview of the multi-stage data filtering pipeline. Our filtering strategy consists of seven sequential stages (1S7), each targeting specific aspects of data quality, alignment, and diversity. From initial pre-training data curation to high-resolution refinement and multi-scale training, the pipeline progressively improves dataset quality while maintaining semantic richness and distributional stability. 该图像是示意图,展示了多阶段数据过滤流程的概览,包括七个顺序阶段(1S7),每个阶段针对数据质量、对齐性和多样性进行优化,从初步数据整理到高分辨率精炼以及多尺度训练,逐步提升数据集的质量和语义丰富性。

Figure 10: Overview of the multi-stage data filtering pipeline. Our filtering strategy consists of seven sequential stages (1S7), each targeting specific aspects of data quality, alignment, and diversity. From initial pre-training data curation to high-resolution refinement and multi-scale training, the pipeline progressively improves dataset quality while maintaining semantic richness and distributional stability.

  • 阶段 1: 初始预训练数据策展 (Initial Pre-training Data Curation):

    • 模型在 256x256 像素图像上训练,包含 1:1, 2:3, 3:2, 3:4, 4:3, 9:16, 16:9, 1:3 和 3:1 等多种宽高比。
    • 应用过滤器去除低质量或不相关图像:Broken File Filter (损坏文件)、File Size Filter (异常小文件)、Resolution Filter (低于 256p)、Deduplication Filter (重复数据)、NSFW Filter (不安全内容)。
  • 阶段 2: 图像质量增强 (Image Quality Enhancement):

    • 系统地提升数据集的图像质量。

    • Rotation Filter (去除带异常旋转的图像)、Clarity Filter (去除模糊或失焦图像)、Luma Filter (去除过亮或过暗图像)、Saturation Filter (去除颜色饱和度异常的图像)、Entropy Filter (去除熵值过低图像,如大片均匀区域)、Texture Filter (去除纹理过于复杂的图像,通常为噪声)。 以下是一些过滤操作符的示例图:

      Figure 11: Examples of some filtering operators used in our pipeline. Extreme values in these operators often indicate atypical or low-quality images. For instance, images with excessively high Luma score typically contain large areas of white or overexposed regions. 该图像是示意图,展示了一些在数据处理流程中使用的过滤操作示例。图中包括多幅图像及其对应的亮度(Luma Score)、饱和度(Saturation Score)、RGB熵(RGB Entropy)和清晰度(Clarity Score)统计图。每个分数旁标注了一些样本值,极端值可能表示图像质量较低,例如亮度得分过高(0.98、0.99)通常涉及大片白色或过曝区域。

    Figure 11: Examples of some filtering operators used in our pipeline. Extreme values in these operators often indicate atypical or low-quality images. For instance, images with excessively high Luma score typically contain large areas of white or overexposed regions.

  • 阶段 3: 图像-文本对齐改进 (Image-Text Alignment Improvement):

    • 根据标题来源将数据集分为三部分:Raw Caption Split (原始描述,可能含噪声但包含独特 IP)、Recaption Split (由 Qwen-VL Captioner 生成的更具描述性和结构化标注)、Fused Caption Split (融合原始和合成描述)。
    • 应用 Chinese CLIP Filter (Yang et al., 2022) 和 SigLIP 2 Filter (Tschannen et al., 2025) 去除不匹配的图像-文本对。
    • Token Length Filter (去除过长标题)、Invalid Caption Filter (去除异常内容标题)。
  • 阶段 4: 文本渲染增强 (Text Rendering Enhancement):

    • 提高模型在图像中渲染文本的能力。
    • 根据图像中文本的存在和语言将数据集分为四部分:English SplitChinese SplitOther Language SplitNon-Text Split,以确保不同语言环境下的平衡训练。
    • 引入合成文本渲染数据,以解决低频字符、混合语言场景和字体多样性等挑战(详见 4.2.4 数据合成)。
    • Intensive Text Filter (去除文本过于密集图像)、Small Character Filter (去除字符过小图像)。
  • 阶段 5: 高分辨率精炼 (High-Resolution Refinement):

    • 模型切换到 640p 分辨率图像训练。
    • Image Quality Filter (去除有质量缺陷的图像)、Resolution Filter (确保图像满足最低分辨率要求)、Aesthetic Filter (去除视觉吸引力差的图像)、Abnormal Element Filter (去除水印、QR 码、条形码等干扰元素)。
  • 阶段 6: 类别平衡和肖像增强 (Category Balance and Portrait Augmentation):

    • 根据错误分析识别性能不佳的类别,将数据集重新分类为:GeneralPortraitText Rendering,以促进基于类别的再平衡。
    • 使用关键词检索和图像检索技术扩充数据集,增强对未充分代表类别的覆盖。
    • 对肖像进行增强:检索逼真人像、卡通人物和名人图像,生成合成描述以强调人物特征和上下文元素。
    • 去除包含人脸马赛克或模糊的图像,避免隐私问题。
  • 阶段 7: 平衡多尺度训练 (Balanced Multi-Scale Training):

    • 模型在 640p 和 1328p 两种分辨率图像上联合训练。
    • 设计分层分类系统(受 WordNet 启发)对图像进行分类。在每个类别中,仅保留质量最高和美学吸引力最佳的图像。
    • 采用专门的重采样策略来平衡包含文本渲染的数据,解决词元频率的长尾分布问题。这种训练允许模型保留先前学习的通用知识,确保在高分辨率输入下稳定收敛。

4.2.3. 数据标注 (Data Annotation)

在数据标注流水线中,Qwen-Image 利用一个强大的图像标注器(例如 Qwen2.5-VL)不仅生成全面的图像描述,还生成结构化的元数据 (structured metadata),以捕获关键的图像属性和质量特征。

这种方法将标注和元数据提取作为统一任务处理。标注器同时描述视觉内容并以结构化格式(如 JSON)生成详细信息。关键细节(如物体属性、空间关系、环境上下文和可见文本的逐字转录)被捕获在描述中,而关键图像属性(如类型、风格、水印的存在和异常元素)则以结构化格式报告。这种方法超越了传统的图像标注,能够在一次处理中生成详细图像描述和结构化元数据。

以下是 Qwen-Image 标注提示的示例: # Qwen-Image Annotation Prompt # Image Annotator You are a professional image annotator. Please complete the following tasks based on the input image. ## Step 1: Create Image Caption 1. Write the caption using natural, descriptive text without structured formats or rich text. 2. Enrich caption details by including: object attributes, vision relations between objects, and environmental details. 3. Identify the text visible in the image, without translation or explanation, and highlight it in the caption with quotation marks. 3. Maintain authenticity and accuracy, avoid generalizations. ## Step 2: Image Quality Assessment 1. Image Type Identification: Return the image type based on its source and usage. 2. Image Style Identification: Return the image style based on its overall visual characteristics. Watermark Detection: Detect watermarks in the image. Return the detected watermarks in a list format. 4. Abnormal Element Detection: Check if any elements affect viewing, such as QR codes or mosaics. ## Sample Output Format -json { "Caption": "..." "Image Type": ". "Image Style": ". " "Watermark List": [], "Abnormal Element": "yes/no",

4.2.4. 数据合成 (Data Synthesis)

鉴于真实世界图像中文本内容的长尾分布,特别是对于中文等非拉丁语言,其中许多字符的出现频率极低,仅依靠自然文本不足以确保模型训练期间充分暴露于这些稀有字符。为解决此挑战并提高文本渲染在不同上下文中的鲁棒性,研究人员提出了一个多阶段文本感知图像合成流水线。该流水线整合了三种互补的策略:纯渲染 (Pure Rendering)组合渲染 (Compositional Rendering)复杂渲染 (Complex Rendering)

以下是数据合成的概览图:

Figure 13: Overview of Data Synthesis. We designed three rendering strategies—Pure Rendering, Compositional Rendering , and Complex Rendering —to generate text-only data, text-in-context data, and complex-layout data, respectively. 该图像是示意图,展示了三种数据合成策略:简单背景中的纯渲染、上下文场景中的组合渲染以及结构化框架中的复杂渲染。每种策略生成不同类型的数据,以支持图像生成与文本渲染的任务。

Figure 13: Overview of Data Synthesis. We designed three rendering strategies—Pure Rendering, Compositional Rendering , and Complex Rendering —to generate text-only data, text-in-context data, and complex-layout data, respectively.

  • 简单背景中的纯渲染 (Pure Rendering in Simple Backgrounds):

    • 这是训练模型识别和生成字符(如英文和中文字符)最直接有效的方法。
    • 文本段落从大规模高质量语料库中提取,并使用动态布局算法渲染到干净的背景上,该算法根据画布大小调整字体大小和间距。
    • 采用严格的质量控制机制:如果段落中的任何字符因限制(如字体不可用或渲染错误)而无法渲染,则整个段落将被丢弃。这确保只有完全有效和清晰的样本被纳入数据集,从而保持字符级文本的高保真度。
  • 上下文场景中的组合渲染 (Compositional Rendering in Contextual Scenes):

    • 该策略侧重于将合成文本嵌入到真实的视觉上下文中,模拟其在日常环境中的外观。
    • 文本被模拟为书写或打印在各种物理介质上(如纸张或木板),然后无缝地合成到不同的背景图像中,以创建视觉连贯的场景。
    • 使用 Qwen-VL Captioner 为每个合成图像生成描述性标题,捕获文本与其周围视觉元素之间的上下文关系。这显著提高了模型在真实世界场景中理解和生成文本的能力。
  • 结构化模板中的复杂渲染 (Complex Rendering in Structured Templates):

    • 为了提高模型遵循涉及布局敏感内容的复杂结构化提示的能力,研究人员提出了一种基于对预定义模板(如 PowerPoint 幻灯片或用户界面模型)进行程序化编辑的合成策略。
    • 设计了一个全面的基于规则的系统,以自动化替换占位符文本,同时保持布局结构、对齐和格式的完整性。
    • 这些合成示例对于帮助模型理解和执行涉及多行文本渲染、精确空间布局以及文本字体和颜色控制的详细指令至关重要。

4.3. 训练

4.3.1. 预训练 (Pre-training)

Qwen-Image 采用 流匹配 (flow matching) 训练目标进行预训练,通过普通微分方程 (ODE) 促进稳定的学习动态,同时保持与最大似然目标 (maximum likelihood objective) 的等效性。

形式上,令 x0x_0 表示输入图像的潜在表示 (latent)。潜在表示 zz 通过变分自编码器 (VAE) 编码器 E\mathcal{E} 编码 x0x_0 获得,即 zE(x)z \doteq \mathcal{E}(x),其中 E:xz\mathcal{E}: x \mapsto z。接下来,从标准多元正态分布中采样一个随机噪声向量 x1x_1,即 x1N(0,I)x_1 \sim \mathcal{N}(0, \mathbf{I})。对于用户输入 SS,其可能包含文本或文本与图像的组合,指导潜在表示 hh 从 MLLM ϕ\phi 获得,即 hϕ(s)h \doteq \phi(\boldsymbol{s}),其中 ϕ:Shˉ\phi: \bar{S \mapsto h}。此外,从 logit-normal 分布中采样一个扩散时间步 tt,其中 t[0,1]t \in [0, 1]。根据 整流流 (Rectified Flow) (Liu et al., 2022; Esser et al., 2024),在时间步 tt 的中间潜在变量 xtx_t 及其对应的速度 vtv_t 可以计算为:

{xt=tx0+(1t)x1vt=dxtdt=x0x1 \left\{ \begin{array}{l} x_t = t x_0 + (1 - t) x_1 \\ \displaystyle v_t = \frac{d x_t}{d t} = x_0 - x_1 \end{array} \right. 然后,模型被训练来预测目标速度,损失函数被定义为预测输出 fθ(xt,t)f_\theta(x_t, t) 与真实速度 vtv_t 之间的均方误差 (Mean Squared Error, MSE):

L=E(x0,h)D,x1,tvθ(xt,t,h)vt2 \mathcal{L} = \mathbb{E}_{(\boldsymbol{x}_0, h) \sim \mathcal{D}, \boldsymbol{x}_1, t} \left. \| v_\theta(x_t, t, h) - v_t \|^2 \right. 其中 vθ(xt,t,h)v_\theta(x_t, t, h) 是模型预测的速度,D\mathcal{D} 表示训练数据集。

生产者-消费者框架 (Producer-Consumer Framework)

为确保在大规模 GPU 集群上实现高吞吐量和训练稳定性,Qwen-Image 采用受 Ray (Moritz et al., 2018) 启发的生产者-消费者框架,将数据预处理与模型训练解耦。这种设计使两个阶段能够异步运行并以最佳效率运行。

  • 生产者 (Producer): 负责根据预定义标准(如图像分辨率和检测操作符)过滤原始图像-标题对。然后,选定的数据使用 MLLM 模型(如 Qwen2.5 VL)和 VAE 编码为潜在表示。处理后的图像按分辨率分组到快速访问缓存桶中,并存储在共享的、位置感知的存储中,允许消费者立即获取。生产者和消费者之间通过使用特定的 HTTP 传输层实现连接,该层原生支持异步、零拷贝调度所需的 RPC 语义。
  • 消费者 (Consumer): 部署在 GPU 密集型集群上,专门用于模型训练。通过将所有数据处理卸载到生产者,消费者节点可以将全部计算预算用于训练 MMDiT 模型。MMDiT 参数在这些节点之间以 4 路张量并行布局 (4-way tensor-parallel layout) 进行分布式处理,每个数据并行组 (data-parallel group) 异步地直接从生产者拉取预处理批次。

分布式训练优化 (Distributed Training Optimization)

鉴于 Qwen-Image 模型的巨大参数量,仅使用 FSDP (Zhao et al., 2023) 不足以在每个 GPU 上容纳模型。因此,研究人员利用 Megatron-LM (Shoeybi et al., 2019; Korthikanti et al., 2023) 进行训练,并应用了以下优化措施:

  • 混合并行策略 (Hybrid Parallelism Strategy): 结合数据并行 (data parallelism) 和张量并行 (tensor parallelism) 以高效地在大规模 GPU 集群上扩展训练。具体而言,为实现张量并行,MMDiT 模型使用 Transformer-Engine 库构建,该库允许在不同程度的张量并行之间无缝自动切换。此外,对于多头自注意力块 (multi-head self-attention blocks),研究人员采用头内并行 (head-wise parallelism) 来减少与沿头部维度进行的张量并行相比的同步和通信开销。
  • 分布式优化器和激活检查点 (Distributed Optimizer and Activation Checkpointing): 为缓解 GPU 内存压力,同时在反向传播期间最小化重新计算开销,研究人员实验了分布式优化器和激活检查点。然而,激活检查点在反向传播过程中引入了大量的计算开销,这会显著降低训练速度。通过与 256 多分辨率图像训练设置的经验比较,研究人员观察到启用激活检查点将每个 GPU 的内存消耗减少了 11.3%11.3\% (从 71GB 降至 63GB),但代价是每次迭代时间增加了 3.75×3.75 \times (从 2 秒增至 7.5 秒)。基于此权衡,在训练中,所有 all-gather 操作在 bfloat16 中执行,而梯度 reduce-scatter 操作使用 float32,确保计算效率和数值稳定性。

训练策略 (Training Strategy)

Qwen-Image 采用多阶段预训练策略,旨在逐步提升数据质量、图像质量和数据分布。研究人员设计了多种训练策略来优化学习过程:

  • 提升分辨率:从低分辨率到高分辨率 (Enhancing Resolution: From Low Resolution to High Resolution): 逐步提升多分辨率、多宽高比输入,从初始的 256×256256 \times 256 像素(含多种宽高比)开始,然后增加到 640×640640 \times 640 像素,最终达到 1328×13281328 \times 1328 像素。通过提升图像分辨率,模型可以捕获更详细的特征,从而获得更好的性能。更丰富的特征空间有助于更好地泛化到未见过的数据。
  • 整合文本渲染:从非文本到文本 (Integrating Textual Rendering: From Non-text to Text): 针对传统视觉数据集中文本内容有限以及由此导致字形生成性能不佳(特别是中文字符)的问题,研究人员逐步引入包含叠加在自然背景上的渲染文本的图像。该策略使模型能够首先学习通用的视觉表示,然后逐步获得文本渲染能力。
  • 数据质量:从粗糙数据到高质量数据 (Data Quality: From Unbalanced to Balanced): 利用大规模数据集使模型获得基本的视觉生成能力。随着训练的进行,逐步采用越来越严格的数据过滤机制来选择更高质量的数据,确保只有最相关和高质量的样本被用于训练,从而保证训练效率和模型性能。
  • 平衡数据分布:从不平衡到平衡 (Balancing Data Distribution: From Unbalanced to Balanced): 在整个训练过程中,逐步平衡域和图像分辨率分布的数据集。这种调整降低了模型对特定域或分辨率过拟合的风险,否则可能会损害未充分代表设置中生成图像的保真度和细粒度细节。通过维持更均匀的数据分布,促进了跨不同域和分辨率的鲁棒泛化。
  • 增强合成数据:从真实世界数据到合成数据 (Augmenting with Synthetic Data: From Real-World Data to Synthetic Data): 某些数据分布,如超现实主义风格或包含大量文本内容的高分辨率图像,在真实世界数据集中代表不足甚至缺失。此外,一些高质量数据样本的可用性本身就有限。为解决这些空白,研究人员采用数据合成技术生成补充样本,从而丰富数据集并确保更全面地覆盖多样化的视觉领域。这种增强策略提升了模型的泛化能力,使其在更广泛的场景中表现稳健。

4.3.2. 后训练 (Post-training)

在预训练之后,Qwen-Image 的后训练框架由两个阶段组成:监督微调 (Supervised Fine-Tuning, SFT) 和强化学习 (Reinforcement Learning, RL) (Kaelbling et al., 1996)。

(A) 监督微调 (SFT)

SFT 阶段,研究人员构建了一个分层组织的语义类别数据集,并采用清晰、细节丰富、明亮和逼真的提示来指导模型生成具有更高真实感和更精细细节的内容。

(B) 强化学习 (RL)

研究人员采用了两种不同的 RL 策略:直接偏好优化 (Direct Preference Optimization, DPO) (Rafailov et al., 2023) 和组相对策略优化 (Group Relative Policy Optimization, GRPO) (Shao et al., 2024)。DPO 擅长流匹配 (单步) 在线偏好建模,计算效率高,而 GRPO 在训练期间进行在策略 (on-policy) 采样,并使用奖励模型评估每个轨迹。为了利用离线偏好学习的可扩展性优势,研究人员使用 DPO 进行相对大规模的 RL,并保留 GRPO 进行小规模的细粒度 RL 精炼。

直接偏好优化 (DPO)
  • 数据准备: 对于 DPO 训练数据,给定相同的提示,会使用不同的随机初始化种子生成多张图像。然后,人类标注员的任务是从这些候选图像中选择最佳和最差的图像。数据分为两类:与参考(黄金)图像相关的提示,以及没有参考图像的提示。
    • 对于有参考图像的数据,标注员首先将生成结果与参考图像进行比较。如果存在显著差异,标注员被指示将最差的生成结果标记为拒绝样本。
    • 对于没有参考图像的提示,标注员被要求在生成的图像中选择最佳和最差样本,或者指出所有生成结果的质量都不令人满意。
  • 算法: 给定文本隐藏状态 hh、选择的生成图像(或黄金图像)x0winx_0^{win} 和拒绝的生成图像 x0losex_0^{lose},研究人员采样时间步 t(0,1)t \sim (0, 1) 来构造输入潜在变量 xtwinx_t^{win}xtlosex_t^{lose} 以及它们对应的速度 vtwinv_t^{win}vtlosev_t^{lose},遵循公式 (1)。然后,受先前工作 (Wallace et al., 2024) 启发,研究人员基于流匹配训练损失构建 DPO 目标,其公式如下: (Diffpolicy=vθ(xtwin,h,t)vtwin2vθ(xtlose,h,t)vtlose2){Diffref=vref(xtwin,h,t)vtwin2vref(xtlose,h,t)vtlose2)LDPO=Eh,(x0win,x0lose)D,tU(0,1)[logσ(β(DiffpolicyDiffref))] \begin{array}{rl} & (\mathrm{Diff}_{\mathrm{policy}} = \| v_\theta(x_t^{win}, h, t) - v_t^{win} \|^2 - \| v_\theta(x_t^{lose}, h, t) - v_t^{lose} \|^2) \\ & \{ \mathrm{Diff}_{\mathrm{ref}} = \| v_{\mathrm{ref}}(x_t^{win}, h, t) - v_t^{win} \|^2 - \| v_{\mathrm{ref}}(x_t^{lose}, h, t) - v_t^{lose} \|^2) \\ & \mathcal{L}_{DPO} = - \mathbb{E}_{h, (x_0^{win}, x_0^{lose}) \sim \mathcal{D}, t \sim \mathcal{U}(0, 1)} [ \log \sigma \Big( - \beta (\mathrm{Diff}_{\mathrm{policy}} - \mathrm{Diff}_{\mathrm{ref}}) \Big) ] \end{array} 其中 Diffpolicy\mathrm{Diff}_{\mathrm{policy}}Diffref\mathrm{Diff}_{\mathrm{ref}} 分别表示由策略模型 (policy model) 和参考模型 (reference model) 计算的偏好差异,β\beta 是一个缩放参数,σ()\sigma(\cdot) 表示 Sigmoid 函数。
组相对策略优化 (GRPO)

Qwen-Image 遵循 Flow-GRPO (Liu et al., 2025a) 框架。给定文本隐藏状态 hh,流模型预测一组 GG 个图像 {x0i}i=1G\{x_0^i\}_{i=1}^G,并生成对应的轨迹 {xTi,xT1i,...,x0i}i=1G\{x_T^i, x_{T-1}^i, ..., x_0^i\}_{i=1}^G。在每个组内,优势函数 (advantage function) 可以公式化为: Ai=R(x0i,h)mean({R(x0i,h)}i=1G)std({R(x0i,h)}i=1G) A_i = \frac{R(x_0^i, h) - mean(\{R(x_0^i, h)\}_{i=1}^G)}{std(\{R(x_0^i, h)\}_{i=1}^G)} 其中 RR 是奖励模型 (reward model)。然后,GRPO 的训练目标是: LGRPO(θ)=ED,{xTi,,x0i}i=1Gπθ1Gi=1G1Tt=0T1(min(rti(θ)Ai,clip(rti(θ),1ϵ,1+ϵ)Ai)βDKL(πθπref)) \begin{array}{rl} & \mathcal{L}_{\mathrm{GRPO}}(\theta) = \mathbb{E}_{\hbar \sim \mathcal{D}, \{x_T^i, \sim, x_0^i\}_{i=1}^G \sim \pi_\theta} \\ & \quad \frac{1}{G} \displaystyle \sum_{i=1}^G \frac{1}{T} \displaystyle \sum_{t=0}^{T-1} \left( \operatorname*{min}(r_t^i(\theta) A_i, \mathrm{clip}(r_t^i(\theta), 1 - \epsilon, 1 + \epsilon) A_i) - \beta D_{KL}(\pi_\theta || \pi_{\mathrm{ref}}) \right) \end{array} 其中 rti(θ)=πθ(xt1ixti,h)πref(xt1ixti,h)r_t^i(\theta) = \frac{\pi_\theta(x_{t-1}^i | x_t^i, h)}{\pi_{\mathrm{ref}}(x_{t-1}^i | x_t^i, h)} 是重要性采样比 (importance sampling ratio),ϵ\epsilon 是裁剪参数,β\betaKL 散度项的权重。

当采样 {xTi,...,x0i}i=1Gπθ\{x_T^i, ..., x_0^i\}_{i=1}^G \sim \pi_\theta 时,根据公式 (1),我们有 dxt=vtdtdx_t = v_t dt,其中 vt=vθ(xt,t,h)v_t = v_\theta(x_t, t, h) 是预测的速度。然而,这种采样策略没有随机性,不适合探索。因此,研究人员将采样过程重新公式化为 随机微分方程 (Stochastic Differential Equation, SDE) 过程以增加随机性。SDE 采样过程可以写为: dxt=(vt+σt22t(xt+(1t)vt))dt+σtdw dx_t = \left( v_t + \frac{\sigma_t^2}{2t} (x_t + (1 - t) v_t) \right) dt + \sigma_t dw 其中 σt\sigma_t 表示随机性的幅度,dw 是维纳过程 (Wiener process) 的增量。使用 Euler-Maruyama 离散化 (discretization),我们有: xt+Δt=xt+[vθ(xt,t,h)+σt22t(xt+(1t)vθ(xt,t,h))]Δt+σtΔtϵ x_{t + \Delta t} = x_t + \left[ v_\theta(x_t, t, h) + \frac{\sigma_t^2}{2t} (x_t + (1 - t) v_\theta(x_t, t, h)) \right] \Delta t + \sigma_t \sqrt{\Delta t} \epsilon 其中 ϵN(0,I)\epsilon \sim \mathcal{N}(0, \mathbf{I})。此方程用于采样轨迹。公式 (5) 中的 KL 散度项可以以闭合形式求解: DKL(πθπref)=Δt2(σt(1t)2t+1σt)2vθ(xt,t,h)vref(xt,t,h)2 D_{KL}(\pi_\theta || \pi_{\mathrm{ref}}) = \frac{\Delta t}{2} \left( \frac{\sigma_t (1 - t)}{2t} + \frac{1}{\sigma_t} \right)^2 \| v_\theta(x_t, t, h) - v_{\mathrm{ref}}(x_t, t, h) \|^2 这个闭合形式的解简化了 GRPO 训练中的 KL 散度计算。

4.3.3. 多任务训练 (Multi-task training)

除了文本到图像 (T2I) 生成,Qwen-Image 将基础模型扩展到探索结合文本和图像输入的多模态图像生成任务,包括基于指令的图像编辑 (Wang et al., 2025)、新视角合成 (novel view synthesis) (Wang et al., 2024b) 和计算机视觉任务,如深度估计 (depth estimation) (Bochkovski et al., 2024)。这些任务可以广义地视为通用图像编辑任务。

基于 Qwen2.5-VL 的能力,模型原生支持图像输入:从用户提供的图像中提取的视觉块 (visual patches) 由 Vision Transformer (ViT) 编码,并与文本词元连接形成输入序列。

为了更好地支持图像编辑任务,研究人员设计了如图 Figure 15 所示的系统提示,并将输入图像和文本指令都作为输入提供给 Qwen-Image MMDiT 的文本流。

Figure 14: Overview of the Image Editing (TI2I) task. Left: Illustration of the TI2I task training input format. The user prompt is "Turn into realistic style" in English. Right: The corresponding modification to MSRoPE for TI2I, where a new dimension (frame) is introduced to distinguish between the images before and after editing. 该图像是示意图,展示了Qwen-Image模型在图像编辑任务中的工作流程。左侧显示输入图像与用户提示,右侧则展示了编辑过程中的特征分解,包括宽度、图高和框架的变化。

Figure 14: Overview of the Image Editing (TI2I) task. Left: Illustration of the TI2I task training input format. The user prompt is "Turn into realistic style" in English. Right: The corresponding modification to MSRoPE for TI2I, where a new dimension (frame) is introduced to distinguish between the images before and after editing.

系统提示 (System prompt) for TI2I task:

<|im_start|>system   
Describe the key features of the input image (color, shape, size, texture, objects, background), then   
explain how the user's text instruction should alter or modify the image. Generate a new image that   
meets the user's requirements while maintaining consistency with the original input where appropri  
ate. <|im_end|>   
<|im_start|>user   
<|vision_start|> <|user_image|> <|vision_end|> <|user_text|> <|im_end|>   
<|im_start|>assistant

其中 <|user_image|> 是用户输入图像,<|user_text|> 是用户输入提示。

受先前工作 (Labs et al., 2025) 的启发,即结合 VAE 嵌入有助于保持字符和场景一致性,研究人员额外将输入图像的 VAE 编码潜在表示 (latent representation) 输入到图像流中,并将其与噪声图像潜在表示沿序列维度连接。为了使模型能够区分多张图像,研究人员通过引入一个额外的 帧维度 (frame dimension) 扩展了 MSRoPE,除了用于定位单张图像中图像块的高度和宽度(参见 Figure 14 的右侧)。经验发现,提供来自 MLLM 的视觉语义嵌入 (visual semantic embeddings) 能够更好地遵循指令,而引入像素级 VAE 嵌入 (pixel-level VAE embeddings) 则进一步增强了模型保持视觉保真度和与用户提供图像的结构一致性的能力。

5. 实验设置

5.1. 人工评估 (Human Evaluation)

为了全面评估 Qwen-Image 的通用图像生成能力,并客观地将其与闭源竞争对手进行比较,研究人员构建了一个基于 Elo 评分系统 (Elo & Sloan, 2008) 的开放平台 AI Arena,如图 Figure 16 所示。

该图像是一个示意图,展示了文本到图像生成任务中的一项比较,左侧为用户选择的两张图片,右侧为文本到图像模型的Elo排行榜,突出显示了Qwen-Image模型的表现。 该图像是一个示意图,展示了文本到图像生成任务中的一项比较,左侧为用户选择的两张图片,右侧为文本到图像模型的Elo排行榜,突出显示了Qwen-Image模型的表现。

Figure 16: Comparison of Qwen-Image and leading closed-source APIs on the AI Arena platform. Users can compare images generated by two anonymous models based on the prompt and choose which one is better, both are good, or both are bad. ELo Leaderboard is powered by Qwen3-Coder (Qwen, 2025) from chat.qwen.ai.

AI Arena 是一个公平且动态的开放竞争平台。在每一轮中,两个由随机选择的模型使用相同提示生成的图像会匿名呈现给用户进行配对比较。用户投票选出更优的图像,结果通过 Elo 算法更新个人和全球排行榜。研究人员策展了约 5,000 个涵盖主题、风格、摄影视角等多样评估维度的提示。超过 200 名来自不同专业背景的评估员受邀参与评估过程。

AI Arena 已向公众开放,任何人都可以参与模型比较。为了保持客观性,排除了涉及中文文本的提示,因为大多数闭源 API 不可靠地支持中文文本生成。

比较对象包括五种最先进的闭源 API:Imagen 4 Ultra Preview 0606 (Google, 2025)、Seedream 3.0 (Gao et al., 2025)、GPT Image 1 [High] (OpenAI, 2025)、FLUX.1 Kontext [Pro] (Labs et al., 2025) 和 Ideogram 3.0 (Ideogram, 2025)。迄今为止,每个模型至少参与了 10,000 次配对比较。

5.2. 定量结果 (Quantitative Results)

为了全面评估 Qwen-Image 的视觉生成能力,研究人员首先在 5.2.1 节报告了其 VAE 重建性能,以展示模型生成质量的上限。随后,在 5.2.2 节和 5.2.3 节对文本到图像 (T2I) 和图像编辑 (TI2I) 两个基本视觉生成任务进行了评估。

5.2.1. VAE 重建性能 (Performance of VAE Reconstruction)

研究人员量化评估了几种最先进的图像词元化器 (image tokenizers) 的重建质量,报告了峰值信噪比 (PSNR) 和结构相似性指数 (SSIM)。所有比较的 VAE 均以 8×88 \times 8 的压缩率和 16 的潜在通道维度运行。FLUX-VAECosmos-CI-VAESD-3.5-VAE 是图像词元化器,而 Wan2.1-VAEHunyuan-VAEQwen-Image-VAE 兼作图像和视频词元化器。为了公平比较,报告了有效图像参数(参见 Table 2 中的“Image Params”),这考虑了将联合模型中的 3D 卷积转换为等效的 2D 卷积用于图像处理。

评估在 ImageNet-1k (Deng et al., 2009) 验证集上以 256×256256 \times 256 分辨率进行,用于评估通用领域性能。为了进一步评估小文本上的重建能力,还包括了在内部文本丰富语料库上的重建结果,该语料库涵盖多样文本来源(PDF、PPT 幻灯片、海报和合成文本)和语言。为了提高数值精度,词元化器使用 float32 进行评估。

以下是原文 Table 2 的结果:

Model # Params # Image Params Imagenet_256x256 Text_256x256
Enc Dec Enc Dec PSNR(↑) SSIM(↑) PSNR(↑) SSIM(↑)
Wan2.1-VAE (Wan et al., 2025) 54M 73M 19M 25M 31.29 0.8870 26.77 0.9386
Hunyuan-VAE (Kong et al., 2024) 100M 146M 34M 50M 33.21 0.143 32.83 0.9773
FLUX-VAE (BlackForest, 2024) 34M 50M 34M 50M 32.84 0.9155 32.65 0.9792
Cosmos-CI-VAE (Agarwal et al., 2025) 31M 46M 31M 46M 32.23 0.9010 30.62 0.9664
SD-3.5-VAE (Esser et al., 2024) 34M 50M 34M 50M 31.22 0.8839 29.93 0.9658
Qwen-Image-VAE 54M 73M 19M 25M 33.42 0.9159 36.63 0.9839

Table 2: Quantitative Evaluation results of VAE.

如 Table 2 所示,Qwen-Image-VAE 在所有评估指标上均达到最先进的重建性能。 值得注意的是,在处理图像时,Qwen-Image-VAE 仅激活编码器中的 19M 参数和解码器中的 25M 参数,实现了重建质量和计算效率之间的最佳平衡。

5.2.2. 文本到图像生成性能 (Performance of Text-to-Image Generation)

研究人员从两个角度评估了 Qwen-Image 在文本到图像 (T2I) 任务上的性能:通用生成能力和文本渲染能力。

  • 通用生成能力评估基准: DPG (Hu et al., 2024b)、GenEval (Ghosh et al., 2023)、OneIG-Bench (Chang et al., 2025) 和 TIIF (Wei et al., 2025)。
  • 文本渲染能力评估基准:
    • 英文文本渲染: CVTG-2K (Du et al., 2025),专门用于评估渲染英文文本的可读性。
    • 中文文本渲染: 新基准 ChineseWord,评估模型渲染中文字符的能力。
    • 长文本渲染: LongText-Bench (Geng et al., 2025),评估模型精确渲染长文本的能力(英语和中文)。

DPG

以下是原文 Table 3 的结果:

Model Global Entity Attribute Relation Other Overall↑
SD v1.5 (Rombach et al., 2021) 74.63 74.23 75.39 73.49 67.81 63.18
PixArt-α (Chen et al., 2024c) 74.97 79.32 78.60 82.57 76.96 71.11
Lumina-Next (Zhuo et al., 2024) 82.82 88.65 86.44 80.53 81.82 74.63
SDXL (Podell et al., 2023) 83.27 82.43 80.91 86.76 80.41 74.65
Playground v2.5 (Li et al., 2024a) 83.06 82.59 81.20 84.08 83.50 75.47
Hunyuan-DiT (Li et al., 2024b) 84.59 80.59 88.01 74.36 86.41 78.87
Janus (Wu et al., 2025a) 82.33 87.38 87.70 85.46 86.41 79.68
PixArt-Σ (Chen et al., 2024b) 86.89 82.89 88.94 86.59 87.68 80.54
Emu3-Gen (Wang et al., 2024a) 85.21 86.68 86.84 90.22 83.15 80.60
Janus-Pro-1B (Chen et al., 2025b) 87.58 88.63 88.17 88.98 88.30 82.63
DALL-E 3 (OpenAI, 2023) 90.97 89.61 88.39 90.58 89.83 83.50
FLUX.1 [Dev] (BlackForest, 2024) 74.35 90.00 88.96 90.87 88.33 83.84
SD3 Medium (Esser et al., 2024) 87.90 91.01 88.83 80.70 88.68 84.08
Janus-Pro-7B (Chen et al., 2025b) 86.90 88.90 89.40 89.32 89.48 84.19
HiDream-I1-Full (Cai et al., 2025) 76.44 90.22 89.48 93.74 91.83 85.89
Lumina-Image 2.0 (Qin et al., 2025) - 91.97 90.20 94.85 - 87.20
Seedream 3.0 (Gao et al., 2025) 94.31 92.65 91.36 92.78 88.24 88.27
GPT Image 1 [High] (OpenAI, 2025) 88.89 89.84 92.63 90.96 85.15
Qwen-Image 91.32 91.56 92.02 94.31 92.73 88.32

Table 3: Quantitative evaluation results on DPG (Hu et al., 2024b).

分析: DPG 基准包含 1K 个密集提示 (dense prompts),用于细粒度评估模型在提示遵循方面的不同方面。Qwen-Image 取得了最高的总体得分 88.32,表明其卓越的提示遵循能力。特别是,Qwen-Image 在解释涉及属性 (Attribute)其他方面 (Other) 的提示时表现出色,超越了所有其他比较模型。

GenEval

以下是原文 Table 4 的结果:

Model Single Object Two Object Counting Colors Position Attribute Binding Overall↑
Show-o (Xie et al., 2024) 0.95 0.52 0.49 0.82 0.11 0.28 0.53
Emu3-Gen (Wang et al., 2024a) 0.98 0.71 0.34 0.81 0.17 0.21 0.54
PixArt-α (Chen et al., 2024c) 0.98 0.50 0.44 0.80 0.08 0.07 0.48
SD3 Medium (Esser et al., 2024) 0.98 0.74 0.63 0.67 0.34 0.36 0.62
FLUX.1 [Dev] (BlackForest, 2024) 0.98 0.81 0.74 0.79 0.22 0.45 0.66
SD3.5 Large (Esser et al., 2024) 0.98 0.89 0.73 0.83 0.34 0.47 0.71
JanusFlow (Ma et al., 2025) 0.97 0.59 0.45 0.83 0.53 0.42 0.63
Lumina-Image 2.0 (Qin et al., 2025) 0.87 0.67 0.62 0.73
Janus-Pro-7B (Chen et al., 2025b) 0.99 0.89 0.59 0.90 0.79 0.66 0.80
HiDream-I1-Full (Cai et al., 2025) 1.00 0.98 0.79 0.91 0.60 0.72 0.83
GPT Image 1 [High] (OpenAI, 2025) 0.99 0.92 0.85 0.92 0.75 0.61 0.84
Seedream 3.0 (Gao et al., 2025) 0.99 0.96 0.91 0.93 0.47 0.80 0.84
Qwen-Image 0.99 0.92 0.89 0.88 0.76 0.77 0.87
Qwen-Image-RL 1.00 0.95 0.93 0.92 0.87 0.83 0.91

Table 4: Quantitative Evaluation results on GenEval (Ghosh et al., 2023).

分析: GenEval 基准侧重于使用具有多样对象属性的组合提示进行以对象为中心的文本到图像生成。研究人员分别评估了 SFT 模型和 RL 增强模型与其他领先基础模型的性能。Qwen-Image 的基础模型已超越了最先进水平,优于 Seedream 3.0GPT Image 1 [High]。经过强化学习微调 (RL fine-tuning) 后,Qwen-Image-RL 取得了更高的 0.91 分数,是排行榜上唯一超过 0.9 阈值的基础模型。 这证明了 Qwen-Image 卓越的可控生成能力。

OneIG-Bench

OneIG-Bench (Chang et al., 2025) 是一个综合基准,用于细粒度评估 T2I 模型在多个维度上的性能。为了公平的总体比较,研究人员将所有维度得分取平均值以获得最终总体得分。

以下是原文 Table 5 的结果(英文):

Model Alignment Text Reasoning Style Diversity Overall↑
Janus-Pro (Chen et al., 2025b) 0.553 0.001 0.139 0.276 0.365 0.267
BLIP3-o (Chen et al., 2025a) 0.711 0.013 0.223 0.361 0.229 0.307
BAGEL (Deng et al., 2025) 0.769 0.244 0.173 0.367 0.251 0.361
BAGEL+CoT (Deng et al., 2025) 0.793 0.020 0.206 0.390 0.209 0.324
Show-o2-1.5B (Xie et al., 2025b) 0.798 0.002 0.219 0.317 0.186 0.304
Show-o2-7B (Xie et al., 2025b) 0.817 0.002 0.226 0.317 0.177 0.308
OmniGen2 (Wu et al., 2025b) 0.804 0.680 0.271 0.377 0.242 0.475
SD 1.5 (Rombach et al., 2021) 0.565 0.010 0.207 0.383 0.429 0.319
SDXL (Podell et al., 2023) 0.688 0.029 0.237 0.332 0.296 0.316
SD3.5 Large (Esser et al., 2024) 0.809 0.629 0.294 0.353 0.225 0.462
FLUX.1 [Dev] (BlackForest, 2024) 0.786 0.523 0.253 0.368 0.238 0.434
CogView4 (Z.ai, 2025) 0.786 0.641 0.246 0.353 0.205 0.446
SANA-1.5 1.6B (PAG) (Xie et al., 2025a) 0.762 0.054 0.209 0.387 0.222 0.327
SANA-1.5 4.8B (PAG) (Xie et al., 2025a) 0.765 0.069 0.217 0.401 0.216 0.334
Lumina-Image 2.0 (Qin et al., 2025) 0.819 0.106 0.270 0.354 0.216 0.353
HiDream-I1-Full (Cai et al., 2025) 0.829 0.707 0.317 0.347 0.186 0.477
Imagen3 (Google, 2024) 0.843 0.343 0.313 0.359 0.188 0.409
Recraft V3 (Recraft, 2024) 0.810 0.795 0.323 0.378 0.205 0.502
Kolors 2.0 (team, 2025) 0.820 0.427 0.262 0.360 0.300 0.434
Seedream 3.0 (Gao et al., 2025) 0.818 0.865 0.275 0.413 0.277 0.530
Imagen4 (Google, 2025) 0.857 0.805 0.338 0.377 0.199 0.515
GPT Image 1 [High] (OpenAI, 2025) 0.851 0.857 0.345 0.462 0.151 0.533
Qwen-Image 0.882 0.891 0.306 0.418 0.197 0.539

Table 5: Quantitative evaluation results on OneIG-Bench (Chang et al., 2025). The overall score is the average of the five dimensions.

分析:OneIG-Bench (英文) 上,Qwen-Image 取得了最高的总体得分 0.539,超越了 GPT Image 1 [High]Seedream 3.0。它在 对齐 (Alignment)文本 (Text) 类别中排名第一,这进一步证明了其卓越的提示遵循能力和文本渲染能力。

以下是原文 Table 6 的结果(中文):

Model Alignment Text Reasoning Style Diversity Overall↑
Janus-Pro (Chen et al., 2025b) 0.324 0.148 0.104 0.264 0.358 0.240
BLIP3-o (Chen et al., 2025a) 0.608 0.092 0.213 0.369 0.233 0.303
BAGEL (Deng et al., 2025) 0.672 0.365 0.186 0.357 0.268 0.370
BAGEL+CoT (Deng et al., 2025) 0.719 0.127 0.219 0.385 0.197 0.329
Cogview4 (Z.ai, 2025) 0.700 0.193 0.236 0.348 0.214 0.338
Lumina-Image 2.0 (Qin et al., 2025) 0.731 0.136 0.221 0.343 0.240 0.334
HiDream-I1-Full (Cai et al., 2025) 0.620 0.205 0.256 0.304 0.300 0.337
Kolors 2.0 (team, 2025) 0.738 0.502 0.226 0.331 0.333 0.426
Seedream 3.0 (Gao et al., 2025) 0.793 0.928 0.281 0.397 0.243 0.528
GPT Image 1 [High] (OpenAI, 2025) 0.812 0.650 0.300 0.449 0.159 0.474
Qwen-Image 0.825 0.963 0.267 0.405 0.279 0.548

Table 6: Quantitative evaluation results on OneIG-Bench (Chang et al., 2025). The overall score is the average of the five dimensions.

分析:OneIG-Bench (中文) 上,Qwen-Image 同样取得了最高的总体得分 0.548,显著优于 Seedream 3.0GPT Image 1 [High]。尤其是在 文本 (Text) 维度上,Qwen-Image0.963 远超所有竞争对手,充分展示了其在中文文本渲染方面的强大优势。

TIIF

TIIF Bench mini (Wei et al., 2025) 是一个旨在系统评估 T2I 模型解释和遵循复杂文本指令能力的基准。

以下是原文 Table 7 的结果:

Model Overall Basic Following Advanced Following Designer
Avg Attribute Relation Reasoning Avg Attribute Attribute Relation+Relation+Reasoning +Reasoning Style Text RealWorld
short long short long short long short long short long short long short long short long short long short long short long short long
FLUX.1 [dev] (BlackForest, 2024) 71.09 71.78 83.12 78.65 87.05 83.17 87.25 80.39 75.01 72.39 65.79 68.54 67.07 73.69 73.84 73.34 69.09 71.59 66.67 66.67 43.83 52.83 70.72 71.47
FLUX.1 [Pro] (BlackForest, 2024) 67.32 69.89 79.08 78.91 78.83 81.33 82.82 83.82 75.57 71.57 61.10 65.37 62.32 65.57 61.10 65.37 62.32 65.57 69.84 71.47 65.96 67.72 63.00 63.00 35.83 55.83 71.80 68.80
DALL-E 3 (OpenAI, 2023) 74.96 70.81 78.72 78.50 79.50 79.83 80.82 78.82 75.82 76.82 73.39 67.27 73.45 67.20 73.39 67.27 73.45 67.20 72.01 71.34 63.59 60.72 89.66 86.67 66.83 54.83 72.93 60.99
SD 3 (Esser et al., 2024) 67.46 66.09 78.32 77.75 83.33 79.83 82.07 78.82 71.07 74.07 61.46 59.56 61.07 64.07 66.67 76.67 59.83 20.83 63.23 67.34
PixArt-Σ (Chen et al., 2024b) 62.00 58.12 70.66 75.25 69.33 78.83 75.07 77.32 67.57 69.57 57.65 49.50 65.20 56.57 66.96 61.72 66.59 54.59 83.33 70.00 1.83 1.83 62.11 52.41
Lumina-Next (Zhuo et al., 2024) 50.93 52.46 64.58 66.08 56.83 59.33 67.57 71.82 69.32 67.07 44.75 45.63 51.44 43.20 44.75 45.63 51.44 43.20 51.09 59.72 44.72 54.46 70.00 66.67 0.00 0.83 47.56 49.05
Hunyuan-DiT (Li et al., 2024b) 51.38 53.28 69.33 69.00 65.83 69.83 78.07 73.82 64.07 63.32 42.62 45.45 50.20 41.57 59.22 61.84 47.84 51.09 56.67 73.33 0.00 0.83 40.10 44.20
Show-o (Xie et al., 2024) 59.72 58.86 73.08 75.83 74.83 79.83 78.82 78.32 65.57 69.32 53.67 50.38 60.95 56.82 53.67 50.38 60.95 56.82 68.59 68.96 66.46 56.22 63.33 66.67 3.83 2.83 55.02 50.92
LightGen (Wu et al., 2025c) 53.22 43.41 66.58 47.91 55.83 47.33 74.82 45.82 69.07 50.57 46.74 41.53 62.44 40.82 46.74 41.53 62.44 40.82 61.71 50.47 50.34 45.34 53.33 53.33 0.00 6.83 50.92 50.55
SANA 1.5 (Xie et al., 2025a) 67.15 65.73 79.66 77.08 79.83 77.83 85.57 83.57 73.57 69.82 61.50 60.67 65.32 56.57 61.50 60.67 65.32 56.57 69.96 73.09 62.96 65.84 80.00 80.00 17.83 15.83 71.07 68.83
Infinity (Han et al., 2025) 62.07 62.32 73.08 75.41 74.33 76.83 72.82 77.57 72.07 71.82 56.64 54.98 60.44 55.57 56.64 54.98 60.44 55.57 74.22 64.71 60.22 59.71 80.00 73.33 10.83 23.83 54.28 56.89
Janus-Pro-7B (Chen et al., 2025b) 66.50 65.02 79.33 78.25 79.33 82.33 78.32 73.32 80.32 79.07 59.71 58.82 66.07 56.20 59.71 58.82 66.07 56.20 70.46 70.84 67.22 59.97 60.00 70.00 28.83 33.83 65.84 60.25
MidJourney v7 (Midjourney, 2025) 68.74 65.69 77.41 76.00 77.58 81.83 82.07 76.82 72.57 69.32 64.66 60.53 67.20 62.70 64.66 60.53 67.20 62.70 81.22 71.59 60.72 64.59 83.33 80.00 24.83 20.83 68.83 63.61
Seedream 3.0 (Gao et al., 2025) 86.02 84.31 87.07 84.93 90.50 90.00 89.85 85.94 80.86 78.86 79.16 80.60 79.76 81.82 77.23 78.85 75.64 78.64 100.00 93.33 97.17 87.78 83.21 83.58
GPT Image 1 [High] (OpenAI, 2025) 89.15 88.29 90.75 89.66 91.33 87.08 84.57 84.57 96.32 97.32 88.55 88.35 87.07 89.44 87.22 83.96 85.59 83.21 90.00 93.33 89.83 86.83 89.73 93.46
Qwen-Image 86.14 86.83 86.18 87.22 90.50 91.50 88.22 90.78 79.81 79.38 79.30 80.88 79.21 78.94 78.85 81.69 75.57 78.59 100.00 100.00 92.76 89.14 90.30 91.42

Table 7: Quantitative evaluation results on TIIF Bench testmini (Wei et al., 2025). The best result is in bold and the second best result is underlined.

分析: Qwen-ImageTIIF Bench mini 上总体排名第二,仅次于 GPT Image 1,这凸显了其强大的指令遵循能力。特别是在 Text 类别(文本渲染)中,Qwen-Image 在短提示和长提示下都达到了 100.00 的高分,表明其在处理文本指令方面的出色性能。

CVTG-2K

CVTG-2K (Du et al., 2025) 基准用于评估英文渲染性能,包含 2K 个提示,每个提示要求在生成图像上渲染 25 个英文区域。通过词准确率 (Word Accuracy)、归一化编辑距离 (NED) 和 CLIP 得分 (CLIPScore) 来衡量文本渲染的准确性。

以下是原文 Table 8 的结果:

Model Word Accuracy↑ NED↑ CLIPScore↑
2 regions 3 regions 4 regions 5 regions average
SD3.5 Large (Esser et al., 2024) 0.7293 0.6825 0.6574 0.5940 0.6548 0.8470 0.7797
FLUX.1 [dev] (BlackForest, 2024) 0.6089 0.5531 0.4661 0.4316 0.4965 0.6879 0.7401
AnyText (Tuo et al., 2024) 0.0513 0.1739 0.1948 0.2249 0.1804 0.4675 0.7432
TextDiffuser-2 (Chen et al., 2024a) 0.5322 0.3255 0.1787 0.0809 0.2326 0.4353 0.6765
RAG-Diffusion (Chen et al., 2024d) 0.4388 0.3316 0.2116 0.1910 0.2648 0.4498 0.7797
3DIS (Zhou et al., 2024) 0.4495 0.3959 0.3880 0.3303 0.3813 0.6505 0.7767
TextCrafter (Du et al., 2025) 0.7628 0.7628 0.7406 0.6977 0.7370 0.8679 0.7868
Seedream 3.0 (Gao et al., 2025) 0.6282 0.5962 0.6043 0.5610 0.5924 0.8537 0.7821
GPT Image 1 [High] (OpenAI, 2025) 0.8779 0.8659 0.8731 0.8218 0.8569 0.9478 0.7982
Qwen-Image 0.8370 0.8364 0.8313 0.8158 0.8288 0.9116 0.8017

Table 8: Quantitative evaluation results of English text rendering on CVTG-2K (Du et al., 2025).

分析: Qwen-ImageCVTG-2K 上的平均词准确率为 0.8288NED0.9116CLIPScore0.8017。其性能与最先进的图像生成模型(如 GPT Image 1 [High])相当。虽然在词准确率上略低于 GPT Image 1 [High],但在 CLIPScore 上略有超越,这表明了其强大的英文文本渲染能力。

ChineseWord

ChineseWord 是研究人员引入的字符级中文文本渲染新基准。根据《通用规范汉字表》,字符被分为三个难度级别:Level-1 (3500 个字符)、Level-2 (3000 个字符) 和 Level-3 (1605 个字符)。通过精心设计的提示模板,指导文本到图像模型生成包含单个中文字符的图像。

以下是原文 Table 9 的结果:

Model Level-1 Acc Level-2 Acc Level-3 Acc Overall↑
Seedream 3.0 (Gao et al., 2025) 53.48 26.23 1.25 33.05
GPT Image 1 [High] (OpenAI, 2025) 68.37 15.97 3.55 36.14
Qwen-Image 97.29 40.53 6.48 58.30

Table 9: Quantitative comparison results of Chinese text rendering.

分析:ChineseWord 基准上,Qwen-Image 在所有三个级别上都达到了最高的渲染准确率,总体得分 58.30,显著超越 Seedream 3.0 (33.05) 和 GPT Image 1 [High] (36.14)。特别是在 Level-1 字符上,Qwen-Image 达到了 97.29% 的准确率,这凸显了其卓越的中文文本渲染能力。

LongText-Bench

LongText-Bench (Geng et al., 2025) 是一个专门用于评估模型精确渲染长文本能力的基准。该数据集包含 160 个涵盖八种不同场景的提示。

以下是原文 Table 10 的结果:

Model LongText-Bench-EN LongText-Bench-ZH
Janus-Pro (Chen et al., 2025b) 0.019 0.006
BLIP3-o (Chen et al., 2025a) 0.021 0.018
Kolors 2.0 (team, 2025) 0.258 0.329
BAGEL (Deng et al., 2025) 0.373 0.310
OmniGen2 (Wu et al., 2025b) 0.561 0.059
X-Omni (Geng et al., 2025) 0.900 0.814
HiDream-I1-Full (Cai et al., 2025) 0.543 0.024
FLUX.1 [Dev] (BlackForest, 2024) 0.607 0.005
Seedream 3.0 (Gao et al., 2025) 0.896 0.878
GPT Image 1 [High] (OpenAI, 2025) 0.956 0.619
Qwen-Image 0.943 0.946

Table 10: Quantitative evaluation results on LongText-Bench (Geng et al., 2025). The best result is in bold and the second best result is underlined.

分析: Qwen-ImageLongText-Bench 上取得了长中文文本的最高准确率 0.946,以及长英文文本的第二高准确率 0.943。这表明了 Qwen-Image 卓越的长文本渲染能力。

5.2.3. 图像编辑性能 (Performance of Image Editing)

研究人员对 Qwen-Image 的多任务版本进行了图像编辑 (TI2I) 任务的训练,无缝整合了文本和图像作为条件输入。评估分为两类:

  1. 通用图像编辑:GEdit (Liu et al., 2025b) 和 ImgEdit (Ye et al., 2025) 基准上评估模型的基于指令的编辑能力。
  2. 空间理解和 3D 视觉任务: 在新视角合成 (Downs et al., 2022) 和深度估计 (Bochkovski et al., 2024) 上测试模型的性能。这些任务要求模型在输入图像和相应文本描述的条件下推断和生成连贯的空间信息。

GEdit

GEdit-Bench (Liu et al., 2025b) 评估图像模型在 11 个不同类别的真实世界用户指令上的性能。采用三个指标——语义一致性 (Semantic Consistency, G_SC)、感知质量 (Perceptual Quality, G_PQ) 和总体得分 (Overall Score, G_O)——每个指标范围从 0 到 10。

以下是原文 Table 11 的结果:

Model GEdit-Bench-EN (Full set)↑ GEdit-Bench-CN (Full set)↑
G_SC G_PQ G_O G_SC G_PQ G_O
Instruct-Pix2Pix (Brooks et al., 2023) 3.58 5.49 3.68 - - -
AnyEdit (Yu et al., 2025) 3.18 5.82 3.21 -
MagicBrush (Zhang et al., 2023) 4.68 5.66 4.52 -
UniWorld-v1 (Lin et al., 2025) 4.93 7.43 4.85 -
OmniGen (Xiao et al., 2025) 5.96 5.89 5.06 - -
OmniGen2 (Wu et al., 2025b) 7.16 6.77 6.41 - - -
Gemini 2.0 (DeepMind, 2025) 6.73 6.61 6.32 5.43 6.78 5.36
BAGEL (Deng et al., 2025) 7.36 6.83 6.52 7.34 6.85 6.50
FLUX.1 Kontext [Pro] (Labs et al., 2025) 7.02 7.60 6.56 1.11 7.36 1.23
Step1X-Edit (Liu et al., 2025b) 7.66 7.35 6.97 7.20 6.87 6.86
GPT Image 1 [High] (OpenAI, 2025) 7.85 7.62 7.53 7.67 7.56 7.30
Qwen-Image 8.00 7.86 7.56 7.82 7.79 7.52

Table 11: Comparison of Semantic Consistency (G_SC), Perceptual Quality (G_PQ), and Overall Score (G_O\mathbf{G}\_\mathbf{O}) on GEdit-Bench. All metrics are evaluated by GPT-4.1. G_O is computed as the geometric mean of G_SC and G_PQ\mathcal{G}\_\mathrm{PQ}, averaged over all samples. Note: FLUX.1 Kontext [Pro] underperforms on GEditBench-CN due to its limited Chinese language capability.

分析: Qwen-ImageGEdit-Bench-ENGEdit-Bench-CN 上均取得了最高的总体得分(分别为 7.567.52),以及最高的语义一致性 (G_SC) 和感知质量 (G_PQ)。这表明 Qwen-Image 在理解和执行复杂编辑指令方面具有卓越的能力,并能很好地泛化到多语言用户指令。

ImgEdit

ImgEdit 基准 (Ye et al., 2025) 涵盖了九个常见编辑任务,涉及 734 个真实世界测试用例。评估指标包括指令遵循度、图像编辑质量和细节保留,所有这些都以 1 到 5 的分数进行评估。

以下是原文 Table 12 的结果:

Model Add Adjust Extract Replace Remove Background Style Hybrid Action Overall ↑
MagicBrush (Zhang et al., 2023) 2.84 1.58 1.51 1.97 1.58 1.75 2.38 1.62 1.22 1.90
Instruct-Pix2Pix (Brooks et al., 2023) 2.45 1.83 1.44 2.01 1.50 1.44 3.55 1.20 1.46 1.88
AnyEdit (Yu et al., 2025) 3.18 2.95 1.88 2.47 2.23 2.24 2.85 1.56 2.65 2.45
UltraEdit (Zhao et al., 2024) 3.44 2.81 2.13 2.96 1.45 2.83 3.76 1.91 2.98 2.70
OmniGen (Xiao et al., 2025) 3.47 3.04 1.71 2.94 2.43 3.21 4.19 2.24 3.38 2.96
ICEdit (Zhang et al., 2025) 3.58 3.39 1.73 3.15 2.93 3.08 3.84 2.04 3.68 3.05
Step1X-Edit (Liu et al., 2025b) 3.88 3.14 1.76 3.40 2.41 3.16 4.63 2.64 2.52 3.06
BAGEL (Deng et al., 2025) 3.56 3.31 1.70 3.3 2.62 3.24 4.49 2.38 4.17 3.20
UniWorld-V1 (Lin et al., 2025) 3.82 3.64 2.27 3.47 3.24 2.99 4.21 2.96 2.74 3.26
OmniGen2 (Wu et al., 2025b) 3.57 3.06 1.77 3.74 3.20 3.57 4.81 2.52 4.68 3.44
FLUX.1 Kontext [Pro] (Labs et al., 2025) 4.25 4.15 2.35 4.56 3.57 4.26 4.57 3.68 4.63 4.00
GPT Image 1 [High] (OpenAI, 2025) 4.61 4.33 2.90 4.35 3.66 4.57 4.93 3.96 4.89 4.20
Qwen-Image 4.38 4.16 3.43 4.66 4.14 4.38 4.81 3.82 4.69 4.27

Table 12: Quantitative comparison results on ImgEdit (Ye et al., 2025). All metrics are evaluated by GPT-4.1. "Overall" is calculated by averaging all scores across tasks.

分析: Qwen-ImageImgEdit 基准上总体排名最高,取得了 4.27 的总分,紧随其后的是 GPT Image 1 [High]。这表明 Qwen-Image 在基于指令的编辑任务上具有强大的竞争力。它在 Extract (提取)、Remove (移除)、Hybrid (混合) 和 Action (动作) 任务中表现尤其出色。

新视角合成 (Novel View Synthesis)

新视角合成 (Downs et al., 2022) 评估模型根据给定 3D 物体的正面视图生成其新视角图像的能力。通过提示如“向左转 90 度,一只狗”来指导 Qwen-Image 执行新视角合成。

以下是原文 Table 13 的结果:

Model PSNR↑ SSIM↑ LPIPS↓
Zero123 (Liu et al., 2023) 13.48 0.854 0.166
ImageDream (Wang & Shi, 2023) 15.22 0.883 0.164
CRM (Wang et al., 2024b) 15.93 0.891 0.152
GPT Image 1 [High] (OpenAI, 2025) 12.07 0.804 0.361
BAGEL (Deng et al., 2025) 13.78 0.825 0.237
FLUX.1 Kontext [Pro] (Labs et al., 2025) 14.50 0.859 0.201
Qwen-Image 15.11 0.884 0.153

Table 13: Quantitative comparison of novel view synthesis with both specialized models and general image generation models. We report PSNR, SSIM, LPIPS on the GSO (Downs et al., 2022) dataset.

分析: Qwen-Image 在新视角合成任务中表现出高度竞争力,PSNR (15.11) 和 SSIM (0.884) 上仅次于 CRM,但在 LPIPS (0.153) 上表现优于 CRM,这表明其在新视角合成任务上达到了最先进的 (state-of-the-art) 性能。这展示了其作为通用图像基础模型超越专用 3D 模型的能力。

深度估计 (Depth Estimation)

深度估计性能在 NYUv2 (Nathan Silberman & Fergus, 2012)、KITTI (Geiger et al., 2013)、ScanNet (Dai et al., 2017)、DIODE (Vasiljevic et al., 2019) 和 ETH3D (Schops et al., 2017) 五个常用数据集上进行总结。在训练期间,采用 DepthPro (Bochkovskii et al., 2024) 作为教师模型提供监督深度信号。这些结果是通过独立的监督微调 (SFT) 实现的,旨在探测模型固有的任务理解能力。

以下是原文 Table 14 的结果:

Model KITTI NYUv2 ScanNet DIODE ETH3D
AbsRel↓ δ1↑ AbsRel↓ δ1↑ AbsRel↓ δ1↑ AbsRel↓ δ1↑ AbsRel↓ δ1↑
MiDaS (Ranftl et al., 2020) 0.236 0.630 0.111 0.885 0.121 0.846 0.332 0.715 0.184 0.752
DPT-large (Ranftl et al., 2021) 0.100 0.901 0.098 0.903 0.082 0.934 0.182 0.758 0.078 0.946
DepthAnything (Yang et al., 2024a) 0.080 0.946 0.043 0.980 0.043 0.981 0.261 0.759 0.058 0.984
DepthAnything v2 (Yang et al., 2024b) 0.080 0.943 0.043 0.979 0.042 0.979 0.321 0.758 0.066 0.983
Depth Pro (Bochkovskii et al., 2024) 0.055 0.974 0.042 0.977 0.041 0.978 0.217 0.764 0.043 0.974
Metric3D v2 (Hu et al., 2024a) 0.052 0.979 0.039 0.979 0.023 0.989 0.147 0.892 0.040 0.983
GeoWizard (Fu et al., 2024) 0.097 0.921 0.052 0.966 0.061 0.953 0.297 0.792 0.064 0.961
DepthFM (Gui et al., 2024) 0.083 0.934 0.065 0.956 - - 0.225 0.800 - -
Marigold (Ke et al., 2024) 0.099 0.916 0.055 0.964 0.064 0.951 0.308 0.773 0.065 0.960
DMP (Lee et al., 2024) 0.240 0.622 0.109 0.891 0.146 0.814 0.361 0.706 0.128 0.857
Qwen-Image 0.078 0.951 0.055 0.967 0.047 0.974 0.197 0.832 0.066 0.962

Table 14: Quantitative comparison of depth estimation with both specialized models and multi-task models on zero-shot datasets. Qwen-Image can perform on par with state-of-the-art models.

分析: Qwen-Image 在深度估计任务中表现出高度竞争力,与基于扩散的模型相比,达到了最先进的 (state-of-the-art) 性能。在多个数据集上,其 AbsRel 误差较低,δ1\delta1 精度较高。例如,在 KITTI 数据集上,其 AbsRel (0.078) 和 δ1\delta1 (0.951) 优于 DepthAnything。在 NYUv2ScanNet 上也取得了非常好的结果。这表明 Qwen-Image 具备强大的内在任务理解能力。

5.3. 评估指标 (Evaluation Metrics)

5.3.1. 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)

概念定义: PSNR 是衡量图像重建质量的常用客观指标。它通过比较原始图像和重建图像之间的最大可能功率与噪声功率(通常是两幅图像像素值差异的均方误差)之比来量化图像质量。PSNR 值越高,通常表示重建图像与原始图像越接近,即图像质量越好。

数学公式: PSNR=10log10(MAXI2MSE) \mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right) 其中, MSE=1MNi=0M1j=0N1[I(i,j)K(i,j)]2 \mathrm{MSE} = \frac{1}{MN} \sum_{i=0}^{M-1} \sum_{j=0}^{N-1} [I(i,j) - K(i,j)]^2 符号解释:

  • MAXI\mathrm{MAX}_I: 图像中像素的最大可能值(例如,对于 8 位图像,通常为 255)。
  • MSE\mathrm{MSE}: 均方误差 (Mean Squared Error)。
  • M, N: 图像的尺寸(宽度和高度)。
  • I(i,j): 原始图像在坐标 (i,j) 处的像素值。
  • K(i,j): 重建图像在坐标 (i,j) 处的像素值。

5.3.2. 结构相似性指数 (Structural Similarity Index Measure, SSIM)

概念定义: SSIM 是一种感知指标,旨在更好地模拟人类视觉系统对图像质量的判断。它通过衡量两幅图像的亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面的相似性来评估图像质量,而不仅仅是像素级的误差。SSIM 值越接近 1,表示两幅图像越相似,通常意味着重建质量越好。

数学公式: SSIM(x,y)=[l(x,y)]α[c(x,y)]β[s(x,y)]γ \mathrm{SSIM}(x, y) = [l(x,y)]^{\alpha} \cdot [c(x,y)]^{\beta} \cdot [s(x,y)]^{\gamma} 其中, l(x,y)=2μxμy+C1μx2+μy2+C1c(x,y)=2σxσy+C2σx2+σy2+C2s(x,y)=σxy+C3σxσy+C3 l(x,y) = \frac{2\mu_x\mu_y + C_1}{\mu_x^2 + \mu_y^2 + C_1} \\ c(x,y) = \frac{2\sigma_x\sigma_y + C_2}{\sigma_x^2 + \sigma_y^2 + C_2} \\ s(x,y) = \frac{\sigma_{xy} + C_3}{\sigma_x\sigma_y + C_3} 符号解释:

  • x, y: 分别表示原始图像块和重建图像块。
  • μx,μy\mu_x, \mu_y: 图像块 xxyy 的平均亮度。
  • σx,σy\sigma_x, \sigma_y: 图像块 xxyy 的标准差(衡量对比度)。
  • σxy\sigma_{xy}: 图像块 xxyy 的协方差(衡量结构相似性)。
  • C1,C2,C3C_1, C_2, C_3: 为避免分母为零的常数。
  • α,β,γ\alpha, \beta, \gamma: 权重系数,通常设为 1。

5.3.3. 感知距离 (Learned Perceptual Image Patch Similarity, LPIPS)

概念定义: LPIPS 是一种利用深度学习特征来评估图像之间感知差异的指标。它通过计算两幅图像在预训练深度神经网络(如 AlexNet、VGG 等)中间层提取的特征表示之间的 L2 距离来量化相似性。LPIPS 旨在更好地模拟人类的视觉感知,较低的 LPIPS 值表示图像在人类感知上更相似。

数学公式: LPIPS(x,x0)=l1HlWlh,wwl(ϕl(x)h,wϕl(x0)h,w)2 \mathrm{LPIPS}(x, x_0) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \| w_l \odot (\phi_l(x)_{h,w} - \phi_l(x_0)_{h,w}) \|_2 符号解释:

  • xx: 原始图像。
  • x0x_0: 比较图像(例如,生成的图像)。
  • ϕl\phi_l: 深度神经网络第 ll 层的特征映射 (feature map)。
  • wlw_l: 第 ll 层特征的权重向量。
  • \odot: 逐元素乘法。
  • Hl,WlH_l, W_l: 第 ll 层特征映射的高度和宽度。

5.3.4. 相对绝对误差 (Absolute Relative Error, AbsRel)

概念定义: AbsRel 是深度估计任务中常用的一个指标,用于衡量预测深度与真实深度之间的相对误差的平均值。它通过计算每个像素的绝对相对误差并求平均来反映模型预测的准确性。AbsRel 值越低,表示深度估计越准确。

数学公式: AbsRel=1Ni=1Ndididi \mathrm{AbsRel} = \frac{1}{N} \sum_{i=1}^{N} \frac{|d_i - d_i^*|}{d_i^*} 符号解释:

  • NN: 图像中的像素总数。
  • did_i: 第 ii 个像素的真实深度值。
  • did_i^*: 第 ii 个像素的预测深度值。

5.3.5. 阈值精度 (δ1\delta1)

概念定义: δ1\delta1 是深度估计任务中另一个关键指标,用于衡量预测深度在真实深度的某个比例(通常是 1.25 倍)范围内的像素比例。它计算满足 max(didi,didi)<1.25max(\frac{d_i}{d_i^*}, \frac{d_i^*}{d_i}) < 1.25 的像素占总像素的百分比。δ1\delta1 值越高,表示深度估计的精度越高。

数学公式: δt=1Ni=1N1(max(didi,didi)<t) \delta_t = \frac{1}{N} \sum_{i=1}^{N} \mathbf{1}\left( \max\left(\frac{d_i}{d_i^*}, \frac{d_i^*}{d_i}\right) < t \right) 符号解释:

  • NN: 图像中的像素总数。
  • did_i: 第 ii 个像素的真实深度值。
  • did_i^*: 第 ii 个像素的预测深度值。
  • tt: 阈值,通常为 1.25,因此文中提及的 δ1\delta1 实际是 δ1.25\delta_{1.25}
  • 1()\mathbf{1}(\cdot): 指示函数,当条件为真时为 1,否则为 0。

5.3.6. 词准确率 (Word Accuracy)

概念定义: 在文本渲染任务中,词准确率衡量生成的图像中可识别且与提示匹配的词语的比例。它是对模型正确生成文本内容能力的一个直接度量。

数学公式: Word Accuracy=Number of correctly rendered wordsTotal number of words in prompt \text{Word Accuracy} = \frac{\text{Number of correctly rendered words}}{\text{Total number of words in prompt}} 符号解释:

  • Number of correctly rendered words\text{Number of correctly rendered words}: 模型在图像中正确渲染并可识别的词语数量。
  • Total number of words in prompt\text{Total number of words in prompt}: 原始文本提示中包含的词语总数。

5.3.7. 归一化编辑距离 (Normalized Edit Distance, NED)

概念定义: 编辑距离(或 Levenshtein 距离)衡量将一个字符串转换为另一个字符串所需的最小单字符编辑操作(插入、删除、替换)次数。归一化编辑距离通过将编辑距离除以两个字符串中较长字符串的长度来将其标准化到 [0, 1] 范围。在文本渲染评估中,NED 衡量生成的文本与目标文本之间的相似度,较低的 NED 表示更好的渲染质量。

数学公式: NED(s1,s2)=Levenshtein(s1,s2)max(s1,s2) \mathrm{NED}(s_1, s_2) = \frac{\mathrm{Levenshtein}(s_1, s_2)}{\max(|s_1|, |s_2|)} 符号解释:

  • s1s_1: 原始文本字符串。
  • s2s_2: 生成的文本字符串。
  • Levenshtein(s1,s2)\mathrm{Levenshtein}(s_1, s_2): 字符串 s1s_1s2s_2 之间的 Levenshtein 距离。
  • s1|s_1|, s2|s_2|: 字符串 s1s_1s2s_2 的长度。

5.3.8. CLIP 得分 (CLIPScore)

概念定义: CLIPScore 利用 OpenAI 的 CLIP (Contrastive Language-Image Pre-training) 模型来评估图像与其对应的文本描述之间的语义一致性。CLIP 模型在一个大型的图像-文本对数据集上进行训练,学习将图像和文本映射到相同的嵌入空间。CLIPScore 计算图像嵌入和文本嵌入之间的余弦相似度,得分越高表示图像与文本提示的语义匹配度越好。

数学公式: CLIPScore(I,T)=cosine_similarity(CLIPimage(I),CLIPtext(T)) \mathrm{CLIPScore}(I, T) = \mathrm{cosine\_similarity}(\mathrm{CLIP}_{\text{image}}(I), \mathrm{CLIP}_{\text{text}}(T)) 符号解释:

  • II: 生成的图像。
  • TT: 文本提示。
  • CLIPimage(I)\mathrm{CLIP}_{\text{image}}(I): CLIP 图像编码器将图像 II 编码得到的嵌入向量。
  • CLIPtext(T)\mathrm{CLIP}_{\text{text}}(T): CLIP 文本编码器将文本 TT 编码得到的嵌入向量。
  • cosine_similarity(,)\mathrm{cosine\_similarity}(\cdot, \cdot): 两个向量之间的余弦相似度。

5.3.9. 语义一致性 (Semantic Consistency, G_SC)

概念定义: G_SC 评估图像编辑任务中,编辑后的图像在语义上与原始图像和编辑指令的一致程度。它衡量模型是否准确理解了编辑意图,并在修改图像时保持了高级语义信息(如物体类别、场景背景、人物身份等)。

数学公式: 论文未提供具体数学公式,通常由大型语言模型 (LLM) 或人类评估员根据语义理解进行打分,范围通常在 0 到 10 之间。

5.3.10. 感知质量 (Perceptual Quality, G_PQ)

概念定义: G_PQ 评估图像编辑任务中,编辑后图像的视觉质量和真实感。它关注图像的清晰度、细节、颜色、光照、纹理以及是否存在伪影等方面。

数学公式: 论文未提供具体数学公式,通常由大型语言模型 (LLM) 或人类评估员根据视觉效果进行打分,范围通常在 0 到 10 之间。

5.3.11. 总体得分 (Overall Score, G_O)

概念定义: GOG_OG_SCG_PQ 的综合评估指标,通常通过它们的几何平均值或加权平均值计算,并对所有样本进行平均。它提供了对图像编辑模型性能的全面衡量。

数学公式: G_O=G_SCG_PQ G\_O = \sqrt{G\_SC \cdot G\_PQ} 符号解释:

  • G_SCG\_SC: 语义一致性得分。
  • G_PQG\_PQ: 感知质量得分。

5.4. 对比基线 (Baselines)

Qwen-Image 在各项实验中与多个领先的图像生成和编辑模型进行了比较,包括闭源模型和开源模型。这些基线模型代表了当前领域的最先进水平,涵盖了不同的架构和训练策略。

  • 闭源模型:

    • GPT Image 1 [High] (OpenAI, 2025): OpenAI 的最新图像生成模型,通常在通用生成和指令遵循方面表现出色。
    • Seedream 3.0 (Gao et al., 2025): 专注于生成和编辑的商业模型,特别在多模态方面具有竞争力。
    • Imagen 4 Ultra Preview 0606 (Google, 2025) / Imagen3 (Google, 2024): Google 的强大图像生成模型系列。
    • FLUX.1 Kontext [Pro] (Labs et al., 2025) / FLUX.1 [Dev] (BlackForest, 2024): 专注于上下文图像生成和编辑的流匹配模型。
    • Ideogram 3.0 (Ideogram, 2025): 另一款商业图像生成工具。
    • DALL-E 3 (OpenAI, 2023): OpenAI 的文本到图像模型。
    • Recraft V3 (Recraft, 2024): 专注于创意和设计领域的图像生成工具。
    • Gemini 2.0 (DeepMind, 2025): Google DeepMind 的多模态模型。
    • MidJourney v7 (Midjourney, 2025): 广受欢迎的图像生成服务。
  • 开源模型和研究模型:

    • SD v1.5 (Rombach et al., 2021) / SDXL (Podell et al., 2023) / SD3 Medium (Esser et al., 2024) / SD3.5 Large (Esser et al., 2024): Stable Diffusion 系列模型,是扩散模型领域的基石。

    • PixArt-α (Chen et al., 2024c) / PixArt-Σ (Chen et al., 2024b): 扩散 Transformer 架构的代表。

    • Lumina-Next (Zhuo et al., 2024) / Lumina-Image 2.0 (Qin et al., 2025): 统一高效的图像生成框架。

    • Hunyuan-DiT (Li et al., 2024b): 腾讯开发的中文相关扩散模型。

    • Janus (Wu et al., 2025a) / Janus-Pro (Chen et al., 2025b) / JanusFlow (Ma et al., 2025): 统一多模态理解和生成模型。

    • HiDream-I1-Full (Cai et al., 2025): 高效图像生成基础模型。

    • Show-o (Xie et al., 2024) / Show-o2 (Xie et al., 2025b): 统一多模态理解和生成模型。

    • OmniGen (Xiao et al., 2025) / OmniGen2 (Wu et al., 2025b): 通用图像生成模型。

    • AnyText (Tuo et al., 2024) / TextDiffuser-2 (Chen et al., 2024a) / TextCrafter (Du et al., 2025): 专门用于文本渲染的 T2I 模型。

    • RAG-Diffusion (Chen et al., 2024d) / 3DIS (Zhou et al., 2024): 其他 T2I 模型。

    • Instruct-Pix2Pix (Brooks et al., 2023) / AnyEdit (Yu et al., 2025) / MagicBrush (Zhang et al., 2023) / UniWorld-v1 (Lin et al., 2025) / Step1X-Edit (Liu et al., 2025b) / ICEdit (Zhang et al., 2025) / UltraEdit (Zhao et al., 2024): 图像编辑模型。

    • Zero123 (Liu et al., 2023) / ImageDream (Wang & Shi, 2023) / CRM (Wang et al., 2024b): 新视角合成模型。

    • MiDaS (Ranftl et al., 2020) / DPT-large (Ranftl et al., 2021) / DepthAnything (Yang et al., 2024a) / DepthAnything v2 (Yang et al., 2024b) / Depth Pro (Bochkovskii et al., 2024) / Metric3D v2 (Hu et al., 2024a) / GeoWizard (Fu et al., 2024) / DepthFM (Gui et al., 2024) / Marigold (Ke et al., 2024) / DMP (Lee et al., 2024): 深度估计模型。

      这些基线模型提供了全面的性能比较,涵盖了图像生成、文本渲染和图像编辑的各个子领域,证明了 Qwen-Image 在广泛任务上的卓越性能。

6. 实验结果与分析

本节将详细分析 Qwen-Image 在定量和定性实验中的表现。

6.1. VAE 重建的定性结果 (Qualitative Results on VAE Reconstruction)

Figure 17 展示了使用最先进的图像 VAEs 重建文本丰富图像的定性结果。

Figure 17: Visualization of VAE reconstruction. We progressively zoom into the details across three row (black, orange, red) to compare how different VAEs reconstruct small text in dense document images. 该图像是示意图,展示了不同VAE(变分自编码器)在密集文档图像中重建小文本的效果。图中比较了FLUX、Hunyan、SD-3.5、Cosmos-CI、Wan2.1、Qwen-Image和原始样本在三个不同层次(黑色、橙色、红色)的细节重建能力。

Figure 17: Visualization of VAE reconstruction. We progressively zoom into the details across three row (black, orange, red) to compare how different VAEs reconstruct small text in dense document images.

分析: 第一行展示了包含英文文本的 PDF 图像重建。在 Qwen-Image-VAE 的结果中,“double-aspect”字样仍然清晰可辨,而在其他模型(如 FLUXHunyuanSD-3.5Cosmos-CIWan2.1)的重建中则难以辨认。这表明 Qwen-Image-VAE 在处理包含小文本的图像时,能提供更精确的重建,为 Qwen-Image 卓越的文本渲染能力奠定了基础。

6.2. 图像生成的定性结果 (Qualitative Results on Image Generation)

为了全面评估 Qwen-Image 的文本到图像生成能力,研究人员从四个方面进行了定性评估:英文文本渲染、中文文本渲染、多对象生成和空间关系生成。对比模型包括闭源模型(GPT Image 1 [High]Seedream 3.0Recraft V3)和开源模型(Hidream-I1-FullLumina-Image 2.0)。

6.2.1. 英文文本渲染 (English Text Rendering)

Figure 18 和 Figure 19 展示了英文文本渲染的定性比较。

以下是长英文文本渲染能力比较图:

Figure 18: Comparison of long English rendering capability in image generation. This case requires rendering a long paragraph, and only Qwen-Image and GPT Image 1 \[High\] manage to render such a long text clearly and almost perfectly. The other models either omit words or produce duplicates. 该图像是图表,展示了不同图像生成模型在长英文文本渲染能力上的比较。仅Qwen-Image和GPT Image 1 [High]能够清晰且几乎完美地渲染长段落,其他模型要么省略单词,要么产生重复。

Figure 18: Comparison of long English rendering capability in image generation. This case requires rendering a long paragraph, and only Qwen-Image and GPT Image 1 [High] manage to render such a long text clearly and almost perfectly. The other models either omit words or produce duplicates.

输入提示 (Input prompt): A painting of a lantern moon climbs through the silver night, Unfurling quiet dreams across the sky, Each star a whispered promise wrapped in light That dawn will bloom, though darkness wanders by. There is a cute cat on the windowsill.

分析: 在 Figure 18 中,要求渲染一个长段落。只有 Qwen-ImageGPT Image 1 [High] 能够清晰且几乎完美地渲染出如此长的文本Qwen-Image 呈现出更真实的视觉风格和更好的渲染质量,并忠实于提示,有效避免了遗漏、错误或重复字符(例如,GPT Image 1 [High] 中错误的“antern”和“Unfurling”,Recraft V3 中错误的“silver”和“quiet”,Seedream 3.0 中冗余和扭曲的文本)。其他模型要么遗漏单词,要么产生重复或扭曲。

以下是复杂英文文本渲染能力比较图:

Figure 19: Comparison of complex English rendering capability in image generation. We present two cass to illustrate themode' ability to generate multiple English texts in different locations of the real scene and the slide. Only Qwen-image can follow the complex prompts to successfully render the text in reasonable location. 该图像是Qwen-Image生成的习惯与情感健康关系的示意图。图中展示了几项促进情感健康的习惯,如练习正念、培养感恩和优先睡眠等,这些习惯有助于情感的积极发展和个人的整体福祉。

Figure 19: Comparison of complex English rendering capability in image generation. We present two cass to illustrate themode' ability to generate multiple English texts in different locations of the real scene and the slide. Only Qwen-image can follow the complex prompts to successfully render the text in reasonable location.

分析:

  • 上半部分 (Figure 19 上): Qwen-Image 正确渲染了七个不同位置的文本,展示了其复杂的文本渲染能力。相比之下,GPT Image 1 遗漏了“The night circus”,而 Seedream 3.0Hidream-I1-Full 渲染的文本出现扭曲。

  • 下半部分 (Figure 19 下): Qwen-Image 不仅成功渲染了每个文本片段,还呈现了一个布局合理、视觉美观的幻灯片。相比之下,GPT Image 1 遗漏了“Stay Connected”,而 Hidream-I1-FullSeedream 3.0 未能渲染正确的字符。

    这些结果共同强调了 Qwen-Image 在处理复杂英文文本渲染方面的卓越性能,尤其是在多行、多位置以及长文本场景下。

6.2.2. 中文文本渲染 (Chinese Text Rendering)

Figure 20 和 Figure 21 展示了中文文本渲染的定性比较。

以下是中文文本渲染能力比较图:

Figure 20: Comparison of Chinese text rendering capability in image generation. Qwen-Image accurately generates the expected Chinese couplet. In contrast, GPT Image 1 \[high\] and Seedream 3.0 miss or generate distorted characters. While other model in comparison cannot generate correct Chinese couplets. 该图像是一个图表,展示了不同图像生成模型中中文文本渲染能力的比较。Qwen-Image成功生成了期望的中文对联,而其他模型如GPT Image 1 [high]和Seedream 3.0则未能准确生成或产生了失真的字符。

Figure 20: Comparison of Chinese text rendering capability in image generation. Qwen-Image accurately generates the expected Chinese couplet. In contrast, GPT Image 1 [high] and Seedream 3.0 miss or generate distorted characters. While other model in comparison cannot generate correct Chinese couplets.

输入提示 (Input prompt): A painting of a Chinese couplet on the door of a study room, the upper couplet is "翰墨", the lower couplet is "书香". The room is decorated in a traditional Chinese style.

分析: 在 Figure 20 中,要求生成带有特定中文对联的图像。Qwen-Image 准确生成了预期的中文对联,忠实再现了文本内容和风格,并准确描绘了所需的房间布局和位置。 相比之下,GPT Image 1Seedream 3.0 遗漏或生成了扭曲的字符(GPT Image 1 遗漏了“翰”和“书”,Seedream 3.0 遗漏了“墨”和“香”),而其他模型则无法生成正确的中文对联。这再次凸显了 Qwen-Image 在中文文本处理方面的独特优势。

以下是复杂中文文本渲染能力比较图:

Figure 21: Comparison of complex Chinese text rendering in image generation: the first case shows that Qwen-Image can render text on multiple objects while maintaining consistency with the real scene, such as aligning text with the depth and tilt of each plaque; the second case demonstrates its ability to render structured paragraph text in a glass panel. Qwen-Image is the only model capable of accurately rendering long text. 该图像是一个展示Qwen-Image技术工作原理的插图。上半部分展示了Qwen-Image相较于其他模型(如HiDream-I1-Full和Seedream 3.0)在复杂文本渲染上的优势,强调其在真实场景中的一致性。下半部分则描述了Qwen-Image的技术路线,着重探讨其在生成模型方面的创新与应用。

Figure 21: Comparison of complex Chinese text rendering in image generation: the first case shows that Qwen-Image can render text on multiple objects while maintaining consistency with the real scene, such as aligning text with the depth and tilt of each plaque; the second case demonstrates its ability to render structured paragraph text in a glass panel. Qwen-Image is the only model capable of accurately rendering long text.

分析:

  • 上半部分 (Figure 21 上): 展示了一个动漫风格的场景。Qwen-Image 能够正确生成多个字符和商店牌匾,完美遵循输入提示对空间布局和文本渲染的要求。Seedream 3.0 在复杂空间布局中遇到困难,遗漏了一些场景和字符,而其他模型则无法正确理解复杂的文本和空间指令。

  • 下半部分 (Figure 21 下): 展示了 Qwen-Image 可以在复杂场景中生成逼真且排版精美的手写文本,完美遵循输入提示。其他模型则难以生成结构化的段落文本。

    这些案例表明,Qwen-Image 在复杂中文文本渲染方面,包括在多对象、多场景、长文本和手写文本等复杂情境下,都表现出卓越的准确性和保真度。

6.2.3. 多对象生成 (Multi-Object Generation)

Figure 22 展示了多对象生成的定性比较。

以下是多对象建模能力比较图:

Figure 22: Comparison of multi-object modeling in image generation: Qwen-Image accurately renders the 12 Chinese zodiac animals and materials in the first case, and handles complex bilingual text across multiple objects in the second. 该图像是插图,展示了 Qwen-Image 生成的多对象建模效果。图中包含了 12 种中国生肖动物及其材料,并展示了如何处理多对象中的复杂双语文本。

Figure 22: Comparison of multi-object modeling in image generation: Qwen-Image accurately renders the 12 Chinese zodiac animals and materials in the first case, and handles complex bilingual text across multiple objects in the second.

输入提示 (Input prompt - 1): Picture of twelve stuffed toys arranged evenly and neatly, four in each row, for a total of three rows. The first row is: rat, ox, tiger, rabbit. The second row is: dragon, snake, horse, goat. The third row is: monkey, rooster, dog, pig. All in a cartoonish style.

输入提示 (Input prompt - 2): A billiard table, on the billiard ball printed with "你好, Qwen-Image", "Hello, Qwen-Image" and "こんにちは、Qwen-Image", the billiard ball is arranged in two rows.

分析:

  • 上半部分 (Figure 22 上): Qwen-Image 准确生成了所有所需的动物,忠实地保留了其指定位置,并一致地应用了正确的毛绒玩具风格。相比之下,GPT Image 1 未能生成毛绒玩具风格的图像,而 Recraft V3Seedream 3.0 生成了与提示不符的错误动物。

  • 下半部分 (Figure 22 下): Qwen-Image 不仅正确渲染了台球上的混合语言文本(中文、英文、日文),还严格遵循指令将台球排成两行。GPT Image 1 未能完美遵循指令的布局要求,并且错误地生成了一个中文字符“我”,而其他模型则无法正确生成大部分中文字符。

    这些结果证明了 Qwen-Image 在理解和生成包含多个对象及其属性、布局和混合语言文本的复杂场景方面的强大能力。

6.2.4. 空间关系生成 (Spatial Relationship Generation)

Figure 23 展示了空间关系建模能力的定性比较。

以下是空间关系建模能力比较图:

Figure 23: Comparison of spatial relationship modeling capability in image generation. We present three cases to demonstrate interactions involving multiple people and multiple objects. We find that both Qwen-Image and GPT Image 1 \[High\] exhibit strong ability to understand relationships. 该图像是一个插图,展示了四个不同的图像生成模型,包括 HiDream-11-Full、GPT Image 1 [High]、Seedream 3.0 和 Qwen-Image。每个模型生成的图像中均有咖啡杯和打字机,呈现了不同的艺术风格和细节表现。此图有效比较了这些模型在图像生成能力上的差异。

Figure 23: Comparison of spatial relationship modeling capability in image generation. We present three cases to demonstrate interactions involving multiple people and multiple objects. We find that both Qwen-Image and GPT Image 1 [High] exhibit strong ability to understand relationships.

输入提示 (Input prompt - 1): A twisted pine trunk leans over the cliff edge, a climber woman grips the trunk with two hands, and her partner reaches up, holding onto the woman's safety belt around her waist. Realistic photography.

输入提示 (Input prompt - 2): A person feeding pigeons at a park, where the pigeons are flying around the person's head.

输入提示 (Input prompt - 3): Realistic still life studio photography, a vintage wooden table supports an antique typewriter, a steaming porcelain coffee cup sits on top of the typewriter, and a small pocket watch hangs from the cup's handle, dramatic side lighting.

分析:

  • 第一个案例 (Figure 23 左上): Qwen-Image 生成的图像准确反映了提示,捕捉了正确的攀爬场景和两人之间的指定互动(一个人抓住树干,另一个人抓住第一个人的安全带)。相比之下,GPT Image 1Seedream 3.0Recraft V3 未能完全遵循提示,生成了错误的攀爬者互动。这展示了 Qwen-Image 理解和精确遵循复杂提示的强大能力。

  • 其余两个案例 (Figure 23 右上和下): 只有 Qwen-ImageGPT Image 1 能够准确描绘人物与鸽子之间的空间关系,以及怀表与咖啡杯把手之间的空间关系。

    这表明 Qwen-Image 在处理涉及多个对象和人物之间复杂空间关系和互动时,具有出色的理解和生成能力。

6.3. 图像编辑的定性结果 (Qualitative Results on Image Editing)

为了全面评估 Qwen-Image 的图像编辑 (TI2I) 能力,研究人员从五个关键方面进行了定性评估:文本和材质编辑、对象添加/移除/替换、姿态操控、链式编辑和新视角合成。对比模型包括 SeedEdit 3.0 (Wang et al., 2025)、FLUX.1 Kontext [Pro] (Labs et al., 2025) 和 GPT Image 1 [High] (OpenAI, 2025)。

6.3.1. 文本和材质编辑 (Text and Material Editing)

Figure 24 展示了文本和材质编辑能力的定性比较。

以下是文本和材质修改的定性比较图:

该图像是插图,展示了一个以“Qwen”为主题的涂鸦艺术,背景为城市建筑,花草装饰环绕文字,风格鲜艳生动。该图像强调了Qwen-Image项目的创意视觉表现。 该图像是插图,展示了一个以“Qwen”为主题的涂鸦艺术,背景为城市建筑,花草装饰环绕文字,风格鲜艳生动。该图像强调了Qwen-Image项目的创意视觉表现。

Figure 24: Qualitative comparison on text and material modification. Both FLUX.1 Kontext [Pro] and Qwen-Image are able to accurately modify text while preserving the original style. In the example below, Qwen-Image is the only model that successfully presents the enamel material.

输入提示 (Input prompt - 1): Change "Hope" to "Qwen"

输入提示 (Input prompt - 2): Changed to a refrigerator magnet, bright color, enamel colored glass art, cartoonish, with the words "Qwen-Image" written on it, depicting the image of the doll, and decorated with wheat, clouds, waves, etc. on an off white background, displayed from the front.

分析:

  • 顶部示例 (Figure 24 上): 涉及复杂风格的文本编辑。Seedream 3.0 未能将字母“H”更改为“Q”,而 GPT Image 1 [High] 未能保留原始风格。Qwen-ImageFLUX.1 Kontext [Pro] 都成功修改了文本,同时保持了风格一致性。

  • 底部示例 (Figure 24 下): 除了 FLUX.1 Kontext [Pro] 之外的所有模型都准确添加了所需的文本和相关元素。值得注意的是,Qwen-Image 是唯一正确生成所需珐琅彩色玻璃艺术的模型,展示了卓越的材质渲染和指令遵循能力。

    这些结果表明 Qwen-Image 在处理复杂文本和材质编辑指令时,能够更好地保持风格一致性和材质细节。

6.3.2. 对象添加/移除/替换 (Object Addition/Removal/Replacement)

Figure 25 展示了对象编辑(添加、移除和替换)的定性比较。

以下是对象编辑(添加、移除和替换)的定性比较图:

Figure 25: Qualitative comparison on object editing (addition, removal, and replacement): Object editing is a relatively stable capability for all models. Qwen-Image demonstrates superior consistency in unmodified regions and achieves better style alignment for the newly generated objects. 该图像是一个比较不同模型在对象编辑任务(添加、移除和更换)上的性能的示意图。Qwen-Image 在未修改区域显示出更优的连贯性,并在新生成对象的风格对齐方面表现更佳。

Figure 25: Qualitative comparison on object editing (addition, removal, and replacement): Object editing is a relatively stable capability for all models. Qwen-Image demonstrates superior consistency in unmodified regions and achieves better style alignment for the newly generated objects.

分析: 除了 GPT Image 1 [High] 经常未能保持整体图像一致性外,所有其他模型在保留未编辑区域方面通常表现良好。

  • 顶部案例 (Figure 25 上): 任务是以卡通风格添加猫和狗。模型必须确保新对象与整体艺术风格匹配。研究人员观察到 FLUX.1 Kontext [Pro] 在编辑非真实感图像时难以保持一致性,而 SeedEdit 3.0Qwen-Image 都生成了与所需卡通风格良好对齐的连贯结果。

  • 中间案例 (Figure 25 中): 任务是从拥挤的场景中移除所有人,这是一个相对复杂的指令。所有模型都准确完成了任务,仅在细节上有所不同。研究人员还注意到不同模型在编辑过程中偶尔会出现缩放效果。

    Qwen-Image 在未修改区域表现出卓越的一致性,并在新生成对象的风格对齐方面做得更好。

6.3.3. 姿态操控 (Pose Manipulation)

Figure 26 展示了姿态操控能力的定性比较。

以下是姿态操控的定性比较图:

Figure 26: Qualitative comparison on pose manipulation. Qwen-Image is able to accurately follow pose manipulation instructions while preserving fine details of the person (such as hair strands) and maintaining consistency in the background (e.g., the stone steps behind the subject). 该图像是一个关于姿势操控的定性比较图。Qwen-Image 能够准确遵循姿势操控指令,同时保持细节的精细度,例如发丝,并确保背景的一致性,例如背景中的石阶。

Figure 26: Qualitative comparison on pose manipulation. Qwen-Image is able to accurately follow pose manipulation instructions while preserving fine details of the person (such as hair strands) and maintaining consistency in the background (e.g., the stone steps behind the subject).

分析:

  • 第一个案例 (Figure 26 上): 只有 FLUX.1 Kontext [Pro]Qwen-Image 能够在姿态编辑过程中保留主题的头发丝等精细细节。

  • 第二个案例 (Figure 26 中): 要求在姿态变化期间保持服装一致性和场景稳定性。Qwen-Image 是唯一保持背景和人物不变的模型。 值得注意的是,Qwen-Image 准确地从输入中推断出人物穿着侧开式裤子,并忠实地展示了站立姿态中的内裤。

  • 第三个案例 (Figure 26 下): Qwen-Image 再次优于其他模型,更好地保留了原始姿态并保持了服装装饰的一致性。

    这些结果表明 Qwen-Image 在姿态操控任务中,能够准确遵循指令,同时保留人物的精细细节和背景的一致性。

6.3.4. 链式编辑 (Chained Editing)

链式编辑指的是生成图像被迭代用作上下文或连续编辑步骤的场景。Figure 27 展示了两种类型的链式编辑。

以下是链式编辑的示例图:

Figure 27: Examples of two types of chained editing: extract \(^ +\) zoom-in (top) and placement \(^ +\) zoom-out (bottom). GPT Image 1 \[High\] and Qwen-Image correctly understand the extract operation, but only Q-m p e 'xe. In n preserves the open-ended stern of the paper boat throughout the entire chained editing process. 该图像是插图,展示了两种类型的连锁编辑示例:提取 +^ + 放大(上)和放置 +^ + 缩小(下)。上方是 GPT Image 1 [High],下方是 Qwen-Image,两者在提取操作中表现出色,而 Qwen-Image 保持了纸船开放式船尾的完整性,贯穿整个编辑过程。

Figure 27: Examples of two types of chained editing: extract +^ + zoom-in (top) and placement +^ + zoom-out (bottom). GPT Image 1 [High] and Qwen-Image correctly understand the extract operation, but only Q-m p e 'xe. In n preserves the open-ended stern of the paper boat throughout the entire chained editing process.

分析:

  • 第一个案例 (Figure 27 上): 任务是提取一件物品并描绘其面料细节的特写。研究人员选择了一幅中国传统画作作为输入。GPT Image 1 [High]Qwen-Image 都准确地提取了成对的鸟。但 Qwen-ImageGPT Image 1 [High] 更好地保留了精细的纹理细节。

  • 第二个案例 (Figure 27 下): 输入图像是一艘带有双开口船尾的船。Qwen-ImageFLUX.1 Kontext [Pro] 都能够在整个链式编辑过程中保留这一结构特征。然而,FLUX.1 Kontext [Pro] 未能按照指示添加两艘货船,而 Qwen-Image 成功完成了完整的编辑链。

    这些结果强调了 Qwen-Image 在理解和执行复杂的多步骤编辑任务(包括细节提取、纹理保留和多对象合成)方面的卓越能力。

6.3.5. 新视角合成 (Novel View Synthesis)

Figure 28 评估了不同模型的空间推理和新视角合成能力。

以下是新视角合成的定性比较图:

该图像是插图,展示了Qwen Coffee的外观,包括一个显眼的霓虹灯标志和欢迎标语。图中体现了Qwen-Image的品牌形象,整体色调和布局具有现代感与吸引力。 该图像是插图,展示了Qwen Coffee的外观,包括一个显眼的霓虹灯标志和欢迎标语。图中体现了Qwen-Image的品牌形象,整体色调和布局具有现代感与吸引力。

Figure 28: Qualitative comparison of novel view synthesis on real-world scenarios across rotation tasks under the same text prompt "Turn right 90 degrees": (1) single-person rotation, (2) corotation of person and background, and (3) real-world scenario. In all cases, Qwen-Image achieves the most accurate and consistent results. While other models (e.g., GPT Image 1 [High]) handle basic subject rotation, they fail to rotate the background or preserve scene details.

输入提示 (Input prompt): Turn right 90 degrees. (在三个不同场景下)

分析: SeedEdit 3.0FLUX.1 Kontext [Pro] 在相同指令下未能很好地执行视角旋转。GPT Image 1 [High] 可以在存在清晰主体时生成新视角,但未能泛化到包含复杂多对象的真实世界场景。只有 Qwen-Image 保持了全局一致性——包括文本保真度和光照结构——在复杂的编辑任务中展示了卓越的空间和语义连贯性。这进一步验证了 Qwen-Image 在理解和操作 3D 空间信息方面的强大能力。

7. 总结与思考

7.1. 结论总结

本文介绍了 Qwen-Image,一款在 Qwen 系列中的图像生成基础模型,它在复杂文本渲染和精确图像编辑方面取得了重大进展。通过构建全面的数据流水线和采用渐进式课程学习策略,Qwen-Image 大幅提升了在生成图像中渲染复杂文本的能力。此外,改进的多任务训练范式和双编码机制显著增强了图像编辑的一致性和质量,有效地提高了语义连贯性和视觉保真度。在多项公共基准测试中进行的广泛实验,一致地证明了 Qwen-Image 在广泛的图像生成和编辑任务中达到了最先进的 (state-of-the-art) 性能。这些结果不仅强调了 Qwen-Image 的技术鲁棒性,也凸显了其在真实世界多模态场景中的广泛适用性,标志着大型基础模型演进过程中的一个重要里程碑。

7.2. 局限性与未来工作

论文在“Conclusion”部分深入讨论了 Qwen-Image 的更广泛影响和意义,这可以被视为对其当前能力的总结以及对未来方向的展望。

  • Qwen-Image 作为“图像生成”模型 (in the context of image generation):

    • 优先级重定义: 重新定义了生成建模的优先级,不仅仅优化照片真实感或美学质量(“AI 外观”),而是将重点放在文本渲染这一关键任务上。
    • 未来愿景 - 视觉语言用户界面 (Visual-Language User Interfaces, VLUIs): 设想通过强化基础模型的文本渲染能力,未来的用户界面将从纯文本语言用户界面 (LUIs) 演变为 VLUIs。当大型语言模型 (LLMs) 难以传达颜色、空间关系或结构布局等视觉属性时,由 Qwen-Image 赋能的 VLUI 可以生成图文并茂、文本整合的图像,从而实现结构化的视觉解释和有效的知识外化。
  • Qwen-Image 作为图像“生成”模型 (in the context of image understanding):

    • 生成框架在理解任务中的有效性: 证明了生成框架可以有效地执行经典的理解任务。例如,在深度估计中,尽管 Qwen-Image 未能超越专门的判别模型,但其性能已非常接近。
    • 从判别式理解到生成式理解的转变: 传统专家模型依赖判别式理解(直接将输入映射到输出),而 Qwen-Image 利用生成式理解——它首先构建视觉内容的整体分布,然后自然地推断出深度。这种从直接推理到分布推理的转变,为统一的多模态理解开辟了新途径。
  • Qwen-Image 作为“图像”生成模型 (in the context of 3D and video generation):

    • 超越 2D 图像合成的强大泛化能力: 通过图像编辑的视角,将 Qwen-Image 应用于新视角合成,发现作为通用图像基础模型,它在一些具有挑战性的渲染场景中优于专用 3D 模型,表现出卓越的跨视角一致性。
    • 视频生成基础: 在姿态编辑任务中,Qwen-Image 在主体身份和背景结构上保持了显著的连贯性,尽管运动变化很大——这是视频生成的基本要求。
    • 视频 VAE 的应用: 与大多数依赖图像 VAE 的图像生成方法不同,Qwen-Image 采用了视频 VAE 进行视觉表示。虽然这增加了建模复杂性,但它符合其核心目标:构建一个能够泛化到多样视觉模态(不仅仅是静态图像)的基础模型。
  • Qwen-Image 作为“视觉生成”模型 (in the context of integrated understanding and generation):

    • 理解与生成无缝整合的愿景: 推动了理解和创造无缝整合的愿景。实现这一目标需要 (1) 掌握理解,(2) 掌握生成,以及 (3) 掌握它们的协同整合。
    • 填补关键空白: 作为 Qwen 系列中首个专注于视觉生成的工作,Qwen-Image 填补了第二支柱——生成能力——的关键空白,补充了擅长视觉理解(第一支柱)的 Qwen2.5-VL
    • 通向视觉语言全能系统 (Visual-Language Omni systems): 它们共同构成了下一代多模态 AI 的平衡基础,为实现视觉语言全能系统铺平了道路。这些系统不仅能够感知和推理,还能够生成文本丰富、视觉连贯的图像——语言和视觉无缝融合为图文并茂、可读且语义忠实的视觉输出。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 文本渲染的价值凸显: Qwen-Image 的研究深刻地启发了我,在图像生成领域,不仅仅追求高保真度和艺术性,对文本的精准渲染是模型走向实用化、商业化的关键一步。特别是对中文这类表意文字的突破,具有巨大的市场潜力。未来的多模态交互将更加依赖于模型在视觉内容中准确处理和呈现文字的能力。
  2. 数据工程的重要性: 论文详细介绍了其多阶段数据流水线,包括细致的收集、过滤、标注和合成策略。这表明,在大型模型时代,高质量、多样且平衡的数据集是模型成功的基石,其重要性不亚于模型架构创新。特别是对合成数据的巧妙运用,解决了稀有文本内容的长尾分布问题。
  3. 多任务与多模态的融合: Qwen-Image 的设计理念——将 T2I、TI2I、新视角合成、深度估计等任务统一在一个框架下,并引入双编码机制来平衡语义理解和像素保真度——展示了构建通用视觉基础模型的有效路径。这种“生成即理解”的范式为解决传统判别式任务提供了新的思路。
  4. 工程与学术的结合: 生产者-消费者框架、混合并行策略等工程优化,确保了模型在大规模训练下的效率和稳定性。这提醒我们,前沿的 AI 研究不仅需要理论突破,也离不开强大的工程支持。

7.3.2. 批判与潜在改进

  1. 长尾文本的泛化性挑战: 尽管 Qwen-Image 在中文文本渲染上取得了显著进展,但 ChineseWord 基准的 Level-3 准确率仍较低(6.48%)。这表明对于高度稀有或结构复杂的中文汉字,模型可能仍然存在泛化性问题。未来的工作可以进一步探索更有效的稀有字符合成策略或基于字符组件的表征学习方法。
  2. 多模态推理的深度: 虽然模型在空间关系和多对象生成方面表现出色,但对于更深层次的因果推理、常识推理或物理世界模拟,Qwen-Image 的能力可能还有提升空间。例如,在编辑复杂物理交互场景时,模型是否能始终生成符合物理定律的结果?这需要更高级别的“世界模型”集成。
  3. 人类评估的局限性: 尽管 AI Arena 提供了大规模的人类评估,但人类评估本身也存在主观性和一致性问题。同时,当前的人类评估主要关注图像质量、提示遵循和文本渲染,对更深层次的认知能力(如创造性、幽默感、叙事连贯性)的评估仍是挑战。
  4. 模型参数与效率: MMDiT 拥有 20B 参数,加上 Qwen2.5-VL 的 7B 参数,总参数量巨大。虽然论文提到了一些训练优化,但对于资源受限的用户而言,如何实现更高效的推理和部署仍是一个重要考量。未来的工作可以探索模型压缩、量化或更轻量级的架构。
  5. 隐私与偏见问题: 大规模数据集的收集和合成可能隐含隐私泄露和数据偏见风险,尽管论文提到了 NSFW 过滤和去除人脸马赛克,但更全面的伦理和安全审查是持续性的挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。