AiPaper
论文状态:已完成

X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

发表:2025/07/30
原文链接PDF 下载
价格:0.10
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文利用强化学习优化离散自回归图像生成模型,提出X-Omni框架,包括语义图像词元分析器、统一语言-图像自回归模型及离线扩散解码器,显著提升图像视觉质量和指令遵循能力,实现图像与语言生成的无缝融合。

摘要

Numerous efforts have been made to extend the ``next token prediction'' paradigm to visual contents, aiming to create a unified approach for both image generation and understanding. Nevertheless, attempts to generate images through autoregressive modeling with discrete tokens have been plagued by issues such as low visual fidelity, distorted outputs, and failure to adhere to complex instructions when rendering intricate details. These shortcomings are likely attributed to cumulative errors during autoregressive inference or information loss incurred during the discretization process. Probably due to this challenge, recent research has increasingly shifted toward jointly training image generation with diffusion objectives and language generation with autoregressive objectives, moving away from unified modeling approaches. In this work, we demonstrate that reinforcement learning can effectively mitigate artifacts and largely enhance the generation quality of a discrete autoregressive modeling method, thereby enabling seamless integration of image and language generation. Our framework comprises a semantic image tokenizer, a unified autoregressive model for both language and images, and an offline diffusion decoder for image generation, termed X-Omni. X-Omni achieves state-of-the-art performance in image generation tasks using a 7B language model, producing images with high aesthetic quality while exhibiting strong capabilities in following instructions and rendering long texts.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

1.2. 作者

Zigang Geng*、Yibing Wang*、Yeyao Ma、Chen Li、Yongming Rao、Shuyang Gu、Zhao Zhong、Qinglin Lu、Han Hu^{\ddag}、Xiaosong Zhang^{\dag}、Linus Di Wang、Jie Jiang。

* 表示共同一作;^{\dag} 表示项目负责人;^{\ddag} 表示通讯作者。

1.3. 发表期刊/会议

预印本(arXiv),尚未指明正式发表期刊/会议。

1.4. 发表年份

2025年。

1.5. 摘要

为将“下一词元预测 (next token prediction)”范式扩展到视觉内容,以期创建图像生成和理解的统一方法,研究人员进行了大量努力。然而,通过离散词元 (discrete tokens) 进行自回归建模 (autoregressive modeling) 来生成图像一直面临挑战,例如视觉保真度低、输出失真以及在渲染复杂细节时难以遵循复杂指令。这些缺点可能归因于自回归推理 (autoregressive inference) 过程中累积的误差或离散化 (discretization) 过程中信息丢失。可能由于这一挑战,最近的研究越来越多地转向将图像生成与扩散目标 (diffusion objectives) 联合训练,将语言生成与自回归目标联合训练,从而偏离了统一建模方法。

在这项工作中,我们证明强化学习 (reinforcement learning, RL) 可以有效缓解离散自回归建模方法中的伪影 (artifacts) 并大幅提高生成质量,从而实现图像和语言生成的无缝集成。我们的框架包括一个语义图像词元分析器 (semantic image tokenizer)、一个用于语言和图像的统一自回归模型,以及一个用于图像生成的离线扩散解码器 (offline diffusion decoder),我们将其命名为 X-Omni。X-Omni 使用 7B (70亿参数) 语言模型在图像生成任务中取得了最先进的 (state-of-the-art) 性能,生成了高美学质量的图像,同时在遵循指令和渲染长文本方面展现出强大的能力。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2507.22058 PDF 链接: https://arxiv.org/pdf/2507.22058v1.pdf 发布状态: 预印本 (arXiv),发布于 UTC 时间 2025-07-29T17:59:04.000Z。

2. 整体概括

2.1. 研究背景与动机

当前人工智能领域,“下一词元预测 (next token prediction)”范式在语言建模中取得了巨大成功,引发了将该范式扩展到视觉内容,以实现图像生成和理解统一方法的研究热潮。然而,早期尝试将图像离散化 (discretize) 为序列词元 (sequential tokens) 并通过自回归模型 (autoregressive model) 生成图像,如 iGPT 和 DALL-E,面临着诸多挑战:

  • 视觉保真度低 (low visual fidelity): 生成图像不够真实或细节不足。

  • 输出失真 (distorted outputs): 图像中存在不自然的扭曲或错误。

  • 难以遵循复杂指令 (failure to adhere to complex instructions): 在渲染复杂细节或遵循具体要求时表现不佳。

    这些问题可能源于自回归推理过程中的“累积误差 (cumulative errors)”或图像离散化过程中的“信息损失 (information loss)”。由于这些挑战,近期研究趋势转向了异构方法,即图像生成主要采用扩散模型 (diffusion models),而语言生成则继续使用自回归模型。这种分离的方法虽然在各自领域取得了进展,但却阻碍了图像和语言建模的统一,并引入了跨模态建模不匹配 (cross-modal modeling mismatch) 的问题,限制了知识迁移和能力共享。

本文的动机在于重新审视离散自回归框架在图像生成中的潜力,并解决其固有缺陷。作者认为,如果能有效克服这些问题,离散自回归方法可以为统一的视觉与语言模型提供一个更简洁、更高效的架构。

2.2. 核心贡献/主要发现

X-Omni 的核心贡献在于:

  • 证明强化学习 (reinforcement learning, RL) 的有效性: 首次证明了 RL 可以显著缓解离散自回归图像生成模型中的伪影 (artifacts) 问题,并大幅提升图像生成质量。这使得离散自回归建模方法能够重新焕发活力,实现图像和语言的无缝集成。
  • 提出 X-Omni 框架: 这是一个集成了语义图像词元分析器 (semantic image tokenizer)、统一的语言和图像自回归模型以及一个离线扩散解码器 (offline diffusion decoder) 的综合框架。该框架能够将图像和文本建模统一在一个自回归范式下。
  • 卓越的性能表现: X-Omni 在使用 7B 语言模型的情况下,在图像生成任务中取得了最先进的 (state-of-the-art) 性能。具体表现为:
    • 高美学质量 (high aesthetic quality): 生成图像具有很高的视觉吸引力。
    • 强大的指令遵循能力 (strong capabilities in following instructions): 能够准确理解并执行复杂的生成指令。
    • 精准的长文本渲染 (accurate rendering of long texts): 在图像中精确生成长段文本,这在以往的文本到图像模型中是一个显著挑战。
  • 消除分类器自由引导 (Classifier-Free Guidance, CFG) 依赖: X-Omni 在自回归采样过程中不需要 CFG 即可生成高质量图像。这不仅降低了计算成本,还表明其视觉和语言词元生成过程具有更高的一致性。
  • RL 优于 SFT + Best-of-N 采样: 发现 RL 训练能够显著超越仅通过监督微调 (Supervised Fine-Tuning, SFT) 结合 Best-of-N 采样所能达到的性能,尤其在图像生成这种具有局部复杂性的任务中,RL 的整体优化能力更强。

3. 预备知识与相关工作

3.1. 基础概念

  • 下一词元预测 (Next Token Prediction): 一种序列生成任务范式,模型根据前面已生成的词元来预测下一个词元。在语言模型中,这通常指预测下一个单词;在图像模型中,则指预测下一个图像词元。
  • 自回归建模 (Autoregressive Modeling): 一种序列生成方法,其中每个输出元素都依赖于先前生成的元素。在图像生成中,这意味着图像是逐个像素或逐个离散词元生成的。
  • 离散词元 (Discrete Tokens): 将连续数据(如图像像素值)通过量化 (quantization) 转换为有限集合中的离散编码。这样做可以将图像数据表示成类似于文本的序列,从而可以应用语言模型的处理方法。
  • 扩散模型 (Diffusion Models): 一类生成模型,通过逐步去除噪声来生成数据。它们从随机噪声开始,然后学习一个逆扩散过程来恢复数据。在图像生成中,扩散模型因其生成高质量图像的能力而备受关注。
  • 强化学习 (Reinforcement Learning, RL): 一种机器学习范式,智能体 (agent) 通过与环境交互学习如何做出决策以最大化累积奖励。在生成模型中,RL 可以通过奖励函数指导模型生成更符合人类偏好或特定标准的输出。
  • 语义图像词元分析器 (Semantic Image Tokenizer): 将图像转换为具有语义信息的离散词元的模块。与直接量化像素不同,语义词元会尝试捕捉图像的高级特征和含义。
  • 向量量化器 (Vector Quantizer, VQ): 一种将高维向量映射到离散码本 (codebook) 中最近的码字 (codeword) 的机制。在图像词元分析中,它将连续视觉特征转换为离散的视觉词元。
  • 分类器自由引导 (Classifier-Free Guidance, CFG): 一种在生成过程中提高文本到图像模型对文本提示 (text prompt) 遵循程度的技术。它通过结合有条件生成和无条件生成的结果来“引导”生成过程,使其更贴近提示。通常,更高的 CFG 权重意味着更强的提示遵循,但也可能牺牲多样性或导致伪影。

3.2. 前人工作

  • 早期自回归图像生成 (Early Autoregressive Image Generation):

    • iGPT 和 DALL-E: 这些开创性工作尝试将“下一词元预测”范式应用于图像生成。它们通过将图像离散化为序列词元,然后进行逐步词元预测来生成内容。DALL-E 证明了从文本输入生成图像的可行性。
    • 局限性: 早期 DALL-E 的图像质量有限。尽管后续工作(如 [10, 11, 12, 13, 14, 15])致力于提高质量,但生成图像的保真度仍相对较低。这主要是由于序列生成图像词元时累积误差 (cumulative errors) 导致。
  • 扩散模型的兴起 (Rise of Diffusion Models):

    • 由于自回归模型的局限性,图像生成领域迅速转向了扩散模型 [16, 17, 18, 19]。扩散模型(如 Stable Diffusion 系列)在生成高质量图像方面表现出色,并成为主流。
    • 问题: 扩散模型与语言模型在架构和建模上的异构性,使得将强大的语义能力整合到图像生成中面临挑战。
  • 混合设计 (Hybrid Designs) 和统一建模 (Unified Modeling):

    • 早期混合设计: 为了解决图像与语言模型之间的不匹配,研究者提出了各种混合设计 [20, 21, 22, 23]。
    • 近期趋势: 最近的研究兴趣更多地转向了将图像生成与扩散目标 (diffusion objectives) 联合训练,同时将语言生成与自回归目标 (autoregressive objectives) 联合训练 [24, 25, 26, 27, 28, 29, 30, 31, 32]。这种方法进一步加剧了建模不匹配问题。
  • 连续词元 (Continuous Tokens) 与离散词元 (Discrete Tokens):

    • 连续词元方法: 一些方法 [10, 11, 34] 通过自回归预测连续视觉词元,或使用查询词元 (query tokens) 并行预测连续视觉词元 [35, 36]。它们通常使用 MSE 损失 (MSE loss) 或余弦相似度 (cosine similarity) 进行监督,但这些方法依赖于高斯分布 (Gaussian distribution) 等假设,限制了可表示的图像分布范围,且与强化学习的结合方式尚不明确。
    • 离散词元方法: 能够生成更复杂的分布,但面临图像离散化损失 (image discretization losses) 的挑战。例如,Chameleon [15] 和 Emu3 [12] 依赖有损量化 (lossy quantization) 预测离散图像词元,限制了生成图像的细节水平。
    • 引入语义监督: 为缓解离散化损失,一些方法 [14, 20, 37, 21] 尝试在图像像素离散化过程中引入语义监督 (semantic supervision)。LaViT [38] 通过重建 EVA-CLIP [39] 提取的语义特征进行离散化,但在自回归生成的图像词元与扩散解码器训练中使用的真实词元之间存在分布差距。
  • 强化学习在生成模型中的应用 (Reinforcement Learning for Generative Models):

    • 扩散模型中的 RL: 大多数 RL 研究集中在扩散模型上,例如 [43, 44, 45] 通过奖励梯度 (reward gradients) 微调扩散模型;[46, 47] 通过奖励加权负对数似然 (reward-weighted negative log-likelihood) 目标进行优化。还有一些工作 [48, 47, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58] 将语言模型中的 RL 方法(如 DPO [59]、PPO [60]、GRPO [61])扩展到扩散模型。然而,这些方法的效果因采样多样性不足而受限。

3.3. 技术演进

图像生成领域的技术演进经历了从早期基于GAN (Generative Adversarial Networks) 和 VAE (Variational Autoencoders) 的尝试,到以 DALL-E 为代表的自回归模型,再到以 Stable Diffusion 为代表的扩散模型。自回归模型因其对“下一词元预测”范式的自然承接,一度被认为是实现通用多模态智能体的有希望路径。然而,其在图像质量和指令遵循方面的固有缺陷,导致研究重心转向了扩散模型。扩散模型在生成高保真图像方面取得了巨大成功,但其与语言模型的异构性又带来了新的挑战,即如何有效地将强大的语义理解能力与图像生成相结合。

X-Omni 的工作试图在这一技术演进中开辟一条新路径。它回归到离散自回归模型,但通过引入强化学习来弥补其历史缺陷,旨在实现真正的统一多模态建模。它利用了语言模型在处理序列数据方面的优势,并通过 RL 来优化图像词元的生成,使其与扩散解码器更好地对齐,从而在保证图像质量的同时,实现语言和图像的无缝集成。

3.4. 差异化分析

X-Omni 与现有方法的差异化主要体现在以下几个方面:

  • 统一的离散自回归框架 + RL: 与当前主流的扩散模型或混合模型(分别训练图像和语言部分)不同,X-Omni 坚持采用统一的离散自回归框架来同时建模图像和文本。其核心创新在于,通过强化学习来弥补离散自回归方法在图像质量和指令遵循方面的不足,而不是放弃该范式。
  • 强化学习的重点和效果:
    • 传统 RL for Diffusion: 大多数强化学习应用于扩散模型,但由于扩散模型采样多样性不足,RL 优化效果受限。
    • X-Omni 的 RL for Autoregressive: 本文将强化学习应用于自回归生成模型。由于自回归方法在采样多样性方面具有优势,结合成熟的 RL 技术,X-Omni 能够取得更强的结果。RL 有效地弥合了自回归生成词元与扩散解码器期望词元之间的分布差距,并缓解了累积误差。
  • 语义图像词元分析器: 采用 SigLIP-VQ 词元分析器,其训练目标是视觉理解任务,确保生成的离散词元具有丰富的语义信息,这有助于在统一框架下更好地集成图像理解任务。
  • CFG 独立性: X-Omni 能够不依赖分类器自由引导 (CFG) 就能生成高质量图像,这与许多依赖 CFG 来提高文本遵循能力的自回归模型(如 Emu3 和 Janus-Pro)形成鲜明对比。这表明 X-Omni 的生成过程在视觉和语言词元之间具有更高的一致性,同时降低了推理成本。
  • 长文本渲染能力: X-Omni 在长文本渲染方面表现出卓越的性能,超越了大多数现有统一模型,这得益于其自回归建模的本质以及专门设计的 OCR 奖励。

4. 方法论

4.1. 方法原理

X-Omni 的核心思想是利用强化学习 (Reinforcement Learning, RL) 来弥补离散自回归模型在图像生成方面的固有缺陷,特别是解决其在自回归推理过程中累积误差 (cumulative errors) 和与扩散解码器 (diffusion decoder) 之间存在的分布差距 (distribution gap) 问题。通过引入一个全面的奖励系统 (reward system),RL 能够为自回归模型提供端到端的监督,指导模型生成更高质量、更符合指令并能准确渲染文本的图像词元序列。

具体来说,方法原理基于以下直觉:

  1. 统一的序列建模: 既然语言可以通过“下一词元预测 (next token prediction)”的方式进行自回归建模,那么如果能将图像也有效转换为离散词元序列,就可以在同一个自回归架构下统一处理语言和图像。
  2. 克服离散化损失和累积误差: 传统的离散自回归图像生成方法容易受到图像离散化过程中信息损失和自回归推理过程中误差累积的影响,导致生成质量不高。
  3. 强化学习的校准作用: 强化学习可以作为一个强大的校准机制。通过定义反映图像质量、文本-图像对齐、文本渲染准确性等方面的奖励函数,RL 可以“教导”自回归模型生成更好的图像词元序列。这些序列在解码后,能够产生高保真、语义正确的图像,并与离线扩散解码器期望的输入分布对齐。
  4. 无缝集成和知识共享: 统一的自回归架构,加上 RL 的优化,使得图像和语言的知识可以更好地在同一个模型中迁移和共享,从而实现更强大的多模态能力。

4.2. 核心方法详解

X-Omni 框架由三个主要组件构成:语义图像词元分析器 (semantic image tokenizer)、统一的自回归模型 (unified autoregressive model) 和离线扩散解码器 (offline diffusion decoder)。整个架构如图 3 所示。

4.2.1. 整体架构

Figure 3: The architecture of X-Omni. 该图像是X-Omni架构的示意图,展示了统一的自回归模型在文本分词器和SigLIP-VQ之间的中枢作用,并通过Detokenization和扩散解码器分别生成文本和图像。

图 3:X-Omni 的架构。

如图 3 所示,X-Omni 框架的核心是一个统一的自回归模型 (Autoregressive Model)。图像首先通过 SigLIP-VQ 词元分析器 (SigLIP-VQ Tokenizer) 转换为离散的视觉词元。文本则由文本词元分析器 (Text Tokenizer) 转换为语言词元。这些视觉和语言词元被拼接成一个统一的多模态序列,输入到自回归模型中进行“下一词元预测”。对于图像生成任务,模型预测的是视觉词元;对于图像理解任务,模型预测的是语言词元。生成的视觉词元随后通过扩散解码器 (Diffusion Decoder) 转换为最终的图像,而生成的语言词元则通过文本解码器 (Text Decoder) 转换为文本。

4.2.2. 图像词元分析 (Image Tokenization)

为了将连续的图像转换为离散词元并保留丰富的语义信息,X-Omni 采用了一个名为 SigLIP-VQ 的图像词元分析器。

  • 视觉语义提取器: 选择预训练的 SigLIP2-g [62] ViT 作为视觉语义提取器。SigLIP2-g 是一种多语言视觉-语言编码器,具有改进的语义理解、定位和密集特征提取能力。
  • 向量量化器 (Vector Quantizer): 在 ViT 编码器的基础上,整合一个向量量化器作为图像词元分析器。
    • 码本 (Codebook): 词汇表大小为 16,384,维度为 2,048。
    • 对齐: 该量化器与预训练的大型语言模型 (LLM),Qwen2.5-1.5B [9],在视觉理解任务上进行对齐训练。
    • 适配器 (Adapter): 视觉词元分析器和 LLM 之间使用一个残差块 (residual block) 作为适配器。
  • 固定组件: 在后续的训练阶段中,SigLIP-VQ 图像词元分析器的所有组件(视觉编码器和向量量化器)都保持冻结 (frozen),以确保词元化过程的稳定性和一致性。

4.2.3. 自回归建模 (Autoregressive Modeling)

图像被词元化为离散词元后,视觉词元和语言词元可以通过统一的多模态建模自然地集成到一个自回归架构中。

  • 基础模型: X-Omni 采用 Qwen2.5-7B [9] 作为基础预训练模型。
  • 视觉感知能力集成: 为了将视觉感知能力整合到基于文本的语言模型中,在原始 Transformer 层的前后各插入四个随机初始化的视觉特定块 (vision-specific blocks)。
    • 结构: 这些视觉特定块与标准 Transformer 块具有相同的结构配置。
    • 作用对象: 它们仅作用于图像词元,对文本词元没有影响。
  • 额外层: 此外,还为图像词元引入了随机初始化的嵌入层 (embedding layers) 和分类头 (classification heads)。
  • 架构优势: 与原始语言模型相比,这些架构修改没有引入额外的基础设施复杂性,同时保持与分布式训练策略(包括张量并行、流水线并行和上下文并行)的完全兼容性。
  • 统一多模态序列: 对于视觉生成和理解任务,视觉词元和语言词元被拼接成一个统一的多模态序列,然后输入到自回归模型中进行下一词元预测训练。
    • 监督目标: 对于理解任务,仅监督语言词元;对于生成任务,仅监督视觉词元。
  • 图像分辨率处理: 为了适应任意图像分辨率,在视觉词元前添加一个分辨率信息前缀,格式如下: languagetokens<SOM>heightwidth<Image>visualtokens<EOM>languagetokenslanguage tokens <SOM> height width <Image> visual tokens <EOM> language tokens
    • <SOM><SOM><EOM><EOM> 是多模态序列中的起始和结束标记。
    • heightwidth 是表示 2D 图像词元空间尺寸的文本词元。
    • <Image><Image> 之后是展平的图像词元,其长度为 height 乘以 width
  • 位置编码: 采用与原始语言模型一致的 1D 旋转位置编码 (Rotary Position Embedding, RoPE) [63],而不是额外的 2D 位置编码。

4.2.4. 扩散解码器 (Diffusion Decoder)

选择一个预训练良好的扩散模型作为视觉解码器,用于从离散语义词元重建图像像素。

  • 具体实现: 添加一个线性层 (linear layer),将语义嵌入词元 (semantic embedding tokens) 映射到 FLUX.1-dev [64] 的特征通道维度,并将其集成到中间层特征中。
  • 输入条件: 扩散解码器使用图像词元分析器提取的语义词元作为输入条件。
  • 训练目标: 以图像重建为目标进行训练。

4.2.5. 强化学习与 GRPO (Reinforcement Learning with GRPO)

为了弥合扩散解码器训练过程中使用的语义词元与自回归模型生成的词元之间的分布差距,采用强化学习 (RL) 为自回归模型提供全面的监督。这种在整个采样过程中的指导有助于减轻误差传播,并确保自回归模型的输出分布与扩散解码器的期望对齐。强化学习的整体流程如图 2(a) 所示。

Figure 2: During the reinforcement learning process, X-Omni's image generation reward quickly surpassed the best-of-N results achieved by the SFT model (SFT BoN) and demonstrated steady improvement.… 该图像是图2,包含强化学习流程示意图、训练曲线及生成结果对比图,展示X-Omni在训练步骤增加时图像生成奖励迅速超越SFT BoN,生成的文本渲染、审美质量与指令遵循能力逐步提升。

图 2 (a):强化学习流程示意图。

GRPO 算法 (GRPO Algorithm)

本文采用组相对策略优化 (Group Relative Policy Optimization, GRPO) [61] 算法,该算法避免了对单独评论家网络 (critic network) 的需求,从而降低了计算开销。

  • 采样过程: 对于每个文本提示 pDp \sim \mathcal { D },使用旧策略 πθold\pi _ { \theta _ { o l d } } 生成一组 GG 条轨迹 {o1,o2,...,oG}\left\{ o _ { 1 } , o _ { 2 } , . . . , o _ { G } \right\}

  • 解码与奖励: 这些轨迹随后由固定的扩散解码器解码,得到相应的图像 {I1,I2,...,IG}\{ I _ { 1 } , I _ { 2 } , . . . , I _ { G } \}。每张图像都通过奖励函数 (reward function) 评分,得到标量奖励 {r1,\hdots,rG}\{ r _ { 1 } , \hdots , r _ { G } \}

  • 优势计算: 优势 (advantages) A _ { i } 通过对这组奖励进行归一化计算,遵循原始 GRPO 过程。

  • 策略优化: 策略模型 πθ\pi _ { \theta } 通过最大化以下目标函数进行优化:

    IGRPO(θ)=E[pD,{oi}i=1Gπθold(p)]1Gi=1G(min(πθ(oip)πθold(oip)Ai,clip(πθ(oip)πθold(oip),1ϵ,1+ϵ)Ai)βDKL(πθπθrϵ,f)), \begin{array} { l } { \displaystyle \mathcal { I } _ { G R P O } ( \theta ) = \mathbb { E } [ p \sim \mathcal { D } , \left\{ \boldsymbol { o } _ { i } \right\} _ { i = 1 } ^ { G } \sim \pi _ { \theta _ { \mathrm { o l d } } } ( \cdot | p ) ] } \\ { \displaystyle \frac { 1 } { { G } } \sum _ { i = 1 } ^ { G } \left( \operatorname* { m i n } \left( \frac { \pi _ { \theta } \left( \boldsymbol { o } _ { i } | p \right) } { \pi _ { \theta _ { \mathrm { o l d } } } \left( \boldsymbol { o } _ { i } | p \right) } A _ { i } , \mathrm { c l i p } \left( \frac { \pi _ { \theta } \left( \boldsymbol { o } _ { i } | p \right) } { \pi _ { \theta _ { \mathrm { o l d } } } \left( \boldsymbol { o } _ { i } | p \right) } , 1 - \epsilon , 1 + \epsilon \right) A _ { i } \right) - \beta \mathbb { D } _ { K L } ( \pi _ { \theta } | | \pi _ { \theta _ { \boldsymbol { r } \epsilon , f } } ) \right) , } \end{array}

  • 符号解释:

    • IGRPO(θ)\mathcal { I } _ { G R P O } ( \theta ): GRPO 算法的目标函数,旨在优化策略参数 θ\theta
    • E[]\mathbb { E } [ \cdot ]: 期望操作,表示对括号内表达式的平均值。
    • pDp \sim \mathcal { D }: 文本提示 pp 从数据分布 D\mathcal{D} 中采样。
    • {oi}i=1Gπθold(p)\left\{ \boldsymbol { o } _ { i } \right\} _ { i = 1 } ^ { G } \sim \pi _ { \theta _ { \mathrm { o l d } } } ( \cdot | p ): 一组 GG 条轨迹 oi\boldsymbol{o}_i 是根据给定提示 pp 和旧策略 πθold\pi _ { \theta _ { \mathrm { o l d } } } 生成的。
    • πθ(oip)\pi _ { \theta } ( \boldsymbol { o } _ { i } | p ): 当前策略 πθ\pi _ { \theta } 在给定提示 pp 下生成轨迹 oi\boldsymbol{o}_i 的概率。
    • πθold(oip)\pi _ { \theta _ { \mathrm { o l d } } } ( \boldsymbol { o } _ { i } | p ): 旧策略 πθold\pi _ { \theta _ { \mathrm { o l d } } } 在给定提示 pp 下生成轨迹 oi\boldsymbol{o}_i 的概率。
    • A _ { i }: 第 ii 条轨迹的优势函数 (advantage function),表示该轨迹相对于平均水平的奖励。
    • min(a,b)\operatorname* { m i n } ( a , b ): 取 aabb 中的最小值。这里用于裁剪策略比率,以限制策略更新的幅度,防止更新过大导致不稳定。
    • clip(x,min,max)\mathrm { c l i p } ( x , \mathrm { min } , \mathrm { max } ): 将值 xx 裁剪到 [min,max][\mathrm{min}, \mathrm{max}] 范围内。
    • ϵ\epsilon: 一个超参数,用于定义裁剪范围,防止策略更新过于激进。
    • β\beta: 一个超参数,用于平衡奖励最大化和策略与参考策略之间的 KL 散度 (KL divergence) 惩罚。
    • DKL(πθπθrϵ,f)\mathbb { D } _ { K L } ( \pi _ { \theta } | | \pi _ { \theta _ { \boldsymbol { r } \epsilon , f } } ): 当前策略 πθ\pi _ { \theta } 与参考策略 πθrϵ,f\pi _ { \theta _ { \boldsymbol { r } \epsilon , f } } 之间的 Kullback-Leibler (KL) 散度。它衡量两个概率分布之间的差异,惩罚策略更新过度偏离参考策略。
    • πθref\pi _ { \theta _ { \mathrm { ref } } }: 一个参考策略,通常是用于稳定训练的策略快照。
    • DKL\mathbb { D } _ { \mathrm { K L } } 的估计使用了无偏估计器 [65]。这种公式允许在平衡奖励最大化与稳定参考模型之间进行高效微调。

奖励系统 (Reward System)

X-Omni 构建了一个全面的奖励系统,包含多个专门组件,每个组件旨在监督图像生成质量的不同方面。这些多样化的奖励函数协同作用,在强化学习期间提供全面的指导,解决美学质量、文本-图像对齐和文本渲染准确性等关键维度。各个奖励信号通过加权聚合机制组合,形成指导强化学习优化过程的最终奖励分数。

  • 人类偏好分数 (Human Preference Score):
    • 使用 HPSv2 [66] 来评估美学质量和人类偏好对齐。
    • HPSv2 能够有效预测人类对生成图像的偏好,并在各种图像分布中表现出稳健的泛化能力,是引导 RL 优化生成具有美感且符合人类偏好的输出的关键组件。
  • 统一奖励分数 (Unified Reward Score):
    • 考虑到 HPSv2 主要在 224×224224 \times 224 分辨率下操作,而模型专注于高分辨率图像生成,因此引入统一奖励 [67] 模型进行人类对齐评估。
    • 该奖励聚合了多个质量维度,提供了一个统一的分数,为强化学习提供整体反馈。
  • 文本-图像对齐分数 (Text-Image Alignment Score):
    • 为确保输入提示和生成图像之间的语义一致性,利用 Qwen2.5-VL-32B [68] 视觉-语言模型计算对齐奖励。
    • 通过利用 VLM 复杂的图像理解能力,评估生成图像是否准确反映提示中描述的内容。
    • 对齐分数量化了文本描述和视觉内容之间的对应关系,鼓励生成与上下文相关的图像,同时最小化语义幻觉。
  • OCR 准确度分数 (OCR Accuracy Score):
    • 文本渲染准确性是文本到图像生成中的一个关键挑战。
    • 对于需要在图像中生成文本的提示,实施基于 OCR 的奖励,量化渲染文本与真实值 (ground truth) 的保真度。
    • 采用 GOT-OCR2.0 [69] 和 PaddleOCR [70] 联合评估图像并计算文本渲染的准确度分数。
    • 这个奖励信号为增强文本到图像合成提供了关键指导,使模型能够可靠地生成清晰准确的文本内容。

5. 实验设置

5.1. 数据集

X-Omni 的训练数据分为预训练、监督微调 (Supervised Finetuning, SFT) 和强化学习 (Reinforcement Learning, RL) 三个阶段。

  • 预训练 (Pre-training):

    • 自回归模型使用图像生成和图像理解数据的混合进行预训练。
    • 图像生成数据集:
      • 包含 COYO-700M [71]、DataComp-1B [72] 和 LAION-2B [73] 等开源数据集。
      • 经过特定过滤,收集了约 2 亿张高质量图像。
      • 由于原始描述信息有限且存在噪声,应用 Qwen2.5-VL-72B 模型 [68] 创建了带有密集描述的高质量图像-文本对。
      • 所有图像被调整为短边 384 像素,最长边在原始分辨率比下最大 1152 像素。
      • 最终图像生成数据集在词元化后包含 6000 亿多模态词元。
    • 图像理解数据集:
      • 使用包括 LLaVA-OneVision [74]、BLIP3-KALE [75]、Infinity-MM [76] 等数据在内的 5900 万数据进行训练。
      • 采用相同的图像调整策略,生成约 1000 亿多模态词元用于图像理解任务。
  • 监督微调 (Supervised Finetuning):

    • 在大规模预训练之后,进行监督微调阶段。
    • 整合了来自 BLIP3o-60k [27] 的 3 万条高质量数据、3 万条合成文本到图像数据,以及从预训练数据集中过滤出的高质量预训练词元。
    • 还混合了来自 LLaVA-NeXt [77]、Cauldron [78] 和 Cambrian-1 [79] 的图像理解数据。
    • 总结而言,SFT 阶段共训练了 15 亿词元。
  • 强化学习 (Reinforcement Learning):

    • X-Omni 利用在线策略 GRPO 算法,仅需要文本提示作为输入,图像由模型自身在训练期间生成。
    • 为了确保训练分布全面覆盖期望增强的能力,精心策划了一个多样化的 RL 数据集,包含来自三个不同类别的 18 万个提示样本。
    • Midjourney 数据集: 从 midjourney 数据集 [80] 中随机采样了 8 万个清洗过的提示,以捕捉用户请求的分布,更好地将训练与真实世界用户偏好和期望对齐。
    • 文本渲染专注提示: 为了增强模型在 RL 阶段的文本渲染能力,对富文本图像数据采用基于桶 (bucket-based) 的采样策略。将提示按文本长度排序到不同桶中,并从每个桶中随机提取 1 万个样本,最终收集了 5 万个专注于文本渲染的提示。
    • 美学质量和指令遵循提示: 随机采样了额外的 5 万个自然图像提示,以提高美学质量和指令遵循能力。
    • 这个精心平衡的 18 万个提示组合,涵盖了创意内容生成、文本渲染场景和自然图像描述,为 RL 阶段提供了全面的训练基础。
  • LongText-Bench 细节:

    • 目的: 针对 OneIG-Bench 中提示文本长度有限的问题,提出 LongText-Bench,以充分评估模型准确渲染长文本的能力。

    • 构成: 该基准包含 160 个精心设计的提示,涵盖 8 种不同场景,专门旨在评估精确渲染中文和英文长文本的能力。

    • 基准统计 (Benchmark Statistics):

      • 与现有基准相比,LongText-Bench 专注于评估渲染较长文本的性能。

      • 英文部分: “短”类别的文本内容长度集中在 10-30 个词之间;“长”类别主要在 30-50 个词之间。

      • 中文部分: “短”类别的大多数提示包含 20-40 个字符;“长”类别的提示文本长度通常超过 60 个字符。

      • 优势: 整体文本长度超过 OneIG-Bench,更能突出 X-Omni 在长文本渲染任务中的能力。

        Figure 7: Comparison between our proposed LongText-Bench and OneIG-Bench with respect to the length of rendered texts in English (left) and Chinese (right). 该图像是图表,展示了LongText-Bench与OneIG-Bench在英文(左图)和中文(右图)文本长度分布上的对比。图中以柱状图形式直观体现了两者在不同字数区间的分布差异。

      图 7:我们提出的 LongText-Bench 与 OneIG-Bench 在英文(左)和中文(右)渲染文本长度方面的比较。

    • 提示构建 (Prompt Construction):

      • 通过自动管道生成,并进行人工后期审核。
      • 第一步: 定义 8 个包含富文本上下文的常见场景,包括:标牌、带标签的物体、印刷材料、网页、幻灯片、海报、标题和对话。
      • 第二步: 对于每个类别,指示 GPT-4o 生成 20 个图像生成提示,其中 10 个包含短文本内容,10 个包含长文本内容。
      • 第三步: 对收集到的提示进行人工审核,调整文本内容长度以实现更平衡的分布。
      • 最终整理出 160 个提示,涵盖 8 个类别,用于评估长文本渲染任务。

5.2. 评估指标

论文使用了多种评估指标来衡量 X-Omni 在不同任务上的性能。

  • 文本渲染 (Text Rendering):

    • OneIG-Bench [81]: 评估一个综合得分,该得分源自三个指标:
      1. 编辑距离 (Edit Distance):
        • 概念定义: 衡量将一个字符串转换为另一个字符串所需的最小单字符编辑(插入、删除、替换)操作次数。编辑距离越小,表示两个字符串越相似。在文本渲染中,它用于评估生成文本与目标文本之间的字符级匹配程度。
        • 数学公式: 最常见的编辑距离是 Levenshtein 距离。对于两个字符串 s1s_1s2s_2,其 Levenshtein 距离 lev(s1,s2)lev(s_1, s_2) 定义如下: $lev(s_1, s_2) = \begin{cases} \max(|s_1|, |s_2|) & \text{if } \min(|s_1|, |s_2|) = 0 \ lev(\text{tail}(s_1), \text{tail}(s_2)) & \text{if } s_1[0] = s_2[0] \ 1 + \min \begin{cases} lev(\text{tail}(s_1), s_2) \ lev(s_1, \text{tail}(s_2)) \ lev(\text{tail}(s_1), \text{tail}(s_2)) \end{cases} & \text{if } s_1[0] \neq s_2[0] \end{cases}$
        • 符号解释:
          • s1,s2s_1, s_2: 待比较的两个字符串。
          • s1,s2|s_1|, |s_2|: 字符串 s1s_1s2s_2 的长度。
          • s_1[0], s_2[0]: 字符串 s1s_1s2s_2 的第一个字符。
          • tail(s)\text{tail}(s): 字符串 ss 除去第一个字符后的子串。
        • 注意: OneIG-Bench 使用的编辑距离可能经过归一化,使其值在 0 到 1 之间,通常是 1(编辑距离/最长字符串长度)1 - (\text{编辑距离} / \text{最长字符串长度}) 或类似形式,表示相似度。
      2. 完成率 (Completion Rate):
        • 概念定义: 衡量生成图像中是否成功识别并渲染了所有或大部分目标文本。如果生成文本是目标文本的完整子集或与目标文本高度匹配,则完成率高。
        • 数学公式: 论文未给出具体公式,通常计算为:成功识别并正确渲染的文本片段数量/目标文本片段总数\text{成功识别并正确渲染的文本片段数量} / \text{目标文本片段总数}
      3. 词语准确率 (Word Accuracy):
        • 概念定义: 衡量生成文本中单词级别的准确性。它计算生成文本与目标文本中正确匹配的单词比例。
        • 数学公式: 论文未给出具体公式,通常计算为:正确识别的单词数量/目标单词总数\text{正确识别的单词数量} / \text{目标单词总数}
    • LongText-Bench:
      • 文本准确率 (Text Accuracy Score): 论文中指出,考虑到长文本场景下 OCR 识别结果不考虑文本段落的相对顺序,编辑距离不适用。因此,LongText-Bench 采用文本准确率作为评估文本生成的最终指标。
      • 概念定义: 衡量生成文本的整体准确性,可能综合考虑了文本内容的正确性、完整性以及可读性。在实际应用中,它可能基于字符级或词元级的匹配,并对漏识别、错识别等情况进行惩罚。
      • 数学公式: 论文未给出具体公式。通常,文本准确率可以定义为: Text Accuracy=i=1NI(Recognized Texti=Ground Truth Texti)N\text{Text Accuracy} = \frac{\sum_{i=1}^{N} \mathbb{I}(\text{Recognized Text}_i = \text{Ground Truth Text}_i)}{N} 其中,NN 是图像中需要识别的文本实例总数,I()\mathbb{I}(\cdot) 是指示函数,当识别的文本与真实文本完全匹配时为 1,否则为 0。或者使用更复杂的基于字符错误率 (CER) 或词错误率 (WER) 的计算方式。
      • 符号解释:
        • I()\mathbb{I}(\cdot): 指示函数。
        • Recognized Texti\text{Recognized Text}_i: 模型从图像中识别出的第 ii 段文本。
        • Ground Truth Texti\text{Ground Truth Text}_i: 图像中真实的第 ii 段文本。
        • NN: 图像中需要识别的文本段落总数。
  • 文本到图像生成 (Text-to-Image Generation):

    • DPG-Bench [90]: 评估模型在遵循复杂指令方面的能力。指标包括:Global (全局), Entity (实体), Attribute (属性), Relation (关系), Other (其他) 和 Overall (总体)。这些通常是基于 VLM 评估的语义一致性分数,量化生成图像与提示的匹配程度。
    • GenEval [91]: 评估模型在生成特定复杂视觉概念方面的能力,包括:Single (单个对象), Two (两个对象), Counting (计数), Colors (颜色), Position (位置), Color Attr. (颜色属性) 和 Overall (总体)。这些分数通常反映了模型理解和生成复杂组合概念的能力。
    • 这些指标的具体计算方法未在论文中详细阐述,但通常涉及到视觉语言模型 (VLM) 对生成图像和文本提示进行评估,以量化图像对提示的遵循程度。
  • 图像理解 (Image Understanding):

    • POPE (Popular Objects in Photos Evaluation) [96]: 评估 VLM 识别图像中常见对象幻觉 (object hallucination) 的能力。
    • GQA [97]: 一个用于真实世界视觉推理和组合式问答的基准。
    • MMBench [98]: 评估多模态模型在多个维度上的综合能力。
    • SEEDBench-Img [99]: 评估多模态大语言模型 (MLLM) 的基准。
    • DocVQA [100]: 一个用于文档图像视觉问答的数据集。
    • OCRBench [101]: 评估多模态大模型中 OCR (光学字符识别) 能力的基准。
    • 这些通常是对应基准数据集上的准确率或特定任务分数。

5.3. 对比基线

X-Omni 与多类模型进行了比较,包括:

  • 仅生成模型 (Generation Only Models): 这些模型主要专注于图像生成任务,通常是扩散模型。

    • SDXL [86]
    • DALL-E [87]
    • SD3-medium [88]
    • FLUX.1-dev [64]
    • HiDream-I1-Full [82]
    • Kolors 2.0 [83]
    • Seedream 3.0 [84]
  • 统一模型 (Unified Models): 这些模型旨在统一图像和语言的生成与理解。

    • Emu3 [12]
    • Janus-Pro [21]
    • MetaQuery [28]
    • BLIP3-o [27]
    • UniWorld-V1 [29]
    • Ovis-U1 [89]
    • Mogao [33]
    • BAGEL [30]
    • OmniGen2 [31]
    • Show-02 [32]
    • GPT-4o [85]
  • 仅理解模型 (Understanding Only Models): 这些模型主要专注于图像理解任务。

    • LLaVA-1.5 [93]
    • LLaVA-NeXT [77]
    • VILA [94]
    • MiniCPM-Llama3-V 2.5 [95]
    • LLaVA-OneVision [74]

5.4. 训练实现细节

  • 预训练 (Pre-training):

    • 策略: 设计了三阶段预训练策略。
    • 第一阶段: 仅解冻 (unfreeze) 随机初始化的视觉特定块 (vision-specific blocks) 和视觉词元嵌入 (vision token embeddings),使用生成数据进行训练。
      • 批大小 (Batch Size): 256
      • 序列长度 (Sequence Length): 16,384
      • 步数 (Steps): 1 万步
      • 消耗词元 (Tokens Consumed): 共 420 亿词元。
    • 第二阶段: 自回归模型中的所有组件都设置为可训练 (trainable),使用生成和理解数据的混合进行训练。
      • 批大小: 256
      • 序列长度: 16,384
      • 步数: 15 万步
      • 消耗词元: 6290 亿词元。
    • 第三阶段: 学习率 (learning rate) 采用退火 (annealing) 策略,而非前两阶段的固定学习率 1×1041 \times 10^{-4}
      • 数据: 使用从预训练数据集中过滤出的 420 亿高质量词元。
  • 监督微调 (Supervised Finetuning):

    • 仅训练自回归模型的可学习参数。
    • 批大小: 64
    • 序列长度: 16,384
    • 学习率:1×1051 \times 10^{-5} 逐渐降低到 0。
    • 消耗词元: 共 15 亿词元。
    • 序列打包与预训练一致,仅数据和学习率调度不同。
  • 强化学习 (Reinforcement Learning):

    • 学习率: 1×1061 \times 10^{-6}
    • 训练步数: 200 步。
    • 批大小: 512
    • 采样 (Rollouts): 每个提示生成 16 次采样,以确保充分探索动作空间 (action space)。
    • 损失函数: 结合标准策略梯度损失 (policy gradient loss) 和 KL 散度 (KL divergence) 项,KL 散度权重为 0.01。
    • 中文文本渲染模型: 通过在强化学习阶段的中间检查点中融入中文数据进行训练而获得。

6. 实验结果与分析

6.1. 核心结果分析

X-Omni 在经过图像-文本数据预训练、监督微调和强化学习后,在复杂指令遵循和长文本渲染方面展现出卓越性能。

6.1.1. 文本渲染 (Text Rendering)

以下是原文 Table 1 的结果:

Method OneIG-Bench [81] LongText-Bench
English Chinese English Chinese
Gen. Only Models
FLUX.1-dev [64] 0.523 0.607 0.005
HiDream-I1-Full [82] 0.707 0.205 0.543 0.024
Kolors 2.0 [83] 0.427 0.502 0.258 0.329
Seedream 3.0 [84] 0.865 0.928 0.896 0.878
Unified Models
Janus-Pro [21] 0.001 0.148 0.019 0.006
BLIP3-o [27] 0.013 0.092 0.021 0.018
BAGEL [30] 0.244 0.365 0.373 0.310
OmniGen2 [31] 0.680 - 0.561 0.059
Show-02 [32] 0.002 - 0.006 0.002
GPT-4o [85] 0.857 0.650 0.956 0.619
x-Omni 0.901 0.895 0.900 0.814

表 1:文本渲染能力的比较。

  • OneIG-Bench 英文文本渲染: X-Omni (0.901) 显著优于大多数现有开源统一模型,如 BAGEL (0.244)、OmniGen2 (0.680) 和 Show-02 (0.002)。甚至超越了 GPT-4o (0.857)。

  • OneIG-Bench 中文文本渲染: X-Omni (0.895) 表现出色,超过了 GPT-4o (0.650) 和大多数其他模型,与专业的商业文本到图像系统 Seedream 3.0 (0.928) 性能相当。

  • LongText-Bench 英文文本渲染: X-Omni (0.900) 在统一模型中表现最佳,尽管略低于 GPT-4o (0.956)。

  • LongText-Bench 中文文本渲染: X-Omni (0.814) 大幅领先所有其他模型,表现出卓越的长中文文本渲染能力。

    定性比较(如图 4 所示)进一步证实,X-Omni 能够精确地根据指令渲染长文本,而除 GPT-4o 外的其他统一模型大多失败。这表明强化学习在此任务中发挥了关键作用。

    Figure 4: Text rendering comparison with other unified multimodal models. 该图像是论文中Figure 4的示意图,展示了多模态统一模型在文本渲染上的对比效果。图中包含多组带文字和图片的海报样式,涵盖了家庭、旅行和装修提示等主题,体现了模型在复杂文本生成和视觉结合上的能力。

图 4:与其他统一多模态模型在文本渲染上的比较。

6.1.2. 文本到图像生成 (Text-to-Image Generation)

以下是原文 Table 2 的结果:

Method Global Entity Attribute Relation Other Overall
Gen. Only Models
SDXL [86] 83.27 82.43 80.91 86.76 80.41 74.65
DALL-E [87] 90.97 89.61 88.39 90.58 89.83 83.50
SD3-medium [88] 87.90 91.01 88.83 80.70 88.68 84.08
FLUX.1-dev [64] 82.10 89.50 88.70 91.10 89.40 84.00
Unified Models
Emu3 [12] 85.21 86.68 86.84 90.22 83.15 80.60
Janus-Pro [21] 86.90 88.90 89.40 89.32 89.48 84.19
MetaQuery [28] - - - - - 82.05
BLIP3-o [27] - - - - - 81.60
UniWorld-V1 [29] 83.64 88.39 88.44 89.27 87.22 81.38
Ovis-U1 [89] 82.37 90.08 88.68 93.35 85.20 83.72
Mogao [33] 82.37 90.03 88.26 93.18 85.40 84.33
BAGEL [30] 88.94 90.37 91.29 90.82 88.67 85.07
OmniGen2 [31] 88.81 88.83 90.18 89.37 90.27 83.57
Show-02 [32] 89.00 91.78 89.96 91.81 91.64 86.14
GPT-4o* [85] 82.27 91.27 87.67 93.85 88.71 86.23
x-Omni 84.80 92.59 90.63 94.75 84.20 87.65

表 2:DPG-Bench [90] 上文本到图像生成性能的比较。*:由于对 GPT-4o 官方 API 访问受限,每个提示仅生成一张图像。此外,DPG-Bench 中的一些提示被 GPT-4o 官方 API 拒绝,因此最终结果排除了这些提示。

以下是原文 Table 3 的结果:

Method Single Two Counting Colors Position Color Attr. Overall
Gen. Only Models
SDXL [86] 0.98 0.74 0.39 0.85 0.15 0.23 0.55
DALL-E [87] 0.96 0.87 0.47 0.83 0.43 0.45 0.67
SD3-medium [88] 0.99 0.94 0.72 0.89 0.33 0.60 0.74
FLUX.1-dev [64] 0.98 0.93 0.75 0.93 0.68 0.65 0.82
Unified Models
Emu3 [12] 0.99 0.81 0.42 0.80 0.49 0.45 0.66
Janus-Pro [21] 0.99 0.89 0.59 0.90 0.79 0.66 0.80
MetaQuery [28] - - - - 0.80
BLIP3-0 [27] - - - - - - 0.84
UniWorld-V1 [29] 0.99 0.93 0.81 0.89 0.74 0.71 0.84
Mogao [33] 1.00 0.97 0.83 0.93 0.84 0.80 0.89
BAGEL [30] 0.98 0.95 0.84 0.95 0.78 0.77 0.88
OmniGen2 [31] 0.99 0.96 0.74 0.98 0.72 0.75 0.86
Show-o2 [32] 1.00 0.87 0.58 0.92 0.52 0.62 0.76
GPT-40* [85] 0.99 0.92 0.85 0.92 0.75 0.61 0.84
X-Omni 0.98 0.95 0.75 0.91 0.71 0.68 0.83

表 3:GenEval [91] 上文本到图像生成性能的比较。*:GPT-4o 的结果报告于 [92]。

  • DPG-Bench: X-Omni 在 DPG-Bench 上取得了 87.65 的总体 (Overall) 分数,超越了所有列出的统一模型,包括 GPT-4o (86.23) 和 Show-02 (86.14),以及大多数仅生成模型。这表明 X-Omni 在遵循复杂生成指令方面具有最先进的能力。

  • GenEval: X-Omni 在 GenEval 上取得了 0.83 的总体分数,与表现最佳的统一模型 Mogao (0.89) 和 BAGEL (0.88) 相比,仍具有竞争力。特别是,在处理“两个对象 (Two)”和“位置 (Position)”等复杂概念时,X-Omni 的表现依然稳健。

    这些结果共同证明了 X-Omni 能够精确遵循复杂指令,并生成具有高美学质量的图像(如图 5 所示)。

    Figure 5: Qualitative cases of X-Omni. 该图像是多张高质量图片的拼接展示,呈现了人像、风光、艺术创作和生活场景等多样视觉内容,展示了 X-Omni 在图像生成中对细节、色彩和主题的高度还原与表现力。

图 5:X-Omni 的定性案例。

6.1.3. 图像理解 (Image Understanding)

以下是原文 Table 4 的结果:

Method #LLM POPE GQA MMB SEED DocVQA OCRB
Und. Only Models
LLaVA-1.5 [93] 7B 85.9 62.0 64.3 66.1 - 318
LLaVA-NeXT [77] 7B 86.5 64.2 67.4 68.2 74.4 532
VILA [94] 7B 85.5 62.3 68.9 61.1 - -
MiniCPM-Llama3-V 2.5 [95] 8B - - 77.2 - 84.8 725
LLaVA-OneVision [74] 7B - - 80.8 75.4 87.5 622
Unified Models
Emu3 [12] 7B 85.2 60.3 58.5 68.2 76.3 687
Janus-Pro [21] 7B 87.4 62.0 79.2 72.1 - 595
Mogao [33] 7B 88.9 60.9 75.0 74.6 - -
Show-02 [32] 7B - 63.1 79.3 69.8 -
X-Omni 7B 89.3 62.8 74.8 74.1 88.6 704

表 4:图像理解基准测试结果。评估涵盖:POPE [96];GQA [97];MMB: MMBench [98];SEED: SEEDBench-Img [99];DocVQA [100];OCRB: OCRBench [101]。

  • 总体表现: X-Omni 在各种图像理解基准测试中取得了与统一模型 Show-02 [32] 相当的结果,并超越了 Emu3 [12] 和 Janus-Pro [21] 等早期工作。这表明尽管 X-Omni 的主要改进在于生成能力,但其统一架构也带来了强大的理解能力。
  • OCRBench: 尤其值得注意的是,X-Omni 在 OCRBench [101] 上的结果 (704) 显著超越了统一模型 Emu3 (687) 和 Janus-Pro (595),以及专业的图像理解模型 LLaVA-OneVision (622)。这再次印证了其在文本渲染方面的强大能力。

6.2. 消融实验/参数分析

论文中以“发现 (Findings)”的形式呈现了两项关键分析,它们起到了类似于消融实验的作用,揭示了 X-Omni 的重要特性和强化学习的深远影响。

6.2.1. X-Omni 不依赖分类器自由引导 (Classifier-Free Guidance, CFG)

  • 发现: X-Omni 能够在不依赖自回归组件中的分类器自由引导 (CFG) 的情况下生成高质量图像。

  • 对比: 通常,自回归图像生成模型(如 Emu3 [12] 和 Janus-Pro [21])严重依赖 CFG 来增强视觉词元的采样。

  • 图 6 比较:

    Figure 6: Comparison of dependency on classifier-free guidance (CFG). 该图像是图表,展示了使用与不使用无分类器引导(CFG)时,三种模型(Emu3、Janus-Pro、X-Omni)生成蓝色花瓶图片的对比效果,突出X-Omni模型在CFG辅助下生成细节更丰富、颜色更自然的图像。

    图 6:对分类器自由引导(CFG)依赖性的比较。 如图 6 所示,X-Omni 无论是否存在 CFG 都能保持始终如一的高生成质量。相比之下,其他自回归模型在没有 CFG 时,生成质量会显著下降。

  • 意义: X-Omni 独立于 CFG 运行,这不仅降低了自回归推理的计算成本,还表明其方法中视觉和语言词元生成过程具有更高的一致性。论文中所有定性示例均在自回归采样期间未使用 CFG 生成。

6.2.2. RL 优于 SFT 结合 Best-of-N 采样 (RL outperforms SFT with Best-of-N sampling)

  • 发现: 强化学习 (RL) 训练为图像生成模型带来了显著优势,超越了通过监督微调 (SFT) 结合 Best-of-N 采样所能达到的最佳结果。

  • 对比语言建模: 这与语言建模中的观察结果形成对比,在语言建模中,SFT 结合 Best-of-N 采样的性能通常难以通过 RL 训练超越。

  • 图 2(b) 比较:

    Figure 2: During the reinforcement learning process, X-Omni's image generation reward quickly surpassed the best-of-N results achieved by the SFT model (SFT BoN) and demonstrated steady improvement.… 该图像是图2,包含强化学习流程示意图、训练曲线及生成结果对比图,展示X-Omni在训练步骤增加时图像生成奖励迅速超越SFT BoN,生成的文本渲染、审美质量与指令遵循能力逐步提升。

    图 2 (b):训练过程中 X-Omni 的图像生成奖励迅速超越了 SFT 模型(SFT BoN)实现的 Best-of-N 结果,并持续改进。这一进展体现在模型的文本渲染能力、生成图像的美学质量以及遵循指令的能力上,所有这些都逐步提高。 如图 2(b) 所示,在强化学习过程中,X-Omni 的图像生成奖励迅速超过了 SFT 模型的 Best-of-N 结果,并持续改进。

  • 原因分析: 这种差异源于两个主要因素:

    1. SFT 的局限性: SFT 分别使用真实数据监督训练自回归 (AR) 和扩散模块,这导致性能下降。而 RL 在对齐这两个模块方面发挥了关键作用。
    2. 图像特征的复杂性: 与语言中的顺序依赖性不同,图像特征本质上是局部且空间复杂的。RL 的整体优化能够利用单个图像中各种局部区域丰富的多方面信息,从而实现高效学习。

6.3. 定性结果

论文中提供了多张由 X-Omni 生成的高质量图像示例(如图 1 和图 5 所示),展示了其在生成具有高美学质量、遵循复杂指令以及渲染长文本方面的强大能力。例如,图 1 展示了法国斗牛犬、野生鸟类和现代女性的图像,并配有准确渲染的文本。这些视觉证据支持了定量评估结果,凸显了 X-Omni 的卓越性能。

7. 总结与思考

7.1. 结论总结

本研究提出 X-Omni,一个利用强化学习训练的通用自回归模型,旨在统一图像生成和理解。X-Omni 是第一个能够精确渲染长文本的统一模型,展示了强化学习在该领域的独特优势。此外,该方法在自回归采样期间摆脱了对分类器自由引导 (CFG) 的依赖,突显了其框架内语言和视觉建模的统一机制。通过 RL,X-Omni 有效缓解了离散自回归图像生成模型的固有缺陷,实现了高视觉保真度、强大的指令遵循能力以及卓越的文本渲染性能,从而“让离散自回归图像生成模型再次伟大”。

7.2. 局限性与未来工作

论文中并未明确列出模型的局限性和未来的研究方向。然而,从其内容和当前研究趋势可以推断出一些潜在的方面:

  • 计算资源需求: 尽管 GRPO 算法减少了计算开销,但大型多模态模型的预训练和强化学习阶段仍然需要大量的计算资源和数据。这是一个普遍存在的问题,X-Omni 也不例外。
  • 模型规模: 尽管 X-Omni 使用了 7B 的语言模型作为基础,但更大规模的模型(如 70B 或更多)可能会带来更高的性能。探索更大规模模型下的扩展性和效率优化将是未来的一个方向。
  • 奖励函数的完备性: 尽管奖励系统设计全面,但奖励函数的设计仍然是一个持续的挑战。如何更精确、更细粒度地捕捉人类偏好和生成质量,可能还有提升空间。
  • 实时性与交互性: 论文主要关注离线生成质量。未来可以探索如何提高模型的推理速度,使其能更好地支持实时交互式生成应用。
  • 更复杂的视觉任务: 目前评估主要集中在文本到图像生成和图像理解。未来可以扩展到视频生成、3D 内容生成或其他更复杂的跨模态任务。
  • 泛化能力: 尽管模型在多个基准上表现出色,但其在全新、未见过的领域或极端条件下的泛化能力仍有待进一步验证和提升。

7.3. 个人启发与批判

  • 对离散自回归模型的“复兴”: 这篇论文最令人启发的一点是它成功地“复兴”了离散自回归模型在图像生成领域的潜力。在扩散模型占据主导地位的背景下,X-Omni 证明了通过巧妙地引入强化学习,可以克服自回归模型长久以来的缺陷,并实现与扩散模型相媲美甚至超越的性能,尤其是在统一建模方面。这提醒我们,不应轻易放弃看似过时的范式,而应思考如何结合新的技术(如 RL)来弥补其不足。
  • 强化学习在生成式 AI 中的关键作用: X-Omni 强调了强化学习在连接不同模块、优化复杂生成任务中的强大能力。通过精心设计的奖励系统,RL 不仅能提升图像美学质量,还能解决以往模型难以处理的精细任务,如长文本渲染。这表明 RL 将在未来生成式 AI 的“对齐 (alignment)”和“精细控制 (fine-grained control)”中扮演越来越重要的角色。
  • CFG 独立性的深远意义: 摆脱对 CFG 的依赖是一个显著的成就。CFG 虽然能提高文本遵循度,但也增加了推理成本,并可能带来多样性下降的风险。X-Omni 的 CFG 独立性表明其模型本身在视觉和语言词元之间建立了一种更深层、更一致的内在联系,这是实现真正统一多模态模型的关键一步。
  • 统一模型对通用 AI 的推动: 论文回归统一建模的思路,通过共享一个自回归主干网络处理图像和语言,有望促进跨模态知识的更有效迁移和共享。这为构建更通用、更强大的多模态 AI 智能体奠定了基础,使其能够更自然地理解和生成世界。
  • 对“信息损失”和“误差累积”的重新思考: X-Omni 的成功也促使我们重新审视离散化过程中的信息损失和自回归推理中的误差累积问题。通过 RL 的全局优化,模型能够学习如何生成更“健壮”的词元序列,以抵抗这些固有问题。

批判性思考:

  • 奖励函数的复杂性: 尽管奖励系统效果显著,但其包含 HPSv2、统一奖励、文本-图像对齐分数和 OCR 准确度分数等多个组件,这些奖励模型的训练和维护本身就具有复杂性。如何平衡这些奖励的权重,以及在面对新兴任务时如何快速迭代和设计新的奖励,可能是一个挑战。
  • 计算效率的权衡: 尽管 CFG 独立性降低了推理成本,但强化学习训练本身是一个计算密集型过程,尤其是在大型模型和大量采样的情况下。其端到端训练的效率仍需进一步优化,以适应更广泛的应用。
  • 离散词元表示的上限: 尽管 RL 提升了离散词元生成质量,但离散化本身是否会在某些极端细微的视觉细节上设置一个内在的上限?与连续表示相比,这仍然是一个值得探讨的问题。
  • 泛化到更广泛的多模态任务: X-Omni 在图像生成和理解方面表现出色,但其统一架构如何有效扩展到其他多模态任务(如音频、视频等)仍有待进一步验证。
  • 7B 模型规模的限制: 尽管在 7B 模型上取得了 SOTA,但与一些更大的语言模型和图像生成模型(如百亿、千亿级别)相比,其容量和复杂指令处理能力可能仍有提升空间。未来需要验证其方法在更大规模模型上的可扩展性。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。