论文状态:已完成

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

发表:2025/05/05
原文链接PDF 下载
价格:0.10
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文对统一多模态理解与生成模型进行了全面综述,探讨了自回归和扩散模型在各自领域的成功及架构差异带来的挑战。重点介绍了三种主要的统一框架:基于扩散、自回归和混合方法,并提供了为这些模型定制的数据集和基准,旨在推动未来的研究进展。

摘要

Recent years have seen remarkable progress in both multimodal understanding models and image generation models. Despite their respective successes, these two domains have evolved independently, leading to distinct architectural paradigms: While autoregressive-based architectures have dominated multimodal understanding, diffusion-based models have become the cornerstone of image generation. Recently, there has been growing interest in developing unified frameworks that integrate these tasks. The emergence of GPT-4o's new capabilities exemplifies this trend, highlighting the potential for unification. However, the architectural differences between the two domains pose significant challenges. To provide a clear overview of current efforts toward unification, we present a comprehensive survey aimed at guiding future research. First, we introduce the foundational concepts and recent advancements in multimodal understanding and text-to-image generation models. Next, we review existing unified models, categorizing them into three main architectural paradigms: diffusion-based, autoregressive-based, and hybrid approaches that fuse autoregressive and diffusion mechanisms. For each category, we analyze the structural designs and innovations introduced by related works. Additionally, we compile datasets and benchmarks tailored for unified models, offering resources for future exploration. Finally, we discuss the key challenges facing this nascent field, including tokenization strategy, cross-modal attention, and data. As this area is still in its early stages, we anticipate rapid advancements and will regularly update this survey. Our goal is to inspire further research and provide a valuable reference for the community. The references associated with this survey are available on GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).

论文精读

中文精读

1. 论文基本信息

1.1. 标题

统一多模态理解与生成模型:进展、挑战与机遇 (Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities)

1.2. 作者

Xinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Jiakui Hu, Yong Xien Chng, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

1.3. 发表期刊/会议

该论文作为预印本 (preprint) 发布于 arXiv。

1.4. 发表年份

2025年5月5日 (Published at UTC:2025-05-05T11:18:03.000Z)

1.5. 摘要

近年来,多模态理解模型 (multimodal understanding models) 和图像生成模型 (image generation models) 都取得了显著进展。尽管它们各自成功,但这两个领域独立发展,导致了不同的架构范式:自回归模型 (autoregressive-based architectures) 主导了多模态理解,而扩散模型 (diffusion-based models) 则成为图像生成的核心。最近,开发整合这些任务的统一框架 (unified frameworks) 越来越受关注。GPT-4o 新能力的出现就例证了这一趋势,凸显了统一化的潜力。然而,这两个领域之间的架构差异带来了重大挑战。为了清晰概述当前的统一化努力,本文提供了一项全面的综述,旨在指导未来的研究。首先,我们介绍了多模态理解和文本到图像生成模型 (text-to-image generation models) 的基础概念和最新进展。其次,我们回顾了现有的统一模型,并将其分为三大主要架构范式:基于扩散的 (diffusion-based)、基于自回归的 (autoregressive-based) 和融合自回归与扩散机制的混合方法 (hybrid approaches that fuse autoregressive and diffusion mechanisms)。对于每个类别,我们分析了相关工作的结构设计和创新。此外,我们整理了为统一模型量身定制的数据集 (datasets) 和基准 (benchmarks),为未来的探索提供了资源。最后,我们讨论了这一新兴领域面临的关键挑战,包括词元化策略 (tokenization strategy)、跨模态注意力 (cross-modal attention) 和数据问题。由于该领域仍处于早期阶段,我们预计将迅速取得进展,并将定期更新本综述。我们的目标是激发进一步的研究,并为社区提供有价值的参考。与本综述相关的参考文献可在GitHub上获取。

1.6. 原文链接

https://arxiv.org/abs/2505.02567v5 https://arxiv.org/pdf/2505.02567v5.pdf 发布状态:预印本 (preprint)。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 当前多模态领域存在两个主要方向:多模态理解 (multimodal understanding) 和图像生成 (image generation)。这两个领域在过去独立发展,分别形成了不同的主流架构范式——多模态理解模型(通常基于大型语言模型 LLM)主要采用自回归 (autoregressive) 架构,而图像生成模型则以扩散模型 (diffusion models) 为主。这种架构上的差异导致了模型在处理理解和生成任务时的不一致性和碎片化,使得开发一个能够同时进行理解和生成任务的统一框架变得困难。

为什么这个问题在当前领域是重要的?

  1. 功能集成潜力: 一个能够同时理解和生成多模态内容的统一模型具有巨大的潜力,例如,它可以根据复杂指令生成图像,对视觉数据进行推理,并通过生成输出来可视化多模态分析结果。这能极大地提升人工智能系统的通用性和交互性。
  2. 效率和可扩展性: 独立开发和维护两种不同架构的模型效率低下。统一框架有望提高模型的效率、可扩展性和泛化能力。
  3. 新兴趋势: 诸如 GPT-4o 等模型新能力的出现,展现了将理解和生成任务统一起来的巨大潜力,引发了学界和业界的广泛兴趣。

现有研究存在的具体挑战或空白:

  1. 架构差异: 自回归模型和扩散模型在底层原理、训练目标和结构上存在显著差异,如何有效地融合它们的优势是一个核心难题。
  2. 图像词元化 (Image Tokenization): 如何有效地对图像进行词元化,使其既能被自回归模型处理,又能保留生成高质量图像所需的细节和语义信息,是一个未解决的关键问题。例如,是使用离散词元 (discrete tokens) 还是连续表示 (continuous representations)?
  3. 混合架构设计: 除了简单的自回归架构外,如何设计融合了自回归和扩散机制的混合架构,以在推理和生成质量之间取得平衡,也是一个开放性问题。

这篇论文的切入点或创新思路: 本论文以一项全面的综述形式,系统地梳理了当前在多模态理解和生成统一模型方面的研究进展。其创新点在于:

  1. 系统性分类: 首次将现有统一模型清晰地划分为三大架构范式(基于扩散、基于自回归、混合方法),并进一步细分,帮助研究者理解不同方法的特点。
  2. 全面资源整理: 整理了针对统一模型的数据集和基准,为未来的研究提供了宝贵资源。
  3. 挑战与机遇分析: 深入探讨了该领域面临的挑战,并指出了未来的研究方向和机遇,旨在激发和指导该领域的进一步发展。

2.2. 核心贡献/主要发现

论文最主要的贡献:

  1. 全面的统一模型分类框架: 提出了一个结构化的分类框架,将现有的统一多模态理解与生成模型划分为基于扩散 (diffusion-based)、基于自回归 (autoregressive-based) 和混合 (hybrid) 三大类,并在自回归和混合类别下,根据图像词元化策略进一步细分。这为理解该领域提供了清晰的视角。
  2. 详细的架构分析: 对每个类别的代表性模型进行了深入分析,阐述了它们的结构设计、创新点以及各自的优缺点。
  3. 数据集与基准资源汇编: 整理了用于训练和评估统一多模态模型的最新数据集和基准,涵盖多模态理解、文本到图像生成、图像编辑等任务,为研究人员提供了宝贵的工具。
  4. 关键挑战与机遇洞察: 识别并深入讨论了该领域面临的关键挑战,如高效词元化、跨模态注意力、数据构建和评估方法等,并展望了未来的研究机遇,包括链式思考 (Chain-of-Thought, CoT)、强化学习 (RL)、偏见缓解和个性化生成。
  5. GitHub资源: 提供了一个GitHub仓库链接,汇集了相关参考文献、数据集和基准,并承诺定期更新,以跟上领域快速发展的步伐。

论文得出了哪些关键的结论或发现?

  1. 统一多模态理解与生成模型仍处于早期阶段,但潜力巨大,特别是通过结合自回归模型的推理能力和扩散模型的高质量生成能力。
  2. 图像词元化策略和架构设计是实现统一化的核心挑战,不同的策略在语义抽象和细节保留之间存在权衡。
  3. 现有方法正朝着更高效、更灵活的方向发展,例如通过多词元预测、可学习查询编码和混合编码策略。
  4. 数据、评估和伦理问题是制约统一模型发展的关键因素,需要更多关注大规模高质量多模态数据构建、综合性评估基准以及模型偏见的识别与缓解。
  5. Any-to-Any 多模态模型是未来的重要方向,旨在处理和生成包括音频、视频、语音在内的更广泛模态。

3. 预备知识与相关工作

3.1. 基础概念

为了全面理解这篇综述论文,读者需要掌握以下核心概念:

3.1.1. 大型语言模型 (LLMs)

概念定义: 大型语言模型 (LLM) 是一种基于深度学习的语言模型,通常拥有数亿到数万亿的参数,并通过在海量文本数据上进行预训练来学习语言的统计规律和语义信息。它们主要依赖于 Transformer 架构,特别是其解码器部分。LLM 擅长文本生成、问答、翻译和摘要等自然语言处理 (Natural Language Processing, NLP) 任务。

3.1.2. 自回归模型 (Autoregressive Models)

概念定义: 自回归模型 (AR) 是一种序列模型,通过将序列的联合分布分解为条件概率的乘积来建模。在生成序列时,每个元素(如文本中的词元 token)都是基于其所有先前生成的元素来预测的。这种逐个预测的机制使其天然适合生成有序序列。在多模态领域,自回归模型常用于理解任务,通过将多模态输入(如图像和文本)序列化后,让模型进行推理或生成文本响应。 数学公式: 给定一个序列 x=(x1,x2,,xN)\boldsymbol{x} = (x_1, x_2, \dots, x_N),自回归模型的目标是估计其联合概率分布 p(x)p(\boldsymbol{x})p(x)=i=1Np(xix1,x2,...,xi1;θ) p ( \boldsymbol { x } ) = \prod _ { i = 1 } ^ { N } p ( x _ { i } | x _ { 1 } , x _ { 2 } , . . . , x _ { i - 1 } ; \theta ) 符号解释:

  • p(x)p(\boldsymbol{x}):序列 x\boldsymbol{x} 的联合概率分布。
  • NN:序列的长度。
  • xix_i:序列中的第 ii 个元素。
  • x1,x2,,xi1x_1, x_2, \dots, x_{i-1}:序列中所有在 xix_i 之前的元素。
  • θ\theta:模型的参数。 训练目标: 自回归模型的训练目标是最小化负对数似然 (Negative Log-Likelihood, NLL) 损失: L(θ)=i=1Nlogp(xix1,x2,...,xi1;θ) \mathcal { L } ( \boldsymbol { \theta } ) = - \sum _ { i = 1 } ^ { N } \log p ( x _ { i } | x _ { 1 } , x _ { 2 } , . . . , x _ { i - 1 } ; \boldsymbol { \theta } ) 符号解释:
  • L(θ)\mathcal{L}(\boldsymbol{\theta}):模型的损失函数。
  • NN:序列的长度。
  • xix_i:序列中的第 ii 个元素。
  • x1,x2,,xi1x_1, x_2, \dots, x_{i-1}:序列中所有在 xix_i 之前的元素。
  • θ\boldsymbol{\theta}:模型的参数。
  • logp(xix1,,xi1;θ)\log p(x_i | x_1, \dots, x_{i-1}; \boldsymbol{\theta}):在给定先前元素和模型参数的情况下,预测下一个元素 xix_i 的对数概率。

3.1.3. 扩散模型 (Diffusion Models)

概念定义: 扩散模型 (DM) 是一种生成模型,通过模拟一个逐步添加噪声(前向过程 forward process)和逐步去噪(反向过程 reverse process)的过程来学习数据的分布。在前向过程中,模型逐渐向数据中添加高斯噪声,直到数据完全变为随机噪声。在反向过程中,模型学习如何从噪声中逐步恢复出原始数据。扩散模型在图像生成领域取得了最先进的 state-of-the-art 性能,尤其擅长生成高分辨率和高质量的图像。 数学公式: 扩散模型将生成过程表述为一对马尔可夫链 (Markov chains)。 前向过程 (Forward Process): 从数据 x0q(x0)x_0 \sim q(x_0) 开始,在每个时间步 tt 向数据 xt1x_{t-1} 添加高斯噪声以产生 xtx_tq(x1:Tx0):=t=1Tq(xtxt1) q ( \boldsymbol x _ { 1 : T } | \boldsymbol x _ { 0 } ) : = \prod _ { t = 1 } ^ { T } q ( \boldsymbol x _ { t } | \boldsymbol x _ { t - 1 } ) q(xtxt1)=N(xt;1βtxt1,βtI) q ( x _ { t } | x _ { t - 1 } ) = \mathcal { N } ( x _ { t } ; \sqrt { 1 - \beta _ { t } } x _ { t - 1 } , \beta _ { t } \mathbf { I } ) 符号解释:

  • q(x1:Tx0)q(\boldsymbol{x}_{1:T} | \boldsymbol{x}_0):给定原始数据 x0\boldsymbol{x}_0,从时间步 1 到 TT 的噪声添加过程的联合概率。

  • xtx_t:在时间步 tt 时的带噪声数据。

  • xt1x_{t-1}:在时间步 t-1 时的带噪声数据。

  • N(x;μ,Σ)\mathcal{N}(x; \mu, \Sigma):均值为 μ\mu、协方差为 Σ\Sigma 的高斯分布 (Gaussian distribution)。

  • 1βt\sqrt{1-\beta_t}:控制噪声大小的超参数,βt\beta_t 越大,噪声越多。

  • βtI\beta_t \mathbf{I}:在时间步 tt 添加的高斯噪声的方差 (variance),I\mathbf{I} 是单位矩阵。

    反向过程 (Reverse Process): 模型逐步去噪以逼近马尔可夫链的逆过程。 pθ(xt1xt)=N(xt1;μθ(xt,t),Σθ(xt,t)) p _ { \theta } ( x _ { t - 1 } | x _ { t } ) = \mathcal { N } ( x _ { t - 1 } ; \mu _ { \theta } ( x _ { t } , t ) , \Sigma _ { \theta } ( x _ { t } , t ) ) 符号解释:

  • pθ(xt1xt)p_{\theta}(x_{t-1} | x_t):模型学习的从 xtx_t 恢复 xt1x_{t-1} 的条件概率分布。

  • μθ(xt,t)\mu_{\theta}(x_t, t):模型预测的均值 (mean)。

  • Σθ(xt,t)\Sigma_{\theta}(x_t, t):模型预测的方差 (variance)。

  • xtx_ttt:输入给网络的带噪声数据和时间步。 训练目标: 训练目标是最小化负对数似然的变分下界 (Variational Lower-Bound of the Negative Log-Likelihood, VLB),通常简化为噪声预测损失: \mathcal { L } = \mathbb { E } _ { q ( x _ { 0 } , x _ { 1 : T } ) } \left[ \lVert \epsilon _ { \theta } ( x _ { t } , t ) - \epsilon ^ { * } ( x _ _ { t } , t ) \rVert ^ { 2 } \right] 符号解释:

  • L\mathcal{L}:模型的损失函数。

  • Eq(x0,x1:T)\mathbb{E}_{q(x_0, x_{1:T})}:在真实噪声分布下的期望。

  • ϵθ(xt,t)\epsilon_{\theta}(x_t, t):模型在时间步 tt 预测的噪声。

  • ϵ(xt,t)\epsilon^*(x_t, t):在时间步 tt 实际添加的真实噪声。

3.1.4. 词元化 (Tokenization)

概念定义: 词元化 (tokenization) 是将原始数据(如文本或图像)分解成离散单元(称为词元 tokens)的过程。在 NLP 中,词元可以是单词、子词或字符。在视觉领域,图像词元化通常指将图像编码为离散的视觉词元或连续的潜在向量。有效的词元化对于模型处理多模态数据至关重要,因为它将不同模态的数据转换为模型可以统一处理的格式。

3.1.5. 多模态理解模型 (Multimodal Understanding Models)

概念定义: 这类模型基于 LLM 架构,能够接收、推理并生成来自多模态输入(如图像、音频、视频)的输出。它们扩展了 LLM 的生成和推理能力,使其超越文本数据,实现对不同信息模态的丰富语义理解。常见的任务包括视觉问答 (Visual Question Answering, VQA)、图像描述 (Image Captioning) 和多模态对话。

3.1.6. 文本到图像生成模型 (Text-to-Image Generation Models)

概念定义: 这类模型旨在根据给定的文本描述生成对应的图像。早期的模型主要基于生成对抗网络 (Generative Adversarial Networks, GANs),但目前主流是扩散模型。它们能够生成与文本提示高度匹配的高质量图像。

3.2. 前人工作

  1. 早期多模态理解模型: 早期专注于视觉语言理解 (VLU) 的模型,如 CLIP [22]、ViLBERT [54]、VisualBERT [55] 和 UNITER [56],主要通过双编码器 (dual-encoder) 架构,将图像和文本分别编码,然后在对齐的潜在表示空间中进行联合推理。这些模型通常依赖于基于区域的视觉预处理 (region-based visual preprocessing)。
  2. 基于 LLM 的多模态理解模型: 随着 LLM 的兴起,VLU 模型逐渐转向解码器专用 (decoder-only) 架构,将冻结 (frozen) 或少量微调的 LLM 作为骨干网络 (backbone)。例如:
    • MiniGPT-4 [57]:使用单层连接 CLIP 图像嵌入到 Vicuna 的词元空间。
    • BLIP-2 [53]:引入查询变换器 (querying transformer) 连接冻结的视觉编码器和冻结的 LLM
    • Flamingo [60]:使用门控交叉注意力层 (gated cross-attention layers) 连接预训练视觉编码器和冻结的 Chinchilla 解码器。
    • GPT-4V [62]、Gemini [63]、Qwen-VL [5]、LLaVA 系列 [64], [65]、InternVL 系列 [11], [66], [67]:进一步发展,实现了更强的视觉推理、图像描述和多模态对话能力。
  3. 早期图像生成模型: 最初由 GANs [18] 主导,但后来逐渐过渡到扩散模型 [19],利用 UNet [14] 和 DiT [20], [21] 等架构,并结合 CLIP [22] 和 T5 [23] 等文本编码器。
    • GLIDE [71]:引入了分类器自由引导 (classifier-free guidance)。
    • Imagen [72]:使用预训练的 LLM 作为文本编码器。
    • 潜在扩散模型 (Latent Diffusion Models, LDM) [14]:在潜在空间 (latent space) 中操作,提高了计算效率,如 SD 系列 [14], [15]。
    • Diffusion Transformers (DiT) [20]:将 Transformer 架构引入扩散过程。
    • RPG [83]:利用多模态 LLM 的视觉语言先验知识来增强文本到图像的生成和编辑。
  4. 统一生成模型: 也有一些工作探索统一生成模型,旨在处理各种数据生成任务,如 OmniGen [84]、UniReal [85]、GenArtist [86] 和 UniVG [87]。

3.3. 技术演进

多模态领域的技术演进经历了从独立发展到逐步融合的过程:

  1. 模态独立发展: 早期,NLP 领域专注于文本处理(例如 LLM 的发展),而计算机视觉 (Computer Vision, CV) 领域则专注于图像生成和理解(例如 GAN 和扩散模型)。各自取得了显著的进展,但模型架构和方法论相对独立。
  2. 模态对齐与理解: 随着 CLIP 等模型的出现,通过对比学习将图像和文本映射到共享潜在空间,实现了初步的模态对齐。随后,将 LLM 能力扩展到视觉领域,通过连接器 (connector) 将视觉信息输入到 LLM 中,发展出了强大的多模态理解模型。
  3. 生成能力的融合尝试: 最初的统一尝试主要是将 LLM 的推理能力与现有的扩散模型结合,以提升文本到图像生成的语义对齐和控制力。但生成部分仍然是独立的扩散模型。
  4. 架构层面的统一: 最新趋势是寻求更深层次的架构统一,即用单一模型同时处理理解和生成任务。这包括探索基于扩散的统一模型(如 Dual Diffusion)、基于自回归的统一模型(如 Chameleon),以及结合两者优势的混合模型(如 Transfusion)。
  5. 任意到任意 (Any-to-Any) 多模态: 最终目标是实现超越图像和文本的更广泛模态的统一,包括音频、视频、语音等,以构建通用基础模型。

3.4. 差异化分析

本综述与其他现有综述的主要区别在于其核心关注点

  • 本综述的核心: 专注于统一多模态理解与生成模型 (Unified Multimodal Understanding and Generation Models) 的集成。它系统地回顾了旨在通过单一架构同时处理多模态理解和生成任务的最新工作。
  • 其他相关综述:
    • 大型语言模型 (LLM) 综述 [40], [41]:主要关注 LLM 本身的架构、训练、应用和挑战,通常不深入探讨多模态生成。

    • 多模态理解综述 [42], [43], [44]:主要侧重于模型如何理解多模态输入,如 VQA、图像描述等,通常不涵盖图像生成。

    • 图像生成综述 [45], [46]:主要关注 GANs、扩散模型等生成图像的技术、质量评估和控制,通常不涉及多模态理解。

      本综述的价值在于填补了这些独立领域综述之间的空白,为研究者提供了一个关于如何将多模态理解和生成能力融合到统一框架中的专门视角,并系统地分析了当前的技术进展、挑战和机遇。

4. 方法论

本综述旨在为统一多模态理解与生成模型提供一个全面的概览,其方法论主要体现在对现有模型的分类、结构分析以及对相关数据集和基准的整理。论文将现有统一模型划分为三大主要架构范式,并对每种范式进行了深入探讨。

多模态理解模型通常包含多模态编码器 (multimodal encoders)、连接器 (connector) 和大型语言模型 (LLM)。多模态编码器将图像、音频或视频转换为特征,这些特征通过连接器处理后作为 LLM 的输入。连接器的架构可以大致分为三种类型:基于投影的 (projection-based)、基于查询的 (query-based) 和基于融合的 (fusion-based) 连接器。下图(Fig. 2)展示了多模态理解模型的架构:

Fig. 2. Architecture of multimodal understanding models, containing multimodal encoders, a connector, and a LLM. The multimodal encoders transform images, audio, or videos into features, which are processed by the connector as the input of LLM. The architectures of theconnector can be broadly categorized by three types: projection-based, query-based, and fusion-based connectors. Fig. 3. Illustration of diffusion-based text-to-image generation models, where various conditions beyond text are introduced to steer the outcomes. The image generation is formulated as a pair of Markov chains: a forward process that gradually corrupts input data by adding Gaussian noise, and a reverse process that learns a parameterized distribution to iteratively denoise back to the input data. 该图像是插图,展示了文本到图像的扩散模型架构。上半部分展示了生成过程中前向和反向的两个马尔可夫链,以及通过条件调整图像生成的过程。下半部分则描绘了模型在潜在空间中的运作,包括前向过程和去噪的机制,以及可调节的条件(如身份、风格、草图等),以提升生成的图像质量。

扩散模型中的文本到图像生成过程则将图像生成表述为一对马尔可夫链:一个前向过程通过添加高斯噪声逐步破坏输入数据,一个反向过程学习参数化分布以迭代去噪回输入数据。下图(Fig. 3)展示了扩散模型的示意图:

Fig. 4. Illustration of core components in autoregressive models, including the autoregression sequence modeling and discrete vector quantization. Exiting autoregressive models can be roughly divided into three types: Next-Pixel Prediction flattens the image into a pixel sequence, Next-Token Prediction converts the image into a token sequence via a visual tokenizer, and Next-Multiple-Tokens Prediction outputs multiple tokens in an autoregressive step. 该图像是一个示意图,展示了双编码器架构和基于LLM的架构的核心组件。上半部分描述了如何通过对比学习将文本和图像嵌入连接,而下半部分则展示了LLM与文本和图像的连接方式,同时介绍了几种连接器类型。

自回归模型的核心组件包括自回归序列建模和离散向量量化。现有的自回归模型大致可分为三类:Next-Pixel Prediction 将图像展平为像素序列,Next-Token Prediction 通过视觉词元器将图像转换为词元序列,Next-Multiple-Tokens Prediction 在一个自回归步骤中输出多个词元。下图(Fig. 4)展示了自回归模型的核心组件:

该图像是示意图,展示了不同的多模态语言模型(MLLM)架构,包括扩散(Diffusion)、自回归(MLLM (AR))和混合编码。图中分为多个部分,分别显示不同编码方法的结构设计与信息流。 该图像是示意图,展示了不同的多模态语言模型(MLLM)架构,包括扩散(Diffusion)、自回归(MLLM (AR))和混合编码。图中分为多个部分,分别显示不同编码方法的结构设计与信息流。

以下是论文中对统一多模态模型的分类及其详细分析。

4.1. 统一多模态模型的分类

论文将现有的统一模型(主要支持视觉-语言理解和生成)分为三大类:

  1. 扩散模型 (Diffusion Models)

  2. 自回归模型 (Autoregressive Models)

  3. 融合自回归与扩散模型 (Fused AR + Diffusion Models)

    对于自回归模型和融合自回归与扩散模型,论文进一步根据其模态编码方法进行了细分。下图(Fig. 5)展示了这些分类:

    Model Type Backbone Architecture Gen. Enc. Und. Enc. Gen. Dec. Mask Date
    Dual Diffusion [127] a D-DiT Diffusion Model SD-VAE SD-VAE Bidirect. 2024-12
    UniDisc [128] a DiT MAGVIT-v2 MAGVIT-v2 Bidirect. 2025-03
    MMaDA [129] a LLaDA MAGVIT-v2 MAGVIT-v2 Bidirect. 2025-05
    FUDOKI [130] a DeepSeek-LLM SigLIP VQGAN VQGAN Bidirect. 2025-05
    Muddit [131] a Meissonic (MM-DiT) VQGAN VQGAN Bidirect. 2025-05
    b-1 Autoregressive Model
    LWM [29] b-1 LLaMa-2 LLaMa-2 VQGAN VQGAN VQ-IMG Causal Causal 2024-02
    Chameleon [30] VQ-IMG VQ-IMG 2024-05
    ANOLE [132] b-1 LLaMa-2 VQ-IMG Causal 2024-07
    Emu3 [133] b-1 LLaMA-2 SBER-MoVQGAN SBER-MoVQGAN Causal 2024-09
    MMAR [134] b-1 Qwen2 SD-VAE + EmbeddingViT Diffusion MLP Bidirect. 2024-10
    Orthus [135] b-1 Chameleon VQ-IMG+Vision embed. Diffusion MLP Causal 2024-11
    SynerGen-VL [136] b-1 InterLM2 SBER-MoVQGAN SBER-MoVQGAN Causal 2024-12
    Liquid [137] b-1 GEMMA VQGAN VQGAN Causal 2024-12
    UGen [138] b-1 TinyLlama SBER-MoVQGAN SBER-MoVQGAN Causal 2025-03
    Harmon [139] b-1 Qwen2.5 MAR MAR Bidirect. 2025-03
    TokLIP [140] b-1 Qwen2.5 VQGAN+SigLIP VQGAN Causal 2025-05
    Selftok [141] b-1 LLaMA3.1 SD3-VAE+MMDiT SD3 Causal 2025-05
    Emu [142] b-2 b-2 LLaMA EVA-CLIP SD SD-1.5 Causal 2023-07
    LaVIT [14] b-2 LLaMA EVA-CLIP SD-2.1 Causal 2023-09
    DreamLLM [34] LLaMA OpenAI-CLIP SDXL Causal 2023-09
    Emu2 [33] b-2 b-2 LLaMA EVA-CLIP OpenAI-CLIP IP-Adapter Causal 2023-12
    VL-GPT [35] b-2 LLaMA Vicuna Open-CLIP SD-v2.1 Causal Causal 2023-12
    MM-Interleaved [144] b-2 Gemma&Vicuna OpenAI-CLIP+ConvNext SDXL Causal 2024-01 2024-03
    Mini-Gemini [145] b-2 LLaMA-2 SigLIP+RQ RQ-VAE Causal
    VILA-U [146] b-2 LLaMA-3 OpenAI-CLIP SDXL Bidirect. 2024-09 2024-10
    PUMA [147] b-2 LLaMA SigLIP SD-1.5 Causal
    MetaMorph [148] b-2 Vicuna UNIT SDXL Causal 2024-12 2024-12
    ILLUME [149] b-2 LLaMa-2 ViTamin ViTamin Causal 2025-02
    UniTok [150] b-2 LlaMa-3 QLIP-ViT+BSQ BSQ-AE Causal 2025-02
    QLIP [151] b-2 Qwen2.5 SigLIP RQVAE Causal 2025-03
    DualToken [152] b-2 Qwen2.5 SigLIP+RQ RQ-VAE Causal
    UniFork [153] b-2 Qwen2.5 SigLIP+RQ FLUX.1-dev / SD-1.5 Causal 2025-06
    UniCode2 [154] b-2 Qwen2.5-VL SigLIP2 DiT Bidrect. 2025-06 2025-06
    UniWorld [155] b-2 LLaMA-3.1 SigLIP EVA-CLIP Diffusion Causal 2025-06
    Pisces [156] b-2 Qwen2.5 SigLIP2+VQ VQGAN / SANA Causal 2025-06
    Tar [157] b-2 Qwen2.5-VL SigLIP OmniGen Causal 2025-06
    OmniGen2 [158] Ovis-U1 [159] b-2 Ovis AimV2 MMDiT Causal 2025-06
    X-Omni [160] b-2 Qwen2.5-VL QwenViT Siglip FLUX Causal 2025-07
    Qwen-Image [161] b-2 Qwen2.5-VL QwenViT MMDiT Causal 2025-08
    Bifrost-1 [162] b-2 Qwen2.5-VL QwenViT ViT FLUX Causal 2025-08
    SEED [163] b-3 OPT SEED Tokenizer Learnable Query SD Causal 2023-07
    SEED-LLaMA [164] b-3 LLaMa-2 &Vicuna SEED Tokenizer Learnable Query unCLIP-SD Causal 2023-10
    SEED-X [165] b-3 LLaMa-2 SEED Tokenizer Learnable Query SDXL Causal 2024-04
    MetaQueries [166] b-3 LLaVA&Qwen2.5-VL SigLIP earnable Query Learnable Query Sana Causal 2025-04
    Nexus-Gen [167] b-3 Qwen2.5-VL wenVitT Learnable Query FLUX Causal 2025-04
    Ming-Lite-Uni [168] b-3 M2-omni NaViT Sana Causal 2025-05
    BLIP3-o [169] OpenUni [170] b-3 b-3 Qwen2.5-VL InternVL3 OpenAI-CLIP InternViT Learnable Query Learnable Query Lumina-Next Sana Causal Causal 2025-05 2025-05

以下是原文 Table 1 的结果,展示了统一多模态模型的架构分类。
Model Type Backbone Architecture Gen. Enc. Und. Enc. Gen. Dec. Mask Date
Diffusion
Dual Diffusion [127] a D-DiT Diffusion Model SD-VAE SD-VAE Bidirect. 2024-12
UniDisc [128] a DiT MAGVIT-v2 MAGVIT-v2 Bidirect. 2025-03
MMaDA [129] a LLaDA MAGVIT-v2 MAGVIT-v2 Bidirect. 2025-05
FUDOKI [130] a DeepSeek-LLM SigLIP VQGAN VQGAN Bidirect.
Muddit [131] a Meissonic (MM-DiT) VQGAN VQGAN Bidirect. 2025-05
Autoregressive (AR)
Pixel-based Encoding (b-1)
LWM [29] b-1 LLaMa-2 VQGAN VQGAN Causal 2024-02
Chameleon [30] b-1 LLaMa-2 VQ-IMG VQ-IMG Causal 2024-05
ANOLE [132] b-1 LLaMa-2 VQ-IMG VQ-IMG Causal 2024-07
Emu3 [133] b-1 LLaMA-2 SBER-MoVQGAN SBER-MoVQGAN Causal 2024-09
MMAR [134] b-1 Qwen2 SD-VAE + EmbeddingViT Diffusion MLP Bidirect. 2024-10
Orthus [135] b-1 Chameleon VQ-IMG+Vision embed. Diffusion MLP Causal 2024-11
SynerGen-VL [136] b-1 InterLM2 SBER-MoVQGAN SBER-MoVQGAN Causal 2024-12
Liquid [137] b-1 GEMMA VQGAN VQGAN Causal 2024-12
UGen [138] b-1 TinyLlama SBER-MoVQGAN SBER-MoVQGAN Causal 2025-03
Harmon [139] b-1 Qwen2.5 MAR MAR Bidirect. 2025-03
TokLIP [140] b-1 Qwen2.5 VQGAN+SigLIP VQGAN Causal 2025-05
Selftok [141] b-1 LLaMA3.1 SD3-VAE+MMDiT SD3 Causal 2025-05
Semantic Encoding (b-2)
Emu [142] b-2 LLaMA EVA-CLIP SD SD-1.5 Causal 2023-07
LaVIT [143] b-2 LLaMA EVA-CLIP SD-2.1 Causal 2023-09
DreamLLM [34] b-2 LLaMA OpenAI-CLIP SDXL Causal 2023-09
Emu2 [33] b-2 LLaMA EVA-CLIP OpenAI-CLIP IP-Adapter Causal 2023-12
VL-GPT [35] b-2 LLaMA Vicuna OpenAI-CLIP SD-v2.1 Causal 2023-12
MM-Interleaved [144] b-2 Gemma&Vicuna OpenAI-CLIP+ConvNext SDXL Causal 2024-01 2024-03
Mini-Gemini [145] b-2 LLaMA-2 SigLIP+RQ RQ-VAE Causal 2024-09
VILA-U [146] b-2 LLaMA-3 OpenAI-CLIP SDXL Bidirect. 2024-10
PUMA [147] b-2 LLaMA SigLIP SD-1.5 Causal 2024-10
MetaMorph [148] b-2 Vicuna UNIT SDXL Causal 2024-12
ILLUME [149] b-2 LLaMa-2 ViTamin ViTamin Causal 2025-02
UniTok [150] b-2 LlaMa-3 QLIP-ViT+BSQ BSQ-AE Causal 2025-02
QLIP [151] b-2 Qwen2.5 SigLIP RQVAE Causal 2025-03
DualToken [152] b-2 Qwen2.5 SigLIP+RQ RQ-VAE Causal 2025-03
UniFork [153] b-2 Qwen2.5 SigLIP+RQ FLUX.1-dev / SD-1.5 Causal 2025-06
UniCode2 [154] b-2 Qwen2.5-VL SigLIP2 DiT Bidirect. 2025-06
UniWorld [155] b-2 LLaMA-3.1 SigLIP EVA-CLIP Diffusion Causal 2025-06
Pisces [156] b-2 Qwen2.5 SigLIP2+VQ VQGAN / SANA Causal 2025-06
Tar [157] b-2 Qwen2.5-VL SigLIP OmniGen Causal 2025-06
OmniGen2 [158] b-2 Qwen2.5-VL AimV2 MMDiT Causal 2025-06
Ovis-U1 [159] b-2 Ovis AimV2 MMDiT Causal 2025-06
X-Omni [160] b-2 Qwen2.5-VL QwenViT Siglip FLUX Causal 2025-07
Qwen-Image [161] b-2 Qwen2.5-VL QwenViT MMDiT Causal 2025-08
Bifrost-1 [162] b-2 Qwen2.5-VL QwenViT ViT FLUX Causal 2025-08
Learnable Query Encoding (b-3)
SEED [163] b-3 OPT SEED Tokenizer Learnable Query SD Causal
SEED-LLaMA [164] b-3 LLaMa-2 &Vicuna SEED Tokenizer Learnable Query unCLIP-SD Causal
SEED-X [165] b-3 LLaMa-2 SEED Tokenizer Learnable Query SDXL Causal
MetaQueries [166] b-3 LLaVA&Qwen2.5-VL SigLIP Learnable Query Sana Causal
Nexus-Gen [167] b-3 Qwen2.5-VL wenVitT Learnable Query FLUX Causal
Ming-Lite-Uni [168] b-3 M2-omni NaViT Sana Causal 2025-05
BLIP3-o [169] b-3 Qwen2.5-VL OpenAI-CLIP Learnable Query Lumina-Next Causal
OpenUni [170] b-3 InternVL3 InternViT Learnable Query Sana Causal

4.2. 扩散模型 (Diffusion Models)

4.2.1. 方法原理

扩散模型通过逐步添加和移除噪声来生成数据。在多模态生成中,这个去噪过程不仅以时间步和噪声为条件,还以多模态上下文(如文本描述、图像或联合嵌入)为条件。这使得不同模态之间能够同步生成并实现丰富的语义对齐。

4.2.2. 核心方法详解

  1. Dual Diffusion [127]
    • 概述: 引入了双分支扩散过程,用于联合文本和图像生成。它结合了离散文本扩散和连续图像扩散。
    • 编码: 给定文本-图像对,首先使用预训练的 T5 编码器 [23] 对文本进行编码以获得离散文本表示,并使用 Stable Diffusion [14] 的 VAE 编码器对图像进行编码以获得连续图像潜在表示 (latent representations)。
    • 噪声添加: 文本和图像潜在表示通过独立的前向扩散过程分别加入噪声,在每个时间步产生带噪声的潜在变量。
    • 去噪与交叉模态条件化: 在反向过程中,模型使用两个模态特定的去噪器(基于 Transformer 的文本去噪器和基于 UNet 的图像去噪器)联合去噪文本和图像潜在表示。关键在于,在每个时间步,去噪器都包含交叉模态条件化 (cross-modal conditioning),即文本潜在表示关注图像潜在表示,反之亦然,从而在整个去噪轨迹中实现模态间的语义对齐。
    • 解码: 去噪后,文本潜在表示通过 T5 解码器解码为自然语言,图像潜在表示通过 VAE 解码器解码为高保真图像。
    • 训练: 训练由两个不同的损失项监督:图像分支最小化标准的噪声预测损失,文本分支最小化对比对数损失 (contrastive log-loss)。
  2. UniDisc [128]
    • 概述: 采用完全离散的扩散框架从头开始训练 Diffusion Transformer [206],以统一文本和图像模态。
    • 词元化: 使用 LLaMA2 词元器 [2] 对文本进行词元化,并使用 MAGVIT-v2 编码器 [207] 将图像转换为离散词元,从而将两种模态统一到离散词元空间中。
    • 扩散过程: 这些词元经历离散的前向扩散过程,同时跨模态添加结构化噪声。
    • 去噪与生成: 在反向过程中,UniDisc 逐步去噪词元以生成连贯的序列。LLaMA2MAGVIT-v2 解码器将这些序列转换为高质量的文本和图像。
    • 优势: 通过采用完全离散的方法,UniDisc 能够同时改进文本和图像词元,提高推理效率,并支持多功能的交叉模态条件化。
  3. FUDOKI [130]
    • 概述: 引入了一种基于离散流匹配 (discrete flow matching) [208] 的新型生成方法。
    • 原理: 在此框架下,FUDOKI 通过使用动能最优、度量诱导的概率轨迹来建模噪声和数据分布之间的直接路径。这种设计实现了连续的自校正机制。
    • 架构: 基于 Janus1.5B [174],但进行了修改以支持统一的视觉语言离散流建模。
    • 关键修改: 将标准的因果掩码 (causal mask) 替换为全注意力掩码 (full attention mask),允许每个词元关注所有其他词元,从而增强全局上下文理解。模型通过将输出逻辑 (output logits) 移动一个位置来支持 next-token prediction
    • 腐败状态处理: 不像扩散模型依赖明确的时间步嵌入,FUDOKI 直接从输入数据推断腐败状态 (corruption state)。
    • 编码器与解码器: 使用 SigLIP 编码器 [209] 捕捉图像理解的高级语义特征,并使用来自 LlamaGen [24] 的基于 VQGAN 的词元器将图像编码为用于图像生成的低级离散词元。
    • 输出: Janus1.5B 骨干网络生成的特征嵌入通过模态特定的输出头 (modality-specific output heads) 生成最终的文本和图像输出。
  4. Muddit [131]
    • 概述: 引入了一个用于双向生成 (bidirectional generation) 的统一模型,使用纯离散扩散框架处理文本和图像。
    • 架构: 具有一个单一的多模态扩散变换器 (MM-DiT),其架构设计类似于 FLUX [210]。
    • 初始化: 为了利用强大的图像先验知识 (image prior),MM-DiT 生成器从 Meissonic [211] 初始化,这是一个经过广泛训练以实现高分辨率合成的模型。
    • 量化与编码: 两种模态都量化到共享的离散空间中,其中预训练的 VQ-VAE [32] 将图像编码为码本索引 (codebook indices),而 CLIP 模型 [22] 提供文本词元嵌入。
    • 训练: 在统一训练期间,Muddit 采用余弦调度策略 (cosine scheduling strategy) 来掩码词元,并且训练单一 MM-DiT 生成器以在另一模态的条件下预测干净的词元。
    • 输出: 一个轻量级线性头 (linear head) 解码文本词元,而 VQ-VAE 解码器重建图像,允许使用一组参数处理文本和图像生成。
  5. MMaDA [129]
    • 概述: 将扩散范式扩展为一个统一的多模态基础模型 (multimodal foundation model)。
    • 语言骨干网络和图像词元器: 采用 LLaDA-8B-Instruct [212] 作为语言骨干网络,并使用 MAGVIT-v2 [213] 图像词元器将图像转换为离散语义词元。这使得在生成过程中能够实现无缝的多模态条件化 (multimodal conditioning)。
    • 对齐策略: 引入混合链式思考 (CoT) 微调策略,统一文本和视觉任务之间的推理格式,促进冷启动强化学习 (cold-start reinforcement learning),从而从一开始就进行有效的后训练。
    • 优化: 结合了新颖的 UniGRPO 方法,这是一种基于策略梯度 (policy-gradient-based) 的强化学习算法,专为扩散模型设计。UniGRPO 通过利用多样化的奖励信号(如事实正确性、视觉-文本对齐和用户偏好)在推理和生成任务中实现后训练优化。

4.2.3. 挑战和限制

  • 推理效率: 大多数开源离散扩散模型在实际推理速度方面仍落后于自回归模型,部分原因是缺乏对键值缓存 (key-value cache) 的支持,以及并行解码多个词元时输出质量的下降。
  • 训练难度: 与自回归训练(每个词元都提供学习信号)不同,离散扩散训练仅提供稀疏监督 (sparse supervision),因为损失是在随机选择的掩码词元子集上计算的,导致训练语料库的利用效率低下和高方差。
  • 长度偏置和泛化: 这些模型存在长度偏置,并且难以泛化到不同的输出长度,因为它们缺乏像自回归模型中那样的内置停止机制(如序列结束词元 end-of-sequence token)。
  • 架构和基础设施: 许多现有模型重用了为自回归系统设计的架构,这并非总是适合扩散过程。此外,对离散扩散模型的基础设施支持仍然有限,缺乏成熟的管道和稳健的开源选项。

4.3. 自回归模型 (Autoregressive Models)

4.3.1. 方法原理

自回归 (AR) 架构是统一多模态理解和生成模型中的一个主要方向,其中视觉和语言词元通常被序列化并按顺序建模。这些模型通常使用从 LLM(如 LLaMa 家族 [1], [2]、Vicuna [58]、Gemma 系列 [217], [218], [219] 和 Qwen 系列 [5], [6], [9], [10])改编而来的 Transformer 骨干网络作为统一的模态融合模块,自回归地预测多模态输出。关键在于图像词元化策略,它决定了视觉信息如何融入 AR 框架。

4.3.2. 核心方法详解 (按模态编码方法分类)

4.3.2.1. 像素级编码 (Pixel-based Encoding)

  • 方法原理: 图像被表示为从预训练自编码器(如 VQGAN [32] 模型)获得的连续或离散词元,这些自编码器纯粹通过图像重建进行监督。这些编码器将高维像素空间压缩到紧凑的潜在空间,其中每个空间块 (spatial patch) 对应一个图像词元。在统一多模态自回归模型中,从这些编码器序列化的图像词元与文本词元类似地处理,允许两种模态在单个序列中建模。
  • 代表性工作:
    • LWM [29]:采用 VQGAN 词元器 [32] 将图像编码为离散潜在代码,无需语义监督。它提出了一个多模态世界建模框架,其中视觉和文本词元被序列化在一起,用于统一的自回归建模。通过纯粹通过基于重建的视觉词元和文本描述学习世界动力学,LWM 表明大规模多模态生成在没有专门语义词元化的情况下是可行的。
    • Chameleon [30] 和 ANOLE [132]:都采用了 VQ-IMG [222],这是一种改进的 VQ-VAE 变体,专为内容丰富的图像生成而设计。VQ-IMG 具有更深的编码器和更大的感受野 (receptive fields),并结合了残差预测 (residual prediction) 以更好地保留复杂的视觉细节。这使得 ChameleonANOLE 能够更忠实地序列化图像内容,从而支持高质量的多模态生成。这些模型还支持交错生成 (interleaved generation),允许文本和图像词元在统一的自回归框架内交替生成。
    • Emu3 [133]、SynerGen-VL [136] 和 UGen [138]:采用 SBER-MoVQGAN [220], [221],这是一种多尺度 VQGAN 变体,将图像编码为同时捕捉全局结构和细粒度细节的潜在表示。通过利用多尺度词元化,这些模型在自回归建模中提高了视觉表示的表达能力,同时保持了高效的训练吞吐量。
    • Liquid [137]:与 LWM [29] 类似,利用 VQGAN 风格的词元器,并发现当统一在单一自回归目标和共享视觉词元表示下时,视觉理解和生成可以相互受益。
    • MMAR [134]、Orthus [135]、Harmon [139]:引入的框架利用其对应编码器提取的连续值图像词元,避免了离散化带来的信息损失。它们还通过在每个自回归图像块嵌入之上采用轻量级扩散 MLP 作为解码器,将扩散过程与 AR 骨干网络解耦。这种设计确保了骨干网络的隐藏表示不局限于最终去噪步骤,从而促进了更好的图像理解。
    • TokLIP [140]:将低级离散 VQGAN 词元器与基于 ViT 的词元编码器 SigLIP [209] 结合,以捕捉高级连续语义。这不仅赋予视觉词元高级语义理解能力,还增强了低级生成能力。
    • Selftok [141]:引入了一种新颖的离散视觉自洽词元器 (discrete visual self-consistency tokenizer),在高质量重建和压缩率之间取得了有利的平衡,同时实现了有效视觉强化学习的最优策略改进。
  • 注意力掩码与训练: 除了 MMAR [134] 和 Harmon [139] 之外,这些模型在预训练和生成阶段都应用了因果注意力掩码 (causal attention masks),确保每个词元只关注序列中的先前词元。它们使用 next-token prediction 损失进行训练,自回归地预测图像和文本词元,从而统一了跨模态的训练目标。
  • 解码器: 在像素级编码方法中,用于从潜在词元重建图像的解码器通常遵循 VQGAN 样模型中最初提出的配对解码器结构。这些解码器是轻量级卷积架构,专门优化以将离散潜在网格映射回像素空间,主要关注准确的低级重建而不是高级语义推理。对于将图像词元化为连续潜在表示的方法(如 MMAR [134]、Orthus [135] 和 Harmon [139]),它们采用轻量级扩散 MLP 作为解码器,将连续潜在表示映射回像素空间。
  • 局限性: 视觉词元纯粹为像素级重建优化,通常缺乏高级语义抽象,使得文本和图像表示之间的交叉模态对齐更具挑战性。像素级词元化往往产生密集的词元网格,显著增加了序列长度,尤其对于高分辨率图像,导致自回归训练和推理期间的计算和内存开销巨大,限制了可扩展性。由于底层视觉编码器以重建为中心的目标进行训练,所得视觉词元可能保留模态特定的偏置,例如对纹理和低级模式过度敏感,这不一定最适合语义理解或细粒度交叉模态推理。

4.3.2.2. 语义编码 (Semantic Encoding)

  • 方法原理: 为了克服像素级编码器固有的语义局限性,语义编码方法采用预训练的文本对齐视觉编码器(如 OpenAI-CLIP [22]、SigLIP [209]、EVA-CLIP [36] 或更新的统一词元器 UNIT [223])来处理图像输入。这些编码器通过大规模图像-文本对的对比或回归训练,生成与语言特征在共享语义空间中紧密对齐的视觉嵌入。
  • 代表性工作:
    • Emu [142]、Emu2 [33] 和 LaViT [143]:都使用 EVA-CLIP [36] 作为视觉编码器。Emu [142] 引入了最初的架构,结合冻结的 EVA-CLIP 编码器、一个大型语言模型和一个扩散解码器,以统一 VQA、图像描述和图像生成。Emu2 [33] 在 Emu [142] 的基础上,提出了一个简化且可扩展的统一多模态预训练建模框架,将 MLLM 模型扩展到370亿参数,显著增强了理解和生成能力。LaViT [143] 基于 EVA-CLIP 引入了动态视觉词元化机制,根据内容复杂性自适应地选择视觉词元,动态确定视觉词元序列的长度。
    • DreamLLM [34]、VL-GPT [35]、MM-Interleaved [144] 和 PUMA [147]:利用 OpenAI-CLIP 编码器 [22]。DreamLLM [34] 引入了一个轻量级线性投影来对齐 CLIP 嵌入与语言词元。VL-GPT [35] 在 OpenAI-CLIP 视觉编码器之后采用了一个强大的因果变换器 (casual transformer),有效保留了原始图像的语义信息和像素细节。MM-Interleaved [144] 和 PUMA [147] 通过 CLIP 词元器(结合简单的 ViT-Adapter 或池化操作)提取多粒度图像特征,提供细粒度特征融合,支持丰富的多模态生成。
    • Mini-Gemini [145]:引入了视觉词元增强机制,需要双语义编码器。它利用 SigLIPRQ(Residual Quantization)提供高层语义信息,并使用 ConvNext 提供密集的局部视觉信息。交叉注意力模块用于通过密集编码器的详细视觉线索来精炼全局视觉词元。
    • MetaMorph [148]:采用 SigLIP [209] 提取视觉嵌入,并在预训练语言模型中引入了模态特定适配器 (modality-specific adapters),允许更深层次的视觉语言交互。
    • ILLUME [149]:采用 UNIT [223] 作为视觉编码器,提供平衡语义对齐和像素级保真度的统一表示。UNIT 结合了图像重建和对比对齐损失进行联合训练。
    • VILA-U [146] 和 UniTok [150]:模仿 UNIT [223] 引入图像-文本对比学习,以获得平衡语义对齐和像素级保真度的新型文本对齐视觉词元器。
    • QLIP [151]:通过实现二进制球面量化 (binary-spherical quantization) 解决了重建和文本-图像对齐任务之间可能存在的冲突。
    • Tar [157]:通过利用 LLM 的词汇表初始化视觉码本,并结合尺度自适应池化和解码方法。
    • UniFork [153]:利用 VILA-U 的文本对齐视觉特征,但其参数共享仅限于浅层,深层任务由不同的网络管理。
    • UniCode2 [154]:采用级联码本 (cascaded codebook),从聚类的 SigLIP 特征中获取基础码本,并引入辅助可学习码本以细化特定任务的语义。
    • DualToken [152]:使用 SigLIP 的浅层特征进行重建,深层特征进行语义学习,同时获取纹理和语义视觉特征。
    • X-Omni [160]:使用 SigLIP-VQ 作为视觉编码器,并采用强化学习 (Reinforcement Learning, RL) 来缓解自回归推理中的累积误差和离散编码固有的信息损失。
    • OmniGen2 [158], Ovis-U1 [159], Qwen-Image [161], Bifrost-1 [162]:这些模型利用 MLLM 的多模态特征作为扩散模型的条件,或将 MLLM 与扩散模型集成。
  • 解码器: 大多数语义编码模型通常采用基于扩散的解码器(如 SD 系列 [14], [226]、IP-adapter [227]、FLUX [16] 和 Lumina-Next [228]),这些解码器独立于 MLLM 训练。MLLM 产生语义级视觉词元,然后传递给扩散解码器进行最终图像合成。
  • 局限性: 语义编码器的抽象性导致像素级控制较弱,难以进行细粒度图像编辑。语义编码器通常只提供全局或中级表示,可能不足以处理需要空间对应(如指代表达分割)的任务。语义编码器和扩散解码器通常独立训练,缺乏端到端优化可能导致 MLLM 输出与解码器期望之间的不匹配,产生语义漂移或生成伪影。

4.3.2.3. 可学习查询编码 (Learnable Query Encoding)

  • 方法原理: 引入一组可学习查询词元 (learnable query tokens),动态地从图像特征中提取信息内容。这些查询词元作为内容感知探针,与视觉编码器交互,生成紧凑且语义对齐的嵌入,适用于多模态理解和生成。
  • 代表性工作:
    • SEED [163]:提出了一个学习因果视觉嵌入 (causal visual embeddings) 的种子词元器。图像首先通过 BLIP-2 ViT 编码器 [53] 编码为密集词元特征,然后与一组可学习查询词元连接,并通过因果 Q-Former 处理以生成因果视觉嵌入。
    • SEED-LLAMA [164] 和 SEED-X [165]:通过用更强大的 LLaMA2 模型 [2] 替换 OPT 骨干网络 [229] 并将解码器升级到 UnCLIP-SD [14] 或 SDXL [226] 来增强模型能力。
    • MetaQueries [166]:提供了一个简化的可学习查询编码版本。图像特征通过冻结的 SigLIP 编码器 [209] 提取,然后与可学习查询词元连接,并直接通过冻结的视觉语言骨干网络(如 LLaVA [216] 或 Qwen2.5-VL [10])处理。输出的因果嵌入用作扩散模型的条件。
    • OpenUni [170]:通过仅使用可学习查询和轻量级连接器来改进 MetaQueries 的架构,实现了内聚的多模态理解和生成。
    • Nexus-Gen [167]:引入了更强大的扩散解码器 FLUX-1.dev,显著提高了生成质量。
    • Ming-Lite-Uni [168]:引入了功能强大的 MLLM 模型 M2-omini [200],用于增强视觉语言交互。它通过多尺度可学习词元微调其扩散模型,促进了跨各种视觉尺度的语义对齐。
    • Ming-Omni [171]:遵循集成的 MoE (Mixture-of-Experts) 架构,通过专用于每个词元的机制促进模态特定路由。它采用多尺度可学习查询,并通过对齐策略迭代地生成从粗到细的图像。
    • BLIP3-o [169]:也采用可学习查询来连接多模态理解和生成,并揭示流匹配损失在对齐方面更有效。
    • UniLIP [172]:逐步将重建能力整合到 CLIP 词元中,并以 MLLM 最后一层的隐藏状态作为组合条件。
    • TBAC-Unilmage [173]:在 MLLM 多个中间层而不是最后一层应用可学习查询。
  • 局限性: 增加的计算开销,因为查询词元数量增加会导致内存消耗和计算复杂性显著提高。固定编码器(如 MetaQueries)的使用限制了模型在面对与预训练数据分布不同的新颖或复杂视觉输入时的灵活性。对冻结或预训练骨干网络的依赖限制了视觉特征对下游任务的适应性。可学习查询虽然有效地捕捉了任务相关内容,但可能无法统一处理多样化的视觉内容,例如复杂场景中的多个对象或细粒度细节。

4.3.2.4. 混合编码 (Hybrid Encoding)

  • 方法原理: 结合像素级编码(如 VQVAEVQGAN)和语义级编码(如 SigLIPCLIP 变体)的优点,旨在提供更丰富的图像表示。
  • 分类:
    • 伪混合编码 (Pseudo Hybrid Encoding):
      • 方法原理: 这些模型采用双编码器架构(通常是语义编码器和像素编码器),但以任务特定的方式使用它们。在训练期间,语义编码器分支用于视觉语言理解任务,而像素编码器分支用于图像生成任务。虽然双编码器与理解和生成数据集同时训练,但在理解任务的推理期间不使用像素编码器,在文本到图像生成时禁用语义编码器。
      • 代表性工作: Janus [174]、Janus-Pro [175]、OmniMamba [176]、Unifluid [177] 和 MindOmni [178]。Skywork UniPic [179] 采用 SigLIP2 作为理解任务的编码器,MAR [25] 作为生成任务的编码器。
      • 局限性: 由于推理时只有一个编码器激活,这些模型未能充分利用混合编码的优势,错失了在生成任务中利用语义接地和在理解任务中利用高保真视觉细节的机会。
    • 联合混合编码 (Joint Hybrid Encoding):
      • 方法原理: 将语义词元和像素词元集成到语言模型或解码器的单一统一输入中,从而实现两种表示的同时利用。
      • 代表性工作:
        • MUSE-VL [180] 和 UniToken [186]:在通道维度上连接 SigLIPVQGAN 的特征,然后将其输入到 LLM 中。
        • Tokenflow [181]:结合了双编码器和共享映射的码本,实现高层语义和低层像素细节的联合优化。
        • VARGPT [182]、VARGPT-1.1 [184] 和 ILLUME+^+ [185]:在序列维度上连接语义词元和像素词元,从而在 LLM 输入中保留两种词元类型。
        • SemHiTok [183]:引入了语义引导分层码本 (Semantic Guided Hierarchical Codebook, SGHC),它完美地继承了语义码本的语义信息,同时结合了纹理信息以实现像素重建。
        • Show-o2 [187]:使用单独的网络分支处理 3DVAE [230] 生成的潜在特征,并使用时空融合模块聚合不同分支的输出。
      • 解码器: 这些模型支持像素解码器(如 VQGANInfinity [231]、VAR-D30 [113])以及基于扩散的解码器(如 SDXL [226]),能够生成具有改进语义对齐和视觉真实感的图像。
  • 局限性: 许多伪混合方法在推理时未同时利用两个编码器。即使在联合混合方法中,异构词元类型的融合也可能引入模态不平衡或冗余。双编码器架构显著增加了计算和内存开销。像素和语义词元之间的对齐仍然是一个非平凡的问题。

4.4. 融合自回归与扩散模型 (Fused Autoregressive and Diffusion Models)

4.4.1. 方法原理

融合自回归 (AR) 和扩散建模是一种强大的统一视觉语言生成框架。在这种范式中,文本词元是自回归生成的,保留了大型语言模型组合推理的优势,而图像词元则通过多步去噪过程生成,遵循扩散建模原理。这种混合策略允许图像生成以非顺序方式进行,从而提高视觉质量和全局一致性。尽管这种设计增加了推理成本,但它在符号控制和视觉保真度之间实现了有效的权衡。

4.4.2. 核心方法详解 (按图像词元化策略分类)

4.4.2.1. 像素级编码 (Pixel-based Encoding)

  • 方法原理: 像素级编码将图像转换为离散词元或连续潜在向量,然后将其用作扩散去噪过程的目标,该过程以自回归生成的文本词元为条件。
  • 代表性工作:
    • Transfusion [38]、MonoFormer [37] 和 LMFusion [188]:都采用通过 SD-VAE 提取的连续潜在表示。这些模型共享一个共同的训练目标,即结合语言建模的自回归损失和图像重建的扩散损失,并利用双向注意力 (bidirectional attention) 实现空间一致性。
      • Transfusion [38]:提出了一个统一的变换器骨干网络,具有模态特定层,以联合处理离散和连续输入。
      • MonoFormer [37]:引入了一个紧凑的架构,具有共享块和任务相关的注意力掩码,以平衡 AR 和扩散任务。
      • LMFusion [188]:通过轻量级视觉注入模块 (visual injection module) 使冻结的 LLM 能够执行高质量图像生成,在保留语言能力的同时仅训练视觉分支。
    • Show-o [39]:采用基于 MAGVIT-v2 [213] 的离散像素级词元器,生成与变换器风格解码兼容的符号图像词元。它支持基于 AR 的文本词元生成和基于扩散的图像合成,通过自回归和扩散损失的组合进行监督。
  • 局限性: 依赖连续潜在空间(例如通过 SD-VAE)的模型在训练和推理期间引入了显著的计算开销。文本和视觉模态之间的对齐仍然具有挑战性。离散词元化方案(如 Show-o 中使用的)继承了基于 VQ 的模型的问题,例如码本崩溃 (codebook collapse) 和表示细微视觉差异的能力有限。

4.4.2.2. 混合编码 (Hybrid Encoding)

  • 方法原理: 混合编码融合了语义特征(例如来自 CLIPViT 编码器)和像素级潜在特征(例如来自 SD-VAE),提供了更具表现力的图像表示。这使得模型能够利用高层语义抽象,同时保持详细的视觉信息。
  • 代表性工作:
    • Janus-flow [189]、Mogao [190] 和 BAGEL [191]:采用双编码器架构,并提出了一个极简架构,将 AR 语言模型与校正流 (rectified flow) 协调起来。它们解耦了理解和生成编码器,使用 SigLIPSigLIPSDXL-VAE 的串联作为多模态理解的视觉编码器,以及 SDXL-VAEFLUX-VAE 用于图像生成。
  • 局限性: 伪混合编码设计限制了模型在生成过程中同时利用语义和像素级特征的能力,因为在图像合成过程中只有像素编码器是活跃的。这种解耦虽然有利于模块化和训练效率,但阻止了模型在图像解码过程中充分利用语义线索,可能削弱生成任务中的细粒度对齐和多模态组合性。此外,整合双编码器架构以及 AR 和扩散过程的组合增加了模型的整体复杂性,导致更高的计算成本和更长的训练时间。

4.5. 任意到任意多模态模型 (Any-to-Any Multimodal Models)

4.5.1. 方法原理

Any-to-Any 多模态建模旨在创建能够处理和生成各种模态(包括音频、视频、语音、音乐等)的模型。这些模型旨在将模态特定的编码器和解码器统一在一个单一架构中,从而实现文本到音频、视频到文本、语音到音乐或图像到视频生成等任务。

4.5.2. 核心方法详解

  1. 模块化设计: 大多数 Any-to-Any 模型遵循模块化设计,其中每个模态都配有专门的编码器和解码器,而共享骨干网络 (shared backbone) 促进跨模态表示学习和序列建模。例如,OmniFlow [199] 集成了 HiFiGen [232] 用于音频和音乐生成,SD-VAE [14] 用于图像处理,并使用类似 DiT 的扩散模型 (MMDiT) [15] 作为骨干网络。
  2. 共享嵌入空间: 一些模型依赖共享嵌入空间来在特征级别统一不同模态。例如,Spider [198]、X-VILA [196] 和 Next-GPT [192] 利用 ImageBind——一个对比训练的模型,将六种模态(文本、图像、视频、音频、深度和热感)映射到单个嵌入空间中。这种统一表示通过模态特定解码器(如 Stable Diffusion [14]、Zeroscope 或基于 LLM 的文本解码器 [1])实现灵活的条件化和生成。
  3. 序列到序列范式扩展: 其他模型(如 AnyGPT [195] 和 Unified-IO 2 [193])将序列到序列 (sequence-to-sequence) 范式扩展到处理多种模态。AnyGPT [195] 使用 EnCodec [233] 进行音频词元化,SpeechTokenizer [234] 进行语音词元化,并训练一个带有模态特定前缀的统一 TransformerUnified-IO 2 [193] 则采用更结构化的编码器-解码器设计,包括视觉、音频和语言模态,支持在单一模型中执行 AST 到文本、语音到图像或视频描述等任务。
  4. M2-omni [200]: 这是一个高度通用的架构,能够处理和生成多种模态,包括文本、图像、视频和音频。它集成了多个模态特定的词元器和解码器。
    • 视频和图像编码: 使用 NaViT [235] 对任意分辨率的视频和图像进行编码。
    • 图像解码: 使用预训练的 SD-3 [226] 作为图像解码器。
    • 音频处理: 引入 paraformer-zh [236] 提取音频词元,并将预测的离散音频词元输入到预训练的 CosyVoice [237] 流匹配和声码器模型以生成音频流。

4.5.3. 挑战

  • 模态不平衡: 文本和图像模态通常占主导地位,而音频、视频和音乐等其他模态的代表性不足。
  • 可扩展性: 支持广泛的模态增加了模型复杂性,导致更高的推理延迟和更大的资源需求。
  • 语义一致性: 确保跨模态的语义一致性仍然是一个非平凡的任务,模型通常难以保持接地和对齐的输出。

5. 实验设置

本节旨在总结用于统一多模态理解与生成模型的数据集和基准,它们是评估和推动该领域发展的基础。

5.1. 数据集

大型、高质量和多样化的训练数据是构建强大统一多模态理解与生成模型的基石。这些模型通常需要对大量的图像-文本对进行预训练,以学习跨模态相关性和表示。值得注意的是,在多模态数据上训练之前,这些模型通常会使用从大规模自然语言语料库(如 Common CrawlRedPajama [291]、WebText [292] 等)训练得到的参数进行初始化。本节主要关注多模态数据。

原文 Table 3 提供了用于预训练统一多模态理解和生成模型的常用数据集概述。

Dataset
Samples Date
Multimodal Understanding RedCaps [238] 12M 2021-11
Wukong [239] 100M 2022-02
LAION [240] 5.9B 2022-03
COYO [241] 747M 2022-08
Laion-COCO [242] 600M 2022-09
DataComp [243] 1.4B 2023-04
GRIT [244] 20M 2023-06
CapsFusion-120M [245] 120M 2023-10
ShareGPT4V [246] 100K 2023-11
ALLaVA-4V [216] 1.4M 2024-02
Cambrian-10M(7M) [247] 10M 2024-06
LLaVA-OneVision [248] 4.8M 2024-08
Infinity-MM [249] 40M 2024-10
Text-to-Image CC-12M [250] 12M 2021-02
LAION-Aesthetics [240] 120M 2022-08
SAM [251] 11M 2023-04
Mario-10M [252] 10M 2023-05
RenderedText [253] 12M 2023-06
JourneyDB [254] 4M 2023-07
AnyWord-3M [255] 3M 2023-11
CosmicMan-HQ 1.0 [256] 6M 2024-04
DOCCI [257] 15K 2024-04
PixelProse [258] 16M 2024-06
DenseFusion [259] 1M 2024-06
Megalith [260] 10M 2024-07
text-to-image-2M [261] 2M 2024-07
PD12M [262] 12M 2024-09
SFHQ-T2I [263] 122K 2024-10
EliGen TrainSet [264] 500k 2025-01
TextAtlas5M [265] 5M 2025-02
BLIP-3o 60k [169] 60K 2025-05
ShareGPT-4o-Image [266] 45K 2025-06
Echo-4o-Image [267] 106K 2025-08
Image Editing InstructP2P [268] 313K 2022-11
Magicbrush [269] 10K 2022-11
HMIVF [270] 1.1M 2023-06
HQ-Edit [271] 197K 2023-07
SEED-Data-Edit [165] 3.7M 2024-04
EditWorld [272] 8.6K 2024-05
UltraEdit [273] 4M 2024-06
PromptFix [274] 1M 2024-07
OmniEdit [275] 1.2M 2024-09
AnyEdit [276] 2.5M 2024-11
RefEdit [277] 18K 2024-11
Imgedit [278] 1.2M 2025-04
ByteMorph-6M [279] 6.4M 2025-05
ShareGPT-4o-Image [266] 46K 2025-06
GPT-Image-Edit-1.5M [280] 1.5M 2025-07
X2Edit [281] 3.7M 2025-08
Interleaved Image-Text Multimodal C4 [282] 101.2M 2023-04
OBELICS [283] 141M 2023-06
CoMM [284] 227K 2024-06
OmniCorpus [285] 8B 2024-10
LAION-Face [286] 50M 2021-12
Other Text+Image-to-Image MultiGen-20M [287] 20M 2023-05
Subjects200K [288] 200K 2024-11
X2I-subject-driven [84] 2.5M 2024-12
SynCD [289] 95K 2025-02
Graph200K [290] 200K 2025-03
Echo-4o-Image (Multi-Reference) [267] 73K 2025-08

5.1.1. 多模态理解数据集 (Multimodal Understanding Datasets)

这些数据集主要用于训练模型的跨模态理解能力,支持图像描述、视觉问答 (VQA)、图像-文本检索 (image-text retrieval) 和视觉接地 (visual grounding) 等任务。

  • RedCaps [238]: 包含来自 Reddit 的1200万图像-文本对,专门捕捉日常物品和时刻。
  • Wukong [239]: 一个大规模中文多模态预训练数据集,包含1亿从网络过滤的中文图像-文本对。
  • LAION [240]: 最大的公开图像-文本对数据集之一,例如 LAION-5B 包含近60亿图像-文本对,通过 CLIP 模型过滤以确保相关性。其子集 Laion-COCO [242] 包含6亿高质量描述样本。
  • COYO [241]: 另一个大规模图像-文本对数据集,包含约7.47亿样本,也来源于网络爬取并经过过滤。
  • DataComp [243]: 包含14亿样本,通过精心设计的过滤策略(CLIP 分数和基于图像的过滤)从 Common Crawl 派生,旨在提供更高质量的图像-文本对。
  • ShareGPT4V [246]: 提供约10万高质量图像-文本对话数据点,旨在增强大型多模态模型 (Large Multimodal Models, LMMs) 的指令遵循和对话能力。
  • ALLaVA [216]: 包含140万合成生成样本,用于训练资源友好的轻量级视觉语言模型 (LVLM)。
  • CapsFusion-120M [245]:LaionCOCO [242] 中选择的1.2亿图像-文本对的大规模集合,描述通过整合 Laion-COCO 中的描述与 CapsFusionLLaMA [245] 获得。
  • Cambrian-10M(7M) [247]: 一个设计用于多模态指令微调 (multimodal instruction tuning) 的大规模数据集。
  • LLaVA-OneVision [248]: 一个视觉指令微调集合,包含320万多样化的单图像数据集和160万混合模态样本。
  • Infinity-MM [249]: 一个包含超过4000万样本的综合多模态训练数据集。
  • 其他数据集: GRIT [244](2000万样本,强调细粒度图像区域-文本短语对齐)和 SAM [251](1100万高分辨率图像,包含详细分割掩码,可增强细粒度理解)。

5.1.2. 文本到图像数据集 (Text-to-Image Datasets)

这些数据集主要用于训练根据文本描述生成图像的模型。

  • CC-12M (Conceptual Captions 12M) [250]: 包含约1200万从网络 Alt-text 提取和过滤的图像-文本对。
  • LAION-Aesthetics [240]: LAION 数据集的子集,通过审美评分模型过滤,选择了约1.2亿被认为具有更高“审美价值”的图像及其文本。
  • Text Rendering Datasets (文本渲染数据集):
    • Mario-10M [252]:1000万样本,用于训练 TextDiffuser 模型 [252],以改善文本放置和可读性。
    • RenderedText [253]:1200万手写文本的高分辨率合成图像。
    • AnyWord-3M [255]:300万样本,用于增强生成文本的质量。
    • TextAtlas5M [265]:针对密集文本生成,包含交错文档、合成数据和带有长描述的真实世界图像。
  • JourneyDB [254]: 包含400万由 Midjourney 平台生成的图像-提示对,用于训练模型学习复杂的、艺术风格的文本到图像映射。
  • CosmicMan-HQ 1.0 [256]: 包含600万高质量真实世界人像图像,具有精确的文本标注,用于改善人像生成能力。
  • DOCCI [257]: 提供1.5万张独特策划的图像,每张都有长篇人工标注的英文描述,旨在处理细微细节和复杂构图。
  • PixelProse [258]:DataComp [243]、CC-12M [250] 和 RedCaps [238] 中提取,包含丰富标注的图像和对应文本描述,提供水印存在和审美评分等元数据。
  • Megalith [260]: 包含约1000万个 Flickr 图像链接,附带由 ShareCaptioner [246]、Florence2 [294] 和 InternVL2 [11], [66] 等模型生成的社区描述。
  • PD12M [262]: 包含1240万高质量公共领域和 CC0 许可图像,配对使用 Florence-2-large [294] 生成的合成描述,用于训练文本到图像模型。
  • Synthesized Datasets (合成数据集):
    • text-to-image-2M [261]:200万增强的文本-图像对,用于微调。
    • SFHQ-T2I [263]:12.2万多样化、高分辨率的合成人脸图像。
    • EliGen TrainSet [264]:使用基线模型 (FLUX.1-dev) 和 MLLM 生成的提示来保持风格一致性。
    • BLIP-3o 60k [169]:6万个指令微调样本,从 GPT-4o 提取。
    • ShareGPT4o-Image [266]:4.5万个文本到图像对,提示由 GPT-4o 的图像生成能力合成。
    • Echo-4o-Image [267]:超过10万个样本,针对超现实幻想场景和复杂长尾指令。
  • 其他数据集: SAM [251] 和 DenseFusion [259]。

5.1.3. 图像编辑数据集 (Image Editing Datasets)

这些数据集包含(源图像、编辑指令、目标图像)三元组,用于训练模型根据文本命令修改图像。

  • InstructPix2Pix [268]: 通过合成方法生成,GPT-3 生成编辑指令和目标图像描述,然后文本到图像模型生成“前后”图像。包含约31.3万个(指令、输入图像、输出图像)训练样本。
  • MagicBrush [269]: 1万个高质量、人工标注的指令式图像编辑样本,涵盖对象添加/删除/替换、属性修改、风格迁移等。
  • HIVE [270]: 引入人工反馈的指令式视觉编辑框架,提供了110万训练数据集和3600个奖励数据集。
  • EditWorld [272]: 引入“世界指令式图像编辑”任务,专注于真实的物理世界动态,数据集通过 GPT-3.5T2I 模型生成。
  • PromptFix [274]: 构建了一个包含101万三元组的大规模指令遵循数据集,重点关注低级图像处理任务(如修补、去雾、超分辨率、上色)。
  • HQ-Edit [271]、SEED-Data-Edit [165]、UltraEdit [273]、OmniEdit [275]、AnyEdit [276]: 最新、更大规模的图像编辑数据集,通常结合自动化生成和人工过滤/标注。
  • RefEdit [277]: 针对涉及复杂场景中指代表达 (referring expressions) 的指令式编辑挑战,通过 GPT-4oFLUXGrounded SAM 生成。
  • ImgEdit [278]: 120万编辑对的大规模数据集,用于高质量的单轮和多轮图像编辑,采用多阶段生成流程。
  • ByteMorph-6M [279]: 包含超过600万图像编辑对,专为涉及非刚性运动(如相机视角变化、对象变形、人体关节)的指令式编辑设计。
  • ShareGPT-4o-Image (Editing) [266]: 包含4.6万指令引导的图像编辑三元组,由 GPT-4o 生成编辑指令和编辑后的图像。
  • GPT-Image-Edit-1.5M [280]: 包含超过150万高质量指令引导的图像编辑三元组,利用 GPT-4o 统一和完善现有数据集。
  • X2Edit [281]: 包含370万样本的大规模综合图像编辑数据集,平衡了14个不同的编辑任务。

5.1.4. 交错图像-文本数据集 (Interleaved Image-Text Datasets)

这些数据集包含文本和图像自然交错的文档或序列,模仿网页或文档中的内容。

  • Multimodal C4 (MMC4) [282]: 通过算法将图像插入到来自 Common Crawl 的大规模文本语料库 C4 中。包含超过1.01亿文档和5.71亿图像。
  • OBELICS [283]: 一个开放、网络规模的数据集,包含1.41亿个从 Common Crawl 提取的多模态网页文档,其中包含3.53亿图像和1150亿文本词元。
  • CoMM [284]: 一个高质量、精选的数据集,专注于交错图像-文本序列的连贯性和一致性,包含约22.7万样本。
  • OmniCorpus [285]: 一个非常大规模(100亿级别)的图像-文本交错数据集,包含86亿图像和1.696万亿文本词元。

5.1.5. 其他文本+图像到图像数据集 (Other Text+Image-to-Image Datasets)

这些数据集用于增强模型的特定能力,如基于给定主体图像生成,或利用控制信号(如深度图、边缘图)。

  • LAION-Face [286]: 包含5000万图像-文本对,用于身份保留的图像生成。
  • MultiGen-20M [287]: 包含2000万样本,用于训练模型根据多个控制信号(文本描述、边缘图、深度图、分割掩码、草图)生成图像。
  • Subjects200K [288]: 包含20万样本,专注于主体驱动图像生成 (subject-driven image generation),通过 ChatGPT-4oFLUX 合成。
  • SynCD [289]: Synthetic Customization Dataset,提供约9.5万组图像,专为文本+图像到图像定制任务设计。
  • X2I-subject-driven [84]: 促进主体驱动图像生成,包含 GRIT-EntityWeb-Images 子集。
  • Graph200K [290]: 一个图结构数据集,基于 Subjects200K 构建,每个图像都增强了49种类型的标注,涵盖五种元任务。
  • Echo-4o-Image (Multi-Reference) [267]: 7.3万个合成样本,用于“多对一”生成,设计有丰富的指令和参考信息。

5.2. 评估指标

现代大规模统一多模态模型不仅应在像素级别对齐视觉和语言信息,还应执行复杂的推理、支持连贯的多轮对话并集成外部知识。同时,这些模型应生成高保真视觉输出,忠实于文本提示,并为用户提供对风格和构图元素的细粒度控制。

原文 Table 4 提供了评估基准的统计摘要。

Evaluation on Understanding
Samples Task
Understanding VQA [302] Open-domain Visual QA Image + Question → Answer CVPR2017
VQAv2 [303] 1M QAs Open-domain Visual QA Image + Question → Answer CVPR2017
CLEVR [304] 853K QAs Compositional Visual QA Image + Question → Answer CVPR2017
GQA [305] 22M QAs Compositional Visual QA Image + Question → Answer CVPR2019
OK-VQA [306] 14K QAs Knowledge-based VQA Image + Question → Answer CVPR2019
VCR [307] 290K QAs Commonsense Visual QA Img. + Q. → Answer + Rationale CVPR2019
VisDial [308] 1.2M Dialogs Multi-turn Visual Dialog Image + Dialog → Answer ACL2020
ChartQA [309] 32.7K QAs Data Visualization QA Image + Question → Answer CVPR2020
TextVQA [310] 45K QAs Scene Text Visual QA Image + Question → Answer ECCV2022
A-OKVQA [311] 25K As Expanded Commonsense VQA Image + Question → Answer EMNLP2023
HaluEval [312] 35K Samples Hallucination Detection Model output → Yes / No TACL2023
VSR [8] 3K QAs Spatial Reasoning Image + Question → True / False NeurIPS2023
LAMM [313] 62K QAs Instruction Benchmarking Features + Instruction → Output NeurIPS2023
LLaVa-Bench [314] 150 QAs Instruction Benchmarking Image + Question → Answer NeurIPS2023
OwlEval [315] 82 Qs Visual-related Eval Image + Instruction → Answer Arxiv2023
MMBench [316] 3K QAs Fine-grained Multi-modal Eval Image + Question → Answer ECCV2024
MMMU [317] 11.5K QAs Expert-level Understanding Image + Question → Answer CVPR2024
MM-Vet [318] 218 Samples VL Capability Eval Image + Question → Answer ICML2024
MM-Vet v2 [319] 218+ Samples VL Sequence Understanding Image + Sequences → Answer Arxiv2024
MMStar [320] 1.55K QAs Vision Indispensable Eval Image + Question → Answer NeurIPS2024
SEED-Bench [321] 19K QAs Comprehensive Evaluation Image/Video + MCQ → Answer CVPR2024
Open-VQA [322] Varied VQA Evaluation Image + Q/A → QA Chain ICLR2024
MathVista [323] 6K QAs Math Reasoning Image + Text → Math Output ICLR2024
General-Bench [324] >700 tasks Ultra Large-scale Eval Varied by Task Arxiv2025
Image Generation DrawBench [72] 200 Prompts Comprehensive Eval Text Prompt → Image NeurIPS2022
PartiPrompts [325] 1600 Prompts Comprehensive Eval Text Prompt → Image TMLR2022
PaintSkills [326] ~7K Scenes Compositional Eval Text Prompt → Image ICCV2023
HRS-Bench [327] 960 Prompts Multi-skill Eval Text Prompt → Image ICCV2023
TIFA [328] 4081 Prompts QA-based Eval Text Prompt → Image ICCV2023
GenEval [329] 1000 Prompts Object-focused Eval Text Prompt → Image NeurIPS2023
T2I-CompBench [330] 6000 Prompts Compositional Eval Text Prompt → Image NeurIPS2023
HEIM [331] ~1620 Prompts Comprehensive Eval Text Prompt → Image NeurIPS2023
Commonsense-T2I [332] 500 Prompts Commonsense-driven Eval Text Prompt → Image COLM2024
DSG-1k [333] 1060 Prompts Compositional Eval Text Prompt → Image ICLR2024
GenAI-Bench [334] 1600 Prompts Compositional Eval Text Prompt → Image CVPR2024
ConceptMix [335] 2100 Prompts Compositional Eval Text Prompt → Image NeurIPS2024
DPG-Bench [336] 1065 prompts Attribute Eval Text Prompt → Image Arxiv2024
T2I-CompBench++ [337] 6000+ Prompts Compositional Eval Text Prompt → Image TPAMI2025
MMIG-Bench [338] 4850 Prompts Comprehensive Eval Text Prompt → Image Arxiv2025
OneIG-Bench [339] ~2k Prompts Comprehensive Eval Text Prompt → Image Arxiv2025
WISE [340] 1k Prompts World Knowledge Eval Text Prompt → Image Arxiv2025
CVTG-2K [341] 2k Prompts Multi-region Visual Text Eval Text Prompt → Image Arxiv2025
WorldGenBench [342] 1072 Prompts World Knowledge Eval Text Prompt → Image Arxiv2025
Image Editing EditBench [343] 240 Edits Mask-guided Editing Img. + Ins. + [Mask] → Image CVPR2023
MagicBrush [269] 1053 Edits Real-image Editing Image + Instruction → Image CVPR2023
EditVal [344] 648 Edits Attribute-focused Eval Image + Instruction → Image NeurIPS2023
Emu-Edit [345] 30555 Edits Multi-task Editing Image + Instruction → Image NeurIPS2023
Reason-Edit [346] 2 Edits Complex Instruction Editing Image + Instruction → Image CVPR2024
I2EBench [347] 2240 Edits Multi-dimensional Eval Image + Instruction → Image CVPR2024
HumanEdit [348] 5.7K Edits Human-rewarded Editing Img. + Ins. + [Mask] → Image Arxiv2024
HQ-Edit [271] ~200K Edits High-resolution Editing Image + Instruction → Image ICLR2025
AnyEdit [276] 1250 Edits Comprehensive Eval Image + Instruction → Image CVPR2025
IE-Bench [349] 301 Edits Human-aligned Perceptual Eval Image + Instruction → Image Arxiv2025
GEdit-Bench [350] 606 Edits Real-world-grounded Editing Image + Instruction → Image Arxiv2025
CompBench [351] 3K Edits Complex Instruction Editing Image + Instruction → Image Arxiv2025
GIE-Bench [352] 1080 Edits Content-preserving Eval Image + Instruction → Image Arxiv2025
EditInspector [353] 783 Edits Comprehensive Eval Image + Instruction → Image Arxiv2025
ComplexBench-Edit [354] <1K List of Edits Chain-dependent Editing Eval Image + Instruction → Image Arxiv2025
ByteMorph-Bench [279] 613 Edits Non-rigid Editing Eval Image + Instruction → Image Arxiv2025
RefEdit-Bench [277] 200 Edits Expression-driven Editing Eval Image + Instruction → Image Arxiv2025
ImgEdit-Bench [278] 200 Edits Expression-driven Editing Eval Image + Instruction → Image Arxiv2025
KRIS-Bench [355] 1267 Edits Cognitive Reasoning Eval Image + Instruction → Image Arxiv2025
Interleaved / Compositional Generation InterleavedBench [356] 815 Samples Human-curated Interleaving Text + Images → Text + Images EMNLP2024
OpenLEAF [357] 30 Queries Open-domain Interleaving Query → Text + Images MM2024
ISG [358] 1150 Samples Scene-driven Interleaving Graph + Text → Text + Images ICLR2025
MMIE [359] 20K Queries Knowledge-intensive Interleaving History + Query → Response ICLR2025
OpenING [360] 5.4K Samples Open-domain Interleaving Query → Text + Images CVPR2025
UniBench [361] 81 fine-grained tags Unified Compositional Eval Prompt → Images + Answer Arxiv2025
Other Types MultiGen-20M [287] Varied Controllable Generation Featues + Instruction → Image NeurIPS2023
Dreambench [362] 30 objects Subject-Driven Generation Ref Img. + Instruction → Image CVPR2023
Dreambench++ [363] 100 imngs Personalized Generation Ref Img. + Instruction → Image ICLR2025
VTBench [364] Varied Visual Tokenizer Eval Image → Reconstructed Image Arxiv2025

5.2.1. 理解能力评估 (Evaluation on Understanding)

5.2.1.1. 感知 (Perception)

  • 图像-文本检索和描述: Flickr30k [365], MS COCO Captions [366] 用于评估模型能否检索相关描述和定位文本短语到图像区域。
  • 视觉问答 (VQA): VQA [302], VQA v2 [303], VisDial [308] 和 TextVQA [310] 要求模型解释复杂场景并回答关于物体、属性和关系的问题。
  • 空间关系推理: VSR [8] 探究模型在真实世界图像中的空间关系推理能力。
  • 综合性元基准:
    • MMBench [316]: 包含3K双语多项选择题,涵盖接地、识别和检索。
    • MMMU [317]: 增加了约11.5K大学级别的多模态问题,跨越六个学科,以探究领域知识和逻辑推导。
    • HaluEval [312]: 诊断模型在多样化模型生成和标注语句上的幻觉识别能力。
    • MM-Vet [318] 及其 v2v2 [319]: 涵盖识别、光学字符识别 (OCR)、空间推理、数学和开放式问答,v2v2 进一步评估交错图像-文本序列。
    • SEEDBench [321]: 设计了一个生成多项选择题的流程,针对特定评估维度,提供19K多项选择题。
    • LLaVa-Bench [314]: 提供 COCO [293] 和“野外”图像集,用于泛化检查。
    • LAMM [313]: 提供涵盖2D和3D模态的指令微调示例。
    • Open-VQA [322]: 提出分层后续问题以细化粗糙的 VQA 答案。
    • OwlEval [315]: 提供人工评分的开放式视觉问题,评估相关性和信息量。
    • MMStar [320]: 策划了精心平衡的挑战样本,涵盖六项核心技能和18个维度,用于高精度评估。

5.2.1.2. 推理 (Reasoning)

  • 结构化推理:
    • CLEVR [304]: 系统地改变对象属性和空间关系,强制模型执行多跳程序,测试计数、比较和关系逻辑。
    • GQA [305]: 利用密集场景图生成组合性问题,其功能程序用于测试一致性、接地和合理性。
  • 常识推理:
    • OK-VQA [306] 及其后续 A-OKVQA [311]: 选择答案在图像之外的问题,需要检索或推断世界知识。
    • VCR [307]: 要求模型不仅选择正确答案,还要通过选择连贯的理由来证明其合理性,将识别与解释耦合。
  • 领域特定推理:
    • ChartQA [309]: 引入结合视觉感知和图表量化推理的问题。
    • MathVista [323]: 将范围扩展到视觉接地背景下的数学问题解决。
  • 超大规模基准: General-Bench [324] 是一个超大规模基准,包含超过700个任务和32.58万个实例,涵盖多种模态和能力,为多模态通用模型提供协同驱动的评估套件。

5.2.2. 图像生成评估 (Evaluation on Image Generation)

5.2.2.1. 文本到图像生成 (Text-to-Image Generation)

  • 早期自动化指标:
    • FID (Fréchet Inception Distance) [367]:
      1. 概念定义: FID 是一种衡量生成图像质量与真实图像分布之间相似性的指标。它通过比较两组图像在预训练 Inception v3 模型特征空间中的统计特征(均值和协方差)来量化生成图像的逼真度和多样性。FID 值越低,表示生成图像的质量越高、多样性越好,越接近真实图像分布。
      2. 数学公式: FID=μ1μ222+Tr(Σ1+Σ22(Σ1Σ2)1/2) \mathrm{FID} = ||\mu_1 - \mu_2||_2^2 + \mathrm{Tr}(\Sigma_1 + \Sigma_2 - 2(\Sigma_1 \Sigma_2)^{1/2})
      3. 符号解释:
        • μ1,Σ1\mu_1, \Sigma_1:真实图像在 Inception v3 特征空间中的特征分布的均值向量和协方差矩阵。
        • μ2,Σ2\mu_2, \Sigma_2:生成图像在 Inception v3 特征空间中的特征分布的均值向量和协方差矩阵。
        • 22||\cdot||_2^2:L2 范数的平方,衡量均值之间的距离。
        • Tr()\mathrm{Tr}(\cdot):矩阵的迹 (trace)。
        • Σ1+Σ22(Σ1Σ2)1/2\Sigma_1 + \Sigma_2 - 2(\Sigma_1 \Sigma_2)^{1/2}:衡量协方差之间的差异,包括图像多样性。
    • CLIPScore [22]:
      1. 概念定义: CLIPScore 衡量生成图像与给定文本提示之间的语义一致性或对齐程度。它利用预训练的 CLIP 模型将图像和文本映射到相同的潜在嵌入空间,然后计算它们嵌入向量的余弦相似度 (cosine similarity)。CLIPScore 值越高,表示图像与文本提示的语义匹配度越高。
      2. 数学公式: CLIPScore(I,T)=maxtTcosine_similarity(CLIPimage(I),CLIPtext(t)) \mathrm{CLIPScore}(I, T) = \max_{t \in T'} \mathrm{cosine\_similarity}(\mathrm{CLIP_{image}}(I), \mathrm{CLIP_{text}}(t))
      3. 符号解释:
        • II:生成的图像。
        • TT:文本提示。
        • TT':可能包含文本提示 TT 及其增强变体的集合,以捕获更多语义信息。
        • CLIPimage(I)\mathrm{CLIP_{image}}(I)CLIP 图像编码器将图像 II 映射到的嵌入向量。
        • CLIPtext(t)\mathrm{CLIP_{text}}(t)CLIP 文本编码器将文本 tt 映射到的嵌入向量。
        • cosine_similarity(A,B)=ABAB\mathrm{cosine\_similarity}(A, B) = \frac{A \cdot B}{||A|| \cdot ||B||}:计算两个向量 AABB 之间的余弦相似度。
        • maxtT\max_{t \in T'}:取所有文本提示变体中最高的余弦相似度,以确保最佳匹配。
  • 组合推理和提示对齐:
    • PaintSkills [326]、DrawBench [72] 和 PartiPrompts [325]:评估核心组合能力。
    • GenEval [329]:评估六项细粒度任务,如单对象生成、对象共现、计数、颜色控制、相对位置和属性绑定。
    • GenAI-Bench [334]:包含1.6K精心制作的人工提示,涵盖关系、逻辑和基于属性的类别。
    • HRS-Bench [327]:评估13项不同的技能,分为准确性、鲁棒性、泛化性、公平性和偏见五大类。
    • DPG-Bench [336]:专注于描述多个对象的密集提示。
    • T2I-CompBench [330] 及其后续 T2I-CompBench++ [337]:专门针对组合泛化能力,测试新颖属性和关系组合的生成。
    • VISOR [368]:提出一种自动评估生成模型空间理解能力的方法。
    • Commonsense-T2I [332]:挑战模型描绘需要常识接地的日常概念。
  • 概念多样性和综合评估:
    • EvalMuse40K [369]:提供4万个众包提示,关注细微概念表示。
    • HEIM [331]:识别12个方面,包括文本-图像对齐、图像质量、美学、原创性、推理、知识、偏见、毒性、公平性、鲁棒性、多语言性和效率。
    • FlashEval [370]:通过迭代搜索将大型评估集缩小为多样化的较小集。
    • MEMOBench [371]:引入了一个综合基准,用于评估 T2I 模型和 MLLM 的情感理解和表达能力。
    • ConceptMix [335]:通过采样视觉概念的 kk 元组来评估文本到图像模型的组合生成能力。
    • TIFA [328]:通过从提示生成的视觉问答,提供细粒度基准以评估文本到图像的忠实度。
    • DSG-1k [333]:使用多级语义图细化问题,用于基于 VQA 的图像提示对齐评估。
    • MMIG-Bench [338]:引入多维评估框架。
    • OneIG-Bench [339]:引入综合细粒度评估框架。
    • WISE [340], WorldGenBench [342]:评估 T2I 模型的世界知识理解能力。
    • CVTG-2K [341]:评估复杂多区域布局、多样化文本属性和细粒度定位上的视觉-文本生成。

5.2.2.2. 图像编辑 (Image Editing)

  • 指令式图像编辑:
    • MagicBrush [269]:大规模人工标注数据集,用于指令引导的真实图像编辑。
    • HQ-Edit [271]:包含约20万高分辨率编辑,具有计算出的对齐和一致性分数。
    • I2EBench [347]:整合了超过2K图像和4K多步指令,跨越16个编辑维度。
    • EditVal [344]:提供标准化基准,具有细粒度编辑标注和与人工判断对齐的自动化评估流程。
    • EmuEdit [345]:涵盖背景更改、对象级编辑和样式修改等七个编辑任务。
    • Reason-Edit [346]:诊断性基准,针对因果和反事实推理,强调对象关系、属性依赖和多步推理。
    • EditBench [343]:掩码输入参考对的诊断基准,用于文本引导的图像修补。
    • HumanEdit [348]:包含5751张高分辨率图像和开放式指令,涵盖六种编辑类型,并带有标注的掩码和多阶段人工反馈。
    • IE-Bench [349]:人工对齐基准,评估文本驱动图像编辑质量。
    • GEdit-Bench [350]:包含606个真实世界指令-图像对。
    • CompBench [351]:通过大规模 MLLM 和人工协作将编辑分解为位置、外观、动态和对象维度。
    • GIE-Bench [352]:使用多项选择 VQA 和对象感知掩码,评估编辑准确性和内容保留。
    • AnyEdit [276]、ImgEdit-Bench [278]、EditInspector [353]、ComplexBench-Edit [354]:全面评估文本引导图像编辑,评估视觉一致性、伪影检测、指令遵循、视觉质量和细节保留。
    • ByteMorph-Bench [279]:处理非刚性图像操作。
    • RefEdit-Bench [277]:评估复杂多实体场景中基于指代表达的编辑。
    • KRIS-Bench [355]:提供认知基础套件,评估事实、概念和程序推理。

5.2.2.3. 其他类型的图像生成 (Other Types of Image Generation)

  • 条件和个性化合成:
    • MultiGen-20M [287]:提供超过2000万图像-提示-条件三元组,支持跨多样化视觉条件的自动化评估。
    • Dreambench [362]:使用30个参考对象和精选提示以及人工保真度评分来基准测试个性化生成。
    • Dreambench++Dreambench++ [363]:将范围扩展到150个主体和1350个提示,使用先进的视觉语言模型进行概念保留、构图和风格的人工对齐评分。
  • 视觉词元器评估: VTBench [364]:提供系统基准,评估自回归图像生成中视觉词元器在图像重建、细节保留和文本保留方面的性能。

5.2.3. 交错生成评估 (Evaluation on Interleaved Generation)

交错评估基准挑战模型在多轮对话中无缝切换文本和图像模态,反映真实的对话和故事叙述场景。

  • InterleavedBench [356]: 专门为交错文本和图像生成评估而精心策划的基准,具有丰富的任务以涵盖多样化的真实世界用例。
  • ISG [358]: 引入场景图标注和四层评估(整体、结构、块级和图像特定),涵盖1K样本中的八个场景和21个子任务。
  • OpenING [360]: 汇集5K个人工标注实例,跨越56个真实世界任务,测试开放式多模态生成方法。
  • OpenLEAF [357]: 收集30个开放域查询,由标注人员编写和审查,探究基础的交错文本-图像生成。
  • MMIE [359]: 提出一个统一的交错套件,通过从12个领域和102个子领域中采样,提供多项选择题和开放式问题形式的组合。
  • UniBench [361]: 一个全面的组合基准,用于评估统一模型,提供81个细粒度标签以确保高多样性。

5.3. 对比基线

作为一篇综述论文,本文并未提出新的模型或直接进行实验,因此没有“对比基线”的概念。相反,本文回顾了现有统一多模态模型的进展,这些模型在各自的论文中与以下类型的基线进行了比较:

  • 传统单模态模型: 例如,多模态理解模型会与纯文本 LLM 或纯视觉模型(如图像分类器)进行比较,以展示多模态融合的优势。图像生成模型会与早期的 GAN 模型或其他扩散模型进行比较,以展示生成质量的提升。
  • 早期多模态模型: 与早期双编码器架构的多模态理解模型(如 CLIPViLBERT)进行比较,以突出基于 LLM 架构的进步。
  • 同类 SOTA 模型: 在每个统一模型的类别中,新提出的模型通常会与该类别中已有的最先进 (state-of-the-art) 模型进行比较,例如 AR 模型会与最新的 AR 生成模型比较,扩散模型会与最新的 DiTLDM 变体比较。
  • 解耦模型: 统一模型的性能通常会与其解耦版本(即分别训练和部署理解模块和生成模块)进行比较,以证明统一框架的有效性。

6. 实验结果与分析

作为一篇综述论文,本文不包含新的实验结果,而是对现有统一多模态模型在不同任务上的表现进行了总结和分析。核心结果体现在对不同架构范式(扩散、自回归、融合)的优缺点讨论,以及对数据集和基准的详细罗列,这些都间接反映了现有模型的性能和待改进之处。

6.1. 核心结果分析

  1. 扩散模型 (Diffusion Models) 的优势与挑战:

    • 优势: 在图像生成质量方面具有显著优势,能够生成逼真、细节丰富的图像。它们通过简单且非对抗性的训练目标,实现了更好的模式覆盖和训练稳定性。
    • 挑战: 推理效率是主要问题,大多离散扩散模型在实际推理速度上不及自回归模型。训练效率也受限,因为损失计算在随机子集上,导致稀疏监督。此外,缺乏内置的停止机制(如 end-of-sequence token)限制了其在不同输出长度上的泛化能力。
    • 发展趋势: Dual DiffusionUniDisc 等模型尝试在扩散框架下实现文本和图像的联合生成,通过交叉模态条件化实现语义对齐。FUDOKI 探索离散流匹配以提高自校正能力。
  2. 自回归模型 (Autoregressive Models) 的优势与挑战:

    • 优势:LLM 架构的结构一致性使其在推理和文本生成方面表现出色。因果注意力掩码和 next-token prediction 损失使其在处理序列数据时具有强大的建模能力。
    • 挑战: 像素级编码缺乏高层语义抽象,难以进行细粒度控制,且生成密集词元序列导致计算和内存开销巨大。语义编码虽然解决了语义抽象问题,但牺牲了像素级细节控制,且编码器与扩散解码器之间的不匹配可能导致语义漂移。可学习查询编码增加了计算开销,且对固定编码器的依赖限制了灵活性。
    • 发展趋势:
      • 像素级编码: LWMChameleonEmu3 等通过 VQGAN 变体或连续潜在表示,尝试在保持生成质量的同时进行统一建模。
      • 语义编码: EmuLaViTDreamLLM 等通过 CLIP 变体提取语义嵌入,并结合扩散解码器生成图像,强调高层语义对齐。
      • 可学习查询编码: SEEDMetaQueries 等通过可学习查询动态提取信息,实现紧凑语义对齐的嵌入,提供更灵活的视觉表示。
      • 混合编码: 旨在结合像素级和语义级特征的优点。伪混合编码(如 Janus)在不同任务中激活不同编码器;联合混合编码(如 MUSE-VL)则将两者融合为单一输入。
  3. 融合自回归与扩散模型 (Fused AR + Diffusion Models) 的潜力与局限:

    • 潜力: 结合了 AR 的组合推理能力和扩散模型的高质量图像生成能力。图像生成是非顺序的,提高了视觉质量和全局一致性。
    • 局限性: 迭代去噪过程增加了推理成本。像素级编码存在计算开销大、模态对齐挑战、码本崩溃等问题。混合编码虽然更具表现力,但也增加了模型复杂性,导致更高的计算成本和训练时间,且语义与像素级特征的对齐仍需优化。
    • 发展趋势: TransfusionMonoFormerLMFusion 等通过共享骨干网络或模态特定层,实现文本 AR 生成和图像扩散生成。Janus-flowMogao 等则通过混合编码进一步提升表示能力。
  4. 任意到任意多模态模型 (Any-to-Any Multimodal Models) 的未来方向:

    • 目标: 超越图像和文本,处理和生成包括音频、视频、语音等更广泛的模态。

    • 设计: 普遍采用模块化设计,每个模态有专门的编码器和解码器,并通过共享骨干网络实现跨模态学习。

    • 挑战: 模态不平衡、可扩展性和跨模态语义一致性是主要难题。

      整体而言,现有研究在统一多模态理解与生成方面已取得显著进展,但仍面临如何有效整合不同模态的优势、提高效率和可扩展性、以及解决评估和数据稀缺等问题。

6.2. 数据呈现 (表格)

以下是原文 Table 2 的结果,展示了任何模态到任何模态的统一模型的架构。

Model Architecture Date
Backbone Modality Enc. Modality Dec. Mask
Next-GPT [192] Vicuna ImageBind AudioLDM+SD-1.5+Zeroscope-v2 Causal 2023-09
Unified-IO 2 [193] T5 Audio Spectrogram Transformer+Vision ViT Audio ViT-VQGAN + Vision VQGAN Causal 2023-12
Video-LaVIT [194] LLaVA-1.5 LaVIT+Motion VQ-VAE SVD img2vid-xt Causal 2024-02
AnyGPT [195] LLaMA-2 Encodec+SEED Tokenizer+SpeechTokenizer Encodec+SD+SoundStorm Causal 2024-02
X-VILA [196] Vicuna ImageBind AudioLDM+SD-1.5+Zeroscope-v2 Causal 2024-05
MIO [197] Yi-Base SpeechTokenizer+SEED-Tokenizer SpeechTokenizer+SEED Tokenizer Causal 2024-09
Spider [198] LLaMA-2 ImageBind AudioLDM+SD-1.5+Zeroscope-v2 +Grounding DINO+SAM Causal 2024-11
OmniFlow [199] MMDiT HiFiGen+SD-VAE+Flan-T5 HiFiGen+SD-VAE+TinyLlama Bidirect. 2024-12
M2-omni [200] LLaMA-3 paraformer-zh+NaViT CosyVoice-vocoder+SD-3 Casual 2025-02

6.3. 消融实验/参数分析

本综述没有进行消融实验,但它总结了被综述论文中常见的消融实验和参数分析方法,以评估模型各组件的有效性:

  • 编码器选择: 研究通常会比较不同视觉编码器(如 VQGANCLIP 变体、可学习查询编码器)对模型理解和生成性能的影响,以确定哪种编码策略最能平衡语义抽象和像素级细节。

  • 连接器设计: 连接器(例如投影层、查询变换器)在 LLM 和视觉编码器之间起到桥梁作用。消融实验会探讨不同连接器架构对跨模态对齐和信息传递效率的影响。

  • 损失函数组合: 统一模型通常结合多种损失(如自回归损失、扩散损失、对比损失)。消融实验会分析不同损失项的权重或组合方式如何影响模型的学习效果,以及在理解和生成任务之间的权衡。

  • 注意力机制: 因果注意力、双向注意力或模态特定注意力掩码的选择对模型处理多模态序列的效率和效果至关重要。研究会评估不同注意力机制对性能的影响。

  • 训练策略: 例如,分阶段训练、指令微调、强化学习等策略对模型性能的提升作用。

  • 数据规模与质量: 通常会通过在不同规模和质量的数据集上训练模型,来分析数据对模型可扩展性和泛化能力的影响。

  • 超参数: 学习率、批大小、扩散步数、词元序列长度等超参数的调整对训练稳定性和最终性能有显著影响。

    通过这些分析,被综述的论文能够更好地理解其模型设计的关键因素,并指导未来的改进方向。本综述通过汇总这些信息,为读者提供了全面的背景知识。

7. 总结与思考

7.1. 结论总结

本综述对统一多模态理解与生成模型进行了全面分析。研究发现,该领域正处于快速发展阶段,旨在弥合多模态理解(传统上由自回归 LLM 主导)和图像生成(传统上由扩散模型主导)之间的架构鸿沟。论文将现有方法分为三大范式:基于扩散的、基于自回归的以及融合自回归和扩散的混合方法,并根据模态编码策略进行了进一步细分。

核心结论包括:

  1. 架构融合趋势: 尽管存在挑战,但通过统一框架整合多模态理解和生成能力已成为一个显著趋势,GPT-4o 的出现进一步验证了这一潜力。
  2. 词元化是核心挑战: 如何有效地将图像词元化,使其既能被 LLM 理解又能支持高质量生成,是当前研究的关键瓶颈。不同的编码策略(像素级、语义级、可学习查询、混合)各有优劣,并在语义抽象与细节保留之间进行权衡。
  3. 模型多样化发展: 无论是扩散模型内部的统一化(如 Dual Diffusion),还是自回归模型对视觉模态的适应(如 ChameleonEmu 系列),以及融合两种范式的混合模型(如 Transfusion),都展现了不同的技术路径和创新。
  4. 数据与评估的重要性: 大规模、高质量、多样化的多模态数据集以及全面、集成化的评估基准对于推动该领域的发展至关重要。
  5. Any-to-Any 模型的兴起: 最终目标是构建能处理和生成各种模态(包括音频、视频、语音等)的通用基础模型。

7.2. 局限性与未来工作

论文作者指出了该领域面临的几个关键挑战和未来的研究机遇:

  1. 高效词元化策略 (Efficient Tokenization Strategy):

    • 挑战: 视觉和文本数据的高维度导致极长的词元序列,带来了巨大的内存和计算成本。
    • 机遇: 需要开发更有效的词元化和压缩策略,以在降低成本的同时保持表示的保真度。探索稀疏或分层注意力机制来缓解跨模态注意力中的性能瓶颈。
  2. 跨模态注意力 (Cross-modal Attention):

    • 挑战: 随着图像分辨率和上下文长度的增加,跨模态注意力成为性能瓶颈。
    • 机遇: 探索更具可扩展性的注意力机制,如稀疏注意力或分层注意力。
  3. 数据构建 (Data Construction):

    • 挑战: 预训练数据集常包含噪声或偏置的图像-文本对,尤其是在复杂图像构图和交错图像-文本数据方面。
    • 机遇: 关键在于可靠的数据过滤、去偏和合成方法,以确保模型的公平性和鲁棒性。
  4. 模型评估 (Model Evaluation):

    • 挑战: 评估协议通常是针对单一任务独立设计的。
    • 机遇: 亟需更全面的基准来以集成方式评估理解和生成能力,特别是对于图像编辑和交错图像-文本生成等复杂任务。
  5. 推理与强化学习 (Reasoning and Reinforcement Learning, RL):

    • 机遇: 将链式思考 (CoT) 推理和强化学习技术应用于统一 MLLM 模型,以提高模型的可解释性和性能。CoT 可以引导模型生成中间推理步骤,而 RL 可以优化长期目标(如事实一致性、用户满意度)。
  6. 偏见与公平性 (Bias and Fairness):

    • 挑战: 现有统一 MLLM 模型的潜在人口统计和社会偏见,可能导致输出中无意中放大文化刻板印象、性别偏见或地理不平衡。
    • 机遇: 未来工作应研究有效的公平感知训练管道,确保负责任的部署。
  7. 个性化知识驱动生成 (Personalized Knowledge-driven Generation):

    • 挑战: 当前的个性化模型通常将理解和生成分开处理,限制了模型对需要隐式知识的组合提示的泛化能力。
    • 机遇: 在共享建模框架下统一个性化理解和生成,可以实现更好的语义接地和上下文泛化。
  8. 未充分探索的功能:

    • 挑战: 大多数当前统一多模态模型主要侧重于图像理解和文本到图像生成,而图像编辑等功能仅通过后微调实现。空间控制图像生成、主体驱动图像生成和交错图像-文本生成等高级功能在统一框架中仍未得到充分探索。
    • 机遇: 通过解决架构设计、训练效率、数据集构建、评估方法、公平性和推理等关键领域,有丰富的机会推动该领域发展,实现真正的统一多模态模型。

7.3. 个人启发与批判

个人启发: 这篇综述清晰地展现了人工智能领域从模态特异性到模态统一性的宏大愿景。它强调了将理解和生成能力整合到单一框架中的巨大潜力,这不仅能提升模型的通用性和泛化能力,也预示着更接近通用人工智能 (AGI) 的发展路径。特别是,GPT-4o 这样的模型在实际应用中展现出的多模态交互能力,为这一方向注入了强大的动力。对于初学者而言,综述提供的清晰分类框架和详尽的背景知识,无疑是进入这一复杂领域的绝佳入口。对不同词元化策略及其优缺点的剖析,也为我在设计多模态系统时提供了有价值的思考角度。

批判:

  1. “统一”的定义: 论文中的“统一”概念在不同模型中存在深浅不一的层次。有些模型只是将不同的模态编码器和解码器连接到 LLM,而 LLM 内部仍以文本词元为核心进行序列建模;而另一些模型则尝试在更深层次上(例如,共享潜在空间、统一 Transformer 骨干网络)实现模态融合。综述虽然有所区分,但对于“真正统一”的衡量标准,或者说“如何定义一个模型是真正统一的”,仍有探讨空间。

  2. 理论基础的深度: 虽然综述对模型架构和技术细节进行了详细介绍,但对于为什么某些架构能够更好地促进模态融合的深层理论解释,可以进一步加强。例如,自回归和扩散模型在信息论或动态系统上的本质差异如何影响它们融合的难易程度?

  3. 实际部署考量: 论文提到了计算效率和内存开销是挑战,但缺乏对统一模型在实际部署场景中(例如边缘设备、低资源环境)的具体可行性分析。这些模型通常参数量巨大,如何在保持性能的同时优化推理速度和资源消耗,是一个非常实际的问题。

  4. 偏见和伦理: 论文提到了偏见问题,这是一个非常重要的议题。但作为综述,它主要指出问题而未深入探讨已有的解决方案或评估方法。在未来的研究中,这方面需要更具体、更可操作的指导。

  5. 评估的局限性: 尽管论文提供了大量评估基准,但许多基准仍侧重于单一任务的性能。统一模型的真正价值在于其跨任务的泛化能力和复杂交互能力。如何设计更全面、更自然的端到端评估场景,而非简单的任务堆叠,是未来的重要方向。例如,一个能“理解”用户意图并“生成”符合用户期望的图像,甚至在后续对话中根据反馈进行“编辑”的模型,其评估方式将远超现有基准。

    总而言之,这篇综述为统一多模态理解与生成领域提供了一份宝贵的路线图。它不仅总结了当前成果,更重要的是,明确了未来的挑战和机遇,为该领域的研究者指明了方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。