AiPaper
论文状态:已完成

MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer

发表:2024/01/19
原文链接PDF 下载
价格:0.10
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

提出MM-Interleaved,一种端到端图文交错生成模型,核心是多尺度多图像特征同步器,提升多图场景下对细粒度视觉信息的访问能力。模型结合端到端预训练与监督微调,显著增强多模态指令理解与图文生成一致性。

摘要

Developing generative models for interleaved image-text data has both research and practical value. It requires models to understand the interleaved sequences and subsequently generate images and text. However, existing attempts are limited by the issue that the fixed number of visual tokens cannot efficiently capture image details, which is particularly problematic in the multi-image scenarios. To address this, this paper presents MM-Interleaved, an end-to-end generative model for interleaved image-text data. It introduces a multi-scale and multi-image feature synchronizer module, allowing direct access to fine-grained image features in the previous context during the generation process. MM-Interleaved is end-to-end pre-trained on both paired and interleaved image-text corpora. It is further enhanced through a supervised fine-tuning phase, wherein the model improves its ability to follow complex multi-modal instructions. Experiments demonstrate the versatility of MM-Interleaved in recognizing visual details following multi-modal instructions and generating consistent images following both textual and visual conditions. Code and models are available at \url{https://github.com/OpenGVLab/MM-Interleaved}.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer

1.2. 作者

Changyao Tian, Xizhou Zhu, Yuwen Xiong, Weiyun Wang, Zhe Chen, Wenhai Wang, Yuntao Chen, Lewei Lu, Tong Lu, Jie Zhou, Hongsheng Li, Yu Qiao, Jifeng Dai.

隶属机构包括:OpenGVLab、Shanghai AI Laboratory、MMLab (CUHK)、Tsinghua University、SenseTime Research、University of Toronto、Fudan University、Nanjing University、CAIR (HKISI, CAS)。

1.3. 发表期刊/会议

该论文发布在 arXiv 预印本平台。arXiv 是一个开放获取的论文预印本数据库,在人工智能和计算机科学领域具有很高的影响力,许多前沿研究成果会先在此发布。

1.4. 发表年份

2024年1月18日 (UTC)。

1.5. 摘要

开发用于交织图像-文本数据(interleaved image-text data)的生成模型具有重要的研究和实践价值。这类模型需要理解交织序列,并随后生成图像和文本。然而,现有方法受到视觉词元(visual tokens)数量固定且无法有效捕捉图像细节的限制,在多图像场景中这一问题尤为突出。为了解决这一挑战,本文提出了 MM-Interleaved,一个用于交织图像-文本数据的端到端生成模型。该模型引入了一个多尺度和多图像特征同步器模块(Multi-scale and Multi-image Feature Synchronizer module, MMFS),允许在生成过程中直接访问先前上下文中的细粒度图像特征。MM-Interleaved 在配对和交织图像-文本语料库上进行端到端预训练。通过监督微调(supervised fine-tuning)阶段,模型进一步增强了遵循复杂多模态指令的能力。实验证明了 MM-Interleaved 在识别遵循多模态指令的视觉细节以及生成遵循文本和视觉条件的一致图像方面的多功能性。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

论文主要解决的核心问题是:如何高效且精细地处理和生成交织的图像-文本数据(interleaved image-text data),尤其是在多图像场景下,避免现有方法因固定数量的视觉词元(visual tokens)而导致的图像细节丢失问题。

2.1.2. 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白?

  • 数据普遍性与复杂性: 交织图像-文本数据(如新闻文章、博客)在互联网上普遍存在。它们不仅仅是简单的图像-文本对(image-text pairs),而是更长、更复杂的文章结构,其中图像和文本相互穿插,共同构成叙事。能够理解和生成这类数据对于构建更智能、更接近人类理解方式的多模态人工智能系统至关重要。
  • 现有模型的局限性:
    • 视觉词元限制: 当前许多多模态大语言模型(Multi-modal Large Language Models, LLMs)将图像编码成固定数量的视觉词元(visual tokens)输入到 LLM 中。由于计算和内存限制,LLM 的上下文窗口(context window)大小有限(例如,2048或4096个词元)。为了适应这些限制,通常使用 Perceiver Resamplers 将每张图像压缩成少量固定数量的视觉词元(例如32或64个)。
    • 图像细节丢失: 这种压缩导致的关键问题是图像细节的丢失,尤其是在需要细粒度观察(fine-grained observation)的任务中。
    • 多图像场景的挑战: 在涉及多张图像的场景中,如果每张图像都分配大量视觉词元(例如 SPHINX 中每张图像2890个),将迅速超出 LLM 的上下文窗口,使得处理多图像交织数据变得不切实际。
    • 上下文不敏感(context insensitivity)的重采样器: 现有的 Perceiver Resamplers 仅将图像特征作为输入,独立地将每张图像压缩为固定数量的词元,这使得它们无法根据 LLM 的中间上下文动态地提取所需信息,也无法适应后续的生成需求。

2.1.3. 这篇论文的切入点或创新思路是什么?

论文的创新思路在于提出了一种动态、细粒度、多尺度和多图像的特征提取机制,即多模态特征同步器(Multi-Modal Feature Synchronizer, MMFS),以解决传统固定视觉词元数量导致的细节丢失和多图像处理效率低下的问题。通过 MMFSLLM 和图像解码器可以在生成过程中按需直接访问先前上下文中的高分辨率图像特征,从而在保持计算效率的同时,显著提升对图像细节的理解和生成能力。

2.2. 核心贡献/主要发现

2.2.1. 论文最主要的贡献

  1. 提出了多模态特征同步器(MMFS): MMFS 模块旨在减少多模态 LLM 所需的视觉词元数量,通过利用 Deformable Sparse Attention 机制,能够根据多模态 LLM 的中间上下文特征,从多尺度特征图和多张图像中高效提取细粒度视觉细节。这解决了固定视觉词元数量导致的信息瓶颈问题。
  2. 提出了 MM-Interleaved 模型: 基于 MMFS,论文构建了一个用于交织图像-文本数据生成建模的端到端模型 MM-Interleaved。该模型仅使用少量视觉词元即可保留细粒度的图像信息,并且可以针对文本和图像生成进行端到端的优化。
  3. 实现了先进的性能和多功能性: MM-Interleaved 在无需使用任何内部数据(in-house data)的情况下,在各种多模态理解和生成基准测试中取得了最先进(state-of-the-art, SOTA)的结果。它能够生成准确的文本描述和视觉上一致的图像,适应复杂的指令和多模态条件。

2.2.2. 论文得出了哪些关键的结论或发现?

  • MMFS 显著提升了模型在有限视觉词元数量下的图像细节捕捉能力,甚至在使用32个视觉词元时,性能优于没有 MMFS 但使用256个视觉词元的模型。
  • MMFS 对于需要精确像素级对齐的任务(如分割到图像转换)至关重要,极大地提高了生成图像的空间一致性和语义保真度。
  • 模型在各种多模态基准测试(包括图像描述、视觉问答、指代表达理解、文本到图像生成、分割到图像转换和视觉故事讲述)上均表现出色,证明了其在理解和生成方面的通用能力。
  • MMFS 与传统的 Resampler 模块互补,共同提升了模型的性能。
  • 模型在计算效率方面表现良好,MMFS 仅带来少量额外的计算开销,但显著提升了性能。
  • 联合训练 Next-Text-Token Prediction (NTP) 损失和 Next-Image Prediction (NIP) 损失有助于实现模型在理解和生成任务上的互利共赢。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 MM-Interleaved 模型,我们需要了解以下几个核心概念:

  • 交织图像-文本数据(Interleaved Image-Text Data): 指的是图像和文本按序交替出现的数据格式,类似于新闻文章、博客、科学论文或漫画书等,其中图像不是孤立存在的,而是与周围的文本内容紧密相关,共同构成一个完整的故事或信息流。
  • 生成模型(Generative Models): 能够从训练数据中学习到数据分布,并生成新的、与训练数据类似的数据样本的模型。在本文中,生成模型需要能够生成文本和图像。
  • 大语言模型(Large Language Models, LLMs): 拥有大量参数的深度学习模型,通过在海量文本数据上进行预训练,学习到丰富的语言知识和模式,能够执行文本生成、问答、翻译等多种自然语言处理任务,例如 LLaMAVicuna 等。
  • 多模态大语言模型(Multi-modal LLMs): LLM 的扩展版本,除了处理文本,还能处理其他模态的数据,如图像、音频、视频等。它们的目标是实现对多模态信息的统一理解和生成。
  • 视觉词元(Visual Tokens): 为了将图像数据输入到 LLM 中,通常需要将图像转换为离散的、序列化的表示,这些表示就是视觉词元。它们类似于文本中的词元(word tokens),使 LLM 能够像处理文本一样处理视觉信息。
  • 重采样器(Perceiver Resampler): 一种常用的模块,用于将高维度的图像特征(或大量视觉词元)压缩成一个固定且数量较少的视觉词元集合。这有助于控制 LLM 的输入长度,从而降低计算和内存开销。
  • 扩散模型(Diffusion Models): 一类强大的生成模型,在图像生成领域取得了巨大成功,例如 Stable Diffusion。它们通过逐步对噪声进行去噪来生成高质量的图像。
  • 自回归生成(Auto-regressive Generation): 一种序列生成范式,模型在生成当前元素时,会以所有先前已生成的元素作为条件。在本文中,这意味着文本词元和图像是按顺序一个接一个生成的,每个生成步骤都依赖于之前的图像和文本上下文。
  • 注意力机制(Attention Mechanism): 深度学习中的一种技术,允许模型在处理序列数据时,动态地权衡输入序列中不同部分的相对重要性。
    • 自注意力(Self-Attention): 序列中每个元素对同一序列中所有其他元素进行加权,以捕获内部依赖关系。
    • 交叉注意力(Cross-Attention): 序列中每个元素对另一个序列中的所有元素进行加权,以捕获两个序列之间的关系。
    • Deformable Attention(可变形注意力): 传统的注意力机制通常对所有位置进行均匀或密集地关注,而 Deformable Attention 允许注意力机制学习去关注输入特征图上的一小部分关键采样点。这使得模型能够更高效地从高分辨率特征图中提取相关信息,因为它避免了对不相关区域进行计算,同时又能捕捉到细粒度的局部特征。本文的 MMFS 模块就是基于 Deformable Attention 实现的。

3.2. 前人工作

3.2.1. 配对图像-文本数据的建模(Modeling of Paired Image-Text Data

早期多模态研究主要集中在图像-文本对上。

  • 对比学习(Contrastive Learning): CLIP [71]、BLIP [48] 等模型通过图像-文本对比学习,使模型能够理解开放世界的语义。
  • 文本生成任务: 随后的工作如 LLaVA [54]、BLIP-2 [47] 将 LLM 与预训练的视觉编码器连接,用于图像描述(image captioning)和视觉问答(visual question answering)等任务。
  • 图像生成任务: DALL-E [73] 和 Stable Diffusion [74] 等模型则专注于基于文本提示生成图像(text-to-image generation)。

3.2.2. 交织图像-文本数据的建模(Modeling of Interleaved Image-Text Data

近期,对交织图像-文本数据的关注度增加。

  • 早期理解模型: Kosmos [33] 和 Flamingo [3] 等模型在非公开数据集上研究这类数据。随后,MMC4 [111] 等公开大规模数据集的发布推动了该领域的发展。
  • 仅限文本生成: [103, 105] 等模型专注于理解交织数据,但其生成能力仍限于文本。
  • 图像和文本生成:
    • 两阶段生成: [43, 84] 引入了两阶段生成过程,先生成文本,再生成图像。
    • 离散词元建模: CM3Leon [101] 使用 VQ-VAE [87] 将图像转换为离散词元,实现类似语言建模的自回归建模,但其图像理解能力较弱。
    • 端到端建模: DreamLLM [17] 尝试使用原始图像像素进行单阶段端到端建模。Emu2 [82]、SEED-LLaMA [25]、VL-GPT [110] 采用了额外的图像分词器-去分词器训练阶段。
  • 共同限制: 这些模型大多在 LLM 的输入端馈送图像信息,都受到固定视觉词元数量的限制,难以有效保留图像细节。

3.2.3. 将图像细节整合到LLM中(Integrating Image Details into LLMs

  • 重采样器使用: 大多数工作使用 Perceiver Resamplers [3, 47, 109] 通过交叉注意力(cross-attention)提取图像信息,将每张图像映射为固定数量的视觉词元。
    • Flamingo [3] 将 Resampler 部署在 LLM 的中间层,通过门控残差连接(gated residual connections)注入图像特征。
    • BLIP-2 [47] 和 Mini-GPT4 [109] 则在 LLM 底部插入 Resampler,将提取到的视觉词元插入到输入文本序列中。
  • 固定词元数量的挑战: 尽管这些方法表现良好,但由于视觉词元数量较少(如32或64个),图像细节仍可能被忽略。
  • 增加词元数量: 较新的工作 [6, 10, 54, 56] 尝试将每张图像的输入视觉词元增加到数百个。SPHINX [85] 甚至增加到2890个。这在一定程度上缓解了信息丢失,但显著增加了 LLM 的计算和内存需求,在多图像场景中尤为困难。

3.3. 技术演进

该领域的技术演进经历了从“配对图像-文本理解”到“交织图像-文本理解与生成”的转变。早期模型侧重于理解单张图像与文本的对应关系或单向生成。随着 LLM 的兴起,研究转向将 LLM 扩展到多模态,但如何在有限的 LLM 上下文窗口内高效且无损地处理多图像及其细粒度信息成为了核心挑战。本文的 MM-Interleaved 正是这一演进路径上的重要一步,通过引入 MMFS 模块,旨在克服现有模型在处理多图像细节时的瓶颈,实现更精细、更高效的交织多模态生成。

3.4. 差异化分析

MM-Interleaved 与先前工作的主要区别和创新点在于:

  • 动态细粒度特征访问: 现有方法主要依赖 Perceiver Resampler 将图像编码为固定数量的低分辨率视觉词元,这导致图像细节丢失,尤其是在多图像场景中。MM-Interleaved 引入了 MMFS 模块,允许 LLM 和图像解码器动态地、按需地直接访问先前上下文中的多尺度、高分辨率图像特征。这意味着模型不再受限于输入端固定数量的视觉词元,可以更灵活地在推理过程中提取所需的图像细节。

  • 解决了“重采样器上下文不敏感”问题: 传统的 Resampler 是上下文不敏感的,它独立压缩每张图像。MMFS 则能够根据 LLM 的中间层特征,有选择性地从原始图像中抽取信息,从而实现上下文敏感的特征提取

  • 端到端联合图像与文本生成: MM-Interleaved 是一个真正的端到端生成模型,能够自回归地生成图像和文本,并且同时对文本和图像生成进行优化。这与一些只能生成文本或采用两阶段生成的方法不同,实现了更统一和强大的多模态生成能力。

  • 高效处理多图像: MMFS 基于 Deformable Attention,可以高效地处理多张高分辨率图像的特征图,而不是简单地增加视觉词元数量,从而避免了 LLM 计算和内存需求的指数级增长。

    总而言之,MM-Interleaved 的核心创新在于提供了一种克服视觉词元瓶颈的机制,通过动态、细粒度地访问图像特征,显著提升了多模态 LLM 在交织图像-文本数据上的理解和生成能力,尤其是在复杂的多图像场景中。

4. 方法论

4.1. 方法原理

MM-Interleaved 的核心思想是构建一个端到端(end-to-end)的生成模型,以处理交织图像-文本数据,并能够同时生成图像和文本。其方法原理主要在于克服传统多模态 LLM 中固定数量视觉词元(visual tokens)无法有效捕捉图像细节的限制。为了实现这一目标,MM-Interleaved 引入了多模态特征同步器(Multi-Modal Feature Synchronizer, MMFS)。MMFS 允许 LLM 和图像解码器在生成过程中动态地、按需地直接访问先前上下文中的多尺度、高分辨率图像特征。这种机制避免了信息瓶颈,使得模型能够更精确地理解视觉细节并生成与上下文高度一致的图像和文本。整个模型通过联合优化文本生成损失和图像生成损失,实现端到端的训练。

4.2. 核心方法详解 (逐层深入)

4.2.1. 任务表述(Task Formulation

为了构建一个用于交织图像-文本数据的端到端生成模型,论文首先定义了一个交织图像-文本序列 X={x1,x2,x3,}X=\left\{x_{1}, x_{2}, x_{3}, \ldots\right\}。在这个序列中,每个元素 xnx_n 可以是一个文本词元(表示为 xnLx_n^L)或一张完整的图像(表示为 xnVx_n^V)。文本和图像按照它们在原始内容中出现的顺序排列。

在多模态 LLM 中,通常的做法是首先为每个文本词元和每张图像提取嵌入(embeddings),然后将它们馈送到 LLM 中。

  • 文本词元的嵌入表示为 enL=EL(xnL)e_n^L = \mathcal{E}_L(x_n^L),其中 EL\mathcal{E}_L 是标准的词嵌入(word embedding)模型。

  • 图像的嵌入表示为 enV=EV(xnV)e_n^V = \mathcal{E}_V(x_n^V),其中 EV\mathcal{E}_V 通常是一个图像编码器(如 ViTs),然后通过一个 Perceiver Resampler 将每张图像映射成固定数量的词元。

    生成建模的目标是最大化整个序列的对数似然(log-likelihood): logp(X)=nlogp(xne<n)=nILlogp(xnLe<n)+nIVlogp(xnVe<n) \log p(X)=\sum_{n} \log p\left(x_{n} \mid e_{<n}\right)=\sum_{n \in \mathcal{I}_{L}} \log p\left(x_{n}^{L} \mid e_{<n}\right)+\sum_{n \in \mathcal{I}_{V}} \log p\left(x_{n}^{V} \mid e_{<n}\right)

  • 其中,e<ne_{<n} 表示序列中所有在 xnx_n 之前的嵌入(即 {e1,e2,,en1}\{e_1, e_2, \ldots, e_{n-1}\}),作为生成 xnx_n 的条件。

  • IL\mathcal{I}_L 是文本词元的索引集合。

  • IV\mathcal{I}_V 是图像的索引集合。

  • 等式右侧将总对数似然分解为文本词元生成和图像生成两部分的对数似然之和。

文本生成与多模态条件(Text Generation with Multi-modal Condition

logp(xnLe<n)\log p\left(x_{n}^{L} \mid e_{<n}\right) 类似于传统的因果语言建模(causal language modeling),但其条件还包括了之前的图像信息。文本生成的损失函数定义为: LNTP(xnLe<n)=xˉnLlogsoftmax(WDLLM(e<n)) L_{\mathrm{NTP}}\left(x_{n}^{L} \mid e_{<n}\right)=-\bar{x}_{n}^{L} \cdot \log \operatorname{softmax}\left(W \cdot \mathcal{D}_{\mathrm{LLM}}\left(e_{<n}\right)\right)

  • WW 是一个线性分类权重。
  • DLLM\mathcal{D}_{\mathrm{LLM}} 代表 LLM 网络(例如 LLaMA),它输出基于 e<ne_{<n} 的上下文特征。
  • xˉnL\bar{x}_{n}^{L} 是表示真实(ground-truth)文本词元的独热(one-hot)向量。 这个损失函数旨在最大化给定先前多模态上下文时,生成正确文本词元的概率。

图像生成与多模态条件(Image Generation with Multi-modal Condition

最大化 logp(xnVe<n)\log p\left(x_{n}^{V} \mid e_{<n}\right) 与去噪扩散过程(denoising-diffusion process)相符,图像生成的损失函数定义为: LNIP(xnVe<n)=Eϵ,tϵDDM(xn,tV,t,DLLM(e<n))2 L_{\mathrm{NIP}}\left(x_{n}^{V} \mid e_{<n}\right)=\mathbb{E}_{\epsilon, t}\left\|\epsilon-\mathcal{D}_{\mathrm{DM}}\left(x_{n, t}^{V}, t, \mathcal{D}_{\mathrm{LLM}}\left(e_{<n}\right)\right)\right\|^{2}

  • DDM\mathcal{D}_{\mathrm{DM}} 是用于图像去噪的扩散模型。
  • xn,tVx_{n, t}^{V} 是在去噪步骤 tt 时原始图像的噪声版本。
  • ϵ\epsilon 是扩散模型预测的噪声。 这个损失函数旨在训练扩散模型 DDM\mathcal{D}_{\mathrm{DM}},使其能够基于先前多模态上下文 DLLM(e<n)\mathcal{D}_{\mathrm{LLM}}(e_{<n}) 准确预测并去除图像中的噪声,从而生成新的图像。

4.2.2. 架构(Architecture

MM-Interleaved 的架构集成了视觉基础模型(Visual Foundation Model, VFM)、大语言模型(Large Language Model, LLM)和扩散模型(Diffusion Model, DM),以实现对文本和图像的全面理解和生成。

下图(原文 Figure 4)展示了 MM-Interleaved 的架构:

img-3.jpeg 该图像是论文中MM-Interleaved模型结构示意图,展示了多尺度多图像特征同步模块(MMFS)如何在大型语言模型与图像解码器间交互,实现交叉图文生成。

图:MM-Interleaved 架构。红色线条表示多尺度图像特征的生成和利用方式。MM-Interleaved 结合图像编码器来提取高分辨率多尺度图像特征(红色线条),并将每张图像映射成固定数量的低分辨率视觉词元。这些视觉词元与文本词元一起馈送到多模态 LLM 中。LLM 随后使用论文提出的特征同步器(MMFS)来提取额外的高分辨率图像细节,并自回归地生成文本词元。之后,基于扩散的图像解码器根据 LLM 输出的先前上下文特征生成下一张图像,其中 MMFS 也被用于捕获准确的视觉条件。

该架构包含三个关键组件:

1. 基于VFM的图像分词器 EV\mathcal{E}_{V}VFM-based Image Tokenizer

  • 功能: 将每张输入图像 xVRH×W×3x^V \in \mathbb{R}^{H \times W \times 3}(例如 H=W=224H=W=224)转换为固定数量的视觉词元 eVRN×Ce^V \in \mathbb{R}^{N \times C}(默认为 N=32N=32),同时提取多尺度图像特征。
  • 组成:
    • 预训练视觉编码器(pre-trained vision encoder): 例如 CLIP-ViT [71],用于提取初始特征。
    • Perceiver Resampler: 用于将视觉编码器输出的大量特征(或词元)压缩为固定数量的视觉词元 NN(默认为32或64个),以作为 LLM 的输入。
    • ViT-Adapter [12]: 用于提取多尺度图像特征 FVR(i=1LHi×Wi)×CF^V \in \mathbb{R}^{(\sum_{i=1}^{L} H_i \times W_i) \times C}。这些特征在后续网络中用于细粒度特征融合。默认为 L=3L=3 个尺度,其中每个尺度的分辨率为 Hi=H2i+2,Wi=W2i+2H_i=\frac{H}{2^{i+2}}, W_i=\frac{W}{2^{i+2}}

2. 基于LLM的多模态模型 DLLM\mathcal{D}_{\mathrm{LLM}}LLM-based Multi-modal Model

  • 功能: 从交织图像-文本序列中提取上下文特征。
  • 组成:
    • 预训练LLM: 例如 Vicuna [107]。
    • 输入序列 ERK×CE \in \mathbb{R}^{K \times C} 由词嵌入 enLR1×Ce_n^L \in \mathbb{R}^{1 \times C} 和图像嵌入 enVRN×Ce_n^V \in \mathbb{R}^{N \times C} 按照原始序列顺序拼接而成。
    • 特殊词元: 引入 <BoI><BoI>Begin of Image)特殊词元来表示图像的开始,与 <s><s></s></s> 词元一起用于序列的起始和结束。
    • 多模态特征同步器(MMFS): 这是关键组件,插入在 LLM 的中间层中。它允许 LLM 的中间层根据需要,直接访问和提取来自先前上下文的多图像和多尺度特征图中的细节信息。

3. 基于DM的图像解码器 DDM\mathcal{D}_{\mathrm{DM}}DM-based Image Decoder

  • 功能: 根据先前的图像-文本序列生成图像。
  • 组成:
    • 预训练扩散模型: 例如 Stable Diffusion [74]。
    • 条件输入: LLM 的输出特征通过另一个 Resampler 映射成固定数量的条件词元(例如77个),以匹配预训练扩散模型的条件输入长度。
    • 多模态特征同步器(MMFS): 在图像解码器中也使用了 MMFS 模块,用于提供详细的视觉条件,这对于需要视觉对齐的任务(例如图像转换)非常有用。

多模态特征同步器(Multi-Modal Feature Synchronizer, MMFS

MMFS 是本文的核心创新,旨在解决解码器中间层中动态高效地提取图像细节的问题,以弥补由于输入视觉词元数量有限而造成的信息损失。它利用 Deformable Attention [112] 实现高效且稀疏的图像注意力。MMFS 可以应用于图像和文本解码,避免了多模态 LLMResampler 造成的信息瓶颈。它尤其适用于处理上下文中的多张高分辨率图像。

下图(原文 Figure 5)展示了 MMFS 模块的架构:

img-4.jpeg 该图像是论文中的示意图,展示了基于多尺度多图像特征同步器的注意力机制计算流程,包含查询特征fqf_q、线性变换、空间特征采样及加权求和等步骤。

图:MMFS 模块架构。查询特征经过线性投影并与图像索引嵌入相加。使用两个线性投影来预测每个图像的采样偏移量和非归一化注意力权重。采样偏移量与查询的参考点相加,形成相应的采样位置,这些位置在同一图像的所有特征图上共享。输出是采样空间特征的加权和。

给定一个需要细粒度图像特征的查询词元(query token),MMFS 模块仅关注参考图像上参考点周围的一小部分采样点。

  • fqRCf_q \in \mathbb{R}^C 表示查询词元的特征。

  • p^q[0,1]2\hat{p}_q \in [0,1]^2 表示其参考点的相对图像坐标。默认情况下,如果没有空间先验,p^q=(0.5,0.5)\hat{p}_q=(0.5,0.5),即图像中心。

  • {FmV}m=1M\{F_m^V\}_{m=1}^M 是由图像分词器提取的多图像、多尺度特征图,其中 MM 是参考图像的数量。

  • 输出特征 foRCf_o \in \mathbb{R}^C 的计算公式如下:

    q(m)=Wqfq+PosEmbed(m)pq(m)=Wpq(m)+p^q,Aq(m)=WAq(m)pq=Concat(pq(1),,pq(M))Aq=softmax(Concat(Aq(1),,Aq(M)))fo=DeformAttn({FV}m=1M,Aq,pq) \begin{aligned} q^{(m)} & =W_{q} \cdot f_{q}+\operatorname{PosEmbed}(m) \\ p_{q}^{(m)} & =W_{p} \cdot q^{(m)}+\hat{p}_{q}, \quad A_{q}^{(m)}=W_{A} \cdot q^{(m)} \\ p_{q} & =\operatorname{Concat}\left(p_{q}^{(1)}, \cdots, p_{q}^{(M)}\right) \\ A_{q} & =\operatorname{softmax}\left(\operatorname{Concat}\left(A_{q}^{(1)}, \cdots, A_{q}^{(M)}\right)\right) \\ f_{o} & =\operatorname{DeformAttn}\left(\left\{F^{V}\right\}_{m=1}^{M}, A_{q}, p_{q}\right) \end{aligned}

  • 符号解释:

    • fqf_q: 查询词元的特征(query token feature)。
    • PosEmbed(m)\operatorname{PosEmbed}(m): 可学习的位置嵌入(learnable positional embedding),用于区分不同的参考图像 mmmm 的索引来自 M~\tilde{M}(最大参考图像数量)。
    • Wq,Wp,WAW_q, W_p, W_A: 可学习的线性投影权重(learnable linear projection weights)。
    • q(m)q^{(m)}: 结合了查询特征和图像索引位置嵌入的中间表示。
    • p^q\hat{p}_q: 查询词元的参考点(reference point)的相对图像坐标,通常初始化为图像中心。
    • pq(m)p_q^{(m)}: 为每个图像 mm 预测的采样点坐标(sampling points coordinates)。
    • Aq(m)A_q^{(m)}: 为每个图像 mm 预测的非归一化注意力权重(unnormalized attention weights)。
    • Concat()\operatorname{Concat}(\cdot): 拼接操作。
    • pqp_q: 拼接了所有图像的采样点坐标。其维度为 RM~×L×K×2\mathbb{R}^{\tilde{M} \times L \times K \times 2},其中 LL 是多尺度特征层数,KK 是每个特征图的采样点数。
    • AqA_q: 拼接并经过 softmax 归一化后的所有图像的注意力权重。其维度为 RM~×L×K\mathbb{R}^{\tilde{M} \times L \times K}
    • softmax()\operatorname{softmax}(\cdot): 归一化函数,确保注意力权重在不同图像之间是归一化的。
    • DeformAttn()\operatorname{DeformAttn}(\cdot): Deformable Attention 操作符。它从对应的特征图 {FV}m=1M\{F^V\}_{m=1}^M 中提取在坐标 pqp_q 处的特征,并根据 AqA_q 进行加权求和,生成最终的输出特征 fof_o
    • fof_o: MMFS 模块的输出特征。

MMFS在多模态LLM中的应用(Multi-modal LLM with MMFS):

  • MMFS 模块被插入到 LLM 的自注意力层(self-attention layer)和前馈层(feedforward layer)之间,每隔固定数量的块(blocks)插入一次。
  • 查询词元 fqf_q 遍历 LLM 中的每个词元,但只能访问之前的图像。
  • 参考点 p^q\hat{p}_q 默认为 (0.5,0.5)(0.5,0.5)(图像中心)。
  • MMFS 的输出乘以 tanh(α)\tanh(\alpha) 后再加回到 fqf_q,其中 α\alpha 是一个零初始化的可学习标量。

MMFS在图像解码器中的应用(Image Decoder with MMFS):

  • MMFS 模块被插入到扩散模型 U-Net 的每个下采样块(downsampling block)之后。
  • 查询词元 fqf_q 遍历特征图中的每个像素。
  • 参考点 p^q\hat{p}_q 设置为查询像素的空间坐标。
  • MMFS 的输出经过一个零初始化的卷积(zero-initialized convolution)处理后,再加回到 fqf_q

训练目标和推理流程(Training Target and Inference Pipeline

  • 训练目标: 模型的训练目标是最大化对数似然,具体表现为最小化文本生成损失 LNTPL_{\mathrm{NTP}} 和图像生成损失 LNIPL_{\mathrm{NIP}} 的加权和: L=LNTP+λLNIP \mathcal{L}=\mathcal{L}_{N T P}+\lambda \mathcal{L}_{N I P}
    • λ\lambda 是一个超参数,用于平衡图像解码和文本解码分支的相对损失权重。
  • 推理流程: 在推理阶段,图像和文本以自回归(auto-regressive)方式生成。
    • 文本词元从多模态 LLM 预测的分布中采样。
    • 当生成的词元是 <BoI><BoI> 时,调用扩散模型来生成下一张图像。

5. 实验设置

5.1. 数据集

MM-Interleaved 模型在预训练和监督微调阶段使用了多种数据集,涵盖了图像-文本对和交织图像-文本序列。

5.1.1. 预训练数据集

  • MMC4 [111]: 一个大规模的开放网络级过滤数据集,包含交织的图像-文本文档。这是论文重点关注的数据类型。论文对 MMC4 数据集应用了额外的过滤规则,例如丢弃 CLIP 相似度分数低于0.24的图像,每个文档最多保留6张图像,并过滤掉不包含任何图像的文档以及部分只包含1张图像的文档。

  • LAION-2B [77]: LAION-5B 的英文子集,这是一个巨大的开放数据集,包含数十亿的图像-文本对。论文进一步基于美学分数(aesthetics scores)对它进行了过滤。

  • LAION-COCO [78]: LAION-2B 的一个子集,包含6亿对图像-文本,其中文本描述是由预训练的 BLIP [48] 模型生成的。文本提示长度短于10的被过滤掉。

  • CC-12M [8]: 一个包含1200万个图像-文本对的数据集。论文使用预训练的 BLIP-2 模型 [47] 对图像进行了重新描述,而不是使用原始标注。

  • Objects365 [79]: 一个大型的目标检测数据集,包含365个类别。与 CC-12M 类似,论文也使用预训练的 BLIP-2 模型 [47] 对其图像进行了描述。

    数据采样策略: MMC4 的采样概率是其他图像-文本对数据集的两倍。 数据拼接策略: 对于图像-文本对数据集,随机采样多个对并拼接成最大上下文长度(2048个词元)的序列。对于交织数据集,也对文档进行分割和拼接,以充分利用 LLM 的上下文窗口。 重要说明: 论文明确指出,**没有使用任何内部数据(in-house data)**进行预训练。

5.1.2. 监督微调数据集

  • 视觉问答(Visual Question Answering, VQA)和图像描述(Image Captioning):
    • LLaVAMix-665K [53]
    • COCO Caption [11]
    • VQAv2 [27]
    • ChartQA [61]
    • DocVQA [13]
    • EST-VQA [93]
    • InfoVQA [62]
    • STVQA [93]
    • TextCaps [80]
    • LLaVAR [104]
    • OCRVQA [63]
    • DVQA [41]
    • 这些数据集涵盖了通用 VQA、图表 QA、文档 QA、文字识别 QA 等多种任务。
  • 指代表达理解(Referring Expression Comprehension, REC):
    • RefCOCO [42]
    • RefCOCO+RefCOCO+ [59]
    • RefCOCOg [59]
    • 这些数据集用于训练模型理解文本描述并定位图像中的特定区域。
  • 分割到图像转换(Segmentation-to-Image Translation):
    • ADE20K [108]:一个大型的场景解析数据集,包含语义分割掩码。论文使用 BLIP [48] 生成文本描述,并根据 ControlNet [102] 的协议,从语义掩码生成图像。
  • 视觉故事讲述(Visual Storytelling):
    • VIST [34]:一个真实世界的视觉-语言数据集,包含图像序列和对应的文本描述,用于生成序列中的下一张图像。
    • PororoSV [51]
    • FlintstonesSV [28]:这两个是卡通故事讲述数据集,用于生成多张图像。

5.2. 评估指标

论文使用了多种评估指标来全面衡量 MM-Interleaved 在不同任务上的性能。以下是对每个指标的概念定义、数学公式和符号解释:

5.2.1. 图像描述任务(Image Captioning

  • CIDEr (Consensus-based Image Description Evaluation) [88]
    • 概念定义: CIDEr 是一种用于评估图像描述质量的指标,通过计算模型生成的描述与一组人类参考描述之间的 n-gram 重叠程度来衡量。它采用 TF-IDFTerm Frequency-Inverse Document Frequency)权重,赋予那些在参考描述中常见但在整个语料库中不常见的词更高的权重,从而惩罚过于通用或不相关的描述。
    • 数学公式: CIDEr 的精确计算涉及到 n-gramTF-IDF 向量之间的余弦相似度。对于一个候选描述 cjc_j 和一组参考描述 Sj={sj1,,sjM}S_j = \{s_{j1}, \ldots, s_{jM}\}CIDEr(cj,Sj)=10Sji=1Sjn=14gn(cj)gn(sji)gn(cj)gn(sji) \text{CIDEr}(c_j, S_j) = \frac{10}{\left|S_j\right|} \sum_{i=1}^{\left|S_j\right|} \sum_{n=1}^4 \frac{\mathbf{g}_n(c_j) \cdot \mathbf{g}_n(s_{ji})}{\left\|\mathbf{g}_n(c_j)\right\| \cdot \left\|\mathbf{g}_n(s_{ji})\right\|}
    • 符号解释:
      • cjc_j: 模型生成的第 jj 个候选图像描述。
      • SjS_j: 第 jj 个图像对应的一组人类参考描述。
      • Sj\left|S_j\right|: 图像 jj 的参考描述数量。
      • nn: n-gram 的长度(通常从1到4)。
      • gn()\mathbf{g}_n(\cdot): 将描述转换为 n-gramTF-IDF 向量的函数。这个向量的每个维度对应一个特定的 n-gram,其值是该 n-gram 在描述中的 TF-IDF 分数。
      • \cdot: 向量点积。
      • \|\cdot\|: 向量的欧几里得范数(Euclidean norm)。

5.2.2. 视觉问答任务(Visual Question Answering, VQA

  • VQA Acc (VQA Accuracy) [4]
    • 概念定义: VQA Accuracy 衡量模型对视觉问答任务的回答正确率。由于人类对同一个图像和问题可能有多个合理但不同的答案,VQA 任务通常采用一种软准确率(soft accuracy)计算方式,即如果模型的答案与至少3位人类标注者的答案匹配,则认为答案完全正确;如果与1-2位人类标注者匹配,则给予部分分数。
    • 数学公式: 对于一个给定的图像-问题对,模型的预测答案 apreda_{pred} 的准确率计算为: Accuracy(apred,Ahuman)=min(1,count(apred,Ahuman)3) \text{Accuracy}(a_{pred}, A_{human}) = \min\left(1, \frac{\text{count}(a_{pred}, A_{human})}{3}\right)
    • 符号解释:
      • apreda_{pred}: 模型预测的答案。
      • AhumanA_{human}: 一组人类标注者给出的答案(通常有10个)。
      • count(apred,Ahuman)\text{count}(a_{pred}, A_{human}): 在 AhumanA_{human} 中,与 apreda_{pred} 精确匹配的答案数量。
      • min(1,)\min(1, \cdot): 确保准确率最高为1。
      • 注意:虽然 VQA v2 原始论文 [27] 提及的是 min(1, count(a)/10),但 VQA 评估工具通常使用的计算方式是 min(1, (matched_human_answers_count) / 3)。这里遵循了论文中引用 [4] 的精神,并解释了 VQA 社区的常用实践。

5.2.3. 视觉对话任务(Visual Dialog

  • NDCG (Normalized Discounted Cumulative Gain)
    • 概念定义: NDCG 是一种衡量排名列表质量的指标。在视觉对话中,模型需要根据对话历史和图像,从多个候选答案中选出最相关的一个。NDCG 考虑了答案的相关性以及它们在排名列表中的位置,给予排名靠前的相关答案更高的分数。
    • 数学公式: NDCGp=DCGpIDCGp \text{NDCG}_p = \frac{\text{DCG}_p}{\text{IDCG}_p} 其中,DCGDiscounted Cumulative Gain)计算如下: DCGp=i=1p2reli1log2(i+1) \text{DCG}_p = \sum_{i=1}^p \frac{2^{\text{rel}_i}-1}{\log_2(i+1)} IDCGIdeal Discounted Cumulative Gain)是根据完美排序列表计算出的最大可能 DCG 值。
    • 符号解释:
      • pp: 排名列表中的位置(即考虑前 pp 个项目)。
      • reli\text{rel}_i: 位于位置 ii 的项目的相关性得分。在 VisDial 中,这通常是模型预测的答案与 ground truth 答案的匹配程度。
      • DCGp\text{DCG}_p: 折扣累积增益,相关性较高的项目如果排在前面,贡献更大。
      • IDCGp\text{IDCG}_p: 理想折扣累积增益,表示在完美排序下的最大 DCG 值,用于对 DCG 进行归一化,使其值介于0和1之间。

5.2.4. 指代表达理解任务(Referring Expression Comprehension, REC

  • IoU Acc (Intersection over Union Accuracy)
    • 概念定义: IoU Accuracy 衡量模型定位图像中目标区域的准确性。它通过计算预测边界框(bounding box)与真实(ground truth)边界框之间的 IoU 值来评估。如果 IoU 值超过某个预设阈值(例如0.5),则认为定位正确。
    • 数学公式(IoU): IoU(Bp,Bgt)=Area(BpBgt)Area(BpBgt) \text{IoU}(B_p, B_{gt}) = \frac{\text{Area}(B_p \cap B_{gt})}{\text{Area}(B_p \cup B_{gt})}
    • 符号解释:
      • BpB_p: 模型预测的边界框。
      • BgtB_{gt}: 真实(ground truth)边界框。
      • Area()\text{Area}(\cdot): 计算区域面积的函数。
      • BpBgtB_p \cap B_{gt}: 预测边界框与真实边界框的交集区域。
      • BpBgtB_p \cup B_{gt}: 预测边界框与真实边界框的并集区域。
      • IoU AccuracyIoU 值大于0.5的预测所占的百分比。

5.2.5. 文本到图像生成任务(Text-to-Image Generation

  • FID (Frechet Inception Distance) [31]
    • 概念定义: FID 是一种广泛用于评估生成图像质量和多样性的指标。它通过计算模型生成的图像分布与真实图像分布之间的 Frechet distance 来衡量。这两个分布通常由预训练的 InceptionV3 网络提取的特征表示。较低的 FID 分数表示生成的图像更真实、多样性更高。
    • 数学公式: FID(X,G)=μXμG2+Tr(ΣX+ΣG2(ΣXΣG)1/2) \text{FID}(X, G) = \left\| \mu_X - \mu_G \right\|^2 + \text{Tr}\left( \Sigma_X + \Sigma_G - 2(\Sigma_X \Sigma_G)^{1/2} \right)
    • 符号解释:
      • XX: 真实图像(real images)的特征集合。
      • GG: 生成图像(generated images)的特征集合。
      • μX\mu_X: 真实图像在 InceptionV3 特征空间中的平均特征向量。
      • μG\mu_G: 生成图像在 InceptionV3 特征空间中的平均特征向量。
      • ΣX\Sigma_X: 真实图像特征的协方差矩阵(covariance matrix)。
      • ΣG\Sigma_G: 生成图像特征的协方差矩阵。
      • 2\|\cdot\|^2: 向量的欧几里得范数平方。
      • Tr()\text{Tr}(\cdot): 矩阵的迹(trace)。
      • (ΣXΣG)1/2(\Sigma_X \Sigma_G)^{1/2}: 矩阵乘积的平方根,这需要计算矩阵的奇异值分解(singular value decomposition)。

5.2.6. 分割到图像生成任务(Segmentation-to-Image Generation

  • mIoU (Mean Intersection over Union)
    • 概念定义: mIoU 是语义分割任务中的标准评估指标,它计算所有类别(包括背景)的 IoU 值的平均。对于每个类别,IoU 是正确分类为该类别的像素数(交集)与真实和预测掩码中该类别像素总数(并集)的比值。
    • 数学公式: mIoU=1Ncli=1NclTPiTPi+FPi+FNi \text{mIoU} = \frac{1}{N_{cl}} \sum_{i=1}^{N_{cl}} \frac{\text{TP}_i}{\text{TP}_i + \text{FP}_i + \text{FN}_i}
    • 符号解释:
      • NclN_{cl}: 类别总数(包括背景)。
      • TPi\text{TP}_i: 类别 ii 的真阳性(True Positives),即正确预测为类别 ii 的像素数。
      • FPi\text{FP}_i: 类别 ii 的假阳性(False Positives),即错误预测为类别 ii 的像素数。
      • FNi\text{FN}_i: 类别 ii 的假阴性(False Negatives),即真实属于类别 ii 但被错误预测为其他类别的像素数。

5.2.7. 交织上下文图像生成(Interleaved-context Image Generation

  • CLIP-Sim (CLIP Similarity) [71]
    • 概念定义: CLIP Similarity 衡量两个模态(通常是图像和文本,或两张图像)在 CLIP 模型(Contrastive Language-Image Pre-training)的联合嵌入空间中的语义相似度。在图像生成中,它通常用于评估生成的图像与 ground truth 图像或给定文本提示的视觉/语义一致性。更高的 CLIP-Sim 分数表示更好的对齐和一致性。
    • 数学公式: CLIP-Sim(E1,E2)=E1E2E1E2 \text{CLIP-Sim}(E_1, E_2) = \frac{E_1 \cdot E_2}{\|E_1\| \cdot \|E_2\|}
    • 符号解释:
      • E1E_1: 第一个输入(例如,生成的图像)在 CLIP 嵌入空间中的特征向量。
      • E2E_2: 第二个输入(例如,ground truth 图像或文本)在 CLIP 嵌入空间中的特征向量。
      • \cdot: 向量点积。
      • \|\cdot\|: 向量的欧几里得范数。
      • 该公式计算的是两个 CLIP 嵌入向量之间的余弦相似度。

5.3. 对比基线

论文将 MM-Interleaved 与多个在不同任务上具有代表性的基线模型进行了比较:

5.3.1. 仅文本生成模型(Models for Text-Generation Only

这些模型通常专注于从图像中理解信息并生成文本描述或回答问题。

  • MetaLM [30]
  • OF-9B [5]
  • IDEFICS-80B [36]
  • KOSMOS9-1 [33] / KOSMOS9-2 [68]
  • Flamingo-9B [3] / Flamingo-80B [5]
  • IDEFICS-80B-I [36]
  • mPLUG-DocOwl [97]
  • BLIP-2 [27]
  • InstructBLIP [14]
  • Shikra [28]
  • LLaVA-1.5 [53]
  • Qwen-VL [6] / Qwen-VL-Chat [6] 这些模型代表了图像到文本(image-to-text)领域的最先进技术,特别是多模态 LLM 的发展。

5.3.2. 图像和文本生成模型(Models for both Image and Text Generation

这些模型旨在同时处理和生成图像与文本。

  • CM3Leon [101]
  • Esau [84] / Esau-I [84]
  • Esau2 [81]
  • DreamLLM [17]
  • VL-GPT [110] / VL-GPT-I [110]
  • SEED-LLaMA [25] / SEED-LLaMA-I [25] 这些模型代表了交织多模态生成领域的最新进展,MM-Interleaved 主要与它们进行直接比较。

5.3.3. 文本到图像专家模型(Text-to-Image Specialists

这些模型专注于从文本描述生成高质量图像。

  • Retrieval Result (基准,通常是检索到的图像的FID分数)
  • DALL-E [73]
  • CogView2 [16]
  • Stable Diffusion [74]
  • GLIDE [64]
  • Make-A-Scene [24]
  • DALL-E 2 [72]
  • Muse-3B [96]
  • Imagen-3.4B [76]
  • Parti-20B [100] 这些模型在文本到图像生成方面树立了很高的标准,MM-Interleaved 在此任务上与它们进行比较以展示其图像生成能力。

选择这些基线模型的原因是它们涵盖了多模态 LLM 的主要发展方向:仅文本生成、联合文本图像生成以及专门的图像生成。这使得 MM-Interleaved 的性能可以在不同能力维度上得到全面评估。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 预训练后的零样本(Zero-shot)结果

  • 多模态理解(Multi-modal Comprehension):

    • 下表(原文 Table 1)展示了在多模态理解任务上的评估结果。

      Model LLM H I A COCO Flickr NoCaps I2Para. VQAv2 OKVQA GQA VizWiz TextVQA VisDial
      Models for Text-Generation Only
      MetaLM [30] MetaLM - - - 82.2 43.3 58.7 - 41.1 11.4 - 41.1 11.4 -
      OF-9B [5] MPT-TB - - - 79.5 59.5 - - 52.7 37.8 - 27.5 24.2 -
      IDEFICS-80B [36] LLaMA-65B - - - 91.8 53.7 65.0 - 60.0 - 45.2 36.0 30.9 -
      KOSMO9-1 [33] MetaLM H - - - 65.2 - - 46.7 - - - - -
      KOSMO9-2 [68] KOSMO9-1 H - - - 66.7 - - 45.6 - - - - -
      Flamingo-9B [3] Chinchilla-TB H - - 79.4 61.5 - - 51.8 44.7 - 28.8 31.8 48.0
      Flamingo-80B [5] Chinchilla-70B H - - 84.3 67.2 - - 56.3 50.6 - 31.6 35.0 52.0
      IDEFICS-80B-I [36] LLaMA-65B - I - 117.2 65.3 104.5 - 37.4 - - 26.0 - -
      mPLUG-DocOwl [97] LLaMA-TB - I A 52.6 62.2 57.4 - - - - - - -
      BLIP-2 [27] Vicuna-TB - I A - 74.9 107.5 - - - - 38.6 25.3 40.1
      BLIP-2 [27] Vicuna-13B - I A - 71.6 103.9 - 41.0 - 41.0 19.6 42.5 -
      InstructBLIP [14] Vicuna-TB - I A - 82.4 123.1 - - - - 49.2 34.5 50.1
      InstructBLIP [14] Vicuna-13B - I A - 82.8 121.9 - - - - 49.5 33.4 50.7
      Shikra [28] Vicuna-13B - I A 117.5 73.9 - - 77.4 - - - - -
      LLaVA-1.5 [53] Vicuna-TB - I A - - - - 78.5 - 62.0 50.0 58.2 -
      LLaVA-1.5 [53] Vicuna-13B - I A - - - - 80.0 - 63.3 53.6 61.3 -
      Qwen-VL [6] Qwen-TB H I A - 85.8 121.4 - 78.8 - 59.3 35.2 63.8 -
      Qwen-VL-Chat [6] Qwen-TB H I A - 81.0 120.2 - 78.2 - 57.5 38.9 61.5 -
      Models for both Image and Text Generation
      CM3Leon [101] - H - - 61.6 - - 10.5 47.6 23.8 - 37.6 - 22.6
      Esau [84] Vicuna-13B H - - 112.4 - - - 52.0 38.2 - 34.2 - 47.4
      Esau-I [84] Vicuna-13B H - - 117.7 - - - 40.0 34.7 - 35.4 - 48.0
      Esau2 [81] LLaMA-33B H - - - - - - 33.3 26.7 - 40.4 26.2 -
      DreamLLM [17] Vicuna-TB - I - 115.4 - - 17.4 56.6 44.3 - 38.1 34.9 -
      VL-GPT [110] LLaMA-TB - - - 116.4 - - - 51.7 35.8 34.6 34.7 - 49.9
      VL-GPT-I [110] LLaMA-TB - I A 133.7 - - - 67.2 50.3 51.5 38.9 - 51.8
      SEED-LLaMA [25] LLaMA2-Chat-13B - I A 135.0 - - - 48.1 27.1 - 23.3 - -
      SEED-LLaMA-I [25] LLaMA2-Chat-13B - I A 126.0 - - - 63.4 43.2 - 49.4 - -
      MM-Interleaved Vicuna-13B - - - 129.0 85.8 106.4 23.5 57.0 40.0 46.7 40.8 37.2 48.7
      MM-Interleaved-SFT Vicuna-13B - I A 140.5 93.0 123.2 30.3 80.2 51.7 60.5 54.9 61.0 53.7

    表:多模态理解评估。H 表示使用内部数据,I 表示训练图像包含在某些基准测试的训练中,A 表示训练标注在训练中可见。基准测试包括 COCO [11];Flickr:Flickr30k [69];NoCaps [2];I2Para.:Image2Paragraph [44];VQAv2:VQAv2 [27];OKVQA [60];GQA [35];VizWiz [29];TextVQA [81];VisDial [15]。下划线和粗体分别表示在不使用“HIA”数据和不使用“H”数据时的最佳性能。每个基准测试的评估指标列在附录中。

    * **分析:** 在预训练后(未进行监督微调),`MM-Interleaved` 在所有评估任务上均显著优于其他零样本(`zero-shot`)方法(标有下划线的数据),尤其是在完全去污染(`fully decontaminated`)设置下(即下游任务的图像和文本在预训练期间未见过)。这证明了 `MM-Interleaved` 方法的有效性,以及其处理图像-文本交织数据的强大能力。即使与使用大量内部数据(`in-house data`)的模型(如 `Flamingo-9B` 和 `Emu`)相比,`MM-Interleaved` 也能取得超越或匹敌的性能,表明其架构在图像-文本交互方面的优越性。
  • 文本到图像生成(Text-to-Image Generation):

    • 下表(原文 Table 3)展示了文本到图像生成任务的结果。

      Model MS-COCO LN-COCO
      Text-to-Image Specialists
      Retrieval Result 17.97
      DALL-E [73] ~28
      CogView2 [16] 24.00
      Stable Diffusion [74] 12.43
      GLIDE [64] 12.24
      Make-A-Scene [24] 11.84
      DALL-E 2 [72] 10.39
      Muse-3B [96] 7.88
      Imagen-3.4B [76] 7.27
      Parti-20B [100] 7.23
      Models for both Image and Text Generation
      CM3-13B [1] 29.56 -
      VL-GPT [110] 12.25 -
      GILL [43] 12.20 -
      Emu-13B [84] 11.66 -
      Next-GPT [95] 11.28 -
      CM3Leon-7B [101] 10.82 -
      DreamLLM-7B-Stage1 [17] 8.76 22.42
      DreamLLM-7B [17] 8.46 20.53
      MM-Interleaved 7.90 23.88

    表:零样本文本到图像生成结果。报告 FID [31]。

    * **分析:** `MM-Interleaved` 在 `MS-COCO` 和 `LN-COCO` 上的文本到图像生成任务中取得了具有竞争力的性能,特别是与也支持图像和文本生成的模型相比。值得注意的是,`MM-Interleaved` 未使用内部数据,而某些高性能基线(如 `Emu`、`Muse`、`Imagen` 和 `Parti`)则使用了。这凸显了 `MM-Interleaved` 在数据效率方面的优势。
  • 交织图像-文本理解与生成(Interleaved Image-Text Comprehension and Generation):

    • 下表(原文 Table 2)展示了在 SEED-Bench-2 [46] 上的零样本性能。

      Model LLM L1 (Part-1) Part-2 L2 Part-3 L3
      Emu [84] LLaMA-13B 42.5 41.1 42.4 41.4 42.3
      Next-GPT [95] Vicuna-7B 30.7 35.6 31.1 33.9 31.4
      SEED-LLaMA [25] LLaMA2-Chat-13B 43.9 43.4 43.8 52.3 44.8
      MM-Interleaved Vicuna-13B 43.9 46.1 44.1 52.1 45.0

    表:SEED-Bench-2 [46] 上交织图像-文本理解和生成的零样本结果。报告了相应评估维度上的平均任务准确率。L1 (part-1) 评估图像和文本理解,L2 (part-1&2) 评估交织图像-文本理解,L3 (part-1&2&3) 评估图像和文本生成。

    * **分析:** `MM-Interleaved` 在 `SEED-Bench-2` 上,无论是理解任务(L1, L2)还是生成任务(L3),都取得了最先进的(`SOTA`)结果。这表明其在处理更复杂的交织多模态数据方面具有强大的零样本能力。

6.1.2. 监督微调(Supervised Fine-tuning)结果

  • 多模态理解(Multi-modal Comprehension):

    • 再次查看表1中的 MM-Interleaved-SFT 行。
    • 分析: 经过监督微调后,MM-Interleaved-SFT 在所有多模态理解基准测试中均取得了 SOTA 性能,且同样未利用任何内部数据。在视觉问答任务上,它与先前表现最佳的 LLaVA-1.5 模型持平。与 LLaVA-1.5 相比,MM-Interleaved 拥有两大优势:1) 能够同时生成图像和文本,而 LLaVA-1.5 仅能生成文本;2) LLaVA-1.5 使用576个视觉词元作为 LLM 输入,而 MM-Interleaved 仅需64个词元。这表明 MM-Interleaved 在更少的视觉词元下实现了具有竞争力的图像理解能力,使其更适合多图像场景。
  • 指代表达理解(Referring Expression Comprehension, REC):

    • 下表(原文 Table 4)展示了在指代表达理解任务上的结果。

      Model RefCOCO [42] RefCOCO+ [59] RefCOCOg [59]
      Val Test-A Test-B Val Test-A Test-B Val Test
      OFA-L [89] 79.96 83.67 76.39 68.29 76.00 61.75 67.57 67.50
      VisionLLM-H [92] - 86.70 - - - - - -
      Shikra [10] 87.01 90.61 80.24 81.60 87.36 72.12 82.27 82.19
      MiniGPT-V2 [9] 88.69 91.65 85.33 79.97 85.12 74.45 84.44 84.66
      Forest [98] 89.48 92.41 84.36 82.81 88.14 75.17 85.83 86.34
      * Qwen-VL [6] 89.36 92.26 85.34 83.12 88.25 77.21 85.58 85.48
      MM-Interleaved 89.92 92.59 86.54 82.99 88.57 77.07 85.21 84.92

    表:指代表达理解任务的监督微调结果。* 表示使用额外的自建接地(`grounding`)数据集,并使用大于224的图像分辨率进行训练。

    * **分析:** `MM-Interleaved` 在 `REC` 基准测试中超越了其他方法。尽管仅使用公开 `REC` 数据进行微调,但其性能与 `Qwen-VL` [6] 持平,后者使用了额外的22M内部接地数据集并以更高分辨率(448 vs. 224像素)进行训练。这表明 `MMFS` 通过细粒度的图像特征增强了 `REC` 能力。
  • 分割到图像转换(Segmentation-to-Image Translation)和视觉故事讲述(Visual Storytelling):

    • 下表(原文 Table 5)展示了分割到图像生成和视觉故事讲述的结果。

      Groundtruth VQGAN [19] LDM [75]
      0.58 0.21 0.31
      PIPT [90] ControlNet [102] Ours
      0.26 0.35 0.44

    表 (a): ADE20K [108] 上的分割到图像生成。报告 mIoU。

    Model CLIP Sim.↑ FID↓
    GILL [43] 0.64 -
    MiniGPT-5 [106] 0.70 59.5
    MM-Interleaved 0.70 39.7

    表 (b): VIST [34] 数据集上用于视觉故事讲述的交织上下文的最后一张图像生成。

    Model Pororo Flintstones
    StoryDALL-E [58] 25.9 26.5
    AR-LDM [67] 17.4 19.3
    ACM-VSG [23] 15.4 18.4
    MM-Interleaved 14.7 18.7

    表 (c): 用于视觉故事讲述的交织上下文的多图像生成。报告 FID。

    * **分析:** * 分割到图像转换 (表5a): `MM-Interleaved` 显著优于包括 `ControlNet` 在内的其他基线,这在其他多模态 `LLM` 中通常不具备。这表明 `MM-Interleaved` 能够利用其从大规模预训练数据中学习到的更好表示,并借助 `MMFS` 实现像素级别的精确对齐,从而在语义标签图的条件下生成逼真图像。 * 视觉故事讲述 (表5b, 5c): `MM-Interleaved` 在 `VIST` 数据集上的最后一帧图像生成以及 `Pororo` 和 `Flintstones` 数据集上的多图像生成中均取得了 `SOTA` 性能,即使与专业模型相比。这证明了模型在生成具有上下文连贯性的新图像方面的卓越能力。

6.1.3. 消融实验与参数分析

  • 词元效率(Token Efficiency):

    • 下表(原文 Table 6)展示了使用 MMFS 的消融实验结果。

      img-5.jpeg 该图像是论文MM-Interleaved中的表格截图,展示了不同配置下模型在Caption、Generation、OK-VQA和TextVQA等任务上的性能指标对比,重点比较了是否使用MMFS和不同token数量对结果的影响。

    表:MMFS 使用情况的消融实验。“Generation”是文本到图像生成任务。“ADE20k”是分割到图像转换任务。其他是文本生成任务。“# Token”表示 LLM 的输入视觉词元数量(默认为32)。

    * **分析:** * **表6a:** 装备 `MMFS` 后,仅使用32个视觉词元(`visual tokens`)就能超越不使用 `MMFS` 但使用256个视觉词元的模型。这强调了 `MMFS` 在上下文长度有限情况下的有效性。 * **表6b:** 当输入图像分辨率从224增加到448时,`MMFS` 带来的性能提升更大。这表明 `MMFS` 即使只使用32个视觉词元,也能更好地利用高分辨率带来的额外信息。
  • MMFS对图像生成的影响(MMFS for Image Generation):

    • 表6c: 展示了 MMFS 对于分割到图像转换任务的重要性。该任务需要精确的像素级信息对齐分割条件和图像输出。如果没有 MMFS,任务失败,mIoU 结果极低,表明生成的图像无法保留所有空间信息,空间对齐效果差。
  • 不同交叉注意力机制的比较(Comparison between Different Cross Attention Mechanisms):

    • 下表(原文 Table 7)展示了 MMFS 设计选择的消融实验。

      Cross-Attn Transition Attn Input COCO Cap.% COCO Gen.↓ OK-VQA↑ TextVQA↑
      Deformable None 16 × 16 110.6 30.0 29.8 27.7
      Dense None 16 × 16 108.5 30.6 28.4 23.6
      Dense Resampler 32 tokens 107.2 30.7 28.9 24.0

    表:MMFS 设计选择的消融实验。可以在 MMFS 中使用不同的注意力模块。论文还消融了在将图像特征馈送到 MMFS 之前是否添加额外的转换层。带有 Resampler 转换的单尺度单图像密集交叉注意力类似于 Flamingo [3] 中使用的交叉注意力。

    * **分析:** 当直接用普通密集交叉注意力(`dense cross-attention`)替代 `MMFS` 时,整体性能下降,这可能归因于其较慢的收敛速度。使用 `Deformable attention` 的模型在 `TextVQA` 上表现显著更好,表明 `Deformable attention` 能够有效且高效地捕获任务所需的细粒度文本信息(如视觉问答)。
  • MMFS与多图像和多尺度(MMFS with Multi-Image and Multi-Scale):

    • 下表(原文 Table 8)展示了 MMFS 多尺度和多图像使用的消融实验。

      multi-scale multi-image Caption↑ Generation↓ OK-VQA↑ TextVQA↑
      110.6 30.0 29.8 27.7
      111.2 29.5 29.5 30.3
      111.2 29.9 29.9 31.1

    表:MMFS 多尺度和多图像使用的消融实验。

    * **分析:** 增加 `MMFS` 的多图像和多尺度能力能够提升性能。 * 下图(原文 Figure 6 (left))进一步展示了在 `few-shot` 场景下,`MMFS` 的优势。
    ![img-6.jpeg](/files/papers/68fc380d87f1fc625660e541/images/7.jpeg)
    *该图像是图表,展示了不同模型配置下的准确率和计算复杂度对比。左图显示在OKVQA和TextVQA数据集上的准确率变化,右图展示不同分辨率及注意力机制下的GFLOPs趋势。*
    

    图:左图:OKVQA 和 TextVQA 上的少样本结果。右图:使用不同数量的图像和文本输入时,在仅使用 32 个视觉词元基础上的额外 GFLOPs。Nv 和 k 分别表示每张图像的视觉词元数量和少样本示例的数量。Ni 和 Nt 分别表示序列中每张图像的图像数量和后续文本词元数量。请注意,由于 LLM 上下文长度为 2048,Nv=256 不支持 Ni ≥ 8 张图像。

    * **分析:** 当上下文图像数量增加时(如在 `few-shot` 提示中),`MMFS` 持续优于仅使用32个视觉词元的基线,并且从进一步关注多张图像的多尺度特征图中受益。
  • 计算效率(Computational Efficiency):

    • 分析: 与仅使用32个视觉词元相比,将 MMFS 集成到 LLM 中仅增加了约2%的 FLOPs、2%的参数、6%的运行时(runtime)和3%的内存消耗。与不使用 MMFS 但使用更多视觉词元(256个)的情况相比,MMFS 在32个视觉词元下实现了更好的性能,同时效率更高,FLOPs 减少了2.8倍,运行时减少了1.3倍。上图(原文 Figure 6 (right))显示,MM-Interleaved 在合成的交织图像-文本输入下,其额外 FLOPs 始终低于或与使用256个视觉词元或密集交叉注意力(dense cross-attention)的情况相似。这表明 MMFS 提供了一种高效的解决方案。
  • 不同损失项的预训练(Pre-training with Different Loss Terms):

    • 下表(原文 Table 16)展示了不同损失项预训练的结果。

      Loss Term Caption↑ Generation↓ OK-VQA↑ TextVQA↑
      LNTP+100LNIP\mathcal{L}_{N T P}+100 \mathcal{L}_{N I P} 106.2 31.1 29.8 24.5
      LNTP+10LNIP\mathcal{L}_{N T P}+10 \mathcal{L}_{N I P} 110.6 30.0 29.8 27.7
      LNTP+LNIP\mathcal{L}_{N T P}+\mathcal{L}_{N I P} 110.0 31.4 29.3 26.0
      LNTP\mathcal{L}_{N T P} only 105.7 - 29.9 27.6
      LNIP\mathcal{L}_{N I P} only - 34.2 - -

    表:不同损失项的预训练。

    * **分析:** `MM-Interleaved` 在同时使用 LNTPL_{NTP}(文本生成损失)和 LNIPL_{NIP}(图像生成损失)进行联合训练时,在理解和生成任务上均取得了更好的性能,这表明两个损失项之间存在互利关系。经验上,将 λ\lambda 设置为10(即 LNTP+10LNIPL_{NTP} + 10 L_{NIP})可以实现图像和文本解码分支之间的最佳平衡。
  • MMFS与Resampler的关系(The Relationship between MMFS and Resampler):

    • 下表(原文 Table 17)验证了 MMFS 模块与图像分词器中使用的 Resampler 之间的互补性。

      w/ Resampler w/ MMFS Caption↑ Generation↓ OK-VQA↑ TextVQA↑
      110.6 30.0 29.8 27.7
      107.0 32.2 28.7 22.5
      102.7 32.0 27.3 22.0

    表:MMFS 和 Resampler 之间的互补关系。当不使用 Resampler 时,直接将 32 个随机初始化的可学习嵌入作为输入视觉词元馈送到 LLM 中。

    * **分析:** 移除 `MMFS` 或 `Resampler` 中的任何一个都会导致整体性能下降,这证实了两者之间的互补关系和各自的重要性。`Resampler` 负责将图像压缩成少量词元以适应 `LLM` 上下文,而 `MMFS` 则负责在必要时从原始高分辨率特征中动态提取细节。

6.2. 数据呈现 (图像示例)

本节展示了论文中提供的定性结果,以直观说明 MM-Interleaved 的性能。

6.2.1. 零样本结果

  • 多模态少样本上下文学习(Multi-modal Few-shot In-context Learning): 下图(原文 Figure 7)展示了 MM-Interleaved 在零样本文本生成任务中,如何利用交织的图像和文本作为多模态少样本(few-shot)上下文进行学习。

    img-7.jpeg 该图像是一个示意图,展示了图文混合数据中的多模态文本理解与识别示例。左侧为水果图形加法题,中央为公司标志及其描述,右侧为带有红色圆圈的图像文字识别示例,体现了模型对视觉细节和文本的联动理解能力。

    图:零样本文本生成,其中交织图像和文本作为多模态少样本上下文。

  • 复杂场景的理解(Understanding Complex Scenarios): 下图(原文 Figure 8)进一步说明了 MM-Interleaved 在理解机器人操作、游戏和图形用户界面(GUI)等复杂场景方面的有效性。

    img-8.jpeg 该图像是多幅插图组成的示意图,展示了机器人在三维空间中抓取和放置物体的过程,以及通过设置调整iPhone屏幕为黑白模式的步骤,还包括Minecraft游戏中创建围栏的操作演示。

    图:在机器人、游戏和 GUI 界面等复杂场景下,使用交织图像和文本进行零样本文本生成。

  • 图像生成(Image Generation): 下图(原文 Figure 9)展示了 MM-Interleaved 根据提供的风格或概念上下文,生成适当图像的能力。

    img-9.jpeg 该图像是概念示意图,展示了基于风格和描述的图像生成过程。左侧显示了以猫和狗的风格生成的具有鲜艳色彩的图像,以及向日葵和乡村房屋的照片;右侧则通过文本描述生成具有类似风格的大象、老人的肖像、油画向日葵和描绘海浪的照片。

    图:零样本图像生成,使用交织图像和文本。论文方法可以根据提供的所需风格或概念的上下文生成适当的图像。

  • 交织图像和文本生成(Interleaved Image and Text Generation): 下图(原文 Figure 10)展示了 MM-Interleaved 生成交织图像和文本的能力。

    img-10.jpeg 该图像是富含文字和插图的教育类示意图,展示了一个关于“美丽玫瑰”的故事和苹果汁制作步骤。左侧为讲述玫瑰故事的文本及配图,右侧为苹果汁制作的详细步骤示意和相关图片。

    图:用于视觉故事讲述和多模态指令的零样本交织图像和文本生成。

6.2.2. 监督微调结果

  • 文本阅读问答(Text Reading QA): 下图(原文 Figure 11)展示了 MM-InterleavedTextVQA [81] 任务上的定性结果。在需要细粒度细节才能生成文本输出的情况下,带有 MMFSMM-Interleaved 提供了更准确的答案。

    img-11.jpeg 该图像是多组问答示意图,展示了MM-Interleaved模型在有无多模态特征同步器(MMFS)情况下对图像中细节问题的回答对比,突出MMFS提升了识别数字、品牌和物品内容的准确性。

    图:TextVQA [81] 上的定性结果。每个示例包含用户查询、带有 MMFS 的 MM-Interleaved 给出的答案,以及不带 MMFS 的 MM-Interleaved 给出的答案。图像形状已标准化以进行可视化。

  • 指代表达理解(Referring Expression Comprehension): 下图(原文 Figure 12)展示了 MM-InterleavedRefCOCOg [59] 任务上的可视化结果。带有 MMFS 的模型在给定指代表达和查询图像时,能够生成更准确的坐标。

    img-12.jpeg 该图像是一个多组图像与文本对比的示意图,展示了MM-Interleaved模型有无多模态特征同步器(MMFS)在目标定位坐标上的差异,突出MMFS提升了模型对细节的捕捉能力。

    图:RefCOCOg [59] 上的指代表达理解。每个示例包含用户查询、使用 MMFS 预测的框,以及不使用 MMFS 预测的框。图像形状已标准化以进行可视化。

  • 分割到图像转换(Segmentation-to-image Translation): 下图(原文 Figure 13)展示了 MM-InterleavedADE20k [108] 数据集上的分割到图像转换的可视化结果。给定文本提示和分割图,带有 MMFS 生成的图像在空间布局上显著更接近原始 ground truth 图像,相比没有 MMFS 的基线结果。

    img-13.jpeg 该图像是多组图像与分割图对比的示意图,展示了MM-Interleaved模型在不同描述条件下生成图像时使用多尺度多图像特征同步器(MMFS)与不使用时的效果差异,体现出使用MMFS能更精准地捕捉视觉细节。

    图:ADE20k [108] 上的分割到图像生成。每行是一个示例,包含四张图像:输入分割图、真实图像、带有 MMFS 生成的图像,以及不带 MMFS 生成的图像。真实图像和分割图的形状已标准化以进行可视化。当没有 MMFS 时,生成的结果缺乏与输入分割图的空间对齐。

  • 多图像生成(Multi-image Generation): 下图(原文 Figure 14)比较了 MM-InterleavedPororoSV [51] 和 FlintstonesSV [28] 数据集上顺序生成的多个图像。带有 MMFS 生成的图像在空间一致性(例如,背景环境、视点变化、角色位置关系等)和与交织图像-文本上下文的语义对齐方面表现更好。

    img-14.jpeg 该图像是图14,展示了MM-Interleaved模型在多帧动画图像生成中的效果对比。包含输入上下文、多帧真实图像(GT)、使用多模态特征同步器(MMFS)生成的图像,以及不使用MMFS生成的图像,体现模型在细节还原和一致性上的优势。

    图:PororoSV [51] 和 FlintstonesSV [28] 上的多图像生成。每个示例包含四行。第一行是第一帧图像和所有相应的描述。第二行是后续帧的真实图像;第三行是带有 MMFS 生成的结果;最后一行是不带 MMFS 生成的结果。当没有 MMFS 时,生成的多个图像在人物、背景、物体等内容方面缺乏一致性。

  • 交织图像和文本生成(Generating Interleaved Image and Texts): 下图(原文 Figure 15)展示了 MM-Interleaved 在视觉故事讲述任务中,同时生成图像和文本的能力。给定第一帧图像和描述作为上下文,带有 MMFSMM-Interleaved 能够连贯地生成后续的交织图像和文本,在生成多样性和空间语义一致性之间取得了平衡。

    img-15.jpeg 该图像是论文中的对比实验示意图,展示了加入和不加入多模态特征同步器(MMFS)在图文生成任务中的效果差异。图中通过多帧图文对比展示了模型生成文本和图像的准确性和细节表现,突出MMFS对细粒度内容捕捉的提升。

    图:PororoSV [51] 和 FlintstonesSV [28] 上的交织图像-文本生成。每个示例包含三列。第一列是所有帧的真实图像和描述。第二列是带有 MMFS 生成的结果;最后一列是不带 MMFS 生成的结果。在生成过程中,仅提供第一帧的描述和图像作为条件。

7. 总结与思考

7.1. 结论总结

MM-Interleaved 提出了一个端到端训练的生成模型,专为交织图像-文本数据的理解和生成而设计。其核心创新是多模态特征同步器(MMFS),该模块通过允许 LLM 和图像解码器动态地、按需地访问先前上下文中的多尺度、高分辨率图像特征,有效地解决了现有方法中固定数量视觉词元导致的信息瓶颈和细节丢失问题。实验结果表明,MM-Interleaved 在不使用任何内部数据(in-house data)的情况下,在包括图像描述、视觉问答、指代表达理解、文本到图像生成、分割到图像转换和视觉故事讲述在内的各种多模态基准测试中均取得了最先进的(state-of-the-art, SOTA)性能。这证明了其在识别视觉细节、遵循复杂多模态指令以及生成视觉一致图像方面的强大通用性和效率。

7.2. 局限性与未来工作

论文作者指出了以下局限性:

  • 公共交织图像-文本数据的质量和数量: 作者认为,目前公共交织图像-文本数据的质量和数量相对较低,这限制了交织生成模型充分发挥其潜力。

  • 幻觉问题和潜在偏见: 与其他多模态模型一样,MM-Interleaved 可能受到幻觉问题(hallucination issues)的影响,并且由于训练数据的噪声,可能生成带有偏见的内容。

    基于这些局限性,作者提出了未来的研究方向:

  • 投入更多精力改进交织图像-文本数据的质量和数量,以期进一步提升模型性能。

  • 在确保模型安全性和可靠性的前提下,努力改进模型以减轻幻觉和偏见问题。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 突破“视觉词元瓶颈”的优雅方案: MMFS 的设计理念非常巧妙,它没有简单地增加视觉词元数量来解决细节丢失问题,而是提供了一种在需要时“按需”访问高分辨率特征的机制。这是一种更具扩展性和效率的思路,尤其是在处理多图像和高分辨率场景时,避免了 LLM 上下文长度的爆炸式增长。这种动态特征访问的思想在其他模态(如视频)的处理中也可能具有借鉴意义。
  2. 端到端生成范式的潜力: MM-Interleaved 实现了真正的图像和文本的端到端、自回归生成,这是多模态 LLM 的一个重要发展方向。它不仅能理解,还能创造,这为构建更具交互性和创造性的 AI 系统奠定了基础。这种统一的生成能力有助于弥合传统上分离的视觉理解和视觉生成领域。
  3. 对实际应用的推动: 交织图像-文本数据在互联网上无处不在,能够有效处理和生成这类数据,意味着模型在新闻摘要、博客创作、多媒体内容编辑、甚至交互式教学等领域具有巨大的应用潜力。通过提升对细粒度视觉细节的捕捉,模型可以更好地支持需要精确视觉描述的任务。

7.3.2. 批判

  1. Deformable Attention 的复杂性: MMFS 模块的核心是 Deformable Attention,虽然它在效率和性能上表现出色,但其机制本身相对复杂,可能增加了模型的训练和推理的工程难度。对于初学者或资源有限的研究者而言,从头实现和优化可能是一个挑战。论文虽然详细阐述了 MMFS 的公式,但若能进一步提供其实现细节或简化版本,对社区将更有益。
  2. 预训练数据的依赖性: 尽管论文强调未采用“内部数据”,但其预训练仍然依赖于大规模的公共数据集(如 LAION-2B, MMC4),这些数据集本身的质量和潜在偏见是共同的挑战。模型性能的提升可能在很大程度上依然得益于数据规模和多样性,而 MMFS 更多地是在给定数据下提升了处理效率和细节捕捉能力。未来工作如何更有效地从有限数据中学习,或者如何降低对海量数据的依赖,仍是一个开放问题。
  3. 幻觉和偏见的深层根源: 作者承认了幻觉和偏见是模型的局限性,这确实是当前多模态 LLM 普遍面临的问题。但论文并未深入探讨 MM-Interleaved 的特定架构(特别是 MMFS)是否可能以某种方式加剧或缓解这些问题。例如,更细粒度的特征访问是否可能带来新的幻觉类型,或者它在何种程度上能够更好地“锚定”视觉信息以减少幻觉。对这些深层机制的分析将有助于设计更鲁棒的模型。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。