论文状态:已完成

WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

发表:2025/11/15
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 7 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了WEAVE,一个首个针对上下文交错的跨模态理解与生成套件,包括WEAVE-100k大规模数据集和WEAVEBench基准测试。实验显示,该套件明显增强了模型的视觉理解、图像编辑和协同生成能力,并帮助模型发展视觉记忆。

摘要

Recent advances in unified multimodal models (UMMs) have enabled impressive progress in visual comprehension and generation. However, existing datasets and benchmarks focus primarily on single-turn interactions, failing to capture the multi-turn, context-dependent nature of real-world image creation and editing. To address this gap, we present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation. Our suite consists of two complementary parts. WEAVE-100k is a large-scale dataset of 100K interleaved samples spanning over 370K dialogue turns and 500K images, covering comprehension, editing, and generation tasks that require reasoning over historical context. WEAVEBench is a human-annotated benchmark with 100 tasks based on 480 images, featuring a hybrid VLM judger evaluation framework based on both the reference image and the combination of the original image with editing instructions that assesses models' abilities in multi-turn generation, visual memory, and world-knowledge reasoning across diverse domains. Experiments demonstrate that training on WEAVE-100k enables vision comprehension, image editing, and comprehension-generation collaboration capabilities. Furthermore, it facilitates UMMs to develop emergent visual-memory capabilities, while extensive evaluations on WEAVEBench expose the persistent limitations and challenges of current approaches in multi-turn, context-aware image generation and editing. We believe WEAVE provides a view and foundation for studying in-context interleaved comprehension and generation for multi-modal community.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation 中文译名: WEAVE:释放与基准测试上下文交错的跨模态理解与生成能力

1.2. 作者

  • Wei Chow, Jiachun Pan, et al.
  • 机构: 新加坡国立大学 (National University of Singapore), 浙江大学 (Zhejiang University), 马里兰大学帕克分校 (University of Maryland, College Park), 南洋理工大学 (Nanyang Technological University)。

1.3. 发表期刊/会议

  • 发表状态: arXiv 预印本
  • 发布时间: 2025年11月14日
  • 评价: 该论文发表于计算机视觉与多模态学习的前沿领域,关注点是非常新颖的“多轮交互生成”与“上下文理解”,代表了该领域向更复杂交互迈进的趋势。

1.4. 发表年份

2025年

1.5. 摘要

现有的多模态模型(Unified Multimodal Models, UMMs)在视觉理解和生成方面取得了显著进展,但现有的数据集和基准测试主要关注单轮交互,无法捕捉现实世界图像创作中多轮、依赖上下文的特性。

为了解决这一差距,作者提出了 WEAVE,这是首个针对上下文交错(In-context Interleaved)跨模态理解和生成的套件。它包含两部分:

  1. WEAVE-100k: 一个包含 10 万个样本的大规模数据集,涵盖 37 万轮对话和 50 万张图像,专注于需要推理历史上下文的理解、编辑和生成任务。

  2. WEAVEBench: 一个由人工标注的基准测试,包含 100 个任务和 480 张图像,并配备了一个基于混合 VLM(视觉语言模型)裁判的评估框架。

    实验表明,在 WEAVE-100k 上训练可以显著提升模型在视觉理解、图像编辑和协同生成方面的能力,并帮助模型涌现出视觉记忆(Visual Memory)能力。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 现实中的图像创作往往不是“一锤子买卖”(One-shot),而是一个多轮迭代的过程。例如,用户可能会先生成一张图,然后说“把背景换暗一点”,接着说“把左边的人去掉”,最后可能还会说“把刚才去掉的人加回来”。这种过程需要模型具备视觉记忆和对历史上下文的理解。

  • 现有差距 (Gap): 现有的开源模型和数据集(如 InstructPix2Pix, MagicBrush)大多只关注单轮编辑,即把每一次指令当成独立的事件,忽略了之前的对话和图像历史。这导致模型难以处理需要长程推理(Long-horizon reasoning)的任务。

  • 切入点: 既然现实交互是多轮且图文交错的(Interleaved),那么我们需要构建一个专门针对这种上下文交错(In-context Interleaved)特性的数据集和基准测试,来训练和评估模型。

    下图(原文 Figure 1)生动地展示了 WEAVE 旨在解决的问题:不仅仅是单次编辑,而是涉及多步推理、视觉记忆召回(Visual Memory Recall)的复杂过程。

    该图像是示意图,展示了以往工作与我们提出的方法在图像编辑任务中的对比。左侧部分展示了传统方法在图像编辑中的限制和实例,而右侧则展示了我们的方法在图像生成与修改中的效果,突显出改进的灵活性与效果。 该图像是示意图,展示了以往工作与我们提出的方法在图像编辑任务中的对比。左侧部分展示了传统方法在图像编辑中的限制和实例,而右侧则展示了我们的方法在图像生成与修改中的效果,突显出改进的灵活性与效果。

2.2. 核心贡献/主要发现

  1. WEAVE-100k 数据集: 首个大规模的、专门针对多轮上下文感知图像理解与生成的数据集。它通过精心设计的流水线生成了包含“移除后复原”、“多图融合”等需要高度推理能力的数据。
  2. WEAVEBench 基准测试: 一个高质量的人工标注评测集,涵盖科学、创作、逻辑、游戏等多个领域,旨在测试模型在多轮对话中的表现。
  3. 主要发现:
    • 上下文的重要性: 在理解任务中,利用上下文信息能带来巨大提升(例如 QwenVL 提升了 163%)。
    • 生成的挑战: 对于生成任务,增加上下文长度反而可能导致部分开源模型性能下降(因为它们不擅长处理长序列),这暴露了当前模型的短板。
    • 微调有效性: 使用 WEAVE-100k 微调模型(如 Bagel),能显著提升其在标准理解和编辑榜单上的成绩,并使其涌现出处理复杂指令的视觉记忆能力。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文,初学者需要掌握以下几个核心概念:

  • 统一多模态模型 (Unified Multimodal Models, UMMs):

    • 传统的 AI 模型通常是专用的:有的只懂看图(理解),有的只懂画图(生成)。
    • UMMs 试图在一个模型中同时实现理解和生成。它们通常使用 Transformer 架构,将图像也被编码成类似文本的 词元 (tokens),从而实现“输入图文,输出图文”的统一处理。本文提到的 BagelEmuOmniGen 都属于此类。
  • 上下文学习 (In-context Learning, ICL):

    • 在文本大模型(如 GPT-4)中,ICL 指的是模型通过阅读提示词(Prompt)中给出的几个例子,就能学会如何完成新任务,而无需修改模型参数。
    • 本文中的 In-context 更多指多轮对话的上下文。即模型在生成第 5 轮的回复时,能“看到”并理解前 4 轮的文本和图像历史。
  • 交错数据 (Interleaved Data):

    • 指数据不是简单的“一张图配一句话”,而是像博客文章或聊天记录那样,文本和图像交替出现(例如:文本 -> 图像 -> 文本 -> 图像)。这种数据格式最贴近人类真实的交流方式。
  • 视觉记忆 (Visual Memory):

    • 指模型能够“记住”之前图像中的特征(如物体的颜色、位置、样式)。例如,在第 1 轮生成了一个穿红衣服的人,第 2 轮把他移除了,第 3 轮要求“把刚才那个人加回来”,模型必须能准确复原出那个“穿红衣服的人”,而不是随机生成一个新的人。

3.2. 前人工作

  • 图像编辑模型:
    • InstructPix2Pix, MagicBrush: 这些是经典的基于指令的编辑模型。虽然它们能听懂“把天空变蓝”,但它们通常是单轮的,不具备记忆历史操作的能力。
  • 多模态理解与生成:
    • LLaVA, Qwen-VL: 主要专注于理解(看图说话),生成能力较弱或没有。
    • Emu, SEED, Gill: 探索了图文交错生成,但往往缺乏针对多轮一致性编辑的专门优化和高质量数据。
  • 差异化: WEAVE 的核心区别在于它强调多轮 (Multi-turn)上下文依赖 (Context-dependent)。它不是简单地堆砌图像,而是构建了需要逻辑推理和记忆链条的复杂任务。

4. 方法论

4.1. 方法原理

WEAVE 的核心在于构建高质量的数据(WEAVE-100k)来“教会”模型如何进行多轮交互,并构建严格的测试(WEAVEBench)来评估这种能力。作者认为,现有的数据缺乏这种“历史依赖性”,因此他们设计了一套自动化的数据生成流水线。

下图(原文 Figure 3)展示了整个数据收集和处理的流水线:

该图像是一个表格,展示了与WEAVE数据集相关的统计信息。表格内容包括总聊天次数(100,750)、含有不同比例图像的聊天统计(如≥4幅图像的聊天数为100,584)、平均聊天轮次(3.79)及平均问题长度(195.49)。此外,列出总图像数(505,186)及每聊天的最大和平均图像数。该统计数据反映了数据集的规模和特点。 该图像是一个表格,展示了与WEAVE数据集相关的统计信息。表格内容包括总聊天次数(100,750)、含有不同比例图像的聊天统计(如≥4幅图像的聊天数为100,584)、平均聊天轮次(3.79)及平均问题长度(195.49)。此外,列出总图像数(505,186)及每聊天的最大和平均图像数。该统计数据反映了数据集的规模和特点。

4.2. WEAVE-100k 数据构建详解

为了生成包含“视觉记忆”和“多轮推理”的高质量数据,作者设计了四种生成路径。这一部分非常关键,因为它定义了模型能学到什么能力。

4.2.1. 多图融合 (Multi-image Fusion)

  • 目的: 让模型学会整合来自不同历史时刻的视觉信息。
  • 流程:
    1. 利用 GPT-4 生成融合指令(例如“将图 A 的背景和图 B 的人物结合”)。

    2. 使用先进的图像生成模型(如 Seedream)生成融合后的结果。

    3. 通过这种方式,模型学会了如何引用之前的图像作为素材。

      下方展示了多图融合的示例(原文 Figure 15),注意模型是如何理解并融合不同图像特征的:

      Figure 15. An example of multi-image fusion in WEAVE-100k. 该图像是来自 WEAVE-100k 的一个示例,展示了多图像融合的过程。在该示例中,用户通过与助手的多轮对话,对人物形象进行了多次编辑,最终融合成一幅连贯的场景,体现了上下文理解与生成的能力。

4.2.2. 移除后复原 (Remove-then-back)

  • 目的: 专门训练视觉记忆。这是本文最有趣的设计之一。

  • 逻辑:

    1. 初始状态: 有一张包含物体 A 的图。
    2. 编辑: 指令要求“移除物体 A”。
    3. 复原: 随后的指令要求“把刚才移除的物体放回去”。
  • 难点: 模型如果只是重新生成一个物体,往往会和原来的长得不一样。要做到“复原”,模型必须在内部缓存(记忆)原始物体 A 的特征。

    下方展示了 Recall(召回/复原)任务的示例(原文 Figure 19),请注意观察被移除的裤子是如何在后续步骤中被准确加回来的:

    Figure 19. An example of recall in WEAVE-100k. 该图像是一个示意图,展示了WEAVE-100k中多轮对话的内容。图中包含了用户和助手之间的交互,用户请求对图像进行修改,而助手则展示了相关的视觉资源。这反映了在多模态任务中如何进行跨模态理解与生成的重要性。

4.2.3. 衍生想象与比较 (Derivative Imagination and Comparison)

  • 目的: 训练推理能力。
  • 方法: 使用国际象棋棋局或视觉拼图(Jigsaw)作为素材。模型需要根据当前的棋局图像,想象并生成“走了一步之后”的棋局图像。这要求模型不仅能画图,还得懂规则和逻辑。

4.2.4. 顺序过程 (Sequential Procedures)

  • 目的: 模拟故事创作或分步教程。
  • 流程: 按照叙事逻辑进行一系列连续的编辑。例如,先生成一个角色,然后让他做动作,然后改变天气,每一步都要保持角色的一致性(Character Consistency)。

4.3. WEAVEBench 评估框架

为了公平地评测模型在这些复杂任务上的表现,作者提出了 Hybrid VLM Judge(混合 VLM 裁判) 框架。

  • 为什么需要新裁判? 传统的指标(如 CLIP Score)只能看图片和文字是否匹配,无法判断“这张图是否忠实于上一张图的修改要求”。
  • 混合评估机制: 作者使用了强大的 VLM(如 GPT-4o)作为裁判,让它同时参考:
    1. 原始图像 (Reference Image)

    2. 编辑指令 (Instruction)

    3. 生成结果 (Generated Image)

      裁判会根据预定义的维度进行打分。

5. 实验设置

5.1. 数据集

  • 训练集 (WEAVE-100k):

    • 规模: 100,750 个对话样本,包含 505,186 张图像。

    • 特点: 平均每个对话包含 3.8 轮交互。涵盖了动物、建筑、时尚、游戏等多个领域。

    • 统计数据: 如下表(原文 Table 5)所示,数据集包含多图融合、编辑、回忆(Recall)、视觉拼图等多种类型。

      该图像是一个表格,展示了与WEAVE数据集相关的统计信息。表格内容包括总聊天次数(100,750)、含有不同比例图像的聊天统计(如≥4幅图像的聊天数为100,584)、平均聊天轮次(3.79)及平均问题长度(195.49)。此外,列出总图像数(505,186)及每聊天的最大和平均图像数。该统计数据反映了数据集的规模和特点。 该图像是一个表格,展示了与WEAVE数据集相关的统计信息。表格内容包括总聊天次数(100,750)、含有不同比例图像的聊天统计(如≥4幅图像的聊天数为100,584)、平均聊天轮次(3.79)及平均问题长度(195.49)。此外,列出总图像数(505,186)及每聊天的最大和平均图像数。该统计数据反映了数据集的规模和特点。

  • 测试集 (WEAVEBench):

    • 规模: 100 个精心设计的高难度任务,涉及 480 张图像。

    • 来源: 由拥有研究生学位的专业人员标注,确保任务需要复杂的推理和世界知识。

    • 领域: 科学(Science)、创作(Creation)、逻辑(Logic)、游戏(Game)。

      下图(原文 Figure 2)展示了 WEAVEBench 中的任务多样性,包括科学知识、游戏推理等:

      该图像是一个示意图,展示了多种任务类型,包括自然科学、故事、逻辑和游戏领域的创作与编辑任务。各类别下列出了不同的编辑指令和场景示例,旨在说明如何进行跨模态的理解与生成。 该图像是一个示意图,展示了多种任务类型,包括自然科学、故事、逻辑和游戏领域的创作与编辑任务。各类别下列出了不同的编辑指令和场景示例,旨在说明如何进行跨模态的理解与生成。

5.2. 评估指标

作者使用了四个核心指标来量化模型性能。虽然论文正文没有给出具体的数学公式,但在附录 B.3 中定义了加权计算方式。

  1. 关键点正确性 (Key Point Correctness, KP):

    • 定义: 衡量生成的图像是否满足了编辑指令中的所有关键要求(例如:有没有把红衣服改成蓝衣服)。
    • 评分: VLM 裁判打分(0-10)。
  2. 视觉一致性 (Visual Consistency, VC):

    • 定义: 衡量非编辑区域是否保持不变,以及被编辑物体的身份特征(Identity)是否得以保留。
    • 评分: VLM 裁判打分(0-10)。
  3. 图像质量 (Image Quality, IQ):

    • 定义: 评估生成图像的清晰度、美学质量和伪影情况。
    • 评分: VLM 裁判打分(0-10)。
  4. 准确性 (Accuracy, ACC):

    • 定义: 主要用于理解任务(如回答科学问题),衡量推理结果的正确性。

综合得分计算公式: 对于生成任务: ScoreGen=0.50KP+0.20VC+0.30IQ Score_{Gen} = 0.50 \cdot KP + 0.20 \cdot VC + 0.30 \cdot IQ

  • 符号解释: KP 为关键点得分,VC 为视觉一致性得分,IQ 为图像质量得分。权重显示出满足指令要求 (KP) 是最重要的。

    对于统一理解与生成任务: ScoreUnified=0.40KP+0.10VC+0.20IQ+0.30ACC Score_{Unified} = 0.40 \cdot KP + 0.10 \cdot VC + 0.20 \cdot IQ + 0.30 \cdot ACC

  • 符号解释: 加入了 ACC 项来评估理解能力。

5.3. 对比基线

实验评估了三大类模型:

  1. 大型语言模型 (LLMs): GPT-4o, GPT-4.1 等(作为理解能力的基线或通过工具调用生成图像)。
  2. 编辑模型 (Edit Models): AnyEdit, InstructPix2Pix, MagicBrush 等(代表传统的单轮编辑能力)。
  3. 统一多模态模型 (UMMs): Bagel, OmniGen, Qwen-Image-Edit, Emu3 等(代表前沿的图文交错处理能力)。

6. 实验结果与分析

6.1. WEAVEBench 主榜单分析

作者在 WEAVEBench 上对各类模型进行了全面评测。以下是主要发现:

  • 上下文生成的挑战: 即使是最先进的模型(如 Nano Banana),在完全上下文(Full In-context)设置下的平均得分也只有 0.767,说明多轮交互生成仍然是一个极具挑战的问题。

  • 开源模型的困境: 许多开源模型(如 Qwen-Edit)在加入更多历史上下文后,性能反而下降(下降了 5.3% - 8.6%)。这表明这些模型可能无法有效过滤干扰信息,导致注意力分散,无法精确定位需要编辑的区域。

  • 输入方式的影响: 实验发现,将历史图像按顺序 (Sequential) 输入模型,比将它们拼接 (Concatenation) 成一张大图输入效果要好得多。对于 Bagel 模型,拼接输入导致性能下降了 10.3%。

    下表(转录自原文 Table 2 的部分关键数据)展示了部分代表性模型在 WEAVEBench 上的表现(Avg 列为平均分):

    Model Size In-context Format Avg Score
    LLMs
    GPT-4o - Full - 0.381
    Edit Models
    AnyEdit 1B None - 0.472
    Step1X-Edit v1.1 12B None - 0.669
    UMMs
    OmniGen 4B None - 0.404
    Seedream 4.0 - None - 0.765
    Nano Banana - Full - 0.767
    Bagel 14B None - 0.446
    Bagel + WEAVE-100k 14B None - 0.640

分析: 注意表格最后一行,使用 WEAVE-100k 微调后的 Bagel 模型,得分从 0.446 飙升至 0.640,提升了约 42.5%,这有力地证明了该数据集的高质量和有效性。

6.2. 微调效果验证

为了进一步验证 WEAVE-100k 数据集的价值,作者使用它对开源模型 Bagel 进行了微调,并在外部的权威榜单 GEditBench(一个通用的图像编辑基准)上进行了测试。

以下是原文 Table 3 的结果:

Model BG Color Mat. Motion Port. Style Add Remove Replace Text Tone Avg
AnyEdit 4.31 4.25 2.64 0.67 1.90 1.95 3.72 3.75 3.23 0.77 4.21 2.85
MagicBrush 6.17 5.41 4.75 1.55 2.90 4.10 5.53 4.13 5.10 1.33 5.07 4.19
OmniGen 5.23 5.93 5.44 3.12 3.17 4.88 6.33 6.35 5.34 4.31 4.96 5.01
Bagel 7.44 6.99 6.26 5.09 4.82 6.04 7.94 7.37 7.31 7.16 6.17 6.52
+ WEAVE-100k 7.45 7.00 7.10 4.97 4.83 6.98 7.88 7.39 7.75 7.06 6.81 6.83

核心结果分析:

  • 全面提升: 经过 WEAVE-100k 微调后的 Bagel 模型(最后一行),在平均分(Avg)上达到了 6.83,超过了原始 Bagel (6.52) 和其他所有基线模型。
  • 风格与材质:Style (风格)Mat. (材质) 两个子任务上提升尤为明显(分别提升了约 15.6% 和 13.4%),这说明 WEAVE 数据集中包含的多样化编辑指令极大地丰富了模型的细节控制能力。

6.3. 视觉记忆的涌现

这是一个定性的关键发现。作者观察到,经过 WEAVE-100k 训练后,模型展现出了处理“先移除后加回”这类任务的能力。

引用原文 Figure 20 的示例(在附录中):

  • 任务: 1. 提供一张穿裤子的人的图。 2. 移除裤子。 3. 加回裤子。
  • 结果: 模型不仅能把裤子加回来,而且加回来的裤子样式与第一张图高度一致。这种跨轮次的一致性是传统单轮编辑模型无法做到的,证明模型确实学到了视觉记忆

7. 总结与思考

7.1. 结论总结

WEAVE 论文通过引入首个大规模上下文交错生成数据集 WEAVE-100k 和基准测试 WEAVEBench,填补了多模态研究中“多轮交互”与“视觉记忆”的空白。实验证明,该数据集不仅能提升模型的基础编辑能力,还能激发模型在长对话中保持视觉一致性的潜力。这标志着统一多模态模型(UMMs)从简单的图文转换向复杂的、类人的创作助手迈进了一大步。

7.2. 局限性与未来工作

  • 指令遵循能力 (Instruction Following): 尽管有提升,但在处理极度复杂的指令(如精确的空间逻辑或特定领域的科学知识)时,模型仍经常失败(如 Figure 7 所示)。
  • 幻觉问题 (Hallucination): 作为一个生成式模型,微调后的模型有时仍会生成不符合用户意图的内容,这是生成式 AI 的通病。
  • 基准测试难度: WEAVEBench 的难度较高,目前最好的模型也未能达到完美,这为未来的研究留下了巨大的提升空间。

7.3. 个人启发与批判

  • 启发: 这篇论文最让我印象深刻的是 "Remove-then-back" (移除后复原) 这一数据构造策略。它用一种非常简单直观的方式,强制模型去“记住”被删除的信息。这种构造数据的思路(Constructive Data Engineering)对于提升 AI 的特定认知能力非常有借鉴意义。
  • 批判:
    • VLM 裁判的可靠性: 虽然作者验证了 GPT-4o 作为裁判与人类的一致性,但在处理极微小的视觉细节(如材质纹理的微小变化)时,VLM 是否真的足够敏感仍存疑。
    • 计算成本: 处理多轮图像历史(Image History)会带来巨大的上下文长度(Context Length)开销。论文中提到为了适应显存,训练时采取了随机采样对话轮次(Turns)的策略,这可能在一定程度上削弱了模型学习超长程依赖的能力。未来的工作需要关注如何高效地编码历史图像信息。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。