WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation
TL;DR 精炼摘要
本文提出了WEAVE,一个首个针对上下文交错的跨模态理解与生成套件,包括WEAVE-100k大规模数据集和WEAVEBench基准测试。实验显示,该套件明显增强了模型的视觉理解、图像编辑和协同生成能力,并帮助模型发展视觉记忆。
摘要
Recent advances in unified multimodal models (UMMs) have enabled impressive progress in visual comprehension and generation. However, existing datasets and benchmarks focus primarily on single-turn interactions, failing to capture the multi-turn, context-dependent nature of real-world image creation and editing. To address this gap, we present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation. Our suite consists of two complementary parts. WEAVE-100k is a large-scale dataset of 100K interleaved samples spanning over 370K dialogue turns and 500K images, covering comprehension, editing, and generation tasks that require reasoning over historical context. WEAVEBench is a human-annotated benchmark with 100 tasks based on 480 images, featuring a hybrid VLM judger evaluation framework based on both the reference image and the combination of the original image with editing instructions that assesses models' abilities in multi-turn generation, visual memory, and world-knowledge reasoning across diverse domains. Experiments demonstrate that training on WEAVE-100k enables vision comprehension, image editing, and comprehension-generation collaboration capabilities. Furthermore, it facilitates UMMs to develop emergent visual-memory capabilities, while extensive evaluations on WEAVEBench expose the persistent limitations and challenges of current approaches in multi-turn, context-aware image generation and editing. We believe WEAVE provides a view and foundation for studying in-context interleaved comprehension and generation for multi-modal community.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation 中文译名: WEAVE:释放与基准测试上下文交错的跨模态理解与生成能力
1.2. 作者
- Wei Chow, Jiachun Pan, et al.
- 机构: 新加坡国立大学 (National University of Singapore), 浙江大学 (Zhejiang University), 马里兰大学帕克分校 (University of Maryland, College Park), 南洋理工大学 (Nanyang Technological University)。
1.3. 发表期刊/会议
- 发表状态: arXiv 预印本
- 发布时间: 2025年11月14日
- 评价: 该论文发表于计算机视觉与多模态学习的前沿领域,关注点是非常新颖的“多轮交互生成”与“上下文理解”,代表了该领域向更复杂交互迈进的趋势。
1.4. 发表年份
2025年
1.5. 摘要
现有的多模态模型(Unified Multimodal Models, UMMs)在视觉理解和生成方面取得了显著进展,但现有的数据集和基准测试主要关注单轮交互,无法捕捉现实世界图像创作中多轮、依赖上下文的特性。
为了解决这一差距,作者提出了 WEAVE,这是首个针对上下文交错(In-context Interleaved)跨模态理解和生成的套件。它包含两部分:
-
WEAVE-100k: 一个包含 10 万个样本的大规模数据集,涵盖 37 万轮对话和 50 万张图像,专注于需要推理历史上下文的理解、编辑和生成任务。
-
WEAVEBench: 一个由人工标注的基准测试,包含 100 个任务和 480 张图像,并配备了一个基于混合 VLM(视觉语言模型)裁判的评估框架。
实验表明,在 WEAVE-100k 上训练可以显著提升模型在视觉理解、图像编辑和协同生成方面的能力,并帮助模型涌现出视觉记忆(Visual Memory)能力。
1.6. 原文链接
2. 整体概括
2.1. 研究背景与动机
-
核心问题: 现实中的图像创作往往不是“一锤子买卖”(One-shot),而是一个多轮迭代的过程。例如,用户可能会先生成一张图,然后说“把背景换暗一点”,接着说“把左边的人去掉”,最后可能还会说“把刚才去掉的人加回来”。这种过程需要模型具备视觉记忆和对历史上下文的理解。
-
现有差距 (Gap): 现有的开源模型和数据集(如 InstructPix2Pix, MagicBrush)大多只关注单轮编辑,即把每一次指令当成独立的事件,忽略了之前的对话和图像历史。这导致模型难以处理需要长程推理(Long-horizon reasoning)的任务。
-
切入点: 既然现实交互是多轮且图文交错的(Interleaved),那么我们需要构建一个专门针对这种上下文交错(In-context Interleaved)特性的数据集和基准测试,来训练和评估模型。
下图(原文 Figure 1)生动地展示了 WEAVE 旨在解决的问题:不仅仅是单次编辑,而是涉及多步推理、视觉记忆召回(Visual Memory Recall)的复杂过程。
该图像是示意图,展示了以往工作与我们提出的方法在图像编辑任务中的对比。左侧部分展示了传统方法在图像编辑中的限制和实例,而右侧则展示了我们的方法在图像生成与修改中的效果,突显出改进的灵活性与效果。
2.2. 核心贡献/主要发现
- WEAVE-100k 数据集: 首个大规模的、专门针对多轮上下文感知图像理解与生成的数据集。它通过精心设计的流水线生成了包含“移除后复原”、“多图融合”等需要高度推理能力的数据。
- WEAVEBench 基准测试: 一个高质量的人工标注评测集,涵盖科学、创作、逻辑、游戏等多个领域,旨在测试模型在多轮对话中的表现。
- 主要发现:
- 上下文的重要性: 在理解任务中,利用上下文信息能带来巨大提升(例如 QwenVL 提升了 163%)。
- 生成的挑战: 对于生成任务,增加上下文长度反而可能导致部分开源模型性能下降(因为它们不擅长处理长序列),这暴露了当前模型的短板。
- 微调有效性: 使用 WEAVE-100k 微调模型(如 Bagel),能显著提升其在标准理解和编辑榜单上的成绩,并使其涌现出处理复杂指令的视觉记忆能力。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,初学者需要掌握以下几个核心概念:
-
统一多模态模型 (Unified Multimodal Models, UMMs):
- 传统的 AI 模型通常是专用的:有的只懂看图(理解),有的只懂画图(生成)。
- UMMs 试图在一个模型中同时实现理解和生成。它们通常使用 Transformer 架构,将图像也被编码成类似文本的 词元 (tokens),从而实现“输入图文,输出图文”的统一处理。本文提到的 Bagel、Emu、OmniGen 都属于此类。
-
上下文学习 (In-context Learning, ICL):
- 在文本大模型(如 GPT-4)中,ICL 指的是模型通过阅读提示词(Prompt)中给出的几个例子,就能学会如何完成新任务,而无需修改模型参数。
- 本文中的 In-context 更多指多轮对话的上下文。即模型在生成第 5 轮的回复时,能“看到”并理解前 4 轮的文本和图像历史。
-
交错数据 (Interleaved Data):
- 指数据不是简单的“一张图配一句话”,而是像博客文章或聊天记录那样,文本和图像交替出现(例如:文本 -> 图像 -> 文本 -> 图像)。这种数据格式最贴近人类真实的交流方式。
-
视觉记忆 (Visual Memory):
- 指模型能够“记住”之前图像中的特征(如物体的颜色、位置、样式)。例如,在第 1 轮生成了一个穿红衣服的人,第 2 轮把他移除了,第 3 轮要求“把刚才那个人加回来”,模型必须能准确复原出那个“穿红衣服的人”,而不是随机生成一个新的人。
3.2. 前人工作
- 图像编辑模型:
- InstructPix2Pix, MagicBrush: 这些是经典的基于指令的编辑模型。虽然它们能听懂“把天空变蓝”,但它们通常是单轮的,不具备记忆历史操作的能力。
- 多模态理解与生成:
- LLaVA, Qwen-VL: 主要专注于理解(看图说话),生成能力较弱或没有。
- Emu, SEED, Gill: 探索了图文交错生成,但往往缺乏针对多轮一致性编辑的专门优化和高质量数据。
- 差异化: WEAVE 的核心区别在于它强调多轮 (Multi-turn) 和 上下文依赖 (Context-dependent)。它不是简单地堆砌图像,而是构建了需要逻辑推理和记忆链条的复杂任务。
4. 方法论
4.1. 方法原理
WEAVE 的核心在于构建高质量的数据(WEAVE-100k)来“教会”模型如何进行多轮交互,并构建严格的测试(WEAVEBench)来评估这种能力。作者认为,现有的数据缺乏这种“历史依赖性”,因此他们设计了一套自动化的数据生成流水线。
下图(原文 Figure 3)展示了整个数据收集和处理的流水线:
该图像是一个表格,展示了与WEAVE数据集相关的统计信息。表格内容包括总聊天次数(100,750)、含有不同比例图像的聊天统计(如≥4幅图像的聊天数为100,584)、平均聊天轮次(3.79)及平均问题长度(195.49)。此外,列出总图像数(505,186)及每聊天的最大和平均图像数。该统计数据反映了数据集的规模和特点。
4.2. WEAVE-100k 数据构建详解
为了生成包含“视觉记忆”和“多轮推理”的高质量数据,作者设计了四种生成路径。这一部分非常关键,因为它定义了模型能学到什么能力。
4.2.1. 多图融合 (Multi-image Fusion)
- 目的: 让模型学会整合来自不同历史时刻的视觉信息。
- 流程:
-
利用 GPT-4 生成融合指令(例如“将图 A 的背景和图 B 的人物结合”)。
-
使用先进的图像生成模型(如 Seedream)生成融合后的结果。
-
通过这种方式,模型学会了如何引用之前的图像作为素材。
下方展示了多图融合的示例(原文 Figure 15),注意模型是如何理解并融合不同图像特征的:
该图像是来自 WEAVE-100k 的一个示例,展示了多图像融合的过程。在该示例中,用户通过与助手的多轮对话,对人物形象进行了多次编辑,最终融合成一幅连贯的场景,体现了上下文理解与生成的能力。
-
4.2.2. 移除后复原 (Remove-then-back)
-
目的: 专门训练视觉记忆。这是本文最有趣的设计之一。
-
逻辑:
- 初始状态: 有一张包含物体 A 的图。
- 编辑: 指令要求“移除物体 A”。
- 复原: 随后的指令要求“把刚才移除的物体放回去”。
-
难点: 模型如果只是重新生成一个物体,往往会和原来的长得不一样。要做到“复原”,模型必须在内部缓存(记忆)原始物体 A 的特征。
下方展示了 Recall(召回/复原)任务的示例(原文 Figure 19),请注意观察被移除的裤子是如何在后续步骤中被准确加回来的:
该图像是一个示意图,展示了WEAVE-100k中多轮对话的内容。图中包含了用户和助手之间的交互,用户请求对图像进行修改,而助手则展示了相关的视觉资源。这反映了在多模态任务中如何进行跨模态理解与生成的重要性。
4.2.3. 衍生想象与比较 (Derivative Imagination and Comparison)
- 目的: 训练推理能力。
- 方法: 使用国际象棋棋局或视觉拼图(Jigsaw)作为素材。模型需要根据当前的棋局图像,想象并生成“走了一步之后”的棋局图像。这要求模型不仅能画图,还得懂规则和逻辑。
4.2.4. 顺序过程 (Sequential Procedures)
- 目的: 模拟故事创作或分步教程。
- 流程: 按照叙事逻辑进行一系列连续的编辑。例如,先生成一个角色,然后让他做动作,然后改变天气,每一步都要保持角色的一致性(Character Consistency)。
4.3. WEAVEBench 评估框架
为了公平地评测模型在这些复杂任务上的表现,作者提出了 Hybrid VLM Judge(混合 VLM 裁判) 框架。
- 为什么需要新裁判? 传统的指标(如 CLIP Score)只能看图片和文字是否匹配,无法判断“这张图是否忠实于上一张图的修改要求”。
- 混合评估机制:
作者使用了强大的 VLM(如 GPT-4o)作为裁判,让它同时参考:
-
原始图像 (Reference Image)
-
编辑指令 (Instruction)
-
生成结果 (Generated Image)
裁判会根据预定义的维度进行打分。
-
5. 实验设置
5.1. 数据集
-
训练集 (WEAVE-100k):
-
规模: 100,750 个对话样本,包含 505,186 张图像。
-
特点: 平均每个对话包含 3.8 轮交互。涵盖了动物、建筑、时尚、游戏等多个领域。
-
统计数据: 如下表(原文 Table 5)所示,数据集包含多图融合、编辑、回忆(Recall)、视觉拼图等多种类型。
该图像是一个表格,展示了与WEAVE数据集相关的统计信息。表格内容包括总聊天次数(100,750)、含有不同比例图像的聊天统计(如≥4幅图像的聊天数为100,584)、平均聊天轮次(3.79)及平均问题长度(195.49)。此外,列出总图像数(505,186)及每聊天的最大和平均图像数。该统计数据反映了数据集的规模和特点。
-
-
测试集 (WEAVEBench):
-
规模: 100 个精心设计的高难度任务,涉及 480 张图像。
-
来源: 由拥有研究生学位的专业人员标注,确保任务需要复杂的推理和世界知识。
-
领域: 科学(Science)、创作(Creation)、逻辑(Logic)、游戏(Game)。
下图(原文 Figure 2)展示了 WEAVEBench 中的任务多样性,包括科学知识、游戏推理等:
该图像是一个示意图,展示了多种任务类型,包括自然科学、故事、逻辑和游戏领域的创作与编辑任务。各类别下列出了不同的编辑指令和场景示例,旨在说明如何进行跨模态的理解与生成。
-
5.2. 评估指标
作者使用了四个核心指标来量化模型性能。虽然论文正文没有给出具体的数学公式,但在附录 B.3 中定义了加权计算方式。
-
关键点正确性 (Key Point Correctness, KP):
- 定义: 衡量生成的图像是否满足了编辑指令中的所有关键要求(例如:有没有把红衣服改成蓝衣服)。
- 评分: VLM 裁判打分(0-10)。
-
视觉一致性 (Visual Consistency, VC):
- 定义: 衡量非编辑区域是否保持不变,以及被编辑物体的身份特征(Identity)是否得以保留。
- 评分: VLM 裁判打分(0-10)。
-
图像质量 (Image Quality, IQ):
- 定义: 评估生成图像的清晰度、美学质量和伪影情况。
- 评分: VLM 裁判打分(0-10)。
-
准确性 (Accuracy, ACC):
- 定义: 主要用于理解任务(如回答科学问题),衡量推理结果的正确性。
综合得分计算公式: 对于生成任务:
-
符号解释:
KP为关键点得分,VC为视觉一致性得分,IQ为图像质量得分。权重显示出满足指令要求 (KP) 是最重要的。对于统一理解与生成任务:
-
符号解释: 加入了
ACC项来评估理解能力。
5.3. 对比基线
实验评估了三大类模型:
- 大型语言模型 (LLMs): GPT-4o, GPT-4.1 等(作为理解能力的基线或通过工具调用生成图像)。
- 编辑模型 (Edit Models): AnyEdit, InstructPix2Pix, MagicBrush 等(代表传统的单轮编辑能力)。
- 统一多模态模型 (UMMs): Bagel, OmniGen, Qwen-Image-Edit, Emu3 等(代表前沿的图文交错处理能力)。
6. 实验结果与分析
6.1. WEAVEBench 主榜单分析
作者在 WEAVEBench 上对各类模型进行了全面评测。以下是主要发现:
-
上下文生成的挑战: 即使是最先进的模型(如 Nano Banana),在完全上下文(Full In-context)设置下的平均得分也只有 0.767,说明多轮交互生成仍然是一个极具挑战的问题。
-
开源模型的困境: 许多开源模型(如 Qwen-Edit)在加入更多历史上下文后,性能反而下降(下降了 5.3% - 8.6%)。这表明这些模型可能无法有效过滤干扰信息,导致注意力分散,无法精确定位需要编辑的区域。
-
输入方式的影响: 实验发现,将历史图像按顺序 (Sequential) 输入模型,比将它们拼接 (Concatenation) 成一张大图输入效果要好得多。对于 Bagel 模型,拼接输入导致性能下降了 10.3%。
下表(转录自原文 Table 2 的部分关键数据)展示了部分代表性模型在 WEAVEBench 上的表现(Avg 列为平均分):
Model Size In-context Format Avg Score LLMs GPT-4o - Full - 0.381 Edit Models AnyEdit 1B None - 0.472 Step1X-Edit v1.1 12B None - 0.669 UMMs OmniGen 4B None - 0.404 Seedream 4.0 - None - 0.765 Nano Banana - Full - 0.767 Bagel 14B None - 0.446 Bagel + WEAVE-100k 14B None - 0.640
分析: 注意表格最后一行,使用 WEAVE-100k 微调后的 Bagel 模型,得分从 0.446 飙升至 0.640,提升了约 42.5%,这有力地证明了该数据集的高质量和有效性。
6.2. 微调效果验证
为了进一步验证 WEAVE-100k 数据集的价值,作者使用它对开源模型 Bagel 进行了微调,并在外部的权威榜单 GEditBench(一个通用的图像编辑基准)上进行了测试。
以下是原文 Table 3 的结果:
| Model | BG | Color | Mat. | Motion | Port. | Style | Add | Remove | Replace | Text | Tone | Avg |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AnyEdit | 4.31 | 4.25 | 2.64 | 0.67 | 1.90 | 1.95 | 3.72 | 3.75 | 3.23 | 0.77 | 4.21 | 2.85 |
| MagicBrush | 6.17 | 5.41 | 4.75 | 1.55 | 2.90 | 4.10 | 5.53 | 4.13 | 5.10 | 1.33 | 5.07 | 4.19 |
| OmniGen | 5.23 | 5.93 | 5.44 | 3.12 | 3.17 | 4.88 | 6.33 | 6.35 | 5.34 | 4.31 | 4.96 | 5.01 |
| Bagel | 7.44 | 6.99 | 6.26 | 5.09 | 4.82 | 6.04 | 7.94 | 7.37 | 7.31 | 7.16 | 6.17 | 6.52 |
| + WEAVE-100k | 7.45 | 7.00 | 7.10 | 4.97 | 4.83 | 6.98 | 7.88 | 7.39 | 7.75 | 7.06 | 6.81 | 6.83 |
核心结果分析:
- 全面提升: 经过 WEAVE-100k 微调后的 Bagel 模型(最后一行),在平均分(Avg)上达到了 6.83,超过了原始 Bagel (6.52) 和其他所有基线模型。
- 风格与材质: 在 Style (风格) 和 Mat. (材质) 两个子任务上提升尤为明显(分别提升了约 15.6% 和 13.4%),这说明 WEAVE 数据集中包含的多样化编辑指令极大地丰富了模型的细节控制能力。
6.3. 视觉记忆的涌现
这是一个定性的关键发现。作者观察到,经过 WEAVE-100k 训练后,模型展现出了处理“先移除后加回”这类任务的能力。
引用原文 Figure 20 的示例(在附录中):
- 任务: 1. 提供一张穿裤子的人的图。 2. 移除裤子。 3. 加回裤子。
- 结果: 模型不仅能把裤子加回来,而且加回来的裤子样式与第一张图高度一致。这种跨轮次的一致性是传统单轮编辑模型无法做到的,证明模型确实学到了视觉记忆。
7. 总结与思考
7.1. 结论总结
WEAVE 论文通过引入首个大规模上下文交错生成数据集 WEAVE-100k 和基准测试 WEAVEBench,填补了多模态研究中“多轮交互”与“视觉记忆”的空白。实验证明,该数据集不仅能提升模型的基础编辑能力,还能激发模型在长对话中保持视觉一致性的潜力。这标志着统一多模态模型(UMMs)从简单的图文转换向复杂的、类人的创作助手迈进了一大步。
7.2. 局限性与未来工作
- 指令遵循能力 (Instruction Following): 尽管有提升,但在处理极度复杂的指令(如精确的空间逻辑或特定领域的科学知识)时,模型仍经常失败(如 Figure 7 所示)。
- 幻觉问题 (Hallucination): 作为一个生成式模型,微调后的模型有时仍会生成不符合用户意图的内容,这是生成式 AI 的通病。
- 基准测试难度: WEAVEBench 的难度较高,目前最好的模型也未能达到完美,这为未来的研究留下了巨大的提升空间。
7.3. 个人启发与批判
- 启发: 这篇论文最让我印象深刻的是 "Remove-then-back" (移除后复原) 这一数据构造策略。它用一种非常简单直观的方式,强制模型去“记住”被删除的信息。这种构造数据的思路(Constructive Data Engineering)对于提升 AI 的特定认知能力非常有借鉴意义。
- 批判:
- VLM 裁判的可靠性: 虽然作者验证了 GPT-4o 作为裁判与人类的一致性,但在处理极微小的视觉细节(如材质纹理的微小变化)时,VLM 是否真的足够敏感仍存疑。
- 计算成本: 处理多轮图像历史(Image History)会带来巨大的上下文长度(Context Length)开销。论文中提到为了适应显存,训练时采取了随机采样对话轮次(Turns)的策略,这可能在一定程度上削弱了模型学习超长程依赖的能力。未来的工作需要关注如何高效地编码历史图像信息。
相似论文推荐
基于向量语义检索推荐的相关论文。