ImgEdit: A Unified Image Editing Dataset and Benchmark
TL;DR 精炼摘要
论文提出了图像编辑数据集`ImgEdit`,包含120万个精心设计的编辑对,涵盖了复杂的单轮和多轮任务,旨在弥补开源模型在质量数据和基准测试上的不足。通过使用`ImgEdit`,训练了`ImgEdit-E1`模型,并设计了`ImgEdit-Bench`基准,展示了其在多个任务上的优越性能。
摘要
Recent advancements in generative models have enabled high-fidelity text-to-image generation. However, open-source image-editing models still lag behind their proprietary counterparts, primarily due to limited high-quality data and insufficient benchmarks. To overcome these limitations, we introduce ImgEdit, a large-scale, high-quality image-editing dataset comprising 1.2 million carefully curated edit pairs, which contain both novel and complex single-turn edits, as well as challenging multi-turn tasks. To ensure the data quality, we employ a multi-stage pipeline that integrates a cutting-edge vision-language model, a detection model, a segmentation model, alongside task-specific in-painting procedures and strict post-processing. ImgEdit surpasses existing datasets in both task novelty and data quality. Using ImgEdit, we train ImgEdit-E1, an editing model using Vision Language Model to process the reference image and editing prompt, which outperforms existing open-source models on multiple tasks, highlighting the value of ImgEdit and model design. For comprehensive evaluation, we introduce ImgEdit-Bench, a benchmark designed to evaluate image editing performance in terms of instruction adherence, editing quality, and detail preservation. It includes a basic testsuite, a challenging single-turn suite, and a dedicated multi-turn suite. We evaluate both open-source and proprietary models, as well as ImgEdit-E1, providing deep analysis and actionable insights into the current behavior of image-editing models. The source data are publicly available on https://github.com/PKU-YuanGroup/ImgEdit.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
ImgEdit: A Unified Image Editing Dataset and Benchmark
该标题直接点明了论文的核心贡献:一个名为 ImgEdit 的统一图像编辑数据集和配套的基准测试。Unified(统一的)一词暗示了该工作旨在整合和标准化当前分散的图像编辑任务和评估方法,提供一个更全面的框架。
1.2. 作者
论文作者团队来自北京大学深圳研究生院 (Peking University, Shenzhen Graduate School)、鹏城实验室 (Peng Cheng Laboratory) 和 兔展智能 (Rabbitpre AI)。论文标注了多位共同第一作者 (Equal Contributors),这通常表明该项目工作量巨大,需要多人在不同方面做出核心贡献。通信作者为李源 (Li Yuan) 教授。
1.3. 发表期刊/会议
该论文目前作为预印本 (Preprint) 发布在 arXiv 上。
- 预印本 (Preprint): 指的是尚未经过同行评审 (Peer Review) 的学术论文版本。在计算机科学等快速发展的领域,研究者通常会先将成果发布在 arXiv 等平台上,以尽快与学术界分享发现,并声明研究的优先权。
- 期刊/会议声誉: arXiv 是全球最知名的预印本服务器之一,但它本身不是一个期刊或会议,不代表论文的质量已经过官方学术机构的认证。论文的最终价值将在其被顶级会议(如 CVPR, ICCV, ECCV 等)或期刊接收后得到更广泛的认可。
1.4. 发表年份
论文的 arXiv ID 为 2505.20275v1,提交时间为 2025 年 5 月 26 日。这是一个非常罕见的情况,因为当前时间(2024年)早于其提交时间。这通常意味着作者计划将此论文投稿至 2025 年的某个学术会议,并提前预留了 arXiv ID。我们将基于论文内容进行分析,并视其为一项前沿研究。
1.5. 摘要
摘要清晰地概括了论文的四个核心部分:
- 问题与动机: 开源社区的图像编辑模型在性能上落后于顶级的闭源模型(如 GPT-4o),主要原因是缺乏高质量的训练数据和全面的评估基准。
- 核心贡献1 (数据集): 为解决此问题,论文提出了
ImgEdit,一个包含 120 万个精心策划的编辑对的大规模、高质量数据集。它不仅包括新颖复杂的单轮 (single-turn) 编辑任务,还包括具有挑战性的多轮 (multi-turn) 交互任务。 - 核心贡献2 (模型): 使用
ImgEdit数据集,论文训练了一个名为ImgEdit-E1的编辑模型。该模型在多项任务上超越了现有的开源模型,证明了新数据集的价值。 - 核心贡献3 (基准测试): 为了进行全面评估,论文引入了
ImgEdit-Bench,一个专为图像编辑设计的基准测试,从指令遵循度 (instruction adherence)、编辑质量 (editing quality) 和细节保留度 (detail preservation) 三个维度进行评估。该基准包含基础、挑战和多轮三个测试套件。
1.6. 原文链接
- 原文链接: https://arxiv.org/abs/2505.20275v1
- PDF 链接: https://arxiv.org/pdf/2505.20275v1.pdf
- 发布状态: 预印本 (Preprint)。
2. 整体概括
2.1. 研究背景与动机
近年来,随着生成模型的发展,文生图 (Text-to-Image Generation) 技术取得了巨大成功。然而,在更具挑战性的指令式图像编辑 (Instruction-based Image Editing) 领域,开源模型与像 GPT-4o 和 Gemini 这样的闭源模型之间的差距正在不断拉大。
论文作者将这一差距归因于两个核心痛点:
-
数据质量和多样性不足: 现有的开源数据集存在诸多问题,如:
- 质量低下: 图像分辨率低、编辑区域过小、编辑效果不真实。
- 指令简单: 编辑指令缺乏多样性和复杂性。
- 任务局限: 很少包含身份保持 (identity consistency) 编辑、多对象同时编辑或多轮交互式编辑等现实世界中常见的复杂任务。
-
评估基准不完善: 现有的评估方法过于简单,通常只依赖
CLIP score等与人类判断相关性不高的自动指标,并且缺乏对任务难度的分级,无法准确衡量模型的具体优缺点。为了弥合这一差距,推动开源社区的发展,作者提出了一个统一的解决方案,即
ImgEdit框架。
2.2. 核心贡献/主要发现
这篇论文的核心贡献可以概括为一个完整的生态系统,涵盖了数据、模型和评估三个方面:
- 高质量的数据生成流水线 (Robust Pipeline): 论文设计并实现了一个自动化的多阶段数据构建流程。该流程整合了当前最先进的模型(如
GPT-4o、SAM2等)来保证生成数据的质量、多样性和准确性。 - 大规模、高多样性的新数据集 (New Dataset -
ImgEdit):- 包含 120 万个高质量的图像编辑对。
- 单轮编辑 (Single-Turn): 涵盖了 10 种代表性的编辑任务,包括像物体抠图 (object extraction) 和混合编辑 (hybrid edit) 这样的新颖任务。
- 多轮编辑 (Multi-Turn): 包含 11 万个样本,专门设计了内容记忆 (content memory)、内容理解 (content understanding) 和版本回溯 (version backtracking) 三种交互类型,填补了现有数据集的空白。
- 可靠的评估基准 (Reliable Benchmark -
ImgEdit-Bench):- 设计了包含基础套件 (basic suite)、挑战套件 (challenging suite) 和多轮套件 (multi-turn suite) 的三层评估体系。
- 从指令遵循度、编辑质量和细节保留度三个关键维度进行评估,比传统指标更贴近人类判断。
- 先进的模型验证 (Advanced Models):
- 训练了
ImgEdit-E1模型,证明了ImgEdit数据集的有效性,其性能超越了其他开源模型。 - 发布了
ImgEdit-Judge,一个与人类偏好对齐的评估模型,为社区提供了可扩展的自动化评估工具。
- 训练了
3. 预备知识与相关工作
3.1. 基础概念
为了更好地理解本文,以下是一些关键的基础概念:
- 扩散模型 (Diffusion Models): 一类强大的生成模型。其基本思想是:首先在一个“前向过程”中逐步向图像添加噪声,直到图像变为完全的随机噪声;然后训练一个神经网络模型来学习这个过程的“逆向过程”,即从噪声中逐步还原出清晰的图像。像
Stable Diffusion (SD)、SDXL和FLUX都是著名的扩散模型。 - 指令式图像编辑 (Instruction-based Image Editing): 指的是模型根据用户提供的自然语言指令(如“把这只猫的颜色变成白色”)来修改一张输入图像。这比单纯的文生图更具挑战性,因为它要求模型既要理解指令,又要准确地对图像进行局部或全局的修改,同时保持未编辑区域的真实性和一致性。
- 视觉语言模型 (Vision-Language Models, VLMs): 这类模型能够同时处理和理解图像与文本两种模态的信息。例如,
GPT-4o和开源的Qwen-VL就是强大的 VLM,它们可以回答关于图像的问题、描述图像内容,甚至理解复杂的图文指令。本文使用 VLM 来生成高质量的编辑指令和编码图文输入。 - 图像分割 (Image Segmentation): 一项计算机视觉任务,旨在将图像中的每个像素分配到一个特定的对象类别。这会为图像中的每个对象生成一个精确的掩码 (mask)。本文使用
SAM2模型来精确地定位待编辑的对象区域。 - 图像修复 (In-painting): 一项图像处理技术,用于填充图像中缺失或损坏的部分。在图像编辑中,通常先用掩码标出待编辑的区域,然后使用修复技术根据指令生成新的内容填入该区域。
- 主干网络 (Backbone): 在深度学习模型中,通常指负责从输入数据(如图像)中提取通用特征的核心网络部分。例如,在视觉任务中,一个预训练的卷积神经网络(CNN)或视觉 Transformer(ViT)常被用作主干网络。
- 单轮 vs. 多轮交互 (Single-turn vs. Multi-turn Interaction):
- 单轮: 用户给出一条指令,模型执行一次操作,对话结束。
- 多轮: 用户与模型进行连续的多轮对话,模型需要记住之前的对话历史和编辑状态,并在此基础上理解新的指令。例如,第一轮:“给猫加上一顶帽子”,第二轮:“把它变成红色”,这里的“它”指的就是第一轮中添加的帽子。
3.2. 前人工作
论文在 Table 1 和 Table 2 中系统地回顾了现有的图像编辑数据集和基准,并指出了它们的局限性。
3.2.1. 现有数据集
以下表格总结了论文中提到的代表性数据集及其与 ImgEdit 的对比:
GN/A
| 数据集 | 大小 | 类型数 | 分辨率 (px) | 质量得分 (GPT Score) | 真实性 (Fake score)↓ | 小编辑区域比例↓ | 概念多样性 | 特殊任务支持 |
|---|---|---|---|---|---|---|---|---|
| MagicBrush [83] | 10K | 5 | 500 | 3.88 | 0.987 | N/A | 2k | 支持多轮 |
| InstructPix2Pix [6] | 313K | 4 | 512 | 3.87 | 0.987 | N/A | 11.6k | - |
| HQ-Edit [28] | 197K | 6 | ≥768 | 4.55 | 0.186 | N/A | 3.7k | - |
| SEED-Data-Edit [18] | 3.7M | 6 | 768 | 3.96 | 0.983 | 8% | 29.2k | 支持多轮 |
| UltraEdit [86] | 4M | 9 | 512 | 4.25 | 9% | 3.7k | - | |
| AnyEdit [79] | 2.5M | 25 | 512 | 3.83 | 0.772 | 16% | 6.4k | 支持ID一致性 |
| ImgEdit (本文) | 1.2M | 13 | ≥1280 | 4.71 | 0.050 | 0.8% | 8.7k | 支持ID一致性, 混合编辑, 多轮 |
分析:
InstructPix2Pix数据集完全是合成的,限制了其在真实图像上的泛化能力。MagicBrush质量高(有人工标注),但规模太小(仅1万对)。HQ-Edit、UltraEdit、AnyEdit等虽然规模较大,但在图像分辨率、编辑真实性(Fake score高表示容易被检测出是伪造的)、编辑指令多样性等方面存在不足。SEED-Data-Edit和MagicBrush虽然包含多轮样本,但论文指出其多轮交互之间缺乏语义关联,未能真正模拟现实世界中的连续编辑场景。
3.2.2. 现有基准测试
类似地,现有的评估基准也存在问题:
- 依赖简单指标: 大多依赖
CLIP Score、PSNR、SSIM等与人类感知差异较大的自动度量。 - 评估维度单一: 如
I2EBench虽然使用了 GPT-4o 进行评估,但评估维度单一,未能全面刻画模型能力。 - 缺乏难度分级: 没有区分简单任务和复杂任务,导致评估结果不够公平和深入。
- 缺少多轮评估: 尽管
GPT-4o等模型已经展示了多轮编辑能力,但目前还没有专门针对此项能力的公开基准。
3.3. 技术演进
图像编辑技术的数据集和评估方法正在从“规模优先”向“质量与多样性优先”演进。早期工作侧重于通过自动化流程大规模生成数据,但质量参差不齐。近期工作开始引入人工标注或更强的模型(如 GPT-4)来提升数据质量。本文 ImgEdit 正是这一趋势的集大成者,它不仅追求大规模和高质量,还通过精心设计的任务类型(如身份保持、多轮交互)来推动模型解决更复杂、更实际的问题。
3.4. 差异化分析
与以往工作相比,ImgEdit 的核心差异化优势在于其统一性 (Unified) 和前瞻性 (Forward-looking):
- 数据质量的统一高标准: 通过整合最先进的多种模型(VLM、检测、分割)和严格的后处理流程,
ImgEdit在分辨率、真实性和指令质量上都设立了新的标杆。 - 任务类型的统一与扩展:
ImgEdit不仅覆盖了传统的编辑类型,还首次系统性地引入了身份保持抠图、混合编辑和三种有实际意义的多轮交互任务,这些都是之前数据集中缺失或设计不完善的。 - 评估体系的统一与深化:
ImgEdit-Bench首次提出了包含基础、挑战、多轮三个难度等级的评估框架,并定义了指令遵循、编辑质量、细节保留三大评估维度,使得模型评估更加全面和深入。
4. 方法论
ImgEdit 的方法论主要包含四个部分:定义新颖的编辑任务类型、构建高质量数据的自动化流水线、训练一个验证数据有效性的模型 ImgEdit-E1,以及构建全面的评估基准 ImgEdit-Bench。
4.1. 方法原理
ImgEdit 的核心思想是“用最先进的工具链系统性地解决数据和评估的瓶颈”。研究者认为,要训练出媲美闭源模型的开源模型,必须先拥有同等质量的数据和评估体系。因此,他们设计了一套精密的自动化流水线,将人类专家的判断和设计思路编码到流程中,利用 GPT-4o 等强大模型的能力来大规模、低成本地生成专家级的数据。
4.2. 核心方法详解 (逐层深入)
4.2.1. ImgEdit 编辑任务定义 (Section 3.1)
ImgEdit 将编辑任务分为单轮和多轮两大类,如下图所示:
该图像是示意图,展示了单转和多转编辑任务的类型。左侧列出了多种单转编辑任务,如添加、移除和替换等;右侧则显示了多转任务,包括内容记忆和版本回溯等。
- 单轮编辑 (Single-Turn Edit):
- 局部编辑:
添加、移除、替换、修改属性(Alter, 如颜色/材质)、改变动作(Motion Change)。 - 全局编辑:
背景替换、风格/色调迁移。 - 视觉编辑 (Visual Edit): 使用一张参考图像来编辑目标图像,如“把这只猫的围巾换成参考图里的样式”。
- 新颖任务:
- 物体抠图 (Object Extraction): 例如“把这只猫抠出来放到白色背景上”,要求在抠图的同时保持物体的身份特征。
- 混合编辑 (Hybrid Edit): 一条指令包含多个操作,例如“给猫加上围巾,并把它的毛色变成白色”。
- 局部编辑:
- 多轮编辑 (Multi-Turn Edit): 针对连续对话场景设计了三种挑战:
- 内容记忆 (Content Memory): 模型需记住早期对话中设定的全局约束。例如,第一轮说“之后的所有编辑都要有木质纹理”,后续指令不再重复,但模型仍需遵守。
- 内容理解 (Content Understanding): 模型需理解后续指令中对先前内容的指代。例如,第一轮“在衣柜里放一件衣服”,第二轮“把它变成黑色”,模型需要理解“它”指的是衣服。
- 版本回溯 (Version Backtracking): 模型能够撤销操作或基于历史版本进行编辑。例如,“撤销上一步操作”或“从原始图像开始编辑”。
4.2.2. ImgEdit 自动化数据流水线 (Section 3.2)
下图展示了 ImgEdit 的数据生成流水线,这是一个多阶段、高度自动化的过程:
该图像是一个雷达图,展示了不同模型在多个图像编辑子任务上的评分,包括添加、移除、替换等。模型如 ImgEdit-E1、UltraEdit 和 AnySD 等在不同任务上的表现进行了对比。
-
数据准备 (Data Preparation):
- 源数据: 选用
LAION-Aesthetics数据集,因为它场景多样、分辨率高。 - 初筛: 保留短边超过 1280 像素且美学评分高于 4.75 的高质量图像。
- 元数据生成: 使用
GPT-4o为图像生成简洁的标题,并提取其中可编辑的物体和背景名词。
- 源数据: 选用
-
定位与分割 (Grounding and Segmentation):
- 物体定位: 使用开放词汇检测器
YOLO-World[8] 定位上一步提取出的物体,生成边界框 (bounding box)。 - 精确分割: 使用分割模型
SAM2[57] 将边界框优化为像素级的分割掩码 (segmentation mask)。 - 质量过滤: 对分割出的物体区域进行二次筛选,剔除与物体名称
CLIP Score[54] 低或面积过小的区域,确保目标显著且识别准确。
- 物体定位: 使用开放词汇检测器
-
指令生成 (Instruction Generation):
- 输入: 将原始图像标题、编辑类型、物体边界框和目标物体等信息提供给
GPT-4o。 - 生成: 指示
GPT-4o生成包含空间位置信息(基于边界框)的多样化、概念丰富的编辑指令。对于多轮任务,通过提供少量示例让GPT-4o一次性生成完整的对话。
- 输入: 将原始图像标题、编辑类型、物体边界框和目标物体等信息提供给
-
图像修复工作流 (In-painting Workflow):
- 基础模型: 选用最先进的生成模型,如
FLUX[13] 和SDXL[53]。 - 控制插件: 结合
IP-Adapters(用于视觉编辑)、ControlNet(用于姿态、边缘控制) 等插件实现精确可控的编辑。 - 定制流程: 针对每种编辑任务设计了专门的流程(详见附录 C.2),例如,在视觉编辑中使用
FLUX-Redux来控制语义,在属性修改中使用Canny边缘检测来保留细节。
- 基础模型: 选用最先进的生成模型,如
-
后处理 (Post-Processing):
- 最终筛选: 使用
GPT-4o对生成的(原始图像,指令,编辑后图像)三元组进行最终的质量评估。GPT-4o会根据特定任务的评分标准打分,只有高分样本才被保留。
- 最终筛选: 使用
4.2.3. ImgEdit-E1 模型架构 (Section 3.3)
为了验证 ImgEdit 数据集的有效性,作者训练了一个名为 ImgEdit-E1 的新模型。其架构如上图右侧所示:
- 文本/图像编码器 (Text/Image Encoder):
- 使用了一个强大的视觉语言模型 (VLM)
Qwen2.5-VL-7B[4] 作为主要的编码器。它同时接收编辑指令 (文本)和原始图像 (图像) 作为输入,进行联合编码。这种方式能让模型更好地理解指令与图像内容的对应关系。
- 使用了一个强大的视觉语言模型 (VLM)
- 视觉特征提取器 (Vision Encoder):
- 额外使用了一个
SigLIP[68] 视觉编码器,专门从原始图像中提取底层的视觉特征(如纹理、结构)。
- 额外使用了一个
- 生成主干网络 (Generation Backbone):
- 采用了
FLUX[13],这是一个基于 Transformer 架构的扩散模型(DiT, Diffusion-in-Transformer),代表了当前生成模型的最前沿。
- 采用了
- 特征融合与训练:
Qwen2.5-VL输出的高层语义特征和SigLIP输出的底层视觉特征,分别经过一个MLP(多层感知机) 投影后拼接在一起,共同作为条件输入到FLUX的文本分支中。- 训练分为两个阶段:第一阶段只训练
MLP连接器,第二阶段联合微调FLUX和MLP。
4.2.4. ImgEdit-Bench 基准测试 (Section 4)
ImgEdit-Bench 是一个三层次的评估体系,旨在全面衡量模型的编辑能力。
- 基础编辑套件 (Basic-Edit Suite): 包含 9 种常见的编辑任务,共 734 个测试用例。这些用例是在简单背景、主体突出的图像上进行的,用于评估模型的基础能力。
- 理解-定位-编辑套件 (Understanding-Grounding-Editing, UGE Suite): 包含 47 个精心挑选的复杂场景,如目标被遮挡、多个同类实例、伪装物体等。指令也更复杂,需要空间推理或多目标操作。此套件用于评估模型在挑战性场景下的综合能力。
- 多轮套件 (Multi-Turn Suite): 针对内容记忆、内容理解和版本回溯三种能力,每个任务包含 10 个测试用例,每个用例有 3 轮交互。
4.2.5. ImgEdit-Judge 评估模型 (Section 4.3)
由于使用 GPT-4o API 进行大规模评估成本高昂,作者构建了一个开源的评估模型 ImgEdit-Judge。
-
训练数据: 使用了 20 万条经过后处理的评分记录。
-
基础模型: 基于
Qwen2.5-VL-7B[4] 进行微调。 -
性能: 实验证明,
ImgEdit-Judge在与人类偏好的一致性上优于GPT-4o-mini和原始的Qwen2.5-VL-7B,达到了近 70% 的对齐度。如下图所示:
该图像是一个词云图,展示了不同任务相关的关键词,词语大小表示其重要性。图中的关键词如“image”、“area”、“person”等频繁出现,表明在图像编辑任务中这些概念的重要性。
5. 实验设置
5.1. 数据集
实验评估所用的数据集是本文提出的 ImgEdit-Bench,其构成已在 4.2.4 节中详细介绍。ImgEdit 数据集(120万样本)则用于训练 ImgEdit-E1 模型。
下图是 ImgEdit 数据集中的一些单轮和多轮编辑样本,可以直观地看到其高质量和任务多样性。
单轮编辑样本 (原文 Figure 8):
该图像是示意图,展示了 GPT-4o-Image 的多轮编辑案例,包含三个内容记忆任务与三个内容理解任务,每个任务展示了针对不同图像的逐步编辑过程。案例展示了如何在多轮交互中进行复杂编辑,包括对物体颜色、形状及文本的修改。
这些样本展示了移除、换色、添加、替换等多种操作,编辑效果自然且符合指令。
多轮编辑样本 (原文 Figure 9):
该图像是一个示意图,展示了多轮图像编辑的过程,包括内容记忆、内容理解和版本回溯三部分。每部分包含多个编辑任务的不同步骤,通过图示展示了如何逐步完成每项编辑,突出编辑过程中的变化与调整。
这些样本展示了多轮对话中的内容理解(如第二行的“make it rain”)和内容记忆。
5.2. 评估指标
论文采用了多维度的评估指标,力求全面和客观。
5.2.1. 人工/VLM 辅助评估
主要评估维度由 GPT-4o 或 ImgEdit-Judge 在 1-5 分的范围内进行打分:
- 指令遵循度 (Instruction Adherence):
- 概念定义: 衡量模型生成的结果是否准确地理解并执行了文本指令中的所有要求。这是最基本的维度,如果指令未被遵循,其他维度的得分会被限制。
- 公式: 无标准数学公式,为主观评分。
- 解释: 评分基于模型是否正确识别了编辑对象、编辑操作以及操作的具体属性。
- 编辑质量 (Image-Editing Quality):
- 概念定义: 评估在被编辑区域内,生成内容的真实性、合理性和自然度。例如,添加的物体是否有不自然的边缘,替换的纹理是否与光照匹配。
- 公式: 无标准数学公式,为主观评分。
- 解释: 该项得分的上限是“指令遵循度”的得分。
- 细节保留度 (Detail Preservation):
- 概念定义: 评估在不应被编辑的区域,图像的原始细节和内容是否被完好地保留,没有出现不必要的扭曲、模糊或伪影。
- 公式: 无标准数学公式,为主观评分。
- 解释: 该项得分的上限同样是“指令遵循度”的得分。
5.2.2. 伪造检测分数 (Fake Score)
- 概念定义: 该指标用于量化生成图像的“真实性”,即它们在多大程度上能骗过一个先进的伪造图像检测器。得分越低,表示编辑痕迹越不明显,图像质量越高。
- 检测工具: 使用了
FakeShield[75],一个开源的伪造检测模型。 - 指标计算:
- Table 1 中的 Fake Score: 指的是
FakeShield模型将编辑后的图像识别为“伪造”的置信度 (confidence)。因此,分数越低越好。ImgEdit的 0.050 远低于其他数据集的 0.7-0.9+,表明其生成的数据质量极高。 - Table 4 中的 Fake Score: 指的是在
ImgEdit-Bench上评估各个模型输出时,FakeShield的召回率 (recall),即成功检测出编辑痕迹的比例。因此,分数越高表示模型生成的图像越容易被检测出来,即质量越差。实验中所有模型得分都在 0.99-1.00,表明当前所有编辑模型的输出都还远未达到以假乱真的地步。
- Table 1 中的 Fake Score: 指的是
5.3. 对比基线
论文将自研的 ImgEdit-E1 与一系列主流的开源和闭源模型进行了比较:
- 闭源模型:
GPT-4o-Image[51] - 开源模型:
-
Step1X-Edit[46]: 同样使用 VLM 和 DiT 架构,是ImgEdit-E1的强力竞争对手。 -
Ultra-Edit[86]: 基于 UNet 架构。 -
AnySD[79]: 在 UNet 中引入了任务感知的MoE(Mixture-of-Experts) 模块。 -
MagicBrush[83]: 基于 UNet 架构,在高质量小数据集上微调。 -
InstructPix2Pix[6]: 经典的图像编辑模型,基于 UNet 架构。这些基线模型涵盖了不同的架构(UNet vs DiT)、不同的编码器(CLIP vs VLM)和不同的训练数据,具有很好的代表性。
-
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 单轮编辑性能对比
下图(原文 Figure 5)和下表(原文 Table 4)展示了各模型在 ImgEdit-Bench 上的定量评估结果。

以下是原文 Table 4 的结果:
| GPT-4o-Image | Step1X-Edit | ImgEdit-E1 | UltraEdit | AnySD | MagicBrush | Instruct-Pix2Pix | |
|---|---|---|---|---|---|---|---|
| Addition | 4.65 | 3.90 | 3.82 | 3.63 | 3.12 | 2.72 | 2.29 |
| Removement | 3.81 | 2.61 | 2.40 | 1.71 | 2.34 | 1.57 | 1.49 |
| Replacement | 4.49 | 3.45 | 2.80 | 3.13 | 2.71 | 1.89 | 1.93 |
| Attribute Alter | 4.26 | 3.13 | 4.04 | 3.01 | 2.66 | 1.47 | 1.79 |
| Motion Change | 4.76 | 3.43 | 3.21 | 3.57 | 3.31 | 1.39 | 1.51 |
| Style Transfer | 4.75 | 4.44 | 4.38 | 3.69 | 3.27 | 2.49 | 3.54 |
| Background Change | 4.62 | 3.19 | 3.38 | 3.31 | 2.37 | 2.03 | 1.67 |
| Object Extraction | 2.96 | 1.87 | 2.55 | 2.02 | 1.82 | 1.31 | 1.33 |
| Hybrid Edit | 4.54 | 2.52 | 2.87 | 2.33 | 2.07 | 1.80 | 1.48 |
| UGE Score | 4.70 | 3.11 | 3.20 | 2.36 | 2.56 | 1.96 | 1.42 |
| Fake Score | 1.00 | 0.99 | 0.99 | 1.00 | 1.00 | 0.99 | 1.00 |
分析与发现:
- 闭源模型遥遥领先:
GPT-4o-Image在几乎所有任务上都取得了最高的得分,显示出其在指令理解、编辑质量和细节保留方面的强大能力。 ImgEdit-E1性能卓越: 在所有开源模型中,ImgEdit-E1和Step1X-Edit表现最好。特别是在属性修改 (Attribute Alter)、物体抠图 (Object Extraction) 和混合编辑 (Hybrid Edit) 等ImgEdit数据集中重点关注的新任务上,ImgEdit-E1明显优于其他开源模型,甚至在Attribute Alter上超过了Step1X-Edit,这强有力地证明了ImgEdit数据集的价值。- 架构优势明显:
ImgEdit-E1和Step1X-Edit都采用了 VLM+DiT 的架构,其性能远超使用传统 UNet 架构的UltraEdit、MagicBrush等模型。这表明更强大的文本编码器(VLM)和生成主干网络(DiT)是提升编辑性能的关键。 - 挑战性任务的短板: 所有模型(包括
GPT-4o-Image)在Object Extraction任务上得分都相对较低,说明这是一个普遍的难点。ImgEdit-E1在此项上的领先优势再次凸显了针对性训练数据的重要性。 - UGE Score 反映综合能力: 在复杂的
UGE测试中,ImgEdit-E1和Step1X-Edit领先于其他开源模型,说明其在理解、定位和编辑的综合能力上更胜一筹。
6.1.2. 定性结果分析
下图(原文 Figure 6)提供了直观的视觉对比。

分析与发现:
- 细节保留: 在“改变自行车颜色”任务中,只有
ImgEdit-E1和GPT-4o-Image成功地在改变颜色的同时保留了车上的积雪细节,其他模型要么改变了雪的颜色,要么产生了伪影。 - 精确移除: 在“移除路灯”任务中,
ImgEdit-E1和GPT-4o-Image完美地移除了目标并自然地填充了背景。而其他模型有的产生模糊,有的错误地移除了无关物体,有的则完全失败。 - 指令遵循: 在“换成银色汽车”任务中,闭源模型和
ImgEdit-E1生成的结果更自然、更符合指令。 - 新任务能力:
ImgEdit-E1和GPT-4o-Image是唯二能够成功执行物体抠图 (object extraction) 任务的模型。
6.1.3. 多轮编辑性能分析
论文对支持多轮编辑的 GPT-4o-Image 和 Gemini-2.0-Flash 进行了评估。
-
版本回溯: 两个模型都能在两轮内完成简单的撤销操作。
-
内容记忆与理解: 两个模型都具备一定的能力,但并不稳定。它们有时会误解指代关系或忘记之前设定的前提条件。
-
结论: 总体而言,即使是顶级的闭源模型,对复杂多轮编辑的支持也还处于初级阶段,这表明
ImgEdit-Bench的多轮套件具有很强的前瞻性。下图(原文 Figure 11, 12)展示了
GPT-4o和Gemini在多轮任务上的表现案例。 GPT-4o-Image 多轮案例:

Gemini-2.5-flash 多轮案例:
该图像是图表,展示了不同模型的对齐比率,包括 Qwen2.5VL-7B、GPT-4-o-mini 和 ImgEdit-Judge,横轴为模型名称,纵轴为对齐比率,说明了模型在人体偏好对齐方面的表现差异。
6.2. 消融实验/参数分析
论文的附录 A.5 中明确提到,由于本文的核心贡献不是 ImgEdit-E1 模型本身,因此没有对其模型结构、训练数据或训练过程进行详细的消融研究。这被作者自己列为一项局限性。
7. 总结与思考
7.1. 结论总结
这篇论文通过构建一个统一的框架,显著推动了开源图像编辑领域的发展。其核心贡献和结论如下:
- 识别了核心问题: 指出当前开源社区与闭源模型之间的差距源于高质量数据和可靠评估基准的缺失。
- 提供了高质量数据集
ImgEdit: 通过一个复杂的自动化流水线,创建了一个包含 120 万样本的大规模、高质量数据集。该数据集不仅质量上乘,还引入了身份保持抠图、混合编辑以及三种有意义的多轮交互任务,填补了现有空白。 - 验证了数据集的价值: 在
ImgEdit上训练的ImgEdit-E1模型在多项任务上超越了现有的开源模型,证明了“数据质量是第一生产力”。 - 建立了全面的基准
ImgEdit-Bench: 提供了一个包含不同难度等级和多个评估维度的基准测试,使得对模型能力的评估更加深入和公平,并发布了开源评估模型ImgEdit-Judge。 - 指明了未来方向: 实验结果揭示了 VLM 编码器和 DiT 架构的优势,并强调了模型在理解 (understanding)、定位 (grounding) 和编辑 (editing) 三个方面的综合能力是未来发展的关键。
7.2. 局限性与未来工作
作者在论文中坦诚地指出了当前工作的局限性,并展望了未来方向:
- 模型本身非最优:
ImgEdit-E1模型主要用于验证数据集,其架构和训练策略并未经过充分的消融实验和优化,其编辑能力尚未达到可直接用于下游应用的完美程度。 - 统一生成模型的潜力:
ImgEdit-E1的架构有潜力发展成一个统一的生成模型,不仅能做编辑,还能执行文生图、底层图像处理(如生成深度图)等任务,但这需要额外的训练。 - 多轮编辑能力仍需提升: 即便是最先进的模型,在多轮交互方面也表现不佳,这仍是一个开放的研究挑战。
7.3. 个人启发与批判
这篇论文具有很高的价值,不仅在于其贡献的资源,更在于其展现的研究范式。
-
个人启发:
- 数据驱动的研究范式: 论文深刻地诠释了在当前大模型时代,高质量、大规模、多样化的数据是驱动领域发展的核心引擎。相比于孤立地提出一个新模型,构建一个高质量的数据生态系统(数据+基准)对整个社区的贡献可能更大。
- “用魔法打败魔法”: 论文中利用最先进的闭源模型
GPT-4o来构建高质量数据集,以期训练出能与之抗衡的开源模型,这种“借力打力”的思路对于资源有限的学术界和开源社区来说,是一种非常务实且高效的策略。 - 系统性思维: 作者没有孤立地解决数据、模型或评估中的任何一个问题,而是将它们视为一个整体,提出了一个端到端的解决方案。这种系统性的思考方式值得借鉴。
-
批判性思考:
- 对
GPT-4o的依赖与潜在偏见: 整个ImgEdit框架(从指令生成到最终评估)都深度依赖GPT-4o。这带来一个潜在风险:数据集和基准可能无形中“过拟合”了GPT-4o的行为偏好和知识盲区。例如,如果GPT-4o在生成某种风格的指令时存在偏见,这种偏见就会被固化到数据集中,从而影响后续模型的训练和评估。 ImgEdit-Judge的对齐度问题:ImgEdit-Judge与人类的对齐度约为 70%,虽然已经很高,但 30% 的不一致性仍然是一个不可忽视的差距。在大规模自动化评估中,这可能导致系统性的评估偏差。- 真实世界多样性的挑战: 尽管
ImgEdit极大地丰富了任务类型,但现实世界的编辑需求是无穷无尽且充满“长尾”场景的。自动化流水线生成的数据在创造性和非预期性上可能仍无法与真实用户产生的数据相媲美。 - 模型贡献的清晰度: 虽然
ImgEdit-E1性能优越,但其架构是对Step1X-Edit等工作的继承和融合,模型本身的创新性相对有限。论文的重点和亮点确实是数据集和基准,模型更像是一个成功的“验证性实验”。
- 对
相似论文推荐
基于向量语义检索推荐的相关论文。