1. 论文基本信息

1.1. 标题

ProEdit: Inversion-based Editing From Prompts Done Right

1.2. 作者

论文的主要作者包括 Zhi Ouyang、Dian Zheng、Xiao-Ming Wu、Jian-Jian Jiang、Kun-Yu Lin、Jingke Meng 和 Wei-Shi Zheng。他们分别来自中山大学 (Sun Yat-sen University)、香港中文大学多媒体实验室 (CUHK MMLab)、南洋理工大学计算与数据科学学院 (College of Computing and Data Science, Nanyang Technological University) 和香港大学 (The University of Hong Kong) 等机构。

1.3. 发表期刊/会议

论文目前作为预印本 (preprint) 在 HuggingFace Papers 和 arXiv 上发布。其 arXiv ID 2512.22118 暗示该研究可能计划于2025年12月发布。

1.4. 发表年份

2025年 (根据论文提供的发布信息和 arXiv ID)。

1.5. 摘要

现有的基于反演 (Inversion-based) 视觉编辑方法提供了一种无需训练即可根据用户指令编辑图像或视频的有效方式。这些方法通常在采样过程 (sampling process) 中注入源图像信息 (source image information) 以保持编辑一致性。然而，这种采样策略过度依赖源信息，对目标图像的编辑效果产生负面影响（例如，无法按照指令改变主体的属性，如姿态、数量或颜色）。

针对此问题，本文提出了 ProEdit 方法，旨在从注意力 (attention) 和潜在空间 (latent aspects) 两个方面解决这一问题。在注意力方面，引入了 KV-mix 模块，在编辑区域混合源和目标的 KV 特征，从而减轻源图像对编辑区域的影响，同时保持背景一致性。在潜在空间方面，提出了 Latents-Shift 模块，通过扰动源潜在表示 (latent) 的编辑区域，消除反演潜在表示 (inverted latent) 对采样的影响。在多项图像和视频编辑基准测试中进行的广泛实验表明，ProEdit 实现了最先进的 (SOTA) 性能。此外，ProEdit 的设计具有即插即用 (plug-and-play) 特性，可以无缝集成到现有的反演和编辑方法中，如 RFSolver、FireFlow 和 UniEdit。

1.6. 原文链接

HuggingFace Papers 链接: https://huggingface.co/papers/2512.22118
PDF 链接: https://arxiv.org/pdf/2512.22118.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

论文旨在解决基于反演 (inversion-based) 视觉编辑方法中普遍存在的过度注入源图像信息 (excessive source image information injection) 的问题。现有的方法为了保持背景和结构一致性 (background and structural consistency)，在采样过程 (sampling process) 中过度引入源图像的潜在表示 (latents) 和注意力特征 (attention features)。这导致在对图像或视频的主体进行编辑时，模型过于受源图像属性的约束，难以按照用户指令（例如改变颜色、姿态、数量）进行精确且高质量的修改，从而牺牲了编辑的自由度和准确性。

2.1.2. 为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白？

基于反演 (inversion-based) 的视觉编辑作为一种训练无关 (training-free) 的范式，具有极高的灵活性和效率，在图像和视频修改领域展现出巨大潜力。然而，现有方法在追求源内容保真度 (fidelity to source content) 的过程中，无意中引入了过度依赖 (over-reliance) 源信息的弊端。具体挑战和空白包括：

注意力注入问题 (Attention Injection Problem): 全局注入源注意力特征 (attention features) 导致模型在编辑区域仍然强烈关注源图像的属性，忽略文本引导 (text guidance)，尤其是在进行颜色、纹理等属性编辑时表现不佳。
潜在分布注入问题 (Latent Distribution Injection Problem): 从源图像反演 (invert) 得到的潜在噪声 (inverted latents) 仍然保留了过多的源图像属性信息，为后续的采样 (sampling) 过程设定了一个过于强大的先验 (prior)，使得模型倾向于重建源图像的分布，而非生成符合目标提示的全新编辑。
编辑自由度受限: 当目标提示与源提示之间的差异较大时，现有方法往往难以生成高质量的编辑结果，因为它们无法有效“摆脱”源图像的束缚。

2.1.3. 这篇论文的切入点或创新思路

ProEdit 的创新思路在于从注意力 (attention) 和潜在空间 (latent aspects) 两个方面，全面且有针对性地消除源图像的负面影响。它不再采用全局、无差别的源信息注入策略，而是通过局部混合 (local mixing) 和局部扰动 (local perturbation) 的方式，在保持非编辑区域一致性的前提下，赋予编辑区域更高的自由度来响应目标提示。

2.2. 核心贡献/主要发现

2.2.1. 论文最主要的贡献

深入分析并识别问题根源: 论文首次深入研究并明确指出，现有基于反演 (inversion-based) 编辑中过度注入源图像信息 (excessive source image information injection) 的问题，其根源在于潜在初始化 (latent initialization) 和注意力注入机制 (attention injection mechanisms)，并详细分析了这些问题如何导致编辑失败。
提出创新的 ProEdit 框架: 提出了一个新颖的训练无关 (training-free) 方法 ProEdit，通过引入 KV-mix 和 Latents-Shift 模块，从注意力 (attention) 和潜在表示 (latent perspectives) 两个方面协同工作，有效消除源图像的负面影响，同时保持背景一致性。
- KV-mix: 在识别出的编辑区域，智能地混合源和目标的 键 (Key, K) 和 值 (Value, V) 特征，而非编辑区域则完全注入源 KV 特征，以平衡编辑自由度和背景保真度。这一机制适用于所有注意力操作，无需手动调整注意力头、层或块。
- Latents-Shift: 受 AdaIN 启发，通过向源潜在表示 (latent) 的编辑区域注入随机噪声来扰动 (perturb) 其分布，从而削弱源图像属性的强大先验 (prior) 影响，同时保持结构和背景一致性。
广泛验证其有效性和通用性: 通过在多个图像和视频编辑基准测试上的大量实验，证明了 ProEdit 的有效性、即插即用 (plug-and-play) 特性以及在各种编辑任务中的最先进 (SOTA) 性能，尤其是在现有方法表现不佳的属性编辑 (attribute editing) 方面展现出前所未有的性能。

2.2.2. 论文得出了哪些关键的结论或发现？

编辑质量显著提升: ProEdit 在多个定量和定性评估中均优于现有最先进 (SOTA) 的基于反演 (inversion-based) 编辑方法，在保持非编辑内容一致性的同时，实现了高质量的编辑效果。
属性编辑能力增强: 论文特别强调，ProEdit 能够有效解决现有方法在颜色编辑 (color editing) 等属性编辑任务上的弱点，这得益于其对潜在分布注入问题 (latent distribution injection problem) 的有效缓解。
模块化和兼容性: KV-mix 和 Latents-Shift 模块可以无缝集成到多种现有的基于流 (flow-based) 反演方法中（如 RF-Solver、FireFlow、UniEdit），证明了其良好的兼容性和即插即用 (plug-and-play) 特性。
协同作用: KV-mix 和 Latents-Shift 模块共同作用，能够更彻底地消除源图像的负面影响，从而实现更好的编辑结果。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 流匹配 (Flow Matching)

流匹配 (Flow Matching) 是一种用于生成建模 (generative modeling) 的新范式，它旨在学习一个速度场 (velocity field) $\pmb v_\theta$ 来将一个简单的噪声分布 (noise distribution)（通常是高斯分布 $\pi_0$ ）确定性地转换为复杂的目标数据分布 (data distribution) $\pi_1$ 。这种转换沿着一条连续轨迹 (continuous trajectory) 进行，该轨迹通过一个常微分方程 (Ordinary Differential Equation, ODE) 定义。与扩散模型 (Diffusion Models) 通常涉及随机过程不同，流匹配 (Flow Matching) 通常学习一个确定性 (deterministic) 的概率流 ODE (Probability Flow ODE)，这使得采样 (sampling) 过程更快且更稳定。

3.1.2. 常微分方程 (Ordinary Differential Equation, ODE)

常微分方程 (ODE) 是包含未知函数及其导数的数学方程。在流匹配 (Flow Matching) 中，ODE 被用来描述数据点 (data point) $Z_t$ 在时间 $t$ 上的演变轨迹，其变化率由速度场 (velocity field) $\pmb v_\theta(Z_t, t)$ 决定。通过数值求解这个 ODE，可以从噪声 $Z_0$ 逐步推导到真实数据 $Z_1$ 。

3.1.3. 反演 (Inversion)

在基于反演 (inversion-based) 的视觉编辑中，反演 (inversion) 是指通过逆向求解生成模型 (generative model) 的过程，将一张真实图像转换回其对应的潜在噪声表示 (latent noise representation)。对于流匹配 (Flow Matching) 模型，这意味着逆向求解概率流 ODE (Probability Flow ODE)，从真实图像 $Z_1$ 开始，沿着负方向的速度场轨迹，最终得到原始噪声 $Z_0$ 。这个反演得到的噪声 $Z_0$ 随后作为采样 (sampling) 过程的起点，用于生成编辑后的目标图像。

3.1.4. 注意力机制 (Attention Mechanism)

注意力机制 (Attention Mechanism) 是Transformer 架构中的核心组件，它允许模型在处理序列（例如文本词元 (tokens) 或图像视觉词元 (visual tokens)）时，动态地权衡不同部分的重要性。其核心思想是计算查询 (Query, Q)、键 (Key, K) 和值 (Value, V) 之间的交互。

查询 (Q): 代表当前要处理的元素。
键 (K): 代表序列中所有其他元素的信息。
值 (V): 存储序列中所有其他元素的实际内容。通过计算 $Q$ 和 $K$ 之间的相似度（通常是点积），得到注意力权重 (attention weights)，这些权重指示了每个 $K$ （及其对应的 $V$ ）对当前 $Q$ 的重要性。然后，将 $V$ 与这些权重进行加权求和，得到当前 $Q$ 的上下文表示 (contextual representation)。

Diffusion Transformers (DiT) 是一种将Transformer 架构应用于扩散模型 (Diffusion Models) 的方法。它用Transformer 替换了传统的U-Net 骨干网络，用于预测去噪的方向。DiT 通常能提供更好的可扩展性和性能。 Multi-Modal Diffusion Transformer (MM-DiT) 进一步扩展了 DiT，使其能够处理多种模态 (modalities)，例如同时融合文本和图像信息。在图像和视频生成中，MM-DiT 通过其自注意力 (self-attention) 和交叉注意力 (cross-attention) 机制，有效地将文本提示与视觉信息对齐，从而实现文本到图像 (Text-to-Image, T2I) 和文本到视频 (Text-to-Video, T2V) 的生成和编辑。

3.2. 前人工作

3.2.1. 文本到视觉生成 (Text-to-Visual Generation)

扩散模型 (Diffusion Models): 近年来在 T2I 领域取得了巨大成功，特别是基于U-Net (U-Net based) 的架构（如 DDPM [19]）和基于Transformer (Transformer based) 的架构（如 DiT [37]），它们能够生成高质量的图像。
流模型 (Flow Models): 随着 DiT 架构的兴起，T2I 和 T2V 的生成范式正转向流模型 (flow models)。FLUX [26] 和 HunyuanVideo [25] 等流模型 (flow models) 利用 MMDiT 架构，通过概率流常微分方程 (probability flow ODE) 模拟两个分布之间的直线路径 (straight path)，从而实现更快、更好的生成效果。

3.2.2. 文本驱动编辑 (Text-driven Editing)

基于训练的方法 (Training-based Methods): 早期工作侧重于通过训练模型来实现可控图像编辑 (controllable image editing) [3, 20, 22, 23, 27, 29, 60]。
基于反演的方法 (Inversion-based Methods): 随着生成模型 (generative models) 的发展，训练无关 (training-free) 编辑方法成为关注焦点，提供更大的灵活性和效率。DDIM 反演 [44] 是扩散模型中基于反演图像编辑 (inversion-based image editing) 的代表性进展，催生了一系列旨在最小化反演误差和提高采样效率的高精度求解器 (high-precision solvers) [32, 50, 57]。
基于采样的方法 (Sampling-based Methods): 通过引入受控随机性 (controlled randomness) 来实现更灵活的编辑 [9, 21, 36, 53]。
基于注意力的方法 (Attention-based Methods): 通过改变注意力词元 (attention tokens) 的作用来实现可控图像编辑 (controllable image editing) [5, 24, 28, 46, 48, 55]，这些方法也逐渐扩展到视频编辑 (video editing) [4]。
流模型中的反演方法: 近期的基于流模型 (flow model based) 反演方法主要集中于改进反演求解器 (inversion solvers) [8, 18, 51, 54] 和 MM-DiT [10] 中的联合注意力机制 (joint attention mechanism) [2, 56]。尽管这些方法取得了良好的编辑性能，但它们往往忽略了反演策略对编辑内容产生的负面影响。

3.3. 技术演进

该领域的技术演进经历了从训练依赖型 (training-dependent) 到训练无关型 (training-free) 编辑的转变，以及从基于U-Net (U-Net based) 的扩散模型 (diffusion models) 到基于Transformer (Transformer based) 的流模型 (flow models) 的架构演变。早期编辑方法需要为特定任务进行模型训练，而当前趋势更倾向于利用预训练的生成模型 (generative models)，通过巧妙的反演 (inversion) 和采样 (sampling) 策略实现多样化编辑。DiT 和流匹配 (flow matching) 的出现，标志着向更快、更稳定的生成和编辑能力的迈进。

3.4. 差异化分析

本文提出的 ProEdit 方法与相关工作的主要区别和创新点在于：

针对性解决过度依赖问题: 现有方法（如 RF-Solver [51]、FireFlow [8]、UniEdit [18]）虽然在基于流 (flow-based) 模型的反演和编辑方面取得了进展，但它们普遍面临过度注入源图像信息 (excessive source image information injection) 的问题，导致编辑失败，特别是在属性编辑任务中。ProEdit 明确指出并系统性地解决了这一问题，是其核心差异。
双重视角改进: ProEdit 从注意力 (attention) 和潜在表示 (latent distribution) 两个关键方面同时进行改进。
- KV-mix: 与通常选择特定注意力头 (attention heads)、层 (layers) 或块类型 (block types) 的现有注意力机制修改方法 [5, 24, 28, 46, 48, 55] 不同，KV-mix 适用于所有注意力操作 (attention operations)，无需手动调整，提供了更通用和无缝的控制。它在编辑区域混合 $K$ 和 $V$ ，在非编辑区域完全注入源 KV，实现了细粒度控制。
- Latents-Shift: 引入了基于 AdaIN [14] 的潜在分布移位 (latent distribution shift) 机制，直接作用于反演噪声 (inverted noise) 的编辑区域，以消除源图像属性的强大先验 (prior) 影响，这是现有方法中较少触及的方面。
通用性和兼容性: ProEdit 的设计是即插即用 (plug-and-play) 的，可以无缝集成到现有的多种基于流 (flow-based) 反演和编辑方法中，增强了这些方法的性能，而无需对底层模型进行修改。

4. 方法论

4.1. 方法原理

ProEdit 的核心原理是针对现有基于反演 (inversion-based) 视觉编辑方法中过度注入源图像信息 (excessive source image information injection) 的问题，从注意力 (attention) 和潜在空间 (latent aspects) 两个关键层面进行干预，以实现更精确、更自由的图像和视频编辑。其直觉在于：

编辑区域需要自由，非编辑区域需要一致性： 在对图像或视频进行编辑时，用户通常只希望修改特定的主体或区域。这些编辑区域 (edited regions) 应该能够充分响应目标提示 (target prompt) 的引导，而非编辑区域 (non-edited areas) 则应保持与源图像 (source image) 相同的内容和结构。现有方法全局注入源信息，导致编辑区域被源图像“拖累”，难以彻底改变。
反演噪声的“记忆”： 从源图像反演得到的潜在噪声 (inverted noise) 并非纯粹的随机噪声，它仍然携带着源图像的强大语义信息，这在采样 (sampling) 过程中会形成一个强大的先验 (prior)，使得模型倾向于重建源图像，而不是生成新颖的编辑。需要一种机制来“消除”或“扰动”这种记忆。

基于这些洞察，ProEdit 提出了 KV-mix 和 Latents-Shift 模块：

KV-mix 解决了注意力注入问题 (attention injection problem)，它通过局部混合 (local mixing) 注意力特征，让编辑区域更多地关注目标提示，同时通过完全注入 (full injection) 源特征来保证非编辑区域的背景一致性。
Latents-Shift 解决了潜在分布注入问题 (latent distribution injection problem)，它通过局部扰动 (local perturbation) 反演噪声的潜在分布，打破源图像的强大先验，从而让采样 (sampling) 过程能够更自由地探索目标提示所引导的新空间。

通过这两个模块的协同作用，ProEdit 成功地在编辑质量和背景一致性之间找到了更好的平衡，使基于反演 (inversion-based) 编辑能够“做得更好”。

4.2. 核心方法详解

本节将详细介绍 ProEdit 的各个组成部分，并结合论文中的数学公式进行深入解析。

4.2.1. 预备知识 (Preliminaries)

首先，为了更好地理解 ProEdit，我们需要回顾流匹配 (Flow Matching) 模型的训练目标和 ODE 求解过程。

流匹配训练目标 (Flow Matching Training Objective): 生成模型 (Generative models) 的目标是从遵循高斯分布 $\pi_0$ 的噪声 $Z_0$ 生成遵循真实数据分布 $\pi_1$ 的数据 $Z_1$ 。流匹配 (Flow Matching) [1, 30, 31] 方法通过学习一个速度场 (velocity field) $\pmb v_\theta$ 来沿直线轨迹 (straight trajectory) 将噪声转换为数据。其训练目标是解决以下优化问题： $\begin{array} { r l } & { \underset { \theta } { \operatorname* { m i n } } \mathbb { E } _ { Z _ { 0 } , Z _ { 1 } , t } \left[ \left\| ( Z _ { 1 } - Z _ { 0 } ) - { \pmb v } _ { \theta } ( Z _ { t } , t ) \right\| ^ { 2 } \right] , } \\ & { \quad \quad \quad \quad \quad Z _ { t } = t Z _ { 1 } + ( 1 - t ) Z _ { 0 } , t \in [ 0 , 1 ] , } \end{array}$ 其中：

$Z_0 \sim \pi_0$ ：表示从噪声分布 (noise distribution)（通常是高斯分布）中初始化的随机样本。
$Z_1 \sim \pi_1$ ：表示真实数据分布 (real data distribution) 中的目标样本，在轨迹结束时生成。
$t \in [0, 1]$ ：表示连续的时间步长，从0（噪声）到1（数据）。
$Z_t = t Z_1 + (1-t)Z_0$ ：表示在时间 $t$ 时的中间状态 (intermediate state)，它位于 $Z_0$ 和 $Z_1$ 之间的直线轨迹 (straight trajectory) 上。
$\pmb v_\theta(Z_t, t)$ ：表示由参数 $\theta$ 化的模型学习到的速度场 (velocity field)，它预测在状态 $Z_t$ 和时间 $t$ 时，样本应该如何移动。
$(Z_1 - Z_0)$ ：表示从 $Z_0$ 到 $Z_1$ 的目标速度 (target velocity)。
$\mathbb{E}_{Z_0, Z_1, t}[\cdot]$ ：表示对 $Z_0, Z_1$ 和 $t$ 的期望。该目标函数旨在使学习到的速度场 (velocity field) $\pmb v_\theta(Z_t, t)$ 尽可能地接近将 $Z_0$ 转换为 $Z_1$ 所需的真实速度 $(Z_1 - Z_0)$ 。

正向 ODE 求解 (Forward ODE Solving): 流匹配 (Flow Matching) 模型通过学习一个速度场 (velocity field) $\pmb v_\theta$ 来确定性地 (deterministically) 将高斯噪声的随机样本转换为目标数据，这通过以下在连续时间区间 [0, 1] 上定义的常微分方程 (ODE) 实现： $d { \bf Z } _ { t } = v _ { \theta } ( { \bf Z } _ { t } , t ) d t , \quad t \in [ 0 , 1 ]$ 其中：

$d \mathbf{Z}_t$ : 表示在极小时间 dt 内，潜在表示 (latent representation) $\mathbf{Z}_t$ 的变化量。
$v_\theta(\mathbf{Z}_t, t)$ : 表示由模型学习到的速度场 (velocity field)，它指导 $\mathbf{Z}_t$ 如何随时间 $t$ 演变。
dt: 表示极小的时间增量。这个 ODE 可以通过数值求解器 (numerical solvers) 进行离散化和求解： $Z _ { t _ { i + 1 } } = Z _ { t _ { i } } + ( t _ { i + 1 } - t _ { i } ) v _ { \theta } ( Z _ { t _ { i } } , t _ { i } ) ,$ 其中：
$i \in \{0, \ldots, N\}$ ：表示离散时间步的索引。
$t_0 = 0$ 和 $t_N = 1$ ：表示轨迹的起始和结束时间。
$Z_{t_i}$ ：表示在时间步 $t_i$ 时的潜在表示 (latent representation)。
$Z_{t_{i+1}}$ ：表示在下一个时间步 $t_{i+1}$ 时的潜在表示 (latent representation)。
$(t_{i+1} - t_i)$ ：表示时间步长。这个公式描述了从一个时间步 $t_i$ 到下一个时间步 $t_{i+1}$ 的潜在表示 (latent representation) 的更新过程。

反向 ODE 求解 (Reverse ODE Solving): 流匹配 (Flow Matching) 具有确定性轨迹 (deterministic trajectories)。其逆向过程 (reverse process) 通过反转学习到的流轨迹 (flow trajectory) 来获得。从 $Z_1 \sim \pi_1$ 开始，反向 ODE (reverse ODE) 由反转速度场 (velocity field) 给出： $d \pmb { Z } _ { t } = - \pmb { v } _ { \theta } ( \pmb { Z } _ { t } , t ) d t , \quad t \in [ 1 , 0 ]$ 其中：

$d \pmb{Z}_t$ : 表示在极小时间 dt 内，潜在表示 (latent representation) $\pmb{Z}_t$ 的变化量。
$-\pmb{v}_\theta(\pmb{Z}_t, t)$ : 表示反向速度场 (reverse velocity field)，与正向速度场方向相反。
dt: 表示极小的时间增量。相应地，这个 ODE 也可以通过数值求解器 (numerical solver) 进行离散化和求解： $Z _ { t _ { i - 1 } } = Z _ { t _ { i } } - ( t _ { i - 1 } - t _ { i } ) v _ { \theta } ( Z _ { t _ { i } } , t _ { i } ) ,$ 其中：
$i \in \{N, \ldots, 0\}$ ：表示反向时间步的索引。
$t_N = 1$ 和 $t_0 = 0$ ：表示反向轨迹的起始和结束时间。
$Z_{t_i}$ ：表示在时间步 $t_i$ 时的潜在表示 (latent representation)。
$Z_{t_{i-1}}$ ：表示在倒退一个时间步 $t_{i-1}$ 时的潜在表示 (latent representation)。
$(t_{i-1} - t_i)$ ：表示负的时间步长，因为时间是从1向0倒退。这个反向过程 (inverse process) 通过利用速度场 (velocity field) $v$ 的对称性来生成 $Z_0 \sim \pi_0$ ，从而确保与正向过程 (forward process) 的一致性。这种反演方法 (inversion method) 自然地应用于视觉重建和视觉编辑。

4.2.2. 重思反演-采样范式 (Rethinking the Inversion-Sampling Paradigm)

在本小节中，论文对视觉编辑中的挑战进行了深入调查。研究发现，以往的工作主要依赖于使用反演噪声 (inverted noise) 进行采样 (sampling)，并采用源注意力注入机制 (source attention injection mechanism) 来维持背景和结构的一致性。然而，这种设计常常注入过多的源图像信息 (source image information)，导致编辑失败。分析如下：

注意力注入问题 (Attention Injection Problem): 为了在目标图像 (target image) 和源图像 (source image) 之间保持整体结构一致性，当前方法 [8, 51] 在采样过程 (sampling process) 中的特定时间步全局注入值注意力特征 (value attention features) $V$ 。这可以用以下方程描述： $\begin{array} { r } { z _ { t g } ^ { t } ( l + 1 ) = \mathrm { A t t n } ( Q _ { t g } ^ { t } , K _ { t g } ^ { t } , V _ { s } ^ { t } ) , } \end{array}$ 其中：

$z_{tg}^t(l+1)$ ：表示在时间步 $t$ 和注意力层 $l+1$ 处，由目标提示 (target prompt) 引导的输出潜在表示 (latent representation)。
$\mathrm{Attn}(\cdot, \cdot, \cdot)$ ：表示注意力操作 (attention operation)。
$Q_{tg}^t$ ：表示在时间步 $t$ ，由目标提示 (target prompt) 对应的查询特征 (Query features)。
$K_{tg}^t$ ：表示在时间步 $t$ ，由目标提示 (target prompt) 对应的键特征 (Key features)。
$V_s^t$ ：表示在时间步 $t$ ，由源提示 (source prompt) 对应的值特征 (Value features)。这个公式表明，在生成目标图像时，模型的查询 (Query) 和键 (Key) 来自目标提示 (target prompt)，但值 (Value) 却强制性地从源提示 (source prompt) 中注入。这种全局注意力特征注入机制 (global attention feature injection mechanism) 对编辑过程产生了负面影响。如 Figure 3 所示，即使添加了注意力注入机制，虽然整体一致性增强了，但模型对提示词“black”的关注远低于对“orange”的关注，这意味着主体的属性（例如颜色）也被强制性地注入到目标图像中，从而增加了属性编辑的难度。

该图像是示意图，展示了RF-Solver与无V注入方法在不同颜色（“orange”和“black”）下的注意力图。图中包含了反向噪声注意力和采样注意力的对比，显示了不同处理方法的可视化结果。

Figure 3. RF-Solver与无V注入方法在不同颜色（“orange”和“black”）下的注意力图。图中包含了反向噪声注意力和采样注意力的对比，显示了不同处理方法的可视化结果。

潜在分布注入问题 (Latent Distribution Injection Problem): 如 Figure 3 所示，从“orange”到视觉词元 (visual tokens) 的注意力 (attention) 显著高于从“black”的注意力，这表明尽管图像被反演 (inverted) 回噪声，它仍然保留了大量的源图像属性 (source image attributes)。这种强烈的源属性先验 (prior) 导致当目标提示 (target prompt) 和源提示 (source prompt) 之间的差距过大时，编辑任务会失败。从源图像分布开始采样 (sampling) 会创建一个过于强大的先验 (prior)，容易使采样过程 (sampling process) 重建源分布。

总结 (Summary): 源图像 (source image) 对编辑过程的负面影响可以归因于两个因素：全局注意力特征注入 (global attention feature injection) 和潜在分布注入 (latent distribution injection)。因此，本文提出了 ProEdit 来从相应的方面解决所有这些问题。

4.2.3. KV-mix

动机 (Motivation): 如前所述，先前的方法使用视觉 (visual) 和文本注意力特征 (textual attention features) 的全局注入机制 (global injection mechanism) 来维持一致性，但源注意力特征 (source attention features) 的过度注入对编辑质量产生了负面影响。因此，本文旨在通过混合源视觉注意力与目标视觉注意力来缓解这个问题，以期在与目标提示 (target prompt) 对齐的同时，保持非编辑内容 (non-edited content) 的一致性。

方法 (Method): 基于上述观察，ProEdit 在所有块 (blocks) 上对视觉组件 (visual components) 执行注意力控制 (attention control)，同时始终使用目标提示 (target prompt) 的注意力特征 (attention features) 进行文本注意力 (text attention)，以实现有效的编辑引导。为了区分编辑区域 (editing regions) 和非编辑区域 (non-editing regions)，我们通过处理注意力图 (attention map) 来获得一个掩膜 (mask) $M$ （详细实现见补充文件 (Supplementary File)）。

对于非编辑区域 (non-editing region)，我们应用完全注入 (full injection) 视觉注意力特征 (visual attention features)，以保持背景一致性 (background consistency)。
对于编辑区域 (editing region)，我们使用源 (source) 和目标视觉注意力特征 (target visual attention features) 的混合 (mix)，以在保留非编辑内容 (non-editing content) 一致性的同时，提高编辑质量。

在广泛探索了 Q, K, V 所有可能的组合后，论文发现 Eq.7 所示的配置最有利于实现一致性编辑。形式上，ProEdit 的 KV-mix 设计如下：

$\begin{array} { r l r } & { } & { \hat { K } _ { t g } ^ { l } = \delta K _ { t g } ^ { l } + ( 1 - \delta ) K _ { s } ^ { l } , } \\ & { } & { \hat { V } _ { t g } ^ { l } = \delta V _ { t g } ^ { l } + ( 1 - \delta ) V _ { s } ^ { l } , } \\ & { } & { \tilde { K } _ { t g } ^ { l } = M \odot \hat { K } _ { t g } ^ { l } + ( 1 - M ) \odot K _ { s } ^ { l } , } \\ & { } & { \tilde { V } _ { t g } ^ { l } = M \odot \hat { V } _ { t g } ^ { l } + ( 1 - M ) \odot V _ { s } ^ { l } , } \\ & { } & { z ^ { t } ( l + 1 ) = \mathrm { A t t n } \left( Q _ { t g } ^ { l } , \tilde { K } _ { t g } ^ { l } , \tilde { V } _ { t g } ^ { l } \right) , } \end{array}$ 其中：

$K_{tg}^l, V_{tg}^l$ : 表示在注意力层 $l$ 处，由目标提示 (target prompt) 对应的键 (Key) 和值 (Value) 特征。
$K_s^l, V_s^l$ : 表示在注意力层 $l$ 处，由源提示 (source prompt) 对应的键 (Key) 和值 (Value) 特征。
$\delta$ : 表示混合强度 (mixing strength)，它是一个介于0和1之间的比率，用于控制在编辑区域应用注意力控制 (attention control) 的程度。 $\delta$ 越大，目标提示的影响越大，源提示的影响越小。论文中设置为 0.9。
$\hat{K}_{tg}^l, \hat{V}_{tg}^l$ : 表示在编辑区域中源 (source) 和目标 (target) 键和值特征的混合版本 (mixed versions)。
$M$ : 表示从注意力图 (attention map) 中提取并仅应用于视觉分支 (visual branch) 的编辑区域 (edited region) 掩膜 (mask)。
$\odot$ : 表示哈达玛积 (Hadamard product)（元素级乘法）。
$\tilde{K}_{tg}^l, \tilde{V}_{tg}^l$ : 表示最终用于注意力操作 (attention operation) 的键 (Key) 和值 (Value) 特征。它们通过掩膜 $M$ 将混合特征（ $\hat{K}_{tg}^l, \hat{V}_{tg}^l$ ）应用于编辑区域，并将源特征（ $K_s^l, V_s^l$ ）应用于非编辑区域。
$Q_{tg}^l$ : 表示在注意力层 $l$ 处，由目标提示 (target prompt) 对应的查询特征 (Query features)。
$z^t(l+1) = \mathrm{Attn}(Q_{tg}^l, \tilde{K}_{tg}^l, \tilde{V}_{tg}^l)$ ：表示使用目标查询 (target Query) 和混合键/值 (mixed Key/Value) 特征计算得到的注意力输出。

这种注意力机制 (attention mechanism) 实现了精确的文本控制 (text control) 以进行一致性编辑。由于 KV-mix 操作仅在视觉词元 (visual tokens) 内部执行，因此它适用于 Double Attention 和 Single Attention 两种块。

4.2.4. Latents-Shift

动机 (Motivation): ProEdit 的目标是缓解潜在分布注入问题 (distribution injection problem)，同时保持结构一致性 (structure consistency)。受风格迁移 (style transfer) 中 AdaIN [14]（自适应实例归一化 (Adaptive Instance Normalization)）的启发，AdaIN 能够迁移颜色和纹理分布，同时保留结构一致性。本文将这种方法应用于图像编辑。

方法 (Method): 由于目标是消除源图像信息 (source image information) 的影响，ProEdit 直接使用随机噪声 (random noise) 作为风格图像 (style image) 来移位 (shift) 反演噪声 (inverted noise) 的分布。论文改进了 AdaIN 的公式，以实现对反演噪声 (inverted noise) 中编辑区域 (editing region) 潜在分布 (latent distribution) 的移位：

$\begin{array} { c } { { \tilde { z } _ { T } = \sigma ( z _ { T } ^ { r } ) \left( \frac { z _ { T } - \mu ( z _ { T } ) } { \sigma ( z _ { T } ) } \right) + \mu ( z _ { T } ^ { r } ) , } } \\ { { \hat { z } _ { T } = M \odot ( \beta \tilde { z } _ { T } + ( 1 - \beta ) z _ { T } ) + ( 1 - M ) \odot z _ { T } , } } \end{array}$ 其中：

$z_T$ : 表示从源图像 (source image) 反演 (inverted) 得到的潜在噪声 (inverted noise)。
$z_T^r$ : 表示用于移位 (shift) 分布的纯随机噪声 (pure random noise)。
$\mu(x)$ : 表示潜在表示 (latent representation) $x$ 的均值 (mean)。
$\sigma(x)$ : 表示潜在表示 (latent representation) $x$ 的标准差 (standard deviation)。
$\tilde{z}_T$ : 表示经过风格迁移 (style transfer) 操作后，其均值和标准差与 $z_T^r$ 对齐的 $z_T$ 。这个操作有效地将 $z_T$ 的统计特性（如颜色、纹理）转移到 $z_T^r$ 的统计特性上，同时保留 $z_T$ 的结构信息。
$\beta$ : 表示融合比例 (fusion ratio)，介于0和1之间，用于控制反演噪声 (inverted noise) 和纯噪声 (pure noise) 之间混合的程度，从而控制反演噪声分布 (inverted noise distribution) 移位的程度。论文中设置为 0.25。
$M$ : 表示编辑区域 (edited region) 的掩膜 (mask)，它从 KV-mix 模块继承而来。
$\odot$ : 表示哈达玛积 (Hadamard product)（元素级乘法）。
$\hat{z}_T$ : 表示最终经过潜在移位 (Latents-Shift) 模块处理后的潜在噪声 (latent noise)。它通过掩膜 $M$ 将混合后的潜在表示（ $\beta \tilde{z}_T + (1 - \beta) z_T$ ）应用于编辑区域，并将原始反演噪声 $z_T$ 应用于非编辑区域。

这个模块确保只有编辑区域 (edited region) 的潜在分布 (latent distribution) 被修改，从而消除了源图像属性 (source image attributes) 在编辑区域的强大影响，同时保持了非编辑区域 (non-editing region) 的结构和背景一致性。

4.2.5. 整体流程 (Overall)

ProEdit 的完整流程总结如 Figure 4 所示。

该图像是示意图，展示了ProEdit模型的编辑流程。左侧部分（a）说明了如何通过源提示“orange cat”和源图像来提取特征，使用KV-Mix模块进行特征混合，并进行潜在空间的移位处理。右侧下半部分（c）则展示了与潜在移位相关的公式，涉及反转噪声和随机噪声的处理。整体阐释了模型在图像编辑任务中的运行机制与步骤。

Figure 4. 该图像是示意图，展示了ProEdit模型的编辑流程。左侧部分（a）说明了如何通过源提示“orange cat”和源图像来提取特征，使用KV-Mix模块进行特征混合，并进行潜在空间的移位处理。右侧下半部分（c）则展示了与潜在移位相关的公式，涉及反转噪声和随机噪声的处理。整体阐释了模型在图像编辑任务中的运行机制与步骤。

整个流程可以分为两个主要阶段：反演阶段 (inversion stage) 和采样阶段 (sampling stage)。

反演阶段 (Inversion Stage):

输入: 源图像 (source image) 和源提示 (source prompt) 被输入到模型中，执行反演过程 (inversion process)。
特征缓存: 在反演过程中，源视觉注意力特征 (source visual attention features) $\pmb K_s^l$ 和 $V_s^l$ 会被实时 (in the fly) 缓存下来，这些特征将在采样阶段 (sampling stage) 的 KV-mix 模块中使用。
掩膜生成: 注意力图 (attention map) 被处理以获取编辑区域 (editing region) 的掩膜 (mask) $M$ 。这个掩膜将用于 KV-mix 和 Latents-Shift 模块。
反演噪声输出: 反演噪声 (inverted noise) $z_T$ 作为采样阶段 (sampling stage) 的初始输入被输出。

采样阶段 (Sampling Stage):

潜在移位 (Latents-Shift): 反演噪声 (inverted noise) $z_T$ 首先通过 Latents-Shift 模块。在此模块中，编辑区域的潜在分布 (latent distribution) 被随机噪声 (random noise) 扰动，生成融合噪声 (fusion noise) $\hat{z}_T$ 。
模型输入: 融合噪声 $\hat{z}_T$ 与目标提示 (target prompt) 一起输入到模型中进行采样 (sampling)。
KV-mix 注入: 在采样过程 (sampling process) 中，从反演阶段获取的源视觉注意力特征 (source visual attention features) $\pmb K_s^l$ 和 $V_s^l$ 通过 KV-mix 模块进行注入。KV-mix 根据掩膜 $M$ 在编辑区域混合源和目标 KV 特征，在非编辑区域注入源 KV 特征。
多步采样: 模型通过多步采样 (sampling) 最终输出目标图像 (target image)。

通过这种精心设计的两阶段方法，ProEdit 能够有效地消除源图像信息 (source image information) 对编辑内容的负面影响，同时保持背景和非编辑内容 (background and non-editing content) 的一致性。

5. 实验设置

5.1. 数据集

5.1.1. 文本驱动图像编辑 (Text-driven Image Editing)

论文使用 PIE-Bench [21] 数据集来评估文本驱动图像编辑方法。

来源: PIE-Bench 是一个专门为评估扩散模型图像编辑能力设计的基准测试。
规模与特点: 该数据集包含 700 张图像，涵盖 10 种不同的编辑类型。这确保了对各种编辑任务（如改变颜色、纹理、姿态、数量等）的全面评估。
领域: 涵盖了多样化的图像内容，允许对通用图像编辑能力进行测试。

5.1.2. 文本驱动视频编辑 (Text-driven Video Editing)

对于文本驱动视频编辑，论文收集了一个定制的数据集。

来源: 包含 55 对文本-视频编辑对。视频来源于 DAVIS [38] 数据集和在线平台。
规模与特点: 视频分辨率为 $480 \times 480$ 、 $540 \times 960$ 或 $960 \times 540$ ，帧数在 40 到 120 帧之间。这提供了不同时长和纵横比的视频样本。
提示词: 相关的文本提示词由 ChatGPT 生成或由作者贡献。
目的: 旨在评估方法在时空一致性 (temporal consistency) 和视频内容修改方面的能力。

5.2. 评估指标

论文使用了多项评估指标来全面衡量 ProEdit 在图像和视频编辑任务中的性能。

5.2.1. 文本驱动图像编辑评估指标

为了评估与编辑无关的上下文保留（即背景和非编辑区域的保真度）以及编辑质量，论文使用了以下指标：

结构距离 (Structure Distance) $\downarrow$ $↓$ [47]:
- 概念定义: 结构距离 (Structure Distance) 用于衡量两幅图像（通常是源图像 (source image) 和编辑后图像 (edited image)）在结构上的差异，特别关注非编辑区域。较低的值表示更好的结构一致性。
- 数学公式: 论文未提供具体的数学公式，但通常它衡量的是图像特征空间中的距离，例如基于 VGG 特征的距离。
- 符号解释: 无需解释具体符号，因为它是一个通用概念。
背景保留 PSNR (BG Preservation PSNR) $\uparrow$ $↑$ [17]:
- 概念定义: 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR) 是一种衡量图像重建质量的客观指标。它通过比较原始图像 (original image) 与处理后图像 (processed image) 之间的像素级差异 (pixel-level difference) 来评估图像失真程度。在这里，它特指在非编辑区域 (non-edited regions) 的 PSNR，以评估背景内容保留的质量。PSNR 值越大，表示失真越小，图像质量越好。
- 数学公式: $\mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{MAX_I^2}{\mathrm{MSE}} \right)$ 其中，均方误差 (Mean Squared Error, MSE) 定义为： $\mathrm{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2$
- 符号解释:
  - $MAX_I$ : 图像中像素可能的最大值（例如，对于8位灰度图像，为255）。
  - $\mathrm{MSE}$ : 均方误差 (Mean Squared Error)，计算两幅图像对应像素差值的平方和的平均值。
  - I(i,j): 原始图像 (original image) 在像素坐标 (i,j) 处的像素值。
  - K(i,j): 编辑后图像 (edited image) 在像素坐标 (i,j) 处的像素值。
  - m, n: 图像的宽度和高度。
SSIM (Structural Similarity Index Measure) $\uparrow$ $↑$ [52]:
- 概念定义: 结构相似性指数 (Structural Similarity Index Measure, SSIM) 是一种衡量两幅图像相似度的新指标，它从亮度、对比度和结构三个方面度量图像相似性。SSIM 值越接近1，表示两幅图像越相似。在这里，它也特指在非编辑区域 (non-edited regions) 的 SSIM，以评估背景结构保留的质量。
- 数学公式: $\mathrm{SSIM}(x,y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)}$
- 符号解释:
  - x, y: 表示两幅图像（或图像中的窗口）。
  - $\mu_x, \mu_y$ : 分别是图像 $x$ 和 $y$ 的平均亮度。
  - $\sigma_x, \sigma_y$ : 分别是图像 $x$ 和 $y$ 的标准差（衡量对比度）。
  - $\sigma_{xy}$ : 图像 $x$ 和 $y$ 的协方差（衡量结构相似性）。
  - $c_1 = (K_1L)^2$ , $c_2 = (K_2L)^2$ : 为避免分母为零而设置的稳定常数。
  - $L$ : 像素值的动态范围（例如，对于8位灰度图像，为255）。
  - $K_1, K_2$ : 较小的常数，通常 $K_1 = 0.01, K_2 = 0.03$ 。
CLIP Sim. (CLIP Similarity) $\uparrow$ $↑$ [40]:
- 概念定义: CLIP (Contrastive Language-Image Pre-training) 相似度用于衡量图像与给定文本提示之间的语义一致性。它通过 CLIP 模型将图像和文本映射到同一个嵌入空间 (embedding space)，然后计算它们嵌入向量 (embedding vectors) 之间的余弦相似度 (cosine similarity)。值越高表示图像与文本描述越匹配。论文分别评估了整个图像 (Whole) 和编辑区域 (Edited) 的 CLIP 相似度，以区分整体语义匹配度和特定编辑部分的语义匹配度。
- 数学公式: $\mathrm{CLIP\_Sim}(I, T) = \frac{f_I(I) \cdot f_T(T)}{\|f_I(I)\| \|f_T(T)\|}$
- 符号解释:
  - $I$ : 输入图像。
  - $T$ : 文本提示。
  - $f_I(I)$ : CLIP 模型的图像编码器将图像 $I$ 映射到的嵌入向量 (embedding vector)。
  - $f_T(T)$ : CLIP 模型的文本编码器将文本 $T$ 映射到的嵌入向量 (embedding vector)。
  - $\cdot$ : 点积 (dot product)。
  - $\|\cdot\|$ : L2 范数 (L2 norm)，用于计算向量的长度。

5.2.2. 文本驱动视频编辑评估指标

对于文本驱动视频编辑，论文遵循 VBench [15, 59] 中提出的指标：

主体一致性 (Subject Consistency, SC) $\uparrow$ : 衡量视频中主体对象 (subject object) 在不同帧之间的一致性和稳定性。更高的 SC 值表示主体在视频编辑后仍然保持其识别特征。
运动平滑度 (Motion Smoothness, MS) $\uparrow$ : 评估视频中运动的流畅性和自然度。更高的 MS 值表示视频中的运动看起来更平滑，没有突然的跳动或不连贯。
审美质量 (Aesthetic Quality, AQ) $\uparrow$ : 衡量视频的整体视觉吸引力或美学价值。通常通过预训练的美学评估模型 (aesthetic assessment models) 来获得。更高的 AQ 值表示视频在人类看来更具美感。
图像质量 (Imaging Quality, IQ) $\uparrow$ : 评估视频帧本身的视觉质量，如清晰度、噪声水平、失真度等。更高的 IQ 值表示视频的视觉呈现效果更好。

5.3. 对比基线

为了全面评估 ProEdit 的性能，论文将其与多种最先进 (SOTA) 的文本驱动视觉编辑方法 (text-driven visual editing methods) 进行了比较。

5.3.1. 文本驱动图像编辑基线

基于扩散模型 (Diffusion-based methods):
- P2P [13]: Prompt-to-Prompt，通过交叉注意力控制 (cross-attention control) 实现图像编辑。
- PnP [48]: Plug-and-Play Diffusion Features，利用扩散特征进行图像到图像翻译。
- PnP-Inversion [21]: 改进 PnP 的反演方法，提高编辑效果。
- EditFriendly [16]: 一种编辑友好的 DDPM 噪声空间方法。
- MasaCtrl [5]: Mutual Self-Attention Control，通过自注意力控制 (self-attention control) 实现图像合成和编辑。
- InfEdit [55]: Inversion-free image editing，无需反演的图像编辑方法。
基于流模型 (Flow-based methods):
- RF-Inversion [43]: Rectified Flow 的反演方法。
- RF-Solver [51]: 改进的 Rectified Flow 求解器，用于反演和编辑。
- FireFlow [8]: 快速反演的 Rectified Flow，用于图像语义编辑。
- UniEdit [18]: Unleashing Inversion and Editing in the Era of Flow Models，流模型时代的统一反演和编辑方法。

5.3.2. 文本驱动视频编辑基线

FateZero [39]: Fusing Attentions for Zero-shot Text-based Video Editing，零样本视频编辑方法。
Flatten [6]: Optical Flow-guided Attention for Consistent Text-to-Video Editing，光流引导注意力实现一致性视频编辑。
TokenFlow [12]: Consistent Diffusion Features for Consistent Video Editing，利用一致性扩散特征进行视频编辑。
RF-Solver [51]: 作为基于流模型 (flow-based) 的视频编辑基线。

5.4. 实现细节

主要模型:
- 图像编辑: 主要使用 FLUX.1-[dev] [26] 模型。
- 视频编辑: 主要使用 HunyuanVideo-720p [25] 模型。
即插即用集成: ProEdit 模块被设计为即插即用 (plug-and-play)，可以集成到以下基于流 (flow-based) 反演方法中：
- 图像编辑: RF-Solver、FireFlow 和 UniEdit。
- 视频编辑: RF-Solver。
UniEdit 特殊设置: UniEdit 使用参数 $\alpha$ 来表示延迟注入率 (delay injection rate)。论文在实验中分别设置 $\alpha = 0.6$ 和 $\alpha = 0.8$ 进行测试，除非另有说明，默认 $\alpha$ 设置为 0.8。
采样步数 (Sampling Steps):
- 图像编辑: 采样步数设置为 15 步。
- 视频编辑: 采样步数设置为 25 步。
超参数设置 (Hyperparameter Settings):
- KV-mix 的混合强度 (mix strength) $\delta$ 设为 0.9，以平衡源内容保留和编辑性能。
- Latents-Shift 的融合比例 (fusion ratio) $\beta$ 设为 0.25，以获得最佳编辑结果。
- 特征融合注入机制 (feature fusion injection mechanism) 在每个时间步应用于所有的 Double 和 Single 注意力块 (Attention blocks)。
掩膜提取 (Mask Extraction): 论文在补充文件 (Supplementary File) 中详细描述了掩膜提取过程。掩膜 $M$ 从注意力图 (attention map) 中提取，并且仅应用于视觉分支 (visual branch)。为了解决下采样操作 (downsampling operation) 导致的掩膜粒度较粗的问题，论文对掩膜进行了扩散操作 (diffusion operation)，向外扩展一步，以确保完全覆盖编辑区域并平滑边缘。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 文本驱动图像编辑 (Text-driven Image Editing)

论文通过定性和定量评估展示了 ProEdit 在文本驱动图像编辑任务中的卓越性能。

定量评估: 以下是原文 Table 2 的结果，展示了在颜色编辑 (Color Editing) 任务上的定量比较。虽然论文提到了 Table 1 作为整体量化结果，但未在正文 Markdown 中提供。Table 2 提供的是针对颜色编辑这一关键任务的详细数据。

以下是原文 Table 2 的结果：

Method	Model	Structure Distance (× 103)↓	BG Preservation PSNR↑	SSIM (×102)↑	CLIP Sim.↑ Whole	Edited	NFE
P2P [13]	Diffusion	69.43	17.87	71.14	25.01	22.44	100
PnP [48]	Diffusion	28.22	22.28	79.05	25.41	22.55	100
PnP-Inversion [21]	Diffusion	24.29	22.46	79.68	25.41	22.62	100
EditFriendly [16]	Diffusion		24.55	81.57	23.97	21.03	90
MasaCtrl [5]	Diffusion	28.38	22.17	79.67	23.96	21.16	100
InfEdit [55]	Diffusion	13.78	28.51	85.66	25.03	22.22	72
RF-Inversion [43]	Flow	40.60	20.82	71.92	25.20	22.11	56
RF-Solver [51]	Flow	31.10	22.90	81.90	26.00	22.88	60
RF-Solver+Ours	Flow	27.82	24.77	84.78	26.28	23.25	60
FireFlow [8]	Flow	28.30	23.28	82.82	25.98	22.94	32
FireFlow+Ours	Flow	27.51	24.78	85.19	26.28	23.24	32
UniEdit [18](α=0.6)	Flow	10.14	29.54	90.42	25.80	22.33	28
UniEdit(α=0.6)+Ours	Flow	9.22	30.08	90.87	25.78	22.30	28
UniEdit [18](α=0.8)	Flow	26.85	24.10	84.86	26.97	23.51	37
UniEdit(α=0.8)+Ours	Flow	24.27	24.82	85.87	27.08	23.64	37

Table 2. Quantitative comparison on Color Editing. The best and second-best results are shown in bold and underline.

从 Table 2 可以看出：

ProEdit 的普遍提升: ProEdit 与现有基于流模型 (flow-based) 的反演方法（RF-Solver、FireFlow、UniEdit）结合后，在结构距离 (Structure Distance)、背景保留 PSNR (BG Preservation PSNR)、SSIM 以及CLIP 相似度 (CLIP Sim.)（无论是整体 (Whole) 还是编辑区域 (Edited)）等所有指标上均取得了显著提升。这证明了 ProEdit 能够有效提升编辑质量，同时保持背景一致性。
SOTA 性能: $UniEdit (α=0.8) + Ours$ 组合在多个指标上取得了最佳 (bold) 性能，例如 CLIP Sim. Whole 达到 27.08，CLIP Sim. Edited 达到 23.64，SSIM 达到 85.87。这表明 ProEdit 能够帮助流模型 (flow-based models) 达到最先进 (SOTA) 的编辑效果。
颜色编辑的突破: 论文特别指出，在对潜在分布 (latent distribution) 影响显著的颜色编辑 (color editing) 任务中，ProEdit 展现了出色的性能。这支持了 Latents-Shift 模块的有效性，其基于 AdaIN 的设计帮助编辑过程摆脱了源图像分布 (source image distribution) 的限制。
NFE (Number of Function Evaluations) 保持不变: ProEdit 在提升性能的同时，并未增加函数评估次数 (NFE)，这表明其效率并未受到影响，保持了与基线方法相同的推理速度。

定性评估: Figure 5 展示了 ProEdit 与几个基线方法在不同编辑要求下的定性比较。

该图像是一个示意图，展示了多种图像编辑方法的对比，包括源图像及其通过不同算法（如 PnP、RF-Solver、FireFlow 等）获得的编辑效果。每行代表不同的编辑任务，如猫、雨伞等，清晰地显示了各方法在目标图像转换中的效果。

Figure 5. 该图像是一个示意图，展示了多种图像编辑方法的对比，包括源图像及其通过不同算法（如 PnP、RF-Solver、FireFlow 等）获得的编辑效果。每行代表不同的编辑任务，如猫、雨伞等，清晰地显示了各方法在目标图像转换中的效果。

从 Figure 5 中可以看出：

基线方法的局限性: 基线方法（如 PnP、RF-Solver、FireFlow 等）在保持非编辑属性（如背景和姿态）一致性方面常常失败，或者无法达到令人满意的编辑结果。例如，在将橙色猫编辑为黑色猫的例子中，其他方法可能无法完全改变颜色或引入伪影。
ProEdit 的优势: 相比之下，ProEdit 方法在保持非编辑内容 (non-editing content) 一致性的同时，实现了高质量的编辑结果。它能够精确地修改主体属性，同时确保背景和整体图像的连贯性。

6.1.2. 颜色编辑验证 (Color Editing Validation)

为了进一步验证 ProEdit 解决了现有方法忽视的“潜在分布注入” (latent distribution injection) 问题，论文在 PIE-Bench 的颜色编辑 (color editing) 任务上进行了实验，该任务受潜在分布 (latent distribution) 影响显著。Table 2 中的结果已经证实，ProEdit 与所有基于流模型 (flow-based) 的反演方法结合后，都取得了令人印象深刻的结果。

此外，Figure 6 通过可视化注意力图 (attention map) 进一步验证了 Latents-Shift 的有效性。

该图像是示意图，展示了在编辑过程中使用的反向噪声注意力和采样注意力的不同效果。左侧展示了原始的橙色和黑色猫咪图像，右侧则是相应的编辑结果，阐明了不同颜色提示对图像处理的影响。

Figure 6. 该图像是示意图，展示了在编辑过程中使用的反向噪声注意力和采样注意力的不同效果。左侧展示了原始的橙色和黑色猫咪图像，右侧则是相应的编辑结果，阐明了不同颜色提示对图像处理的影响。

Figure 6 可视化了添加 Latents-Shift 后反向噪声注意力 (inverted noise attention) 和采样注意力 (sampling attention) 的变化。结果表明，AdaIN 基于潜在移位 (Latents-Shift) 有助于编辑过程摆脱源图像分布 (source image distribution) 的约束，使得模型能够更自由地响应目标提示 (target prompt) 对颜色的修改，而非仅仅重现源图像的颜色属性。

6.1.3. 文本驱动视频编辑 (Text-driven Video Editing)

ProEdit 也被证明在视频编辑任务中表现出色。

定量评估: 以下是原文 Table 3 的结果，展示了文本驱动视频编辑的定量比较。

Method	SC↑ \|	MS ↑	AQ ↑	IQ ↑
FateZero [39]	0.9612	0.9740	0.6004	0.6556
Flatten [6]	0.9690	0.9830	0.6318	0.6678
TokenFlow [12]	0.9697	0.9897	0.6436	0.6817
RF-Solver [51]	0.9708	0.9906	0.6497	0.6866
RF-Solver+Ours	0.9712	0.9920	0.6518	0.6936

Table 3. Text-driven video editing comparison. We report the peer-reviewed results of each baseline, and evaluate our proposed method using flow-based inversion method RF-Solver. The best and second-best results are shown in bold and underline.

从 Table 3 可以看出：

ProEdit 与 RF-Solver 结合后，在所有视频编辑指标（主体一致性 (SC)、运动平滑度 (MS)、审美质量 (AQ) 和图像质量 (IQ)）上均取得了提升，并且在多项指标上达到了最先进 (SOTA) 性能。
例如，RF-Solver+Ours 在 MS 达到了 0.9920，AQ 达到了 0.6518，IQ 达到了 0.6936，均优于所有基线方法。
这证明了 ProEdit 方法对基于流模型 (flow-based models) 视频编辑任务的通用性及其提升编辑性能的能力。

定性评估: Figure 7 展示了 ProEdit 与其他方法在视频编辑中的定性比较。

$Figure 7. Qualitative comparison on video editing. The video comprises 48 frames with a resolution of $5 4 0 \\times 9 6 0$ .$ 该图像是一个示意图，展示了视频编辑的定性比较。图中包含多张猫在草地上活动的帧，分别显示了五种不同的方法（Source、Flatten、TokenFlow、RF-Solver、Ours）及其在编辑后的效果。每种方法对应的结果在不同帧上有所变化，右侧标注了“+Crown”的增强效果。整体呈现了一种对比，展示不同编辑技术对相同场景的影响。

Figure 7. Qualitative comparison on video editing. The video comprises 48 frames with a resolution of $5 4 0 \times 9 6 0$ .

从 Figure 7 中可以看出：

基线方法（Flatten、TokenFlow、RF-Solver）在视频编辑中常常难以保持非编辑属性 (non-editing attributes) 的一致性（如背景和姿态），或者无法产生令人满意的编辑结果。
相比之下，ProEdit 实现了高质量的视频编辑，同时保持了出色的空间 (spatial) 和时间一致性 (temporal consistency)。例如，在猫的视频编辑示例中，ProEdit 能够精确地添加皇冠或改变颜色，同时保持猫的动作流畅和背景稳定。

6.2. 数据呈现 (表格)

6.2.1. 颜色编辑量化结果 (Table 2)

以下是原文 Table 2 的结果：

Method	Model	Structure Distance (× 103)↓	BG Preservation PSNR↑	SSIM (×102)↑	CLIP Sim.↑ Whole	Edited	NFE
P2P [13]	Diffusion	69.43	17.87	71.14	25.01	22.44	100
PnP [48]	Diffusion	28.22	22.28	79.05	25.41	22.55	100
PnP-Inversion [21]	Diffusion	24.29	22.46	79.68	25.41	22.62	100
EditFriendly [16]	Diffusion		24.55	81.57	23.97	21.03	90
MasaCtrl [5]	Diffusion	28.38	22.17	79.67	23.96	21.16	100
InfEdit [55]	Diffusion	13.78	28.51	85.66	25.03	22.22	72
RF-Inversion [43]	Flow	40.60	20.82	71.92	25.20	22.11	56
RF-Solver [51]	Flow	31.10	22.90	81.90	26.00	22.88	60
RF-Solver+Ours	Flow	27.82	24.77	84.78	26.28	23.25	60
FireFlow [8]	Flow	28.30	23.28	82.82	25.98	22.94	32
FireFlow+Ours	Flow	27.51	24.78	85.19	26.28	23.24	32
UniEdit [18](α=0.6)	Flow	10.14	29.54	90.42	25.80	22.33	28
UniEdit(α=0.6)+Ours	Flow	9.22	30.08	90.87	25.78	22.30	28
UniEdit [18](α=0.8)	Flow	26.85	24.10	84.86	26.97	23.51	37
UniEdit(α=0.8)+Ours	Flow	24.27	24.82	85.87	27.08	23.64	37

Table 2. Quantitative comparison on Color Editing. The best and second-best results are shown in bold and underline.

6.2.2. 文本驱动视频编辑量化结果 (Table 3)

以下是原文 Table 3 的结果：

Method	SC↑ \|	MS ↑	AQ ↑	IQ ↑
FateZero [39]	0.9612	0.9740	0.6004	0.6556
Flatten [6]	0.9690	0.9830	0.6318	0.6678
TokenFlow [12]	0.9697	0.9897	0.6436	0.6817
RF-Solver [51]	0.9708	0.9906	0.6497	0.6866
RF-Solver+Ours	0.9712	0.9920	0.6518	0.6936

6.2.3. 消融实验量化结果 (Table 4)

以下是原文 Table 4 的结果：

Method	KV-m	LS	CLIP Sim.↑
Method	KV-m	LS	Whole	Edited
RF-Solver			26.00	22.88
	✓		26.21	23.21
	✓	V	26.28	23.25
FireFlow			25.98	22.94
			26.22	23.18
	✓	V	26.28	23.24
UniEdit			26.97	23.51
	✓		27.02	23.54
	✓	√	27.08	23.64

Table 4. Quantitative comparison for the ablation study. KVm, LS mean $\mathrm { K V - m i x }$ , Latents-Shift in our method. The best and second-best results are shown in bold and underline respectively.

6.2.4. 注意力特征组合效应量化结果 (Table 5)

以下是原文 Table 5 的结果：

Method	BG Preservation		CLIP Sim.↑
Method	PSNR↑	SSIM (×102)↑	Whole	Edited
Q&V	24.04	82.24	26.16	23.04
Q&K&V	24.51	83.04	26.20	22.97
V	23.69	81.68	26.26	23.15
K&V	24.77	84.78	26.28	23.25

Table 5. Quantitative experiments on different attention feature combinations. The best and second-best results are shown in bold and underline respectively.

6.3. 消融实验/参数分析

6.3.1. 协同效应分析 (The Synergistic Effect Analysis)

论文通过消融实验 (ablation study) 评估了 KV-mix 和 Latents-Shift 这两个核心模块的有效性及其协同作用。Table 4 展示了定量的消融研究结果。

仅 KV-mix 的效果: 当仅用 KV-mix 替换原有的特征注入机制时，CLIP Similarity 观察到显著提升（例如，RF-Solver 从 $26.00/22.88$ 提升到 $26.21/23.21$ ）。这表明 KV-mix 成功减少了源特征 (source features) 在注意力 (attention) 中的影响，从而改善了编辑质量。
结合 Latents-Shift 的效果: 在 KV-mix 的基础上进一步引入 Latents-Shift 模块，CLIP Similarity 得到了进一步增强（例如，RF-Solver 再次提升到 $26.28/23.25$ ）。这证实了 Latents-Shift 通过消除源图像 (source image) 对反演噪声潜在分布 (inversion noise latent distribution) 的影响，进一步提升了编辑效果。
总结: ProEdit 的各个模块协同工作，共同提升了编辑结果。

6.3.2. 注意力特征组合效应分析 (The Attention Feature Combination Effect Analysis)

论文还评估了在融合注入机制 (fusion injection mechanism) 中应用不同注意力特征组合 (attention feature combinations) 的有效性。Table 5 展示了使用 RF-Solver 反演方法在 PIE-Bench 上不同注意力特征组合的定量结果。

V 的重要性: 论文指出， $V$ 注意力特征 (attention feature) 对编辑质量最为重要，因此所有评估的组合都包含 $V$ 。
KV 组合的表现: 在评估的四种组合中（Q&V, Q&K&V, $V$ , K&V），K&V 组合在背景一致性保留 (background consistency preservation)（PSNR 和 SSIM）和编辑质量 (editing quality)（CLIP Sim. Whole 和 Edited）方面均取得了最佳 (best) 性能。
结论: 这一分析验证了论文采用 KV 融合注入机制并设计 KV-mix 模块的合理性。

6.3.3. 掩膜提取策略 (Extracting Mask From Attention Map, 附录 A)

论文的补充材料 (Supplementary Material) 详细描述了掩膜提取 (mask extraction) 策略。

策略: 论文采用了一种与 DitCtrl [4] 不同的策略，即从最后一个 Double block 的注意力图 (attention map of the last Double block) 中提取编辑区域掩膜 (editing region mask) $M$ 。
优势: 研究发现，最后一个 Double block 的注意力图能有效关联文本和图像的相关区域，并且这种提取方式还能减少内存消耗。Figure 8 (补充材料) 也可视化证明了这种策略与从所有注意力图 (attention maps) 平均提取的效果相似。
时间步选择: 掩膜始终从反演的第一步 (first step of inversion) 或采样的最后一步 (last step of sampling) 提取，因为这些时间步的图像受噪声影响最小，且文本-图像相关性 (text-to-image correlation) 最佳。
掩膜扩散: 由于特征空间中的下采样操作 (downsampling operation) 导致提取的掩膜粒度较粗，无法完全覆盖像素空间中编辑目标的边界区域。因此，论文对掩膜应用了扩散操作 (diffusion operation)，向外扩展一步，以获得一个更粗糙的掩膜，确保完全覆盖编辑区域。这种相对粗糙的掩膜对于语义对齐 (semantic alignment) 足够有效，并且有助于平滑编辑和非编辑区域的边界，避免图像伪影。
目标识别: 掩膜的目标对象 (target object) 可以通过编辑对象的名词 (noun) 来识别，或者通过外部提供的掩膜来实现更灵活的控制。

6.3.4. 实现细节中的参数 (Implementation Details, 附录 B)

论文在补充材料 (Supplementary Material) 中指出了关键超参数的设定：

混合强度 (mix strength) $\delta$ : 设定为 0.9，以平衡源内容保留和编辑性能。
融合比例 (fusion ratio) $\beta$ : 设定为 0.25，以实现最佳编辑结果。
注入机制应用范围: 在每个时间步，特征融合注入机制 (feature fusion injection mechanism) 应用于所有的 Double 和 Single 注意力块 (Attention blocks)。
超参数微调: 论文对注意力特征融合注入步骤 (attention feature fusion injection steps) 的超参数进行了微调，以获得更好的图像和视频编辑结果。

6.4. 更多定性结果 (More Qualitative Results)

论文在补充材料 (Supplementary Material) 中提供了更多定性结果。

图像编辑 (Figure 9): 展示了在 PIE-Bench [21] 上的更多图像编辑定性比较。在其他基于反演 (inversion-based) 编辑方法（如 FireFlow [8]、UniEdit [18]、PnP-Inversion [21]、PnP [48]、RF-Solver [51]）失败、编辑不足或无法保持一致性的情况下，ProEdit 成功实现了语义一致性编辑 (semantically consistent editing) 并展现出令人印象深刻的性能。特别是在以人物为中心的图像编辑中，ProEdit 能够有效保留人物特征。
视频编辑 (Figure 10): 展示了更多视频编辑结果。ProEdit 在各种视频编辑任务中展现出令人印象深刻的性能，同时保持了时间一致性 (temporal consistency) 和原始运动模式 (original motion patterns)。
指令编辑 (Editing by Instruction, Figure 11): 为了降低使用门槛并提高用户友好性，ProEdit 引入了大型语言模型 Qwen3-8B [45] 来实现基于编辑指令的编辑。Figure 11 展示了基于编辑指令的定性结果，证明了在大型语言模型辅助下，ProEdit 可以直接根据编辑指令执行编辑。

7. 总结与思考

7.1. 结论总结

本研究深入探讨了现有基于流模型 (flow-based) 反演编辑方法 (inversion editing methods) 中存在的过度注入源图像信息 (excessive injection of source image information) 问题。这一问题导致编辑过程为了保持与源图像的背景一致性而牺牲了编辑质量。针对此，论文提出了 ProEdit，一个新颖的训练无关 (training-free) 方法。ProEdit 从注意力 (attention) 和潜在空间 (latent perspectives) 两个方面，通过引入 KV-mix 和 Latents-Shift 模块，有效消除了过度源图像信息注入对编辑质量的负面影响。广泛的实验证明，ProEdit 可以无缝集成到现有基于流 (flow-based) 的反演方法中，同时实现高背景一致性和卓越的编辑质量，并在多项图像 (image) 和视频编辑 (video editing) 任务中取得了最先进 (SOTA) 的性能，尤其在属性编辑 (attribute editing) 方面表现突出。

7.2. 局限性与未来工作

论文在正文中并未明确指出 ProEdit 自身的局限性。然而，从其方法描述和实验结果中可以推断出一些潜在的考量：

掩膜精度: 虽然论文提到了对粗粒度掩膜 (coarse-grained mask) 进行扩散操作 (diffusion operation) 以覆盖编辑区域，但在某些复杂或精细的编辑场景中，基于注意力图 (attention map) 生成的掩膜可能仍无法完美匹配用户意图，导致边界处理不自然或编辑区域不精确。
超参数敏感性: KV-mix 的混合强度 (mixing strength) $\delta$ 和 Latents-Shift 的融合比例 (fusion ratio) $\beta$ 是手动设定的超参数。虽然论文给出了最佳设置，但在面对极端或多样化的编辑任务时，这些参数可能需要进一步的自适应或学习机制来优化。
对现有模型的依赖: ProEdit 是一个即插即用 (plug-and-play) 的模块，它依赖于底层的流模型 (flow models) 进行反演 (inversion) 和采样 (sampling)。因此，其性能上限仍然受限于所集成基础模型的性能。
复杂结构编辑: 尽管 ProEdit 在属性编辑方面表现出色，但对于需要大幅改变图像/视频主体结构或生成全新元素的复杂编辑任务，其效果可能仍有提升空间。潜在移位 (Latents-Shift) 主要是分布变换 (distribution transformation)，而非结构重塑。

未来的研究方向可能包括：
开发更精确、更智能的编辑区域掩膜 (editing region mask) 生成方法，可能结合用户交互或更先进的语义分割 (semantic segmentation) 技术。
探索自适应或可学习的机制来调整 $δ$ 和 $β$ 等关键超参数，使其能够根据不同的编辑任务和内容动态优化。
将 ProEdit 的思想扩展到其他生成模型 (generative models) 或编辑范式中，验证其通用性。
研究如何将 ProEdit 与大型语言模型 (Large Language Models, LLMs) 进行更深度的融合，以实现更高级、更复杂的指令编辑 (instruction-based editing) 和多轮交互 (multi-turn interaction)。

7.3. 个人启发与批判

7.3.1. 个人启发

ProEdit 提供了多方面的启发：

分层问题解决思路: 论文成功地将过度源信息注入 (excessive source information injection) 问题解耦为注意力 (attention) 和潜在空间 (latent space) 两个层面，并针对性地提出了解决方案。这种分层、精细化的思考方式对于解决复杂多模态问题非常有效。
局部控制的重要性: 通过掩膜 (mask) 机制，ProEdit 实现了对编辑区域的精细化局部控制。这在需要修改图像特定部分同时保留其他部分的编辑任务中至关重要。未来的研究可以进一步探索更细粒度的局部控制方法。
即插即用设计: KV-mix 和 Latents-Shift 的即插即用 (plug-and-play) 特性极大地提高了其应用价值和研究效率。这种模块化设计使得研究人员可以在不修改现有基础模型 (foundation models) 的前提下，快速验证和部署新的改进。
AdaIN 的灵活应用: 将风格迁移 (style transfer) 中的 AdaIN 思想引入到潜在分布 (latent distribution) 扰动中，是创新性的尝试。它表明，经典的技术原理在新的上下文和目标下依然能焕发新的生命力。
LLM 辅助编辑的潜力: 引入 Qwen3-8B [45] 实现指令编辑 (editing by instruction)，预示着生成式人工智能 (generative AI) 的未来将是多模态和更具交互性的。用户将能够以更自然、更直观的方式与模型进行交互，从而降低技术门槛。

7.3.2. 批判

尽管 ProEdit 取得了显著进展，但仍有一些潜在问题或改进空间：

掩膜生成过程的鲁棒性: 论文提到掩膜 (mask) 是从注意力图 (attention map) 提取的，并在下采样 (downsampling) 后进行扩散 (diffusion)。这种方法在某些场景下可能不够精确。例如，当编辑对象与背景颜色相近、纹理复杂或形状不规则时，注意力图是否总能准确捕捉编辑区域？粗糙的扩散操作也可能模糊精细的边界，尤其是在高分辨率图像中。更先进的语义分割 (semantic segmentation) 技术或交互式掩膜 (interactive masking) 可能会提供更精确的控制。
超参数的泛化性: $δ$ 和 $β$ 是全局固定值 (0.9 和 0.25)。这些超参数对于所有编辑任务和所有图像内容是否都是最优的？对于不同类型（例如，大规模结构变化与微小颜色变化）的编辑，或者不同风格的图像，这些固定值是否会限制模型的灵活性？引入自适应或可学习的超参数调整机制可能会进一步提高性能。
对源提示的依赖: KV-mix 的一部分仍然依赖源提示 (source prompt) 提取的 KV 特征。当源提示本身不明确或与图像内容不完全匹配时，这种依赖可能会引入噪声或偏差。
“正确完成”的边界: 论文标题宣称 Done Right，但在某些极其复杂的编辑场景下（例如，涉及物体形状的大幅改变、添加不存在的物体或场景重构），ProEdit 的方法可能仍然面临挑战。Latents-Shift 主要处理分布 (distribution)，而非结构 (structure) 的巨大变化。对于这些更具挑战性的任务，可能需要结合其他方法，如结构引导 (structure guidance) 或几何形变 (geometric deformation)。
计算开销: 尽管没有增加 NFE，但 KV-mix 和 Latents-Shift 模块的额外计算和内存开销（例如，缓存 $K$ 和 $V$ 特征，额外的矩阵乘法和逐元素操作）可能会对推理速度产生一定影响，尤其是在处理高分辨率视频时。虽然论文没有深入讨论，但这对于实际部署是重要的考量。