AiPaper
论文状态:已完成

Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists

发表:2025/02/11
原文链接PDF 下载
价格:0.10
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

提出Señorita-2M数据集,包含约200万高质量视频编辑对,由四个专业编辑模型构建,并设计过滤流水线提升数据质量,显著推动端到端视频编辑方法的发展,实现更快推理与优异编辑效果。

摘要

Recent advancements in video generation have spurred the development of video editing techniques, which can be divided into inversion-based and end-to-end methods. However, current video editing methods still suffer from several challenges. Inversion-based methods, though training-free and flexible, are time-consuming during inference, struggle with fine-grained editing instructions, and produce artifacts and jitter. On the other hand, end-to-end methods, which rely on edited video pairs for training, offer faster inference speeds but often produce poor editing results due to a lack of high-quality training video pairs. In this paper, to close the gap in end-to-end methods, we introduce Se~norita-2M, a high-quality video editing dataset. Se~norita-2M consists of approximately 2 millions of video editing pairs. It is built by crafting four high-quality, specialized video editing models, each crafted and trained by our team to achieve state-of-the-art editing results. We also propose a filtering pipeline to eliminate poorly edited video pairs. Furthermore, we explore common video editing architectures to identify the most effective structure based on current pre-trained generative model. Extensive experiments show that our dataset can help to yield remarkably high-quality video editing results. More details are available at https://senorita-2m-dataset.github.io.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists (中文翻译: Señorita-2M: 由视频专家构建的用于通用视频编辑的高质量指令式数据集)

1.2. 作者

Bojia Zi*, Penghui Ruan*, Marco Chen, Xianbiao Qi†, Shaozhe Hao, Shihao Zhao, Youze Huang, Bin Liang, Rong Xiao, Kam-Fai Wong (*表示同等贡献,†表示通讯作者)

隶属机构:

  • 香港中文大学
  • 中国科学院自动化研究所
  • 商汤科技
  • 浙江大学
  • 北京理工大学
  • 阿里巴巴

1.3. 发表期刊/会议

预印本 (Preprint),发布于 arXiv

1.4. 发表年份

2025年 (UTC时间 2025-02-10T17:58:22.000Z 发布)。

1.5. 摘要

本文聚焦于视频编辑技术,将其分为基于反演 (inversion-based) 方法和端到端 (end-to-end) 方法。然而,当前视频编辑方法仍面临挑战:基于反演的方法虽然无需训练且灵活,但在推理时耗时、难以处理细粒度编辑指令,并产生伪影 (artifacts) 和抖动 (jitter);端到端方法依赖于编辑过的视频对进行训练,推理速度更快,但由于缺乏高质量训练视频对,编辑效果往往不佳。

为了弥补端到端方法在数据上的不足,本文引入了 Señorita-2M,一个高质量的视频编辑数据集。Señorita-2M 包含大约200万个视频编辑对,其构建过程是基于团队精心打造并训练的四个高质量、专业化视频编辑模型,每个模型都在各自的编辑任务上达到了最先进的 (state-of-the-art) 效果。此外,本文还提出了一种过滤流水线 (filtering pipeline) 来消除编辑质量不佳的视频对。

研究进一步探索了常见的视频编辑架构,以识别出基于当前预训练生成模型的最有效结构。大量的实验结果表明,该数据集能够帮助模型产生卓越的视频编辑效果。

1.6. 原文链接

https://arxiv.org/abs/2502.06734v3 (发布状态: 预印本)

1.7. PDF 链接

https://arxiv.org/pdf/2502.06734v3.pdf

2. 整体概括

2.1. 研究背景与动机

近年来,基于扩散模型 (diffusion-based generative techniques) 的生成技术取得了显著进展,从文本到图像生成 (text-to-image generation) 的 Stable DiffusionKolors 到文本到视频生成 (text-to-video generation) 的 VideoCrafterAnimateDiff,再到闭源的 SORAKlingGen3,都展示了令人印象深刻的视觉效果和运动一致性。伴随生成技术的进步,编辑技术也同步发展。图像编辑 (image editing) 领域已取得卓越成果,但视频编辑 (video editing) 作为新兴领域,仍需进一步发展才能达到令人满意的效果。

当前视频编辑方法主要分为两类:

  1. 基于反演 (Inversion-based) 方法: 这类方法通常将视频内容转换为潜在空间 (latent space),然后通过文本提示 (prompt) 进行编辑。
    • 优点: 无需额外训练,且具有一定的灵活性。
    • 挑战: 推理时间长、难以处理细粒度的编辑指令、容易产生伪影 (artifacts) 和帧间抖动 (jitter) 或不一致性 (frame inconsistencies)。
  2. 端到端 (End-to-end) 方法: 这类方法通过在原始视频和编辑后视频对上进行训练来学习编辑能力。
    • 优点: 推理速度快。

    • 挑战: 严重依赖高质量的训练视频对。然而,目前市场上严重缺乏这类高质量的指令式 (instruction-based) 视频编辑数据集,导致训练出的模型编辑效果不佳。

      论文试图解决的核心问题: 端到端视频编辑方法因缺乏高质量、大规模的指令式训练视频对而性能受限。

为什么这个问题在当前领域是重要的: 随着视频生成技术日益成熟,用户对视频编辑的需求也越来越高,特别是在通用、灵活且高质量的编辑方面。端到端方法在速度上具有优势,是实现实时或近实时视频编辑的关键,但数据瓶颈严重阻碍了其发展。解决数据短缺问题将极大地推动视频编辑技术的发展和应用。

这篇论文的切入点或创新思路: 本文通过构建一套高质量的、大规模的指令式视频编辑数据集 Señorita-2M 来解决数据短缺问题。该数据集并非简单收集,而是通过:

  1. 开发四种专业化的视频编辑模型 (video editing experts) 来生成高质量的编辑视频。
  2. 设计一套严格的过滤流水线 (filtering pipeline) 来确保数据集的质量。
  3. 利用大型语言模型 (LLM) 来生成清晰有效的编辑指令。
  4. 从真实互联网视频源 (Pexels) 爬取数据,而非纯合成数据,增加真实性。

2.2. 核心贡献/主要发现

本文的主要贡献可以总结为以下三点:

  1. 引入 Señorita-2M,首个真正大规模的指令式视频编辑数据集。
    • 现有的数据集要么专注于局部编辑(如 RACCooNVIVID-10M),要么是合成生成(如 InsV2V),且规模较小。
    • Señorita-2M 包含约200万个视频对,原始数据来源于互联网的真实视频,涵盖18种不同的视频编辑任务,包括局部和全局编辑,具有多种分辨率和帧长度。
  2. 为构建 Señorita-2M 数据集,精心打造了四个专业化视频编辑专家模型。
    • 这些专家模型包括:全局风格化器 (Global Stylizer)、局部风格化器 (Local Stylizer)、对象移除器 (Object Remover) 和文本引导视频修补器 (Text-guided Video Inpainter)。
    • 每个专家模型在其特定任务中均达到了最先进的 (state-of-the-art) 性能。
  3. 实验证明,该数据集能够训练出高质量的视频编辑模型。
    • 基于 Señorita-2M 训练出的模型在视觉质量、帧一致性 (frame consistency) 和文本对齐 (text alignment) 方面表现出色。
    • 本文还通过探索不同的视频编辑架构,识别出了基于当前预训练生成模型的最有效结构。

论文得出的关键结论或发现:

  • 高质量、大规模的指令式视频编辑数据集是训练高性能端到端视频编辑模型的关键。
  • 通过结合专门的专家模型进行数据生成和严格的过滤机制,可以有效地构建这样的数据集。
  • 第一帧引导 (first-frame guidance) 和数据集增强 (dataset enhancements) 可以显著提升视频编辑模型的性能。

3. 预备知识与相关工作

3.1. 基础概念

理解本文需要掌握以下基本概念:

  • 扩散模型 (Diffusion Models): 一类生成模型,通过逐步向数据(如图像或视频)添加噪声来破坏数据结构,然后学习如何反向去噪以从随机噪声中生成新的数据样本。它们在图像和视频生成领域取得了显著成功。
  • 基于反演的方法 (Inversion-based Methods): 在编辑任务中,这类方法通常将输入的图像或视频编码到扩散模型的潜在空间 (latent space) 中,然后在这个潜在空间进行编辑,并利用扩散模型的生成能力将编辑后的潜在表示解码回像素空间。
    • 优点: 训练自由 (training-free),灵活。
    • 缺点: 推理时间长,难以进行细粒度控制,易产生伪影和帧间不一致性。
  • 端到端方法 (End-to-end Methods): 这类方法直接训练一个模型,将原始图像/视频和编辑指令作为输入,直接输出编辑后的图像/视频。通常需要大量的原始-编辑对数据进行监督训练。
    • 优点: 推理速度快。
    • 缺点: 依赖高质量的训练数据,且数据获取成本高。
  • UNet (U-shaped Network): 一种编码器-解码器架构,因其形状像字母“U”而得名。它在医学图像分割任务中首次提出,通过跳跃连接 (skip connections) 将编码器路径中的特征图直接传递到解码器路径,有助于保留图像的细节信息,广泛应用于图像生成和去噪任务中。
  • DiT (Diffusion Transformer):Transformer 架构应用于扩散模型的一种变体。传统的扩散模型通常使用 UNet 作为骨干网络,而 DiTUNet 的卷积操作替换为 Transformer 块,从而能够更好地处理长距离依赖关系,提高生成质量和可扩展性。
  • ControlNet (控制网络): 一种用于条件生成扩散模型的技术,它在保持预训练扩散模型生成能力的同时,通过添加一个可训练的编码器分支来接受额外的条件输入(如边缘图 Canny、深度图 Depth、法线图 HED 等),从而实现对生成过程的精细控制。
  • Classifier-Free Guidance (CFG,无分类器引导): 一种提高扩散模型生成质量和与文本提示对齐程度的技术。它通过在推理时结合有条件生成(基于文本提示)和无条件生成(不基于文本提示)的去噪预测,来“引导”模型生成更符合提示的高质量内容。通常用一个权重参数 guidance scale 来控制引导强度。
  • 大型语言模型 (LLM,Large Language Model): 一类具有海量参数和在大量文本数据上预训练的深度学习模型,能够理解、生成和处理人类语言。在本文中,LLM 被用于生成和优化视频编辑指令。
  • CLIP (Contrastive Language-Image Pre-training,对比语言-图像预训练): 由 OpenAI 开发的一种多模态模型,通过在大规模文本-图像对上进行对比学习,学习到了图像和文本之间的高度对齐的表示。它可以用于计算图像与文本之间的语义相似度,在本文中用于评估文本-视频对齐度。
  • VAE (Variational AutoEncoder,变分自编码器): 一种生成模型,包括一个编码器 (encoder) 将输入数据映射到潜在空间 (latent space) 的概率分布,以及一个解码器 (decoder) 从潜在空间中采样并重构数据。在扩散模型中,VAE 通常用于将图像或视频编码到更紧凑的潜在表示,并在生成后解码回像素空间,从而加速计算并减少内存消耗。
  • 掩码 (Mask): 一个二值图像或区域,用于指示图像或视频中特定部分的位置。在编辑任务中,掩码可以标记要编辑的对象、要修补的区域或要移除的部分。
  • 修补 (Inpainting): 指填充图像或视频中缺失或被遮挡区域的技术,使其与周围内容自然融合。
  • 外画 (Outpainting): 指在图像或视频现有边界之外生成新内容,以扩展其画面。
  • 专家模型 (Expert Models): 在本文中,指专门为特定视频编辑任务(如风格化、移除、修补)训练的高性能模型。这些模型被用于生成 Señorita-2M 数据集中的编辑对。
  • 全局风格化器 (Global Stylizer): 对整个视频应用统一的艺术风格或视觉效果的模型。
  • 局部风格化器 (Local Stylizer): 仅对视频中特定对象或区域应用风格化效果的模型。
  • 对象移除器 (Object Remover): 从视频中移除指定对象或区域,并自然填充背景的模型。
  • 文本引导视频修补器 (Text-guided Video Inpainter): 根据文本指令来修补视频中指定区域的模型。

3.2. 前人工作

3.2.1. 图像编辑 (Image Editing)

图像编辑方法大致分为两类:

  • 基于反演的方法 (Inversion-based Methods):
    • DDIM inversion: 通过将图像转换为潜在空间,并添加提示进行重生成来编辑图像。
    • SDEdit (Meng et al., 2021): 向图像添加噪声,然后根据目标文本对其进行去噪。
    • Prompt-to-Prompt (Hertz et al., 2022): 在扩散步骤中修改注意力图 (attention maps)。
    • Null-Text Inversion (Mokady et al., 2023): 调整文本嵌入 (textual embeddings) 以进行无分类器引导。
  • 监督方法 (Supervised Methods) / 端到端方法 (End-to-end Methods):
    • InstructP2P (Brooks et al., 2023): 利用扩散模型生成的数据进行训练,使扩散模型能够编辑图像。
    • MagicBrush (Zhang et al., 2024a): 引入人工标注的编辑数据,增强扩散模型的能力。
    • EmuEdit (Sheynin et al., 2024): 使用更小的偏差和更高质量的数据进行训练,超越了先前的方法。
    • UltraEdit (Zhao et al., 2024a): 通过修补模型和反演方法构建大规模数据集。
    • Omni-Edit (Wei et al., 2024): 通过雇佣更多专家生成更高质量的数据集,改进了 UltraEdit

3.2.2. 视频编辑 (Video Editing)

视频编辑领域与图像编辑存在显著差异。

  • 基于反演的方法 (Inversion-based Methods):
    • Tune-A-Video (Wu et al., 2023): 在特定视频上微调扩散模型,根据目标提示生成编辑视频。
    • Pix2Video (Ceylan et al., 2023) 和 TokenFlow (Geyer et al., 2023): 通过帧间注意力或编辑关键帧来关注帧间一致性。
    • AnyV2V (Ku et al., 2024): 通过注入特征并由第一帧引导来生成编辑视频。
    • Gen3 (Gen-3, 2024) 和 SORA (OpenAI, 2024): 通过添加噪声和根据目标提示重新生成来实现风格迁移。
  • 监督方法 (Supervised Methods) / 端到端方法 (End-to-end Methods):
    • InsV2V (Cheng et al., 2024): 使用生成的视频对训练编辑模型。
    • EVE (Singer et al., 2025): 使用 SDS (Score Distillation Sampling) 损失进行蒸馏。
    • RACCooN (Yoon et al., 2024) 和 VIVID-10M (Hu et al., 2024): 使用修补模型和视频标注来生成局部编辑模型。
    • Propgen (Liu et al., 2024b): 利用廉价的视频掩码监督模型训练,用于局部编辑。
    • 挑战: 这些方法由于缺乏高质量的指令式编辑数据集,导致性能不佳。

3.2.3. 图像和视频编辑数据集 (Image and Video Editing Datasets)

  • 图像编辑数据集:
    • InstructPix2Pix (Brooks et al., 2023): 基于 CLIP-scoreprompt-to-prompt 过滤构建大规模数据集。
    • MagicBrush (Zhang et al., 2024a): 通过 DALLE-2 的人工标注数据提高数据质量。
    • HQ-Edit (Hui et al., 2024): 使用 DALLE3 生成高质量编辑对。
    • EmuEdit (Sheynin et al., 2024): 扩展到1000万图像对,结合自由形式和局部编辑。
    • UltraEdit (Zhao et al., 2024a): 贡献400万样本,使用 LLM 生成指令。
    • Omni-Edit (Wei et al., 2024): 使用多个专家模型和多模态框架进行质量控制,实现多样化编辑能力。
  • 视频编辑数据集: 数量相对较少。
    • RACCooN (Yoon et al., 2024) 和 VIVID-10M (Hu et al., 2024): 使用修补模型进行视频标注。
    • InsV2V (Cheng et al., 2024): 使用生成的原始和目标视频对构建数据集,但数据质量不足以获得强大性能。

3.3. 技术演进与差异化分析

技术演进:

  • 从图像生成 (如 Stable Diffusion) 到视频生成 (如 SORA),生成模型的质量和能力不断提升。
  • 编辑技术也从简单的图像处理发展到复杂的基于扩散模型的图像编辑。
  • 视频编辑作为更具挑战性的任务,正在从早期的基于反演的方法(关注一致性和细节保持)向端到端、指令式的方法发展,以期实现更快的推理速度和更灵活的控制。

差异化分析: 本文的 Señorita-2M 数据集与现有视频编辑数据集的核心区别和创新点在于:

  • 规模与质量: 现有的视频编辑数据集规模小,且数据质量不高(如 InsV2V 的数据质量不足),或者只关注局部编辑 (RACCooN, VIVID-10M)。Señorita-2M 是首个真正大规模 (approximately 2 million video editing pairs)高质量 (high-quality) 的指令式视频编辑数据集。
  • 数据来源: Señorita-2M 的原始数据来源于真实的互联网视频 (Pexels),而非纯粹的合成数据,这使得数据集更具多样性和真实性,能更好地反映现实世界中的视频编辑需求。而 InsV2V 使用的是合成视频对。
  • 编辑任务多样性: Señorita-2M 涵盖18种不同的视频编辑任务,包括局部编辑 (local editing)全局编辑 (global editing),远超现有数据集的覆盖范围。
  • 构建方法: 本文采用独特的“专家模型 + 过滤流水线 + LLM 指令生成”方法来构建数据集,确保了每个编辑对的质量和指令的准确性,这是现有数据集所不具备的。特别是引入了四个专门训练的、达到 state-of-the-art 水平的视频编辑专家模型来生成数据。

4. 方法论

本节详细阐述了 Señorita-2M 数据集的构建方法,包括四个视频专家模型(全局风格化器、局部风格化器、文本引导视频修补器和对象移除器)的设计和训练,以及 Señorita-2M 数据集的构建流水线(数据收集、局部和全局视频对的推理过程,以及过滤流水线)。

4.1. 方法原理

Señorita-2M 数据集的核心思想是,通过结合多模态预训练模型 (CogVLM2, Grounded-SAM2)、专门训练的视频编辑专家模型 (Global Stylizer, Local Stylizer, Text-guided Video Inpainter, Video Remover) 和大型语言模型 (LLaMA-3) 来生成大规模高质量的视频编辑对。为了确保数据的可用性和可靠性,还设计了一套严格的三阶段过滤流水线。这种方法旨在克服现有端到端视频编辑方法因缺乏高质量训练数据而导致的性能瓶颈。

整个构建流程可以概括为:

  1. 数据收集与标注:Pexels 收集高质量视频,并使用 BLIP-2CogVLM2Grounded-SAM2 进行视频描述、对象识别、分割和跟踪。

  2. 专家模型构建: 基于 CogVideoX 等强大的基础模型,训练并优化四个专门的视频编辑专家,使其在各自领域达到 state-of-the-art 性能。

  3. 视频编辑对生成: 利用这些专家模型对收集到的视频进行各种局部和全局编辑,生成原始视频-编辑后视频对。

  4. 指令生成: 使用 LLM 将编辑操作和目标转换为清晰、有效的文本指令。

  5. 数据过滤: 应用多阶段过滤流水线,去除编辑失败、文本对齐不佳或变化不明显的视频对,确保数据集质量。

    以下是 Señorita-2M 数据集构建的整体流程图,展示了从视频输入到专家模型处理再到多阶段筛选,最终得到高质量视频对的过程。

    该图像是一个示意图,展示了Señorita-2M数据集中视频编辑及筛选流程。包括多个视频编辑模型(Global Stylizer、Local Stylizer、Remover、Inpainter、SAM2、Depth Detector)对输入视频的处理,以及通过视觉质量过滤、文本对齐过滤和视觉相似性过滤的多阶段筛选,最终得到高质量的干净视频对。 该图像是一个示意图,展示了Señorita-2M数据集中视频编辑及筛选流程。包括多个视频编辑模型(Global Stylizer、Local Stylizer、Remover、Inpainter、SAM2、Depth Detector)对输入视频的处理,以及通过视觉质量过滤、文本对齐过滤和视觉相似性过滤的多阶段筛选,最终得到高质量的干净视频对。

4.2. 核心方法详解

4.2.1. 视频专家模型的构建 (The Construction of Video Experts)

所有专家模型都基于 CogVideoX 或其变体进行构建和训练。

4.2.1.1. 视频专家模型的训练数据 (The Training Data for Video Experts)

  • 基础数据集: 使用 Webvid-10M 数据集进行专家模型的训练。
  • 视频标注:
    • CogVLM2 (Hong et al., 2024) 用于生成视频描述 (captions),每个描述大约50个词,并识别视频中的对象。
    • GroundedSAM2 (Liu et al., 2023a; Ravi et al., 2024) 用于对识别出的对象进行分割 (segmentation) 和跟踪 (tracking),生成对应的掩码 (masks)。

4.2.1.2. 视频专家模型的设计与训练 (The Design and Training for Video Experts)

以下是每个专家模型的具体构建细节,以及其在相关任务上的定量比较(补充自附录)。

全局风格化器 (Global Stylizer)
  • 目标: 对整个视频进行风格迁移。

  • 挑战: 当前视频生成模型难以理解风格提示 (style prompt)。

  • 方法:

    1. 第一帧编辑: 使用 ControlNet (ControlNet-SD1.5 (Zhang et al., 2023a)) 对视频的第一帧进行编辑,以应用所需风格。
    2. 视频引导: 然后,训练一个视频 ControlNet 来指导其余帧的风格迁移。这个视频 ControlNet 利用多个控制条件以获得稳健的风格迁移结果,包括 Canny 边缘、HED (Holistically-nested Edge Detection) 边缘和 Depth 深度图。这些控制条件首先通过 3D-VAE 转换为潜在空间表示。
    3. 训练细节:
      • 基础模型: CogVideoX 模型。
      • 两阶段训练:
        • 第一阶段: 训练分辨率为 256×448×33256 \times 448 \times 33 (宽度x高度x帧数),并加入 10%10\% 的空提示 (null prompt) 以支持 无分类器引导 (Classifier-Free Guidance, CFG)
        • 第二阶段: 在第一阶段模型的基础上,将空间分辨率提高到 448×896448 \times 896 进行微调。
      • 推理: 推理时,首先使用 ControlNet 处理第一帧,然后将处理后的第一帧连同提示词和 CFG 一起输入模型,生成 336×592336 \times 592 分辨率的33帧视频。
  • 附录B.2 提供的训练框架图:

    该图像是论文中用于构建高质量视频编辑数据集Señorita-2M的数据处理流程示意图,展示了从输入视频、特征提取、文本提示生成到视频编辑及数据集生成的全过程。 该图像是论文中用于构建高质量视频编辑数据集Señorita-2M的数据处理流程示意图,展示了从输入视频、特征提取、文本提示生成到视频编辑及数据集生成的全过程。

  • 附录B.2 定量比较 (Table 5. Quantitative Comparison on Global Stylization): 以下是原文 Table 5 的结果:

    MethodsEwarp(10-3)(1)CLIPScore (↑)Temp-Cons (↑)
    Tokenflow19.990.31250.9752
    Flatten11.180.31270.9759
    InsV2V9.610.28640.9736
    AnyV2V34.940.29280.9687
    Our Expert9.020.31450.9781

    分析: 我们的专家模型在 Ewarp(9.02,越低越好)、CLIPScore(0.3145,越高越好)和 Temporal Consistency(0.9781,越高越好)方面均表现最佳,表明其在全局风格化任务中实现了视觉质量、文本对齐和时间一致性的最佳平衡。

局部风格化器 (Local Stylizer)
  • 目标: 在保持视频背景不变的情况下,对视频中特定区域的对象进行风格化操作。

  • 方法:AVID (Zhang et al., 2023b) 等修补方法的启发,训练了一个结合修补和 ControlNet 的局部风格化器。

    • 控制条件: 与全局风格化器类似,模型使用 CannyHEDDepth 三种控制条件输入到 ControlNet 分支。
    • 掩码条件: 此外,掩码条件被输入到主分支 (main branch) 中,以指导模型仅在指定区域进行编辑。
  • 训练细节:

    • 基础模型: 预训练的 CogVideoX-2B
    • 训练参数: 学习率为 1e-5,权重衰减为 1e-4。训练视频包含33帧,分辨率为 336×592336 \times 592
    • 性能优化: 为了保持泛化能力并加速训练,除了 DiT 的第一个 FFN (Feed-Forward Network) 层外,其他 FFN 层都被冻结。
    • 推理:Nvidia RTX 4090 上,处理一个 336×592×33336 \times 592 \times 33 分辨率的视频,大约需要30秒。
  • 附录B.3 提供的训练框架图:

    该图像是论文中的示意图,展示了视频编辑数据集Señorita-2M的构建流程,包括去背景处理、通过VAE编码、ControlNet-Inpainter模型编辑及基于LLM生成编辑指令的完整数据集构造过程。 该图像是论文中的示意图,展示了视频编辑数据集Señorita-2M的构建流程,包括去背景处理、通过VAE编码、ControlNet-Inpainter模型编辑及基于LLM生成编辑指令的完整数据集构造过程。

  • 附录B.3 定量比较 (Table 6. Quantitative Comparison on Local Stylization): 以下是原文 Table 6 的结果:

    MethodsEwarp(10-3) (1)CLIPScore (↑)Temp-Cons (↑)PSNR()SSIM (1)LPIPS (1)MSE (↓)
    Tokenflow16.600.28760.981018.790.85550.1483987.90
    Flatten17.180.29230.975118.640.86050.14631068.95
    InsV2V7.400.28300.978320.810.90910.0985829.83
    AnyV2V15.770.29200.975919.600.88840.1207835.39
    Our Expert6.500.29440.982828.290.98430.0346108.25

    分析: 我们的专家模型在 Ewarp(6.50)、Temporal Consistency(0.9828)、PSNR(28.29)、SSIM(0.9843)、LPIPS(0.0346)和 MSE(108.25)方面均表现最佳,尤其在 CLIPScore(0.2944)上领先,表明它在保持背景不变的情况下,能够有效且一致地进行局部风格化,且失真最小。

文本引导视频修补器 (Text-guided Video Inpainter)
  • 目标: 根据文本提示修复视频中的指定区域。

  • 挑战: 现有修补方法 (如 AVID, COCOCO) 模型较旧,可能产生伪影。VIVID-10M 数据集未开源。

  • 方法: 训练了一个基于 CogVideoX-5B-I2V 的修补器。

    • 引导机制: 利用图像编辑器 Flux-Fill (Black Forest Labs, 2024) 对第一帧进行编辑,以指导后续的视频修补过程。
    • 掩码类型: 为避免过拟合 (overfitting),训练时使用了四种类型的掩码,包括随机形状和精确形状的掩码。
    • 掩码信息: 掩码的像素值被设置为0,并通过独立的嵌入器 (embedders) 与文本提示配对。
  • 训练细节:

    • 训练参数: 学习率为 1e-5,权重衰减为 1e-4。训练分辨率为 336×592336 \times 592,帧数为33,步幅 (stride) 为2。
    • 性能优化: 冻结了除第一个 DiT 块之外的所有 FFN 层。
    • 推理:Nvidia RTX 4090 上,处理一个 336×592×33336 \times 592 \times 33 分辨率的视频大约需要2分钟。
  • 附录B.4 提供的训练框架图:

    该图像是论文中关于Senorita-2M数据集构建流程的示意图,详细展示了从输入视频、生成掩码、提示词构建,到视频编辑模型训练和数据集生成的全过程。 该图像是论文中关于Senorita-2M数据集构建流程的示意图,详细展示了从输入视频、生成掩码、提示词构建,到视频编辑模型训练和数据集生成的全过程。

  • 附录B.4 定量比较 (Table 7. Quantitative Comparison on Object Swap): 修补器的一个重要应用是对象交换,以下是原文 Table 7 的结果:

    MethodsEwarp(10-3) (1)CLIPScore (↑)Temp-Cons (↑)PSNR()SSIM()LPIPS (1)MSE (1)
    Tokenflow17.210.30280.975218.700.85690.1447995.91
    Flatten17.910.22230.974418.800.85720.13501090.39
    InsV2V8.800.27330.972221.570.92040.0787642.44
    AnyV2V13.490.28700.974119.780.89030.1197777.86
    Our Expert12.060.31860.978225.590.96200.04265.15

    分析: 我们的专家模型在 CLIPScore(0.3186)、Temporal Consistency(0.9782)、PSNR(25.59)、SSIM(0.9620)、LPIPS(0.04)和 MSE(265.15)方面均表现最佳,表明它在对象交换任务中实现了最佳的文本对齐和帧连贯性,同时保持了高质量的视觉输出。

视频移除器 (Video Remover)
  • 目标: 从视频中自然地移除指定对象。

  • 挑战: 当前视频修补器在移除对象时可能产生模糊 (blur) 或伪影,且生成内容与掩码形状高度相关。

  • 方法: 训练了一个强大的视频移除器,基于 CogVideoX-2B,并采用了一种新颖的掩码选择策略。

    • 掩码选择策略:
      • 90%90\% 的掩码从与正向指令 (positive instructions) 无关的视频中随机采样,这些指令通常是“移除{对象名称}”。
      • 10%10\% 的掩码精确覆盖对象,并带有负向指令 (negative instructions),即“生成{对象名称}”。
    • 无分类器引导: 训练后,通过 无分类器引导 技术同时使用正向和负向指令进行推理。这使得生成内容能够与掩码形状无关,从而实现更自然的移除效果。
  • 训练细节:

    • 训练参数: 学习率为 1e-5,权重衰减为 1e-4。
    • 数据采样: 90%90\% 的样本为与任务无关的掩码, 10%10\% 为与任务相关的掩码。视频采样为33帧,步幅为2,分辨率为 336×592336 \times 592
    • 性能优化: 冻结了除第一个 DiT 块之外的所有 FFN 层。
    • 推理:Nvidia RTX 4090 上,处理一个 336×592×33336 \times 592 \times 33 分辨率的视频大约需要1分钟。
  • 附录B.5 提供的训练框架图 (Figure 13):

    Figure 13. The framework of our remover and sub-dataset construction pipeline. 该图像是图13,展示了去除器及子数据集构建流水线的框架。上部对比了传统填充器与本方法的关系断裂,中部为训练阶段的流程,底部为数据集构建阶段,涵盖视频输入、掩码生成及基于指令的视频去除与数据集生成过程。

  • 附录B.5 定量比较 (Table 8. Quantitative Comparison on Object Removal): 以下是原文 Table 8 的结果:

    MethodsEwarp(10-3) (↓)Relevance (1)Temp-Cons (↑)PSNR()SSIM(↑)LPIPS (1)MSE (1)
    Tokenflow16.340.15970.978618.380.83950.16391095.06
    Flatten11.180.21940.975918.870.83670.15291088.33
    InsV2V6.670.21340.974722.270.91870.0648563.17
    AnyV2V13.140.17740.976519.800.88250.1290800.56
    Propainter4.930.16850.986236.870.99780.008116.37
    Our Expert4.210.15540.986429.160.98630.03189.62

    分析: 我们的专家模型在 Ewarp(4.21)和 Temporal Consistency(0.9864)方面表现最佳,表明其在对象移除任务中具有卓越的稳定性。尽管 PropainterPSNRSSIMLPIPSMSE 上表现更优,但其 Relevance 较低(0.1685),可能导致生成内容与文本提示的关联性较差。而我们的专家模型在 Relevance 上也保持了竞争力(0.1554),同时在时间一致性上略胜一筹。

4.2.2. Señorita-2M 数据集的构建 (The Construction of Señorita-2M)

4.2.2.1. 数据来源 (The Data Source in Señorita-2M)

  • 视频采集:Pexels.com (一个提供高分辨率、高质量免费视频的网站) 通过认证 API 爬取视频。
  • 视频数量: 总共约390,000个视频。
  • 视频描述: 使用 BLIP-2 (Li et al., 2023) 对视频进行描述 (captioning),以适应 CLIP 的长度限制。
  • 掩码区域与短语: 使用 CogVLM2 (Hong et al., 2024) 识别视频中的对象,并使用 Grounded-SAM2 (Liu et al., 2023a; Ravi et al., 2024) 获取对象的掩码区域及其对应的短语。

4.2.2.2. 局部编辑 (Local Edit)

局部编辑包含6个任务,主要依赖于上述专家模型:

  1. 对象交换 (Object Swap):
    • 指令生成: LLaMA-3 (Dubey et al., 2024) 建议替换对象,并生成涉及旧对象和新对象的指令。
    • 执行过程: 使用 FLUX-Fill (Black Forest Labs, 2024) 在第一帧中交换对象,然后由文本引导视频修补器 (Inpainter) 根据第一帧生成剩余帧。
  2. 局部风格迁移 (Local Style Transfer):
    • 指令生成: LLM 被要求为对象名称添加描述性形容词以构建提示。LLM 最终将此转换为最终指令。
    • 执行过程: 将此提示输入到局部风格化器 (Local Stylizer) 中,以修改被掩码的区域。
  3. 对象移除 (Object Removal):
    • 指令生成: 通过在对象名称前添加“Remove”或“Generate”来生成正向和负向指令。LLM 进一步生成最终指令。
    • 执行过程: 使用视频移除器 (Remover) 进行对象移除。
  4. 对象添加 (Object Addition):
    • 指令生成: 与对象移除相反,通过交换源视频和目标视频来完成。LLM 协助重写和增强指令。
    • 执行过程: 利用移除器进行逆向操作,或者通过修补模型填充空白区域以添加对象。
  5. 视频修补 (Video Inpainting) 和 外画 (Outpainting):
    • 指令生成: 通过在视频描述前添加“inpaint”或“outpaint”来生成指令。
    • 执行过程:
      • 修补: 从第一帧移除一个区域并替换为零,掩码区域的位置随时间移动。
      • 外画: 类似修补,但使用黑色背景。
    • 分辨率与帧数: 修补和外画过程的分辨率为 1280×19841280 \times 1984,包含64帧。

4.2.2.3. 全局编辑 (Global Edit)

全局编辑包含三个关键组件:

  1. 风格迁移 (Style Transfer):
    • 指令生成: 结合 Midjourney (Midjourney, 2024) 提供的风格提示和 BLIP2 视频描述,生成带有风格信息的提示。LLM 用于将风格提示转换为可操作的指令。
    • 执行过程:
      • 将提示输入 ControlNet-SD1.5-HED 对第一帧进行风格迁移。
      • 将编辑后的第一帧与控制条件(CannyDepthHED)整合,并通过全局风格化器 (Global Stylizer) 生成其余帧。
    • 推理成本优化: 为加速推理,分辨率从 336×592336 \times 592 降低到 256×448256 \times 448,推理成本降低2倍。生成后会放大到 336×592336 \times 592
  2. 对象接地 (Object Grounding):
    • 目的: 为视频编辑提供对象接地视频对,帮助模型根据指令准确地定位相关区域。
    • 指令生成: 初始指令通过在对象名称前添加“Detect”或“Ground”等词语创建。LLM 用于精炼这些指令。
    • 执行过程: Grounded-SAM2 检测到的对象,与提示无关的区域标记为黑色,而与提示相关的实例则用不同颜色高亮。
    • 分辨率与帧数: 视频分辨率为 1120×19841120 \times 1984,包含64帧。
  3. 条件生成 (Conditional Generation):
    • 目的: 支持视频到视频的翻译 (video-to-video translation)。
    • 任务列表 (10个):
      • Deblur (去模糊)
      • Canny-to-Video (Canny边缘图转视频)
      • Depth-to-Video (深度图转视频)
      • Depth Detection (深度检测)
      • Hed-to-Video (HED边缘图转视频)
      • Hed Detection (HED边缘检测)
      • Upscaling (超分辨率)
      • FakeScribble-to-Video (伪涂鸦转视频)
      • FakeScribble Detection (伪涂鸦检测)
      • Colorization (上色)
    • 分辨率与帧数: 这些任务的分辨率为 1120×19841120 \times 1984,包含64帧。

4.2.2.4. 数据筛选 (DATA SELECTION)

为了确保数据集的质量,本文提出了一套过滤流水线来选择合适的编辑视频,包括三个阶段:

  1. 质量过滤 (Quality filtering):
    • 目的: 识别并过滤掉编辑失败的样本。
    • 方法: 训练分类器来识别失败案例。首先,手动标注了一个包含成功和失败样本的数据集。
      • 特征提取: 使用预训练的 CLIP 视觉编码器 (vision encoder) 从每个视频的17帧中提取特征。
      • 分类器: 使用 MLP (多层感知机) 分类器对提取的特征进行分类。
      • 鲁棒性增强: 通过集成 (ensemble) 采用不同策略训练的分类器来提高鲁棒性。不同任务应用不同的阈值。
  2. 移除文本对齐不佳的视频 (Removing poor text-alignment videos):
    • 目的: 解决生成内容与文本提示不一致的问题。
    • 方法: 使用 CLIP 来比较编辑样本与其对应文本提示之间的相似度。
      • 对象交换和局部风格化: 比较修补提示 (inpainting prompt) 与编辑视频。
      • 风格化: 比较风格提示 (style prompt) 与编辑视频。
      • 对象移除: 由于缺乏合适的提示,不进行此比较。
      • 不同任务使用不同的相似度阈值。
  3. 移除细微变化的视频对 (Removing subtle video pairs):
    • 目的: 过滤掉编辑效果不明显或与原始视频过于相似的视频对,防止模型过拟合 (overfitting)。
    • 方法: 使用 CLIP 的视觉编码器提取原始视频和编辑视频的特征,并计算它们之间的相似度。相似度分数高于预设阈值 (例如0.95) 的视频对将被移除。

数据准备和推理概述:

  • 视频尺寸: 原始视频被调整为 336×592336 \times 592592×336592 \times 336 (根据宽高比)。
  • 标注数据: 准备了 BLIP-2 生成的简要描述、810K个掩码及其对应短语用于推理。
  • 专家推理:
    • 局部风格化器: CFG 为6,分辨率 336×592336 \times 592,处理33帧。
    • 全局风格化器: 分辨率 256×496256 \times 496,然后调整到 336×592336 \times 592,处理33帧。
    • 修补器: CFG 为6,分辨率 336×592336 \times 592,处理33帧。
    • 移除器: CFG 为2,分辨率 336×592336 \times 592
    • 其他控制条件: 深度估计器 (depth estimators)、HEDCanny 检测器等计算机视觉技术生成视频对,分辨率均为 1120×19841120 \times 1984
  • 指令生成: LLMs (如 LLaMA-3) 将源对象和目标对象名称或编辑提示转换为清晰的指令。
  • 源视频和目标视频的确定:
    • 对象交换和对象添加: 编辑后的视频作为源,原始视频作为目标。
    • 对象移除、局部和全局风格化: 编辑后的视频作为目标。
  • 过滤流水线细节:
    • 质量过滤: 阈值为0.6。
    • 文本对齐过滤: 对象移除和局部风格化阈值为0.22;全局风格化和对象添加阈值为0.2。
    • 细微变化过滤: 原始和编辑视频的 CLIP 相似度高于0.95的视频对被移除。

5. 实验设置

5.1. 数据集

  • 训练数据集:
    • Señorita-2M: 本文构建的数据集,包含约200万个视频编辑对。
      • 来源:Pexels.com 爬取,合法合规。
      • 原始视频数量: 388,909个真实视频。
      • 编辑类型: 18种不同的局部和全局编辑任务。
      • 分辨率: 336×592336 \times 5921120×19841120 \times 1984 不等。
      • 帧长度: 33到64帧。
  • 评估数据集:
    • DAVIS dataset (Pont-Tuset et al., 2017): 用于评估模型的性能,该数据集上随机生成编辑提示。DAVIS 是一个常用的视频对象分割 (Video Object Segmentation) 数据集,常用于视频处理和生成任务的评估。

5.2. 评估指标

论文中使用的评估指标主要围绕视频编辑的稳定性、文本对齐度和视觉质量。每个指标的定义、公式和符号解释如下:

5.2.1. 稳定性和帧一致性

  1. Ewarp (Error Warp):

    • 概念定义: Ewarp 衡量编辑视频的几何失真或扭曲程度。较低的 Ewarp 值表示视频在编辑后保持了更好的几何结构和稳定性,减少了不自然的形变。它通常与视频的平滑度和视觉舒适度相关。
    • 数学公式: 论文中未直接提供 Ewarp 的具体计算公式。但根据其名称和“越低越好”的指示 (↓),它衡量的是视频帧间或编辑前后图像内容对应点的几何误差。在视频生成和编辑领域,此类指标可能涉及光流 (optical flow) 或特征点匹配 (feature point matching) 后的几何差异累积。
    • 符号解释:
      • Ewarp(10-3): Ewarp 的值,通常以 10310^{-3} 的比例表示,即实际值乘以1000。
      • : 表示该指标值越低越好。
  2. Temporal Consistency (Temp-Cons,时间一致性):

    • 概念定义: Temporal Consistency 衡量编辑视频在连续帧之间内容和风格的连贯性。高时间一致性意味着视频的编辑效果在不同帧之间平滑过渡,没有明显的闪烁、跳动或内容突变,使得观看体验更自然。论文中通过 CLIP 提取帧特征并计算相邻帧之间的相似度来评估此指标。
    • 数学公式: 论文中提到通过 CLIP 提取特征并计算相邻帧之间的相似度。一个常见的计算方式是: Temporal Consistency=1N1i=1N1similarity(frameiCLIP,framei+1CLIP) \text{Temporal Consistency} = \frac{1}{N-1} \sum_{i=1}^{N-1} \text{similarity}(\text{frame}_i^{\text{CLIP}}, \text{frame}_{i+1}^{\text{CLIP}}) 其中,similarity(,)\text{similarity}(\cdot, \cdot) 通常指余弦相似度 (cosine similarity)。
    • 符号解释:
      • NN: 视频的总帧数。
      • frameiCLIP\text{frame}_i^{\text{CLIP}}: 第 ii 帧通过 CLIP 视觉编码器提取的特征向量。
      • similarity(,)\text{similarity}(\cdot, \cdot): 计算两个 CLIP 特征向量之间的相似度(例如余弦相似度),值范围通常在 [-1, 1] 或 [0, 1] 之间。
      • : 表示该指标值越高越好。

5.2.2. 文本对齐度

  1. CLIPScore:
    • 概念定义: CLIPScore 衡量生成视频(或编辑视频)与给定文本提示之间的语义对齐程度。它利用预训练的 CLIP 模型来计算视频内容(通常是帧的聚合特征或最佳帧特征)与文本描述之间的相似度。高 CLIPScore 表示视频内容与文本指令高度一致。
    • 数学公式: 假设对视频的每个帧都提取了 CLIP 视觉特征,并与文本提示的 CLIP 文本特征进行比较。一种常见的计算方式是: CLIPScore=Mean(maxi(similarity(frameiCLIP,textCLIP))) \text{CLIPScore} = \text{Mean}(\max_{i} (\text{similarity}(\text{frame}_i^{\text{CLIP}}, \text{text}^{\text{CLIP}}))) 或简单地取视频的聚合特征与文本特征的相似度。
    • 符号解释:
      • frameiCLIP\text{frame}_i^{\text{CLIP}}: 视频第 ii 帧的 CLIP 视觉特征。
      • textCLIP\text{text}^{\text{CLIP}}: 文本提示的 CLIP 文本特征。
      • similarity(,)\text{similarity}(\cdot, \cdot): CLIP 模型内部计算的文本与图像/帧特征之间的相似度。
      • : 表示该指标值越高越好。

5.2.3. 视觉质量和感知相似性

  1. PSNR (Peak Signal-to-Noise Ratio,峰值信噪比):

    • 概念定义: PSNR 是衡量图像或视频质量的常用指标,尤其是在图像压缩和重建领域。它通过比较原始图像与重建图像(或编辑图像)的像素值差异来量化失真。PSNR 值越高,表示重建质量越好,失真越小。
    • 数学公式: PSNR=10log10(MAXI2MSE) \text{PSNR} = 10 \cdot \log_{10} \left( \frac{MAX_I^2}{\text{MSE}} \right) 其中,MSE 是均方误差 (Mean Squared Error)。
    • 符号解释:
      • MAXIMAX_I: 图像像素的最大可能值。对于8位图像,通常为255。
      • MSE: 均方误差。
      • : 表示该指标值越高越好。
  2. SSIM (Structural Similarity Index Measure,结构相似性指标):

    • 概念定义: SSIM 是一种感知指标,旨在更好地模拟人类视觉系统对图像质量的判断。它从亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面来衡量两幅图像之间的相似性。SSIM 值接近1表示两幅图像高度相似。
    • 数学公式: SSIM(x,y)=(2μxμy+C1)(2σxy+C2)(μx2+μy2+C1)(σx2+σy2+C2) \text{SSIM}(x, y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}
    • 符号解释:
      • x, y: 待比较的两幅图像(或图像块)。
      • μx,μy\mu_x, \mu_y: 图像 xxyy 的平均像素值。
      • σx,σy\sigma_x, \sigma_y: 图像 xxyy 的标准差。
      • σxy\sigma_{xy}: 图像 xxyy 的协方差。
      • C1,C2C_1, C_2: 两个常数,用于避免分母为零,通常设置为 (K1L)2(K_1L)^2(K2L)2(K_2L)^2,其中 LL 是像素值的动态范围,K1,K2K_1, K_2 是小常数。
      • : 表示该指标值越高越好。
  3. LPIPS (Learned Perceptual Image Patch Similarity,学习型感知图像块相似度):

    • 概念定义: LPIPS 是一种基于深度学习的感知相似度指标,旨在更好地反映人类对图像相似性的判断。它通过比较两幅图像在预训练深度网络(如 AlexNetVGG)中提取的特征表示来计算它们之间的距离。LPIPS 值越低,表示两幅图像在感知上越相似。
    • 数学公式: 论文中未直接提供 LPIPS 的具体计算公式。通常,它被定义为两个图像特征表示之间的 L2L_2 距离(或加权 L2L_2 距离)。 LPIPS(x,y)=l1HlWlh,wwl(ϕl(x)h,wϕl(y)h,w)22 \text{LPIPS}(x, y) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \| w_l \odot (\phi_l(x)_{h,w} - \phi_l(y)_{h,w}) \|_2^2
    • 符号解释:
      • x, y: 待比较的两幅图像。
      • ϕl()\phi_l(\cdot): 预训练网络在第 ll 层提取的特征图。
      • wlw_l: 第 ll 层的通道权重。
      • Hl,WlH_l, W_l: 第 ll 层特征图的高度和宽度。
      • \odot: 逐元素乘法。
      • 2\|\cdot\|_2: L2L_2 范数。
      • : 表示该指标值越低越好。
  4. MSE (Mean Squared Error,均方误差):

    • 概念定义: MSE 衡量原始图像与重建图像(或编辑图像)之间像素值差异的平均平方。它是衡量图像失真的基本指标之一,值越低表示两幅图像越相似。
    • 数学公式: MSE=1M×Ni=0M1j=0N1(I(i,j)K(i,j))2 \text{MSE} = \frac{1}{M \times N} \sum_{i=0}^{M-1} \sum_{j=0}^{N-1} (I(i,j) - K(i,j))^2
    • 符号解释:
      • M, N: 图像的高度和宽度。
      • I(i,j): 原始图像在像素 (i,j) 处的像素值。
      • K(i,j): 比较图像在像素 (i,j) 处的像素值。
      • : 表示该指标值越低越好。

5.2.4. 用户体验评估

  1. User Preference (用户偏好):
    • 概念定义: 通过用户研究 (user study) 收集用户对不同方法生成视频的主观偏好。用户被要求选择他们认为质量更好、编辑效果更自然或更符合预期的视频。该指标直接反映了方法在实际用户眼中的优劣。
    • 数学公式: 通常以百分比形式表示,代表用户选择某个方法的比例。
    • 符号解释:
      • %: 百分比。
      • : 表示该指标值越高越好。

5.2.5. 对象移除任务特定指标

  1. Relevance (相关性):
    • 概念定义: 在对象移除任务中,Relevance 衡量移除后的视频内容与移除指令(或其期望的替代内容)的相关性。一个好的移除器不仅要去除对象,还要用语义上合理且符合上下文的内容填充空缺。该指标通常通过评估生成内容与背景或替代内容的匹配度来间接衡量。
    • 数学公式: 论文中未提供 Relevance 的具体计算公式。它可能涉及 CLIP 相似度或其他感知指标,评估移除区域填充内容的语义合理性。
    • 符号解释:
      • : 表示该指标值越高越好。

5.3. 对比基线

论文将自己的方法与以下基线模型进行了比较:

  • 视频编辑方法:
    • Tokenflow (Geyer et al., 2023): 一种关注帧间一致性的视频编辑方法。
    • Flatten: 论文中提到的一个基线方法,可能是一种通用或简单的数据集。
    • AnyV2V (Ku et al., 2024): 一个用于视频到视频编辑任务的插拔式框架。
    • InsV2V (Cheng et al., 2024): 一个使用合成数据集进行一致性视频到视频转换的方法。
    • Propainter (Zhou et al., 2023): 一种用于视频修补的方法,特别在对象移除任务中被用作基线。
  • 图像编辑架构 (用于视频编辑上下文):
    • InstructPix2Pix (Brooks et al., 2023): 一种学习遵循图像编辑指令的方法。
    • ControlNet (Zhang et al., 2023a): 一种向文本到图像扩散模型添加条件控制的方法。
  • 数据集增强:
    • Omni-Edit dataset (Wei et al., 2024): 一个通过专家监督构建的图像编辑数据集,用于增强模型训练。

      这些基线模型代表了当前视频编辑领域(特别是与本文方法相关的端到端或数据驱动方法)的先进水平和常见架构,有助于全面评估 Señorita-2M 数据集的有效性。

6. 实验结果与分析

6.1. 核心结果分析

本文通过定量比较、定性结果和消融研究,全面展示了 Señorita-2M 数据集及其训练模型的有效性。

6.1.1. 定量比较 (Quantitative Comparison)

本文在 DAVIS 数据集上使用随机生成的编辑提示评估了训练在 Señorita-2M 上的编辑模型。

以下是原文 Table 2 的结果,比较了不同方法在 EwarpCLIPScoreTemporal ConsistencyUser Preference 上的表现:

MethodsEwarp(10-3) ()CLIPScore (↑) Temporal Consistency (↑) |User Preference (↑)
Tokenflow16.310.26370.97526.74%
Flatten16.310.24610.96905.95%
AnyV2V20.480.27230.970919.40%
InsV2V16.500.16750.972714.68%
Ours9.420.28950.977553.17%

分析:

  • Ewarp (几何失真): 我们的方法在 Ewarp 指标上取得了最低值(9.42),显著优于所有其他方法,这表明模型生成的视频具有最佳的几何稳定性和最少的形变,保证了视频的流畅和自然。

  • CLIPScore (文本对齐): 我们的方法在 CLIPScore 上也取得了最高分(0.2895),超过了 AnyV2V,这表明模型生成的视频内容与文本编辑指令高度一致。

  • Temporal Consistency (时间一致性): 我们的方法在 Temporal Consistency 方面表现出色(0.9775),高于其他所有方法,这意味着编辑后的视频帧间过渡非常平滑,没有明显的闪烁或抖动,视觉体验更佳。

  • User Preference (用户偏好): 在用户研究中,我们的方法获得了压倒性的用户偏好评分(53.17%),远超次优的 AnyV2V(19.40%)。这直接证明了我们的方法在主观视觉质量和编辑效果上得到了用户的广泛认可。

    InsV2V 的比较: 鉴于 InsV2V 是另一个依赖视频对进行训练的方法,与之对比尤为重要。

  • Ewarp: InsV2V 为 16.50,而我们为 9.42,我们的方法显著更优。

  • CLIPScore: InsV2V 为 0.1675,而我们为 0.2895,我们的方法文本对齐度更高。

  • Temporal Consistency: InsV2V 为 0.9727,而我们为 0.9775,我们的方法帧间一致性更强。 这些比较强调了我们的方法在所有指标上都持续优于 InsV2V,证明了 Señorita-2M 数据集在实现更优编辑性能方面的卓越质量和有效性。

6.1.2. 定性结果 (Qualitative Results)

定性结果通过视觉对比展示了我们方法的优越性。附录A中的 Figure 5 和 Figure 15 提供了不同编辑方法间的视觉比较结果。这些图像直观地展示了我们的模型在执行复杂编辑指令(如移除人物、改变物体颜色、风格迁移等)时,能够生成更高质量、更具一致性和更符合指令的视频。

以下是原文 Figure 5 的结果:

Figure 5. Editing results compared between different editing methods. 该图像是多组视频编辑结果的对比示意图,展示了在不同编辑指令下如去除人物、改变车轮颜色、添加帽子和转为二次元风格的效果变化。每组包括原始视频帧及对应的编辑后帧,体现了各编辑方法的性能差异。 分析: 图中展示了在“Remove the girl.”、“Swap the tiger for cat.”、“Make it watercolor style.”等指令下,不同方法的编辑效果。我们的方法在保持背景自然、对象替换/移除的无缝性以及风格迁移的整体一致性方面表现出更优的视觉质量。

以下是原文 Figure 15 的结果:

Figure 15. Editing results compared between different editing methods. 该图像是图15,展示了不同视频编辑方法的编辑结果对比。图中比较了Propainter方法与本文提出方法在多个视频场景中的表现,突出显示了本文方法在细节保持和画面自然度方面的优势。 分析: Figure 15 进一步展示了不同编辑方法的比较结果,特别是强调了我们的方法在处理细节和保持视频自然度方面的优势。

6.2. 消融实验/参数分析

6.2.1. 数据集有效性消融研究 (Ablation Study on Dataset Effectiveness)

以下是原文 Table 3 的结果,展示了使用 Señorita-2M 样本对模型性能的提升:

MethodsDatasetTraining SamplesEpochsEwarp(10-3)(↓)CLIPScore()Temp-Cons(↑)
Ablation-1InsV2V60K88.510.23660.9712
Ablation-2Señorita-2M60K88.440.25960.9783
Ablation-3Señorita-2M120K47.950.26410.9785

分析:

  • 数据集质量的影响 (Ablation-1 vs. Ablation-2):
    • 当使用相同数量的训练样本(60K)和训练周期(8个 epoch),但从 InsV2V 数据集切换到 Señorita-2M 数据集时,模型性能显著提升。
    • CLIPScore 从 0.2366 提高到 0.2596,表明文本对齐度更好。
    • Temporal Consistency 从 0.9712 提高到 0.9783,表明帧间一致性更强。
    • Ewarp 从 8.51 略微下降到 8.44,显示几何失真略有改善。 这明确证明了 Señorita-2M 数据集的高质量能够有效增强模型的学习能力。
  • 数据集规模的影响 (Ablation-2 vs. Ablation-3):
    • Señorita-2M 中的训练样本从 60K 增加到 120K(虽然训练周期减少到4个 epoch),模型性能进一步提升。
    • CLIPScore 提升到 0.2641,Temporal Consistency 达到 0.9785。
    • Ewarp 进一步下降到 7.95,表明几何误差更小。 这表明更大规模和更多样性的数据集能够显著提升模型的编辑能力,改善一致性和文本对齐。

6.2.2. 不同编辑架构的探索 (Different Editing Architectures)

本文探索了基于两种常用图像编辑架构 (InstructPix2PixControlNet) 的六种不同视频编辑架构。

以下是原文 Table 4 的结果,比较了不同架构、第一帧引导 (first-frame guidance) 和数据集增强 (Omni-Edit dataset) 的影响:

MethodsEwarp(10-3)(1)CLIPScore (↑)Temporal Consistency(↑)User Preference(↑)
Ins-Edit13.180.26480.97973.87%
Control-Edit12.810.28820.976914.40%
Ins-Edit*13.830.27890.97848.86%
Control-Edit*10.460.28660.980223.26%
FF-Ins-Edit8.440.28610.978312.46%
FF-Control-Edit9.420.28950.977537.12%

分析:

  • 基础架构比较 (Ins-Edit vs. Control-Edit): 在没有额外增强的情况下,Control-Edit (基于 ControlNet) 在 CLIPScore (0.2882 vs. 0.2648) 和 User Preference (14.40% vs. 3.87%) 上均优于 Ins-Edit (基于 InstructPix2Pix),表明 ControlNet 架构在视频编辑中表现出更好的文本对齐和用户接受度。
  • 数据集增强 (* 表示使用 Omni-Edit 数据集增强):
    • Control-Edit* 相比 Control-EditEwarp 从 12.81 降至 10.46,Temporal Consistency 从 0.9769 升至 0.9802,User Preference 从 14.40% 显著提升至 23.26%。这表明外部高质量数据集增强对模型性能有积极作用。
    • Ins-Edit* 虽在 CLIPScore 有所提升,但在 Ewarp 上反而略有退化,可能说明 InstructPix2Pix 架构与 Omni-Edit 数据集的结合不如 ControlNet 架构有效。
  • 第一帧引导 (FF- 表示第一帧引导):
    • 显著提升用户偏好: FF-Control-Edit 取得了最高的 User Preference (37.12%),远超所有其他非第一帧引导模型。FF-Ins-Edit 也在 User Preference 上有 12.46% 的良好表现。
    • Ewarp 改善: FF-Ins-Edit 取得了最低的 Ewarp (8.44),表明第一帧引导有助于减少几何失真。
    • CLIPScore 保持优秀: FF-Control-EditCLIPScore 上达到了最高的 0.2895,表明第一帧引导在保持文本对齐方面也十分有效。
  • 结论: 实验结果强烈指出,第一帧引导 (first-frame guidance)高质量数据集增强能够显著提升视频编辑模型的性能,尤其是在用户偏好方面。ControlNet 架构在视频编辑中也展现出强大的潜力。

6.3. 训练细节

  • 基础模型: CogVideoX-5B-I2V 作为基础模型,并集成 ControlNet 以利用编辑过的第一帧引导编辑过程。
  • 训练策略:
    • 学习率: 1e-5。
    • 权重衰减: 1e-4。
    • 训练周期: 2个 epoch。
    • 分阶段训练:
      • 第一阶段: 批次大小 (batch size) 为32,采样33帧视频,分辨率为 336×592336 \times 592
      • 第二阶段 (微调): 批次大小为16,分辨率提高到 448×768448 \times 768,微调1个 epoch,以帮助模型处理更高分辨率的视频。

7. 总结与思考

7.1. 结论总结

本文成功构建并引入了 Señorita-2M,一个大规模、高质量的指令式视频编辑数据集。该数据集包含了大约200万个视频编辑对,涵盖18种不同的局部和全局编辑任务,源自真实的互联网视频,并具有多种分辨率和帧长度。

为了构建这一数据集,研究团队精心打造了四个专业化的视频编辑专家模型:全局风格化器、局部风格化器、文本引导视频修补器和对象移除器,这些模型在各自的领域均达到了最先进的性能。此外,本文还设计了一套严格的多阶段过滤流水线,结合了视觉质量过滤、文本对齐过滤和视频差异过滤,以确保数据集的纯净度和高质量。

通过在 Señorita-2M 上训练视频编辑模型,实验结果证明了该数据集能够显著提升模型的性能,在 EwarpCLIPScoreTemporal Consistency 等定量指标上均超越了现有基线。特别是在用户研究中,基于 Señorita-2M 训练的模型获得了压倒性的用户偏好。此外,通过对不同编辑架构的探索,本文发现第一帧引导和数据集增强策略对提升视频编辑模型的性能至关重要。

7.2. 局限性与未来工作

论文在 Impact Statement 中提到了一个重要的伦理和社会风险,即:

  • 潜在滥用风险: 尽管数据集本身合法合规且无害,但基于该数据集训练的模型有能力编辑视频,这可能被用于生成 deepfake (深度伪造) 内容。

  • 风险缓解: 论文指出,这种风险可以通过 deepfake 检测方法来降低。

    除了论文明确提到的风险外,从技术角度看,本研究可能存在的局限性及未来工作方向包括:

  • 数据集生成的高成本: 构建 Señorita-2M 数据集涉及训练多个复杂的专家模型和运行大规模推理,这本身就是一个计算密集型和资源密集型过程。虽然生成的数据集可以重复使用,但初始生成成本较高。未来的工作可以探索更高效或自监督的数据生成方法。

  • 对现有基础模型的依赖: 专家模型和整个流水线都高度依赖于现有的高性能图像/视频生成模型 (CogVideoX, FLUX-Fill) 和多模态理解模型 (CogVLM2, Grounded-SAM2)。如果这些基础模型存在偏见或局限性,可能会间接影响 Señorita-2M 的质量和多样性。

  • 指令的复杂性与泛化: 尽管 LLM 被用于生成指令,但其生成指令的细粒度、复杂性和语义多样性可能仍有提升空间。模型在处理极其抽象或主观的编辑指令时,可能仍面临挑战。

  • 实时性与效率: 虽然端到端方法比基于反演的方法推理速度快,但文中提到单个专家模型(如修补器)的推理仍需数分钟。对于真正的实时视频编辑应用,还需要进一步优化模型架构和推理效率。

  • 长视频处理: 论文中视频的帧长度为33-64帧。对于更长的视频,保持长时间的时间一致性和计算效率是未来的挑战。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 数据为王: 这篇论文再次强调了在深度学习领域,“数据为王”的真理。在一个有巨大应用潜力但缺乏高质量训练数据的领域(端到端视频编辑),通过精心设计流程来构建一个大规模、高质量的数据集,是推动领域发展的关键。Señorita-2M 的成功证明了高质量数据能够显著提升模型性能,甚至超越了架构上的细微调整。
  2. “专家系统”的回归与融合: 论文利用多个“专家模型”协同工作来生成高质量数据,这可以看作是对传统“专家系统”思想在现代深度学习框架下的巧妙融合。每个专家模型专注于一个特定任务,确保了生成数据的质量,并通过 LLM 进行了整合,这为未来复杂任务的数据生成提供了新的范式。
  3. 多模态融合的强大潜力: CogVLM2Grounded-SAM2LLM 等多模态模型的应用,展示了在理解视频内容、生成精确掩码和构建自然语言指令方面的强大能力。这种多模态信息融合是实现通用智能编辑的关键。
  4. 过滤机制的重要性: 数据生成过程不可避免地会引入噪声和低质量样本。本文详细设计的过滤流水线,包括质量、文本对齐和变化程度的筛选,是保证最终数据集高质量不可或缺的一环,对于任何大规模数据构建项目都具有借鉴意义。

7.3.2. 批判

  1. “高质量”的定义与主观性: 尽管论文声称数据集是“高质量”的,并进行了多阶段过滤,但“高质量”在某些方面仍有主观性,例如风格化或对象交换的“自然度”。用户偏好研究虽然提供了主观评估,但其规模和多样性是否足以完全代表所有用户审美仍有待商榷。
  2. 计算资源门槛: 构建 Señorita-2M 数据集所需的计算资源和工程投入巨大,需要训练和运行多个 state-of-the-art 的大型模型。这使得类似方法对普通研究团队或个人而言难以复制和推广。虽然数据集开源可供使用,但其生成方式的普及性受限。
  3. 泛化能力与新颖性编辑: 尽管数据集包含18种编辑任务,但视频编辑的需求是无限的。对于训练专家模型未涵盖的、极其新颖或复杂的编辑指令,模型是否仍能保持高质量的泛化能力?这可能需要更强大的基础模型或更高级的组合编辑策略。
  4. 伦理风险的再思考: 论文提到的 deepfake 风险是真实存在的。虽然 deepfake 检测方法可以缓解,但这仍是一个“猫鼠游戏”。在开放如此强大的视频编辑能力的同时,如何从技术和社会层面建立更强大的防护和监管机制,是一个值得持续关注的问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。