论文状态:已完成

Video-As-Prompt: Unified Semantic Control for Video Generation

发表:2025/10/24
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 7 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出一种新范式Video-As-Prompt (VAP),通过使用参考视频作为语义提示,重构视频生成中的统一语义控制问题。VAP结合Mixture-of-Transformers架构和视频扩散变换器,构建了最大的视频生成数据集VAP-Data。该模型在开源方法中实现了38.7%的用户偏好率,展现出强大的零样本泛化能力。

摘要

Unified, generalizable semantic control in video generation remains a critical open challenge. Existing methods either introduce artifacts by enforcing inappropriate pixel-wise priors from structure-based controls, or rely on non-generalizable, condition-specific finetuning or task-specific architectures. We introduce Video-As-Prompt (VAP), a new paradigm that reframes this problem as in-context generation. VAP leverages a reference video as a direct semantic prompt, guiding a frozen Video Diffusion Transformer (DiT) via a plug-and-play Mixture-of-Transformers (MoT) expert. This architecture prevents catastrophic forgetting and is guided by a temporally biased position embedding that eliminates spurious mapping priors for robust context retrieval. To power this approach and catalyze future research, we built VAP-Data, the largest dataset for semantic-controlled video generation with over 100K paired videos across 100 semantic conditions. As a single unified model, VAP sets a new state-of-the-art for open-source methods, achieving a 38.7% user preference rate that rivals leading condition-specific commercial models. VAP's strong zero-shot generalization and support for various downstream applications mark a significant advance toward general-purpose, controllable video generation.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Video-As-Prompt: Unified Semantic Control for Video Generation

1.2. 作者

论文作者包括:Yuxuan Bian、Xin Chen、Zenan Li、Tiancheng Zhi、Shen Sang、Linjie Luo、Qiang Xu。 他们均隶属于 字节跳动智能创作实验室 (Intelligent Creation Lab, ByteDance)香港中文大学 (The Chinese University of Hong Kong)。其中,Xin Chen 是项目负责人 (Project lead),Xin Chen 和 Qiang Xu 是通讯作者 (Corresponding Authors)。

1.3. 发表期刊/会议

该论文目前作为预印本 (arXiv preprint) 发布。 arXiv 是一个包含物理学、数学、计算机科学、量化生物学、量化金融、统计学、电气工程与系统科学以及经济学论文的电子预印本服务,论文在此发布后通常会寻求正式出版。

1.4. 发表年份

2025年10月23日 (UTC) 发布。

1.5. 摘要

在视频生成领域,统一且可泛化的语义控制 (semantic control) 仍然是一个关键的开放挑战。现有方法要么通过强制施加不合适的像素级先验 (pixel-wise priors)(来源于基于结构的控制)而引入伪影 (artifacts),要么依赖于不可泛化、条件特定 (condition-specific) 的微调 (finetuning) 或任务特定 (task-specific) 的架构。本文引入了一种名为 Video-As-Prompt (VAP) 的新范式,它将这个问题重新定义为上下文生成 (in-context generation)。VAP 利用一个参考视频作为直接的语义提示 (semantic prompt),通过一个即插即用 (plug-and-play) 的 Mixture-of-Transformers (MoT) 专家 (expert) 来引导一个冻结的 视频扩散变换器 (Video Diffusion Transformer, DiT)。这种架构设计可以防止灾难性遗忘 (catastrophic forgetting),并由一种时间偏置旋转位置嵌入 (temporally biased Rotary Position Embedding, RoPE) 来引导,从而消除虚假的映射先验 (spurious mapping priors),实现鲁棒 (robust) 的上下文检索。为了支持这种方法并促进未来的研究,本文构建了 VAP-Data,这是迄今为止最大的语义控制视频生成数据集,包含超过10万个配对视频,涵盖100种语义条件。作为一个单一的统一模型,VAP 在开源方法中创下了新的 最先进水平 (state-of-the-art, SOTA),实现了38.7%的用户偏好率 (user preference rate),足以与领先的条件特定商业模型相媲美。VAP 强大的零样本泛化 (zero-shot generalization) 能力和对各种下游应用的支持,标志着向通用可控视频生成迈出了重要一步。

1.6. 原文链接

原文链接:https://arxiv.org/abs/2510.20888 PDF 链接:https://arxiv.org/pdf/2510.20888v1.pdf 发布状态:预印本 (Preprint)。

2. 整体概括

2.1. 研究背景与动机

当前视频生成领域面临的核心挑战是如何实现统一且可泛化的语义控制。尽管像素对齐条件(如深度、姿态、掩码、光流)下的结构控制视频生成已取得显著进展,但在缺乏像素对齐条件的语义控制生成方面,仍然缺乏一个统一且可泛化的框架。这限制了其在视觉效果、视频风格化、动作模仿和相机控制等应用中的潜力。

现有方法主要存在以下问题:

  1. 结构控制方法移植的局限性: 将现有的统一结构控制方法直接应用于语义控制时,由于这些方法强制施加了不合适的像素级映射先验 (pixel-wise mapping priors),往往会引入伪影。例如,当目标是改变视频的风格或概念而非其结构时,像素级的约束会适得其反,导致“复制粘贴”式的错误。
  2. 语义控制方法的碎片化:
    • 条件特定过拟合 (Condition-Specific Overfit): 许多方法需要为每一种特定的语义条件(如“吉卜力风格”、“希区柯克推拉镜头”)对骨干网络 (backbones) 或 LoRA (Low-Rank Adaptation) 进行微调 (finetuning)。这种方式成本高昂,且模型之间无法共享知识。

    • 任务特定设计 (Task-Specific Design): 另一些方法为特定类型的条件(如风格、运动、相机)精心设计任务特定模块或推理策略。虽然在各自任务上有效,但这种定制化的方法阻碍了构建一个统一模型,并严重限制了其零样本泛化 (zero-shot generalizability) 能力。

      本文的切入点和创新思路在于,受到近期在统一图像生成和结构控制视频生成中扩散变换器 (DiTs) 所展现出的强大上下文控制 (in-context control) 能力的启发。作者提出了一种新的范式,将视频生成问题重构为上下文生成问题。具体而言,他们不再假设像素级的对应关系,也不需要为每个条件进行训练或进行任务特定设计,而是将带有目标语义的参考视频直接作为“视频提示” (video prompt) 来引导生成。这种方法能够解决现有方法的上述痛点,实现一个单一统一模型处理多样化语义控制任务,并具备零样本泛化到未见语义的能力。

2.2. 核心贡献/主要发现

本文通过引入 Video-As-Prompt (VAP) 范式,在语义控制视频生成领域取得了显著进展,其核心贡献和主要发现如下:

  • 提出了 VAP 统一框架: VAP 是首个针对非像素对齐条件下语义控制视频生成的统一框架。它将带有目标语义的参考视频作为视频提示,实现了可泛化的上下文控制。
  • 设计了即插即用上下文控制架构: VAP 采用 Mixture-of-Transformers (MoT) 设计,通过一个可训练的并行专家 Transformer (expert transformer) 来增强任何冻结的 Video Diffusion Transformer (DiT)。这种即插即用的架构可以防止灾难性遗忘,并支持上下文控制,使其能够独立于 DiT 骨干网络架构进行工作。
  • 引入时间偏置旋转位置嵌入: 为了实现鲁棒的上下文检索,VAP 采用了时间偏置旋转位置嵌入 (temporally biased Rotary Position Embedding, RoPE)。这种设计消除了共享位置嵌入可能强加的虚假像素级时空映射先验,匹配了上下文生成期望的时间顺序,并保留了空间一致性。
  • 构建并发布 VAP-Data 数据集: 本文构建并发布了迄今为止最大的语义控制视频生成数据集 VAP-Data。该数据集包含超过10万个配对视频,涵盖100种语义条件,为统一语义控制视频生成提供了强大的数据基础。
  • 实现 SOTA 性能和零样本泛化: 作为单一统一模型,VAP 在开源方法中取得了新的 state-of-the-art 性能。通过用户研究,VAP 获得了38.7%的用户偏好率,这一结果与领先的条件特定商业模型相当。此外,VAP 展示了强大的零样本泛化能力,能够处理 VAP-Data 中未曾出现的语义条件。
  • 支持广泛的下游应用: VAP 的统一性和泛化能力使其能够支持多种下游应用,例如从源视频中解耦语义概念并应用于新主题,以及通过修改文本提示进行细粒度属性调整。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 Video-As-Prompt (VAP) 的工作原理和创新点,我们需要了解以下基础概念:

  • 视频扩散模型 (Video Diffusion Models):
    • 概念定义: 扩散模型是一类生成模型,它通过模拟一个逐渐向数据添加噪声的前向扩散过程,然后学习一个反向去噪过程来从噪声中恢复原始数据。在视频领域,视频扩散模型被训练来从随机噪声中逐步生成连贯、高质量的视频序列。
    • 与GANs对比: 早期视频生成多基于 Generative Adversarial Networks (GANs) [63, 69],但扩散模型在生成质量、多样性和稳定性方面通常表现更好。
  • 扩散变换器 (Diffusion Transformers, DiTs):
    • 概念定义: DiTs [54] 是将 Transformer 架构引入扩散模型的一种范式。传统的扩散模型通常使用卷积神经网络 (CNNs) 作为骨干网络,而 DiTs 将噪声样本编码为潜在空间 (latent space) 中的一系列补丁 (patches),然后使用 Transformer 处理这些补丁,从而利用 Transformer 在长距离依赖建模方面的优势,实现更强的可扩展性和生成能力。
    • 在本文中的作用: VAP 是在冻结的 Video Diffusion Transformer (DiT) 基础上构建的,这意味着 VAP 借用了 DiT 强大的视频生成能力。
  • 变分自编码器 (Variational AutoEncoder, VAE):
    • 概念定义: VAE [38] 是一种深度生成模型,由编码器和解码器两部分组成。编码器将输入数据(如视频)映射到一个低维的潜在空间中的概率分布,解码器则从潜在空间中采样并重构原始数据。在视频生成流程中,VAE 常用于将高维的像素空间视频压缩到低维潜在空间进行处理,然后再解码回像素空间,以提高计算效率和生成质量。
  • 上下文学习 (In-context Learning):
    • 概念定义: 上下文学习 是一种在不更新模型参数的情况下,通过向模型提供一系列输入-输出示例来使其学习新任务的能力。模型从这些“上下文”示例中识别模式并应用于新的输入。在大语言模型 (LLMs) 中尤为突出,但也逐渐扩展到其他模态,如图像 [66] 和视频 [37]。
    • 在本文中的作用: VAP 的核心思想就是将语义控制视频生成重构为上下文生成问题,通过参考视频提供上下文。
  • LoRA (Low-Rank Adaptation):
    • 概念定义: LoRA [27] 是一种参数高效的微调 (parameter-efficient finetuning) 方法。它通过向预训练模型的特定层(如注意力层)注入小的、可训练的低秩矩阵来适应新任务,而冻结大部分原始模型参数。这大大减少了微调所需的计算资源和存储空间,同时保持了预训练模型的强大能力。
    • 在本文中的对比: 本文将 LoRA 作为一种常见的条件特定微调方法进行对比,指出其在复杂上下文生成任务中容量有限。
  • 旋转位置嵌入 (Rotary Position Embedding, RoPE):
    • 概念定义: RoPE [65] 是一种相对位置编码方法,用于 Transformer 模型。它通过在注意力计算中对查询 (Query, Q) 和键 (Key, K) 向量应用旋转变换,将相对位置信息编码到自注意力 (self-attention) 机制中,而不是像传统位置编码那样直接将绝对位置信息加到词嵌入中。这使得模型能够更好地处理不同长度的序列,并在长序列中保持位置信息的有效性。
    • 在本文中的创新: VAP 引入了“时间偏置 RoPE”来解决传统 RoPE 在语义控制中可能引入的虚假像素对齐先验问题。
  • Mixture-of-Transformers (MoT):
    • 概念定义: MoT [44] 是一种稀疏可扩展的架构,通常用于多模态基础模型。它通过结合多个专家 Transformer (expert transformers),并使用一个门控网络 (gating network) 来动态选择或加权不同的专家来处理不同的输入或任务。这种设计可以提高模型的容量和效率。
    • 在本文中的作用: VAP 采用 MoT 架构,将一个冻结的 DiT 骨干网络与一个可训练的并行专家 Transformer 结合,实现参考视频提示的有效处理和上下文控制。

3.2. 前人工作

可控视频生成通常分为两大类:结构控制视频生成和语义控制视频生成。本文的工作主要关注后者,并通过对比强调其创新性。

3.2.1. 结构控制视频生成 (Structure-Controlled Video Generation)

  • 特点: 这类方法由像素对齐 (pixel-aligned) 的条件驱动,例如深度图 (depth maps)、人体姿态 (pose)、掩码 (masks) 或光流 (optical flow)。
  • 常用方法: 通常通过一个额外的适配器 (adapter) 或分支 (branch) 来利用这些像素级映射先验 (mapping priors),并通过残差加法 (residual addition) 将其注入到模型中。
  • 示例: ControlNet [81] 在图像生成中率先提出,后续扩展到视频领域,如 VACE [34] 实现了多合一的结构控制。常见的条件包括轨迹、姿态、深度、光流和掩码。
  • 本文的差异化: VAP 指出,直接将结构控制方法应用于语义控制时,会因强制不合适的像素级先验而产生伪影 (artifacts)。

3.2.2. 语义控制视频生成 (Semantic-Controlled Video Generation)

  • 特点: 这类方法处理缺乏像素级对应关系的条件,如概念 (concept)、风格 (style)、运动 (motion) 和相机运动 (camera movement)。
  • 现有挑战与分类:
    1. 条件特定过拟合 (Condition-Specific Overfit): 许多方法为每个语义条件(如“吉卜力风格”、“希区柯克推拉镜头”)微调 (finetune) DiT 骨干网络 (backbones) 或 LoRA [27]。这种方式成本高昂,且每个模型只适用于特定条件,缺乏泛化性。
    2. 任务特定设计 (Task-Specific Design): 一些方法为特定条件类型(如风格、运动、相机)设计任务特定模块或推理策略。虽然有效,但这阻碍了构建统一模型,并限制了零样本泛化能力。
  • 并发工作: [49] 采用 LoRA 混合专家 (mixture-of-experts) 来实现多语义条件的统一生成,但其仍然通过过拟合 (overfitting) 参数子集来学习每个条件,未能泛化到未见条件。
  • 本文的差异化: VAP 旨在解决这些方法的碎片化和缺乏泛化性问题,首次提出统一框架,通过上下文学习和参考视频提示来实现零样本泛化。

3.3. 技术演进

视频生成技术的发展经历了几个阶段:

  1. 早期基于 GAN 的模型:[63, 69],是最早尝试生成视频的方法,但常受限于生成质量、多样性和稳定性。

  2. 现代扩散模型 (Diffusion Models): 随着扩散模型在图像生成领域的成功 [8, 17],其强大的生成能力被引入视频生成,显著提升了视频质量和连贯性。

  3. 基于 Transformer 的扩散模型 (DiTs): 扩散模型的骨干网络从卷积架构 [7, 10, 20, 62, 79] 演进到 Transformer 架构 [8, 17, 24, 41, 51, 57, 70]DiTs 利用 Transformer 在处理长距离依赖和可扩展性方面的优势,进一步提高了视频生成的质量和控制能力。

  4. 可控视频生成: 为了实现更精细的用户定义控制,研究人员开始在预训练的 DiTs 上添加任务特定模块 [6, 34] 或设计特殊推理策略 [71, 82],以支持新的可控视频任务。

    本文的工作 Video-As-Prompt 正处于这一技术演进的前沿。它利用了 DiTs 强大的上下文控制能力,并在此基础上进行了创新,将语义控制视频生成从碎片化的条件/任务特定方法,提升到统一、可泛化的上下文生成范式。

3.4. 差异化分析

Video-As-Prompt (VAP) 的核心创新在于其统一性和泛化能力,这使其与现有方法存在显著差异:

  • 与结构控制方法的差异:

    • 现有问题: 结构控制方法(如 VACE [34])依赖于像素对齐条件(如深度、姿态、光流)。当这些方法被直接应用于语义控制任务时,它们会强制施加不合适的像素级映射先验,导致生成视频中出现“复制粘贴”式的伪影,即模型会复制参考视频中不相关的外观或布局细节。
    • VAP 的优势: VAP 不假设像素级对应关系。它通过将参考视频视为抽象的语义提示,避免了这种不当的像素级约束,从而生成更符合语义要求且无伪影的视频。
  • 与条件/任务特定语义控制方法的差异:

    • 现有问题:
      • 条件特定过拟合: 许多语义控制方法(如基于 LoRA [27] 的微调 [11, 47])需要为每一种语义条件(如不同的风格、概念)单独训练或微调一个模型。这不仅计算成本高昂,而且模型之间无法共享知识,也无法泛化到未见过的语义条件。
      • 任务特定设计: 其他方法为特定类型的任务(如风格化 [78]、相机控制 [2]、动作模仿 [82])设计专门的模块或推理策略。这种定制化方法虽然在特定任务上可能有效,但牺牲了模型的统一性和通用性。
    • VAP 的优势: VAP 是一个单一的统一模型 (single unified model)。它将所有语义条件视为统一的“视频提示”,通过上下文学习的方式进行控制。这意味着 VAP 无需为每个条件进行单独训练,也无需针对每个任务进行专门设计。这种统一性赋予了 VAP 强大的零样本泛化能力,使其能够处理在训练数据中从未出现过的语义条件。
  • 与并发工作 [49] 的差异:

    • 并发工作 [49] 该工作也尝试通过 LoRA 混合专家 (mixture-of-experts) 实现多语义条件的统一生成。

    • VAP 的优势: 尽管 [49] 也尝试统一,但它仍然通过过拟合 (overfitting) 参数子集来学习每个条件,这意味着它本质上还是在学习特定条件,并不能真正泛化到未见条件。VAP 则通过其 Mixture-of-Transformers (MoT) 架构和时间偏置 RoPE,从根本上将问题框架为上下文学习,实现了更强的统一性和零样本泛化能力。

      综上所述,VAP 通过将语义控制视频生成重构为上下文生成问题,并结合其独特的架构设计,成功地在统一性、泛化能力和生成质量方面超越了现有方法,为该领域带来了显著的进步。

4. 方法论

4.1. 方法原理

Video-As-Prompt (VAP) 的核心思想是将视频生成中的统一语义控制问题,重新定义为上下文生成 (in-context generation)。其基本原理是:不再为每种语义条件(如概念、风格、运动、相机)单独训练模型或设计任务特定模块,而是将一个包含所需语义的参考视频 (reference video) 作为直接的视频提示 (video prompt) 来引导目标视频的生成。

这种方法背后的直觉是,如果模型能够从参考视频中“理解”和“提取”抽象的语义模式(例如,“吉卜力风格”的视觉特征、“360度旋转”的运动模式),并将其应用于一个新的目标场景,那么就可以避免因像素级不对齐而产生的伪影,同时实现对多种语义条件的统一处理。通过将参考视频和目标视频的文本描述也作为输入,模型可以进一步借助文本信息来识别和聚焦于共享的语义控制信号。

为实现这一原理,VAP 采用了一种新颖的架构:

  1. 即插即用的 MoT 专家: 在一个已经预训练并冻结的 Video Diffusion Transformer (DiT) 骨干网络之上,添加一个可训练的并行 Mixture-of-Transformers (MoT) 专家。这个专家负责解释视频提示,并通过跨注意力 (cross-attention) 机制与冻结的 DiT 骨干网络进行双向信息融合。这既保留了 DiT 强大的生成能力(防止灾难性遗忘),又赋予了模型上下文控制的能力。
  2. 时间偏置 RoPE: 针对上下文生成中参考视频和目标视频之间可能存在的虚假像素对齐先验问题,VAP 引入了时间偏置旋转位置嵌入 (temporally biased Rotary Position Embedding, RoPE)。通过在时间维度上对参考视频的位置嵌入施加偏移,消除了这种不必要的先验,使得模型能够更鲁棒地检索上下文信息,专注于真正的语义对应。

4.2. 核心方法详解 (逐层深入)

4.2.1. 预备知识:视频扩散模型

VAP 方法构建在视频扩散模型之上。视频扩散模型 [8, 17] 学习视频 x\mathbf{x} 在给定条件 CC 下的条件分布 p(xC)p(\mathbf{x} \mid C)。本文使用 Flow Matching [46] 框架进行说明。

Flow Matching 的目标是学习一个从噪声样本 x0N(0,1)\mathbf{x}_0 \sim \mathcal{N}(0, 1) 到目标视频 x1\mathbf{x}_1 的连续路径 xt\mathbf{x}_t,其中 t[0,1]t \in [0, 1]。这个路径定义为: xt=tx1+(1(1σmin)t)x0 \mathbf{x}_t = t \mathbf{x}_1 + (1 - (1 - \sigma_{\min})t) \mathbf{x}_0 这里,σmin=105\sigma_{\min} = 10^{-5} 是一个小的常数,用于数值稳定性。

模型学习一个速度场 (velocity field) Vt=dxtdtV_t = \frac{d\mathbf{x}_t}{dt}。通过对上述路径方程求导,可以得到速度场为: Vt=dxtdt=x1(1σmin)x0 V_t = \frac{d\mathbf{x}_t}{dt} = \mathbf{x}_1 - (1 - \sigma_{\min}) \mathbf{x}_0 模型的优化目标是训练一个参数为 Θ\boldsymbol{\Theta} 的网络 uΘu_{\boldsymbol{\Theta}} 来预测这个速度场 VtV_t,其损失函数 L\mathcal{L} 定义如下: L=Et,x0,x1,CuΘ(xt,t,C)(x1(1σmin)x0) \mathcal { L } = \mathbb { E } _ { t , \mathbf { x _ { 0 } } , \mathbf { x _ { 1 } } , C } \left. \lVert u _ { \boldsymbol { \Theta } } ( \mathbf { x _ { t } } , t , C ) - ( \mathbf { x _ { 1 } } - ( 1 - \sigma _ { m i n } ) \mathbf { x _ { 0 } } ) \rVert \right. 符号解释:

  • L\mathcal{L}:模型的训练损失函数。

  • E\mathbb{E}:期望运算符,表示对所有可能的 t,x0,x1,Ct, \mathbf{x}_0, \mathbf{x}_1, C 的平均。

  • tt:时间步,范围在 [0, 1]

  • x0\mathbf{x}_0:从标准正态分布 N(0,1)\mathcal{N}(0, 1) 中采样的初始高斯噪声样本。

  • x1\mathbf{x}_1:目标真实视频(在去噪过程结束时希望得到的)。

  • CC:生成视频的条件,在 VAP 中包括参考视频、参考图像、文本描述等。

  • uΘ(xt,t,C)u_{\boldsymbol{\Theta}}(\mathbf{x}_t, t, C):参数为 Θ\boldsymbol{\Theta} 的神经网络(即 DiT 骨干网络和 MoT 专家),输入为当前带噪声样本 xt\mathbf{x}_t、时间步 tt 和条件 CC,输出是预测的速度向量。

  • \lVert \cdot \rVert:L2 范数,衡量预测速度场与真实速度场之间的差异。

  • (x1(1σmin)x0)( \mathbf { x _ { 1 } } - ( 1 - \sigma _ { m i n } ) \mathbf { x _ { 0 } } ):真实的速度向量,表示从 x0\mathbf{x}_0x1\mathbf{x}_1 的方向和大小。

    在推理阶段,模型首先采样高斯噪声 x0N(0,1)\mathbf{x}_0 \sim \mathcal{N}(0, 1),然后使用 ODE (Ordinary Differential Equation) 求解器,通过一系列离散的去噪时间步,逐步生成目标视频 x1\mathbf{x}_1

4.2.2. 将参考视频作为任务无关提示 (Reference Videos as Task-Agnostic Prompts)

传统的语义控制视频生成方法通常将不同的语义条件(如概念、风格、运动、相机)作为独立的任务,需要为每个任务或条件单独设计模型或进行微调。VAP 的创新在于,它将这些异构 (heterogeneous) 的语义条件统一起来,通过将带有目标语义的参考视频作为任务无关的视频提示来指导生成。

  • 统一条件表示: 假设有 nn 种条件类型 C=i=1nCi\mathcal{C} = \bigcup_{i=1}^{n} C_i,其中 CiC_i 表示第 ii 种条件类型,包含 mm 个具体条件。传统方法可能需要训练 nn 个(每个任务一个)或多达 mm 个(每个条件一个)模型。VAP 训练一个单一的统一模型 uΘu_{\boldsymbol{\Theta}},它能够共同学习 p(xc)p(\mathbf{x} \mid c),其中 cCc \in \mathcal{C} 是任何一种语义条件。
  • 代表性条件类型: 论文关注并评估了四种代表性的语义条件类型:
    • 概念引导生成 (Concept-Guided Generation, CcoC_{co}): 例如实体变形(人变成拉杜杜娃娃)或交互(AI 恋人接近目标)。
    • 风格引导生成 (Style-Guided Generation, CsC_s): 例如参考视频的吉卜力 (Ghibli) 风格或我的世界 (Minecraft) 风格。
    • 运动引导生成 (Motion-Guided Generation, CmC_m): 例如遵循非人类运动(物体像气球一样膨胀)或人类运动(摇摆舞)。
    • 相机引导生成 (Camera-Guided Generation, CcaC_{ca}): 例如遵循基本的相机平移(上下左右、推拉)或希区柯克推拉镜头 (Hitchcock dolly zoom)。
  • 结合文本提示: 为了进一步辅助模型识别和传递共享的语义控制信号,VAP 除了参考视频外,还输入了参考视频的文本描述 (PrefP_{ref})目标视频的文本描述 (PtarP_{tar})
    • 因此,VAP 学习的条件分布为: p(xCco,Cs,Cm,Cca,Pref,Ptar) p ( \mathbf { x } \mid C _ { c o } , C _ { s } , C _ { m } , C _ { c a } , P _ { r e f } , P _ { t a r } ) 这意味着模型在生成目标视频 x\mathbf{x} 时,不仅考虑了四种语义条件类型,还通过文本描述来精确引导语义的捕捉和转移。

4.2.3. 即插即用上下文控制 (Plug-and-Play In-Context Control)

VAP 的核心架构设计是即插即用 (plug-and-play)Mixture-of-Transformers (MoT) 专家,用于增强一个冻结的 Video Diffusion Transformer (DiT) 骨干网络。

输入处理: VAP 的主要输入包括:

  • 参考视频 (Reference Video, cc): 提供所需的语义。其维度为 Rn×h×w×C\mathbb{R}^{n \times h \times w \times C},其中 nn 是帧数,h×wh \times w 是空间大小,CC 是通道数。

  • 参考图像 (Reference Image)¹: 提供所需的初始外观和主体 (subject)。通常是参考视频的第一帧。

  • 文本描述 (Captions, Pref,PtarP_{ref}, P_{tar}): 辅助模型找到和传递目标语义。

  • 噪声 (Noise) / 带噪声的目标视频 (Noisy Target Video, XX): 在推理时是高斯噪声,在训练时是带有噪声的目标视频。其维度为 Rn×h×w×C\mathbb{R}^{n \times h \times w \times C}

    首先,通过一个 变分自编码器 (VAE) 将参考视频 cc 和目标视频 XX 编码到潜在空间 (latent space),得到潜在表示 c^Rn×h×w×d\hat{c} \in \mathbb{R}^{n' \times h' \times w' \times d}xRn×h×w×d\mathbf{x} \in \mathbb{R}^{n' \times h' \times w' \times d}。其中 n', h', w' 是潜在空间中的时空大小,dd 是潜在维度。 同时,文本描述也被编码为 ntn_t 个文本词元 (text tokens) tc^,txRnt×dt_{\hat{c}}, t_x \in \mathbb{R}^{n_t \times d}

Mixture-of-Transformers (MoT) 架构: 一个简单的基线方法可能是直接在连接的序列 [tc^,c^,tx,x][ t _ { \hat { c } } , \hat { c } , t _ { x } , \mathbf { x } ] 上微调整个 DiT。然而,这会导致灾难性遗忘 (catastrophic forgetting),尤其是在数据有限且缺乏像素对齐先验的语义上下文生成任务中。为了解决这个问题,VAP 采用了 Mixture-of-Transformers (MoT) [44] 设计,如下图(原文 Figure 4)所示:

FigureOverviewof Video-As-Prompt.The reference video (with the wanted semantics), target video, and thei f t nei in-context token sequence \(\[ R e f _ { t e x t } , R e f _ { v i d e o } , T a r _ { t e x t } , T a r _ { v i d e o } \]\) (See middle. We omitted term "tokens" for simplicity.). First frame tokens are concatenated with video tokens. We add a temporal bias \(\\varDelta\) to RoPE to avoid nonexistent pixe-aligned priors from the original shared RoPE (Se bottom right). The reference video and captions act as the prts nd aiable pe Tormeeee),hi xhang y with the pre-trained DiT via full attention at each layer, enabling plug-and-play in-context generation. 该图像是示意图,展示了 Video-As-Prompt 方法中的关键流程和组件,包括参考视频、目标视频和与之相关的 token 序列。图中展示了如何通过 Mixture-of-Transformers 架构进行 tokenization 和含有时间偏置的 RoPE,以增强上下文的生成能力。公式 [ R e f _ { t e x t }, R e f _ { v i d e o }, T a r _ { t e x t }, T a r _ { v i d e o } ] 用于描述 in-context token 序列的组成。

FigureOverviewof Video-As-Prompt.The reference video (with the wanted semantics), target video, and thei f t nei in-context token sequence [ R e f _ { t e x t } , R e f _ { v i d e o } , T a r _ { t e x t } , T a r _ { v i d e o } ] (See middle. We omitted term "tokens" for simplicity.). First frame tokens are concatenated with video tokens. We add a temporal bias Δ\varDelta to RoPE to avoid nonexistent pixe-aligned priors from the original shared RoPE (Se bottom right). The reference video and captions act as the prts nd aiable pe Tormeeee),hi xhang y with the pre-trained DiT via full attention at each layer, enabling plug-and-play in-context generation.

MoT 的具体实现:

  1. 冻结的骨干网络 (Frozen Backbone): 一个预训练的 Video Diffusion Transformer (DiT) 被冻结,作为生成目标视频的骨干网络。它主要负责处理目标视频的文本描述和潜在表示:[tx,x][ t _ { x } , \mathbf { x } ]
  2. 可训练的并行专家 (Trainable Parallel Expert): 添加一个可训练的并行 Transformer 专家。这个专家从冻结的骨干网络初始化,主要负责处理参考视频的文本描述和潜在表示:[tc^,c^][ t _ { \hat { c } } , \hat { c } ]
  3. 独立路径与信息融合: 骨干网络和专家 Transformer 各自保持独立的查询 (Query, Q)、键 (Key, K)、值 (Value, V) 投影层、前馈网络 (Feed-Forward Network, FFN) 和归一化层 (LayerNorm)。然而,在每个 Transformer 层中,它们通过全注意力 (full attention) 机制进行信息交换和融合。这意味着骨干网络的 Q/K/V 和专家 Transformer 的 Q/K/V 会被连接起来,然后共同进行注意力计算。
    • 双向信息融合: 这种设计允许参考提示的信息被塑造成条件,同步引导当前生成过程,并路由指导信息到冻结的 DiT。反之,目标视频的生成状态也可以反馈给专家,使其更好地理解上下文需求。
  4. 优点:
    • 防止灾难性遗忘: 通过冻结大部分 DiT 骨干网络,VAP 有效地保留了预训练模型的原始生成能力。
    • 提高训练稳定性: 相比于微调整个模型,MoT 结构通过限制可训练参数和模块化设计,提高了训练过程的稳定性。
    • 即插即用控制: 这种设计使得 VAP 能够作为任何 DiT 架构的即插即用组件,增加了其通用性和适用性。

4.2.4. 时间偏置旋转位置嵌入 (Temporally Biased Rotary Position Embedding)

在上下文生成任务中,特别是在参考视频和目标视频之间,使用共享的位置嵌入 (position embedding) 可能会导致问题。

  • 问题所在: 类似于在上下文图像生成 [66] 中观察到的现象,如果参考条件和目标视频共享相同的 Rotary Position Embedding (RoPE) [65],它会强加一个虚假 (false) 的像素级时空映射先验 (pixel-level spatiotemporal mapping prior)。这意味着模型会错误地假设参考视频和目标视频之间存在一种像素级别的对应关系,而这种关系在语义控制中通常是不存在的,从而导致生成结果不理想,甚至产生伪影(如原文 Figure 5 (c) 所示)。
  • 解决方案: 为了消除这种虚假先验,VAP 采取了以下策略:
    1. 时间索引偏移: VAP 通过一个固定的偏移量 Δ\varDelta移动参考提示的时间索引。这意味着在将参考视频的潜在表示输入 Transformer 时,其时间位置编码会比目标视频的所有时间位置编码“更早”。
    2. 空间索引不变: VAP 保持空间索引不变
  • 具体实现 (参考原文 Figure 4 右下角): 将参考视频的词元在时间轴上放置在所有噪声视频词元之前,并施加一个时间偏移量 Δ\varDelta
    • 如下图(原文 Figure 4)底部右侧的示意图所示,参考视频 Ref_video 的时间轴被整体偏移,位于 Tar_video 之前。
  • 目的:
    • 消除虚假先验: 这种时间上的偏置明确地告诉模型,参考视频和目标视频在时间上不应被视为直接像素对齐的,从而消除了不切实际的像素映射先验。

    • 匹配上下文生成期望: 这与上下文生成任务的期望时间顺序相符,即模型首先处理参考上下文,然后基于此生成目标内容。

    • 保留空间一致性: 保持空间索引不变,使得模型仍然可以利用参考视频中丰富的空间语义变化,例如风格特征或概念主体。

      通过这种时间偏置 RoPE 设计,VAP 能够更鲁棒地从参考视频中检索和应用语义上下文信息,显著提高了语义控制视频生成的性能。

5. 实验设置

5.1. 数据集

语义控制视频生成任务需要大量的配对数据,即参考视频和目标视频共享相同的非像素对齐语义控制(例如,概念、风格、运动、相机)。与结构控制设置不同,这类配对数据无法通过直接应用视觉感知模型(如 SAM [39]、Depth-Anything [74])进行自动化标注。此前的工作大多依赖于少量针对特定语义条件手动收集的视频 [47],这限制了统一模型的出现。

为了解决这一数据稀缺问题,本文构建并发布了 VAP-Data,这是迄今为止最大的语义控制视频生成数据集。

  • 数据来源与构建方式:
    1. 高质量参考图像收集: 作者首先从互联网上收集了 2K 张高质量的参考图像,涵盖了男性、女性、儿童、动物、物体、风景和多主体场景。
    2. 自动化配对视频生成: 接着,利用现有的“专业模型群”作为一个强大的自动化引擎来创建配对视频。这些专业模型包括:
      • 商业模型提供的 Image-to-Video 视觉效果模板(如 VIDU [68] 和 Kling [40])。
      • 社区中可用的 LoRA 模型 [11]。
      • 通过将每张参考图像与所有兼容的模板(一些模板限制了主体类别)进行匹配,生成了大量的配对视频。
  • 数据集规模与特点:
    • VAP-Data 是迄今最大的语义控制配对数据集,包含超过 100K 个样本。

    • 涵盖 100 种语义条件,分为 4 个主要类别:

      • 概念 (Concept): 实体转换 (entity transformation) 和实体交互 (interaction)。
      • 风格 (Style): 各种艺术风格。
      • 运动 (Motion): 人类运动迁移 (human motion transfer) 和非人类运动迁移 (non-human motion transfer)。
      • 相机 (Camera): 相机运动控制 (camera movement control)。
    • 下图(原文 Figure 3)展示了 VAP-Data 的概览,包括语义条件分类、多样化的参考图像示例以及语义条件词云:

      Figure 3Overview of Our Proposed VAP-Data. (a) 100 semantic conditions across 4 categories:concept, syle, camera, and motion; () diverse referenceages, includin animals, humans, ojects, and scenes, wit multple variants; and (c) a word cloud of the semantic conditions. 该图像是图表,展示了VAP-Data中100种语义条件的概览,分为四类:概念、风格、相机和动作。每类中列出了多种参考图像,并通过字云展示了相关的语义条件。

Figure 3Overview of Our Proposed VAP-Data. (a) 100 semantic conditions across 4 categories:concept, syle, camera, and motion; () diverse referenceages, includin animals, humans, ojects, and scenes, wit multple variants; and (c) a word cloud of the semantic conditions.

  • 数据集作为概念验证: 作者强调,VAP-Data 不仅仅是一个数据集,更是对一个概念的证明:即可以通过展示来自不同专业模型的大量示例,训练一个单一的通用模型 (VAP) 来学习语义控制的统一底层原理。
  • 评估子集: 为了进行评估,作者从 VAP-Data 的测试子集中,从概念、风格、运动、相机这 4 个类别中均匀采样了 24 种语义条件,每种条件包含 2 个样本,总计 48 个测试样本。
  • 数据集局限性: 尽管 VAP-Data 规模庞大,但其局限性在于它是合成的,并且来源于其他生成模型(商业 API 和社区 LoRA)。这意味着 VAP-Data 可能继承了源模板的特定风格偏见、伪影和概念限制。例如,如果源模型在生成手部方面表现不佳,VAP 在此数据上可能也无法很好地学习生成手部。构建一个大规模、真实世界的语义控制视频数据集仍是未来的工作。

5.2. 评估指标

论文使用了五种指标来评估模型性能,涵盖文本对齐、视频质量和语义对齐三个方面。此外,还引入了用户研究来衡量用户偏好。

5.2.1. 文本对齐 (Text Alignment)

  • CLIP Score [59]:
    1. 概念定义: CLIP Score 衡量生成视频与输入文本提示之间的语义相似度。CLIP (Contrastive Language-Image Pre-training) 模型能够将图像和文本映射到同一个嵌入空间。CLIP Score 计算的是生成视频的视觉特征与文本提示的语言特征在 CLIP 嵌入空间中的余弦相似度。分数越高,表示生成视频与文本描述越一致。
    2. 数学公式: CLIP Score=1Ki=1Kcosine_similarity(CLIPimage(vi),CLIPtext(p)) \text{CLIP Score} = \frac{1}{K} \sum_{i=1}^{K} \text{cosine\_similarity}(\text{CLIP}_{\text{image}}(\mathbf{v}_i), \text{CLIP}_{\text{text}}(\mathbf{p}))
    3. 符号解释:
      • KK:视频中用于评估的帧数(通常是采样帧)。
      • vi\mathbf{v}_i:视频的第 ii 帧。
      • p\mathbf{p}:输入的文本提示。
      • CLIPimage()\text{CLIP}_{\text{image}}(\cdot)CLIP 模型的图像编码器,将图像编码为特征向量。
      • CLIPtext()\text{CLIP}_{\text{text}}(\cdot)CLIP 模型的文本编码器,将文本编码为特征向量。
      • cosine_similarity(,)\text{cosine\_similarity}(\cdot, \cdot):计算两个向量之间余弦相似度的函数。

5.2.2. 视频质量 (Video Quality)

  • Motion Smoothness [59]:
    1. 概念定义: Motion Smoothness 评估视频中物体运动的连贯性和平滑度,避免突兀的跳跃或抖动。高分数表示运动更自然流畅。
    2. 数学公式: 该论文未直接给出其计算公式,但通常通过量化视频帧之间光流 (optical flow) 的变化率或帧间特征距离来衡量。一种常见的近似方法是计算相邻帧之间光流向量的差异。 Motion Smoothness=1N2i=1N2(1Flow(Framei+1,Framei+2)Flow(Framei,Framei+1)2max_flow_diff) \text{Motion Smoothness} = \frac{1}{N-2} \sum_{i=1}^{N-2} \left( 1 - \frac{\|\text{Flow}(\text{Frame}_{i+1}, \text{Frame}_{i+2}) - \text{Flow}(\text{Frame}_i, \text{Frame}_{i+1})\|_2}{\text{max\_flow\_diff}} \right)
    3. 符号解释:
      • NN:视频的总帧数。
      • Framei\text{Frame}_i:视频的第 ii 帧。
      • Flow(Framea,Frameb)\text{Flow}(\text{Frame}_a, \text{Frame}_b):计算从 Frame``_aFrame``_b 的光流向量场。
      • 2\|\cdot\|_2:L2 范数,用于计算向量场的整体大小。
      • max_flow_diff\text{max\_flow\_diff}:一个归一化常数,通常是观察到的最大光流差异。
  • Dynamic Degree [67]:
    1. 概念定义: Dynamic Degree 衡量视频中运动的丰富程度和活跃性。高分数表示视频包含更多或更显著的运动,例如快速移动的物体或剧烈的场景变化。
    2. 数学公式: 论文未提供具体公式。通常通过计算视频帧之间光流的平均大小来量化。 Dynamic Degree=1N1i=1N1(1H×Wx,yFlow(Framei,Framei+1)x,y2) \text{Dynamic Degree} = \frac{1}{N-1} \sum_{i=1}^{N-1} \left( \frac{1}{H \times W} \sum_{x,y} \|\text{Flow}(\text{Frame}_i, \text{Frame}_{i+1})_{x,y}\|_2 \right)
    3. 符号解释:
      • NN:视频的总帧数。
      • H, W:视频帧的高度和宽度。
      • Flow(Framei,Framei+1)x,y\text{Flow}(\text{Frame}_i, \text{Frame}_{i+1})_{x,y}:在像素位置 (x,y) 处从 Frame``_iFramei+1_{i+1} 的光流向量。
      • 2\|\cdot\|_2:L2 范数。
  • Aesthetic Quality [61]:
    1. 概念定义: Aesthetic Quality 评估生成视频的整体视觉吸引力或美学价值。这是一个主观性较强的指标,但可以通过预训练的美学评分模型进行量化。
    2. 数学公式: 论文未提供具体公式。通常依赖于一个在大量图像或视频上训练的美学预测模型。 Aesthetic Quality=AestheticModel(Video) \text{Aesthetic Quality} = \text{AestheticModel}(\text{Video})
    3. 符号解释:
      • AestheticModel()\text{AestheticModel}(\cdot):一个预训练的美学评分模型,例如在 LAION-5B [61] 数据集上训练的模型。
      • Video\text{Video}:输入的视频。

5.2.3. 语义对齐 (Semantic Alignment)

  • Semantic-Alignment Score:
    1. 概念定义: 这是一个由本文提出的新指标,用于衡量生成视频与参考视频所传达的特定语义条件之间的一致性。由于标准视频质量指标无法可靠捕捉这种特定语义条件的遵循度,该指标通过将(参考视频,生成视频)对以及详细的评估规则提交给强大的视觉语言模型 (VLM) 进行自动化评分。
    2. 数学公式: 论文未提供直接的数学公式,而是描述了其评估流程。它本质上是一个由 VLM 进行的自动化定性评估并量化为分数。 Semantic Alignment Score=VLM(Reference Video,Generated Video,Evaluation Rules) \text{Semantic Alignment Score} = \text{VLM}(\text{Reference Video}, \text{Generated Video}, \text{Evaluation Rules})
    3. 符号解释:
      • VLM()\text{VLM}(\cdot):视觉语言模型,如 Gemini-2.5-pro [12] 或 GPT-5 [53]。
      • Reference Video\text{Reference Video}:提供目标语义的参考视频。
      • Generated Video\text{Generated Video}:模型生成的视频。
      • Evaluation Rules\text{Evaluation Rules}:一套详细的评估准则,包括一个通用模板和针对当前语义条件的具体标准(如针对“吉卜力风格”的特定标准)。VLM 根据这些规则对生成视频的语义匹配度、身份/布局对应和时间质量进行评分。
    • 有效性验证: 作者通过使用 GPT-5 [53] 进行相同评估,发现其分数与 Gemini-2.5-Pro [12] 密切匹配,并与用户研究中的偏好率趋势一致,从而验证了该指标的有效性。

5.2.4. 用户研究 (User Study)

  • User Preference Rate:
    1. 概念定义: 用户偏好率 是通过人类评估员比较不同方法生成的视频,并选择在特定方面(语义对齐或整体质量)表现更好的结果来确定的。它表示某种方法在所有比较中被选中的比例,总计 100%。
    2. 数学公式: User Preference Rate=某方法被偏好的次数所有比较的总次数×100% \text{User Preference Rate} = \frac{\text{某方法被偏好的次数}}{\text{所有比较的总次数}} \times 100\%
    3. 符号解释:
      • 某方法被偏好的次数\text{某方法被偏好的次数}:在用户研究中,该特定方法生成的结果被评估员选择为更好的次数。
      • 所有比较的总次数\text{所有比较的总次数}:所有评估员在所有试次中进行的总比较次数。
    • 实验设置: 邀请了 20 名随机选择的视频生成研究员。在每个试次中,评估员会看到一个语义控制参考视频和不同方法生成的视频,然后选择在 (i) 语义对齐和 (ii) 整体质量方面更好的结果。

5.3. 对比基线

为了全面评估 VAP 的性能,论文将其与以下几类具有代表性的基线模型进行了比较:

  1. 最先进的结构控制视频生成方法 (SOTA Structure-Controlled Video Generation Method):

    • VACE [34]: 这是 SOTA 的结构控制视频生成方法。
    • 条件设置: VACE 模型以一个视频和一个指示编辑(1)或固定(0)区域的相同大小掩码作为条件。在对比实验中,作者使用参考视频、其深度图 (depth) 和其光流图 (optical flow) 作为视频条件,并将掩码设置为全 1,表示模型应遵循这些条件而非直接复制。
    • 代表性: 用于展示将结构控制方法直接应用于语义控制任务时的局限性。
  2. DiT 骨干网络 (Backbone) 和条件特定方法 (Condition-Specific Methods):

    • CogVideoX-I2V [76]: 这是一个基础的 Video Diffusion Transformer 模型,使用文本提示进行图像到视频 (Image-to-Video, I2V) 的生成。
    • CogVideoX-I2V (LoRA) [27]: 这是一种条件特定方法。为了公平比较,作者为每种语义条件训练一个 LoRA 模型。LoRA 是一种在社区中常见且被认为可以匹配或超越任务特定模型 [2, 78] 的实践。实验中报告的是平均性能。
    • 代表性: 用于评估基础 DiT 模型的性能,以及当前社区中常用的条件特定微调方法的性能和局限性。
  3. 最先进的闭源商业模型 (State-of-the-Art Closed-Source Commercial Models):

    • Kling [40] 和 Vidu [68]: 这些是领先的商业视频生成模型,通常是闭源且针对特定条件进行优化的。

    • 代表性: 用于将 VAP 的性能与业界顶尖的、通常是条件特定的商业解决方案进行对比,以衡量其在实际应用中的竞争力。

      通过与这些不同类型和成熟度的基线进行比较,论文旨在全面展示 VAP 在统一性、泛化能力和生成质量方面的优势。

6. 实验结果与分析

6.1. 核心结果分析

本文通过定量比较、用户研究和定性比较等多种方式,全面评估了 Video-As-Prompt (VAP) 的性能,并将其与结构控制方法、基线 DiT 模型、条件特定微调方法以及商业模型进行了对比。

6.1.1. 定量比较

以下是原文 Table 1 的结果,展示了 VAP 与不同基线模型的定量性能对比:

MetricsTextOverall QualitySemanticUser Study
ModelClip Score Motion SmoothnessDynamic DegreeAesthetic Quality↑| Alignment Score↑|| Preference Rate (%)*
Structure-Controlled Methods
VACE (Original)5.8897.6068.7553.9035.380.6%
VACE (Depth)22.6497.6575.0056.0343.350.7%
VACE (Optical Flow)22.6597.5679.1757.3446.711.8%
DiT Backbone and Condition-Specific Methods
CogVideoX-I2V22.8298.4872.9256.7526.046.9%
CogVideoX-I2V (LoRA)+23.5998.3470.8354.2368.6013.1%
Kling / Vidu‡24.0598.1279.1759.1674.0238.2%
Ours
Video-As-Prompt (VAP)24.1398.5977.0857.7170.4438.7%

以下是原文 Table 1 的说明: Table1 定性比较。我们与 SOTA 结构控制生成方法 VACE [34]、基础视频 DiT 模型 CogVideoX-I2V [76]、条件特定变体 CogVideoX-I2V (LoRA) [27] 以及闭源商业模型 Kling/Vidu [40, 68] 进行了比较。总体而言,VAP 提供了与闭源模型相当的性能,并超越了所有开源基线。红色代表最佳,蓝色代表次佳。

分析:

  • 结构控制方法 (VACE):
    • VACE (Original) 表现最差,其 Text CLIP Score 仅为 5.88,Semantic Alignment Score 为 35.38,用户偏好率仅 0.6%。这证实了当结构控制方法直接应用于语义控制时,由于其强制的像素级映射先验,会产生不良的复制伪影。
    • 当条件从原始视频替换为深度图 (VACE (Depth)) 和光流图 (VACE (Optical Flow)) 时,性能有所改善(如 Semantic Alignment Score 提高到 46.71,用户偏好率提高到 1.8%)。这是因为深度和光流逐渐移除了外观细节,减少了不合适的像素级先验的影响,但也侧面印证了像素级先验不适用于语义控制。
  • DiT 骨干网络 (CogVideoX-I2V) 和条件特定方法 (CogVideoX-I2V (LoRA)):
    • CogVideoX-I2V (仅文本提示) 在视频质量方面表现尚可(Motion Smoothness 98.48),但在 Semantic Alignment Score 上表现较弱(26.04),用户偏好率也较低(6.9%)。这表明仅通过粗粒度文本提示难以精确表达和传递复杂的语义。
    • CogVideoX-I2V (LoRA) 通过为每个语义条件进行微调,显著提高了 Semantic Alignment Score(68.60)和用户偏好率(13.1%)。然而,它的Overall QualityAesthetic Quality 相较于 CogVideoX-I2V 略有下降,这可能说明 LoRA 容量有限,在过拟合特定条件的同时,可能牺牲了基础模型的生成质量。最重要的是,LoRA 需要为每个条件训练一个单独模型,缺乏泛化到未见语义的能力。
  • 商业模型 (Kling / Vidu):
    • 商业模型 Kling / Vidu 取得了非常好的性能,Semantic Alignment Score 达到 74.02,用户偏好率高达 38.2%。这表明条件特定、闭源的商业模型在各自优化任务上表现出色。
  • 本文方法 (Video-As-Prompt (VAP)):
    • VAP 在各项指标上均表现出色。Text CLIP Score 达到 24.13,Motion Smoothness 98.59,Aesthetic Quality 57.71。
    • Semantic Alignment Score 达到 70.44,显著高于所有开源基线,且与商业模型 Kling / Vidu (74.02) 相比非常接近。
    • 在用户研究中,VAP 取得了最高的38.7% 用户偏好率,甚至略高于商业模型 (38.2%)。
    • 关键发现: VAP 作为一个单一的统一模型,首次实现了语义控制视频生成领域的 SOTA 性能,不仅超越了所有开源基线,而且达到了与领先的条件特定商业模型相当的水平。

6.1.2. 用户研究

  • 设置: 邀请了 20 名视频生成研究员对不同方法生成的视频进行评估。在每个试次中,评估员会比较多个输出,并根据语义对齐和整体质量选择更好的结果。
  • 结果:Table 1 所示,VAP 和商业模型 Kling / Vidu 取得了最高的整体偏好率。VAP 获得了 38.7% 的偏好率,略高于商业模型的 38.2%
  • 分析: 用户研究结果进一步证实了 VAP 在主观感知质量和语义遵循度方面的卓越表现,特别是在统一模型下能与条件特定的商业模型竞争,这是其显著优势。

6.1.3. 定性比较

下图(原文 Figure 6)展示了 VAP 与 VACE [34]、CogVideoX (I2V) [76]、CogVideoX-LoRA (I2V) 以及商业模型 [40, 68] 的定性比较结果:

Figure 6 Qualitative comparison with VACE \[34\], CogVideoX (I2V) \[76\], CogVideoX-LoRA (I2V) and commercia models \[40, 68\]; VACE \(( ^ { * } )\) uss a \\*form condition (op left). More visualizations are in the project page. 该图像是图表,展示了VAP与多个视频生成模型(如VACE、CogVideoX、CogVideoX-LoRA等)的定性比较。图中包含多组参考视频和生成结果,强调了各模型在语义控制方面的不同表现。

Figure 6 Qualitative comparison with VACE [34], CogVideoX (I2V) [76], CogVideoX-LoRA (I2V) and commercia models [40, 68]; VACE ()( ^ { * } ) uss a *form condition (op left). More visualizations are in the project page.

分析:

  • VACE [34]: 表现出明显的像素映射偏差,将参考视频(如自由女神像)的外观或布局(如绵羊的形状)直接复制到目标中,导致伪影。当条件逐渐抽象(如从原始视频到深度图,再到光流)时,复制伪影有所减弱,但仍然无法实现语义级的控制。
  • CogVideoX-I2V [76]: 仅依赖文本提示,视频质量尚可,但无法精确捕捉并遵循参考视频的特定语义,生成的视频可能与语义要求不符。
  • CogVideoX-I2V (LoRA) [27]: 在一定程度上改善了语义对齐,避免了复制伪影。然而,它需要为每个语义条件单独训练模型,且在生成质量上可能不如基础 DiT
  • Kling [40] 和 Vidu [68] (商业模型): 能够生成高质量且语义对齐的视频,但它们是闭源且通常是条件特定的。
  • Video-As-Prompt (VAP): 生成的视频在时间连贯性、视觉质量和语义一致性方面均表现优异。VAP 能够成功将参考视频的语义(如概念、风格、运动)迁移到目标视频,且不引入不当的复制伪影,生成结果与商业模型相当。

6.1.4. 零样本生成 (Zero-Shot Generation)

下图(原文 Figure 7)展示了 VAP 的零样本性能:

Figure7 Zero-Shot Performance. Givesanic conditins unseen in VAP-Data (lt column), VAP stiltraner the abstract semantic pattern to the reference image in a zero-shot manner. 该图像是一个示意图,展示了不同参考视频与参考图像结合生成的结果视频。左侧展示了不同的参考视频和对应的语义条件中,右侧展示了生成的视频效果,表明VAP在零-shot情况下的强大生成能力。

Figure7 Zero-Shot Performance. Givesanic conditins unseen in VAP-Data (lt column), VAP stiltraner the abstract semantic pattern to the reference image in a zero-shot manner.

分析: 通过将所有语义条件视为统一的视频提示,VAP 能够支持多种语义控制生成任务。更重要的是,当给定一个 VAP-Data 中未曾见过的语义参考视频时(如左侧列所示),VAP 仍然能够以零样本 (zero-shot) 的方式,将抽象的语义模式迁移到参考图像上,生成相应的视频。这充分证明了 VAP 强大的上下文学习能力和泛化能力。

6.2. 消融实验/参数分析

本文进行了一系列消融实验 (Ablation Study) 来验证 VAP 各个设计组件的有效性。以下是原文 Table 7(与 Table 2 内容相同,在附录中重复)的结果,展示了不同设计变体的性能:

Metrics Variant Text CLIP Score ↑ Overall Quality Reference Alignment Score ↑
Motion Smoothness ↑ Dynamic Degree Aesthetic Quality ↑
In-Context Generation Structure
uΘsu _ { \Theta } ^ { s } (Single-Branch Finetuning) 23.03 97.97 70.83 56.93 68.74
uΘslu _ { \Theta } ^ { s l } (Single-Branch LoRA) 23.12 98.25 72.92 57.19 69.28
uΘucu _ { \Theta } ^ { u c } (Unidir-Cross-Attn) 22.96 97.94 66.67 56.88 67.16
uΘuau _ { \Theta } ^ { u a } (Unidir-Addition) 22.37 97.63 62.50 56.91 55.99
Position Embedding Design
uΘiu _ { \Theta } ^ { i } (Identical PE) 23.17 98.49 70.83 57.09 68.98
uΘnu _ { \Theta } ^ { n } (Neg. shift in T, W) 23.45 98.53 72.92 57.31 69.05
Scalability
uΘ(1K)u _ { \Theta } ( 1 \text{K} ) 22.84 92.12 60.42 56.77 63.91
uΘ(10K)u _ { \Theta } ( 10 \text{K} ) 22.87 94.89 64.58 56.79 66.28
uΘ(50K)u _ { \Theta } ( 50 \text{K} ) 23.29 96.72 70.83 56.82 68.23
uΘ(100K)u _ { \Theta } ( 100 \text{K} ) 24.13 98.59 77.08 57.71 70.44
DiT Structure
uWan(Wan2.1-I2V-14B)u _ { \text{Wan} } (\text{Wan2.1-I2V-14B}) 23.93 97.87 79.17 58.09 70.23
In-Context Expert Transformer Layer Distribution‡
uΘ(Lodd)u _ { \Theta } ( \mathcal { L } _ { \text{odd} } ) 24.05 98.52 75.00 57.58 70.22
uΘ(Lodd,0.5Nl)u _ { \Theta } ( \mathcal { L } _ { \text{odd}, \le \lfloor 0.5N_l \rfloor } ) 23.72 98.19 70.83 56.71 69.61
uΘ(Lfirst-half)u _ { \Theta } ( \mathcal { L } _ { \text{first-half} } ) 23.90 98.41 75.00 57.18 69.94
uΘ(Lfirst-last)u _ { \Theta } ( \mathcal { L } _ { \text{first-last} } ) 23.96 98.33 72.92 57.06 70.02
Video Prompt Representation
uΘ(noisy reference)u _ { \Theta } (\text{noisy reference}) 23.98 98.41 75.00 57.42 70.18
Ours
uΘ(VAP)u _ { \Theta } (\text{VAP}) 24.13 98.59 77.08 57.71 70.44

以下是原文 Table 7 的说明: † 符号。uΘu _ { \Theta } (我们的 VAP,参数为 Θ\Theta), uΘsu _ { \Theta } ^ { s } (单分支微调), uΘslu _ { \Theta } ^ { s l } (单分支 LoRA),uΘucu _ { \Theta } ^ { u c } (单向交叉注意力), uΘuau _ { \Theta } ^ { u a } (单向加法), uΘiu _ { \Theta } ^ { i } (相同位置嵌入 PE),uΘnu _ { \Theta } ^ { n } (时间、宽度负偏移),Wan (Wan2.1\mathrm { W a n2 . 1 } 作为 DiT 骨干网络)。层分布。uΘ(L)u _ { \Theta } ( \boldsymbol { \mathcal { L } } ) 表示 MoT 专家 Transformer 层分布在骨干网络的层集合 L[Nl]={1,,Nl}\mathcal { L } \subseteq [ N _ { l } ] = \{ 1 , \dots , N _ { l } \} 中,其中 N _ { l }Transformer 层数。我们定义 Lfirsthalf={1,2,,0.5Nl}\mathcal { L } _ { \mathrm { f i r s t - h a l f } } { = } \{ 1 , 2 , \dotsc , \lfloor 0 . 5 N _ { l } \rfloor \}Lfirstlast={1,Nl}\mathcal { L } _ { \mathrm { f i r s t - l a s t } } = \{ 1 , N _ { l } \}Lodd,0.5Nl={1,3,...,0.5Nl}\mathcal { L } _ { \mathrm { o d d } , \le \lfloor 0 . 5 N _ { l } \rfloor } = \{ 1 , 3 , . . . , \lfloor 0 . 5 N _ { l } \rfloor \}Lodd={1,3,,Nl}\mathcal { L } _ { \mathrm { o d d } } = \{ 1 , 3 , \dots , N _ { l } \}。可扩展性。uΘ(M)u _ { \Theta } ( M ) 表示使用 M{1K,10K,50K,100K}M \in \{ 1 \mathrm { K } , 10 \mathrm { K } , 50 \mathrm { K } , 100 \mathrm { K } \} 训练对。我们的完整模型使用 100K 训练对。

6.2.1. 上下文生成结构 (In-Context Generation Structure)

  • A1. 单分支微调 (uΘsu_{\boldsymbol{\Theta}}^s): 直接扩展预训练 DiT 的输入序列并微调整个模型。
    • 结果: 语义对齐得分 68.74。性能不如 VAP (70.44)。
    • 分析: 这种方法会导致灾难性遗忘,因为它强制模型在有限的数据下适应新的上下文条件,破坏了其预训练的生成能力。MoT 通过保留 DiT 骨干网络的生成能力,解决了这一问题。
  • A2. 单分支 LoRA 微调 (uΘslu_{\boldsymbol{\Theta}}^{sl} ): 冻结骨干网络,仅训练 LoRA 层。
    • 结果: 语义对齐得分 69.28。略优于单分支微调,但仍低于 VAP。
    • 分析: LoRA 有助于保留骨干网络的能力,但其有限的容量难以处理复杂的上下文生成任务,导致次优结果。
  • A3. 单向交叉注意力 (uΘucu_{\boldsymbol{\Theta}}^{uc} ): 冻结预训练 DiT,添加一个新分支并注入其特征,通过层级交叉注意力 (layer-wise cross-attention) 进行交互。
    • 结果: 语义对齐得分 67.16。性能最低。
    • 分析: MoT 中的层级双向信息交换允许参考视频提示的表示同步适应目标词元,从而改进语义对齐。单向交叉注意力可能无法实现充分的上下文融合。
  • A4. 单向加法 (uΘuau_{\boldsymbol{\Theta}}^{ua} ): 与 A3 类似,但通过残差加法 (residual addition) 注入特征。
    • 结果: 语义对齐得分 55.99。性能最差。

    • 分析: 即使重新训练,残差加法方法也依赖于僵硬的像素到像素映射,这与语义控制生成不匹配,从而降低了性能。

      结论: MoT 的即插即用、双向信息融合设计是实现稳健上下文控制的关键,它在防止灾难性遗忘和提高语义对齐方面优于其他结构设计。

6.2.2. 位置嵌入设计 (Position Embedding Designs)

  • 1. 相同位置嵌入 (uΘiu_{\boldsymbol{\Theta}}^i): 对参考视频和目标视频应用相同的 RoPE
    • 结果: 语义对齐得分 68.98。
    • 分析: 这种方法强加了不真实的像素级对齐先验,假设参考和目标视频之间存在不存在的映射关系,导致性能下降。
  • 2. 负向时间、宽度偏移 (uΘnu_{\boldsymbol{\Theta}}^n): 除了时间偏置 Δ\varDelta 外,还引入宽度偏置,将参考视频放置在目标视频的左侧。
    • 结果: 语义对齐得分 69.05。略高于相同位置嵌入,但仍不如 VAP (70.44)。

    • 分析: 额外的宽度偏置可能引入了不必要的空间映射先验,反而降低了性能。 VAP 的设计仅在时间轴上进行偏置,保持空间索引不变,被证明是最优的。

      结论: VAP 的时间偏置 RoPE (仅时间轴偏移) 是最有效的策略,它消除了虚假像素级先验,同时保持了空间一致性,从而提高了模型性能。

6.2.3. 可扩展性 (Scalability)

  • 数据量变体: 实验在不同规模的训练数据(1K, 10K, 50K, 100K)上评估了 VAP。
    • 结果: 随着训练数据从 1K 增加到 100K,所有指标(包括 Text CLIP Score 从 22.84 增至 24.13,Semantic Alignment Score 从 63.91 增至 70.44)均持续改善。
    • 分析: 这表明 VAP 具有强大的可扩展性。其统一的设计(将参考视频作为提示,没有任务特定修改)与 MoT 框架相结合,能够保留骨干网络的生成能力,同时实现即插即用上下文生成,使其能从大规模数据中持续获益。

6.2.4. DiT 结构 (DiT Structure)

  • uWanu_{\text{Wan}} (Wan2.1-I2V-14B): 将 VAP 移植到 Wan2.1-I2V-14B 骨干网络上,参数量与 CogVideoX-I2V-5B 版本相当(均匀插入到 14\frac{1}{4} 的层中,约 5B 参数)。
    • 结果: Dynamic Degree (79.17) 和 Aesthetic Quality (58.09) 有所提升。但 Reference Alignment Score 略低于基于 CogVideoX 的 VAP (70.23 vs 70.44)。
    • 分析: 这表明 VAP 具有良好的可迁移性,可以应用于不同的 DiT 骨干网络。尽管 Wan2.1 基础模型更强,但由于 MoT 仅在 14\frac{1}{4} 的层中进行上下文交互,可能导致参考对齐略逊一筹,但也突出了 MoT 层分布的重要性。

6.2.5. 上下文专家 Transformer 层分布 (In-Context Expert Transformer Layer Distribution)

  • 不同层分布: 评估了 MoT 专家 Transformer 在骨干网络中不同层分布策略:
    • uΘ(Lodd)u_{\boldsymbol{\Theta}}(\mathcal{L}_{\text{odd}}):从所有奇数层初始化和复制。
    • uΘ(Lodd,0.5Nl)u_{\boldsymbol{\Theta}}(\mathcal{L}_{\text{odd}, \le \lfloor 0.5N_l \rfloor}):从前半部分奇数层初始化和复制。
    • uΘ(Lfirst-half)u_{\boldsymbol{\Theta}}(\mathcal{L}_{\text{first-half}}):从前半部分所有层初始化和复制。
    • uΘ(Lfirst-last)u_{\boldsymbol{\Theta}}(\mathcal{L}_{\text{first-last}}):从第一层和最后一层初始化和复制。
  • 结果:
    • 平衡的特征交互提高了生成质量(例如,uΘ(Lfirst-last)u_{\boldsymbol{\Theta}}(\mathcal{L}_{\text{first-last}}) 优于 uΘ(Lfirst-half)u_{\boldsymbol{\Theta}}(\mathcal{L}_{\text{first-half}})uΘ(Lodd)u_{\boldsymbol{\Theta}}(\mathcal{L}_{\text{odd}}) 优于 uΘ(Lodd,0.5Nl)u_{\boldsymbol{\Theta}}(\mathcal{L}_{\text{odd}, \le \lfloor 0.5N_l \rfloor}))。
    • 减少层数可以提高训练和推理效率,但不可避免地损害了某些性能方面(例如,完整 VAP 优于 uΘ(Lodd)u_{\boldsymbol{\Theta}}(\mathcal{L}_{\text{odd}}))。
  • 分析: 这表明 MoT 专家的层分布对性能有影响。在所有层进行交互(完整 VAP)能够实现最佳性能,而平衡地分布交互层(如 first-lastodd 层)在减少计算量的同时能获得较好的折衷。

6.2.6. 视频提示表示 (Video Prompt Representation)

  • 噪声参考视频 (uΘ(noisy reference)u_{\boldsymbol{\Theta}}(\text{noisy reference})): 受到 Diffusion Forcing [9, 23, 64] 的启发,尝试向视频提示中注入噪声。
    • 结果: 导致严重的伪影,性能下降(语义对齐得分 70.18,略低于 VAP 的 70.44)。

    • 分析:Diffusion Forcing 不同,VAP 的参考视频与目标视频在外观和布局上已经存在显著差异。向视频提示中添加噪声会破坏上下文信息,从而降低生成质量。这意味着对于 VAP 而言,保持参考视频的清晰性和完整性至关重要。

      整体结论: 消融实验有力地证明了 VAP 中 Mixture-of-Transformers 架构、时间偏置 RoPE 以及大规模训练数据对实现统一语义控制视频生成的有效性。

7. 总结与思考

7.1. 结论总结

Video-As-Prompt (VAP) 提出了一种新颖且统一的语义控制视频生成框架。它将带有目标语义的参考视频直接作为“视频提示”来引导生成,从而解决了现有方法中由于强制像素级先验而引入伪影的问题,以及条件/任务特定方法缺乏泛化性的局限。

VAP 的核心技术贡献包括:

  1. 统一的上下文生成范式: 将语义控制重构为上下文生成问题,允许单个模型处理多样化的语义条件。

  2. 即插即用的 Mixture-of-Transformers (MoT) 专家: 通过可训练的 MoT 专家增强冻结的 Video Diffusion Transformer (DiT) 骨干网络,实现了高效的上下文控制,同时防止了灾难性遗忘。

  3. 时间偏置旋转位置嵌入 (RoPE): 创新性地引入时间偏置 RoPE,消除了虚假像素级时空映射先验,确保了鲁棒的上下文检索。

  4. 大规模 VAP-Data 数据集: 构建并发布了迄今最大的语义控制视频生成数据集,包含超过 10 万个配对视频,涵盖 100 种语义条件,为该领域研究奠定了基础。

    实验结果表明,VAP 作为单一统一模型,在开源方法中取得了 state-of-the-art 性能,用户偏好率达 38.7%,足以与领先的条件特定商业模型相媲美。其强大的零样本泛化能力和对多种下游应用的支持,标志着向通用可控视频生成迈出了重要一步。

7.2. 局限性与未来工作

论文作者指出了 VAP 及其数据集的以下局限性,并提出了相应的未来研究方向:

  1. VAP-Data 的局限性:

    • 语义条件相对有限: 尽管 VAP-Data 规模庞大,但其语义条件在多样性和复杂性上仍有提升空间。
    • 合成性质和潜在偏见: VAP-Data 是通过利用商业模型和社区 LoRA 模板生成的,因此是合成的。这可能导致数据继承源生成模型的特定风格偏见、伪影和概念限制。
    • 未来工作: 作者认为,构建更大规模、真实世界的语义控制视频数据集是未来的重要方向,尽管这超出了本文的重点。
  2. 参考视频和文本描述的影响:

    • 依赖质量: VAP 的语义控制依赖于参考视频、参考文本描述和目标文本描述。如果这些描述不准确,或者主体结构与目标视频存在较大差异,可能会降低生成质量。例如,在描述“液态金属”时误用“水”,或主体(如蜗牛)与目标(如格鲁古)差异过大,都会导致对齐和视觉质量下降。
    • 未来工作: 探索使用指令风格的文本描述(例如“请遵循参考视频的吉卜力风格”)可能更有效地捕捉预期语义并改进控制。
  3. 多参考视频的影响:

    • 潜在问题: 经验性研究表明,使用多个语义匹配的参考视频时,模型可能会混合来自不同视频的不需要的视觉细节,尤其是在通用文本描述缺乏明确语义指向的情况下。
    • 未来工作: 需要研究更有效的多参考控制机制(例如,针对多参考条件定制的 RoPE)或指令风格的文本描述来指定预期参照物,以缓解这一问题。对多参考训练的模型和文本描述设计进行全面研究是未来的一个方向。
  4. 效率:

    • 推理成本: VAP 采用即插即用方法,避免了重新训练预训练 DiT,但额外的 MoT 专家参数增加了推理成本(内存使用和运行时长约增加一倍)。
    • 未来工作: 性能优化(如稀疏注意力 [13, 80] 和剪枝 [15, 73])是正交于本文工作,可作为未来研究方向。

7.3. 个人启发与批判

7.3.1. 个人启发

  • 范式转变的价值: VAP 将语义控制视频生成重构为“上下文生成”问题,这是一个非常具有启发性的范式转变。它借鉴了 LLM 领域成功的上下文学习理念,并将其创造性地应用于多模态生成。这种方法能够从根本上解决传统任务特定方法在泛化性和统一性上的局限,预示着未来通用生成模型的发展方向。
  • MoT 架构的巧妙应用: Mixture-of-Transformers (MoT) 在增强冻结骨干网络的同时防止灾难性遗忘,并实现即插即用控制,是一个非常巧妙的设计。它提供了一种在不牺牲基础模型能力的前提下,灵活扩展其功能的方法,对于构建可控的、多功能的生成模型具有广泛的借鉴意义。
  • 数据构建的策略性: VAP-Data 的构建策略——通过自动化利用商业 API 和社区 LoRA ——展示了在缺乏真实世界大规模配对数据时,如何通过“自举” (bootstrap) 方式快速建立实验基础。这种方法论在其他数据稀缺但有丰富专业工具的领域也可能适用。
  • VLM 在评估中的潜力: 利用 Gemini-2.5-proGPT-5VLM 进行自动化语义对齐评分,为生成模型的复杂语义评估提供了一种新颖且高效的途径。这减少了对大量人工评估的依赖,并可能成为未来生成模型评估的标准实践。

7.3.2. 批判与思考

  • 合成数据的“原罪”: VAP-Data 的合成性质是其最大的潜在风险。尽管它有助于快速验证 VAP 框架的有效性,但模型在这些数据上学习到的语义控制能力,可能会继承源模型(商业 APILoRA)固有的风格偏见、伪影和概念限制。这可能导致 VAP 在面对真实世界、更具多样性和复杂性的语义条件时,性能出现“幻觉”或下降。未来的研究必须投入大量资源构建真实世界、大规模、高质量的语义控制视频数据集。
  • 文本描述的精度挑战: 论文中提到了不准确的文本描述会降低生成质量,并提出未来探索指令式描述。这指出了当前 CLIP 风格的通用文本描述在语义控制精细度上的局限性。指令式描述或更结构化的语义表示(如语义图、场景图)可能提供更精确的控制,但同时也会增加提示工程的复杂性。
  • 多参考视频的混合问题: 多个参考视频时语义混合的问题,揭示了模型在处理复杂、冲突或不明确的上下文信息时的不足。这可能需要更高级的注意力机制、上下文融合策略,或者对参考提示进行更精细的语义解耦,以避免不希望的特征混合。
  • 推理效率与实际部署: MoT 架构虽然提供了灵活性,但也增加了推理时间和内存消耗,这在实际应用和大规模部署中是一个不容忽视的问题。尽管论文提到可以进行优化,但这是通用生成模型走向实用化的一个关键瓶颈。如何平衡模型能力和推理效率,始终是研究者需要权衡的挑战。
  • 未来应用领域的探索: 虽然论文展示了 VAP 的零样本泛化能力和多种下游应用,但其真正的应用潜力可能远超所展示的范围。例如,在电影制作中快速原型化视觉效果、广告创意生成、甚至教育内容创作等方面,VAP 都有巨大的未开发潜力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。