论文状态：已完成

Motion Inversion for Video Customization

发表：2024/03/29

视频生成中的运动定制 (1)时序Transformer模块 (1)运动嵌入表示 (1)运动查询键嵌入 (1)函数推理策略 (1)

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新颖的运动定制方法——运动嵌入，针对视频生成模型中运动表示的不足，解决了视频的时空特性带来的挑战。该方法通过两种嵌入与时间变换器模块无缝整合，优化了跨帧的自注意力计算，确保运动信息集中而不受外观偏差影响。

摘要

In this work, we present a novel approach for motion customization in video generation, addressing the widespread gap in the exploration of motion representation within video generative models. Recognizing the unique challenges posed by the spatiotemporal nature of video, our method introduces Motion Embeddings, a set of explicit, temporally coherent embeddings derived from a given video. These embeddings are designed to integrate seamlessly with the temporal transformer modules of video diffusion models, modulating self-attention computations across frames without compromising spatial integrity. Our approach provides a compact and efficient solution to motion representation, utilizing two types of embeddings: a Motion Query-Key Embedding to modulate the temporal attention map and a Motion Value Embedding to modulate the attention values. Additionally, we introduce an inference strategy that excludes spatial dimensions from the Motion Query-Key Embedding and applies a differential operation to the Motion Value Embedding, both designed to debias appearance and ensure the embeddings focus solely on motion. Our contributions include the introduction of a tailored motion embedding for customization tasks and a demonstration of the practical advantages and effectiveness of our method through extensive experiments.

思维导图

论文精读

中文精读约 25 分钟读完 · 16,907 字

1. 论文基本信息

1.1. 标题

Motion Inversion for Video Customization (视频定制中的运动反演)

1.2. 作者

Luozhou Wang1, *, Ziyang Mai1, * Guibao Shen1, Yixun Liang1, Xin Tao3, Pengfei Wan³, Di Zhang3, Yijun $\mathbf { L i } ^ { 4 }$ ,Yingcong Chen1,2, *

1HKUST(GZ)
2HKUST
3Kuaishou Technology
4Adobe Research (* 表示共同第一作者或通讯作者)

1.3. 发表期刊/会议

预印本 (arXiv)

1.4. 发表年份

2024年 (UTC发布时间为 2024-03-29T14:14:22.000Z)

1.5. 摘要

这篇论文提出了一种用于视频生成中运动定制的新方法 (novel approach)，旨在解决视频生成模型中运动表示 (motion representation)探索的普遍不足。针对视频时空特性 (spatiotemporal nature)带来的独特挑战，该方法引入了运动嵌入 (Motion Embeddings)，这是一组从给定视频中提取的显式 (explicit)、时间连贯的 (temporally coherent)嵌入。这些嵌入被设计成与视频扩散模型的时间 Transformer 模块 (temporal transformer modules)无缝集成，在不损害空间完整性 (spatial integrity)的情况下，调节跨帧的自注意力计算 (self-attention computations)。该方法提供了一个紧凑高效的运动表示解决方案，利用两种类型的嵌入：一种是运动查询-键嵌入 (Motion Query-Key Embedding)用于调节时间注意力图 (temporal attention map)，另一种是运动值嵌入 (Motion Value Embedding)用于调节注意力值 (attention values)。此外，论文还引入了一种推理策略 (inference strategy)，该策略将空间维度 (spatial dimensions)从运动查询-键嵌入 (Motion Query-Key Embedding)中排除，并对运动值嵌入 (Motion Value Embedding)应用差分操作 (differential operation)，这两项设计都是为了消除外观偏差 (debias appearance)，确保嵌入只关注运动。论文的贡献包括为定制任务引入了量身定制的运动嵌入，并通过大量实验证明了该方法的实际优势和有效性。

1.6. 原文链接

https://arxiv.org/abs/2403.20193 PDF 链接: https://arxiv.org/pdf/2403.20193v2.pdf

2. 整体概括

2.1. 研究背景与动机

近年来，生成模型 (generative models)在图像和视频领域取得了显著进展。在图像领域，定制化 (customization)已成为热门话题，用户能够从提供的图像中学习特定的视觉概念（如物体和风格），并结合模型的先验知识生成多样化的定制结果。这种成功使得人们对将类似能力扩展到视频生成模型抱有很高期望。

然而，将这些技术扩展到文本到视频 (Text-to-Video, T2V)生成面临新的挑战，这主要源于视频的时空性质 (spatiotemporal nature)。与图像不同，视频除了外观 (appearance)还包含运动 (motion)，因此同时考虑这两者至关重要。当前大多数定制化方法 (customization methods)主要关注外观定制 (appearance customization)，而忽略了在视频中至关重要的运动部分。运动定制 (Motion customization)涉及将特定运动或动画应用于不同的物体或角色，这项任务由于物体形状的多样性和随时间动态变化而变得复杂。现有方法在这方面存在以下限制：

缺乏清晰的运动表示： 某些方法（如 Yatim et al., 2023）通过损失函数 (loss construction)和在测试时 (test time)优化来间接注入运动，导致额外的计算开销 (computational overhead)。
运动参数与生成模型耦合： 另一些方法（如 Jeong et al., 2023）试图将运动参数化 (parameterize)为可学习的表示，但未能将这些参数与生成模型分离。这种耦合在学习运动后会损害生成模型的多样性 (diversity)。
时间设计不足： 尽管有一些方法尝试使用低秩适应 (low-rank adaptation, LoRA)等技术将运动表示从生成模型中分离出来（如 Motion Director），但它们缺乏良好定义的时间设计 (temporal design)，限制了其捕捉运动动态的有效性。

为了解决这些问题，本论文提出了一种新颖的框架，专注于运动表示 (motion representation)这一关键问题。

2.2. 核心贡献/主要发现

本论文的核心贡献在于提出了一个新颖的运动定制 (motion customization)框架，其主要发现和贡献如下：

提出新颖的运动表示： 引入了一种新颖的运动嵌入 (Motion Embeddings)，用于视频生成中的运动定制。这些嵌入是显式 (explicit)且时间连贯的 (temporally coherent)，能够从参考视频中学习，并无缝集成到视频扩散模型 (video diffusion models)的时间 Transformer 模块 (temporal transformer modules)中。
设计两种去偏运动嵌入： 设计了两种不同类型的运动嵌入，以有效捕捉运动并消除外观偏差 (appearance bias)：
- 1D 运动查询-键嵌入 (1D Motion Query-Key Embedding)： 形状为 $(1, N, C)$ ，通过排除空间维度 (spatial dimensions)来捕捉全局时间关系 (global temporal relationships)，避免捕获外观信息。
- 2D 运动值嵌入 (2D Motion Value Embedding) 与差分操作： 形状为 $(H \times W, N, C)$ ，通过对连续帧应用差分操作 (differential operation)来捕捉空间变化的运动 (spatially varying movements)，去除静态外观并保留动态运动。
广泛的实验验证： 通过大量实验验证了该方法的有效性和灵活性，展示了其在与现有文本到视频 (Text-to-Video, T2V)框架集成时的实际优势。结果表明，该方法在运动保真度 (motion fidelity)和用户偏好 (user preference)方面优于现有基线方法，同时保持了良好的文本相似度 (text similarity)。

3. 预备知识与相关工作

3.1. 基础概念

生成模型 (Generative Models)：一类机器学习模型，旨在学习训练数据的分布，并能够生成与训练数据相似的新数据样本。在图像和视频领域，它们可以根据文本提示生成图像或视频。
- 扩散模型 (Diffusion Models)：一种基于迭代去噪过程的生成模型。它们通过逐步从噪声中恢复数据来生成高质量样本。
- 生成对抗网络 (Generative Adversarial Networks, GANs)：由一个生成器和一个判别器组成的生成模型。生成器试图创建逼真的数据，而判别器则试图区分真实数据和生成数据。
- 自回归 Transformer (Autoregressive Transformers)：基于 Transformer 架构的生成模型，通过逐步预测序列中的下一个元素来生成数据，常用于文本、语音和视频序列生成。
文本到图像 (Text-to-Image, T2I) 生成：根据文本描述生成相应图像的任务。
文本到视频 (Text-to-Video, T2V) 生成：根据文本描述生成相应视频序列的任务。这比 T2I 更复杂，因为它不仅需要生成一致的图像，还需要生成时间连贯的运动。
Transformer 架构 (Transformer Architecture)：一种深度学习架构，最初用于自然语言处理，但已广泛应用于计算机视觉领域。其核心是自注意力机制 (self-attention mechanism)。
- 自注意力机制 (Self-Attention Mechanism)：允许模型在处理序列中的某个元素时，能够“关注”序列中的所有其他元素，并根据它们的重要性加权。在 Transformer 中，通过计算查询 (Query, Q)、键 (Key, K)和值 (Value, V)矩阵来实现。 $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中， $Q$ , $K$ , $V$ 分别代表查询、键和值矩阵。 $d_k$ 是键向量的维度，用于缩放以保持数值稳定性。该公式计算了注意力权重 (attention weights)（由 $QK^T$ 和 softmax 产生），然后用这些权重对值 (Value)进行加权求和，得到最终的输出。
- 时间 Transformer 模块 (Temporal Transformer Modules)：在 T2V 模型中，用于处理视频帧之间的时间关系，确保视频的时间连续性 (temporal continuity)。它通过对视频帧序列应用自注意力机制来实现。
嵌入 (Embeddings)：将高维数据（如单词、图像或视频帧）映射到低维向量空间 (vector space)中的表示。这些向量捕捉了原始数据的重要特征和语义信息。
反向传播 (Backpropagation)：一种用于训练神经网络 (neural networks)的算法，通过计算损失函数对模型参数的梯度 (gradient)，并沿梯度下降的方向更新参数。
损失函数 (Loss Function)：衡量模型预测与真实值之间差异的函数。训练目标是最小化损失函数。

3.2. 前人工作

本论文在 T2V 生成、视频编辑 和 视频运动定制 等领域的基础上进行研究。

文本到视频 (Text-to-Video, T2V) 生成：
- 早期方法： GANs (Vondrick et al., 2016; Saito et al., 2017; Pan et al., 2017; Li et al., 2018; Tian et al., 2021) 和 自回归 Transformer (Yan et al., 2021; Le Moing et al., 2021; Wu et al., 2022; Hong et al., 2022) 是该领域的早期探索。
- 扩散模型时代： 随着扩散模型 (diffusion models)在 T2I 生成中取得巨大成功，它们也开始扩展到视频生成 (He et al., 2022; Chen et al., 2023a; Wang et al., 2023)。这些模型通常通过在预训练的 T2I 扩散模型中插入时间层 (temporal layers)来实现 T2V，例如 AnimateDiff (Guo et al., 2023) 和 Make-a-Video (Singer et al., 2022)。它们将帧生成视为一系列图像创建，并使用时间 Transformer来增强帧间关系 (inter-frame relationships)。一些方法还会加入3D 卷积层 (3D convolutional layer)以增强时间一致性。然而，这些 T2V 模型主要设计用于通过文本输入生成视频，当需要生成定制运动 (customized motions)的视频时，可能会遇到困难。
视频编辑 (Video Editing)：
- 视频编辑 (Video Editing)旨在生成符合目标提示的视频，同时保留输入视频的空间布局 (spatial layout)和运动 (motion)。
- MagicEdit (Liew et al., 2023) 利用 SDEdit (Meng et al., 2021) 对每个视频帧进行高保真编辑 (high-fidelity editing)。
- Tune-A-Video (Wu et al., 2023) 通过在源视频上微调 T2I 模型来风格化 (stylize)视频或替换对象类别。
- Control-A-Video (Chen et al., 2023b) 引入 Video-ControlNet，通过时空注意力 (spatial-temporal attention)和新颖的噪声初始化 (novel noise initialization)生成具有精细控制和运动连贯性的高质量视频。
- TokenFlow (Geyer et al., 2023) 通过在目标帧和关键帧之间进行特征替换 (feature replacement)来实现帧一致性编辑 (frame-consistent editing)。
- 局限性： 这些方法通常只是在像素级别 (pixel-level)复制原始运动，当需要与原始视频有显著结构偏差 (structural deviation)时会失效。
视频运动定制 (Video Motion Customization)：
- 运动定制 (Motion customization)涉及生成一个视频，该视频保留源视频的运动特征（如方向、速度和姿态），同时将动态对象转换为符合文本提示指定视觉特征。这与视频编辑 (video editing)不同，后者通常在同一对象类别中相似视频之间传输运动。
- Diffusion Motion Transfer (DMT) (Yatim et al., 2023) 在推理过程中通过手工损失 (handcrafted loss)的指导来注入参考视频的运动，但增加了可观的计算成本。
- Video Motion Customization (VMC) (Jeong et al., 2023) 将运动编码到 T2V 模型的参数中。然而，微调原始 T2V 模型可能会严重限制生成模型在学习运动后的多样性。
- Motion Director (Zhao et al., 2023) 采用 LoRA (Hu et al., 2021) 将运动嵌入到 T2V 模型之外。然而，LoRA 的结构限制了其可扩展性 (scalability)和可解释性 (interpretability)，因为这些方法难以集成多个参考运动。
- 其他通过参数化 (parameterization)或轨迹 (trajectories)表示运动的工作 (Wang et al., 2024; He et al., 2024; Ma et al., 2023a; Yin et al., 2023) 不在本文讨论的基于参考视频的方法范围内。

3.3. 技术演进

T2V 生成领域的技术演进可以概括为从早期基于 GANs 和 自回归 Transformer 的尝试，发展到如今以扩散模型 (diffusion models)为主导。

从 T2I 到 T2V： 核心的演进路径是将 T2I 扩散模型的能力扩展到视频领域。这通常通过在 T2I 网络中引入专门的时间层 (temporal layers)或时间 Transformer 模块 (temporal transformer modules)来实现。这些模块旨在捕捉和维持帧之间的时间一致性 (temporal consistency)和运动动态 (motion dynamics)。
运动定制的挑战： 尽管 T2V 模型在生成高质量视频方面取得了进步，但在运动定制 (motion customization)方面仍存在显著挑战。现有方法往往将运动 (motion)与外观 (appearance)纠缠在一起，或者带来额外的计算开销，或者限制了生成的多样性。本研究正是在这一背景下，试图通过提出显式 (explicit)、去偏 (debiased)的运动嵌入 (Motion Embeddings)来解决这些挑战，从而在不影响生成模型其他能力的情况下，实现灵活的运动定制。

3.4. 差异化分析

本文提出的方法与现有相关工作的主要区别和创新点在于：

显式且解耦的运动表示： 本文引入了显式 (explicit)的运动嵌入 (Motion Embeddings)，直接从参考视频中学习运动信息。与 DMT 等通过间接损失注入运动的方法不同，本方法将运动编码为可学习的嵌入。与 VMC 等将运动耦合到 T2V 模型参数中的方法不同，本方法旨在将运动表示与生成模型本身解耦，从而避免牺牲模型的多样性 (diversity)。
专门设计的运动嵌入类型：
- 双类型嵌入： 区分了运动查询-键嵌入 (Motion Query-Key Embedding)和运动值嵌入 (Motion Value Embedding)，分别用于调节时间注意力图 (temporal attention map)和注意力值 (attention values)，以捕捉不同粒度的运动信息（全局关系和局部空间变化）。
- 去偏策略： 针对两种嵌入分别设计了去偏策略 (debiasing strategies)。运动查询-键嵌入通过排除空间维度 (spatial dimensions)来避免捕获外观信息。运动值嵌入则通过差分操作 (differential operation)来去除静态外观，确保其专注于运动动态 (motion dynamics)。这种明确的解耦和去偏设计是现有方法所缺乏的，特别是 Motion Director 等基于 LoRA 的方法，它们缺乏明确的时间设计 (well-defined temporal design)来有效捕捉运动动态。
无缝集成与灵活性： 提出的运动嵌入可以无缝集成到现有的视频扩散模型 (video diffusion models)的时间 Transformer 模块 (temporal transformer modules)中，显示了其与 T2V 框架的良好兼容性 (compatibility)和灵活性 (flexibility)。

4. 方法论

4.1. 方法原理

本方法的核心思想是为视频生成中的运动定制引入运动嵌入 (Motion Embeddings)。这些嵌入从给定的参考视频中学习，旨在显式 (explicitly)、时间连贯地 (temporally coherently)表示运动。其关键在于将运动信息与外观信息 (appearance information)解耦，确保生成的视频能够继承参考视频的运动模式，同时根据文本提示生成全新的外观。这通过两种特殊设计的运动嵌入来实现，它们分别作用于时间 Transformer 模块 (temporal transformer modules)的注意力图 (attention map)和注意力值 (attention values)，并通过特定的去偏策略 (debiasing strategies)来确保只捕捉运动。

4.2. 核心方法详解

本方法的核心在于对T2V 扩散模型 (T2V diffusion models)中时间 Transformer 模块 (temporal transformer module)的修改，通过引入两种运动嵌入 (Motion Embeddings)来定制视频的运动。

4.2.1. 文本到视频扩散模型回顾

在视频扩散模型 (video diffusion models)中，从文本到图像 (Text-to-Image, T2I)模型到文本到视频 (Text-to-Video, T2V)模型的演变主要通过引入时间 Transformer 模块 (temporal transformer module)来实现。这个模块对于视频生成至关重要，它将视频视为批量图像的序列进行处理，并通过帧级自注意力机制 (frame-level self-attention mechanism)来处理帧间相关性 (inter-frame correlations)，从而确保动态视频内容 (dynamic video content)所需的时间连续性。

具体来说，一个时空特征张量 (spatiotemporal feature tensor) $\mathbf { X }$ 被作为输入，其初始形状为 $\mathbb { R } ^ { 1 \times C \times N \times H \times W }$ ，其中 $C$ 代表通道数 (channels)， $N$ 代表帧数 (number of frames)， $H$ 代表高度 (height)， $W$ 代表宽度 (width)。批处理大小等于 1，在后续表示中省略批处理大小维度。这个张量随后被转换为特征张量 $\mathbf { F }$ ，其维度为 $\mathbf { F } \in \mathbb { R } ^ { \left( H \times W \right) \times N \times C }$ 。这里， $H \times W$ 代表空间维度被展平， $N$ 维度对应于帧， $C$ 维度是特征通道。

为了执行此操作， $\mathbf { F }$ 通过三个不同的线性层 (linear layers)投影，以生成查询 (Query) $\mathbf { Q }$ 、键 (Key) $\mathbf { K }$ 和值 (Value) $\mathbf { V }$ 矩阵：

$\mathbf { Q } = \mathbf { W } _ { \mathbf { q } } \mathbf { F }$
$\mathbf { K } = \mathbf { W } _ { \mathbf { k } } \mathbf { F }$
$\mathbf { V } = \mathbf { W } _ { \mathbf { v } } \mathbf { F }$

其中 $\mathbf { W } _ { \mathbf { q } }$ , $\mathbf { W } _ { \mathbf { k } }$ , $\mathbf { W } _ { \mathbf { v } }$ 是可学习的权重矩阵。

自注意力 (self-attention)在帧序列上执行，其公式如下： $\mathrm { T A } ( \mathbf { F } ) = \mathrm { s o f t m a x } \left( \frac { \mathbf { Q } \mathbf { K } ^ { \mathbf { T } } } { \sqrt { d _ { k } } } \right) \mathbf { V }$

$\mathrm { TA } ( \mathbf { F } )$ ：时间注意力 (Temporal Attention) 操作的输出。
$\mathbf { Q }$ ：查询矩阵 (Query matrix)，从 $\mathbf { F }$ 投影得到。
$\mathbf { K }$ ：键矩阵 (Key matrix)，从 $\mathbf { F }$ 投影得到。
$\mathbf { V }$ ：值矩阵 (Value matrix)，从 $\mathbf { F }$ 投影得到。
d _ { k }：键向量 (key vectors)的维度，用作缩放因子 (scaling factor)，以保持 softmax 函数内的数值稳定性。
$\mathrm { softmax }$ ：softmax 函数，用于将注意力分数归一化为概率分布。

这种时间注意力机制 (temporal attention mechanism)允许每个帧的更新特征从其他帧中收集信息，从而增强帧间关系 (inter-frame relationships)并捕获视频生成所需的时间连续性。

4.2.2. 提出的方法：运动嵌入 (Motion Embeddings)

本方法的核心在于引入创新的运动嵌入 (Motion Embeddings) $\mathcal { M }$ ，以增强视频模型中的帧间动态 (inter-frame dynamics)。运动嵌入定义如下： $\begin{array} { r l } & { \mathcal { M } = \{ \mathcal { M } ^ { Q K } , \mathcal { M } ^ { \mathcal { V } } \} , } \\ & { \mathcal { M } ^ { Q K } = \{ \mathbf { m } _ { 1 } ^ { Q K } , \mathbf { m } _ { 2 } ^ { Q K } , . . . , \mathbf { m } _ { L } ^ { Q K } \} , \quad \mathrm { w h e r e ~ e a c h ~ } \mathbf { m } _ { i } ^ { Q K } \in \mathbb { R } ^ { 1 \times N \times C } , } \\ & { \mathcal { M } ^ { \mathcal { V } } = \{ \mathbf { m } _ { 1 } ^ { V } , \mathbf { m } _ { 2 } ^ { V } , . . . , \mathbf { m } _ { L } ^ { V } \} , \quad \mathrm { w h e r e ~ e a c h ~ } \mathbf { m } _ { i } ^ { V } \in \mathbb { R } ^ { (H \times W) \times N \times C } . } \end{array}$

$\mathcal { M }$ ：表示整个运动嵌入集，包含两种类型的嵌入。
$\mathcal { M } ^ { Q K }$ ：运动查询-键嵌入 (Motion Query-Key Embedding)的集合。
$\mathbf { m } _ { i } ^ { Q K }$ ：第 $i$ 个时间注意力模块 (temporal attention module)的运动查询-键嵌入。其形状为 $(1, N, C)$ ，表示它不包含空间维度 (spatial dimensions)（ $H$ 和 $W$ ），而是对所有空间位置共享。它影响注意力图 (attention map)的计算，主要捕获全局时间关系 (global temporal relationships)。
$\mathcal { M } ^ { \mathcal { V } }$ ：运动值嵌入 (Motion Value Embedding)的集合。
$\mathbf { m } _ { i } ^ { V }$ ：第 $i$ 个时间注意力模块 (temporal attention module)的运动值嵌入。其形状为 $((H \times W), N, C)$ ，表示它包含空间维度 (spatial dimensions)，可以捕获空间变化的运动 (spatially varying movements)。
$L$ ：模型中时间注意力模块 (temporal attention modules)的总数量。

这些嵌入被无缝集成到时空特征张量 (spatiotemporal feature tensor) $\mathbf { F }$ 中。运动嵌入对自注意力计算 (self-attention computation)的影响如下： ${ \mathrm { T A } } _ { i } ( { \bf F } ) = \mathrm { s o f t m a x } \left( \frac { ( { \bf W } _ { \bf q } ( { \bf F } + { \bf m } _ { i } ^ { Q K } ) ) ( { \bf W } _ { \bf k } ( { \bf F } + { \bf m } _ { i } ^ { Q K } ) ) ^ { T } } { \sqrt { d _ { k } } } \right) ( { \bf W } _ { \bf v } ( { \bf F } + { \bf m } _ { i } ^ { V } ) )$
$\mathrm { T A } _ { i } ( { \bf F } )$ ：第 $i$ 个时间注意力模块 (temporal attention module)的输出。
$\mathbf { W } _ { \mathbf { q } }$ , $\mathbf { W } _ { \mathbf { k } }$ , $\mathbf { W } _ { \mathbf { v } }$ ：查询 (Query)、键 (Key)和值 (Value)的线性投影权重。
$\mathbf { F }$ ：原始的时空特征张量 (spatiotemporal feature tensor)。
$\mathbf { m } _ { i } ^ { Q K }$ ：第 $i$ 个模块的运动查询-键嵌入 (Motion Query-Key Embedding)，被加到 $Q$ 和 $K$ 的输入特征上。
$\mathbf { m } _ { i } ^ { V }$ ：第 $i$ 个模块的运动值嵌入 (Motion Value Embedding)，被加到 $V$ 的输入特征上。
其他符号与标准自注意力 (self-attention)公式相同。

此修改意味着运动查询-键嵌入 (Motion Query-Key Embedding) $\mathbf { m } _ { i } ^ { Q K }$ 会影响注意力图 (attention map)的计算，从而调整帧之间如何相互关注以捕捉运动关系。而运动值嵌入 (Motion Value Embedding) $\mathbf { m } _ { i } ^ { V }$ 则直接调制注意力值 (attention values)，从而影响每个空间位置的运动表示。

4.2.3. 训练过程

为了学习这些运动嵌入，模型会针对给定的参考视频 $x _ { 0 } ^ { 1 : N }$ 进行训练（其中 $N$ 是视频的帧数）。每个运动嵌入最初被零初始化 (zero-initialize)。然后，视频扩散模型 (video diffusion model)通过反向传播 (backpropagate)梯度来训练运动嵌入，其损失函数 (loss formulation)基于预测噪声与真实噪声之间的 L2 范数： $\mathcal { M } _ { * } = \arg \operatorname* { m i n } _ { \mathcal { M } } \mathbb { E } _ { t , \epsilon } \left[ \left\| \epsilon _ { t } ^ { 1 : N } - \epsilon _ { \theta } ( x _ { t } ^ { 1 : N } , t , \mathcal { M } ) \right\| _ { 2 } ^ { 2 } \right]$

$\mathcal { M } _ { * }$ ：通过优化学习到的最佳运动嵌入。
$\operatorname* { m i n } _ { \mathcal { M } }$ ：表示最小化操作是对运动嵌入 $\mathcal{M}$ 进行的。
$\mathbb { E } _ { t , \epsilon }$ ：表示对时间步 $t$ 和噪声变量 $\epsilon$ 的期望。
$\epsilon _ { t } ^ { 1 : N }$ ：在时间步 $t$ 时添加到视频 $x _ { 0 } ^ { 1 : N }$ 的真实噪声。
$\epsilon _ { \theta } ( x _ { t } ^ { 1 : N } , t , \mathcal { M } )$ ：预训练视频扩散模型 (video diffusion model)（参数为 $\theta$ ）在给定带有噪声的视频 $x _ { t } ^ { 1 : N }$ 、时间步 $t$ 和运动嵌入 $\mathcal{M}$ 的情况下预测的噪声。
$\| \cdot \| _ { 2 } ^ { 2 }$ ：L2 范数平方 (squared L2 norm)，衡量预测噪声和真实噪声之间的差异。

整个过程如图 Figure 2 所示。该方法还支持其他损失函数，如 (Jeong et al., 2023) 和 (Zhao et al., 2023) 中使用的损失，实验表明后者可以提升性能。

4.2.4. 推理策略与外观去偏

在推理 (inference)阶段，为了修改优化后的运动值嵌入 (Motion Value Embedding)并消除外观偏差 (debias the appearance)，论文引入了差分操作 (differencing operation)： $\begin{array} { r } { \tilde { \mathbf { m } } _ { i } ^ { V } [ : , j , : ] = \left\{ \begin{array} { l l } { \mathbf { m } _ { i } ^ { V } [ : , j , : ] , } & { j = 1 } \\ { \mathbf { m } _ { i } ^ { V } [ : , j , : ] - \mathbf { m } _ { i } ^ { V } [ : , j - 1 , : ] , } & { j > 1 } \end{array} \right. } \end{array}$

$\tilde { \mathbf { m } } _ { i } ^ { V }$ ：经过修改的第 $i$ 个运动值嵌入 (Motion Value Embedding)。
$\mathbf { m } _ { i } ^ { V } [ : , j , : ]$ ：原始的第 $i$ 个运动值嵌入在第 $j$ 帧的切片。
对于第一帧 ( $j=1$ )，嵌入保持不变。
对于后续帧 ( $j>1$ )，当前帧的嵌入会减去前一帧的嵌入。

这个操作与光流 (optical flow)的概念类似，通过跟踪帧间的变化来隔离动态运动，从而确保运动值嵌入 (Motion Value Embedding)主要表示运动动态 (motion dynamics)，而不是静态外观信息。

4.2.5. 运动嵌入设计分析 ( $M^QK$ 和 $M^V$ )

本方法旨在充分捕捉目标视频的运动信息，而不受其外观的影响。 $M^QK$ 和 $M^V$ 的设计旨在实现这一目标：

运动查询-键嵌入 ( $\mathcal { M } ^ { Q K }$ ):
- $M^QK$ 的设计目的在于通过调整查询 (Query)和键 (Key)组件来影响时间 Transformer 模块 (temporal transformer modules)内的注意力图 (attention map)。通过在投影到 $Q$ 和 $K$ 之前将 $M^QK$ 添加到特征 $\mathbf{F}$ 上（如 Equation 3 所示），模型有效地修改了注意力权重 (attention weights)的计算。这些权重决定了帧之间如何随时间相互关注，对于建模目标视频的运动至关重要。
- $M^QK$ 的形状 $\mathbb { R } ^ { 1 \times N \times C }$ 专门设计为排除空间维度 (spatial dimensions) $H$ 和 $W$ ，这对于消除外观信息 (appearance information)至关重要。其理由是时间注意力图 (temporal attention map)本质上建模的是跨帧空间区域 (spatial regions)之间的关系，它本身就携带着对象的外观信息 (appearance information)。如果将空间维度包含在 $M^QK$ 中，可能会导致嵌入捕获对象的形状（例如，原始视频中坦克的形状在注意力图中是可见的），从而限制运动转移到新内容的能力。
运动值嵌入 ( $\mathcal { M } ^ { V }$ ):
- 由于 $M^QK$ 排除空间维度 (spatial dimensions)，它更适合表示全局运动 (global motion)（例如摄像机运动 (camera motion)），但在捕捉局部运动 (local motion)（例如实例运动 (instance motion)）方面效果较差。为了解决这个问题，论文在表示中加入了运动值嵌入 (Motion Value Embedding) $\mathcal { M } ^ { V }$ 。
- 具体来说， $M^V$ 的形状为 $\mathbb { R } ^ { (H \times W) \times N \times C }$ ，旨在表示跨时间帧的每个空间位置 (spatial location)的运动。这种细粒度 (fine-grained)的表示对于建模局部对象运动 (local object movements)和详细运动信息 (detailed motion information)至关重要，能够增强生成视频的真实感 (realism)和连贯性 (coherence)。
- 然而， $M^V$ 可能会捕获静态外观信息 (static appearance information)，导致过拟合 (overfitting)并限制泛化能力 (generalization)。为了解决这个问题，论文应用了 Equation 5 中的差分操作 (differencing operation)。这个操作通过从当前帧的运动值嵌入 (motion value embedding)中减去前一帧的嵌入来隔离动态运动 (dynamic motion)，从而去除静态外观 (static appearance)。这种方法类似于光流 (optical flow)，确保 $M^V$ 专注于运动动态 (motion dynamics)，从而提高对新文本提示的泛化能力 (generalization)。
  
  Figure 2: Motion Inversion within T2V diffusion models. The top depicts the training phase, where motion embeddings $\mathcal { M }$ are learned by backpropagating the loss through the temporal transformer, influencing the spatiotemporal feature tensor F. These embeddings are then used to modify the self-attention computations within the temporal transformer modules, ensuring enhanced interframe dynamics. The bottom shows the inference phase, where an input text prompt guides the generation of a coherent video sequence with the learned motion embeddings applied across the frames, producing a customized video output with desired motion attributes. Figure 3: Debiasing appearance from Motion Embeddings. Left: For the Motion Query-Key Embedding, which influences the attention map, we exclude the spatial dimensions. Including them would cause the attention map between frames to capture the object's shape (e.g., the shape of the tank in the original video is visible in the attention map). Right: Following the concept of optical flow, we apply a differential operation to the Spatial-2D Motion Value Embedding, removing static appearance and preserving dynamic motion.

5. 实验设置

5.1. 数据集

为了与先前的研究 (Yatim et al., 2023; Jeong et al., 2023) 保持一致，本研究的评估使用了来自 DAVIS 数据集 (Perazzi et al., 2016)、WebVID (Bain et al., 2021) 以及各种在线资源的视频。这些视频代表了广泛的场景和对象类别，并包含了多种运动类型。

DAVIS 数据集 (DAVIS dataset): Densely Annotated VIdeo Segmentation 的缩写，是一个用于视频对象分割和跟踪的基准数据集。它包含高质量的视频序列，通常有精确的像素级标注，涵盖了各种复杂的场景和运动。
WebVID: 一个大规模的视频-文本数据集，包含从网络收集的数百万个视频片段及其相关的文本描述。主要用于训练和评估大规模 T2V 模型。选择这些数据集的目的是为了确保实验能够涵盖多种场景、对象和运动类型，从而全面评估方法的性能和泛化能力 (generalization ability)。

5.2. 评估指标

本研究为了全面评估所提出的方法与基线方法，在多个维度上进行了评估，包括文本相似度 (Text Similarity)、运动保真度 (Motion Fidelity)、时间一致性 (Temporal Consistency)、Fréchet Inception Distance (FID) 以及用户研究 (User Study)。

5.2.1. 文本相似度 (Text Similarity)

概念定义 (Conceptual Definition): 衡量生成视频的帧与用户提供的文本提示之间的语义相关性 (semantic relevance)。高文本相似度意味着生成视频的视觉内容准确地反映了文本描述。
数学公式 (Mathematical Formula): 遵循先前研究 (Geyer et al., 2023; Esser et al., 2023; Jeong et al., 2023; Yatim et al., 2023) 的做法，利用 CLIP (Radford et al., 2021) 模型计算帧到文本的相似度 (frame-to-text similarity)。具体计算方式是： $\text{Text Similarity} = \frac{1}{N} \sum_{i=1}^{N} \text{cosine\_similarity}(\text{CLIP\_image\_embedding}(\text{frame}_i), \text{CLIP\_text\_embedding}(\text{prompt}))$
符号解释 (Symbol Explanation):
- $N$ : 视频中的帧数。
- $\text{frame}_i$ : 生成视频的第 $i$ 帧。
- $\text{prompt}$ : 用于生成视频的文本提示。
- $\text{CLIP\_image\_embedding}(\cdot)$ : CLIP 模型将图像转换为特征向量 (feature vector)的函数。
- $\text{CLIP\_text\_embedding}(\cdot)$ : CLIP 模型将文本转换为特征向量 (feature vector)的函数。
- $\text{cosine\_similarity}(A, B) = \frac{A \cdot B}{\|A\| \|B\|}$ : 两个向量 $A$ 和 $B$ 之间的余弦相似度 (cosine similarity)，用于衡量它们在语义空间 (semantic space)中的相似性。

5.2.2. 运动保真度 (Motion Fidelity)

概念定义 (Conceptual Definition): 评估输出视频在多大程度上保留了输入视频的运动轨迹和动态特征。高运动保真度意味着生成视频的运动与参考视频的运动高度一致。
数学公式 (Mathematical Formula): 采用 (Yatim et al., 2023) 提出的运动保真度分数 (Motion Fidelity Score)。该指标利用由现成的跟踪模型 (off-the-shelf tracking model) (Karaev et al., 2023) 计算的轨迹 (tracklets)，衡量未对齐视频 (unaligned videos)中运动轨迹的相似性。 $\text{Motion Fidelity} = \frac { 1 } { m } \sum _ { \widetilde { \tau } \in \widetilde { \mathcal { T } } } \operatorname* { m a x } _ { \tau \in \mathcal { T } } \mathrm { c o r r } ( \tau , \widetilde { \tau } ) + \frac { 1 } { n } \sum _ { \tau \in \mathcal { T } } \operatorname* { m a x } _ { \widetilde { \tau } \in \widetilde { \mathcal { T } } } \mathrm { c o r r } ( \tau , \widetilde { \tau } )$
符号解释 (Symbol Explanation):
- $\mathcal { T }$ : 输入视频中轨迹 (tracklets)的集合。
- $\widetilde { \mathcal { T } }$ : 输出视频中轨迹 (tracklets)的集合。
- $m = |\widetilde { \mathcal { T } }|$ : 输出视频中轨迹的数量。
- $n = |\mathcal { T }|$ : 输入视频中轨迹的数量。
- $\tau$ : 输入视频中的单个轨迹。
- $\widetilde { \tau }$ : 输出视频中的单个轨迹。
- $\mathrm { corr } ( \tau , \widetilde { \tau } )$ : 输入轨迹 $\tau$ 和输出轨迹 $\widetilde { \tau }$ 之间的归一化互相关 (normalized cross-correlation)。

5.2.3. 时间一致性 (Temporal Consistency)

概念定义 (Conceptual Definition): 衡量视频序列的流畅度 (smoothness)和连贯性 (coherence)。高时间一致性表示视频帧之间没有明显的闪烁、跳动或不连贯的变化。
数学公式 (Mathematical Formula): 通过计算输出视频中所有帧对 (all frame pairs)的 CLIP 图像特征之间的平均余弦相似度 (average cosine similarity)来量化 (Jeong et al., 2023; Zhao et al., 2023; Kahatapitiya et al., 2024; Wu et al., 2023; Chen et al., 2023b)。 $\text{Temporal Consistency} = \frac{1}{\frac{N(N-1)}{2}} \sum_{i=1}^{N-1} \sum_{j=i+1}^{N} \text{cosine\_similarity}(\text{CLIP\_image\_embedding}(\text{frame}_i), \text{CLIP\_image\_embedding}(\text{frame}_j))$
符号解释 (Symbol Explanation):
- $N$ : 视频中的帧数。
- $\text{frame}_i$ , $\text{frame}_j$ : 生成视频的第 $i$ 帧和第 $j$ 帧。
- $\text{CLIP\_image\_embedding}(\cdot)$ : CLIP 模型将图像转换为特征向量 (feature vector)的函数。
- $\text{cosine\_similarity}(A, B) = \frac{A \cdot B}{\|A\| \|B\|}$ : 两个向量 $A$ 和 $B$ 之间的余弦相似度 (cosine similarity)。
- $\frac{N(N-1)}{2}$ : 从 $N$ 帧中选择两个不同帧的组合数。

5.2.4. Fréchet Inception Distance (FID)

概念定义 (Conceptual Definition): Fréchet Inception Distance (FID) 广泛用于衡量生成模型 (generative models)产生图像的质量 (quality)。它通过比较真实图像和生成图像在Inception V3 模型 (Inception V3 model)的特征空间 (feature space)中的统计分布 (statistical distributions)来评估生成样本 (generated samples)的真实性 (realism)和多样性 (diversity)。较低的 FID 值表示生成图像的质量更高，与真实图像更相似。
数学公式 (Mathematical Formula): $\text{FID} = \|\mu_1 - \mu_2\|^2 + \text{Tr}(\Sigma_1 + \Sigma_2 - 2(\Sigma_1 \Sigma_2)^{1/2})$
符号解释 (Symbol Explanation):
- $\mu_1$ : 真实图像在Inception V3 特征空间 (Inception V3 feature space)中的特征均值 (mean feature vector)。
- $\Sigma_1$ : 真实图像在Inception V3 特征空间中的协方差矩阵 (covariance matrix)。
- $\mu_2$ : 生成图像在Inception V3 特征空间中的特征均值。
- $\Sigma_2$ : 生成图像在Inception V3 特征空间中的协方差矩阵。
- $\|\cdot\|^2$ : L2 范数平方 (squared L2 norm)。
- $\text{Tr}(\cdot)$ : 矩阵的迹 (trace of a matrix)。
- $(\Sigma_1 \Sigma_2)^{1/2}$ : 矩阵乘积 $\Sigma_1 \Sigma_2$ 的矩阵平方根 (matrix square root)。

5.2.5. 用户研究 (User Study)

概念定义 (Conceptual Definition): 为了更严格地评估方法的有效性，进行了一项用户研究 (user study)。通过让真人参与者评估生成视频的质量，可以直接衡量方法的主观感知性能 (subjective perceived performance)，这对于评估创意内容生成任务至关重要。
评估方式: 121 名参与者被要求评估 10 个随机选择的源视频和相应文本提示组合形成的独特场景。对于每个场景，参与者会看到由四种不同方法（包括本方法和三种基线方法）在相同运动和文本提示条件下生成的视频。参与者需要选择最符合源视频运动和文本描述结合的视频。
结果： 最终结果以偏好率 (preference rate)的形式呈现，表示用户选择特定方法的视频的百分比。

5.3. 对比基线

为了确保公平比较，本研究将自己的方法与以下三种运动定制 (motion customization)方法进行了对比，并将所有方法都集成到相同的 T2V 模型 ZeroScope (cerspense, 2023) 中进行实验：

DMT (Diffusion Motion Transfer) (Yatim et al., 2023)：通过在推理时 (inference)使用手工损失函数 (handcrafted loss)来注入参考视频的运动。
VMC (Video Motion Customization) (Jeong et al., 2023)：将运动编码到 T2V 模型的参数中，通过微调模型来实现运动定制。
MD (Motion Director) (Zhao et al., 2023)：采用 LoRA (Hu et al., 2021) 机制将运动嵌入到 T2V 模型之外。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定性评估 (Qualitative Evaluation)

如图 Figure 5 所示，本方法在定性上优于基线方法。它在保留原始视频的运动轨迹 (motion trajectory)和物体姿态 (object poses)方面表现出色，这体现在初始帧和最终帧之间物体位置和姿态的一致性。此外，本方法在生成与文本描述一致的视觉特征方面也表现出卓越的精度。

示例一： 在“a boy walking in a field”（一个男孩在田野里行走）的场景中，本模型能够巧妙地将“walking duck”（行走的鸭子）转换为“walking boy”（行走的男孩），同时保留原始的运动轨迹。
示例二： 在“a fox sitting in a snowy mountain”（一只狐狸坐在雪山中）的场景中，本方法能够巧妙地体现白雪皑皑的山景的精髓，并具有高运动保真度 (motion fidelity)。相比之下，Motion Director (Zhao et al., 2023) 虽然能够生成类似的雪山视觉特征，但在保持原始视频的运动完整性方面不如本方法有效。

这些定性结果证明了本方法在解耦运动 (decoupling motion)和外观 (appearance)方面的能力，使其能够将参考视频的运动模式与新颖的文本提示内容相结合。

Figure 5: Qualitative results. Compared to DMT (Yatim et al., 2023), VMC (Jeong et al., 2023), and Motion Director (Zhao et al., 2023), our method not only preserves the original video's motion trajectory and object poses but also generates visual features that align with text descriptions.

6.1.2. 定量评估 (Quantitative Evaluation)

Table 1 总结了各项指标的结果。评估是在 66 个视频-编辑文本对 (video-edit text pairs)上进行的，其中包括 22 个独特的视频，除了用户偏好 (user preferences)指标。

以下是原文 Table 1 的结果：

Method	Text ↑ Similarity	Motion Fidelity	Temporal	FID ↓	User
DMT (Yatim et al., 2023)	0.2883	0.7879	0.9357	614.21	16.19%
VMC (Jeong et al., 2023)	0.2707	0.9372	0.9448	695.97	17.18%
MD (Zhao et al., 2023)	0.3042	0.9391	0.9330	614.07	27.27%
Ours	0.3113	0.9552	0.9354	550.38	39.35%

文本相似度 (Text Similarity)：本方法 (Ours) 和 Motion Director (MD) 在文本相似度 (Text Similarity)方面得分较高，分别为 0.3113 和 0.3042，表明两者都能有效地生成与文本描述一致的视觉内容。本方法略优于所有基线。
运动保真度 (Motion Fidelity)：本方法在运动保真度 (Motion Fidelity)方面表现最佳，达到 0.9552，超越了 Motion Director (0.9391) 和 VMC (0.9372)。这进一步证实了定性分析的发现，即本方法能更好地保留原始视频的运动动态。DMT 在此指标上表现最差（0.7879），这可能是由于其间接的运动注入方式。
时间一致性 (Temporal Consistency)：在时间一致性 (Temporal Consistency)方面，本方法 (0.9354) 略低于 VMC (0.9448)。论文指出，这可能是因为本方法的参数数量较少。然而，这个差异相对较小，且本方法的整体表现依然具有竞争力。
FID (Fréchet Inception Distance)：FID 衡量生成帧的图像质量 (image quality)。本方法取得了最低的 FID 分数 (550.38)，表明其生成帧的质量优于所有基线方法。VMC 的 FID 值最高 (695.97)，说明其在单帧质量方面表现最差。
用户研究 (User Study)：本方法在用户研究 (User Study)中获得了最高的偏好率 (preference rate) (39.35%)，显著高于其他三种方法。这有力地证实了本方法在同时保留原始视频运动和响应文本提示方面的熟练程度 (proficiency)，获得了用户最高的认可。

综合来看，本方法在运动保真度 (Motion Fidelity)、文本相似度 (Text Similarity)、图像质量 (FID)和用户偏好 (User Study)方面均表现出卓越的性能，在时间一致性 (Temporal Consistency)方面也保持了竞争力，证明了其在视频运动定制任务中的有效性和优越性。

6.2. 消融实验 (Ablation Study)

本研究从两个关键角度对所提出的方法进行了消融研究 (ablation study)：运动嵌入 (motion embeddings)的设计和推理策略 (inference strategy)。结果如 Table 1 和 Figure 6/7 所示。

以下是原文 Figure 6 的结果： Figure 6: Ablation Study. Figure 7: Visual Result of the Ablation Study. Left: Ablation of motion embedding design; Right: Ablation of inference strategy. For better visualization, refer to the videos in the supplementary files.

Figure 6 展示了不同配置下 Motion Fidelity 和 Text Similarity 的二维散点图。

运动嵌入设计消融 (Ablation of motion embedding design) (对应 Figure 7 左侧):
- (a) $spatial-1D m_i^QK$ with $spatial-2D m_i^V$ : 这表示运动查询-键嵌入没有空间维度（像本文的方法），而运动值嵌入有空间维度（像本文的方法）。
- (b) $spatial-2D m_i^QK$ with $spatial-1D m_i^V$ : 这表示运动查询-键嵌入有空间维度，而运动值嵌入没有空间维度。
- (c) ours: 本文提出的方法，即 $1D m_i^QK$ 和 $2D m_i^V$ 的组合。
- (d) $spatial-2D m_i^QK$ with $spatial-2D m_i^V$ : 这表示两种嵌入都有空间维度。
  
  分析: 实验结果表明，本方法 (ours, c) 在捕获原始视频运动 (capturing the motion of original videos)和泛化到多样化文本提示 (generalizing well to diverse text prompts)之间取得了强大的平衡，减少了过拟合 (overfitting)。具体来说，当运动查询-键嵌入也包含空间维度 (spatial dimensions)时（如 $d$ 选项），Motion Fidelity 会略微提高，但Text Similarity 会显著下降，这证实了 $m_i^QK$ 排除空间维度以避免捕获外观信息的重要性。而当 $m_i^V$ 缺少空间维度时（如 $b$ 选项），Motion Fidelity 和 Text Similarity 都相对较低，这强调了 $m_i^V$ 捕获局部运动 (local motion)的空间细节 (spatial details)的重要性。
推理策略消融 (Ablation of inference strategy) (对应 Figure 7 右侧):
- (e) normalize: 这种策略通过减少 $m_i^V$ 的平均值 (mean value)来归一化 (normalize)它。
- (f) vanilla: 不使用 Equation 5 中定义的差分操作 (differential operation)。
- (c) ours: 本文提出的策略，即对 $m_i^V$ 应用差分操作 (differential operation)。
  
  分析: 结果表明，采用本方法的推理策略 (inference strategy)后，文本到视频相似度 (text-to-video similarity)显著提高。vanilla 策略 (f) 在Text Similarity上表现最差，而 normalize 策略 (e) 略好于 vanilla 但仍不及本方法。这证明了差分操作 (differential operation)在消除外观偏差 (debiasing appearance)并确保嵌入专注于运动 (focuses solely on motion)方面的有效性，从而使得生成的视频能更好地响应文本提示。

这些消融实验有力地支持了本方法中运动嵌入 (motion embedding)设计和推理策略 (inference strategy)的合理性。

7. 总结与思考

7.1. 结论总结

本论文提出了一种用于视频生成中运动定制 (motion customization)的新颖方法，有效地解决了生成模型 (generative models)中运动表示 (motion representation)的挑战。该方法的核心是引入了运动嵌入 (Motion Embeddings)，它们是显式 (explicit)且时间连贯的 (temporally coherent)，能够从参考视频中学习。通过将这些嵌入无缝集成到视频扩散模型 (video diffusion models)的时间 Transformer 模块 (temporal transformer modules)中，本方法实现了在不损害空间完整性 (spatial integrity)的情况下调节跨帧自注意力计算 (self-attention computations)。

论文设计了两种类型的运动嵌入：运动查询-键嵌入 (Motion Query-Key Embedding)用于调节时间注意力图 (temporal attention map)，以及运动值嵌入 (Motion Value Embedding)用于调节注意力值 (attention values)。为了消除外观偏差 (appearance bias)并确保嵌入纯粹关注运动，论文引入了推理策略 (inference strategy)：运动查询-键嵌入排除了空间维度 (spatial dimensions)，而运动值嵌入则应用了差分操作 (differential operation)。

通过广泛的实验，本方法被证明是有效和灵活的。它在运动保真度 (motion fidelity)、文本相似度 (text similarity)、图像质量 (FID)和用户偏好 (user preference)等关键指标上均表现出色，优于现有的基线方法，为视频生成领域的运动定制任务提供了坚实的基础。

7.2. 局限性与未来工作

论文作者指出了该方法的一些局限性，并展望了未来的研究方向：

对 T2V 模型先验的依赖： 本方法的性能在一定程度上依赖于底层 T2V 模型所获取的生成先验 (generative priors)。因此，当目标对象与输入视频中的运动之间的交互 (interplay)超出了 T2V 模型的训练分布 (training distribution)时，可能会偶尔出现性能下降的情况。这意味着对于非常新颖或分布外 (out-of-distribution)的外观和运动组合，模型可能难以生成高质量的结果。
多对象干扰运动： 当输入视频包含来自多个对象的干扰运动 (interfering motions)时，本方法可能会面临挑战，因为这会影响运动嵌入 (motion embedding)的质量。目前，模型学习的是整个视频的整体运动 (overall motion)，而不是特定实例的运动。
未来工作： 解决实例级运动 (instance-level motion)的隔离是未来改进的一个潜在方向。这意味着研究如何让模型能够识别并学习视频中特定对象的运动，而不是仅仅学习全局运动，从而实现更精细的运动控制。

7.3. 个人启发与批判

个人启发：
- 运动与外观解耦的有效性： 本文最主要的启发在于其成功地将视频的运动 (motion)和外观 (appearance)进行了有效解耦。通过设计两种专门的运动嵌入 (Motion Embeddings)并配合去偏策略 (debiasing strategies)，模型能够在保留源视频运动的同时，灵活地根据文本提示改变外观。这对于视频定制化任务来说是一个非常强大的能力。
- Attention 机制的精细化利用： 利用 Temporal Transformer 中 QKV 机制的不同部分（QK 影响注意力图 (attention map)， $V$ 影响注意力值 (attention values)）来分别捕捉全局运动 (global motion)和局部空间运动 (local spatial motion)，是一种非常精巧且有效的思想。这展示了对 Transformer 内部工作原理的深刻理解和创造性应用。
- 差分操作的巧妙性： 运动值嵌入上应用的差分操作 (differential operation)，类似于光流 (optical flow)的原理，通过捕捉帧间的变化来去除静态外观。这是一个非常简洁而高效的去偏 (debiasing)技巧，使其更专注于动态信息，值得在其他时序生成任务 (temporal generation tasks)中借鉴。
- 可插拔的模块化设计： 运动嵌入被设计为可插拔的模块，可以无缝集成到现有的 T2V 扩散模型中（如 ZeroScope），这大大提高了其实用性 (practicality)和可扩展性 (scalability)。
批判与改进方向：
- 实例级运动控制的缺失： 论文明确指出了多对象干扰运动 (interfering motions from multiple objects)的局限性。目前学习的是整体运动 (overall motion)。虽然论文将其列为未来工作，但这是运动定制 (motion customization)走向更高级应用（如复杂场景中多个角色的独立运动控制）的关键障碍。未来的工作可以考虑结合目标检测 (object detection)或实例分割 (instance segmentation)技术，为每个检测到的实例学习独立的运动嵌入。
- 运动提取的鲁棒性： 运动嵌入的质量直接取决于从参考视频中提取运动的准确性。如果参考视频本身质量不佳，或者运动非常复杂、模糊，那么学习到的嵌入可能也会受限。未来可以探索更鲁棒的运动提取 (motion extraction)方法，例如结合多模态信息（如音频或文本描述中的运动线索）。
- 计算成本和效率： 虽然论文提到其解决方案“紧凑高效”，但针对每个参考视频都需要学习一组运动嵌入。对于需要频繁定制新运动的场景，这仍然可能带来一定的计算开销 (computational overhead)。探索零样本 (zero-shot)或少样本 (few-shot)的运动学习方法，或者更高效的运动嵌入微调 (motion embedding fine-tuning)策略，将是重要的方向。
- 泛化能力限制： 对 T2V 模型先验的依赖是常见问题。当定制的需求（例如，一个现实世界中的物体做出幻想世界中的运动）超出了预训练 T2V 模型的能力范围时，效果可能会打折扣。研究如何通过自监督学习 (self-supervised learning)或领域适应 (domain adaptation)技术来增强 T2V 模型在分布外 (out-of-distribution)运动和外观组合上的泛化能力 (generalization ability)，将进一步提升此类定制方法的上限。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。