论文状态：已完成

MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models

发表：2024/12/02

视频扩散模型 (10)多模态大语言模型 (24)文本到视频生成 (6)自定义动作转移 (1)动作建模 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究提出了一种名为 MoTrans 的定制化动作迁移方法，通过基于多模态大语言模型的重描述器和外观注入模块，将特定人物动作从参考视频迁移到新视频中，从而提升复杂动作生成的效果，且实验结果显示其优于现有方法。

摘要

Existing pretrained text-to-video (T2V) models have demonstrated impressive abilities in generating realistic videos with basic motion or camera movement. However, these models exhibit significant limitations when generating intricate, human-centric motions. Current efforts primarily focus on fine-tuning models on a small set of videos containing a specific motion. They often fail to effectively decouple motion and the appearance in the limited reference videos, thereby weakening the modeling capability of motion patterns. To this end, we propose MoTrans, a customized motion transfer method enabling video generation of similar motion in new context. Specifically, we introduce a multimodal large language model (MLLM)-based recaptioner to expand the initial prompt to focus more on appearance and an appearance injection module to adapt appearance prior from video frames to the motion modeling process. These complementary multimodal representations from recaptioned prompt and video frames promote the modeling of appearance and facilitate the decoupling of appearance and motion. In addition, we devise a motion-specific embedding for further enhancing the modeling of the specific motion. Experimental results demonstrate that our method effectively learns specific motion pattern from singular or multiple reference videos, performing favorably against existing methods in customized video generation.

思维导图

论文精读

中文精读约 24 分钟读完 · 13,380 字

1. 论文基本信息

1.1. 标题

MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models

中文翻译：MoTrans：基于文本驱动视频扩散模型的定制化运动迁移

论文的核心主题是提出一个名为 MoTrans 的新方法，用于从一个或多个参考视频中学习特定的、复杂的、以人为中心的运动模式，并将其迁移到由文本描述的全新主体和场景中，从而生成定制化的视频。

1.2. 作者

作者列表: Xiaomin Li, Xu Jia, Qinghe Wang, Haiwen Diao, Mengmeng Ge, Pengxiang Li, You He, Huchuan Lu。
隶属机构: 作者主要来自大连理工大学（Dalian University of Technology）和清华大学（Tsinghua University）。这些机构在计算机视觉和人工智能领域享有盛誉，尤其是在视觉跟踪、图像/视频生成等方面有深厚的研究积累。

1.3. 发表期刊/会议

会议: ACM International Conference on Multimedia (MM '24)。
声誉与影响力: ACM MM 是多媒体领域的顶级国际会议，也是 CCF (中国计算机学会) 推荐的 A 类会议。能够在该会议上发表的论文通常代表了该领域的高质量和前沿研究成果。

1.4. 发表年份

2024年。论文中提及的会议日期为 2024 年 10 月，预印本在 arXiv 上的发布时间为 2024 年 12 月。

1.5. 摘要

现有的预训练文本到视频（Text-to-Video, T2V）模型在生成具有基本运动或相机移动的真实视频方面表现出色，但在生成复杂的、以人为中心的运动时存在显著局限。当前的方法主要通过在一小组包含特定运动的视频上进行微调，但这些方法常常无法有效解耦参考视频中有限的运动和外观信息，从而削弱了对运动模式的建模能力。

为了解决这个问题，本文提出了 MoTrans，一种定制化的运动迁移方法，能够在新的上下文中生成具有相似运动的视频。具体而言，MoTrans 引入了两个关键模块来促进外观与运动的解耦：

一个基于多模态大语言模型（MLLM）的重述器 (recaptioner)，用于扩展初始文本提示，使其更侧重于描述外观。
一个外观注入模块 (appearance injection module)，用于将视频帧中的外观先验信息适配到运动建模过程中。这两个模块提供的来自重述后提示（文本模态）和视频帧（视觉模态）的互补多模态表征，促进了对外观的建模，并有助于运动与外观的分离。

此外，本文还设计了一种运动特定嵌入 (motion-specific embedding)，以进一步增强对特定运动的建模。实验结果表明，该方法能有效地从单个或多个参考视频中学习特定的运动模式，在定制化视频生成方面优于现有方法。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2412.01343
PDF 链接: https://arxiv.org/pdf/2412.01343v1.pdf
发布状态: 预印本 (Preprint)，已被 MM '24 会议接收。

2. 整体概括

2.1. 研究背景与动机

核心问题: 尽管现有的文本到视频 (T2V) 模型（如 Sora, Pika）已经能生成高质量视频，但它们在精确控制和生成特定复杂运动（尤其是以人为中心的动作，如打高尔夫、滑板）方面能力有限。这些模型通常在庞大但分布不均的网络视频上训练，导致对某些不常见的复杂动作学习不足。
现有挑战 (Gap): 为了让模型学会特定动作，一种常见方法是在包含该动作的小规模视频集上进行微调 (fine-tuning)。然而，这种做法面临一个核心难题——外观与运动的耦合 (appearance-motion coupling)。模型在学习运动的同时，很容易“记住”参考视频中的外观特征（如人物、服装、背景），导致生成新视频时，无法将学到的运动应用到全新的主体和场景上，即所谓的外观过拟合 (appearance overfitting)。
创新切入点: 之前的方法（如 MotionDirector, DreamVideo）虽然也尝试解耦，但效果不佳。本文认为，解耦不充分的原因在于对外观信息的建模不足。因此，MoTrans 的创新思路是，在学习运动之前，先通过互补的多模态信息（更详细的文本描述和原始的视觉特征）来强化对外观的建模，从而在后续阶段迫使模型更专注于学习纯粹的运动模式。

2.2. 核心贡献/主要发现

提出 MoTrans 方法: 提出了一种新颖的定制化视频生成方法，能够从单个或少量参考视频中学习运动模式，并将其迁移到任意主体上。
创新的多模态解耦机制:
1. MLLM-based Recaptioner: 首次引入多模态大语言模型（MLLM）来自动生成对参考视频外观的详细文本描述。这比简单的文本提示更能约束模型的空间（外观）部分。
2. Appearance Prior Injector: 将参考视频帧的视觉特征直接注入到模型的运动学习模块之前，作为一种强先验，提醒模型“外观信息已知”，从而使其专注于学习时间动态。
提出运动特定嵌入 (Motion-Specific Embedding): 提出一种新颖的嵌入增强方法，通过识别文本提示中的动词，并利用一个小型网络（MLP）学习一个与视频内容相关的残差嵌入 (residual embedding)，来增强对特定运动的表征能力。
优越的实验性能: 实验证明，MoTrans 在单视频（one-shot）和多视频（few-shot）的运动定制任务上，均优于现有的最先进方法，能够生成动作保真度高且外观不过拟合的视频。

3. 预备知识与相关工作

3.1. 基础概念

扩散模型 (Diffusion Models): 这是一种强大的生成模型。其核心思想分为两个过程：
1. 前向过程 (Forward Process): 从一张清晰的图像（或视频帧）开始，逐步、多次地向其添加少量高斯噪声，直到图像完全变成纯粹的噪声。这个过程是固定的，不需要学习。
2. 反向过程 (Reverse Process): 这是模型学习的关键。模型（通常是一个 U-Net 架构的神经网络）需要学习如何从纯噪声开始，一步步地“去噪”，最终恢复出清晰的图像。在每一步去噪时，模型会预测所添加的噪声，并将其从当前图像中减去。通过引入条件（如文本描述），模型可以生成符合条件的特定图像。
文本到视频 (T2V) 生成: 这是将扩散模型从图像生成扩展到视频生成的任务。通常，T2V 模型在标准的文本到图像 (T2I) 模型架构（如 Stable Diffusion）的基础上，增加了时间模块 (temporal modules)。这些模块（如时间注意力层）被插入到原有的空间注意力层之间，用于捕捉视频帧与帧之间的时间关联和动态变化，即运动。
LoRA (Low-Rank Adaptation): 这是一种参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 技术。在微调大型预训练模型（如T2V模型）时，如果更新所有参数，成本极高且容易导致过拟合。LoRA 的做法是：冻结原始模型的大部分权重，在模型的关键层（如注意力层）旁边插入两个小型的、低秩 (low-rank) 的矩阵（A 和 B）。在训练时，只更新这两个小矩阵的参数。在推理时，将这两个矩阵的乘积 ( $A \cdot B$ ) 加到原始权重上。这样，仅用极少的参数（通常不到原始模型的 1%）就能实现对模型的有效适配。本文中的空间 LoRA 和时间 LoRA 就是指应用在空间模块和时间模块上的 LoRA。
多模态大语言模型 (Multimodal Large Language Models, MLLMs): 这类模型（如 LLaVA, GPT-4V）能够同时理解和处理多种类型的数据，最常见的是图像和文本。它们可以将图像内容与自然语言指令相结合，完成复杂的任务，如详细的图像描述、视觉问答等。本文利用 MLLM 的这一能力，让它“看”视频帧并生成详细的外观描述。

3.2. 前人工作

基础 T2V 模型:
- ModelScopeT2V 和 ZeroScope: 开源的 T2V 扩散模型，是许多后续研究（包括本文）的基础。它们在 T2I 模型上添加了时空模块来建模运动。
- Sora, Pika, Gen-2: 强大的商业或闭源模型，展示了极高的视频生成质量，但用户对其运动的控制能力有限。
定制化视频生成:
- 基于额外控制信号的方法: 如 MagicDance，它们使用姿态估计（如 OpenPose）提取的骨骼图或密集姿态图作为额外的控制条件来指导视频生成。这类方法控制精度高，但需要额外的姿态提取步骤，且难以将人的动作迁移到非人主体（如动物）上。
- 基于微调的方法:
  - DreamBooth: 经典的 T2I 个性化方法，通过微调模型来学习特定的主体（如一只特定的狗）。
  - MotionDirector: 采用双路径框架，分别学习外观和运动。在学习运动时，冻结为外观学习训练的空间层，以抑制时间层学习外观。这是本文的一个重要基线。
  - DreamVideo: 提出身份和运动适配器来分别学习外观和运动。为了解耦，它将外观信息注入到运动适配器中，迫使时间层学习运动。
  - Tune-A-Video: 将 T2I 模型通过单视频微调扩展到视频编辑和生成，但容易出现外观过拟合和时间不一致问题。

3.3. 技术演进

视频生成技术的发展脉络可以看作是从无条件生成到有条件生成，再到精细化定制的过程。

早期 (GANs): 基于生成对抗网络 (GANs) 的视频生成，质量和一致性有限。
崛起 (Diffusion Models): 扩散模型的出现极大提升了生成质量，催生了如 Imagen Video、Make-A-Video 等高质量 T2V 模型。
开源与普及: ModelScopeT2V 和 ZeroScope 等开源模型的出现，使社区能够在此基础上进行扩展研究。
定制化时代: 当前的研究热点转向定制化，即如何让用户生成特定主体 (DreamBooth) 或特定运动（MotionDirector, DreamVideo, 以及本文的 MoTrans）的视频。技术挑战也从“生成逼真视频”转变为“如何精确控制生成内容并实现解耦”。

3.4. 差异化分析

相较于 MotionDirector 和 DreamVideo 等直接竞争者，MoTrans 的核心差异和创新点在于其更彻底、更主动的解耦策略：

解耦信息的来源不同:
- MotionDirector 和 DreamVideo 主要在模型内部通过结构设计（如冻结层、信息注入）来实现解耦。
- MoTrans 则是从外部输入入手，引入了两种互补的多模态信息来强化外观建模：
  1. 文本模态: 利用 MLLM 生成的详细外观描述，从语言层面约束模型关注外观。
  2. 视觉模态: 直接注入参考帧的视觉特征，从视觉层面提供外观先验。这种“双管齐下”的方式比单一策略的解耦更鲁棒。
对运动的建模方式不同:
- 其他方法通常让时间模块“自然地”学习运动。
- MoTrans 提出了 motion-specific embedding，显式地增强了与运动最相关的文本部分（动词）的表示能力，使其能更精准地捕捉参考视频中特定的运动细节，而不仅仅是学习一个泛化的动作类别。
  
  下图（原文 Figure 1）直观展示了 MoTrans 的目标：从左侧的参考视频中学习“打高尔夫”、“鞠躬”、“举重”和“骑车”等动作，并将这些动作无缝地迁移到猴子、熊猫、老虎和熊等新主体上。
  
  该图像是示意图，展示了不同参考视频生成动物动作的过程。左侧为参考视频，右侧为根据视频生成的具体动作描述，展示了猴子打高尔夫、熊猫鞠躬、老虎举重和熊骑自行车的场景。

4. 方法论

4.1. 方法原理

MoTrans 的核心思想是采用一个两阶段训练策略来分离外观和运动的学习。

外观学习阶段: 专注于让模型的空间模块（Spatial Modules）学会参考视频中的外观特征。为了实现这一点，它使用 MLLM 生成的详细外观描述作为文本条件，并只训练与空间信息相关的 LoRA 权重。
运动学习阶段: 冻结已经学会外观的空间模块，专注于让时间模块（Temporal Modules）学习运动模式。为了防止时间模块“偷学”外观信息，它主动注入了来自视频帧的视觉外观先验，并设计了一个运动增强模块来更好地捕捉动作细节。

下图（原文 Figure 2）展示了 MoTrans 整体的训练流程，清晰地划分了外观学习和运动学习两个阶段。

该图像是插图，展示了 MoTrans 中的外观学习（Appearance Learning）与运动学习（Motion Learning）两个部分的框架。外观学习部分涉及随机帧和 MLLM 基于的重captioner，而运动学习部分包括图像编码器和 T2V 模型，两个部分通过共享权重和相应的损失函数进行优化。

4.2. 核心方法详解 (逐层深入)

4.2.1. 整体架构

模型基于一个标准的 T2V 扩散模型（如 ZeroScope），其 U-Net 结构中交错包含空间 Transformer（处理单帧内的空间信息）和时间 Transformer（处理跨帧间的时间信息）。MoTrans 通过对这些模块注入 LoRA 并分阶段训练来实现定制化。

4.2.2. 第一阶段：外观学习 (Appearance Learning)

此阶段的目标是训练空间 LoRA，使其充分学习参考视频的外观。

步骤 1: 基于 MLLM 的重述器 (MLLM-based Recaptioner)

为了让模型更好地学习外观，需要提供比“一个男人在打高尔夫”更详细的文本描述。MoTrans 利用 MLLM 自动完成这一任务。

输入: 从参考视频 $\mathcal{V} = \{f^i | i=1, ..., l\}$ 中随机抽取一帧 $f^i$ ，以及一个基础的文本提示 $\mathbf{c}_b$ (例如, "a man is playing golf")。
过程: 将图像 $f^i$ 和一个精心设计的任务指令（例如，“请根据这张图片，详细描述图中的主体、服装、环境等外观信息，并扩写以下基础提示：...”）一同输入给一个 MLLM（如 LLaVA）。
输出: MLLM 生成一个重述后的提示 (recaptioned prompt) $\mathbf{c}_r$ ，其中包含了丰富的外观细节 (例如, "a man in a white polo shirt and blue pants is playing golf on a green lawn under a clear sky")。

下图（原文 Figure 3）生动地展示了这一过程。

步骤 2: 训练空间 LoRA
训练对象: 只训练空间 Transformer 中的自注意力层和前馈网络层中注入的 LoRA 模块（如图 4a 左侧所示）。模型的其他部分（包括时间模块和交叉注意力层）被冻结，以保留预训练模型强大的文本-图像对齐能力。
训练过程: 喂给模型的是单帧的噪声潜变量 $\mathbf{z_t^i}$ 和重述后提示 $\mathbf{c}_r$ 的文本嵌入。模型的目标是预测所添加的噪声 $\epsilon$ 。
损失函数: 训练的损失函数 $\mathcal{L}_s$ 是标准的扩散模型均方误差损失： $\mathcal{L}_s = \mathbb{E}_{\mathbf{z_0^i}, \mathbf{c}_r, \epsilon \sim N(0, I), t} [ || \epsilon - \epsilon_{\theta}(\mathbf{z_t^i}, \tau_{\theta}(\mathbf{c}_r), t) ||_2^2 ]$
- $\mathbf{z_0^i}$ : VQ-VAE 编码器压缩后的第 $i$ 帧的潜变量 (latent representation)。
- $\mathbf{c}_r$ : 重述后的详细文本提示。
- $t$ : 随机采样的时间步。
- $\epsilon$ : 在时间步 $t$ 添加的高斯噪声。
- $\epsilon_\theta(\cdot)$ : 带有可训练 LoRA 的 U-Net 降噪网络。
- $\tau_\theta(\cdot)$ : 预训练的文本编码器（如 OpenCLIP）。

4.2.3. 第二阶段：运动学习 (Motion Learning)

此阶段的目标是训练时间 LoRA 和运动增强模块，使其捕捉特定的运动模式，同时避免学习外观。在这一阶段，第一阶段训练好的空间 LoRA 被冻结并共享权重。

步骤 1: 外观注入器 (Appearance Injector)

为了进一步强制时间模块关注运动，MoTrans 在其输入端主动“告知”它外观信息。

过程:
1. 使用一个图像编码器 $\psi$ （如 OpenCLIP 的图像部分）提取视频中某一帧 $f^i$ 的图像嵌入 $\psi(\mathbf{f}^i)$ 。
2. 在 U-Net 的每个块中，当空间 Transformer 处理完得到隐藏状态 $h_s^l$ 后，将上述图像嵌入通过一个线性投影层 $W_{\mathcal{P}}$ 变换维度，然后与 $h_s^l$ 相加。
3. 将相加后的结果 $h_t^l$ 送入时间 Transformer。
  
  下图（原文 Figure 4b）展示了这一注入过程，外观信息在进入时间 Transformer 之前被融合。注意，原文公式中使用了 $\odot$ 符号，但其文本描述和图示都表明是加法操作。
  
  该图像是示意图，展示了 MoTrans 方法中的可训练空间和时间 LoRA 模块及外观注入器的架构。图 (a) 说明了自注意力和交叉注意力的结构设计，左侧为空间 LoRA，右侧为时间 LoRA；图 (b) 则展示了外观注入器的卷积层、空间和时间变换器的关系。整体设计旨在提升视频生成中的运动模式学习能力。
数学表示: $h_t^l = h_s^l + (W_{\mathcal{P}} \cdot \psi(\mathbf{f}^i))$ （注：此处根据图示和文本将 $\odot$ 解释为加法）
- $h_s^l$ : U-Net 第 $l$ 块中空间 Transformer 的输出。
- $\psi(\mathbf{f}^i)$ : 随机选择的参考帧 $f^i$ 的图像嵌入。
- $W_{\mathcal{P}}$ : 一个可训练的线性层，用于匹配维度。
- $h_t^l$ : 注入外观先验后，送入时间 Transformer 的输入。

步骤 2: 运动增强器 (Motion Enhancer)

该模块旨在增强对特定运动的表征。

直觉: 视频中的运动主要由文本提示中的动词驱动。
过程:
1. 定位动词: 使用 Spacy 等工具对基础提示 $\mathbf{c}_b$ 进行词性标注，找到动词 $s_i$ 的位置。
2. 提取基础嵌入: 获取动词 $s_i$ 的原始文本嵌入 E_b = \tau_\theta(s_i)。
3. 提取视频表征: 将参考视频 $\mathcal{V}$ 的所有帧通过图像编码器 $\psi$ 得到帧嵌入，然后进行平均池化，得到一个统一的视频嵌入 $MeanPool(\psi(\mathcal{V}))$ 。
4. 计算残差嵌入: 将视频嵌入和动词的基础嵌入拼接 (concatenate) 起来，然后送入一个小型多层感知机 (MLP) 中，计算出一个残差嵌入 (residual embedding) $E_r$ 。 $E_r = W_2 \cdot (\sigma_{GELU}(W_1 \cdot ([MeanPool(\psi(\mathcal{V})), \tau_{\theta}(\mathbf{s_i})])))$
- $[ \cdot ]$ : 拼接操作。
- $W_1, W_2$ : MLP 中的两个线性层。
- $\sigma_{GELU}$ : GELU 激活函数。
1. 增强运动嵌入: 将残差嵌入 $E_r$ 加到基础嵌入 $E_b$ 上，得到最终的条件嵌入 $E_{cond}$ 。 $E_{cond} = E_b + E_r$ 这个增强后的嵌入将替换掉提示中原始动词的嵌入，作为新的条件送入模型。

步骤 3: 训练时间 LoRA

训练对象: 时间 Transformer 中的 LoRA 模块、外观注入器的线性层 $W_{\mathcal{P}}$ ，以及运动增强器的 MLP。
训练过程: 喂给模型的是整个视频片段的噪声潜变量 $\mathbf{z_t^{1:N}}$ 和经过运动增强修改后的文本条件。
损失函数: 最终的损失函数 $\mathcal{L}_{motion}$ $L_{m o t i o n}$ 由两部分组成：
1. 时间损失 $\mathcal{L}_t$ : 与 $\mathcal{L}_s$ 形式相同，但作用于整个视频片段。 $\mathcal{L}_t = \mathbb{E}_{\mathbf{z}_0^{1:N}, \mathbf{c}_b, \epsilon \sim \mathcal{N}(0, I), t} [ || \epsilon - \epsilon_{\theta}(\mathbf{z_t^{1:N}}, \tau_{\theta}(\mathbf{c}_b), t) ||_2^2 ]$
2. 正则化损失 $\mathcal{L}_{reg}$ : 对残差嵌入 $E_r$ 进行 L2 正则化，防止其过大，保持稳定性。 $\mathcal{L}_{reg} = ||E_r||_2^2$ 最终总损失: $\mathcal{L}_{motion} = \mathcal{L}_t + \lambda \mathcal{L}_{reg}$
- $\lambda$ : 控制正则化项权重的超参数。

4.2.4. 推理阶段 (Inference)

在推理时，加载预训练的 T2V 模型，并集成训练好的时间 LoRA和运动增强器。用户提供一个新的文本提示（例如，“一只熊猫在打高尔夫”），模型将使用学到的“打高尔夫”运动模式和增强器，生成熊猫打高尔夫的视频。

5. 实验设置

5.1. 数据集

来源: 实验使用的数据集是作者自行收集和整理的，来源包括互联网、UCF101、UCF Sports Action 和 NTU RGB+D 120。
规模与特点: 数据集包含 12 种不同的运动模式，每种模式由大约 4-10 个训练视频组成。作者特意挑选了运动幅度较大、更具挑战性的动作，如举重 (weightlifting)、打高尔夫 (golf swing)、挥手 (waving hands) 等，以更好地检验模型的性能。
样本示例: 为了进行评估，论文使用了包含动态元素的提示模板，例如：

"A {cat} is {motion} {in the living room}" 其中 {cat}、{motion} 和 {in the living room} 是占位符，可以被替换为不同的主体、动作和场景。

5.2. 评估指标

论文使用了四个指标来全面评估模型性能。

CLIP Textual Alignment (CLIP-T)
1. 概念定义: 该指标用于衡量生成的视频内容与输入的文本提示在语义上的一致性。分数越高，表示视频内容越符合文本描述。
2. 数学公式: $\text{CLIP-T} = \frac{1}{N} \sum_{i=1}^{N} \text{cos}(\text{Enc}_V(V_i), \text{Enc}_T(T_i))$
3. 符号解释:
  - $N$ : 生成视频的总数。
  - $V_i$ : 第 $i$ 个生成的视频。
  - $T_i$ : 对应的第 $i$ 个文本提示。
  - $\text{Enc}_V(\cdot)$ : CLIP 模型的视频编码器，用于提取视频的全局特征。
  - $\text{Enc}_T(\cdot)$ : CLIP 模型的文本编码器，用于提取文本的特征。
  - $\text{cos}(\cdot, \cdot)$ : 余弦相似度函数。
Temporal Consistency (TempCons)
1. 概念定义: 该指标用于衡量视频帧之间的连续性和平滑度。分数越高，表示视频的闪烁、抖动越少，内容变化越自然。
2. 数学公式: $\text{TempCons} = \frac{1}{N} \sum_{i=1}^{N} \frac{1}{F-1} \sum_{j=1}^{F-1} \text{cos}(\text{Enc}_I(f_{i,j}), \text{Enc}_I(f_{i,j+1}))$
3. 符号解释:
  - $F$ : 视频的总帧数。
  - $f_{i,j}$ : 第 $i$ 个视频的第 $j$ 帧。
  - $\text{Enc}_I(\cdot)$ : CLIP 模型的图像编码器，用于提取单帧图像的特征。
CLIP Entity Alignment (CLIP-E)
1. 概念定义: 这是本文引入的一个指标，专门用于评估生成视频的主体是否与新提示中指定的主体一致，从而量化外观过拟合的程度。与 CLIP-T 不同，这里的提示只包含实体词（如“a panda”），去除了动作和场景描述。分数越高，表示模型成功生成了新主体，而不是照搬参考视频中的主体。
2. 数学公式: $\text{CLIP-E} = \frac{1}{N} \sum_{i=1}^{N} \text{cos}(\text{Enc}_V(V_i), \text{Enc}_T(T_{i, \text{entity}}))$
3. 符号解释:
  - $T_{i, \text{entity}}$ : 只包含主体名词的文本提示（例如 "a panda"）。
Motion Fidelity (MoFid)
1. 概念定义: 这是本文提出的另一个新指标，用于量化生成的视频中的运动模式与参考视频中的运动模式的相似度。它利用一个预训练的视频理解模型 VideoMAE 来提取视频的运动表征并计算相似性。分数越高，表示生成的运动越接近参考运动。
2. 数学公式: $\mathcal{E}_m = \frac{1}{|\mathcal{M}||\bar{v}_m|} \sum_{m \in \mathcal{M}} \sum_{k=1}^{|\bar{v}_m|} \text{cos}(f(v_m^i), f(\bar{v}_k))$
3. 符号解释:
  - $\mathcal{M}$ : 所有运动类型的集合。
  - $\bar{v}_m$ : 针对运动 $m$ 生成的视频集合。
  - $v_m^i$ : 从运动 $m$ 的训练视频中随机选择的一个参考视频。
  - $\bar{v}_k$ : 第 $k$ 个生成的视频。
  - $f(\cdot)$ : 预训练的 VideoMAE 模型，作为视频特征提取器。

5.3. 对比基线

论文将 MoTrans 与多个有代表性的方法进行了比较：

仅推理模型:
- ZeroScope: 作为本文的基座模型，不经过任何微调直接生成。
- VideoCrafter2: 另一个强大的开源 T2V 模型。
微调模型:
- ZeroScope (fine-tune): 直接在参考视频上微调 ZeroScope 的时间 LoRA，作为最直接的对比。
单视频定制化 (One-shot) 方法:
- Tune-a-Video: 专为单视频设计的定制化方法。
少视频定制化 (Few-shot) 方法:
- LAMP: 一种基于少样本的运动模式学习方法。
主要基线:
- MotionDirector: 一个强大的运动定制化方法，也是本文的核心竞争对手。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定性评估 (Qualitative Evaluation)

下图（原文 Figure 5）直观地展示了不同方法的生成效果。

该图像是图表，展示了在不同方法下，基于参考视频生成的运动视频。左侧示例中包含从不同参考视频生成的“喝水”的动画，右侧则展示了“滑板”的动画。该图表比较了多种模型，包括ZeroScope、VideoCrafter、Tune-A-Video等，重点突出MoTrans在定制视频生成方面的表现。

基础 T2V 模型 (ZeroScope, VideoCrafter2): 无法生成指定的复杂动作（如“喝水”、“滑板”），生成的动作幅度很小或完全错误。这证明了无针对性训练的模型不具备定制化运动的能力。
简单微调 (ZeroScope (fine-tune)): 出现了明显的外观过拟合。例如，在学习“滑板”动作时，它不仅学了动作，还学了参考视频中人物的衣着和滑板样式，无法将动作迁移给新主体（如熊猫）。
其他定制化方法:
- Tune-A-Video: 基于 T2I 模型，导致视频帧间平滑度差，过拟合严重。
- MotionDirector: 虽然优于简单微调，但仍存在外观过拟合问题（例如，生成的熊猫穿着人类的衣服在滑板），且动作幅度减弱，与参考视频有偏差。
MoTrans (本文方法): 在单视频和多视频设置下，均能准确捕捉参考视频的运动模式，并成功将其应用到全新的主体上，且没有出现明显的外观过拟合。生成的视频动作保真度高，主体和场景也符合新提示的要求。

6.1.2. 定量评估 (Quantitative Evaluation)

以下是原文 Table 1 的结果，展示了各方法在四个指标上的量化得分。

		CLIP-T (↑)	CLIP-E (↑)	TempCons (↑)	MoFid (↑)
Inference	ZeroScope [5]	0.2017	0.2116	0.9785	0.4419
Inference	VideoCrafter [7]	0.2090	0.2228	0.9691	0.4497
One-shot	Tune-a-video [46]	0.1911	0.2031	0.9401	0.5627
	ZeroScope (fine-tune)	0.2088	0.2092	0.9878	0.6011
	MotionDirector [55]	0.2178	0.2130	0.9889	0.5423
	MoTrans (ours)	0.2192	0.2173	0.9872	0.5679
Few-shot	LAMP [47]	0.1773	0.1934	0.9587	0.4522
	ZeroScope (fine-tune)	0.2191	0.2132	0.9789	0.5409
	MotionDirector	0.2079	0.2137	0.9801	0.5417
	MoTrans (ours)	0.2275	0.2192	0.9895	0.5695

关键发现: Tune-a-Video 和 ZeroScope (fine-tune) 的 MoFid 分数较高，但 CLIP-E 分数较低。这定量地证实了外观过拟合：它们生成的视频在动作和外观上都与参考视频高度相似，因此 MoFid 高，但由于未能生成新主体，CLIP-E 很低。
MoTrans 的优势: 无论是在单视频（one-shot）还是多视频（few-shot）设置下，MoTrans 都在 CLIP-T（文本对齐）、CLIP-E（主体对齐）和 MoFid（运动保真度）之间取得了最佳的平衡。特别是在多视频设置下，MoTrans 在所有指标上都达到了最优，证明其能有效学习通用运动模式，同时避免外观过拟合。

6.1.3. 用户研究 (User Study)

下图（原文 Figure 6）展示了用户研究的结果。参与者被要求从文本对齐、视频平滑度和运动相似度（无外观过拟合）三个维度评选最佳视频。

Figure 6: User study. For each metric, the percentages attributed to all methods sum to 1. MoTrans accounts for the largest proportion, indicating that the videos generated by our method exhibit superior text alignment, temporal consistency, and the closest resemblance to the reference video. 该图像是一个柱状图，展示了MoTrans与其他模型在文本对齐、时间一致性和运动保真度上的评估结果。MoTrans在这三个维度上均表现优异，特别是在文本对齐上达到0.65的得分，在时间一致性和运动保真度上得分分别为0.57和0.63。

结果显示，MoTrans 在所有三个方面都获得了最高比例的投票，表明其生成结果最符合人类的主观偏好。

6.2. 消融实验/参数分析

为了验证 MoTrans 中每个关键模块的有效性，作者进行了消融实验。

以下是原文 Table 2 的结果：

		CLIP-T (↑)	CLIP-E (↑)	TempCons (↑)	MoFid (↑)
One-shot	w/o MLLM-based recaptioner	0.2138	0.2101	0.9865	0.6129
	w/o appearance injector	0.2114	0.2034	0.9862	0.6150
	w/o motion enhancer	0.2164	0.2135	0.9871	0.5643
	MoTrans	0.2192	0.2173	0.9872	0.5679
Few-shot	w/o MLLM-based recaptioner	0.2179	0.2138	0.9792	0.5997
	w/o appearance injector	0.2143	0.2132	0.9807	0.6030
	w/o motion enhancer	0.2211	0.2171	0.9801	0.5541
	MoTrans	0.2275	0.2192	0.9895	0.5695

下图（原文 Figure 7）提供了定性结果。

Figure 7: Qualitative results of the ablation study. Given several reference videos, Motrans can learn motion patterns from reference videos without appearance overfitting. 该图像是示意图，展示了 MoTrans 方法在不同条件下生成视频的效果。第一行是参考视频，下面分别为缺乏 MLLM 基础重述器、外观注入器与动作增强器的生成结果，最后一行展示了 MoTrans 方法的生成结果。该图展示了低质量到高质量过渡的对比。

w/o MLLM-based recaptioner (移除 MLLM 重述器): CLIP-E 下降，而 MoFid 显著升高。这表明模型出现了更严重的外观过拟合。没有详细的外观文本描述，空间模块无法充分学习外观，导致外观信息泄露到运动学习阶段。
w/o appearance injector (移除外观注入器): 结果类似，CLIP-E 同样下降，MoFid 升高，证明了视觉外观先验对于解耦的重要性。
w/o motion enhancer (移除运动增强器): MoFid 显著下降。这表明没有对动词进行针对性增强，模型难以学习到参考视频中特定、细微的运动模式，只能生成一个比较泛化的动作。
结论: 三个核心模块——MLLM 重述器、外观注入器和运动增强器——都对最终的优异性能至关重要，缺一不可。它们共同构成了 MoTrans 强大的运动解耦和迁移能力。

7. 总结与思考

7.1. 结论总结

本文提出了 MoTrans，一种用于文本驱动视频扩散模型的定制化运动迁移方法。它成功地解决了现有方法在学习特定运动时普遍存在的外观-运动耦合问题。其核心贡献在于：

创新的多模态解耦策略: 通过引入 MLLM 重述器（文本模态）和外观注入器（视觉模态），从输入层面就为模型提供了丰富的、互补的外观先验，从而在训练过程中有效分离了外观和运动的学习。
精准的运动建模: 设计了运动特定嵌入来增强文本提示中动词的表征，使得模型能够更精确地捕捉和复现参考视频中的特定运动细节。
卓越的性能: 实验结果表明，MoTrans 无论是在单视频还是多视频的定制任务中，都显著优于现有方法，能够生成动作保真度高、主体切换自然且无外观过拟合的高质量视频。

7.2. 局限性与未来工作

论文作者也坦诚地指出了当前方法的局限性：

拓扑结构限制: 当前方法主要适用于将类人运动迁移到具有相似肢体结构（如四肢）的对象上。对于没有四肢的物体（如鱼）执行“跑步”等动作，效果不佳。
视频长度限制: 该方法目前主要针对 2-3 秒的短视频进行优化，生成更长序列的视频仍面临挑战。
未来方向: 作者计划在未来解决这些局限性，并将该方法扩展到更复杂和实用的场景中。

7.3. 个人启发与批判

启发:
1. 解耦的新思路: MoTrans 提供了一个非常巧妙的解耦思路——与其在模型内部“堵截”信息流动，不如在模型外部通过提供更完备的条件信息来主动引导。利用 MLLM 作为“智能数据标注员”来丰富文本条件，是一种非常现代且强大的范式，可以推广到其他需要精细控制的生成任务中。
2. 多模态融合的力量: 文本和视觉两种模态的信息在解耦任务中起到了互补作用，再次证明了多模态学习在解决复杂问题上的巨大潜力。
3. 抓住问题本质: 识别出“运动主要由动词驱动”这一直觉，并设计出 motion-specific embedding，这种抓住问题本质并进行针对性设计的方法值得学习。
批判性思考:
1. 对外部工具的依赖: 该方法依赖 Spacy 进行词性标注来定位动词。这种方式在面对复杂句式、无明确动词的提示或一词多义时可能会变得脆弱。如果提示是“暴风雨中的一艘船”，动词是什么？方法的鲁棒性有待进一步检验。
2. 评估指标的局限性: 尽管作者提出了 MoFid 指标，但它本身依赖于另一个预训练模型 VideoMAE 的能力。这意味着 MoFid 的评估结果受限于 VideoMAE 对动作的理解范围和准确性，可能存在偏差。
3. 训练成本: MoTrans 需要为每一种新动作进行两阶段的训练，虽然比训练整个模型要高效，但与那些仅需一次训练或无需训练的通用控制方法相比，在应用便捷性上仍有差距。
4. 方法细节的一致性: 论文中对 appearance injector 的描述存在不一致（文本描述为“相加”，公式符号为 ⊙，图中为 +），虽然不影响对核心思想的理解，但反映出在严谨性上仍有提升空间。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。