论文状态:已完成

Training-Free Motion Customization for Distilled Video Generators with Adaptive Test-Time Distillation

发表:2025/06/24
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了MotionEcho,一种用于蒸馏视频生成器的无需训练的自适应测试时蒸馏框架,解决了参考视频引导下的运动定制挑战。该方法利用高质量教师模型指导快速学生模型的推理,通过动态分配计算资源来优化运动保真度和生成质量,同时保持高效性。

摘要

Distilled video generation models offer fast and efficient synthesis but struggle with motion customization when guided by reference videos, especially under training-free settings. Existing training-free methods, originally designed for standard diffusion models, fail to generalize due to the accelerated generative process and large denoising steps in distilled models. To address this, we propose MotionEcho, a novel training-free test-time distillation framework that enables motion customization by leveraging diffusion teacher forcing. Our approach uses high-quality, slow teacher models to guide the inference of fast student models through endpoint prediction and interpolation. To maintain efficiency, we dynamically allocate computation across timesteps according to guidance needs. Extensive experiments across various distilled video generation models and benchmark datasets demonstrate that our method significantly improves motion fidelity and generation quality while preserving high efficiency. Project page: https://euminds.github.io/motionecho/

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Training-Free Motion Customization for Distilled Video Generators with Adaptive Test-Time Distillation (无需训练的蒸馏视频生成器运动定制与自适应测试时蒸馏)

1.2. 作者

lintao Rong, Xin Xie, Xinyi Yu, Linlin Ou, Xinyu Zhang, Chunhua Shen, Dong Gong

  • lintao Rong:浙江工业大学 (Zhejiang University of Technology), UNSW Sydney
  • Xin Xie:UNSW Sydney
  • Xinyi Yu:浙江工业大学 (Zhejiang University of Technology)
  • Linlin Ou:浙江工业大学 (Zhejiang University of Technology)
  • Xinyu Zhang:阿德莱德大学 (University of Adelaide)
  • Chunhua Shen:浙江大学 (Zhejiang University)
  • Dong Gong:UNSW Sydney

1.3. 发表期刊/会议

预印本 (arXiv preprint)

1.4. 发表年份

2025年 (Published at: 2025-06-24T06:20:15.000Z)

1.5. 摘要

蒸馏 (distilled) 视频生成模型在快速高效合成方面表现出色,但在参考视频引导下的运动定制 (motion customization) 方面,尤其是在无需训练 (training-free) 的设置下,仍面临挑战。现有的无需训练方法最初是为标准扩散模型 (standard diffusion models) 设计的,由于蒸馏模型加速的生成过程和大的去噪 (denoising) 步长,它们难以泛化 (generalize)。为解决这一问题,本文提出了 MotionEcho,一种新颖的无需训练测试时蒸馏 (test-time distillation) 框架,通过利用扩散教师强制 (diffusion teacher forcing) 实现运动定制。该方法使用高质量、慢速的教师模型 (teacher models) 通过端点预测 (endpoint prediction) 和插值 (interpolation) 来指导快速学生模型 (student models) 的推理。为了保持效率,我们根据引导需求动态分配跨时间步 (timesteps) 的计算资源。在各种蒸馏视频生成模型和基准数据集上的大量实验表明,我们的方法显著提高了运动保真度 (motion fidelity) 和生成质量,同时保持了高效率。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

核心问题: 文本到视频 (Text-to-Video, T2V) 扩散模型在生成高质量视频方面取得了显著进展,但用户往往难以仅通过文本提示来精确控制视频中的运动模式。运动定制 (motion customization) 应运而生,旨在使生成视频模仿参考视频的运动模式。 现有研究挑战:

  1. 传统方法效率低下:
    • 训练基方法 (Training-based methods):通过微调 (fine-tuning) 或 LoRA (Low-Rank Adaptation) 将运动信息直接嵌入模型,但需要大量的训练时间和计算资源,且灵活性差,难以推广到不同模型。
    • 无需训练方法 (Training-free methods):在推理时通过优化和正则化引导注入运动模式,避免了模型训练,但通常涉及额外的推理过程,导致计算开销增加。
  2. 蒸馏模型 (Distilled models) 的局限性: 为了加速推理,研究者们提出了通过知识蒸馏 (knowledge distillation) 获得高效的视频一致性模型 (Video Consistency Models, VCM),可以在少量推理步数内生成高质量视频。然而,当直接将现有的无需训练运动定制方法应用于这些快速蒸馏 T2V 模型时,出现了显著问题,如时间不一致性 (temporal inconsistency)、运动伪影 (motion artifacts) 和运动误解 (misinterpreted motion)。
  3. 蒸馏模型与现有方法的矛盾:
    • 粗糙的去噪步长: 蒸馏模型将多个去噪步长合并为一个,导致渐进式干预效果不佳。

    • 去噪行为不匹配: 蒸馏模型的去噪行为与教师模型(通常在密集时间步长下训练)显著不同,使得原始的运动引导策略不兼容。

    • 缺乏噪声控制: 一致性模型 (consistency models) 绕过了显式噪声控制,且蒸馏过程中未纳入无需训练的运动定制操作,限制了基于反演 (inversion-based) 技术的效果。

      本文的切入点和创新思路: 针对上述挑战,本文提出了 MotionEcho 框架,旨在实现在快速蒸馏视频生成器上进行快速且时间一致的运动定制。其核心在于利用一个高质量的慢速教师模型,通过自适应的测试时蒸馏 (test-time distillation) 策略,为快速学生模型提供精细的运动引导,从而在保持效率的同时,克服蒸馏模型在运动定制方面的固有缺陷。

2.2. 核心贡献/主要发现

  • 揭示并解决现有局限性: 揭示了直接将现有无需训练运动定制方法应用于快速蒸馏 T2V 模型时的局限性,并提出了 MotionEcho,一个新颖的无需训练框架,通过推理时的教师引导蒸馏实现测试时运动定制。
  • 提出自适应加速策略: 提出了一种自适应加速策略,动态调度教师引导,并调整每个去噪步的优化预算,有效地平衡了运动质量和推理效率。
  • 广泛验证和卓越性能: 在各种预训练的蒸馏视频扩散模型(如 T2V-Turbo-V2、AnimateDiff-Lightning)上验证了 MotionEcho。实验表明,该方法在多个指标上始终优于最先进的训练基和无需训练的运动定制方法,展示了卓越的效率和有效性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 扩散模型 (Diffusion Models)

扩散模型 (Diffusion Models) 是一类生成模型,它通过模拟一个逐渐向数据添加噪声的扩散过程,然后学习一个逆向的去噪过程来生成新的数据样本。

  • 前向扩散过程 (Forward Diffusion Process): 将数据(如图像、视频)逐渐转化为随机噪声。这一过程是马尔可夫链 (Markov chain),每一步都会向数据中添加少量高斯噪声。 q(ztzt1)=N(zt;1βtzt1,βtI) q(z_t|z_{t-1}) = \mathcal{N}(z_t; \sqrt{1-\beta_t}z_{t-1}, \beta_t \mathbf{I}) 其中 zt1z_{t-1} 是前一步的数据,βt\beta_t 是在 tt 时刻添加噪声的强度。经过 TT 步后,原始数据 z0z_0 最终会变成纯噪声 zTN(0,I)z_T \sim \mathcal{N}(0, \mathbf{I})。 这一过程的优点在于,任意时间步 tt 的噪声数据 ztz_t 可以直接从原始数据 z0z_0 得到: zt=αˉtz0+1αˉtϵ z_t = \sqrt{\bar{\alpha}_t}z_0 + \sqrt{1-\bar{\alpha}_t}\epsilon 其中 ϵN(0,I)\epsilon \sim \mathcal{N}(0, \mathbf{I}) 是标准高斯噪声,\bar{\alpha}_t = \prod_{s=1}^t \alpha_s = \prod_{s=1}^t (1-\beta_s) 是一个与时间步相关的超参数。
  • 逆向去噪过程 (Reverse Denoising Process): 模型学习从噪声数据中逐步去除噪声,恢复原始数据。这通常通过训练一个神经网络 ϵθ\epsilon_\theta 来预测在 ztz_t 中添加的噪声 ϵt\epsilon_tminθEE(x),ϵtN(0,I),tU(1,T)[ϵtϵθ(zt,c,t)22] \underset { \theta } { \mathop { \operatorname* { m i n } } } \mathbb { E } _ { \mathcal { E } ( x ) , \epsilon _ { t } \sim \mathcal { N } ( 0 , \mathbf { I } ) , t \sim \mathcal { U } ( 1 , T ) } \left[ \left| \left| \epsilon _ { t } - \epsilon _ { \theta } ( z _ { t } , c , t ) \right| \right| _ { 2 } ^ { 2 } \right] 其中 xx 是输入视频,E\mathcal{E} 是预训练编码器 (pre-trained encoder) 将其映射到隐空间 (latent space) 得到 z0z_0cc 是条件(如文本提示),ϵθ\epsilon_\theta 是一个神经网络,负责预测在给定 zt,c,tz_t, c, t 的情况下,前向扩散过程中添加的噪声。通过学习预测噪声,模型可以计算出更清晰的图像。
  • 采样 (Sampling): 从纯噪声 zTz_T 开始,通过神经网络 ϵθ\epsilon_\theta 逐步去噪,最终得到生成的视频 z0z_0

3.1.2. 文本到视频 (Text-to-Video, T2V)

文本到视频 (Text-to-Video, T2V) 是一种利用文本描述来生成视频内容的技术。它将文本提示作为条件输入,驱动生成模型合成符合文本描述的动态视频序列。这在创意内容生成、媒体制作等领域具有广泛应用。

3.1.3. 分类器自由引导 (Classifier-Free Guidance, CFG)

分类器自由引导 (Classifier-Free Guidance, CFG) 是一种在扩散模型中增强条件生成质量的技术。它通过同时使用条件 (conditional) 和无条件 (unconditional) 预测来引导采样过程,从而在生成质量和多样性之间取得平衡。 其公式通常表示为: ϵ^θ=ϵθ(zt,c,t)+ω(ϵθ(zt,c,t)ϵθ(zt,ϕ,t)) \hat { \epsilon } _ { \theta } = \epsilon _ { \theta } ( z _ { t } , c , t ) + \omega \big ( \epsilon _ { \theta } ( z _ { t } , c , t ) - \epsilon _ { \theta } ( z _ { t } , \phi , t ) \big ) 其中:

  • ϵθ(zt,c,t)\epsilon_\theta(z_t, c, t) 是条件去噪器 (conditional denoiser) 预测的噪声,基于文本条件 cc
  • ϵθ(zt,ϕ,t)\epsilon_\theta(z_t, \phi, t) 是无条件去噪器 (unconditional denoiser) 预测的噪声,基于空条件 ϕ\phi
  • ω\omega 是引导强度 (guidance strength) 因子,用于控制条件对生成过程的影响。较大的 ω\omega 会使生成结果更严格地遵循条件,但可能牺牲多样性。

3.1.4. 运动定制 (Motion Customization)

运动定制 (Motion Customization) 是指在视频生成过程中,使生成的视频能够精确地复制或模仿参考视频中的特定运动模式,同时保持与文本提示语义一致。这使得用户可以更精细地控制视频的动态内容,例如角色的动作、摄像机的移动等。

3.1.5. 知识蒸馏 (Knowledge Distillation)

知识蒸馏 (Knowledge Distillation) 是一种模型压缩技术,通过训练一个小型、高效的“学生模型 (student model)”来模仿一个大型、高性能的“教师模型 (teacher model)”的行为。在扩散模型中,这通常意味着学生模型学习在更少的推理步数内生成高质量的样本,以加速采样过程。

3.1.6. 一致性模型 (Consistency Models)

一致性模型 (Consistency Models) 是一类扩散模型,旨在通过一步或少量步骤生成高质量样本。它们通过学习一个“一致性函数 (consistency function)”来直接映射任意时间步的噪声样本到原始数据样本,从而避免了传统的逐步去噪过程,显著提高了采样效率。

3.1.7. Fréchet Inception Distance (FID)

Fréchet Inception Distance (FID) 是评估生成图像质量的常用指标。它通过计算生成图像分布和真实图像分布在 Inception 网络的特征空间中的 Fréchet 距离来衡量它们之间的相似度。FID 值越低,表示生成图像的质量越高,与真实图像越相似。

3.1.8. Co-Tracker

Co-Tracker 是一种用于视频中联合跟踪 (joint tracking) 多个对象的模型。它能够提供对象在视频帧之间精确的运动轨迹,这些轨迹可以用于评估生成视频的运动保真度。

3.2. 前人工作

3.2.1. 文本到视频扩散模型 (Text-to-Video Diffusion Models)

  • 早期工作: VDM [3] 利用 3D U-Net [33] 进行无条件视频生成。Imagen Video [34] 和 Make-a-Video [35] 采用级联框架实现高分辨率文本条件视频生成。
  • 计算效率优化: LVDM [36]、VideoLDM [37] 和 MagicVideo [38] 将扩散模型扩展到 3D 潜在空间 (latent space),降低了计算成本。
  • 基于适配器 (adapter) 的方法: AnimateDiff [41] 通过训练域适配器 (domain adapter) 和时序模块 (temporal module) 学习运动先验 (motion prior)。VideoCrafter1 [4] 通过在 U-Net 中加入时序注意力层 (temporal attention layers) 增强时间一致性。VideoCrafter2 [42] 进一步解耦低质量视频用于运动学习和高质量图像用于外观学习。
  • 加速推理: T2V-Turbo [7] 和 T2V-Turbo-V2 [1] 采用一致性模型 (consistency models) 从 VideoCrafter2 蒸馏,加速采样过程。AnimateDiff-Lightning [2] 通过渐进对抗扩散蒸馏实现少步视频生成。

3.2.2. 视频运动定制 (Video Motion Customization)

  • 训练基方法 (Training-based methods):
    • Tune-A-Video [43]:通过在单个参考视频上微调 SD 模型实现一次性视频生成。
    • ControlVideo [12] 和 Text2Video-Zero [16]:继承 ControlNet [44] 的先验 (priors),利用跨帧交互 (cross-frame interactions) 实现零样本可控视频合成。
    • Control-A-Video [13]:通过可训练运动层 (trainable motion layers) 和 ControlNet [44] 实现基于深度 (depth)、草图 (sketch) 或运动信息 (motion information) 的运动控制。
    • VMC [8]、MotionDirector [9] 和 MotionInversion [10]:解耦外观和运动学习,使运动模式泛化到不同文本提示和场景。
  • 无需训练方法 (Training-free methods):
    • DMT [15] 和 MotionClone [14]:从参考视频的潜在表示中提取运动先验,并通过能量函数 (energy function) 在推理时引导运动定制。
    • Zhang 等人 [45]:提出运动一致性损失 (motion consistency loss) 与反演参考噪声结合,增强时间一致性和运动准确性。

3.3. 技术演进与差异化分析

技术演进: 视频生成技术从最初的无条件生成,发展到文本条件生成,再到需要精确控制运动的定制化生成。为了加速生成过程,知识蒸馏和一致性模型被引入,但这些加速模型在运动定制方面表现出新的挑战。

差异化分析:

  • 与训练基方法 (如 Tune-A-Video, MotionDirector) 的区别: 训练基方法需要针对每个新的运动模式或模型进行微调,计算成本高,灵活性差。MotionEcho 是一个无需训练的框架,避免了耗时的训练过程,可以更灵活地应用于各种蒸馏模型。
  • 与现有无需训练方法 (如 MotionClone, DMT) 的区别: 现有的无需训练方法通常直接应用于标准扩散模型。当直接应用于蒸馏模型时,由于蒸馏模型粗糙的去噪步长和不同的去噪行为,这些方法效果不佳。MotionEcho 通过引入教师模型引导的测试时蒸馏,专门解决了蒸馏模型在运动定制上的固有问题,实现了在保持效率的同时提高运动保真度。
  • 核心创新点: MotionEcho 引入了“扩散教师强制 (diffusion teacher forcing)”的概念,利用高质量、慢速的教师模型对快速学生模型进行引导。此外,它提出了一个“自适应加速策略 (adaptive acceleration strategy)”,动态决定何时以及如何应用教师监督,从而在质量和效率之间取得最佳平衡,这是现有方法所不具备的。

4. 方法论

4.1. 方法原理

MotionEcho 旨在解决蒸馏视频生成器在无需训练设置下进行运动定制时遇到的挑战。由于蒸馏模型具有加速的生成过程和较大的去噪步长,直接应用现有无需训练方法会导致视觉伪影和时间不一致。本文提出了一种新颖的测试时蒸馏框架,其核心思想是利用一个高质量、慢速的教师模型 (teacher model) ϵθ\epsilon_\theta 来指导快速、高效的学生模型 (student model) ϵψ\epsilon_\psi 的推理过程。这种指导通过端点预测 (endpoint prediction) 和插值 (interpolation) 实现,并且是动态、自适应的,以在保持效率的同时,显著提升运动保真度和生成质量。

该方法主要包含以下几个阶段:

  1. 蒸馏视频生成器的测试时运动定制基础 (Test-time Motion Customization for Distilled Video Generators): 探讨直接将现有运动控制方法应用于蒸馏模型的局限性。
  2. 教师运动引导的测试时蒸馏 (Test-time Distillation with Teacher Motion Guidance): 引入教师模型,并通过运动定制对其进行对齐,再通过得分蒸馏 (score distillation) 机制引导学生模型。
  3. 自适应加速策略 (Adaptive Acceleration Strategy for Efficiency): 为了保持效率,设计动态指导激活和优化预算调整机制。

4.2. 核心方法详解

4.2.1. 蒸馏视频生成器的测试时运动定制基础

为了提高运动定制在测试时推理的效率,一个直观的解决方案是直接将运动控制方法(例如 MotionClone [14]、MotionDirector [9])集成到蒸馏视频扩散模型 ϵψ\epsilon_\psi 的采样过程中。这种方法旨在保留蒸馏学生模型的效率,同时在不进行任何训练的情况下注入运动表示。

对于蒸馏模型中从 ti+1t_{i+1}tit_i 的每个较大的去噪步长,预测的噪声 ϵ^ψ\hat{\epsilon}_\psi 会被修改: ϵ^ψ(zti+1ψ,c,ti+1)=ϵ~ψ(zti+1ψ,c,ti+1)ηzti+1ψGm(zti+1ψ,ztαref,ti+1), \begin{array} { r } { \hat { \epsilon } _ { \psi } ( z _ { t _ { i + 1 } } ^ { \psi } , c , t _ { i + 1 } ) = \tilde { \epsilon } _ { \psi } ( z _ { t _ { i + 1 } } ^ { \psi } , c , t _ { i + 1 } ) - \eta \nabla _ { z _ { t _ { i + 1 } } ^ { \psi } } \mathcal { G } ^ { m } ( z _ { t _ { i + 1 } } ^ { \psi } , z _ { t _ { \alpha } } ^ { \mathrm { r e f } } , t _ { i + 1 } ) , } \end{array} 其中:

  • zti+1ψz_{t_{i+1}}^\psi 是当前时间步 ti+1t_{i+1} 的学生模型潜在表示。
  • cc 是文本条件。
  • ti+1t_{i+1} 是当前时间步。
  • ϵ~ψ(zti+1ψ,c,ti+1)\tilde{\epsilon}_\psi (z_{t_{i+1}}^\psi, c, t_{i+1}) 表示经过分类器自由引导 (Classifier-Free Guidance, CFG) 后的学生模型预测噪声: ϵ~ψ(zti+1ψ,c,ti+1)=(1+ωψ)ϵψ(zti+1ψ,c,ti+1)ωψϵψ(zti+1ψ,ϕ,ti+1) \tilde { \epsilon } _ { \psi } ( z _ { t _ { i + 1 } } ^ { \psi } , c , t _ { i + 1 } ) = ( 1 + \omega _ { \psi } ) \epsilon _ { \psi } ( z _ { t _ { i + 1 } } ^ { \psi } , c , t _ { i + 1 } ) - \omega _ { \psi } \epsilon _ { \psi } ( z _ { t _ { i + 1 } } ^ { \psi } , \phi , t _ { i + 1 } ) 其中 ωψ\omega_\psi 是引导强度,ϕ\phi 是无条件提示。
  • η\eta 是运动引导强度 (motion guidance strength) 的缩放因子。
  • zti+1ψGm(zti+1ψ,ztαref,ti+1)\nabla_{z_{t_{i+1}}^\psi} \mathcal{G}^m (z_{t_{i+1}}^\psi, z_{t_\alpha}^{\mathrm{ref}}, t_{i+1}) 是运动损失函数 Gm\mathcal{G}^m 对学生模型潜在表示的梯度,用于引导运动定制。运动损失函数定义为: Gm(zti+1,ztαref,ti+1)=Mtαref(A(ztαref)A(zti+1))22 \mathcal { G } ^ { m } ( z _ { t _ { i + 1 } } , z _ { t _ { \alpha } } ^ { \mathrm { r e f } } , t _ { i + 1 } ) = | | M _ { t _ { \alpha } } ^ { \mathrm { r e f } } \cdot ( \mathcal { A } ( z _ { t _ { \alpha } } ^ { \mathrm { r e f } } ) - \mathcal { A } ( z _ { t _ { i + 1 } } ) ) | | _ { 2 } ^ { 2 } 其中:
    • A()\mathcal{A}(\cdot) 是一个提取运动特征的函数(例如,可以从 U-Net 的时序注意力图 (temporal attention maps) 中提取)。

    • ztαrefz_{t_\alpha}^{\mathrm{ref}} 是通过 DDIM 反演 (DDIM inversion) 得到的带有噪声的参考潜在表示,通常在固定的时间步 tαt_\alpha 处。

    • MtαrefM_{t_\alpha}^{\mathrm{ref}} 是一个时间掩码 (temporal mask),从 A(ztαref)\mathcal{A}(z_{t_\alpha}^{\mathrm{ref}}) 派生,用于强制聚焦运动监督。

    • 运动引导只在采样过程的初始 τ\tau 百分比时间内应用。

      然后,通过对预测的“干净”潜在表示进行去噪,更新 ztiψz_{t_i}^\psiztiψ=αˉtiz^0ti+1ψ+1αˉtiϵti z _ { t _ { i } } ^ { \psi } = \sqrt { \bar { \alpha } _ { t _ { i } } } \hat { z } _ { 0 t _ { i + 1 } } ^ { \psi } + \sqrt { 1 - \bar { \alpha } _ { t _ { i } } } \epsilon _ { t _ { i } } 其中,z^0,ti+1ψ\hat{z}_{0,t_{i+1}}^\psi 是由 ϵ^ψ\hat{\epsilon}_\psi 预测的“干净”潜在表示: z^0ti+1ψ=zti+1ψ1αˉti+1ϵ^ψ(zti+1ψ,c,ti+1)αˉti+1 \hat { z } _ { 0 t _ { i + 1 } } ^ { \psi } = \frac { z _ { t _ { i + 1 } } ^ { \psi } - \sqrt { 1 - \bar { \alpha } _ { t _ { i + 1 } } } \hat { \epsilon } _ { \psi } ( z _ { t _ { i + 1 } } ^ { \psi } , c , t _ { i + 1 } ) } { \sqrt { \bar { \alpha } _ { t _ { i + 1 } } } } 然而,实验发现直接应用这种方法会导致视觉退化和时间不一致,尤其是在复杂或快速运动场景中。这主要是因为蒸馏模型的大步长导致运动转移不充分,并且其去噪行为与运动引导不匹配。

4.2.2. 教师运动引导的测试时蒸馏

为了在推理时实现高效且有效的运动定制,MotionEcho 引入了一个测试时蒸馏框架。该框架利用一个精细的教师 T2V 扩散模型 ϵθ\epsilon_\theta 来指导蒸馏学生模型 ϵψ\epsilon_\psi

运动定制教师模型: 与直接应用于蒸馏模型不同,教师模型进行运动定制的过程始于参考感知噪声初始化 (reference-aware noise initialization)。参考之前的工作 [51, 52, 15],本文通过将反演的参考潜在表示 zTrefz_T^{\mathrm{ref}} 与随机噪声 ϵT\epsilon_T 混合,形成混合噪声 zTψz_T^\psi 来对齐参考视频的时序动态先验 (temporal dynamics priors)。 zTψ=kzTref+1kϵT z _ { T } ^ { \psi } = \sqrt { k } { \cdot } z _ { T } ^ { \mathrm { r e f } } { + } \sqrt { 1 - k } { \cdot } \epsilon _ { T } 其中 kk 是一个混合因子 (blend scaling factor),控制着运动保留和内容泛化之间的权衡。

为了保持空间一致性,并弥合学生模型粗糙步长与教师模型精细步长之间的不匹配,学生模型在没有运动引导的情况下预测一个“干净”的潜在表示 z~0,ti+1ψ\tilde{z}_{0, t_{i+1}}^\psiz~0ti+1ψ=zti+1ψ1αˉti+1ϵ~ψ(zti+1ψ,c,ti+1)αˉti+1 \tilde { z } _ { 0 t _ { i + 1 } } ^ { \psi } = \frac { z _ { t _ { i + 1 } } ^ { \psi } - \sqrt { 1 - \bar { \alpha } _ { t _ { i + 1 } } } \tilde { \epsilon } _ { \psi } ( z _ { t _ { i + 1 } } ^ { \psi } , c , t _ { i + 1 } ) } { \sqrt { \bar { \alpha } _ { t _ { i + 1 } } } } 然后,教师模型在学生模型时间步 [ti+1,ti][t_{i+1}, t_i] 之间的一系列精细时间步 tst_s 上,执行迭代运动定制。教师模型在这些时间步上进行去噪,并应用运动引导: zts1θztsθ+ϵ~θ(ztsθ,c,ts)ηztsθGm^(ztsθ,ztαref,ts) z _ { t _ { s - 1 } } ^ { \theta ^ { - } } \gets z _ { t _ { s } } ^ { \theta } + \tilde { \epsilon } _ { \theta } ( z _ { t _ { s } } ^ { \theta } , c , t _ { s } ) - \eta \nabla _ { z _ { t _ { s } } ^ { \theta } } \mathcal { G } ^ { \hat { m } } ( z _ { t _ { s } } ^ { \theta } , z _ { t _ { \alpha } } ^ { \mathrm { r e f } } , t _ { s } ) 其中 zTθz_T^\theta 同样通过 zTψz_T^\psi 初始化, ϵ~θ\tilde{\epsilon}_\theta 是教师模型预测噪声,Gm^\mathcal{G}^{\hat{m}} 是教师模型的运动损失函数。

教师引导融合: 教师模型的运动定制过程结束后,其预测的“干净”潜在表示 z^0,tiθ\hat{z}_{0,t_i}^\theta 用于指导学生模型的去噪过程。具体来说,学生模型的下一步潜在表示 ztiψz_{t_i}^\psi 通过结合其自身的预测和教师模型的预测来更新。这通过以下蒸馏损失 (distillation loss) 实现: distill(z;ψ,θ)=z^0ti+1ψz^0tiθ22 \ell _ { \mathrm { d i s t i l l } } ( z ; \psi , \theta ) = | | \hat { z } _ { 0 t _ { i + 1 } } ^ { \psi } - \hat { z } _ { 0 t _ { i } } ^ { \theta } | | _ { 2 } ^ { 2 } 这个损失衡量了学生模型预测的干净潜在表示 z^0,ti+1ψ\hat{z}_{0,t_{i+1}}^\psi 与教师模型预测的干净潜在表示 z^0,tiθ\hat{z}_{0,t_i}^\theta 之间的差异。学生模型的下一步潜在表示 ztiψz_{t_i}^\psi 更新如下: ztiψ=αˉti(z~0ti+1ψλz~0ti+1ψdistil)+1αˉtiϵti=αˉtiz~0ti+1new+1αˉtiϵti z _ { t _ { i } } ^ { \psi } = \sqrt { \bar { \alpha } _ { t _ { i } } } ( \tilde { z } _ { 0 t _ { i + 1 } } ^ { \psi } - \lambda \nabla _ { \tilde { z } _ { 0 t _ { i + 1 } } ^ { \psi } } \ell _ { \mathrm { d i s t i l } } ) + \sqrt { 1 - \bar { \alpha } _ { t _ { i } } } \epsilon _ { t _ { i } } = \sqrt { \bar { \alpha } _ { t _ { i } } } \tilde { z } _ { 0 t _ { i + 1 } } ^ { \mathrm { n e w } } + \sqrt { 1 - \bar { \alpha } _ { t _ { i } } } \epsilon _ { t _ { i } } 其中,λ\lambda 是教师引导强度 (teacher guidance strength),z~0,ti+1new\tilde{z}_{0,t_{i+1}}^{\mathrm{new}} 是新的“干净”潜在表示,通过插值结合了学生模型自身的预测和教师模型的预测: z^0ti+1new=(1λ)z^0ti+1ψ+λz^0tiθ \hat { z } _ { 0 t _ { i + 1 } } ^ { \mathrm { n e w } } = ( 1 - \lambda ) \hat { z } _ { 0 t _ { i + 1 } } ^ { \psi } + \lambda \hat { z } _ { 0 t _ { i } } ^ { \theta } 这种方式将教师模型对运动定制的理解有效地“蒸馏”到学生模型的推理过程中,而无需进行额外的训练。

4.2.3. 自适应加速策略

直接在学生模型的每个时间步都应用教师监督,尤其是在初始的 τ\tau 百分比时间内,效率会很低。为了优化计算预算,MotionEcho 提出了一个自适应加速策略,包括两个核心组件:

4.2.3.1. 步进式引导激活 (Step-wise Guidance Activation)

由于学生模型的大去噪间隔,何时激活教师引导变得至关重要。为了做出更鲁棒的决策,本文通过计算过去 WW 个步骤的平均运动损失来评估蒸馏的必要性: \begin{array} { r } { \mathcal { G } _ { t _ { i } } ^ { \psi } = \frac { 1 } { W } \sum _ { j = 0 } ^ { W - \mathrm { i } } \mathcal { G } ^ { m } ( \bar { z } _ { t _ { i + j } } ^ { \psi } , \bar { z } _ _ { \alpha } ^ { \mathrm { r e f } } , t _ { i + j } ) } \end{array} 其中 Gtiψ\mathcal{G}_{t_i}^\psi 是在时间步 tit_i 的平均运动损失,WW 是滑动窗口大小。 如果 Gtiψ\mathcal{G}_{t_i}^\psi 超过预定义的阈值 δ1\delta_1,则在当前步激活教师引导。

4.2.3.2. 动态截断 (Dynamic Truncation)

一旦触发教师引导,本文进一步优化教师模型内部去噪步数。不是使用固定的去噪步数,而是根据运动损失的平滑度执行动态截断 (dynamic truncation)。 具体来说,在从 tst_stit_i 的间隔内,如果教师模型的运动损失 Gm(ztsθ,ztαref,ts)\mathcal{G}^m(z_{t_s}^\theta, z_{t_\alpha}^{\mathrm{ref}}, t_s) 降至阈值 δ2\delta_2 以下,则提前终止运动转移,并直接将当前潜在表示去噪到 tit_i 的潜在表示。此外,为了防止当损失持续很高时产生过多的计算,本文对去噪迭代次数设置了上限 NmaxN_{max}

4.2.4. 算法流程

以下是 MotionEcho 的伪代码 (Algorithm 1) 概述,展示了其详细的推理过程:

算法 1: 用于运动定制的自适应测试时蒸馏 (Adaptive Test-time Distillation for Motion Customization)

1: 输入: * 蒸馏视频扩散模型 ϵψ\epsilon_\psi * 精细教师模型 ϵθ\epsilon_\theta * 参考潜在表示 zrefz^{\mathrm{ref}} * 文本提示 cc * 无条件提示 ϕ\phi * 运动引导作用时间比例 τ\tau * 混合缩放因子 kk * 运动引导强度 η\eta * 教师引导强度 λ\lambda * 运动阈值 δ1,δ2\delta_1, \delta_2 * 窗口大小 WW * 教师模型最大内部去噪步数 NmaxN_{\mathrm{max}} * 学生模型总采样步数 NsN_s * 教师模型总采样步数 NtN_t 2: 输出: 最终去噪后的潜在表示 z0ψz_0^\psi

3: // 初始化 4: 从参考视频 zrefz^{\mathrm{ref}} 进行 DDIM 反演 (DDIM Inversion) 获得 zTrefz_T^{\mathrm{ref}}ztαrefz_{t_\alpha}^{\mathrm{ref}} 5: 随机采样噪声 ϵTN(0,I)\epsilon_T \sim \mathcal{N}(0, \mathbf{I}) 6: 初始化混合噪声 zTψ=kzTref+1kϵTz_T^\psi = \sqrt{k} z_T^{\mathrm{ref}} + \sqrt{1-k} \epsilon_T 7: 设置学生模型时间步长 Δts=T/Ns\Delta t_s = T / N_s,教师模型时间步长 Δtt=Tˉ/Nt\Delta t_t = \bar{T} / N_t 8: for t=Tt = T to Δts\Delta t_s by Δts-\Delta t_s do 9: 阶段 1. 学生模型定制 (Student Customization) 10: // 在没有运动引导的情况下预测噪声和干净的潜在表示 ϵ~ψ(ztψ,c,t)=(1+ωψ)ϵψ(ztψ,c,t)ωψϵψ(ztψ,ϕ,t)z~0tψ=ztψ1αˉtϵ~ψ(ztψ,c,t)αˉt // 没有运动引导的预测 \begin{array} { r l r } & { \tilde { \epsilon } _ { \psi } \big ( z _ { t } ^ { \psi } , c , t \big ) = \big ( 1 + \omega _ { \psi } \big ) \epsilon _ { \psi } \big ( z _ { t } ^ { \psi } , c , t \big ) - \omega _ { \psi } \epsilon _ { \psi } \big ( z _ { t } ^ { \psi } , \phi , t \big ) } & \\ & { \tilde { z } _ { 0 t } ^ { \psi } = \frac { z _ { t } ^ { \psi } - \sqrt { 1 - \bar { \alpha } _ { t } } \tilde { \epsilon } _ { \psi } \big ( z _ { t } ^ { \psi } , c , t \big ) } { \sqrt { \bar { \alpha } _ { t } } } } & { \textrm { // \text{没有运动引导的预测} } } \end{array} 11: // 在有运动引导的情况下预测噪声和干净的潜在表示 ϵ^ψ(ztψ,c,t)=(1+ωψ)ϵψ(ztψ,c,t)ωψϵψ(ztψ,ϕ,t)ηztψGm(ztψ,ztαref,t)z^0tψ=ztψ1αˉtϵ~ψ(ztψ,c,t)αˉt // 有运动引导的预测 \begin{array} { r l r } & { \hat { \epsilon } _ { \psi } \big ( z _ { t } ^ { \psi } , c , t \big ) = \big ( 1 + \omega _ { \psi } \big ) \epsilon _ { \psi } \big ( z _ { t } ^ { \psi } , c , t \big ) - \omega _ { \psi } \epsilon _ { \psi } \big ( z _ { t } ^ { \psi } , \phi , t \big ) - \eta \cdot \nabla _ { z _ { t } ^ { \psi } } \mathcal { G } ^ { m } \big ( z _ { t } ^ { \psi } , z _ { t \alpha } ^ { \mathrm { r e f } } , t \big ) } & \\ & { \hat { z } _ { 0 t } ^ { \psi } = \frac { z _ { t } ^ { \psi } - \sqrt { 1 - \bar { \alpha } _ { t } } \tilde { \epsilon } _ { \psi } \big ( z _ { t } ^ { \psi } , c , t \big ) } { \sqrt { \bar { \alpha } _ { t } } } } & { \textrm { // \text{有运动引导的预测} } } \end{array} 12:
13:
14: 阶段 2. 自适应教师引导 (Adaptive Teacher Guidance) 15: if t>τTt > \tau \cdot T then 16: // 计算滑动平均运动损失 avGφ(t)=1Wj=0W1Gm(zt+jΔtsψ,ztαref,t+jΔts)//滑动平均运动损失\begin{array} { r l r l } & { \mathbf { a v } _ { \mathcal { G } } ^ { \varphi } ( t ) = \frac { 1 } { W } \sum _ { j = 0 } ^ { W - 1 } \mathcal { G } ^ { m } ( z _ { t + j \cdot \Delta t _ { s } } ^ { \psi } , z _ { t \alpha } ^ { \mathrm { r e f } } , t + j \cdot \Delta t _ { s } ) } & & { \mathsf { // \text{滑动平均运动损失} } } \end{array} 17: if avGψ(t)>δ1\mathbf{av}_{\mathcal{G}}^\psi(t) > \delta_1 then 18: // 激活教师引导:在教师模型上执行内部去噪步骤 19: // 初始化教师模型潜在表示 zsθ=αˉsαˉtztψ+1αˉsαˉtϵ,ϵN(0,I) z_s^\theta = \sqrt{\frac{\bar{\alpha}_s}{\bar{\alpha}_t}} z_t^\psi + \sqrt{1 - \frac{\bar{\alpha}_s}{\bar{\alpha}_t}} \epsilon, \quad \epsilon \sim \mathcal{N}(0, I) 20: for n=sn = s to tΔtst - \Delta t_s by Δtt-\Delta t_t do 21: // 教师模型去噪与运动引导 ϵ^θ(znθ,c,n)=(1+ωθ)ϵθ(znθ,c,n)ωθϵθ(znθ,ϕ,n)ηznθGm(znθ,ztαref,n) \hat { \epsilon } _ { \theta } ( z _ { n } ^ { \theta } , c , n ) = ( 1 + \omega _ { \theta } ) \epsilon _ { \theta } ( z _ { n } ^ { \theta } , c , n ) - \omega _ { \theta } \epsilon _ { \theta } ( z _ { n } ^ { \theta } , \phi , n ) - \eta \cdot \nabla _ { z _ { n } ^ { \theta } } \mathcal { G } ^ { m } ( z _ { n } ^ { \theta } , z _ { t \alpha } ^ { \mathrm { r e f } } , n ) 22: // 教师模型预测干净的潜在表示 z^0ϵnθ=znθ1αˉnϵ^θ(znθ,c,n)αˉn \hat { z } _ { 0 \epsilon - n } ^ { \theta } = \frac { z _ { n } ^ { \theta } - \sqrt { 1 - \bar { \alpha } _ { n } } \hat { \epsilon } _ { \theta } ( z _ { n } ^ { \theta } , c , n ) } { \sqrt { \bar { \alpha } _ { n } } } 23: // 动态截断条件 if Gm(znθ,ztcref,n)<δ2 or snΔtt>Nmax then \mathrm { if ~ } \mathcal { G } ^ { m } ( z _ { n } ^ { \theta } , z _ { \mathrm { t c } } ^ { \mathrm { r e f } } , n ) < \delta _ { 2 } \mathrm { ~ or ~ } \frac { s - n } { \Delta t _ { t } } > { N _ { \mathrm { m a x } } } \mathrm { ~ then } 24: // 教师模型一步预测到目标时间步 ztΔtsθ=αˉtΔtsz^0ϵnθ+1αˉtΔtsϵ,ϵN(0,I) z _ { t - \Delta t _ { s } } ^ { \theta } = \sqrt { \bar { \alpha } _ { t - \Delta t _ { s } } } \hat { z } _ { 0 \epsilon - n } ^ { \theta } + \sqrt { 1 - \bar { \alpha } _ { t - \Delta t _ { s } } } \epsilon , \quad \epsilon \sim \mathcal { N } ( 0 , I ) 25: break 26: // 教师模型进行去噪步 znΔttθ=αˉnΔttz^0ϵnθ+1αˉnΔttϵ,ϵN(0,I) z _ { n - \Delta t _ { t } } ^ { \theta } = \sqrt { \bar { \alpha } _ { n - \Delta t _ { t } } } \hat { z } _ { 0 \epsilon - n } ^ { \theta } + \sqrt { 1 - \bar { \alpha } _ { n - \Delta t _ { t } } } \epsilon , \quad \epsilon \sim \mathcal { N } ( 0 , I ) 27: end for 28: // 教师模型最终的干净潜在表示 \hat { z } _ { 0 t - \Delta t _ { s } } ^ { \theta } = \frac { z _ { t - \Delta t _ { s } } ^ { \theta } - \sqrt { 1 - \bar { \alpha } _ { t - \Delta t _ { s } } } \hat { \epsilon } _ { \theta } ( z _ { t - \Delta t _ _ { s } } ^ { \theta } , c , t - \Delta t _ { s } ) } { \sqrt { \bar { \alpha } _ { t - \Delta t _ { s } } } } 29: // 结合学生和教师的预测 z^0tnew=(1λ)z^0tψ+λz^0tΔtsθ \hat { z } _ { 0 t } ^ { \mathrm { n e w } } = ( 1 - \lambda ) \hat { z } _ { 0 t } ^ { \psi } + \lambda \hat { z } _ { 0 t - \Delta t _ { s } } ^ { \theta } 30: else 31: // 不触发教师引导,使用学生模型自身预测 z^0tnew=z^0tψ \hat { z } _ { 0 t } ^ { \mathrm { n e w } } = \hat { z } _ { 0 t } ^ { \psi } 32: end if 33: else 34: // 超过运动引导作用时间比例 τ\tau,不触发教师引导,使用学生模型自身预测 z^0tnew=z~0tψ \hat { z } _ { 0 t } ^ { \mathrm { n e w } } = \tilde { z } _ { 0 t } ^ { \psi } 35: end if 36: 阶段 3. 更新潜在表示 (Update latent) 37: // 使用新的干净潜在表示更新学生模型潜在表示 ztΔtsψ=αˉtΔtsz^0tnew+1αˉtΔtsϵ,ϵN(0,I) z _ { t - \Delta t _ { s } } ^ { \psi } = \sqrt { \bar { \alpha } _ { t - \Delta t _ { s } } } \cdot \hat { z } _ { 0 t } ^ { \mathrm { n e w } } + \sqrt { 1 - \bar { \alpha } _ { t - \Delta t _ { s } } } \cdot \epsilon , \quad \epsilon \sim \mathcal { N } ( 0 , I ) 38: end for 39: return z0ψz_0^\psi


图 3:MotionEcho 的流程图

Figure 3: Pipeline of MotionEcho. Given a reference video, motion priors are extracted to initialize the student model with a motion-preserving noisy latent. During inference, the teacher (top) and student (bottom) models perform motion customization using motion loss gradients. Teacher guidance is applied via prediction interpolation at sub-interval endpoints. The student then generates the final video in a few steps with high motion fidelity.
该图像是MotionEcho的示意图。图中展示了如何利用参考视频进行运动定制,提取运动先验后初始化学生模型,再通过教师模型进行预测插值,生成高质量视频。关键步骤包括运动一致性损失 ghetam(zut,ztref)g^{m}_{ heta}(z^{t}_{u}, z^{ref}_{t}) 的计算和噪声加成。

图 3: MotionEcho 的流程图。给定一个参考视频,提取运动先验以使用保留运动的噪声潜在表示初始化学生模型。在推理过程中,教师模型(顶部)和学生模型(底部)使用运动损失梯度执行运动定制。教师引导通过在子间隔端点处的预测插值(3\textcircled{3})注入。然后学生模型在少量步骤内生成具有高运动保真度的最终视频。

流程图解读: 图 3 展示了 MotionEcho 的完整流程。

  1. 输入: 参考视频 (Reference Video)、文本提示 (Text Prompt)。
  2. 运动先验提取与初始化: 从参考视频中提取运动先验 (motion priors),并用于初始化学生模型 (Student Model) zTψz_T^\psi。这个初始化结合了参考视频的反演噪声和随机噪声,以平衡运动保持和内容泛化。
  3. 推理循环: 学生模型(下方路径)和教师模型(上方路径)并行工作。
    • 学生模型路径 (Student Path): 学生模型 ϵψ\epsilon_\psi 根据当前的潜在表示 ztψz_t^\psi、文本提示 cc 和时间步 tt 进行预测。它尝试生成一个干净的潜在表示 z^0,tψ\hat{z}_{0,t}^\psi,并应用运动损失梯度 Gm\mathcal{G}^m 进行初步的运动定制。
    • 教师模型路径 (Teacher Path): 在学生模型的某个大去噪步长内,如果满足自适应激活条件,教师模型 ϵθ\epsilon_\theta 会被激活。教师模型在更细粒度的时间步上,从 ztψz_t^\psi 派生出的潜在表示 zsθz_s^\theta 开始,进行多次内部去噪步骤,并应用自身的运动损失梯度 Gm^\mathcal{G}^{\hat{m}} 来获得一个高质量的、运动定制的干净潜在表示 z^0,tΔtsθ\hat{z}_{0,t-\Delta t_s}^\theta
  4. 教师引导注入 (Teacher Guidance Injection): 教师模型生成的干净潜在表示 z^0,tΔtsθ\hat{z}_{0,t-\Delta t_s}^\theta 通过预测插值(3\textcircled{3})的方式,与学生模型自身的预测 z^0,tψ\hat{z}_{0,t}^\psi 结合,形成一个新的、更受运动引导的干净潜在表示 z^0,tnew\hat{z}_{0,t}^{\mathrm{new}}。这种融合过程由教师引导强度 λ\lambda 控制。
  5. 学生模型更新: 学生模型利用这个融合后的 z^0,tnew\hat{z}_{0,t}^{\mathrm{new}} 来更新其潜在表示到下一个时间步 ztΔtsψz_{t-\Delta t_s}^\psi
  6. 迭代生成: 这个过程迭代进行,直到学生模型完成所有去噪步数,最终生成具有高运动保真度的视频。
  7. 自适应加速: 整个过程中,教师模型的激活和内部去噪步数会根据自适应加速策略动态调整,以平衡质量和效率。

5. 实验设置

5.1. 数据集

本文在两个不同的基准数据集上评估了所提出的方法:

  1. TurboBench:

    • 来源: 结合了 DAVIS 数据集 [53]、WebVID 数据集 [54] 和在线视频资源。
    • 构成: 包含 66 个视频编辑文本对 (video-edit text pairs),这些文本对源自 22 个独特的视频。
    • 特点: 广泛涵盖了多样化的真实世界场景,包括多种对象类别、多变的场景配置和丰富的运动模式,从简单的平移运动到复杂的非刚性形变。
    • 用途: 用于评估基于 TurboV2 和 VC2 的方法。
    • 样本示例: 原文未直接提供具体样本视频帧或文本对,但描述了其多样性,例如可能包含不同动物、人物、场景(如雪地森林、复杂多对象场景)以及各种运动类型(如推拉镜头、物体移动)。
  2. AnimateBench:

    • 来源: 从 MotionClone [14] 中精选的 15 个真实视频。
    • 构成: 包括 7 个带有相机运动的视频和 8 个用于对象运动的视频。
    • 用途: 用于评估基于 AD 和 AD-L 的方法。
    • 样本示例: 原文未直接提供具体样本,但从其描述可知,会包含相机旋转、缩放等相机运动,以及角色、动物等物体的移动。

5.2. 评估指标

为了确保全面评估,本文从多个角度进行了评估。

5.2.1. 文本对齐 (Text Alignment)

  • 概念定义: 衡量生成视频内容与输入文本提示的匹配程度。高文本对齐度表示生成的视频在语义上准确地反映了文本描述。
  • 数学公式: 该指标通过计算所有视频帧的 CLIP 嵌入 (CLIP embeddings) 与文本嵌入 (text embeddings) 之间的平均余弦相似度 (average cosine similarity) 来衡量。 Text Alignment=1Ff=1FCLIP(Vf)CLIP(T)CLIP(Vf)2CLIP(T)2 \text{Text Alignment} = \frac{1}{F} \sum_{f=1}^{F} \frac{\text{CLIP}(V_f) \cdot \text{CLIP}(T)}{\| \text{CLIP}(V_f) \|_2 \| \text{CLIP}(T) \|_2}
  • 符号解释:
    • FF:视频的总帧数。
    • VfV_f:视频的第 ff 帧。
    • TT:输入的文本提示。
    • CLIP()\text{CLIP}(\cdot):CLIP 模型 [55] 的嵌入函数,将图像或文本映射到特征空间。
    • \cdot:向量点积。
    • 2\| \cdot \|_2:L2 范数 (Euclidean norm)。

5.2.2. 时间一致性 (Temporal Consistency)

  • 概念定义: 评估生成视频的视觉流畅性和连贯性。高时间一致性意味着视频中没有闪烁伪影、语义不连续或突兀的过渡,同时允许由运动驱动的外观变化。
  • 数学公式: 该指标通过计算跨帧的 CLIP 图像嵌入之间的余弦相似度,并将结果聚合为稳定性得分来获得。 Temporal Consistency=1F1f=1F1CLIP(Vf)CLIP(Vf+1)CLIP(Vf)2CLIP(Vf+1)2 \text{Temporal Consistency} = \frac{1}{F-1} \sum_{f=1}^{F-1} \frac{\text{CLIP}(V_f) \cdot \text{CLIP}(V_{f+1})}{\| \text{CLIP}(V_f) \|_2 \| \text{CLIP}(V_{f+1}) \|_2}
  • 符号解释:
    • FF:视频的总帧数。
    • VfV_f:视频的第 ff 帧。
    • Vf+1V_{f+1}:视频的第 f+1f+1 帧。
    • CLIP()\text{CLIP}(\cdot):CLIP 模型 [55] 的图像嵌入函数。
    • \cdot:向量点积。
    • 2\| \cdot \|_2:L2 范数。

5.2.3. 运动保真度 (Motion Fidelity)

  • 概念定义: 评估运动转移的有效性,即生成视频的运动模式与参考视频的运动模式的匹配程度。
  • 数学公式: 运动保真度分数 [15] 依赖于通过 Co-Tracker [56] 提取的运动轨迹,并计算源视频和生成视频中运动模式之间的几何一致性。 Motion Fidelity=11NTmaxn=1Nt=1TmaxTrackref(Pn,t)Trackgen(Pn,t)22 \text{Motion Fidelity} = 1 - \frac{1}{N \cdot T_{max}} \sum_{n=1}^N \sum_{t=1}^{T_{max}} \left\| \text{Track}_{ref}(P_n, t) - \text{Track}_{gen}(P_n, t) \right\|_2^2 注:原始论文中未给出 Motion Fidelity 的具体公式,但描述了其计算方式。此处根据描述及相关工作 [15] 提供了可能的计算形式,表示为参考视频与生成视频中对应轨迹点的 L2 距离的负平均值,再通过 11-\cdot 转换为保真度分数。更精确的定义可能涉及更复杂的几何一致性度量。
  • 符号解释:
    • NN:跟踪点的数量。
    • TmaxT_{max}:视频的最大帧数。
    • Trackref(Pn,t)\text{Track}_{ref}(P_n, t):参考视频中第 nn 个跟踪点在时间 tt 的位置。
    • Trackgen(Pn,t)\text{Track}_{gen}(P_n, t):生成视频中第 nn 个跟踪点在时间 tt 的位置。
    • 22\| \cdot \|_2^2:L2 范数的平方。

5.2.4. Fréchet Inception Distance (FID)

  • 概念定义: 评估生成视频的整体质量和真实感。较低的 FID 值表示生成视频的分布与真实视频的分布更接近,即视觉质量更高。
  • 数学公式: FID 通过计算生成图像集和真实图像集在 Inception-v3 网络倒数第二层激活特征空间中的均值和协方差矩阵的 Fréchet 距离来衡量。 FID(X,G)=μXμG22+Tr(ΣX+ΣG2(ΣXΣG)1/2) \mathrm{FID}(X, G) = \|\mu_X - \mu_G\|_2^2 + \mathrm{Tr}(\Sigma_X + \Sigma_G - 2(\Sigma_X \Sigma_G)^{1/2})
  • 符号解释:
    • XX:真实图像集。
    • GG:生成图像集。
    • μX\mu_X:真实图像集在特征空间中的均值。
    • μG\mu_G:生成图像集在特征空间中的均值。
    • ΣX\Sigma_X:真实图像集在特征空间中的协方差矩阵。
    • ΣG\Sigma_G:生成图像集在特征空间中的协方差矩阵。
    • 22\|\cdot\|_2^2:L2 范数的平方。
    • Tr()\mathrm{Tr}(\cdot):矩阵的迹 (trace)。

5.2.5. 推理时间成本 (Inference Time Cost)

  • 概念定义: 衡量完成从参考视频进行运动转移所需的总时间。
  • 单位: 秒 (s)。
  • 说明: 为了公平比较,需要考虑额外的微调 (fine-tuning) 或优化步骤。

5.2.6. 训练时间成本 (Training Time Cost)

  • 概念定义: 衡量模型训练所需的总时间。对于无需训练的方法,此成本为 0。
  • 单位: 秒 (s) 或 小时 (hours)。

5.3. 对比基线

本文将 MotionEcho 与以下训练基 (training-based) 和无需训练 (training-free) 方法进行了比较:

  • 训练基方法:

    • ControlVideo [12]: 通过注入 HED 边界作为控制信号,并微调关键帧和时间注意力,实现全跨帧交互,从而进行高质量、一致的文本驱动视频编辑。
    • Control-A-Video [13]: 结合首帧条件 (first-frame condition) 和奖励反馈 (reward feedback) 来提高视觉质量和运动一致性。
    • MotionDirector [9]: 通过将双路径 LoRA (dual-path LoRAs) 注入预训练的文本到视频扩散模型,其中空间 LoRA (spatial LoRAs) 捕获外观,时间 LoRA (temporal LoRAs) 建模运动,从而有效解耦这两个因素。
    • MotionInversion [10]: 从参考视频中学习显式运动嵌入 (explicit motion embeddings),并将其注入文本到视频扩散模型的时序模块 (temporal modules) 中,以指导运动生成,同时消除外观偏差。
  • 无需训练方法:

    • MotionClone [14]: 从参考视频的时序注意力矩阵 (temporal attention matrix) 中提取运动先验 (motion priors),并构建一个能量函数 (energy function) 来引导预训练文本到视频模型的采样过程。
    • DMT [15]: 从扩散模型的中间层激活中获取时空特征 (space-time features),并引入手工设计的损失 (handcrafted loss) 来引导推理时的运动定制。

实现细节:

  • 教师模型: VideoCrafter2 [42] (VC2) 用作 T2V-Turbo-V2 [1] (TurboV2) 的教师模型。AnimateDiff [41] (AD) 用作 AnimateDiff-Lightning [2] (AD-L) 的教师模型。
  • 运动引导模块: MotionEcho 结合了 MotionClone [14] (MC) 和 MotionDirector [9] (MD) 来对齐参考运动。
  • 超参数:
    • TurboV2: 步进式激活阈值 δ1\delta_1 在 380 到 420 之间(根据运动类型),动态截断阈值 δ2\delta_2 设为 380。
    • AD-L: δ1\delta_1 在 360 到 400 之间,δ2\delta_2 设为 360。
  • 硬件: 所有实验均使用 NVIDIA A100-40G GPU 进行。

噪声初始化细节 (附录 B.2):

  • ControlVideo [57] (原文此处引用错误,应为 [12])、Control-A-Video [13] 和 MotionClone [14]: 采用随机噪声初始化 (random noise initialization)。
  • DMT [15]: 通过下采样随机噪声提取低频分量 (low-frequency components),并将其替换为参考视频反演噪声的低频分量。
  • MotionDirector [9] 和 MotionInversion [10]: 线性混合 (linearly blend) 随机噪声和反演参考噪声,混合因子设为 0.5。
  • MotionEcho: 遵循混合策略,混合因子 k=0.01k=0.01,以更好地保留运动同时保持生成多样性。

6. 实验结果与分析

6.1. 核心结果分析

本文通过定量和定性分析,全面验证了 MotionEcho 的有效性。

6.1.1. 定量分析

以下是原文 Table 1 和 Table 2 的结果:

以下是原文 Table 1 的结果:

Method Temporal Consistency (↑) Text Alignment (↑) Motion Fidelity (↑) FID (↓) Inference Time Cost (↓) Training Time Cost (↓)
ControlVideo [12] 0.942 0.251 0.964 379.37 80s 450s
Control-A-Video [13] 0.925 0.256 0.858 383.95 20s hours
MotionDirector [9] 0.922 0.329 0.851 373.21 10s 280s
MotionInversion [10] 0.951 0.321 0.885 351.72 32s 489s
DMT [15] 0.961 0.259 0.909 367.18 316s -
MotionClone [14] 0.978 0.335 0.876 369.49 114s -
Ours (MC+TurboV2 16 steps) 0.976 0.348 0.933 322.97 13s -
Ours (MC+TurboV2 8 steps) 0.967 0.338 0.931 335.65 9s
Ours (MC+TurboV2 4 steps) 0.956 0.323 0.927 347.91 6s

表 1: TurboBench 上基于 VideoCrafter2 的方法的定量比较。

  • 性能优越性: 本文方法 (Ours, MC+TurboV2 16 steps) 在 Text Alignment (0.348)、Motion Fidelity (0.933) 和 FID (322.97) 上达到了最佳性能,同时在 Temporal Consistency (0.976) 上也保持了竞争力。

  • 效率优势: 尽管实现了卓越的质量,本文方法在 16 步设置下推理时间仅为 13 秒,远低于 DMT (316s) 和 MotionClone (114s) 等无需训练方法,且与训练基方法相比也具有显著优势 (ControlVideo 80s, Control-A-Video 20s, MotionInversion 32s)。

  • 步数减少下的鲁棒性: 即使将推理步数减少到 8 步(9s)或 4 步(6s),本文方法依然在大多数指标上优于大多数基线方法。例如,4 步设置下的 FID 347.91 仍优于 ControlVideo、Control-A-Video、MotionDirector、DMT 和 MotionClone。这充分展示了 MotionEcho 在效率和质量之间的出色权衡。

  • 训练成本: 本文方法作为无需训练的方法,训练时间成本为 -,远低于需要数分钟到数小时训练的训练基方法。

    以下是原文 Table 2 的结果:

    Method Temporal Consistency (↑) Text Alignment (↑) Motion Fidelity (↑) FID (↓) Inference Time Cost (↓) Training Time Cost (↓)
    MotionDirector [9] 0.961 0.304 0.833 378.31 18s 451s
    MotionClone [14] 0.957 0.321 0.849 367.07 203s
    MC+AD-L (8steps) [14] 0.974 0.322 0.648 357.15 7s -
    Ours (MC+AD-L 8 steps) 0.981 0.327 0.868 336.03 24s
    Ours (MC+AD-L 4 steps) 0.973 0.319 0.854 348.99 17s

表 2: AnimateBench 上基于 AnimateDiff 的方法的定量比较。

  • 跨模型泛化性: 在 AnimateBench 数据集上,本文方法 (Ours, MC+AD-L 8 steps) 同样表现出色,在 Temporal Consistency (0.981)、Text Alignment (0.327) 和 Motion Fidelity (0.868) 上均优于 MotionDirector 和 MotionClone。FID (336.03) 也显著低于所有基线。
  • 对比 MC+AD-L (8steps) [14] 这是一个关键对比,它代表了直接将 MotionClone 应用于 AnimateDiff-Lightning。虽然其推理时间仅为 7 秒,但 Motion Fidelity 显著较低 (0.648),表明直接应用方法在蒸馏模型上效果不佳。本文方法在稍高的推理时间 (24s) 下,实现了显著更高的运动保真度 (0.868),证明了教师引导蒸馏的有效性。
  • 效率与质量: 即使在 4 步设置下,本文方法 (17s) 也能保持较高的 Motion Fidelity (0.854) 和较低的 FID (348.99),进一步验证了其灵活性和鲁棒性。

6.1.2. 定性评估

6.1.2.1. VideoCrafter2 基线对比

图 4 展示了基于 VideoCrafter2 的方法之间的定性比较。

Figure 4: Qualitative comparisons on VideoCrafter2-based methods. Our method enables unified object, camera, and hybrid motion transfer with high motion fidelity and low inference time.
该图像是图表,展示了基于VideoCrafter2的方法的定性比较。我们的方法实现了统一的对象、相机和混合运动转移,具有高运动保真度和低推理时间。

图 4: 基于 VideoCrafter2 的方法定性比较。我们的方法能够实现统一的对象、相机和混合运动转移,具有高运动保真度和低推理时间。

  • 观察: 相比于先前运动定制模型中常见的过度平滑 (over-smoothing) 和结构塌陷 (structural collapse) 问题,本文方法在保持空间细节的同时,实现了高运动保真度。这在诸如推拉镜头 (dolly zooms)、雪地森林 (snowy forests) 和复杂多对象场景 (complex multi-object scenes) 等挑战性场景中尤为明显。

6.1.2.2. AnimateDiff 基线对比

图 5 展示了基于 AnimateDiff 的方法之间的定性比较。

Figure 5: Qualitative comparisons on AnimateDiff-based methods. Our methods enables the effective transfer of object and camera motion.
该图像是图表,展示了基于AnimateDiff的方法在多种场景下的定性比较。通过我们的方法,可以有效转移物体和相机的运动,展示了不同条件下的生成效果。

图 5: 基于 AnimateDiff 的方法定性比较。我们的方法能够有效转移对象和相机运动。

  • 观察: 基于 AD-L 的本文方法相较于 MotionClone [14] 和 MotionDirector [9] 展现出更好的运动对齐 (motion alignment) 和时间一致性 (temporal consistency)。例如,本文方法能更有效地处理细微动作(如头部转动)和大型相机运动(如旋转岛屿),且伪影更少,漂移更小。这些视觉结果进一步验证了本文方法在不同蒸馏视频生成器上实现统一且高保真度运动转移的有效性,同时保持了高效推理。

6.1.3. 用户研究

以下是原文 Figure 6 的结果:

Figure 6: User study results.
该图像是一个用户研究结果的条形图,展示了在36个样本上不同方法在文本对齐、时间一致性、运动保真度和外观吸引力方面的胜率百分比。各方法的胜率分别为DMT、Motion Director、Our、Motion Clone和Motion Inversion,反映了性能的比较和优劣。结果表明,Our方法在运动保真度和外观吸引力方面表现出色。

图 6: 用户研究结果。

  • 设置: 针对基于 VideoCrafter2 的方法(DMT [15]、MotionClone [14]、MotionInversion [10]、MotionDirector [9])与本文方法 (MC+TurboV2 16 steps) 进行了用户研究。
    • 样本: 随机从 TurboBench 数据集中抽取 36 个视频编辑文本对。
    • 参与者: 邀请 50 名参与者。
    • 问题: 要求参与者从四个方面比较所有生成的视频:
      • Q1 Text Alignment (哪个视频更符合目标文本描述?)
      • Q2 Temporal Consistency (哪个视频在帧之间更一致?)
      • Q3 Motion Fidelity (哪个视频更好地再现了参考中的运动模式?)
      • Q4 Appearance Appealing (哪个视频在视觉上更具吸引力?)
  • 结果: 图 6 显示了每种方法在这四个方面的认可百分比。本文方法在用户反馈方面优于先前的运动定制模型,特别是在 Motion FidelityAppearance Appealing 方面获得了最高的认可度。

6.2. 消融实验/参数分析

为了评估本文测试时蒸馏框架中每个组件的效果,本文在 TurboV2 和 TurboBench 数据集上进行了消融研究。

以下是原文 Table 3 的结果:

Method Temporal Consistency (↑) Text Alignment (↑) Motion Fidelity (↑) Inference Time Cost (↓)
MD+TurboV2 (16 steps) 0.965 0.327 0.806 4s
MC+TurboV2 (16 steps) 0.967 0.324 0.833 7s
T2V-Turbo-V2(16 steps) 0.973 0.348 0.562 4s
+Motion guidance (MotionClone) 0.967 0.324 0.833 7s
+Inverted reference noise 0.968 0.329 0.896 7s
+Teacher guidance (MC+VideoCrafter2) 0.965 0.336 0.912 20s
+Adaptive acceleration strategy (Ours) 0.976 0.348 0.933 13s

表 3: 消融研究结果。

以下是原文 Figure 7 的结果:

Figure 7: Visualization of the ablation study results.
该图像是一个示意图,展示了不同运动引导方法在稀释视频生成模型中的效果比较。第一行展示了参考视频,接下来的行分别表现了在不同方法下生成的视频,包括应用反向噪声、教师指导和我们的自适应加速策略。图中包含关于雪地骑行和猴子玩椰子的动态视觉表现。

图 7: 消融研究结果的可视化。

  • T2V-Turbo-V2 (16 steps): 这是基线蒸馏模型,没有运动定制。它在 Text AlignmentTemporal Consistency 上表现良好,但 Motion Fidelity (0.562) 非常低,证实了蒸馏模型在运动定制方面的不足。推理时间为 4s。
  • +Motion guidance (MotionClone): 直接将 MotionClone 的运动引导应用于蒸馏模型。Motion Fidelity 显著提高到 0.833,但 Temporal ConsistencyText Alignment 略有下降,且推理时间增加到 7s。视觉结果(图 7 第二行)显示运动不稳定,追踪效果差。这表明直接应用运动引导会导致权衡,并且在蒸馏模型中效果不佳。
  • +Inverted reference noise:+Motion guidance 的基础上引入反演参考噪声初始化。Motion Fidelity 进一步提升到 0.896,并且 Text Alignment 也有所改善。这表明对齐动态先验和减少上下文偏差有助于运动定制,但生成的运动仍然不够精确。推理时间仍为 7s。
  • +Teacher guidance (MC+VideoCrafter2): 在上述基础上引入来自精细教师模型 (VideoCrafter2) 的测试时引导。Text Alignment 提升至 0.336,Motion Fidelity 显著提高到 0.912。这表明教师引导显著提升了文本对齐和运动保真度。然而,推理时间大幅增加到 20s,这是由于教师模型迭代去噪的开销。
  • +Adaptive acceleration strategy (Ours): 加入本文提出的自适应加速策略。在 Text Alignment (0.348)、Temporal Consistency (0.976) 和 Motion Fidelity (0.933) 上都达到了最佳性能。同时,推理时间从 20s 显著降低到 13s。这表明自适应加速策略有效减少了计算成本,同时保持了强大的性能,实现了质量和效率之间的最佳权衡。

6.2.1. 教师引导强度 λ\lambda 的影响 (附录 B.3)

以下是原文 Table 4 的结果:

λ Temporal Consistency (↑) Text Alignment (↑) Motion Fidelity (↑) FID (↓)
0.1 0.975 0.341 0.924 332.23
0.3 0.977 0.344 0.936 323.91
0.5 0.976 0.359 0.930 320.10

表 4: 教师引导强度 λ\lambda 影响的消融研究。

  • 分析:λ\lambda 从 0.1 增加到 0.3 时,Motion Fidelity 从 0.924 提高到 0.936,FID 从 332.23 降低到 323.91,表明教师引导增强了运动保真度。然而,当 λ\lambda 进一步增加到 0.5 时,Motion Fidelity 略有下降(0.930),但 Text Alignment 和 FID 仍有所改善。这表明 λ=0.3\lambda=0.3 在各项指标之间提供了最佳的整体权衡。

6.2.2. 运动引导强度 η\eta 的影响 (附录 B.3)

以下是原文 Table 5 的结果:

η Temporal Consistency (↑) Text Alignment (↑) Motion Fidelity (↑) FID (↓)
500 0.978 0.350 0.929 323.91
1000 0.973 0.341 0.935 327.77
2000 0.966 0.338 0.940 325.17

表 5: 运动引导强度 η\eta 影响的消融研究。

  • 分析: 运动引导强度 η\eta 控制模型遵循参考运动的严格程度。增加 η\eta 会提高 Motion Fidelity(从 0.929 到 0.940),但可能会降低 Text AlignmentTemporal Consistency,或在 η\eta 过强时引入时间伪影。例如,当 η\eta 从 500 增加到 2000 时,Temporal Consistency 从 0.978 降至 0.966,Text Alignment 从 0.350 降至 0.338。这表明需要仔细调整 η\eta 以平衡运动保真度和生成质量的其他方面。

6.2.3. 混合缩放因子 kk 的影响 (附录 B.3)

以下是原文 Table 6 的结果:

k Temporal Consistency (↑) Text Alignment (↑) Motion Fidelity (↑) FID (↓)
0.01 0.978 0.333 0.963 315.69
0.05 0.975 0.328 0.974 314.24
0.1 0.967 0.315 0.973 324.87

表 6: 相机运动定制中噪声初始化混合缩放因子 kk 影响的消融研究。

  • 分析: 在相机运动定制中,较小的 kk 值(如 0.01 和 0.05)能够更好地保持空间一致性和文本对齐。当 k=0.05k=0.05 时,Motion Fidelity 达到最高 (0.974),FID 达到最低 (314.24)。当 kk 增加到 0.1 时,Temporal ConsistencyText Alignment 有所下降,而 FID 升高,这表明过度依赖参考噪声可能会损害生成视频的整体质量和多样性。

    以下是原文 Table 7 的结果:

    k Temporal Consistency (↑) Text Alignment (↑) Motion Fidelity (↑) FID (↓)
    0.1 0.972 0.352 0.912 334.06
    0.3 0.972 0.351 0.923 329.28
    0.5 0.967 0.347 0.910 339.86

表 7: 混合和对象运动定制中噪声初始化混合缩放因子 kk 影响的消融研究。

  • 分析: 对于混合和对象运动定制,当 k=0.3k=0.3 时,Motion Fidelity 达到最高 (0.923),FID 达到最低 (329.28)。这表明对于不同类型的运动定制,最佳的混合因子 kk 值可能会有所不同,需要根据具体场景进行调整。

6.3. 其他定性结果 (附录 B.4)

6.3.1. 多样性

  • 对象运动定制: 图 8 展示了 MotionEcho 在对象运动定制中的强大适应性。

    Figure 8: More results of our method (MotionClone+T2V-Turbo-V2) in object motion customization.
    该图像是一个示意图,展示了我们的方法(MotionClone+T2V-Turbo-V2)在对象运动定制中的应用。图中展示了多个参考视频与生成的动作,其中包括探索者、鸭子、豹、老虎、猫和猴子的动态变化,体现了我们方法在保持生成质量的同时,实现运动定制的能力。

    图 8: 我们的方法 (MotionClone+T2V-Turbo-V2) 在对象运动定制中的更多结果。

    • 观察: 成功生成了各种主体的精细运动,例如在河中游泳的鸭子、抬头的虎、森林中转动的猴子等,保持语义一致性的同时反映了独特的对象行为。
  • 相机运动定制: 图 9 展示了 MotionEcho 在相机运动定制中的更多结果。

    Figure 9: More results of our method (MotionClone+T2V-Turbo-V2) in camera motion customization.
    该图像是展示了我们的方法(MotionClone+T2V-Turbo-V2)在不同摄像机运动自定义下生成的视频结果,包括顺时针旋转、下平移、远景缩放、上平移等多种场景变化。

    图 9: 我们的方法 (MotionClone+T2V-Turbo-V2) 在相机运动定制中的更多结果。

    • 观察: 忠实地再现了不同的相机轨迹,包括顺时针旋转、向下滑动、缩小、向上滑动等,捕捉了动态环境变化(如塔附近的烟花、雪地或森林场景)。这些结果验证了本文方法在各种运动类型和视觉背景下的鲁棒性。

6.3.2. 泛化性

  • 不同运动定制策略: 图 10 展示了我们的方法在不同运动定制策略下的定性结果。

    Figure 10: More qualitative results generated by our method under different motion customization strategies.
    该图像是生成的运动定制示例,展示了不同参考视频下的运动效果。第一行展示了爱尔兰海岸的波浪,第二行展示了一辆汽车在道路上行驶,第三行展示了一辆自行车在雪林中骑行,最后一行展示了一只火烈鸟在草地上行走。每个示例都对比了参考视频与我们的方法生成的图像。

    图 10: 我们的方法在不同运动定制策略下的更多定性结果。

    • 观察: 我们的框架在与 MotionClone [14] 和 MotionDirector [9] 结合时,性能保持一致,证实了其适应性和鲁棒性。
  • 不同基线模型: 图 11 展示了我们的方法 (MotionClone+AnimateDiff-Lightning) 在相机和对象运动定制中的更多结果。

    Figure 11: More results of our method (MotionClone+AnimateDiff-Lightning) in camera and object motion customization.
    该图像是插图,展示了我们的方法(MotionClone+AnimateDiff-Lightning)在相机和物体运动定制中的更多结果。图中包含多个参考场景及其生成的运动效果,展示了不同环境下的动态生成能力。

    图 11: 我们的方法 (MotionClone+AnimateDiff-Lightning) 在相机和对象运动定制中的更多结果。

    • 观察: 我们的方法在与 AnimateDiff-Lightning [2] 和 AnimateDiff [41] 等不同学生和教师模型组合时,仍然能生成稳定和高质量的运动定制视频。

6.3.3. 对齐

图 12 定性展示了我们的方法在将运动表示与参考视频对齐方面的有效性,表现出强大的空间和时间一致性。

Figure 12: Visualization of motion representation.
该图像是示意图,展示了运动表示的可视化效果。其中包括参考图像和自定义生成的运动表示,分别展示了在不同场景(如生态太阳能电池板和沙漠)中捕获的运动模式。每组展示了相应的运动表示,搭配描述性文字以提高理解。

图 12: 运动表示的可视化。

6.3.4. 比较示例

  • 相机运动: 图 13 展示了在相机运动定制中的额外比较结果。

    该图像是一个示意图,展示了不同视频生成模型在动态运动定制任务中的表现,各行分别为不同的方法,包括参考视频、ControlVideo、DMT、MotionClone等。最后三行显示了我们的方法(MotionClone+T2V-Turbo-V2)在16步、8步和4步生成步骤下的效果,体现了动态分配计算的高效性。
    该图像是一个示意图,展示了不同视频生成模型在动态运动定制任务中的表现,各行分别为不同的方法,包括参考视频、ControlVideo、DMT、MotionClone等。最后三行显示了我们的方法(MotionClone+T2V-Turbo-V2)在16步、8步和4步生成步骤下的效果,体现了动态分配计算的高效性。

    图 13: 罗马士兵站在罗马斗兽场前,拍摄有推拉镜头。相机运动定制中的额外比较结果。

  • 混合运动: 图 14、图 15、图 16 展示了在混合运动定制中的额外比较结果。

    Figure 14: Additional comparison results in hybrid motion customization.
    该图像是图表,展示了多种视频生成方法在混合动作定制上的比较结果,包括参考视频和不同方法生成的视频效果,最后一行展示了我们的方法在不同步骤下的表现。

    图 14: 混合运动定制中的额外比较结果。

    Figure 15: Additional comparison results in hybrid motion customization.
    该图像是图表,展示了不同方法在混合运动定制中的效果比较。上方是参考视频,下方依次为不同生成模型的输出,包括 ControlVideo、Control-A-Video、DMT、MotionDirector、MotionClone、MotionInversion 以及我们的方法(MotionClone+T2V-Turbo-V2)在不同步长下的生成结果,最下方展示了一艘船在海上航行的效果。

    图 15: 混合运动定制中的额外比较结果。

    该图像是一个示意图,展示了不同方法生成的动态视频帧,包括参考视频、ContolVideo、Control-A-Video、DMT、MotionDirector、MotionClone、MotionInversion以及我们的方法(MotionClone+T2V-Turbo-V2在不同步长下的结果)。
    该图像是一个示意图,展示了不同方法生成的动态视频帧,包括参考视频、ContolVideo、Control-A-Video、DMT、MotionDirector、MotionClone、MotionInversion以及我们的方法(MotionClone+T2V-Turbo-V2在不同步长下的结果)。

    图 16: 一条鱼在湖中游泳。混合运动定制中的额外比较结果。

  • 对象运动: 图 17、图 18 展示了在对象运动定制中的额外比较结果。

    该图像是一个示意图,展示了不同视频生成模型在运动定制任务中的生成效果对比。图中包含参考视频和多个模型(如ControlVideo、DMT、MotionDirector等)生成的视频帧,强调了本研究提出的MotionEcho方法在运动保真度和生成质量方面的优越性。
    该图像是一个示意图,展示了不同视频生成模型在运动定制任务中的生成效果对比。图中包含参考视频和多个模型(如ControlVideo、DMT、MotionDirector等)生成的视频帧,强调了本研究提出的MotionEcho方法在运动保真度和生成质量方面的优越性。

    图 17: 一只狐狸坐在雪山中。对象运动定制中的额外比较结果。

    Figure 18: Additional comparison results in object motion customization.
    该图像是图表,展示了不同方法在物体运动定制方面的比较结果。第一行是参考视频,展示一个女孩在做跳跃运动。接下来的行分别为ControlVideo、Control-A-Video、DMT、MotionDirector和MotionClone等模型的输出,最后几行是本文方法的结果,分别展示了不同步数下的生成视频,内容为一个男孩在做类似的跳跃运动。

    图 18: 对象运动定制中的额外比较结果。

  • 总体观察: 在 16 步设置下,我们的方法在运动保真度和时间连贯性方面表现出卓越的性能。值得注意的是,即使在步数减少到 8 步或 4 步时(显著降低了推理时间),我们的方法仍能达到有竞争力的视觉质量,这突出了其在快速和高质量运动定制方面的效率和鲁棒性。

6.4. 人类偏好调查的额外细节 (附录 B.5)

  • 实施方式: 通过在线调查问卷形式进行。

  • 结构: 每个部分对应一个特定的测试案例,包括一个参考视频、一个给定的提示以及由我们方法和基线模型生成的视频。

  • 问题: 调查员需要回答四个问题(Q1-Q4),对应于图 19、图 20、图 21 和图 22。

  • 匿名性与隐私: 调查员通过在线平台招募,确保匿名,隐私和身份信息全程保密。

  • 资格要求: 每位调查员至少需要拥有学士学位。

  • 数据分析: 收集到的回复将进行聚合,以对不同方法在用户感知质量方面进行比较分析。

    以下是原文 Figure 19-22 的结果,展示了调查问卷的截图:

    该图像是插图,展示了运动定制的过程,体现了MotionEcho框架的应用。该框架通过扩散教师引导快速学生模型的推断,优化了生成质量和运动保真度,展示了我们方法的有效性。 该图像是插图,展示了运动定制的过程,体现了MotionEcho框架的应用。该框架通过扩散教师引导快速学生模型的推断,优化了生成质量和运动保真度,展示了我们方法的有效性。

图 19: 人类偏好调查的截图:哪个视频更符合目标文本描述?

该图像是插图,展示了一位消防员在森林火灾现场的情景。图中消防员正面朝着火灾,身后是燃烧的森林,展示了火灾的严重性和紧迫感。
该图像是插图,展示了一位消防员在森林火灾现场的情景。图中消防员正面朝着火灾,身后是燃烧的森林,展示了火灾的严重性和紧迫感。

图 20: 人类偏好调查的截图:哪个视频在帧之间更一致?

该图像是一个视频生成模型的示意图,展示了运动定制的概念。该模型通过高质量教师模型引导快速学生模型的推理过程,从而提高生成的视频的运动逼真度和质量。
该图像是一个视频生成模型的示意图,展示了运动定制的概念。该模型通过高质量教师模型引导快速学生模型的推理过程,从而提高生成的视频的运动逼真度和质量。

图 21: 人类偏好调查的截图:哪个视频更好地再现了参考中的运动模式?

Figure 20: The screenshot of human preference investigation: Which video is more consistent across frames?
该图像是关于人类偏好调查的截图,展示了不同视频在画面一致性方面的比较。

图 22: 人类偏好调查的截图:哪个视频在视觉上更具吸引力?

7. 总结与思考

7.1. 结论总结

本文提出了 MotionEcho,一个无需训练的框架,用于在快速蒸馏文本到视频扩散模型中实现高效的运动定制。针对现有无需训练方法在蒸馏模型上因粗糙去噪和采样不匹配而表现不佳的问题,MotionEcho 引入了基于运动可控教师模型的测试时蒸馏,通过基于得分的监督来指导学生模型。此外,一个自适应加速策略被设计用于动态平衡运动保真度和效率。大量的实验结果表明,MotionEcho 显著提高了运动一致性和视觉质量,同时保持了快速生成速度,在多个基准和蒸馏模型上优于现有最先进的训练基和无需训练方法。

7.2. 局限性与未来工作

  • 局限性: 与大多数无需训练方法类似,MotionEcho 缺乏在推理过程中进行循环质量检查的机制。这意味着模型生成结果后,无法在生成过程中自动检测并修正可能存在的质量问题。
  • 未来工作:
    • 质量检查机制: 计划研究在测试时评估和确保输出质量的策略。
    • 模型泛化性扩展: 旨在将方法扩展到更广泛的基础模型上。
    • 进一步加速: 探索进一步加速生成过程的机会。

7.3. 个人启发与批判

7.3.1. 个人启发

  • 巧妙利用模型特性: 这篇论文的创新点在于,它没有试图“改造”蒸馏模型来适应传统方法,而是巧妙地利用了“教师-学生”模型的固有特性。通过慢速、高质量的教师模型提供精细指导,来弥补快速、粗糙的学生模型在运动定制方面的不足,这种“优势互补”的思路非常值得借鉴。
  • 兼顾效率与质量的范式: 在 AI 应用中,推理效率和生成质量往往是一对矛盾。MotionEcho 提出的自适应加速策略,通过动态激活和截断教师引导,展示了如何在两者之间取得一个优秀的平衡点。这对于实时或低资源场景下的生成任务具有很强的指导意义。
  • 无需训练的巨大潜力: 无需训练的方法在灵活性和易用性方面具有巨大优势,避免了繁琐的训练过程和高昂的计算成本。MotionEcho 再次证明了在特定任务中,通过巧妙的推理时优化,无需训练的方法也能达到甚至超越训练基方法的性能。
  • 可解释性与控制力: 运动定制任务本身就强调对生成内容的精细控制。MotionEcho 通过运动损失梯度和教师引导,提供了对运动模式更强的控制力,这对于内容创作者和特定应用场景(如电影特效、游戏动画)至关重要。

7.3.2. 潜在问题、未经验证的假设或可以改进的地方

  • 教师模型的选择和可用性: 论文假设存在一个“高质量、慢速”的教师模型。在实际应用中,找到这样一个合适的教师模型可能并非总是容易,尤其是在某些特定领域或数据稀缺的场景下。教师模型的性能上限将直接限制学生模型能达到的运动保真度。
  • 超参数调优的复杂性: 论文中提到了多个超参数,如混合缩放因子 kk、运动引导强度 η\eta、教师引导强度 λ\lambda、步进式激活阈值 δ1\delta_1、动态截断阈值 δ2\delta_2 和窗口大小 WW。虽然进行了消融实验,但在实际应用中,针对不同的任务、数据集和模型,这些超参数的精细调优可能仍然是一个耗时且需要经验的过程。
  • 运动损失函数 Gm\mathcal{G}^m 的设计: 论文中运动损失函数依赖于一个提取运动特征的函数 A()\mathcal{A}(\cdot) 和一个时间掩码 MtαrefM_{t_\alpha}^{\mathrm{ref}}。这些组件的具体实现和其提取运动特征的鲁棒性将直接影响运动保真度。特别是对于非常复杂或抽象的运动,如何设计出普适且有效的 A()\mathcal{A}(\cdot) 仍是一个挑战。
  • “循环质量检查”的缺失: 论文也指出了缺乏循环质量检查机制是一个局限性。这意味着模型生成视频后,无法在生成过程中对其进行迭代改进。未来的研究可以探索如何将实时的反馈机制(例如,通过一个额外的质量评估模型)集成到推理循环中,以进一步提升生成视频的质量和鲁棒性。
  • 计算开销的衡量: 尽管自适应加速策略显著降低了计算开销,但教师模型在被激活时仍然是“慢速”的。在推理时间成本的比较中,虽然总体时间降低,但对于那些对延迟有极高要求的实时应用来说,即使是 13 秒的推理时间也可能过长。对不同应用场景下的计算效率边界进行更细致的分析会更有价值。
  • 环境影响: 虽然“无需训练”降低了训练阶段的能耗,但推理阶段的计算开销,特别是当教师模型被频繁激活时,仍需考虑其环境影响。在未来,可以探索更轻量级的教师模型或更高效的蒸馏策略,以进一步优化能源消耗。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。