MotionClone: Training-Free Motion Cloning for Controllable Video Generation
TL;DR 精炼摘要
该研究提出了MotionClone,一个免训练的运动克隆框架,支持从参考视频生成可控视频,涵盖文本到视频和图像到视频的任务。通过稀疏时间注意力权重提取运动表示,MotionClone在运动保真度、文本对齐和时间一致性方面均表现出色,提升了视频生成的效率与灵活性。
摘要
Motion-based controllable video generation offers the potential for creating captivating visual content. Existing methods typically necessitate model training to encode particular motion cues or incorporate fine-tuning to inject certain motion patterns, resulting in limited flexibility and generalization. In this work, we propose MotionClone, a training-free framework that enables motion cloning from reference videos to versatile motion-controlled video generation, including text-to-video and image-to-video. Based on the observation that the dominant components in temporal-attention maps drive motion synthesis, while the rest mainly capture noisy or very subtle motions, MotionClone utilizes sparse temporal attention weights as motion representations for motion guidance, facilitating diverse motion transfer across varying scenarios. Meanwhile, MotionClone allows for the direct extraction of motion representation through a single denoising step, bypassing the cumbersome inversion processes and thus promoting both efficiency and flexibility. Extensive experiments demonstrate that MotionClone exhibits proficiency in both global camera motion and local object motion, with notable superiority in terms of motion fidelity, textual alignment, and temporal consistency.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
MotionClone: Training-Free Motion Cloning for Controllable Video Generation
1.2. 作者
Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin
- Pengyang Ling, Huaian Chen, Yi Jin: 中国科学技术大学 (University of Science and Technology of China)
- Jiazi Bu: 上海交通大学 (Shanghai Jiao Tong University)
- Tong Wu: 香港中文大学 (The Chinese University of Hong Kong)
- Pan Zhang, Xiaoyi Dong, Yuhang Zang, Jiaqi Wang: 上海人工智能实验室 (Shanghai AI Laboratory)
1.3. 发表期刊/会议
该论文以预印本 (preprint) 形式发布在 arXiv 平台。arXiv 是一个开放获取的预印本服务器,在人工智能和计算机视觉领域具有广泛的影响力,许多重要研究成果在正式发表前都会在此发布。
1.4. 发表年份
2024年
1.5. 摘要
基于运动的可控视频生成在创建引人入胜的视觉内容方面具有巨大潜力。现有方法通常需要模型训练来编码特定的运动线索,或通过微调 (fine-tuning) 来注入某些运动模式,这导致了灵活性和泛化能力的局限性。在这项工作中,我们提出了 MotionClone,一个免训练 (training-free) 框架,它能够从参考视频中克隆运动,实现多功能的运动控制视频生成,包括文本到视频 (text-to-video, T2V) 和图像到视频 (image-to-video, I2V)。基于时间注意力图 (temporal-attention maps) 中的主导分量驱动运动合成,而其余部分主要捕捉噪声或非常细微的运动这一观察,MotionClone 利用稀疏的时间注意力权重 (sparse temporal attention weights) 作为运动表示 (motion representations) 进行运动指导 (motion guidance),从而促进在不同场景中的多样化运动迁移。同时,MotionClone 允许通过单个去噪步骤直接提取运动表示,绕过了繁琐的逆向过程 (inversion processes),从而提高了效率和灵活性。大量的实验表明,MotionClone 在全局相机运动 (global camera motion) 和局部物体运动 (local object motion) 方面都表现出色,并在运动保真度 (motion fidelity)、文本对齐 (textual alignment) 和时间一致性 (temporal consistency) 方面具有显著优势。
1.6. 原文链接
https://arxiv.org/abs/2406.05338 发布状态:预印本 (preprint),已发布 v6 版本。
2. 整体概括
2.1. 研究背景与动机
核心问题: 现有运动控制视频生成方法在灵活性和泛化能力上存在局限性。 为什么重要: 随着文本到图像 (text-to-image, T2I) 和图像到视频 (image-to-video, I2V) 扩散模型 (diffusion models) 的进步,视频生成领域受到了广泛关注。然而,视频生成比图像生成更具挑战性,主要在于运动合成的复杂性。在视频生成中引入额外的运动控制不仅可以缓解视频合成中固有的模糊性,从而实现更卓越的运动建模,还可以增强合成内容的可操作性,实现定制化创作。
现有挑战或空白:
- 训练/微调依赖: 大多数现有方法需要对模型进行特定训练来编码运动线索,或进行微调以注入特定运动模式,这限制了其灵活性和在新场景下的泛化能力。
- 运动线索与结构耦合: 基于深度图或草图等密集运动线索的方法,其运动信息往往与参考视频的结构元素纠缠不清,这阻碍了运动在新场景中的可迁移性。
- 细粒度运动控制不足: 基于运动轨迹的方法虽然用户友好,但难以描绘更精细的局部运动,例如头部转动或手部抬起。
- 效率问题: 为了从真实视频中提取运动表示,通常需要进行耗时且计算量大的视频逆向 (video inversion) 过程。
论文切入点或创新思路:
MotionClone 的核心思想是观察到视频生成模型中 temporal-attention maps 的主导分量 (dominant components) 能够有效驱动运动合成。通过提取这些稀疏的主导分量作为运动表示,可以避免与参考视频结构元素的纠缠,实现免训练的、灵活的运动克隆。此外,该方法通过单次去噪步骤 (single denoising step) 直接提取运动表示,大大提高了效率。
2.2. 核心贡献/主要发现
- 提出免训练运动克隆框架 MotionClone: 引入了一个新颖的、免训练的运动引导视频生成框架
MotionClone,能够从给定的参考视频中克隆运动。 - 设计主导运动控制策略: 提出了一种主导运动控制策略,通过稀疏时间注意力图 (sparse temporal attention map) 进行实质性运动指导,从而在不同场景中实现高效的运动迁移。
- 高效运动表示提取: 发现通过单个去噪步骤即可直接提取有效的运动表示,避免了繁琐的视频逆向过程,提高了效率和灵活性。
- 广泛的适用性和优越性: 验证了
MotionClone在各种视频生成任务中的有效性和通用性,包括T2V和I2V。实验证明其在全局相机运动 (global camera motion) 和局部物体动作 (local object action) 方面均表现出色,并在运动保真度 (motion fidelity)、文本对齐 (textual alignment) 和时间一致性 (temporal consistency) 方面具有显著优势。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 扩散模型 (Diffusion Models)
扩散模型是一类生成模型,它通过模拟一个逐渐向数据添加噪声的前向扩散过程,然后学习一个逆向去噪过程来生成新的数据。
- 前向扩散过程: 逐步向真实数据 添加高斯噪声,生成一系列带噪声的数据 。当 足够大时, 最终会变成纯高斯噪声。
- 逆向去噪过程: 训练一个神经网络(通常是 U-Net 结构)来预测在给定当前带噪声数据 的情况下,需要移除的噪声 。通过从 开始,逐步减去预测的噪声,模型可以逆转扩散过程,最终得到清晰的数据 。
- 潜在空间 (Latent Space): 为了提高效率和处理高分辨率数据,许多扩散模型(如潜在扩散模型
Latent Diffusion Models, LDM)首先使用一个预训练的编码器将高维数据(如图像、视频)压缩到低维的潜在空间 (latent space) 进行扩散和去噪操作,然后再通过解码器恢复到原始数据空间。
3.1.2. 分类器自由引导 (Classifier-Free Guidance)
在扩散模型中,为了在生成过程中更好地遵循给定的条件(如文本提示 ),通常会使用分类器自由引导。它通过结合有条件生成(conditioned generation)和无条件生成(unconditioned generation)的噪声预测,来增强生成结果对条件的依从性。其核心思想是,有条件预测 提供了遵循条件的方向,而无条件预测 (其中 是空条件,如空文本)则提供了基础的生成方向。通过从无条件预测中减去有条件预测,可以得到一个梯度方向,指示如何更强地遵循条件,然后将这个梯度方向按比例添加到有条件预测中。
3.1.3. 自注意力机制 (Self-Attention Mechanism)
自注意力机制是 Transformer 架构中的核心组件,它允许模型在处理序列数据时,动态地为序列中的每个元素计算其与其他所有元素的相关性(注意力权重),然后基于这些权重对所有元素进行加权求和,得到该元素新的表示。
其基本计算公式如下:
其中:
- (Query), (Key), (Value) 是输入经过线性变换得到的三个矩阵。它们可以看作是查询、键和值。
- 计算查询与所有键的点积,表示每个查询对每个键的关注程度。
- 是一个缩放因子,用于防止点积过大导致
softmax函数的梯度消失, 是键向量的维度。 softmax函数将点积结果归一化为概率分布,表示注意力权重。- 注意力权重与 相乘,得到加权后的值向量和。
3.1.4. 时间注意力机制 (Temporal Attention Mechanism)
时间注意力机制是自注意力机制在视频领域的一种特定应用。在视频生成模型中,它旨在捕获视频帧之间的时序关联。与处理单个序列的自注意力不同,时间注意力通常沿着视频的帧轴 (frame axis) 执行。对于视频的某个潜在特征表示,它会将视频的不同帧视为序列中的元素,然后计算这些帧之间的注意力,从而学习帧之间的运动和时序依赖关系。这使得模型能够理解和生成连贯的、具有特定运动模式的视频。
3.2. 前人工作
3.2.1. 文本到视频 (Text-to-Video, T2V) 扩散模型
- VideoLDM (Blattmann et al., 2023b): 通过引入运动模块,利用 3D 卷积 (3D convolutions) 和时间注意力 (temporal attention) 来捕捉帧间关联,是 T2V 领域的重要进展。
- AnimateDiff (Guo et al., 2023b): 在预训练的 T2I 扩散模型基础上,通过微调 (fine-tuning) 一系列专门的时间注意力层,使其具备运动建模能力,从而融合 T2I 的强大生成能力和视频的动态特性。
- VideoCraft2 (Chen et al., 2024): 提出了一种新策略,从低质量视频中学习运动,同时从高质量图像中学习外观,以解决高质量视频数据稀缺的问题。
- 共同挑战: 尽管这些模型取得了进步,但与 T2I 模型相比,T2V 生成内容的质量仍存在差距,主要原因在于多样化运动的复杂性以及高质量视频数据的有限性。
3.2.2. 可控视频生成 (Controllable Video Generation)
借鉴图像生成中引入额外条件 (Zhang et al., 2023; Kim et al., 2023) 的成功经验,视频生成也尝试引入多种控制信号:
- 第一帧控制 (First Frame Control): 如
Control-A-Video(Chen et al., 2023b),控制视频的起始帧。 - 运动轨迹控制 (Motion Trajectory Control): 如
DragNUWA(Yin et al., 2023),控制物体的运动路径。 - 运动区域控制 (Motion Region Control): 如
AnimateAnything(Dai et al., 2023),控制视频中特定区域的运动。 - 运动对象控制 (Motion Object Control): 如
Follow-your-click(Ma et al., 2024),控制特定对象的运动。 - 基于参考的视频生成 (Reference-based Video Generation):
- 密集特征集成 (Dense Feature Integration):
VideoComposer(Wang et al., 2024)、Gen-1(Esser et al., 2023) 通过直接集成帧级深度图 (depth maps) 或 Canny 边缘图 (canny maps) 来规范运动。局限性: 这种方法会将运动无关的结构元素(如静态区域的结构)引入,干扰新文本指导下视频外观的对齐。 - 运动特定微调 (Motion-specific Fine-tuning): 如
VMC(Jeong et al., 2023) 和MotionDirector(Zhao et al., 2023),旨在从单个视频或一组具有相同运动的视频中提取独特的运动模式。局限性: 这些方法通常涉及复杂的训练过程和潜在的模型性能退化。
- 密集特征集成 (Dense Feature Integration):
3.3. 注意力特征控制 (Attention Feature Control)
注意力机制在高质量内容生成中被证实至关重要:
- Prompt2Prompt (Hertz et al., 2022): 揭示了交叉注意力图 (cross-attention maps) 在决定合成图像空间布局中的作用,启发了语义保持、多对象生成和视频编辑等工作。
- AnyV2V (Ku et al., 2024): 表明密集注入
CNN和注意力特征有助于视频编辑中与源视频更好地对齐。 - FreeControl (Mo et al., 2023): 强调自注意力层内的特征空间编码了图像的结构信息,促进了基于参考的图像生成。
- 本文工作的区别: 尽管前人工作主要关注空间注意力层,本文工作深入挖掘了时间注意力层 (temporal attention layers) 在有效运动指导方面的潜力,实现了灵活的运动克隆。
3.4. 差异化分析
MotionClone 与现有方法的主要区别在于:
- 免训练 (Training-Free): 与需要训练或微调以编码特定运动模式的方法(如
AnimateDiff,VMC)不同,MotionClone无需任何额外的模型训练或特定运动的微调。 - 灵活性和泛化性: 通过利用稀疏时间注意力权重作为运动表示,
MotionClone避免了运动与参考视频结构元素的紧密耦合,从而在多样化场景中实现了更灵活的运动迁移,解决了密集运动线索难以泛化的问题。 - 效率 (Efficiency): 采用单次去噪步骤直接提取运动表示,避免了传统视频逆向 (video inversion) 过程中耗时且繁琐的计算,显著提高了效率。
- 精细与全局运动控制: 能够同时处理全局相机运动和局部物体运动,弥补了轨迹基方法在捕捉精细局部运动上的不足。
4. 方法论
在本节中,我们首先介绍视频扩散模型和时间注意力机制。然后,我们探讨了对稀疏时间注意力图进行主导控制 (primary control) 以实现实质性运动指导的潜力。最后,我们详细阐述了所提出的 MotionClone 框架,该框架通过有目的地操纵时间注意力权重来执行运动克隆。
4.1. 预备知识
4.1.1. 扩散采样 (Diffusion Sampling)
遵循开创性工作 (Rombach et al., 2022),视频扩散模型通过预训练编码器 将输入视频 编码为潜在表示 。为了学习视频分布,扩散模型 被训练来估计带噪声潜在表示 中的噪声分量 ,该噪声分量遵循时间依赖的调度器 (Ho et al., 2020)。这可以用以下损失函数表示:
其中:
-
是用于训练扩散模型的损失函数,旨在优化模型参数 。
-
表示期望,取自数据分布 、噪声分布 和时间步分布 。
-
是输入视频 经过编码器 得到的潜在表示 。
-
是从标准高斯分布 中采样的噪声,在训练过程中被添加到潜在表示中。
-
是时间步,从均匀分布 中采样,表示扩散过程中的某个时间点。
-
是扩散过程的总时间步数。
-
是由参数为 的神经网络预测的噪声,输入是当前时间步 的带噪声潜在表示 、条件信号 和时间步 。
-
表示 L2 范数的平方,即预测噪声与真实噪声之间的均方误差。
在推理阶段,采样过程从标准高斯噪声开始。然而,可以通过引入指导 (guidance) 来调整采样轨迹以增加可控性。这通常通过结合能量函数 和标签 来指示指导方向实现,公式如下:
其中:
-
是修正后的噪声预测,用于下一步的去噪。
-
是有条件预测的噪声,基于条件 。
-
是分类器自由引导 (classifier-free guidance) 中的无条件预测噪声。
-
表示无条件类别标识符,例如文本条件中的空文本 (null text)。
-
是分类器自由引导的权重,控制条件对生成结果的影响强度。
-
是能量函数 的指导权重,控制运动指导的强度。
-
是能量函数 对潜在表示 的梯度,它指示了向目标 引导的方向。
-
项用于将能量函数 的梯度转换为噪声预测。
-
是噪声调度 (noise schedule) 的超参数,关系到 。
在采样过程中,能量函数 产生的梯度指示了生成目标的方向。
4.1.2. 时间注意力 (Temporal Attention)
在视频运动合成中,时间注意力机制被广泛应用于建立帧间的关联。给定一个 帧的视频特征 ,其中 表示批次大小, 表示帧数, 表示通道数, 和 分别是空间分辨率的高度和宽度。时间注意力首先将其重塑为 3D 张量 ,通过将空间维度合并到批次大小中。随后,它沿着帧轴执行自注意力,可以表示为:
其中:
- 是经过时间注意力处理后的输出特征。
- 是投影层 (projection layers),它们将输入特征 转换为查询 (Query)、键 (Key) 和值 (Value) 矩阵。
Attention函数指的是标准的自注意力计算,如Section 3.1.3中所述。 相应地,注意力图被标记为 ,它捕获了每个像素特征在不同帧之间的时序关系。
4.2. 观察 (Observation)
由于时间注意力机制控制着生成视频中的运动,因此具有相似时间注意力图的视频有望共享相似的运动特征。为了验证这一假设,作者通过将生成视频的时间注意力图与参考视频的时间注意力图对齐来操纵采样轨迹。
图 2 展示了两种控制方式的对比。
-
Plain Control (简单控制): 指的是将所有时间注意力权重统一应用的简单方法。这种方法只能部分恢复参考视频的粗略运动模式(例如猫的步态和坦克的方向移动),运动对齐能力有限。
-
Primary Control (主导控制): 仅对稀疏时间注意力图施加约束。这种方法显著提升了运动对齐效果。
作者推测,这是因为并非所有时间注意力权重都对运动合成至关重要,有些可能反映场景特定的噪声或极其微小的运动。不加区分地与整个时间注意力图对齐会稀释关键的运动指导,导致在新场景中运动克隆效果不佳。相比之下,对稀疏时间注意力图进行主导控制,通过强调与运动相关的线索而忽略运动无关的因素,显著增强了运动对齐。
该图像是示意图,展示了参考视频生成的图像如何在不同控制方式下表现。左侧为参考视频,右侧为根据提示生成的视频,分别为不控制、一般控制和主要控制的生成结果。结果显示,主要控制在稀疏时间注意力图的指导下,能够更好地传达运动特征和稳定性。
以下是原文 Figure 2 的结果: 图 2: 稀疏时间注意力图上的简单控制与主导控制的比较。利用从参考视频中提取的时间注意力图来指导视频生成。简单控制指所有权重均匀应用的初级方法。主导控制仅对稀疏时间注意力图应用约束。
4.3. 运动表示 (Motion Representation)
给定一个参考视频,在第 个去噪步骤中对应的时序注意力图表示为 。该注意力图满足 。值 反映了位置 处第 帧和第 帧之间的关系,较大的值意味着更强的关联。
运动指导通过能量函数 来建模,其形式如下:
其中:
- 是能量函数,作为梯度引导项的一部分。
- 是在时间步 的掩码 (mask)。
- 是参考视频在时间步 的时间注意力权重。
- 是生成视频在时间步 的时间注意力权重。
- 表示逐元素乘法 (element-wise multiplication)。
- 表示 L2 范数的平方。
本质上,
Eq. 4通过强制 接近 来促进运动克隆,而 确保了只有特定部分对齐。因此, 构成了运动指导。特别地,当 时,这指的是“简单控制”方法,其运动迁移能力有限,如图 2所示。
由于 的值表示帧间关联的强度,作者提出根据 沿时间轴 的值排序来获得稀疏时间掩码 ,即:
其中:
- 是掩码在位置 、第 帧与第 帧之间的元素。
- 是由注意力图 沿时间轴 的前 个最大值索引组成的子集。
- 当 时,运动指导只关注每个空间位置的最高激活。
在
Eq. 5的监督下,Eq. 4中的运动指导鼓励与 中的主要分量进行稀疏对齐,同时确保空间上均匀的约束,从而促进稳定可靠的运动迁移。
尽管上述方案能够有效地进行运动克隆,但仍存在明显缺陷:
-
繁琐的逆向操作: 对于真实的参考视频,准备 需要耗时且劳动密集型的逆向操作。
-
可伸缩性挑战: 存储和部署每个时间步的 组合在扩展和高效部署方面带来了显著挑战。
幸运的是,作者观察到从某个去噪步骤提取的表示可以在整个生成过程中提供实质且一致的运动指导。数学上,
Eq. 4中的运动指导可以转换为:
其中:
- 表示某个特定的时间步,通常是在去噪过程的较晚阶段。
- 是在 步时参考视频的注意力图经过掩码后的稀疏运动表示。
- 对应的运动表示被记为 ,它由两个高度稀疏的元素组成。 对于真实的参考视频,其 可以通过直接添加噪声使其进入 时间步的带噪声潜在表示,然后执行单次去噪步骤来轻松获得。
这种直接的策略被证明非常有效。如 图 3 所示,在较大的时间步范围 ( 从 200 到 600), 的平均强度能够有效地突出运动的区域和幅度。然而,也观察到在早期去噪阶段 时, 在“头部转动”这种复杂场景中表现出一些差异。这可以归因于在该早期阶段,运动合成尚未完全确定。因此,作者建议采用来自较晚去噪阶段的运动对齐的 来指导整个采样过程中的运动合成,从而为卓越的运动对齐提供实质且一致的运动指导。

该图像是图表,展示了不同时间步 (800, 600, 400, 200)下的运动特征表示。上半部分为视频帧示例,显示了不同时间点的场景变化;下半部分呈现了对应的运动表示的稀疏时间注意权重,反映了运动区域和强度的分布。
以下是原文 Figure 3 的结果: 图 3: 运动表示的可视化。来自“up_blocks.1”的 在帧轴上的平均强度(调整到所表示的分辨率)指示了运动的区域和幅度。当 时,这种性能在复杂的“头部转动”场景中会出现下降。
4.4. 运动指导 (Motion Guidance)
MotionClone 的整体流程如 图 4 所示。
-
运动表示提取: 给定一个真实的参考视频,通过执行单次噪声添加和去噪步骤来获得对应的运动表示 。
-
视频生成: 在视频生成过程中,首先从标准高斯分布初始化一个潜在表示。
-
迭代去噪: 随后,这个潜在表示通过预训练的视频扩散模型进行迭代去噪过程。
-
双重指导: 去噪过程同时受到分类器自由引导和所提出的运动指导的双重指导。 鉴于图像结构在去噪过程的早期阶段被确定 (Hertz et al., 2022),而运动保真度主要取决于每帧的结构,运动指导仅涉及早期的去噪步骤。这为语义调整提供了足够的灵活性,从而实现了具有引人注目的运动保真度和精确文本对齐的高质量视频生成。
该图像是图示,展示了MotionClone的管道,其中从参考视频中提取的运动表示 用作新视频合成的运动指导。图中包括了噪声添加、时间步降序及运动指导阶段等关键步骤,展示了如何生成受到特定运动控制的多样化视频。
以下是原文 Figure 4 的结果: 图 4: MotionClone 的流程图,其中从参考视频中提取的运动表示 在新视频合成中作为运动指导。
5. 实验设置
5.1. 数据集
为了进行实验评估,作者使用了 40 个来自 DAVIS (Pont-Tuset et al., 2017) 和其他网站的真实视频进行全面分析。这些视频包括 15 个相机运动视频和 25 个物体运动视频。这些视频涵盖了丰富的运动类型和场景,从动物和人类的动态运动到全局相机运动。
5.2. 评估指标
为了进行客观评估,作者采用了两个常用的指标:
-
文本对齐 (Textual Alignment):
- 概念定义: 量化生成视频与所提供文本提示的一致性。它评估生成内容在多大程度上符合文本描述。
- 数学公式: 该指标通过计算所有视频帧与文本提示之间的
CLIP相似度的平均值来衡量。 - 符号解释:
- :视频的总帧数。
- :第 帧图像经过
CLIP(Radford et al., 2021) 图像编码器提取的特征向量。 - :文本提示经过
CLIP文本编码器提取的特征向量。 - :余弦相似度函数,用于衡量两个向量方向上的一致性。余弦相似度值介于 -1 和 1 之间,值越高表示相似度越高。
-
时间一致性 (Temporal Consistency):
- 概念定义: 量化视频的流畅度,即连续帧之间视觉内容的平滑过渡程度。高时间一致性意味着视频中没有突兀的跳跃或不连贯的画面。
- 数学公式: 该指标通过计算连续视频帧之间的
CLIP相似度的平均值来量化。 - 符号解释:
-
:视频的总帧数。
-
:第 帧图像经过
CLIP图像编码器提取的特征向量。 -
:第 帧图像经过
CLIP图像编码器提取的特征向量。 -
:余弦相似度函数。
除了客观指标,作者还采用了用户研究 (user study) 来更细致地评估人类对视频质量的偏好,包括以下两个额外标准:
-
-
运动保真度 (Motion Preservation): 评估运动与参考视频的一致性。
-
外观多样性 (Appearance Diversity): 评估生成视频在视觉范围和多样性方面与参考视频的对比。 用户研究得分由 20 名志愿者提供的平均评分得出,范围从 1 到 5。
5.3. 对比基线 (Baselines)
为了进行全面的比较分析,实验中考察了以下几种替代方法:
- VideoComposer (Wang et al., 2024): 通过从现有视频中提取帧级深度图 (depth maps) 或 Canny 边缘图 (canny maps) 等特定特征来创建视频,实现可控视频生成的组合式方法。
- Gen-1 (Esser et al., 2023): 利用参考视频的原始结构来生成新的视频内容,类似于视频到视频的转换。
- Tune-A-Video (Wu et al., 2023): 将预训练的文本到图像模型中的空间自注意力 (spatial self-attention) 扩展为时空注意力 (spatiotemporal attention),然后进行微调以实现运动特定生成。
- Control-A-Video (Chen et al., 2023b): 将视频的第一帧作为额外的运动线索,用于定制化视频生成。
- VMC (Jeong et al., 2023): 旨在通过微调预训练的文本到视频扩散模型中的时间注意力层来提取运动模式。
5.4. 实现细节
- 基础模型: 使用
AnimateDiff(Guo et al., 2023b) 作为基础文本到视频生成模型,并利用SparseCtrl(Guo et al., 2023a) 作为图像到视频 (I2V) 和草图到视频 (sketch-to-video) 的生成器。 - 运动表示提取: 对于给定的真实视频,通过在 步执行单次去噪来提取运动表示。
- 掩码参数 :
Eq. 5中的掩码参数 设置为 1,以实现稀疏约束。这意味着只保留每个空间位置在时间轴上具有最高激活的注意力权重。 - 文本提示: 在准备运动表示时统一使用“空文本 (null-text)”作为文本提示,这有助于更方便的视频定制。
- 运动指导层: 运动指导在
up-block.1中的时间注意力层上进行。 - 指导权重:
Eq. 2中的指导权重 和 经验性地分别设置为 7.5 和 2000。 - 去噪步数:
- 对于相机运动克隆 (camera motion cloning),去噪步数配置为 100,其中运动指导步数设置为 50。
- 对于物体运动克隆 (object motion cloning),去噪步数提高到 300,并在前 180 步应用运动指导。
6. 实验结果与分析
6.1. 定性比较 (Qualitative Comparison)
6.1.1. 相机运动克隆 (Camera Motion Cloning)
图 5 展示了在相机运动克隆方面的视觉比较,例如“顺时针旋转”和“视角切换”等具有挑战性的运动。
-
VMC和Tune-A-Video生成的场景在文本对齐方面尚可,但在运动迁移上存在不足。 -
VideoComposer、Gen-1和Control-A-Video的输出明显不真实,这可能是由于它们密集集成了原始视频的结构元素。 -
相比之下,
MotionClone展现出卓越的文本对齐能力和运动一致性,这表明其在全局相机运动场景中具有更优异的视频运动迁移能力。
该图像是一个示意图,展示了在给定提示 "Island, on the ocean" 下,使用 MotionClone 和其他方法生成的不同视频内容。可以看到,MotionClone 在文本对齐方面表现优越,较好地抑制了原始结构。
以下是原文 Figure 5 的结果: 图 5: 相机运动克隆中的视觉比较,其中 MotionClone 通过更好地抑制原始结构,实现了卓越的文本对齐。
6.1.2. 物体运动克隆 (Object Motion Cloning)
除了相机运动,作者还严格验证了处理局部物体运动的能力。图 6 显示了在物体运动克隆方面的视觉比较:
-
VMC在与源视频的运动匹配方面表现不佳。 -
Videocomposer生成的颜色偏灰,且提示跟随能力有限。 -
Gen-1受原始视频结构抑制。 -
Tune-A-Video难以捕捉详细的身体动作。 -
Control-A-Video无法保持忠实的外观。 -
相比之下,
MotionClone在处理局部物体运动的场景中表现突出,提高了运动精度和文本对齐能力。
该图像是一个对比图,展示了不同方法(参考、VMC、VideoComposer、Gen-1、Tune-A-Video、Control-A-Video 和 MotionClone)在物体运动克隆上的表现。它表现出 MotionClone 在运动保真度和提示跟随能力方面的优越性。
以下是原文 Figure 6 的结果: 图 6: 物体运动克隆中的视觉比较,其中 MotionClone 表现出更好的运动保真度和改进的提示跟随能力。
6.1.3. 多功能应用 (Versatile Application)
MotionClone 不仅支持文本到视频 (T2V),还兼容图像到视频 (I2V) 和草图到视频 (sketch-to-video)。如 图 7 所示,通过将第一帧或草图图像作为附加条件,MotionClone 实现了令人印象深刻的运动迁移,同时与指定条件对齐,这突显了其在广泛应用中的巨大潜力。

该图像是一个示意图,展示了 MotionClone 方法在不同提示下生成的视频内容。通过不同的输入提示(例如:在室内微笑的女孩、驶过的蓝色汽车、机场的飞机等),MotionClone 可以实现多样化的运动表现。此外,图中红色箭头指示了运动方向,体现了该框架的灵活性和多样性。
以下是原文 Figure 7 的结果: 图 7: MotionClone 还支持 I2V 和草图到视频,促进了多功能应用。红色箭头指示运动方向。
6.2. 定量比较 (Quantitative Comparison)
表 1 列出了对 40 个具有各种运动模式的真实视频进行的定量比较结果。
以下是原文 Table 1 的结果:
| Method | VMC | VideoComposer | Gen-1 | Tune-A-Video | Control-A-Video MotionClone | |
| Textual Alignment | 0.3134 | 0.2854 | 0.2462 | 0.3002 | 0.2859 | 0.3187 |
| Temporal Consistency | 0.9614 | 0.9577 | 0.9563 | 0.9351 | 0.9513 | 0.9621 |
| Motion Preservation | 2.59 | 3.28 | 3.50 | 2.44 | 3.33 | 3.69 |
| Appearance Diversity | 3.51 | 3.23 | 3.25 | 3.09 | 3.27 | 4.31 |
| Textual Alignment | 3.79 | 2.71 | 2.80 | 3.04 | 2.82 | 4.15 |
| Temporal Consistency | 2.85 | 2.79 | 3.34 | 2.28 | 2.81 | 4.28 |
分析:
- 客观指标:
MotionClone在文本对齐 (Textual Alignment) 和时间一致性 (Temporal Consistency) 这两个客观指标上均取得了具有竞争力的分数,甚至在文本对齐上略高于其他方法(0.3187)。 - 用户研究 (主观指标): 在用户偏好测试中,
MotionClone在运动保真度 (Motion Preservation)、外观多样性 (Appearance Diversity)、文本对齐 (Textual Alignment) 和时间一致性 (Temporal Consistency) 方面均超越了所有竞争对手,得分最高。这强调了其生成引人注目的视觉结果的能力。 - 优势总结:
MotionClone的优势体现在其能够更好地平衡运动的准确克隆与生成内容的文本语义一致性,同时保持良好的时间连贯性和视觉多样性。这表明其在实用性和用户体验方面具有显著优势。
6.3. 消融实验与分析 (Ablation and Analysis)
6.3.1. 值的选择 (Choice of )
值决定了 Eq. 5 中的掩码,从而影响运动约束的稀疏性。
- 如
图 8所示,较低的 值有助于更好地进行主导运动对齐,这归因于对场景特定噪声和细微运动的增强消除。这支持了稀疏注意力机制在运动克隆中的有效性。
6.3.2. 值的选择 (Choice of )
值决定了用于准备运动表示的扩散特征分布。
-
如
图 8所示,过大的 会导致过多的噪声注入,从而造成运动信息的实质性丢失。 -
而 都能在一定程度上实现运动对齐,这表明 选择具有一定的鲁棒性。
-
在本文中,作者选择 作为默认值,因为它在实验中通常能产生吸引人的运动克隆效果。
该图像是图表,展示了不同 值和不同时间步 的影响。左侧为参考图像,展示了在不同设置下生成的视频帧。中间部分展示了基于多个 值(如 )的运动效果,而右侧则展示了在不同时间步(如 )下的水下生物运动效果。图中呈现的变化反映了模型在控制运动方面的灵活性与有效性。
以下是原文 Figure 8 的结果: 图 8: 不同 值和不同时间步 的影响。
6.3.3. 时间注意力块的选择 (Choice of Temporal Attention Block)
图 9 展示了在不同块中应用运动指导的结果。
- 观察发现,“
up-block.1”在保持视觉质量的同时,在运动操纵能力方面表现突出,这突显了它在运动合成中的主导作用。
6.3.4. 精确提示是否有帮助 (Does precise prompt help?)
在运动表示准备过程中,使用与视频内容相关的精确提示 (tailored prompts) 产生的差异很小,如 图 9 所示。
- 作者推测,运动相关信息在 时的扩散特征中得到了有效保留,从而降低了精确提示的重要性。这意味着模型的运动表示对文本提示的细微变化不那么敏感,增强了其灵活性。
6.3.5. 视频逆向是否有帮助 (Does video inversion help?)
视频逆向用于为 Eq. 4 准备时间依赖的 ,或为 Eq. 6 准备特定时间步的 ,但这需要相当大的时间成本。
-
如
图 9( 对比 )所示,从DDIM逆向获得的 优于时间依赖的 ,这归因于来自相同表示的一致运动指导。 -
同时,在是否应用
DDIM逆向方面(MotionClone对比 ),没有明显的质量差异。这表明MotionClone通过单次去噪步骤直接提取运动表示的策略是高效且有效的,甚至可以与更复杂的逆向方法相媲美。
该图像是图9,展示了不同的运动提示对视频生成的影响。左侧是提示"狗,在街上走"的实例,右侧是提示"蜘蛛侠,转头"的实例,展示了参考图像、MotionClone 生成结果以及不同的逆转方法下的输出对比。
以下是原文 Figure 9 的结果:
图 9: 不同注意力块、精确提示和 DDIM 逆向的影响。“Prompt”表示运动表示涉及精确提示(左侧案例为“Leopard, walks in the forest”,右侧案例为“Man, turns his head.”);“”表示来自 DDIM 逆向的时间依赖的 ;“”表示来自 DDIM 逆向的 。
6.4. 局限性 (Limitation)
图 10 展示了 MotionClone 的局限性。
-
由于
MotionClone在潜在空间 (latent space) 中进行操作,扩散特征的空间分辨率远低于输入视频,因此MotionClone在处理局部细微运动(如眨眼)时表现不佳。 -
此外,当多个移动物体重叠时,
MotionClone存在质量下降的风险,因为耦合运动增加了运动克隆的难度。
该图像是插图,展示了MotionClone在处理局部细微运动和重叠运动时的困难。在左侧,展示了一个狗眨眼的提示对应的结果;右侧则是关于小猪在泥坑中玩耍的提示。这些图像反映出MotionClone在运动合成中的局限性。
以下是原文 Figure 10 的结果: 图 10: MotionClone 难以处理局部细微运动和重叠运动。
7. 总结与思考
7.1. 结论总结
本文观察到视频生成模型中嵌入的时间注意力层 (temporal attention layers) 具有与视频运动迁移相关的实质性表示能力。受此发现启发,作者提出了一种名为 MotionClone 的免训练 (training-free) 运动克隆方法。该方法利用稀疏时间注意力权重 (sparse temporal attention weights) 作为运动表示,通过促进主导运动对齐来实现运动指导,从而在不同场景中实现多样化的运动迁移。通过使用真实的参考视频,MotionClone 展示了其在稳健地保持运动保真度 (motion fidelity) 的同时,融合新文本语义的能力。此外,MotionClone 通过避免繁琐的逆向过程 (inversion processes) 提高了效率,并在各种视频生成任务中展现了通用性,确立了自身作为一种高度适应性强且高效的运动定制工具。
7.2. 局限性与未来工作
局限性:
- 局部细微运动: 由于
MotionClone在潜在空间中进行操作,扩散特征的空间分辨率低于原始视频,导致其在处理如眨眼等局部细微运动时表现不佳。 - 重叠物体运动: 当多个移动物体重叠时,运动的耦合性增加,
MotionClone在此类复杂场景中可能会出现质量下降。
未来工作:
- 作者指出,将如何执行更好的扩散逆向 (diffusion inversion) 以增强运动克隆留作未来的研究工作。这可能意味着探索更精确或更高效的逆向方法,以更好地捕获复杂的运动信息,从而克服现有局限性。
7.3. 个人启发与批判
7.3.1. 个人启发
- 注意力机制的新视角: 这篇论文深入挖掘了时间注意力层在视频运动生成中的潜力,提供了一个新的视角来理解和利用
Transformer架构中的注意力机制。以前的工作可能更多关注空间注意力或交叉注意力,而MotionClone展示了时间注意力在捕捉和迁移纯粹运动模式方面的强大能力。 - “少即是多”的哲学:
MotionClone提出只关注时间注意力图中的“主导分量”并进行稀疏约束,这体现了“少即是多”的原则。通过去除噪声和细微运动,模型能够更清晰地学习和迁移核心运动,这在许多 AI 任务中都是一个值得借鉴的思路,即识别和关注真正重要的信息。 - 效率与灵活性兼顾: 免训练和单次去噪步骤提取运动表示的策略,极大地提高了实际应用的效率和模型的灵活性。这对于希望快速迭代和尝试不同运动模式的创作者来说非常有价值,也为未来更轻量级的视频生成模型提供了方向。
- 文本-运动解耦的潜力: 论文通过“空文本”提示来提取运动表示,有效实现了运动和具体语义内容的解耦。这意味着用户可以在不影响运动本质的情况下,自由地更改文本提示来生成各种主题的视频,这对于可控内容创作具有重要意义。
7.3.2. 批判性思考
- “主导分量”的定义与泛化性: 论文中“主导分量”的定义是基于注意力权重的大小排名。虽然实验证明其有效,但这种定义是否在所有复杂的运动场景中都是最优的?例如,在某些情况下,多个次要运动的组合可能比单一最强的运动更为重要。未来可以探索更智能的、自适应的“主导分量”识别机制。
- 潜在空间分辨率的限制: 论文明确指出了潜在空间分辨率较低导致细微运动克隆困难的局限性。这表明虽然方法在效率上取得了成功,但仍然需要
upsampling或其他技术来补偿潜在空间的信息损失,尤其是在生成高分辨率或高细节的视频时。这可能是未来工作的一个重点,例如结合多尺度特征或引入局部增强机制。 - 重叠运动的挑战: 对于重叠运动的局隆性,可能涉及到更复杂的物体感知和分离。目前的
MotionClone可能无法区分前景和背景物体的运动,或在多个交互物体之间分配运动。未来的研究可以考虑集成目标检测、分割或多对象跟踪等技术,以更精细地控制每个对象的运动。 - 参考视频的依赖性: 尽管
MotionClone是免训练的,但它仍然依赖于高质量的参考视频来提取运动。如果参考视频本身质量不佳或包含不希望的运动伪影,可能会直接影响生成结果。如何对参考视频的质量进行预处理或鲁棒性处理是值得考虑的问题。 - 评估指标的全面性: 论文使用了客观指标 (
CLIP相似度) 和主观用户研究。CLIP相似度在衡量语义一致性上表现良好,但对于运动质量本身(如运动的自然度、物理真实性)可能不是最直接的指标。未来可以考虑引入更多针对运动质量的量化指标,例如基于光流 (optical flow) 的一致性或特定运动特征的度量。
7.3.3. 潜在的社会影响 (Broader Impact)
论文在 A.3 章节中讨论了其广泛的社会影响,这值得在此重申和强调:
- 积极影响:
- 内容创作效率提升: 电影、媒体专业人士可利用
MotionClone简化制作流程,增强叙事表达,创建更具吸引力的视觉内容。 - 教育与培训创新: 教师和内容创作者可制作定制化教学视频,通过精确的运动演示提升学生参与度和理解力,尤其适用于体育训练、科学实验等领域。
- 内容创作效率提升: 电影、媒体专业人士可利用
- 负面影响与风险:
-
深伪技术 (Deepfakes) 滥用:
MotionClone生成逼真视频的能力引发了对深伪技术滥用的担忧,可能用于制造误导性媒体内容,损害公众信任。 -
虚假信息传播: 易于生成可信视频可能导致虚假信息和有害内容的扩散,对社会产生广泛负面影响。
-
隐私与权利侵犯: 未经授权克隆他人的运动可能侵犯个人隐私和肖像权。
应对措施: 论文强调了在技术开发和使用过程中必须遵守道德标准和监管审查。推广
AI生成内容的透明度、建立清晰的使用准则,并就此类技术的能力和伦理进行开放对话至关重要。这需要技术人员、政策制定者、行业利益相关者和公众的共同努力,以确保MotionClone的优势得以实现,同时有效缓解其风险。
-
相似论文推荐
基于向量语义检索推荐的相关论文。