论文状态：已完成

Motion Prompting: Controlling Video Generation with Motion Trajectories

发表：2024/12/04

视频生成中的运动轨迹控制 (1)视频生成模型条件训练 (1)运动提示扩展方法 (1)动态动作与时间组合建模 (1)视频模型的交互式应用 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出一种通过运动轨迹控制视频生成的方法，即运动提示，解决了现有视频生成模型过度依赖文本提示、难以捕捉动态细节的问题。研究展示如何将高层用户请求转化为运动提示，展现了其在运动控制和图像编辑中的广泛应用，结果显示出惊人的逼真效果与灵活性。

摘要

Motion control is crucial for generating expressive and compelling video content; however, most existing video generation models rely mainly on text prompts for control, which struggle to capture the nuances of dynamic actions and temporal compositions. To this end, we train a video generation model conditioned on spatio-temporally sparse or dense motion trajectories. In contrast to prior motion conditioning work, this flexible representation can encode any number of trajectories, object-specific or global scene motion, and temporally sparse motion; due to its flexibility we refer to this conditioning as motion prompts. While users may directly specify sparse trajectories, we also show how to translate high-level user requests into detailed, semi-dense motion prompts, a process we term motion prompt expansion. We demonstrate the versatility of our approach through various applications, including camera and object motion control, "interacting" with an image, motion transfer, and image editing. Our results showcase emergent behaviors, such as realistic physics, suggesting the potential of motion prompts for probing video models and interacting with future generative world models. Finally, we evaluate quantitatively, conduct a human study, and demonstrate strong performance. Video results are available on our webpage: https://motion-prompting.github.io/

思维导图

论文精读

中文精读约 34 分钟读完 · 17,447 字

1. 论文基本信息

1.1. 标题

Motion Prompting: Controlling Video Generation with Motion Trajectories (运动提示：通过运动轨迹控制视频生成)

1.2. 作者

Daniel Geng, Charles Herrmann, Junhwa Hur, Forrester Cole, Serena Zhang, Tobias Pfaff, Tatiana Lopez-Guevara, Carl Doersch, Yusuf Aytar, Michael Rubinstein, Chen Sun, Oliver Wang, Andrew Owens, Deqing Sun。作者主要来自 Google DeepMind，部分作者也隶属于 University of Michigan 和 Brown University。

1.3. 发表期刊/会议

该论文作为预印本（arXiv preprint）发布，具体发表的会议或期刊暂未明确，但其内容与计算机视觉和生成模型领域的顶级会议（如 ICCV, CVPR, NeurIPS）高度相关。考虑到作者团队的背景（Google DeepMind）和研究的质量，预计会在相关领域具有较高的影响力。

1.4. 发表年份

2024年

1.5. 摘要

运动控制对于生成富有表现力和引人注目的视频内容至关重要。然而，大多数现有的视频生成模型主要依赖文本提示进行控制，这难以捕捉动态动作和时间构图的细微差别。为此，该研究训练了一个以时空稀疏或密集的运动轨迹为条件的视频生成模型。与之前的运动条件工作相比，这种灵活的表示形式可以编码任意数量的轨迹，包括特定对象或全局场景的运动，以及时间稀疏的运动；由于其灵活性，作者将这种条件称为运动提示 (Motion Prompts)。虽然用户可以直接指定稀疏轨迹，但作者也展示了如何将高级用户请求转换为详细的半密集运动提示，这一过程被称为运动提示扩展 (Motion Prompt Expansion)。该研究通过各种应用展示了其方法的通用性，包括相机和对象运动控制、与图像“交互”、运动转移和图像编辑。研究结果展示了涌现行为 (Emergent Behaviors)，例如逼真的物理效果，这表明运动提示在探测视频模型和与未来生成世界模型交互方面的潜力。最后，研究通过定量评估和人类研究证明了其方法的强大性能。

1.6. 原文链接

https://arxiv.org/abs/2412.02700 发布状态：预印本 (arXiv preprint)

2. 整体概括

2.1. 研究背景与动机

在视频生成领域，运动是至关重要的。它能够将视频从“恐怖谷效应”提升到逼真，或从业余水平提升到专业水平。运动引导注意力、增强叙事，并定义视觉风格。然而，现有的视频生成模型主要依赖文本提示 (text prompts) 进行控制，文本在描述静态场景或高层动作方面有效，但却难以捕捉运动的细微差别，例如“一只熊迅速转头”这样的文本提示，其具体转动轨迹、速度、加速度等细节难以精确表达。这种文本控制的局限性促使研究人员探索更精细、更直观的运动控制方法。

该论文正是受此启发，探索将运动本身作为一种强大且互补的控制信号来补充文本控制。作者观察到，为了充分利用运动的表现力，需要一种能够编码任何类型运动的表示。

2.2. 核心贡献/主要发现

该论文的核心贡献在于：

提出灵活的运动表示和训练框架： 作者将时空稀疏或密集的运动轨迹 (spatio-temporally sparse or dense motion trajectories) 确定为一种理想的运动表示，并将其称为运动提示 (Motion Prompts)。在此基础上，他们训练了一个基于 ControlNet 的视频生成模型，能够接受这种运动提示作为条件输入，从而实现对视频运动的精细控制。这种表示可以编码任意数量的轨迹、特定对象或全局场景运动，以及时间稀疏运动。
引入运动提示扩展 (Motion Prompt Expansion)： 针对用户手动设计复杂运动轨迹的挑战，论文提出了运动提示扩展方法。该方法能够将高层用户请求（例如鼠标拖动、相机移动指令）转化为详细的半密集运动轨迹，从而弥补了用户意图与运动表示之间的鸿沟。
多功能应用展示： 该方法在多种应用场景中展现了其通用性，包括：
- 对象控制 (Object Control)： 通过鼠标拖动或几何原语（如球体）对图像中的对象进行精确控制和动画化。
- 相机控制 (Camera Control)： 基于单目深度估计和相机姿态序列生成运动提示，实现相机环绕、俯仰等效果，即使模型未明确训练相机姿态。
- 运动转移 (Motion Transfer)： 从源视频中提取运动轨迹，并将其应用于不同的第一帧图像，实现图像的“活化”。
- 图像编辑 (Image Editing)： 通过拖动操作实现图像内容的动态编辑。
- 与图像“交互” (Interacting with an Image)： 允许用户通过鼠标拖动等方式，实时（非实时生成）地与图像内容进行互动。
涌现行为和物理理解的探索： 论文观察到模型在生成视频时，能够展现出逼真的物理行为（例如头发或沙子的动态响应），这表明运动提示可以作为一种有效工具来探测视频模型所学习到的物理规律和世界知识。
定量和定性评估： 通过定量的基准测试（在 DAVIS 数据集上）和人类研究，证明了其方法在运动遵循度、视觉质量和真实感方面的优越性，超越了现有基线。
简洁的训练策略： 相较于现有工作常采用的复杂训练工程（多阶段微调、专用损失函数等），该方法采用了一种更简单的单阶段训练策略，即统一采样密集轨迹，且无需任何专门的工程化努力，仍能获得高质量结果。

3. 预备知识与相关工作

3.1. 基础概念

视频生成模型 (Video Generation Models): 指的是能够根据文本、图像或其他条件生成视频序列的机器学习模型。这些模型旨在从输入中学习如何产生连贯、逼真且符合语义的动态图像序列。
扩散模型 (Diffusion Models): 一类生成模型，近年来在图像和视频生成领域取得了显著成功。它们通过逐步向数据添加噪声，然后学习如何逆转这一过程来从噪声中生成数据。
- Lumiere [3]: 本文的基础模型，是一个预训练的视频扩散模型，能够根据文本和第一帧条件生成5秒16帧的视频。它利用时空扩散机制来生成连贯的视频内容。
- ControlNet [87]: 一种用于扩散模型的条件控制框架。它通过在预训练扩散模型的编码器顶部添加一个可训练的副本（即 ControlNet 模块），并在训练时引入“零卷积 (zero convolutions)”来学习新的条件输入，同时保持预训练模型的知识。这使得扩散模型可以在不破坏原有能力的情况下，接受新的条件信号（如边缘图、姿态图、运动轨迹等）。
运动轨迹 (Motion Trajectories) / 点轨迹 (Point Tracks): 描述特定点在视频序列中随时间变化的路径。它们通常由一系列二维坐标组成，每个坐标对应于视频帧中的一个时间步长。运动轨迹可以捕捉对象的移动、变形，甚至是相机运动。
- 稀疏轨迹 (Sparse Trajectories): 只跟踪视频中少数几个关键点或特征点的运动。
- 密集轨迹 (Dense Trajectories): 跟踪视频中大量点（通常是网格状分布）的运动，提供更全面的运动信息。
- 可见性标志 (Visibility Flag): 在运动轨迹中，除了点的坐标外，还可以包含一个标志来指示该点在特定时间步长是否可见（例如，是否被遮挡或移出画面）。
运动提示 (Motion Prompts): 本文提出的概念，特指将时空稀疏或密集的运动轨迹作为条件输入，以控制视频生成模型输出的运动模式。
运动提示扩展 (Motion Prompt Expansion): 将用户的高级、抽象的运动请求（如“围绕XZ平面移动相机”）转化为具体的、详细的运动轨迹（运动提示）的过程。
光学流 (Optical Flow): 图像序列中像素在相邻帧之间的二维运动场。它描述了图像中每个像素的瞬时运动方向和速度。光学流可以作为运动表示，但其误差会随时间累积，且难以处理遮挡。
单目深度估计 (Monocular Depth Estimation): 从单个2D图像中估计场景中每个像素的深度信息，从而恢复3D结构。这在相机控制中用于构建场景点云。
点云 (Point Cloud): 在3D空间中表示一组数据点。每个点通常包含三维坐标 (x, y, z)，可能还包含其他属性（如颜色、强度）。
空间超分辨率 (Spatial Super Resolution, SSR): 将低分辨率图像或视频提升到高分辨率的技术。Lumiere 模型包含一个 SSR 模块，可以将 128x128 的视频提升到 1024x1024。
零卷积 (Zero Convolutions): 在 ControlNet 中引入的一种特殊卷积层，其权重初始化为零。这使得在训练开始时，ControlNet 的输出为零，从而不会干扰预训练模型的原始行为。它允许在不影响预训练权重的情况下，逐步学习新的条件。

3.2. 前人工作

本节将总结作者提及的关键先前研究，并主动补充必要的背景知识，以帮助初学者理解。

3.2.1. 视频扩散模型 (Video Diffusion Models)

扩散模型在文本到视频生成 (text-to-video generation) 或从静态图像生成视频 (animating static images into videos) 方面表现出惊人的能力。

文本到视频生成: 早期工作如 Imagen Video [26] 和 Video Diffusion Models [27] 利用文本提示生成视频。
图像动画化: Stable Video Diffusion [6] 和 Make-A-Video [64] 能够将静态图像转化为动态视频。
世界模型 (World Models): 扩散模型也被视为实现创建世界模拟器 (world simulators) 这一宏伟目标的途径 [7]，并在具身智能体 (embodied agents) 的视觉规划 [15, 16, 83] 中取得了初步成功。

3.2.2. 运动条件视频生成 (Motion-conditioned Video Generation)

预训练的文本到视频模型可以通过适应新的运动模式或附加的运动条件信号进行改进。

低秩适应 (Low-rank adaptation, LoRA) [29]: 是一种通用的参数微调技术，可用于少样本运动定制 [55, 90]。
DreamBooth [57]: 最初用于个性化图像生成，也可应用于视频生成 [78] 进行运动控制。
稀疏运动控制的早期工作: Click to move [2] 和 Controllable video generation with sparse trajectories [21] 提出了通过稀疏运动控制视频生成。
近期工作与复杂工程: 近期工作探索了更强大的模型，但通常需要复杂的工程技术来实现稳定训练和更好收敛，例如：
- 两阶段训练或序列训练: Tora [89], MotionCtrl [75], DragNUWA [84], Image Conductor [39], MCDiff [9] 采用两阶段（例如，先用密集轨迹再用稀疏轨迹进行微调，或顺序训练适配器）。
- 专用损失函数: Image Conductor [39] 和 SG-I2V [45]。
- 特定架构: I2vcontrol [17] 和 Trajectory attention [80]。
- 多阶段微调: MCDiff [9], VideoComposer [61] 和 Motion-I2V [73]。
- 特定适配器: MOFA-Video [46] 需要为不同运动类型使用单独的适配器。
- 定制损失和层: TrackGo [92] 使用定制损失和层。
- 数据过滤管道: Image Conductor [39], MOFA-Video [46], MotionCtrl [75], DragNUWA [84], Tora [89] 采用了数据过滤管道。
- 实体中心控制信号: 其他方法使用以实体为中心的控制信号，如边界框 [72, 78]、分割掩码 [10, 79]、人体姿态 [30, 82] 或相机姿态 [23, 76]。
- 零样本运动适应: SG-I2V [45], Trailblazer [43], FreeTraj [54] 和 Peekaboo [32] 通过实体中心掩码的运动来指导视频生成，避免了训练或微调视频模型。

3.2.3. 运动表示 (Motion Representations)

选择合适的运动表示是实现运动条件视频生成的基础。

光学流 (Optical Flow): 常见的运动表示 [8, 14, 28, 42, 67, 68]。虽然光学流可以随时间链式连接，但误差会累积，且缺乏遮挡处理能力，不适合本文的需求。
- Lucas-Kanade 方法 [42]: 是一种基于局部图像区域亮度恒定假设的光学流估计方法。它通过最小化局部窗口内像素亮度差的平方和来估计运动。
- FlowNet [14]: 第一个使用深度卷积神经网络端到端学习光学流的方法，显著提高了光学流估计的准确性。
- PWC-Net [67]: 提出了一种金字塔（Pyramid）、扭曲（Warping）和代价体（Cost Volume）结构，在保持高准确性的同时降低了模型复杂度。
- RAFT [68]: 采用循环所有对场的变换，在各种数据集上实现了领先的光学流估计性能。
点轨迹 (Point Trajectories): 长距离特征匹配 [5, 31, 33, 63] 或点轨迹 [12, 13, 22, 36, 37, 91] 是更适合本文应用的表示。它能处理遮挡，并支持任意时间长度的稀疏和密集跟踪。
- TAPIR [12]: 跟踪任意点，具有逐帧初始化和时间细化功能，是一种鲁棒高效的点跟踪算法。
- BootsTAP [13]: 通过自举训练实现任意点跟踪，提高了跟踪精度和鲁棒性。本文使用 BootsTAP 生成训练数据。
- CoTracker [37] / CoTracker3 [36]: 协同跟踪器，通过伪标签真实视频实现了更简单更好的点跟踪。

3.3. 差异化分析

本文方法与相关工作的主要区别和创新点在于：

统一且灵活的运动表示： 现有工作常针对特定运动类型（如相机姿态、人体姿态）设计专用控制器或适配器。本文则使用时空稀疏或密集的运动轨迹作为统一的运动提示，这种表示足够灵活，能编码任意数量的轨迹，包括对象、全局场景运动以及时间稀疏运动，从而在一个模型下实现广泛的运动控制能力。
简洁高效的训练策略： 与许多需要复杂多阶段训练、专用损失函数或数据过滤管道的现有方法（如 Image Conductor、DragNUWA、MotionCtrl）不同，本文采用了一种更简单的单阶段训练策略，仅通过统一采样密集轨迹进行训练，但仍能泛化到稀疏和密集轨迹，并取得优秀结果。
运动提示扩展的概念： 论文引入了“运动提示扩展”的概念，将用户高层意图转化为具体的运动轨迹，有效桥接了用户友好的输入和模型所需的精细控制信号，这在之前的研究中较少被明确提出和系统化。
对模型物理理解的探索： 本文不仅关注控制效果，还通过运动提示来“探测”视频模型的内在物理理解和世界知识，观察到的涌现物理行为为未来生成世界模型的研究提供了新视角。
控制与生成平衡： 本文框架在控制信号强度和编码视频先验之间取得了平衡，而一些测试时方法（如 SG-I2V）通过显式控制扩散特征图，可能在某些情况下牺牲了生成质量。
不依赖特定姿态标注： 即使在相机控制等任务中，模型也未在相机姿态上进行训练或条件化，而是通过通用运动轨迹实现了这些能力，这表明模型的泛化能力和从通用运动中学习特定运动模式的能力。

4. 方法论

4.1. 方法原理

该研究提出了一种基于运动轨迹控制视频生成的方法，其核心思想是训练一个视频扩散模型（具体为 ControlNet 架构），使其能够接受时空稀疏或密集的运动轨迹作为条件输入，从而精确控制生成视频中的运动。这种运动轨迹被称为“运动提示 (Motion Prompts)”。为了弥补手动创建复杂运动轨迹的困难，论文还引入了“运动提示扩展 (Motion Prompt Expansion)”机制，将用户的高层意图转化为详细的运动轨迹。

整体流程是：用户提供一个初始图像、一段文本提示和一个运动提示（可以是直接指定的轨迹，也可以是通过运动提示扩展生成）。这些输入被送入一个基于 Lumiere 模型构建的 ControlNet。ControlNet 将运动轨迹编码为时空体积，并与文本和第一帧条件一起引导视频扩散模型生成符合所有条件的视频。

4.2. 核心方法详解

4.2.1. 运动提示 (Motion Prompts)

为了充分利用运动的表现力，本文采用点轨迹作为运动提示的表示。这种表示具有高度的灵活性：

稀疏和密集运动： 它可以编码空间上（和时间上）稀疏或密集的运动。
对象和场景运动： 可以表示单个对象的运动，也可以表示整个场景的全局运动。
遮挡处理： 通过可见性标志 (visibility flag) 可以处理遮挡情况。

运动轨迹的数学表示： 假设有 $N$ 条点轨迹，每条轨迹的长度为 $T$ 个时间步。 $\mathbf{p} \in \mathbb{R}^{N \times T \times 2}$ 表示点轨迹，其中 $\mathbf{p}[n, t] = (x_t^n, y_t^n)$ 是第 $n$ 条轨迹在第 $t$ 个时间步的二维坐标。 $\mathbf{v} \in \mathbb{R}^{N \times T}$ 表示轨迹的可见性，其中 0 表示轨迹在当前时间步不可见（例如，被遮挡或移出画面），1 表示可见。

4.2.2. 架构 (Architecture)

模型构建在预训练的视频扩散模型 Lumiere [3] 之上。Lumiere 已经训练用于在给定文本和第一帧条件下生成 5 秒（16 帧/秒）的视频。为了加入轨迹条件，本文使用了 ControlNet [87] 架构。

ControlNet 的轨迹编码： ControlNet 需要将条件信号编码成一个时空体积 $\mathbf{c} \in \mathbb{R}^{T \times H \times W \times C}$ ，其中 $T$ 是帧数， $H$ 和 $W$ 是生成视频的高度和宽度， $C$ 是通道维度。

具体编码过程如下：

轨迹嵌入 (Track Embedding)： 为每条轨迹 $\mathbf{p}[n, :]$ 分配一个唯一且随机的嵌入向量 $\phi^n \in \mathbb{R}^C$ 。这些嵌入向量从一个固定池中随机抽取，并作为每条轨迹的唯一标识符。
时空体积填充 (Spatiotemporal Volume Filling)： 初始化 $\mathbf{c}$ $c$ 为零。然后，对于每条轨迹 $n$ $n$ 在每个时间步 $t$ $t$ ，如果轨迹点 $(x_t^n, y_t^n)$ $(x_{t}^{n}, y_{t}^{n})$ 是可见的（即 $\mathbf{v}[n, t] = 1$ $v [n, t] = 1$ ），则将对应的嵌入向量 $\phi^n$ $ϕ^{n}$ 放置在时空体积的相应位置。如果同一时空位置有多个轨迹点，则将它们的嵌入向量相加。 $\mathbf{c}[t, x_t^n, y_t^n] = \mathbf{v}[n, t] \phi_n$ 其中：
- $\mathbf{c}[t, x_t^n, y_t^n]$ 表示时空体积 $\mathbf{c}$ 在时间步 $t$ 、空间坐标 $(x_t^n, y_t^n)$ 处的值。
- $\mathbf{v}[n, t]$ 是第 $n$ 条轨迹在时间步 $t$ 的可见性标志。
- $\phi_n$ 是第 $n$ 条轨迹的唯一嵌入向量。
- $x_t^n$ 和 $y_t^n$ 为轨迹点在图像中的二维坐标，为简化处理，会被量化到最近的整数像素坐标。
  
  $Figure 2. Conditioning Tracks. During training, we take estimated tracks from a video (left) and encode them into a $T \\times H \\times$ $W { \\times } C$ dimensional space-time volume (middle). Each track has a unique embedding (right), written to every location the track visits and is visible at. All other locations are set to zeros. This strategy can encode any number and configuration of tracks.$ 该图像是示意图，展示了视频生成模型中的轨迹编码过程。左侧展示了从视频中估算的轨迹，右侧显示了将这些轨迹栅格化后的条件信号。每个轨迹在空间-时间体积中都有独特的嵌入，所有未访问位置的值设为零。

图 (原文 Figure 2) 展示了轨迹编码过程：从视频中估计轨迹，将其编码成时空体积，每个轨迹在访问和可见的位置写入其独特的嵌入。

4.2.3. 数据 (Data)

为了训练模型，作者准备了一个视频数据集，并为每个视频提取了轨迹。

数据集来源： 使用了一个包含 2.2M 视频的内部数据集，所有视频被调整为 $128 \times 128$ 分辨率（基础模型 Lumiere 的输出尺寸）。
轨迹提取： 使用现成的点跟踪方法 BootsTAP [13] 对数据集进行密集轨迹提取。每个视频生成 16,384 条轨迹，并预测遮挡信息。
无数据过滤： 作者没有对视频进行任何过滤，假设在多样化的运动上进行训练会产生更强大和灵活的模型。

4.2.4. 训练 (Training)

训练过程遵循 ControlNet [87] 的范式：

训练目标： 运动提示作为条件信号，输入到基础模型编码器的可训练副本中，并优化标准的扩散损失。
轨迹采样： 对于每个视频，从均匀分布中随机采样一定数量的轨迹来构建条件信号。
泛化能力： 模型在训练过程中表现出强大的泛化能力。例如，尽管训练是在随机采样的、空间均匀分布的轨迹上进行的，但模型可以泛化到空间局部化的轨迹条件，以及不同数量的轨迹（更多或更少），甚至可以处理不从第一帧开始的轨迹。作者推测这归因于网络中卷积的归纳偏置 (inductive biases) 和在大量多样化轨迹上进行的训练。

4.2.5. 运动提示扩展 (Motion Prompt Expansion)

由于手动设计密集的运动轨迹不切实际，论文提出了运动提示扩展来将高层用户请求转化为详细的运动轨迹。

鼠标拖动转换为半密集轨迹： 用户可以通过 GUI 进行鼠标拖动操作。这些鼠标拖动被转换为一个点轨迹网格，其密度和大小可由用户选择。这与先前工作中轨迹的高斯模糊化 [39, 75, 79, 84] 以指定运动空间范围类似，但本文是在推理时完成此步骤，而非训练时。
静态轨迹： 用户可以放置静态轨迹网格来“固定”背景，或让轨迹在鼠标拖动后继续存在。
几何原语控制： 鼠标操作可以被重新解释为操纵代理几何原语（例如球体）。通过将这些轨迹放置在可由原语近似的对象上，可以实现比仅用稀疏鼠标轨迹更精细的控制，例如精确旋转对象。
相机控制与深度信息：
1. 深度估计： 对输入帧运行现成的单目深度估计器 [51]，获取场景点云。
2. 点云重投影： 给定相机姿态轨迹，将点云重投影到每个相机视图，生成二维轨迹作为输入。
3. 遮挡处理： 运行 Z-buffering 来确定遮挡标志，进一步提高质量。
4. 鼠标控制相机： 将鼠标输入转换为相机轨迹，使得点云中的一个点跟随鼠标轨迹，并且相机被限制在垂直平面内。

4.2.6. 运动合成 (Composing Motions)

通过组合不同的运动提示，可以实现更复杂的能力。例如，对象控制轨迹和相机控制轨迹可以叠加，实现对象和相机同时运动。对象轨迹可以转换为位移，并将其添加到相机控制轨迹的增量中。

4.2.7. 运动转移 (Motion Transfer)

对于难以直接设计的运动，可以从现有视频中提取运动轨迹，并将其应用于新图像。这使得模型能够将一个视频的运动模式“转移”到另一个图像上。

5. 实验设置

5.1. 数据集

训练数据集： 内部数据集，包含 2.2M 视频，大小调整为 $128 \times 128$ 。轨迹通过 BootsTAP [13] 密集提取，每个视频 16,384 条轨迹，包含预测的遮挡信息。
评估数据集： DAVIS 视频数据集 [53] 的验证集。DAVIS 数据集包含 30 个视频，涵盖了从体育到人类再到动物和汽车的广泛场景。
- 数据准备： 从 DAVIS 数据集中提取第一帧和轨迹，并结合自动生成的文本提示（通常是一个或两个词，用于描述视频标题）作为模型输入。
- 轨迹密度： 为了评估不同轨迹密度下的性能，实验中使用的条件轨迹数量从 1 条到 2048 条不等。

5.2. 评估指标

对论文中出现的每一个评估指标，将按照概念定义、数学公式和符号解释三段结构进行说明。

峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)
1. 概念定义： PSNR 是衡量图像或视频质量的常用指标，通常用于评估重建或压缩图像的失真程度。它通过比较原始图像与处理后图像之间的最大可能功率与噪声功率之比来衡量。PSNR 值越高，表示图像质量越好，失真越小。
2. 数学公式： $\mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right) = 20 \cdot \log_{10} (\mathrm{MAX}_I) - 10 \cdot \log_{10} (\mathrm{MSE})$ 其中， $\mathrm{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2$
3. 符号解释：
  - $\mathrm{MAX}_I$ : 图像中像素的最大可能值，对于 8 位灰度图像通常是 255。
  - $\mathrm{MSE}$ : 均方误差 (Mean Squared Error)，表示原始图像 $I$ 和处理后图像 $K$ 之间像素值的平均平方差。
  - $m \times n$ : 图像的尺寸（高和宽）。
  - I(i,j): 原始图像在坐标 (i,j) 处的像素值。
  - K(i,j): 处理后图像在坐标 (i,j) 处的像素值。
结构相似性指数 (Structural Similarity Index Measure, SSIM) [74]
1. 概念定义： SSIM 是一种感知指标，用于衡量两幅图像之间的相似度。它考虑了亮度、对比度和结构三个方面，更符合人类视觉系统对图像质量的判断。SSIM 值范围通常在 [-1, 1] 之间，1 表示两幅图像完全相同。
2. 数学公式： $\mathrm{SSIM}(x, y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}$
3. 符号解释：
  - $x$ : 原始图像的像素值集合。
  - $y$ : 待评估图像的像素值集合。
  - $\mu_x$ : 图像 $x$ 的平均亮度。
  - $\mu_y$ : 图像 $y$ 的平均亮度。
  - $\sigma_x^2$ : 图像 $x$ 的方差（衡量对比度）。
  - $\sigma_y^2$ : 图像 $y$ 的方差（衡量对比度）。
  - $\sigma_{xy}$ : 图像 $x$ 和 $y$ 的协方差（衡量结构相似性）。
  - $C_1 = (K_1L)^2$ , $C_2 = (K_2L)^2$ : 两个常数，用于避免分母为零，其中 $L$ 是像素值的动态范围（如 8 位图像为 255）， $K_1 \ll 1$ 和 $K_2 \ll 1$ 是小常数。
感知图像块相似度 (Learned Perceptual Image Patch Similarity, LPIPS) [88]
1. 概念定义： LPIPS 是一种基于深度学习的感知相似度指标。它利用预训练的深度神经网络（如 AlexNet、VGG 或 ResNet 的特征提取层）来提取图像特征，然后计算这些特征向量之间的距离。LPIPS 值越低，表示两幅图像在人类感知上越相似。
2. 数学公式： $\mathrm{LPIPS}(x, y) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \| w_l \odot (\phi_l(x)_{h,w} - \phi_l(y)_{h,w}) \|_2^2$
3. 符号解释：
  - x, y: 两幅待比较的图像。
  - $\phi_l$ : 深度神经网络在第 $l$ 层提取的特征图。
  - $w_l$ : 在训练 LPIPS 模型时学习到的权重，用于衡量不同特征通道的重要性。
  - $H_l, W_l$ : 第 $l$ 层特征图的高度和宽度。
  - $\odot$ : 元素乘法。
  - $\| \cdot \|_2^2$ : L2 范数的平方。
FVD (Fréchet Video Distance) [69]
1. 概念定义： FVD 是衡量生成视频质量和真实感的指标，是 FID (Fréchet Inception Distance) 在视频领域的扩展。它通过比较真实视频和生成视频的特征分布（通常是使用预训练视频特征提取器提取的特征）来评估它们之间的距离。FVD 值越低，表示生成视频的质量越好，越接近真实视频。
2. 数学公式： FVD 基于 Fréchet 距离，其计算涉及到两个多维高斯分布的均值和协方差矩阵。假设真实视频特征分布服从 $\mathcal{N}(\mu_r, \Sigma_r)$ ，生成视频特征分布服从 $\mathcal{N}(\mu_g, \Sigma_g)$ 。 $\mathrm{FVD} = \|\mu_r - \mu_g\|_2^2 + \mathrm{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2})$
3. 符号解释：
  - $\mu_r$ : 真实视频特征的均值向量。
  - $\mu_g$ : 生成视频特征的均值向量。
  - $\Sigma_r$ : 真实视频特征的协方差矩阵。
  - $\Sigma_g$ : 生成视频特征的协方差矩阵。
  - $\|\cdot\|_2^2$ : L2 范数的平方。
  - $\mathrm{Tr}(\cdot)$ : 矩阵的迹。
  - $(\Sigma_r \Sigma_g)^{1/2}$ : 矩阵乘积的平方根。
端点误差 (End-Point Error, EPE)
1. 概念定义： EPE 用于评估生成视频中的运动与条件轨迹的匹配程度。它计算的是条件轨迹点与从生成视频中估计的轨迹点之间的欧氏距离（L2 距离）。EPE 值越低，表示生成视频的运动越准确地遵循了给定的运动提示。
2. 数学公式： 假设条件轨迹为 $\mathbf{P}_C = \{ (x_{C,t}, y_{C,t}) \}_{t=1}^T$ ，从生成视频中估计的轨迹为 $\mathbf{P}_G = \{ (x_{G,t}, y_{G,t}) \}_{t=1}^T$ 。 $\mathrm{EPE} = \frac{1}{T} \sum_{t=1}^T \sqrt{(x_{C,t} - x_{G,t})^2 + (y_{C,t} - y_{G,t})^2}$
3. 符号解释：
  - $T$ : 轨迹的长度（帧数）。
  - $(x_{C,t}, y_{C,t})$ : 条件轨迹在时间步 $t$ 的二维坐标。
  - $(x_{G,t}, y_{G,t})$ : 从生成视频中估计的轨迹在时间步 $t$ 的二维坐标。

5.3. 对比基线

论文将自己的方法与以下两个近期工作进行了比较：

Image Conductor [39]: 该方法通过微调 AnimateDiff [20] 实现相机和对象运动控制。
DragAnything [79]: 该方法旨在通过微调 Stable Video Diffusion [6] 来移动“实体”沿着轨迹运动。DragAnything 需要对象的分割掩码作为输入。

为了确保公平比较，对基线方法进行了一些调整：
DragAnything： 需要对象的分割掩码，通过 DAVIS 数据集中提供的真实分割信息获得。
Image Conductor： 该模型在 $384 \times 256$ 分辨率的视频上进行微调。实验中，最初输入 $256 \times 256$ 图像，但为了获得更好的结果，采用了反射填充输入帧到 $384 \times 256$ ，然后裁剪输出的方法。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定量评估结果

下表展示了在 DAVIS 数据集验证集上，不同数量轨迹条件下的视频生成模型的定量评估结果。

以下是原文 Table 1 的结果：

# Tracks	Method	PSNR ↑ SSIM ↑		LPIPS ↓	FVD ↓	EPE ↓
N = 1	Image Conductor	11.468	0.145	0.529	1919.8	19.224
	DragAnything	14.589	0.241	0.420	1544.9	9.135
	Ours	15.431	0.266	0.368	1445.2	14.619
N = 16	Image Conductor	12.184	0.175	0.502		1838.9 24.263
	DragAnything	15.119	0.305	0.378	1282.8	9.800
	Ours	16.618	0.405	0.319	1322.0	8.319
N = 512	Image Conductor	11.902	0.132	0.524		1966.3 30.734
	DragAnything	15.055	0.289	0.381	1379.8	10.948
	Ours	18.968	0.583	0.229	688.7	4.055
N = 2048	Image Conductor	11.609	0.120	0.538		1890.7 33.561
	DragAnything	14.845	0.286	0.397	1468.4 12.485
	Ours	19.327	0.608	0.227	655.9	3.887

分析：

整体优势： 本文提出的模型在几乎所有情况下都优于基线方法。在 PSNR、SSIM、LPIPS 和 FVD 等外观指标上，Ours 始终表现最佳，尤其是在轨迹数量增加时，其优势更为明显。例如，在 $N=2048$ 轨迹时，Ours 的 PSNR 达到 19.327，SSIM 达到 0.608，LPIPS 仅为 0.227，FVD 更是低至 655.9，远超 Image Conductor 和 DragAnything。这表明本文方法生成的视频在视觉质量和真实感方面显著优于竞争对手。
运动遵循度 (EPE)： 在 EPE 指标上，Ours 在轨迹数量较多（ $N=512, 2048$ ）时表现出最佳性能，EPE 值最低。这说明模型能够非常精确地遵循给定的运动轨迹。在轨迹数量较少（ $N=1, 16$ ）时，DragAnything 的 EPE 略优于 Ours，但伴随的是较差的视觉质量指标。作者解释称，DragAnything 包含一个有效扭曲潜空间的模块，这虽然可能带来准确的运动，但也会产生视觉伪影。
轨迹密度影响： 随着条件轨迹数量的增加，Ours 的所有指标（除了 FVD 在 $N=16$ 时略有波动外）都有显著改善，这表明模型能够有效利用更密集的运动信息来生成更高质量和更精确遵循运动的视频。

6.1.2. 人类研究结果

下表展示了人类研究的结果，比较了本文方法与基线模型在运动遵循度、运动质量和视觉质量方面的表现。

以下是原文 Table 2 的结果：

Method	Motion Adherence Motion Quality Visual Quality
Image Conductor	74.3(±1.1)	80.5 (±1.0)	77.3 (±1.0)
Drag Anything	74.5 (±1.1)	75.7(±1.1)	73.7 (±1.0)

分析：

压倒性优势： 在所有三项人类评估类别中（运动遵循度、运动质量、视觉质量），本文方法（Ours）的胜率均显著高于两个基线模型。这意味着人类评估者更倾向于选择本文方法生成的视频，认为它们更好地遵循了运动条件、拥有更真实的运动以及更高的视觉质量。
与定量结果一致： 人类研究结果与定量评估结果（特别是 PSNR, SSIM, LPIPS, FVD）高度一致，共同验证了本文方法的优越性。

6.1.3. 定性结果和涌现行为

论文通过大量定性示例展示了方法的通用性和控制能力，包括：

“与图像交互”：通过鼠标拖动操作可以实现对图像中对象（如鹦鹉头部、女性头发、沙子）的精确控制。有趣的是，模型能够产生复杂的动态效果，如头发的飘动和沙子的卷曲，这些并非明确编码的物理规则，而是模型从其视频先验中学习到的涌现行为。这表明运动提示可以用于探测模型对物理和世界知识的理解。

该图像是示意图，展示了基于运动轨迹的视频生成过程。图中分为四个部分，分别展示了不同场景中的对象在运动指引下的变换，以强调运动提示的灵活性和多样性。图 a) 和图 c) 显示鸟类和牛的运动控制效果；图 b) 和图 d) 展示了人物和沙地的动态交互表现。
拖动式图像编辑： 结合“交互”能力，模型可以实现拖动式的图像编辑，例如改变奶牛的头部姿态、移动骷髅，甚至在拖动棋子时保持背景静态。

该图像是一幅插图，展示了拖动基础的图像编辑效果。上排为输入图像，下排为经过拖动编辑后的结果，两排中均可看到拖动效果的可视化展示。在最后一个例子中，展示了如何保持图像某些区域静态。
对象控制与几何原语： 通过将鼠标运动映射到几何原语（如球体），可以实现对对象（如猫头、青蛙眼睛）更精细的控制，例如精确的旋转。

该图像是示意图，展示了通过几何原语（如球体）对对象进行细粒度控制的能力。上半部分显示了通过鼠标操作定义的轨迹，而下半部分则展示了不同动物（猫和青蛙）的相应变化，突出了运动提示技术的应用潜力。
相机控制与深度： 模型能够在不显式训练相机姿态的情况下，通过深度信息和点云重投影实现相机环绕、弧线运动等复杂的相机控制。

该图像是一个示意图，展示了通过深度估计器生成点云的过程，及其在视频生成中的应用。图中包含多个运动轨迹和相机运动示例，展示不同的动态效果。图a)展示了运动轨迹的变化，图b)和图c)展示了通过不同轨迹生成的图像及其对应的光流特征。
运动合成： 可以组合对象运动和相机运动提示，实现两者同步控制，例如在相机环绕的同时移动狗和马的头部。

该图像是示意图，展示了运动提示的组合效果。通过组合运动提示，我们可以同时控制物体和相机运动，图中展示了狗和马头部的移动，以及相机从左到右的环绕动作。
运动转移： 能够从源视频中提取运动轨迹，并将其应用于完全不同的图像（如将人头的运动转移到猕猴，将猴子咀嚼的运动转移到树木图像），产生有趣的视觉效果，甚至在暂停时感知消失，播放时涌现的“格式塔共通命运效应”。

该图像是插图，展示了运动转移的效果。图中包含多个例子，从源视频提取的运动被应用到不同图像上，包括猴子、地球影像、熊猫以及树木的动态效果，演示了模型的灵活应用与表现。

6.1.4. 局限性与探测模型

论文还分析了方法的失败案例，并将其分为两类：

运动条件或运动提示的失败： 例如，奶牛的角可能错误地“锁定”到背景，导致头部在拖动时异常拉伸。
底层视频模型的失败： 例如，拖动一个棋子时，模型可能会生成一个新的棋子而不是移动原有的棋子，这反映了模型对世界物理规律和一致性的理解不足。

该图像是一个示意图，展示了通过运动提示对模型进行探测的过程。上部分显示了在不同情况下，动物图像的生成结果；下部分则展示了围绕棋盘运动的指示性拖动，表现出棋子创建的行为，这表明模型的局限性。

这些失败案例反过来也表明，运动提示可以作为一种有力的工具来探测视频模型的局限性，从而揭示其学习到的表征中的缺陷。

6.2. 消融实验/参数分析

下表展示了在训练过程中不同轨迹密度对模型性能的影响。

以下是原文 Table 3 的结果：

# Tracks	Method	PSNR ↑ SSIM ↑		LPIPS ↓	FVD ↓	EPE ↓
N = 4	Sparse	15.075	0.241	0.384	1209.2	30.712
	Dense + Sparse	15.162	0.252	0.379	1230.6	29.466
	Dense	15.638	0.296	0.349	1254.9	24.553
N = 2048	Sparse	15.697	0.284	0.355	1322.0	26.724
	Dense + Sparse	15.294	0.246	0.375		1267.8 27.931
	Dense	19.197	0.582	0.230	729.0	4.806

分析：

密集训练的有效性： 实验结果表明，在密集轨迹上进行训练（Dense）对于本文模型来说是最有效的策略，尤其是在处理大量轨迹（ $N=2048$ ）时，其 PSNR、SSIM 显著更高，LPIPS、FVD、EPE 显著更低。
对稀疏轨迹的泛化： 令人惊讶的是，即使对于稀疏轨迹（ $N=4$ ），密集训练也优于仅在稀疏轨迹上训练（Sparse）或混合训练（Dense + Sparse）。作者推测，这可能是因为使用稀疏轨迹提供的训练信号太少，而在密集轨迹上训练更高效，且模型能够泛化到更稀疏的轨迹。这可能也受到 ControlNet 和零卷积等架构选择的影响。
训练信号的重要性： 结果暗示了提供丰富、全面的运动信号（即密集轨迹）对模型学习通用运动规律的重要性。一旦模型学习了这些通用规律，它就能更好地处理稀疏或局部化的运动提示。

6.3. 训练观察

损失与性能不相关： 训练损失与模型遵循轨迹的性能之间没有直接相关性。
“突然收敛现象”：模型在短时间内从完全忽略条件信号到完全训练成熟，表现出“突然收敛现象”。这与 ControlNet [87] 和 ControlNext [50] 中观察到的行为一致。作者认为，零初始化可能是导致这些行为的原因之一。

该图像是一个图表，展示了训练损失及测试指标（PSNR、SSIM、LPIPS、EPE）随训练步骤的变化情况。可以看出，测试指标在20,000步后不断提高，而训练损失则保持相对稳定。

图 (原文 Figure A2) 展示了训练损失和测试指标。训练损失变化不大，而测试指标在 20,000 步后才开始显著改善，并迅速收敛。

6.4. 补充定性结果

人体姿态控制： 模型可以利用人体姿态估计的关键点来控制人类角色的运动，将姿态转化为轨迹，然后输入模型。

该图像是生成视频中的姿态条件示意图。每一行展示了不同帧的生成视频，将输入的轨迹叠加在上面，包括手臂动作和物体交互的动画效果。
运动放大： 模型还可以应用于运动放大 [40, 47, 49, 71, 77] 任务。通过对输入视频的轨迹进行平滑和放大，然后将放大后的轨迹和视频第一帧输入模型，生成一个放大微小运动的新视频。

该图像是运动放大结果的示意图。左侧展示了两个视频的第一帧及在不同放大因子下的时空切片。下方显示放大倍数为 1x、8x、16x、32x 的切片，右侧同样展示了时空切片在不同放大倍数下的变化。

7. 总结与思考

7.1. 结论总结

本研究引入了一个创新的框架，通过灵活的运动提示（时空轨迹）实现运动条件视频生成。与现有工作不同，该方法利用统一的运动轨迹表示，能够编码任意复杂度的运动，无论是相机、对象还是整个场景的稀疏或密集运动。论文提出了“运动提示扩展”机制，将高层用户请求转化为详细的运动轨迹，极大地提升了用户控制的便捷性。该方法在对象控制、相机控制、运动转移和图像编辑等多样化应用中展现了其通用性，并观察到模型能够涌现出逼真的物理行为，这为探测视频模型的物理理解和与未来“世界模型”的交互提供了新的途径。定量评估和人类研究结果一致表明，本文方法在视频质量、运动遵循度和真实感方面均优于现有基线。

7.2. 局限性与未来工作

实时性限制： 尽管用户交互（如鼠标拖动）是实时的，但视频生成过程（从扩散模型采样）目前仍需约 12 分钟，非实时，限制了其在实时交互应用中的潜力。
因果关系缺失： 当前的模型并未强制生成视频与运动提示之间存在严格的因果关系。
运动提示设计的复杂性： 尽管引入了运动提示扩展，但对于某些高度复杂的、非标准化的运动，设计精确的运动提示仍然具有挑战性。
物理模拟的涌现性而非显式性： 模型中涌现出的物理行为并非通过显式的物理引擎或规则编码，而是从数据中学习到的先验。这使得其物理行为有时可能不完全准确或可控，例如在失败案例中出现的“不自然拉伸”或“自发生成新对象”。
训练效率和收敛现象： 模型在训练中表现出的“突然收敛现象”和损失与性能不直接相关的特点，表明在 ControlNet 框架下的训练效率和稳定性仍有改进空间。

未来研究方向可能包括：
提升实时性： 探索更快的采样方法或模型架构，以实现实时或近实时的视频生成。
增强因果关系： 研究如何显式地在模型中编码和强化运动提示与生成视频之间的因果关系，使其行为更可预测。
更智能的运动提示扩展： 开发更高级的 运动提示扩展 机制，能够从更模糊、更抽象的用户意图中推断出精确的运动轨迹。
结合物理引擎： 探索将模型与显式的物理引擎相结合，以实现更准确、可控的物理模拟。
理解和利用涌现行为： 深入研究模型中涌现的物理行为，理解其内在机制，并探索如何更好地利用或引导这些行为。
更高效的训练策略： 针对 ControlNet 训练中的挑战，探索新的训练范式或正则化技术，以提高训练效率和模型稳定性。

7.3. 个人启发与批判

这篇论文提供了一个非常强大且灵活的视频生成控制框架，其核心思想——将运动轨迹作为一种通用、底层的“运动语言”——是极具启发性的。它跳出了文本提示的局限，提供了一种更直观、更精细的控制方式，这对于实现高质量、高表现力的视频内容生成至关重要。

启发：

运动作为第一公民： 论文将运动提升为与文本、图像同等重要的第一类控制信号，这是一种观念上的转变。它表明，在视频内容创作中，运动本身的精确控制可以带来文本无法比拟的细节和表现力。
“探针”世界模型：发现模型能够涌现出物理行为，并将其作为“探针”来理解视频模型学习到的世界知识，这是一个非常有趣且有潜力的研究方向。这为我们理解大型生成模型如何构建内部世界表征提供了新的工具和视角。
简洁而强大的训练： 相较于其他通过复杂工程化实现运动控制的方法，本文仅通过统一采样密集轨迹进行单阶段训练就能达到领先水平，这说明了其运动表示和 ControlNet 架构的强大。
接口层面的创新： 运动提示扩展 是一个实用的接口创新，它有效地降低了用户使用复杂运动控制的门槛，使得非专业用户也能通过简单的交互实现精细控制。

批判与可改进之处：

真实世界轨迹获取： 虽然 BootsTAP 等工具能够提取轨迹，但在真实复杂场景（如遮挡严重、快速运动）下，轨迹的准确性和完整性仍可能受限，进而影响生成质量。如何进一步提高轨迹提取的鲁棒性是一个持续的挑战。
用户交互与生成效率： 虽然交互是实时的，但生成速度慢是当前所有高质量视频生成模型的普遍问题。尽管论文提到了非实时性，但这对实际应用仍然是一个主要瓶颈。未来的工作需要在这方面进行更多突破，例如结合蒸馏（distillation）或并行推理技术。
物理涌现行为的可控性： 涌现的物理行为虽然令人兴奋，但其可控性可能不如显式模拟。例如，当拖动头发时，模型会生成逼真的摆动，但这摆动是否符合特定材质或风力的精确物理参数？如果用户想要精确控制这些物理属性，仅凭轨迹可能不够。这可能需要模型内部对物理规律有更深层次的理解或更精细的物理参数控制接口。
组合运动的限制： 论文提到组合运动（如对象和相机运动）在极端相机运动下可能会失败。这暗示了当前组合方法可能仍是一种近似或启发式方法，未来可以探索更理论化、更鲁棒的运动组合机制。
对基础模型的依赖： 本文是基于 Lumiere 模型构建的。这意味着其性能在一定程度上受限于 Lumiere 的能力。如果 Lumiere 本身存在缺陷（例如在某些场景下的生成质量问题），这些缺陷也会传递到本模型。未来可以探索如何将这种运动提示框架应用于更广泛或更新的基础视频模型。

总体而言，这篇论文在视频生成控制领域迈出了重要一步，为未来的研究和应用开辟了新的道路，尤其是在探索生成模型内在世界知识方面，具有深远的意义。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。