论文状态：已完成

CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models

发表：2025/03/14

摄像机控制的视频扩散模型 (1)动态场景探索 (1)动态内容生成 (1)广角视点生成 (1)视频生成数据集构建 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了CameraCtrl II框架，利用相机控制的视频扩散模型实现大规模动态场景探索。该模型克服了以往视频动态性减弱和视角限制的问题，通过增强单个视频片段的动态内容和允许用户自定义相机轨迹，显著扩展了场景探索范围。

摘要

This paper introduces CameraCtrl II, a framework that enables large-scale dynamic scene exploration through a camera-controlled video diffusion model. Previous camera-conditioned video generative models suffer from diminished video dynamics and limited range of viewpoints when generating videos with large camera movement. We take an approach that progressively expands the generation of dynamic scenes -- first enhancing dynamic content within individual video clip, then extending this capability to create seamless explorations across broad viewpoint ranges. Specifically, we construct a dataset featuring a large degree of dynamics with camera parameter annotations for training while designing a lightweight camera injection module and training scheme to preserve dynamics of the pretrained models. Building on these improved single-clip techniques, we enable extended scene exploration by allowing users to iteratively specify camera trajectories for generating coherent video sequences. Experiments across diverse scenarios demonstrate that CameraCtrl Ii enables camera-controlled dynamic scene synthesis with substantially wider spatial exploration than previous approaches.

思维导图

论文精读

中文精读约 39 分钟读完 · 22,354 字

1. 论文基本信息

1.1. 标题

CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models (CameraCtrl II：通过相机控制的视频扩散模型进行动态场景探索)

1.2. 作者

Hao He, Ceyuan Yang, Shanchuan Lin, Yinghao Xu, Meng Wei, Liangke Gui, Qi Zhao, Gordon Wetzstein, Lu Jiang, Hongsheng Li

隶属机构：

香港中文大学 (The Chinese University of Hong Kong)
字节跳动 Seed (ByteDance Seed)
斯坦福大学 (Stanford University)
字节跳动 (ByteDance)

Ceyuan Yang 为通讯作者。

1.3. 发表期刊/会议

该论文目前作为预印本 (arXiv preprint) 发布，发布时间为 2025 年 3 月 13 日。尚未在正式期刊或会议上发表。在计算机视觉和生成模型领域，arXiv 是研究者分享最新成果的重要平台，通常在正式同行评审发表之前发布。

1.4. 发表年份

2025 年

1.5. 摘要

本文介绍了 CameraCtrl II，这是一个通过相机控制的视频扩散模型实现大规模动态场景探索的框架。以往的相机条件视频生成模型在生成具有大范围相机运动的视频时，往往存在视频动态性减弱和视角范围受限的问题。作者采取了一种逐步扩展动态场景生成的方法——首先增强单个视频片段内的动态内容，然后将这种能力扩展到在广泛视角范围内创建无缝探索。具体来说，他们构建了一个具有大量动态性并带有相机参数标注的数据集用于训练，同时设计了一个轻量级的相机注入模块和训练方案，以保留预训练模型的动态性。在此改进的单片段技术基础上，他们通过允许用户迭代地指定相机轨迹来生成连贯的视频序列，从而实现了扩展的场景探索。在不同场景下的实验表明，CameraCtrl II 能够实现相机控制的动态场景合成，其空间探索范围比以往方法显著更广。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2503.10592
PDF 链接: https://arxiv.org/pdf/2503.10592v1.pdf
发布状态: 预印本 (arXiv preprint)，发布于 2025-03-13T17:42:01.000Z。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 视频生成模型的发展

近年来，视频扩散模型 (Video Diffusion Models) 取得了显著进展，如 Sora 等模型能够生成高保真度 (high-fidelity) 和时间连贯性 (temporally coherent) 的视频，甚至能模拟真实的物理运动和复杂动作。这些模型被视为建模和模拟真实世界动态场景的有力工具。

2.1.2. 场景探索的需求与相机控制的兴起

除了生成单个动态场景外，让用户能够主动探索这些数字世界的需求也日益增长。在游戏生成等领域，研究已致力于模拟状态转换和预测未来观察。对于通用视频生成，相机控制 (Camera Control) 已成为场景探索的自然接口。通过在生成环境中控制虚拟相机运动，用户可以从不同视角探索这些数字场景。

2.1.3. 现有方法的局限性

尽管在相机控制和一定空间范围内的探索方面取得了一些进展，但现有方法仍面临两个主要限制：

动态内容生成能力下降： 在引入相机控制后，这些模型在生成动态内容（如移动的物体、人物活动等）方面常常表现出显著的性能下降。
探索范围受限： 它们通常只能生成短视频片段（例如，CameraCtrl [21] 的 25 帧，AC3D [2] 的 49 帧），并且无法基于之前生成的内容和用户指定的新相机轨迹来生成同一场景的新片段。这意味着用户无法进行连贯、大规模的场景探索。

这些限制严重阻碍了模型能够生成的场景类型（大多局限于静态内容）和可探索的空间范围，从而极大地削弱了用户体验。CameraCtrl II 正是为了解决这些核心限制而提出的。

2.2. 核心贡献/主要发现

CameraCtrl II 旨在解决现有相机控制视频生成模型在动态性生成和大规模场景探索方面的局限性。其主要贡献体现在以下几个方面：

动态视频数据集 REALCAM 的构建：
- 作者提出了一个系统性的数据整理流程，用于构建一个包含精确相机轨迹标注的动态视频数据集。
- 该数据集通过从真实动态视频中提取相机轨迹标注（使用 SfM，特别是 VGGSfM [53]）来克服现有数据集多为静态场景的限制。
- 针对 SfM 重建固有的尺度任意性 (arbitrary scale) 和相机轨迹分布不平衡 (long-tailed distribution) 问题，作者设计了相应的校准和平衡方法。
轻量级相机控制注入模块与训练策略：
- 为了在添加相机控制的同时保留预训练模型的动态生成能力，作者设计了一个轻量级的相机注入模块，仅在扩散模型 (Diffusion Model) 的初始层注入相机参数。这种设计避免了过度约束像素生成。
- 提出了联合训练策略 (Joint Training Strategy)，同时使用带有相机标注的数据 (REALCAM) 和无标注的视频数据。这有助于保留预训练模型生成动态和多样化场景的能力，并支持相机分类器无关引导 (Camera Classifier-Free Guidance) 以提高相机控制精度。
支持扩展场景探索的片段级自回归生成：
- 为了实现更广泛的场景探索，作者开发了一种片段级 (clip-wise) 自回归视频生成方法。
- 该方法允许模型基于前一个片段的干净帧 (clean frames) 和新的相机轨迹来生成新的连贯视频片段，从而实现连续的场景探索。
- 通过在训练中将视频扩展任务与原始的单片段相机控制视频生成任务联合训练，确保了单片段生成的高质量。

主要发现：

CameraCtrl II 在生成相机控制的动态场景方面显著优于现有方法，表现在更高的动态性、更准确的相机控制、更好的几何和外观一致性，以及更宽广的空间探索范围。
数据集中的动态视频、尺度校准和轨迹分布平衡对于提升模型的动态性和相机控制精度至关重要。
轻量级的相机注入模块（仅在初始层）和联合训练策略有效地平衡了相机控制与动态内容生成。
片段级自回归生成机制成功实现了连贯的大规模场景探索。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 扩散模型 (Diffusion Models)

概念定义： 扩散模型是一种生成模型，其灵感来源于非平衡热力学。它们通过一个正向扩散过程 (forward diffusion process) 逐步向数据中添加噪声，直到数据完全变成随机噪声。然后，一个学习到的逆向去噪过程 (reverse denoising process) 逐步地从噪声中恢复数据，从而生成新的样本。 工作原理：

正向过程： 给定一个数据点 $x_0$ （例如一张图片或一段视频），扩散模型会逐步向其中添加高斯噪声，生成一系列带噪数据 $x_1, x_2, \dots, x_T$ ，其中 $x_T$ 几乎是纯高斯噪声。这个过程是固定的，通常由一个马尔可夫链定义。
逆向过程： 模型学习从 $x_t$ 预测添加的噪声 $\epsilon_t$ ，从而可以从 $x_t$ 恢复出 $x_{t-1}$ 。通过从纯噪声 $x_T$ 开始，逐步应用这个去噪过程，最终可以生成一个与原始数据分布相似的全新数据点 $x_0$ 。 在本文中的应用： 本文使用视频扩散模型来生成视频，即从噪声中逐步去噪以生成连贯的视频序列。

3.1.2. 潜空间视频扩散模型 (Latent Video Diffusion Models)

概念定义： 为了处理高分辨率视频数据的高计算成本，许多视频扩散模型在数据的低维潜空间 (latent space) 中进行操作。这意味着原始视频首先通过一个编码器 (encoder) 压缩成潜表示 (latent representation)，扩散过程和去噪模型都在这个潜空间中进行，最后通过一个解码器 (decoder) 将生成的潜表示恢复为高分辨率视频。 在本文中的应用： CameraCtrl II 基于一个潜空间视频扩散模型，使用视觉编码器 (visual tokenizer) 将视频编码为 latent tokens ( $z_0$ )，并在潜空间中进行噪声预测和生成。

3.1.3. 扩散 Transformer (Diffusion Transformer, DiT)

概念定义： DiT 是一种将 Transformer 架构应用于扩散模型中去噪网络的设计。传统的扩散模型去噪网络通常是基于 UNet 架构的，而 DiT 则将 UNet 的卷积层替换为 Transformer 块，通过自注意力机制 (self-attention mechanism) 来捕捉长距离依赖，从而提升生成质量和可扩展性。 在本文中的应用： CameraCtrl II 的核心模型基于一个内部的 Transformer 基座文本到视频扩散模型，这表明其去噪网络采用了 DiT 风格的架构。

3.1.4. 相机外参 (Camera Extrinsics) 和内参 (Intrinsics)

概念定义：

相机外参 ( $\mathbf{E}$ ): 描述相机在世界坐标系中的位置和姿态。它通常由一个旋转矩阵 $\mathbf{R}$ 和一个平移向量 $\mathbf{t}$ 组成。 $\mathbf{R}$ 是一个 $3 \times 3$ 的矩阵，描述相机的朝向； $\mathbf{t}$ 是一个 $3 \times 1$ 的向量，描述相机中心在世界坐标系中的位置。
相机内参 ( $\mathbf{K}$ ): 描述了相机从 3D 世界坐标到 2D 图像像素坐标的投影方式，与相机的几何光学特性相关。它通常是一个 $3 \times 3$ 的矩阵，包含焦距、主点坐标和像素畸变参数等信息。 在本文中的应用： 相机外参和内参是计算 Plücker embedding 的基础，用于表示相机的几何信息。

3.1.5. Plücker embedding (普吕克嵌入)

概念定义： 普吕克坐标是一种表示三维空间中直线的数学工具。在计算机视觉中，它被用于表示从相机中心出发穿过图像像素的射线 (ray)。对于相机控制，Plücker embedding 能够提供每个像素对应的相机射线信息，从而在生成过程中提供细粒度的相机视角指导。 计算方式： 给定相机外参矩阵 $\mathbf{E} = [\mathbf{R}; \mathbf{t}] \in \mathbb{R}^{3 \times 4}$ 和内参矩阵 $\mathbf{K} \in \mathbb{R}^{3 \times 3}$ ，对于每个图像像素 (u, v)，其 Plücker embedding $\mathbf{p}$ 计算如下：

相机中心 (Camera Center): 世界空间中的相机中心 $\mathbf{o}$ 可以通过外参矩阵的逆获得，通常表示为 $-\mathbf{R}^T \mathbf{t}$ 。
射线方向 (Ray Direction): 从相机中心指向像素 (u, v) 的射线在相机坐标系下的方向可以计算为 $\mathbf{K}^{-1} [u, v, 1]^T$ 。将其通过旋转矩阵 $\mathbf{R}$ 转换到世界坐标系下，得到射线方向 $\mathbf{d} = \mathbf{R} \mathbf{K}^{-1} [u, v, 1]^T + \mathbf{t}$ 。
标准化射线方向 (Normalized Ray Direction): 将 $\mathbf{d}$ 标准化得到 $\mathbf{d}' = \mathbf{d} / ||\mathbf{d}||$ 。
Plücker embedding 向量： 最终的 Plücker embedding $\mathbf{p}$ 由一个 6 维向量组成，通常表示为 $(\mathbf{o} \times \mathbf{d}', \mathbf{d}')$ ，其中 $\times$ 表示向量叉乘。 在本文中的应用： CameraCtrl II 沿用了 Plücker embedding 作为相机表示，生成每个视频帧的 Plücker embedding 矩阵 $\mathbf{P}_i \in \mathbb{R}^{6 \times h \times w}$ ，其空间维度 h, w 与编码后的视觉 tokens 相匹配。

3.1.6. Structure-from-Motion (SfM, 运动恢复结构)

概念定义： SfM 是一种计算机视觉技术，用于从一系列二维图像中自动重建三维场景结构和相机在这些图像中的姿态。它通过匹配不同图像中的特征点来推断场景的几何结构和相机的运动。 挑战： SfM 重建通常存在尺度模糊性 (scale ambiguity)，即重建出的三维场景和相机轨迹的绝对尺度是不确定的，只能确定其相对尺度。 在本文中的应用： 作者使用 VGGSfM [53] 从动态视频中估计相机参数，并针对 SfM 的尺度模糊性问题进行了校准。

3.1.7. 分类器无关引导 (Classifier-Free Guidance, CFG)

概念定义： CFG 是一种在扩散模型中增强生成质量和条件控制强度（如文本到图像生成中的文本提示遵循度）的技术。它通过同时使用有条件模型 (conditional model) 和无条件模型 (unconditional model) 的预测来指导去噪过程。 工作原理： 在每一步去噪时，模型会进行两次噪声预测：一次是在给定条件 $c$ （例如文本提示）的情况下，预测噪声 $\epsilon_\theta(z_t, c, t)$ ；另一次是在没有条件（或空条件 $\phi$ ）的情况下，预测噪声 $\epsilon_\theta(z_t, \phi, t)$ 。最终的引导预测噪声 $\hat{\epsilon}$ 通过以下公式计算： $\hat{\epsilon} = \epsilon_\theta(z_t, \phi, t) + w \cdot (\epsilon_\theta(z_t, c, t) - \epsilon_\theta(z_t, \phi, t))$ 其中 $w$ 是引导权重 (guidance weight)，用于控制条件对生成结果的影响强度。较大的 $w$ 值会使生成结果更严格地遵循条件，但可能牺牲多样性。 在本文中的应用： CameraCtrl II 将 CFG 扩展到相机控制，提出了 camera classifier-free guidance，允许通过调整 camera guidance weight 来增强相机控制精度。

3.2. 前人工作

本文主要关注视频扩散模型在相机控制和场景探索方面的应用，并与以下几类工作进行了比较和联系：

3.2.1. 视频扩散模型 (Video Diffusion Models)

T2V (Text-to-Video) Generation: 大多数视频扩散模型的早期和主要关注点是根据文本描述生成视频。
- 代表性工作： Sora [9], Stable Video Diffusion [6], Align your latents [7], CogVideo [24], Make-A-Video [46], HunyuanVideo [49], Open-Sora Plan [33], Kling [29], Latte [39], Step-Video-T2V [38], CogVideoX [58]。
- 技术趋势： 早期工作倾向于将 T2I (Text-to-Image) 模型通过添加时间建模层转换为视频生成器 [6, 7, 17, 19, 24]。近期模型则采用 Transformer 架构 [1, 9, 29, 38, 49, 58] 来提升时间一致性和生成质量。
与本文关系： 本文的目标是在这些通用视频生成模型的基础上，加入相机控制能力，并实现场景探索。

3.2.2. 相机控制视频扩散模型 (Camera-controlled Video Diffusion Models)

相机参数注入： 早期工作探索了将相机参数（如外参、Plücker embedding 或点轨迹）注入预训练视频扩散模型的方法，以实现精确的相机视角操纵。
- 代表性工作： MotionCtrl [54], CameraCtrl [21], I2VControl-Camera [15]。
几何约束集成： 一些工作进一步将三维几何约束融入模型。
- 代表性工作： CamCo [56] 将极线约束 (epipolar constraints) 集成到注意力层中，CamTrol [25] 利用显式的 3D 点云表示。
高级相机控制：
- AC3D [2] 精心设计了相机表示注入到预训练模型的方式。
- VD3D [3] 为基于 Transformer 的视频扩散模型 [40] 实现了相机控制。
多相机场景： 近期也有工作探索多相机同步生成。
- 代表性工作： CVD [30], Caiva [55], Vivid-ZOO [32], SyncCamMaster [4]。
现有方法的局限： 尽管有这些进展，但现有方法在生成带有相机控制的动态内容时仍面临挑战，并且通常仅限于生成短视频片段。
与本文关系： CameraCtrl II 正是为了解决这些局限性而设计，旨在增强动态内容生成并实现通过序列视频生成进行大规模场景探索。

3.2.3. 场景探索与世界模型 (Scene Exploration & World Models)

游戏生成领域： 在游戏生成中，方法 [14, 41, 52, 59] 学习模拟状态转换并从行动序列（如键盘输入）中预测未来观察。
与本文关系： 这些工作强调了在生成空间中进行探索的重要性。本文将相机控制作为通用视频生成中场景探索的自然接口，并致力于实现更广阔的探索范围。

3.3. 技术演进

该领域的技术演进路径大致如下：

通用视频生成模型 (T2V) 的发展： 从早期基于 UNet 架构的扩散模型，到后来引入 Transformer 架构的 DiT 模型，显著提升了视频的质量和时间连贯性。这些模型主要关注根据文本描述生成视频。
引入相机控制： 为了实现对生成场景的探索，研究者开始尝试将相机参数（如外参、Plücker embedding）作为条件输入到视频扩散模型中。这使得用户可以指定相机视角或轨迹。
解决相机控制带来的副作用： 早期相机控制模型往往牺牲了视频的动态性或生成范围。这促使研究者思考如何更有效地注入相机信息，以及如何处理数据集中相机参数的固有问题（如尺度模糊性）。
大规模、连贯场景探索的需求： 仅仅生成短片段的相机控制视频不足以满足用户对场景探索的需求。因此，如何实现跨多个视频片段的连贯生成，以支持大规模、连续的场景漫游成为新的研究方向。

3.4. 差异化分析

CameraCtrl II 与上述相关工作的主要区别和创新点在于：

克服动态性下降： 现有相机控制模型在引入相机控制后，生成的视频动态内容往往会减弱。CameraCtrl II 通过构建动态视频数据集 REALCAM 和轻量级相机注入模块（仅在初始层注入），以及联合训练策略，有效地保留了预训练模型的动态生成能力。
实现大规模场景探索： 现有方法通常局限于生成短视频片段，无法实现基于前序内容和新相机轨迹的连续场景探索。CameraCtrl II 提出了片段级自回归视频扩展方案，使得模型能够生成多个连贯的视频片段，从而实现用户在大范围内的场景探索。
数据集创新： REALCAM 是首个针对动态视频构建的、带有精确相机轨迹标注的数据集，并解决了 SfM 估计的尺度任意性和轨迹分布不平衡问题，这为训练高性能的相机控制模型提供了基础。
相机注入策略： 与 MotionCtrl [54]、CameraCtrl [21] 等在多个层注入或使用复杂编码器提取相机特征的方法不同，CameraCtrl II 采用了更轻量级的初始层注入策略，并在消融实验中证明了其在保留动态性方面的优势。

4. 方法论

CameraCtrl II 旨在通过相机控制的视频扩散模型实现大规模动态场景探索。其方法论主要包含三个关键部分：数据集构建、相机控制注入机制以及序列视频生成技术。

4.1. 方法原理

CameraCtrl II 的核心思想是逐步扩展动态场景的生成能力。首先，它致力于在单个视频片段内增强动态内容，并通过精细的相机控制实现精确的视角操作。在此基础上，它进一步将这种能力扩展到生成跨越广泛视角范围的无缝探索序列。这通过以下三个主要组成部分实现：

数据层面： 构建一个高质量、大规模、带有精确相机参数标注的动态视频数据集 REALCAM，以确保模型能够学习到丰富的动态信息和准确的相机-场景几何关系。
模型层面： 设计一种轻量级且有效的相机注入模块，并采用先进的训练策略，在不牺牲预训练模型动态生成能力的前提下，使其能够响应相机控制。
生成策略层面： 开发一种片段级 (clip-wise) 的自回归视频扩展机制，使模型能够基于先前生成的视频内容和新的相机轨迹，生成连贯的、长程的场景探索视频。

4.2. 核心方法详解

4.2.1. 预备知识：相机控制视频扩散模型

给定一个预训练的潜空间视频扩散模型 (pretrained latent video diffusion model)，以及相机表示 $s$ ，相机控制视频扩散模型的目标是学习视频 tokens 的条件分布 $p(z_0 | c, s)$ 。其中， $z_0$ 代表从视觉 tokenizer [60] 编码得到的潜空间表示 (latents)， $c$ 表示文本/图像提示 (text/image prompt)， $s$ 是相机参数。

训练过程涉及向潜空间表示 $z_0$ 在每个时间步 $t \in [0, T]$ 添加噪声 $\epsilon_t$ 得到 $z_t$ ，然后优化一个 Transformer 模型来预测这个噪声。损失函数如下：

$L(\theta) = \mathbb{E}_{z_0, \epsilon, c, s, t} [| \epsilon - \hat{\epsilon}_{\theta}(z_t, c, s, t) |_2^2]$

符号解释：

$L(\theta)$ : 模型的损失函数，其中 $\theta$ 是模型参数。
$\mathbb{E}_{z_0, \epsilon, c, s, t} [\dots]$ : 表示对真实视频潜空间表示 $z_0$ 、添加的噪声 $\epsilon$ 、条件提示 $c$ 、相机参数 $s$ 和时间步 $t$ 的期望。
$\epsilon$ : 真实添加的噪声。
$\hat{\epsilon}_{\theta}(z_t, c, s, t)$ : 模型 $\theta$ 在给定当前带噪潜空间表示 $z_t$ 、条件 $c$ 、相机参数 $s$ 和时间步 $t$ 时预测的噪声。
$|\dots|_2^2$ : 表示 L2 范数的平方，即预测噪声与真实噪声之间的均方误差。

推理过程： 在推理时，模型从高斯噪声 $\epsilon \sim \mathcal{N}(0, \sigma_t^2 \mathbf{I})$ 初始化，并使用 Euler sampler 等迭代地恢复视频潜空间表示 $z_0$ ，同时以输入图像和相机参数为条件。

相机表示： 作者遵循现有工作 [21, 56]，采用 Plücker embedding [47] 作为相机表示，因为它具有强大的几何解释和细粒度的像素级相机信息。具体来说，给定相机外参矩阵 $\mathbf{E} = [\mathbf{R}; \mathbf{t}] \in \mathbb{R}^{3 \times 4}$ 和内参矩阵 $\mathbf{K} \in \mathbb{R}^{3 \times 3}$ ，对于每个像素 (u, v)，计算其 Plücker embedding $\mathbf{p} = (\mathbf{o} \times \mathbf{d}', \mathbf{d}')$ 。

$\mathbf{o}$ : 世界空间中的相机中心。
$\mathbf{d} = \mathbf{R} \mathbf{K}^{-1} [u, v, 1]^T + \mathbf{t}$ : 从相机到像素的射线方向。
$\mathbf{d}'$ : 归一化后的射线方向。最终，为每个帧构建 Plücker embedding 矩阵 $\mathbf{P}_i \in \mathbb{R}^{6 \times h \times w}$ ，其空间维度 $h$ 和 $w$ 与编码后的视觉 tokens 相匹配。

4.2.2. 数据集构建 (`REALCAM` Dataset)

为了解决现有数据集（如 RealEstate10K [62]、DL3DV10K [35]）主要包含静态场景的问题，CameraCtrl II 构建了一个新的动态视频数据集 REALCAM，并带有精确的相机参数标注。数据集处理流程如下图 Figure 2 所示。

Figure 2. Dataset curation pipeline. We omit the process of dynamic video selection. 该图像是一个示意图，展示了数据集的策划流程，包括运动分割、VGGSfM、尺度校准和分布平衡等步骤。图中分别展示了用于深度估计的动态视频片段和相关处理流程，最终生成的结果连通至RealCam数据集。

Figure 2. Dataset curation pipeline. We omit the process of dynamic video selection.

数据集构建的关键步骤：

相机估计从动态视频中：
- 视频选择： 为了确保数据集包含足够的动态性和多样性，作者首先使用运动分割模型 TMO [11] 识别视频中的动态前景对象，并使用 RAFT [50] 估计光流。通过平均静态背景区域的光流，定量测量相机运动。只有当平均光流超过预设阈值时，才选择该视频，以确保足够的相机运动。
- 相机参数估计： 使用 VGGSfM [53] 估计每个视频帧的相机参数。
- 挑战：
  1. SfM 重建固有的尺度任意性 (arbitrary scale)，使得学习一致的相机运动变得困难。
  2. 真实世界视频中相机轨迹分布不平衡 (imbalanced camera trajectory distribution)，某些轨迹类型（如前向运动）过度代表。
相机参数校准以实现统一尺度 (Camera Parameter Calibration for Unified Scales)： 为了解决尺度任意性问题，作者开发了一个校准流程，将任意场景尺度对齐到度量空间 (metric space)。
- 对于每个视频序列，首先选择 $N$ 个关键帧，并使用度量深度估计器 [8] 估计它们的度量深度 $\{ \mathbf{M}_i \}_{i=1}^N$ 。
- 从 VGGSfM 输出中获取对应的 SfM 深度 $\{ \mathbf{S}_i \}_{i=1}^N$ 。
- 度量深度与 VGGSfM 深度之间的尺度因子 $s_i$ $s_{i}$ 可以通过以下优化问题求解： $s_i = \underset{s}{\arg\min} \sum_{p \in \mathcal{P}} \rho(|s \cdot \mathbf{S}_i(p) - \mathbf{M}_i(p)|)$ 符号解释：
  - $s_i$ : 第 $i$ 帧的尺度因子。
  - $\underset{s}{\arg\min}$ : 找到使目标函数最小化的 $s$ 值。
  - $\mathcal{P}$ : 像素坐标集。
  - $\mathbf{S}_i(p)$ : VGGSfM 为像素 $p$ 估计的第 $i$ 帧的深度。
  - $\mathbf{M}_i(p)$ : 度量深度估计器为像素 $p$ 估计的第 $i$ 帧的度量深度。
  - $\rho(\cdot)$ : Huber loss 函数，用于增强对深度估计误差的鲁棒性。
- 通过 RANSAC [20] 算法求解此最小化问题，以确保对深度估计误差的鲁棒性。
- 最终，场景的尺度因子 $s$ 计算为单个帧尺度因子的平均值，并将其乘以相机外参中的平移向量 $\mathbf{t}$ ，得到校准后的外参 $\mathbf{E} = [\mathbf{R}; s \cdot \mathbf{t}] \in \mathbb{R}^{3 \times 4}$ 。
相机轨迹分布平衡 (Camera Trajectory Distribution Balancing)： 为了解决相机轨迹分布不平衡问题，作者实施了一种系统方法来分析和平衡相机轨迹类型。
- 关键点检测： 在相机轨迹上检测关键点。对于每个点，通过其前后 $n$ 个点拟合两条线，如果两条线之间的角度超过阈值 $\gamma$ ，则标记为关键点。
- 轨迹分段与方向识别： 这些关键点将相机轨迹划分为多个段，每段的方向由拟合的线向量确定。最长相机运动的段定义为轨迹的主要运动方向。
- 视角变化与转弯识别： 沿每个段分析相机旋转矩阵以识别显著的视角变化。在相邻段之间，通过测量它们的角度偏差来识别转弯，主段之后的转弯被定义为轨迹的主要转弯。
- 重要性权重： 根据视角变化和转弯的数量和幅度为每条轨迹分配一个重要性权重。
- 类别划分与平衡： 将轨迹根据 N 个主要方向和 M 个主要转弯分为 $N \times M$ 个类别。为平衡数据集，通过删除重要性得分较低的冗余轨迹类型来修剪数据，从而获得更均匀的相机轨迹分布。

4.2.3. 相机控制注入视频生成

为了在视频扩散模型中实现相机控制，并保留生成视频的动态性，作者精心设计了相机参数注入模块和训练策略。

该图像是示意图，展示了相机表示注入和视频扩展的过程，包括通过相机补丁和视觉补丁来处理预训练 DIT 块和特征的步骤。图中的 R(n imes h imes w) imes c 表示特征维度，展现了动态场景生成的关键技术。

F RR clip's tokens. We omit the text encoder for both figures, and the camera features for the second figure.

1. 轻量级相机注入模块 (Lightweight Camera Injection Module)：

问题： 现有方法 [4, 16, 21, 54, 56] 通常使用专用编码器提取相机特征，然后将其注入到每个 diffusion transformer (DiT) 层或卷积层。这种全局相机注入方法 [2] 可能会过度约束视频动态性，限制生成内容中的自然运动变化。
解决方案： CameraCtrl II 仅在扩散模型 (DiT) 的初始层注入相机条件。
- 设计一个新的 patchify layer (补丁层) 用于相机 tokenization，使其尺寸和下采样率与视觉 patchify layer 相匹配。
- 视觉 tokens $z_t$ 和 Plücker embeddings $p$ 分别通过各自的 patchify layer 得到视觉特征 $z_{feat}$ 和相机特征 $p_{feat}$ 。
- 这两种特征通过逐元素相加的方式结合： $z_{feat} = z_{feat} + p_{feat}$ 。
- 然后，这个结合后的特征流经剩余的 DiT 层。
优势： 这种简单而有效的方法在保持良好相机控制的同时，比复杂的编码器-注入器方法能更好地保留动态运动，如消融实验所示。

2. 联合训练与带相机标注和无标注数据 (Joint Training with Camera-labeled and Unlabeled data)：

问题： 仅使用 REALCAM 数据集训练 DiT 模型可能会限制模型生成多样化内容的能力，因为 REALCAM 相对于预训练数据而言只覆盖了场景的一个子集。
解决方案： 提出一种联合训练策略，利用带有相机标注 (REALCAM) 和无标注的视频数据。
- 标注数据： 使用从估计相机参数得到的 Plücker embeddings 作为条件输入。
- 无标注数据： 使用全零的虚拟 Plücker embedding (all-zero dummy Plücker embedding) 作为条件输入。
额外优势：相机分类器无关引导 (Camera Classifier-Free Guidance, CFG)： 这种联合训练框架还提供了一个额外的好处：可以实现相机 CFG，类似于广泛采用的文本 CFG [22]。相机 CFG 的公式化如下： $\begin{array}{r l r} \hat{\epsilon}_{\theta}(z_t, c, s, t) = & \epsilon_{\theta}(z_t, \phi_{text}, \phi_{cam}) \\ & + w_{text} (\epsilon_{\theta}(z_t, c, \phi_{cam}) - \epsilon_{\theta}(z_t, \phi_{text}, \phi_{cam})) \\ & + w_{cam} (\epsilon_{\theta}(z_t, c, s) - \epsilon_{\theta}(z_t, c, \phi_{cam})) \end{array}$ 符号解释：
- $\hat{\epsilon}_{\theta}(z_t, c, s, t)$ : 引导后的噪声预测。
- $\epsilon_{\theta}(\dots)$ : 去噪网络 $\theta$ 的噪声预测。
- $z_t$ : 在时间步 $t$ 的带噪潜空间表示。
- $c$ : 文本条件。
- $s$ : 相机条件 (Plücker embedding)。
- $\phi_{text}$ : 空文本条件 (null text conditioning)。
- $\phi_{cam}$ : 空相机条件 (null camera conditioning)。
- $w_{text}$ : 文本引导权重。
- $w_{cam}$ : 相机引导权重。
  
  这个公式通过结合无条件预测 ( $\epsilon_{\theta}(z_t, \phi_{text}, \phi_{cam})$ )、文本引导项和相机引导项来增强条件控制。通过调整引导权重 $w_{cam}$ ，可以提高相机控制的准确性。这种训练方案使模型能够学习有效的相机条件，同时保持对野外场景的良好泛化能力。

4.2.4. 序列视频生成用于场景探索

在获得能够生成相机控制的动态视频的模型之后，作者通过序列视频生成 (Sequential Video Generation) 进一步实现了更广泛的场景探索。

1. 片段级视频扩展用于场景探索 (Clip-level Video Extension for Scene Exploration)：

目标： 将单片段相机控制视频扩散模型扩展为支持片段级自回归视频生成 (clip-wise autoregressive video generation)。
训练过程：
- 对于一个先前生成的视频片段 $i$ ，从其最后 $n$ 帧中提取视觉 tokens $z_0^i$ ，作为生成下一个片段 $(i+1)$ 的上下文条件。
- 对于当前片段 $(i+1)$ ，向其视觉 tokens $z_0^{i+1}$ 添加噪声得到 $z_t^{i+1}$ 。
- 这些 tokens 沿序列维度拼接为 $z_t = [z_0^i; z_t^{i+1}] \in \mathbb{R}^{q \times c}$ ，其中 $q$ 是拼接后的总 token 数量。
- 引入一个二进制掩码 $m \in \mathbb{R}^{q \times 1}$ （1 表示条件 tokens，0 表示正在生成的 tokens），并将其与 $z_t$ 沿通道维度拼接，形成 \boldsymbol{z}_t = [\boldsymbol{z}_t; \boldsymbol{m}] \in \mathbb{R}^{q \times (c+1)}。
- 模型（来自 4.2.3 节）接收这个组合特征和相应的 Plücker embeddings 来预测添加的噪声，但损失函数 (Eq. 1) 仅针对新生成的片段的 tokens 计算。
- 这种过程如上图 Figure 3 (b) 所示。
推理过程： 在推理时，给定新的相机轨迹，模型从先前生成的片段中选择预定义数量的帧作为条件，从而在保持连续片段之间视觉一致性的同时，允许用户通过序列相机轨迹探索生成的场景。
统一坐标系： 在序列视频生成中，使用初始轨迹的第一帧作为所有生成片段计算相对姿态的参考。这个统一的坐标系确保了整个序列的几何一致性，并防止了片段之间姿态误差的累积。
联合训练： 为了保持单片段生成的高质量能力，此视频扩展任务与原始的单片段相机控制视频生成任务联合训练。

2. 模型蒸馏以加速 (Model Distillation for Speedup)： 为了加速推理速度并改善用户体验，作者实施了两阶段蒸馏方法。

第一阶段：渐进式蒸馏 (Progressive Distillation) [44]
- 将所需的神经函数评估 (NFEs) 从 96 减少到 16，同时保持视觉质量。原始的 96 NFEs 包括 32 个无条件生成、32 个文本 CFG 生成和 32 个相机 CFG 生成。
- 蒸馏后的模型在相机控制精度方面没有显著下降（见 Table 1），但推理时间显著减少。
第二阶段：APT 蒸馏 (APT Distillation) [34]
- 为了进一步加速，应用了最近提出的 APT (Diffusion Adversarial Post-Training) [34] 蒸馏方法，旨在实现一步生成 (one-step generation)。
- Table 1 显示，APT [34] 提供了显著的加速，但代价是条件生成质量的下降。作者指出，APT 需要更多的计算资源和更大的批次大小来进一步提高合成质量。
  
  以下是原文 Table 1 的结果：
  
  Data Pipeline TransErr↓ RotErr ↓ Sample time (s) ↓
  Before distillation 0.1892 1.66 13.83
  Progressive dist. [44] 0.2001 1.90 2.61
  APT [34] 0.2500 2.56 0.59

符号解释：

TransErr↓: 平移误差，越低越好。
RotErr↓: 旋转误差，越低越好。
Sample time (s)↓: 样本生成时间（秒），越低越好。

5. 实验设置

5.1. 数据集

5.1.1. 训练数据集

REALCAM Dataset (自建数据集): 这是一个新的动态视频数据集，带有精确的相机参数标注，通过 SfM 从真实动态视频中提取。该数据集通过尺度校准和轨迹分布平衡处理，解决了 SfM 重建的尺度任意性和轨迹分布不平衡问题。
无标注数据: 除了 REALCAM，模型还利用了大量的无标注视频数据进行联合训练，以保留预训练模型的动态性和多样性生成能力。

5.1.2. 评估数据集

评估数据集包含 800 个视频片段，来源如下：

RealEstate10K [62]: 从 RealEstate10K 测试集中采样了 240 个视频。这是一个包含大量房屋内外场景的静态视频数据集，通常用于视图合成任务。
自处理的真实世界动态视频: 从作者处理的真实世界动态视频中选择了 560 个视频，这些视频带有相机标注。作者强调，评估数据集中的视频是根据第 3.2 节中分析的不同相机轨迹类别进行采样的，以确保评估的全面性。

5.2. 评估指标

为了全面评估基线模型和 CameraCtrl II 的各个方面，作者使用了六个指标。

5.2.1. 视觉质量 (Visual Quality)

概念定义: 衡量生成视频的整体质量和真实感。
指标: Fréchet Video Distance (FVD) [51]
数学公式: FVD 的计算基于两个视频集合的特征向量的均值和协方差矩阵。假设真实视频集合 $X_r$ 和生成视频集合 $X_g$ 分别对应的特征向量服从多变量高斯分布 $N(\mu_r, \Sigma_r)$ 和 $N(\mu_g, \Sigma_g)$ ，则 FVD 定义为： $FVD(X_r, X_g) = ||\mu_r - \mu_g||_2^2 + Tr(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2})$
符号解释:
- $||\cdot||_2^2$ : L2 范数的平方。
- $\mu_r$ : 真实视频特征的均值向量。
- $\mu_g$ : 生成视频特征的均值向量。
- $\Sigma_r$ : 真实视频特征的协方差矩阵。
- $\Sigma_g$ : 生成视频特征的协方差矩阵。
- $Tr(\cdot)$ : 矩阵的迹 (trace)。
- $(\Sigma_r \Sigma_g)^{1/2}$ : 矩阵乘积的平方根。
- 目标: FVD 值越低表示生成视频的质量越好，与真实视频的分布越接近。

5.2.2. 视频动态保真度 (Video Dynamic Fidelity)

概念定义: 衡量生成视频中动态内容的程度和强度。
指标: Motion strength (运动强度)
计算方法:
1. 使用 RAFT [50] 提取视频帧间的密集光流 (dense optical flow fields)。
2. 使用 TMO [11] 生成的分割掩码 (segmentation masks) 来隔离前景对象。
3. 对于每个前景像素，计算其光流向量 (u, v) 的运动幅度为 $\sqrt{u^2 + v^2}$ ，并转换为角度值。
4. 最终的 Motion strength 是所有前景像素在所有帧中运动幅度的平均值。
目标: Motion strength 值越高表示视频的动态性越强，越好。

5.2.3. 相机控制精度 (Camera Control Accuracy)

概念定义: 衡量生成视频中相机姿态与条件相机姿态的对齐程度。
指标: TransErr (平移误差) 和 RotErr (旋转误差)
计算方法:
1. 从生成视频中提取运动模式（使用 TMO [11]）。
2. 使用 VGGSfM [53] 估计生成视频的相机参数。
3. 为了解决 SfM 固有的尺度模糊性，将估计的相机轨迹与真实相机轨迹进行对齐，方法是：首先居中两条轨迹，然后找到最佳尺度因子，通过 SVD 计算旋转，并确定对齐平移（遵循 ATE [48]）。
4. 对齐后，TransErr 计算为对应相机位置之间的平均欧几里得距离。
5. RotErr 计算为对应相机方向之间的平均角度差。
目标: TransErr 和 RotErr 值越低表示相机控制精度越高，越好。

5.2.4. 几何一致性 (Geometry Consistency)

概念定义: 衡量生成场景的三维几何结构的连贯性和可重建性。
指标: Geometric consistency (几何一致性)
计算方法: 对生成的视频应用 VGGSfM [53]，并计算 VGGSfM 成功估计相机参数的比例。
目标: Geometric consistency 比例越高表示场景的三维几何一致性越好，越好。

5.2.5. 场景外观连贯性 (Scene Appearance Coherence)

概念定义: 衡量在生成序列视频片段时，连续片段之间视觉内容和外观的一致性。
指标: Appearance consistency (外观一致性)
计算方法:
1. 使用预训练的视觉编码器 [43] 为视频片段中的每个帧提取特征。
2. 对每个视频片段的帧特征进行平均，以获得该视频片段的特征。
3. 计算不同视频片段特征之间的余弦相似度 (cosine similarity)。
目标: Appearance consistency 值越高表示连续视频片段之间的视觉一致性越好，越好。

5.3. 对比基线

作者将 CameraCtrl II 与以下具有代表性的方法进行了比较：

5.3.1. I2V (Image-to-Video) 设置下的基线

MotionCtrl [54]: 一个用于视频生成的统一且灵活的运动控制器。
CameraCtrl [21]: 早期实现文本到视频生成相机控制的方法。
比较方式： 由于这些方法不能直接基于先前生成的视频片段生成新片段，作者使用前一个视频片段的最后一帧作为条件图像来生成下一个片段，以模拟序列生成。

5.3.2. T2V (Text-to-Video) 设置下的基线

AC3D [2]: 一个针对 Transformer 视频扩散模型中 3D 相机控制进行分析和改进的方法。
比较方式： CameraCtrl II 凭借其对基础模型架构的最小修改和联合训练策略，也可应用于相机控制的 T2V 生成。

注：对于所有基线方法，相机参数会进行时间下采样以匹配它们支持的相机参数数量。

5.4. 实现细节

基础模型： 基于一个内部的 Transformer 基座文本到视频扩散模型，具有大约 30 亿参数。
潜空间模型： 作为潜空间扩散模型，使用类似于 MAGViT2 [60] 的时间因果 VAE tokenizer，时间下采样率为 4，空间下采样率为 8。
相机姿态采样： 每 4 帧采样一次相机姿态，使其数量与视觉特征相同。
模型参数： 训练过程中所有基础视频扩散模型参数保持不冻结，允许联合优化所有参数。
训练阶段：
1. 第一阶段 (单片段 CameraCtrl II)：
  - 分辨率： $192 \times 320$
  - 步数： 100,000 步
  - 批次大小： 640
  - 视频片段时长： 2 到 10 秒
  - 数据构成： 相机标注数据与无标注数据的比例为 4:1。
  - GPU: 64 个 H100 GPU。
2. 第二阶段 (高分辨率微调和视频扩展训练)：
  - 分辨率： $384 \times 640$ (更高分辨率)
  - 步数： 50,000 步
  - 批次大小： 512
  - 条件帧数量： 来自前一个片段的条件帧数量范围从最少 5 帧到最多总帧数的 50%。
  - GPU: 128 个 H100 GPU。
优化器： AdamW 优化器。
学习率： 初始学习率为 $1 \times 10^{-4}$ ，在 500 步内从 $5 \times 10^{-5}$ 热启动 (warm-up)。权重衰减为 0.01，betas 为 0.9 和 0.95。学习率最终使用余弦学习率调度器 (cosine learning rate scheduler) 衰减到 $1 \times 10^{-5}$ 。
推理设置： 使用 Euler sampler，32 步，偏移量为 12 [31]。CFG scales 设置为 7.5 (文本) 和 8.0 (相机)。

6. 实验结果与分析

本节详细介绍了 CameraCtrl II 的实验评估结果，包括与现有方法的定量和定性比较，以及对其设计选择的消融研究。

6.1. 核心结果分析

6.1.1. 定量比较

以下是原文 Table 2 的结果，比较了 CameraCtrl II 与现有方法在 I2V 和 T2V 设置下的性能。

Model	FVD	Motion strength↑	TransErr	RotErr↓	Geometric consistency↑	Appearance consistency↑
MotionCtrl [54]	221.23	102.21	0.3221	2.78	57.87	0.7431
CameraCtrl [21]	199.53	133.37	0.2812	2.81	52.12	0.7784
CameraCtrL II	73.11	698.51	0.1527	1.58	88.70	0.8893
AC3D [2]	987.34	162.21	0.2976	2.98	69.20	N/A
CamEraCtRL II	641.23	574.21	0.1892	1.66	85.00	N/A

分析：

I2V 设置 (Image-to-Video)：
- 视觉质量 (FVD): CameraCtrl II (73.11) 显著低于 MotionCtrl (221.23) 和 CameraCtrl (199.53)，表明其生成视频的整体质量和真实感更高。
- 视频动态保真度 (Motion strength↑): CameraCtrl II (698.51) 远高于 MotionCtrl (102.21) 和 CameraCtrl (133.37)，证实了其在生成动态内容方面的卓越能力。
- 相机控制精度 (TransErr↓, RotErr↓): CameraCtrl II 在平移误差 (0.1527) 和旋转误差 (1.58) 方面均优于 MotionCtrl (0.3221, 2.78) 和 CameraCtrl (0.2812, 2.81)，显示出更准确的相机轨迹遵循能力。
- 几何一致性 (Geometric consistency↑): CameraCtrl II (88.70) 的几何一致性显著高于 MotionCtrl (57.87) 和 CameraCtrl (52.12)，表明其生成的场景具有更好的三维结构连贯性。
- 外观一致性 (Appearance consistency↑): CameraCtrl II (0.8893) 在序列生成中的外观一致性也表现最佳，优于 MotionCtrl (0.7431) 和 CameraCtrl (0.7784)。
T2V 设置 (Text-to-Video)：
- 与 AC3D [2] 相比，CameraCtrl II 同样表现出显著优势。尽管 FVD (641.23 vs 987.34) 和 Motion strength (574.21 vs 162.21) 在数值上不如 I2V 设置下的 CameraCtrl II，但仍明显优于 AC3D。
- 相机控制精度 (TransErr 0.1892 vs 0.2976, RotErr 1.66 vs 2.98) 和几何一致性 (85.00 vs 69.20) 也均优于 AC3D。
  
  总结： 无论是 I2V 还是 T2V 设置，CameraCtrl II 都全面超越了现有的基线方法，尤其是在视频动态性、相机控制精度和几何一致性方面取得了巨大提升。这验证了 CameraCtrl II 在相机控制动态场景生成和场景探索方面的有效性。

6.1.2. 定性比较

以下是原文 Figure 4 的结果，展示了 CameraCtrl II 与 CameraCtrl 和 AC3D 的定性比较。

该图像是一个示意图，展示了 CameraCtrl II 与 CameraCtrl 的对比。图中展示了不同相机控制下生成的视频序列，包括动态内容增强和视角扩展，显现出 CameraCtrl II 在大范围动态场景探索中的优势。

Cars and a busmove along a yreet ed witall bs. , AC camera movements, AC3D ignores the forward camera moving at the end of the trajectory.

分析：

I2V 设置 (前两行):
- 相机轨迹遵循： CameraCtrl II 更准确地遵循了输入相机轨迹。例如，图中的 CameraCtrl II 展示了向上的相机运动，而 CameraCtrl [21] 则忽略了这种运动。
- 动态内容： CameraCtrl II 能够生成更具动态性的视频（如移动的汽车、人物）。相比之下，CameraCtrl 倾向于生成静态内容。
T2V 设置 (后两行):
- 相机控制与物体运动结合： CameraCtrl II 有效地将相机控制与物体运动结合起来，成功生成了动态元素，如移动的车辆。
- 文本提示遵循和相机轨迹： AC3D [2] 不仅在遵循文本提示方面表现不佳（未能生成公共汽车），而且忽略了轨迹末端的前向相机运动。CameraCtrl II 则能够严格遵循文本提示和相机轨迹。
  
  总结： 定性结果进一步支持了定量结果，表明 CameraCtrl II 在生成准确遵循相机轨迹、同时保持丰富动态内容的视频方面具有显著优势。

6.2. 消融实验

6.2.1. 数据集构建流程各组件的有效性

以下是原文 Table 3 的结果，展示了数据集构建流程各组件的消融研究。

Model	Motion strength↑	TransErr↓	RotErr↓	Geometric Consistency↑
w/o Dyn. Vid	129.40	0.2069	2.02	78.50
w/o Scale Calib.	301.68	0.2121	2.14	82.10
w/o Dist. Balance	309.24	0.2834	4.56	85.96
Full Pipeline	306.99	0.1830	1.74	86.50

分析：

不使用动态视频 (w/o Dyn. Vid): 仅使用静态数据 RealEstate10K [62] 训练的模型，其 Motion strength (129.40) 远低于完整流程 (306.99)，且相机控制能力下降（TransErr 0.2069, RotErr 2.02）。这表明在相机控制视频扩散模型训练中，使用带有相机姿态标注的动态视频对于实现高质量和高动态性生成至关重要。
不进行尺度校准 (w/o Scale Calib.): 在不进行尺度校准的情况下，模型表现出更高的相机控制误差（TransErr 0.2121 vs 0.1830, RotErr 2.14 vs 1.74），且几何一致性较低 (82.10)。这验证了将场景尺度归一化到统一的度量空间有助于模型学习更一致的几何关系，从而提高相机控制精度和场景重建能力。
不进行轨迹分布平衡 (w/o Dist. Balance): 不平衡相机轨迹分布导致相机控制精度和几何一致性显著下降（TransErr 0.2834, RotErr 4.56）。这证实了平衡真实世界视频中极度长尾的相机轨迹分布对于在各种相机运动模式下实现鲁棒相机控制和几何一致性是必不可少的。

总结： REALCAM 数据集构建的每个组件都对 CameraCtrl II 的性能至关重要，特别是引入动态视频、尺度校准和轨迹分布平衡对于提升模型的动态性和相机控制精度具有显著影响。

6.2.2. 模型设计和训练策略的有效性

以下是原文 Table 4 的结果，展示了单片段模型架构和训练策略的消融研究。

Model	Motion strength↑	TransErr↓	RotErr↓	Geometric consistency↑
Complex Encoder	301.23	0.1826	1.88	84.00
Multilayer Inj.	247.23	0.1865	1.78	85.00
w/o Joint Training	279.82	0.2098	1.97	81.92
CaMERaCtRL II	306.99	0.1830	1.74	86.50

分析：

复杂编码器 (Complex Encoder): 使用类似 CameraCtrl 的复杂编码器提取相机特征，虽然在 TransErr 上表现相当 (0.1826 vs 0.1830)，但在其他指标上不及 CameraCtrl II 的简单 patchify layer 设计。这表明简单的特征提取层足以将相机表示转换为有效的生成指导信号。
多层注入 (Multilayer Inj.): 在每个 DiT 层注入相机特征，虽然相机控制精度相当，但显著降低了 Motion strength (247.23 vs 306.99)。这支持了作者的观点：相机控制信息应主要引导整体视频生成，而将相机特征添加到处理局部细节的深层可能限制模型生成动态视频的能力。因此，在 DiT 模型的初始层添加相机表示是足够的。
不联合训练 (w/o Joint Training): 移除与无相机标注数据的联合训练，导致动态性降低 (Motion strength 279.82 vs 306.99)。这是因为额外的视频数据使模型接触到 RealCam 数据集中未涵盖的更多样化的视觉域和对象运动类型。此外，联合训练通过启用相机分类器无关引导 (camera-wise classifier-free guidance) 有助于提高相机控制性能（TransErr 0.2098, RotErr 1.97, Geometric consistency 81.92）。

总结： CameraCtrl II 的轻量级初始层相机注入模块和联合训练策略在平衡相机控制和动态内容生成方面表现出优越性。

6.2.3. 视频扩展的关键设计选择

以下是原文 Table 5 的结果，展示了扩展单片段模型以实现场景探索的关键设计选择的消融研究。

Model	FVD↓	TransErr	RotErr↓	Appearance consistency↑
Different Ref.	118.32	0.1963	1.94	0.8032
Noised Condition	136.78	0.1847	1.85	0.7843
Noised Condition*	140.98	0.1901	1.88	0.7982
CAMERaCtRL II	112.46	0.1830	1.74	0.8654

分析：

不同参考帧 (Different Ref.): 采用每个片段的第一帧作为局部参考帧来计算相对相机姿态，导致相机控制精度降低（TransErr 0.1963 vs 0.1830, RotErr 1.94 vs 1.74）和外观一致性下降 (0.8032 vs 0.8654)。这验证了使用全局参考帧（即第一个片段的第一帧作为所有片段的全局参考）有助于保持跨片段的一致几何关系和相机轨迹条件，从而使模型更容易学习片段之间的平滑过渡。
带噪条件 (Noised Condition): 在训练期间对所有片段添加噪声，并在条件和目标片段上计算损失，但在推理时只使用干净的条件片段。这种训练和推理之间的不匹配导致 FVD (136.78) 和 Appearance consistency (0.7843) 的性能下降。
带噪条件* (Noised Condition*): 即使在推理时尝试向条件帧添加少量噪声以弥补训练和推理之间的差距，性能仍然不理想 (FVD 140.98, Appearance consistency 0.7982)。
CameraCtrl II (无噪条件)： CameraCtrl II 的方法则是在训练和推理中都保持无噪的条件片段，这种一致性带来了最佳的 FVD (112.46) 和 Appearance consistency (0.8654)。

总结： 视频扩展机制的关键设计在于使用统一的全局参考帧来计算相对相机姿态，以及在训练和推理中保持条件片段的无噪一致性，这些都对生成高质量、连贯的序列视频至关重要。

6.3. 可视化结果

6.3.1. 不同场景探索

以下是原文 Figure 5 的结果，展示了 CameraCtrl II 在不同场景下的泛化性能。

该图像是插图，展示了CameraCtrl II框架生成的动态场景探索效果，包含不同视角和动态内容的对比。顶部为相机轨迹，底部为各个场景的生成结果，展示了广泛视角下的连续视频合成能力。

Fui

分析：

图像展示了 CameraCtrl II 在各种不同场景下（如 Minecraft 风格游戏场景、19 世纪伦敦雾气弥漫的黑白街道、废弃医院室内、奇幻世界中的户外徒步、动漫风格宫殿场景）的生成能力。
模型能够有效地控制相机运动（如左右平移、完整转弯），并保持适当的动态效果。这表明 CameraCtrl II 具有出色的泛化能力，能够适应多样化的视觉风格和场景类型，同时实现精确的相机控制和动态场景合成。

6.3.2. 生成场景的 3D 重建

以下是原文 Figure 6 的结果，展示了通过 CameraCtrl II 生成视频的 3D 重建效果。

该图像是示意图，展示了通过 CameraCtrl II 生成的视频，包括动态场景和点云数据。图像包含多个视角下的室内和室外场景，以及食物的细节展示，体现了模型在不同环境下的动态表现和空间探索能力。

ACRL AR [ estimate the point clouds of the scenes.

分析：

图像展示了从 CameraCtrl II 生成的视频中提取帧，然后使用 FLARE [61] 推断得到的详细 3D 点云。
重建出的高质量点云表明，CameraCtrl II 生成的视频具有出色的 3D 一致性。这证实了该方法能够将视频生成模型转化为有效的视图合成器，其输出不仅视觉逼真，而且在几何上也是连贯的，为从生成内容中进行 3D 重建提供了坚实基础。

7. 总结与思考

7.1. 结论总结

本文介绍了 CameraCtrl II，一个旨在通过相机控制的视频扩散模型实现大规模动态场景探索的框架。该框架解决了现有相机控制模型在生成动态内容时动态性减弱以及场景探索视角范围受限的核心问题。

CameraCtrl II 的主要贡献包括：

REALCAM 数据集： 构建了一个系统性的数据整理流程，创建了带有精确相机轨迹标注的动态视频数据集，并解决了 SfM 重建固有的尺度任意性和轨迹分布不平衡问题。
轻量级相机注入模块与训练策略： 设计了一个轻量级的相机注入模块，仅在扩散模型的初始层注入相机参数，并采用联合训练策略（结合标注和无标注数据）来保留预训练模型的动态生成能力，同时通过相机分类器无关引导提升相机控制精度。
片段级自回归生成： 提出了一种片段级视频扩展方法，允许模型基于先前生成的视频片段和新的相机轨迹，迭代地生成连贯的视频序列，从而实现大规模场景探索。

实验结果表明，CameraCtrl II 在各项指标（FVD、Motion strength、TransErr、RotErr、Geometric consistency、Appearance consistency）上均显著优于现有基线方法，证实了其在生成相机控制的动态视频、保持高视觉质量和时间一致性以及实现广泛空间探索方面的有效性。

7.2. 局限性与未来工作

作者指出了 CameraCtrl II 的几个局限性，并提出了未来的研究方向：

物理不合理路径： CameraCtrl II 偶尔难以解决相机运动与场景几何之间的冲突，有时会导致物理上不合理的相机路径，例如穿透场景结构。
- 示例： 在一个案例中，模型在栅栏阻挡预期路径时，未能识别这一约束，反而生成了栅栏结构损坏，相机穿过的反现实结果 (如原文 Figure 7 所示)。
- 未来工作： 需要开发更具物理感知能力的模型，使其能够识别并遵守场景中的物理约束，例如在遇到障碍物时停止或调整相机运动。
几何一致性有待提高： 尽管该方法实现了准确的相机控制，但生成场景的整体几何一致性仍有改进空间，尤其是在处理复杂相机轨迹时。
- 未来工作： 进一步提升模型的 3D 几何建模能力，以处理更复杂的相机运动和场景结构，从而生成更鲁棒的 3D 一致场景。

7.3. 个人启发与批判

7.3.1. 个人启发

数据质量的重要性： CameraCtrl II 强调了高质量、特定任务数据集（REALCAM）的重要性。针对特定挑战（如动态性、尺度任意性、轨迹分布不平衡）进行数据预处理和增强，是提升模型性能的基石。这提醒研究者在面对新任务时，不仅仅要关注模型架构，更要重视数据本身的质量和特性。
轻量级条件注入的有效性： 仅在扩散模型的初始层注入相机条件，并辅以联合训练，就能在保持动态性的同时实现精确控制，这提供了一个关于条件扩散模型设计的有效范例。它表明并非总是需要复杂的、多层级的注入机制，有时更简洁的设计反而能取得更好的平衡效果。这种思路可以启发其他需要条件控制的生成任务。
分阶段、渐进式学习策略： 从单个片段内的动态增强到多个片段间的无缝探索，这种“先单点突破，再连线成面”的渐进式学习策略是处理复杂生成任务的有效方法。这对于长视频生成、大规模场景建模等任务具有指导意义。
场景探索的潜力： CameraCtrl II 将视频生成模型转化为一个强大的场景探索工具，极大地扩展了其应用范围，从内容创作到虚拟旅游、游戏开发和教育模拟，都充满了想象空间。特别是其 3D 重建能力，预示着生成模型与 3D 视觉的深度融合将是未来重要趋势。

7.3.2. 批判与潜在改进

物理约束建模： 论文中提到的“穿透栅栏”的失败案例是一个典型的物理不合理性问题，也是当前所有生成模型面临的共同挑战。
- 改进方向： 可以考虑引入物理引擎或隐式物理规则（如通过感知深度图和法线图来避免碰撞）作为额外的条件或损失项。例如，在相机轨迹规划阶段，可以集成一个简单的碰撞检测模块；或者在扩散模型的损失函数中，惩罚那些导致物体穿透或畸变的生成结果。
复杂几何一致性： 虽然模型在几何一致性上优于基线，但仍有提升空间。
- 改进方向： 探索更强的 3D 感知骨干网络 (3D-aware backbone)，例如引入神经辐射场 (NeRF) 或 3D 高斯泼溅 (3D Gaussian Splatting) 的思想，使其在潜空间中就能更好地理解和生成三维结构。这可能需要更精细的 3D 监督信号。
用户交互的直观性： 当前用户需要迭代地指定相机轨迹。对于非专业用户而言，这可能仍然不够直观和便捷。
- 改进方向： 结合大语言模型 (LLM) 或更高级别的语义控制。例如，用户可以通过文本描述“向左转弯，穿过人群，然后飞过那栋建筑”，模型自动规划出符合物理约束和语义意图的相机轨迹。这将大大降低用户门槛，实现更自然的人机交互。
计算资源需求： 训练模型需要大量的 GPU 资源（128 个 H100 GPU）。虽然蒸馏有助于推理加速，但训练成本仍然很高。
- 改进方向： 探索更高效的模型架构、更优化的训练策略或知识蒸馏方法，以降低训练和微调的成本，使技术更易于普及和应用。
伦理考量： 论文提到了潜在的伦理问题，如生成误导性内容。
- 改进方向： 进一步探讨如何嵌入水印、来源追踪机制，或开发鉴别器来检测生成内容的真实性，以缓解滥用风险。同时，更深入地研究训练数据中的潜在偏差，并采取措施确保生成内容的公平性和代表性。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Data Pipeline	TransErr↓	RotErr ↓	Sample time (s) ↓
Before distillation	0.1892	1.66	13.83
Progressive dist. [44]	0.2001	1.90	2.61
APT [34]	0.2500	2.56	0.59

CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 39 分钟读完 · 22,354 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 视频生成模型的发展

2.1.2. 场景探索的需求与相机控制的兴起

2.1.3. 现有方法的局限性

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 扩散模型 (Diffusion Models)

3.1.2. 潜空间视频扩散模型 (Latent Video Diffusion Models)

3.1.3. 扩散 Transformer (Diffusion Transformer, DiT)

3.1.4. 相机外参 (Camera Extrinsics) 和 内参 (Intrinsics)

3.1.5. Plücker embedding (普吕克嵌入)

3.1.6. Structure-from-Motion (SfM, 运动恢复结构)

3.1.7. 分类器无关引导 (Classifier-Free Guidance, CFG)

3.2. 前人工作

3.2.1. 视频扩散模型 (Video Diffusion Models)

3.2.2. 相机控制视频扩散模型 (Camera-controlled Video Diffusion Models)

3.2.3. 场景探索与世界模型 (Scene Exploration & World Models)

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 预备知识：相机控制视频扩散模型

4.2.2. 数据集构建 (REALCAM Dataset)

4.2.3. 相机控制注入视频生成

4.2.4. 序列视频生成用于场景探索

5. 实验设置

5.1. 数据集

5.1.1. 训练数据集

5.1.2. 评估数据集

5.2. 评估指标

5.2.1. 视觉质量 (Visual Quality)

5.2.2. 视频动态保真度 (Video Dynamic Fidelity)

5.2.3. 相机控制精度 (Camera Control Accuracy)

5.2.4. 几何一致性 (Geometry Consistency)

5.2.5. 场景外观连贯性 (Scene Appearance Coherence)

5.3. 对比基线

5.3.1. I2V (Image-to-Video) 设置下的基线

5.3.2. T2V (Text-to-Video) 设置下的基线

5.4. 实现细节

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定量比较

6.1.2. 定性比较

6.2. 消融实验

6.2.1. 数据集构建流程各组件的有效性

6.2.2. 模型设计和训练策略的有效性

6.2.3. 视频扩展的关键设计选择

6.3. 可视化结果

6.3.1. 不同场景探索

6.3.2. 生成场景的 3D 重建

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判与潜在改进

相似论文推荐

3.1.4. 相机外参 (Camera Extrinsics) 和内参 (Intrinsics)

4.2.2. 数据集构建 (`REALCAM` Dataset)