ShotDirector: Directorially Controllable Multi-Shot Video Generation with Cinematographic Transitions
TL;DR 精炼摘要
本文提出了 `ShotDirector`,一个整合了参数级相机控制和层次化编辑模式感知提示的高效框架,以改善多镜头视频生成中的镜头转场设计。该框架通过6自由度姿态与内在设置实现精准相机信息注入,并利用镜头感知掩码机制实现对编辑模式的细粒度控制,提升了叙事表达的连贯性。
摘要
Shot transitions play a pivotal role in multi-shot video generation, as they determine the overall narrative expression and the directorial design of visual storytelling. However, recent progress has primarily focused on low-level visual consistency across shots, neglecting how transitions are designed and how cinematographic language contributes to coherent narrative expression. This often leads to mere sequential shot changes without intentional film-editing patterns. To address this limitation, we propose ShotDirector, an efficient framework that integrates parameter-level camera control and hierarchical editing-pattern-aware prompting. Specifically, we adopt a camera control module that incorporates 6-DoF poses and intrinsic settings to enable precise camera information injection. In addition, a shot-aware mask mechanism is employed to introduce hierarchical prompts aware of professional editing patterns, allowing fine-grained control over shot content. Through this design, our framework effectively combines parameter-level conditions with high-level semantic guidance, achieving film-like controllable shot transitions. To facilitate training and evaluation, we construct ShotWeaver40K, a dataset that captures the priors of film-like editing patterns, and develop a set of evaluation metrics for controllable multi-shot video generation. Extensive experiments demonstrate the effectiveness of our framework.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
ShotDirector: Directorially Controllable Multi-Shot Video Generation with Cinematographic Transitions
1.2. 作者
Xiaoxue Wu, Xinyuan Chen, Yaohui Wang, Yu Qiao 等人。 作者隶属于复旦大学 (Fudan University) 和上海人工智能实验室 (Shanghai Artificial Intelligence Laboratory)。
1.3. 发表期刊/会议
论文以预印本 (arXiv preprint) 形式发布,其发表状态为 2025 年的预印本。虽然尚未正式发表在会议或期刊上,但预印本平台在学术界是分享最新研究成果的重要渠道。
1.4. 发表年份
2025
1.5. 摘要
多镜头视频生成中,镜头转场 (Shot Transitions) 对叙事表达和视觉故事的导演设计至关重要。然而,现有研究主要关注低级视觉一致性,忽视了转场设计以及电影语言如何促进连贯叙事。这往往导致简单的顺序镜头切换,缺乏有意图的电影剪辑模式 (Film-Editing Patterns)。为解决此限制,本文提出了 ShotDirector,一个高效的框架,它集成了参数级相机控制 (Parameter-level Camera Control) 和层次化编辑模式感知提示 (Hierarchical Editing-Pattern-Aware Prompting)。具体来说,该方法采用了一个相机控制模块,包含 6 自由度 (6-DoF) 姿态 (Poses) 和 内在设置 (Intrinsic Settings),以实现精确的相机信息注入。此外,还引入了镜头感知掩码机制 (Shot-aware Mask Mechanism),用于引入对专业编辑模式敏感的层次化提示,从而实现对镜头内容的细粒度控制。通过这种设计,ShotDirector 有效结合了参数级条件和高级语义指导,实现了电影般的可控镜头转场 (Controllable Shot Transitions)。为了促进训练和评估,作者构建了 ShotWeaver40K 数据集,该数据集捕捉了电影级编辑模式的先验知识,并开发了一套用于可控多镜头视频生成的评估指标。大量实验证明了该框架的有效性。
1.6. 原文链接
- 原文链接: https://arxiv.org/abs/2512.10286
- PDF 链接: https://arxiv.org/pdf/2512.10286v1.pdf
- 发布状态: 预印本 (arXiv preprint)。
2. 整体概括
2.1. 研究背景与动机
研究背景: 近年来,基于扩散模型 (Diffusion Models) 的视频生成技术取得了显著进展,能够从文本描述中生成逼真且时间连贯的单镜头视频。随着这些成功的经验,研究重心逐渐转向多镜头视频生成 (Multi-Shot Video Generation),旨在通过镜头转场合成电影般的叙事,传达电影节奏和艺术表现。
动机: 现有多镜头视频生成方法存在以下局限性:
- 低级视觉一致性优先,忽略高层叙事: 大多数研究主要关注镜头间的低级视觉一致性,例如通过条件信息注入或关键帧对齐来保持视觉连贯性。这虽然能生成视觉上连续的序列,但往往缺乏电影叙事中至关重要的导演设计和剪辑意图。
- 缺乏电影剪辑模式的显式建模: 现有的端到端扩散框架通常将镜头转场视为简单的帧级变化,未能显式建模专业的剪辑约定(如
cut-in、cut-out、shot/reverse-shot等)。这导致生成的视频虽视觉逼真,但缺乏电影叙事结构和专业电影制作中特有的镜头设计。 - 转场缺乏可控性: 即使是一些能生成多镜头序列的方法,也无法实现对转场类型的精确控制,使得生成的视频难以满足特定的叙事需求。
论文的切入点或创新思路:
作者认为,镜头转场不应被视为突然的视觉中断,而应被理解为一种基本的导演工具,用于控制叙事节奏和观众感知。例如,shot/reverse-shot 结构构建对话动态,而构图和视角的改变则引导情感焦点。因此,多镜头视频生成不仅需要高保真视觉合成,还需要导演决策 (Directorial Decision-Making),即决定下一个镜头如何展开。ShotDirector 的创新之处在于,它通过结合参数级相机控制和编辑模式感知层次化提示,实现了对电影级转场的可控生成,从而将导演意图融入生成过程。
2.2. 核心贡献/主要发现
本文的主要贡献包括:
- 提出
ShotDirector框架:ShotDirector是一个高效的框架,通过结合参数级相机控制和层次化编辑模式感知提示,实现了电影般的可控镜头转场。它将摄影机的 6 自由度 (6-DoF) 姿态和内在设置融入相机控制模块,并利用镜头感知掩码机制引入层次化提示,实现对镜头内容的细粒度控制。 - 集成参数级相机控制: 引入双分支架构 (Dual-branch Architecture),通过 Plücker 嵌入 (Plücker Embedding) 和直接相机外参 (Extrinsic Parameters) 注入相机信息,实现对视角变化和镜头间连续性的精确控制,弥补了传统方法在相机几何控制上的不足。
- 设计层次化编辑模式感知提示: 提出镜头感知掩码机制,通过结构化地控制词元 (token) 的可见性,使扩散模型能够平衡全局连贯性与镜头特有的多样性。这使得文本信息、电影风格和预设的镜头转场与相应的视觉词元精确对齐,从而显式建模剪辑约定并融入导演先验知识。
- 构建
ShotWeaver40K数据集: 为了训练和评估框架,作者构建了一个高质量的多镜头视频数据集ShotWeaver40K。该数据集通过严格的数据筛选和电影摄影感知标注,包含了电影级编辑模式的先验知识和详细的相机参数,确保了转场的叙事合理性和专业性。 - 开发全面的评估指标: 提出了一套针对可控多镜头视频生成的评估指标,涵盖转场控制 (Transition Control)、整体质量 (Overall Quality) 和跨镜头一致性 (Cross-shot Consistency),为系统性分析多镜头视频生成性能提供了框架。
主要发现:
ShotDirector能够生成符合特定编辑模式的可控镜头转场,有效遵循电影剪辑约定。- 该方法在保持高视觉保真度和跨镜头一致性的同时,实现了电影般的电影摄影表达和连贯的叙事流。
- 消融实验验证了相机信息注入和镜头感知掩码机制对模型性能的积极贡献。
- 两阶段训练策略对于提升转场可控性和整体视觉质量至关重要。
ShotDirector具有良好的通用性,可以与其他功能模块(如reference-to-video合成)无缝集成。
3. 预备知识与相关工作
3.1. 基础概念
为了理解 ShotDirector,需要了解以下几个核心概念:
3.1.1. 扩散模型 (Diffusion Models)
概念定义: 扩散模型是一类生成模型,它通过模拟一个逐渐向数据添加噪声的正向扩散过程 (Forward Diffusion Process),然后学习一个逆向去噪过程 (Reverse Denoising Process) 来生成数据。 设计目标: 它们的目标是学习从一个简单的噪声分布(如高斯分布)中生成复杂数据分布的样本(如图像或视频)。 工作原理:
- 正向过程: 逐步向原始数据 添加高斯噪声,经过 步后,数据最终变为纯噪声 。这个过程可以用马尔可夫链表示,每一步的噪声添加量是预设的。
- 逆向过程: 训练一个神经网络(通常是 U-Net 结构)来学习从 预测并去除噪声,从而逐步恢复原始数据 。这个过程也是一个马尔可夫链,但其概率分布是未知的,需要通过训练来近似。 在视频生成中的应用: 扩散模型在视频生成中表现出强大的能力,通过在时间和空间维度上扩展去噪网络,可以生成高质量、时间连贯的视频。
3.1.2. 6 自由度 (6-DoF) 姿态 (Poses)
概念定义: 在三维空间中,一个刚体(如相机)的姿态可以用 6 个自由度 (6-DoF) 来描述,包括:
- 3 个平移 (Translation) 自由度: 沿
x, y, z轴的移动。 - 3 个旋转 (Rotation) 自由度: 绕
x, y, z轴的旋转。 设计目标: 精确描述相机在三维空间中的位置和方向,是计算机图形学和计算机视觉中进行三维场景理解和渲染的基础。 在本文中的应用:ShotDirector利用 6-DoF 姿态信息作为条件,来精确控制生成视频中相机的运动和视角变化,从而实现可控的镜头转场。
3.1.3. 相机内外参 (Camera Intrinsic and Extrinsic Parameters)
概念定义:
- 相机外参 (Extrinsic Parameters): 描述相机在世界坐标系中的位置和方向。通常由一个 的旋转矩阵 和一个 的平移向量 组成,可以表示为一个 的变换矩阵 或 的齐次变换矩阵。它们将世界坐标系中的点转换到相机坐标系中。
- 相机内参 (Intrinsic Parameters): 描述相机内部的光学特性和几何配置,例如焦距 (focal length)、主点 (principal point) 坐标和像素宽高比。这些参数通常由一个 的矩阵 表示,它将相机坐标系中的三维点投影到图像平面上的二维像素坐标。
其中 是焦距(通常以像素为单位), 是主点在图像平面上的坐标。
在本文中的应用:
ShotDirector将相机内参和外参作为条件信息注入到扩散模型中,以实现对生成视频中相机视角的精确控制。
3.1.4. Plücker 嵌入 (Plücker Embedding)
概念定义: Plücker 坐标 (Plücker Coordinates) 是一种表示三维空间中直线(或光线 (Ray))的方法。它用六个齐次坐标来编码一条直线的方向和位置。
设计目标: 相比于欧拉角或四元数等表示方法,Plücker 坐标在处理三维几何变换时具有一些优势,例如可以方便地计算两条直线之间的距离、交点等。
数学公式: 对于一条通过点 且方向为 (单位向量) 的光线,其 Plücker 坐标表示为:
其中 是向量叉积,表示光线到原点的力矩。
在本文中的应用: ShotDirector 将每个像素的视线 (viewing ray) 编码为 Plücker 嵌入,结合相机外参,为模型提供全面的相机几何信息。
3.1.5. 词元 (Token)
概念定义: 在自然语言处理 (NLP) 和多模态模型中,词元 (token) 是信息处理的基本单位。它可以是单词、子词、字符,或者是图像、视频中分割出的视觉块。
在本文中的应用: 在扩散模型中,输入数据(如文本、图像潜在表示)被离散化为一系列词元。ShotDirector 的镜头感知掩码机制 (Shot-aware Mask Mechanism) 通过控制这些词元之间的交互来指导模型的生成过程。
3.1.6. 扩散变换器 (Diffusion Transformer, DiT)
概念定义: Diffusion Transformer (DiT) 是一种将 Transformer 架构应用于扩散模型的方法。它用 Transformer 块替换了传统的 U-Net 结构中的卷积层,以更好地捕捉长距离依赖关系。
设计目标: 借鉴 Transformer 在处理序列数据方面的优势,DiT 旨在提升扩散模型在处理高分辨率图像和视频时的扩展性和性能。
在本文中的应用: ShotDirector 以 DiT 架构为基础模型,在其之上集成相机控制和镜头感知掩码机制。
3.1.7. 电影剪辑模式 (Film-Editing Patterns)
概念定义: 电影剪辑模式是电影制作中用于连接不同镜头、引导叙事和影响观众感知的约定俗成的技术。本文重点关注以下四种:
- 切入 (Cut-in): 从一个较宽的镜头(
wider shot)切换到同一主体或场景的更近距离特写(closer framing)。常用于强调细节或人物反应。 - 切出 (Cut-out): 从一个特写镜头(
close-up)切换到同一主体或场景的更广阔上下文视图(wider contextual view)。常用于展示环境或建立场景。 - 镜头/反向镜头 (Shot/Reverse Shot): 电影对话中最常见的剪辑模式,交替展示两个对话者,通常从一个人的视角切换到另一个人的视角。用于构建对话动态和人物关系。
- 多角度 (Multi-angle): 切换同一动作或主体在同一场景中的不同视角。常用于增加动感、强调事件或展示不同观察角度。
在本文中的应用:
ShotDirector旨在显式建模和生成这些专业的电影剪辑模式,以实现可控的、电影级的视频转场。
3.2. 前人工作与差异化分析
3.2.1. 单镜头视频生成 (Single-Shot Video Generation)
- 前人工作: 基于扩散模型(如
Diffusion Transformer、latent diffusion framework)的单镜头视频生成模型,如 [7, 41, 50],在生成逼真、时间连贯的单镜头视频方面表现出色。 - 差异化分析:
ShotDirector在此基础上进一步,将重点从单个镜头扩展到多个镜头的连贯叙事和转场控制,这是单镜头模型无法解决的问题。
3.2.2. 多镜头视频生成 (Multi-Shot Video Generation)
该领域分为两类:
3.2.2.1. 拼接式方法 (Stitching-based Approaches)
- 前人工作:
StoryDiffusion[53]、VideoStudio[29]、VGoT[52]、Phantom[28] 等。这些方法通常独立生成单个镜头,然后通过外部约束(如条件信息注入或关键帧对齐)将它们拼接起来,以保持跨镜头一致性。 - 局限性: 这种方法中的镜头间依赖是外部施加的,而不是从数据中学习到的电影级先验。生成的序列更像是单镜头剪辑的集合,缺乏真正的叙事连续性,无法利用真实电影语料库中的剪辑模式。
- 差异化分析:
ShotDirector旨在通过显式建模电影剪辑模式和导演意图,实现更深层次的叙事连贯性,而非仅仅是视觉上的拼接。
3.2.2.2. 端到端扩散框架 (End-to-end Diffusion Frameworks)
- 前人工作:
Mask2DiT[33]、CineTrans[46]、LCT[13]、MoGA[21]、TTT[9] 等。这些方法通过修改扩散模型,允许在生成过程中不同镜头之间进行交互,从而获得更高的视觉和时间一致性。 - 局限性: 这些方法通常将镜头转场视为简单的帧级变化,缺乏对剪辑约定(如
cut-in、shot/reverse-shot等)的显式建模或可控的转场动态。导致生成的视频缺乏电影叙事结构和专业的镜头设计。Cut2Next[16] 考虑了编辑模式,但仅限于图像级别。 - 差异化分析:
ShotDirector在这些端到端方法的基础上,通过参数级相机控制和语义级层次化提示,显式地将电影语言和导演意图引入到转场设计中,实现了对转场类型的精确控制和电影级叙事表达。
3.2.3. 相机控制视频生成 (Camera-Controlled Video Generation)
- 前人工作:
CameraCtrl[14]、AC3D[2]、VD3D[3]、SynCamMaster[5]、ReCamMaster[4] 等。这些方法旨在实现对视频合成过程中相机运动的显式控制,有的关注单相机设置,有的扩展到多相机或三维一致性场景建模。 - 局限性: 这些方法主要关注相机运动本身或多视角一致性,但通常没有将其与电影级的镜头转场类型 (Shot Transition Types) 和叙事意图 (Narrative Intent) 结合起来。例如,
SynCamMaster虽能生成多视角视频,但没有转场类型的概念;ReCamMaster专注于平滑的相机运动,难以处理突然的镜头切换。 - 差异化分析:
ShotDirector将相机控制与镜头转场概念深度融合,将相机姿态 (Camera Pose) 视为多镜头序列生成中的关键条件因素,使其能够服务于电影叙事表达。
3.3. 技术演进与 ShotDirector 的位置
从单镜头、无控制的视频生成,到多镜头、低级视觉一致性拼接,再到端到端但缺乏高层语义控制的多镜头生成,视频生成领域逐步向更复杂、更可控的方向发展。ShotDirector 正是站在这一技术演进的交叉点上,它识别出现有方法在“导演意图”和“电影语言”层面的缺失,并将其作为核心创新点。通过结合相机几何的精确控制和电影剪辑模式的语义理解,ShotDirector 将视频生成推向了更具艺术性和叙事性的高度,使其不仅仅是生成像素序列,更是生成有意义的视觉故事。
4. 方法论
ShotDirector 框架旨在通过参数级相机控制和层次化编辑模式感知提示,实现专业的镜头转场,服务于电影叙事表达。其核心思想是为扩散模型提供电影制作中导演决策所需的精确相机信息和高层语义指导。
4.1. 方法原理
ShotDirector 的核心原理在于将电影制作中的导演意图(即如何设计镜头转场)转化为可供扩散模型学习和控制的条件信号。它通过两个互补的视角实现这一点:
-
参数级相机设置 (Parameter-level Camera Settings): 引入精确的相机姿态(位置和方向)和内参信息,使得模型能够理解和复现相机运动的几何特性。
-
语义级层次化提示 (Semantic-level Hierarchical Prompting): 通过结构化的文本提示和特殊的掩码机制,将电影剪辑模式、场景描述和主体信息等高层语义指导注入模型,确保生成的视频符合特定的叙事意图和电影语言。
通过这种双管齐下的方法,
ShotDirector赋予了扩散模型对专业剪辑模式的感知能力,从而生成具有电影感和连贯叙事流的多镜头视频。
4.2. 核心方法详解
ShotDirector 的架构如 Figure 3b 所示,主要包括三个关键组成部分:数据收集 (Data Collection)(已在 3.1 中简述,并将在 5.1 中详细介绍数据集 ShotWeaver40K),相机信息注入 (Camera Information Injection) 和镜头感知掩码机制 (Shot-aware Mask Mechanism)。
该图像是一个示意图,展示了ShotDirector框架在多镜头视频生成中的应用。左侧为传统多镜头架构,缺乏转场设计,导致叙事流程不连贯。右侧为导演控制的多镜头架构,利用层次化编辑模式提示和镜头信息,实现专业转场模式和顺畅叙事。
图 3b 是 ShotDirector 方法的架构图。该图展示了双分支设计如何注入相机信息,并采用镜头感知掩码机制来调节全局和局部上下文中的词元可见性。专业的转场设计被整合到全局文本词元中,与相机信息协同工作,以实现对镜头转场的多粒度控制。
4.2.1. 相机信息注入 (Camera Information Injection)
为了增强焦距中心和相机角度的转场可控性,ShotDirector 将参数化相机设置作为关键的条件信号引入扩散模型。它采用双分支架构 (Dual-branch Architecture),将 Plücker 嵌入 (Plücker Embedding) 和直接相机外参 (Extrinsic Parameters) 集成到去噪过程中,同时提供像素级的空间光线图和原始相机配置。
传统的相机姿态由内参 (Intrinsic Parameters) 和外参 (Extrinsic Parameters) 定义,其中 是外参的旋转分量, 是平移向量。
4.2.1.1. 外参分支 (Extrinsic Branch)
外参分支使用一个多层感知机 (MLP) 直接将相机外参 注入到视觉潜在表示 (visual latents) 中: 其中, 将矩阵 展平为一维向量,然后输入到 MLP 中。尽管外参 缺乏焦距等内参信息,但它能有效地捕捉相机方向线索,这在 [5] 中得到了验证。
4.2.1.2. Plücker 分支 (Plücker Branch)
Plücker 分支遵循常规公式来表示与相机信息对应的空间光线图 (Spatial Ray Map)。对于图像坐标空间中的每个像素 (u, v),其 Plücker 坐标表示定义如下:
其中, 表示世界坐标系中的相机中心, 是从相机中心到像素 (u, v) 的视线方向向量,其计算方式为:
然后将其归一化为单位长度。在此基础上,每帧的 Plücker 嵌入 经过卷积层处理,并注入到视觉潜在表示中:
最后,双分支的相机信息被添加到与第 个镜头相关联的视觉词元 中,然后进行自注意力计算:
通过在镜头转场中整合不同形式的相机信息,该方法使得扩散模型能够捕捉相机设置背后的设计意图,从而为可控的多镜头视频生成提供辅助线索。
4.2.2. 镜头感知掩码机制 (Shot-aware Mask Mechanism)
除了参数化条件,高层语义指导对于扩散模型捕捉专业镜头转场模式至关重要。为此,ShotDirector 引入了一个镜头感知掩码机制,指导每个词元 (token) 融合视觉和文本域中的全局 (Global) 和局部 (Local) 信息,使模型能够以更详细和结构化的方式处理层次化文本字幕 (Hierarchical Text Captions)。
形式上,来自第 个镜头的视觉潜在表示 经过 DiT 架构中的注意力层处理。镜头感知掩码约束查询 (query) 只能与其对应的上下文信息进行交互:
其中, 和 。
4.2.2.1. 视觉掩码 (Visual Mask)
在视觉层面:
- 局部信息 (Local Information): 指当前镜头内的所有词元。
- 全局信息 (Global Information): 包含整个视频第一帧的词元。 为了在去噪的早期阶段促进足够的全局交互,所有词元在初始层保持可见。这个机制使得每个镜头能够捕捉整体场景上下文,同时保留镜头特有的视觉细节,这与多镜头视频生成的目标一致:确保高层上下文一致性,同时保持视觉多样性。
4.2.2.2. 语义掩码 (Semantic Mask)
在文本层面:
- 局部信息: 包括镜头特定的描述和电影摄影线索。
- 全局信息: 涵盖共享的主体属性、整体叙事和转场语义。 这种设计强制文本指导与相应的视觉词元精确对齐。主体标签保持跨镜头一致性,而转场语义提供了专业编辑模式的先验知识,从而实现连贯且可控的转场。
镜头感知掩码促进了全局和局部上下文之间的结构化交互,使每个镜头在保持与整个视频上下文一致的同时,保留其独特的视觉外观,从而引入了一种层次化和编辑感知的提示策略。
4.2.3. 实现细节 (Implementation Details)
为了将条件信号集成到去噪过程中,模型基于 [41] 进行训练。
- 初始化: 外参分支使用 [4] 中的相机编码器进行初始化,后接一个零初始化的
MLP传输层连接到DiT框架。Plücker 分支则随机初始化。 - 训练阶段:
- 预热阶段 (Warm-up Phase): 仅训练双分支编码器,其中外参分支仅训练其传输层。
- 联合优化阶段: 随后解冻自注意力参数进行联合优化。
- 两阶段训练方案 (Two-stage Training Scheme): 考虑到真实数据中的相机姿态不如合成数据可靠,作者采用了两阶段训练方案。
- 第一阶段: 模型在
ShotWeaver40K数据集上进行训练。 - 第二阶段: 训练数据通过
SynCamVideo[5] 进行增强,真实数据与合成数据的比例为 7:3。 这种两阶段策略使模型能够学习转场行为,并利用相机信息作为辅助指导,实现稳定且可控的多镜头视频生成。
- 第一阶段: 模型在
5. 实验设置
本节详细介绍实验设置,包括使用的数据集、评估指标和对比基线。
5.1. 数据集
为了训练模型并使其具备对电影级编辑模式的专业理解,作者构建了 ShotWeaver40K 数据集。
5.1.1. 数据集构建流程
ShotWeaver40K 的构建通过一个精细的数据处理流程,如 Figure 3a 所示:
-
原始视频来源 (Raw Video Source): 从 16K 部完整电影中收集原始视频,以捕捉丰富的电影摄影语言和保持叙事流畅性。
-
分段与拼接 (Segmentation and Stitching):
-
使用
TransNetV2[38] 对每个视频进行镜头分段 (shot segmentation)。 -
使用
ImageBind[12] 提取相邻镜头的图像特征。 -
如果第一个和最后一个镜头之间的相似度低于预定义阈值,则丢弃该片段。
-
阈值设置 (Table 4): 以下是原文 Table 4 的结果:
Threshold Type Value Segmentation threshold 0.45 First/last frame similarity threshold 0.90 Stitching threshold 0.65
-
-
初步筛选 (Preliminary Filtering):
- 根据分辨率、帧率、时长(5-12 秒)和整体美学分数等基本视频属性进行筛选,确保高质量基线。特别关注镜头转场附近的帧,以确保视觉清晰度。
- 仅保留包含两个镜头的片段,因为本研究关注的是镜头对之间的转场类型。
- 此阶段产生约 500K 个候选视频。
-
细粒度转场筛选 (Fine-Grained Transition Filtering):
- 过高相似度处理: 计算
CLIP[34] 特征相似度,移除相似度大于 0.95 的片段,以过滤掉错误分段或无转场场景(例如,光线闪烁)。 - 过低相似度处理: 对于低相似度片段,使用基于
VLM[43] 的方法进行过滤,因为图像特征指标更侧重“氛围、风格和色调”而非“空间或因果关系”。 Figure 7 展示了用于VLM过滤的提示。 - 最终得到 40K 个高质量视频。
- 过高相似度处理: 计算
-
字幕生成 (Caption Generation):
-
使用
GPT-5-mini为每个精选视频生成层次化字幕 (Hierarchical Captions)。 -
每个视频都标注了涵盖两个镜头中主要主体的通用描述 (General Description)。
-
每个镜头都有更细粒度的镜头特定字幕 (Shot-specific Captions),描述相关的电影摄影特征(如构图、焦点、灯光、色彩、相机角度)。
-
还包括转场类型 (Transition Type) 及其描述。本文强调了四种代表性转场类型:
shot/reverse shot、cut-in、cut-out和multi-angle。 -
Figure 8 展示了用于层次化字幕的提示。
该图像是一个图表,展示了三个视频属性的分布:持续时间(秒)、剪辑相似度和美学评分(平均值)。每个属性的频率分布通过直方图进行呈现,反映了这些属性在数据集中的统计特征。
-
图 8 是用于使用 GPT-5-mini 进行层次化字幕生成的提示。
- 相机姿态估计 (Camera Pose Estimation):
- 使用
VGGT[42] 估计相对于第一个镜头的相机旋转和平移,以矩阵形式表示运动参数。 - 最终形成
ShotWeaver40K,一个带有详细镜头转场标注的高质量数据集。
- 使用
5.1.2. 数据集统计特征
Figure 9 展示了 ShotWeaver40K 中关键视频属性的分布。
-
平均时长: 8.72 秒。
-
平均美学分数: 6.21。
-
相邻镜头帧对的平均
CLIP特征相似度: 0.7817。 这些统计数据表明,数据集保持了高美学质量和严格控制的镜头间一致性,非常适合用于训练探索镜头转场建模的框架。
该图像是一个示意图,展示了多角度拍摄与剪切之间的不同。左上角是参考图像,右上角标注为[Cut-in],呈现了一种剪切效果;左下角为多角度镜头,标注为[Multi-Angle],展示了场景的不同视角。这些元素结合在一起,体现了影片剪辑的多样性和复杂性。
图 9 是 ShotWeaver40K 中关键视频属性的分布。
5.2. 评估指标
为了全面评估模型的性能,作者设计了一套评估指标,从三个方面衡量生成结果:镜头转场控制 (Shot Transition Control)、整体质量 (Overall Quality) 和跨镜头一致性 (Cross-shot Consistency)。
5.2.1. 镜头转场控制 (Transition Control)
5.2.1.1. 转场置信度分数 (Transition Confidence Score)
概念定义: 该指标量化了生成视频中镜头转场的清晰度和可靠性。它评估转场是否发生以及其呈现的锐利程度(例如,区分硬切与渐进转场)。 数学公式: 符号解释:
- : 由
TransNetV2[38] 预测的帧级转场可能性特征向量。每个元素对应特定帧的转场概率。 - : 视频的总帧数。
- : Sigmoid 函数,将概率值映射到 (0, 1) 范围。
- : 取所有帧中最高的转场置信度分数。
5.2.1.2. 转场类型准确率 (Transition Type Accuracy)
概念定义: 评估模型对不同类别转场的适应能力,即生成视频的转场类型是否与提示 (prompt) 中指定的类型一致。
计算方法: 使用视觉语言模型 (VLM) Qwen [43] 来分类每个生成视频的转场类型,并与真实标注的提示进行比对,计算准确率。
评估集转场类型分布 (Table 5):
以下是原文 Table 5 的结果:
| Transition Type | Count |
|---|---|
| Cut-in | 24 |
| Cut-out | 26 |
| Shot/Reverse Shot | 25 |
| Multi-Angle | 15 |
Figure 11 展示了用于 VLM 进行转场类型识别的提示。
该图像是图示,展示了在识别镜头切换类型时使用的提示信息。内容详细说明了四种镜头切换类型,包括:1. 对话镜头,2. 切入镜头,3. 切出镜头,4. 多角度镜头,提供了具体的定义和应用场景。
图 11 是用于使用 Qwen 识别镜头转场类型的提示。
5.2.2. 整体质量 (Overall Quality)
5.2.2.1. 美学分数 (Aesthetic Score)
概念定义: 评估生成视频的整体视觉吸引力。 计算方法: 使用一个美学预测器 (Aesthetic Predictor) [24] 进行评估。
5.2.2.2. 图像质量分数 (Imaging Quality Score)
概念定义: 评估生成视频的图像质量,如清晰度、细节等。 计算方法: 使用一个图像质量模型 (Imaging Quality Model) [24] 进行评估。
5.2.2.3. 文本-视频对齐度 (Text-Video Alignment)
概念定义: 量化生成视频与文本描述之间的语义匹配程度。
计算方法: 使用 ViCLIP [44] 提取的特征相似度来衡量。
5.2.2.4. Fréchet 视频距离 (Fréchet Video Distance, FVD)
概念定义: FVD 是一个衡量生成视频分布与真实视频分布之间距离的指标。它基于预训练的视频特征提取器(例如 Inception 或 ViCLIP)提取的特征,计算它们在高维空间中的 Fréchet 距离。较低的 FVD 值表示生成视频的质量和多样性与真实视频更接近。
数学公式: FVD 的计算基于两个多变量高斯分布之间的 Fréchet 距离:
符号解释:
P, Q: 分别表示真实视频和生成视频的特征分布。- : 分别是真实视频特征和生成视频特征的均值向量。
- : 分别是真实视频特征和生成视频特征的协方差矩阵。
- : L2 范数。
- : 矩阵的迹。
5.2.3. 跨镜头一致性 (Cross-shot Consistency)
5.2.3.1. 语义一致性 (Semantic Consistency)
概念定义: 评估不同镜头之间语义信息(如人物、物体、场景主题)的连贯性。
计算方法: 通过从每个镜头提取的 ViCLIP [44] 特征来衡量。
5.2.3.2. 视觉一致性 (Visual Consistency)
概念定义: 评估相邻镜头之间视觉元素(如主体外观、背景)的连贯性。
计算方法: 计算相邻镜头之间主体 [31] 和背景 [11] 相似度的平均值。
5.3. 对比基线
作者将 ShotDirector 与三类强大的基线模型进行比较:
- 多镜头视频生成模型:
- 端到端生成:
Mask2DiT[33] 和CineTrans[46]。 - 逐镜头生成:
StoryDiffusion[53] (结合CogVideoXI2V[50])。 - 参考视频生成:
Phantom[28] (利用文本到图像模型生成的参考图像)。
- 端到端生成:
- 预训练视频扩散模型:
HunyuanVideo[26] 和Wan2.2[41]。 - 多视角和相机控制方法:
SynCamMaster[5] (合成双视角视频以产生镜头转场) 和ReCamMaster[4] (基于Wan2.2生成视频进行相机控制编辑)。
5.4. 实验实现细节
- 基础模型: 采用
Wan2.1-T2V-1.3B[41] 作为基础模型。 - 训练硬件: 在
NVIDIA A800 GPU上进行训练。 - 训练方案: 遵循
3.4中描述的两阶段训练方案。- 第一阶段: 使用
Adam优化器 [1],学习率为 ,训练 10,000 步。此阶段模型初步学习转场能力。 - 第二阶段: 学习率设置为 ,训练 3,000 步。此阶段增强模型对转场设计的理解。
- 第一阶段: 使用
6. 实验结果与分析
本节将展示 ShotDirector 的实验结果,并与基线模型进行对比,分析其在转场控制、整体质量和跨镜头一致性方面的性能。
6.1. 核心结果分析
6.1.1. 定性结果 (Qualitative Results)
Figure 4 展示了 ShotDirector 与代表性基线模型的视觉比较。
该图像是示意图,展示了不同视频生成模型在多镜头视频生成中的比较,包含模型名称及对应示例。我们的模型ShotDirector展示了更具一致性的镜头过渡,表明对镜头内容的精细控制。此外,包含了多个镜头类型的描述。
图 4 展示了 ShotDirector 和代表性基线模型在多镜头视频生成中的视觉比较。图中的每个示例都通过简明的提示和转场控制信息进行标注。
- 多镜头视频生成方法:
Mask2DiT表现出生成多个镜头时的不稳定性和动画般的视觉效果。CineTrans缺乏对镜头转场类型的明确理解。StoryDiffusion和Phantom在保持主体和风格一致性方面表现尚可,但在维持连贯的视觉细节或形成连续叙事流方面表现不佳。
- 预训练视频生成模型:
HunyuanVideo在多镜头场景中表现优于Wan2.2。两者都表现出对专业剪辑模式的一定感知,但无法确保多镜头结构的出现或显式控制镜头转场。
- 多视角和相机控制方法:
SynCamMaster保持了相机定位和场景一致性,但没有镜头转场类型的概念,且生成视频的视觉质量相对较低。ReCamMaster专为平滑变化的相机姿态设计,难以处理突然的姿态变化,导致帧扭曲并无法实现镜头转场。
ShotDirector 的优势:
相比之下,ShotDirector 能够有效响应指定的镜头转场类型,展示出电影般的专业剪辑模式,传达连贯的视觉故事和语义表达。
6.1.2. 定量结果 (Quantitative Results)
Table 1 总结了在设计的评估指标上进行的定量评估结果。
以下是原文 Table 1 的结果:
| Method | Transition Control | Overall Quality | Cross-shot Consistency | |||||
| Confidence↑ | Type Acc↑ | Aesthetic↑ | Imaging↑ | Overall Consistency↑ | FVD↓ | Semantic↑ | Visual↑ | |
| Mask2DiT [33] | 0.2233 | 0.2033 | 0.5958 | 0.6841 | 0.2184 | 69.49 | 0.7801 | 0.7779 |
| CineTrans [46] | 0.7976 | 0.3944 | 0.6305 | 0.6914 | 0.2328 | 71.89 | 0.7915 | 0.7851 |
| StoryDiffusion [53] | - | 0.5222 | 0.5806 | 0.6742 | 0.1489 | 92.21 | 0.4516 | 0.5873 |
| Phantom [28] | - | 0.6211 | 0.6183 | 0.6793 | 0.2370 | 86.61 | 0.5379 | 0.5709 |
| HunyuanVideo [26] | 0.4698 | 0.3222 | 0.6101 | 0.6158 | 0.2351 | 69.88 | 0.5703 | 0.6601 |
| Wan2.2 [41] | 0.2165 | 0.1022 | 0.5885 | 0.6199 | 0.2387 | 69.48 | 0.6895 | 0.7547 |
| SynCamMaster [5] | 0.3033 | 0.5453 | 0.6177 | 0.1882 | 72.47 | 0.7949 | 0.8418 | |
| ReCamMaster [4] | 0.0266 | 0.0333 | 0.5493 | 0.6111 | 0.2320 | 71.51 | - | - |
| ShotDirector (Ours) | 0.8956 | 0.6744 | 0.6374 | 0.6984 | 0.2394 | 68.45 | 0.7918 | 0.8251 |
关键发现:
-
转场控制: 大多数多镜头视频生成模型和预训练视频生成模型在镜头转场控制方面表现较弱。相比之下,
ShotDirector实现了最准确的转场控制,在转场置信度 (Confidence) 和转场类型准确率 (Type Acc) 上均取得最高分。 -
整体质量:
ShotDirector生成的视频在语义对齐、视觉高质量和最接近真实电影剪辑视频方面表现最佳,在美学分数 (Aesthetic)、图像质量 (Imaging) 和FVD 上均取得最优结果。 -
跨镜头一致性: 尽管
SynCamMaster在一致性方面得分最高,但其强烈的相机姿态约束导致美学质量低和语义依从性差,表明其一致性是以牺牲视觉保真度为代价的。ShotDirector在保持卓越整体质量的同时,在一致性方面排名第二,证明其实现了视觉保真度和时间连贯性。Figure 5 可视化了不同方法生成的视频中镜头转场类型的分布。
该图像是一个图表,展示了不同视频生成模型在多种镜头转换类型上的表现,包括多角度、切换镜头等。图中清晰地比较了各模型的效果,其中 ShotDirector 的表现突出。
图 5 是不同方法生成的视频中镜头转场类型的分布(比例)。
- 一些方法(如
[4, 26, 33, 41])表现出有限的转场能力,导致大多数视频被分类为No-Transition(无转场)。 - 另一些方法(如
[5, 46])缺乏明确的镜头转场设计,主要被标记为Multi-Angle(多角度)。 - 相比之下,
ShotDirector稳定生成各种专业镜头转场类型,并实现了更平衡的分布。
6.2. 消融实验 (Ablation Studies)
本节通过消融实验评估了 ShotDirector 框架中各个组件的贡献。
6.2.1. 相机信息注入 (Camera Information Injection)
作者比较了使用不同相机信息分支的变体,以及没有相机条件的版本。
以下是原文 Table 3 的结果:
| Method | RotErr↓ | TransErr↓ |
| ShotDirector (w/o Camera Info) | 0.6330 | 0.5740 |
| ShotDirector (w/o Plücker Branch) | 0.6262 | 0.5727 |
| ShotDirector (w/o Extrinsic Branch) | 0.5972 | 0.5445 |
| ShotDirector (Ours) | 0.5907 | 0.5393 |
关键发现:
- 评估指标: 采用
RotErr(旋转误差) 和TransErr(平移误差) 来衡量相机姿态控制性能,数值越低越好。 - Plücker 分支和外参分支的贡献: 结果显示,两个相机信息分支都对多镜头视频生成能力有积极贡献。
- Plücker 分支略优: Plücker 分支表现略优于外参分支,这归因于 Plücker 表示中包含的内参和空间光线图,这有助于模型更好地解释镜头转场中的相机姿态变化。
- 完整模型最佳:
ShotDirector (Ours)结合了两个分支,在RotErr和TransErr上均达到最佳性能,验证了双分支架构的有效性。
6.2.2. 镜头感知掩码机制 (Shot-Aware Mask Mechanism)
作者对视觉和语义镜头感知掩码进行了消融实验。
以下是原文 Table 2 的结果:
| Method | Transition Control | Overall Quality | Cross-shot Consistency | |||||
| Confidence↑ | Type Acc↑ | Aesthetic↑ | Imaging↑ | Overall Consistency↑ | FVD↓ | Semantic↑ | Visual↑ | |
| ShotDirector (w/o Shot-aware Mask) | 0.7572 | 0.5422 | 0.6303 | 0.6912 | 0.2348 | 70.36 | 0.7183 | 0.7910 |
| ShotDirector (w/o Semantic Mask) | 0.8913 | 0.6428 | 0.6332 | 0.6899 | 0.2371 | 71.54 | 0.6901 | 0.7761 |
| ShotDirector (w/o Visual Mask) | 0.8044 | 0.5583 | 0.6305 | 0.6885 | 0.2351 | 69.47 | 0.7909 | 0.8052 |
| ShotDirector (w/o Training) | 0.1402 | 0.2489 | 0.6276 | 0.6742 | 0.2233 | 70.71 | 0.8419 | 0.8256 |
| ShotDirector (w/o Stage ⅡI Training) | 0.8615 | 0.6300 | 0.6331 | 0.6922 | 0.2379 | 68.97 | 0.7713 | 0.8076 |
| ShotDirector (Ours) | 0.8956 | 0.6744 | 0.6374 | 0.6984 | 0.2394 | 68.45 | 0.7918 | 0.8251 |
关键发现:
- 视觉镜头感知掩码 (Visual Shot-aware Mask): 对转场控制有更强的影响。如果全局可见视觉词元导致跨镜头信息泄露,可能会减少镜头多样性并削弱转场效果。移除
Visual Mask导致Confidence和Type Acc显著下降。 - 语义镜头感知掩码 (Semantic Shot-aware Mask): 主要影响一致性。这符合直觉,即细粒度的语义控制有助于模型在多镜头场景中平衡一致性和多样性。移除
Semantic Mask导致Semantic和Visual一致性略有下降。 - 完整模型最佳:
ShotDirector (Ours)结合了完整的镜头感知掩码机制,在各项指标上均表现最佳。
6.2.3. 训练策略 (Training Strategy)
作者还对两阶段训练过程进行了消融实验。
关键发现 (Table 2):
- 未训练版本 (
w/o Training): 展示了较高的视觉一致性 (Visual Consistency) 分数(0.8256),但其转场置信度 (Confidence) 和类型准确率 (Type Acc) 极低(0.1402和0.2489)。这表明未训练的模型缺乏多镜头合成的概念,无法产生大的视觉变化,从而“伪造”了高一致性,但实际上未能生成有效的转场。 - 无第二阶段训练版本 (
w/o Stage II Training): 在转场控制和整体质量方面略低于完整模型,但仍显著优于未训练版本。这验证了两阶段训练策略的有效性,它能增强转场可控性和整体视觉质量。第二阶段通过引入合成数据,进一步提升了模型对转场设计的理解。
6.3. 额外能力 (Additional Capability)
作为一个扩展,ShotDirector 模型可以无缝集成在基础模型上训练的功能模块,以实现多镜头视频生成的额外能力,例如参考到视频合成 (reference-to-video synthesis)。
Figure 6 展示了将 [22] 的权重直接迁移到 ShotDirector 的结果。
该图像是一个示意图,展示了多角度拍摄与剪切之间的不同。左上角是参考图像,右上角标注为[Cut-in],呈现了一种剪切效果;左下角为多角度镜头,标注为[Multi-Angle],展示了场景的不同视角。这些元素结合在一起,体现了影片剪辑的多样性和复杂性。
图 6 是模型迁移到参考视频模型后的性能表现。
- 通过使用参考图像作为额外输入,模型能够生成具有指定主体的多镜头视频。
- 这表明
ShotDirector保留了基础模型对视频内容的理解,使其能够与其他功能模块进行接口交互。 - 这种适应性进一步突出了该方法的通用性。
6.4. 总结
实验结果有力地证明了 ShotDirector 在可控多镜头视频生成方面的卓越性能。它不仅在转场控制、整体质量和跨镜头一致性方面优于现有基线,而且通过相机信息注入和镜头感知掩码机制,有效融入了电影级的导演意图和剪辑模式。消融实验进一步验证了各个核心组件及其两阶段训练策略的有效性。
7. 总结与思考
7.1. 结论总结
本文提出了 ShotDirector,一个用于可控多镜头视频生成的统一框架。该框架将参数级相机控制与层次化、编辑模式感知的提示相结合,通过明确的相机信息注入和镜头感知掩码机制,实现了对镜头转场的细粒度控制。这使得模型在保持语义和视觉一致性的同时,有效地捕捉了电影般的编辑模式,并实现了连贯的叙事表达。
ShotDirector 的工作强调了镜头转场在多镜头视频生成任务中的重要性,包括转场类型、叙事流和电影语言。它证明了通过将导演意图和专业电影剪辑约定编码到生成过程中,可以显著提升生成视频的质量、可控性和叙事连贯性。
7.2. 局限性与未来工作
7.2.1. 局限性
-
多主体场景理解不足: 如 Figure 12 所示,在某些样本中,不同主体的视觉特征会混合,表明模型在存在多个主体时缺乏清晰的一对一对应关系。这可能表示模型对多主体场景的理解不足。
-
数据标注的潜在改进: 为了解决多主体混合问题,未来的改进可能需要提供更详细的边界框级别标注 (bounding-box-level annotations),以增强模型对多主体情况的理解和建模能力。
该图像是图像12,展示了一种典型的失败案例,在该案例中,多个主体的视觉特征在生成过程中不经意地融为一体,导致画面失去清晰度和辨识度。
图 12 是一个代表性的失败案例,其中多个主体的视觉特征在生成过程中无意中混合。
7.2.2. 未来工作
- 更紧密地集成相机控制和语义线索: 目前,相机控制和语义提示通过两个独立的模块来管理镜头转场。未来的研究方向可以是探索如何更无缝地统一这两种形式的条件,以实现更连贯和富有表现力的转场建模过程。
- 扩展到更长、更复杂的视频序列和转场类型: 尽管
ShotDirector在现有设置下表现出色,但将其框架扩展到生成包含更丰富、更复杂转场类型的长视频序列是一个有价值的研究方向。作者认为,通过额外的数据,扩展到更长的时间跨度是可行的。在ShotWeaver40K上验证了方法的有效性后,进一步在扩展数据集上进行微调可能会使模型泛化到具有更多镜头和更长时长的视频。
7.3. 个人启发与批判
7.3.1. 个人启发
ShotDirector 的工作为视频生成领域带来了重要的启发,它将关注点从单纯的视觉质量和一致性提升到更高级别的叙事和导演意图。
- 电影语言的量化与利用: 论文成功地将电影导演在制作中使用的“直觉”和“经验”(如各种转场类型、相机运动对叙事的影响)转化为模型可学习的参数和条件。这为将艺术创作中的抽象概念具象化、可计算化提供了范例。
- 层次化控制的重要性: 通过结合参数级(相机姿态)和语义级(文本提示、编辑模式)的层次化控制,模型能够实现多粒度的精确生成。这种分层控制的思想在其他复杂的生成任务中也具有借鉴意义。
- 高质量数据集的价值:
ShotWeaver40K的构建过程(包括严格筛选、层次化标注和相机姿态估计)凸显了高质量、专业标注数据集对于训练能够理解复杂领域知识的模型的重要性。在缺乏此类数据集的情况下,再先进的模型也难以发挥其潜力。 - 扩散模型的潜力: 再次证明了扩散模型在处理复杂时间序列数据和多模态条件方面的强大潜力,为未来 AIGC 领域在电影、动画制作等创意产业中的应用打开了新的大门。
7.3.2. 批判
尽管 ShotDirector 取得了显著成就,但仍有一些潜在问题和可以改进的地方:
- 多主体场景的泛化性: 论文中提到的多主体混合的失败案例是一个关键的局限。虽然提出通过边界框标注来改进,但这增加了数据收集和标注的复杂性。更根本的问题可能是模型对场景中实体关系 (Entity Relationships) 的理解不足。未来的工作可以探索图神经网络 (GNN) 或关系推理模块来增强模型对复杂多主体交互的理解。
- 转场类型的多样性与复杂性: 虽然论文涵盖了四种重要的转场类型,但电影剪辑中还有更多复杂和微妙的转场,例如叠化 (dissolve)、淡入淡出 (fade-in/out)、匹配剪辑 (match cut)、跳切 (jump cut) 等。如何将这些更艺术化、更依赖上下文的转场类型融入模型,是一个巨大的挑战。
- 长视频生成的时间连贯性: 尽管论文提到了未来将模型扩展到更长视频,但随着视频时长的增加,保持全局叙事连贯性和时间一致性会变得极其困难。现有的帧级或镜头级一致性可能不足以支撑一个完整的电影或故事。这可能需要引入更高级别的叙事规划模块或记忆机制。
- 用户控制的直观性与灵活性: 尽管提供了参数级和语义级控制,但对于普通用户而言,如何直观地、灵活地指定这些复杂的电影语言和相机参数可能仍然是一个挑战。未来的研究可以探索更用户友好的交互界面,例如基于轨迹绘制、自然语言更高级别的导演意图描述等。
- 合成数据与真实数据的结合: 第二阶段训练中真实数据与合成数据的 7:3 比例值得进一步探讨。合成数据在提供精确相机姿态方面有优势,但其真实感可能不如真实数据。如何最佳地平衡两者,或者设计更有效的域适应 (domain adaptation) 策略,以充分利用合成数据的精确性同时不牺牲真实感,是一个开放问题。
相似论文推荐
基于向量语义检索推荐的相关论文。