摘要

In this paper, we introduce DreaMontage, a comprehensive framework designed for arbitrary frame-guided generation, capable of synthesizing seamless, expressive, and long-duration one-shot videos from diverse user-provided inputs. To achieve this, we address the challenge through three primary dimensions. Project Page: https://dreamontage.github.io/DreaMontage/

1. 论文基本信息

1.1. 标题

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation （DreaMontage：任意帧引导的一镜到底视频生成）

1.2. 作者

Jiawei Liu*, Junqiao Li*, Jiangfan Deng*, Gen Li*, Siyu Zhou, Zetao Fang, Shanshan Lao, Zengde Deng, Jianing Zhu, Tingting Ma, Jiayi Li, Yunqiu Wang, Qian He, Xinglong Wu。来自 ByteDance (字节跳动) 智能创作团队 (Intelligence Creation Team)。

1.3. 发表期刊/会议

该论文目前作为预印本发表于 arXiv，并在 Hugging Face Papers 受到广泛关注。字节跳动作为领先的视频技术公司，其在视频生成领域的研究具有极高的行业影响力。

1.4. 发表年份

2025年12月（原文标注日期为 2025年12月25日，发布于 2025年12月23日）。

1.5. 摘要

本文介绍了 DreaMontage，这是一个专为任意帧引导生成 (Arbitrary frame-guided generation) 设计的综合框架。它能够根据用户提供的各种输入（如散乱的图像或视频剪辑），合成出无缝、极具表现力且长时长的一镜到底 (One-shot) 视频。为了解决一镜到底生成中的平滑性、连贯性和计算效率挑战，作者提出了三项核心创新：(i) 集成轻量级中间条件机制的 扩散变换器 (Diffusion Transformer, DiT) 架构；(ii) 结合高质量数据集的 视觉表达有监督微调 (Visual Expression SFT) 和针对动作合理性与过渡平滑性的 定制化直接偏好优化 (Tailored DPO)；(iii) 支持长视频生成的 分段式自回归 (Segment-wise Auto-Regressive, SAR) 推理策略。

1.6. 原文链接

Hugging Face: https://huggingface.co/papers/2512.21252
arXiv (PDF): https://arxiv.org/pdf/2512.21252.pdf
项目主页: https://dreamontage.github.io/DreaMontage/

2. 整体概括

2.1. 研究背景与动机

一镜到底 (One-shot / Long take) 是电影制作中一种极具艺术感染力的技术，强调空间的连续性和沉浸感。然而，在现实中拍摄长镜头成本极高，且受物理空间限制。

虽然近年来的视频生成模型（如 Sora、Kling）取得了突破，但在生成一镜到底视频时仍面临以下挑战 (Gap)：

过渡不自然: 现有方法通常简单地拼接多个片段，导致视觉上的突变和不连贯。
控制精度不足: 现有模型大多仅支持“首帧”或“末帧”引导，难以在视频中间插入精确的视觉约束。
算力与内存限制: 生成超长视频时，计算开销呈指数级增长。

DreaMontage 的切入点在于：将视频生成任务定义为“连接散乱的视觉点”，通过在任意时间点引入精确的条件控制，让模型像一个“神经剪辑师”一样，将互不相关的图像或短片缝合成一个流畅的长镜头。

2.2. 核心贡献/主要发现

任意帧控制能力: 提出了一种轻量级的方法，允许在视频序列的任何位置插入图像或视频片段作为条件。
渐进式训练方案: 通过 适应性调整 (Adaptive Tuning)、有监督微调 (SFT) 和 直接偏好优化 (DPO) 三阶段训练，显著提升了动作的合理性和转场的无缝感。
SAR 长视频推理: 设计了分段式自回归生成机制，在有限显存下实现了极长、高质量一镜到底视频的稳定产出。

3. 预备知识与相关工作

3.1. 基础概念

扩散变换器 (Diffusion Transformer, DiT): 一种结合了扩散模型（生成高质量图像/视频）和 Transformer（处理长序列能力强）的架构。
潜空间 (Latent Space): 模型不在原始像素上操作，而是先通过变分自编码器 (VAE) 将视频压缩到一个更小、更稠密的向量空间进行运算，以提高效率。
因果变分自编码器 (Causal VAE): 在时间维度上具有因果性的编码器，即当前帧的编码只依赖于过去和现在的帧。

3.2. 前人工作与技术演进

早期的 图像转视频 (I2V) 模型仅支持给定第一帧生成后续内容。随后，一些模型尝试引入“首尾帧”约束。然而，这些方法在处理“中间帧”时往往表现不佳，因为 3D VAE 的时间下采样机制会导致中间时刻的潜特征（Latent）其实融合了前后多帧的信息，造成控制精度模糊。

3.3. 差异化分析

相较于 HunyuanVideo 或 Wan 等模型，DreaMontage 并不是简单地增加上下文长度，而是采用了 通道级拼接 (Channel-wise Concatenation) 结合 共享旋转位置嵌入 (Shared-RoPE) 的策略。这种方式不仅能处理图像，还能处理视频片段插入，且计算成本更低。

4. 方法论

4.1. 模型设计与中间条件适配

DreaMontage 基于 Seedance 1.0 架构。为了实现中间条件（Interm-Cond）的精准引导，作者针对 因果 VAE (Causal VAE) 的特性进行了优化。

4.1.1. 解决时间下采样失配

如图 3 所示，由于 VAE 在时间轴上存在下采样，一个中间时刻的潜变量（Latent）实际上聚合了多个帧的信息。如果直接把一张独立图片的潜变量塞进去，会产生位置对不齐的问题。

作者提出通过 适应性调整 (Adaptive Tuning)，从预训练数据中筛选出一镜到底子集，让模型学习如何处理这种“点对多”的映射。

4.1.2. 超分辨率模型中的共享 RoPE

在将 480p 视频提升至 720p/1080p 时，通道拼接容易导致闪烁和偏色。为了消除伪影，作者引入了 共享旋转位置嵌入 (Shared-RoPE, Shared Rotary Position Embedding)。

具体逻辑如下：

将参考图像 $C_i$ 的潜变量不仅在通道维度拼接，还直接追加到噪声序列的末尾。
强制让这个追加的 $C_i$ 使用与其在目标视频中对应的位置 $t_1$ 完全相同的 RoPE 值。
公式化表达为：若条件帧 $C_i$ 引导第 $k$ 帧生成，则 $RoPE(C_i) = RoPE(Frame_k)$ 。

下图（原文 Figure 4）展示了该策略：

$Figure 4 The Shared-RoPE strategy for the superresolution model. In addition to channel-wise concatenation, we introduce a sequence-wise conditioning mechanism to eliminate artifacts. Condition frames are appended to the tail of the sequence while share the same RoPE value as the target frames they guide (e.g., `C _ { i }` shares the RoPE of `t _ { 1 }` ). In the case of video condition, this strategy is only applied to the first frame.$ 该图像是示意图，展示了共享RoPE策略在超分辨率模型中的应用。图中展示了通道级的拼接以及序列级条件机制，旨在消除伪影。条件帧被附加到序列末尾，并与其引导的目标帧共享相同的RoPE值，例如，条件帧 C _ { i } 与目标帧 t _ { 1 } 共享RoPE。在视频条件情况下，该策略仅应用于第一帧。

4.2. 视觉表达 SFT 与定制化 DPO

为了让模型生成的视频更具“电影感”，作者设计了精细的训练管道。

4.2.1. 视觉表达 SFT (Supervised Fine-Tuning)

作者收集了包含：镜头运动 (Camera Shots)、视觉特效 (VFX)、体育运动 (Sport)、空间感知 (Spatial Perception) 和 高级转场 (Advanced Transitions) 五大类的精选数据进行微调。

4.2.2. 定制化 DPO (Tailored Direct Preference Optimization)

这是提升视频质量的关键步骤。DPO 旨在通过“好坏样例对”来校准模型。

解决突然切镜 (Abrupt Cuts): 训练一个 VLM 判别器识别视频中的突变转场，将“平滑转场”设为正例， $v_w$ ，“有切镜”设为负例 $v_l$ 。
解决主体动作畸变: 人工标注肢体扭曲、违反物理规律的视频作为负例。

优化目标 (DPO Loss): 作者严格遵循标准的 DPO 损失函数进行优化： $\mathcal{L}_{\mathrm{DPO}} = - \mathbb{E}_{(c, v_w, v_l) \sim \mathcal{D}} \left[ \log \sigma \left( \beta \log \frac { \pi _ { \theta } \left( v _ { w } | c \right) } { \pi _ { \mathrm { r e f } } \left( v _ { w } | c \right) } - \beta \log \frac { \pi _ { \theta } \left( v _ { l } | c \right) } { \pi _ { \mathrm { r e f } } \left( v _ { l } | c \right) } \right) \right]$

符号解释:
- $c$ : 输入的视觉（图像/视频）和文本条件。
- $v_w$ : 偏好样本（更好的视频）。
- $v_l$ 反面样本（有缺陷的视频）。
- $\pi_{\theta}$ : 正在优化的策略模型。
- $\pi_{\mathrm{ref}}$ : 参考模型（通常是 SFT 后的模型）。
- $\beta$ : 控制偏离参考模型程度的超参数。
- $\sigma$ : Sigmoid 函数。

4.3. 分段式自回归生成 (SAR)

为了生成长视频，DreaMontage 使用潜空间中的滑动窗口。

生成逻辑: 定义第 $n$ 个片段 $\mathbf{s}_n$ 的生成过程为： $\mathbf{s}_n = \mathcal{G}_{\boldsymbol{\theta}} \left( \tau ( \mathbf{s}_{n-1} ) , \mathcal{C}_n \right)$

符号解释:
- $\mathbf{s}_n$ : 当前正在生成的视频片段。
- $\tau(\cdot)$ : 时间算子，用于提取前一个片段末尾的潜变量作为上下文。
- $\mathcal{C}_n$ : 当前时间窗口内的局部引导信号（用户提供的图片或视频）。
- $\mathcal{G}_{\boldsymbol{\theta}}$ : 生成器函数。
  
  通过这种方式，模型在生成新片段时始终“看着”上一个片段的末尾，从而保证了像素级的连续性。

5. 实验设置

5.1. 数据集

自适应训练阶段: 使用 300k 条经过多阶段过滤（VLM 场景检测、CLIP 相似度去重、Q-Align 美学评分、光流运动强度评估）的一镜到底视频。
SFT 阶段: 约 1k 条覆盖复杂电影镜头的极高质量视频。
DPO 阶段: 为两个子任务各准备了 1k 对偏好数据。

5.2. 评估指标

作者采用了严谨的 GSB (Good/Same/Bad) 人类评估协议。

概念定义: 由专家对两组模型生成的视频进行盲测对比，从视觉质量、运动效果、指令遵循及整体偏好四个维度评分。
数学公式: $GSB \ Score = \frac{Wins - Losses}{Wins + Losses + Ties}$
符号解释:
- Wins: 本模型被评为更好的次数。
- Losses: 对手模型被评为更好的次数。
- Ties: 两者旗鼓相当的次数。

5.3. 对比基线

多关键帧模式: 对比 Vidu Q2 和 Pixverse V5。
首尾帧模式: 对比行业标杆 Kling 2.5。

6. 实验结果与分析

6.1. 核心结果分析

多关键帧任务: DreaMontage 在整体偏好上领先 Vidu Q2 15.79%，领先 Pixverse V5 28.95%。尤其在“提示词遵循”上优势巨大，证明了 SFT 的有效性。
首尾帧任务: 与 Kling 2.5 相比，在视觉质量上打平（0.00 GSB），但在动作效果和提示词遵循上均胜出（+4.64%）。

6.2. 消融实验

以下是原文 Table 1 的消融实验结果，展示了各组件对性能的提升：

对比设置	视觉质量 (GSB)	运动效果 (GSB)	提示词遵循 (GSB)	总体偏好 (GSB)
SFT vs. Base (仅适应性训练)	0.00	+24.58	+5.93	+20.34
SFT+DPO vs. SFT (针对突变切镜)	-	+12.59	-	+12.59
SFT+DPO vs. SFT (针对主体运动)	+13.44	-	-	+13.44
Shared-RoPE vs. SR Base (超分对齐)	+53.55	-	-	+53.55

分析:

SFT 极大地激活了模型的动态生成能力（+24.58%）。
Shared-RoPE 是解决闪烁问题的关键，带来了惊人的 +53.55% 的质量提升。

7. 总结与思考

7.1. 结论总结

DreaMontage 成功地将“一镜到底”视频生成从简单的片段拼接提升到了精准、平滑的受控生成。它通过轻量级的架构调整和分阶段的偏好优化，解决了视频生成中长期存在的转场突变和长视频崩溃问题。

7.2. 局限性与未来工作

虽然论文展示了极强的能力，但在处理极高动态、极大视角变换的极端场景下，仍可能出现细微的语义漂移。未来的研究方向可能包括更强大的物理引擎引入，以及在保持连续性的基础上进一步提升单帧的分辨率细节。

7.3. 个人启发与批判

启发: DreaMontage 的核心智慧在于“不直接挑战 VAE 的因果物理限制，而是通过 RoPE 位置对齐和数据自适应来绕过它”。这种在现有架构上做“最小手术”实现“最大功能”的思路非常值得借鉴。
批判: 尽管模型支持任意帧，但用户输入的一组图片在逻辑上是否能构成一个连贯的一镜到底，依然依赖于用户自身的审美和构思。模型虽然能“连接点”，但如果“点”之间的逻辑跨度过大（例如从沙漠瞬间变深海且没有转场指示），模型可能仍会陷入生成困境。

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 9 分钟读完 · 5,080 字