DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation
TL;DR 精炼摘要
本文介绍了DreaMontage框架,旨在通过用户提供的任意帧生成无缝且具有表现力的一镜到底视频。为应对生成过程中的平滑性、连贯性和计算效率挑战,提出了三项创新:扩散变换器架构、视觉表达有监督微调与定制化直接偏好优化,以及分段式自回归推理策略。
摘要
In this paper, we introduce DreaMontage, a comprehensive framework designed for arbitrary frame-guided generation, capable of synthesizing seamless, expressive, and long-duration one-shot videos from diverse user-provided inputs. To achieve this, we address the challenge through three primary dimensions. Project Page: https://dreamontage.github.io/DreaMontage/
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation (DreaMontage:任意帧引导的一镜到底视频生成)
1.2. 作者
Jiawei Liu*, Junqiao Li*, Jiangfan Deng*, Gen Li*, Siyu Zhou, Zetao Fang, Shanshan Lao, Zengde Deng, Jianing Zhu, Tingting Ma, Jiayi Li, Yunqiu Wang, Qian He, Xinglong Wu。 来自 ByteDance (字节跳动) 智能创作团队 (Intelligence Creation Team)。
1.3. 发表期刊/会议
该论文目前作为预印本发表于 arXiv,并在 Hugging Face Papers 受到广泛关注。字节跳动作为领先的视频技术公司,其在视频生成领域的研究具有极高的行业影响力。
1.4. 发表年份
2025年12月(原文标注日期为 2025年12月25日,发布于 2025年12月23日)。
1.5. 摘要
本文介绍了 DreaMontage,这是一个专为任意帧引导生成 (Arbitrary frame-guided generation) 设计的综合框架。它能够根据用户提供的各种输入(如散乱的图像或视频剪辑),合成出无缝、极具表现力且长时长的一镜到底 (One-shot) 视频。为了解决一镜到底生成中的平滑性、连贯性和计算效率挑战,作者提出了三项核心创新:(i) 集成轻量级中间条件机制的 扩散变换器 (Diffusion Transformer, DiT) 架构;(ii) 结合高质量数据集的 视觉表达有监督微调 (Visual Expression SFT) 和针对动作合理性与过渡平滑性的 定制化直接偏好优化 (Tailored DPO);(iii) 支持长视频生成的 分段式自回归 (Segment-wise Auto-Regressive, SAR) 推理策略。
1.6. 原文链接
-
Hugging Face: https://huggingface.co/papers/2512.21252
-
arXiv (PDF): https://arxiv.org/pdf/2512.21252.pdf
-
项目主页: https://dreamontage.github.io/DreaMontage/
2. 整体概括
2.1. 研究背景与动机
一镜到底 (One-shot / Long take) 是电影制作中一种极具艺术感染力的技术,强调空间的连续性和沉浸感。然而,在现实中拍摄长镜头成本极高,且受物理空间限制。
虽然近年来的视频生成模型(如 Sora、Kling)取得了突破,但在生成一镜到底视频时仍面临以下挑战 (Gap):
-
过渡不自然: 现有方法通常简单地拼接多个片段,导致视觉上的突变和不连贯。
-
控制精度不足: 现有模型大多仅支持“首帧”或“末帧”引导,难以在视频中间插入精确的视觉约束。
-
算力与内存限制: 生成超长视频时,计算开销呈指数级增长。
DreaMontage 的切入点在于:将视频生成任务定义为“连接散乱的视觉点”,通过在任意时间点引入精确的条件控制,让模型像一个“神经剪辑师”一样,将互不相关的图像或短片缝合成一个流畅的长镜头。
2.2. 核心贡献/主要发现
-
任意帧控制能力: 提出了一种轻量级的方法,允许在视频序列的任何位置插入图像或视频片段作为条件。
-
渐进式训练方案: 通过 适应性调整 (Adaptive Tuning)、有监督微调 (SFT) 和 直接偏好优化 (DPO) 三阶段训练,显著提升了动作的合理性和转场的无缝感。
-
SAR 长视频推理: 设计了分段式自回归生成机制,在有限显存下实现了极长、高质量一镜到底视频的稳定产出。
3. 预备知识与相关工作
3.1. 基础概念
- 扩散变换器 (Diffusion Transformer, DiT): 一种结合了扩散模型(生成高质量图像/视频)和 Transformer(处理长序列能力强)的架构。
- 潜空间 (Latent Space): 模型不在原始像素上操作,而是先通过变分自编码器 (VAE) 将视频压缩到一个更小、更稠密的向量空间进行运算,以提高效率。
- 因果变分自编码器 (Causal VAE): 在时间维度上具有因果性的编码器,即当前帧的编码只依赖于过去和现在的帧。
3.2. 前人工作与技术演进
早期的 图像转视频 (I2V) 模型仅支持给定第一帧生成后续内容。随后,一些模型尝试引入“首尾帧”约束。然而,这些方法在处理“中间帧”时往往表现不佳,因为 3D VAE 的时间下采样机制会导致中间时刻的潜特征(Latent)其实融合了前后多帧的信息,造成控制精度模糊。
3.3. 差异化分析
相较于 HunyuanVideo 或 Wan 等模型,DreaMontage 并不是简单地增加上下文长度,而是采用了 通道级拼接 (Channel-wise Concatenation) 结合 共享旋转位置嵌入 (Shared-RoPE) 的策略。这种方式不仅能处理图像,还能处理视频片段插入,且计算成本更低。
4. 方法论
4.1. 模型设计与中间条件适配
DreaMontage 基于 Seedance 1.0 架构。为了实现中间条件(Interm-Cond)的精准引导,作者针对 因果 VAE (Causal VAE) 的特性进行了优化。
4.1.1. 解决时间下采样失配
如图 3 所示,由于 VAE 在时间轴上存在下采样,一个中间时刻的潜变量(Latent)实际上聚合了多个帧的信息。如果直接把一张独立图片的潜变量塞进去,会产生位置对不齐的问题。
作者提出通过 适应性调整 (Adaptive Tuning),从预训练数据中筛选出一镜到底子集,让模型学习如何处理这种“点对多”的映射。
4.1.2. 超分辨率模型中的共享 RoPE
在将 480p 视频提升至 720p/1080p 时,通道拼接容易导致闪烁和偏色。为了消除伪影,作者引入了 共享旋转位置嵌入 (Shared-RoPE, Shared Rotary Position Embedding)。
具体逻辑如下:
-
将参考图像 的潜变量不仅在通道维度拼接,还直接追加到噪声序列的末尾。
-
强制让这个追加的 使用与其在目标视频中对应的位置 完全相同的 RoPE 值。
-
公式化表达为:若条件帧 引导第 帧生成,则 。
下图(原文 Figure 4)展示了该策略:
该图像是示意图,展示了共享RoPE策略在超分辨率模型中的应用。图中展示了通道级的拼接以及序列级条件机制,旨在消除伪影。条件帧被附加到序列末尾,并与其引导的目标帧共享相同的RoPE值,例如,条件帧 C _ { i }与目标帧t _ { 1 }共享RoPE。在视频条件情况下,该策略仅应用于第一帧。
4.2. 视觉表达 SFT 与定制化 DPO
为了让模型生成的视频更具“电影感”,作者设计了精细的训练管道。
4.2.1. 视觉表达 SFT (Supervised Fine-Tuning)
作者收集了包含:镜头运动 (Camera Shots)、视觉特效 (VFX)、体育运动 (Sport)、空间感知 (Spatial Perception) 和 高级转场 (Advanced Transitions) 五大类的精选数据进行微调。
4.2.2. 定制化 DPO (Tailored Direct Preference Optimization)
这是提升视频质量的关键步骤。DPO 旨在通过“好坏样例对”来校准模型。
- 解决突然切镜 (Abrupt Cuts): 训练一个 VLM 判别器识别视频中的突变转场,将“平滑转场”设为正例,,“有切镜”设为负例 。
- 解决主体动作畸变: 人工标注肢体扭曲、违反物理规律的视频作为负例。
优化目标 (DPO Loss): 作者严格遵循标准的 DPO 损失函数进行优化:
- 符号解释:
- : 输入的视觉(图像/视频)和文本条件。
- : 偏好样本(更好的视频)。
- 反面样本(有缺陷的视频)。
- : 正在优化的策略模型。
- : 参考模型(通常是 SFT 后的模型)。
- : 控制偏离参考模型程度的超参数。
- : Sigmoid 函数。
4.3. 分段式自回归生成 (SAR)
为了生成长视频,DreaMontage 使用潜空间中的滑动窗口。
生成逻辑: 定义第 个片段 的生成过程为:
- 符号解释:
-
: 当前正在生成的视频片段。
-
: 时间算子,用于提取前一个片段末尾的潜变量作为上下文。
-
: 当前时间窗口内的局部引导信号(用户提供的图片或视频)。
-
: 生成器函数。
通过这种方式,模型在生成新片段时始终“看着”上一个片段的末尾,从而保证了像素级的连续性。
-
5. 实验设置
5.1. 数据集
- 自适应训练阶段: 使用 300k 条经过多阶段过滤(VLM 场景检测、CLIP 相似度去重、Q-Align 美学评分、光流运动强度评估)的一镜到底视频。
- SFT 阶段: 约 1k 条覆盖复杂电影镜头的极高质量视频。
- DPO 阶段: 为两个子任务各准备了 1k 对偏好数据。
5.2. 评估指标
作者采用了严谨的 GSB (Good/Same/Bad) 人类评估协议。
- 概念定义: 由专家对两组模型生成的视频进行盲测对比,从视觉质量、运动效果、指令遵循及整体偏好四个维度评分。
- 数学公式:
- 符号解释:
Wins: 本模型被评为更好的次数。Losses: 对手模型被评为更好的次数。Ties: 两者旗鼓相当的次数。
5.3. 对比基线
-
多关键帧模式: 对比 Vidu Q2 和 Pixverse V5。
-
首尾帧模式: 对比行业标杆 Kling 2.5。
6. 实验结果与分析
6.1. 核心结果分析
- 多关键帧任务: DreaMontage 在整体偏好上领先 Vidu Q2 15.79%,领先 Pixverse V5 28.95%。尤其在“提示词遵循”上优势巨大,证明了 SFT 的有效性。
- 首尾帧任务: 与 Kling 2.5 相比,在视觉质量上打平(0.00 GSB),但在动作效果和提示词遵循上均胜出(+4.64%)。
6.2. 消融实验
以下是原文 Table 1 的消融实验结果,展示了各组件对性能的提升:
| 对比设置 | 视觉质量 (GSB) | 运动效果 (GSB) | 提示词遵循 (GSB) | 总体偏好 (GSB) |
|---|---|---|---|---|
| SFT vs. Base (仅适应性训练) | 0.00 | +24.58 | +5.93 | +20.34 |
| SFT+DPO vs. SFT (针对突变切镜) | - | +12.59 | - | +12.59 |
| SFT+DPO vs. SFT (针对主体运动) | +13.44 | - | - | +13.44 |
| Shared-RoPE vs. SR Base (超分对齐) | +53.55 | - | - | +53.55 |
分析:
-
SFT 极大地激活了模型的动态生成能力(+24.58%)。
-
Shared-RoPE 是解决闪烁问题的关键,带来了惊人的 +53.55% 的质量提升。
7. 总结与思考
7.1. 结论总结
DreaMontage 成功地将“一镜到底”视频生成从简单的片段拼接提升到了精准、平滑的受控生成。它通过轻量级的架构调整和分阶段的偏好优化,解决了视频生成中长期存在的转场突变和长视频崩溃问题。
7.2. 局限性与未来工作
虽然论文展示了极强的能力,但在处理极高动态、极大视角变换的极端场景下,仍可能出现细微的语义漂移。未来的研究方向可能包括更强大的物理引擎引入,以及在保持连续性的基础上进一步提升单帧的分辨率细节。
7.3. 个人启发与批判
- 启发: DreaMontage 的核心智慧在于“不直接挑战 VAE 的因果物理限制,而是通过 RoPE 位置对齐和数据自适应来绕过它”。这种在现有架构上做“最小手术”实现“最大功能”的思路非常值得借鉴。
- 批判: 尽管模型支持任意帧,但用户输入的一组图片在逻辑上是否能构成一个连贯的一镜到底,依然依赖于用户自身的审美和构思。模型虽然能“连接点”,但如果“点”之间的逻辑跨度过大(例如从沙漠瞬间变深海且没有转场指示),模型可能仍会陷入生成困境。
相似论文推荐
基于向量语义检索推荐的相关论文。