论文状态:已完成

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

发表:2001/12/24
原文链接
价格:0.100000
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文介绍了DreaMontage框架,旨在通过用户提供的任意帧生成无缝且具有表现力的一镜到底视频。为应对生成过程中的平滑性、连贯性和计算效率挑战,提出了三项创新:扩散变换器架构、视觉表达有监督微调与定制化直接偏好优化,以及分段式自回归推理策略。

摘要

In this paper, we introduce DreaMontage, a comprehensive framework designed for arbitrary frame-guided generation, capable of synthesizing seamless, expressive, and long-duration one-shot videos from diverse user-provided inputs. To achieve this, we address the challenge through three primary dimensions. Project Page: https://dreamontage.github.io/DreaMontage/

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation (DreaMontage:任意帧引导的一镜到底视频生成)

1.2. 作者

Jiawei Liu*, Junqiao Li*, Jiangfan Deng*, Gen Li*, Siyu Zhou, Zetao Fang, Shanshan Lao, Zengde Deng, Jianing Zhu, Tingting Ma, Jiayi Li, Yunqiu Wang, Qian He, Xinglong Wu。 来自 ByteDance (字节跳动) 智能创作团队 (Intelligence Creation Team)

1.3. 发表期刊/会议

该论文目前作为预印本发表于 arXiv,并在 Hugging Face Papers 受到广泛关注。字节跳动作为领先的视频技术公司,其在视频生成领域的研究具有极高的行业影响力。

1.4. 发表年份

2025年12月(原文标注日期为 2025年12月25日,发布于 2025年12月23日)。

1.5. 摘要

本文介绍了 DreaMontage,这是一个专为任意帧引导生成 (Arbitrary frame-guided generation) 设计的综合框架。它能够根据用户提供的各种输入(如散乱的图像或视频剪辑),合成出无缝、极具表现力且长时长的一镜到底 (One-shot) 视频。为了解决一镜到底生成中的平滑性、连贯性和计算效率挑战,作者提出了三项核心创新:(i) 集成轻量级中间条件机制的 扩散变换器 (Diffusion Transformer, DiT) 架构;(ii) 结合高质量数据集的 视觉表达有监督微调 (Visual Expression SFT) 和针对动作合理性与过渡平滑性的 定制化直接偏好优化 (Tailored DPO);(iii) 支持长视频生成的 分段式自回归 (Segment-wise Auto-Regressive, SAR) 推理策略。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

一镜到底 (One-shot / Long take) 是电影制作中一种极具艺术感染力的技术,强调空间的连续性和沉浸感。然而,在现实中拍摄长镜头成本极高,且受物理空间限制。

虽然近年来的视频生成模型(如 Sora、Kling)取得了突破,但在生成一镜到底视频时仍面临以下挑战 (Gap)

  1. 过渡不自然: 现有方法通常简单地拼接多个片段,导致视觉上的突变和不连贯。

  2. 控制精度不足: 现有模型大多仅支持“首帧”或“末帧”引导,难以在视频中间插入精确的视觉约束。

  3. 算力与内存限制: 生成超长视频时,计算开销呈指数级增长。

    DreaMontage 的切入点在于:将视频生成任务定义为“连接散乱的视觉点”,通过在任意时间点引入精确的条件控制,让模型像一个“神经剪辑师”一样,将互不相关的图像或短片缝合成一个流畅的长镜头。

2.2. 核心贡献/主要发现

  1. 任意帧控制能力: 提出了一种轻量级的方法,允许在视频序列的任何位置插入图像或视频片段作为条件。

  2. 渐进式训练方案: 通过 适应性调整 (Adaptive Tuning)有监督微调 (SFT)直接偏好优化 (DPO) 三阶段训练,显著提升了动作的合理性和转场的无缝感。

  3. SAR 长视频推理: 设计了分段式自回归生成机制,在有限显存下实现了极长、高质量一镜到底视频的稳定产出。


3. 预备知识与相关工作

3.1. 基础概念

  • 扩散变换器 (Diffusion Transformer, DiT): 一种结合了扩散模型(生成高质量图像/视频)和 Transformer(处理长序列能力强)的架构。
  • 潜空间 (Latent Space): 模型不在原始像素上操作,而是先通过变分自编码器 (VAE) 将视频压缩到一个更小、更稠密的向量空间进行运算,以提高效率。
  • 因果变分自编码器 (Causal VAE): 在时间维度上具有因果性的编码器,即当前帧的编码只依赖于过去和现在的帧。

3.2. 前人工作与技术演进

早期的 图像转视频 (I2V) 模型仅支持给定第一帧生成后续内容。随后,一些模型尝试引入“首尾帧”约束。然而,这些方法在处理“中间帧”时往往表现不佳,因为 3D VAE 的时间下采样机制会导致中间时刻的潜特征(Latent)其实融合了前后多帧的信息,造成控制精度模糊。

3.3. 差异化分析

相较于 HunyuanVideoWan 等模型,DreaMontage 并不是简单地增加上下文长度,而是采用了 通道级拼接 (Channel-wise Concatenation) 结合 共享旋转位置嵌入 (Shared-RoPE) 的策略。这种方式不仅能处理图像,还能处理视频片段插入,且计算成本更低。


4. 方法论

4.1. 模型设计与中间条件适配

DreaMontage 基于 Seedance 1.0 架构。为了实现中间条件(Interm-Cond)的精准引导,作者针对 因果 VAE (Causal VAE) 的特性进行了优化。

4.1.1. 解决时间下采样失配

如图 3 所示,由于 VAE 在时间轴上存在下采样,一个中间时刻的潜变量(Latent)实际上聚合了多个帧的信息。如果直接把一张独立图片的潜变量塞进去,会产生位置对不齐的问题。

作者提出通过 适应性调整 (Adaptive Tuning),从预训练数据中筛选出一镜到底子集,让模型学习如何处理这种“点对多”的映射。

4.1.2. 超分辨率模型中的共享 RoPE

在将 480p 视频提升至 720p/1080p 时,通道拼接容易导致闪烁和偏色。为了消除伪影,作者引入了 共享旋转位置嵌入 (Shared-RoPE, Shared Rotary Position Embedding)

具体逻辑如下:

  1. 将参考图像 CiC_i 的潜变量不仅在通道维度拼接,还直接追加到噪声序列的末尾。

  2. 强制让这个追加的 CiC_i 使用与其在目标视频中对应的位置 t1t_1 完全相同的 RoPE 值。

  3. 公式化表达为:若条件帧 CiC_i 引导第 kk 帧生成,则 RoPE(Ci)=RoPE(Framek)RoPE(C_i) = RoPE(Frame_k)

    下图(原文 Figure 4)展示了该策略:

    Figure 4 The Shared-RoPE strategy for the superresolution model. In addition to channel-wise concatenation, we introduce a sequence-wise conditioning mechanism to eliminate artifacts. Condition frames are appended to the tail of the sequence while share the same RoPE value as the target frames they guide (e.g., `C _ { i }` shares the RoPE of `t _ { 1 }` ). In the case of video condition, this strategy is only applied to the first frame. 该图像是示意图,展示了共享RoPE策略在超分辨率模型中的应用。图中展示了通道级的拼接以及序列级条件机制,旨在消除伪影。条件帧被附加到序列末尾,并与其引导的目标帧共享相同的RoPE值,例如,条件帧 C _ { i } 与目标帧 t _ { 1 } 共享RoPE。在视频条件情况下,该策略仅应用于第一帧。

4.2. 视觉表达 SFT 与定制化 DPO

为了让模型生成的视频更具“电影感”,作者设计了精细的训练管道。

4.2.1. 视觉表达 SFT (Supervised Fine-Tuning)

作者收集了包含:镜头运动 (Camera Shots)视觉特效 (VFX)体育运动 (Sport)空间感知 (Spatial Perception)高级转场 (Advanced Transitions) 五大类的精选数据进行微调。

4.2.2. 定制化 DPO (Tailored Direct Preference Optimization)

这是提升视频质量的关键步骤。DPO 旨在通过“好坏样例对”来校准模型。

  1. 解决突然切镜 (Abrupt Cuts): 训练一个 VLM 判别器识别视频中的突变转场,将“平滑转场”设为正例,vwv_w,“有切镜”设为负例 vlv_l
  2. 解决主体动作畸变: 人工标注肢体扭曲、违反物理规律的视频作为负例。

优化目标 (DPO Loss): 作者严格遵循标准的 DPO 损失函数进行优化: LDPO=E(c,vw,vl)D[logσ(βlogπθ(vwc)πref(vwc)βlogπθ(vlc)πref(vlc))] \mathcal{L}_{\mathrm{DPO}} = - \mathbb{E}_{(c, v_w, v_l) \sim \mathcal{D}} \left[ \log \sigma \left( \beta \log \frac { \pi _ { \theta } \left( v _ { w } | c \right) } { \pi _ { \mathrm { r e f } } \left( v _ { w } | c \right) } - \beta \log \frac { \pi _ { \theta } \left( v _ { l } | c \right) } { \pi _ { \mathrm { r e f } } \left( v _ { l } | c \right) } \right) \right]

  • 符号解释:
    • cc: 输入的视觉(图像/视频)和文本条件。
    • vwv_w: 偏好样本(更好的视频)。
    • vlv_l 反面样本(有缺陷的视频)。
    • πθ\pi_{\theta}: 正在优化的策略模型。
    • πref\pi_{\mathrm{ref}}: 参考模型(通常是 SFT 后的模型)。
    • β\beta: 控制偏离参考模型程度的超参数。
    • σ\sigma: Sigmoid 函数。

4.3. 分段式自回归生成 (SAR)

为了生成长视频,DreaMontage 使用潜空间中的滑动窗口。

生成逻辑: 定义第 nn 个片段 sn\mathbf{s}_n 的生成过程为: sn=Gθ(τ(sn1),Cn) \mathbf{s}_n = \mathcal{G}_{\boldsymbol{\theta}} \left( \tau ( \mathbf{s}_{n-1} ) , \mathcal{C}_n \right)

  • 符号解释:
    • sn\mathbf{s}_n: 当前正在生成的视频片段。

    • τ()\tau(\cdot): 时间算子,用于提取前一个片段末尾的潜变量作为上下文。

    • Cn\mathcal{C}_n: 当前时间窗口内的局部引导信号(用户提供的图片或视频)。

    • Gθ\mathcal{G}_{\boldsymbol{\theta}}: 生成器函数。

      通过这种方式,模型在生成新片段时始终“看着”上一个片段的末尾,从而保证了像素级的连续性


5. 实验设置

5.1. 数据集

  • 自适应训练阶段: 使用 300k 条经过多阶段过滤(VLM 场景检测、CLIP 相似度去重、Q-Align 美学评分、光流运动强度评估)的一镜到底视频。
  • SFT 阶段: 约 1k 条覆盖复杂电影镜头的极高质量视频。
  • DPO 阶段: 为两个子任务各准备了 1k 对偏好数据。

5.2. 评估指标

作者采用了严谨的 GSB (Good/Same/Bad) 人类评估协议。

  1. 概念定义: 由专家对两组模型生成的视频进行盲测对比,从视觉质量、运动效果、指令遵循及整体偏好四个维度评分。
  2. 数学公式: GSB Score=WinsLossesWins+Losses+Ties GSB \ Score = \frac{Wins - Losses}{Wins + Losses + Ties}
  3. 符号解释:
    • Wins: 本模型被评为更好的次数。
    • Losses: 对手模型被评为更好的次数。
    • Ties: 两者旗鼓相当的次数。

5.3. 对比基线

  • 多关键帧模式: 对比 Vidu Q2Pixverse V5

  • 首尾帧模式: 对比行业标杆 Kling 2.5


6. 实验结果与分析

6.1. 核心结果分析

  • 多关键帧任务: DreaMontage 在整体偏好上领先 Vidu Q2 15.79%,领先 Pixverse V5 28.95%。尤其在“提示词遵循”上优势巨大,证明了 SFT 的有效性。
  • 首尾帧任务: 与 Kling 2.5 相比,在视觉质量上打平(0.00 GSB),但在动作效果和提示词遵循上均胜出(+4.64%)。

6.2. 消融实验

以下是原文 Table 1 的消融实验结果,展示了各组件对性能的提升:

对比设置 视觉质量 (GSB) 运动效果 (GSB) 提示词遵循 (GSB) 总体偏好 (GSB)
SFT vs. Base (仅适应性训练) 0.00 +24.58 +5.93 +20.34
SFT+DPO vs. SFT (针对突变切镜) - +12.59 - +12.59
SFT+DPO vs. SFT (针对主体运动) +13.44 - - +13.44
Shared-RoPE vs. SR Base (超分对齐) +53.55 - - +53.55

分析:

  • SFT 极大地激活了模型的动态生成能力(+24.58%)。

  • Shared-RoPE 是解决闪烁问题的关键,带来了惊人的 +53.55% 的质量提升。


7. 总结与思考

7.1. 结论总结

DreaMontage 成功地将“一镜到底”视频生成从简单的片段拼接提升到了精准、平滑的受控生成。它通过轻量级的架构调整和分阶段的偏好优化,解决了视频生成中长期存在的转场突变和长视频崩溃问题。

7.2. 局限性与未来工作

虽然论文展示了极强的能力,但在处理极高动态、极大视角变换的极端场景下,仍可能出现细微的语义漂移。未来的研究方向可能包括更强大的物理引擎引入,以及在保持连续性的基础上进一步提升单帧的分辨率细节。

7.3. 个人启发与批判

  • 启发: DreaMontage 的核心智慧在于“不直接挑战 VAE 的因果物理限制,而是通过 RoPE 位置对齐和数据自适应来绕过它”。这种在现有架构上做“最小手术”实现“最大功能”的思路非常值得借鉴。
  • 批判: 尽管模型支持任意帧,但用户输入的一组图片在逻辑上是否能构成一个连贯的一镜到底,依然依赖于用户自身的审美和构思。模型虽然能“连接点”,但如果“点”之间的逻辑跨度过大(例如从沙漠瞬间变深海且没有转场指示),模型可能仍会陷入生成困境。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。