摘要

Bridge Models, instantiated as Vision Bridge Transformer (ViBT), efficiently translate data through direct modeling of input-to-output trajectories, achieving robust performance in image and video editing tasks at large scales.

1. 论文基本信息

1.1. 标题

Vision Bridge Transformer at Scale

1.2. 作者

论文的作者包括：

Zhenxiong Tan (谭振雄)
Zeqing Wang (王泽庆)
Xingyi Yang (杨星一)
Songhua Liu (刘松华)
Xinchao Wang (王新超)

他们的研究机构隶属于：新加坡国立大学 (National University of Singapore)、香港理工大学 (The Hong Kong Polytechnic University) 和上海交通大学 (Shanghai Jiao Tong University)。

1.3. 发表期刊/会议

该论文作为预印本发表于 arXiv，并通过 Hugging Face 平台公开。鉴于其内容和引用格式（如 arXiv preprint arXiv:2511.23199, 2025），其发表年份为 2025 年。目前尚未明确具体将在哪个顶级会议或期刊上正式发表，但其研究领域属于计算机视觉和生成模型，通常会投稿至 ICCV、CVPR、NeurIPS、ICML 等会议。

1.4. 发表年份

根据 arXiv 编号 2511.23199 推断，论文发表年份为 2025 年。

1.5. 摘要

本研究引入了视觉桥接 Transformer (Vision Bridge Transformer, ViBT)，这是一个大规模实现的布朗桥模型 (Brownian Bridge Models)，专为条件生成任务设计。与传统的扩散模型 (diffusion models)将噪声转换为数据不同，布朗桥模型通过直接建模输入到输出的轨迹来高效地进行数据转换，从而创建了一种高效的数据到数据转换 (data-to-data translation)范式。通过将这些模型扩展到 20 亿和 13 亿参数的规模，作者展示了它们在图像和视频转换任务中的有效性。为了支持这种规模，论文采用了Transformer 架构 (Transformer architecture)，并提出了一种方差稳定速度匹配目标 (variance-stabilized velocity-matching objective)，以实现鲁棒的训练。这些进展共同突出了扩展布朗桥模型在指令式图像编辑 (instruction-based image editing)和复杂视频转换 (video translation)方面的强大能力。

1.6. 原文链接

原文链接: https://huggingface.co/papers/2511.23199 (预印本，通过 Hugging Face 平台发布)
PDF 链接: https://arxiv.org/pdf/2511.23199.pdf (预印本，通过 arXiv 发布)

2. 整体概括

2.1. 研究背景与动机

生成模型 (Generative models)在图像和视频合成方面取得了显著进展，从早期的生成对抗网络 (Generative Adversarial Networks, GANs)到近期广受欢迎的扩散模型 (diffusion models)。特别是基于 Transformer 架构的大规模模型，极大地提升了生成图像和视频的保真度 (fidelity)和多样性 (diversity)。将这些模型扩展到条件视觉生成 (conditional vision generation)任务是一个自然而然的方向，通常通过将源图像或视频作为辅助输入注入生成过程。

然而，现有生成模型普遍采用的噪声到视觉 (noise-to-vision)建模范式在许多条件生成任务中显得不够直观和高效。在这种范式中，模型从纯噪声开始，逐步去噪并细化以达到目标输出。但在诸如图像编辑、上色、帧插值等任务中，输入本身就已经与期望的输出高度相似。从噪声开始生成，意味着模型需要“忘记”或忽略大部分有用的输入信息，这既不直观也可能导致计算冗余。此外，在 Transformer 架构中引入额外的条件词元 (conditioning tokens) 会带来显著的计算开销，尤其是在视频生成场景中。

为了解决这些问题，视觉到视觉 (vision-to-vision)范式提供了一个更直观的替代方案，它直接建模结构化源域到目标域的转换路径。这种方法能够自然地捕获数据中固有的强关联性。之前的桥接模型 (Bridge Models)研究已经展示了视觉到视觉建模的可行性，特别是基于布朗桥 (Brownian Bridge)的公式。然而，这些早期工作大多局限于小规模架构和相对简单的任务，其在复杂视觉转换场景中的潜力尚未被充分探索。

2.2. 核心贡献/主要发现

本文的核心贡献在于：

引入 Vision Bridge Transformer (ViBT): 首次将布朗桥模型扩展到大规模设置，用于复杂的视觉转换任务。ViBT 借鉴了流匹配模型 (flow-matching models)的强大生成先验 (generative priors)，并通过 Transformer 架构实现。它被成功扩展到 20 亿（图像任务）和 13 亿（视频任务）参数，是第一个大规模的布朗桥模型。
提出方差稳定速度匹配目标 (Variance-Stabilized Velocity Matching Objective): 针对传统位移式目标 (displacement-style targets)对早期生成步骤的过度偏向以及朴素速度目标 (naive velocity-based objectives)在训练后期数值不稳定的问题，作者提出了一种新的训练目标。该目标通过引入归一化因子，显著提高了训练的数值稳定性，并确保了在所有时间步长 (timesteps) 上学习贡献的均衡性，从而促进了大规模模型的有效训练。
广泛的实验验证: 实验表明，ViBT 在多种复杂的视觉转换任务中（包括指令式图像编辑、指令引导视频风格化、深度到视频合成、图像着色和视频帧插值）都表现出卓越的泛化能力和竞争力，其结果可与传统条件扩散方法媲美，同时效率更高。
效率提升: ViBT 通过直接建模数据到数据的轨迹，减少了对辅助条件分支或额外条件词元的依赖，从而在理论上和实验上都展示出比传统条件扩散 Transformer (DiT) 变体更高的推理效率。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 生成模型 (Generative Models)

生成模型是一类机器学习模型，旨在学习训练数据的分布，并能够生成与训练数据具有相似特征的新样本。它们在图像、文本、音频生成等领域有广泛应用。

变分自编码器 (Variational Autoencoders, VAEs)：通过编码器将输入数据映射到潜在空间中的一个分布，然后通过解码器从该分布中采样生成数据。VAEs 旨在学习数据的潜在表示，同时确保潜在空间是连续且可插值的。
生成对抗网络 (Generative Adversarial Networks, GANs)：由一个生成器 (generator)和一个判别器 (discriminator)组成。生成器试图生成逼真的数据以欺骗判别器，而判别器则试图区分真实数据和生成数据。两者通过对抗训练相互提高，直到生成器能够生成判真难度极高的数据。
扩散模型 (Diffusion Models)：一类通过模拟数据逐渐扩散（添加噪声）的过程，然后学习逆向去噪过程来生成数据的模型。它们通常定义一个随机微分方程 (Stochastic Differential Equation, SDE)，描述数据如何从清晰状态逐渐变为噪声状态，然后学习一个得分函数 (score function)来逆转这个过程。扩散模型在图像和视频生成方面取得了最先进的 (state-of-the-art)效果。
流匹配模型 (Flow-Matching Models)：将生成过程重新定义为学习一个确定性或随机的连续路径，将一个简单的先验分布（如高斯噪声）变换 (transport)到复杂的数据分布。与扩散模型不同，流匹配模型直接学习将数据从起点流向终点的瞬时速度 (instantaneous velocity)，这通常可以简化训练目标。

3.1.2. Transformer 架构 (Transformer Architecture)

Transformer 是一种最初用于自然语言处理的神经网络架构，它完全依赖自注意力机制 (self-attention mechanism)来处理输入序列。

自注意力 (Self-Attention)：允许模型在处理序列中的每个元素时，同时关注序列中的所有其他元素，并根据其相关性进行加权。这使得模型能够捕捉长距离依赖关系。自注意力机制的核心计算公式如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中：
- $Q$ (Query, 查询)：一个矩阵，表示当前词元对其他词元的查询。
- $K$ (Key, 键)：一个矩阵，表示序列中所有词元的“键”，用于匹配查询。
- $V$ (Value, 值)：一个矩阵，表示序列中所有词元的“值”，根据匹配结果进行加权求和。
- $d_k$ ：键向量的维度，用于缩放点积，防止点积结果过大导致 $\mathrm{softmax}$ 梯度消失。
- $QK^T$ ：查询和键的点积，表示查询与每个键的相似度。
- $\mathrm{softmax}(\cdot)$ ：归一化函数，将相似度分数转换为概率分布。
- $\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ ：加权求和，得到每个查询的注意力输出。
扩散 Transformer (Diffusion Transformers, DiT)：将 Transformer 架构应用于扩散模型的去噪器 (denoiser)或预测网络 (prediction network)。DiT 将噪声数据、时间步长和条件信息作为输入，并预测去噪方向或噪声本身。

3.1.3. 布朗桥模型 (Brownian Bridge Models)

布朗桥模型是一种特殊的随机过程，它描述了一个布朗运动 (Brownian motion)（一种随机游走），但在起点和终点都被固定。

核心思想: 在生成建模中，布朗桥模型不像传统扩散模型那样从纯噪声开始生成数据，而是直接在两个给定数据点（源数据 $x_0$ 和目标数据 $x_1$ ）之间构建一个随机路径。这条路径可以看作是从 $x_0$ “桥接”到 $x_1$ 。
优点: 这种数据到数据 (data-to-data)的转换范式对于条件生成任务（如图像编辑、视频转换）特别直观和高效，因为输入本身就提供了丰富的结构信息，模型可以直接在此基础上进行修改，而不是从头开始生成。它能更好地捕捉源数据和目标数据之间的强关联性。

3.2. 前人工作

3.2.1. 早期生成模型与概率路径方法

GANs [16, 25]：开启了高质量图像合成的先河，但其对抗训练的稳定性、模式崩溃等问题仍是挑战。
扩散模型 [18, 34, 47]：通过迭代去噪过程极大地提升了生成能力，成为主流。
流匹配模型 [15, 34]：将生成重新定义为学习确定性或随机的分布间路径，进一步推动了生成建模。

3.2.2. 条件生成 (Conditional Generation)

条件扩散模型 (Conditional Diffusion Models)：通过编码器、辅助分支或交叉注意力机制 (cross-attention mechanisms)整合文本、图像、姿态或深度图等辅助信号。
- ControlNet [69]、IP-Adapter [64]、T2I-Adapters [41]：是这类方法的代表，它们允许用户对生成过程进行细粒度控制。
基于 Transformer 的条件生成 [29, 49, 60]：随着 Diffusion Transformers (DiT) [42] 的兴起，这些方法将条件直接整合到 Transformer 的注意力层中以提供更强的引导。然而，这种做法通常会带来显著的计算开销，尤其是在视频任务中。

3.2.3. 桥接模型 (Bridge Models)

核心理念：桥接模型 [31, 35, 72] 构建直接连接源分布和目标分布的随机过程，为噪声驱动的生成提供了一种替代方案。
早期方法：包括薛定谔桥 (Schrödinger bridges) [13]、随机插值 (stochastic interpolants) [2] 和熵最优传输 (entropic optimal transport) [12]。
基于扩散的变体：如 Denoising Diffusion Bridge Models (DDBM) [72] 和布朗桥方法 [31]，在条件生成和图像转换任务中显示出前景。
近期工作：已突出布朗桥模型在视觉任务中的潜力，例如在样本引导图像转换 (exemplar-guided image translation) [30]中改进结构和风格一致性，在**视频合成 [52]**中增强时间连贯性，以及在基本图像转换任务 [5, 21]中提高训练和推理效率。

3.3. 技术演进

生成模型从早期的 VAE 和 GANs 逐步发展到扩散模型和流匹配模型，其生成质量和多样性不断提升。随着 Transformer 架构的引入，大规模模型成为可能，进一步推动了图像和视频生成领域的发展。在条件生成方面，传统方法多为噪声到视觉的范式，通过注入额外条件来控制生成。然而，这种方法在需要精细控制和数据到数据转换 (data-to-data translation)的任务中显得效率低下且不直观。

布朗桥模型作为一种视觉到视觉 (vision-to-vision)的替代方案出现，它直接建模源数据到目标数据的轨迹。虽然此前的工作已验证了其可行性，但主要局限于小规模和简单任务。本文的 ViBT 正是为了填补这一空白，通过将布朗桥模型与大规模 Transformer 架构结合，并提出稳定的训练目标，将其能力扩展到复杂的大规模视觉转换任务。

3.4. 差异化分析

与噪声到视觉模型的区别：传统的扩散模型和流匹配模型大多采用噪声到视觉 (noise-to-vision)范式，从随机噪声开始生成。ViBT 采用视觉到视觉 (vision-to-vision)范式，直接建模源图像/视频到目标图像/视频的轨迹。这使得 ViBT 在图像编辑、风格化等任务中，能够更自然地利用输入信息的结构，避免了从噪声开始的冗余。
与现有条件扩散模型的区别：现有条件扩散 Transformer (DiT) 通常通过额外编码器或交叉注意力注入条件，这在 Transformer 架构下引入显著的计算开销。ViBT 的布朗桥范式直接在源和目标之间建立路径，减少了对额外条件词元的依赖，从而在理论上和实验上都更高效。
与现有小规模布朗桥模型的区别：先前的布朗桥模型工作大多限于小规模架构和简单任务。ViBT 是第一个将布朗桥模型扩展到 20B/1.3B 参数的大规模设置，并应用于复杂的图像和视频转换任务。
训练目标创新：针对布朗桥模型训练中朴素速度目标 (naive velocity-based objectives)的数值不稳定性和位移目标 (displacement objectives)的训练偏向问题，ViBT 提出了方差稳定速度匹配目标 (variance-stabilized velocity matching objective)，解决了这些关键的训练挑战，使其能够在大规模下进行鲁棒训练。

4. 方法论

本文提出的 Vision Bridge Transformer (ViBT) 采用基于 Transformer 的架构，在潜在空间 (latent space) 中建模视觉转换任务。给定成对的源数据和目标数据（图像或视频），ViBT 首先使用预训练的变分自编码器 (VAE) 编码器 (encoder) [27] 将它们编码成潜在表示 $x_0 \sim p_{\mathrm{source}}$ 和 $x_1 \sim p_{\mathrm{target}}$ 。然后，它应用布朗桥公式 (Brownian Bridge formulation) 直接建模从 $x_0$ 到 $x_1$ 的转换。

4.1. 预备知识：概率路径建模与布朗桥

概率路径建模 (Probability path modeling) [13, 34, 37] 定义了一类生成模型，它描述了将质量从先验分布 $p_0$ 传输到目标分布 $p_1$ 的连续时间过程。这些模型通常由一个随机微分方程 (Stochastic Differential Equation, SDE) 表示： $\mathrm{d}X_{t} = v(X_{t},t)\mathrm{d}t + \sigma (t)\mathrm{d}W_{t},\quad t\in [0,1] \quad (1)$ 其中：

$X_t$ ：在时间 $t$ 时的随机状态。
$v(X_t, t)$ ：速度场 (velocity field)，一个函数 $\mathbb{R}^d \times [0,1] \to \mathbb{R}^d$ ，表示在状态 $X_t$ 和时间 $t$ 时的瞬时漂移方向。
$\mathrm{d}t$ ：无限小的时间增量。
$\sigma(t)$ ：扩散系数 (diffusion coefficient)，一个函数 $\mathbb{R}_{\geq 0}$ ，控制随机项的强度。
$\mathrm{d}W_t$ ：标准布朗运动 (Brownian motion)的无限小增量，引入随机性。
$t \in [0,1]$ ：时间范围，从 0 到 1。
边界条件： $X_0 \sim p_0$ (起始状态从先验分布采样)， $X_1 \sim p_1$ (结束状态从目标分布采样)。

在实践中，速度场 $v$ 通常由一个神经网络 $v_\theta$ 参数化，并通过速度匹配目标 (velocity-matching objective) [34, 37] 进行训练： $\mathcal{L}(\theta) = \mathbb{E}_{(x_0,x_1),t,X_t}[\| v_\theta (X_t,t) - \boldsymbol {u}_t(X_t|x_0,x_1)\| ^2 ] \quad (2)$ 其中：
$v_\theta(X_t, t)$ ：神经网络预测的速度场。
$\boldsymbol{u}_t(X_t|x_0,x_1)$ ：由选定的教师轨迹 (teacher trajectory)（确定性或随机性）诱导的瞬时速度目标。
$X_t$ ：根据选定的轨迹采样得到。
$\mathbb{E}[\cdot]$ ：期望，表示对数据对 $(x_0, x_1)$ 、时间 $t$ 和中间状态 $X_t$ 进行平均。
$\|\cdot\|^2$ ：L2 范数平方，衡量预测速度与目标速度之间的误差。

布朗桥 (Brownian Bridge)：与确定性的修正流 (Rectified Flow)（其中 $\sigma(t) \equiv 0$ ）不同，标准布朗桥 [2, 31] 通过设置常数扩散系数 (constant diffusion coefficient) $\sigma(t) \equiv 1$ 引入随机性。给定固定的端点 $(x_0, x_1)$ ，其条件中间状态遵循高斯分布： $X_{t}|_{(x_{0},x_{1})} \sim \mathcal{N}\big((1 - t)x_{0} + tx_{1},\quad t(1 - t)I\big\} \quad (5)$ 其中：
$(1-t)x_0 + tx_1$ ：是 $x_0$ 和 $x_1$ 之间随时间 $t$ 变化的线性插值，表示均值。
t(1-t)I：是协方差矩阵，其中 $I$ 是单位矩阵。这个方差项在 $t=0$ 和 $t=1$ 时为 0，在 $t=0.5$ 时达到最大值，反映了布朗桥在端点处是确定的，中间随机性最大。
布朗桥特别适用于数据到数据传输 (data-to-data transport)任务，例如去噪损坏的样本或在结构化图像和视频域之间进行转换。端点对 $(x_0, x_1)$ 从各自的源分布和目标分布中采样。在这种随机公式下，速度匹配中使用的瞬时速度目标表示为： $u_{t}(X_{t}|x_{0},x_{1}) = \frac{x_{1} - X_{t}}{1 - t} \quad (6)$ 这个目标表示了从当前状态 $X_t$ 到目标 $x_1$ 的方向，并随着 $t \to 1$ 权重增加。

4.2. 稳定速度匹配 (Stabilized Velocity Matching)

在训练过程中，给定潜在端点对 $(x_0, x_1) \sim p_{\mathrm{source, target}}$ ，模型均匀采样一个时间 $t \in [0,1]$ 和高斯噪声 $\epsilon \sim \mathcal{N}(0,I)$ 。根据布朗桥的条件分布 (5)，中间潜在状态 $x_t$ 的构造如下： $x_{t} = (1 - t)x_{0} + t x_{1} + \sqrt{t(1 - t)}\epsilon \quad (7)$ 这个公式表示 $x_t$ 是源 $x_0$ 和目标 $x_1$ 的线性插值，加上一个由时间 $t$ 和噪声 $\epsilon$ 决定的随机扰动。其中 $\sqrt{t(1-t)}$ 因子是标准布朗桥的扩散项。

在此噪声状态下的基于速度的训练目标，从 Eq. (6) 导出，表示为： $u_{t}(x_{t}|x_{1}) = \frac{x_{1} - x_{t}}{1 - t} = (x_{1} - x_{0}) - \sqrt{\frac{t}{1 - t}}\epsilon \quad (8)$ 这个公式通过将 Eq. (7) 代入 Eq. (6) 得到，它揭示了目标速度由端点之间的直接差异 $(x_1 - x_0)$ 和一个受时间 $t$ 和噪声 $\epsilon$ 影响的随机项 $-\sqrt{\frac{t}{1-t}}\epsilon$ 组成。

相应的，训练目标由预测速度和目标速度之间的均方误差给出： $\mathcal{L}_{\mathrm{velocity}} = \mathbb{E}_{t,\epsilon ,x_{0},x_{1}}\left[\| v_{\theta}(x_{t},t) - u_{t}(x_{t}|x_{1})\| ^2\right] \quad (9)$ 然而，这个目标在 $t \to 1$ 时面临严重问题：目标速度 $u_t(x_t|x_1)$ 会以 $\mathcal{O}\left(\frac{1}{\sqrt{1 - t}}\right)$ 的速度发散，导致训练不稳定，并且损失会过度集中在这些接近结束的状态，而忽略了中间状态。

另一种在先前工作中 [31] 采用的方法是使用基于位移的训练目标 (displacement-based training target)，定义为： $d_{t}(x_{t}|x_{1}) = x_{1} - x_{t} \quad (10)$ 相应的，基于位移的训练目标由均方误差给出： $\mathcal{L}_{\mathrm{displacement}} = \mathbb{E}_{t,\epsilon ,x_{0},x_{1}}\left[\| d_{\theta}(x_{t},t) - d_{t}(x_{t}|x_{1})\| ^2\right] \quad (11)$ 这种位移公式自然地避免了数值发散，因为它在所有时间步长都保持稳定。然而，它的幅度在 $t \to 1$ 时以 $\mathcal{O}(\sqrt{1 - t})$ 的速度减小，导致训练损失被较小 $t$ 值处的样本主导。

为了解决上述数值不稳定性和损失在时间步长上的不平衡问题，作者提出了稳定速度匹配 (stabilized velocity matching)。它引入了一个归一化因子 $\alpha(x_0, x_1, t)$ 来平衡不同时间步长的损失贡献。原始速度目标被重新缩放为： $\tilde{u}_{t}(x_{t}|x_{1}) = \frac{u_{t}(x_{t}|x_{1})}{\alpha (x_{0},x_{1},t)} \quad (12)$ 具体来说，归一化因子 $\alpha(x_0, x_1, t)$ 基于速度的归一化均方根幅度定义： $\begin{aligned} \alpha (x_0, x_1, t)^2 &= \frac{\mathbb{E}\left[\|u_t(x_t|x_1)\|^2\right]}{\|x_1 - x_0\|^2} \\ &= 1 + \frac{tD}{(1 - t)\|x_1 - x_0\|^2} \end{aligned} \quad (13)$ 其中 $D$ 表示潜在空间的维度。这个选择显著减少了发散，并确保了训练过程中损失贡献的平衡性（如 Figure 2 所示）。

最终的稳定速度匹配目标 (stabilized velocity-matching objective) 为： $\mathcal{L}_{\mathrm{velocity}} = \mathbb{E}_{t,\epsilon ,x_0,x_1}\left[\| \tilde{v}_\theta (x_t,t) - \tilde{u}_t(x_t|x_1)\| ^2\right] \quad (15)$ 其中， $\tilde{v}_{\theta}(x_t, t) = v_{\theta}(x_t, t) / \alpha (x_0, x_1, t)$ 仅用于损失计算，对网络预测进行归一化，而网络本身仍然直接预测速度。

下图（原文 Figure 2）展示了不同目标函数下瞬时和累积目标贡献的对比。

Figure 2. 瞬时和累积目标贡献。 $S(t) = \mathbb{E}\| \tau_t\|^2$ ，其中 $\tau_t\in \{d_t,u_t,\tilde{u}_t\} .C(t) = \frac{\int_0^tS(\kappa)d\kappa}{\int_0^t99S(\kappa)d\kappa}.$ 从图中可以看出，位移目标 (Displacement) 在 $t \to 1$ 时贡献趋于零，导致早期时间步长主导。速度目标 (Velocity) 在 $t \to 1$ 时急剧发散，导致数值不稳定。而稳定速度目标 (Stabilized Velocity) 则在整个时间范围内保持了相对稳定的贡献，避免了发散和不平衡问题。

完整的训练过程总结在以下算法中：

Algorithm 1: Training Input: 数据对 $(x_0,x_1) \sim p_{\mathrm{source,target}}$ , 模型 $v_\theta$ , 潜在维度 $D$

repeat
采样潜在对 $(x_0, x_1)$ ，插值时间 $t \sim U(0,1)$ ，和噪声 $\epsilon \sim \mathcal{N}(0,I)$ ;
构造中间状态 x_t = (1-t)x_0+tx_1+\sqrt{t(1-t)}\epsilon;
计算速度目标 $u_t = (x_1 - x_t) / (1 - t)$ ;
计算归一化因子 $\alpha^2 = 1 + t D / [(1 - t) | x_1 - x_0|^2]$ ;
计算稳定速度损失 $\mathcal{L}_{\mathrm{velocity}} = \| \frac{v_{\theta}(x_t,t) - u_t}{\alpha}\| ^2$ ;
通过梯度下降更新模型参数 $\theta$ ；
until 收敛;

4.3. 方差校正采样 (Variance-corrected Sampling)

为了从训练好的布朗桥模型中进行采样，我们使用欧拉-马鲁亚马离散化 (Euler-Maruyama discretization) [38] 来离散化 Eq. (1) 定义的连续时间 SDE。给定一个时间表 $0 = t_0 < t_1 < \dots < t_N = 1$ ，采样过程从源 $x_0$ 开始，并迭代更新潜在状态朝向目标 $x_1$ 。

标准的欧拉-马鲁亚马离散化产生： $x_{k + 1}^{\mathrm{standard}} = x_k + \Delta t_k v_{\theta}(x_k,t_k) + \sqrt{\Delta t_k}\epsilon_k \quad (16)$ 其中 $\Delta t_k = t_{k + 1} - t_k$ ， $\{\epsilon_k\}_{k = 0}^{K - 1}$ 是从 $\mathcal{N}(0, I)$ 中独立同分布 (i.i.d.) 采样的样本。该方案假设局部方差结构是常数，即随机项纯粹按 $\sqrt{\Delta t_k}$ 缩放。

然而，在布朗桥过程中，方差应该随着轨迹接近目标 $x_1$ 而逐渐减小，反映了在 $t=1$ 附近不确定性的降低。因此，在朴素离散化中，噪声幅度在后期步骤变得过大，导致轨迹有偏差并降低了样本质量。

为了纠正这种不匹配，可以应用一个缩放因子来连续地调节跨时间步长的方差。实际上，扩散项通过比率 $\frac{1 - t_{k+1}}{1 - t_k}$ 进行重新缩放，从而产生方差校正的随机更新 (variance-corrected stochastic update) [2, 31]： $x_{k + 1}^{\mathrm{c o r r e c t d}} = x_{k} + \underbrace{\Delta t_{k} v_{\theta}(x_{k},t_{k})}_{\mathrm{velocity~t o w a r d~t a r g e t}} + \sqrt{\underbrace{\Delta t_{k}\frac{1 - t_{k + 1}}{1 - t_{k}}\epsilon_{k}}_{\mathrm{variance-corrected~noise}}} \quad (17)$ 这个校正确保了方差随着 $t \to 1$ 平滑衰减，使离散采样动力学与布朗桥的内在结构对齐。

完整的推理过程总结在以下算法中：

Algorithm 2: Inference Input: 源-目标潜在对 $(x_0,x_1)$ , 训练好的模型 $v_\theta$ , 潜在维度 $D$ , 离散化步数 $N$ , 离散化时间表 $0 = t_0 < t_1 < \dots < t_N = 1$

初始化 $x \leftarrow x_0$ ;
for $k = 0,1,\dots ,N - 1$ do
计算步长 $\Delta t \leftarrow t_{k + 1} - t_k$ ;
计算缩放因子 $\eta \leftarrow \sqrt{\Delta t\frac{1 - t_{k + 1}}{1 - t_{k}}}$ ;
采样噪声 $\epsilon \sim \mathcal{N}(0,I)$ ;
更新潜在状态: $x \leftarrow x + \Delta t v_{\theta}(x,t_{k}) + \eta \epsilon$ ;
end Output: 最终状态 $x$ 逼近目标 $x_1$

5. 实验设置

本节详细介绍 ViBT 在各种复杂视觉条件生成任务上的实验设置，包括数据集、评估指标和对比基线。

5.1. 数据集

5.1.1. 指令式图像编辑 (Instruction-based Image Editing)

数据集构建: 作者创建了一个合成数据集，基于 Open Images Dataset [28]。
1. 随机采样 5,000 张图像，并裁剪、调整大小至 Qwen-Image-Editing 模型支持的分辨率（例如 1328x1328, 1664x928 等）。
2. 使用视觉语言模型 Qwen3-VL [61] 为这些图像生成相应的编辑指令。
3. 使用 Qwen-Image-Editing 模型 [60] 根据指令生成编辑后的图像。
4. 通过 Qwen3-VL 过滤生成的指令-图像对，确保指令和编辑之间的高度对齐。这形成了训练数据的第一部分（约 3,335 个验证样本）。
5. 额外整合了 OmniConsistency [48] 生成的风格化图像数据，分辨率为 1024x1024，编辑指令统一为“将图像转换为 [风格] 风格图像”。这构成了数据集的第二部分（约 2,605 个样本）。
评估基准: 使用 ImgEdit-Bench [65] 作为评估基准，该基准在指令遵循准确性、编辑质量和图像细节保留方面提供全面评估。

5.1.2. 视频风格化 (Video Stylization)

数据集: 使用开源的 Ditto-1M 数据集 [3] 进行训练。具体从 Ditto-1M 的 global_style1 子集中随机采样 10,000 个视频样本，这些视频与风格描述配对。
评估基准: 构建了一个包含 100 个视频的基准，这些视频由 Wan 2.2 14B [54] 使用 MovieGen Bench [43] 的前 100 个提示生成。这些视频与训练集不重叠。每个视频都与一个随机采样的文本风格指令配对。对每个包含 81 帧的视频，均匀采样 5 帧进行质量评估。

5.1.3. 深度到视频合成 (Depth-to-Video Synthesis)

训练数据集构建:
1. 使用 Wan 2.2 14B [54] 和 MovieGen Bench [43] 的提示生成 1,003 个视频。这些视频分辨率为 832x480，每段 81 帧，使用 CFG (Classifier-Free Guidance) scale 5 和 50 个采样步长。
2. 使用 Depth Anything V2 [62] 模型将这些合成视频转换为深度图，形成深度-视频对用于训练。生成的深度图使用 Depth Anything V2 提供的默认 inferno 色图格式，而非灰度图像。
评估数据集:
1. 使用 Wan 2.2 14B 基于 VBench [20] 提供的提示生成 946 个参考视频。这些视频分辨率为 832x480，每段 81 帧，CFG scale 5 和 50 个采样步长。
2. 使用 Depth Anything V2 [62] 模型将这些参考视频转换为相应的深度图，作为所有方法的条件输入。
3. 测试时，使用 VBench 提供的原始提示进行评估。

5.2. 评估指标

对论文中出现的每一个评估指标，进行以下说明：

NIQE (Natural Image Quality Evaluator) [40]
- 概念定义: NIQE 是一种全盲 (no-reference)图像质量评估指标，它不依赖于任何参考图像。它通过提取图像的自然场景统计特征，并与从大量高质量自然图像中学习到的模型进行比较来评估图像质量。较低的 NIQE 值表示更好的图像质量。
- 数学公式: NIQE 的计算通常涉及多个步骤和复杂的统计模型，没有一个简单的单行公式。其核心思想是构建一个多元高斯模型 (Multivariate Gaussian Model, MGM) 来捕获自然图像块的统计特性。NIQE 值计算为： $\mathrm{NIQE}(I) = \sqrt{(\boldsymbol{v}_1 - \boldsymbol{v}_2)^T (\Sigma_1 + \Sigma_2)^{-1} (\boldsymbol{v}_1 - \boldsymbol{v}_2)}$
- 符号解释:
  - $I$ ：待评估的图像。
  - $\boldsymbol{v}_1$ ：从自然图像数据集中学习到的 MGM 的均值向量。
  - $\Sigma_1$ ：从自然图像数据集中学习到的 MGM 的协方差矩阵。
  - $\boldsymbol{v}_2$ ：从待评估图像中提取的特征的均值向量。
  - $\Sigma_2$ ：从待评估图像中提取的特征的协方差矩阵。
  - $T$ : 向量或矩阵的转置。
  - $(\Sigma_1 + \Sigma_2)^{-1}$ : 矩阵求逆。
TOPIQ-NR (Top-Down Image Quality - No Reference) [7]
- 概念定义: TOPIQ-NR 是一种全盲 (no-reference)图像质量评估指标，它从语义到失真进行自顶向下 (top-down)的评估。它旨在更全面地捕捉图像的感知质量，包括美学吸引力和语义完整性。
- 数学公式: 论文中未提供 TOPIQ-NR 的具体数学公式，但它是一个基于学习的指标，通常通过训练一个模型来预测人类对图像质量的评分。其核心思想是结合图像的语义信息和失真特征进行评估。
- 符号解释: 作为一个学习指标，其内部计算复杂，通常涉及特征提取和回归模型，没有简单的解析公式。较高的 TOPIQ-NR 值表示更好的图像质量。
MUSIQ (Multi-scale Image Quality Transformer) [26]
- 概念定义: MUSIQ 是一种基于 Transformer 架构的图像质量评估模型，能够从多个尺度 (multi-scale) 对图像质量进行预测。它旨在捕捉图像在不同分辨率和细节层次上的感知质量。
- 数学公式: 论文中未提供 MUSIQ 的具体数学公式。MUSIQ 模型本身是一个复杂的深度学习网络，其输出通常是一个回归值，代表预测的图像质量得分。
- 符号解释: 较高的 MUSIQ 值表示更好的图像质量。
MANIQA [63]
- 概念定义: MANIQA 是一种基于多尺度注意力机制的图像质量评估模型，它能够对图像的感知质量进行预测。它结合了图像的局部和全局特征，并通过注意力机制进行加权融合。
- 数学公式: 论文中未提供 MANIQA 的具体数学公式。MANIQA 同样是一个深度学习模型，其输出是图像质量得分。
- 符号解释: 较高的 MANIQA 值表示更好的图像质量。
CLIPIQA [55]
- 概念定义: CLIPIQA 利用CLIP (Contrastive Language-Image Pre-training) 模型的能力来评估图像质量。它通过衡量图像内容与语言描述之间的语义对齐程度，间接反映图像的感知质量和美学吸引力。
- 数学公式: 论文中未提供 CLIPIQA 的具体数学公式。它通常涉及使用 CLIP 的图像编码器来提取图像特征，然后将其用于质量预测。
- 符号解释: 较高的 CLIPIQA 值表示更好的图像质量。
CLIP Score [17]
- 概念定义: CLIP Score 衡量图像与给定文本描述之间的语义相似度。在生成任务中，它通常用于评估生成图像或视频与输入指令（文本）的一致性。更高的 CLIP Score 表示图像更好地符合文本描述。
- 数学公式: CLIP Score 的计算基于 CLIP 模型的图像和文本编码器。给定一个图像 $I$ 和一个文本 $T$ ，CLIP Score 定义为： $\mathrm{CLIP~Score}(I, T) = \mathrm{cosine\_similarity}(\mathrm{CLIP\_ImageEncoder}(I), \mathrm{CLIP\_TextEncoder}(T)) \times 100$
- 符号解释:
  - $\mathrm{CLIP\_ImageEncoder}(I)$ ：CLIP 模型的图像编码器将图像 $I$ 转换为特征向量。
  - $\mathrm{CLIP\_TextEncoder}(T)$ ：CLIP 模型的文本编码器将文本 $T$ 转换为特征向量。
  - $\mathrm{cosine\_similarity}(\cdot, \cdot)$ ：计算两个向量之间的余弦相似度。
  - $\times 100$ : 通常将结果乘以 100 以获得一个更直观的分数范围。
SSIM (Structural Similarity Index Measure) [59]
- 概念定义: SSIM 是一种有参考 (full-reference)图像质量评估指标，用于衡量两幅图像（通常是参考图像和失真图像）之间的相似性。它基于人类视觉系统对结构信息变化的敏感性，通过比较亮度、对比度和结构三个方面来评估图像质量。SSIM 值接近 1 表示两幅图像高度相似。
- 数学公式: SSIM 的计算公式为： $\mathrm{SSIM}(x, y) = [l(x, y)]^{\alpha} \cdot [c(x, y)]^{\beta} \cdot [s(x, y)]^{\gamma}$ 其中：
  - $l(x, y) = \frac{2\mu_x\mu_y + C_1}{\mu_x^2 + \mu_y^2 + C_1}$ (亮度比较)
  - $c(x, y) = \frac{2\sigma_x\sigma_y + C_2}{\sigma_x^2 + \sigma_y^2 + C_2}$ (对比度比较)
  - $s(x, y) = \frac{\sigma_{xy} + C_3}{\sigma_x\sigma_y + C_3}$ (结构比较)
- 符号解释:
  - $x$ ：参考图像的像素值集合。
  - $y$ ：待评估图像的像素值集合。
  - $\mu_x, \mu_y$ ：图像 $x$ 和 $y$ 的平均像素值。
  - $\sigma_x, \sigma_y$ ：图像 $x$ 和 $y$ 的标准差。
  - $\sigma_{xy}$ ：图像 $x$ 和 $y$ 的协方差。
  - $C_1, C_2, C_3$ ：为避免除以零的常数，通常设置 $C_1 = (K_1L)^2$ , $C_2 = (K_2L)^2$ , $C_3 = C_2/2$ ，其中 $L$ 是像素值的动态范围， $K_1 = 0.01, K_2 = 0.03$ 。
  - $\alpha, \beta, \gamma$ ：权重参数，通常设置为 1。
PSNR (Peak Signal-to-Noise Ratio) [6]
- 概念定义: PSNR 是一种有参考 (full-reference)图像质量评估指标，用于衡量信号（原始图像）和噪声（失真图像与原始图像的差异）之间的比率。它以分贝 (dB) 为单位，值越高表示图像失真越小，质量越好。
- 数学公式: PSNR 的计算公式为： $\mathrm{PSNR} = 10 \cdot \log_{10}\left(\frac{\mathrm{MAX}_I^2}{\mathrm{MSE}}\right)$ 其中： $\mathrm{MSE} = \frac{1}{MN}\sum_{i=0}^{M-1}\sum_{j=0}^{N-1} [I(i,j) - K(i,j)]^2$
- 符号解释:
  - $\mathrm{MAX}_I$ ：图像中像素的最大可能值（例如，8 位图像为 255）。
  - $\mathrm{MSE}$ (Mean Squared Error)：均方误差，衡量两幅图像对应像素的差值平方的平均值。
  - M, N：图像的宽度和高度。
  - I(i,j)：参考图像在像素 (i,j) 处的像素值。
  - K(i,j)：失真图像在像素 (i,j) 处的像素值。
DISTS (Deep Image Structure and Texture Similarity) [14]
- 概念定义: DISTS 是一种有参考 (full-reference)图像质量评估指标，它旨在统一结构和纹理相似性来评估图像质量。它利用深度学习特征来捕获更复杂的感知相似性。较低的 DISTS 值表示两幅图像更相似，质量更好。
- 数学公式: 论文中未提供 DISTS 的具体数学公式。DISTS 通常通过计算两幅图像在预训练深度神经网络（如 VGG）不同层提取的特征图之间的结构和纹理相似性来得到。
- 符号解释: 较低的 DISTS 值表示更好的图像质量（更接近参考图像）。
VBench Score [20]
- 概念定义: VBench 是一个全面的视频生成模型基准测试套件，它提供多维度的评估，包括感知质量、条件遵循、文本遵循、时间一致性、运动平滑度等。VBench Score 通常是一个综合分数，反映了视频生成模型在多个属性上的整体性能。
- 数学公式: 论文中未提供 VBench Score 的具体数学公式。它是一个由多个子指标加权组合而成的综合分数，每个子指标都衡量视频生成质量的特定方面。
- 符号解释: 较高的 VBench Score 表示更好的视频生成质量。

5.3. 对比基线

5.3.1. 指令式图像编辑任务

InstructPix2Pix [4]：一种基于扩散模型的方法，通过学习遵循图像编辑指令进行图像转换。
Qwen-Image-Editing [60]：基于 Qwen 模型的最先进的 (state-of-the-art)图像编辑模型。
Step1X-edit [36]：一种实用的通用图像编辑框架。
FLUX.1 Kontext [29]：基于流匹配的图像生成和编辑模型。
MagicBrush [66]
Ins.Pix2Pix (可能是 InstructPix2Pix 的缩写)
AnyEdit [32]
UniWorld-V1 [33]

5.3.2. 视频风格化任务

Instructor Video-to-Video (InsV2V) [11]：一种基于扩散模型的视频风格化方法。
RAVE [23]：一种利用随机噪声洗牌实现快速一致视频编辑的扩散模型。
TokenFlow [45]：一种统一的图像词元器，用于多模态理解和生成。

5.3.3. 深度到视频合成任务

Control-A-Video [10]：一种基于扩散模型的可控文本到视频生成方法。
ControlVideo [70]：另一种基于扩散模型的可控视频生成方法。
VideoComposer [57]：一种具有运动可控性的合成视频生成模型。
Wan-Fun Control [1]：一种基于流匹配的方法，从与 ViBT 相同的 Wan 2.1 1.3B 模型初始化，作为直接基线。

5.4. 训练与推理细节

模型初始化:
- 图像模态：从最先进的 (state-of-the-art)预训练模型 Qwen-Image-Editing [60] (20B 参数) 初始化。
- 视频模态：从 Wan 2.1 [54] (1.3B 参数) 初始化。
训练策略:
- 图像模型：采用 LoRA (Low-Rank Adaptation) [19] 策略，秩 (rank) 为 128，以高效微调 (fine-tuning)大型模型。
- 视频模型：进行全参数更新。
优化器: 使用 Prodigy 优化器 [39]，学习率为 1，并设置 save_warmup=True。
训练时长: 默认情况下，每个模型在 1 块 NVIDIA H100 GPU 上训练 20,000 次迭代，批量大小 (batch size) 为 1。
视频风格化任务的训练时长: 在 4 块 NVIDIA H100 GPU 上训练 50,000 次迭代。

6. 实验结果与分析

本节详细分析 ViBT 在各种视觉转换任务上的实验结果，包括图像编辑、视频风格化、深度到视频合成以及关键的消融研究。

6.1. 核心结果分析

6.1.1. 指令式图像编辑 (Instruction-based Image Editing)

ViBT 在复杂的图像编辑任务上进行了评估，该任务要求模型根据文本指令修改输入图像的特定内容，同时保留其他区域。

以下是原文 Table 1 的结果：

Model	Add	Adjust	Extract	Replace	Remove	Bg.	Style	Hybrid	Action
MagicBrush	2.84	1.58	1.51	1.97	1.58	1.75	2.38	1.62	1.22
Ins.Pix2Pix	2.45	1.83	1.44	2.01	1.50	1.44	3.55	1.20	1.46
AnyEdit	3.18	2.95	1.88	2.47	2.23	2.24	2.85	1.56	2.65
Step1X-Edit	3.88	3.14	1.76	3.40	2.41	3.16	4.63	2.64	2.52
UniWorld-V1	3.82	3.64	2.27	3.47	3.24	2.99	4.21	2.96	2.74
ViBT	4.20	3.70	2.31	3.86	2.91	3.92	4.85	2.72	3.52
FLUX Kontext	3.82	3.64	2.27	3.47	3.24	2.99	4.21	2.96	2.74
ViBT (s = 0.5)	4.14	4.20	2.64	3.72	3.03	4.06	4.87	3.19	3.95
Qwen-Image-Edit	4.17	4.29	2.44	4.30	3.90	4.15	4.00	3.32	4.51

表 1. 基于平均得分的 ImgEdit-Bench 模型排名。

定量结果分析: 从 Table 1 可以看出，ViBT 在指令式图像编辑任务上表现出与当前最先进的 (state-of-the-art)方法相似的水平。在“对象添加 (Add)”和“风格转换 (Style)”等任务中，ViBT 取得了显著更强的结果，明显优于竞争方法。特别是，当噪声尺度 $s=0.5$ 时 (ViBT (s = 0.5))，其平均得分达到 3.95，超越了除 Qwen-Image-Edit 以外的所有基线模型，甚至在某些类别（如 Extract, Bg., Hybrid, Action）上超过了默认的 ViBT 设置（ $s=1$ ）。这表明 ViBT 能够生成高质量且符合指令的编辑，同时保持原始场景内容，其视觉质量可与领先的扩散模型相媲美。

以下是原文 Figure 3 和 Figure 4 的结果：

Figure 3. 图像编辑的定性比较。

Figure 4. 图像编辑的定性结果。

定性结果分析: Figure 3 和 Figure 4 展示了 ViBT 能够生成清晰地遵循指令的编辑，同时保持原始场景内容的完整性。生成的图像视觉质量与领先的基于扩散的方法相当。例如，Figure 3 展示了 ViBT 如何将一只狐狸 (fox)添加到街道 (street)上，并成功地将其风格化为卡通 (cartoon)风格，而 Figure 4 展示了更多复杂指令下的编辑效果，如改变衬衫 (shirt)的颜色、添加帽子 (hat)等。

6.1.2. 视频风格化 (Video Stylization)

该任务旨在根据给定的文本指令修改输入视频的视觉风格，同时保留其原始内容和运动动态。

以下是原文 Table 2 的结果：

Method	NIQE ↓	TOPIONS R ↑	MUSIQ ↑	MANIQA ↑	CLIPIQA ↑	CLIP Score ↑
TokenFlow	4.767	0.376	55.186	0.267	0.378	0.683
Ins.V2V	4.268	0.467	60.621	0.306	0.440	0.827
RAVE	6.514	0.351	50.595	0.269	0.377	0.683
ViBT	4.328	0.503	64.045	0.348	0.486	0.782

表 2. 视频风格化任务的定量结果。

定量结果分析: Table 2 的定量结果显示，ViBT 在大多数指标上优于基线方法。它在 TOPIONS R、MUSIQ、MANIQA 和 CLIPIQA 上取得了最高分，这表明它在生成高质量风格化视频方面表现出色，并且与给定指令的语义对齐良好。尽管 NIQE 略高于 Ins.V2V (更低的 NIQE 更好)，但 ViBT 在其他感知质量指标上表现更强，且 CLIP Score 也非常高，仅略低于 Ins.V2V，表明其风格化视频的文本一致性优秀。

以下是原文 Figure 5 和 Figure 6 的结果：

Figure 5. 梵高风格下风格化视频的比较。

Figure 6. ViBT 在不同风格下视频风格化任务的定性比较。

定性结果分析: Figure 5 和 Figure 6 进一步说明了 ViBT 能够将所需的风格（如梵高风格、卡通风格等）应用于输入视频，同时保留原始运动和结构。这展示了 ViBT 在视频时间连贯性和内容保持方面的能力。

6.1.3. 视频转换 (Video Translation) - 深度到视频合成 (Depth-to-Video Synthesis)

为了验证桥接模型 (bridge model)的多功能性和泛化能力，作者进一步探索了其在视频转换任务中的应用，主要研究了深度到视频合成 (depth-to-video synthesis)。

以下是原文 Table 3 的结果：

Method	Base Model	NIQE↓	TOPIOUn↑	MUSIO↑	MANIOA↑	CLIPIQAT	SSUMT↑	PSNR↑	DISTS↑	CLIP Score↑	VBench Score↑
Method	Base Model	Perceptual quality					Ground truth similarity			CLIP Score↑	VBench Score↑
ControlVideo	SD 1.5	6.641	0.443	50.735	0.354	0.436	0.385	9.067	0.465	0.732	0.62
Control A Video	SD 1.5	5.102	0.374	52.391	0.254	0.334	0.276	8.510	0.348	0.715	0.59
VideoComposer	SD 2.1	6.750	0.305	43.691	0.276	0.237	0.329	9.656	0.457	0.722	0.59
Wan Fun Control	Wan 2.1	5.346	0.477	59.086	0.335	0.459	0.427	10.899	0.281	0.776	0.69
ViBT	Wan 2.1	4.896	0.477	59.625	0.331	0.477	0.429	11.403	0.230	0.781	0.71

表 3. 深度到视频任务的定量比较。

定量结果分析: Table 3 呈现了 ViBT 在视频帧质量、条件遵循准确性、文本遵循准确性以及整体 VBench Score 上的定量比较。ViBT 在所有指标上始终优于基线，这表明其具有强大的视频生成质量和可靠的条件行为。例如，ViBT 取得了最低的 NIQE 和 DISTS (越低越好)，以及最高的 MUSIQ、CLIPIQAT、SSUMT、PSNR、CLIP Score 和 VBench Score。这尤其值得注意的是，Wan Fun Control 作为与 ViBT 基于相同 Wan 2.1 模型初始化的直接基线，ViBT 在所有指标上都超越了它，证明了其方法论的有效性。

以下是原文 Table 4 的结果：

Method	Subj. Cons.	Bkgd. Cons.	Aesth. Qual.	Img. Qual.	Obj. Class	Multi Objs.	Color Size	Spatial Rel.	Scene	Temp. Style	Overall Cons.	Human Action	Temp. Flicker	Motion Smooth	Dyn. Degree	Appear. Style
Method	Subj. Cons.	Bkgd. Cons.	Aesth. Qual.	Img. Qual.	Obj. Class	Multi Objs.	Color Size	Spatial Rel.	Scene	Temp. Style	Overall Cons.	Human Action	Temp. Flicker	Motion Smooth	Dyn. Degree	Appear. Style	Avg. Score
Control Video	0.899	0.94	0.54	0.52	0.57	0.26	0.706	0.46	0.29	0.20	0.24	0.80	0.991	0.990	0.11	0.229	0.55
Control A Video	0.791	0.88	0.48	0.59	0.59	0.25	0.799	0.44	0.43	0.21	0.24	0.83	0.982	0.976	0.72	0.235	0.59
Video Composer	0.873	0.92	0.44	0.48	0.67	0.23	0.854	0.32	0.29	0.22	0.24	0.91	0.963	0.949	0.88	0.222	0.59
Wan Fun	0.913	0.93	0.60	0.57	0.87	0.65	0.848	0.70	0.46	0.24	0.26	1.00	0.989	0.978	0.86	0.211	0.69
ViBT	0.907	0.93	0.63	0.63	0.91	0.71	0.835	0.74	0.54	0.25	0.27	1.00	0.990	0.976	0.82	0.221	0.71

表 4. 深度到视频任务的 VBench 属性分解定量比较。

VBench 属性分解分析: Table 4 报告了 VBench 下的细粒度属性评估结果。ViBT 在大多数属性上都达到了领先性能，尤其是在“图像质量 (Img. Qual.)”、“物体分类 (Obj. Class.)”、“多物体 (Multi Objs.)”、“空间关系 (Spatial Rel.)”和“场景 (Scene)”等属性上得分最高。这表明 ViBT 不仅生成了高质量的视频，而且在遵循深度条件、保持物体一致性以及捕捉复杂场景细节方面也表现出色。

以下是原文 Figure 7 的结果：

该图像是示意图，展示了不同条件下生成的鸟类图像，包括输入条件、视频合成、控制视频和控制效果等。图中左上角显示了描述条件，其他区域展示了不同方法生成的效果，突出展示了我们方法的效果，与其他方法进行对比。

Figure 7. 深度到视频任务的定性比较。

定性结果分析: Figure 7 提供了定性示例，展示了 ViBT 能够生成更丰富、更详细的视觉效果，并且与深度条件更紧密地对齐。例如，在给定相同的深度图条件下，ViBT 生成的视频在物体细节、光影效果和背景复杂性方面都优于其他基线方法。

6.1.4. 效率比较 (Efficiency Comparison)

布朗桥公式 (Brownian Bridge formulation) 在 ViBT 中能够通过减少对辅助条件分支或额外条件词元的依赖，实现更高效的训练和推理。

以下是原文 Table S1 和 Table S2 的结果：

Resolution	Tokens	Latency (ms)	Tokens	Latency (ms)
Resolution	Conditional DiT		ViBT
1024 × 1024	8,192	437	4,096	192
1328 × 1328	10,624	613	5,312	258

表 S1. 推理效率比较 (图像)。

Resolution	Tokens	Latency (ms)	Tokens	Latency (ms)
Resolution	Conditional DiT		ViBT
480P (5s)	85,520	1,510	32,760	459
480P (10s)	107,310	5,407	63,960	1,444
720P (5s)	151,200	7,437	75,600	1,958
720P (10s)	204,620	25,577	147,600	7,097

表 S2. 推理效率比较 (视频)。

分析: Table S1 和 S2 详细列出了图像和视频推理的延迟比较。ViBT 在所有评估的图像和视频转换场景中，与条件扩散 Transformer (Conditional DiT) 基线相比，始终显著降低了推理延迟。这主要是因为 ViBT 的布朗桥范式减少了所需处理的词元数量（如表所示），从而降低了计算量。

以下是原文 Figure S1 的结果：

Figure S1. Conditional DiT 和 ViBT 的比较。

分析: Figure S1 直观地展示了 ViBT 相对于 Conditional DiT 在推理延迟方面的优势，图中的柱状图清晰地表明 ViBT 的推理时间更短。

6.1.5. 额外视频转换任务 (Additional Video Translation Tasks)

除了深度到视频合成任务，ViBT 还在视频着色和视频帧插值任务上进行了评估。

视频着色 (Video Colorization): ViBT 直接将灰度视频转换为彩色视频。Figure S3（原文未提供该图）展示了其强大的泛化能力。
视频帧插值 (Video Frame Interpolation): 通过重复原始帧构造粗略视频，然后 ViBT 对其进行细化，以提高视觉质量和时间连贯性。在实验中， $k=4$ 用于生成 4 倍插值帧，将视频帧率从 15 FPS 提高到 60 FPS，同时保持高视觉质量和时间连贯性。

以下是原文 Figure S2 的结果：

Source Frames 1 2 3
Unsampled 1 2 2

Figure S2. 视频帧插值流程图。

分析: Figure S2 展示了视频帧插值的示意图，其中 Source Frames 为原始视频帧，Unsampled 为重复帧以创建粗略视频。ViBT 将用于填补这些重复帧之间的空白，生成平滑过渡的插值帧。

以下是原文 Figure S4 的结果：

Figure S4. 视频帧插值任务的定性结果。

分析: Figure S4 展示了 ViBT 在视频帧插值任务上的定性结果。即使只用少数推理步骤（例如 4 步），ViBT 也能生成高质量且时间连贯的插值结果，进一步证明了其高效性。

6.2. 消融实验与参数分析

6.2.1. 训练目标 (Training Objectives)

作者比较了三种训练目标：提出的稳定速度匹配 (stabilized velocity matching) (Eq. 15)、位移匹配 (displacement matching) (Eq. 11) 和速度匹配 (velocity matching) (Eq. 9)。

以下是原文 Table 5 的结果：

	SSIM↑	PSNR↑	NIQ↓	DIST↓S↓	CLIP Score↑	VBench Score↑	Add	Adjust	Extract	Replace	Removal	Bg.	Style	Compose	Action	Avg.
	Depth-to-Error					Image Edit
Displacement	0.409	11.04	4.91	0.26	0.772	0.695	4.18	3.79	2.23	3.27	2.65	3.97	4.847	2.74	3.519	3.50
Velocity	0.428	10.91	5.45	0.27	0.772	0.009	4.09	3.89	2.19	3.34	2.13	3.90	4.897	2.62	3.119	3.36
Stabilized velocity	0.429	11.40	4.90	0.23	0.78	0.71	4.20	3.70	2.31	3.86	2.91	3.92	4.850	2.72	3.518	3.55

表 5. 不同训练目标的定量比较。

分析: Table 5 显示，稳定速度匹配 (Stabilized velocity matching) 在深度到视频和图像编辑任务上始终达到最佳性能。在深度到视频生成方面，它超越了所有评估指标；在多样化的图像编辑场景中，它也获得了最高的平均得分。这验证了所提出的稳定速度匹配目标的有效性。

以下是原文 Figure 8 的结果：

该图像是一个包含训练损失曲线和可视化结果的图表。左侧展示了训练过程中的损失变化，包括位移、速度和稳定速度的曲线。右侧展示了不同条件下生成的图像，包括用于说明的图像和三个不同的输出：位移、速度和稳定速度。

Figure 8. 深度到视频合成任务中不同训练目标的比较。

分析: Figure 8 突出显示了稳定速度匹配在训练稳定性和视觉质量方面优于其他目标。例如，速度匹配的损失曲线波动较大，而稳定速度匹配的损失曲线更平滑，且生成的图像质量也更高。

6.2.2. 噪声尺度 (Noise Scale)

之前的研究 [5, 31] 通过修改 Eq. (1) 中的扩散项，引入了全局噪声尺度参数 $s$ ，使 $\sigma(t) \equiv s$ ，从而得到广义 SDE： $\mathrm{d}X_{t} = v_{\theta}(X_{t},t)\mathrm{d}t + s\mathrm{d}W_{t} \quad (18)$ 作者探索了不同 $s$ 值的影响。

以下是原文 Table 6 的结果：

	SSIM↑	PSNR↑	0.477	8.08	0.373	0.717	0.350	3.91	4.29	2.01	2.45	1.60	3.35	4.65	2.56
	SSIM↑	PSNR↑	NIQ↓	DIST↓S↓	CLIP Score↑	VBench Score↑	Add	Adjust	Extract	Replace	Reshown	B-price	Msequence	Action	Avg.
s = 0	S = 1.2	0.331	9.206	5.413	0.342	0.675	0.296	3.43	4.90	2.04	2.31	1.61	3.53	4.46	2.58
s = 0.5	0.398	10.227	5.185	0.261	0.752	0.383	4.15	4.20	2.64	4.72	3.03	4.06	4.87	3.19	3.95
s = 1 (default)	0.429	11.103	3.896	0.234	0.781	0.707	4.20	3.70	2.31	3.86	2.91	3.92	4.85	2.72	3.52
s = 2	0.396	11.305	4.499	0.229	0,.794		4.14	3.49	2.36	3.94	3.16	3.64	4.82	2.46	2.98
s = 4	0.394	10.146	5.912	0.380	0.670		3.70	2.67	2.24	3.60	2.88	2.93	4.43	1.78	2.50

表 6. 不同噪声尺度 (s) 的定量比较。

分析: Table 6 的结果表明，中等噪声尺度 ( $s=1$ 或 $s=2$ ) 在深度到视频任务中表现更好，其中 $s=2$ 显示出强大的整体得分。然而，在图像编辑任务中，较小的噪声尺度 ( $s=0.5$ ) 却意外地取得了最高的平均性能，明显优于默认的 $s=1$ 设置。过小 ( $s < 0.5$ ) 或过大 ( $s > 2$ ) 的噪声尺度都会显著降低两项任务的质量。这些观察结果强调了最佳噪声尺度因任务而异，这与之前一些主张极小噪声尺度 ( $s=0.005$ ) 的工作 [5] 形成对比。

6.2.3. 方差校正采样 (Variance-corrected Sampling)

为了验证 Eq. (17) 描述的方差校正采样策略 (variance-corrected sampling strategy) 的有效性，作者将其与没有方差校正的标准欧拉-马鲁亚马离散化方法进行了消融研究。

以下是原文 Figure S5 的结果：

Figure S5. 方差校正采样的消融研究。

分析: Figure S5 提供了在图像编辑任务上，方差校正采样的定性结果。观察到，朴素的离散化方法（没有方差校正）引入了明显的伪影，导致视觉质量下降。相比之下，方差校正采样生成了更清晰、视觉上更连贯的图像。这证实了方差校正对于布朗桥模型离散化采样的重要性。

6.2.4. 推理步数和时间表 (Inference Steps and Schedule)

作者还研究了推理步数和离散化时间表对 ViBT 性能的影响。

以下是原文 Figure S6 和 Figure S7 的结果：

Figure S6. 推理步数和时间表安排的消融研究。 Figure S7. 不同 $\gamma$ 值下的步长密度和时间表安排。

分析: Figure S6 显示，增加推理步数可以持续提高生成质量。此外，时间步长调度器的选择显著影响性能。作者采用了 Stable Diffusion 3 [15] 中引入的平移策略 (shifting strategy)，使用平移系数 $\gamma$ 将更多推理步数分配到扩散过程的早期阶段 ( $t \to 0$ )。这个平移调度公式为： $t_{i} = \frac{\dot{t}}{\gamma N + (\gamma - 1)\dot{t}} \quad (19)$ 其中 $N$ 表示总步数， $i$ 是步长索引。
Figure S7 说明了增加 $\gamma$ 如何重新分配步长密度，将更多步长置于早期阶段。实验表明， $\gamma=5$ 比线性调度 ( $\gamma=1$ ) 实现了显著更好的视觉质量，尤其是在推理步数较少时（例如 4 或 8 步）。这表明在布朗桥的早期阶段进行更密集的采样对于生成高质量结果至关重要。

6.2.5. ViBT 桥接过程的中间阶段可视化 (Visualization of Intermediate Stages in ViBT Bridge Process)

以下是原文 Figure S8 的结果：

Figure S8. ViBT 桥接过程中间阶段的可视化。

分析: Figure S8 可视化了 ViBT 桥接过程中的中间阶段。从左到右，可以看到从源图像（最左侧）到目标风格化图像（最右侧）的平滑过渡。这直观地展示了布朗桥模型如何逐步地将源内容转换为目标风格，同时保持图像的整体结构。

6.3. 其他定性结果

图像风格化 (Image Stylization): Figure S9（原文未提供该图）展示了 ViBT 生成的图像风格化额外示例，进一步证明了其在不同艺术风格下的能力。
视频风格化 (Video Stylization): Figure S11（原文未提供该图）展示了视频风格化任务的额外结果，进一步验证了 ViBT 在保留视频内容和运动的同时，有效应用多种风格的能力。

7. 总结与思考

7.1. 结论总结

本论文成功地引入了 Vision Bridge Transformer (ViBT)，这是布朗桥模型的一个大规模实例化，将其参数规模扩展到 20 亿（图像）和 13 亿（视频），用于条件图像和视频生成。通过提出方差稳定速度匹配目标 (stabilized velocity-matching objective)，ViBT 解决了传统训练方法中固有的数值不稳定问题，显著提高了模型的稳定性和性能。广泛的实验证明，该框架在包括指令式图像编辑和复杂视频转换任务在内的多个挑战性视觉转换任务中，持续优于现有基线方法，并展现出更高的效率。

7.2. 局限性与未来工作

噪声尺度 $s$ 的优化: 作者指出，调整噪声尺度 $s$ 可以进一步优化 ViBT 在不同视觉任务上的性能。然而，目前 $s$ 的选择仍需手动调整。
未来工作: 未来的研究可以探索自适应或自动化方法来选择这个关键参数，从而潜在地增强布朗桥模型的多功能性和有效性。这可能包括学习一个动态的 $s$ 值，或者根据任务特性自动确定最佳 $s$ 值。

7.3. 个人启发与批判

7.3.1. 个人启发

范式转变的价值: 论文强调了从噪声到视觉 (noise-to-vision)范式转向视觉到视觉 (vision-to-vision)范式的价值。在许多条件生成任务中，输入本身就具有丰富的结构信息，直接建模输入到输出的轨迹能够更直观、更高效地利用这些信息。这种范式上的思考对于未来设计更高效、更具可控性的生成模型具有重要指导意义。
工程与理论的结合: 针对布朗桥模型训练中存在的数值不稳定和损失不平衡问题，作者没有回避，而是从理论上分析其原因（目标速度发散、位移目标衰减），并提出了方差稳定速度匹配目标 (stabilized velocity-matching objective)。这种在理论指导下解决实际工程问题的思路非常严谨和有效。
大规模模型的潜力: ViBT 成功地将布朗桥模型扩展到数十亿参数规模，并在图像和视频领域展示了强大的泛化能力。这再次证明了 Transformer 架构和大规模训练在通用视觉生成任务中的巨大潜力，即使对于非传统生成范式也适用。
效率优势: 相比于传统的条件扩散 Transformer，ViBT 在推理效率上的提升是一个重要的优势。在实际应用中，尤其是在视频生成这样计算密集型的任务中，效率的提升能够带来更快的用户体验和更低的部署成本。

7.3.2. 批判

噪声尺度 $s$ 的自动化选择: 论文指出噪声尺度 $s$ 的最佳值因任务而异，并将其列为未来工作。尽管提供了消融实验结果，但目前仍需人工调优。对于一个通用模型而言，这种依赖经验调参的特性可能会限制其易用性和泛化能力。未来的工作应该探索如何使其自适应，例如通过元学习 (meta-learning) 或强化学习 (reinforcement learning) 的方式来优化 $s$ 。
训练成本与资源要求: 尽管 ViBT 在推理时表现出更高的效率，但其 20B/1.3B 参数的规模仍然意味着高昂的训练成本和巨大的计算资源需求（例如，使用 H100 GPU 训练 20,000-50,000 次迭代）。这限制了小型研究团队和个人对其进行复现和进一步研究的能力。如何设计更参数高效或数据高效的布朗桥模型是一个值得探索的方向。
潜在空间表示的依赖性: ViBT 严重依赖预训练 VAE 编码器将原始数据编码为潜在表示。VAE 的质量直接影响到模型的上限。如果 VAE 存在信息损失或偏见，可能会限制 ViBT 的最终生成质量。探索对 VAE 依赖性更小，或者能够联合优化 VAE 编码器和布朗桥模型的方法可能会进一步提升性能。
更复杂的条件控制: 论文主要关注图像和视频的全局编辑、风格化和深度条件生成。对于更精细、更局部化的条件控制（例如，精确的物体操作、多层次的语义编辑等），布朗桥模型是否能像 ControlNet 等方法那样灵活，仍需进一步验证和扩展。如何将更复杂的条件 (conditioning)机制与布朗桥范式无缝结合，是一个有趣的研究方向。

Source Frames	1	2	3
Unsampled	1	2	2

Vision Bridge Transformer at Scale

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 38 分钟读完 · 25,247 字