论文状态：已完成

Flow Matching for Generative Modeling

发表：2022/10/06

Flow Matching方法 (1)连续归一化流 (Continuous Normalizing Flows) (1)概率路径回归 (1)扩散模型训练稳定性提升 (1)基于最优传输的生成模型 (1)

价格：0.100000

已有 7 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出流匹配（Flow Matching）范式，在连续归一化流（CNFs）基础上，通过无模拟地拟合固定条件概率路径的向量场，实现大规模训练。该方法兼容多种高斯路径，结合扩散路径提升扩散模型训练稳定性，且借助最优传输路径加速训练和采样，提升泛化能力，在ImageNet上优于现有扩散方法。

摘要

We introduce a new paradigm for generative modeling built on Continuous Normalizing Flows (CNFs), allowing us to train CNFs at unprecedented scale. Specifically, we present the notion of Flow Matching (FM), a simulation-free approach for training CNFs based on regressing vector fields of fixed conditional probability paths. Flow Matching is compatible with a general family of Gaussian probability paths for transforming between noise and data samples -- which subsumes existing diffusion paths as specific instances. Interestingly, we find that employing FM with diffusion paths results in a more robust and stable alternative for training diffusion models. Furthermore, Flow Matching opens the door to training CNFs with other, non-diffusion probability paths. An instance of particular interest is using Optimal Transport (OT) displacement interpolation to define the conditional probability paths. These paths are more efficient than diffusion paths, provide faster training and sampling, and result in better generalization. Training CNFs using Flow Matching on ImageNet leads to consistently better performance than alternative diffusion-based methods in terms of both likelihood and sample quality, and allows fast and reliable sample generation using off-the-shelf numerical ODE solvers.

思维导图

论文精读

中文精读约 37 分钟读完 · 26,993 字

论文基本信息 (Bibliographic Information)

标题 (Title): Flow Matching for Generative Modeling
作者 (Authors): Yaron Lipman, Ricky T. Q. Chen, Heli Ben-Hamu, Maximilian Nickel, Matt Le
隶属机构 (Affiliations): Meta AI (FAIR), Weizmann Institute of Science
发表期刊/会议 (Journal/Conference): 预印本 (Preprint)
发表年份 (Publication Year): 2022
摘要 (Abstract): 本文提出了一种新的生成模型范式：流匹配 (Flow Matching, FM)，该范式建立在连续归一化流 (Continuous Normalizing Flows, CNFs)之上，使得CNFs能够以前所未有的规模进行训练。流匹配是一种无模拟 (simulation-free)方法，通过回归固定条件概率路径的向量场 (vector fields)来训练CNFs。它兼容一类通用的高斯概率路径，用于在噪声和数据样本之间进行变换，这其中包含了现有扩散路径作为特定实例。有趣的是，研究发现将流匹配与扩散路径结合使用，为训练扩散模型 (diffusion models)提供了一种更鲁棒和稳定的替代方案。此外，流匹配开辟了使用其他非扩散概率路径训练CNFs的可能性。其中一个特别受关注的实例是使用最优传输 (Optimal Transport, OT)位移插值来定义条件概率路径。这些路径比扩散路径更高效，能够实现更快的训练和采样，并带来更好的泛化能力。在ImageNet上，使用流匹配训练CNFs，在似然性和样本质量方面始终优于其他基于扩散的方法，并且可以使用现成的数值常微分方程 (Ordinary Differential Equation, ODE)求解器实现快速可靠的样本生成。
原文链接 (Source Link): https://arxiv.org/abs/2210.02747
PDF 链接 (PDF Link): https://arxiv.org/pdf/2210.02747v2.pdf
发布状态 (Publication Status): 预印本 (Preprint)，发布于 2022-10-06T08:32:20.000Z。

整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why)

深度生成模型 (Deep Generative Models) 在图像生成等领域取得了显著进展，其中扩散模型 (Diffusion Models)因其可扩展和相对稳定的训练方式而广受欢迎。然而，扩散模型存在一些固有限制：

采样概率路径受限 (Confined Sampling Probability Paths): 传统的扩散过程基于特定的随机微分方程 (Stochastic Differential Equations, SDEs) 或扩散过程设计，导致采样的概率路径空间较为局限。
训练时间长 (Long Training Times): 这种路径的限制常常导致模型训练耗时较长。
采样效率低下 (Inefficient Sampling): 需要专门的方法（如 DDIM、ODE 求解器）来提高采样效率。

另一方面，连续归一化流 (Continuous Normalizing Flows, CNFs)作为一种更通用的生成模型框架，原则上能够建模任意概率路径，并且已知可以涵盖扩散过程的概率路径。然而，CNFs 的传统训练方法（如最大似然训练）需要昂贵的数值 ODE 模拟，导致其难以扩展到大型数据集。现有的无模拟方法又面临计算复杂或梯度有偏的问题。

因此，本文的动机是：

解决 CNF 训练的可扩展性问题： 提出一种高效、无模拟的 CNF 训练算法，使其能够应用于大规模数据。
突破扩散模型路径的限制： 允许 CNF 采用更一般、更高效的概率路径，以克服传统扩散模型的缺点，提升训练和采样的效率及生成质量。
简化模型设计： 直接与概率路径工作，而非依赖复杂的扩散过程。

核心贡献/主要发现 (Main Contribution/Findings - What)

本文提出了 流匹配 (Flow Matching, FM) 框架，其核心贡献和主要发现包括：

提出了流匹配 (FM) 范式： 这是一种无模拟 (simulation-free)的 CNF 训练方法，通过直接回归固定的条件概率路径的向量场 (vector fields)来训练 CNF。
引入条件流匹配 (CFM) 目标： 解决了原始 FM 目标函数计算不可行的问题。CFM 允许模型通过对条件概率路径 (conditional probability paths)和条件向量场 (conditional vector fields)进行逐样本（per-sample）回归来训练，并且在期望意义上与原始 FM 目标具有相同的梯度，从而实现了可扩展且无偏的训练。
统一并推广了扩散路径： FM 框架兼容一类通用高斯条件概率路径，能够将现有的扩散路径（如 VE 和 VP 扩散）作为其特例。实验表明，使用 FM 训练扩散路径相比传统的得分匹配 (Score Matching)方法，训练更鲁棒和稳定，并能取得更好的性能。
引入最优传输 (OT) 路径： FM 框架可以采用非扩散的概率路径。本文特别提出使用最优传输 (Optimal Transport, OT)位移插值来定义条件概率路径。相比扩散路径，OT 路径更简单（线性变化），轨迹更“直”（粒子以恒定速度沿直线移动），这显著提升了训练和采样的效率，并带来了更好的泛化能力和样本质量。
在ImageNet上的卓越性能： 在大规模图像数据集ImageNet上，使用 FM（特别是结合 OT 路径）训练的 CNF 模型在负对数似然 (Negative Log-Likelihood, NLL)和菲德距离 (Frechet Inception Distance, FID)等指标上持续优于其他基于扩散的方法，并且能通过标准 ODE 求解器实现快速可靠的样本生成。
采样效率显著提升： OT 路径使得模型在更少的函数评估次数 (Number of Function Evaluations, NFE)下就能生成高质量样本，提供了更好的计算成本与样本质量之间的权衡。

理解本文需要掌握一些关于连续时间生成模型、概率论和优化的基础概念。

基础概念 (Foundational Concepts)

连续归一化流 (Continuous Normalizing Flows, CNFs):
- 概念定义: CNFs 是一种深度生成模型，通过学习一个连续时间微分方程 (continuous-time ordinary differential equation, ODE)来将简单的先验分布 (prior distribution)（例如标准高斯噪声）变换 (transform)为复杂的目标数据分布 (data distribution)。这种变换是一个流 (flow)，即一个时间依赖的微分同胚映射 (diffeomorphic map)，保持拓扑结构不变。
- 数学表示: 给定数据空间 $\mathbb{R}^d$ ，一个数据点 $x \in \mathbb{R}^d$ 。CNF 的核心是学习一个向量场 (vector field) $v: [0, 1] \times \mathbb{R}^d \to \mathbb{R}^d$ 。这个向量场定义了一个时间依赖的微分同胚映射 $\phi: [0, 1] \times \mathbb{R}^d \to \mathbb{R}^d$ ，由以下 ODE 给出： $\frac{d}{dt} \phi_t(x) = v_t(\phi_t(x)) \\ \phi_0(x) = x$ 其中， $\phi_t(x)$ 表示在时间 $t$ 时，从初始点 $x$ 演变而来的位置。
- 概率密度路径 (Probability Density Path): 随着时间 $t$ 的推移，初始分布 $p_0$ 通过流 $\phi_t$ 演变成一系列时间依赖的概率密度函数 $p_t(x)$ ，称为概率密度路径。 $p_t = [\phi_t]_* p_0$ ，其中 $[\cdot]_*$ 是推前算子 (push-forward operator)，定义为： $[\phi_t]_* p_0 (x) = p_0(\phi_t^{-1}(x)) \operatorname{det}\left[\frac{\partial \phi_t^{-1}}{\partial x}(x)\right]$ 这表示 $p_t(x)$ 是 $p_0(\phi_t^{-1}(x))$ 乘以变换的雅可比行列式 (Jacobian determinant) 的倒数。
- 连续性方程 (Continuity Equation): 一个向量场 $v_t$ 产生一个概率密度路径 $p_t$ 的充要条件是它们满足连续性方程 (continuity equation)： $\frac{d}{dt} p_t(x) + \operatorname{div}(p_t(x) v_t(x)) = 0$ 其中 $\operatorname{div}$ 是散度算子 (divergence operator)， $\operatorname{div}(F) = \sum_{i=1}^d \frac{\partial F_i}{\partial x^i}$ 。这个方程描述了概率密度在空间中的时间演变，类似于流体力学中的质量守恒定律。
扩散模型 (Diffusion Models):
- 概念定义: 扩散模型是一类生成模型，它通过两个过程来工作：前向扩散过程 (forward diffusion process)和反向去噪过程 (reverse denoising process)。前向过程逐渐向数据添加噪声，直到数据变成纯噪声（通常是标准高斯噪声）。反向过程学习如何从噪声中逐步去除噪声，从而从纯噪声生成数据。
- 与 CNF 的关系: Song et al. (2021) 证明了扩散模型可以看作是 CNF 的一个特例，其概率路径可以通过 ODE 描述，称为概率流 ODE (Probability Flow ODE)。
得分匹配 (Score Matching):
- 概念定义: 得分匹配是一种训练生成模型的方法，旨在学习数据的得分函数 (score function) $\nabla \log p(x)$ ，即数据分布对数密度的梯度。它避免了直接计算难以处理的配分函数 (partition function)。
- 去噪得分匹配 (Denoising Score Matching, DSM): Vincent (2011) 提出的一种改进的得分匹配方法，通过在数据中添加噪声来使训练更稳定和可扩展。扩散模型通常使用 DSM 或其变体进行训练。
最优传输 (Optimal Transport, OT):
- 概念定义: 最优传输理论研究如何以最小的“成本”将一个概率分布“移动”到另一个概率分布。在生成模型中，它被用于定义两个分布之间的平滑插值路径。
- Wasserstein-2 距离 (Wasserstein-2 distance): 在许多情况下，Wasserstein-2 距离对应的最优传输路径具有特别的性质，例如，在特定条件下，粒子会沿直线以恒定速度移动。
- OT 位移插值 (OT displacement interpolation): McCann (1997) 证明了在特定条件下（如高斯分布之间），最优传输路径可以通过简单的线性插值形式的位移映射 (displacement map)来表示。

前人工作 (Previous Works)

CNF 训练的挑战:
- Chen et al. (2018) 首次提出了 CNF，但其基于最大似然估计 (Maximum Likelihood Estimation, MLE)的训练方法涉及昂贵的 ODE 模拟，包括前向和反向传播，导致计算复杂度高。
- 一些工作尝试通过正则化 ODE（如 Dupont et al. (2019)、Finlay et al. (2020)）或随机采样积分区间（如 $Du et al. (2022)$ ）来缓解问题，但并未改变训练算法的根本性质。
- Grathwohl et al. (2018) 展示了 CNF 在图像生成上的潜力，但扩展到高维图像仍然困难。
无模拟 CNF 训练:
- Rozen et al. (2021) 考虑了先验和目标密度之间的线性插值，但其涉及的积分在高维空间中难以估计。
- Ben-Hamu et al. (2022) 考虑了与本文类似的一般概率路径，但其随机小批量 (minibatch)梯度存在偏差。
扩散模型与得分匹配:
- Sohl-Dickstein et al. (2015)、 $Ho et al. (2020)$ 、Song & Ermon (2019) 等工作构建了扩散过程来间接定义目标概率路径，并通过 DSM 进行训练，实现了高效且可扩展的训练。
- Song et al. (2020b) 证明了扩散模型可以通过 DSM 进行训练，并提供了无偏梯度。
- 后续工作如 Song et al. (2021) (ScoreFlow)、Dhariwal & Nichol (2021)、Nichol & Dhariwal (2021)、Kingma et al. (2021) 等对扩散模型进行了改进，包括损失重新缩放、引导机制和噪声调度学习。
- De Bortoli et al. (2021)、Wang et al. (2021)、Peluchetti (2021) 等利用扩散桥 (diffusion bridges)理论，提出了有限时间扩散构造，解决了无限时间去噪构造带来的近似误差。
CNF 与扩散的联系:
- Maoutsa et al. (2020b) 和 Song et al. (2020b, 2021) 指出扩散过程和 CNF 在相同概率路径下存在联系。

技术演进 (Technological Evolution)

生成模型领域的技术演进大致经历了以下阶段：

早期生成模型 (Early Generative Models): 如生成对抗网络 (Generative Adversarial Networks, GANs)和变分自编码器 (Variational Autoencoders, VAEs)，它们在生成图像方面取得了初步成功，但也存在训练不稳定、模式崩溃等问题。
归一化流 (Normalizing Flows, NFs): 作为一类具有精确对数似然 (log-likelihood)计算能力的模型，NFs 通过一系列可逆变换将简单分布映射到复杂分布。
连续归一化流 (CNFs): Chen et al. (2018) 将离散的 NF 推广到连续时间域，通过 ODE 建模变换，提高了灵活性和表达能力，但训练成本高昂。
扩散模型 (Diffusion Models): 通过得分匹配 (Score Matching)训练，实现了高效且高质量的图像生成，成为主流。它们在数学上与 CNF 有联系，其概率路径可由 ODE 描述。
流匹配 (Flow Matching): 本文提出的 FM 框架，旨在结合 CNF 的通用性和扩散模型训练的效率。它通过直接回归向量场，实现了无模拟训练，并且能够超越传统扩散模型所能建模的概率路径，引入如 OT 路径等更高效的选择。这代表了从依赖特定扩散过程转向直接设计和匹配概率路径的范式转变。

差异化分析 (Differentiation)

本文的 Flow Matching 方法与现有工作的主要区别和创新点在于：

与传统 CNF 训练的区别： FM 提供了一种无模拟 (simulation-free)的训练方法，避免了传统 CNF 训练中昂贵的 ODE 模拟带来的计算开销，使其能够扩展到大规模数据集。
与扩散模型/得分匹配的区别：
- 泛化性更强： FM 不限于特定的扩散过程，而是提供了一个更通用的框架来训练 CNF。它兼容一类广泛的高斯概率路径，其中包含扩散路径作为特例，但也能引入如 OT 路径等非扩散路径。这使得模型设计者可以根据需求选择更有效的概率路径。
- 训练更鲁棒： 即使在相同的扩散路径下，FM 也比传统的得分匹配 (Score Matching)方法提供更鲁棒和稳定的训练。
- 直接匹配向量场： FM 直接回归生成目标概率路径的向量场 (vector field)，而扩散模型（通过去噪得分匹配 (Denoising Score Matching)训练）则是间接学习得分函数 (score function)，这在数学上等价于某种向量场。FM 这种直接性可能有助于训练稳定性和效率。
OT 路径的引入： 这是 FM 框架带来的一个重要创新。OT 路径相比扩散路径具有更简单的几何特性（直线轨迹，向量场方向恒定），这直接导致了更快的训练、更快的采样和更好的泛化能力。这一点是现有扩散模型所不具备的。
可扩展性： 通过条件流匹配 (Conditional Flow Matching, CFM)目标，FM 解决了在实践中计算边际向量场和概率路径的困难，允许逐样本训练，从而实现了对高维数据的可扩展性。

方法论 (Methodology - Core Technology & Implementation Details)

本文的核心是提出流匹配 (Flow Matching, FM)框架，这是一种用于训练连续归一化流 (CNFs)的无模拟 (simulation-free)方法。其核心思想是直接回归目标概率路径所对应的向量场 (vector field)。

方法原理 (Methodology Principles)

Flow Matching 的核心直觉在于，如果我们可以定义一个从简单先验分布（如标准高斯噪声）到复杂数据分布的理想概率路径，并且能够得到这个路径上任意一点的理想向量场，那么我们就可以训练一个神经网络来拟合这个理想向量场。一旦神经网络精确地拟合了这个向量场，它就能够生成对应的概率路径，从而实现从噪声到数据的生成。

然而，直接定义一个从噪声到整个数据分布的边际概率路径 (marginal probability path)及其对应的边际向量场 (marginal vector field)是非常困难的。本文通过以下两个关键洞察来解决这个问题：

条件化构造： 将复杂的边际概率路径分解为一系列更简单的条件概率路径 (conditional probability paths)。每个条件概率路径都描述了从噪声到单个数据样本的演变。通过对这些条件路径进行“边际化”，可以得到整体的边际路径。
条件化训练目标： 证明了优化一个基于这些条件路径的条件流匹配 (Conditional Flow Matching, CFM)目标函数，在期望意义上与优化原始的、难以计算的边际流匹配目标是等价的。CFM 目标只依赖于单个数据样本的条件路径和条件向量场，这使得训练变得可计算且高效。

方法步骤与流程 (Steps & Procedures)

整个 Flow Matching 框架可以分为以下几个关键步骤：

定义目标概率路径 $p_t(x)$ ：
- 希望从一个简单的先验分布 $p_0$ （例如标准正态分布 $\mathcal{N}(0, I)$ ）变换到近似数据分布 $q(x_1)$ 的 $p_1$ 。
- 直接定义 $p_t(x)$ 和其对应的向量场 $u_t(x)$ 较为困难。
- 解决方案： 引入条件概率路径 $p_t(x|x_1)$ 。对于每一个数据样本 $x_1 \sim q(x_1)$ ，定义一条从 $p_0(x|x_1) = p(x) = \mathcal{N}(0, I)$ 到以 $x_1$ 为中心、方差极小的分布 $p_1(x|x_1)$ （例如 $\mathcal{N}(x|x_1, \sigma_{\min}^2 I)$ ）的路径。
- 这些条件路径的边际化 (marginalization)（即对 $x_1$ 求期望）构成了所需的边际概率路径： $p_t(x) = \int p_t(x|x_1) q(x_1) dx_1$ 在 $t=1$ 时， $p_1(x) \approx q(x_1)$ 。
构造目标向量场 $u_t(x)$ ：
- 与概率路径类似，边际向量场 $u_t(x)$ 也可以通过对条件向量场 $u_t(x|x_1)$ 进行加权平均得到： $u_t(x) = \int u_t(x|x_1) \frac{p_t(x|x_1) q(x_1)}{p_t(x)} dx_1$
- 定理1 证明了由条件向量场这样聚合得到的边际向量场，确实能够生成对应的边际概率路径。
  - 定理1 (Theorem 1): 给定生成条件概率路径 $p_t(x|x_1)$ 的向量场 $u_t(x|x_1)$ ，对于任何分布 $q(x_1)$ ，方程 (8) 中的边际向量场 $u_t$ 生成方程 (6) 中的边际概率路径 $p_t$ ，即 $u_t$ 和 $p_t$ 满足连续性方程 (方程 26)。
  - 意义： 这个定理是 FM 框架能够工作的基石，它将难以处理的边际向量场问题分解为可处理的条件向量场问题。
定义流匹配 (FM) 目标函数：
- FM 的目标是训练一个神经网络参数化的向量场 $v_t(x;\theta)$ 来匹配目标向量场 $u_t(x)$ ： $\mathcal{L}_{\mathtt{FM}}(\theta) = \mathbb{E}_{t, p_t(x)} \|v_t(x) - u_t(x)\|^2$ 其中 $t \sim \mathcal{U}[0, 1]$ （均匀分布）， $x \sim p_t(x)$ 。
- 问题： 由于 $p_t(x)$ 和 $u_t(x)$ 都涉及难以计算的积分，所以原始 FM 目标函数是不可行的。
引入条件流匹配 (CFM) 目标函数：
- CFM 目标函数替换了原始 FM 目标中的采样分布，使其依赖于条件路径： $\mathcal{L}_{\mathtt{CFM}}(\theta) = \mathbb{E}_{t, q(x_1), p_t(x|x_1)} \|v_t(x) - u_t(x|x_1)\|^2$ 其中 $t \sim \mathcal{U}[0, 1]$ ， $x_1 \sim q(x_1)$ ， $x \sim p_t(x|x_1)$ 。
- 优点： 只要能够从 $p_t(x|x_1)$ 中高效采样并计算 $u_t(x|x_1)$ ，就可以轻松地对 CFM 目标进行无偏估计。
- 定理2 证明了 FM 和 CFM 目标函数在期望意义上具有相同的梯度：
  - 定理2 (Theorem 2): 假设对于所有的 $x \in \mathbb{R}^d$ 和 $t \in [0, 1]$ ， $p_t(x) > 0$ ，那么在不考虑与 $\theta$ 无关的常数项的情况下， $\mathcal{L}_{\mathtt{CFM}}$ 和 $\mathcal{L}_{\mathtt{FM}}$ 是相等的。因此， $\nabla_\theta \mathcal{L}_{\mathtt{FM}}(\theta) = \nabla_\theta \mathcal{L}_{\mathtt{CFM}}(\theta)$ 。
  - 意义： 这是一个关键的理论结果，它使得通过优化可计算的 CFM 目标来训练生成边际概率路径的 CNF 成为可能，而无需直接访问边际路径或向量场。
设计条件概率路径和向量场：
- CFM 目标需要灵活选择条件概率路径 $p_t(x|x_1)$ 及其对应的向量场 $u_t(x|x_1)$ 。
- 本文聚焦于高斯条件概率路径： $p_t(x|x_1) = \mathcal{N}(x | \mu_t(x_1), \sigma_t(x_1)^2 I)$ 其中 $\mu_t(x_1)$ $μ_{t} (x_{1})$ 是时间依赖的均值， $\sigma_t(x_1)$ $σ_{t} (x_{1})$ 是时间依赖的标准差。
  - 边界条件：在 $t=0$ 时， $\mu_0(x_1)=0$ , $\sigma_0(x_1)=1$ ，使得 $p_0(x|x_1) = \mathcal{N}(x|0, I)$ (标准噪声)。在 $t=1$ 时， $\mu_1(x_1)=x_1$ , $\sigma_1(x_1)=\sigma_{\min}$ （一个很小的常数），使得 $p_1(x|x_1)$ 集中在 $x_1$ 附近。
- 定理3 给出了这种高斯路径对应的唯一向量场：
  - 定理3 (Theorem 3): 设 $p_t(x|x_1)$ 是方程 (10) 中的高斯概率路径， $\psi_t$ 是方程 (11) 中其对应的流映射。那么，定义 $\psi_t$ 的唯一向量场具有以下形式： $u_t(x|x_1) = \frac{\sigma_t'(x_1)}{\sigma_t(x_1)} (x - \mu_t(x_1)) + \mu_t'(x_1)$ 其中 $\sigma_t'(x_1) = \frac{d}{dt}\sigma_t(x_1)$ ， $\mu_t'(x_1) = \frac{d}{dt}\mu_t(x_1)$ 。
  - 意义： 提供了在给定 $\mu_t(x_1)$ 和 $\sigma_t(x_1)$ 表达式时，计算目标向量场 $u_t(x|x_1)$ 的封闭形式。
- 重参数化后的 CFM 损失： 将 $x \sim p_t(x|x_1)$ 替换为 $x = \sigma_t(x_1) x_0 + \mu_t(x_1)$ ，其中 $x_0 \sim \mathcal{N}(0, I)$ ，CFM 损失变为： $\mathcal{L}_{\mathrm{cFM}}(\theta) = \mathbb{E}_{t, q(x_1), p(x_0)} \Big\| v_t \big( \sigma_t(x_1) x_0 + \mu_t(x_1) \big) - \frac{d}{dt} (\sigma_t(x_1) x_0 + \mu_t(x_1)) \Big\|^2$ 即 $\mathcal{L}_{\mathrm{cFM}}(\theta) = \mathbb{E}_{t, q(x_1), p(x_0)} \Big\| v_t \big( \sigma_t(x_1) x_0 + \mu_t(x_1) \big) - (\sigma_t'(x_1) x_0 + \mu_t'(x_1)) \Big\|^2$ 其中，被回归的目标是 $\sigma_t'(x_1) x_0 + \mu_t'(x_1)$ 。
选择具体的 $\mu_t(x_1)$ 和 $\sigma_t(x_1)$ 函数：
- 实例I：扩散条件向量场 (Diffusion conditional VFs)：
  - Variance Exploding (VE) 路径：
    - $\mu_t(x_1) = x_1$ , $\sigma_t(x_1) = \sigma_{1-t}$ (其中 $\sigma_t$ 是增函数)。
    - 对应的向量场： $u_t(x|x_1) = - \frac{\sigma_{1-t}'}{\sigma_{1-t}} (x - x_1)$
  - Variance Preserving (VP) 路径：
    - $\mu_t(x_1) = \alpha_{1-t} x_1$ , $\sigma_t(x_1) = \sqrt{1 - \alpha_{1-t}^2}$ (其中 $\alpha_t = e^{-\frac{1}{2}T(t)}$ , $T(t) = \int_0^t \beta(s)ds$ )。
    - 对应的向量场： $u_t(x|x_1) = \frac{\alpha_{1-t}'}{1 - \alpha_{1-t}^2} (\alpha_{1-t} x - x_1) = - \frac{T'(1-t)}{2} \left[ \frac{e^{-T(1-t)} x - e^{-\frac{1}{2}T(1-t)} x_1}{1 - e^{-T(1-t)}} \right]$
  - 意义： 这些与传统的扩散模型概率流 ODE 中的向量场一致，表明 FM 可以作为训练扩散模型的一种更稳定鲁棒的替代方案。
- 实例II：最优传输 (OT) 条件向量场 (Optimal Transport conditional VFs)：
  - 核心思想： 均值和标准差随时间线性变化。 $\mu_t(x_1) = t x_1 \\ \sigma_t(x_1) = 1 - (1 - \sigma_{\min}) t$
  - 对应的向量场： $u_t(x|x_1) = \frac{x_1 - (1 - \sigma_{\min}) x}{1 - (1 - \sigma_{\min}) t}$
  - 特点： 这个向量场在 $t \in [0, 1]$ 之间有定义，并且具有恒定的方向（可以写成 $g(t)h(x|x_1)$ 的形式），这意味着粒子沿直线轨迹运动，这被认为是更简单的回归任务 (参见 Figure 2)。
  - 与 OT 的联系： 这种线性变化的流 $\psi_t(x) = (1 - (1 - \sigma_{\min}) t) x + t x_1$ 实际上是两个高斯分布 $p_0(x|x_1)$ 和 $p_1(x|x_1)$ 之间的最优传输 (Optimal Transport, OT)位移映射。
  - CFM 损失 (OT 版本)： $\mathcal{L}_{\mathrm{cFM}}(\theta) = \mathbb{E}_{t, q(x_1), p(x_0)} \Big\| v_t \big( (1 - (1 - \sigma_{\min}) t) x_0 + t x_1 \big) - \Big( x_1 - (1 - \sigma_{\min}) x_0 \Big) \Big\|^2$
  - 意义： OT 路径因其简单性（直线轨迹，无“过冲”现象，参见 Figure 3）有望带来更快的训练、更快的采样和更好的性能。
模型训练与采样：
- 训练： 使用神经网络（例如 U-Net）参数化向量场 $v_t(x;\theta)$ ，并通过优化 CFM 损失函数进行训练。
- 采样： 从 $x_0 \sim \mathcal{N}(0, I)$ 开始，通过训练好的 $v_t$ 求解 ODE $\frac{d}{dt} \phi_t(x) = v_t(\phi_t(x))$ ，从 $t=0$ 积分到 $t=1$ ，得到 $\phi_1(x_0)$ 作为生成的样本。这可以使用现成的数值 ODE 求解器（如 dopri5）完成。

数学公式与关键细节 (Mathematical Formulas & Key Details)

1. 连续归一化流 (Continuous Normalizing Flow, CNF) 的定义

ODE 定义流 $\phi_t(x)$ ： $\frac{d}{dt} \phi_t(x) = v_t(\phi_t(x)) \\ \phi_0(x) = x$
- 符号解释：
  - $\phi_t(x)$ : 时间 $t$ 时的流映射，将初始点 $x$ 映射到 $\phi_t(x)$ 。
  - $v_t(\cdot)$ : 时间 $t$ 时的向量场 (vector field)，由神经网络参数化 $v_t(x; \theta)$ 。
  - $t$ : 时间变量，通常在 [0, 1] 区间内。
  - $x$ : 初始数据点或噪声点。
推前算子 (Push-forward Operator) 定义概率密度路径 $p_t$ ： $p_t = [\phi_t]_* p_0 \\ [\phi_t]_* p_0 (x) = p_0(\phi_t^{-1}(x)) \operatorname{det}\left[\frac{\partial \phi_t^{-1}}{\partial x}(x)\right]$
- 符号解释：
  - $p_t$ : 时间 $t$ 时的概率密度函数。
  - $p_0$ : 初始（先验）概率密度函数。
  - $\phi_t^{-1}(x)$ : 流映射 $\phi_t$ 的逆映射。
  - $\operatorname{det}[\cdot]$ : 雅可比矩阵的行列式，用于处理变量变换时的密度缩放。

2. 流匹配 (Flow Matching, FM) 目标函数

原始 FM 目标： $\mathcal{L}_{\mathtt{FM}}(\theta) = \mathbb{E}_{t, p_t(x)} \|v_t(x) - u_t(x)\|^2$
- 符号解释：
  - $\theta$ : 神经网络 $v_t$ 的可学习参数。
  - $\mathbb{E}_{t, p_t(x)}[\cdot]$ : 对时间 $t$ （均匀采样自 [0, 1]）和 $x$ （采样自 $p_t(x)$ ）的期望。
  - $v_t(x)$ : 学习到的向量场。
  - $u_t(x)$ : 目标向量场。
  - $\|\cdot\|^2$ : 欧几里得范数的平方。

3. 条件概率路径与向量场 (Conditional Probability Paths & Vector Fields)

边际概率路径 $p_t(x)$ ： $p_t(x) = \int p_t(x|x_1) q(x_1) dx_1$
- 符号解释：
  - $p_t(x|x_1)$ : 给定数据样本 $x_1$ 时的条件概率路径 (conditional probability path)。
  - $q(x_1)$ : 真实数据分布。
边际向量场 $u_t(x)$ ： $u_t(x) = \int u_t(x|x_1) \frac{p_t(x|x_1) q(x_1)}{p_t(x)} dx_1$
- 符号解释：
  - $u_t(x|x_1)$ : 给定数据样本 $x_1$ 时，生成 $p_t(x|x_1)$ 的条件向量场 (conditional vector field)。

4. 条件流匹配 (Conditional Flow Matching, CFM) 目标函数

CFM 目标： $\mathcal{L}_{\mathtt{CFM}}(\theta) = \mathbb{E}_{t, q(x_1), p_t(x|x_1)} \|v_t(x) - u_t(x|x_1)\|^2$
- 符号解释：
  - $\mathbb{E}_{t, q(x_1), p_t(x|x_1)}[\cdot]$ : 对时间 $t$ （均匀采样自 [0, 1]）、数据样本 $x_1$ （采样自 $q(x_1)$ ）和 $x$ （采样自 $p_t(x|x_1)$ ）的期望。

5. 高斯条件概率路径与向量场 (Gaussian Conditional Probability Paths & Vector Fields)

高斯条件概率路径： $p_t(x|x_1) = \mathcal{N}(x | \mu_t(x_1), \sigma_t(x_1)^2 I)$
- 符号解释：
  - $\mathcal{N}(\cdot|\mu, \Sigma)$ : 均值为 $\mu$ 、协方差矩阵为 $\Sigma$ 的高斯分布。
  - $\mu_t(x_1)$ : 时间 $t$ 时，条件均值（依赖于 $x_1$ ）。
  - $\sigma_t(x_1)$ : 时间 $t$ 时，条件标准差（依赖于 $x_1$ ）。
  - $I$ : 单位矩阵。
高斯路径对应的向量场： $u_t(x|x_1) = \frac{\sigma_t'(x_1)}{\sigma_t(x_1)} (x - \mu_t(x_1)) + \mu_t'(x_1)$
- 符号解释：
  - $\sigma_t'(x_1) = \frac{d}{dt}\sigma_t(x_1)$ : $\sigma_t(x_1)$ 对时间 $t$ 的导数。
  - $\mu_t'(x_1) = \frac{d}{dt}\mu_t(x_1)$ : $\mu_t(x_1)$ 对时间 $t$ 的导数。
重参数化后的 CFM 损失： $\mathcal{L}_{\mathrm{cFM}}(\theta) = \mathbb{E}_{t, q(x_1), p(x_0)} \Big\| v_t \big( \psi_t(x_0) \big) - \frac{d}{dt} \psi_t(x_0) \Big\|^2$ 其中 $\psi_t(x_0) = \sigma_t(x_1) x_0 + \mu_t(x_1)$ $ψ_{t} (x_{0}) = σ_{t} (x_{1}) x_{0} + μ_{t} (x_{1})$ 。
- 符号解释：
  - $p(x_0)$ : 标准高斯分布 $\mathcal{N}(0, I)$ 。
  - $x_0$ : 采样自标准高斯分布的噪声点。

6. 最优传输 (OT) 条件向量场 (Optimal Transport conditional VFs)

线性变化的 $\mu_t(x_1)$ 和 $\sigma_t(x_1)$ ： $\mu_t(x_1) = t x_1 \\ \sigma_t(x_1) = 1 - (1 - \sigma_{\min}) t$
- 符号解释：
  - $\sigma_{\min}$ : 最终分布的标准差，一个小的正数。
OT 路径对应的向量场： $u_t(x|x_1) = \frac{x_1 - (1 - \sigma_{\min}) x}{1 - (1 - \sigma_{\min}) t}$
OT 路径下的 CFM 损失： $\mathcal{L}_{\mathrm{cFM}}(\theta) = \mathbb{E}_{t, q(x_1), p(x_0)} \Big\| v_t \big( (1 - (1 - \sigma_{\min}) t) x_0 + t x_1 \big) - \Big( x_1 - (1 - \sigma_{\min}) x_0 \Big) \Big\|^2$
- 符号解释：
  - $p(x_0)$ : 标准高斯分布 $\mathcal{N}(0, I)$ 。

7. 对数概率计算 (Log-Likelihood Computation) (附录C)

CNF 的对数概率： $\log p_1(x_1) = \log p_0(x_0) - \int_0^1 \operatorname{div}(v_t(\phi_t(x_0))) dt$
- 符号解释：
  - $p_1(x_1)$ : 模型在数据点 $x_1$ 处的概率密度。
  - $p_0(x_0)$ : 先验分布在对应噪声点 $x_0$ 处的概率密度，其中 $x_0 = \phi_1^{-1}(x_1)$ 。
  - $\operatorname{div}(v_t(\cdot))$ : 向量场 $v_t$ 的散度。
通过 ODE 求解： 计算 $\log p_1(x_1)$ $lo g p_{1} (x_{1})$ 需要解决一个扩展的 ODE，其状态同时包含流轨迹和散度积分。 $\frac{d}{ds} \begin{bmatrix} \phi_{1-s}(x) \\ \tilde{f}(1-s) \end{bmatrix} = \begin{bmatrix} -v_{1-s}(\phi_{1-s}(x)) \\ z^T D v_{1-s}(\phi_{1-s}(x)) z \end{bmatrix}$ 其中 $s \in [0, 1]$ $s \in [0, 1]$ ，初始条件为 $x_1$ $x_{1}$ 和 0，求解到 $s=1$ $s = 1$ 得到 $x_0$ $x_{0}$ 和 $\tilde{f}(0)$ $\tilde{f} (0)$ 。
- 符号解释：
  - $s$ : 逆向时间变量。
  - $\tilde{f}(1-s)$ : 散度积分的估计值。
  - $z$ : 随机向量，通常取自 Rademacher 分布或标准正态分布，用于Hutchinson 迹估计器 (Hutchinson trace estimator)，以无偏估计散度。
  - $D v_{1-s}(\phi_{1-s}(x))$ : 向量场 $v$ 在 $\phi_{1-s}(x)$ 处关于空间变量的雅可比矩阵。
无偏估计器： $\log p_0(x_0) - \tilde{f}(0)$ 是 $\log p_1(x_1)$ 的无偏估计。
数据变换与 BPD： 如果数据经过变换 $\varphi^{-1}$ $φ^{- 1}$ （例如归一化到 $[-1, 1]$ $[- 1, 1]$ ），则最终的对数概率和每维度比特数 (Bits-Per-Dimension, BPD)需要进行调整。 $\log p_1(x) = \log \phi_* p_0 (\varphi^{-1}(x)) + \log \operatorname{det}[D \varphi^{-1}(x)]$ 对于图像像素从 [0, 255] 到 $[-1, 1]$ $[- 1, 1]$ 的常见变换，BPD 的计算为： $\mathrm{BPD} = - \frac{\log \phi_* p_0 (\varphi^{-1}(x))}{d \log 2} + 7$
- 符号解释：
  - $d$ : 数据维度。
  - $\log 2$ : 转换为以2为底的对数。
  - $+7$ : 由于从 256 个离散值到连续值域的均匀去量化 (dequantization)，增加了每个像素 7 比特的信息量。

实验设置 (Experimental Setup)

本文在多个图像数据集上验证了 Flow Matching 方法的有效性，并与多种基于扩散的基线模型进行了比较。

数据集 (Datasets)

CIFAR-10 (Krizhevsky et al., 2009):
- 来源与规模: 一个包含 10 个类别共 60,000 张 $32 \times 32$ 彩色图像的数据集，其中 50,000 张用于训练，10,000 张用于测试。
- 特点: 小型图像数据集，常用于验证新方法的有效性和计算效率。
- 图像样本示例: 包含飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车等日常物体。
ImageNet (Deng et al., 2009):
- 来源与规模: 一个大规模图像数据集，包含数百万张图像和上千个类别。本文使用了其下采样版本：
  - ImageNet 32x32: $32 \times 32$ 像素分辨率。
  - ImageNet 64x64: $64 \times 64$ 像素分辨率。
  - ImageNet 128x128: $128 \times 128$ 像素分辨率。
- 特点: 大型且多样化的图像数据集，是评估生成模型性能的黄金标准。
- 图像样本示例: 包含动物、植物、工具、交通、风景等多种复杂的真实世界图像 (参见 Figure 1, Figure 11, Figure 12, Figure 13 中由模型生成的 ImageNet 样本，它们反映了数据集本身的复杂性)。

数据预处理 (Data Preprocessing):
- 图像进行中心裁剪 (center crop) 并调整到相应分辨率。
- 对于 $32 \times 32$ 和 $64 \times 64$ 分辨率的 ImageNet，使用 Chrabaszcz et al. (2017) 相同的预处理方法。
- 通常，像素值会从 [0, 255] 归一化到 $[-1, 1]$ 。

评估指标 (Evaluation Metrics)

本文使用了多种指标来评估生成模型的性能，包括似然性 (likelihood)、样本质量 (sample quality)和计算效率 (computational efficiency)。

负对数似然 (Negative Log-Likelihood, NLL) / 每维度比特数 (Bits-Per-Dimension, BPD):
- 概念定义 (Conceptual Definition): NLL 直接衡量模型对真实数据分布的拟合程度。BPD 是 NLL 的归一化形式，表示平均每个数据维度所需的比特数来编码数据。BPD 值越低，表示模型对数据分布的建模越好，生成的数据在信息论意义上越接近真实数据。
- 数学公式 (Mathematical Formula): NLL: $\mathrm{NLL} = -\mathbb{E}_{x \sim q(x)} [\log p_1(x)]$ BPD: 对于 $d$ 维数据， $\mathrm{BPD} = \mathbb{E}_{x_1} \left[ - \frac{\log_2 p_1(x_1)}{d} \right] = \mathbb{E}_{x_1} \left[ - \frac{\log p_1(x_1)}{d \log 2} \right]$ 若数据从 [0, 255] 范围归一化处理，并使用均匀去量化，则为： $\mathrm{BPD} = - \frac{\log \phi_* p_0 (\varphi^{-1}(x))}{d \log 2} + 7$
- 符号解释 (Symbol Explanation):
  - q(x): 真实数据分布。
  - $p_1(x)$ : 模型在数据点 $x$ 处的预测概率密度。
  - $\mathbb{E}[\cdot]$ : 期望。
  - $\log$ : 自然对数。
  - $\log_2$ : 以 2 为底的对数。
  - $d$ : 数据点的维度（例如，对于 $32 \times 32$ RGB 图像， $d=32 \times 32 \times 3 = 3072$ ）。
  - $\phi_* p_0 (\varphi^{-1}(x))$ : 变换后的数据在隐空间中的对数概率。
  - $\varphi^{-1}(x)$ : 对 $x$ 进行的逆变换（例如，从 [0, 255] 到 $[-1, 1]$ ）。
  - $+7$ : 去量化引入的修正项，表示每个像素 8 比特数据（256级）在连续空间中获得 7 比特信息。
菲德距离 (Frechet Inception Distance, FID) (Heusel et al., 2017):
- 概念定义 (Conceptual Definition): FID 是一个衡量生成图像质量的流行指标，它通过比较真实图像和生成图像在预训练Inception-v3网络高层特征空间中的分布来量化它们的相似性。FID 值越低，表示生成图像的质量和多样性越接近真实图像。
- 数学公式 (Mathematical Formula): FID 距离被定义为： $\mathrm{FID} = \|\mu_r - \mu_g\|^2 + \mathrm{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2})$
- 符号解释 (Symbol Explanation):
  - $\mu_r$ : 真实图像特征的均值向量。
  - $\mu_g$ : 生成图像特征的均值向量。
  - $\Sigma_r$ : 真实图像特征的协方差矩阵。
  - $\Sigma_g$ : 生成图像特征的协方差矩阵。
  - $\|\cdot\|^2$ : 欧几里得范数的平方。
  - $\mathrm{Tr}(\cdot)$ : 矩阵的迹。
函数评估次数 (Number of Function Evaluations, NFE):
- 概念定义 (Conceptual Definition): 在 CNF 和扩散模型中，生成样本需要通过数值 ODE 求解器从初始噪声积分到最终数据。NFE 衡量了 ODE 求解器在这一过程中调用神经网络（即向量场函数 $v_t$ ）的次数。NFE 越低，表示采样过程的计算成本越低，效率越高。
- 数学公式 (Mathematical Formula): 无需数学公式，直接计数。
- 符号解释 (Symbol Explanation): 无。
Inception Score (IS):
- 概念定义 (Conceptual Definition): IS 是一个用于评估生成对抗网络（GANs）生成图像质量的指标，但也可用于其他生成模型。它同时衡量了生成图像的清晰度 (clarity)（通过分类器对图像的置信度）和多样性 (diversity)（通过分类器预测类别分布的熵）。IS 值越高，表示生成图像的质量越好，多样性越丰富。
- 数学公式 (Mathematical Formula): $\mathrm{IS} = e^{\mathbb{E}_x \left[ \mathrm{KL}(p(y|x) || p(y)) \right]}$
- 符号解释 (Symbol Explanation):
  - $x$ : 生成的图像。
  - $p(y|x)$ : 预训练分类器在给定图像 $x$ 时预测类别 $y$ 的条件概率分布。
  - p(y): 边缘类别分布，通过对所有生成图像的 $p(y|x)$ 求平均得到。
  - $\mathrm{KL}(\cdot || \cdot)$ : Kullback-Leibler (KL) 散度 (divergence)。
  - $\mathbb{E}_x[\cdot]$ : 对生成的图像 $x$ 的期望。
峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR):
- 概念定义 (Conceptual Definition): PSNR 是一种衡量图像质量的指标，通常用于评估图像重建或压缩的质量。它通过比较原始图像和处理后图像之间的均方误差 (Mean Squared Error, MSE)来计算。PSNR 值越高，表示重建图像与原始图像越接近，失真越小。
- 数学公式 (Mathematical Formula): $\mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right) = 20 \cdot \log_{10}(\mathrm{MAX}_I) - 10 \cdot \log_{10}(\mathrm{MSE})$ 其中， $\mathrm{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2$ 。
- 符号解释 (Symbol Explanation):
  - $\mathrm{MAX}_I$ : 图像中像素可能的最大值（例如，对于 8 位图像， $\mathrm{MAX}_I = 255$ ）。
  - $\mathrm{MSE}$ : 原始图像 $I$ 和重建图像 $K$ 之间的均方误差。
  - m, n: 图像的行数和列数。
  - I(i,j), K(i,j): 原始图像和重建图像在坐标 (i,j) 处的像素值。
结构相似性指数 (Structural Similarity Index Measure, SSIM):
- 概念定义 (Conceptual Definition): SSIM 是一种感知指标，用于评估两张图像之间的相似度，它更符合人眼对图像质量的感知。SSIM 考虑了图像的亮度、对比度和结构信息。SSIM 值接近 1 表示两张图像非常相似。
- 数学公式 (Mathematical Formula): $\mathrm{SSIM}(x, y) = [l(x, y)]^{\alpha} \cdot [c(x, y)]^{\beta} \cdot [s(x, y)]^{\gamma}$ 其中， $l(x, y) = \frac{2\mu_x \mu_y + C_1}{\mu_x^2 + \mu_y^2 + C_1}$ (亮度)， $c(x, y) = \frac{2\sigma_x \sigma_y + C_2}{\sigma_x^2 + \sigma_y^2 + C_2}$ (对比度)， $s(x, y) = \frac{\sigma_{xy} + C_3}{\sigma_x \sigma_y + C_3}$ (结构)。通常 $\alpha = \beta = \gamma = 1$ ，且 $C_3 = C_2/2$ 。
- 符号解释 (Symbol Explanation):
  - x, y: 两个图像块。
  - $\mu_x, \mu_y$ : 图像块 x, y 的均值。
  - $\sigma_x, \sigma_y$ : 图像块 x, y 的标准差。
  - $\sigma_{xy}$ : 图像块 x, y 的协方差。
  - $C_1, C_2, C_3$ : 为避免分母为零而设置的常数。

对比基线 (Baselines)

本文将 Flow Matching 方法与几种主流的基于扩散的生成模型训练方法进行了比较：

DDPM (Denoising Diffusion Probabilistic Models) (Ho et al., 2020):
- 特点: 经典的扩散模型，通过学习预测添加到数据的噪声来进行训练，使用 Noise Matching 损失。
- 相关损失 (Noise Matching loss): $\mathcal{L}_{\mathrm{\tiny{NM}}}(\theta) = \mathbb{E}_{t, q(x_1), p(x_0)} \Big\| \epsilon_t \big( \sigma_t(x_1) x_0 + \mu_t(x_1) \big) - x_0 \Big\|^2$ 其中 $\epsilon_t$ 是可学习的噪声函数，目标是预测添加到 $x_1$ 上的噪声 $x_0$ 。
Score Matching (SM) (Song et al., 2020b):
- 特点: 一种广义的得分匹配方法，用于训练扩散模型，通过匹配真实数据分布的得分函数来学习生成过程。
- 相关损失 (Score Matching loss): $\mathcal{L}_{\mathrm{sm}}(\theta) = \mathbb{E}_{t, q(x_1), p_t(x|x_1)} \lambda(t) \left\| s_t(x) - \nabla \log p_t(x|x_1) \right\|^2$ 其中 $s_t(x)$ 是可学习的得分函数， $\nabla \log p_t(x|x_1)$ 是目标得分函数。 $\lambda(t)$ 是时间依赖的权重函数，对于标准 SM， $\lambda(t) = \sigma_t^2(x_1)$ 。
ScoreFlow (SF) (Song et al., 2021):
- 特点: 也是基于得分匹配的扩散模型，但使用了不同的损失加权策略（例如 $\lambda(t) = \beta(1-t)$ ）来优化负对数似然 (Negative Log-Likelihood, NLL)的上界。
- 相关损失: 与 SM 损失形式类似，但权重函数 $\lambda(t)$ 的选择不同，旨在提升似然评估性能。

为什么要选择这些基线？ 这些基线代表了当前扩散模型训练中最流行和最具竞争力的几种方法，它们的比较能够全面评估 Flow Matching 在不同训练目标和概率路径下的性能。

架构与超参数 (Architecture & Hyperparameters)

神经网络架构 (Neural Network Architecture):
- 2D 示例: 使用了一个包含 5 层、每层 512 个神经元的多层感知机 (Multilayer Perceptron, MLP)。
- 图像任务: 采用了 Dhariwal & Nichol (2021) 提出的 U-Net 架构，并进行了最小改动。U-Net 因其在图像去噪和生成任务中的卓越性能而广受欢迎。
训练细节:
- 精度: CIFAR-10 和 ImageNet-32 使用 32 位浮点精度训练；ImageNet-64/128/256 使用 16 位混合精度训练。
- 优化器 (Optimizer): 采用 Adam 优化器，参数设置为： $\beta_1 = 0.9$ , $\beta_2 = 0.999$ , weight decay $= 0.0$ , $\epsilon = 1e-8$ 。
- 学习率调度器 (Learning Rate Scheduler): 使用多项式衰减 (Polynomial Decay)或常数学习率 (Constant Learning Rate)（详见 Table 3）。多项式衰减包括一个预热阶段 (warm-up phase)，学习率从 1e-8 线性增加到峰值，然后线性衰减到 1e-8。

扩散路径具体设置 (Diffusion Path Specifics):

对于扩散基线，使用标准的 VP 扩散路径（方程 19），其中 $\mu_t(x_1) = \alpha_{1-t} x_1$ 和 $\sigma_t(x_1) = \sqrt{1 - \alpha_{1-t}^2}$ 。
$\alpha_t = e^{-\frac{1}{2}T(t)}$ ，其中 $T(t) = \int_0^t \beta(s) ds$ 。
$\beta(s) = \beta_{\min} + s(\beta_{\max} - \beta_{\min})$ ，参数设置为 $\beta_{\min} = 0.1$ , $\beta_{\max} = 20$ 。

时间 $t$ 采样范围为 $[0, 1 - \epsilon]$ ，其中 $\epsilon = 10^{-5}$ ，用于训练、似然评估和采样。

Table 3 列出了用于训练各模型的具体超参数：

	CIFAR10	ImageNet-32	ImageNet-64	ImageNet-128
Channels	256	256	192	256
Depth	2	3	3	3
Channels multiple	1,2,2,2	1,2,2,2	1,2,3,4	1,1,2,3,4
Heads	4	4	4	4
Heads Channels	64	64	64	64
Attention resolution	16	16,8	32,16,8	32,16,8
Dropout	0.0	0.0	0.0	0.0
Effective Batch size	256	1024	2048	1536
GPUs	2	4	16	32
Epochs	1000	200	250	571
Iterations	391k	250k	157k	500k
Learning Rate	5e-4	1e-4	1e-4	1e-4
Learning Rate Scheduler	Polynomial Decay	Polynomial Decay	Constant	Polynomial Decay
Warmup Steps	45k	20k	-	20k

评估细节 (Evaluation Details)

对数似然评估 (Log-Likelihood Evaluation):
- 使用标准均匀去量化 (uniform dequantization)。
- 采用重要性加权估计 (importance-weighted estimate)来计算对数似然： $\log \frac{1}{K} \sum_{k=1}^K p_t(x+u_k), \mathrm{~where~} u_k \sim \mathcal{U}(0, 1)$ 其中 $x \in \{0, ..., 255\}$ ，并在 $t=1$ 时使用自适应步长求解器 dopri5（ $atol = rtol = 1e-5$ ）进行求解。
FID/Inception Score 计算:
- CIFAR-10, ImageNet-32/64 使用 TensorFlow GAN library。
- ImageNet-128 参考 Dhariwal & Nichol (2021) 的评估脚本。
采样 (Sampling):
- 从随机噪声 $x_0 \sim \mathcal{N}(0, I)$ 开始。
- 通过求解 ODE $\frac{d}{dt} \phi_t(x) = v_t(\phi_t(x))$ ，从 $t=0$ 到 $t=1$ ，使用训练好的向量场 $v_t$ 来生成样本 $\phi_1(x_0)$ 。
- 使用 dopri5 求解器，容忍度为 1e-5。

实验结果与分析 (Results & Analysis)

本文通过在 CIFAR-10 和 ImageNet 数据集上的实验，全面评估了 Flow Matching 框架的性能，并与多种基于扩散的基线方法进行了比较。

核心结果分析 (Core Results Analysis)

1. 密度建模与样本质量 (Density Modeling and Sample Quality)

以下是 Table 1 的转录数据，展示了使用相同模型架构在 CIFAR-10 和 ImageNet 32x32/64x64/128x128 上，不同方法（包括基线 DDPM、Score Matching、ScoreFlow 和本文的 FM w/ Diffusion、 $FM w/ OT$ ）在负对数似然 (NLL)、菲德距离 (FID) 和函数评估次数 (NFE) 方面的性能对比。

Model	CIFAR-10 (NLL↓)	CIFAR-10 (FID↓)	CIFAR-10 (NFE↓)	ImageNet 32x32 (NLL↓)	ImageNet 32x32 (FID↓)	ImageNet 32x32 (NFE↓)	ImageNet 64x64 (NLL↓)	ImageNet 64x64 (FID↓)	ImageNet 64x64 (NFE↓)	ImageNet 128x128 (NLL↓)	ImageNet 128x128 (FID↓)
DDPM	3.12	7.48	274	3.54	6.99	262	3.32	17.36	264
Score Matching	3.16	19.94	242	3.56	5.68	178	3.40	19.74	441
ScoreFlow	3.09	20.78	428	3.55	14.14	195	3.36	24.95	601
FM w/ Diffusion	3.10	8.06	183	3.54	6.37	193	3.33	16.88	187
FM w/ OT	2.99	6.35	142	3.53	5.02	122	3.31	14.45	138	2.90	20.9
MGAN (Hoang et al., 2018)											58.9
PacGAN2 (in e al, 2018)											57.5
Logo-GAN-AE (Sage et l, 2018)											50.9
Self-cond. GAN (Luié et l., 2019)											41.7
Uncond. BigGAN (Luié e al, 2019)											25.3
PGMGAN (Armandpour et al, 2021)											21.7

FM-OT 的卓越表现： 从 Table 1 可以看出， $FM w/ OT$ (Flow Matching with Optimal Transport paths) 在所有数据集（CIFAR-10, ImageNet 32x32, ImageNet 64x64）和所有衡量指标（NLL, FID, NFE）上均取得了最佳结果。这表明 OT 路径不仅提高了样本质量和密度建模能力，还显著降低了采样成本。
FM 相较于得分匹配的优势：
- 在 CIFAR-10 上，FM w/ Diffusion 的 FID (8.06) 远低于 Score Matching (19.94) 和 ScoreFlow (20.78)，且 NFE (183) 也更低。
- 在 ImageNet 32x32 和 64x64 上，FM w/ Diffusion 在 FID 和 NFE 上也通常优于或与 DDPM 相近，且优于其他得分匹配方法。
- 这验证了论文的论点，即 FM 为训练扩散模型提供了一种更鲁棒和稳定的替代方案。
ImageNet-128 上的竞争性： 在 ImageNet 128x128 上， $FM w/ OT$ 达到了 20.9 的 FID，与现有最先进的无条件 GAN 模型（如 PGMGAN 的 21.7）相比，表现出极强的竞争力，甚至超越了大部分 GAN 方法。尽管 IC-GAN 达到了更低的 FID，但其使用了条件机制，故未直接列入无条件模型的比较。
样本质量示例： Figure 1, Figure 11, Figure 12, Figure 13 展示了 FMOT 在 ImageNet 不同分辨率下生成的非精选样本，直观地证明了其高生成质量和多样性。

2. 更快的训练 (Faster Training)

收敛速度： Figure 5 (下图) 展示了 ImageNet 64x64 上，不同方法在训练过程中 FID 曲线随 Epoch 的变化。

$Figure 5: Image quality during training, ImageNet $6 4 \\times 6 4$ .$
该图像是图表，展示了不同方法在ImageNet $64 \times 64$ 数据集上训练过程中FID随训练轮数(Epoch)变化的趋势。各曲线分别对应FM OT、FM Dif、SM Dif、DDPM和ScoreFlow方法，反映了各方法的图像质量提升情况。

FM-OT 能够比其他方法更快地降低 FID，并达到更低的 FID 值，表明其具有更快的收敛速度和更好的最终性能。
训练迭代次数对比： 尽管 FM 模型比 Dhariwal & Nichol (2021) 的模型（4.36M 迭代，batch size 256）大了 25%，但 FM 模型仅使用 500k 迭代（batch size 1.5k），意味着更少的图像吞吐量（减少 33%），这表明 FM 在训练效率上具有显著优势。

3. 采样效率 (Sampling Efficiency)

采样路径可视化： Figure 6 (下图) 对比了扩散路径和 OT 路径的采样轨迹。

$Figure 6: Sample paths from the same initial noise with models trained on ImageNet $6 4 \\times 6 4$ .The OT path reduces noise roughly linearly, while diffusion paths visibly remove noise only toward…$
该图像是论文中的插图，展示了在ImageNet 64×64分辨率上使用不同训练方法生成的样本路径。图中展示了基于扩散路径的Score Matching和Flow Matching方法，以及基于OT路径的Flow Matching方法，突显了OT路径噪声线性减少的特性及其生成样本的差异。

OT 路径模型更早地开始生成图像，噪声在路径中大致线性减少。而扩散路径模型在路径的后期才明显去除噪声，甚至可能出现“过冲”现象（轨迹先远离目标再返回，导致不必要的反向追踪），这使得 OT 路径在直观上更为高效。
低成本采样： Figure 7 (下图) 展示了在 ImageNet 32x32 上，FM 模型（特别是 $FM w/ OT$ ）在不同 NFE 下的数值误差和样本质量表现。

该图像是图表，展示了使用不同方法训练的模型在采样时误差和样本质量的对比，包括ODE求解误差（Error of ODE solution）和在不同数值求解器（Euler, Midpoint, RK4）下的FID值。图中关注Flow Matching方法尤其是使用OT路径时，在减少采样评估次数(NFE)时仍能保持较低数值误差和较好样本质量。
- 数值误差 (左图): $FM w/ OT$ 在达到相同的误差阈值时，所需的 NFE 约为扩散模型的 60%，表明其在数值求解方面效率更高。
- 样本质量 (右图): $FM w/ OT$ 即使在非常低的 NFE 值下也能获得可观的 FID，提供了更好的样本质量与计算成本之间的权衡。

4. 条件采样：从低分辨率图像超分辨率 (Conditional Sampling from Low-Resolution Images)

以下是 Table 2 的转录数据，展示了 Flow Matching 在图像超分辨率任务（从 $64 \times 64$ 到 $256 \times 256$ ）上的性能，并与参考值、回归方法和 SR3 模型进行了比较。

Model	FID↓	IS↑	PSNR↑	SSIM↑
Reference	1.9	240.8
Regression	15.2	121.1	27.9	0.801
SR3 (Saharia t al, 2022)	5.2	180.1	26.4	0.762
FM / OT	3.4	200.8	24.7	0.747

超分辨率性能： $FM / OT$ 在 FID (3.4) 和 IS (200.8) 上显著优于基线 SR3 (FID 5.2, IS 180.1)，这表明 $FM / OT$ 能够生成与原始图像更接近、质量更高、多样性更好的超分辨率图像。尽管 PSNR 和 SSIM 略低于 SR3 或回归方法，但 FID 和 IS 被认为是衡量生成质量更好的指标。
生成样本： Figure 14 和 Figure 15 展示了 FM-OT 超分辨率后的图像样本，视觉上验证了其出色的细节恢复能力。

消融实验/参数分析 (Ablation Studies / Parameter Analysis)

本文并未包含严格意义上的消融实验，但通过对比 FM w/ Diffusion 和 $FM w/ OT$ 来展示不同概率路径选择对模型性能的影响，这可视为一种路径选择的消融分析：

FM w/ Diffusion vs. FM w/ OT：

结果： $FM w/ OT$ 在所有数据集和指标上均优于 FM w/ Diffusion，尤其在 NFE 上表现更佳（更低的采样成本）。这强烈支持了 OT 路径因其简单和直观的特性（如 Figure 2 和 Figure 3 所示的恒定方向向量场和直线轨迹）能够带来更高效的训练和采样。

分析： OT 路径的向量场方向恒定，使得神经网络更容易拟合，从而减少了训练难度和收敛时间。同时，直线轨迹避免了扩散路径可能出现的“过冲”和“回溯”现象，直接导致采样效率的提升。

此外，Table 4 (下图) 展示了在负对数似然计算中，重要性采样 (importance sampling)的参数 $K$ （即用于估计的样本数量）对 NLL 值的影响。

Model	CIFAR-10 (K=1)	CIFAR-10 (K=20)	CIFAR-10 (K=50)	ImageNet 32x32 (K=1)	ImageNet 32x32 (K=5)	ImageNet 32x32 (K=15)	ImageNet 64x64 (K=1)	ImageNet 64x64 (K=5)	ImageNet 64x64 (K=10)
DDPM	3.24	3.14	3.12	3.62	3.57	3.54	3.36	3.33	3.32
Score Matching	3.28	3.18	3.16	3.65	3.59	3.57	3.43	3.41	3.40
ScoreFlow	3.21	3.11	3.09	3.63	3.57	3.55	3.39	3.37	3.36
FM / Diffusion	3.23	3.13	3.10	3.64	3.58	3.56	3.37	3.34	3.33
FM W/ OT	3.11	3.01	2.99	3.62	3.56	3.53	3.35	3.33	3.31

重要性采样参数 $K$ ： 随着 $K$ 值的增加，NLL 的估计值趋于稳定并降低，这是预期行为，因为更大的 $K$ 意味着更准确的估计。 $FM W/ OT$ 在不同 $K$ 值下仍然保持最佳的 NLL 性能。

总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary)

本文成功引入了流匹配 (Flow Matching, FM)，一种全新的、无模拟 (simulation-free)的连续归一化流 (Continuous Normalizing Flows, CNFs)训练范式。通过巧妙地利用条件概率路径 (conditional probability paths)和条件向量场 (conditional vector fields)，并证明条件流匹配 (Conditional Flow Matching, CFM)目标与原始流匹配目标在期望梯度上的等价性，FM 解决了 CNF 训练中的可扩展性难题，使其能够高效地应用于高维数据。

FM 框架不仅提供了一种训练现有扩散模型 (diffusion models)的更鲁棒和稳定的替代方案，更重要的是，它打开了探索和利用除扩散路径之外的更通用概率路径 (general probability paths)的可能性。其中，基于最优传输 (Optimal Transport, OT)位移插值的条件概率路径表现尤为突出，它因其固有的简单性（例如直线轨迹和恒定方向的向量场）而显著提升了训练和采样的效率，并带来了卓越的似然性 (likelihood)和样本质量 (sample quality)。在 ImageNet 等大规模图像数据集上的实验结果有力地证明了 FM（尤其是结合 OT 路径）在性能和计算效率上均优于当前的扩散基线模型。

局限性与未来工作 (Limitations & Future Work)

论文中明确指出的局限性主要集中在生成模型的通用社会伦理方面，而非方法论本身的具体技术限制：

潜在的有害应用 (Harmful Proposes): 图像生成技术可能被用于创建虚假信息或其他有害内容。作者建议通过内容受控的训练集和图像验证/分类来缓解这一问题。
能源消耗 (Energy Demand): 训练大型深度学习模型所需的能源消耗日益增长。作者强调，专注于能够以更少梯度更新/图像吞吐量进行训练的方法（如本文的 FM）可以显著节省时间和能源。

尽管论文没有详细探讨 Flow Matching 方法本身的技术局限，但可以推断一些潜在的方面：

OT 路径的边际最优性： 论文指出，虽然条件流是最优传输位移映射，但这不意味着边际向量场也是最优传输解。这可能导致在某些复杂数据分布下，OT 路径的边际性质并非全局最优。
高斯假设的限制： 目前的框架主要基于高斯条件概率路径。虽然高斯路径具有数学上的便利性，但真实世界的数据分布可能更复杂，无法完全用高斯分布来捕捉。
模型复杂度： 尽管 NFE 有所降低，但求解 ODE 进行采样仍然需要一定的计算资源，特别是在需要极高实时性的应用中。

未来工作方向包括：
探索更复杂的概率路径： 超越高斯路径，例如使用非各向同性高斯 (non-isotropic Gaussians)或更通用的核函数 (general kernels)来定义条件概率路径，以更好地建模复杂的数据分布。
理论分析的进一步深化： 深入研究 FM 和 OT 路径在理论上的特性，例如边际 OT 路径的最优性、泛化边界等。
与其他生成范式的结合： 探索 FM 与其他生成模型（如 GANs、VAEs）的结合，以期结合各自优势。
在其他模态的应用： 将 FM 框架扩展到文本、语音、视频等其他数据模态的生成任务中。

个人启发与批判 (Personal Insights & Critique)

这篇论文为生成模型领域带来了重要的范式转变，令人印象深刻。

优雅的理论与实践统一： FM 最吸引人之处在于其理论的优雅性——通过条件流匹配将一个难以处理的边际问题 (marginal problem)转化为可高效求解的条件问题 (conditional problem)，同时保持梯度的一致性。这种方法论上的创新性不仅解决了 CNF 训练的可扩展性，也为理解和设计生成模型提供了新的视角。
超越扩散模型的潜力： 长期以来，扩散模型在生成质量上占据主导地位，但其采样效率和路径设计受限。FM 框架直接与概率路径而非随机过程打交道，这释放了设计更高效、更直观路径的可能性，OT 路径就是一个绝佳的例子。这种“路径工程 (path engineering)”的思路可能会成为未来生成模型研究的一个重要方向。
OT 路径的直观优势： OT 路径的“直线”特性，对比扩散路径的“弯曲”甚至“过冲”轨迹，直观地解释了其在训练和采样效率上的优势。这种几何上的简单性使得神经网络更容易学习，且 ODE 求解器能够更快收敛。这表明在设计生成过程时，路径的几何特性是一个值得深入挖掘的关键因素。
对 ODE 求解器友好： FM 框架直接生成一个 ODE，并能够充分利用现成的、高性能的数值 ODE 求解器。这使得 FM 模型在采样时非常灵活，可以根据需求调整 NFE 以权衡速度和质量。

批判性思考：
对 $\sigma_{\min}$ 的依赖： OT 路径在 $t=1$ 时依赖于一个足够小的 $\sigma_{\min}$ 来近似数据分布。这个参数的选择可能会影响模型的性能和泛化能力，其最佳值的确定可能需要经验性探索。
通用路径设计的挑战： 尽管 FM 允许更通用的概率路径，但如何系统地设计和发现比 OT 路径更优、更高效的非高斯路径，仍然是一个开放的研究问题。这可能需要深入的最优控制 (optimal control)或概率理论 (probability theory)知识。
计算资源需求： 尽管 FM 降低了 NFE，但 U-Net 等大规模神经网络本身仍然需要大量计算资源进行训练。如何进一步优化模型架构或训练策略以减少整体计算足迹，仍然是重要的研究方向。

总的来说，Flow Matching 提供了一个强大而灵活的框架，有望推动 CNF 和更广泛的生成模型领域的发展，其方法论上的创新和在 OT 路径上的成功应用，为未来的研究指明了新的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。