论文状态：已完成

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

发表：2024/03/06

文本到图像生成 (19)高分辨率图像合成 (3)扩散模型改进技术 (1)双向信息流动架构 (1)噪声采样技术优化 (1)

原文链接 PDF 下载

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新型多模态扩散 Transformer（MM-DiT）架构，结合修正流技术，以改善高分辨率图像合成质量。通过优化噪声采样策略并实现双向信息流，改进的模型在文本理解和用户偏好评分上优于现有最佳实践，验证了扩展定律的适用性。

摘要

Diffusion models create data from noise by inverting the forward paths of data towards noise and have emerged as a powerful generative modeling technique for high-dimensional, perceptual data such as images and videos. Rectified flow is a recent generative model formulation that connects data and noise in a straight line. Despite its better theoretical properties and conceptual simplicity, it is not yet decisively established as standard practice. In this work, we improve existing noise sampling techniques for training rectified flow models by biasing them towards perceptually relevant scales. Through a large-scale study, we demonstrate the superior performance of this approach compared to established diffusion formulations for high-resolution text-to-image synthesis. Additionally, we present a novel transformer-based architecture for text-to-image generation that uses separate weights for the two modalities and enables a bidirectional flow of information between image and text tokens, improving text comprehension, typography, and human preference ratings. We demonstrate that this architecture follows predictable scaling trends and correlates lower validation loss to improved text-to-image synthesis as measured by various metrics and human evaluations. Our largest models outperform state-of-the-art models, and we will make our experimental data, code, and model weights publicly available.

思维导图

论文精读

中文精读约 10 分钟读完 · 6,005 字

1. 论文基本信息

1.1. 标题

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (扩展用于高分辨率图像合成的修正流 Transformer)

1.2. 作者

Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller 等。主要作者隶属于 Stability AI。该团队是生成式 AI 领域的先驱，此前曾发布过著名的 Stable Diffusion 系列模型。

1.3. 发表期刊/会议

该论文目前作为预印本发布于 arXiv，代表了 Stable Diffusion 3 (SD3) 的核心技术报告。鉴于其巨大的学术和工业影响力，它属于计算机视觉（CV）和机器学习（ML）领域的顶级研究成果。

1.4. 发表年份

2024年3月5日（UTC 时间）。

1.5. 摘要

本文探讨了如何通过 修正流 (Rectified Flow) 和 Transformer 架构 来提升高分辨率图像生成的质量。研究改进了修正流模型的训练噪声采样技术，使其更关注感知上重要的尺度。此外，论文提出了一种新型的 多模态扩散 Transformer (Multimodal Diffusion Transformer, MM-DiT) 架构，该架构为图像和文本模态使用独立的权重，并允许信息在两者之间双向流动。实验表明，该架构遵循可预测的 扩展定律 (Scaling Laws)，在文本理解、排版质量和人类偏好评分方面优于现有最先进的模型（如 DALL-E 3、SDXL 等）。

1.6. 原文链接

PDF 链接: https://arxiv.org/pdf/2403.03206v1.pdf
发布状态: 预印本（Preprint）。

2. 整体概括

2.1. 研究背景与动机

核心问题: 传统的 扩散模型 (Diffusion Models) 通常通过复杂的弯曲路径将噪声转化为数据，这导致训练效率低下且采样步骤较多。
重要性: 随着对图像分辨率（如 $1024 \times 1024$ ）和文本提示遵循能力要求的提高，现有的 U-Net 架构和标准扩散公式在扩展性（Scalability）和模态融合方面遇到了瓶颈。
研究空白: 修正流 (Rectified Flow, RF) 虽然在理论上能提供更简单的直线转换路径，但在大规模文本到图像（T2I）任务中尚未被确立为标准实践。
创新思路: 结合 RF 的数学优势与 Transformer 的强大扩展能力，并引入专门针对多模态设计的双向交互机制。

2.2. 核心贡献/主要发现

改进的 RF 训练方案: 引入了针对 RF 模型定制的噪声采样策略（如 Logit-Normal 采样），显著提升了少步采样（Few-step sampling）下的图像质量。
多模态扩散 Transformer (MM-DiT): 提出了一种能够处理文本和图像词元（Tokens）独立流动的架构，极大增强了模型对复杂提示词（如拼写字符、空间关系）的处理能力。
扩展定律的系统研究: 首次在大规模 T2I 任务中验证了验证损失（Validation Loss）与生成质量之间高度相关的扩展趋势，证明了增加参数量和计算量能稳定提升性能。
性能突破: 最优模型在人类评价和自动化指标上均超过了 DALL-E 3、Midjourney v6 等闭源模型。

3. 预备知识与相关工作

3.1. 基础概念

扩散模型 (Diffusion Models): 一类通过逐渐向数据添加噪声（前向过程）并学习如何逆转这一过程（反向生成）来生成数据的生成模型。
修正流 (Rectified Flow, RF): 一种新型生成模型，它通过直线（而不是复杂的随机路径）连接噪声分布和数据分布。其核心优势是轨迹更平直，推理时可以用更少的步数达到更高的精度。
词元 (Token): 在 NLP 中指文本的基本单位；在视觉 Transformer 中，图像块（Patches）也被视为视觉词元。
主干网络 (Backbone): 模型中负责特征提取和处理的核心部分。本文将传统的 U-Net 换成了 Transformer。

3.2. 前人工作

DiT (Diffusion Transformer): 由 Peebles & Xie (2023) 提出，证明了 Transformer 可以替代 U-Net 作为扩散模型的主干。
LDM (Latent Diffusion Models): Stable Diffusion 的基础，通过在预训练自编码器的 潜空间 (Latent Space) 中运行扩散过程来降低计算开销。
注意力机制 (Attention): 用于捕捉序列内部及序列间的依赖关系。其标准公式为： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中 $Q$ (Query, 查询)、 $K$ (Key, 键)、 $V$ (Value, 值) 是输入的线性投影， $d_k$ 是特征维度。

3.3. 差异化分析

相比于 SDXL 或 DALL-E 3：

架构上: SDXL 使用 U-Net 并通过交叉注意力注入文本；本文使用 MM-DiT，使文本和图像处于平等的交互地位。
数学框架上: 从普通的扩散概率模型转向了更高效的修正流框架。

4. 方法论

4.1. 方法原理

本文的核心思想是构建一个 常微分方程 (Ordinary Differential Equation, ODE)，通过学习一个 速度向量场 (Velocity Vector Field) $v_{\Theta}$ ，将噪声样本 $x_1$ 转换为数据样本 $x_0$ 。该过程可由下式表示： $d y_t = v_{\Theta}(y_t, t) dt$ 其中 $y_t$ 是在时间 $t$ 时的状态， $v_{\Theta}$ 是由神经网络参数化的预测速度。

4.2. 修正流与条件流匹配 (Conditional Flow Matching)

为了高效训练模型，作者采用了 流匹配 (Flow Matching) 技术。首先定义一个连接数据 $x_0$ 和噪声 $\epsilon$ 的前向过程 $z_t$ ： $z_t = a_t x_0 + b_t \epsilon$ 对于修正流而言，路径被设定为直线，即 $a_t = 1 - t$ 且 $b_t = t$ 。

模型通过最小化 条件流匹配 (Conditional Flow Matching, CFM) 损失函数进行训练： $\mathcal{L}_{CFM} = \mathbb{E}_{t, p_t(z|\epsilon), p(\epsilon)} || v_{\Theta}(z, t) - u_t(z|\epsilon) ||_2^2$ 其中 $u_t(z|\epsilon)$ 是真实的条件向量场。根据直线的性质， $u_t = z'_t = \epsilon - x_0$ 。这意味着模型在每一个时间点 $t$ 都在学习预测从数据指向噪声的直线方向。

为了统一分析，作者将目标函数重写为通用的加权形式： $\mathcal{L}_w(x_0) = - \frac{1}{2} \mathbb{E}_{t \sim \mathcal{U}(t), \epsilon \sim \mathcal{N}(0, I)} \left[ w_t \lambda'_t \| \epsilon_{\Theta}(z_t, t) - \epsilon \|^2 \right]$ 这里的 $w_t$ 是随时间变化的权重系数，不同的扩散模型（如 EDM、LDM）对应不同的 $w_t$ 。

4.3. 定制的信噪比 (SNR) 采样器

作者发现，在 RF 训练中，中间的时间步（ $t \approx 0.5$ ）比两端更难学习且对感知质量更重要。因此，他们引入了 对数正态采样 (Logit-Normal Sampling)： $\pi_{ln}(t; m, s) = \frac{1}{s \sqrt{2\pi}} \frac{1}{t(1-t)} \exp \left( - \frac{(\mathrm{logit}(t) - m)^2}{2s^2} \right)$

$m$ (位置参数): 控制偏向数据（负值）还是噪声（正值）。
$s$ (尺度参数): 控制分布的集中程度。通过这种采样，模型在训练时会更多地接触到中间阶段的挑战性样本，从而提高推理效率。

下图（原文 Figure 3）对比了不同 RF 公式在不同采样步数下的表现，证明了改进后的 RF 在少步数下极具优势：

Figure 3. Rectified flows are sample efficient. Rectified Flows perform better then other formulations when sampling fewer steps. For 25 and more steps, only rf/1ognorm (0.00, 1.00) remains competitive to eps/linear. 该图像是一个图表，展示了不同采样步骤下各生成模型的FID值。随着采样步骤的增加，rf/lognorm(0.00, 1.00)在25步及以上时表现仍然具有竞争力，仅次于eps/linear。

4.4. 多模态扩散 Transformer (MM-DiT)

传统的模型通常将文本作为固定的上下文注入图像序列。作者提出了 MM-DiT（如下图 Figure 2 所示）：

$Figure 2. Our model architecture. Concatenation is indicated by $\\odot$ and element-wise multiplication by $^ *$ The RMS-Norm for $Q$ and $K$ can be added to stabilize training runs. Best viewed zoomed in.$ 该图像是示意图，展示了模型架构的各个组成部分及其相互关系。在图的左侧(a)部分，展示了从输入的标题到输出生成的结构，包括不同的模块如MLP、线性变换和MM-DiT块。右侧(b)部分详细描述了一个MM-DiT块的内部结构，突出了注意力机制以及所用的层归一化和线性变换组件。整个架构采用了对信息流的双向处理策略，以提升图像生成的效果。

独立流处理: 文本和图像词元分别通过各自的线性层投影到共同的维度。
双向流 (Bidirectional Flow): 在注意力层中，文本序列和图像序列被拼接在一起。这意味着图像特征可以影响文本表示，反之亦然。
独立权重: 虽然在注意力操作中共享上下文，但对于两种模态使用了两套独立的权重分支（MLP 和线性投影），以适应它们截然不同的特征分布。
QK 规范化 (QK-Normalization): 为了在大规模训练中保持稳定，作者对注意力机制中的查询 $Q$ 和键 $K$ 应用了 RMSNorm： $\text{Norm}(x) = \frac{x}{\sqrt{\text{mean}(x^2) + \epsilon}} \cdot \gamma$ 这防止了大规模训练中注意力逻辑（Logits）的爆炸。

4.5. 分辨率相关的时间步偏移 (Timestep Shifting)

在高分辨率生成时，由于像素增多，噪声对图像的破坏程度会发生变化。作者提出了一个偏移公式来调整采样时间步： $t_m = \frac{\sqrt{\frac{m}{n}} t_n}{1 + (\sqrt{\frac{m}{n}} - 1) t_n}$ 其中 $n$ 是原始分辨率（如 $256^2$ ）， $m$ 是目标分辨率（如 $1024^2$ ）。这种偏移确保了模型在处理不同分辨率图像时，噪声水平的感知是一致的。

5. 实验设置

5.1. 数据集

ImageNet: 用于基础分类条件生成的验证。
CC12M: 用于文本到图像生成的初步实验。
大规模私有数据集: 用于最终 8B 参数模型的训练。
合成标题 (Synthetic Captions): 使用 CogVLM 为图像重新生成详尽的描述，采用 50% 原文 + 50% 合成标题的比例混合，以增强模型对细节的理解。

5.2. 评估指标

5.2.1. FID (Fréchet Inception Distance)

概念定义: 量化生成图像与真实图像在特征空间分布上的相似度。数值越低，图像越逼真且多样性越好。
数学公式: $\mathrm{FID} = \|\mu_r - \mu_g\|^2 + \mathrm{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})$
符号解释: $\mu_r, \Sigma_r$ 是真实数据的特征均值和协方差； $\mu_g, \Sigma_g$ 是生成数据的特征均值和协方差； $\mathrm{Tr}$ 是矩阵的迹。

5.2.2. CLIP Score

概念定义: 度量图像特征向量与文本特征向量之间的余弦相似度，用于评估图像与提示词的一致性。
数学公式: $\mathrm{CLIP\_Score} = \cos(\theta) = \frac{v_{img} \cdot v_{txt}}{\|v_{img}\| \|v_{txt}\|}$
符号解释: $v_{img}$ 是图像的 CLIP 嵌入向量； $v_{txt}$ 是文本的 CLIP 嵌入向量。

5.3. 对比基线

开源模型: SDXL、SDXL-Turbo、PixArt-α、Wuerstchen。
闭源模型: DALL-E 3、Midjourney v6、Ideogram v1。

6. 实验结果与分析

6.1. 核心结果分析

架构优越性: MM-DiT 在验证损失、CLIP 分数和 FID 上均显著优于 DiT（纯拼接）和 CrossDiT（交叉注意力）。
扩展性: 下图（原文 Figure 8）展示了模型性能随计算量 (FLOPs) 增加的稳定提升，且没有饱和迹象。

该图像是包含多个图表的示意图，展示了不同模型深度（depth）的验证损失与训练步骤和FLOPs的关系，以及与GenEval和Human Preference的相关性。通过比较不同深度下的性能，表明更高的深度可以降低验证损失。

6.2. 数据呈现 (表格)

以下是原文 Table 1 的结果，展示了不同 RF 变体的排名，其中 rf/lognorm(0.00, 1.00) 表现最稳健：

变体 (Variant)	平均排名 (Rank averaged over)
变体 (Variant)	全部 (All)	5 步采样	50 步采样
rf/lognorm(0.00, 1.00)	1.54	1.25	1.50
rf/lognorm(1.00, 0.60)	2.08	3.50	2.00
eps/linear (LDM 标准)	2.88	4.25	2.75
rf (原始修正流)	5.67	6.50	5.75

以下是原文 Table 5 在 GenEval 基准测试上的对比结果，该测试专门评估模型对物体计数、位置、颜色属性等的理解：

模型 (Model)	总分 (Overall)	物体 (Objects)		计数 (Counting)	属性 (Attributes)
模型 (Model)	总分 (Overall)	单个	两个	计数 (Counting)	颜色	位置	归属
SDXL	0.55	0.98	0.74	0.39	0.85	0.15	0.23
DALL-E 3	0.67	0.96	0.87	0.47	0.83	0.43	0.45
Ours (depth=38, 1024²)	0.74	0.99	0.94	0.72	0.89	0.33	0.60

6.3. 排版与拼写能力

得益于 MM-DiT 中文本信息的深度融合以及 T5 文本编码器的强大性能，模型在拼写长句子（如“SD3 Paper”写在机器侧面）方面表现出色。图 7 的人类偏好调查显示，在排版（Typography）类别中，SD3 显著优于所有竞争对手。

7. 总结与思考

7.1. 结论总结

论文证明了 修正流 (Rectified Flow) 与 多模态 Transformer (MM-DiT) 的结合是高分辨率图像生成的强大范式。通过改进采样分布和引入双向注意力机制，模型不仅在视觉质量上达到了顶尖水平，更在复杂的文本语义理解和排版准确性上实现了飞跃。此外，论文验证了该路径在计算规模上的可持续收益。

7.2. 局限性与未来工作

计算成本: 8B 参数的 Transformer 推理开销较大，且模型对 T5-XXL 编码器的依赖导致显存占用极高。
训练复杂性: RF 模型的训练需要精细调整时间步采样分布，这比标准扩散模型更敏感。
未来方向: 作者提到将这些技术扩展到视频生成领域（文中已有初步实验显示扩展性良好）。

7.3. 个人启发与批判

启发: 本文展示了“数学公式的微调（采样分布）”和“架构的对称性（MM-DiT）”往往比单纯堆叠算力更有效。双向流的设计打破了文本作为“静态约束”的传统思维。
批判:
- 去重 (Deduplication): 论文在附录中详细讨论了去重，这暗示大规模训练中数据污染和模型记忆（Memorization）问题日益严重。虽然文中称去重降低了 5 倍的记忆风险，但对于版权保护的长期影响仍需观察。
- 排版 vs. 空间关系: 虽然模型在拼写上表现极佳，但在 GenEval 结果中可以看到，其“位置 (Position)”评分（0.33）仍有很大提升空间。这说明即便模态融合了，模型对物理世界的空间推理依然是一个未完全解决的难题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。