论文状态：已完成

Diffusion Transformers with Representation Autoencoders

发表：2025/10/14

扩散模型(transformer)与表示自编码器 (1)Representation Autoencoders (1)图像生成质量提升 (1)高维潜在空间建模 (1)DINO与MAE编码器 (1)

价格：0.100000

已有 6 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出一种新的表示自编码器（RAE）模型，通过用预训练的表示编码器（如DINO、MAE）替换传统的变分自编码器（VAE），克服了扩散变换器（DiT）在图像生成中的限制。RAE不仅提供高质量重建，还具备更丰富的语义信息，实验表明其在图像生成性能上显著优于VAE，成为新的训练默认方法。

摘要

Latent generative modeling, where a pretrained autoencoder maps pixels into a latent space for the diffusion process, has become the standard strategy for Diffusion Transformers (DiT); however, the autoencoder component has barely evolved. Most DiTs continue to rely on the original VAE encoder, which introduces several limitations: outdated backbones that compromise architectural simplicity, low-dimensional latent spaces that restrict information capacity, and weak representations that result from purely reconstruction-based training and ultimately limit generative quality. In this work, we explore replacing the VAE with pretrained representation encoders (e.g., DINO, SigLIP, MAE) paired with trained decoders, forming what we term Representation Autoencoders (RAEs). These models provide both high-quality reconstructions and semantically rich latent spaces, while allowing for a scalable transformer-based architecture. Since these latent spaces are typically high-dimensional, a key challenge is enabling diffusion transformers to operate effectively within them. We analyze the sources of this difficulty, propose theoretically motivated solutions, and validate them empirically. Our approach achieves faster convergence without auxiliary representation alignment losses. Using a DiT variant equipped with a lightweight, wide DDT head, we achieve strong image generation results on ImageNet: 1.51 FID at 256x256 (no guidance) and 1.13 at both 256x256 and 512x512 (with guidance). RAE offers clear advantages and should be the new default for diffusion transformer training.

思维导图

论文精读

中文精读约 48 分钟读完 · 39,216 字

1. 论文基本信息

1.1. 标题

扩散变换器与表示自编码器 (Diffusion Transformers with Representation Autoencoders)

1.2. 作者

Boyang Zheng, Nanye Ma, Shengbang Tong, Saining Xie

隶属机构: 纽约大学 (New York University)

1.3. 发表期刊/会议

预印本 (arXiv)

1.4. 发表年份

2025年

1.5. 摘要

传统的潜在生成建模（Latent Generative Modeling），特别是扩散变换器 (Diffusion Transformers, DiT) 中，通常依赖预训练的自编码器 (Autoencoder) 将像素图像映射到潜在空间进行扩散过程。然而，自编码器组件的演变相对缓慢。大多数扩散变换器 (DiT) 仍然依赖于原始的变分自编码器 (Variational Autoencoder, VAE) 编码器，这带来了诸多限制：过时的主干网络 (backbones) 损害了架构的简洁性，低维度的潜在空间限制了信息容量，以及纯粹基于重建训练产生的弱表示 (representations)，最终限制了生成质量。

本文探索用预训练的表示编码器 (representation encoders)（例如 DINO、SigLIP、MAE）替换变分自编码器 (VAE)，并搭配训练的解码器，形成我们称之为表示自编码器 (Representation Autoencoders, RAEs) 的模型。这些模型既能提供高质量的重建，又能提供语义丰富的潜在空间，同时允许采用可扩展的基于变换器 (Transformer) 的架构。由于这些潜在空间通常是高维的，一个关键挑战是如何使扩散变换器 (DiT) 在其中有效地运行。本文分析了造成这一困难的原因，提出了理论驱动的解决方案，并通过实验进行了验证。我们的方法实现了更快的收敛，无需额外的表示对齐损失 (representation alignment losses)。通过配备轻量级、宽DDT头 (DDT head) 的扩散变换器 (DiT) 变体，我们在 ImageNet 上实现了强大的图像生成结果：在 $256 \times 256$ 分辨率下（无引导）FID 达到1.51，在 $256 \times 256$ 和 $512 \times 512$ 分辨率下（有引导）FID 均达到1.13。表示自编码器 (RAE) 提供了明显的优势，应该成为扩散变换器 (Diffusion Transformer) 训练的新默认方法。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2510.11690
PDF 链接: https://arxiv.org/pdf/2510.11690v1.pdf
发布状态：预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

论文旨在解决扩散变换器 (Diffusion Transformers, DiT) 在潜在空间生成建模中，其核心自编码器 (Autoencoder) 组件（特别是传统的变分自编码器 (Variational Autoencoder, VAE)，如 SD-VAE）存在的多项限制，这些限制严重制约了扩散变换器 (DiT) 的生成质量、效率和架构简洁性。

2.1.2. 问题的重要性与现有挑战

过时的主干网络 (Outdated Backbones)：SD-VAE 等传统变分自编码器 (VAE) 依赖于过时的卷积神经网络 (Convolutional Neural Network, CNN) 架构，这与现代扩散变换器 (DiT) 所采用的视觉变换器 (Vision Transformer, ViT) 架构不符，损害了整体架构的简洁性和一致性。如 Figure 2 所示，SD-VAE 的计算成本远高于基于视觉变换器 (ViT) 的表示自编码器 (RAE)。
低维度潜在空间 (Low-Dimensional Latent Spaces)：传统的变分自编码器 (VAE) 为了压缩数据，往往将图像编码到低维度的潜在空间。这种低维度限制了潜在空间的信息容量，使其难以捕捉图像的所有细节和全局语义结构，从而影响了生成模型的泛化能力 (generalization) 和生成性能。
弱表示 (Weak Representations)：SD-VAE 主要通过像素级重建损失进行训练，使其潜在表示 (representations) 缺乏高级语义结构。这导致潜在空间主要关注局部外观，而忽略了对生成性能至关重要的全局语义。
与表示学习进展脱节：近年来，自监督学习 (Self-supervised Learning) 和多模态编码器 (Multimodal Encoders)（如 DINO、MAE、CLIP、SigLIP）在学习语义丰富且泛化性强的视觉特征 (features) 方面取得了巨大进步。然而，潜在扩散模型 (Latent Diffusion Models) 却未能充分利用这些进展，依然在以重建为目标的变分自编码器 (VAE) 空间中进行扩散。
对高维潜在空间的误解：普遍认为语义编码器 (semantic encoders) 不适合忠实重建，且扩散模型 (Diffusion Models) 在高维潜在空间中表现不佳。这导致研究者倾向于低维的VAE潜在空间。

2.1.3. 本文的切入点与创新思路

本文通过表示自编码器 (RAE) 这一新模型类别，挑战并纠正了上述误解。其创新思路在于：

替换传统VAE：用冻结 (frozen) 的预训练表示编码器 (representation encoders)（如 DINO、SigLIP、MAE）作为自编码器 (Autoencoder) 的编码器部分，并搭配一个轻量级的训练解码器 (trained decoder)。
语义与重建的统一：证明即使是为语义任务优化的编码器 (encoders)，通过合适的解码器也能实现高质量重建，并且其潜在空间既语义丰富又结构一致，有利于生成。
克服高维挑战：分析扩散变换器 (DiT) 在高维潜在空间中遇到的困难，并提出理论驱动的解决方案，包括：
- 匹配DiT宽度 (Matching DiT Width)：使扩散变换器 (DiT) 的宽度与表示编码器 (representation encoder) 的token维度匹配。
- 维度依赖的噪声调度 (Dimension-Dependent Noise Schedule)：引入与有效数据维度相关的噪声调度策略。
- 噪声增强解码 (Noise-Augmented Decoding)：通过在解码器训练中加入噪声，增强其对扩散模型生成噪声潜在表示 (latents) 的鲁棒性。
引入DiTDH架构：提出一种新的扩散变换器 (DiT) 变体 DiTDH，通过一个轻量级、宽但浅的DDT头 (DDT head) 模块，在不引入二次计算成本的情况下，有效增加模型的宽度和扩展性。

2.2. 核心贡献/主要发现

提出表示自编码器 (RAE)：引入一种新的自编码器 (Autoencoder) 类型，它将冻结 (frozen) 的预训练表示编码器 (representation encoders)（如 DINOv2、SigLIP2、MAE）与一个轻量级训练解码器相结合。RAE 能够提供比传统 SD-VAE 更好的重建质量（更低的 rFID）和更强的语义表示 (representations)（更高的线性探测准确率），同时计算效率更高。
揭示并解决了DiT在高维潜在空间中的挑战：
- DiT宽度匹配：发现为了在高维RAE潜在空间中成功生成，扩散变换器 (DiT) 的宽度（hidden dimension）必须匹配或超过RAE的token维度，并提供了理论证明。
- 维度依赖的噪声调度：证明了将噪声调度策略泛化到有效数据维度（token数量乘以token维度）的重要性，显著提升了训练性能。
- 噪声增强解码：通过在RAE解码器训练中引入附加噪声，增强了解码器对扩散模型 (Diffusion Models) 生成的微小噪声潜在表示 (latents) 的鲁棒性，从而提升了生成质量。
引入DiTDH架构：提出一种新颖的扩散变换器 (DiT) 变体 DiTDH，它通过一个轻量级、宽但浅的DDT头 (DDT head) 模块来处理高维潜在表示 (latents)，避免了对整个主干网络 (backbone) 进行二次计算成本的宽度扩展，显著提高了训练效率和收敛速度。
实现最先进的图像生成性能：
- 在 ImageNet 256x256 上，RAE-based DiTDH-XL 在无引导条件下取得了 1.51 FID 的最先进的 (state-of-the-art) 结果，在有引导条件下取得了 1.13 FID 的结果。
- 在 ImageNet 512x512 上，有引导条件下也取得了 1.13 FID 的最先进的 (state-of-the-art) 结果，超越了之前的最佳性能。
- RAE 方法实现了比传统 VAE 方法快 40 倍的计算效率，并在早期训练阶段就超越了现有的最先进的 (state-of-the-art) 方法。
强调结构化表示的重要性：实验表明，高维度本身不足以保证性能，表示自编码器 (RAE) 提供的结构化表示 (representations) 对于实现强大的性能增益至关重要。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 潜在生成建模 (Latent Generative Modeling)

潜在生成建模 (Latent Generative Modeling) 是一种生成式模型范式，它不直接在原始数据空间（如像素空间）生成数据，而是首先将原始数据编码到一个低维度或更抽象的潜在空间 (latent space)。然后，生成模型在这个潜在空间中进行数据生成，最后通过一个解码器将生成的潜在表示转换回原始数据空间。这样做的好处是可以在一个更紧凑、更有语义的表示空间中进行学习和生成，从而提高生成效率、稳定性和质量。

3.1.2. 自编码器 (Autoencoder)

自编码器 (Autoencoder) 是一种神经网络，旨在学习数据的有效编码（即表示 (representation)）。它由两部分组成：

编码器 (Encoder)：将输入数据映射到潜在空间中的一个低维潜在表示 (latent representation)。
解码器 (Decoder)：将潜在表示映射回原始数据空间，尝试重建原始输入。 自编码器 (Autoencoder) 通过最小化输入与重建输出之间的差异（通常是重建损失）进行训练。

3.1.3. 变分自编码器 (Variational Autoencoder, VAE)

变分自编码器 (VAE) 是一种特殊类型的自编码器 (Autoencoder)，它在潜在空间中引入了概率建模。与传统自编码器 (Autoencoder) 直接学习一个潜在向量不同，变分自编码器 (VAE) 的编码器 (encoder) 会学习输入数据潜在分布的参数（通常是均值和方差），从而形成一个连续的潜在空间 (continuous latent space)。从这个潜在分布中采样 (sampling) 得到潜在向量，然后由解码器 (decoder) 进行重建。这种概率性的设计使得变分自编码器 (VAE) 能够生成新颖、多样化的数据，并确保潜在空间的平滑性和连续性。训练目标通常包括重建损失和KL散度 (Kullback-Leibler divergence)，后者用于约束学习到的潜在分布接近标准正态分布。

3.1.4. 扩散模型 (Diffusion Models)

扩散模型 (Diffusion Models) 是一类生成式模型，它们通过模拟一个逐步向数据添加噪声的前向扩散过程 (forward diffusion process)，并学习一个逆向去噪过程 (reverse denoising process) 来生成数据。

前向过程：数据逐渐被高斯噪声污染，直到完全变成随机噪声。
逆向过程：模型学习从噪声中逐步去除噪声，最终恢复出清晰的数据样本。 扩散模型 (Diffusion Models) 通常通过最小化预测添加的噪声或数据变化的损失函数 (loss function) 来训练。它们以其高质量的生成能力和多样的样本而闻名，尤其在图像生成领域取得了巨大成功。

3.1.5. 扩散变换器 (Diffusion Transformers, DiT)

扩散变换器 (Diffusion Transformers, DiT) 是将扩散模型 (Diffusion Models) 的去噪主干网络 (backbone) 从传统的U-Net 替换为变换器 (Transformer) 架构的模型。在扩散变换器 (DiT) 中，图像（或其潜在表示 (latent representation)）被分割成一系列token，然后由变换器 (Transformer) 处理，以预测噪声或去噪后的数据。变换器 (Transformer) 架构在处理长序列依赖和扩展性方面表现出色，使得扩散变换器 (DiT) 能够生成更高质量、更大规模的图像。

3.1.6. FID (Fréchet Inception Distance)

FID (Fréchet Inception Distance) 是一种常用的客观指标，用于评估生成图像的质量和多样性。

概念定义: FID 通过测量生成图像分布和真实图像分布在特征空间 (feature space) 中的距离来评估生成模型的性能。它通常使用一个预训练的Inception-v3 模型来提取图像的特征 (features)。FID 较低表示生成图像的质量和多样性更接近真实图像。
数学公式: $\mathrm{FID}(\mathbf{P}, \mathbf{G}) = ||\mu_{\mathbf{P}} - \mu_{\mathbf{G}}||^2 + \mathrm{Tr}(\Sigma_{\mathbf{P}} + \Sigma_{\mathbf{G}} - 2(\Sigma_{\mathbf{P}}\Sigma_{\mathbf{G}})^{1/2})$
符号解释:
- $\mathbf{P}$ : 真实图像的特征分布 (feature distribution)。
- $\mathbf{G}$ : 生成图像的特征分布 (feature distribution)。
- $\mu_{\mathbf{P}}$ : 真实图像特征分布 (feature distribution) 的均值向量。
- $\mu_{\mathbf{G}}$ : 生成图像特征分布 (feature distribution) 的均值向量。
- $\Sigma_{\mathbf{P}}$ : 真实图像特征分布 (feature distribution) 的协方差矩阵。
- $\Sigma_{\mathbf{G}}$ : 生成图像特征分布 (feature distribution) 的协方差矩阵。
- $||\cdot||^2$ : L2范数的平方。
- $\mathrm{Tr}(\cdot)$ : 矩阵的迹 (trace)。

3.1.7. GFLOPs (Giga Floating-point Operations Per Second)

GFLOPs (Giga Floating-point Operations Per Second) 是衡量计算设备或算法每秒执行十亿次浮点运算的指标。在机器学习中，它常用于评估模型的计算复杂度和推理或训练速度。GFLOPs 越高，通常意味着模型需要的计算资源越多，运行时间越长。

3.1.8. 表示学习 (Representation Learning)

表示学习 (Representation Learning) 是一种机器学习方法，其目标是自动发现输入数据的有用表示 (representations)（或特征 (features)）。这些表示 (representations) 通常是原始数据的低维、更抽象或更具信息量的形式，可以更好地揭示数据中的潜在结构和语义，并有助于下游任务（如分类、聚类或生成）。

3.1.9. 自监督学习 (Self-supervised Learning)

自监督学习 (Self-supervised Learning) 是一种机器学习范式，它通过从数据本身生成监督信号 (supervision signals) 来训练模型，而无需人工标注。模型被训练来解决一些代理任务 (pretext tasks)，例如预测图像被遮蔽的部分（如 MAE），或学习不同视角下同一图像的不变表示 (invariant representations)（如 DINO）。通过这些代理任务 (pretext tasks)，模型可以学习到强大的、通用的表示 (representations)，这些表示 (representations) 随后可以用于各种下游任务。

3.1.10. 多模态编码器 (Multimodal Encoders)

多模态编码器 (Multimodal Encoders) 是一种能够处理并融合来自不同模态（如图像和文本）信息的神经网络模型。例如，CLIP 和 SigLIP 模型可以学习图像和文本的联合嵌入空间 (embedding space)，使得图像和描述其内容的文本在潜在空间 (latent space) 中距离相近。这种能力使得它们能够执行跨模态检索 (cross-modal retrieval) 和零样本分类 (zero-shot classification) 等任务，并学习到语义丰富的视觉表示 (representations)。

3.1.11. 流匹配目标 (Flow Matching Objective)

流匹配目标 (Flow Matching Objective) 是一种用于训练生成模型的新方法，特别是在连续归一化流 (Continuous Normalizing Flows) 或扩散模型 (Diffusion Models) 中。它通过直接学习将简单噪声分布平滑地转换为复杂数据分布的“瞬时速度场 (instantaneous velocity field)” 来实现生成。与传统的扩散模型 (Diffusion Models) 训练目标（如预测噪声）相比，流匹配 (Flow Matching) 目标可以直接优化速度场，旨在最小化模型预测的速度场与数据和噪声之间插值路径上的真实速度场之间的距离，从而简化训练并提高性能。

3.1.12. 分类器无关引导 (Classifier-Free Guidance, CFG)

分类器无关引导 (Classifier-Free Guidance, CFG) 是一种在扩散模型 (Diffusion Models) 中增强生成样本质量和与条件信息（如文本描述、类别标签）对齐程度的技术。它通过结合无条件模型 (unconditional model) 和条件模型 (conditional model) 的输出，来“引导”去噪过程 (denoising process) 朝着与条件信息更一致的方向进行。在分类器无关引导 (CFG) 中，去噪模型 (denoising model) 同时接收条件输入和空条件输入，然后将两者的预测结果以一定权重结合，从而在样本质量和与条件的符合度之间取得平衡。

3.1.13. 自动引导 (AutoGuidance)

自动引导 (AutoGuidance) 是扩散模型 (Diffusion Models) 的一种引导方法，其原理类似于分类器无关引导 (CFG)，但它使用一个较弱 (weaker) 的扩散模型 (Diffusion Model) 来引导一个较强 (stronger) 的扩散模型 (Diffusion Model) 的去噪过程 (denoising process)。这种方法避免了对外部分类器 (classifier) 或复杂条件模型 (conditional model) 的依赖，而是利用模型自身或其较早训练阶段的检查点 (checkpoints) 来提供引导信号。实验观察到，较弱的基础模型 (base models) 和较早的训练检查点 (checkpoints) 通常能产生更强的引导效果，从而提升生成质量。

3.2. 前人工作

3.2.1. 潜在空间生成建模的演变

早期像素空间模型 (Early Pixel-Space Models)：直接在像素层面捕捉图像统计信息，但计算效率较低，且难以捕捉高级语义。
潜在扩散模型 (Latent Diffusion Models, LDM) 和扩散变换器 (DiT)：通过在学习到的紧凑潜在表示 (latent representation) 空间中进行扩散，显著提高了视觉保真度和效率，成为当前最强大的图像和视频生成器。

3.2.2. 自编码器组件的限制与改进尝试

SD-VAE：目前广泛使用的变分自编码器 (VAE) 仍然依赖于重量级的通道压缩和纯粹的重建目标，产生低容量的潜在表示 (latents)，主要捕捉局部外观，但缺乏对扩散模型 (Diffusion Models) 泛化和生成性能至关重要的全局语义结构。此外，SD-VAE 基于传统的卷积架构 (convolutional design)，计算效率低下。
间接改进潜在质量的方法：
- REPA (Yu et al., 2025)：通过将扩散变换器 (DiT) 的中间块与外部表示编码器 (representation encoders) 的特征 (features) 对齐来加速扩散变换器 (DiT) 的收敛。
- DDT (Wang et al., 2025c)：通过将扩散变换器 (DiT) 解耦为编码器-解码器 (encoder-decoder) 结构，并对编码器 (encoder) 输出应用 REPA 损失，进一步改善收敛。
- REG (Wu et al., 2025)：在扩散变换器 (DiT) 序列中引入一个可学习的token，并明确将其与表示编码器 (representation encoders) 的表示 (representation) 对齐。
- ReDi (Kouzelis et al., 2025b)：在扩散模型 (Diffusion Models) 中同时生成VAE潜在表示 (latents) 和 DINOv2 特征 (features) 的 PCA 组件。
- VA-VAE (Yao et al., 2025)：将变分自编码器 (VAE) 潜在表示 (latents) 与预训练表示编码器 (representation encoder) 对齐。
- MAETok (Chen et al., 2025a)、DC-AE 1.5 (Chen et al., 2025d) 和 i-DEtok (Yang et al., 2025)：将 MAE 或 DAE 启发的训练目标融入变分自编码器 (VAE) 训练中，以改善潜在质量。 这些方法通常引入额外的训练阶段、辅助损失和调整复杂性。

3.2.3. 视觉表示学习的快速发展

自监督和多模态编码器：DINO (Oquab et al., 2023)、 $MAE (He et al., 2021)$ 、JEPA (Assran et al., 2023) 以及 CLIP / SigLIP (Radford et al., 2021; Tschannen et al., 2025) 等模型学习到语义结构化的视觉特征 (features)，这些特征 (features) 可以在不同任务和尺度上泛化，为视觉理解提供了自然基础。

3.3. 技术演进

图像生成领域的技术演进经历了从直接在像素空间操作到利用潜在空间进行高效生成的过程。早期模型如自回归模型（Autoregressive Models, AR）直接在像素或量化token上建模，但受限于计算复杂度和采样速度。生成对抗网络 (Generative Adversarial Networks, GANs) 提供了高质量图像，但训练不稳定。

扩散模型 (Diffusion Models) 的出现带来了生成质量和稳定性的重大飞跃。然而，在像素空间直接进行扩散仍然计算量大，于是潜在扩散模型 (Latent Diffusion Models, LDM) 应运而生，将扩散过程转移到由自编码器 (Autoencoder) 编码的低维潜在空间，显著提高了效率。

扩散变换器 (Diffusion Transformers, DiT) 将U-Net 主干网络 (backbone) 替换为变换器 (Transformer)，进一步提升了潜在扩散模型 (LDM) 的可扩展性和性能。但此时，自编码器 (Autoencoder) 组件（尤其是 SD-VAE）却停滞不前，其固有的局限性（过时架构、低维潜在空间、弱语义表示 (representations)）成为扩散变换器 (DiT) 进一步发展的瓶颈。

与此同时，视觉表示学习 (Visual Representation Learning) 独立发展，自监督学习 (Self-supervised Learning) 和多模态预训练 (Multimodal Pretraining) 产生了 DINO、MAE、SigLIP 等强大的表示编码器 (representation encoders)，它们能够学习到语义丰富、泛化性强的特征 (features)。

本文的工作正处于这个技术演进的交叉点，旨在将先进的视觉表示学习 (Visual Representation Learning) 成果与潜在扩散模型 (Latent Diffusion Models) 相结合，通过表示自编码器 (RAE) 替换传统VAE，并针对高维潜在空间带来的新挑战提出解决方案，从而推动扩散变换器 (DiT) 达到新的最先进的 (state-of-the-art) 性能。

3.4. 差异化分析

本文提出的表示自编码器 (RAE) 方法与现有工作的主要区别和创新点如下：

核心理念：直接利用预训练表示，而非间接对齐：
- RAE：直接使用冻结 (frozen) 的预训练表示编码器 (representation encoders)（如 DINO、SigLIP、MAE）作为自编码器 (Autoencoder) 的编码器 (encoder)，并训练一个轻量级解码器。这使得潜在空间直接继承了表示编码器 (representation encoder) 强大的语义表示 (representations) 能力。
- 现有方法（如REPA、VA-VAE、MAETok等）：这些方法试图通过额外的损失函数或训练阶段，将传统变分自编码器 (VAE) 的潜在表示 (latents) 与外部表示编码器 (representation encoders) 的特征 (features) 进行对齐。虽然能改善潜在质量，但本质上仍是基于压缩且低维的VAE潜在空间，且引入了额外的训练复杂性、辅助损失和调整参数。 差异点：RAE 更直接、更简洁地利用了预训练表示 (representations)，避免了间接对齐的复杂性，并且在重建质量和表示 (representations) 质量上均优于 SD-VAE。
潜在空间维度：拥抱高维语义，而非局限于低维压缩：
- RAE：生成的潜在空间通常是高维的，因为表示编码器 (representation encoders) 的token维度通常较高。本文挑战了“高维潜在空间不适合扩散”的传统观念，并证明了在高维空间中进行扩散训练的稳定性和效率，甚至将其视为优势。
- 现有方法：多数工作（包括 SD-VAE 和其改进型）仍然偏好或局限于低维、高度压缩的潜在空间，认为高维会增加扩散模型 (Diffusion Models) 的训练难度。 差异点：RAE 积极探索并解决了在高维潜在空间中训练扩散变换器 (DiT) 的技术挑战，将其从劣势转化为优势。
架构简洁性与效率：
- RAE：编码器 (encoder) 部分是冻结 (frozen) 的预训练视觉变换器 (ViT) 架构，解码器 (decoder) 是轻量级的视觉变换器 (ViT)。这与扩散变换器 (DiT) 的视觉变换器 (ViT) 主干网络 (backbone) 保持架构一致性，简化了整体设计，并提高了计算效率（如 Figure 2 所示，RAE 比 SD-VAE 更高效）。
- SD-VAE：基于传统的卷积架构 (convolutional architecture)，与现代扩散变换器 (DiT) 不一致，且计算效率较低。 差异点：RAE 提供了更现代、更高效、更与扩散变换器 (DiT) 统一的自编码器 (Autoencoder) 解决方案。
DiT在高维空间中的适应性调整：
- 本文：提出了三项针对高维潜在空间的具体调整：DiT 宽度与token维度匹配、维度依赖的噪声调度、以及噪声增强解码。此外，还引入了 DiTDH 架构来进一步优化高维表示 (representations) 的处理。
- 现有方法：这些方法通常没有专门针对高维潜在空间下扩散变换器 (DiT) 的底层架构和训练策略进行系统性研究和优化。 差异点：本文不仅提出了新的自编码器 (Autoencoder)，还系统性地研究了扩散变换器 (DiT) 在高维潜在空间中的行为，并提供了实用的解决方案。

总结来说，本文通过表示自编码器 (RAE) 这一创新途径，直接利用了最先进的 (state-of-the-art) 视觉表示学习 (Visual Representation Learning) 的成果，并针对高维潜在空间下的扩散变换器 (DiT) 训练问题提出了全面而有效的解决方案，从而在生成质量和训练效率上实现了显著超越。

4. 方法论

本文的核心是引入表示自编码器 (Representation Autoencoders, RAEs)，用预训练的表示编码器 (representation encoders) 替代传统的变分自编码器 (VAE) 编码器，并训练一个轻量级解码器。在此基础上，本文针对扩散变换器 (DiT) 在高维RAE潜在空间中训练所面临的挑战，提出了三项关键的技术改进，并引入了一种新的扩散变换器 (DiT) 架构变体 DiTDH 来提升可扩展性。

4.1. 方法原理

表示自编码器 (RAE) 的核心思想是利用已经过大规模预训练的视觉表示编码器 (visual representation encoders)（如 DINO、SigLIP、MAE）作为自编码器 (Autoencoder) 的编码器 (encoder) 部分。这些预训练编码器 (encoders) 已经学习到了语义丰富且具有良好泛化能力的视觉特征 (visual features)。通过冻结 (frozen) 这些编码器 (encoders)，并仅训练一个轻量级的解码器 (decoder) 将其输出的潜在表示 (latent representations) 重建回像素空间，我们能够获得一个既能高质量重建图像又具有强大语义信息的潜在空间。这种设计挑战了传统观念中“语义编码器 (encoders) 不适合重建”以及“扩散模型 (Diffusion Models) 在高维潜在空间中表现不佳”的假设。

4.2. 核心方法详解 (逐层深入)

4.2.1. 高质量重建与表示自编码器 (RAE)

表示自编码器 (RAE) 由一个冻结 (frozen) 的预训练表示编码器 (representation encoder) $E$ 和一个训练解码器 (trained decoder) $D$ 组成。

编码过程 (Encoding Process): 给定输入图像 $\mathbf{x} \in \mathbb{R}^{3 \times H \times W}$ （其中 3 是通道数， H, W 是图像的高度和宽度），冻结 (frozen) 的表示编码器 (representation encoder) $E$ 会将其处理为一系列token。 $z = E(\mathbf{x})$
- $E$ : 预训练的表示编码器 (representation encoder)，例如 DINOv2-B、SigLIP2-B、MAE-B。这些编码器 (encoders) 通常采用视觉变换器 (Vision Transformer, ViT) 架构。
- $p_e$ : 编码器 (encoder) 的patch大小。例如，DINOv2-B 的 $p_e = 14$ ，SigLIP2-B 和 MAE-B 的 $p_e = 16$ 。
- $d$ : 编码器 (encoder) 的隐藏维度 (hidden dimension)。例如，DINOv2-B、SigLIP2-B 和 MAE-B 的 $d = 768$ 。
- $N$ : 产生的token数量，计算方式为 $N = H W / p_e^2$ 。对于 $256 \times 256$ 图像和 $p_e=16$ （或 $p_e=14$ 插值后），通常产生 256 个token。
- token 的形状为 $N \times d$ 。在将特征 (features) 输入解码器之前，对每个token独立进行层归一化 (Layer Normalization)，以确保其均值为零、方差为一。
解码过程 (Decoding Process): 训练后的视觉变换器 (ViT) 解码器 (decoder) $D$ 接收编码器 (encoder) 产生的token $z$ ，并将其映射回像素空间，生成重建图像 $\hat{x}$ 。 $\hat{x} = D(z)$
- $D$ : 基于视觉变换器 (ViT) 的解码器 (decoder)。其 patch 大小 $p_d$ 默认与 $p_e$ 相同，以重建原始分辨率图像。为了实现高分辨率合成，可以通过设置 $p_d = 2p_e$ 来实现 $2\times$ 上采样。
- 解码器 (decoder) 的输入序列前会添加一个可学习的 [CLS] token，但在解码后会被丢弃，遵循 MAE 的设计。
解码器训练目标 (Decoder Training Objective): 解码器 (decoder) $D$ 通过最小化以下损失函数 $\mathcal{L}_{rec}$ 进行训练，该损失结合了 L1 损失、LPIPS 损失和对抗损失 GAN。 $\begin{array} { r } { z = E ( x ) , \hat { x } = D ( z ) \quad } \\ { \mathcal { L } _ { r e c } ( x ) = \omega _ { L } \mathrm { LPIPS } ( \hat { x } , x ) + \mathrm { L1 } ( \hat { x } , x ) + \omega _ { G } \lambda \mathrm { GAN } ( \hat { x } , x ) , } \end{array}$
- $x$ : 原始输入图像。
- $\hat{x}$ : 解码器 (decoder) $D$ 重建的图像。
- $\mathrm{L1}(\hat{x}, x)$ : 像素级别的 L1 损失，衡量重建图像与原始图像的绝对差异。
- $\mathrm{LPIPS}(\hat{x}, x)$ : 感知损失 (Perceptual Loss)，基于预训练深度神经网络 (neural network) 的特征空间 (feature space) 中的距离来衡量图像相似性，旨在捕捉人类视觉感知上的差异。
- $\mathrm{GAN}(\hat{x}, x)$ : 生成对抗网络 (Generative Adversarial Network, GAN) 损失，通过训练一个判别器 (discriminator) 来区分真实图像和重建图像，促使解码器 (decoder) 生成更逼真的图像。
- $\omega_L = 1$ : LPIPS 损失的权重系数。
- $\omega_G = 0.75$ : GAN 损失的权重系数。
- $\lambda$ $λ$ : 生成对抗网络 (GAN) 损失的自适应权重，用于平衡重建损失和对抗损失的尺度。其定义如下： $\lambda = \frac { \lVert \nabla _ { \hat { x } } \mathcal { L } _ { r e c } \rVert } { \lVert \nabla _ { \hat { x } } \mathrm { GAN } ( \hat { x } , x ) \rVert + \epsilon } ,$
  - $\nabla_{\hat{x}} \mathcal{L}_{rec}$ : 重建损失 $\mathcal{L}_{rec}$ 对重建图像 $\hat{x}$ 的梯度。
  - $\nabla_{\hat{x}} \mathrm{GAN}(\hat{x}, x)$ : 生成对抗网络 (GAN) 损失对重建图像 $\hat{x}$ 的梯度。
  - $\epsilon$ : 一个小的常数，用于防止除零。这个自适应权重确保了在训练过程中，生成器 (generator)（即解码器 (decoder)）能够同时关注像素级重建和生成对抗的逼真度。

以下是原文 Figure 8 的重建示例，展示了不同 RAE （DINOv2-B, SigLIP2-B, MAE-B）与 SD-VAE 的重建效果。

Figure 8: Reconstruction examples. From left to right: input image, RAE (DINOv2-B), RAE (SigLIP2-B), RAE (MAE-B), SD-VAE. Zoom in for details.
该图像是重建示例，展示了输入图像以及基于 DINOv2-B、SigLIP2-B 和 MAE-B 的表示自编码器 (RAE) 的重建效果，最后是 SD-VAE 的结果。图像从左到右分别为输入图像、RAE (DINOv2-B)、RAE (SigLIP2-B)、RAE (MAE-B) 和 SD-VAE。

Figure 8: Reconstruction examples. From left to right: input image, RAE (DINOv2-B), RAE (SigLIP2-B), RAE (MAE-B), SD-VAE. Zoom in for details.

4.2.2. 驯服扩散变换器 (DiT) 以适应 RAE 潜在空间

标准的扩散变换器 (DiT) 配置在 RAE 的高维潜在空间中表现不佳。本文提出了三项关键改进：

扩展 DiT 宽度以匹配 token 维度 (Scaling DiT Width to Match Token Dimensionality):
- 问题：当扩散模型 (Diffusion Model) 的宽度（hidden dimension）小于 RAE 潜在表示 (latent representation) 的token维度时，模型会表现出明显的性能下降，难以收敛或生成高质量样本。
- 解决方案：将扩散变换器 (DiT) 的宽度（hidden dimension）设置为至少与 RAE 的token维度相同或更大。例如，DINOv2-B 的token维度为 768，则 DiT 的宽度应至少为 768。
- 理论证明 (Theorem 1)：假设 $\mathbf{x} \sim p(\mathbf{x}) \in \mathbb{R}^n$ $x \sim p (x) \in R^{n}$ , $\varepsilon \sim \mathcal{N}(0, \mathbf{I}_n)$ $ε \sim N (0, I_{n})$ , $t \in [0, 1]$ $t \in [0, 1]$ 。令 $\mathbf{x}_t = (1-t)\mathbf{x} + t\varepsilon$ $x_{t} = (1 - t) x + tε$ ，考虑函数族 $\mathcal { G } _ { d } = \left \{ g ( \mathbf { x } _ { t } , t ) = B f ( A \mathbf { x } _ { t } , t ) : A \in \mathbb { R } ^ { d \times n } , B \in \mathbb { R } ^ { n \times d } , f : [ 0 , 1 ] \times \mathbb { R } ^ { d } \to \mathbb { R } ^ { d } \right \}$ 其中 $d < n$ $d < n$ ， $f$ $f$ 是指宽度小于表示编码器 (representation encoder) token维度的标准扩散变换器 (DiT) 块堆栈，A, B 分别表示输入和输出的线性投影。那么对于任何 $g \in \mathcal{G}_d$ $g \in G_{d}$ ， $\mathcal { L } ( g , \theta ) = \int _ { 0 } ^ { 1 } \mathbb { E } _ { \mathbf { x } \sim p ( \mathbf { x } ) , \mathbf { \boldsymbol { \varepsilon } } \sim \mathcal { N } ( 0 , \mathbf { I } _ { n } ) } \big [ \| g ( \mathbf { x } _ { t } , t ) - ( \boldsymbol { \varepsilon } - \mathbf { x } ) \| ^ { 2 } \big ] \mathrm { d } t \ge \sum _ { i = d + 1 } ^ { n } \lambda _ { i }$ 其中 $\lambda_i$ $λ_{i}$ 是随机变量 $W = \varepsilon - \mathbf{x}$ $W = ε - x$ 的协方差矩阵的特征值。值得注意的是，当 $d \geq n$ $d \geq n$ 时， $\mathcal{G}_d$ $G_{d}$ 包含 $\mathcal{L}(g, \theta)$ $L (g, θ)$ 的唯一最小化器。
  - 符号解释:
    - $\mathbf{x}$ : 真实数据样本。
    - $p(\mathbf{x})$ : 真实数据分布。
    - $n$ : 潜在表示 (latent representation) 的维度。
    - $\varepsilon$ : 标准正态分布 $\mathcal{N}(0, \mathbf{I}_n)$ 中抽取的噪声。
    - $\mathbf{x}_t$ : 随时间 $t$ 变化的噪声数据 (noisy data)，由真实数据和噪声线性插值得到。
    - $g(\mathbf{x}_t, t)$ : 扩散模型 (Diffusion Model) 预测的速度（或噪声）。
    - $\mathcal{G}_d$ : 函数族，表示扩散模型 (Diffusion Model) 的结构，其内部隐藏维度 (hidden dimension) 为 $d$ 。
    - $A \in \mathbb{R}^{d \times n}, B \in \mathbb{R}^{n \times d}$ : 输入和输出的线性投影矩阵，将 $n$ 维潜在表示 (latents) 映射到 $d$ 维，再映射回 $n$ 维。
    - $f: [0, 1] \times \mathbb{R}^d \to \mathbb{R}^d$ : 扩散变换器 (DiT) 的核心模块，在 $d$ 维空间中操作。
    - $\mathcal{L}(g, \theta)$ : 扩散模型 (Diffusion Model) 的训练损失函数，通常是预测误差的平方。
    - $W = \varepsilon - \mathbf{x}$ : 目标速度 (target velocity)。
    - $\lambda_i$ : 协方差矩阵 $\mathrm{Cov}(W)$ 的特征值。
  - 含义: 这个定理表明，如果扩散模型 (Diffusion Model) 的内部隐藏维度 (hidden dimension) $d$ 小于潜在表示 (latent representation) 的实际维度 $n$ ，那么它的训练损失存在一个下界，该下界由未被模型捕获的维度上的方差决定。只有当 $d \geq n$ 时，模型才有可能完全拟合目标速度 (target velocity)，从而达到理论上的最小损失（零）。这从理论上解释了为什么DiT的宽度必须匹配token维度才能成功在高维RAE潜在空间中进行生成。
维度依赖的噪声调度 (Dimension-Dependent Noise Schedule Shift):
- 问题：传统的噪声调度策略（如 Esser et al., 2024）主要基于像素或 VAE 编码 (encoding) 的输入，这些输入通常通道数较少。当表示自编码器 (RAE) 引入高维token时，等效的“分辨率”会随通道数增加而提高，导致在相同噪声水平下信息腐蚀减少，从而影响扩散模型 (Diffusion Model) 训练。
- 解决方案：将噪声调度策略泛化到有效数据维度 (effective data dimension)，即token数量乘以token维度。采用以下平移策略：对于调度 $t_n \in [0, 1]$ $t_{n} \in [0, 1]$ 和输入维度 n, m，平移后的时间步长 $t_m$ $t_{m}$ 定义为： $t_m = \frac { \alpha t_n } { 1 + ( \alpha - 1 ) t_n }$ 其中 $\alpha = \sqrt{m/n}$ $α = m / n$ 是一个维度依赖的缩放因子。
  - 符号解释:
    - $t_n$ : 原始时间步长。
    - $t_m$ : 平移后的时间步长。
    - $n$ : 基准维度（例如，Esser et al., 2024 中使用 4096 作为基准）。
    - $m$ : 表示自编码器 (RAE) 的有效数据维度 (effective data dimension)（token数量乘以token维度）。
    - $\alpha$ : 维度依赖的缩放因子。
  - 含义: 这个公式通过调整时间步长，使得高维潜在空间中的扩散模型 (Diffusion Model) 在训练时能够更好地适应其更高的信息容量和更低的相对噪声腐蚀，从而取得显著的性能提升。
噪声增强解码 (Noise-Augmented Decoding):
- 问题：表示自编码器 (RAE) 的解码器 (decoder) 是在离散支持 (discretely supported) 的干净潜在表示 (latents) 上训练的，但在推理时，扩散模型 (Diffusion Model) 生成的潜在表示 (latents) 可能带有微小的噪声或与训练分布略有偏差，这会给解码器 (decoder) 带来分布外 (out-of-distribution, OOD) 的挑战，从而降低采样 (sampling) 质量。
- 解决方案：在表示自编码器 (RAE) 解码器 (decoder) 训练中引入附加噪声。具体来说，不是直接从干净的潜在分布 $p(\mathbf{z})$ $p (z)$ 进行解码，而是在平滑分布 $p_{\mathbf{n}}(\mathbf{z})$ $p_{n} (z)$ 上训练解码器 (decoder)： $p_{\mathbf{n}}(\mathbf{z}) = \int \bar{p}(\mathbf{z} - \mathbf{n}) \bar{\mathcal{N}}(0, \sigma^2 \mathbf{I})(\mathbf{n}) \mathrm{d}\mathbf{n}$
  - 符号解释:
    - $p(\mathbf{z})$ : 原始的干净潜在表示 (latent representation) 分布。
    - $p_{\mathbf{n}}(\mathbf{z})$ : 噪声增强后的平滑潜在表示 (latent representation) 分布。
    - $\mathbf{z}$ : 潜在表示 (latent representation)。
    - $\mathbf{n}$ : 从高斯分布 $\mathcal{N}(0, \sigma^2 \mathbf{I})$ 中采样的附加噪声。
    - $\sigma$ : 噪声的标准差，从 $|\mathcal{N}(0, \tau^2)|$ 中采样，引入随机性以进一步正则化训练和提高鲁棒性。
  - 含义: 通过向潜在表示 (latents) 中添加噪声进行训练，解码器 (decoder) 学会处理更广泛的输入，从而提高了其对扩散模型 (Diffusion Model) 生成的略带噪声的潜在表示 (latents) 的泛化能力和鲁棒性，最终提升了生成样本的质量，尽管可能略微降低了精确重建质量。

4.2.3. 通过宽扩散头 (Wide Diffusion Head) 提高模型可扩展性 (DiTDH)

为了进一步解决在高维RAE潜在空间中训练扩散变换器 (DiT) 的计算成本问题，本文引入了 DiTDH 架构。

DiTDH 架构 (DiTDH Architecture): DiTDH 模型由一个基础 DiT (base DiT) $M$ $M$ 和一个额外的宽而浅的变换器头 (wide, shallow transformer head) $H$ $H$ 组成。给定一个噪声输入 $x_t$ $x_{t}$ 、时间步 $t$ $t$ 和可选的类别标签 $y$ $y$ ，组合模型预测速度 $v_t$ $v_{t}$ 。 $\begin{array} { r } { z _ { t } = M ( x _ { t } \mid t , y ) , } \\ { v _ { t } = H ( x _ { t } \mid z _ { t } , t ) , } \end{array}$
- $x_t$ : 噪声输入潜在表示 (latent representation)。
- $t$ : 时间步。
- $y$ : 可选的类别标签。
- $M$ : 基础 DiT (base DiT) 主干网络 (backbone)，执行初步的去噪或特征提取。
- $z_t$ : 基础 DiT (base DiT) $M$ 的输出，作为DDT头 (DDT head) $H$ 的条件输入。
- $H$ : 宽而浅的变换器头 (wide, shallow transformer head)，专门用于最终的去噪预测。
- $v_t$ : 最终预测的速度，用于扩散模型 (Diffusion Model) 的采样过程。
- 含义: 这种设计使得扩散模型 (Diffusion Model) 能够在不增加整个主干网络 (backbone) 宽度（这会导致计算成本的二次增长）的情况下，有效地处理高维潜在表示 (latents)。通过将大部分宽度需求转移到一个轻量级、独立的DDT头 (DDT head)，DiTDH 在保持计算效率的同时，满足了高维空间对模型宽度的要求。它还充当了一个过滤器，滤除高维RAE潜在表示 (latents) 中可能存在的噪声信息。
  
  下图 (原文 Figure 5) 展示了DiTDH的结构：
  
  该图像是图示，展示了宽DDT头与扩散变换器（DiT）之间的关系。图中展示了输入信息 $x_t, t, y$ 如何流入DiT模块，以及从DiT输出到DDT头的连接，最终生成输出 $v_t$ 。

Figure 5: The Wide DDT Head.

5. 实验设置

5.1. 数据集

本文主要使用 ImageNet-1K (Russakovsky et al., 2015) 数据集进行解码器 (decoder) 和扩散模型 (Diffusion Model) 的训练与评估。

来源：ImageNet-1K 是一个大规模的图像分类数据集，包含约 128 万张训练图像和 5 万张验证图像，涵盖 1000 个类别。
规模与特点：数据集类别丰富，图像内容多样，是计算机视觉领域标准且具有挑战性的基准数据集 (benchmark dataset) 之一。
分辨率：大多数实验在 $256 \times 256$ 分辨率下进行。对于 $512 \times 512$ 分辨率的合成，解码器 (decoder) 直接在 $512 \times 512$ 图像上训练，或者通过上采样解码器实现。
选择原因：ImageNet-1K 作为图像生成领域公认的基准数据集 (benchmark dataset)，能够有效验证模型在复杂自然图像生成任务上的性能和泛化能力。

5.2. 评估指标

本文采用以下评估指标来量化表示自编码器 (RAE) 的重建质量和扩散模型 (Diffusion Model) 的生成性能：

5.2.1. rFID (Reconstruction Fréchet Inception Distance)

概念定义: rFID 是 FID 的一个变体，专门用于评估自编码器 (Autoencoder) 的重建质量。它衡量的是模型重建图像的分布与原始输入图像的分布之间的距离。rFID 较低表示重建图像在感知质量和多样性上更接近原始图像。
数学公式: 同 FID。 $\mathrm{rFID}(\mathbf{P}, \mathbf{G}) = ||\mu_{\mathbf{P}} - \mu_{\mathbf{G}}||^2 + \mathrm{Tr}(\Sigma_{\mathbf{P}} + \Sigma_{\mathbf{G}} - 2(\Sigma_{\mathbf{P}}\Sigma_{\mathbf{G}})^{1/2})$
符号解释:
- $\mathbf{P}$ : 真实图像的特征分布 (feature distribution)。
- $\mathbf{G}$ : 解码器 (decoder) 重建图像的特征分布 (feature distribution)。
- $\mu_{\mathbf{P}}$ : 真实图像特征分布 (feature distribution) 的均值向量。
- $\mu_{\mathbf{G}}$ : 重建图像特征分布 (feature distribution) 的均值向量。
- $\Sigma_{\mathbf{P}}$ : 真实图像特征分布 (feature distribution) 的协方差矩阵。
- $\Sigma_{\mathbf{G}}$ : 重建图像特征分布 (feature distribution) 的协方差矩阵。
- $||\cdot||^2$ : L2范数的平方。
- $\mathrm{Tr}(\cdot)$ : 矩阵的迹 (trace)。

5.2.2. gFID (Generation Fréchet Inception Distance)

概念定义: gFID 同样是 FID 的一个变体，用于评估生成模型 (Generative Model)（如扩散模型 (Diffusion Model)）的生成质量。它衡量的是模型生成图像的分布与真实图像的分布之间的距离。gFID 较低表示生成图像的质量和多样性更接近真实图像。
数学公式: 同 FID。 $\mathrm{gFID}(\mathbf{P}, \mathbf{G}) = ||\mu_{\mathbf{P}} - \mu_{\mathbf{G}}||^2 + \mathrm{Tr}(\Sigma_{\mathbf{P}} + \Sigma_{\mathbf{G}} - 2(\Sigma_{\mathbf{P}}\Sigma_{\mathbf{G}})^{1/2})$
符号解释:
- $\mathbf{P}$ : 真实图像的特征分布 (feature distribution)。
- $\mathbf{G}$ : 扩散模型 (Diffusion Model) 生成图像的特征分布 (feature distribution)。
- $\mu_{\mathbf{P}}$ : 真实图像特征分布 (feature distribution) 的均值向量。
- $\mu_{\mathbf{G}}$ : 生成图像特征分布 (feature distribution) 的均值向量。
- $\Sigma_{\mathbf{P}}$ : 真实图像特征分布 (feature distribution) 的协方差矩阵。
- $\Sigma_{\mathbf{G}}$ : 生成图像特征分布 (feature distribution) 的协方差矩阵。
- $||\cdot||^2$ : L2范数的平方。
- $\mathrm{Tr}(\cdot)$ : 矩阵的迹 (trace)。

5.2.3. IS (Inception Score)

概念定义: IS 用于评估生成图像的质量和多样性。它基于预训练的Inception-v3 模型对生成图像进行分类，并计算分类结果的统计量。IS 越高通常意味着生成图像既清晰可辨（分类熵低），又具有多样性（边际类别分布熵高）。
数学公式: $\mathrm{IS}(G) = \exp(\mathbb{E}_{\mathbf{x} \sim G} [D_{KL}(p(y|\mathbf{x}) || p(y))])$
符号解释:
- $G$ : 生成模型 (Generative Model)。
- $\mathbf{x}$ : 从生成模型 (Generative Model) $G$ 中采样的图像。
- $p(y|\mathbf{x})$ : 预训练Inception-v3 模型对图像 $\mathbf{x}$ 预测的类别条件概率分布。
- p(y): 所有生成图像的边际类别概率分布。
- $D_{KL}(P||Q)$ : KL散度 (Kullback-Leibler divergence)，衡量两个概率分布 $P$ 和 $Q$ 之间的差异。
- $\mathbb{E}_{\mathbf{x} \sim G} [\cdot]$ : 对从生成模型 (Generative Model) $G$ 采样的所有图像的期望。

5.2.4. Precision and Recall

概念定义: Precision 和 Recall 是衡量生成模型 (Generative Model) 性能的两个互补指标。Precision 反映了生成图像的“真实性”或“质量”，即生成图像中有多少比例是看起来真实的。Recall 反映了生成图像的“多样性”或“覆盖度”，即生成图像涵盖了真实数据流形中多少比例的内容。高Precision和高Recall都 desirable。
数学公式: (原文未直接给出，这里补充通用公式) Precision 和 Recall 通常在特征空间 (feature space) 中定义，通过构建真实数据和生成数据邻域的K-最近邻图 (K-nearest neighbors graphs) 来计算。
- Precision: 生成图像集中，有多少比例的图像其特征向量 (feature vector) 落在真实图像的特征空间 (feature space) 流形附近。 $\text{Precision} = \frac{|\{\mathbf{g} \in \mathcal{G} \mid \text{dist}(\mathbf{g}, \mathcal{P}) < \tau \}|}{|\mathcal{G}|}$
- Recall: 真实图像集中，有多少比例的图像其特征向量 (feature vector) 被生成图像的特征空间 (feature space) 流形所覆盖。 $\text{Recall} = \frac{|\{\mathbf{p} \in \mathcal{P} \mid \text{dist}(\mathbf{p}, \mathcal{G}) < \tau \}|}{|\mathcal{P}|}$
符号解释:
- $\mathcal{G}$ : 生成图像的特征集 (feature set)。
- $\mathcal{P}$ : 真实图像的特征集 (feature set)。
- $\mathbf{g}$ : 生成图像的特征向量 (feature vector)。
- $\mathbf{p}$ : 真实图像的特征向量 (feature vector)。
- $\text{dist}(\cdot, \cdot)$ : 两个特征向量 (feature vector) 之间的距离，或者特征向量 (feature vector) 到特征集 (feature set) 的距离。
- $\tau$ : 距离阈值，用于定义“附近”的范围。

5.3. 对比基线

本文将RAE与DiTDH组合的性能与以下几类最先进的 (state-of-the-art) 图像生成模型进行了比较：

5.3.1. 自回归模型 (Autoregressive Models)

这类模型逐token生成图像，擅长捕捉局部细节，但采样速度通常较慢。

VAR (Tian et al., 2024)
MAR (Li et al., 2024b)
xAR (Ren et al., 2025)

5.3.2. 像素扩散模型 (Pixel Diffusion)

这类模型直接在像素空间进行扩散和去噪，计算成本较高。

ADM (Dhariwal & Nichol, 2021)
RIN (Jabri et al., 2023)
PixelFlow (Chen et al., 2025e)
PixNerd (Wang et al., 2025b)
SiD2 (Hoogeboom et al., 2025)

5.3.3. 潜在扩散模型与VAE (Latent Diffusion with VAE)

这类模型在变分自编码器 (VAE) 编码的潜在空间进行扩散，是本文的主要对比对象。

DiT (Peebles & Xie, 2023)：标准的扩散变换器 (Diffusion Transformer)。
MaskDiT (Zheng et al.)
SiT (Ma et al., 2024)：基于流匹配 (flow matching) 目标的扩散变换器 (Diffusion Transformer)。
MDTv2 (Gao et al., 2023)
VA-VAE (Yao et al., 2025)：旨在通过对齐变分自编码器 (VAE) 潜在表示 (latents) 与预训练表示编码器 (representation encoder) 来改进变分自编码器 (VAE)。
REPA (Yu et al., 2025)：通过表示对齐 (representation alignment) 加速扩散变换器 (DiT) 收敛。
DDT (Wang et al., 2025c)：解耦扩散变换器 (DiT)，并应用 REPA 损失。
REPA-E (Leng et al., 2025)：通过潜在扩散变换器 (latent diffusion transformers) 实现变分自编码器 (VAE) 的端到端微调 (end-to-end tuning)。

本文的方法 (DiTDH-XL (DINOv2-B)) 在这些基线模型 (Baselines) 中脱颖而出，特别是在 FID 分数上取得了显著的提升，展示了表示自编码器 (RAE) 和 DiTDH 架构的优越性。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. RAE 的重建与表示质量

表示自编码器 (RAE) 在重建质量 (rFID) 和表示 (representations) 质量（线性探测准确率）方面持续超越 SD-VAE，且效率更高。以下是原文 Table 1 的结果：

Model	rFID

DINOv2-B	0.49
SigLIP2-B	0.53
MAE-B	0.16
SD-VAE	0.62

Encoder	rFID
DINOv2-S	0.52
DINOv2-B	0.49
DINOv2-L	0.52

Decoder	rFID	GFLOPs
ViT-B	0.58	22.2
ViT-L	0.50	78.1
ViT-XL	0.49	106.7
SD-VAE	0.62	310.4

Model	Top-1 Acc.
DINOv2-B	84.5
SigLIP2-B	79.1
MAE-B	68.0
SD-VAE	8.0

Table 1: RAEs consistently outperform SD-VAE in reconstruction (rFID) and representation quality (linear probing accuracy) on ImageNet-1K, while being more efficient. If not specified, we use ViTXL as the decoder and DINOv2-B as the encoder for RAE. Default settings in this paper are in gray.

重建质量 (rFID)：RAEs（例如 MAE-B 的 rFID 为 0.16）的rFID显著低于 SD-VAE（0.62），表明其重建图像更接近真实图像。这挑战了语义编码器 (semantic encoders) 不擅长像素级细节重建的假设。
表示质量 (Linear Probing Accuracy)：RAEs 继承了其冻结 (frozen) 预训练编码器 (encoders) 的强大表示能力 (representation capability)，在 ImageNet-1K 线性探测任务上取得了极高的准确率（例如 DINOv2-B 为 84.5%），而 SD-VAE 仅为 8.0%。这表明 RAE 潜在空间具有丰富的语义信息。
效率：RAE 解码器 (decoder)（即使是 ViT-XL）的 GFLOPs 远低于 SD-VAE，在提高质量的同时降低了计算成本。
扩展性：编码器 (encoder) 尺寸的增加对rFID影响不大，说明即使是小尺寸表示编码器 (representation encoders) 也足以保留足够的低层细节。解码器 (decoder) 尺寸的增加可以进一步提高重建质量。

6.1.2. DiT 在 RAE 潜在空间中的训练挑战及解决方案的有效性

最初，标准扩散变换器 (DiT) 在 RAE 潜在空间中表现不佳。以下是原文 Table 2 的结果：

	RAE	SD-VAE
DiT-S	215.76	51.74
DiT-XL	23.08	7.13

Table 2: Standard DiT struggles to model RAE's latent distribution.

通过提出的三项解决方案，性能得到了显著改善。

DiT 宽度匹配：实验证明，扩散模型 (Diffusion Model) 的宽度必须匹配或超过 RAE 的token维度才能成功生成。当模型宽度 $d < \text{token}$ 维度 $n$ 时，样本质量很差，损失难以收敛；当 $d \geq n$ 时，性能显著提升。增加模型深度对解决此问题作用不大，进一步印证了宽度的重要性。以下是原文 Table 3 的结果：

DiT-S DiT-B DiT-L
DINOv2-S 3.6e-2 √ 1.0e-3 9.7e-4
DINOv2-B 5.2e-1x 2.4e-2 ✓ 1.3e-3
DINOv2-L 6.5e-1 X 2.7e-1X 2.2e-2 ✓

Table 3: Overfitting losses. Compared between different combinations of model width and token dimension.
维度依赖的噪声调度：应用维度依赖的噪声调度平移后，gFID 从 23.08 大幅下降到 4.81，表明其对高维 RAE 潜在空间的重要性。以下是原文 Table 4 的结果：

gFID
w/o shift 23.08
w/ shift 4.81

Table 4: Impact of schedule shift.
噪声增强解码：虽然会略微降低 rFID（0.49 到 0.57），但显著改善了 gFID（4.81 到 4.28），验证了其在处理扩散模型 (Diffusion Model) 生成的噪声潜在表示 (latents) 方面的有效性。以下是原文 Table 5 的结果：

gFID rFID
z∼ p(z) 4.81 0.49
Z ∼pn(z) 4.28 0.57

Table 5: Impact of $p _ { \mathbf { n } } ( \mathbf { z } )$ .

6.1.3. DiTDH 的效率与收敛速度

DiTDH 模型在 FLOPs 效率和收敛速度方面均优于标准 DiT 和其他最先进的 (state-of-the-art) 方法。以下是原文 Figure 4 的结果：

Figure 4: DiT w/ RAE reaches much faster convergence and better FID than SiT or REPA.
该图像是一个折线图，展示了不同模型（SiT-XL、REPA-XL 和 DiT-XL）在训练时期数与FID分数之间的关系。可以看到，DiT-XL（RAE: DINOv2-B）在训练周期数达到1400时，相较于SiT-XL和REPA-XL实现了显著的收敛速度，效率提升分别为16倍和47倍。

Figure 4: DiT w/ RAE reaches much faster convergence and better FID than SiT or REPA.

DiTDH-B 仅需 DiT-XL 约 40% 的训练 FLOPs，却能取得更好的性能。
DiTDH-XL 在 80 个 epochs 后达到 2.39 的 gFID，比 SiT-XL 训练速度快 47 倍，比 REPA-XL 快 16 倍，并在 $5 \times 10^{11}$ GFLOPs 时达到整体最佳 FID，所需计算量减少 40 倍。

6.1.4. 最先进的图像生成性能

本文方法在 ImageNet 上取得了最先进的 (state-of-the-art) 性能。以下是原文 Table 8 的结果：

Method		Epochs #Params	Generation@256 w/o guidance				Generation@256 w/ guidance
Method		Epochs #Params	gFID↓	IS↑	Prec.↑	Rec.↑	gFID↓	IS↑	Prec.↑	Rec.↑
Autoregressive
VAR (Tian et al., 2024)	350	2.0B	1.92	323.1	0.82	0.59	1.73	350.2	0.82	0.60
MAR (Li et al., 2024b)	800	943M	2.35	227.8	0.79	0.62	1.55	303.7	0.81	0.62
xAR (Ren et al., 2025)	800	1.1B	-	-	-	-	1.24	301.6	0.83	0.64
Pixel Diffusion
ADM (Dhariwal & Nichol, 2021)	400	554M	10.94	101.0	0.69	0.63	3.94	215.8	0.83	0.53
RIN (Jabri et al., 2023)	480	410M	3.42	182.0	-	-	-	-	-	-
PixelFlow (Chen et al., 2025e)	320	677M	-	-	-	-	1.98	282.1	0.81	0.60
PixNerd (Wang et al., 2025b)	160	700M		-		-	2.15	297.0	0.79	0.59
SiD2 (Hoogeboom et al., 2025)	1280	-	-	-	-	-	-	1.38	-	-	-
Latent Diffusion with VAE
DiT (Peebles & Xie, 2023)	1400	675M	9.62	121.5	0.67	0.67	2.27	278.2	0.83	0.57
MaskDiT (Zheng et al.)	1600	675M	5.69	177.9	0.74	0.60	2.28	276.6	0.80	0.61
SiT (Ma et al., 2024)	1400	675M	8.61	131.7	0.68	0.67	2.06	270.3	0.82	0.59
MDTv2 (Gao et al., 2023)	1080	675M	-	-	-	-	1.58	314.7	0.79	0.65
VA-VAE (Yao et al., 2025)	80 800	675M	4.29 2.17	- 205.6	- 0.77	- 0.65	- 1.35	- 295.3	- 0.79	- 0.65
REPA (Yu et al., 2025)	80 800	675M	7.90 5.78	122.6 158.3	0.70 0.70	0.65 0.68	- 1.29	- 306.3	- 0.79	- 0.64
DDT (Wang et al., 2025c)	80 400	675M	6.62 6.27	135.2 154.7	0.69 0.68	0.67 0.69	1.52 1.26	263.7 310.6	0.78 0.79	0.63 0.65
REPA-E (Leng et al., 2025)	80 800	675M	3.46 1.70	159.8 217.3	0.77 0.77	0.63 0.66	1.67 1.15	266.3 304.0	0.80 0.79	0.63 0.66
Latent Diffusion with RAE (Ours)
DiT-XL (DINOv2-S)	800	676M	1.87	209.7	0.80	0.63	1.41	309.4	0.80	0.63
DiTDH-XL (DINOv2-B)	20		3.71	198.7	0.86	0.50	−	−
	80	839M	2.16	214.8	0.82	0.59
	800		1.51	242.9	0.79	0.63	1.13	262.6	0.78	0.67

Table 8: Class-conditional performance on ImageNet $256 \times 256$ . RAE reaches an FID of 1.51 without guidance, outperforming all prior methods by a large margin. It also achieves an FID of 1.13 with AutoGuidance (Karras et al., 2025). We identified an inconsistency in the FID evaluation protocol in prior literature and re-ran the sampling process for several baselines. This resulted in higher baseline numbers than those originally reported. Further details are discussed in Section 5.1.

ImageNet 256x256：DiTDH-XL (DINOv2-B) 在无引导条件下达到 1.51 FID，超越所有现有方法；在自动引导 (AutoGuidance) 下达到 1.13 FID，同样是最先进的 (state-of-the-art)。以下是原文 Table 7 的结果：

Method	Generation@512
	gFID↓ IS↑	Prec.↑	Rec.↑
BigGAN-deep (Brock et al., 2019) StyleGAN-XL (Sauer et al., 2022)	8.43 2.41	177.9 0.88 267.8	0.29 0.52
		0.77
VAR (Tian et al., 2024)	2.63	303.2 -	-
MAGVIT-v2 (Yu et al., 2024a) XAR (Ren et al., 2025)	1.91	324.3 281.5	- -
	1.70	-
ADM SiD2	3.85 1.50	221.7 0.84 -	0.53 -
DiT		- 0.84	0.54
SiT	3.04	240.8	0.57
DiffiT (Hatamizadeh et al., 2024)	2.62	252.2 0.84	0.55
REPA	2.67	252.1	0.83
DDT	2.08	274.6 0.83	0.58 0.63
EDM2 (Karras et al., 2024)	1.28	305.1	0.80
	1.25	-	- -
DiTDH-XL (DINOv2-B)	1.13	259.6 0.80	0.63

Table 7: Class-conditional performance on ImageNet $512 \times 512$ with guidance. DiTDH with 400- epoch training achieves an strong FID score of 1.13.

ImageNet 512x512：DiTDH-XL (DINOv2-B) 在自动引导 (AutoGuidance) 下也达到 1.13 FID，超越了 EDM-2（1.25）。
定性样本展示了高语义多样性、精细细节和高视觉质量。

以下是原文 Figure 7 的定性样本，来自 $512 \times 512$ 分辨率下使用自动引导 (AutoGuidance) 训练的模型。

$Figure 7: Qualitative samples from our model trained at $5 1 2 \\times 5 1 2$ resolution with AutoGuidance. The RAE-based DiT demonstrates strong diversity, fine-grained detail, and high visual quality.$ 该图像是来自我们模型的定性样本，训练分辨率为 512 imes 512，并使用了 AutoGuidance。基于 RAE 的 DiT 展现了强大的多样性、细致的细节和高质量的视觉效果。

Figure 7: Qualitative samples from our model trained at $512 \times 512$ resolution with AutoGuidance. The RAE-based DiT demonstrates strong diversity, fine-grained detail, and high visual quality.

6.1.5. 高分辨率合成的效率

通过让解码器 (decoder) 处理分辨率缩放（例如通过设置 $p_d = 2p_e$ 实现 $2\times$ 上采样），可以在不增加token数量的情况下生成更高分辨率的图像。以下是原文 Table 9 的结果：

Method	#Tokens	gFID ↓	rFID
Direct	1024	1.13	0.53
Upsample	256	1.61	0.97

Table 9: Comparison on ImageNet $512 \times 512$ . Decoder upsampling achieves competitive FID compared to direct 512-resolution training. Both models are trained for 400 epochs.

使用上采样解码器 (decoder)（256 token）生成的 512x512 图像，其 gFID 为 1.61，与直接在 1024 token 上训练的模型（1.13 FID）相比具有竞争力，但效率高 4 倍。

6.1.6. DiTDH 在 VAE 和像素空间中的表现

DiTDH 的优势主要体现在高维 RAE 潜在空间中。以下是原文 Table 10 的结果：

	VAE	DINOv2-B
DiT-XL	7.13	4.28
TDDHXL	11.70	2.16

Table 10: Performance on VAE. DiTDH yields worse FID than DiT, despite using extra compute for the wide DDT head.

在 SD-VAE 潜在空间中，DiTDH-XL 的 FID (11.70) 甚至比 DiT-XL (7.13) 更差，这表明DDT头 (DDT head) 在低维潜在空间中收益甚微。

以下是原文 Table 11 的结果：

Pixel DINOv2-B
DiT-XL 51.09 4.28
DiT H-XL 30.56 2.16

Table 11: Comparison on pixel diffusion. Pixel Diffusion has much worse FID than diffusion on DINOv2-B.

在原始像素空间中，DiTDH-XL 虽然比 DiT-XL 表现稍好，但两者性能都远不如在 RAE 潜在空间中训练的模型。这强调了RAE提供的结构化表示 (representations) 的重要性。

6.1.7. 结构化表示的重要性

高维度本身并不足以保证高性能。RAE 提供的结构化表示 (representations) 对实现强大的性能增益至关重要。这意味着预训练表示编码器 (representation encoders) 捕捉到的语义和结构信息是扩散模型 (Diffusion Model) 高效学习和生成的基础。

6.2. 数据呈现 (表格)

以下是原文 Table 1 的结果：

Model	rFID

DINOv2-B	0.49
SigLIP2-B	0.53
MAE-B	0.16
SD-VAE	0.62

Encoder	rFID
DINOv2-S	0.52
DINOv2-B	0.49
DINOv2-L	0.52

Decoder	rFID	GFLOPs
ViT-B	0.58	22.2
ViT-L	0.50	78.1
ViT-XL	0.49	106.7
SD-VAE	0.62	310.4

Model	Top-1 Acc.
DINOv2-B	84.5
SigLIP2-B	79.1
MAE-B	68.0
SD-VAE	8.0

以下是原文 Table 2 的结果：

	RAE	SD-VAE
DiT-S	215.76	51.74
DiT-XL	23.08	7.13

Table 2: Standard DiT struggles to model RAE's latent distribution.

以下是原文 Table 3 的结果：

DiT-S	DiT-B DiT-L
DINOv2-S 3.6e-2 √	1.0e-3 9.7e-4
DINOv2-B 5.2e-1x	2.4e-2 ✓ 1.3e-3
DINOv2-L 6.5e-1 X	2.7e-1X 2.2e-2 ✓

Table 3: Overfitting losses. Compared between different combinations of model width and token dimension.

以下是原文 Table 4 的结果：

	gFID
w/o shift	23.08
w/ shift	4.81

Table 4: Impact of schedule shift.

以下是原文 Table 5 的结果：

	gFID	rFID
z∼ p(z)	4.81	0.49
Z ∼pn(z)	4.28	0.57

Table 5: Impact of $p _ { \mathbf { n } } ( \mathbf { z } )$ .

以下是原文 Table 6 的结果：

Model	DINOv2
Model	S	B	L
DiT-XL	3.50	4.28	6.09
DDDH-XL	2.42	2.16	2.73

Table 6: DiTDH outperforms DiT across RAE encoder sizes.

以下是原文 Table 7 的结果：

Method	Generation@512
	gFID↓ IS↑	Prec.↑	Rec.↑
BigGAN-deep (Brock et al., 2019)	8.43	177.9	0.29
StyleGAN-XL (Sauer et al., 2022)	2.41	267.8	0.52
VAR (Tian et al., 2024)	2.63	303.2	-
MAGVIT-v2 (Yu et al., 2024a)	1.91	324.3	-
XAR (Ren et al., 2025)	1.70	281.5	-
ADM	3.85	221.7	0.53
SiD2	1.50	-	-
DiT	3.04	240.8	0.54
SiT	2.62	252.2	0.55
DiffiT (Hatamizadeh et al., 2024)	2.67	252.1	0.58
REPA	2.08	274.6	0.63
DDT	1.28	305.1	0.80
EDM2 (Karras et al., 2024)	1.25	-	-
DiTDH-XL (DINOv2-B)	1.13	259.6	0.63

Table 7: Class-conditional performance on ImageNet $512 \times 512$ with guidance. DiTDH with 400- epoch training achieves an strong FID score of 1.13.

以下是原文 Table 8 的结果：

Method		Epochs #Params	Generation@256 w/o guidance				Generation@256 w/ guidance
Method		Epochs #Params	gFID↓	IS↑	Prec.↑	Rec.↑	gFID↓	IS↑	Prec.↑	Rec.↑
Autoregressive
VAR (Tian et al., 2024)	350	2.0B	1.92	323.1	0.82	0.59	1.73	350.2	0.82	0.60
MAR (Li et al., 2024b)	800	943M	2.35	227.8	0.79	0.62	1.55	303.7	0.81	0.62
xAR (Ren et al., 2025)	800	1.1B	-	-	-	-	1.24	301.6	0.83	0.64
Pixel Diffusion
ADM (Dhariwal & Nichol, 2021)	400	554M	10.94	101.0	0.69	0.63	3.94	215.8	0.83	0.53
RIN (Jabri et al., 2023)	480	410M	3.42	182.0	-	-	-	-	-	-
PixelFlow (Chen et al., 2025e)	320	677M	-	-	-	-	1.98	282.1	0.81	0.60
PixNerd (Wang et al., 2025b)	160	700M		-		-	2.15	297.0	0.79	0.59
SiD2 (Hoogeboom et al., 2025)	1280	-	-	-	-	-	-	1.38	-	-	-
Latent Diffusion with VAE
DiT (Peebles & Xie, 2023)	1400	675M	9.62	121.5	0.67	0.67	2.27	278.2	0.83	0.57
MaskDiT (Zheng et al.)	1600	675M	5.69	177.9	0.74	0.60	2.28	276.6	0.80	0.61
SiT (Ma et al., 2024)	1400	675M	8.61	131.7	0.68	0.67	2.06	270.3	0.82	0.59
MDTv2 (Gao et al., 2023)	1080	675M	-	-	-	-	1.58	314.7	0.79	0.65
VA-VAE (Yao et al., 2025)	80 800	675M	4.29 2.17	- 205.6	- 0.77	- 0.65	- 1.35	- 295.3	- 0.79	- 0.65
REPA (Yu et al., 2025)	80 800	675M	7.90 5.78	122.6 158.3	0.70 0.70	0.65 0.68	- 1.29	- 306.3	- 0.79	- 0.64
DDT (Wang et al., 2025c)	80 400	675M	6.62 6.27	135.2 154.7	0.69 0.68	0.67 0.69	1.52 1.26	263.7 310.6	0.78 0.79	0.63 0.65
REPA-E (Leng et al., 2025)	80 800	675M	3.46 1.70	159.8 217.3	0.77 0.77	0.63 0.66	1.67 1.15	266.3 304.0	0.80 0.79	0.63 0.66
Latent Diffusion with RAE (Ours)
DiT-XL (DINOv2-S)	800	676M	1.87	209.7	0.80	0.63	1.41	309.4	0.80	0.63
DiTDH-XL (DINOv2-B)	20		3.71	198.7	0.86	0.50	−	−
	80	839M	2.16	214.8	0.82	0.59
	800		1.51	242.9	0.79	0.63	1.13	262.6	0.78	0.67

以下是原文 Table 9 的结果：

Method	#Tokens	gFID ↓	rFID
Direct	1024	1.13	0.53
Upsample	256	1.61	0.97

Table 9: Comparison on ImageNet $512 \times 512$ . Decoder upsampling achieves competitive FID compared to direct 512-resolution training. Both models are trained for 400 epochs.

以下是原文 Table 10 的结果：

	VAE	DINOv2-B
DiT-XL	7.13	4.28
TDDHXL	11.70	2.16

Table 10: Performance on VAE. DiTDH yields worse FID than DiT, despite using extra compute for the wide DDT head.

以下是原文 Table 11 的结果：

	Pixel	DINOv2-B
DiT-XL	51.09	4.28
DiT H-XL	30.56	2.16

Table 11: Comparison on pixel diffusion. Pixel Diffusion has much worse FID than diffusion on DINOv2-B.

以下是原文 Table 12 的结果：

Component	Decoder	Discriminator
optimizer	Adam	Adam
max learning rate	$2 \times 10^{-4}$	$2 \times 10^{-4}$
min learning rate	$2 \times 10^{-5}$	$2 \times 10^{-5}$
learning rate schedule	cosine decay	cosine decay
optimizer betas	(0.5, 0.9)	(0.5, 0.9)
weight decay	0.0	0.0
batch size	512	512
warmup	1 epoch	1 epoch
loss	1 + LPIPS + GAN	adv.
Model	ViT-(B, L, XL)	Dino-S/8 (frozen)
LPIPS start epoch	0	—
disc. start epoch		6
adv. loss start epoch	8	—
Training epochs	16	10

Table 12: Training configuration for decoder and discriminator.

以下是原文 Table 13 的结果：

Model Config	Dim	Num-Heads	Depth
S	384	6	12
B	768	12	12
L	1024	16	24
XL	1152	16	28
XXL	1280	16	32
H	1536	16	32
G	2048	16	40
T	2688	21	40

Table 13: Model configurations for different sizes.

以下是原文 Table 14 的结果：

Method	Epochs	Generation@256 w/o guidance				Generation@256 w/ guidance
		Random		Balanced		Random		Balanced
		gFID↓	IS↑	gFID	IS	gFID↓	IS↑	gFID	IS
Autoregressive
VAR (Tian et al., 2024)	350			1.92	323.1			1.73	350.2
MAR (Li et al., 2024b)	800			2.35	227.8			1.55	303.7
xAR-H (Ren et al., 2025)	800	-	-	-	-	-	-	1.24	301.6
Latent Diffusion with VAE
SiT (Ma et al., 2024)	1400	8.61	131.7	8.54	132.0	2.06	270.3	1.95	259.5
REPA (Yu et al., 2025)	800	5.90	157.8	5.78	158.3	1.42	305.7	1.29	306.3
DDT (Wang et al., 2025c)	400	-	-	6.27	154.7	1.40	303.6	1.26	310.6
REPA-E (Leng et al., 2025)	800	1.83	217.3	1.70	217.3	1.26	314.9	1.15	304.0
Latent Diffusion with RAE (Ours)
DiTDH-XL (DINOv2-B)	800	1.60	242.7	1.51	242.9	1.28	262.9	1.13	262.6

Table 14: Performance of different methods using different sampling strategies. The officially reported numbers are marked in gray.

以下是原文 Table 15 的结果：

Model	gFID	rFID
DINOv2-B	4.81 / 4.28	0.49 / 0.57
SigLIP2-B	6.69 / 4.93	0.53 / 0.82
MAE-B	16.14 / 8.38	0.16 / 0.28

Model	gFID	rFID
S	3.83 / 3.50	0.52 / 0.64
B	4.81/ 4.28	0.49 / 0.57
L	6.77 /6.09	0.52 / 0.59

Table 15: Ablations on noise-augmented decoder training. Despite minor drop in rFID, the noiseaugmented training strategy can greatly improve the gFID across different encoders and model sizes. Default setups are marked ingray.

以下是原文 Table 16 的结果：

Depth \|	Width	GFLops \|FID ↓
6	1152 (XL)	25.65	2.36
4	2048 (G)	53.14	2.31
2	2048 (G)	26.78	2.16

Table 16: DDT head should be wide and shallow. A wide, shallow head yields lower FID than deeper (4-layer G) or narrower (6-layer XL) ones .

以下是原文 Table 17 的结果：

	\| 2-768	2-1536	2-2048	2-2688
Dino-S	2.66	2.47	2.42	2.43
Dino-B	2.49	2.24	2.16	2.22
Dino-L	N/A	2.95	2.73	2.64

Table 17: Unguided gFID of different RAE and DDT head. Larger RAE benefits more from wider DDT head. $d \mathbf{-} w \mathbf{\Gamma}$ a DDT head with $d$ layers and width $w$ Default setups are marked in gray.

以下是原文 Table 18 的结果：

Method	gFID ↓	IS ↑
DiT-XL + VAE	30.68	32.73
DiT DH-XL + DINOv2-B (w/ AG)	4.96	123.12
RCG + DiT-XL	4.89	143.2

Table 18: Comparison of unconditional generation on ImageNet $256 \times 256$ .

6.3. 消融实验/参数分析

6.3.1. 编码器选择对生成性能的影响

通过对 DINOv2-B、SigLIP2-B 和 MAE-B 进行比较（原文 Table 15a），发现 DINOv2-B 取得了最佳的生成性能 (gFID)，尽管 MAE-B 的 rFID 最低。这表明单纯的低 rFID 并不完全等同于优秀的图像 token 化器 (image tokenizer)，语义表示 (representations) 的质量对生成性能更为关键。因此，DINOv2-B 被选为默认编码器 (encoder)。

6.3.2. 噪声增强解码的设计选择

$\tau$ 值的影响：调整噪声的标准差 $\tau$ （原文 Table 16），发现更大的 $\tau$ 值持续改善了生成 FID (gFID)，但略微恶化了重建 FID (rFID)。这验证了噪声增强训练使解码器 (decoder) 学习更平滑的映射，从而更好地泛化到不完美的潜在表示 (latents)，提升生成质量，但以牺牲精确重建为代价。
泛化性：该方法对不同编码器 (encoders)（原文 Table 15a）和编码器 (encoder) 尺寸（原文 Table 15b）均有效，尤其对 MAE-B 等较弱编码器 (encoders) 提升显著，表明其具有广泛适用性。

6.3.3. DDT头的设计选择

宽度与深度：实验（原文 Table 16）表明，DDT头 (DDT head) 应该宽而浅 (wide and shallow)。一个 2 层、2048 维度 ( $G$ ) 的DDT头 (DDT head) 优于 6 层、1152 维度 (XL) 的DDT头 (DDT head)，尽管 GFLOPs 相近。更深的DDT头 (DDT head) （如 4 层、2048 维度）并未带来额外收益。这说明高维潜在表示 (latents) 的去噪更需要宽度来处理信息，而不是深度来捕捉复杂转换。
对编码器尺寸的依赖：DDT头 (DDT head) 的最佳宽度与RAE 编码器 (encoder) 的尺寸呈正相关（原文 Table 17）。随着编码器 (encoder) 尺寸的增加（从 DINOv2-S 到 DINOv2-L），最佳DDT头 (DDT head) 宽度也相应增加，从 2048 ( $G$ ) 扩展到 2688 ( $T$ ) 仍有性能提升。这强化了DDT头 (DDT head) 解决扩散变换器 (DiT) 宽度瓶颈在高维 RAE 潜在空间中的作用。

6.3.4. 模型扩展性

增加模型的计算容量（通过扩大 DiTDH 模型尺寸）能使训练损失更快收敛并达到更低的值（原文 Figure 9），证明了 DiTDH 在 RAE 潜在空间中的良好扩展性。

6.4. FID评估协议备注

论文指出，在条件 FID (Conditional FID) 评估中，存在两种常见的采样策略 (sampling strategies)：

每类平衡采样 (Class-balanced Sampling)：从每个类别中精确抽取固定数量的图像（例如，每个类别 50 张，共 50,000 张）。
统一随机采样 (Uniform Random Sampling)：从 1,000 个类别标签中统一随机采样 50,000 次，并相应生成图像。

本文发现，每类平衡采样 (Class-balanced Sampling) 始终能得到约 0.1 FID 的更低分数。为了公平比较，论文重新评估了 SiT、REPA 和 REPA-E 等方法的检查点 (checkpoints)，并更新了其报告分数。这种差异可能源于 ImageNet 训练集本身的不平衡性，其中大部分类别拥有 1,300 个样本，使得每类平衡采样 (Class-balanced Sampling) 更接近真实的标签分布。这一发现强调了在比较最先进的 (state-of-the-art) 扩散模型 (Diffusion Models) 性能时，评估协议的标准化和透明度的重要性。

7. 总结与思考

7.1. 结论总结

本文成功挑战了关于预训练表示编码器 (representation encoders) 因其高维度和强语义性而不适合重建或生成的传统观念。研究表明，一个冻结 (frozen) 的预训练表示编码器 (representation encoder)，配合一个轻量级训练解码器，可以形成一个高效且强大的表示自编码器 (Representation Autoencoder, RAE)。RAE 不仅能实现高质量的图像重建，还能提供语义丰富的潜在空间。

在此高维 RAE 潜在空间中训练扩散变换器 (DiT)，本文提出了三项关键改进以确保训练的稳定性和效率：

将扩散变换器 (DiT) 的宽度匹配到编码器 (encoder) 的token维度。
对噪声调度应用维度依赖的平移。
对解码器 (decoder) 进行噪声增强训练，使其能够处理扩散模型 (Diffusion Model) 生成的略带噪声的输出。

此外，本文还引入了 DiTDH 架构，通过一个轻量级、宽但浅的DDT头 (DDT head)，在不引入二次计算成本的情况下增加了模型宽度，进一步提升了在高维空间中的性能。

实证结果表明，RAE 赋能的 DiTDH-XL 在 ImageNet 上实现了最先进的 (state-of-the-art) 图像生成性能：在 $256 \times 256$ 分辨率下（无引导）FID 达到 1.51，在 $256 \times 256$ 和 $512 \times 512$ 分辨率下（有引导）FID 均达到 1.13。这些成果证实了 RAE 潜在空间的巨大优势，并预示其有望成为未来扩散变换器 (Diffusion Transformer) 训练的新默认范式。

7.2. 局限性与未来工作

论文没有明确指出自身的局限性，但可以从其强调的创新点反向推导一些潜在的局限性或值得未来探索的方向：

潜在局限性：

对预训练编码器的依赖性：RAE 的性能高度依赖于所选的冻结 (frozen) 预训练表示编码器 (representation encoder) 的质量和其在特定领域（如 ImageNet）的适用性。如果预训练编码器 (pretrained encoder) 在目标生成任务的领域或数据分布上表现不佳，RAE 的效果可能会受限。对于缺乏强大预训练表示编码器 (representation encoders) 的新领域或小众数据，RAE 的优势可能不明显。
高维潜在空间的通用挑战：尽管本文通过多项技术成功驯服了高维潜在空间，但在其他更复杂的生成任务或更高分辨率的生成场景下，高维潜在空间仍然可能带来额外的内存开销和潜在的优化挑战。
DDT头的普适性：实验表明 DDT 头在低维 VAE 潜在空间中表现不佳。这说明 DiTDH 架构并非万能，其设计优势是针对高维、结构化潜在空间而来的。未来可以探究更通用的头 (head) 设计，或者在不同潜在空间下自适应地调整DDT头 (DDT head) 的结构。
解码器训练的复杂度：虽然解码器 (decoder) 相对轻量级，但其训练仍涉及到 L1、LPIPS 和 GAN 损失的组合，以及自适应权重和噪声增强等机制，这仍然需要一定的调优经验。
特定数据集表现：目前主要在 ImageNet 上进行了验证，对于其他更复杂、多样性更大或更具挑战性的数据集（如开放域生成），RAE 的表现仍需进一步探索。

未来工作：

探索更广泛的表示编码器：除了 DINO、SigLIP、MAE，可以探索其他自监督 (self-supervised)、多模态 (multimodal) 或更具结构化 (more structured) 的表示编码器 (representation encoders) 类型，以发现更优的潜在空间。例如，可以考虑视频表示学习 (video representation learning) 领域的前沿模型，以实现高质量的视频生成。
自适应的RAE设计：研究如何根据特定的生成任务或数据特性，自适应地选择表示编码器 (representation encoder)、设计解码器 (decoder) 架构，甚至在训练过程中对编码器 (encoder) 进行轻微微调 (fine-tuning)，以进一步优化性能。
多模态生成任务的应用：利用 RAE 语义丰富的潜在空间，将其扩展到文本到图像生成 (text-to-image generation)、图像编辑 (image editing) 或跨模态内容生成 (cross-modal content generation) 等更复杂的多模态任务 (multimodal tasks) 中。
提高计算效率和可扩展性：进一步优化 DiTDH 架构，或探索其他新颖的变换器 (Transformer) 设计，以在更高分辨率或更大模型规模下，实现更低的计算成本和更快的训练/推理速度。
理论分析的深化：进一步深化关于高维潜在空间中扩散模型 (Diffusion Models) 行为的理论分析，例如，更精确地刻画不同表示编码器 (representation encoders) 特性（如稀疏性 (sparsity)、解耦性 (disentanglement)）对扩散模型 (Diffusion Models) 训练和生成质量的影响。

7.3. 个人启发与批判

个人启发：

范式转变：这篇论文最核心的启发在于，它成功地将潜在生成建模 (latent generative modeling) 的核心——自编码器 (Autoencoder)——从一个“压缩器”的角色，提升为“表示 (representation) 基础”的角色。传统变分自编码器 (VAE) 追求紧凑和重建，而 RAE 则将重心放在利用外部已经学习到强大语义的表示 (representations)，这是一种更高层次的复用和集成。
消除误解：本文有力地驳斥了“语义编码器 (semantic encoders) 不适合重建”和“高维潜在空间不利于扩散”的两个广泛存在且阻碍创新的误解。通过实证和理论证明，高维、语义丰富的潜在空间反而是扩散变换器 (DiT) 实现最先进的 (state-of-the-art) 性能的关键。这提醒我们在科研中要敢于挑战约定俗成的假设。
模块化与解耦：RAE 的设计体现了出色的模块化思想。冻结 (frozen) 预训练编码器 (encoders) 并只训练解码器 (decoders)，大大简化了自编码器 (Autoencoder) 的训练，并使其能够快速迭代和集成最先进的 (state-of-the-art) 表示学习 (representation learning) 成果。DiTDH 的宽扩散头 (wide diffusion head) 也是一种巧妙的解耦设计，在特定需求下增加模型容量，避免了对整个复杂主干网络 (backbone) 的修改。
通用性与未来潜力：RAE 潜在空间的通用性和语义丰富性使其在未来具有巨大的潜力。它不仅可以用于图像生成，还可以作为各种下游任务（如图像编辑、个性化生成、多模态理解）的强大潜在表示 (latent representation) 基础。

批判：

“黑盒”问题：尽管 RAE 的潜在空间语义丰富，但由于其编码器 (encoder) 是冻结 (frozen) 的、预训练的大型模型 (large models)，其内部表示 (representations) 的可解释性仍然是一个挑战。我们知道这些表示 (representations) “好”，但具体是如何组织语义的，以及如何对其进行更精细的控制，仍有待深入研究。这可能限制其在需要高度可控性或可解释性的场景中的应用。
计算资源依赖：虽然 RAE 本身比 SD-VAE 更高效，但要达到最先进的 (state-of-the-art) 性能，仍然需要训练 DiTDH-XL 这样的大型扩散变换器 (DiT)，并辅以自动引导 (AutoGuidance) 等技术，这依旧需要大量的计算资源。对于资源受限的研究者或应用，成本仍然是一个考虑因素。
FID指标的局限性：论文在 FID 评估协议上进行了细致的讨论，并指出了FID在绝对值接近时可能受采样策略 (sampling strategy) 影响的局限性。随着生成模型 (Generative Model) 性能不断提升，FID 等传统指标可能越来越难以捕捉生成质量的细微差异和人类感知上的偏好，未来需要更先进的评估方法。
理论证明的适用范围：定理1为扩散变换器 (DiT) 宽度与token维度匹配提供了理论依据，但其假设是在简化场景下（如数据分布为狄拉克函数或期望为零）。在更复杂的真实数据分布和扩散过程 (diffusion process) 中，该理论的严格适用性和对实际性能的量化解释仍有进一步探讨的空间。
缺乏对潜在空间结构更深入的分析：论文强调了 RAE 潜在空间的语义丰富性，但对于其具体结构（例如，是否存在解耦 (disentanglement)、稀疏性 (sparsity)、因果关系 (causal relationships)）的深入分析和可视化较少。更深入地理解这些结构可能有助于进一步改进扩散模型 (Diffusion Models) 的学习和控制能力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。