论文状态:已完成

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

发表:2025/11/29
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 6 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出VQRAE,一种基于向量量化的表示自动编码器,解决了多模态理解、生成与重建的统一表示问题。通过使用一个统一的标记器,VQRAE实现了图像理解的连续语义特征和视觉生成的离散词元。该模型在冻结编码器学习高维语义VQ码本后,通过自蒸馏约束联合优化,确保语义信息损失极小,展现出优异的性能及扩展潜力。

摘要

Unifying multimodal understanding, generation and reconstruction representation in a single tokenizer remains a key challenge in building unified models. Previous research predominantly attempts to address this in a dual encoder paradigm, e.g., utilizing the separate encoders for understanding and generation respectively or balancing semantic representations and low-level features with contrastive loss. In this paper, we propose VQRAE, a Vector Quantization version of Representation AutoEncoders, which pioneers the first exploration in unified representation to produce Continuous semantic features for image understanding and Discrete tokens for visual generation within a unified tokenizer. Specifically, we build upon pretrained vision foundation models with a symmetric ViT decoder and adopt a two-stage training strategy: first, it freezes the encoder and learns a high-dimensional semantic VQ codebook with pixel reconstruction objective; then jointly optimizes the encoder with self-distillation constraints. This design enables negligible semantic information for maintaining the ability of multimodal understanding, discrete tokens that are compatible for generation and fine-grained reconstruction. Besides, we identify the intriguing property in quantizing semantic encoders that rely on high-dimensional codebook in contrast to the previous common practice of low-dimensional codebook in image reconstruction. The semantic VQ codebook can achieve a 100% utilization ratio at a dimension of 1536. VQRAE presents competitive performance on several benchmarks of visual understanding, generation and reconstruction with promising scaling property in the autoregressive paradigm for its discrete merits.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

1.2. 作者

Sinan Du, Jiahao Guo, Bo Li, Shuhao Cui, Zhengzhuo Xu, Yifu Luo, Yongxian Wei, Kun Gai, Xinggang Wang, Kai Wu, Chun Yuan

隶属机构: iua University, Huazhong Universit Science an Technology HUT, Kolors Team Kuaishou Techology

1.3. 发表期刊/会议

预印本 (arXiv)

1.4. 发表年份

2025

1.5. 摘要

在构建统一模型 (unified models) 时,将多模态理解 (multimodal understanding)、生成 (generation) 和重建 (reconstruction) 的表示统一在一个单独的标记器 (tokenizer) 中仍然是一个关键挑战。以往的研究主要通过双编码器范式 (dual encoder paradigm) 解决这一问题,例如为理解和生成分别使用独立的编码器,或者通过对比损失 (contrastive loss) 来平衡语义表示 (semantic representations) 和低级特征 (low-level features)。

本文提出了 VQRAE,一种表示自动编码器 (Representation AutoEncoders, RAE) 的向量量化 (Vector Quantization, VQ) 版本。VQRAE 首次探索了统一表示,旨在通过一个统一的标记器为图像理解生成连续的语义特征 (Continuous semantic features),并为视觉生成 (visual generation) 生成离散的词元 (Discrete tokens)。具体而言,VQRAE 基于预训练的视觉基础模型 (vision foundation models, VFMs),采用对称的 ViT 解码器 (symmetric ViT decoder) 和两阶段训练策略:首先,冻结编码器,并通过像素重建目标 (pixel reconstruction objective) 学习一个高维语义 VQ 码本 (high-dimensional semantic VQ codebook);然后,通过自蒸馏约束 (self-distillation constraints) 联合优化编码器。

这种设计使得语义信息损失可忽略不计,从而维持多模态理解能力,并生成与生成任务兼容的离散词元以及实现精细的重建。此外,研究发现,在量化语义编码器时,依赖高维码本是一种有趣的特性,这与以往图像重建中常用的低维码本实践形成对比。语义 VQ 码本可以在 1536 维度下实现 100% 的利用率。VQRAE 在视觉理解、生成和重建的多个基准测试中展现出具有竞争力的性能,并因其离散特性在自回归 (autoregressive) 范式中具有良好的扩展潜力。

1.6. 原文链接

https://arxiv.org/abs/2511.23386

1.7. PDF 链接

https://arxiv.org/pdf/2511.23386v1.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题与重要性

统一的多模态模型 (Multimodal Large Language Models, MLLMs) 如 GPT-4o 的出现,展现了将视觉理解 (visual understanding) 和生成 (generation) 整合到单一自回归架构中的巨大潜力。然而,构建这些模型面临的一个基本挑战是:如何设计一个统一的视觉标记器 (visual tokenizer),以获得在理解、生成和重建任务之间取得良好平衡的合适表示 (representations)。

2.1.2. 现有研究的挑战与空白 (Gap)

  • 离散标记器 (Discrete Tokenizers) 的局限性: 早期的统一模型广泛采用离散标记器,它们与下一词元预测 (Next Token Prediction, NTP) 范式兼容,具有可扩展性和训练效率。然而,通过重建目标 (reconstruction objective) 训练的离散标记器倾向于产生细粒度细节,这与视觉理解任务(如 CLIP)所需的语义级特征相冲突,导致理解性能下降。
  • 双编码器范式 (Dual Encoder Paradigm) 的不足: 为了解决表示困境(连续 vs. 离散,像素 vs. 语义),现有方法通常采用双编码器范式。
    • 一些方法使用独立的编码器(一个用于理解,一个用于生成),但这增加了模型复杂性,阻碍了表示之间更深层次的交互。
    • 另一些方法通过对比损失来平衡语义表示和低级特征,但这需要巨大的批处理大小来有效平衡损失冲突,并可能导致训练效率低下,限制了表示间的深度对齐。
  • 连续表示与自回归范式的兼容性问题: 扩散模型 (Diffusion-based tokenizers) 通常使用连续表示进行重建,但由于高维 CLIP 特征,它们在自回归范式中难以收敛。
  • 现有语义量化方法的缺陷: 一些工作提出了带有语义监督的 VQ 标记器,但却放弃了重建能力,因此失去了自动编码器 (autoencoder) 的本质。

2.1.3. 本文的切入点与创新思路

本文的创新思路在于提出 VQRAE,一种向量量化版本的表示自动编码器,旨在克服上述挑战,实现一个统一的标记器,能够同时产生用于视觉理解的连续语义特征和用于视觉生成的离散细粒度词元

  • 统一编码器: 不再使用双编码器,而是利用预训练的视觉基础模型 (VFMs) 作为统一编码器,从而降低模型复杂性和训练开销。
  • 高维语义 VQ 码本: 首次探索了在高维空间(例如 1536 维度)下训练一个具有 100% 利用率的语义 VQ 码本,这与以往低维码本的实践形成对比。
  • 两阶段训练策略: 通过精心设计的两阶段训练,平衡了重建质量和语义理解能力,并引入了自蒸馏 (self-distillation) 机制。
  • 纯 ViT 架构: 摆脱了对卷积块 (convolution blocks) 的依赖,采用纯 ViT 编码器-解码器架构。

2.2. 核心贡献/主要发现

本文的主要贡献总结如下:

  • 提出 VQRAE 模型: 首次提出了 VQRAE,一个 VQ 版本的表示自动编码器,成功训练了一个在高维度下(例如 1536)具有 100% 利用率的语义码本用于重建。VQRAE 是首个在没有卷积块的情况下,在纯自回归 (AR-only) 范式下,能同时生成连续特征(用于理解)和离散词元(用于生成和重建)的统一标记器。
  • 统一表示的能力: VQRAE 能够为图像理解产生连续的语义特征,同时为视觉生成和精细重建产生离散词元。这种统一性减少了双编码器设计的复杂性,并降低了对卷积像素编码器的依赖。
  • 高维码本的成功训练: 发现量化语义编码器时,依赖高维码本是一种有趣的特性,与以往图像重建中常用的低维码本实践形成对比。其语义 VQ 码本可以在 1536 维度下实现 100% 的利用率,这在以往研究中是未曾成功的。
  • 竞争性性能与扩展潜力: 在多项视觉理解、生成和重建基准测试中展现出有竞争力的性能。其离散特性使其在自回归范式中具有良好的扩展潜力。
  • 训练策略的有效性: 两阶段训练策略(第一阶段冻结编码器学习码本和解码器,第二阶段联合优化编码器并施加自蒸馏约束)被证明能够有效平衡重建质量和语义理解性能。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 多模态大型语言模型 (Multimodal Large Language Models, MLLMs)

概念定义: MLLMs 是一种能够处理和理解多种类型数据(如文本、图像、音频)的大型语言模型。它们通过将不同模态的信息映射到统一的表示空间中,从而实现跨模态的理解、推理和生成任务。例如,用户可以输入一张图片和一段文本问题,MLLM 能够理解图片内容并基于其生成文本回答。 在本文中的重要性: 本文的目标就是为 MLLMs 提供一个高效且统一的视觉标记器,以支持其在视觉理解、生成和重建方面的能力。

3.1.2. 视觉标记器 (Visual Tokenizer)

概念定义: 视觉标记器是将原始图像数据编码成紧凑的、通常是离散的或连续的潜表示 (latent representations) 的模块。这些表示可以作为后续生成模型或理解模型的输入。其目的是降低图像数据的维度和复杂性,同时保留关键的视觉信息。 在本文中的重要性: 视觉标记器是 MLLMs 处理视觉信息的核心组件。其设计直接影响模型在不同任务(理解、生成、重建)上的性能。

3.1.3. 向量量化 (Vector Quantization, VQ)

概念定义: 向量量化是一种数据压缩技术,它将输入向量空间映射到有限数量的“码字 (codewords)”或“码本向量 (codebook vectors)”组成的离散集合中。每个输入向量都被最近的码字所替代。在深度学习中,VQ 通常用于将连续的潜空间转换为离散的词元,这使得图像等数据可以像文本一样被处理,从而兼容自回归模型。 在本文中的重要性: VQ 是 VQRAE 的核心组成部分,用于将连续的语义特征转换为离散词元,以便于自回归生成。

3.1.4. 自动编码器 (Autoencoder)

概念定义: 自动编码器是一种神经网络,旨在学习输入数据的有效编码(表示)。它由两部分组成:编码器 (encoder) 将输入映射到潜空间表示,解码器 (decoder) 将潜空间表示映射回原始输入空间,目标是最小化输入和输出之间的重建误差。 在本文中的重要性: VQRAE 是 VQ 版本的表示自动编码器,其设计继承了自动编码器的基本思想,旨在实现图像的有效编码和重建。

3.1.5. 视觉基础模型 (Vision Foundation Models, VFMs)

概念定义: VFMs 是在大规模图像数据上预训练的强大的视觉模型,它们学习到通用的、可迁移的视觉表示。例如,CLIP (Contrastive Language-Image Pre-training) 和 SigLIP 都是 VFMs 的例子,它们能将图像和文本映射到共享的嵌入空间,从而支持多种下游任务。 在本文中的重要性: VQRAE 将预训练的 VFMs 作为其统一编码器,利用它们强大的语义编码能力,同时通过两阶段训练对其进行微调以适应重建需求。

3.1.6. 自回归模型 (Autoregressive Models)

概念定义: 自回归模型是一种序列模型,其中每个输出元素都依赖于其先前的输出元素。在自然语言处理中,语言模型通过预测序列中的下一个词元来生成文本。在图像生成中,自回归模型可以逐个像素或逐个视觉词元地生成图像。 在本文中的重要性: VQRAE 生成的离散词元与自回归范式高度兼容,使得 MLLMs 能够利用高效的下一词元预测机制进行视觉生成。

3.1.7. 自蒸馏 (Self-Distillation)

概念定义: 自蒸馏是一种训练技术,其中一个模型(学生模型)通过模仿其自身在训练过程中的早期或更稳定版本(教师模型)的输出来进行学习。通常,教师模型是学生模型的一个冻结副本,或者是一个移动平均 (moving average) 版本。自蒸馏有助于稳定训练、提高性能并保持模型在特定任务上的能力。 在本文中的重要性: VQRAE 在第二阶段训练中引入自蒸馏损失,以帮助微调后的编码器保持其语义特征,防止其在优化重建质量时遗忘重要的理解能力。

3.2. 前人工作

3.2.1. 针对生成任务的视觉标记器 (Visual Tokenizer for Generation)

  • VQGAN [15] 等离散标记器: VQGAN 及其变体(如 Chameleon [60], EMU-3 [70], Show-0 [80]) 广泛应用于早期统一模型。它们通过重建目标训练,擅长生成细粒度图像细节,但通常在视觉理解任务上表现不佳,因为像素级特征与语义级特征存在冲突,且离散化引入量化误差。
  • 连续表示生成模型: MAR [31, 61] 等方法探索了连续自回归生成,但由于高维特征(如 CLIP 特征)的复杂性,在自回归范式中难以收敛。
  • 带语义监督的 VQ 标记器: Tar [21]X-Omni [19] 提出了带有语义监督的 VQ 标记器,但它们通常放弃了重建能力。

3.2.2. 统一标记器 (Unified Tokenizer)

  • 双编码器范式 (Dual Encoder Paradigm):

    • Janus [7, 43, 76] 系列: 采用独立的视觉编码器来解耦理解和生成任务的表示,一个语义编码器(如 ViT-based)用于理解,一个像素编码器(如 CNN-based)用于生成。这种方法增加了模型复杂性,并限制了不同表示之间的深度交互。
    • TokenFlow [49]MUSE-VL [82]: 采用双编码器训练范式,解耦语义和像素级特征学习,同时通过共享映射机制保持对齐。
    • QLIP [95], VILA-U [78], UniTok [41]: 利用对比学习损失 (contrastive learning loss) 来监督视觉基础模型 (VFMs) 提取的潜在特征。这些方法需要巨大的批处理大小来有效训练和平衡损失冲突。
  • 表示自动编码器 (Representation AutoEncoders, RAE) [96]: RAE 提出用预训练的视觉编码器(如 CLIP)与训练的解码器替代 VAE [28],用于生成建模,并证明了结构化语义空间有助于扩散变换器 (diffusion transformers) 的收敛。

3.3. 技术演进

视觉标记器的演进大致经历了从注重像素级重建的离散标记器 (如 VQGAN),到为了统一理解和生成而引入双编码器范式 (如 Janus, TokenFlow),再到尝试在单一编码器中平衡多任务能力 (如 Tar, X-Omni)。然而,这些方法要么在语义理解上存在不足,要么在重建能力上有所妥协,或者训练效率不高。RAE 的出现,展示了利用预训练 VFM 作为编码器进行重建的潜力,为本工作提供了重要启发。

3.4. 差异化分析

VQRAE 与上述相关工作的主要区别和创新点在于:

  • 统一编码器 vs. 双编码器: VQRAE 采用单一的预训练 VFM 作为统一编码器,而不是 JanusTokenFlow 等双编码器范式,这显著降低了模型复杂性和训练开销,并促进了表示间的深度交互。
  • 连续语义特征与离散词元共存: VQRAE 独特地实现了同时输出连续语义特征(用于理解)和离散词元(用于生成和重建)。这解决了以往离散标记器(如 VQGAN)理解能力差和连续表示(如 RAE)难以直接用于自回归生成的问题。
  • 高维语义 VQ 码本: 与传统 VQVAE/VQGAN 及其变体使用的低维码本(通常为 8-256 维)不同,VQRAE 成功训练了高维(1536 维)、100% 利用率的语义 VQ 码本。这证明了在语义编码器背景下,高维码本的必要性和有效性。
  • 纯 ViT 架构: VQRAE 摆脱了对卷积块的依赖,采用纯 ViT 编码器-解码器架构,实现了更简洁和统一的设计。
  • 两阶段训练策略: 精心设计的两阶段训练策略,结合了冻结编码器训练和自蒸馏,有效平衡了理解性能和重建质量,解决了以往方法中理解与生成之间的权衡问题。

4. 方法论

4.1. 方法原理

VQRAE 的核心思想是构建一个统一的视觉标记器,该标记器能够从单个输入图像中提取两种类型的表示:

  1. 连续的语义特征 (Continuous semantic features):用于视觉理解任务。

  2. 离散的词元 (Discrete tokens):用于视觉生成和图像重建任务。

    其背后的直觉是,预训练的视觉基础模型 (VFMs) 已经学习到了强大的语义表示。通过在此基础上构建一个向量量化 (VQ) 模块和一个对称的 ViT 解码器,并采用两阶段训练策略,可以在保留 VFM 语义理解能力的同时,学习生成精细细节的离散词元,并实现高保真度图像重建。这种方法旨在消除传统双编码器范式的复杂性,并解决离散标记器在语义理解上的不足以及连续表示在自回归生成中的兼容性问题。

4.2. 核心方法详解 (逐层深入)

VQRAE 的架构如 Figure 3a 所示,主要由三个核心组件构成:统一编码器 (Unified Encoder)、高维 VQ 码本 (High Dimensional VQ Codebook) 和对称解码器 (Symmetric Decoder)。训练过程采用两阶段策略,如 Figure 3b 所示。

4.2.1. 统一编码器 (Unified Encoder)

原理: 传统的统一标记器往往采用双编码器范式,即一个语义编码器(如 ViT)用于理解,一个像素编码器(如 CNN)用于生成。这种设计不仅增加了模型复杂度和训练开销,还限制了不同表示之间的深度交互。VQRAE 摒弃了这种设计,而是利用预训练的视觉基础模型 (VFMs) 作为统一编码器 EE。研究发现,即使是冻结的语义编码器,其产生的连续特征也可以直接用于图像重建,尽管在颜色和纹理等细节上可能有所损失。通过适当的微调,编码器可以在不损害语义理解能力甚至可能增强的情况下,提升重建能力。

过程: 给定一个输入图像 XRh×w×3\boldsymbol{X} \in \mathbb{R}^{h \times w \times 3},统一编码器 EE(具有补丁大小 pp 和隐藏维度 dd)将其编码为潜在特征 ZIRhwp2×dZ_I \in \mathbb{R}^{\frac{hw}{p^2} \times d}。这些中间特征 ZIZ_I 既用于语义量化,也直接用于多模态理解任务。这意味着 VQRAE 为理解任务提供了连续的、无量化误差的语义特征

4.2.2. 高维 VQ 码本 (High Dimensional VQ Codebook)

原理: 向量量化 VQ 是一种将连续表示转换为离散词元的技术。与以往基于像素特征的离散统一标记器不同,VQRAE 仅对来自 VFMs语义特征进行量化。一个关键的发现是,VQRAE 中的码本在高维设置下表现出色,其维度必须至少与 VFMs 编码器 EE 的维度匹配。这与之前研究中关于重建码本应在低维空间操作(如 8-256 维)的普遍认知相悖。本文首次成功训练了一个在高维(例如 1536 维)下具有 100% 利用率的语义码本。

过程: VQRAE 采用 SimVQ [100] 方法进行量化。它包含一个初始化的 VQ 码本 CRk×e={ci}i=1kC \in \mathbb{R}^{k \times e} = \{c^i\}_{i=1}^k 和一个可学习的投影矩阵 WRe×e={wi}i=1eW \in \mathbb{R}^{e \times e} = \{w^i\}_{i=1}^e,其中 kk 是码本大小, ee 是码本维度。

来自 VFMs 的语义特征 ZIZ_I 首先被投影到 Z^cRhwp2×e\hat{Z}_c \in \mathbb{R}^{\frac{hw}{p^2} \times e}。然后,根据 l2l_2 范数距离从码本 CC 中选择量化向量 ZqRhwp2×eZ_q \in \mathbb{R}^{\frac{hw}{p^2} \times e}

具体选择过程通过以下公式表示: Zq=lookup(argmini=1,,kZ^cciwi) Z_q = \mathrm{lookup} \left( \underset{i=1, \dots, k}{\mathrm{argmin}} ||\hat{Z}_c - c^i w^i || \right) 符号解释:

  • ZqZ_q: 最终的量化向量,也是离散词元的表示。
  • lookup()\mathrm{lookup}(\cdot): 一个查找操作,根据 argmin 返回的索引,从码本中取出对应的码字。
  • argmini=1,,kZ^cciwi\mathrm{argmin}_{i=1, \dots, k} ||\hat{Z}_c - c^i w^i ||: 找到码本 CC 中与投影后的语义特征 Z^c\hat{Z}_c 欧氏距离 ( l2l_2 范数) 最近的码字 ciwic^i w^i 的索引 ii
  • Z^c\hat{Z}_c: 经过投影后的语义特征。
  • cic^i: 码本 CC 中的第 ii 个码字。
  • wiw^i: 码本 CC 中第 ii 个码字对应的可学习投影矩阵 WW 中的第 ii 行向量。这里原文的 WRe×e={wi}i=1eW \in \mathbb{R}^{e \times e} = \{w^i\}_{i=1}^e 表述可能存在歧义,更常见的理解是 WW 是一个投影矩阵,应用于 cic^i,或者 wiw^icic^i 的一个变换。但根据公式 ciwic^i w^i,它暗示 wiw^i 也是一个与 cic^i 向量化操作相关的实体,这可能是 SimVQ 的特定设计,例如 wiw^i 是一个标量权重或一个维度匹配的向量用于元素级乘法。忠于原文,我们保持其原始公式形式。

4.2.3. 对称解码器 (Symmetric Decoder)

原理: 传统的解码器通常采用 CNN-like 结构(如 VQGAN),而 RAE [96] 发现使用 ViT-based 解码器能够更好地重建图像。VQRAE 借鉴此思想,采用一个对称的 ViT 解码器,其结构镜像编码器,能够将潜在特征映射回像素空间。与 RAE 不同的是,VQRAE 的解码器是从离散词元而不是连续特征中重建图像。

过程: 量化后的向量 ZqZ_q 首先被投影到瓶颈特征 ZbotRhwp2×dZ_{bot} \in \mathbb{R}^{\frac{hw}{p^2} \times d},以与对称解码器 DD 的维度对齐。解码器 DD 的补丁大小设置为 1。解码器 DDZbotZ_{bot} 映射回像素空间,生成重建图像 XRhqp×wqp×3X' \in \mathbb{R}^{\frac{hq}{p} \times \frac{wq'}{p} \times 3}。其中 qqqq' 是超参数,用于调整重建图像的分辨率。本文中,设置 q=q=pq=q'=p 以保持分辨率不变。

4.2.4. 两阶段训练 (Two-Stage Training)

VQRAE 采用两阶段训练策略,旨在平衡图像重建的精细度和语义理解的鲁棒性。

4.2.4.1. 第一阶段 (Stage 1)

目标: 冻结 VFMs 编码器 EE,联合优化 VQ 码本 CC 和解码器 DD,使其能够从语义特征中学习离散表示并实现高保真度像素重建。

损失函数: Lrec=2(X,X)+LP(X,X)+λGLG(X) \mathcal{L}_{\mathrm{rec}} = \ell_2(X, X') + \mathcal{L}_{\mathrm{P}}(X, X') + \lambda_{\mathrm{G}}\mathcal{L}_{\mathrm{G}}(X') Lquant=sg(C)Zq22+βZqsg(C)22 \mathcal{L}_{\mathrm{quant}} = || \mathrm{sg}(C) - Z_q ||_2^2 + \beta \cdot || Z_q - \mathrm{sg}(C) ||_2^2 Lstage1=Lrec+Lquant \mathcal{L}_{\mathrm{stage1}} = \mathcal{L}_{\mathrm{rec}} + \mathcal{L}_{\mathrm{quant}} 符号解释:

  • Lrec\mathcal{L}_{\mathrm{rec}}: 重建损失。
    • 2(X,X)\ell_2(X, X'): 像素级重建损失,通常是输入图像 XX 和重建图像 XX' 之间的均方误差。
    • LP(X,X)\mathcal{L}_{\mathrm{P}}(X, X'): 感知损失 (perceptual loss),使用 LPIPS 度量,旨在捕获图像的感知相似性,而不仅仅是像素级的差异。
    • LG(X)\mathcal{L}_{\mathrm{G}}(X'): 对抗损失 (adversarial loss),通过判别器 (discriminator) 训练,促使生成图像 XX' 看起来更真实。
    • λG\lambda_{\mathrm{G}}: 对抗损失的权重系数。
  • Lquant\mathcal{L}_{\mathrm{quant}}: 量化损失。
    • sg(C)Zq22||\mathrm{sg}(C) - Z_q||_2^2: 码本学习项,促使码本向量 CC 向编码器输出的量化向量 ZqZ_q 靠近。sg 表示 stopgradient 操作,意味着梯度不会流回编码器。
    • βZqsg(C)22\beta \cdot ||Z_q - \mathrm{sg}(C)||_2^2: 编码器正则化项,促使编码器输出的 Z^c\hat{Z}_c 靠近选定的码本向量 ZqZ_q。这里的 sg(C) 表示对码本向量 CC 停止梯度,因此梯度只会流向编码器。
    • β\beta: 权重系数,默认设置为 0.25。
  • Lstage1\mathcal{L}_{\mathrm{stage1}}: 第一阶段的总损失。

4.2.4.2. 第二阶段 (Stage 2)

目标: 解冻 VFMs 编码器 EE,并通过自蒸馏损失约束其行为,以增强重建质量并保持多模态理解性能。在这一阶段,编码器、VQ 码本和解码器被联合优化。

损失函数: Ldistill=ZIT(X)22 \mathcal{L}_{\mathrm{distill}} = ||Z_I - T(X)||_2^2 Lstage2=Lrec+Lquant+λdLdistill \mathcal{L}_{\mathrm{stage2}} = \mathcal{L}_{\mathrm{rec}} + \mathcal{L}_{\mathrm{quant}} + \lambda_d \mathcal{L}_{\mathrm{distill}} 符号解释:

  • Ldistill\mathcal{L}_{\mathrm{distill}}: 自蒸馏损失。
    • ZIZ_I: 当前编码器 EE 对输入图像 XX 编码得到的连续特征。
    • T(X): 教师模型 TT 对输入图像 XX 编码得到的特征。教师模型 TT 初始化自第一阶段结束时的编码器 EE,并在第二阶段训练中保持冻结。
    • 22|| \cdot ||_2^2: 均方误差,促使当前编码器 EE 的输出 ZIZ_I 与冻结的教师模型 TT 的输出保持一致,从而维持语义特征的结构。
  • λd\lambda_d: 自蒸馏损失的权重系数。
  • Lstage2\mathcal{L}_{\mathrm{stage2}}: 第二阶段的总损失。

4.2.5. 多模态理解 (Multimodal Understanding) 与 VQRAE

原理: 传统的统一标记器通过自蒸馏损失来监督离散词元,这引入了量化误差,可能损害理解性能。VQRAE 的优势在于它直接利用编码器 EE 产生的连续中间特征 ZIZ_I 进行图像理解,这些特征不受量化误差的影响

过程: 由于 VQRAE 是基于预训练 VFMs 构建的,它可以无缝集成到现有的 MLLMs 中。在下游任务中,可以直接使用 VQRAE 编码器输出的连续特征 ZIZ_I 作为 LLM 的输入进行理解任务,而无需额外的预训练或微调。这大大降低了训练开销,并允许在评估 MLLMs 的视觉理解能力时直接使用 VQRAE

4.2.6. 视觉生成 (Visual Generation) 与 VQRAE

原理: 尽管连续自回归方法(如 MAR)在生成建模中展现能力,但 VQRAE 生成的离散 VQ 码本与高度优化的 AI 基础设施更兼容,有助于加速训练。

过程:

  1. 特征编码: 利用 VQRAE 进行图像编码,得到离散词元。

  2. 文本编码: 使用标准的文本标记器对文本进行编码。

  3. LLM 训练:Qwen3 等大型语言模型骨干的基础上,扩展词汇表以包含视觉词元。然后,使用下一词元预测 (NTP) 损失,仅在视觉词元上训练 LLMs。这使得 LLM 能够以自回归方式生成视觉词元序列,进而通过 VQRAE 的解码器重建图像。

    关键特性: VQRAE 实现了表示解耦 (disentangled representations)。如 Figure 4 所示,连续特征倾向于聚类相似的对象和动物(语义级别),而离散词元则聚类相同的纹理(细粒度级别),这表明了双编码器范式的冗余性。

5. 实验设置

5.1. 数据集

  • VQRAE 预训练:
    • BLIP3-o [6] 开源数据:包含 27M 样本,由 Qwen2.5-VL-7B [1] 重新标注。
    • CC12M [4]:5M 样本。
    • JourneyDB [56]:4M 合成图像。
  • 图像理解 (Image Understanding):
    • 遵循 LLaVA-1.5 [37] 的设置:
      • LLaVA-Pretrain-595K (预训练阶段)
      • LLaVA-v1.5-mix665K (SFT 阶段)
  • 视觉生成 (Visual Generation):
    • BLIP3-o [6] 数据。
    • 额外 80M 高质量图像。
  • VQ 码本消融研究 (Ablation Studies on VQ codebook):
    • ImageNet-1K:用于效率测试,训练 20 个 epochs。

5.2. 评估指标

5.2.1. 重建质量 (Reconstruction Quality)

  • rFID (Reduced Fréchet Inception Distance)
    • 概念定义: FID (Fréchet Inception Distance) 是评估生成图像质量的常用指标,衡量生成图像的分布与真实图像的分布之间的相似性。rFID 则是针对特定数据集或场景的 FID 简化或特定版本。它通过比较两个图像集合在 Inception 网络特征空间中的均值和协方差来计算距离,距离越小表示生成图像质量越好、与真实图像越接近。
    • 数学公式: FID=μ1μ22+Tr(Σ1+Σ22(Σ1Σ2)1/2) \mathrm{FID} = ||\mu_1 - \mu_2||^2 + \mathrm{Tr}( \Sigma_1 + \Sigma_2 - 2(\Sigma_1 \Sigma_2)^{1/2} )
    • 符号解释:
      • μ1,μ2\mu_1, \mu_2: 分别是真实图像和生成图像在 Inception 网络某层特征空间的特征向量的均值。
      • Σ1,Σ2\Sigma_1, \Sigma_2: 分别是真实图像和生成图像特征向量的协方差矩阵。
      • 2||\cdot||^2: 向量的 l2l_2 范数平方。
      • Tr()\mathrm{Tr}(\cdot): 矩阵的迹 (trace)。
      • (Σ1Σ2)1/2(\Sigma_1 \Sigma_2)^{1/2}: 矩阵乘积的平方根。
  • PSNR (Peak Signal-to-Noise Ratio)
    • 概念定义: 峰值信噪比是一个衡量图像重建质量的指标,通常用于评估有损压缩、图像去噪或超分辨率等任务中重建图像的保真度。它以分贝 (dB) 为单位,值越高表示重建图像与原始图像越相似,噪声或失真越小。
    • 数学公式: MSE=1MNi=0M1j=0N1[I(i,j)K(i,j)]2 \mathrm{MSE} = \frac{1}{MN} \sum_{i=0}^{M-1} \sum_{j=0}^{N-1} [I(i, j) - K(i, j)]^2 PSNR=10log10(MAXI2MSE) \mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right)
    • 符号解释:
      • MSE\mathrm{MSE}: 均方误差 (Mean Squared Error)。
      • M, N: 图像的行数和列数(高度和宽度)。
      • I(i, j): 原始图像在像素 (i, j) 处的值。
      • K(i, j): 重建图像在像素 (i, j) 处的值。
      • MAXI\mathrm{MAX}_I: 图像中像素的最大可能值(例如,对于 8 位图像,MAXI=255\mathrm{MAX}_I = 255)。
  • SSIM (Structural Similarity Index Measure)
    • 概念定义: 结构相似性指标是一种感知度量,用于评估两张图像(通常是原始图像和处理后的图像)之间的相似性。它考虑了图像的亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面,比传统的像素差指标(如 MSEPSNR)更能反映人眼对图像质量的感知。SSIM 值介于 -1 和 1 之间,1 表示两张图像完全相同。
    • 数学公式: SSIM(x,y)=[l(x,y)]α[c(x,y)]β[s(x,y)]γ \mathrm{SSIM}(x, y) = [l(x,y)]^{\alpha} \cdot [c(x,y)]^{\beta} \cdot [s(x,y)]^{\gamma} 通常取 α=β=γ=1\alpha = \beta = \gamma = 1l(x,y)=2μxμy+C1μx2+μy2+C1 l(x,y) = \frac{2\mu_x\mu_y + C_1}{\mu_x^2 + \mu_y^2 + C_1} c(x,y)=2σxσy+C2σx2+σy2+C2 c(x,y) = \frac{2\sigma_x\sigma_y + C_2}{\sigma_x^2 + \sigma_y^2 + C_2} s(x,y)=σxy+C3σxσy+C3 s(x,y) = \frac{\sigma_{xy} + C_3}{\sigma_x\sigma_y + C_3}
    • 符号解释:
      • x, y: 分别表示原始图像和重建图像。
      • μx,μy\mu_x, \mu_y: 图像 x, y 的平均像素值。
      • σx,σy\sigma_x, \sigma_y: 图像 x, y 的标准差。
      • σxy\sigma_{xy}: 图像 x, y 的协方差。
      • C1,C2,C3C_1, C_2, C_3: 避免分母为零的常数。
      • α,β,γ\alpha, \beta, \gamma: 用于调整三个成分相对重要性的权重。

5.2.2. 多模态理解 (Multimodal Understanding)

  • MME-Perception [18] (MME-P): 评估 MLLMs 在感知能力方面的基准。
  • GQA [25]: 评估 MLLMs 在视觉推理和组合式问答方面的基准。
  • POPE [32]: 评估 MLLMs 中对象幻觉 (object hallucination) 的基准。
  • MMBench-en [38] (MMB): 评估 MLLMs 的多模态能力综合基准。
  • SEEDBench-Img [29] (SEED): 评估 MLLMs 具有生成性理解 (generative comprehension) 的基准。
  • MMMU [91]: 一个大规模、多学科的多模态理解和推理基准,用于评估专家 AGI
  • TextVQA [54] (TQA): 评估 MLLMs 阅读图像中文本的能力的基准。
  • AI2D [27]: 评估 MLLMs 在理解图表和示意图方面的基准。

5.2.3. 视觉生成 (Visual Generation)

  • GenEval [20]: 专注于评估文本到图像生成模型中对象对齐 (object alignment) 的框架。
  • DPG-Bench [22]: 另一个用于评估生成模型质量的基准。

5.3. 对比基线

5.3.1. 仅生成标记器 (Generative Only Tokenizer)

  • VQGAN [15]
  • LlamaGen [57]
  • VAR [64]
  • Open-MAGVIT2 [40]
  • RAE [96] (虽然是连续的,但作为编码器-解码器的基线进行比较)

5.3.2. 统一标记器 (Unified Tokenizer)

  • Show-o [80]
  • TokenFlow [49]
  • DualViTok [23]
  • MUSE-VL [82]
  • VILA-U [78]
  • UniTok [41]
  • SemHiTok [9]
  • QLIP [95]
  • TokLIP [34]
  • Tar [21]

5.3.3. 仅理解 MLLM (Understanding Only MLLM)

  • Emu3-Chat [70]

  • LLaVA-1.5 [37]

  • InternVL2.5 [8]

  • InternVL3 [98]

  • Qwen2.5-VL [1]

    这些基线模型代表了在视觉生成、多模态理解以及统一标记器领域的多种最新或经典方法,涵盖了离散/连续表示、单/双编码器范式、以及不同的训练目标和模型规模,从而能够全面评估 VQRAE 的性能。

5.4. 实现细节

  • 编码器 (Unified Encoder): 采用 SigLIP2-so400m-p16-256px [65]SigLIP2-so400m-p16-512px [65]InternViT-300M-448px [98] 作为统一编码器。
  • 解码器 (Decoder): 对称的 ViT-based 解码器。
  • 训练配置:
    • 图像理解: 遵循 LLaVA-1.5 [37] 的设置。使用 Vicuna-v1.5-7B/13B [10]Qwen2.5-7B [62] 作为 LLM 骨干。强调 VQRAE 标记器没有针对理解任务进行特定的微调。
    • 视觉生成: 使用 Qwen3-0.6B [87] 作为 LLM 骨干,以实现高效训练。扩展 LLM 的词汇表以包含视觉词元,并仅在视觉词元上使用 NTP 损失进行训练。

6. 实验结果与分析

6.1. 统一视觉标记器性能分析 (重建质量)

以下是原文 Table 2 的结果:

Method Ratio Metrics
rFID↓ PSNR↑ SSIM↑
Generative Only Tokenizer
VQGAN [15] 16 4.98 20.00 0.629
LlamaGen [57] 16 2.19 20.79 0.675
VAR [64] 16 1.00 22.63 0.755
Open-MAGVIT2 [40] 16 1.67 22.70 0.640
RAE [96] 16 0.49 19.23 0.620
Unified Tokenizer
Show-o [80] 16 3.50 21.34 0.590
TokenFlow [49] 16 1.37 21.41 0.690
DualViTok [23] 16 1.37 22.53 0.740
MUSE-VL [82] 16 2.26 20.14 0.646
VQRAE (SigLIP2) 16 1.31 22.23 0.762
VQRAE (InternViT) 14 1.39 22.23 0.762

分析:

  • 竞争性重建质量: VQRAE 在重建质量方面(rFID, PSNR, SSIM)表现出强大的竞争力。例如,VQRAE (SigLIP2)SSIM 达到了 0.762,超过了所有列出的统一标记器(如 TokenFlow 的 0.690, DualViTok 的 0.740)和大多数仅生成标记器(除了 VAR 的 0.755)。这表明 VQRAE 能够生成与原始图像高度相似的重建图像,尤其在结构相似性方面表现优异。

  • 超越双编码器方法: VQRAErFID (1.31 vs. TokenFlow 1.37, MUSE-VL 2.26) 和 SSIM (0.762 vs. TokenFlow 0.690, MUSE-VL 0.646) 上优于 TokenFlowMUSE-VL 等双编码器方法。这验证了 VQRAE 采用更高效的统一编码器风格,可以在保持竞争性性能的同时降低模型复杂性。

  • 离散空间操作的可行性: 实验结果支持了 VQRAE 在离散空间中操作的可行性。尽管 RAE (0.49 rFID) 在 rFID 上表现最佳,但它使用的是连续表示。VQRAE 作为离散版本,在 rFID (1.31) 上也表现出色,同时提供了离散词元兼容自回归生成。

  • ViT 编码器-解码器的有效性: 实验结果证实,使用预训练的 VFMs 作为统一编码器和 ViT-based 解码器,并对语义特征进行离散化,即使不使用卷积块也能实现有竞争力的重建质量。这与 [59, 96] 的观察一致,并进一步验证了在离散空间中的有效性。

    以下是原文 Figure 5 的结果,展示了 VQRAE-InternViT 版本的重建效果:

    Figure 5. Visualization of reconstruction results from VQRAEInternViT version. Left: input image; Right: output image. 该图像是复原结果的可视化,来源于VQRAEInternViT版本。左侧为输入图像,右侧为输出图像,展示了模型在图像重建方面的表现。 分析: Figure 5 可视化展示了 VQRAE-InternViT 版本的重建结果。输入图像与输出图像之间高度相似,尤其是在物体形状、颜色和纹理细节方面。这直观地证明了 VQRAE 具有出色的图像重建能力,能够从离散词元中恢复出高质量的图像。

6.2. 多模态理解性能分析

以下是原文 Table 3 的结果:

Method Vision Encoder LLM Res. POPE GQA TQA MMB MME-P SEED MMMU AI2D
Understanding Only MLLM
Emu3-Chat [70] MoVQGAN 8B from scratch 512 85.2 60.3 64.7 58.5 1243.8 68.2 31.6 70.0
LLaVA-1.5† [37] CLIP-L Vicuna-7B 336 85.9 62.0 46.1 64.3 1510.7 58.6 35.4 55.3
LLaVA-1.5† [37] CLIP-L Vicuna-13B 336 85.9 63.3 61.3 67.7 1531.3 68.1 36.4 61.1
InternVL2.5 [8] InternViT-300M InternLM2.5-7B 448 90.6 - 79.1 84.6 - - 56.0 84.5
InternVL3 [98] InternViT-300M Qwen2.5-7B 448 91.1 80.2 83.4 1748.4 77.1 62.7 85.2
Qwen2.5-VL [1] QwenViT Qwen2.5-7B 448 85.9 - 84.9 83.5 1698.1 77.0 58.6 83.9
MLLM with Unified Tokenizer
VILA-U† [78] SigLIP-so400m Vicuna-7B 256 81.6 - - 1311.6
UniTok† [41] Vitamin-L Vicuna-7B 256 81.7 - - 1448.0
SemHiTok† [9] SigLIP-L Vicuna-7B 256 84.2 61.0 60.3 1400.6
QLIP† [95] CLIP-L Vicuna-7B 392 86.1 61.8 55.2 - 1498.3 - - -
TokenFlow-L† [49] ViTamin-XL Vicuna-13B 256 85.0 60.3 54.1 60.3 1365.4 62.6 34.4 56.6
TokenFlow-XL [49] SigLIP-so400m Vicuna-13B 384 86.8 62.7 61.5 68.9 1545.9 68.7 38.7 66.7
TokLIP† [34] ViT-so400m Qwen2.5-7B 384 82.7 59.3 - - 1410.2 65.2 42.1 -
Tar [21] SigLIP2-so400m Qwen2.5-7B 384 87.8 61.3 - 74.4 1571.0 73.0 39.0 -
VQRAE‡ SigLIP2-so400m Vicuna-7B 256 84.4 62.4 44.4 65.3 1445.7 66.4 31.3 53.1
VQRAE† SigLIP2-so400m Vicuna-13B 256 85.1 63.4 46.5 65.5 1491.1 66.8 33.3 57.0
VQRAE* SigLIP2-so400m Vicuna-7B 512 88.2 63.6 58.8 67.6 1494.2 62.8 33.9 55.3
VQRAE† SigLIP2-so400m Vicuna-13B 512 88.2 64.8 61.7 67.3 1543.3 69.9 37.4 59.8
VQRAE InternViT-300M Qwen2.5-7B 448 90.5 - 80.6 85.1 1746.8 77.0 61.6 84.8

分析:

  • 优于其他统一标记器: VQRAE 在多个下游多模态理解基准测试中,持续优于其他统一标记器(例如 VILA-U, UniTok, SemHiTok, QLIP, TokenFlow-L 等)。
    • Vicuna-13B 设置下,VQRAE (SigLIP2, 512)MME-P 达到 1543.3,超过了 TokenFlow-XL 的 1545.9(尽管后者 MME-P 略高,但 VQRAE 在其他指标如 POPE, GQA, MMB, SEED 上具有竞争力)。特别是在与 TokenFlow-L (13B 参数,256 分辨率) 比较时,VQRAE (SigLIP2, Vicuna-13B, 256)MME-P 为 1491.1,显著高于 TokenFlow-L 的 1365.4,展现了 VQRAE 在理解能力上的优势。
    • Tar [21] 相比,TarQwen2.5-7B 设置下 MME-P 为 1571.0,而 VQRAE (InternViT, Qwen2.5-7B, 448) 达到了 1746.8,显著超越。这表明 VQRAE 通过直接利用连续特征而不是离散词元进行理解,有效避免了量化误差带来的性能下降。
  • 零性能下降甚至提升: VQRAE 在不进行特定微调的情况下,通过替换基础模型中的 ViT 编码器(例如 InternVL3),其性能不仅没有下降,反而可能有所提升。例如,VQRAE (InternViT)Qwen2.5-7B 和 448 分辨率下,在 POPE (90.5), TQA (80.6), MMB (85.1), MME-P (1746.8), MMMU (61.6), AI2D (84.8) 等多个指标上与原生 InternVL3 (91.1, 80.2, 83.4, 1748.4, 62.7, 85.2) 相当或非常接近。这验证了 VQRAE 的两阶段训练方法在训练重建能力的同时,有效保留了甚至增强了视觉理解性能。
  • 高效性: VQRAE 的方法更加高效,因为它不需要为预训练的 VQRAE 标记器进行多模态对齐或指令微调。

6.3. 视觉生成性能分析

以下是原文 Table 4 的结果:

Method # Params GenEval [20] DPG-Bench [22]
Single Obj. Two Obj. Counting Colors Position Color Attri. Overall↑ Global Entity Attribute Relation Other Overall↑
Diffusion-based Model
SDv1.5 [52] 0.9B 0.97 0.38 0.35 0.76 0.04 0.43 74.63 74.23 75.39 73.49 67.81 63.18
PixArt-α [5] 0.6B 0.98 0.50 0.44 0.80 0.08 0.48 74.97 79.32 78.60 82.57 76.96 71.11
SDv2.1 [52] 0.9B 0.98 0.51 0.39 0.85 0.07 0.50 - - - - - -
SDXL [48] 2.6B 0.98 0.74 0.47 0.83 0.15 0.55 83.27 82.43 80.91 86.76 80.41 74.65
DALLE3 [35] - 0.96 0.87 0.72 0.89 0.43 0.67 90.97 89.61 88.39 90.58 89.83 83.50
SD3-Medium [16] 2B 0.99 0.94 0.72 0.89 0.33 0.65 90.97 89.61 88.39 90.58 89.83 83.50
SANA-1.5 [79] 4.8B 0.99 0.93 0.86 0.84 0.59 0.74 87.90 91.01 88.83 80.70 88.68 84.08
Autoregressive-based Model
Chameleon [60] 7B 0.71 0.34 0.21 0.58 0.07 0.32 - - - - - -
LlamaGen [57] 0.8B 0.98 0.71 0.34 0.81 0.17 0.54 85.21 86.68 86.84 84.76 58.40 80.60
EMU3-Gen [70] 8B 0.98 0.71 0.34 0.81 0.17 0.54 85.21 86.68 86.84 84.76 58.40 80.60
TokenFlow [49] 13B 0.97 0.66 0.40 0.84 0.17 0.55 78.72 79.22 81.29 85.22 71.20 73.38
Janus [76] 1.3B 0.97 0.68 0.30 0.84 0.46 0.61 82.33 87.38 87.70 85.46 86.41 79.68
SimpleAR [67] 1.5B 0.90 - - 0.28 0.45 0.63 87.97 - - 86.33 - 81.97
Janus-Pro [7] 1B 0.98 0.82 0.51 0.89 0.65 0.73 87.58 88.63 88.17 88.98 88.30 82.63
VQRAE 0.6B 0.96 0.82 0.64 0.80 0.73 0.76 89.78 93.14 89.92 90.34 91.27 86.67

分析:

  • 在轻量级模型中表现出色: VQRAE 使用仅 0.6B 参数的轻量级模型,在 GenEvalDPG-Bench 基准测试中展现出极具竞争力的生成能力,甚至超越了许多参数量更大的自回归模型。

    • GenEval 上,VQRAEOverall 得分为 0.76,高于 Janus-Pro (0.73)、SimpleAR (0.63)、Janus (0.61)、TokenFlow (0.55)、LlamaGen/EMU3-Gen (0.54) 和 Chameleon (0.32)。这表明 VQRAE 在处理图像中单个物体、两个物体、计数、颜色位置和颜色属性等方面的能力更强。
    • DPG-Bench 上,VQRAEOverall 得分为 86.67,远超 Janus-Pro (82.63)、SimpleAR (81.97)、LlamaGen/EMU3-Gen (80.60) 和 Janus (79.68)。尤其在 Entity (93.14) 和 Other (91.27) 维度上表现突出。
  • 语义高维潜在空间的益处: VQRAE 基于 VFMs 构建的语义高维潜在空间,不仅加速了扩散模型 (diffusion-based models) 的收敛,也显著提升了离散自回归模型 (autoregressive models) 的训练动态和生成性能。

  • 与扩散模型比较: 尽管 VQRAE 是自回归模型,但其在 GenEval 上的 Overall (0.76) 已经接近甚至超过了一些扩散模型,例如 SDv1.5 (0.43)、PixArt-α (0.48)、SDv2.1 (0.50) 和 SDXL (0.55)。这凸显了 VQRAE 在自回归范式下的强大生成潜力。当然,顶级的扩散模型如 DALLE3 (0.67) 和 SD3-Medium (0.65) 仍有更高性能,但它们通常拥有更大的参数量。

    以下是原文 Figure 8 的结果,展示了 VQRAE 的生成效果:

    Figure 8. Additional visualization of generation results at \(5 1 2 \\times 5 1 2 \\mathrm { p x }\) . 该图像是一个展示不同生成结果的视觉集,共包含多个主题,如自然、人物与动物等。通过统一的表示方法,图中展示的结果表现出多样化的图像风格和结构,突出VQRAE方法在视觉生成和理解上的应用潜力。 分析: Figure 8 展示了 VQRAE 生成的图像,这些图像具有多样化的风格、主题和场景,包括自然风光、人物、动物和抽象概念。生成图像的质量较高,细节丰富,色彩自然。这进一步验证了 VQRAE 在视觉生成任务上的有效性,能够根据输入生成高质量、具有创造性的图像。

6.4. 消融实验 (Ablation Studies)

6.4.1. 码本维度 (Codebook Dim)

以下是原文 Table 5 的结果:

Dim Size rFID↓ PSNR↑ SSIM↑ Ratio↑
≤ 256 16384 NA NA NA NA
384 7.69 8.24 0.261 64%
768 5.38 13.76 0.398 69%
1152 3.51 17.22 0.569 83%
1536 2.65 20.14 0.668 100%
1920 4096 7.07 8.02 0.253 66%
8192 3.74 17.02 0.548 98%
16384 2.69 20.07 0.664 100%
32768 2.78 19.94 0.645 96%

分析:

  • 高维码本的重要性: 当量化从 VFMs (ViT-based) 中提取的特征时,码本维度 (Dim) 需要更高。在 Dim256Dim ≤ 256 时,训练不收敛 (NA),这与之前 CNN-based 编码器需要低维码本的发现(如 8-256)形成鲜明对比。随着维度从 384 增加到 1536,重建质量 (rFID, PSNR, SSIM) 持续提升,并且码本利用率 (Ratio) 从 64% 提高到 100%。这表明,对于语义编码器,更高的维度是必要的,否则会导致训练不收敛和码本崩溃。
  • 1536 维度下的 100% 利用率: VQRAE 在 1536 维度下,码本利用率达到 100%,同时重建指标表现最佳 (rFID 2.65, PSNR 20.14, SSIM 0.668)。这证明了 VQRAE 成功训练了一个高维且充分利用的语义码本。

6.4.2. 码本大小 (Codebook Size)

分析:

  • 码本大小对重建质量的影响: 在固定码本维度 (1920) 的情况下,随着码本大小 (Size) 从 4096 增加到 16384,重建质量 (rFID, PSNR, SSIM) 持续改善,码本利用率也随之提高。
  • 过大码本的收敛问题: 当码本大小超过 16K (例如 32768) 时,观察到重建质量略有下降,且利用率也略微降低(从 100% 降至 96%)。这归因于训练过程的收敛速度变慢,表明存在一个最佳的码本大小范围。

6.4.3. 训练策略 (Training Strategies)

以下是原文 Table 6 的结果:

Two Stage Self- Distillation Reconstruction Understanding
rFID↓ PSNR↑ SSIM↑ MME-P↑ MMB↑ AI2D↑ TQA↑
× × 2.69 21.35 0.704 608.9 22.3 48.6 7.0
X 2.84 19.68 0.644 1435.2 64.9 52.8 42.6
2.71 20.52 0.680 1439.1 65.8 53.1 44.0

分析:

  • 无自蒸馏的端到端训练 (End-to-end training without self-distillation):

    • 第一行 (×, ×) 代表在没有自蒸馏的情况下端到端训练所有组件。这种设置下,重建质量 (rFID 2.69, PSNR 21.35, SSIM 0.704) 表现最好。
    • 然而,其在视觉理解任务上的性能极差 (MME-P 608.9, MMB 22.3, TQA 7.0),这表明在没有约束的情况下,模型为了优化像素重建而牺牲了语义理解能力。
  • 仅自蒸馏 (Self-distillation only):

    • 第二行 (X, ✓) 表示在没有两阶段训练(即编码器从一开始就参与优化,但有自蒸馏约束)的情况下,使用自蒸馏。
    • 与第一行相比,自蒸馏显著提升了视觉理解性能 (MME-P 1435.2, MMB 64.9, TQA 42.6),但重建质量有所下降 (rFID 2.84, PSNR 19.68, SSIM 0.644)。这表明语义约束能够缓解理解能力的退化。
  • 两阶段训练与自蒸馏 (Two-stage training with self-distillation):

    • 第三行 (✓, ✓) 代表 VQRAE 采用的两阶段训练策略并结合自蒸馏。
    • 在这种设置下,模型在重建质量 (rFID 2.71, PSNR 20.52, SSIM 0.680) 和视觉理解性能 (MME-P 1439.1, MMB 65.8, TQA 44.0) 之间取得了最佳平衡。重建质量优于仅有自蒸馏的情况,且理解性能与仅自蒸馏的情况相当。
  • 结论: 两阶段训练策略和自蒸馏损失的结合,能够有效平衡图像重建和理解能力。在初始阶段冻结编码器训练,可以更好地学习重建细节,而在第二阶段通过自蒸馏微调编码器,则能使其在不损害语义理解能力的前提下,补充精细的重建细节。

    以下是原文 Figure 6 的结果,展示了训练策略消融研究的可视化结果:

    Figure 6. Visualization results on ablation study of training strategies. As indicated in Tab. 6, the second training stage adds more fine-grained details on reconstruction and retains semantics, while end-to-end training without distillation constraints fails to achieve a trade-off between them. 该图像是一个示意图,展示了不同训练阶段下的重建效果。图中的四组内容分别为原始图像、阶段1(Stage 1)、阶段2(Stage 2)和端到端训练(E2E),可以看出阶段2的重建在细节和语义保持上更为完善。 分析: Figure 6 直观展示了不同训练策略对重建结果的影响。

  • E2E (End-to-End) 训练(对应 Table 6 的第一行):重建图像质量较好,但在语义上可能与原始图像有偏差,且理解性能很差。

  • Stage 1:在编码器冻结的情况下,主要目标是学习码本和解码器进行像素重建。图像质量良好。

  • Stage 2(对应 Table 6 的第三行):在 Stage 1 的基础上,解冻编码器并加入自蒸馏损失。此时的重建图像在细节和语义上都更完整和准确,表明通过自蒸馏,编码器在微调后能够更好地捕捉细粒度信息,同时保持语义一致性。这验证了两阶段训练和自蒸馏在实现理解与重建之间权衡的有效性。

7. 总结与思考

7.1. 结论总结

本文提出了 VQRAE,一种向量量化版本的表示自动编码器,开创性地实现了在统一标记器中同时生成用于多模态理解的连续语义特征和用于视觉生成及重建的离散词元

  • 统一与高效: VQRAE 摆脱了传统双编码器范式的复杂性,采用纯 ViT 架构和预训练 VFMs 作为统一编码器,有效降低了模型复杂性和训练开销。
  • 高维码本的突破: 首次成功训练了高维度(例如 1536 维)且具有 100% 利用率的语义 VQ 码本,这颠覆了以往关于图像重建码本应为低维的普遍认知。
  • 性能优越性: 在视觉理解、生成和重建的多个基准测试中,VQRAE 展现出竞争性甚至超越 SOTA 的性能,尤其在理解任务上避免了离散化带来的性能损失,并在轻量级自回归生成模型中表现出色。
  • 巧妙的训练策略: 两阶段训练策略(第一阶段冻结编码器以学习重建细节,第二阶段解冻编码器并结合自蒸馏以保持语义能力)是实现这种平衡的关键。

7.2. 局限性与未来工作

7.2.1. 局限性

  • 理解与重建的权衡: VQRAE 在理解与重建之间找到了一个良好的权衡点,但如何在不损害理解能力的前提下,进一步最小化对理解能力的妥协,仍有探索空间。
  • 未充分利用重建/生成对理解的增强: 本文主要侧重于为理解、生成、重建提供统一表示,但如何利用重建和生成能力反过来增强理解能力,这一潜力尚未被充分发掘。
  • 量化损失的挑战: 作为离散标记器,VQRAE 固有的量化损失使其难以完全与最先进的连续 VAE 竞争,尤其是在极端精细的重建任务上。
  • 生成质量的提升空间: 在生成质量方面,特别是在空间关系、纹理渲染以及人脸和手指等特定区域的伪影处理上,仍有改进空间。这些问题可能需要通过后训练 (post-training) 方法(如 [6, 19, 67] 提及)来解决。
  • 文本重建和高密度场景的不足: 在文本重建和高密度场景中,标记器仍存在缺陷,这可能与语义表示和重建性能之间的权衡以及文本数据的特定微调有关。

7.2.2. 未来工作

  • 平衡理解与重建的更有效方法: 探索替代和更有效的方法来平衡理解和重建性能,以最大程度地减少对理解能力的妥协。
  • 多任务整合: 深入研究如何利用 VQRAE 提供的统一表示,将各种任务(理解、生成、重建)更深度地整合到单一模型中。这包括解决不同任务之间的冲突和协同效应,以及实现高效的模型扩展。
  • 利用强化学习提升生成质量: 结合强化学习 (reinforcement learning) 等技术,进一步提升生成质量,尤其是在解决人脸和手指等伪影问题上。
  • 更复杂的语义码本设计: 探索更复杂的语义 VQ 码本设计,以进一步优化其在高维空间中的利用率和表达能力。

7.3. 个人启发与批判

7.3.1. 个人启发

  • 统一表示的强大潜力: VQRAE 的成功再次证明了在多模态领域实现统一表示的巨大潜力。通过一个共享的标记器处理理解、生成和重建,不仅简化了模型架构,也为未来的 AGI (通用人工智能) 发展奠定了基础。
  • 语义与像素的解耦与融合: VQRAE 巧妙地通过连续语义特征和离散像素词元来解耦和融合不同层次的信息。连续特征保留了 VFM 的高级语义,适用于理解;离散词元则捕捉了重建所需的细粒度信息,适用于生成。这种分而治之,再通过统一框架整合的思路非常值得借鉴。
  • 高维语义量化的洞察: 论文中关于高维码本在语义编码器量化中必要性的发现是一个重要的经验性洞察。这挑战了传统观念,并为基于语义的 VQ 提供了新的设计方向。这提示我们在应用经典方法时,要根据新的模型和数据特性进行重新评估和创新。
  • 两阶段训练的精妙平衡: 精心设计的两阶段训练策略是 VQRAE 成功的关键。它提供了一个范例,说明如何在复杂的多目标优化问题中,通过分阶段策略和自蒸馏等技术,有效地平衡不同任务的需求,避免灾难性遗忘 (catastrophic forgetting) 或性能退化。
  • 对现有 MLLM 架构的即插即用性: VQRAE 可以无缝集成到现有 MLLMs 中,减少了额外的训练开销,这对于实际应用和研究社区的推广具有重要意义。

7.3.2. 批判

  • “100% 利用率”的深层含义: 尽管论文强调了码本 100% 的利用率,这固然是码本训练成功的一个标志,但并未深入探讨这种高利用率是否意味着码本的冗余度较低,或者是否可能存在过拟合 (overfitting) 到训练数据的风险。在更高维度上,100% 利用率是否总是最优的,或是否可能限制模型的泛化能力,值得进一步探究。
  • ViT 解码器的细节: 虽然论文提到使用对称的 ViT 解码器,但其具体结构和与编码器的对称性实现方式可以更详细地说明。例如,是否是逆向的 Transformer 块堆叠,以及如何处理多尺度特征等。
  • 推理效率的分析: 尽管论文提到离散词元在自回归范式中兼容高效的 AI 基础设施,但缺乏对 VQRAE 在生成和理解任务中实际推理速度的详细分析和与其他方法的比较。生成离散词元后,通过 LLM 进一步生成,再通过解码器重建图像的整个流程,其端到端延迟 (end-to-end latency) 是一个重要的考量。
  • 对 VFM 选择的敏感性: VQRAE 严重依赖预训练 VFMs 的能力。虽然论文测试了 SigLIP2InternViT,但不同 VFMs 的选择如何影响 VQRAE 的性能(特别是当 VFM 本身具有特定偏置或能力差异时)可以进行更全面的分析。
  • 训练成本的量化: 虽然论文指出其设计减少了复杂性和训练开销,但缺乏具体的训练时间、计算资源消耗等量化指标,难以与其他方法进行直接的成本效益比较。
  • 失败案例的深入分析: 论文提供了失败案例,这很棒。如果能进一步深入分析这些失败(例如文本重建和高密度场景)的根本原因,是量化误差的限制、编码器语义理解的不足、解码器重建能力的瓶颈,还是训练数据分布的缺陷,将更有助于未来的改进。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。