论文状态：已完成

UniTok: A Unified Tokenizer for Visual Generation and Understanding

发表：2025/02/28

视觉语言模型 (11)统一 tokenizer (1)视觉生成与理解 (1)多代码簿量化机制 (1)VQVAE与CLIP结合 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了UniTok，一个统一的视觉生成和理解分词器，利用新颖的多码本量化机制解决了VQVAE和CLIP训练目标结合中的损失冲突问题。UniTok在ImageNet上实现了0.38的rFID和78.6%的零样本准确率，且能够无缝集成至多模态大语言模型，显著提升生成和理解性能。

摘要

Visual generative and understanding models typically rely on distinct tokenizers to process images, presenting a key challenge for unifying them within a single framework. Recent studies attempt to address this by connecting the training of VQVAE (for autoregressive generation) and CLIP (for understanding) to build a unified tokenizer. However, directly combining these training objectives has been observed to cause severe loss conflicts. In this paper, we show that reconstruction and semantic supervision do not inherently conflict. Instead, the underlying bottleneck stems from limited representational capacity of discrete token space. Building on these insights, we introduce UniTok, a unified tokenizer featuring a novel multi-codebook quantization mechanism that effectively scales up the vocabulary size and bottleneck dimension. In terms of final performance, UniTok sets a new record of 0.38 rFID and 78.6% zero-shot accuracy on ImageNet. Besides, UniTok can be seamlessly integrated into MLLMs to unlock native visual generation capability, without compromising the understanding performance. Additionally, we show that UniTok favors cfg-free generation, reducing gFID from 14.6 to 2.5 on ImageNet 256 $\times$ 256 benchmark. GitHub: https://github.com/FoundationVision/UniTok.

思维导图

论文精读

中文精读约 39 分钟读完 · 28,163 字

1. 论文基本信息

1.1. 标题

UniTok: A Unified Tokenizer for Visual Generation and Understanding

1.2. 作者

Chuofan Ma, Yi Jiang, Junfeng Wu, Jihan Yang, Xin Yu, Zehuan Yuan, Bingyue Peng, Xiaojuan Qi 隶属机构包括：香港大学 (The University of Hong Kong)，字节跳动 (ByteDance Inc.)，华中科技大学 (Huazhong University of Science and Technology)。

1.3. 发表期刊/会议

该论文发布在 arXiv 预印本平台。

1.4. 发表年份

2025年

1.5. 摘要

视觉生成 (Visual Generative) 和理解 (Understanding) 模型通常依赖不同的分词器 (tokenizers) 来处理图像，这为在单一框架内统一它们带来了关键挑战。最近的研究试图通过结合 VQVAE（用于自回归生成）和 CLIP（用于理解）的训练来构建一个统一的分词器。然而，直接组合这些训练目标会导致严重的损失冲突。本文指出，重建 (reconstruction) 和语义监督 (semantic supervision) 之间并非固有冲突，而是离散词元空间 (discrete token space) 有限的表征能力 (representational capacity) 导致了潜在的瓶颈。基于这些洞察，本文提出了 UniTok，一种统一的分词器，其特点是新颖的多码本量化 (multi-codebook quantization) 机制，能够有效扩展词汇量 (vocabulary size) 和瓶颈维度 (bottleneck dimension)。在最终性能方面，UniTok 在 ImageNet 上创下了 0.38 rFID 和 78.6% 零样本准确率 (zero-shot accuracy) 的新纪录。此外，UniTok 可以无缝集成到多模态大语言模型 (MLLMs) 中，以解锁原生的视觉生成能力，同时不损害理解性能。本文还展示了 UniTok 有利于无分类器引导 (cfg-free) 生成，将 ImageNet $256 \times 256$ 基准上的 gFID 从 14.6 降低到 2.5。

1.6. 原文链接

https://arxiv.org/abs/2502.20321 PDF 链接: https://arxiv.org/pdf/2502.20321v3.pdf 发布状态：预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题与挑战

当前，多模态大语言模型 (MLLMs) 在融合视觉和语言能力方面展现出巨大潜力，特别是像 GPT-4o 这样的模型已经实现了原生的视觉生成能力。然而，在构建这些统一模型时，选择合适的视觉分词器 (tokenizer) 仍是一个根本性难题。

现有分词器的局限性:
- CLIP (Contrastive Language-Image Pre-training) 分词器: 在多模态理解 (multimodal understanding) 方面表现卓越，但其高维连续特征空间 (high-dimensional, continuous feature space) 使其不适合自回归生成 (autoregressive generation)。
- VQVAE (Vector Quantized Variational AutoEncoder) 分词器: 适合自回归生成，因为它将图像编码为离散的词元 (discrete tokens)，但其在捕获关键语义信息方面表现不足，影响了模型的理解能力。
统一尝试的困境: 最近的研究试图通过将 VQVAE 的训练与 CLIP 的监督相结合来构建统一分词器。然而，这种直接结合已被观察到会导致严重的训练目标冲突 (loss conflicts) 和性能下降，尤其是在理解性能方面远低于 CLIP 基线 (Figure 1)。

2.1.2. 现有研究的不足与本文的切入点

以往研究普遍将 VQVAE 和 CLIP 训练目标之间的冲突归因于语义学习与像素级特征学习之间的矛盾。然而，视觉生成领域的最新进展表明，语义正则化 (semantic regularization) 实际上可能有利于重建导向 (reconstruction-oriented) 的分词器训练。这种看似矛盾的现象促使作者深入探究：重建损失 (reconstruction loss) 和语义损失 (semantic loss) 真的存在固有冲突吗？

本文通过深入的消融实验发现，这种表面上的“冲突”并非本质问题。相反，核心瓶颈在于离散词元空间有限的表征能力 (limited representational capacity of discrete token space)。传统的词元分解 (token factorization) 和离散化 (discretization) 操作会压缩信息，导致表达能力受损。

2.2. 核心贡献/主要发现

本文围绕解决离散词元空间的容量限制，提出了 UniTok，并取得了以下关键贡献和发现：

揭示统一分词器训练的瓶颈: 首次指出重建和语义监督并非固有冲突，而是离散词元空间的有限表征能力导致了性能瓶颈。
提出 UniTok 统一分词器: 基于上述洞察，设计并开发了 UniTok，一个能够兼顾视觉生成和理解任务的统一分词器。
创新多码本量化 (Multi-Codebook Quantization, MCQ) 机制:
- 提出了一种新颖的 MCQ 机制，通过将视觉词元分割成多个块，并为每个块使用独立的子码本 (sub-codebook) 进行离散化。
- 该机制能以指数级扩大词汇量，并按比例增加潜在码维度，同时避免了单一大型码本的优化难题和“死码本”问题。
引入注意力投影 (Attention Projection) 改进词元分解: 针对传统线性投影在词元分解中丢失语义的问题，将多头注意力 (Multi-Head Attention) 模块进行适配，通过平均池化 (average pooling) 实现通道压缩，有效增强了分解词元的表达能力和训练稳定性。
卓越的性能表现:
- 在 ImageNet 上实现了 0.38 的 rFID (重建质量) 和 78.6% 的零样本准确率 (理解能力)，刷新了记录。
- 能无缝集成到多模态大语言模型 (MLLMs) 中，赋予其原生的视觉生成能力，且在 VQA、TextVQA、MME 等理解基准上优于现有统一模型，并缩小了与连续视觉分词器 MLLM 的差距。
- UniTok 显著有利于无分类器引导 (CFG-free) 的生成，在 ImageNet $256 \times 256$ 上将 gFID 从 14.6 降低到 2.5，表明其学习到了更结构化的潜在空间。

3. 预备知识与相关工作

本节将为读者解释理解 UniTok 及其所处技术环境所需的关键概念和相关研究，并分析 UniTok 在这一技术演进中的位置。

3.1. 基础概念

3.1.1. 分词器 (Tokenizer)

在自然语言处理 (Natural Language Processing, NLP) 领域，分词器负责将原始文本（如句子）分解成更小的单元（如单词、子词或字符），这些单元被称为词元 (token)。在视觉领域，视觉分词器 (Visual Tokenizer) 的作用类似，它将原始图像（连续像素数据）编码成离散的视觉词元序列。这些词元序列可以被后续的生成模型（如 Transformer）或理解模型处理。

3.1.2. VQVAE (Vector Quantized Variational AutoEncoder)

VQVAE (Vector Quantized Variational AutoEncoder) 是一种生成模型，它通过引入一个离散的潜在变量 (discrete latent variable) 来进行数据编码和解码。

编码器 (Encoder): 将输入图像编码成连续的潜在表示。
量化模块 (Quantization Module): 将连续的潜在表示映射到预定义的码本 (codebook) 中的最近离散向量（码本条目，codebook entry）。这个过程是 VQVAE 的核心，它将连续数据离散化为词元。
解码器 (Decoder): 根据离散的码本条目重构图像。 VQVAE 因其生成的离散词元序列与 Transformer 架构兼容，常用于自回归生成 (autoregressive generation) 模型。

3.1.3. CLIP (Contrastive Language-Image Pre-training)

CLIP 是一种强大的多模态 (multimodal) 模型，通过对比学习 (contrastive learning) 在大量图像-文本对上进行预训练。

工作原理: 它学习将图像和文本映射到同一个嵌入空间 (embedding space)，使得语义相似的图像和文本对的嵌入距离较近，而语义不相似的对距离较远。
特点: CLIP 在零样本 (zero-shot) 图像分类和检索等理解任务上表现出色，因为它能够捕获图像的高层语义信息并与语言对齐。然而，其输出的是连续的高维特征，不直接支持自回归生成。

3.1.4. MLLM (Multimodal Large Language Models)

MLLMs 是结合了视觉和语言能力的大型语言模型。它们旨在处理多模态输入（如图像和文本）并生成多模态输出。例如，一个 MLLM 可以接收一张图像和一个问题，然后生成一个文本答案。更先进的 MLLM 还可以根据文本指令生成图像。

3.1.5. rFID (reconstruction Fréchet Inception Distance)

rFID (reconstruction Fréchet Inception Distance) 是一种评估图像重建质量的指标。它衡量的是重建图像的分布与原始真实图像的分布之间的相似性。rFID 值越低，表示重建图像与原始图像在感知上越相似，重建质量越好。

概念定义: rFID 旨在量化两组图像（真实图像和重建图像）在高维特征空间（通常是 Inception-v3 网络的特征空间）中的距离。它假设这些特征服从多元高斯分布，并计算这两个高斯分布之间的 Fréchet 距离。
数学公式: $\mathrm{FID}(\mathcal{N}_1, \mathcal{N}_2) = ||\mu_1 - \mu_2||^2 + \mathrm{Tr}(\Sigma_1 + \Sigma_2 - 2(\Sigma_1 \Sigma_2)^{1/2})$
符号解释:
- $\mathcal{N}_1$ : 代表真实图像特征在高维空间中的高斯分布。
- $\mathcal{N}_2$ : 代表重建图像特征在高维空间中的高斯分布。
- $\mu_1$ : 真实图像特征分布的均值向量。
- $\mu_2$ : 重建图像特征分布的均值向量。
- $\Sigma_1$ : 真实图像特征分布的协方差矩阵。
- $\Sigma_2$ : 重建图像特征分布的协方差矩阵。
- $||\cdot||^2$ : L2 范数的平方，衡量均值之间的距离。
- $\mathrm{Tr}(\cdot)$ : 矩阵的迹，表示矩阵对角线元素的和。
- $(\cdot)^{1/2}$ : 矩阵的平方根。此项衡量协方差矩阵的相似性。

3.1.6. Zero-shot accuracy (零样本准确率)

零样本准确率用于评估模型在训练过程中从未见过的类别上的分类能力。例如，如果一个模型在训练时没有见过“斑马”的图像，但它能正确地将一张斑马的图像分类为“斑马”，那么它就展现了零样本能力。在本文中，它通常用于评估分词器在捕获图像语义信息并进行分类时的表现。

概念定义: 零样本准确率是指在给定一组从未在训练中出现过的类别（被称为“新类别”或“零样本类别”）的样本时，模型能够正确识别这些样本所属类别的比例。
数学公式: $\text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Samples}}$
符号解释:
- Number of Correct Predictions: 模型正确预测的样本数量。
- Total Number of Samples: 总样本数量。

3.1.7. gFID (generation Fréchet Inception Distance)

gFID (generation Fréchet Inception Distance) 与 rFID 类似，但它专注于评估生成图像的质量。gFID 值越低，表示生成图像与真实图像在感知上越相似，生成质量越好。

概念定义: gFID 量化生成图像的分布与真实图像的分布之间的距离。它与 rFID 使用相同的数学原理，但比较的是生成模型输出的图像和真实图像。
数学公式: $\mathrm{FID}(\mathcal{N}_1, \mathcal{N}_2) = ||\mu_1 - \mu_2||^2 + \mathrm{Tr}(\Sigma_1 + \Sigma_2 - 2(\Sigma_1 \Sigma_2)^{1/2})$
符号解释:
- $\mathcal{N}_1$ : 代表真实图像特征在高维空间中的高斯分布。
- $\mathcal{N}_2$ : 代表生成图像特征在高维空间中的高斯分布。
- 其余符号解释同 rFID。

3.1.8. Classifier-Free Guidance (CFG, 无分类器引导)

CFG 是一种在条件生成模型（特别是扩散模型）中广泛使用的技术，用于在生成过程中平衡条件信息和多样性。它通过加权结合条件生成输出和无条件生成输出，来增强生成结果与给定条件（如文本提示）的一致性，通常会提高图像质量，但可能会牺牲多样性。无分类器引导生成 (CFG-free generation) 指的是在不使用 CFG 的情况下进行生成。

3.2. 前人工作

3.2.1. 图像分词器用于生成

VQVAE (Vector Quantized Variational AutoEncoder) [53]: 开创性工作，首次引入了将连续词元离散化并映射到可学习码本中的概念，为自回归生成奠定基础。
VQGAN [8]: 在 VQVAE 基础上，引入了感知损失 (perceptual loss) 和判别器损失 (discriminator loss)，显著提升了图像重建质量。
ViT-VQGAN [65]: 将 VQGAN 框架与 Transformer 架构结合，进一步提高了性能。
最新进展:
- Residual Quantization (RQ, 残差量化) [18]: 一种改进的量化方法，通过多阶段量化逐步细化表示。
- Lookup-Free Quantization (LFQ, 无查找量化) [67]: 旨在克服传统码本查找的限制。这些工作构成了本文研究量化方法的基础。

3.2.2. 图像分词器用于理解

CLIP [38]: 通过大规模图像-文本对比学习，学习了强大的跨模态对齐能力，在多种零样本理解任务中表现卓越。
DINOv2 [34]: 一种自监督学习模型，在区域级任务 (region-level tasks) 中显示出优势。
挑战: 这些分词器主要将图像编码为连续特征空间，这对于统一建模视觉和文本词元（通常是离散的）提出了挑战。一些工作尝试离散化 CLIP 词元 [10] 或使用 VQVAE 编码器 [27, 62]，但这些方法通常会显著损害 MLLM 的理解性能。

3.2.3. 统一视觉-语言模型 (Unified Vision-Language Models)

MLLMs 的发展趋势是统一视觉生成和理解。

方法一 (连续视觉分词器): 一些工作采用连续视觉分词器进行图像编码，并利用预训练的扩散模型 (diffusion models) 进行图像合成 [7, 11, 44]。这种方法增加了模型复杂性，并将视觉采样过程与 MLLM 解耦。
方法二 (离散 VQVAE 分词器): 另一类研究采用 VQVAE 模型将图像编码为离散词元 [46, 56, 62, 61, 59]。这些词元随后使用与文本词元相同的交叉熵损失 (cross-entropy loss) 进行建模，从而实现统一的多模态学习。然而，由于重建导向的 VQVAE 与 LLM 的词元空间不自然对齐，这些模型通常会损害视觉理解能力。本文的研究与第二种方法对齐，其核心在于设计一个既适合生成又适合理解的统一分词器。

3.3. 技术演进与差异化分析

现有技术在图像生成和理解方面取得了显著进展，但统一两者始终面临挑战。

3.3.1. 技术演进

从像素到离散词元: 早期图像生成直接操作像素，但效率低下。VQVAE 的出现引入了离散词元，使其能与 NLP 中的 Transformer 等架构结合，进行自回归生成。VQGAN 通过对抗训练进一步提升了重建质量。
从生成到理解: 随着 CLIP 等模型的兴起，图像的语义理解能力得到了极大增强，但其连续特征与离散词元生成范式不兼容。
统一的尝试: 出现了两种主要路线：
1. 连续特征 + 扩散模型生成: 将图像编码为连续特征，生成时调用外部扩散模型。这带来了更高的复杂性和解耦的生成流程。
2. 离散特征 + 自回归生成: 强行将图像编码为离散词元，并与文本词元一同进行自回归建模。这种方法更统一，但通常以牺牲理解性能为代价，因为传统的 VQVAE 词元缺乏语义信息。

3.3.2. UniTok 的差异化分析

UniTok 的核心创新在于解决了第二种统一路线中的关键瓶颈。

与传统 VQVAE 的区别: 传统 VQVAE 主要关注重建质量，缺乏语义监督。UniTok 引入了 CLIP 监督，旨在让离散词元同时具备重建和语义信息。
与现有统一方法的区别:
- TokenFlow [37]、VILA-U [61]: 这些模型尝试结合 VQVAE 和 CLIP 监督，但通常会遇到损失冲突，导致理解性能显著下降。本文通过实验表明，这种冲突并非本质，而是源于离散词元容量不足。
- Liquid [59]: Liquid 同样采用离散视觉词元进行统一建模，但其 VQGAN 分词器在语义理解方面仍有不足。UniTok 在 MLLM 框架下超越了 Liquid 的理解和生成性能。
核心创新点:
1. 诊断问题根源: 明确指出离散词元空间容量有限是统一分词器的主要瓶颈，而非简单的损失冲突。
2. 多码本量化 (MCQ): 通过指数级扩展词汇量和潜在维度，显著增强了离散词元的表达能力，使其能够同时承载像素级细节和高层语义。
3. 注意力投影: 改进词元分解机制，确保在压缩维度时能更好地保留语义信息。
  
  通过这些创新，UniTok 在不牺牲生成质量的前提下，大幅提升了离散视觉词元在语义理解方面的表现，从而在统一生成和理解的 MLLM 框架中取得了领先的性能。

4. 方法论

本节将详细阐述 UniTok 的技术方案，包括其统一监督策略、对量化瓶颈的分析，以及提出的多码本量化 (MCQ) 和注意力投影 (Attention Projection) 机制。UniTok 的整体框架如 Figure 2 所示，旨在通过重建输入图像并将其离散潜在特征与文本描述对齐，来同时支持视觉生成和理解。

Figure 2: An overview of UniTok. The tokenizer is trained to reconstruct the input image while aligning its discrete latent features with the text caption. For vector quantization, each visual token is split into multiple chunks, which then undergo code index lookup on corresponding sub-codebooks.
该图像是示意图，展示了UniTok的工作原理。图中包含视觉编码器和文本编码器，通过多重码本量化实现图像的重构，同时增加了对比损失以对齐离散特征与文本描述。

4.1. 统一监督 (Unified Supervision)

为了满足视觉生成（强调精确编码）和视觉理解（强调高层语义）的不同需求，UniTok 采用了一种联合训练策略。它结合了基于 VQVAE 的重建损失和图像-文本对比损失。

4.1.1. VQVAE-based Reconstruction Loss ( $\mathcal{L}_{\mathrm{recon}}$ )

该损失项旨在保留图像的低层信息，确保高保真度的重建。它由以下几个部分组成：

像素级重建损失 ( $\mathcal{L}_{\mathrm{R}}$ ): 衡量原始图像与重建图像之间的像素差异，通常是 MSE 或 L1 损失。
矢量量化损失 ( $\mathcal{L}_{\mathrm{VQ}}$ ): 最小化编码器输出与码本中最近的码本条目之间的距离，以促进离散化。
感知损失 ( $\mathcal{L}_{\mathrm{P}}$ ): 基于 LPIPS (Learned Perceptual Image Patch Similarity) 度量，确保重建图像在感知上与原始图像相似。LPIPS 通过预训练的深度网络提取特征，并计算特征空间中的距离。
判别器损失 ( $\mathcal{L}_{\mathrm{G}}$ ): 引入生成对抗网络 (Generative Adversarial Network, GAN) 的思想，通过判别器网络来增强重建图像的真实感和保真度。

这四种损失项通过加权求和构成总的重建损失 $\mathcal{L}_{\mathrm{recon}}$ ： $\begin{array} { r } { \mathcal { L } _ { \mathrm { recon } } = \mathcal { L } _ { \mathrm { R } } + \lambda _ { \mathrm { VQ } } \mathcal { L } _ { \mathrm { VQ } } + \lambda _ { \mathrm { P } } \mathcal { L } _ { \mathrm { P } } + \lambda _ { \mathrm { G } } \mathcal { L } _ { \mathrm { G } } , } \end{array}$ 其中， $\lambda_{\mathrm{VQ}}$ , $\lambda_{\mathrm{P}}$ , $\lambda_{\mathrm{G}}$ 是对应损失项的权重因子。

4.1.2. Image-text Contrastive Loss ( $\mathcal{L}_{\mathrm{contra}}$ )

该损失项与 CLIP [38] 中的损失基本相同，旨在增强视觉特征的高层语义，并使其与文本描述对齐。它通过在图像-文本对之间进行对比学习，促使模型学习到语义上有意义的视觉表示。

4.1.3. 最终总损失 ( $\mathcal{L}$ )

最终的训练损失是重建损失和图像-文本对比损失的加权和： $\begin{array} { r } { \mathcal { L } = \mathcal { L } _ { \mathrm { recon } } + \lambda _ { \mathrm { contra } } \mathcal { L } _ { \mathrm { contra } } . } \end{array}$ 在本文中， $\lambda _ { \mathrm { contra } }$ 被简单地设置为 1。

4.2. 量化瓶颈 (Quantization Bottleneck)

尽管引入了 CLIP 监督，作者发现统一分词器在视觉理解任务中表现不佳，显著落后于常用的 CLIP 分词器。为了探究其根本原因，作者对统一分词器训练的关键组成部分进行了分解实验，如 Figure 3 所示。

$Figure 3: Roadmap from CLIP to UniTok. It is observed that major degradation in understanding performance comes from token factorization and discretization, rather than reconstruction supervision. The proposed multi-codebook quantization and attention projection effectively address this by scaling up the vocabulary size and bottleneck dimension. The VQA score is measured using the average score across the VQAv2, GQA, TextVQA, and POPE benchmarks. All tokenizers are trained from scratch on $5 1 2 \\mathrm { m }$ image-text pairs from DataComp.$
该图像是一个示意图，展示了从 CLIP 到 UniTok 的演变过程。图中显示了不同因素对 VQA 评分的影响，包括 Token 化与离散化如何导致理解性能的下降，以及通过多代码本量化和注意力投影来提升词汇量和瓶颈维度的策略。

Figure 3: Roadmap from CLIP to UniTok. It is observed that major degradation in understanding performance comes from token factorization and discretization, rather than reconstruction supervision. The proposed multi-codebook quantization and attention projection effectively address this by scaling up the vocabulary size and bottleneck dimension. The VQA score is measured using the average score across the VQAv2, GQA, TextVQA, and POPE benchmarks. All tokenizers are trained from scratch on $512 \mathrm{m}$ image-text pairs from DataComp.

4.2.1. 分解 (Factorization)

现代 VQ 分词器通常会将连续词元投影到一个低维潜在空间 (lower-dimensional latent space) 进行码本索引查找。例如，从 768 维降到 8 维。这个过程被称为词元分解 (token factorization)。作者通过实验发现，即使不进行矢量量化和重建监督，仅仅在 CLIP 视觉编码器之上添加两个线性投影层（将 768 维词元压缩到 16 维再还原到 768 维），就会显著损害词元的表达能力，导致下游 VQA (Visual Question Answering) 任务的性能严重下降。这表明通道压缩操作本身就会导致信息损失。

4.2.2. 离散化 (Discretization)

在上述分解的基础上，进一步引入矢量量化 (vector quantization)，将分解后的词元映射到其最近的码本条目。与拥有超过 20 万词条的语言分词器相比，现代 VQ 分词器的词汇量通常小得多（例如，4k 到 16k）。将连续词元映射到如此小的码本会导致大量信息丢失。实验证实，使用 16k 码本对分解后的词元进行离散化，会导致 VQA 任务的平均准确率额外下降 2.1%。

4.2.3. 重建监督 (Reconstruction Supervision)

最后，将重建损失集成到训练过程中，构建一个完整的统一分词器。虽然之前的研究认为 VQVAE 和 CLIP 之间的损失冲突是共同训练性能下降的主要原因，作者也观察到联合训练会导致 ImageNet 零样本分类准确率和重建 FID 相比专门训练的模型有所下降。然而，令人惊讶的是，这种下降对下游理解任务（如 VQA）的性能影响微乎其微。更重要的是，当改进量化方法后，这种在分类准确率和重建 FID 上的下降也随之减弱。基于这些观察，作者推测所谓的损失冲突只是一个表面现象，性能不佳的根本原因在于离散词元空间有限的表征能力。

4.3. UniTok 改进

为了解决上述量化瓶颈，UniTok 引入了两种核心技术：多码本量化 (Multi-codebook quantization, MCQ) 和注意力投影 (Attention projection)。

4.3.1. 多码本量化 (Multi-codebook quantization, MCQ)

一个直接的解决方案是增加码本大小和潜在码维度。然而，现有研究表明，VQVAE 分词器在这方面存在边际收益递减，当码本大小达到 16k 时性能趋于饱和 [67, 43]。继续扩展会导致大量码本条目很少被使用或在训练中“死亡”，从而对下游任务性能产生负面影响 [65]。为了解决这个问题，UniTok 提出了 MCQ。

核心思想: MCQ 将潜在词元分解为多个独立的部分，并为每个部分使用一个独立的子码本 (sub-codebook) 进行离散化。
具体实现: 假设有一个潜在向量 $f \in \mathbb{R}^d$ ，它首先被均匀地分割成 $n$ 个块 $\{f_1, f_2, ..., f_n\}$ ，其中每个块 $f_i \in \mathbb{R}^{\frac{d}{n}}$ 。然后，每个块 $f_i$ 使用其对应的第 $i$ 个子码本 $Z_i$ 进行码本索引查找操作 $\mathcal{Q}$ 。所有离散化后的块再拼接起来形成最终的离散潜在向量 $\hat{f}$ 。
数学公式: $\hat { f } = \operatorname { C o n c a t } \left( \mathcal { Q } \left( Z _ { 1 } , f _ { 1 } \right) , \mathcal { Q } \left( Z _ { 2 } , f _ { 2 } \right) , . . . , \mathcal { Q } \left( Z _ { n } , f _ { n } \right) \right)$
- $\hat{f}$ : 经过离散化的潜在向量 (discretized latent vector)。
- $\operatorname{Concat}(\cdot)$ : 拼接操作。
- $\mathcal{Q}(Z_i, f_i)$ : 表示对潜在向量块 $f_i$ 在子码本 $Z_i$ 中执行的码本索引查找操作，返回最接近 $f_i$ 的码本条目。
- $Z_i$ : 第 $i$ 个子码本。
- $f_i$ : 潜在向量 $f$ 的第 $i$ 个块。
优势:
1. 指数级扩展词汇量: 相比传统方法，MCQ 能有效扩展词汇量。例如，如果将 1 个子码本增加到 4 个，每个子码本包含 16k 个码条目，则理论词汇量从 $2^{14}$ 指数级增加到 $2^{14 \times 4} = 2^{56}$ 种可能的码组合。
2. 避免优化问题: 由于每个子码本的大小保持相对较小，它避免了与大型单一码本相关的优化问题（如低码本利用率和“死码本”）。
3. 增强表征能力: 潜在码的维度与子码本的数量成比例增加（例如，从 16 维增加到 64 维），进一步增强了离散表示的表征能力。
与残差量化 (RQ) 的区别: MCQ 与 RQ [18] 都使用多个码来量化一个词元，但设计理念不同：RQ 遵循粗到精 (coarse-to-fine) 的量化顺序，逐步细化表示；而 MCQ 采用分而治之 (divide-and-conquer) 的策略，将高维空间分割成多个低维子空间进行量化。这种区别使得 MCQ 在处理高维潜在空间（码稀疏性更高）时具有独特优势，其量化损失显著低于 RQ。

4.3.2. 注意力投影 (Attention Projection)

现有 VQ 方法通常使用线性层 (linear layer) 或卷积层 (convolutional layer) 进行词元分解 (token factorization)。然而，如 Figure 3 所示，这种过于简化的设计在压缩特征维度时未能有效保留丰富的语义信息，导致理解性能下降。

解决方案: UniTok 建议适配多头注意力 (Multi-Head Attention, MHA) 模块进行分解。
具体实现: 传统 MHA 模块在计算注意力后会将来自不同头的特征拼接起来。UniTok 将这个拼接操作替换为平均池化 (average pooling)，从而实现通道压缩。
效果: 尽管设计简单，但这种注意力投影能够有效强化分解词元的表征能力，并稳定训练过程。Figure 6 详细展示了这种适配。

$Figure 6: Modified attention blocks for factorization. Modules in yellow indicate a change in the number of channels. $C$ and $c$ stand for the channel dimension, $h$ is the number of heads in the multi-head attention module. $C = h \\times c$ .$ 该图像是示意图，展示了通道压缩块和通道扩展块的修改注意力模块。模块中的黄色部分表示通道数的变化。 $N \times c$ 和 $N \times C$ 表示不同的通道维度， $h$ 是多头注意力模块中的头数。

Figure 6: Modified attention blocks for factorization. Modules in yellow indicate a change in the number of channels. $C$ and $c$ stand for the channel dimension, $h$ is the number of heads in the multi-head attention module. $C = h \times c$ .

在 Figure 6 中：

通道压缩块 (Channel Compression Block): 输入特征 $X_{in}$ 经过一个 Multi-Head Attention (MHA) 模块。通常 MHA 会将 $h$ 个头（每个头输出维度为 $c$ ）的结果拼接成 $h \times c = C$ 维。这里，拼接操作被替换为平均池化，将 $h$ 个 $c$ 维输出平均，从而将通道维度从 $C$ 压缩到 $c$ 。这实现了词元分解中的维度降低。
通道扩展块 (Channel Expansion Block): 这是一个逆向操作，将通道维度从 $c$ 扩展回 $C$ 。它同样使用 MHA，但可能通过线性投影或类似机制将单个 $c$ 维输入复制或扩展为 $h$ 个 $c$ 维输入，再经过 MHA，最后拼接（或另一种形式的平均池化）产生 $C$ 维输出。这在图示中没有明确的平均池化，而是表示为通道数量从 $c$ 到 $C$ 的变化。其作用是恢复维度以匹配原始特征空间或解码器需求。

4.4. 统一 MLLM (Unified MLLM)

UniTok 被设计为可以无缝集成到统一的多模态模型中。作者利用 Liquid [59] 框架，该框架使用通用的下一词元预测损失 (next-token prediction loss) 来建模（离散值）视觉和语言序列。

码本嵌入重用: UniTok 训练出的码本嵌入 (code embeddings) 不会从零开始学习，而是被重用。这些嵌入通过一个多层感知机投影器 (MLP projector) 映射到 MLLM 的词元空间。
多码本词元处理:
- UniTok 将图像编码为 $H \times W \times K$ 个码，其中 H, W 是特征图的空间维度， $K$ 是子码本的数量。
- 为了简化 MLLM 输入，每 $K$ 个连续的码被合并成一个单一的视觉词元 (single visual token)。
- 在视觉词元预测时，每个词元自回归地预测接下来的 $K$ 个码。这通过一个深度 Transformer 头 (depth transformer head) 实现，类似于 RQ-Transformer [18] 和 VILA-U [61] 中的实现。这种设计在多码本背景下保持了视觉生成的效率。

5. 实验设置

本节详细介绍 UniTok 在各项实验中的设置，包括分词器 (Tokenizer) 和多模态大语言模型 (MLLM) 的具体配置、所使用的数据集、评估指标以及对比基线。

5.1. 数据集

Tokenizer 训练数据集:
- DataComp-1B [9]: 包含 12.8 亿 (1.28B) 图像-文本对的大规模公共数据集。UniTok 在该数据集上训练了一个 epoch。
- 所有图像被统一调整为 $256 \times 256$ 分辨率。
- OpenImages [17]: 包含图像分类、目标检测和视觉关系检测等任务的数据集。部分消融实验中，为了公平比较，UniTok 在该数据集上仅使用重建监督进行了训练。
MLLM 训练数据集:
- 预训练阶段:
  - 语言数据: 10M 语言数据，来源于 DCLM [22]。
  - 多模态数据: 30M 内部 MidJourney 风格的合成数据，以及 30M 来自 COYO [32] 和 Laion [41] 的重标注图像-文本对。
- 微调阶段:
  - 文本到图像数据: 1.5M 文本到图像数据。
  - 多模态指令微调数据: 1.5M 多模态指令微调数据，来源于 Mini-Gemini [23]。
Tokenizer 评估数据集:
- ImageNet: 用于评估重建质量 (rFID) 和零样本分类准确率 (zero-shot accuracy)。
MLLM 理解评估数据集:
- VQAv2 [13]: 视觉问答 (Visual Question Answering) 基准数据集。
- GQA [14]: 具有复杂视觉推理和组合性问题的大型 VQA 数据集。
- TextVQA [42]: 专注于图像中文字识别和理解的 VQA 数据集。
- POPE [24]: 用于评估大语言模型中对象幻觉 (object hallucination) 的基准。
- MME [64]: 用于评估多模态模型综合能力的基准。
- MM-Vet [70]: 同样用于评估大型多模态模型集成能力的基准。
MLLM 生成评估数据集:
- GenAI-Bench [26]: 用于评估文本到图像生成模型在理解和执行指令方面的性能。
- MJHQ-30K [20]: 用于评估文本到图像生成质量的基准，主要通过 FID 分数进行评估。
数据集选择理由: 选择这些数据集是为了全面评估 UniTok 在大规模视觉生成和理解任务中的性能。DataComp-1B 提供了训练统一分词器所需的大规模图像-文本对。ImageNet 是重建和零样本分类的通用基准。VQAv2, GQA, TextVQA 等是 VQA 领域的标准，MME, MM-Vet 评估 MLLM 的综合理解能力。GenAI-Bench 和 MJHQ-30K 则是文本到图像生成领域的重要基准。

5.2. 评估指标

5.2.1. rFID (reconstruction Fréchet Inception Distance)

概念定义: rFID 旨在量化重建图像的分布与原始真实图像的分布之间的相似性。值越低表示重建质量越好。它通过比较两组图像在高维特征空间（通常是 Inception-v3 网络的特征空间）中的均值和协方差矩阵来计算。
数学公式: $\mathrm{FID}(\mathcal{N}_1, \mathcal{N}_2) = ||\mu_1 - \mu_2||^2 + \mathrm{Tr}(\Sigma_1 + \Sigma_2 - 2(\Sigma_1 \Sigma_2)^{1/2})$
符号解释:
- $\mathcal{N}_1$ : 代表真实图像特征在高维空间中的高斯分布。
- $\mathcal{N}_2$ : 代表重建图像特征在高维空间中的高斯分布。
- $\mu_1, \mu_2$ : 两个分布的均值向量。
- $\Sigma_1, \Sigma_2$ : 两个分布的协方差矩阵。
- $||\cdot||^2$ : L2 范数的平方。
- $\mathrm{Tr}(\cdot)$ : 矩阵的迹。
- $(\cdot)^{1/2}$ : 矩阵的平方根。

5.2.2. Zero-shot accuracy (零样本准确率)

概念定义: 衡量模型在训练时未见过的类别上进行分类或理解的准确性。
数学公式: $\text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Samples}}$
符号解释:
- Number of Correct Predictions: 模型正确预测的样本数量。
- Total Number of Samples: 总样本数量。

5.2.3. gFID (generation Fréchet Inception Distance)

概念定义: 衡量生成图像的分布与真实图像的分布之间的相似性。值越低表示生成质量越好。
数学公式: 同 rFID 公式。
符号解释:
- $\mathcal{N}_1$ : 代表真实图像特征在高维空间中的高斯分布。
- $\mathcal{N}_2$ : 代表生成图像特征在高维空间中的高斯分布。
- 其余符号解释同 rFID。

5.2.4. IS (Inception Score)

概念定义: 衡量生成图像的质量和多样性。高分数表示图像既清晰（通过预训练 Inception 网络分类的低熵条件分布）又多样（通过高熵边缘分布）。
数学公式: $\text{IS} = \exp\left(E_x[\text{KL}(P(y|x) || P(y))]\right)$
符号解释:
- $E_x$ : 对生成图像 $x$ 的期望。
- $\text{KL}(P(y|x) || P(y))$ : 生成图像 $x$ 的条件类别分布 $P(y|x)$ 与边缘类别分布 P(y) 之间的 Kullback-Leibler 散度。
- $P(y|x)$ : 预训练的 Inception 网络预测图像 $x$ 属于类别 $y$ 的概率。
- P(y): 所有生成图像在类别上的边缘分布。

5.2.5. Precision (精确度) 和 Recall (召回率)

概念定义: 这两个指标常用于评估生成模型的模式覆盖度 (mode coverage)。
- Precision (精确度): 衡量生成样本的真实性或保真度，即有多少生成样本属于真实数据分布。高精确度意味着生成图像看起来很真实。
- Recall (召回率): 衡量生成样本的多样性或覆盖度，即生成模型能够覆盖真实数据分布的范围。高召回率意味着生成图像能够包含真实数据分布中的各种模式。
数学公式: 在图像生成领域，Precision 和 Recall 通常没有统一的闭式数学公式，而是通过计算生成样本和真实样本在高维特征空间中的最近邻距离来近似。例如，可以计算每个生成样本与真实样本集中最近邻的距离，并判断其是否在某个阈值内，从而统计出“真实”的生成样本比例（Precision）。类似地，对每个真实样本，统计其在生成样本集中最近邻的距离，判断生成模型是否“覆盖”了该真实样本（Recall）。
符号解释: 在没有具体定义计算方法时，主要关注其概念含义。

5.2.6. VQA Score (VQA 分数)

概念定义: VQA 分数衡量模型在给定图像和问题时生成正确答案的准确性。具体计算方式可能因 VQA 基准而异，但通常是正确答案的数量占总问题数的比例。
数学公式: $\text{VQA Score} = \frac{\sum_{i=1}^{N} \mathbb{I}(\text{model\_answer}_i = \text{ground\_truth\_answer}_i)}{N}$
符号解释:
- $N$ : 总问题数量。
- $\mathbb{I}(\cdot)$ : 指示函数，如果括号内的条件为真，则为 1，否则为 0。
- $\text{model\_answer}_i$ : 模型对第 $i$ 个问题的回答。
- $\text{ground\_truth\_answer}_i$ : 第 $i$ 个问题的真实答案。

5.2.7. MME (Multimodal-Explorer) Score

概念定义: MME 是一个评估多模态模型在感知和认知能力方面综合性能的基准。它包含多个子任务，如感知能力 (Perception) 和认知能力 (Cognition)，并提供总分。

5.3. 对比基线

5.3.1. Tokenizer 对比基线

VQVAE 模型 (Generation-specific):
- VQ-GAN* [8]
- RQ-VAE [18]
- VAR* [48]
CLIP 模型 (Understanding-specific):
- CLIP [38]
- SigLIP [71]
- ViTamin [5]
Unified 模型 (Unified attempts):
- TokenFlow† [37]
- VILA-U† [61]

5.3.2. MLLM 对比基线

使用连续视觉分词器的 MLLM:
- Emu [45]
- LaVIT [15]
- DreamLLM [7]
- Unified-IO 2 [29]
- Janus [58]
使用离散视觉分词器的 MLLM:
- CM3Leon [68]
- LWM [27]
- Show-o [62]
- Chameleon [46]
- Liquid [59]
- VILA-U [61]

5.3.3. Class-Conditional Image Generation 对比基线

Diffusion Models (扩散模型):
- SD-VAE [40]
- VAVAE [63]
Masked Generative Models (掩码生成模型):
- LFQ [67]
- TiTok-L [69]
Autoregressive Models (自回归模型):
- VQGAN† (来自 LlamaGen [43])

5.4. 实现细节 (Implementation Details)

5.4.1. Tokenizer 设置

架构: 采用混合架构 ViTamin-L/16 [5] 实例化 UniTok，结合了 CNN (卷积神经网络) 和 ViT (Vision Transformer) 的优势。
MCQ 配置: 配置 UniTok 使用 8 个子码本 (sub-codebooks)，每个子码本包含 4096 个码条目，每个码条目的潜在维度 (latent dimension) 设置为 8 维。因此，全局潜在维度为 $8 \times 8 = 64$ 维。
判别器: 判别器使用预训练的 DINOv2-S [34] 进行初始化。
训练: 分词器在 DataComp-1B [9] 数据集上训练了一个 epoch。
- 所有图像被调整为 $256 \times 256$ 分辨率。
- 全局批次大小 (global batch size) 设置为 16k。
- 学习率 (learning rate) 设置为：分词器 1e-3，判别器 2e-4。
初始化设置: 准备了两种评估设置：一种使用预训练的 CLIP 权重进行初始化，另一种使用随机初始化（默认设置）。

5.4.2. MLLM 设置

基础模型: 使用 Llama-2-7B [52] 作为基础模型来实例化统一 MLLM。
训练流程:
- 预训练阶段: 在混合的多模态数据上进行预训练。
- 微调阶段: 在文本到图像数据和多模态指令微调数据上进行微调。
学习率: 预训练阶段学习率为 5e-5，微调阶段为 2e-5。
MLLM 词元处理: UniTok 将图像编码为 $H \times W \times K$ 个码（ $K$ 为子码本数量）。为了 MLLM 输入，每 $K$ 个连续的码被合并为一个视觉词元。在视觉词元预测时，每个词元自回归地预测接下来的 $K$ 个码，使用深度 Transformer 头 (depth transformer head) 实现。

6. 实验结果与分析

本节将深入探讨 UniTok 在视觉生成和理解任务中的实验结果，并对关键发现进行分析。

6.1. Tokenizer 性能比较

以下是原文 Table 1 的结果：

Method	#Tokens	rFID ↓ Accuracy
VQVAE Model
VQ-GAN* [8]	256	4.98
RQ-VAE [18]	256	1.30
VAR* [48]	680	0.90
UniTok*	256	0.33
CLIP Model
CLIP [38]	256	76.2
SigLIP [71]	256	80.5
ViTamin [5]	256	81.2
Unified Model
TokenFlow† [37]	680	1.37 −
VILA-U† [61]	256 1.80	73.3
UniTok	256	0.41 70.8
UniTok†	256	78.6
	0.38

分析:

重建质量 (rFID): UniTok 在重建质量方面表现出色，其 rFID 达到了 0.38。这不仅优于所有 VQVAE 专用模型（如 VQ-GAN* 的 4.98，RQ-VAE 的 1.30，VAR* 的 0.90），也显著优于其他统一模型（如 TokenFlow† 的 1.37，VILA-U† 的 1.80）。特别值得注意的是，UniTok*（在 OpenImages 上仅用重建监督训练的版本）达到了 0.33 rFID，甚至超越了连续的 Stable Diffusion v2.1 (SD-VAE 的 0.61 rFID，虽然不在 Table 1 中，但在 Table 2 中提及)，这充分展示了多码本量化 (MCQ) 在提高离散分词器重建能力方面的优越性。
零样本准确率 (Zero-shot Accuracy):
- 随机初始化的 UniTok 获得了 70.8% 的零样本准确率，这与纯理解模型（如 CLIP 的 76.2%，ViTamin 的 81.2%）相比仍有差距。
- 然而，当 UniTok 使用预训练的 CLIP 权重进行初始化（UniTok†）时，其零样本准确率大幅提升至 78.6%。这表明 UniTok 的架构能够有效地利用预训练的语义知识，并且通过适当的初始化，可以缩小与领域专用理解模型之间的差距。
统一性: UniTok 能够在重建质量和语义理解之间取得卓越的平衡，同时在两项关键指标上都达到了领先水平，验证了其作为“统一分词器”的有效性。

Figure 4 展示了 UniTok 的图像重建定性结果。

$Figure 4: Qualitative results on image reconstruction in a resolution of $2 5 6 \\times 2 5 6$ .$ 该图像是一个对于图像重建的定性结果展示，左侧为原始图像，右侧为重建图像。重建分别展示了不同分辨率图像的效果，展示了UniTok的图像恢复能力。

Figure 4: Qualitative results on image reconstruction in a resolution of $256 \times 256$ . 分析: 从 Figure 4 可以看出，UniTok 能够以高保真度重建 $256 \times 256$ 分辨率的图像，即使是细节复杂的场景也能很好地还原，这与量化评估中的低 rFID 值相符。

6.2. 类条件图像生成 (Class-Conditional Image Generation)

以下是原文 Table 2 的结果：

Tokenizer	rFID	Generator	#Params.	Generation w/o CFG				Generation w/ CFG
Tokenizer	rFID	Generator	#Params.	gFID↓ IS↑		Pre.	Rec.	\|gFID↓	IS↑	Pre.	Rec.
Diffusion Models
SD-VAE [40]	0.61	DiT [35]	675M	9.62	121.5		0.67 0.67	2.27		278.2 0.83	0.57
VAVAE [63]	0.28	LightningDiT [63]	675M	2.17	205.6	0.77	0.65	1.35	295.3	0.79 0.65
Masked Generative Models
LFQ [67]	0.9	MAGVIT-v2 [67]	307M	3.07	213.1	—		1.91	324.3	−	−
TiTok-L [69]	2.21	MaskGIT [3]	177M	3.15	173.0	−		2.77	199.8	−	−
Autoregressive Models
VQGAN†	2.19	LlamaGen‡ [43]	1.4B	14.65	86.3	0.63	0.68	2.34	253.9	0.81	0.60
UniTok (Ours)	0.41	LlamaGen [43]	1.4B	2.51	216.7	0.82	0.57	2.77	227.5	0.81	0.57

分析:

无分类器引导生成 (Generation w/o CFG): UniTok 在 LlamaGen 框架下进行无 CFG 生成时，gFID 仅为 2.51，IS 达到了 216.7。这与基线 VQGAN† (LlamaGen 框架下) 的 14.65 gFID 和 86.3 IS 相比，取得了压倒性的优势。gFID 降低了 12.14，IS 提升了 130.4。这表明 UniTok 学习到的潜在空间结构更优，即使在没有额外引导的情况下也能生成更高质量的图像。语义监督对潜在空间结构化产生了显著的积极影响。
有分类器引导生成 (Generation w/ CFG): 尽管无 CFG 性能卓越，但 UniTok 在有 CFG 时的 gFID (2.77) 略高于无 CFG (2.51)，而 IS (227.5) 略低于无 CFG (216.7)。这可能暗示 UniTok 的潜在空间已经足够结构化，CFG 带来的额外引导作用相对不那么突出，甚至可能在某些情况下引入轻微的偏差。
与扩散模型比较: UniTok 的无 CFG gFID (2.51) 与一些扩散模型（如 SD-VAE 的 9.62，甚至 VAVAE 的 2.17 已经非常接近）相比也具有竞争力，Precision 和 Recall 也表现良好。这强调了 UniTok 作为自回归模型分词器在生成质量上的突破。

6.3. 统一理解与生成 (Unified Understanding and Generation)

6.3.1. 理解性能 (Understanding Performance)

以下是原文 Table 3 的结果：

Method	LLM	Token Type	Res.	VQAv2	GQA	TextVQA	POPE	MME	MM-Vet
Emu [45]	Llama-13B	Continuous	224	52.0	-	-	-	-	-
LaVIT [15]	Llama-7B	Continuous	224	66.0	46.8	-	-		-
DreamLLM [7]	Vicuna-7B	Continuous	224	72.9	-	41.8	-	-	26.6
Unified-IO 2 [29]	6.8B from scratch	Continuous	384	79.4	-	-	87.7	-	-
Janus [58]	DeepSeek-1.3B	Continuous	384	77.3	59.1	-	87.0	1338	34.3
CM3Leon [68]	7B from scratch	Discrete	256	47.6	-	-	-	-	-
LWM [27]	Llama-2-7B	Discrete	256	55.8	44.8	18.8	75.2	-	-
Show-o [62]	Phi-1.5-1.3B	Discrete	256	59.3	48.7	-	73.8	948	-
Chameleon [46]	34B from scratch	Discrete	512	69.6	-	-	-	-
Liquid [59]	Gemma-7B	Discrete	512	71.3	58.4	42.4	81.1	1119	-
VILA-U [61]	Llama-2-7B	Discrete	256	75.3	58.3	48.3	83.9	1336	27.7
UniTok	Llama-2-7B	Discrete	256	76.8	61.1	51.6	83.2	1448	33.9

分析:

超越其他离散分词器 MLLM: UniTok 在所有 VQA 基准上均展现出卓越性能。例如：
- 在 VQAv2 上，UniTok 达到 76.8%，显著优于使用 VQGAN 分词器的 Chameleon (69.6%)，高出 7.2%。
- 在 TextVQA 上，UniTok 达到 51.6%，优于 VILA-U (48.3%) 3.3%。
- 在 MME 上，UniTok 达到 1448 分，优于 VILA-U (1336 分) 112 分，优于 Liquid (1119 分) 329 分。
- 在 MM-Vet 上，UniTok 达到 33.9 分，也显著优于 VILA-U (27.7%) 和 Janus (34.3%) 相近。
缩小与连续分词器 MLLM 的差距: UniTok 的性能已经接近甚至超越了一些使用连续视觉分词器的 MLLM。例如，在 VQAv2 上 UniTok 的 76.8% 已经非常接近 Janus (77.3%) 和 Unified-IO 2 (79.4%)。这表明 UniTok 成功地克服了离散分词器在理解任务中的固有劣势。
UniTok 的候选性: 这些强劲的结果证实了 UniTok 作为多模态模型中统一视觉分词器的强大候选能力。

6.3.2. 生成性能 (Generation Performance)

以下是原文 Table 4 的结果：

Method	Type	#Data	Single Obj.	Two Obj.	Counting	Colors	Position	Color Attri.	Overall↑
SD v2.1 [39]	Diffusion	2000M	0.98	0.51	0.44	0.85	0.07	0.17	0.50
SD-XL [36]	Diffusion	2000M	0.98	0.74	0.39	0.85	0.15	0.23	0.55
DALL-E 3 [2]	Diffusion	−	0.96	0.87	0.47	0.83	0.43	0.45	0.67
Show-o [62]	Discrete Diff.	36M	0.95	0.52	0.49	0.82	0.11	0.28	0.53
Show-o [62]		2.0B	0.98	0.80	0.66	0.84	0.31	0.50	0.68
LWM [27]	Autoregressive	−	0.93	0.41	0.46	0.79	0.09	0.15	0.47
Janus [58]	Autoregressive	−	0.97	0.68	0.30	0.84	0.46	0.42	0.61
Liquid [59]	Autoregressive	30M	0.98	0.73	0.32	0.76	0.17	0.37	0.55
UniTok	Autoregressive	30M	0.99	0.71	0.36	0.79	0.26	0.45	0.59

分析:

GenEval 基准表现: UniTok 在 GenEval 基准上取得了 0.59 的总体得分，这不仅优于大多数统一 MLLM（如 LWM 的 0.47，Liquid 的 0.55），也展现出与一些领域专家（扩散模型）相竞争的性能。
超越 Liquid: UniTok 在仅使用与 Liquid 相同数量的文本到图像训练数据 (30M) 的情况下，实现了更好的生成性能 (0.59 vs 0.55)，这凸显了强大统一分词器设计的重要性。

特定能力: UniTok 在“Single Obj.” (0.99) 和“Two Obj.” (0.71) 上表现出色，在“Position” (0.26) 和“Color Attri.” (0.45) 上也取得了进步，显示出对文本提示中对象、属性和关系的良好理解和生成能力。

以下是原文 Table 5 的结果：

Method	Type	Res.	FID↓
SD-XL [36]	Diffusion	1024	9.55
PixArt [6]	Diffusion	1024	6.14
Playground [20]	Diffusion	1024	4.48
Liquid [59]	Autoregressive	512	5.47
Janus [58]	Autoregressive	384	10.10
LWM [27]	Autoregressive	256	17.77
Show-o [62]	Discrete Diff.	256	15.18
VILA-U [61]	Autoregressive	256	12.81
UniTok	Autoregressive	256	7.46

分析:

MJHQ-30K 基准表现: 在 MJHQ-30K 基准上，UniTok 在 $256 \times 256$ 分辨率下取得了 7.46 的 FID。尽管该基准通常偏好高分辨率图像以捕捉更多细节（如 SD-XL、PixArt、Playground 在 1024 分辨率下取得更低 FID），UniTok 在其分辨率下仍显著优于其他自回归模型（如 LWM 的 17.77，VILA-U 的 12.81），甚至优于 512 分辨率的 Liquid (5.47) 和 384 分辨率的 Janus (10.10)。这表明 UniTok 能够生成高质量、细节丰富的图像。
定性结果: Figure 5 展示了 UniTok 生成的图像示例，证实了其能够合成逼真且具有视觉吸引力的图像，并理解如“Vincent van Gogh painting style”和“bitcoin”等广泛概念，并灵活地结合它们来生成创意图像。

$Figure 5: Images generated in a resolution of $2 5 6 \\times 2 5 6$ with our unified MLLM.$ 该图像是展示了一组以 256 imes 256 分辨率生成的多样化图像，包括动物、植物、风景及抽象艺术等多个主题。

Figure 5: Images generated in a resolution of $256 \times 256$ with our unified MLLM.

6.4. 消融实验 (Ablation Studies)

6.4.1. 监督类型的影响 (Impact of Supervision Types)

以下是原文 Table 6 的结果：

Supervision	Generation		Understanding
Supervision	rFID ↓	gFID ↓	VQAv2	GQA	SciQA	TextVQA	POPE	MME
Contrastive	−		68.95	56.89	65.64	49.89	82.34	1373
Reconstruction	0.82	3.59	56.33	47.53	63.26	43.65	77.09	902
Recon. + Contra.	0.72	3.26	69.14	56.06	65.25	49.22	81.42	1333

分析:

传统 VQVAE 的局限: 仅使用重建监督 (Reconstruction) 的分词器在理解任务上表现非常差（VQAv2 56.33，MME 902），显著落后于使用对比监督 (Contrastive) 的分词器（VQAv2 68.95，MME 1373）。这验证了传统 VQVAE 在语义理解方面的不足。
损失冲突的解决: 结合重建和对比监督 (Recon. + Contra.) 的分词器，其理解性能 (VQAv2 69.14，MME 1333) 与仅使用对比监督的分词器（VQAv2 68.95，MME 1373）相当，甚至略好于或非常接近。同时，其生成性能 (rFID 0.72，gFID 3.26) 优于仅使用重建监督的分词器 (rFID 0.82，gFID 3.59)。这强有力地支持了论文的核心论点：重建和对比训练目标并非固有冲突，通过增强离散特征空间（MCQ 的作用），可以有效地解决两者之间的权衡问题，实现双赢。

6.4.2. MCQ 与 RQ (MCQ v.s. RQ)

以下是原文 Table 7 的结果：

	Method Code Shape	Code Dim.	rFID↓	Accuracy
RQ	16×16×8	64	3.46	58.8
MCQ	16×16×8	64	0.55	63.7

分析:

MCQ 的优越性: 在相同的高瓶颈维度 (64-d) 设置下，多码本量化 (MCQ) 在重建性能 (rFID 0.55) 和分类准确率 (Accuracy 63.7%) 方面都显著优于残差量化 (RQ)。RQ 的 rFID 为 3.46，准确率为 58.8%。这证实了 MCQ 在高维潜在空间中“分而治之”策略的有效性，它能更好地管理码本利用率，并学习到更具表达力的离散表示。

6.4.3. 子码本数量 (Number of Sub-Codebooks)

以下是原文 Table 8 的结果：

Codebook / Vocabulary	1×16384 /214	2×8192 /226	4×4096 /248	8×2048 /288
rFID ↓	1.50	0.98	0.54	0.33
Accuracy	41.0%	43.9%	44.7%	46.1%

分析:

MCQ 的可伸缩性: 实验表明，在保持总码本大小不变的情况下，增加子码本的数量（从而指数级增加理论词汇量）能够持续改善重建 FID 和分类准确率。
- 从 1 个子码本 (1x16384) 到 8 个子码本 (8x2048)，rFID 从 1.50 显著下降到 0.33，准确率从 41.0% 提升到 46.1%。
这进一步验证了 MCQ 作为一种有效扩展离散词元表征能力的方法，无论训练目标是重建还是对比，它都能带来性能提升。

6.4.4. CLIP 权重初始化 (CLIP Weight Initialization)

以下是原文 Table 9 的结果：

Tokenizer	VQAv2	GQA	TextVQA	POPE	MME
UniTok†	69.9	56.2	49.3	81.2	1331
UniTok	72.4	58.2	51.6	82.4	1392

分析:

意外发现: 令人惊讶的是，在 LLaVA 框架下评估时，随机初始化的 UniTok 在 VQA 任务上（如 VQAv2 72.4%，GQA 58.2%，MME 1392）表现优于使用预训练 CLIP 权重初始化的 UniTok† (VQAv2 69.9%，GQA 56.2%，MME 1331)。
解释: 尽管 CLIP 权重初始化可以提高 ImageNet 的零样本分类准确率（如 Table 1 所示，从 70.8% 提升到 78.6%），但这并不保证下游 VQA 性能的提升。作者推测，CLIP 权重初始化可能对统一分词器来说是一个负面先验 (negative prior)。这是因为 CLIP 特征空间与统一视觉特征空间可能存在显著差异，CLIP 预训练的知识可能并非完全适用于需要同时兼顾生成和理解的统一表示学习。这提示我们，ImageNet 分类准确率不一定与复杂的下游 VQA 任务高度相关。

6.5. 更多生成结果 (More Generation Results)

6.5.1. GenAI-Bench (基本提示)

以下是原文 Table 10 的结果：

Method	Type	#Training ImagesAttribute↑ Scene↑			Relation↑			Overall↑
Method	Type	#Training ImagesAttribute↑ Scene↑			Spatial	Action	Part	Overall↑
SD v2.1 [39]	Diffusion	2000M	0.80	0.79	0.76	0.77	0.80	0.78
SD-XL [36]	Diffusion	2000M	0.84	0.84	0.82	0.83	0.89	0.83
Midjourney v6	Diffusion		0.88	0.87	0.87	0.87	0.91	0.87
DALL-E 3 [2]	Diffusion		0.91	0.90	0.92	0.89	0.91	0.90
Show-o [62]	Discrete Diff.	36M	0.72	0.72	0.70	0.70	0.75	0.70
LWM [27]	Autoregressive		0.63	0.62	0.65	0.63	0.70	0.63
VILA-U [61]	Autoregressive	15M	0.78	0.78	0.77	0.78	0.79	0.76
Liquid [59]	Autoregressive	30M	0.84	0.86	0.81	0.83	0.91	0.83
UniTok	Autoregressive	30M	0.85	0.87	0.86	0.86	0.89	0.85

分析:

UniTok 在 GenAI-Bench 的基本提示 (basic prompts) 任务上取得了 0.85 的总体 (Overall) 分数。
它在“Attribute”和“Scene”类别上表现非常强劲 (0.85, 0.87)，在“Relation”子类别（Spatial, Action, Part）上也保持了高分 (0.86, 0.86, 0.89)。
UniTok 优于其他大多数自回归模型（如 LWM、VILA-U）和一些扩散模型（如 SD v2.1）。即使与 Liquid 相比，UniTok 在所有子类别上的表现都相当或略优，并在总体得分上更高 (0.85 vs 0.83)，再次强调了其统一分词器的优势。

6.5.2. GenAI-Bench (高级提示)

以下是原文 Table 11 的结果：

Method	Type	#Training Images Count↑ Differ↑ Compare↑				Logical↑		Overall↑
Method	Type	#Training Images Count↑ Differ↑ Compare↑				Negate	Universal	Overall↑
SD v2.1 [39]	Diffusion	2000M	0.68	0.70	0.68	0.54	0.64	0.62
SD-XL [36]	Diffusion	2000M	0.71	0.73	0.69	0.50	0.66	0.63
Midjourney v6	Diffusion	−	0.78	0.78	0.79	0.50	0.76	0.69
DALL-E 3 [2]	Diffusion	−	0.82	0.78	0.82	0.48	0.80	0.70
Show-o [62]	Discrete Diff.	36M	0.70	0.62	0.71	0.51	0.65	0.60
LWM [27]	Autoregressive	−	0.59	0.58	0.54	0.49	0.52	0.53
VILA-U [61]	Autoregressive	15M	0.70	0.71	0.74	0.53	0.66	0.64
Liquid [59]	Autoregressive	30M	0.76	0.73	0.74	0.46	0.74	0.65
UniTok	Autoregressive	30M	0.76	0.76	0.79	0.46	0.73	0.67

分析:

在 GenAI-Bench 的高级提示 (advanced prompts) 任务中，这些提示需要更复杂的理解和推理能力。UniTok 取得了 0.67 的总体得分。
它在“Count”、“Differ”和“Compare”等需要精确理解数量和差异的类别上表现良好 (0.76, 0.76, 0.79)。
在逻辑推理 (Logical) 子类别中，UniTok 在“Negate”和“Universal”方面得分分别为 0.46 和 0.73。尽管这些逻辑推理任务对所有模型都更具挑战性，UniTok 的总体表现仍优于 LWM (0.53) 和 Liquid (0.65)，与 VILA-U (0.64) 相当，并接近更强大的扩散模型如 DALL-E 3 (0.70)。这表明 UniTok 不仅能处理基本生成，还能在一定程度上理解和执行更复杂的文本指令。

7. 总结与思考

7.1. 结论总结

本文提出了 UniTok，一种旨在统一视觉生成和理解的创新分词器。通过深入分析，作者发现以往统一训练中的“损失冲突”并非本质问题，而是离散词元空间表征能力有限所致。为了解决这一瓶颈，UniTok 引入了多码本量化 (MCQ) 和注意力投影 (Attention Projection) 机制，显著扩展了词汇量和潜在维度，同时提高了词元分解的语义保留能力。

UniTok 在各项评估中展现出卓越的性能：

在 ImageNet 上，实现了 0.38 rFID 和 78.6% 的零样本准确率，刷新了生成和理解的记录。
集成到 MLLM 后，UniTok 赋予了模型强大的原生视觉生成能力，并在 VQA 等理解基准上超越了其他统一模型，并缩小了与连续分词器模型的差距。
它还促进了无分类器引导 (CFG-free) 生成，大幅降低了 gFID，表明其学习到了更结构化的潜在空间。

7.2. 局限性与未来工作

计算资源限制: 论文指出，由于计算资源有限，UniTok 仅在 DataComp-1B 数据集上训练了一个 epoch。作者认为，对于基于 CLIP 的语义表征学习而言，一个 epoch 的训练时间可能不足。
未来工作: 延长训练计划有望进一步提升 UniTok 的性能，尤其是在理解任务方面，因为 CLIP 的收敛通常需要更多的训练迭代。

7.3. 个人启发与批判

7.3.1. 个人启发

问题根源的深挖: 这篇论文最深刻的启发在于，当看似存在“损失冲突”或“性能瓶颈”时，不应简单归咎于目标的不兼容，而应深入探究其背后的机制。UniTok 成功地将“损失冲突”的表象归因于“离散词元表征容量不足”的本质问题，并通过架构创新解决了这一问题，从而实现了生成和理解的统一。这种深层分析问题的方法论值得借鉴。
多码本量化 (MCQ) 的潜力: MCQ 是一种优雅且高效的扩展离散表示空间的方法。其“分而治之”的设计理念不仅解决了传统单一大型码本的优化难题（如死码本），还能够指数级地提升表征能力。这对于任何需要将连续数据离散化以适应自回归模型或 Transformer 架构的领域都具有广泛的借鉴意义，例如在音频、视频等其他模态的处理中。
语义与生成的关系: 论文再次证实了语义监督对生成模型的积极影响。UniTok 在无 CFG 生成中 gFID 的显著降低表明，一个具备强语义理解能力的潜在空间，本身就能促进更高质量、更符合语义的生成，这对于设计更高效的生成模型具有重要指导意义。
统一模型是趋势: UniTok 的成功进一步验证了构建统一多模态模型的价值。通过单一分词器和统一框架，模型能够更灵活地处理各种多模态任务，为未来通用人工智能 (AGI) 的发展奠定了基础。

7.3.2. 批判与潜在改进

训练充分性问题: 论文明确指出仅训练了一个 epoch。虽然性能已然惊艳，但这使得其作为“基础模型”的可扩展性和最终性能仍存在想象空间。如果能在更充分的训练下评估，其在 ImageNet zero-shot accuracy 或其他需要深层语义理解的任务上可能会有更大的提升。这种“未尽”的状态可能会影响其长期潜力评估。
CLIP 负面先验的深层原因: 论文中提到 CLIP 权重初始化在 ImageNet zero-shot 表现良好，但在下游 VQA 任务中反而不如随机初始化。这提示我们，ImageNet 零样本分类所捕获的语义与 VQA 任务所需的语义可能存在差异。未来的工作可以更深入地分析这种“负面先验”的具体表现形式，例如通过可视化特征空间、探究不同任务对特征粒度的需求等，以指导更精细的预训练策略。
计算资源透明度: 论文提及“由于计算资源有限”，但并未详细说明具体的计算资源配置和训练成本。对于构建大规模模型而言，资源消耗是关键因素。更透明的资源信息将有助于其他研究者评估其方法的可行性和可扩展性。
更广阔的泛化能力测试: 尽管在 ImageNet、VQA 和 GenAI-Bench 上表现出色，但 UniTok 在更广泛、更复杂的视觉任务（如细粒度识别、开放世界目标检测、视频理解或生成等）中的泛化能力和鲁棒性仍有待进一步验证。
潜在空间的可解释性: 论文提到 UniTok 学习到“更好的结构化潜在空间”，但缺乏对这种结构化更深入的分析和可视化。未来的工作可以探索如何更直观地展示这种潜在空间的语义组织方式，例如通过聚类可视化、语义方向分析等，以增强模型的可解释性。
多模态交互的精细控制: 虽然 UniTok 实现了生成和理解的统一，但在 MLLM 中，更精细的多模态交互（例如，基于视觉区域的指令理解、复杂的图像编辑）仍然是挑战。未来的工作可以探索如何利用 UniTok 的离散词元，实现更细粒度、更精准的视觉-语言交互控制。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

UniTok: A Unified Tokenizer for Visual Generation and Understanding

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 39 分钟读完 · 28,163 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题与挑战

2.1.2. 现有研究的不足与本文的切入点

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 分词器 (Tokenizer)

3.1.2. VQVAE (Vector Quantized Variational AutoEncoder)

3.1.3. CLIP (Contrastive Language-Image Pre-training)

3.1.4. MLLM (Multimodal Large Language Models)

3.1.5. rFID (reconstruction Fréchet Inception Distance)

3.1.6. Zero-shot accuracy (零样本准确率)

3.1.7. gFID (generation Fréchet Inception Distance)

3.1.8. Classifier-Free Guidance (CFG, 无分类器引导)

3.2. 前人工作

3.2.1. 图像分词器用于生成

3.2.2. 图像分词器用于理解

3.2.3. 统一视觉-语言模型 (Unified Vision-Language Models)

3.3. 技术演进与差异化分析

3.3.1. 技术演进

3.3.2. UniTok 的差异化分析

4. 方法论

4.1. 统一监督 (Unified Supervision)

4.1.1. VQVAE-based Reconstruction Loss (Lrecon\mathcal{L}_{\mathrm{recon}}Lrecon​)

4.1.2. Image-text Contrastive Loss (Lcontra\mathcal{L}_{\mathrm{contra}}Lcontra​)

4.1.3. 最终总损失 (L\mathcal{L}L)

4.2. 量化瓶颈 (Quantization Bottleneck)

4.2.1. 分解 (Factorization)

4.2.2. 离散化 (Discretization)

4.2.3. 重建监督 (Reconstruction Supervision)

4.3. UniTok 改进

4.3.1. 多码本量化 (Multi-codebook quantization, MCQ)

4.3.2. 注意力投影 (Attention Projection)

4.4. 统一 MLLM (Unified MLLM)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.2.1. rFID (reconstruction Fréchet Inception Distance)

5.2.2. Zero-shot accuracy (零样本准确率)

5.2.3. gFID (generation Fréchet Inception Distance)

5.2.4. IS (Inception Score)

5.2.5. Precision (精确度) 和 Recall (召回率)

5.2.6. VQA Score (VQA 分数)

5.2.7. MME (Multimodal-Explorer) Score

5.3. 对比基线

5.3.1. Tokenizer 对比基线

5.3.2. MLLM 对比基线

5.3.3. Class-Conditional Image Generation 对比基线

5.4. 实现细节 (Implementation Details)

5.4.1. Tokenizer 设置

5.4.2. MLLM 设置

6. 实验结果与分析

6.1. Tokenizer 性能比较

6.2. 类条件图像生成 (Class-Conditional Image Generation)

6.3. 统一理解与生成 (Unified Understanding and Generation)

6.3.1. 理解性能 (Understanding Performance)

6.3.2. 生成性能 (Generation Performance)

6.4. 消融实验 (Ablation Studies)

6.4.1. 监督类型的影响 (Impact of Supervision Types)

6.4.2. MCQ 与 RQ (MCQ v.s. RQ)

6.4.3. 子码本数量 (Number of Sub-Codebooks)

6.4.4. CLIP 权重初始化 (CLIP Weight Initialization)

6.5. 更多生成结果 (More Generation Results)

6.5.1. GenAI-Bench (基本提示)

6.5.2. GenAI-Bench (高级提示)

7. 总结与思考

4.1.1. VQVAE-based Reconstruction Loss ( $\mathcal{L}_{\mathrm{recon}}$ )

4.1.2. Image-text Contrastive Loss ( $\mathcal{L}_{\mathrm{contra}}$ )

4.1.3. 最终总损失 ( $\mathcal{L}$ )