论文状态：已完成

Beyond Text: Frozen Large Language Models in Visual Signal Comprehension

发表：2024/03/13

视觉语言动作模型 (34)多模态大语言模型 (25)视觉语言模型 (13)无训练加速方法 (22)图像去噪与恢复 (1)

价格：0.100000

已有 5 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出视觉到语言分词器（V2T Tokenizer），将图像转换为大语言模型（LLM）词汇内的离散“单词”，实现冻结LLM对视觉信号的理解和自回归图像恢复，无需微调，显著提升多模态应用效率。大量实验验证了方法在图像识别、描述和修复任务中的有效性。

摘要

In this work, we investigate the potential of a large language model (LLM) to directly comprehend visual signals without the necessity of fine-tuning on multi-modal datasets. The foundational concept of our method views an image as a linguistic entity, and translates it to a set of discrete words derived from the LLM's vocabulary. To achieve this, we present the Vision-to-Language Tokenizer, abbreviated as V2T Tokenizer, which transforms an image into a ``foreign language'' with the combined aid of an encoder-decoder, the LLM vocabulary, and a CLIP model. With this innovative image encoding, the LLM gains the ability not only for visual comprehension but also for image denoising and restoration in an auto-regressive fashion-crucially, without any fine-tuning. We undertake rigorous experiments to validate our method, encompassing understanding tasks like image recognition, image captioning, and visual question answering, as well as image denoising tasks like inpainting, outpainting, deblurring, and shift restoration. Code and models are available at https://github.com/zh460045050/V2L-Tokenizer.

思维导图

论文精读

中文精读约 18 分钟读完 · 11,582 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): 超越文本：冻结的大语言模型在视觉信号理解中的应用 (Beyond Text: Frozen Large Language Models in Visual Signal Comprehension)
作者 (Authors):
- Lei Zhu (朱磊) - 北京大学
- Fangyun Wei (韦方允) - 微软亚洲研究院
- Yanye Lu (卢雁叶) - 北京大学
发表期刊/会议 (Journal/Conference): 本文是一篇提交到 arXiv 的预印本论文。arXiv 是一个开放获取的学术论文存档平台，允许研究者在同行评审前分享他们的研究成果。这通常意味着研究尚处于早期阶段，但已具备完整的思路和初步验证。
发表年份 (Publication Year): 2024年3月
摘要 (Abstract): 本文研究了如何让一个大型语言模型（LLM）直接理解视觉信号，而无需在多模态数据集上进行微调。其核心思想是将图像视为一种“外语”，并将其翻译成一系列从LLM词汇表中提取的离散“单词”。为实现此目的，作者提出了一个名为视觉到语言分词器 (Vision-to-Language Tokenizer, V2T Tokenizer) 的模块。该模块借助一个编码器-解码器结构、LLM自身的词汇表和一个CLIP模型，将图像转换成LLM能理解的“外语”序列。通过这种创新的图像编码方式，一个**完全冻结（即不更新任何参数）**的LLM不仅能实现视觉理解（如图像识别、描述和问答），还能以自回归的方式进行图像去噪和修复。作者通过大量实验验证了方法的有效性。
原文链接 (Source Link):
- arXiv 链接: https://arxiv.org/abs/2403.07874
- PDF 链接: http://arxiv.org/pdf/2403.07874v1
- 发布状态: 预印本 (Preprint)

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题： 当前，为了让大型语言模型 (LLM) 具备理解图像的能力（即成为多模态模型），通常需要进行一个昂贵的“对齐”过程。这个过程需要大量的图文配对数据，并通过微调（fine-tuning）来连接一个视觉编码器和一个LLM，使其特征空间相互匹配。这个微调过程不仅消耗巨大的计算资源，也限制了LLM的快速应用和扩展。
- 当前挑战与空白 (Gap): 主流方法如 Flamingo、BLIP-2 等虽然效果出色，但都依赖于在特征空间（feature space）进行对齐，这必然涉及模型参数的更新。一些初步尝试在输入空间（token space）进行对齐的工作（如 LQAE、SPAE）虽然避免了微调LLM，但它们生成的视觉“单词”与图像的语义关联较弱，导致LLM难以真正“理解”图像内容。
- 创新切入点： 本文提出，与其在模型内部的特征层面做对齐，不如直接在模型的输入层面做文章。如果能将图像“翻译”成LLM词汇表里已有的、有意义的“单词”序列，那么一个未经任何多模态训练的、现成的LLM，就能像处理外语一样处理图像信息。对齐发生在输入（token）空间，而非特征空间，从而彻底规避了对LLM的微调。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出了一个创新的 V2L Tokenizer： 这是本文的核心贡献。该分词器能将一张连续的图像信号，映射为一系列离散的、来自LLM词汇表的文本token。
- 提出了全局与局部分离的编码策略： 与之前工作不同，V2L Tokenizer 将图像 token 分为两类：
  1. 全局 token (global tokens)： 用于捕捉图像的整体高级语义，通过一个经过特殊设计的扩展词汇表生成，专门服务于图像理解任务（如分类、问答）。
  2. 局部 token (local tokens)： 用于捕捉图像的局部细节和纹理，基于原始LLM词汇表生成，专门服务于图像生成和修复任务（如去噪、补全）。
- 验证了冻结LLM的视觉能力： 实验证明，仅通过这种“翻译”技术，一个完全冻结的LLM（如 LLaMA-2）就能在没有微调的情况下，出色地完成多种视觉理解和图像修复任务，并且在多个指标上超越了之前的同类方法。

基础概念 (Foundational Concepts):
- 大型语言模型 (Large Language Models, LLMs): 指的是像 GPT、LLaMA 这样参数量巨大（通常在十亿以上）的深度学习模型。它们通过在海量文本数据上进行“下一个词预测”的训练，学会了强大的语言理解和生成能力。其核心是自回归（auto-regressive）机制，即逐个生成 token 来构成完整的句子。本质上，它们是为处理离散的文本 token 序列而设计的。
- 图像量化 (Image Quantization): 指将连续的图像数据（像素值）转换为离散的符号（token）表示的过程。这类似于将一句话分解成单词。VQ-VAE 和 VQ-GAN 是该领域的代表性工作。它们使用一个“编码器-量化器-解码器”结构：编码器将图像压缩成特征，量化器将这些特征匹配到码本 (codebook) 中最接近的码字（codeword 或 token），解码器则利用这些 token 重建图像。本文的 V2L Tokenizer 结构就深受其启发。
- CLIP (Contrastive Language-Image Pre-training): 一个由OpenAI开发的模型，通过对比学习的方式，在海量的图文对数据上进行训练。它能够将图像和文本映射到同一个多模odal特征空间中。在这个空间里，语义相似的图像和文本在空间中的位置会非常接近。这使得 CLIP 能够准确计算任意一张图片和任意一段文字之间的“语义相似度”，是连接视觉和语言的强大桥梁。
- 上下文学习 (In-context Learning): LLM 的一种惊人能力，即在不更新模型参数的情况下，仅通过在输入提示（prompt）中提供几个示例（few-shot samples），就能让模型学会并遵循示例中的模式来完成新任务。本文广泛使用此能力来引导冻结的LLM执行各种视觉任务。
前人工作 (Previous Works):
- 特征空间对齐方法：
  - Flamingo、BLIP-2、LLaVA 等是当前主流的多模态LLM。它们通常保持预训练的视觉编码器和LLM不变（frozen），然后插入一个轻量级的“桥接模块”（如Q-Former或简单的线性层）。通过在图文数据集上专门训练这个桥接模块，来对齐视觉特征和语言特征。局限性： 依然需要额外的多模态微调阶段，耗费资源。
- 输入空间对齐方法：
  - LQAE 和 SPAE 是与本文思路最接近的先行者。它们也尝试将图像量化为LLM词汇表中的 token。LQAE 训练一个 VQ-VAE，但其码本直接使用固定的LLM词汇嵌入。SPAE 在此基础上引入了层次化量化和 CLIP 语义指导，提升了 token 质量。
  - 局限性： 这些方法虽然避免了微调LLM，但由于视觉特征与语言 token 嵌入之间存在巨大差异（modality gap），它们很难为图像分配具有强语义的 token。生成的视觉“单词”往往比较晦涩，LLM难以充分理解。
技术演进 (Technological Evolution): 该领域的发展脉络可以看作是如何将强大的LLM“嫁接”到视觉世界。
1. 早期： 分别训练视觉模型和语言模型，然后用简单的连接方式结合。
2. 主流期 (特征对齐): 冻结各自领域的专家模型（视觉编码器、LLM），只训练一个轻量级的“翻译官”（桥接模块），在特征层面沟通。这是目前效果最好但成本较高的方式。
3. 探索期 (输入对齐): 尝试完全绕过特征对齐，直接将视觉信号“编译”成LLM能读懂的“源代码”（token 序列）。本文就处于这一探索脉络的前沿。
差异化分析 (Differentiation): 相较于最直接的竞争对手 SPAE 和 LQAE，本文的核心创新在于：
1. 更强的语义对齐： V2L Tokenizer 不仅仅是简单地匹配最近的 token，而是通过 CLIP 模型将视觉和文本置于一个共享的多模态空间中进行对齐，并设计了包含 cross-attention 的解码器来加强全局语义引导，使得生成的 token 语义更丰富。
2. 全局与局部分离设计： 创造性地设计了两个独立的码本和量化器。全局码本通过词汇扩展（bigrams, trigrams）和 CLIP 过滤，专门用于生成高度概括的语义 token，服务于“理解”任务。局部码本则使用原始LLM词汇，专注于保留图像的细节信息，服务于“生成/修复”任务。这种分工使得模型在不同任务上都能表现出色。

4. 方法论 (Methodology - Core Technology & Implementation Details)

本文的核心是 V2L Tokenizer，它采用了一个 encoder-quantizer-decoder 架构，如下图所示。

该图像是示意图，展示了基于LLM词汇的本地和全局码本生成过程。通过CLIP文本编码器提取LLM嵌入，结合编码器和量化器生成局部和全局Token，进而由解码器重建图像，实现视觉信号的语言化表示。

方法原理 (Methodology Principles): 将图像视为一种“外语”，通过训练一个专门的“翻译器”（V2L Tokenizer），将其转换成LLM能直接阅读的、由其自身词汇表构成的 token 序列。整个过程的关键是，这个“翻译器”的训练目标是，生成的 token 序列既要能高质量地重建原图，又要包含丰富的语义信息。
方法步骤与流程 (Steps & Procedures):
1. 构建码本 (Codebooks):
  - 局部码本 (Local Codebook): 直接使用 LLaMA-2 的原始词汇表（大小为32,000）。这个码本用于表示图像的局部 patch 细节。
  - 全局码本 (Global Codebook): 为了捕捉更丰富的语义，作者首先将 LLaMA-2 词汇表中的词进行组合，生成大量的二元组（bigrams）和三元组（trigrams）。然后，通过一个过滤策略来筛选有意义的组合：
    - 在 ImageNet 数据集上，计算每张图片与扩展词汇表中每个词条（包括原始词、二元组、三元元组）的 CLIP 相似度。
    - 为每张图片保留相似度最高的 Top-5 词条。
    - 最后，将所有图片选出的 Top-5 词条汇总起来，去重后形成最终的全局码本（大小为11,908）。这个码本中的词条（如 “a dog”）比单个 token（如 “dog”）具有更强的语义。
2. 生成码本嵌入 (Codebook Embeddings):
  - 使用一个冻结的 CLIP 文本编码器，将局部码本和全局码本中的所有词条转换为特征向量，分别得到 LLM embeddings 和 E-LLM embeddings（ $E$ 代表 Expanded）。
  - LLM embeddings 还会经过一个可训练的线性投影层 (Projector)，进一步调整其特征以更好地匹配视觉空间，得到 P-LLM embeddings。
3. 编码 (Encoding):
  - 输入一张图像，它会同时被送入两个编码器：
    - 一个可训练的CNN编码器（结构类似 VQ-GAN），用于提取包含局部细节的特征图 $\pmb{F} \in \mathbb{R}^{h \times w \times d_l}$ 。
    - 一个冻结的 CLIP 视觉编码器，用于提取代表全局信息的特征向量 $\pmb{f} \in \mathbb{R}^{d_g}$ 。
4. 量化 (Quantization):
  - 局部量化： 对于CNN输出的特征图 $\pmb{F}$ 中的每一个位置 (i, j) 的特征向量 $\pmb{F}_{(i,j)}$ ，在 P-LLM embeddings（投影后的局部码本）中寻找欧氏距离最近的一个嵌入向量。这个过程将整个特征图 $\pmb{F}$ 转换为了一个由 $K_l = h \times w$ 个 token 组成的 token 索引图。
  - 全局量化： 对于 CLIP 编码器输出的全局特征 $\pmb{f}$ ，在 E-LLM embeddings（全局码本）中寻找欧氏距离最近的 $K_g$ 个嵌入向量。这个过程将全局特征表示为 $K_g$ 个具有高度语义的 token。
5. 解码 (Decoding):
  - 解码器的目标是利用量化后的局部 token 嵌入 $\widehat{F}$ 和全局 token 嵌入 $\widehat{f}$ 来重建原始图像。
  - 解码器结构基于 VQ-GAN，但增加了一个关键的交叉注意力层 (cross-attention)。在这一层中，局部特征 $\widehat{F}$ 作为 query，全局特征 $\widehat{f}$ 作为 key 和 value。这使得解码器在重建每个局部细节时，都能参考到图像的整体语义信息，从而提升重建质量。
6. 训练与推理 (Training & Inference):
  - 训练： 在整个训练过程中，只有 CNN编码器、解码器和投影层 (Projector) 的参数是可训练的。CLIP 模型、LLM词汇表及其嵌入都是冻结的。训练的损失函数与 VQ-GAN 相同。
  - 推理： 训练完成后，给定一张新图片，V2L Tokenizer 会输出其对应的全局 token 序列 $\mathcal{T}_g$ 和局部 token 序列 $\mathcal{T}_l$ 。然后，将这些 token 序列与任务指令、上下文示例（in-context samples）组合成一个 prompt，输入给一个冻结的LLM，LLM便能以自回归的方式生成答案或修复后的 token 序列。
    
    该图像是一张示意图，展示了基于冻结大语言模型(LLM)实现的视觉理解与图像去噪任务流程，包括N-路K-shot分类、图像描述生成、视觉问答和图像去噪六种操作示例。
数学公式与关键细节 (Mathematical Formulas & Key Details):
- 损失函数 (Loss Function): 模型的优化目标函数直接沿用了 VQ-GAN 的设计，由三部分组成： $\mathcal{L} = \mathcal{L}_{VQ} + \lambda_1 \mathcal{L}_{Perceptual} + \lambda_2 \mathcal{L}_{GAN}$
- 符号解释:
  - $\mathcal{L}_{VQ}$ : 向量量化损失 (Vector Quantization Loss)。这是 VQ-VAE 的核心损失，鼓励编码器的输出特征与其量化后的码本嵌入尽量接近。它包含两部分：一部分是让编码器输出向码本靠拢，另一部分（commitment loss）是控制码本嵌入不要更新得太快。
  - $\mathcal{L}_{Perceptual}$ : 感知损失 (Perceptual Loss)。它计算重建图像和原始图像在某个预训练网络（如VGG）的深层特征空间中的距离。相比于像素级别的MSE损失，它更关注图像的感知相似度，能生成更自然的纹理。
  - $\mathcal{L}_{GAN}$ : 对抗性损失 (GAN Loss)。引入一个判别器（Discriminator），用来区分重建图像和真实图像。这能极大地提升重建图像的真实感和细节清晰度。
  - $\lambda_1, \lambda_2$ : 分别是感知损失和对抗性损失的权重超参数，用于平衡不同损失项的重要性。论文中设为 $\lambda_1 = 1.0, \lambda_2 = 0.1$ 。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):
- Tokenizer 训练: ImageNet-1K，一个包含1000个类别、约128万张图片的大规模图像分类数据集，用于训练 V2L Tokenizer。
- 少样本分类: Mini-ImageNet，是 ImageNet 的一个子集，包含100个类别，每类600张图片，常用于少样本学习评测。
- 图像描述: COCO Caption，一个包含大量图像及其对应人工描述的数据集。
- 视觉问答: VQA v2.0，包含图像、关于图像的问题以及对应答案的数据集。
- 图像去噪/修复: 从 ImageNet-1K 验证集中随机抽取5000张图片构成评测集。
评估指标 (Evaluation Metrics):
- Accuracy (准确率):
  1. 概念定义: 在分类任务中，准确率衡量模型预测正确的样本数占总样本数的比例。它是最直观的分类性能指标。数值越高，表示模型分类能力越强。
  2. 数学公式: $\text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$
  3. 符号解释: "Number of Correct Predictions" 指模型输出的类别与真实标签完全一致的样本数量。"Total Number of Predictions" 指测试集中的样本总数。
- CLIP Score:
  1. 概念定义: 用于评估生成文本（如图像描述）与对应图像的语义相关性。它利用预训练的 CLIP 模型，分别计算图像和文本的特征嵌入，然后计算这两个嵌入之间的余弦相似度。分数越高（通常在0到1之间），表示文本描述与图像内容越匹配。
  2. 数学公式: $\text{CLIP Score}(I, C) = 100 \times \cos(\text{Emb}_I(I), \text{Emb}_T(C))$
  3. 符号解释: $I$ 代表图像， $C$ 代表生成的文本（Caption）。 $\text{Emb}_I(\cdot)$ 和 $\text{Emb}_T(\cdot)$ 分别是 CLIP 的图像编码器和文本编码器。 $\cos(\cdot, \cdot)$ 是余弦相似度函数。
- FID (Fréchet Inception Distance):
  1. 概念定义: FID是衡量两组图像（通常是生成图像与真实图像）分布相似度的黄金指标。它通过一个预训练的 Inception-v3 网络提取图像特征，然后计算这两组图像特征分布的均值和协方差矩阵，最后计算这两个多元高斯分布之间的弗雷歇距离。FID分数越低，表示生成图像的质量和多样性越接近真实图像。
  2. 数学公式: $\text{FID}(x, g) = ||\mu_x - \mu_g||_2^2 + \text{Tr}(\Sigma_x + \Sigma_g - 2(\Sigma_x \Sigma_g)^{1/2})$
  3. 符号解释: $\mu_x, \mu_g$ 分别是真实图像和生成图像特征的均值。 $\Sigma_x, \Sigma_g$ 分别是它们的协方差矩阵。 $\text{Tr}(\cdot)$ 代表矩阵的迹（主对角线元素之和）。
- LPIPS (Learned Perceptual Image Patch Similarity):
  1. 概念定义: LPIPS 是一种更符合人类视觉感知的图像相似度度量。它通过一个深度神经网络（如AlexNet, VGG）提取两张图像在不同层的特征图，计算特征图之间的差异，然后加权求和。与逐像素比较的PSNR不同，LPIPS能更好地容忍内容上合理但像素上有差异的变化（如微小的平移）。LPIPS分数越低，表示两张图像在感知上越相似。
  2. 数学公式: $d(x, x_0) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} || w_l \odot ( \hat{y}_{hw}^l - \hat{y}_{0hw}^l ) ||_2^2$
  3. 符号解释: $x, x_0$ 是要比较的两张图像。 $l$ 是网络的不同层。 $\hat{y}^l, \hat{y}_0^l$ 是两张图像在第 $l$ 层的特征图。 $w_l$ 是一个可学习的权重，用于缩放不同通道的重要性。该公式计算了在所有层、所有空间位置上归一化后的特征差异。
- PSNR (Peak Signal-to-Noise Ratio):
  1. 概念定义: PSNR是衡量图像重建质量的经典指标，基于像素级别的均方误差（MSE）。它反映了信号（原始图像）与噪声（重建误差）之间的功率比。PSNR值越高，表示重建图像与原始图像的像素差异越小，失真越少。
  2. 数学公式: $\text{PSNR} = 10 \cdot \log_{10} \left( \frac{\text{MAX}_I^2}{\text{MSE}} \right)$ 其中， $\text{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2$
  3. 符号解释: $\text{MAX}_I$ 是图像像素值的最大可能值（如8位图像为255）。 $I$ 和 $K$ 分别是原始图像和重建图像。m, n 是图像的维度。
对比基线 (Baselines):
- Frozen [47]: 一个早期的、在多模态少样本学习中使用冻结语言模型的基线方法。
- LQAE [25]: 一个直接的竞争者，将图像量化为LLM词汇 token。
- SPAE [54]: 目前最强的直接竞争者，同样是“图像即外语”的思路，但本文在多个设计上对其进行了改进。
- VQ-GAN [12]: 经典的图像量化模型，其码本是独立学习的，不与任何LLM词汇关联。作为比较，可以看作是本文方法在不使用LLM词汇作为码本时的表现。

6. 实验结果与分析

核心结果分析 (Core Results Analysis):

少样本分类 (Table 1): 我将原文中的 Table 1 转录如下：

Method	#Tokens	Task Induction:		✓		✓		✓ ✓		✓		✓		✓	✓	✓	✓ ✓
Method	#Tokens	N-way K-shot:	2-1	2-1	2-3	2-5	2-1	2-1	2-1	Avg	5-1	5-1	5-3	5-5	5-1	5-1	5-1 Avg
		#Repetitions:	0	0	0	0	1	3	5		0	0	0	0	1	3 5
Frozen [47]	-		1.7	33.7	66.0				66.0 63.0 65.0 63.7 51.3		0.9	14.5 34.7			33.8 33.8 33.3 32.8 26.3
LQAE [25]	256	GPT-3.5	1.5						35.2 68.2 69.8 68.5 68.7 65.9 54.0		1.0 15.7 35.9 36.5 31.9 36.4 45.9 29.0
SPAE [54]	5	GPT-3.5							5.3 77.2 84.4 86.0 79.4 77.2 77.1	69.5	-	-	-	-	-	-	-
SPAE [54]	5	PaLM-2 (340B)	32.2	84.0	88.5	88.4 85.1			83.6 82.4	77.7		23.6 64.2 68.0 69.9 63.4 62.0 60.2 58.8
Ours	5	LLaMA-2 (7B)	34.2	73.1	89.0	93.4 79.6			80.6 79.1	75.6		36.2 54.6 88.6 91.1			70.7 72.8	74.4 69.8
Ours	5	LLaMA-2 (13B)		44.4 77.9	91.9	94.4 81.5			82.8 82.0	79.3		45.4 69.6 89.9 91.3 75.8 75.7					77.2 75.0
Ours	5	LLaMA-2 (70B)		\| 41.7 87.1		94.8 96.1			88.9 89.2 89.1	83.9		45.4 81.5 92.3 93.0		85.7	86.1	86.3 81.5
SPAE [54]	21	PaLM-2 (340B)	\| 27.9	84.8	92.5					92.6 84.8 85.2 85.4 79.0\|	\| 20.2	65.1 73.7 74.3		66.4	67.0		66.3 61.9
Ours	21	LLaMA-2 (7B)	36.5 76.3			91.2 95.3 84.0 84.4 83.7				78.8	37.1	44.8 91.8 94.0 73.9			82.2		85.3 72.7
Ours	21	LLaMA-2 (13B)	48.7 73.1							92.4 95.7 80.9 83.8 82.0 79.5	42.1	62.7			93.0 94.5 72.8 79.6 82.0 75.2
Ours	21	LLaMA-2 (70B)	46.5 89.1						96.9 97.8 91.4 92.7 92.9	86.7					45.0 79.7 94.9 95.6 89.3 90.7 90.2 83.5

分析：

性能超越： 即使使用参数量远小于 PaLM-2 (340B) 的 LLaMA-2 (70B)，本文方法 (Ours) 在几乎所有设置下都显著优于 SPAE。例如，在5-way 5-shot分类任务中，使用21个token时，本文方法 (LLaMA-2 70B) 达到了95.6%的准确率，而 SPAE 仅为74.3%。
LLM规模效应： 随着LLM模型从7B增长到70B，本文方法的性能也稳步提升，证明了该框架可以很好地利用更强大LLM的推理能力。
Token数量效应： 将表示图像的全局token数量从5个增加到21个，性能有明显提升。这验证了使用更多token可以更全面地表达图像语义的假设，也体现了其扩展词汇表的有效性。

语义质量 (Table 2): 我将原文中的 Table 2 转录如下：

Method Codebook #Tokens CLIP↑ CLIP-R↑

SPAE [54] PaLM-2 5 0.1868 0.7147

Ours E-LLaMA-2 5 0.2576 0.9165

SPAE [54] PaLM-2 21 0.1815 0.6901

Ours E-LLaMA-2 21 0.2427 0.8520

分析： 该表评估了生成的全局 token 与图像本身的语义对齐程度。CLIP 和 CLIP-R 分数越高越好。本文方法生成的 token 在两个指标上都远高于 SPAE，有力地证明了其全局码本设计和量化策略能够产生语义更相关、质量更高的视觉“单词”。

Method	Codebook	#Tokens	CLIP↑	CLIP-R↑
SPAE [54]	PaLM-2	5	0.1868	0.7147
Ours	E-LLaMA-2	5	0.2576	0.9165
SPAE [54]	PaLM-2	21	0.1815	0.6901
Ours	E-LLaMA-2	21	0.2427	0.8520

图像重建与去噪 (Table 3 & Table 4): 我将原文中的 Table 3 和 Table 4 转录如下： Table 3: 重建质量评估

Method	Codebook	#Tokens	FID↓	LPIPS↓	PSNR↑
VQ-GAN [12]	Learnable	256	5.48	0.13	-
VQ-GAN* [12]	LLaMA-2	256	9.51	0.17	21.48
SPAE [54]	PaLM-2	341	9.49	0.17	-
SPAE [54]	PaLM-2	1109	3.89	0.11	-
Ours	LLaMA-2	256	3.41	0.08	23.56
Ours	Hybrid	277	2.88	0.08	23.25

Table 4: 去噪任务评估

		Inpainting		Outpainting		Deblurring		Rotation		Shift
Tokenizer	LLM	FID↓	LPIPS↓	FID↓	LPIPS↓	FID↓	LPIPS↓	FID↓	LPIPS↓	FID↓	LPIPS↓
Ours	LLaMA-2 7B	13.13	0.1219	15.28	0.1442	10.09	0.1033	10.64	0.1064	10.53	0.1058
Ours	LLaMA-2 13B	11.70	0.1134	12.56	0.1275	10.60	0.1085	11.36	0.1128	11.84	0.1176
Ours	LLaMA-2 70B	10.11	0.1021	10.73	0.1128	10.42	0.1058	10.48	0.1058	10.79	0.1093