论文状态：已完成

Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment

发表：2023/02/02

多模态表示学习 (2)语言量化自编码器 (1)无监督文本图像对齐 (1)基于预训练语言模型的图像表示 (1)文本图像无对齐数据利用 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出语言量化自编码器（LQAE），利用预训练语言模型词汇表以无监督方式量化图像嵌入成文本符号序列，从而实现图文无配对对齐。该方法促进了大型语言模型的少样本图像分类和基于文本特征的视觉识别，突破了成对数据依赖。

摘要

Recent progress in scaling up large language models has shown impressive capabilities in performing few-shot learning across a wide range of text-based tasks. However, a key limitation is that these language models fundamentally lack visual perception - a crucial attribute needed to extend these models to be able to interact with the real world and solve vision tasks, such as in visual-question answering and robotics. Prior works have largely connected image to text through pretraining and/or fine-tuning on curated image-text datasets, which can be a costly and expensive process. In order to resolve this limitation, we propose a simple yet effective approach called Language-Quantized AutoEncoder (LQAE), a modification of VQ-VAE that learns to align text-image data in an unsupervised manner by leveraging pretrained language models (e.g., BERT, RoBERTa). Our main idea is to encode image as sequences of text tokens by directly quantizing image embeddings using a pretrained language codebook. We then apply random masking followed by a BERT model, and have the decoder reconstruct the original image from BERT predicted text token embeddings. By doing so, LQAE learns to represent similar images with similar clusters of text tokens, thereby aligning these two modalities without the use of aligned text-image pairs. This enables few-shot image classification with large language models (e.g., GPT-3) as well as linear classification of images based on BERT text features. To the best of our knowledge, our work is the first work that uses unaligned images for multimodal tasks by leveraging the power of pretrained language models.

思维导图

论文精读

中文精读约 16 分钟读完 · 9,048 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment (语言量化自编码器：迈向无监督图文对齐)
作者 (Authors): Hao Liu, Wilson Yan, Pieter Abbeel。所有作者均隶属于加州大学伯克利分校 (University of California, Berkeley)，Pieter Abbeel 是人工智能和机器人领域的知名教授。
发表期刊/会议 (Journal/Conference): 本文为预印本 (Preprint)，发布于 arXiv。arXiv 是一个开放获取的学术论文预印本平台，在计算机科学等领域被广泛用于快速发布和交流最新的研究成果。
发表年份 (Publication Year): 2023
摘要 (Abstract): 近期大型语言模型的扩展在处理各种文本任务时展现了强大的少样本学习能力。然而，这些模型根本上缺乏视觉感知，这限制了它们与真实世界互动和解决视觉任务（如视觉问答、机器人学）的能力。先前的工作主要通过在精心策划的图文数据集上进行预训练或微调来连接图像和文本，这一过程成本高昂。为了解决此限制，本文提出了一种名为 语言量化自编码器 (Language-Quantized AutoEncoder, LQAE) 的简单而有效的方法。它是对 VQ-VAE 的一种修改，通过利用预训练的语言模型（如 BERT、RoBERTa）以无监督的方式学习对齐图文数据。其核心思想是通过一个预训练的语言模型词汇库（codebook）直接量化图像嵌入，从而将图像编码为文本符号（token）序列。然后，对该序列进行随机掩码处理，并输入到一个 BERT 模型中，再由解码器从 BERT 预测的文本符号嵌入中重建原始图像。通过这种方式，LQAE 学会了用相似的文本符号簇来表示相似的图像，从而在不使用成对图文数据的情况下对齐了这两种模态。这使得利用大型语言模型（如 GPT-3）进行少样本图像分类，以及基于 BERT 文本特征进行图像线性分类成为可能。据作者所知，这是首个利用非成对图像数据，并借助预训练语言模型的力量来完成多模态任务的工作。
原文链接 (Source Link):
- ArXiv 链接: https://arxiv.org/abs/2302.00902
- PDF 链接: http://arxiv.org/pdf/2302.00902v2
- 发布状态: 预印本 (Preprint)

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题： 强大的大型语言模型（LLMs）本质上是“盲人”，它们无法理解或处理视觉信息，这极大地限制了它们在需要与物理世界交互的应用中的潜力，例如机器人控制、视觉问答（VQA）和自动驾驶等。
- 重要性与挑战： 为了让语言模型“看见”，当前主流方法（如 CLIP、Flamingo）依赖于大规模、高质量的成对图文数据集（例如，一张图片和其对应的文字描述）进行预训练。然而，收集和标注这样数以亿计的成对数据是一个极其昂贵且耗时的过程，尤其是在某些特定领域，获取成对数据更是难上加难。
- 创新切入点： 本文提出一个大胆的设想：我们能否不使用任何成对的图文数据，仅利用海量的、各自独立的文本数据和图像数据，来实现视觉和语言这两种模态的对齐？本文的思路是，利用一个已经包含了丰富世界知识和语言结构的预训练语言模型作为“桥梁”，强迫模型学习一种将图像“翻译”成该语言模型能够理解的“伪语言”的方法。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出新模型 LQAE： 本文提出了一个名为 语言量化自编码器 (Language-Quantized AutoEncoder, LQAE) 的新模型。它通过一种新颖的自监督训练方式，在完全不依赖成对图文数据的情况下，学习将任意图像映射为一系列离散的文本符号（tokens）。
- 实现了无监督图文对齐： 通过 LQAE，模型学会了将视觉上相似的图像映射到语言空间中相似的“符号簇”。尽管这些符号序列对人类来说是不可读的乱码，但它们保留了能够被大型语言模型理解的内在结构。
- 解锁了 LLM 的视觉能力： 这种对齐方式成功地将强大的 LLM（如 GPT-3）的能力扩展到了视觉任务上。实验证明，可以将 LQAE 生成的图像“文本”编码，通过标准的提示（prompting）工程，直接输入给 GPT-3 进行少样本图像分类，且取得了与依赖大规模成对数据训练的方法相媲美的性能。
- 验证了表示的有效性： 实验还表明，LQAE 产生的表示可以用于训练一个简单的线性分类器，在 ImageNet 数据集上取得了不错的分类效果，证明了这种表示的有效性和信息丰富度。

基础概念 (Foundational Concepts):
- 大型语言模型 (Large Language Models, LLMs): 指的是像 GPT-3、BERT 这样在海量文本数据上预训练的、拥有数百亿甚至数千亿参数的深度学习模型。它们的核心能力在于理解和生成人类语言，并通过一种称为“上下文学习”或“少样本学习”的机制，在只给出少量示例的情况下完成新任务，而无需重新训练模型。
- 自编码器 (AutoEncoder, AE): 一种无监督的神经网络模型，由一个编码器 (Encoder) 和一个解码器 (Decoder) 组成。编码器将输入数据（如图像）压缩成一个低维的、紧凑的表示（称为“潜在表示”或 latent representation），解码器则尝试从这个潜在表示中重建出原始的输入数据。通过最小化重建误差，模型能学会提取数据中最有用的特征。
- 向量量化 (Vector Quantization, VQ): 一种将连续的向量空间映射到离散的码本 (codebook) 空间的技术。简单来说，就是准备一个包含有限数量“码字”（code vectors）的字典，然后对于任何输入的向量，找到字典中与它最“近”的那个码字来代替它。这个过程实现了从连续到离散的转换。
- VQ-VAE (Vector-Quantized Variational AutoEncoder): VQ-VAE 是一种结合了自编码器和向量量化的生成模型。它的编码器输出一系列向量，然后通过向量量化步骤，将这些向量替换为码本中最接近的码字。解码器再利用这些离散的码字来重建图像。这使得模型能够学习到一种离散化的、压缩的图像表示。
- BERT (Bidirectional Encoder Representations from Transformers): 一种基于 Transformer 架构的预训练语言模型。它通过在大量文本上进行“掩码语言模型”（Masked Language Model, MLM）任务（即随机遮盖句子中的一些词，然后预测这些被遮盖的词）来学习深刻的语言表示。RoBERTa 是 BERT 的一个优化版本，训练方式更鲁棒，性能通常更好。本文中，BERT 主要被用作一个强大的“文本去噪器”或“修复器”。
前人工作 (Previous Works):
- 依赖成对数据的多模态模型： 大部分成功的图文模型都依赖成对数据。例如，CLIP 在 4 亿个图文对上进行对比学习，学会了判断文本和图像是否匹配。Frozen 则将一个预训练的视觉编码器与一个冻结的语言模型连接起来，在成对数据上进行微调以完成视觉任务。这些方法的共同局限性在于对昂贵的成对数据的强依赖。
- 统一多模态任务的框架： 一些工作尝试将视觉和语言任务统一到一个框架中，通常是通过将图像也表示为一种序列，然后与文本序列一起输入到一个大型 Transformer 模型中。然而，这些方法同样需要在大规模多模态数据上进行预训练。
技术演进 (Technological Evolution): 该领域的研究正从监督多模态学习（需要大量成对数据）向无监督或自监督多模态学习演进。研究者们希望摆脱对大规模标注数据的依赖，转而利用海量的、易于获取的单模态数据（如独立的图像和独立的文本）。本文正是这一趋势下的重要尝试，探索了一条完全无监督的图文对齐路径。
差异化分析 (Differentiation): 本文方法与先前工作的核心区别在于训练数据和对齐方式：
1. 数据： LQAE 在训练期间完全不需要成对的图文数据。它只需要一个图像数据集（如 ImageNet）和一个预训练好的语言模型（及其词向量构成的 codebook）。
2. 对齐方式： LQAE 的对齐是隐式和无监督的。它不是通过直接告诉模型“这张狗的图片对应‘a dog’这个词”来学习，而是通过一个巧妙的“重建”游戏：强迫图像编码器生成一种能被 BERT “理解”并修复的符号序列，以便解码器最终能复原原图。这种方式将语言模型的结构知识“迁移”到了视觉表示的学习中。

4. 方法论 (Methodology - Core Technology & Implementation Details)

LQAE 的核心思想是改造 VQ-VAE，使其学习将图像编码为预训练语言模型的词汇空间中的符号序列。

该图像是一个示意图，展示了论文中提出的Language-Quantized AutoEncoder (LQAE)的核心流程。图中显示了如何通过RoBERTa codebook对图像特征进行量化，然后进行高比例掩码处理，最后由冻结的RoBERTa模型重建图像表示，实现无监督的文本-图像对齐。

上图展示了 LQAE 的整体架构和训练流程。

方法原理 (Methodology Principles): 其背后的直觉是：如果一个图像编码器必须生成一串“文本符号”，并且这串符号在被随机遮盖一部分后，一个强大的语言模型（如 BERT）能够成功地“猜出”被遮盖的部分，进而帮助图像解码器重建出原始图像，那么这个图像编码器就必须学会生成符合 BERT “语言习惯”的符号序列。为了最小化重建误差，视觉上相似的图像必须被映射到具有相似模式的符号序列上，从而自然地实现了视觉空间与语言结构空间的对齐。
方法步骤与流程 (Steps & Procedures):
1. 图像编码 (Image Encoding): 输入一张图像 $x$ ，一个基于 ViT 的图像编码器 $E$ 将其转换成一系列特征嵌入 $h$ 。例如，一张 256x256 的图像被分割成 16x16 个 16x16 大小的图像块 (patch)，每个块对应一个特征嵌入，总共得到 $16 \times 16 = 256$ 个特征嵌入。
2. 语言量化 (Language Quantization): 这是最关键的一步。模型使用一个固定的、预训练好的语言模型（如 RoBERTa）的词嵌入矩阵作为码本 (codebook) $C$ 。对于编码器输出的每一个特征嵌入，通过最近邻查找，在码本中找到最相似的词嵌入向量，并用该词嵌入向量对应的离散符号ID $z$ 来代替它。这一步将连续的图像特征强制映射到了离散的文本符号空间。
3. 掩码与修复 (Masking & Denoising): 将上一步得到的符号序列 $z$ 进行高比例（例如 50%）的随机掩码，得到 $z_m$ 。然后，将这个被“破坏”的序列输入到一个冻结的、预训练的 BERT 模型中。BERT 会利用其强大的语言上下文理解能力，预测出被掩码位置的符号，并输出完整的、修复后的词嵌入序列。
4. 图像解码 (Image Decoding): 将 BERT 输出的修复后的连续词嵌入序列，送入一个图像解码器 $D$ （同样基于 ViT 架构）。解码器的任务是根据这些嵌入重建出原始图像 $\hat{x}$ 。
5. 模型训练 (Training): 在整个过程中，只有图像编码器 $E$ 和解码器 $D$ 的参数是可训练的。RoBERTa 的词嵌入码本和 BERT 模型本身始终保持冻结。模型通过优化一个复合损失函数来更新 $E$ 和 $D$ 的参数。
数学公式与关键细节 (Mathematical Formulas & Key Details): LQAE 的总损失函数定义为： $\mathcal { L } = \Vert x - \hat { x } \Vert _ { 2 } ^ { 2 } + \beta \Vert \mathrm { sg } ( h ) - z \Vert _ { 2 } ^ { 2 } + \alpha \log p ( z \mid z _ { m } )$
- 符号解释:
  - $\Vert x - \hat { x } \Vert _ { 2 } ^ { 2 }$ : 图像重建损失 (Image Reconstruction Loss)。这是标准的 L2 损失，衡量重建图像 $\hat{x}$ 与原始图像 $x$ 之间的像素级差异。这是驱动整个模型学习的主要信号。
  - $\beta \Vert \mathrm { sg } ( h ) - z \Vert _ { 2 } ^ { 2 }$ : 承诺损失 (Commitment Loss)。这是 VQ-VAE 中的一个经典项，用于鼓励编码器 $E$ 的输出 $h$ 靠近被选中的码本向量 $z$ 。 $\mathrm{sg}(\cdot)$ 表示停止梯度 (stop-gradient)，意味着这部分的梯度不会回传到 $z$ （即不会更新码本），只会更新 $h$ 。 $\beta$ 是一个超参数，用于平衡该损失项的权重。
  - $\alpha \log p ( z \mid z _ { m } )$ : BERT 损失 (BERT Loss)。这一项衡量了冻结的 BERT 模型在给定掩码序列 $z_m$ 的情况下，预测出原始符号序列 $z$ 的对数概率。这个损失项（尽管权重很小， $\alpha=0.001$ ）鼓励编码器 $E$ 生成的符号序列更符合 BERT 的“语言逻辑”，使其更容易被修复。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):
- 训练数据集: ImageNet (Russakovsky et al., 2015)。这是一个大规模的图像分类数据集，包含超过100万张图像和1000个类别。LQAE 在此数据集上进行无监督训练，只使用了图像，没有使用任何标签。
- 评估数据集: mini-ImageNet (Vinyals et al., 2016)。这是 ImageNet 的一个子集，常用于少样本学习任务的评测。LQAE 在此数据集上进行少样本分类性能的评估。
评估指标 (Evaluation Metrics):
- 准确率 (Accuracy):
  1. 概念定义: 准确率是最直观的分类性能指标，它衡量的是模型预测正确样本数占总样本数的比例。在 N-way 分类任务中，随机猜测的准确率为 $1/N$ 。
  2. 数学公式: $\mathrm{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}} = \frac{\mathrm{TP} + \mathrm{TN}}{\mathrm{TP} + \mathrm{TN} + \mathrm{FP} + \mathrm{FN}}$
  3. 符号解释:
    - $\mathrm{TP}$ (True Positives): 真正例，即实际为正类且被预测为正类的样本数。
    - $\mathrm{TN}$ (True Negatives): 真负例，即实际为负类且被预测为负类的样本数。
    - $\mathrm{FP}$ (False Positives): 假正例，即实际为负类但被预测为正类的样本数。
    - $\mathrm{FN}$ (False Negatives): 假负例，即实际为正类但被预测为负类的样本数。在多分类任务中，通常计算为所有被正确分类的样本总数除以样本总数。
对比基线 (Baselines):
- ASCII: 一个简单的基线，将图像缩小并转换为 ASCII 字符画，然后将这些字符序列作为图像的文本表示，输入给 GPT-3。
- MAE + Linear: MAE (Masked Autoencoders) 是一种强大的自监督图像预训练方法。该基线使用在 ImageNet 上预训练好的 MAE 提取图像特征，然后针对每个少样本任务，在给定的少量样本上训练一个线性分类器。
- Frozen: 一个代表性的强基线，它在一个包含 300 万图文对的数据集上进行了预训练，将视觉编码器与一个冻结的语言模型对齐。
- untrained LQAE: 一个消融实验基线，使用未经训练的 LQAE 模型进行评估，以验证训练过程的有效性。

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis):

线性分类性能 (Linear Classification):

该图像是图表，展示了ImageNet数据集上不同编码器线性分类的准确率对比。结果表明，LQAE编码器结合BERT模型表现最佳，达39.7%的准确率，明显优于其他方法和随机编码器。

上图（Figure 4）展示了在 ImageNet 数据集上进行线性分类的结果。将 LQAE 生成的符号序列输入 RoBERTa 后提取的特征，用于训练线性分类器，准确率达到了 35.6%。这显著优于直接使用 VQ-VAE 离散码本特征 (11.8%) 和其他变体。这证明 LQAE 学习到的表示通过 BERT 的处理后，包含了非常丰富且利于分类的语义信息。

少样本分类性能 (Few-shot Classification): 以下是论文中 Table 1 和 Table 2 的数据转录结果，展示了在 mini-ImageNet 上的 2-way 和 5-way 少样本分类准确率。

Table 1: 2-way 少样本分类

预训练类型	方法	Inner Shots=1	Inner Shots=3	Inner Shots=5	Avg
无图像或文本	ASCII (64x64 img)	5.2	5.9	6.5	4.59
图像预训练 + 图文微调	MAE + Linear	8.9	11.4	13.5	11.71
图文预训练	Frozen	33.7	66.0	66.0	51.3
图像预训练 (本文)	LQAE (ours)	35.2	68.2	69.8	53.97

Table 2: 5-way 少样本分类

预训练类型	方法	Inner Shots=1	Inner Shots=3	Inner Shots=5	Avg
无图像或文本	ASCII (64x64 img)	0	0	0	0
图像预训练 + 图文微调	MAE + Linear	2.0	2.5	3.2	2.6
图文预训练	Frozen	14.5	34.7	33.8	26.26
图像预训练 (本文)	LQAE (ours)	15.7	35.9	36.5	29.04

分析：

LQAE 在所有少样本分类设置中均显著优于其他未使用成对数据的基线 (ASCII, MAE + Linear)。
惊人的是，LQAE 的平均性能甚至超过了在 300 万成对数据上预训练的 Frozen 模型。作者推测这部分归功于 LQAE 使用了更强大的 GPT-3.5 (text-davinci-003) 进行推理，而 Frozen 使用的是较小的语言模型。然而，LQAE 的优势在于它无需对昂贵的 GPT-3.5 进行任何微调。
这些结果有力地证明，即使 LQAE 生成的“文本”对人类不可读，但 GPT-3 这样的 LLM 能够从中识别出模式和结构，并成功地执行基于这些“伪文本”的少样本学习。

消融实验/参数分析 (Ablation Studies / Parameter Analysis):

Figure 5. High mask ratio is crucial for LQAE results. Top: Linear classification result on ImageNet. Bottom: 5-way and 2-way few-shot image classification results on Mini-ImageNet. 该图像是图表，展示了不同遮罩比例对LQAE模型在线性分类（ImageNet）及少样本分类（Mini-ImageNet）任务中准确率的影响。结果显示较高遮罩比例（50%）对于模型表现至关重要。

掩码比例的影响 (Figure 5): 上图展示了掩码比例对模型性能的关键影响。与 BERT 预训练中常用的 15% 掩码率不同，LQAE 在约 50% 的高掩码率下表现最佳。这表明，为了迫使模型学习到更鲁棒和更具内在结构的表示，需要给 BERT 修复任务制造更大的“困难”。

模型组件的重要性 (Table 3):

Variation	Description	Linear Acc	2-way Avg	5-way Avg
Default	默认设置	35.60	53.97	29.04
(A)	移除 L2 归一化	30.30	52.45	27.42
(B)	使用随机初始化的BERT	11.80	50.45	26.54
(E)	移除 BERT 损失 (α=0)	34.80	-	-
(H)	使用更小的GPT-3模型	-	46.55 (6.7B)	22.80 (6.7B)
(I)	将 VQ-VAE 码字直接映射到RoBERTa码字	-	3.24	0.00

（注：上表为 Table 3 关键行的简化转录）