论文状态：已完成

Vision-Language Models for Vision Tasks: A Survey

发表：2023/04/03

视觉语言模型 (13)视觉任务的自回归推理 (1)无监督视觉识别方法 (1)大规模图像-文本对数据集 (1)视觉-语言模型预训练与评估 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本论文综述了面向视觉任务的视觉语言模型（VLM），旨在解决深度神经网络（DNN）依赖众包标注和模型训练效率低的问题。通过分析网络架构、预训练目标和下游任务，整理了现有方法及其挑战，为未来研究提供了参考。

摘要

Most visual recognition studies rely heavily on crowd-labelled data in deep neural networks (DNNs) training, and they usually train a DNN for each single visual recognition task, leading to a laborious and time-consuming visual recognition paradigm. To address the two challenges, Vision-Language Models (VLMs) have been intensively investigated recently, which learns rich vision-language correlation from web-scale image-text pairs that are almost infinitely available on the Internet and enables zero-shot predictions on various visual recognition tasks with a single VLM. This paper provides a systematic review of visual language models for various visual recognition tasks, including: (1) the background that introduces the development of visual recognition paradigms; (2) the foundations of VLM that summarize the widely-adopted network architectures, pre-training objectives, and downstream tasks; (3) the widely-adopted datasets in VLM pre-training and evaluations; (4) the review and categorization of existing VLM pre-training methods, VLM transfer learning methods, and VLM knowledge distillation methods; (5) the benchmarking, analysis and discussion of the reviewed methods; (6) several research challenges and potential research directions that could be pursued in the future VLM studies for visual recognition. A project associated with this survey has been created at https://github.com/jingyi0000/VLM_survey.

思维导图

论文精读

中文精读约 51 分钟读完 · 37,569 字

1. 论文基本信息

1.1. 标题

Vision-Language Models for Vision Tasks: A Survey (面向视觉任务的视觉语言模型：一项综述)

1.2. 作者

Jingyi Zhang†: Nanyang Technological University (NTU) 计算机科学与工程学院研究助理及博士生，研究方向包括计算机视觉和目标检测。
Jiaxing Huang†: Nanyang Technological University (NTU) 计算机科学与工程学院研究助理及博士生，研究方向包括计算机视觉和机器学习。
Sheng Jin: Nanyang Technology University (NTU) 研究员，研究方向包括计算机视觉和机器学习。
Shijian Lu*: Nanyang Technological University (NTU) 计算机科学与工程学院副教授，研究方向包括图像和视频分析、视觉智能和机器学习。

注： † 表示共同第一作者，* 表示通讯作者。

1.3. 发表期刊/会议

arXiv 预印本。

1.4. 发表年份

2023年 (UTC时间：2023-04-03T02:17:05.000Z)。

1.5. 摘要

大多数视觉识别研究严重依赖于深度神经网络 (Deep Neural Networks, DNNs) 训练中的众包标注数据，并且通常针对每个单一视觉识别任务训练一个 DNN，这导致了耗时费力的视觉识别范式。为了解决这两个挑战，视觉语言模型 (Vision-Language Models, VLMs) 近来得到了深入研究，它从网络规模的图像-文本对中学习丰富的视觉-语言关联，这些数据在互联网上几乎无限可用，并通过单个 VLM 实现各种视觉识别任务的零样本 (zero-shot) 预测。本论文对面向各种视觉识别任务的视觉语言模型进行了系统回顾，内容包括：(1) 介绍视觉识别范式发展的背景；(2) 总结广泛采用的网络架构、预训练目标和下游任务的 VLM 基础；(3) VLM 预训练和评估中广泛使用的数据集；(4) 现有 VLM 预训练方法、VLM 迁移学习 (transfer learning) 方法和 VLM 知识蒸馏 (knowledge distillation) 方法的回顾和分类；(5) 对所回顾方法的基准测试、分析和讨论；(6) 未来 VLM 视觉识别研究中可能面临的挑战和潜在研究方向。与本综述相关的项目已在 https://github.com/jingyi0000/VLM_survey 上创建。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2304.00685
PDF 链接: https://arxiv.org/pdf/2304.00685v2.pdf

2. 整体概括

2.1. 研究背景与动机

传统的深度学习视觉识别研究面临两个主要挑战：

数据标注成本高昂: 深度神经网络 (DNNs) 的训练严重依赖大规模、特定任务的众包标注数据，这导致数据收集过程耗时且昂贵。
模型训练效率低下: 通常需要为每个单一的视觉识别任务（如图像分类、目标检测、语义分割）训练一个独立的 DNN，这使得整个视觉识别范式变得劳动密集且耗时。

为了解决这些问题，视觉语言模型 (VLM) 应运而生。VLM 利用互联网上几乎无限可用的网络规模图像-文本对来学习丰富的视觉-语言关联。这种新范式的一个关键优势是，经过预训练的单个 VLM 能够直接应用于各种视觉识别任务，执行零样本 (zero-shot) 预测，而无需进行任务特定的微调 (fine-tuning)。这种方法不仅降低了对标注数据的依赖，也提高了模型的泛化能力和应用效率。

尽管 VLM 领域近年来取得了显著进展，并且出现了大量相关研究（如图1所示，自 CLIP [10] 在2021年发布以来，VLM 相关的出版物呈指数增长），但研究社区仍缺乏一份全面、系统的综述，能够对现有的基于 VLM 的视觉识别研究进行梳理，识别当前面临的挑战，并指出未来的研究方向。本论文的动机正是为了填补这一空白，为研究人员提供一个清晰的全局视角。

$Fig. 1: Number of publications on visual recognition VLMs (from Google Scholar). The publications grow exponentially since the pioneer study CLIP \[10\] in 2021.$ 该图像是一个图表，展示了视觉识别中与视觉语言模型（VLMs）相关的出版论文数量。自2021年CLIP作品发表以来，论文数量呈指数增长，2023年达到最高峰。

Fig. 1: Number of publications on visual recognition VLMs (from Google Scholar). The publications grow exponentially since the pioneer study CLIP [10] in 2021.

2.2. 核心贡献/主要发现

本工作的主要贡献体现在以下三个方面：

首次系统综述 VLM 针对视觉识别任务的研究: 论文对包括图像分类、目标检测和语义分割在内的多种视觉识别任务中的 VLM 进行了系统性回顾。据作者所知，这是首个专注于 VLM 视觉识别任务的综述，提供了对这一新兴且充满前景的研究领域的全面总结和分类。
全面的基准测试与讨论: 论文研究了 VLM 在视觉识别领域的最新进展，包括在多个公开数据集上对现有工作的全面基准测试和讨论。
提出研究挑战与未来方向: 论文指出了 VLM 在视觉识别领域面临的几个研究挑战，并提出了未来可进一步探索的潜在研究方向。

3. 预备知识与相关工作

3.1. 基础概念

深度神经网络 (Deep Neural Networks, DNNs): 一类包含多个隐藏层的神经网络，能够从大量数据中学习复杂的模式和表示。DNNs 是现代计算机视觉和自然语言处理任务的基础。
视觉识别 (Visual Recognition): 计算机视觉领域的核心任务，旨在让计算机能够识别和理解图像或视频中的内容。常见的子任务包括：
- 图像分类 (Image Classification): 将图像归类到预定义的语义类别中（例如，识别图像中是猫、狗还是汽车）。
- 目标检测 (Object Detection): 在图像中定位并识别出特定目标的位置（通常用边界框表示）及其类别（例如，在图片中框出所有汽车和行人）。
- 语义分割 (Semantic Segmentation): 将图像中的每个像素分类到其对应的语义类别，从而实现对图像内容的像素级别理解（例如，将图像中属于“天空”、“道路”和“建筑物”的像素分别着色）。
预训练 (Pre-training): 在大规模数据集上训练一个模型，使其学习到通用的特征或知识。
微调 (Fine-tuning): 在预训练模型的基础上，使用特定任务的少量标注数据对其进行进一步训练，以适应下游任务。
零样本预测 (Zero-shot Prediction): 模型能够在没有见过任何特定类别的训练样本的情况下，对该类别进行预测。这是 VLM 的一个核心能力，通过利用视觉和语言之间的语义对应关系实现。
视觉语言模型 (Vision-Language Models, VLMs): 旨在联合学习图像和文本两种模态信息的模型。它们通过学习图像和文本之间的语义对齐关系，使得模型能够理解图像内容并将其与语言描述关联起来，反之亦然。
对比学习 (Contrastive Learning): 一种自监督学习方法，通过将相似的样本（正样本对）在表示空间中拉近，将不相似的样本（负样本对）推远，来学习有区分性的特征表示。
生成模型 (Generative Models): 旨在学习数据的内在分布，并能够生成新的、与训练数据相似的样本的模型。在 VLM 中，这可能包括图像生成文本（图像描述）或通过掩码预测来补全缺失信息。
对齐目标 (Alignment Objectives): 旨在使不同模态（如图像和文本）的表示在嵌入空间中相互对齐，从而使得语义上相关的图像和文本具有相似的表示。
Transformer (Transformer): 一种基于自注意力 (self-attention) 机制的神经网络架构，最初在自然语言处理 (Natural Language Processing, NLP) 领域取得巨大成功，后来也被广泛应用于计算机视觉领域。

3.2. 前人工作

视觉识别领域的发展经历了多个阶段，从传统的机器学习到深度学习，再到当前的视觉语言模型范式。

传统机器学习 (Traditional Machine Learning): 在深度学习时代之前，视觉识别主要依赖于手工设计的特征（如 SIFT [38]、HOG）和轻量级学习模型（如 SVM [8]、k-NN [7]）。这种方法需要领域专家来设计有效的特征，可扩展性差。
深度学习从零开始 (Deep Learning from Scratch): 随着深度学习的兴起（如 AlexNet [4]、VGG [5]、ResNet [6]），端到端可训练的 DNNs 取代了手工特征。模型直接从大量众包标注数据中学习特征，取得了巨大成功。然而，这种范式面临 DNN 训练收敛慢和数据标注成本高的挑战。
监督预训练、微调与预测 (Supervised Pre-training, Fine-tuning and Prediction): 发现从大规模标注数据集（如 ImageNet [40]）学习到的特征可以迁移到下游任务后，预训练-微调范式逐渐流行。模型首先在大型标注数据上进行监督预训练，然后在任务特定的少量标注数据上进行微调。这加速了收敛并提高了在有限数据下的性能。
无监督预训练、微调与预测 (Unsupervised Pre-training, Fine-tuning and Prediction): 为了缓解对大规模标注预训练数据的依赖，自监督学习 (self-supervised learning) 被引入。模型通过设计巧妙的代理任务（pretext task）从无标注数据中学习有用的、可迁移的表示（如 MoCo [12]、SimCLR [13]）。这种方法进一步提升了模型的性能和对数据的利用效率。
视觉语言模型预训练与零样本预测 (Vision-language Model Pre-training and Zero-shot Prediction): 受到自然语言处理 (NLP) 领域 Transformer 模型（如 BERT [14]、GPT-2 [16]）成功的启发，VLM 范式应运而生。 CLIP [10] 是这一领域的开创性工作，它展示了通过大规模图像-文本对进行对比学习，可以使模型具备强大的零样本泛化能力，无需针对特定任务进行微调。

3.3. 技术演进

视觉识别范式的发展可以大致分为五个阶段，如图2所示。

该图像是示意图，展示了视觉语言模型（VLM）在不同预训练和预测阶段的工作流程。图中分为三部分：监督预训练、无监督预训练以及视觉语言模型的预训练和零-shot 预测。每个部分详细说明了各自的预训练任务、下游任务和预测过程，以及模型之间的转移学习关系。图示强调了VLM如何利用大规模图像-文本对进行学习，从而在多个视觉识别任务实现零-shot 预测。

hrrai pard visal renitCpar wi h par nd that effiveusage of web data and zero-shot predictions without task-speci fine-tuning.

传统机器学习和预测 (Traditional Machine Learning and Prediction): 深度学习时代之前，依赖手工特征工程和轻量级学习模型。需要领域专家，可扩展性差。
深度学习从零开始和预测 (Deep Learning from Scratch and Prediction): 随着深度学习兴起，使用端到端可训练的 DNNs。解决了复杂的特征工程问题，但在 DNN 训练收敛慢和大规模标注数据收集上遇到新挑战。
监督预训练、微调和预测 (Supervised Pre-training, Fine-tuning and Prediction): DNNs 在大规模标注数据（如 ImageNet）上预训练，然后用任务特定数据微调。加速了网络收敛，在有限数据下表现良好。
无监督预训练、微调和预测 (Unsupervised Pre-training, Fine-tuning and Prediction): 采用自监督学习从无标注数据中学习可迁移的表示，进一步提升性能，减少对标注预训练数据的依赖。
视觉语言模型预训练和零样本预测 (Vision-language Model Pre-training and Zero-shot Prediction): 利用互联网上近乎无限的图像-文本对进行预训练，学习丰富的视觉-语言知识，实现对下游视觉识别任务的零样本预测，无需微调。这是当前 VLM 领域关注的焦点。

图3进一步展示了 VLM 在视觉识别领域的发展，主要体现在三个方面：

该图像是对视觉语言模型（VLMs）发展过程的示意图。图中展示了不同的预训练目标、预训练框架及其下游任务之间的关系，从单一目标到多个混合目标，以及简单任务到复杂任务的发展趋势。

Fig. 3: Illustration of development of VLMs for visual recognition.

预训练目标 (Pre-training objectives): 从“单一目标”发展到“多个混合目标”。早期 VLM（如 CLIP [10]）通常采用单一对比目标，而近期研究（如 FLAVA [42]）则引入对比、对齐和生成等多种目标，以探索协同效应，构建更鲁棒的 VLM。
预训练框架 (Pre-training frameworks): 从“多个独立网络”发展到“统一网络”。早期 VLM（如 CLIP [10]）采用双塔 (two-tower) 框架，图像和文本分别由独立编码器处理。近期研究（如 OneR [44]）尝试单塔 (one-tower) 框架，用统一网络编码图像和文本，以提高模态间通信效率。
下游任务 (Downstream tasks): 从简单任务发展到复杂任务。早期 VLM 专注于图像级别的任务（如图像分类），而近期 VLM（如 DetCLIP [45]、SegCLIP [46]）则致力于解决更复杂、需要定位知识的密集预测任务（如目标检测和语义分割）。

3.4. 差异化分析

现有的相关综述主要侧重于面向视觉-语言任务（vision-language tasks）的视觉语言模型，例如视觉问答 (Visual Question Answering, VQA) [47]、视觉推理中的自然语言 (Natural Language for Visual Reasoning) [48] 和短语定位 (Phrase Grounding) [49]。例如，Li 等人 [50] 总结了视觉-语言任务的进展，Du 等人 [51] 和 Chen 等人 [52] 回顾了面向视觉-语言任务的 VLM 预训练。Xu 等人 [53] 和 Wang 等人 [54] 分享了多模态学习在多模态任务上的最新进展。

与这些现有工作不同，本综述的重点是面向视觉识别任务（visual recognition tasks）的视觉语言模型，涵盖图像分类、目标检测和语义分割。本综述从三个主要方面进行分析：

VLM 预训练在视觉识别任务上的最新进展。
从 VLM 到视觉识别任务的两种典型迁移方法。
VLM 预训练方法在视觉识别任务上的基准测试。

这种差异化使得本综述填补了现有文献的空白，为研究人员提供了 VLM 在纯视觉识别应用方面更深入和集中的视角。

4. 方法论

本节将详细介绍视觉语言模型 (VLM) 的基础，包括广泛采用的网络架构、预训练目标、预训练框架、迁移学习方法以及知识蒸馏方法。VLM 预训练旨在学习图像-文本关联，从而实现对视觉识别任务的有效零样本预测。

4.1. VLM 基础

VLM 预训练从 $N$ 个图像-文本对的数据集 $\mathcal{D} = \{x_n^I, x_n^T\}_{n=1}^N$ 中学习。它使用一个图像编码器 $f_\theta$ 和一个文本编码器 $f_\phi$ 来将图像 $x_n^I$ 和文本 $x_n^T$ （来自一对图像-文本对 $\{x_n^I, x_n^T\}$ ）编码为图像嵌入 z_n^I = \breve{f}_\theta(x_n^I) 和文本嵌入 z_n^T = f_\phi(x_n^T)。

4.1.1. 网络架构

4.1.1.1. 图像特征学习架构

VLM 预训练中广泛采用两种网络架构来学习图像特征：基于卷积神经网络 (Convolutional Neural Network, CNN) 的架构和基于 Transformer (Transformer) 的架构。

基于 CNN 的架构: 不同的卷积网络（例如 VGG [5]、ResNet [6] 和 EfficientNet [59]）已被设计用于学习图像特征。作为 VLM 预训练中最流行的卷积网络之一，ResNet [6] 采用了跳跃连接 (skip connections) 来缓解梯度消失和梯度爆炸问题，并支持构建非常深的神经网络。为了更好的特征提取和视觉-语言建模，一些研究 [10] 对原始网络架构 [6], [59] 进行了修改。例如，它们引入了 ResNet-D [60]，采用了 [61] 中的抗混叠 rect-2 模糊池化 (anti-aliased rect-2 blur pooling)，并将全局平均池化 (global average pooling) 替换为 Transformer 多头注意力 (multi-head attention) [58] 中的注意力池化 (attention pooling)。
基于 Transformer 的架构: Transformer 近来在视觉识别任务中得到了广泛探索，例如图像分类 [57]、目标检测 [62] 和语义分割 [63]。作为图像特征学习的标准 Transformer 架构，ViT [57] 采用了一堆 Transformer 块，每个块都由一个多头自注意力层 (multi-head self-attention layer) 和一个前馈网络 (feed-forward network) 组成。输入图像首先被分割成固定大小的图像块 (patches)，然后在线性投影和位置嵌入 (position embedding) 之后，输入到 Transformer 编码器中。CLIP [10]、FLAVA [18] 和 SLIP [64] 通过在 Transformer 编码器之前添加一个归一化层 (normalization layer) 来修改 ViT。

4.1.1.2. 语言特征学习架构

Transformer 及其变体 [14], [16], [58] 已被广泛用于学习文本特征。标准的 Transformer [58] 具有编码器-解码器 (encoder-decoder) 结构，其中编码器有6个块，每个块包含一个多头自注意力层和一个多层感知机 (Multi-Layer Perceptron, MLP)。解码器也有6个块，每个块包含一个多头注意力层、一个掩码多头层 (masked multi-head layer) 和一个 MLP。大多数 VLM 研究（例如 CLIP [10]）采用标准的 Transformer [58]，并进行了少量修改，类似于 GPT2 [16]，并且在没有 GPT2 权重初始化的情况下从头开始训练。

4.1.2. VLM 预训练目标

作为 VLM 的核心，各种视觉-语言预训练目标 [10], [12], [14], [19], [42], [65], [66], [67] 被设计用于学习丰富的视觉-语言关联。它们大致分为三类：对比目标、生成目标和对齐目标。

4.1.2.1. 对比目标 (Contrastive Objectives)

对比目标通过在特征空间中将配对样本拉近并推开其他样本，来训练 VLM 学习判别性表示 [10], [12], [65]。

图像对比学习 (Image Contrastive Learning): 旨在学习判别性图像特征 [12], [13]，通过强制查询图像与其正键 (positive keys)（即其数据增强版本）接近，并与其负键 (negative keys)（即其他图像）远离。给定一个批次 (batch) 的 $B$ 张图像，对比学习目标（例如 InfoNCE [68] 及其变体 [12], [13]）通常表示为： $\mathcal{L}_I^{\mathrm{InfoNCE}} = - \frac{1}{B} \sum_{i=1}^B \log \frac{\exp{(z_i^I \cdot z_+^I / \tau)}}{\sum_{j=1, j \ne i}^{B+1} \exp(z_i^I \cdot z_j^I / \tau)}$ 其中， $z_i^I$ 是查询图像 $i$ 的嵌入， $z_+^I$ 是其正键嵌入， $\{z_j^I\}_{j=1, j \neq i}^{B+1}$ 是 $z_i^I$ 的负键。 $\tau$ 是一个温度超参数 (temperature hyper-parameter)，控制学习表示的密度。
图像-文本对比学习 (Image-Text Contrastive Learning): 旨在学习判别性图像-文本表示，通过将配对图像和文本的嵌入拉近，同时推开其他图像和文本的嵌入 [10], [17]。这通常通过最小化一个对称的图像-文本 InfoNCE 损失 [10] 来实现，即 $\mathcal{L}_{\mathrm{infoNCE}}^{I \leftrightarrow T} = \mathcal{L}_{I \to T} + \mathcal{L}_{T \to I}$ ，其中 $\mathcal{L}_{I \to T}$ 对比查询图像与文本键，而 $\mathcal{L}_{T \to I}$ 对比查询文本与图像键。给定一个批次的 $B$ 个图像-文本对， $L_{I \to T}$ 和 $L_{T \to I}$ 定义如下： $\begin{array}{rl} & \mathcal{L}_{I \to T} = - \displaystyle \frac{1}{B} \sum_{i=1}^B \log \frac{\exp{(z_i^I \cdot z_i^T / \tau)}}{\sum_{j=1}^B \exp(z_i^I \cdot z_j^T / \tau)} \\ & \mathcal{L}_{T \to I} = - \displaystyle \frac{1}{B} \sum_{i=1}^B \log \frac{\exp{(z_i^T \cdot z_i^I / \tau)}}{\sum_{j=1}^B \exp(z_i^T \cdot z_j^I / \tau)} \end{array}$ 其中 $z^I$ 和 $z^T$ 分别代表图像嵌入和文本嵌入。

下图（原文 Figure 6）展示了 CLIP 中图像-文本对比学习的示意图：

$Fig. 6: Illustration of the image-text contrastive learning in CLIP \[10\]. Figure is reproduced from \[10\].$ 该图像是示意图，展示了CLIP中的图像-文本对比学习过程。上半部分展示了文本编码器处理输入文本并生成特征向量 $z_1, z_2, \ldots, z_B$ ，下半部分则展示输入图像通过图像编码器生成对应特征向量。两部分通过特征空间矩阵相互关联，进行对比学习以增强模型性能。

Fig. 6: Illustration of the image-text contrastive learning in CLIP [10]. Figure is reproduced from [10].
图像-文本-标签对比学习 (Image-Text-Label Contrastive Learning): UniCL [65] 将监督对比学习 (Supervised Contrastive Learning) [69] 引入图像-文本对比学习，通过重新表述上述的公式来定义： $\mathcal{L}_{I \to T}^{ITL} = - \sum_{i=1}^B \frac{1}{\vert \mathcal{P}(i) \vert} \sum_{k \in \mathcal{P}(i)} \log \frac{\exp{(z_i^I \cdot z_k^T / \tau)}}{\sum_{j=1}^B \exp(z_i^I \cdot z_j^T / \tau)}$ $\mathcal{L}_{T \to I}^{ITL} = - \sum_{i=1}^B \frac{1}{\vert \mathcal{P}(i) \vert} \sum_{k \in \mathcal{P}(i)} \log \frac{\exp{(z_i^T \cdot z_k^I / \tau)}}{\sum_{j=1}^B \exp(z_i^T \cdot z_j^I / \tau)}$ 其中 $k \in \mathcal{P}(i) = \{ k | k \in B, y_k = y_i \}$ [65]， $y$ 是图像-文本对 $(z^I, z^T)$ 的类别标签。总损失为 $\mathcal{L}_{\mathrm{infoNCE}}^{ITL} = \mathcal{L}_{I \to T}^{ITL} + \mathcal{L}_{T \to I}^{ITL}$ 。这种方法将图像、文本和分类标签编码到共享空间中，利用图像标签的监督信息。

下图（原文 Figure 7）展示了 UniCL [65] 中提出的图像-文本-标签空间示意图：

$Fig. 7: Illustration of the image-text-label space proposed in UniCL \[65\]. Figure is reproduced from \[65\].$ 该图像是示意图，展示了图像-文本-标签对的结构，其中包含图像、文本和标签的对应关系。图中展示了不同动物（如狗和猫）的实例及其描述，清晰地说明了图像-标签对和图像-文本对之间的联系。

Fig. 7: Illustration of the image-text-label space proposed in UniCL [65]. Figure is reproduced from [65].

4.1.2.2. 生成目标 (Generative Objectives)

生成目标通过训练网络生成图像/文本数据（通过图像生成、语言生成或跨模态生成）来学习语义特征 [12], [14], [19], [42], [70]。

掩码图像建模 (Masked Image Modelling): 通过掩码和重建图像来学习图像块 (patches) 之间的关联 [41], [70]。它随机掩盖输入图像的一部分图像块，并训练编码器在未掩盖图像块的条件下重建被掩盖的图像块。给定一个批次的 $B$ 张图像，损失函数可以表示为： $\mathcal{L}_{MIM} = - \frac{1}{B} \sum_{i=1}^B \log f_\theta \big( \overline{x}_i^I \mid \hat{x}_i^I \big)$ 其中 $\overline{x}_i^I$ 和 $\hat{x}_i^I$ 分别表示 $x_i^I$ 中被掩盖的图像块和未被掩盖的图像块。

下图（原文 Figure 8）展示了掩码图像建模的示意图：

$Fig. 8: Illustration of masked image modelling \[66\]. Figure is reproduced from \[66\].$ 该图像是一个示意图，阐述了图像编码器和解码器的流程。左侧为输入图像，经过图像编码器处理后，产生中间表示，最后通过图像解码器生成输出图像，展现了图像重构的过程。

Fig. 8: Illustration of masked image modelling [66]. Figure is reproduced from [66].
掩码语言建模 (Masked Language Modelling): NLP 中广泛采用的预训练目标 [14]。它随机掩盖输入文本词元 (tokens) 的一定百分比（例如，BERT [14] 中为 $15\%$ ），并利用未掩盖的词元重建它们： $\mathcal{L}_{MLM} = - \frac{1}{B} \sum_{i=1}^B \log f_\phi (\mathbf{\overline{x}_i^T} \mid \mathbf{\hat{x}_i^T})$ 其中 $\mathbf{\overline{x}_i^T}$ 和 $\mathbf{\hat{x}_i^T}$ 分别表示 $x_i^T$ 中被掩盖的词元和未被掩盖的词元， $B$ 表示批次大小。

下图（原文 Figure 9）展示了掩码语言建模的示意图：

$Fig. 9: Illustration of masked language modelling \[14\].$ 该图像是示意图，展示了掩码语言模型中的输入文本和Transformer编码器的构建过程。图中包括了位置嵌入和标记嵌入的组合，以及如何通过预测生成最终的文本输出，特别标出了掩码位置 $e_{[mask]}$ 。

Fig. 9: Illustration of masked language modelling [14].
掩码跨模态建模 (Masked Cross-Modal Modelling): 整合了掩码图像建模和掩码语言建模 [42]。给定一个图像-文本对，它随机掩盖一部分图像块和一部分文本词元，然后学习在未掩盖图像块和未掩盖文本词元的条件下重建它们，表示为： $\mathcal{L}_{MCM} = - \frac{1}{B} \sum_{i=1}^B \left[ \log f_\theta (\overline{x}_i^I \mid \hat{x}_i^I, \hat{x}_i^T) + \log f_\phi (\overline{x}_i^T \mid \hat{x}_i^I, \hat{x}_i^T) \right]$ 其中 $\overline{x}_i^I / \hat{x}_i^I$ 表示 $x_i^I$ 中被掩盖/未掩盖的图像块， $\overline{x}_i^T / \hat{x}_i^T$ 表示 $x_i^T$ 中被掩盖/未掩盖的文本词元。
图像到文本生成 (Image-to-Text Generation): 旨在基于与文本 $x^T$ 配对的图像，自回归地预测文本 $x^T$ [19]： $\mathcal{L}_{ITG} = - \sum_{l=1}^L \log \ f_\theta (x^T \mid x_{<l}^T, z^I)$ 其中 $L$ 表示要为 $x^T$ 预测的词元数量， $z^I$ 是与 $x^T$ 配对的图像的嵌入。

下图（原文 Figure 10）展示了 COCA [19] 中图像到描述生成的简化示意图：

$Fig. 10: A simplified illustration of image-to-caption generation in COCA \[19\]. Figure is reproduced based on \[19\].$ 该图像是一个示意图，展示了图像编码器与多模态文本解码器之间的交互。图中展示了通过交叉注意力机制将输入图像与文本进行结合，以生成描述性文本。下方的输入图像是一只玩球的狗，对应的输出文本为"A dog is playing with a ball"。

Fig. 10: A simplified illustration of image-to-caption generation in COCA [19]. Figure is reproduced based on [19].

4.1.2.3. 对齐目标 (Alignment Objectives)

对齐目标通过全局图像-文本匹配 [71], [72] 或局部区域-词匹配 [45], [67] 在嵌入空间中对齐图像-文本对。

图像-文本匹配 (Image-Text Matching): 通过建模图像和文本之间的全局关联来实现 [71], [72]，可以用一个分数函数 $\mathcal{S}(\cdot)$ 来衡量图像和文本之间的对齐概率，以及一个二分类损失来表示： $\mathcal{L}_{IT} = p \log \mathcal{S}(z^I, z^T) + (1-p) \log (1-\mathcal{S}(z^I, z^T))$ 其中 $p$ 为 1 表示图像和文本是配对的，为 0 则表示不配对。
区域-词匹配 (Region-Word Matching): 旨在建模图像-文本对中的局部细粒度跨模态关联（即“图像区域”和“词语”之间）[45], [67]，这对于目标检测等密集视觉识别任务非常有利。它可以表示为： $\mathcal{L}_{RW} = p \log \mathcal{S}^r(r^I, w^T) + (1-p) \log (1-\mathcal{S}^r(r^I, w^T))$ 其中 $(r^I, w^T)$ 表示一个区域-词对， $p=1$ 表示区域和词是配对的，否则 $p=0$ 。 $\mathcal{S}^r(\cdot)$ 表示一个局部分数函数，衡量“图像区域”和“词语”之间的相似度。

下图（原文 Figure 11）展示了 GLIP [67] 使用词-区域对齐进行检测的示意图：

$Fig. 11: Illustration of GLIP \[67\] that uses word-region alignment for detection. Figure is reproduced from \[67\].$ 该图像是示意图，展示了GLIP模型如何使用文本编码器和图像编码器进行词-区域对齐检测。图示中包含的公式用于计算局部化损失和对齐损失。

Fig. 11: Illustration of GLIP [67] that uses word-region alignment for detection. Figure is reproduced from [67].

4.1.3. VLM 预训练框架

本节介绍 VLM 预训练中广泛采用的框架，包括双塔 (two-tower)、双腿 (two-leg) 和单塔 (one-tower) 预训练框架。

双塔框架 (Two-tower framework): 在 VLM 预训练中被广泛采用 [10], [17]，其中输入图像和文本分别由两个独立的编码器编码，如图5(a)所示。
双腿框架 (Two-leg framework): 稍有不同的是，双腿框架 [19], [42] 引入了额外的多模态融合层 (multi-modal fusion layers)，实现了图像和文本模态之间的特征交互，如图5(b)所示。
单塔框架 (One-tower framework): 相比之下，单塔 VLM [43], [44] 试图将视觉和语言学习统一在一个单一编码器中，如图5(c)所示，旨在促进数据模态之间的高效通信。

下图（原文 Figure 5）展示了典型的 VLM 预训练框架：

该图像是示意图，展示了三种典型的视觉语言模型（VLM）预训练框架，包括两塔VLM、两腿VLM和一塔VLM。框架中显示了图像和文本嵌入的输入以及多模态融合层的使用，以帮助实现有效的预训练目标。

Fig. 5: Illustration of typical VLM pre-training frameworks.

4.2. VLM 迁移学习 (VLM Transfer Learning)

除了直接将预训练 VLM 应用于下游任务而无需微调的零样本预测之外，迁移学习 (transfer learning) 近期也被研究，它通过提示调优 (prompt tuning) [31], [132]、特征适配器 (feature adapter) [33], [34] 等方式使 VLM 适应下游任务。

4.2.1. 迁移学习的动机

尽管预训练 VLM 表现出强大的泛化能力，但在应用于各种下游任务时，它们通常面临两类鸿沟：

图像和文本分布差异: 例如，一个下游数据集可能具有特定任务的图像风格和文本格式，与预训练数据存在差异。
训练目标差异: 例如，VLM 通常使用与任务无关的目标进行训练，学习通用概念，而下游任务通常涉及特定任务的目标，如粗粒度或细粒度分类、区域或像素级识别等。

4.2.2. 迁移学习的常见设置

为了弥合第 4.2.1 节所述的领域鸿沟，已经探索了三种迁移设置：监督迁移 (supervised transfer)、少样本监督迁移 (few-shot supervised transfer) 和无监督迁移 (unsupervised transfer)。

监督迁移 (Supervised transfer): 使用所有标注的下游数据来微调预训练 VLM。
少样本监督迁移 (Few-shot supervised transfer): 更注重标注效率，仅使用少量标注的下游样本。
无监督迁移 (Unsupervised transfer): 使用未标注的下游数据来微调 VLM。这更具挑战性，但也更有前景和效率。

4.2.3. 常见迁移学习方法

如 Table 4 所示，我们将现有 VLM 迁移方法大致分为三类：提示调优方法、特征适配器方法和其他方法。

4.2.3.1. 通过提示调优 (Transfer via Prompt Tuning)

受自然语言处理 (NLP) 中“提示学习 (prompt learning)” [165] 的启发，许多 VLM 提示学习方法被提出，通过寻找最优提示来使 VLM 适应下游任务，而无需微调整个 VLM。现有的大多数研究遵循三种方法：文本提示调优 (text prompt tuning)、视觉提示调优 (visual prompt tuning) 和文本-视觉提示调优 (text-visual prompt tuning)。

下图（原文 Figure 12）展示了文本提示学习 (a) 和视觉提示学习 (b) 的示意图：

$Fig. 12: Illustration of text prompt learning \[31\] in (a) and visual prompt learning \[147\] in (b).$ 该图像是示意图，展示了文本提示学习(a)和视觉提示学习(b)的过程。在(a)部分，利用文本编码器和图像编码器进行分类损失计算，而(b)部分引入了可学习的视觉提示，增强图像信息，通过文本提示进行分类损失的计算。

Fig. 12: Illustration of text prompt learning [31] in (a) and visual prompt learning [147] in (b).

通过文本提示调优 (Transfer with Text Prompt Tuning): 与手动为每个任务设计文本提示的“提示工程” [165] 不同，文本提示调优通过少量标注的下游样本为每个类别探索更有效和高效的可学习文本提示。例如，CoOp [31] 探索上下文优化 (context optimization) 来为单个类别名称学习上下文词语，使用可学习的词向量。它将类别词 [label] 扩展为句子 '[V]_1, [V]_2, ..., [V]_m [label]'，其中 [V] 表示通过最小化下游样本的分类损失来优化的可学习词向量，如图12(a)所示。为了缓解由于提示学习中有限下游样本导致的过拟合，CoCoOp [32] 探索条件上下文优化 (conditional context optimization)，为每张图像生成特定提示。SubPT [132] 设计了子空间提示调优 (subsapce prompt tuning) 以提高学习提示的泛化能力。LASP [133] 用手动设计的提示正则化可学习提示。VPT [135] 用实例特定分布 (instance-specific distribution) 建模文本提示，在下游任务上具有更好的泛化能力。KgCoOp [145] 通过缓解文本知识遗忘来增强对未见类别的泛化能力。

此外，SoftCPT [141] 同时在多个少样本任务上微调 VLM，以受益于多任务学习。PLOT [138] 采用最优传输 (optimal transport) 来学习多个提示，以描述类别的多样化特征。DualCoOp [139] 和 TaI-DP [140] 将 VLM 迁移到多标签分类任务，其中 DualCoOp 采用正负提示进行多标签分类，而 TaI-DP 引入双粒度提示调优 (double-grained prompt tuning) 来捕获粗粒度和细粒度嵌入。DenseCLIP [142] 探索语言引导的微调 (language-guided fine-tuning)，利用视觉特征来调优文本提示以进行密集预测 [55], [56]。ProTeCt [146] 提高了模型预测在层次分类任务中的一致性。

除了监督和少样本监督提示学习，近期研究还探索无监督提示调优 (unsupervised prompt tuning) 以提高标注效率和可扩展性。例如，UPL [143] 通过在选定的伪标签样本上进行自训练 (self-training) 来优化可学习提示。TPT [144] 探索测试时提示调优 (test-time prompt tuning) 以从单个下游样本中学习自适应提示。
通过视觉提示调优 (Transfer with Visual Prompt Tuning): 与文本提示调优不同，视觉提示调优 [148], [166] 通过调制图像编码器的输入来迁移 VLM，如图12(b)所示。例如，VP [147] 采用可学习的图像扰动 $v$ 来修改输入图像 $x^I$ 为 $x^I + \tilde{v}$ ，旨在调整 $v$ 以最小化识别损失。RePrompt [148] 将检索机制集成到视觉提示调优中，从而利用下游任务的知识。视觉提示调优实现了对下游任务的像素级适应，尤其对密集预测任务大有裨益。
通过文本-视觉提示调优 (Transfer with Text-Visual Prompt Tuning): 旨在同时调制文本和图像输入，受益于多模态上的联合提示优化。例如，UPT [149] 统一提示调优以联合优化文本和图像提示，展示了两种提示调优任务的互补性。MVLPT [150] 探索多任务视觉-语言提示调优，将跨任务知识融入文本和图像提示调优中。MAPLE [151] 通过对齐视觉提示及其对应的语言提示进行多模态提示调优，实现了文本提示和图像提示之间的相互促进。CAVPT [152] 在类别感知视觉提示和文本提示之间引入交叉注意力 (cross attention)，鼓励视觉提示更多地关注视觉概念。

4.2.3.2. 通过特征适配器 (Transfer via Feature Adaptation)

特征适配器 (feature adaptation) 通过额外的轻量级特征适配器 [167] 微调 VLM 以适应图像或文本特征。例如，Clip-Adapter [33] 在 CLIP 的语言和图像编码器之后插入多个可训练的线性层，并在保持 CLIP 架构和参数冻结的情况下优化它们，如图13所示。Tip-Adapter [34] 提出了一个无需训练的适配器，直接使用少量标注图像的嵌入作为适配器权重。SVL-Adapter [153] 设计了一个自监督适配器，它使用额外的编码器对输入图像进行自监督学习。总之，特征适配器通过调整图像和文本特征以使 VLM 适应下游数据，为 VLM 迁移提供了一个有前景的替代提示调优的方法。

下图（原文 Figure 13）展示了特征适配器的示意图：

$Fig. 13: Illustration of feature adapter \[33\].$ 该图像是示意图，展示了特征适配器的工作流程。图中描绘了通过文本提示和图像编码器获取视觉特征的过程，并通过特征适配器生成适应特征，最终用于分类损失的计算。

Fig. 13: Illustration of feature adapter [33].

4.2.3.3. 其他迁移方法 (Other Transfer Methods)

一些研究通过直接微调 [162]、架构修改 [163] 和交叉注意力 [157], [158] 来迁移 VLM。具体来说：

Wise-FT [162] 结合了微调 VLM 的权重和原始 VLM 的权重，以学习来自下游任务的新信息。
MaskCLIP [163] 通过修改 CLIP 图像编码器的架构来提取密集的图像特征。
VT-CLIP [157] 引入了视觉引导注意力 (visual-guided attention) 来语义关联文本特征与下游图像，从而实现更好的迁移性能。
CALIP [158] 引入了无参数注意力 (parameter-free attention) 以实现视觉和文本特征之间的有效交互和通信，从而产生文本感知的图像特征和视觉引导的文本特征。
TaskRes [159] 直接调整基于文本的分类器，以利用预训练 VLM 中的旧知识。
CuPL [160] 和 VCD [161] 利用大型语言模型 (Large Language Models, LLMs)（例如 GPT3 [172]）来增强文本提示，以学习丰富的判别性文本信息。

4.3. VLM 知识蒸馏 (VLM Knowledge Distillation)

由于 VLM 捕获了涵盖广泛视觉和文本概念的通用知识，一些研究探索了如何在处理目标检测和语义分割等复杂密集预测任务时，蒸馏出通用且鲁棒的 VLM 知识。

4.3.1. 蒸馏 VLM 知识的动机

与 VLM 迁移（通常在迁移过程中保持原始 VLM 架构不变 [31], [132], [136]）不同，VLM 知识蒸馏 (knowledge distillation) 将通用且鲁棒的 VLM 知识蒸馏到任务特定模型中，而不受 VLM 架构的限制。这使得在处理各种密集预测任务时，可以受益于任务特定的设计 [36], [173], [174]。例如，知识蒸馏允许将通用 VLM 知识迁移到检测任务中，同时利用 Faster R-CNN [55] 和 DETR [62] 等最先进的检测架构的优势。

4.3.2. 常见知识蒸馏方法

由于 VLM 通常使用为图像级表示设计的架构和目标进行预训练，大多数 VLM 知识蒸馏方法都专注于将图像级知识迁移到区域级或像素级任务，例如目标检测和语义分割。Table 5 列出了 VLM 知识蒸馏方法。

4.3.2.1. 用于目标检测的知识蒸馏 (Knowledge Distillation for Object Detection)

开放词汇目标检测 (Open-vocabulary object detection) [193] 旨在检测由任意文本描述的目标，即超出基础类别的任何类别的目标。由于 CLIP 等 VLM 使用涵盖非常广泛词汇的十亿级图像-文本对进行训练，许多研究探索蒸馏 VLM 知识以扩大检测器的词汇量。

例如，ViLD [36] 将 VLM 知识蒸馏到一个两阶段检测器中，该检测器的嵌入空间被强制与 CLIP 图像编码器保持一致。
遵循 ViLD，HierKD [186] 探索层次化全局-局部知识蒸馏，RKD [187] 探索基于区域的知识蒸馏，以更好地对齐区域级和图像级嵌入。
ZSD-YOLO [198] 引入自标注数据增强 (self-labelling data augmentation)，以利用 CLIP 实现更好的目标检测。
OADP [201] 在迁移上下文知识时保留了提议特征。
BARON [200] 使用邻域采样来蒸馏一个区域包 (bag of regions) 而不是单个区域。
RO-ViT [199] 从 VLM 中蒸馏区域信息以进行开放词汇检测。

另一类研究通过提示学习 [165] 探索 VLM 蒸馏。
例如，DetPro [37] 引入检测提示技术，为开放词汇目标检测学习连续提示表示。
PromptDet [188] 引入区域提示学习，以将词嵌入与区域图像嵌入对齐。

此外，一些研究 [180], [181], [189], [194], [197] 探索 VLM 预测的伪标签 (pseudo labels) 来改进目标检测器。
例如，PB-OVD [189] 使用 VLM 预测的伪边界框训练目标检测器。
XPM [194] 引入了一种鲁棒的跨模态伪标签策略，该策略使用 VLM 生成的伪掩码进行开放词汇实例分割。
$P^3OVD$ [197] 利用提示驱动的自训练 (prompt-driven self-training)，通过细粒度提示调优来完善 VLM 生成的伪标签。

4.3.2.2. 用于语义分割的知识蒸馏 (Knowledge Distillation for Semantic Segmentation)

用于开放词汇语义分割的知识蒸馏利用 VLM 来扩大分割模型的词汇量，旨在分割由任意文本描述的像素（即超出基础类别的任何类别的像素）。

例如，CLIPSeg [175] 引入了一个轻量级 Transformer 解码器来扩展 CLIP 以进行语义分割。
LSeg [176] 最大化 CLIP 文本嵌入和由分割模型编码的像素级图像嵌入之间的关联。
ZegCLIP [174] 使用 CLIP 生成语义掩码，并引入关系描述符以缓解在基础类别上的过拟合。
$MaskCLIP+$ [163] 和 SSIW [177] 使用 VLM 预测的像素级伪标签进行知识蒸馏。
FreeSeg [185] 首先生成掩码提议 (mask proposals)，然后对它们进行零样本分类。

用于弱监督语义分割 (weakly-supervised semantic segmentation) 的知识蒸馏旨在同时利用 VLM 和弱监督（例如图像级标签）进行语义分割。
例如，CLIP-ES [184] 使用 CLIP 通过设计 softmax 函数和基于类别感知注意力 (class-aware attention-based affinity) 模块来优化类别激活图 (class activation map)，以缓解类别混淆问题。
CLIMS [183] 利用 CLIP 知识生成高质量的类别激活图，以实现更好的弱监督语义分割。

5. 实验设置

本节总结了用于 VLM 预训练和评估的常用数据集，以及评估指标和对比基线。

5.1. 数据集

5.1.1. VLM 预训练数据集

如 Table 1 所示，VLM 预训练使用了多个大规模图像-文本数据集。与传统的众包标注数据集 [40], [90], [110] 相比，图像-文本数据集 [10], [21] 规模更大且收集成本更低。例如，最新的图像-文本数据集通常达到十亿级别 [20], [21], [83]。除了图像-文本数据集，一些研究 [19], [43], [45], [67] 还利用辅助数据集来提供额外信息，以实现更好的视觉-语言建模。

以下是原文 Table 1 的结果：

Dataset	Year	Num. of Image-Text Pairs	Language	Public
SBU Caption [73] [link] COCO Caption [74] [link]	2011	1M	English	✓
Yahoo Flickr Creative Commons 100 Million (YFCC100M) [75] [link]	2016 2016	1.5M	English	2
Visual Genome (VG) [76] [link]		100M	English
	2017	5.4 M	English
Conceptual Captions (CC3M) [77] [link]	2018	3.3M	English
Localized Narratives (LN) [78] [link]	2020	0.87M	English
Conceptual 12M (CC12M) [79] [link]	2021	12M	English
Wikipedia-based Image Text (WIT) [80] [link]	2021	37.6M	108 Languages
Red Caps (RC) [81] [link] LAION400M [21] [link]	2021	12M	English
LAION5B [20] [link]	2021 2022	400M 5B	English	✓ ✓
WuKong [82] [link]	2022	100M	Over 100 Languages Chinese	✓
CLIP [10]		400M
ALIGN [17]	2021 2021	1.8B	English English	X
FILIP [18]	2021	300M		X
WebLI [83]	2022	12B	English	X
			109 Languages	X

主要图像-文本数据集：

SBU Caption [73]: 包含从 Flickr 网站收集的 100 万张图像，配有视觉相关的描述。
COCO Caption [74]: 包含来自 MS COCO [106] 的超过 33 万张图像，每个图像有 5 个参考描述。
Yahoo Flickr Creative Commons 100 Million (YFCC100M) [75]: 一个多媒体数据集，包含 9920 万张图像和 80 万个带文本的视频。
Visual Genome (VG) [76]: 提供图像的多角度理解，如目标级信息、场景图和视觉问答对。包含 10.8 万张图像，每张图像有 50 个描述。
Conceptual Captions (CC3M) [77]: 一个图像描述数据集，包含约 330 万个来自网络的图像-文本对。
Localized Narratives (LN) [78]: 一个图像描述数据集，具有局部多模态标注，每个词都在图像中通过鼠标轨迹段落进行定位。包含 84.8 万张图像和 87.3 万个描述。
Conceptual 12M (CC12M) [79]: 专为 VLM 预训练而引入。通过放宽 CC3M [77] 中使用的数据收集流程，CC12M 收集了精度较低但规模大得多的数据，即 1200 万个图像-文本对。
Wikipedia-based Image Text (WIT) [80]: 一个大规模多模态多语言数据集，从 Wikipedia 收集，包含 3760 万个跨 108 种语言的图像-文本对。
Red Caps (RC) [81]: 一个从社交媒体 Reddit 收集的图像-文本数据集，包含 1200 万个涵盖各种目标和场景的图像-文本对。
LAION400M [21]: 包含 4 亿个由 CLIP [10] 过滤的图像-文本对，并提供数据嵌入和 kNN 索引。
LAION5B [20]: 包含超过 58 亿个图像-文本对，由三部分组成：23.2 亿个英文图像-文本对，22.6 亿个多语言图像-文本对，以及 12.7 亿个没有特定语言的对。
WuKong [82]: 一个大规模中文多模态数据集，包含 1 亿个从网络收集的中文图像-文本对。
CLIP [10]: 一个大规模网络图像-文本数据集，包含从各种公开来源收集的 4 亿个图像-文本对。
ALIGN [17]: 一个图像-文本数据集，包含 18 亿个嘈杂的图像-文本对，涵盖广泛的概念。
FILIP [18]: 一个大规模图像-文本数据集，包含 3 亿个从网络收集的图像-文本对。
WebLI [83]: 一个从网络收集的多语言图像-文本数据集，包含 100 亿张图像和 120 亿个对应的文本，涵盖 109 种语言。

辅助数据集：

JFT3B [204]: 包含近 30 亿张图像，标注有约 3 万个标签的嘈杂类别层次结构。
C4 [205]: 约 750 GB 的英文文本集合，来源于公共 Common Crawl 网络抓取。
Object365 [85]: 一个目标检测数据集，包含 365 个类别、63.8 万张图像和约 1000 万个边界框。
Gold-G [86]: 一个用于目标检测的目标-短语数据集，包含 80 万个人工标注的视觉定位数据。

5.1.2. VLM 评估数据集

如 Table 2 所示，VLM 评估中采用了许多数据集，包括 27 个图像分类数据集、4 个目标检测数据集、4 个语义分割数据集、2 个图像-文本检索数据集和 3 个行为识别数据集。

以下是原文 Table 2 的结果：

Task	Dataset	Year	Classes	Training	Testing	Evaluation Metric
Image Classification	MNIST [88] [link]Caltech-101 [89] [link]PASCAL VOC 2007 Classification [90] [link]Oxford 102 Folwers [91] [link]CIFAR-10 [23] [link]CIFAR-100 [23] [link]ImageNet-1k [40] [link]SUN397 [24] [link]SVHN [92] [link]STL-10 [93][link]GTSRB [ [link]KITTI Distance [1][link]IIIT5k [95][link]Oxford-IIIT PETS [26] [link]Stanford Cars [25] [link]FGVC Aircraft [96] [link]Facial Emotion Recognition 2013 [97] [link]Rendered SST2 [98] [link]Describable Textures (DTD) [99] [link]Food-101 [22] [link]Birdsnap [100] [link]RESISC45 [101] [link]CLEVR Counts [102] [link]PatchCamelyon [103] [link]EuroSAT [104] [link]Hateful Memes [27] [link]Country211 [10] [link]	199820042007	1010220	60,0003,060	10,0006,085	AccuracyMean Per lass11-point mAPMean Per ClassAccuracyAccuracyAccuracyAccuracyAccuracyAccuracyAccuracyAccuracyAccuracyMean Per ClassAccuracyMean Per lassAccuracyAccuracyAccuracyAccuracyAccuracyAccuracyAccuracyAccuracyAccuracyROC AUCAccuracy
				5,011	4,952
		2008	102	2,040	6,149
		2009	10	50,00	10,00
		200920092010	100	50,001,281,167	10,0000,00
			1000
			397	19,850	19,850
		2011	10	73,257	6,032
		2011201120122012	1043366	1,000	8,000
				26,6406,7702,000	12,630713,000


		2012	37	3,680	3,669
		2013201320132013	1961008	8,144	8,0413,3333,574
				6,6732,140
				7,792	1,821
		201420142014201720172018201920202021	\$47102	3,760	1,880
				75,75042,2833,1502,000294,91210,0008,50043,200	25,250,14925,20050032,7685,00050021,100
			500
			45
			82102211
Image-Text Retrieval	Flickr30k [105] [link]COCO Caption [74] [link]	20142015	--	31,78382,783	5,000	RecallRecall
Action Recognition	UCF101 [29] [link]Kinetics700 [30] [link]RareAct [28] [link]	201220192020	101700122	9,537494,8017,607	1,79431,669-	AccuracyMean(top1, top5)mWAP, mSAP
Object Detection	COCO 2014 Detection [106] [link]COCO 2017 Detection [106] [link]LVIS [107] [link]ODinW [108] [link]	2014201720192022	80801203314	83,000118,000118,000132413	41,0005,0005,0020070	box mAPbox mAPbox mAPbox mAP
Semantic Segmentation	PASCAL VOC 2012 Segmentation [90] [link]PASCAL Content [109] [link]Cityscapes [110] [link]ADE20k [111] [link]	2012201420162017	2045919150	14644998	14495105	mIoUmIoUmIoUmIoU
				297525574	500200

精选评估数据集示例：

ImageNet-1k [40]: 包含约 120 万个样本，均匀分布在 1000 个类别中。每个样本都被标注为一个类别标签，是图像分类领域最受欢迎的基准之一。
PASCAL VOC 2007 Classification [90]: 广泛用于检测、分割和分类等任务。包含 9963 个样本，涵盖 20 个类别。
MS COCO [106]: 用于目标检测。MS COCO 2014 包含 8.3 万张训练图像和 4.1 万张验证图像，有 80 个类别的边界框标注。
ADE20k [111]: 一个语义分割数据集，包含 150 个类别。
UCF101 [29]: 用于行为识别的基准数据集。包含约 1.3 万个视频剪辑，涵盖 101 种人类行为。

5.2. 评估指标

5.2.1. 图像分类 (Image Classification)

准确率 (Accuracy):
1. 概念定义: 准确率是最直观的分类性能衡量标准，表示模型正确预测的样本数量占总样本数量的比例。
2. 数学公式: $\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$
3. 符号解释:
  - Number of correct predictions: 模型正确分类的样本数量。
  - Total number of predictions: 数据集中所有样本的总数量。
每类平均准确率 (Mean Per Class Accuracy):
1. 概念定义: 当数据集中各类别样本数量不平衡时，总准确率可能无法真实反映模型性能。每类平均准确率通过先计算每个类别的准确率，然后对所有类别的准确率取平均来解决这个问题，确保每个类别对最终指标的贡献相等。
2. 数学公式: $\text{Mean Per Class Accuracy} = \frac{1}{N_c} \sum_{i=1}^{N_c} \text{Accuracy}_i$
3. 符号解释:
  - $N_c$ : 数据集中类别的总数量。
  - $\text{Accuracy}_i$ : 第 $i$ 个类别的分类准确率。

5.2.2. 目标检测 (Object Detection)

平均精度均值 (mean Average Precision, mAP):
1. 概念定义: mAP 是目标检测任务中最常用的评估指标之一，它综合考虑了模型在所有类别上的定位和分类性能。它首先计算每个类别的平均精度 (Average Precision, AP)，然后对所有类别的 AP 取平均。
2. 数学公式: $\text{AP} = \sum_{n} (R_n - R_{n-1}) P_n$ $\text{mAP} = \frac{1}{N_c} \sum_{i=1}^{N_c} \text{AP}_i$
3. 符号解释:
  - $\text{AP}$ : 单个类别的平均精度。
  - $R_n$ : 在第 $n$ 个召回率 (Recall) 阈值下的召回率。
  - $R_{n-1}$ : 在第 n-1 个召回率阈值下的召回率。
  - $P_n$ : 在第 $n$ 个召回率阈值下的精度 (Precision)。
  - $\text{mAP}$ : 所有类别的平均精度均值。
  - $N_c$ : 数据集中类别的总数量。
  - $\text{AP}_i$ : 第 $i$ 个类别的平均精度。

5.2.3. 语义分割 (Semantic Segmentation)

交并比均值 (mean Intersection over Union, mIoU):
1. 概念定义: mIoU 是语义分割任务中最标准的评估指标。它衡量预测分割掩码与真实标注掩码的重叠程度。对于每个类别，计算其预测区域和真实区域的交集与并集之比，然后对所有类别的 IoU 取平均。
2. 数学公式: $\text{IoU}_i = \frac{TP_i}{TP_i + FP_i + FN_i}$ $\text{mIoU} = \frac{1}{N_c} \sum_{i=1}^{N_c} \text{IoU}_i$
3. 符号解释:
  - $\text{IoU}_i$ : 第 $i$ 个类别的交并比。
  - $TP_i$ : 第 $i$ 个类别的真阳性 (True Positive) 像素数（正确预测为该类别的像素数）。
  - $FP_i$ : 第 $i$ 个类别的假阳性 (False Positive) 像素数（错误预测为该类别的像素数）。
  - $FN_i$ : 第 $i$ 个类别的假阴性 (False Negative) 像素数（属于该类别但被错误预测的像素数）。
  - $\text{mIoU}$ : 所有类别的交并比均值。
  - $N_c$ : 数据集中类别的总数量。

5.2.4. 图像-文本检索 (Image-Text Retrieval)

召回率@K (Recall@K):
1. 概念定义: Recall@K 是图像-文本检索中常用的指标，衡量在检索结果的前 $K$ 个项目中，正确匹配项出现的比例。例如，Recall@1 衡量正确匹配项是否出现在第一个检索结果中。
2. 数学公式: $\text{Recall@K} = \frac{\text{Number of queries with correct item in top K}}{\text{Total number of queries}}$
3. 符号解释:
  - Number of queries with correct item in top K: 在检索结果的前 $K$ 个项目中包含正确匹配项的查询数量。
  - Total number of queries: 总的查询数量。

5.2.5. 行为识别 (Action Recognition)

准确率 (Accuracy): 同图像分类中的定义。
Mean(top1, top5): 综合考虑了 top-1 准确率和 top-5 准确率，常用于视频行为识别。top-1 准确率指模型给出的最可能预测是正确的比例，而 top-5 准确率指模型给出的前五个最可能预测中包含正确答案的比例。

5.3. 对比基线

在 VLM 迁移学习和知识蒸馏的实验中，CLIP [10] 模型通常被用作一个重要的基线。研究人员会评估在 CLIP 基础上进行提示调优、特征适配或知识蒸馏所带来的性能提升，以及与原始 CLIP 零样本性能的对比。在 VLM 预训练的评估中，不同的 VLM 模型本身就是相互对比的基线，例如 ALIGN [17] 相比 CLIP 的性能提升。

6. 实验结果与分析

本节对第 4 节中回顾的 VLM 预训练、VLM 迁移学习和 VLM 知识蒸馏方法进行比较、分析和讨论。

6.1. 核心结果分析

6.1.1. VLM 预训练的性能

第 3.4 节讨论过，零样本预测作为一种广泛采用的评估设置，在没有任务特定微调的情况下评估 VLM 的泛化能力。本小节介绍零样本预测在图像分类、目标检测和语义分割等不同视觉识别任务上的性能。

以下是原文 Table 6 的结果：

Methods	Image encoder	Text encoder	Data Size	20	R 0	20	20	20	20	20	0			R 20 tatce
CLIP [10]	ViT-L/14	Transformer	400M	76.2	95.7	77.5	93.8	68.4	78.8	37.2	55.7	93.5	92.8	78.3
ALIGN [17]	EfficientNet	BERT	1.8B	76.4	-	-	-	-	-	-	-	-	-	-
OTTER [112]	FBNetV3-C	DeCLUTR-Sci	3M		-	-	-	-		-	-	-	-	-
DeCLIP [113]	RENET-Y	BERT	88M	73.7	-	-		-	-	-	-	-	-	-
ZeroVL [114]	ViT-B/16	BERT	100M	-		-		-	-	-	-
FIIP [18]	ViT-L/14	Transformer	340M	77.1	95.7	75.3	92.2	73.1	70.8	60.2	60.7	92.0	93.0	90.1
UniCL [65]	Swin-tiny	Transformer	16.3M	71.3	-	-	-	-	-	-	-	-		-
Florence [115]	CoSwin	RoBERT	900M	83.7	94.6	77.6	95.1	77.0	93.2	55.5	66.4	95.9	94.7	86.2
SLIP [64]	ViT-L	Transformer	15M	47.9	87.5	54.2	69.2	56.0	9.0	9.5	29.9	41.6	80.9	60.2
PyramidCLIP [116] [117]	ResNet50	T5	143M 200M	47.8	81.5	53.7	67.8	665.8	65.0	12.6	47.2	83.7	81.7	665.8
Chinese CLIP	ViT-L/14	CNRoberta	4B	-	96.0	79.7	-	-	-	26.2	51.2	-	-	-
LiT [118]	ViT-/14	Transformer	2M	85.2 74.5			-	-	-	-	-	-	-	-
AltCLIP [119]	it-L/14		70M		-	-	-	-	-	-	-	'	-	-
FLAVA [42]	ViT-B/16	ViT-B/16 Transformer	1.1B	62.6	91.5	68.6	79.5	-	- 75.4	-	-		-
KELIP[ [120]	ViT-B/32 ViT-G/14		4.8B	86.3				- -	-	- -	51.2	-	-	- -
OCA [19]	ViTB/16	Transformer	35M	48.8	83.4	54.5	65.8	59.9	18.0	5.8	57.1	33.2	73.9	50.0
nCLIP [121]	CoSwin	RoBERT5	813M	85.8				-	-
K-lite [122]	ViT-B/16	BART	26M	47.4	81.9	47.5	59.2	58.7	7.8	7.5	32.9	39.2	79.5	54.0
NLIP [123]		Transformer	30M	54.2	87.8	56.5	64.6	61.1	19.5	4.7	36.6		84.0	8.0
UniCLIP [84]	ViT-B/32		12B	85.4	-	-	-		-			69.2
PaLI [83]	ViT-e	mT5	12B	70.5	-	-	-	-	-	-	-	-	-	- -
CLIPPOPO [43]	ViT-L/16	ViT-L/16	4M	27.3		31.4				-	-		-
OneR [44]	ViT-L/16	ViT-L/16						-		-			76.9
RA-CLIP [125]	Vi-B/32	BERT	15M	53.5	89.4	62.3	43.8	46.5	-	-	25.6			70.3
LA-CLIP [126]	ViT-B/32	Transformer	400M	64.4	92.4	73.0	79.7	64.9	81.9	20.8	55.4	87.2	91.8
ALIP [127]	ViT-B/32	Transformer	15M	40.3	83.8	51.9	45.4	47.8	3.4	2.7	23.2	30.7	74.1	54.8
GrowCLIP [128]	ViT-B/16	Transformer	12M	36.1	60.7	28.3	42.5	45.5	-	-	17.3		71.9	23.3

Table 6 展示了 11 项广泛采用的图像分类任务上的 VLM 预训练方法的性能。从中可以得出三个主要结论，并结合 Figure 14 进行分析：

$Fig. 14: Performance versus data size and model size. It shows that scaling up either the pre-training data \[113\] or the pre-training model \[10\] benefits VLM consistently.$ 该图像是图表，展示了不同预训练数据大小和模型对ImageNet的Top-1准确率的影响。左侧显示ResNet-50在增长的预训练数据下的表现，右侧展示了在固定400M预训练数据下，多个模型结构的准确率变化。

Fig. 14: Performance versus data size and model size. It shows that scaling up either the pre-training data [113] or the pre-training model [10] benefits VLM consistently.

VLM 性能通常与训练数据规模呈正相关: 如 Figure 14 的左图所示，扩大预训练数据规模会带来持续的性能提升。例如，ALIGN [17] 使用 1.8B 数据，WebLI [83] 使用 12B 数据，通常能获得更好的性能。
VLM 性能通常与模型规模呈正相关: 如 Figure 14 的右图所示，在相同的预训练数据下，扩大模型规模会持续提升 VLM 性能。例如，Florence [115] 的 CoSwin 架构在 900M 数据上表现出色。
VLM 在大规模图像-文本训练数据下能实现卓越的零样本性能: 如 Table 6 所示，COCA [19] 在 ImageNet 上取得了最先进的性能，而 FILIP [18] 在所有 11 项任务上表现稳定。

VLM 卓越的泛化能力主要归因于三个因素：

大数据 (Big data): 图像-文本对在互联网上几乎无限可用，VLM 通常使用数百万或数十亿的图像和文本样本进行训练，这些样本涵盖了非常广泛的视觉和语言概念，从而带来了强大的泛化能力。
大模型 (Big model): 与传统视觉识别模型相比，VLM 通常采用更大的模型（例如 COCA [19] 中的 ViT-G 具有 2B 参数），为从大数据中进行有效学习提供了巨大的容量。
与任务无关的学习 (Task-agnostic learning): VLM 预训练中的监督通常是通用且与任务无关的。与传统视觉识别中的任务特定标签相比，图像-文本对中的文本提供了与任务无关、多样化且信息丰富的语言监督，有助于训练在各种下游任务上表现良好的通用模型。

以下是原文 Table 7 的结果：

Method Image encoder Text encoder Data size VOC 90] PASCAL C. [109] COCO 106]
GroupVit [129] ViT Transformer 26M 52.3 22.4 -
SegClip [46] ViT Transformer 3.4M 52.6 24.7 26.5

Table 7 总结了语义分割任务的零样本预测性能。

以下是原文 Table 8 的结果：

Method	Image encoder	Text encoder	Data size	COCO 10]	LVIS [107]	LVIS Mini. [107]
RegionClip [131]	ResNet50x4	Transformer	118k	29.6	11.3	-
GLIP [67]	Swin-L	BERT	27.43M	49.8	26.9	34.3
FIBER [71]	Swin-B	RoBERTa	4M	49.3	-	32.2
DetCLIP [45]	Swin-L	BERT	2.43M	-	35.9	-

Table 8 总结了目标检测任务的零样本预测性能。注意到一些研究 [45], [46], [67], [71], [129], [131] 针对目标检测和语义分割任务进行了 VLM 预训练，并使用了局部 VLM 预训练目标，如区域-词匹配 [67]。从 Table 7 和 Table 8 中可以看出，VLM 使得在这两种密集预测任务上实现有效的零样本预测成为可能。值得注意的是，这些结果可能与前面段落中的结论不完全一致，很大程度上是因为这个研究领域仍处于探索阶段，针对密集视觉任务的 VLM 数量非常有限。

VLM 的局限性: 尽管 VLM 在数据/模型规模扩大时表现出明显优势，但它们仍然存在一些局限性：

性能饱和: 当数据/模型规模持续增加时，性能会趋于饱和，进一步的规模扩大不再能显著提升性能 [113], [202]。
计算资源消耗巨大: VLM 预训练使用大规模数据需要大量的计算资源，例如 CLIP ViT-L [10] 需要 256 块 V100 GPU 和 288 小时的训练时间。
训练和推理开销过大: 采用大型模型会带来过多的训练和推理计算及内存开销。

6.1.2. VLM 迁移学习的性能

本节总结了 VLM 迁移在监督迁移、少样本监督迁移和无监督迁移设置下的性能。Table 9 展示了在 11 个广泛采用的图像分类数据集（例如 EuroSAT [104], UCF101 [29]）上，使用不同主干网络（如 CNN 主干网络 ResNet-50 和 Transformer 主干网络 ViT-B, ViT-L）的结果。请注意，Table 9 总结了所有少样本监督方法在 16 样本设置下的性能。

以下是原文 Table 9 的结果：

		Setup	VAeae	[0t] I-eeS[		[68] c	B0	E cs	L6] H	20	20	20	0	20	0
Methods Baseline [143] Baseline 10]	Image encoder ResNet-50 ViT-B/16	w/o Transfer w/o Transfer	59.2 71.7		60.3 70.2	86.1 95.4 92.8	85.8 94.1 93.5	55.6 68.6	66.1 74.8	77.3 90.6	16.9 31.1	60.2 72.2	41.6 56.4	38.2 60.6	62.7 73.5
Baseline [10] CoOp [31] CoCoOp [32]	ViT-L/14 ViT-B/16 ViT-B/16	w/o Transfer Few-shot Sup. Few-shot Sup.	73.7 71.6 75.8	76.2 71.9 73.1		93.7 95.8	94.5 96.4	78.8 68.1 72.0	78.3 74.1 81.7	93.8 85.2 91.0	37.2 28.7 27.7	68.4 72.5 78.3	5.7 54.2 64.8	59.6 68.7 71.2	76.9 67.5 77.6
SubPT [132] LASP [133]	ResNet50 ViT-B/16	Few-shoot Sup. Few-shot Sup.	66.4 76.1	63.4 73.0		91.7 95.8	91.8 95.7	60.7 72.2	73.8 81.6	81.0 905	20.3 31.6	70.2 77.8	54.7 62.8	54.5 74.6	681 76.8
roA [134]	ResNet50	Few-shot Sup.	-	65.3		91.3 96.4	90.0	75.5	95.5	82.4	36.6	-	70.1	84.3
VPT [135]		Few-shot Sup.	77.4	73.4			96.8	73.1	81.1	91.6	34.7	78.5	67.3	77.7
ro ad [13]	ViT-B/16		67.9	62.1		91.5	93.4	62.7							79.0
	ResNet-50	Few-shot Sup.				96.3			78.7	1.0	21.9	70.3	57.8	59.0	668.5
CPL [137]	ViT-B/16	Few-shot Sup.	-	76.0			97.7	77.2	81.7	93.2	-	80.6	-
PLOT r [138]	ResNet-50	Few-shot Sup.	73.9	63.0		92.2	87.2	72.8	94.8	77.1	34.5	70.0	65.6	82.2	77.3
CuPL 160]		Few-shot Sup.	-	76.6		93.4	93.8	77.6	-			61.7
	ViT-L/14	Unsupervised	68.4	61.1		91.4	89.5	71.0	76.6	93.3	36.1		-	-	-
UPL [143] TPT [144]	ResNet-50 ViT-B/16	Unsupervised	64.8	69.0		94.2	87.8	66.9	69.0	77.9 84.7	21.7 24.8	66.4	55.1 47.8	71.0	70.2
VP[147]	ViT-B/32	Fewot Sup.	-	-		-	85.0	-	70.3	78.9	-	65.5 60.6	57.1	42.4 96.4	60.8
UPT [149]	ViT-B/16	Few-shot Sup.	76.2	73.2		96.1	96.3	71.8	81.0	91.3	34.5	78.7	65.6	72.0	66.1 77.2
MaPLE [151]	Vit-B/16	Few-shot Sup.	78.6	73.5		96.0	96.6	73.5	82.6	91.4	36.5	79.7	68.2	82.4	80.8
CAVPT [152]	ViT-B/6	Few-shot Sup.	83.2	72.5		96.1	93.5	88.2	97.6	85.0	57.9	74.3	72.6	92.1	85.3
Tip-Adapter [34]	ViT-B/16	Few-shot Sup.	-	70.8		-	-	-	-	-	-	-	-		-
SuS- [154]	ResNet-50	Unsupervised	-	661.8		-	-	-	-	-	-	-	-	45.6	50.6
SgVA-CLIP [ [156]	ViT-B/16	Few-shot Sup.	-	73.3		-	-	-	-	-		76.4	-	-
VT-Clip [157]	ResNet-50	Few-shot Sup.	-	-			93.1	-	-		-	-	65.7	-	-
CALI CAL 158]	ResNet-50	Unsupervised	59.4	60.6		87.7	58.6	77.4	66.4	56.3	17.7	86.2	42.4	38.9	61.7
ise[162]	ViT-L/14	Supervised	-	87.1		-	-	-	-	'	-	-
	ViIT-B/16	Few-shot Sup.	74.4	70.1		94.6	93.2	71.9	90.6	86.5	32.4	71.7	58.3	71.0	78.4 -
KgCoOp [145]		Few-shoot Sup.	69.9	-		-	-	-
oTeC 14]	Vit-B/16		83.2	74.6		96.5	93.7		-	-	-	74.5	-
RePrompt [148]	ViT-B/16	Fewsot Sup.	75.7			93.4	87.8	85.0	97.1	87.4	50.3	77.5	73.7 67.1	92.9 84.0	86.4 77.9
TaskRes [159 VCD [161]	ResNet-50 ViT-B/16	Few-sot Sup. Unsupervised	-	65 68.0		-	86.9	76.8 -	96.0 -	77.6 88.5	36.3	70.6 -

从 Table 9 可以得出三个结论：

VLM 迁移学习持续提升下游任务性能: VLM 迁移设置始终有助于下游任务。例如，在 ImageNet 上，监督式 Wise-FT [162]、少样本监督式 CoOp [31] 和无监督式 TPT [144] 分别将准确率提高了 $10.9\%$ 、 $1.7\%$ 和 $0.8\%$ 。由于预训练 VLM 通常与任务特定数据存在领域鸿沟，VLM 迁移通过从任务特定数据（无论是标注的还是未标注的）中学习来弥合这些鸿沟。
少样本监督迁移性能落后于监督迁移: 少样本监督迁移的性能（例如 CuPL [160] 的 $76.6\%$ ) 远远落后于监督迁移（例如 Wise-FT [162] 的 $87.1\%$ )。这主要是因为 VLM 可能会在少样本标注数据上过拟合，导致泛化能力下降。
无监督迁移与少样本监督迁移性能相当: 无监督迁移可以与少样本监督迁移取得可比的性能（例如，无监督的 UPL [143] 比 2 样本监督的 CoOp [31] 高 $0.4\%$ ，无监督的 TPT [144] 与 16 样本的 CoOp [31] 相当）。这主要是因为无监督迁移可以访问大量的未标注下游数据，大大降低了过拟合的风险。然而，无监督迁移也面临着一些挑战，如伪标签中的噪声。预计未来将有更多关于这一有前景但充满挑战的研究方向。

6.1.3. VLM 知识蒸馏的性能

本节介绍 VLM 知识蒸馏如何帮助目标检测和语义分割任务。Table 10 和 Table 11 分别展示了知识蒸馏在广泛使用的检测数据集（例如 COCO [106] 和 LVIS [107]）和分割数据集（例如 PASCAL VOC [90] 和 ADE20k [111]）上的性能。

以下是原文 Table 10 的结果：

Method	Vision-Language Model	COCO [106]			LVIS [107]
Method	Vision-Language Model	APbase	APnovel	AP	APr	APc	AP f	AP
Baseline [36]		28.3	26.3	27.8	19.5	19.7	17.0	18.6
ViLD [3]	CLIP ViT-B/32	59.5	27.6	51.3	16.7	26.5	34.2	27.8
DetPro [37]	CLIP ViT-B/32	-	-	34.9	20.8	27.8	32.4	28.4
HierKD [186]	CLIP ViT-B/32	53.5	27.3	-	-		-
RKD [187]	CLIP ViT-B/32	56.6	36.9	51.0	21.1	25.0	29.1	25.9
PromptDet [188]	CLIP Transformer		26.6	50.6	21.4	23.3	29.3	25.3
PB-OVD [189]	CLIP Transformer	46.1	30.8	42.1	-	-	-	-
CondHead [190]	CLIP ViT-B/32	60.8	29.8	49.0	18.8	28.3	33.7	28.8
VLDet [191]	CLIP Transformer	50.6	32.0	45.8	26.3	39.4	41.9	38.1
F-VLM [192]	CLIP ResNet-50	-	28.0	39.6	32.8	-	-	34.9
OV-DETR [173]	CLIP ViT-B/32	52.7	29.4	61.0	17.4	25.0	32.5	26.6
Detic [193]	CLIP Transformer	45.0	27.8	47.1	17.8	26.3	31.6	26.8
OWL-ViT [195]	CLIP ViT-B/32	-	-	28.1	18.9	-	-	22.1
VL-PLM [196]	CLIP ViT-B/32	60.2	34.4	53.5	-	-	-	22.2
P3OVD [197]	CLIP ResNet-50	51.9	31.5	46.6	-		-	10.6
RO-ViT [199]	CLIP ViT-L/16		33.0	47.7	32.1		-	34.0
BARON [200]	CLIP ResNet-50	54.9	42.7	51.7	23.2	29.3	32.5	29.5
OADP [201]	CLIP ViT-B/32	53.3	30.0	47.2	21.9	28.4	32.0	28.7

以下是原文 Table 11 的结果：

Method	Vision-Language Model	A-847 [111]	PC-459 [109]	A-150 [111]	PC-59 [109]	PAS-20 [90]	C-19 [110]
Baseline [203]		-	-	-	24.3	18.3	-
LSeg [35]	CLIP ResNet-101	-	-	-	-	47.4	-
ZegFormer [176]	CLIP ResNet-50	-	-	16.4	-	80.7	-
OVSeg [179]	CLIP Swin-B	9.0	12.4	29.6	55.7	94.5	-
ZSSeg 180]	CLIP ResNet-101	7.0	-	20.5	47.7	-	34.5
OpenSeg [181]	CLIP Eff-B7	6.3	9.0	21.1	42.1	-
ReCo [182]	CLIP ResNet-101	-	-	-	-	-	24.2
FreeSeg [185]	CLIP ViT-B/16	-	-	39.8	-	86.9	-

从 Table 10 和 Table 11 可以看出，VLM 知识蒸馏在检测和分割任务上持续带来明显的性能提升。这主要是因为它引入了通用且鲁棒的 VLM 知识，同时受益于检测和分割模型中任务特定的设计。

6.2. 消融实验/参数分析

本综述并未展示特定研究的详细消融实验，但从各方法的技术细节和性能对比中，可以总结出以下关于模型组件和参数的普遍观察：

混合预训练目标 (Hybrid Pre-training Objectives): 许多 VLM 结合了多种预训练目标（例如对比、生成和对齐），以探索它们的协同效应。例如，FLAVA [42] 采用多种目标，旨在学习更丰富的视觉、语言和视觉-语言上下文。这表明单一目标可能无法完全捕获模态间的复杂关系，多目标协同训练有助于模型学习更全面的表示。
架构选择 (Architecture Choices): 图像和文本编码器的主干网络选择（如 ResNet、ViT、Transformer、BERT）对 VLM 性能有显著影响。通常，更大的模型容量（如 ViT-L 或 ViT-G）和更先进的架构（如 Swin Transformer）能带来更好的性能，但同时也增加了计算成本。
细粒度关联建模 (Fine-grained Correlation Modelling): 对于密集预测任务（如目标检测和语义分割），引入区域-词匹配等细粒度视觉-语言关联建模目标至关重要。例如，GLIP [67] 和 DetCLIP [45] 通过这种方式显著提升了在这些任务上的零样本性能，表明仅靠全局图像-文本匹配不足以处理局部化的视觉理解。
提示设计 (Prompt Design): 在 VLM 迁移学习中，提示的质量和设计对性能影响很大。可学习的提示（如 CoOp [31]）通常优于手动设计的提示。条件提示（如 CoCoOp [32]）能更好地适应特定图像的上下文，进一步提升性能。
适配器设计 (Adapter Design): 特征适配器作为轻量级模块，能够有效地调整 VLM 的特征以适应下游任务，而无需修改或微调整个大型模型。适配器的设计（如 Clip-Adapter [33] 中简单的线性层，或 Tip-Adapter [34] 中无需训练的适配器）对于参数效率和性能权衡至关重要。
数据增强与去噪 (Data Augmentation and Debiasing): 对于数据效率型 VLM 预训练，数据增强（如 ZeroVL [114]）和对噪声数据的鲁棒性处理（如 ALIGN [17]）是关键。这表明预训练数据的质量和多样性，以及模型处理其噪声的能力，直接影响 VLM 的最终性能。
温度超参数 (Temperature Hyper-parameter, $\tau$ ): 对比学习目标中的温度超参数 $\tau$ 控制着嵌入空间中正负样本的相对距离。其选择对学习判别性表示至关重要。过高或过低的值都可能导致模型学习效率低下或性能下降。

这些观察表明，VLM 的性能不仅取决于其规模和数据量，还高度依赖于精心设计的预训练目标、网络架构选择、以及针对特定任务的迁移和蒸馏策略。

6.3. 总结

从 Table 6-11 可以得出几个结论。在性能方面，VLM 预训练由于其精心设计的预训练目标，在广泛的图像分类任务上实现了卓越的零样本预测。然而，面向密集视觉识别任务（区域或像素级检测和分割）的 VLM 预训练发展仍相对滞后。此外，VLM 迁移学习在多个图像分类数据集和视觉主干网络上取得了显著进展。然而，监督或少样本监督迁移仍然需要标注图像，而更有前景但更具挑战性的无监督 VLM 迁移却在很大程度上被忽视。

在基准测试方面，大多数 VLM 迁移研究采用相同的预训练 VLM 作为基线模型，并在相同的下游任务上进行评估，这极大地促进了基准测试。它们还发布了代码，并且不需要大量的计算资源，极大地简化了复现和基准测试。与此不同，VLM 预训练研究使用了不同的数据（例如 CLIP [10]、LAION400M [21] 和 CC12M [79]）和网络（例如 ResNet [6]、ViT [57]、Transformer [58] 和 BERT [14]），这使得公平的基准测试成为一项非常具有挑战性的任务。一些 VLM 预训练研究还使用非公开训练数据 [10], [18], [83] 或需要大量的计算资源（例如 CLIP [10] 中需要 256 块 V100 GPU）。对于 VLM 知识蒸馏，许多研究采用不同的任务特定主干网络（例如 ViLD 采用 Faster R-CNN，OV-DETR 使用 DETR），这极大地复杂化了基准测试。因此，VLM 预训练和 VLM 知识蒸馏在训练数据、网络和下游任务方面缺乏一定的规范。

7. 总结与思考

7.1. 结论总结

视觉语言模型 (VLM) 在视觉识别领域取得了巨大的成功，它能够有效地利用网络数据，并实现无需任务特定微调的零样本预测。这使得 VLM 的实现变得简单，但却在广泛的识别任务上取得了令人难以置信的性能。本综述从背景、基础、数据集、技术方法、基准测试和未来研究方向等多个角度对面向视觉识别的视觉语言模型进行了广泛回顾。VLM 数据集、方法和性能的比较性总结以表格形式呈现，为 VLM 预训练领域的最新发展提供了清晰的全局视角，这将极大地促进这一新兴且非常有前景的研究方向的未来研究。

7.2. 局限性与未来工作

作者指出了 VLM 领域面临的几个研究挑战，并提出了未来可能的研究方向：

对于 VLM 预训练，存在以下四个挑战和潜在研究方向：

细粒度视觉-语言关联建模 (Fine-grained vision-language correlation modelling): 具备局部视觉-语言对应知识的 VLM [45], [67] 能够更好地识别图像块和像素，而不仅仅是图像，这极大地有助于目标检测和语义分割等密集预测任务。鉴于目前在这方面 VLM 研究非常有限 [45], [46], [67], [71], [129], [131]，预计未来会有更多关于面向零样本密集预测任务的细粒度 VLM 预训练研究。
视觉和语言学习的统一 (Unification of vision and language learning): Transformer [57], [58] 的出现使得通过以相同方式词元化 (tokenize) 图像和文本，有可能在单个 Transformer 中统一图像和语言学习。与现有 VLM [10], [17] 中使用两个独立网络不同，统一视觉和语言学习能够实现数据模态之间的高效通信，从而有利于训练效率和训练效果。这个问题已经引起了一些关注 [43], [44]，但需要更多的努力来构建更可持续的 VLM。
多语言 VLM 预训练 (Pre-training VLMs with multiple languages): 大多数现有 VLM 使用单一语言（即英语）进行训练 [10], [17]，这可能在文化和地域方面引入偏见 [77], [79]，并阻碍 VLM 在其他语言区域的应用。使用多语言文本 [119], [120] 进行 VLM 预训练，可以学习相同词语但不同语言下的不同文化视觉特征 [20]，使 VLM 能够在不同语言场景下高效工作。预计未来将有更多关于多语言 VLM 的研究。
数据高效型 VLM (Data-efficient VLMs): 现有工作大多使用大规模训练数据和密集计算来训练 VLM，这使得其可持续性成为一个重大问题。用有限的图像-文本数据训练有效的 VLM 可以大大缓解这一问题。例如，除了仅仅从每个图像-文本对中学习，还可以通过图像-文本对之间的监督学习到更多有用的信息 [112], [113]。
与大型语言模型 (LLMs) 协同预训练 VLM (Pre-training VLMs with LLMs): 近期研究 [126], [127] 从 LLM 中检索丰富的语言知识来增强 VLM 预训练。具体来说，它们利用 LLM 来增强原始图像-文本对中的文本，这提供了更丰富的语言知识，并有助于更好地学习视觉-语言关联。预计未来研究中将更多地探索 LLM 在 VLM 预训练中的应用。

对于 VLM 迁移学习，存在以下三个挑战和潜在研究方向：

无监督 VLM 迁移 (Unsupervised VLM transfer): 大多数现有 VLM 迁移研究采用监督或少样本监督设置，这需要标注数据，而后者容易在少样本上过拟合。无监督 VLM 迁移允许探索大量的未标注数据，过拟合风险大大降低。预计在随后的 VLM 研究中将有更多关于无监督 VLM 迁移的研究。
带视觉提示/适配器的 VLM 迁移 (VLM transfer with visual prompt/adapter): 大多数现有 VLM 迁移研究侧重于文本提示学习 [31]。视觉提示学习或视觉适配器，作为文本提示的补充，能够实现各种密集预测任务中的像素级适应，但在很大程度上被忽视。预计未来将有更多视觉领域 VLM 迁移的研究。
测试时 VLM 迁移 (Test-time VLM transfer): 大多数现有研究通过在每个下游任务上微调 VLM（即提示学习）来进行迁移，这在面对许多下游任务时会导致重复的工作。测试时 VLM 迁移允许在推理过程中动态调整提示，从而避免了现有 VLM 迁移中的重复训练。预计未来将有更多关于测试时 VLM 迁移的研究。
与大型语言模型 (LLMs) 协同 VLM 迁移 (VLM transfer with LLMs): 与提示工程和提示学习不同，一些尝试 [160], [161] 利用 LLM [172] 生成能更好描述下游任务的文本提示。这种方法是自动化的，且需要很少的标注数据。预计未来研究中将更多地探索 LLM 在 VLM 迁移中的应用。

VLM 知识蒸馏可以从两个方面进一步探索：

从多个 VLM 进行知识蒸馏 (knowledge distillation from multiple VLMs): 这可以通过协调来自多个 VLM 的知识蒸馏，利用它们的协同效应。
面向其他视觉识别任务的知识蒸馏 (knowledge distillation for other visual recognition tasks): 例如实例分割 (instance segmentation)、全景分割 (panoptic segmentation)、行人再识别 (person re-identification) 等。

7.3. 个人启发与批判

这篇综述为我们提供了视觉语言模型在视觉识别任务领域的全面图景，特别强调了其在利用海量网络数据、实现零样本泛化方面的巨大潜力。

个人启发：

多模态融合的强大生命力: VLM 的成功再次证明了多模态学习的强大力量。视觉和语言这两种人类最核心的感知和表达模态，其协同作用能够赋予模型超越单一模态的理解能力。这提示我们在其他多模态任务中（如音视频分析、机器人交互），也应积极探索更深层次的模态融合。
数据范式的转变: 从昂贵的专家标注数据到几乎无限的弱监督网络数据，VLM 推动了数据范式的根本性转变。这种“大数据+弱监督”的模式是解决 AI 模型饥渴于高质量标注数据的关键路径，未来可能会在更多领域看到类似的应用。
零样本能力的实际意义: 零样本预测对于实际应用具有颠覆性意义。它意味着模型可以快速适应新类别、新场景，而无需耗时的重新训练和数据收集。这对于快速迭代、长尾分布和资源受限的应用场景（如医学影像、小语种内容识别）尤其重要。
提示工程与适配器方法的通用性: 提示调优和特征适配器作为轻量级的迁移学习方法，在冻结大部分预训练模型参数的前提下实现高效适应，为大型基础模型 (foundation models) 的部署和定制化提供了通用范式。这种思路在未来大型模型生态中将扮演越来越重要的角色。

批判与潜在改进之处：

计算资源的可持续性挑战: 尽管 VLM 的性能令人印象深刻，但其预训练所需的巨大计算资源仍然是一个严峻的可持续性挑战。虽然综述提到了“数据高效型 VLM”作为未来方向，但如何真正有效地降低训练成本，并使更多研究者能够参与到 VLM 的开发中，是需要更深入探讨的问题。
细粒度语义鸿沟的解决程度: 综述指出，VLM 在密集预测任务上的发展相对滞后，这与细粒度视觉-语言关联建模不足有关。目前的区域-词匹配等方法仍可能在复杂场景下遇到挑战，例如遮挡、上下文歧义、长尾实体等。如何更鲁棒、更精细地建模局部视觉语义与语言描述的对应关系，是 VLM 走向更高级视觉理解的关键。
多语言 VLM 的公平性与偏见: 尽管多语言 VLM 被认为是未来方向，但其中蕴含的文化偏见和语言资源不平衡问题不容忽视。不同语言在表达方式、文化背景上的差异，以及互联网上不同语种数据的质量和数量差异，都可能导致模型在不同语言区域的表现不公平。如何设计公平、包容的多语言 VLM，并有效评估其跨文化偏见，是重要且复杂的议题。
模型可解释性与鲁棒性: 随着 VLM 规模的增大和复杂度的提高，其决策过程的可解释性变得更差。在关键应用领域（如自动驾驶、医疗），模型为何做出特定判断，以及在面对对抗性攻击或分布外数据时的鲁棒性，都是当前 VLM 亟待解决的问题。
缺乏对推理效率的深入讨论: 综述主要关注模型训练和预测性能，但对于大型 VLM 在实际部署时的推理效率、延迟和能耗，尤其是在边缘设备上的应用，讨论相对较少。这对于 VLM 的商业化和普及至关重要。

总而言之，这篇综述为 VLM 领域提供了一个全面的路线图，明确了当前成就和未来挑战。它不仅总结了技术现状，更激发了对该领域前沿问题的思考，对于推动视觉识别与人工智能的融合发展具有重要价值。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。