论文状态：已完成

Learning Transferable Visual Models From Natural Language Supervision

发表：2021/02/27

基于自然语言的视觉模型学习 (1)图像-文本对数据集 (1)零样本学习 (1)计算机视觉基准测试 (1)ResNet-50零样本分类 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种从自然语言监督中学习可迁移视觉模型的方法，通过预测图像与文本的配对进行有效预训练。该方法基于4亿对（图像，文本）数据集，证明了在30多个视觉任务中实现零样本迁移的能力，表现与完全监督模型相当，展现了更好的通用性和扩展性。

摘要

State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet. After pre-training, natural language is used to reference learned visual concepts (or describe new ones) enabling zero-shot transfer of the model to downstream tasks. We study the performance of this approach by benchmarking on over 30 different existing computer vision datasets, spanning tasks such as OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification. The model transfers non-trivially to most tasks and is often competitive with a fully supervised baseline without the need for any dataset specific training. For instance, we match the accuracy of the original ResNet-50 on ImageNet zero-shot without needing to use any of the 1.28 million training examples it was trained on. We release our code and pre-trained model weights at https://github.com/OpenAI/CLIP.

思维导图

论文精读

中文精读约 44 分钟读完 · 31,930 字

1. 论文基本信息

1.1. 标题

Learning Transferable Visual Models From Natural Language Supervision (从自然语言监督中学习可迁移的视觉模型)

1.2. 作者

Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark、Gretchen Krueger、Ilya Sutskever。所有作者都隶属于 OpenAI。

1.3. 发表期刊/会议

预印本 (arXiv)

1.4. 发表年份

2021年

1.5. 摘要

传统的 最先进的 (state-of-the-art) 计算机视觉系统通常训练用于预测一组预设好的物体类别。这种受限的监督形式限制了它们的通用性和可用性，因为要指定任何其他视觉概念都需要额外的标注数据。直接从关于图像的原始文本中学习是一种很有前途的替代方案，它利用了更广泛的监督来源。本文证明，预测哪个标题与哪个图像配对的简单预训练任务，是一种高效且可扩展的方法，可以从头开始，在从互联网收集的4亿对（图像，文本）数据集中学习 最先进的 (state-of-the-art) 图像表示。预训练后，自然语言被用来引用学习到的视觉概念（或描述新的概念），从而实现模型到下游任务的 零样本迁移 (zero-shot transfer)。作者通过在30多个不同的现有计算机视觉数据集上进行基准测试，研究了这种方法的性能，这些数据集涵盖了光学字符识别 (OCR)、视频中的动作识别、地理定位以及多种细粒度物体分类等任务。该模型能够非平凡地迁移到大多数任务，并且在不需要任何特定数据集训练的情况下，通常可以与完全监督的基线模型竞争。例如，作者在 ImageNet 上实现了与原始 ResNet-50 相同的 零样本 (zero-shot) 准确率，而不需要使用其训练所需的128万个训练样本。代码和预训练的模型权重已在 https://github.com/OpenAI/CLIP 发布。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2103.00020 PDF 链接: https://arxiv.org/pdf/2103.00020v1.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

当前 最先进的 (state-of-the-art) 计算机视觉系统通常依赖于大量人工标注的数据进行训练，并且这些标注数据通常局限于预定义的物体类别。这种“封闭集”的监督形式导致模型缺乏通用性。例如，如果模型需要识别一个新的物体类别，就需要重新收集大量的标注数据并进行 微调 (fine-tuning)，这极大地限制了其在实际应用中的灵活性和可扩展性。

2.1.2. 挑战与空白

泛化能力受限： 传统监督学习模型在训练数据分布之外的 零样本 (zero-shot) 或 少样本 (few-shot) 场景下泛化能力不足。
数据标注成本高： 获取高质量、大规模的图像标注数据集成本高昂且耗时。
无法利用丰富的文本信息： 互联网上存在海量的、与图像相关的自然语言文本（如图片标题、描述），但现有视觉模型未能有效利用这种“弱监督”信号。

2.1.3. 创新思路

本文的创新点在于借鉴了自然语言处理 (NLP) 领域中 大规模预训练 (large-scale pre-training) 的成功经验。在 NLP 中，模型通过在海量文本上学习 任务无关 (task-agnostic) 的目标（如自回归和掩码语言建模）来获得强大的 零样本迁移 (zero-shot transfer) 能力。本文提出，是否可以将这种学习范式应用于计算机视觉领域，即通过图像与文本之间的自然语言监督来学习可迁移的视觉表示。

2.2. 核心贡献/主要发现

2.2.1. 主要贡献

提出 CLIP 模型： 引入了 对比语言-图像预训练 (Contrastive Language-Image Pre-training, CLIP) 模型，通过预测图像与文本描述的匹配关系，高效地从自然语言监督中学习高质量的视觉表示。
构建大规模数据集 WIT： 为训练 CLIP 模型，构建了一个包含4亿对（图像，文本）的 WebImageText (WIT) 数据集，克服了现有公共图像-文本数据集规模小的限制。
验证零样本迁移能力： 首次证明了在大规模自然语言监督下训练的计算机视觉模型，能够在30多个多样化的下游视觉任务上实现强大的 零样本迁移 (zero-shot transfer) 性能，有时甚至超越了完全监督的基线模型。
分析模型鲁棒性： 发现 零样本 (zero-shot) CLIP 模型在面对自然分布偏移时比传统的 ImageNet 监督模型表现出更高的 有效鲁棒性 (effective robustness)。
开源代码和模型： 释放了 CLIP 的代码和预训练模型权重，促进了后续研究和应用。

2.2.2. 关键结论

自然语言监督的潜力： 证明了从网络规模的图像-文本对中学习，能够有效地替代传统的人工标注，并赋予视觉模型强大的泛化能力。
任务学习能力： CLIP 在预训练阶段学习执行广泛的任务，包括 OCR、地理定位、动作识别等，而不仅仅是特征表示学习。
可扩展性： CLIP 的性能随计算量和数据规模的增加而平稳提升，展现出与 GPT 系列模型类似的 扩展定律 (scaling laws)。
鲁棒性提升： 零样本 (zero-shot) CLIP 模型在面对实际世界中的数据分布变化时，表现出比监督模型更好的鲁棒性。
与人类学习的差异： 尽管 CLIP 表现强大，但在 少样本学习 (few-shot learning) 效率上与人类仍有差距，人类能从极少量的示例中快速学习。
社会影响： 讨论了 CLIP 强大的通用性带来的潜在社会影响和偏见问题，尤其是在监控和分类任务中的伦理考量。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 计算机视觉 (Computer Vision, CV)

计算机视觉 (Computer Vision, CV) 是人工智能领域的一个分支，旨在使计算机能够“看”并理解图像和视频。它涉及图像处理、模式识别、机器学习等多个学科，应用包括图像分类、物体检测、图像分割、人脸识别等。

3.1.2. 自然语言处理 (Natural Language Processing, NLP)

自然语言处理 (Natural Language Processing, NLP) 是人工智能和语言学领域的一个分支，致力于让计算机理解、解释和生成人类的自然语言。它涵盖文本分类、机器翻译、情感分析、问答系统等任务。

3.1.3. 预训练 (Pre-training)

预训练 (Pre-training) 是一种机器学习技术，模型首先在一个大规模数据集（通常是通用任务，如语言建模或图像识别）上进行训练，学习通用的特征表示。然后，这些预训练的模型可以作为起点，在特定下游任务的较小数据集上进行 微调 (fine-tuning)，以适应特定任务。

3.1.4. 零样本学习 (Zero-shot Learning, ZSL)

零样本学习 (Zero-shot Learning, ZSL) 是一种机器学习范式，旨在使模型能够识别在训练阶段从未见过的类别。它通常通过利用辅助信息（如类别描述、属性或词向量）来建立已知类别与未知类别之间的联系，从而在没有训练样本的情况下进行预测。

3.1.5. 少样本学习 (Few-shot Learning, FSL)

少样本学习 (Few-shot Learning, FSL) 是一种机器学习范式，模型只需要很少的（通常是一个或几个）训练样本就能学习识别新的类别。它旨在模仿人类从少量例子中快速学习的能力。

3.1.6. 对比学习 (Contrastive Learning)

对比学习 (Contrastive Learning) 是一种 自监督学习 (self-supervised learning) 方法，通过最大化正样本对（相似样本）之间的一致性（通常是特征表示的相似度）和最小化负样本对（不相似样本）之间的一致性来学习有效的特征表示。在图像领域，通常通过数据增强生成一张图像的两个视图作为正样本对，而与其他图像的视图作为负样本对。

3.1.7. ImageNet

ImageNet 是一个大规模的图像数据库，组织成一个视觉名词层次结构。它包含数百万张图像，并被广泛用于训练和评估各种计算机视觉模型，特别是用于图像分类任务。

3.1.8. Transformer

Transformer 是一种基于 自注意力机制 (self-attention mechanism) 的神经网络架构，最初用于自然语言处理任务，如机器翻译。它能够并行处理输入序列，并有效地捕捉长距离依赖关系，在 NLP 和 CV 领域都取得了巨大成功。

3.1.9. ResNet (Residual Network)

ResNet (Residual Network) 是一种深度卷积神经网络架构，引入了 残差连接 (residual connections)（或称为“跳跃连接”），允许网络训练更深而不出现梯度消失或梯度爆炸问题。

3.1.10. Vision Transformer (ViT)

Vision Transformer (ViT) 是一种将 Transformer 架构应用于图像分类任务的模型。它将图像切分成小的图像块（patch），然后将这些图像块作为序列输入到 Transformer 编码器中进行处理。

3.2. 前人工作

3.2.1. NLP 领域的大规模预训练

论文首先回顾了 NLP 领域中 大规模预训练 (large-scale pre-training) 的成功。

早期工作： (Dai & Le, 2015; Peters et al., 2018; Howard & Ruder, 2018; Radford et al., 2018; Devlin et al., 2018; Raffel et al., 2019) 等工作推动了 NLP 预训练模型的发展。
任务无关目标： 自回归 (autoregressive) 和 掩码语言建模 (masked language modeling) 等 任务无关 (task-agnostic) 目标在计算、模型容量和数据规模上不断扩展。
“文本到文本”接口： (McCann et al., 2018; Radford et al., 2019; Raffel et al., 2019) 引入了 “文本到文本” (text-to-text) 的标准化输入-输出接口，使得 任务无关 (task-agnostic) 架构能够 零样本迁移 (zero-shot transfer) 到下游数据集，无需专门的输出头或特定数据集的定制。
GPT-3： (Brown et al., 2020) 这样的旗舰系统在许多任务上能够与定制模型竞争，且仅需要少量甚至无需特定数据集的训练数据。
结论： 这些结果表明，现代预训练方法在网络规模文本集合中可获得的聚合监督，超越了高质量人工标注的 NLP 数据集。

3.2.2. 计算机视觉领域的自然语言监督

尽管 NLP 取得了成功，但在计算机视觉领域，预训练模型仍常使用 ImageNet (Deng et al., 2009) 等人工标注数据集。但也有前人工作尝试利用自然语言：

Mori et al. (1999)： 20多年前，通过训练模型预测与图像配对的文本文档中的名词和形容词，探索改善基于内容的图像检索。
Quattoni et al. (2007)： 证明可以通过在训练用于预测图像相关标题词汇的分类器权重空间中进行 流形学习 (manifold learning)，来学习更数据高效的图像表示。
Srivastava & Salakhutdinov (2012)： 通过在低级图像和文本标签特征之上训练 多模态深度玻尔兹曼机 (multimodal Deep Boltzmann Machines) 探索了深度表示学习。
Joulin et al. (2016)： 现代化了此方向的工作，展示了训练卷积神经网络 (CNN) 预测图像标题中的词汇，可以学习到有用的图像表示。他们将 YFCC100M 数据集 (Thomee et al., 2016) 中图像的标题、描述和标签元数据转换为 词袋 (bag-of-words) 多标签分类任务，并证明预训练 AlexNet (Krizhevsky et al., 2012) 预测这些标签，所学习的表示在迁移任务上的表现与基于 ImageNet 的预训练相似。
Li et al. (2017)： 将此方法扩展到预测短语 N-gram，并展示了其系统通过根据学习到的视觉 N-gram 字典对目标类别进行评分并预测得分最高的类别，从而实现 零样本迁移 (zero-shot transfer) 到其他图像分类数据集的能力。
VirTex (Desai & Johnson, 2020), ICMLM (Bulent Sariyildiz et al., 2020), ConVIRT (Zhang et al., 2020)： 采用了更现代的架构和预训练方法，展示了基于 Transformer 的语言建模、掩码语言建模和 对比目标 (contrastive objectives) 从文本中学习图像表示的潜力。

3.2.3. 弱监督与规模问题

现有方法性能限制： 尽管上述工作令人兴奋，但使用自然语言监督进行图像表示学习仍然罕见，因为在常见基准测试上的性能远低于替代方法。例如，Li et al. (2017) 在 ImageNet 上的 零样本 (zero-shot) 准确率仅为 $11.5\%$ ，远低于 最先进的 (state-of-the-art) $88.4\%$ (Xie et al., 2020)。
当前主流的弱监督方法：
- Mahajan et al. (2018)： 预测 Instagram 图像上的 ImageNet 相关标签是一种有效的预训练任务。在 ImageNet 上 微调 (fine-tuning) 后，这些预训练模型将准确率提高了 $5\%$ 以上。
- Kolesnikov et al. (2019) 和 Dosovitskiy et al. (2020)： 通过预训练模型预测噪声标注的 JFT-300M 数据集类别，在更广泛的迁移基准测试中取得了显著收益。
规模差异： 上述弱监督方法（Mahajan et al., 2018; Kolesnikov et al., 2019）训练模型使用了数百万到数十亿张图像，耗时数年，而 VirTex、ICMLM 和 ConVIRT 仅在十万到二十万张图像上训练了数天。本文旨在弥合这一规模差距。

3.3. 技术演进

该领域的技术演进可以概括为从早期探索将图像与文本关联（如预测名词），到引入深度学习模型（CNN），再到利用 Transformer 架构和 对比学习 (Contrastive Learning) 目标，并最终扩展到 大规模预训练 (large-scale pre-training) 和 零样本迁移 (zero-shot transfer)。CLIP 正是这一演进路径上的一个重要里程碑，它将 NLP 领域的 扩展定律 (scaling laws) 思想引入视觉领域，并通过简单高效的 对比目标 (contrastive objective)，在大规模网络数据上实现了前所未有的 零样本迁移 (zero-shot transfer) 能力。

3.4. 差异化分析

特征/方法	传统监督学习（如 ImageNet）	早期自然语言监督（如 Visual N-Grams）	CLIP
监督形式	大量人工标注的类别标签	文本描述中的词汇、N-gram	图像-文本对的匹配关系（“哪个标题与哪个图像配对”）
数据规模	数百万张图像 (ImageNet-1K: 1.28M)	十万到百万级图像 (YFCC100M: 100M，过滤后 15M)	4亿对（图像，文本） (WIT)
模型架构	ResNet、EfficientNet 等	CNN + 统计模型或简单 NLP 模型	ResNet 变体、Vision Transformer + Transformer 文本编码器
核心任务	图像分类	学习图像表示，辅助图像检索、有限的零样本 (zero-shot) 分类	学习多模态嵌入空间，最大化图像-文本匹配，实现广泛的零样本迁移 (zero-shot transfer)
泛化能力	封闭集分类，对新类别需要微调 (fine-tuning)	有限的零样本 (zero-shot) 分类	强大的零样本迁移 (zero-shot transfer)，到30+下游任务
鲁棒性	对自然分布偏移敏感	讨论较少	对自然分布偏移具有高有效鲁棒性 (effective robustness)
标注效率	依赖昂贵的人工标注	尝试利用更廉价的文本信息	利用网络上海量的、无需人工标注的图像-文本对
性能（ImageNet 零样本）	不适用（需要监督训练）	$11.5\%$	$76.2\%$ （匹配 ResNet-50）

CLIP 的核心创新在于，它通过大规模的 对比学习 (Contrastive Learning) 目标，有效地利用了互联网上海量的、天然配对的图像-文本数据，从而在不依赖于人工标注类别的情况下，学习到了高度通用的视觉表示。这使得它在 零样本迁移 (zero-shot transfer) 和 鲁棒性 (robustness) 方面，相比传统监督模型和早期自然语言监督方法，取得了显著的突破。

4. 方法论

CLIP 的核心思想是，通过在海量图像-文本对上进行 对比预训练 (contrastive pre-training)，学习一个多模态嵌入空间，使得匹配的图像和文本对的嵌入彼此接近，而不匹配的对则彼此远离。

4.1. 方法原理

CLIP 的核心思想是模仿人类通过文字描述学习视觉概念的方式。它不是训练一个分类器来识别预设的类别，而是学习一个能够理解图像和文本之间语义对应关系的模型。通过这种方式，模型能够将图像和文本映射到一个共享的 多模态嵌入空间 (multi-modal embedding space)。在这个空间中，语义相关的图像和文本（例如，一张猫的图片和“一只猫”的文本描述）的嵌入向量会非常接近，而语义不相关的图像和文本则会相距较远。

4.1.1. 自然语言监督

CLIP 认为自然语言是强大的监督信号，因为它能够表达和监督比固定类别标签更广泛的视觉概念。与传统监督学习相比，自然语言监督更容易扩展，因为它不要求标注数据是“机器学习兼容格式”的（例如1-of-N的 金标签 (gold label)），而是可以直接从互联网上大量的文本中被动学习。

4.1.2. 预训练任务

CLIP 的预训练任务是预测在给定批次中，哪段文本（caption）与哪张图像（image）是配对的。给定 $N$ 对（图像，文本）样本，CLIP 训练目标是从 $N \times N$ 种可能的（图像，文本）配对中，正确识别出 $N$ 个真实配对。

4.2. 核心方法详解

4.2.1. 模型架构

CLIP 模型包含两个主要组件：

图像编码器 (Image Encoder)： 负责将图像映射到高维嵌入向量。本文实验了两种架构：
- ResNet (Residual Network)： 采用了 ResNet-50 作为基础架构，并进行了修改，包括 ResNetD 改进 (He et al., 2019) 和抗锯齿模糊池化 (Zhang, 2019)。全球平均池化层被 注意力池化机制 (attention pooling mechanism) 替代。
- Vision Transformer (ViT)： 紧随 (Dosovitskiy et al., 2020) 的实现，并增加了额外的层归一化 (layer normalization)。
文本编码器 (Text Encoder)： 负责将文本描述映射到与图像嵌入空间维度相同的嵌入向量。
- Transformer： 文本编码器是一个 Transformer (Vaswani et al., 2017) 模型，其架构修改如 (Radford et al., 2019) 所述。它处理 字节对编码 (byte pair encoding, BPE) 的文本表示。文本序列被 [SOS] (Start Of Sentence) 和 [EOS] (End Of Sentence) 标记包围，[EOS] 标记在 Transformer 最后一层的激活被视为文本的特征表示。

4.2.2. 对比预训练目标

CLIP 学习一个 多模态嵌入空间 (multi-modal embedding space)。它通过共同训练图像编码器和文本编码器，来最大化批次中 $N$ 个真实配对的图像和文本嵌入的余弦相似度，同时最小化 $N^2 - N$ 个不正确配对的嵌入的余弦相似度。

训练过程的伪代码如下：

# image_encoder - ResNet or Vision Transformer
# text_encoder - CBOw or Text Transformer
# I[n, h, w, c] - minibatch of aligned images
# T[n, 1] - minibatch of aligned texts
# W_i[d_i, d_e] - learned proj of image to embed
# W_t[d_t, d_e] - learned proj of text to embed
# t - learned temperature parameter

# extract feature representations of each modality
I_f = image_encoder(I) # [n, d_i]
T_f = text_encoder(T)  # [n, d_t]

# joint multimodal embedding [n, d_e]
I_e = l2_normalize(np.dot(I_f, W_i), axis=1)
T_e = l2_normalize(np.dot(T_f, W_t), axis=1)

# scaled pairwise cosine similarities [n, n]
logits = np.dot(I_e, T_e.T) * np.exp(t)

# symmetric loss function
labels = np.arange(n)
loss_i = cross_entropy_loss(logits, labels, axis=0)
loss_t = cross_entropy_loss(logits.T, labels, axis=0) # Note: Transpose logits for text loss
loss = (loss_i + loss_t) / 2

符号解释：

image_encoder: 图像编码器，可以是 ResNet 或 Vision Transformer。
text_encoder: 文本编码器，可以是 词袋 (CBOw) 模型或 Text Transformer。
$I$ : 小批量对齐图像，形状为 [n, h, w, c]，其中 $n$ 是批次大小， h, w, c 分别是图像的高度、宽度和通道数。
$T$ : 小批量对齐文本，形状为 [n, 1]，其中 $n$ 是批次大小， 1 代表每个文本是一个序列。
$W_i$ : 学习到的从图像特征空间到嵌入空间的投影矩阵，形状为 $[d_i, d_e]$ ，其中 $d_i$ 是图像特征维度， $d_e$ 是共享嵌入空间维度。
$W_t$ : 学习到的从文本特征空间到嵌入空间的投影矩阵，形状为 $[d_t, d_e]$ ，其中 $d_t$ 是文本特征维度， $d_e$ 是共享嵌入空间维度。
$t$ : 学习到的温度参数。
$I_f$ : 图像编码器提取的图像特征表示，形状为 $[n, d_i]$ 。
$T_f$ : 文本编码器提取的文本特征表示，形状为 $[n, d_t]$ 。
l2_normalize(x, axis=1): 对输入 $x$ 沿着指定轴（这里是 $axis=1$ ，即对每个样本）进行 L2 范数归一化。
np.dot(A, B): 矩阵乘法。
$I_e$ : L2 归一化后的图像嵌入向量，形状为 $[n, d_e]$ 。
$T_e$ : L2 归一化后的文本嵌入向量，形状为 $[n, d_e]$ 。
logits: 缩放后的成对余弦相似度矩阵，形状为 [n, n]。np.exp(t) 是温度参数 $t$ 的指数形式。
cross_entropy_loss(logits, labels, axis=0): 交叉熵损失函数。
labels: 标签向量，形状为 [n]，其中 $labels[i] = i$ ，表示第 $i$ 个图像应该与第 $i$ 个文本配对。
$loss_i$ : 图像到文本的交叉熵损失。
$loss_t$ : 文本到图像的交叉熵损失 (通过转置 logits.T 实现)。
loss: 图像到文本和文本到图像损失的对称平均值。

这个损失函数被称为 对比损失 (Contrastive Loss)，或更具体地，是 InfoNCE 损失 (InfoNCE loss) 的变体。它鼓励模型将同一批次中真实匹配的图像和文本对的相似度最大化，同时最小化与批次中所有其他非匹配对的相似度。

4.2.3. 训练细节

数据集： CLIP 在新构建的 WebImageText (WIT) 数据集上进行训练，该数据集包含4亿对（图像，文本）数据。
训练策略： 模型从零开始训练，不使用 ImageNet 权重初始化图像编码器，也不使用预训练权重初始化文本编码器。
简化： 相比 ConVIRT (Zhang et al., 2020) 等工作，CLIP 简化了一些设计：
- 移除了表示和对比嵌入空间之间的非线性投影，改用线性投影。
- 移除了文本转换函数 $t_u$ ，因为 WIT 数据集中很多（图像，文本）对只有一个句子。
- 简化了图像转换函数 $t_v$ ，仅使用随机裁剪作为数据增强。
温度参数： 温度参数 $\tau$ 作为对数参数化乘性标量直接在训练中优化，以避免手动调整。
批次大小： 使用非常大的小批量大小，例如 32,768。
优化器： 使用 Adam 优化器 (Kingma & Ba, 2014)，并采用解耦权重衰减正则化 (Loshchilov & Hutter, 2017) 和余弦学习率衰减策略 (Loshchilov & Hutter, 2016)。
计算优化： 采用混合精度训练 (Micikevicius et al., 2017)、梯度检查点 (Griewank & Walther, 2000; Chen et al., 2016)、半精度 Adam 统计量 (Dhariwal et al., 2020) 和半精度随机舍入文本编码器权重，以节省内存。嵌入相似度计算也进行分片处理。

4.2.4. 模型扩展

ResNet 图像编码器： 扩展 ResNet 模型时，采用了 (Tan & Le, 2019) 的方法，同时增加宽度、深度和分辨率。训练了 ResNet-50、ResNet-101，以及 RN50x4、RN50x16、RN50x64 等更大规模的模型。
Vision Transformer 图像编码器： 训练了 ViT-B/32、ViT-B/16 和 ViT-L/14。
文本编码器： 文本编码器的宽度与 ResNet 图像编码器的宽度成比例缩放，但深度不缩放，因为对性能不那么敏感。

4.2.5. 零样本迁移 (Zero-Shot Transfer)

预训练后，CLIP 模型可以进行 零样本 (zero-shot) 图像分类。

构建分类器： 对于一个给定的数据集，首先收集所有类别的名称。
文本嵌入： 对每个类别名称（例如，“A photo of a dog.”）使用文本编码器生成文本嵌入向量。这些嵌入向量构成了分类器的“权重”。
图像嵌入： 对于要分类的图像，使用图像编码器生成图像嵌入向量。
相似度计算： 计算图像嵌入与所有类别文本嵌入之间的余弦相似度。
预测： 相似度得分最高的类别即为预测结果。这种方法可以看作是一个 多项式逻辑回归分类器 (multinomial logistic regression classifier)，其权重由文本编码器根据类别描述动态生成。

4.2.6. 提示工程 (Prompt Engineering)

为了弥合预训练数据（通常是完整的句子）与分类任务中类别名称（通常是单个单词）之间的分布差距，作者发现使用 提示模板 (prompt template) 可以显著提高性能，例如 “A photo of a {label}.”。通过定制 提示 (prompt) 文本（如 “A photo of a {label}, a type of pet.”），可以进一步提高针对特定任务的 零样本 (zero-shot) 性能。

4.2.7. 集成 (Ensembling)

通过对多个使用不同 上下文提示 (context prompts) 生成的 零样本分类器 (zero-shot classifiers) 进行集成，可以在嵌入空间而非概率空间进行，从而在不增加太多计算成本的情况下进一步提升性能。

图1是 CLIP 模型进行 对比预训练 (contrastive pre-training) 的过程示意图。

该图像是示意图，展示了对比预训练的过程，其中包含文本编码器和图像编码器的操作。图中的步骤包括从标签文本创建数据集分类器，以及用于零-shot 预测的机制，主要涉及如何高效地使用图像和文本之间的对应关系进行模型训练和预测。 VLM 描述: 该图像是示意图，展示了对比预训练的过程，其中包含文本编码器和图像编码器的操作。图中的步骤包括从标签文本创建数据集分类器，以及用于零-shot 预测的机制，主要涉及如何高效地使用图像和文本之间的对应关系进行模型训练和预测。

Figure 2 展示了 CLIP 模型的效率相比基线的显著提升。

$Figure 2. CLIP is much more efficient at zero-shot transfer than our image caption baseline. Although highly expressive, we found that transformer-based language models are relatively weak at zero-shot ImageNet classification. Here, we see that it learns $_ { 3 \\mathrm { X } }$ slower than a baseline which predicts a bag-of-words (BoW) encoding of the text (Joulin et al., 2016). Swapping the prediction objective for the contrastive objective of CLIP further improves efficiency another $_ { 4 \\mathrm { X } }$ .$ 该图像是图表，展示了不同模型在处理不同数量图像时的零-shot ImageNet 分类准确率。图中包含三条曲线，分别表示“Bag of Words Contrastive (CLIP)”、“Bag of Words Prediction”和“Transformer Language Model”。绿色曲线显示CLIP模型的效率是其他模型的4倍，橙色曲线显示其效率为3倍，蓝色曲线表现相对较低。X轴表示处理的图像数量，Y轴表示分类准确率。 VLM 描述: 该图像是图表，展示了不同模型在处理不同数量图像时的零-shot ImageNet 分类准确率。图中包含三条曲线，分别表示“Bag of Words Contrastive (CLIP)”、“Bag of Words Prediction”和“Transformer Language Model”。绿色曲线显示CLIP模型的效率是其他模型的4倍，橙色曲线显示其效率为3倍，蓝色曲线表现相对较低。X轴表示处理的图像数量，Y轴表示分类准确率。

Figure 3 是 CLIP 核心实现原理的伪代码，在上面的代码块中已进行详细解释。

5. 实验设置

5.1. 数据集

本文使用了广泛的数据集来评估 CLIP 的性能，包括来自 Kornblith et al. (2019) 的12个基准数据集，以及新增的15个数据集，旨在评估模型在更广泛的分布和任务上的性能。

5.1.1. 预训练数据集

WebImageText (WIT)： 新构建的数据集，包含4亿对（图像，文本）数据，从互联网上的各种公开来源收集。为了覆盖尽可能广泛的视觉概念，通过搜索文本中包含50万个查询之一的（图像，文本）对进行构建。通过对每个查询包含最多20,000对（图像，文本）进行近似类别平衡。

5.1.2. 评估数据集

评估数据集总计27个，包括：

Kornblith et al. (2019) 的12个数据集：
- Food-101： 101种食物类别。
- CIFAR-10： 10个常见物体类别。
- CIFAR-100： 100个常见物体类别。
- Birdsnap： 500种鸟类。
- SUN397： 397个场景类别。
- Stanford Cars： 196种汽车型号。
- FGVC Aircraft： 100种飞机型号。
- Pascal VOC 2007 Classification： 20个物体类别。
- Describable Textures： 47种可描述纹理。
- Oxford-IIIT Pets： 37种猫狗品种。
- Caltech-101： 101个物体类别。
- Oxford Flowers 102： 102种花卉类别。
新增的15个数据集：
- MNIST： 手写数字识别 (0-9)。
- Facial Emotion Recognition 2013： 8种面部表情。
- STL-10： 10个物体类别，带无标签数据。
- EuroSAT： 10个土地利用和土地覆盖类别（卫星图像）。
- NWPURESISC45： 45个遥感图像场景类别。
- German Traffic Sign Recognition Benchmark (GTSRB)： 43种德国交通标志。
- KITTI： 自动驾驶相关任务，如距离最近车辆的识别。
- PatchCamelyon： 淋巴结肿瘤检测（医学图像）。
- UCF101： 101个视频动作类别。
- Kinetics 700： 700个视频动作类别。
- CLEVR Counts： 合成场景中物体计数。
- Hateful Memes： 检测多模态模因中的仇恨言论。
- ImageNet-1k： 1000个物体类别。
- Country211： 新创建的地理定位数据集，包含211个国家。
- Rendered SST2： 新创建的光学字符识别 (OCR) 数据集，通过渲染 Stanford Sentiment Treebank (Socher et al., 2013) 的句子得到。

Rendered SST2 示例：

Figure 19. Two example images from the Rendered SST2 dataset 该图像是文本描述的插图，包含两段关于电影叙事的评论。第一段提到Montias为其细致的叙述注入了灵活的能量，并且描述了他所围绕的角色；第二段则表达了电影制作者对故事方向的迷茫以及缺乏实现目标的技能。 VLM 描述: 该图像是文本描述的插图，包含两段关于电影叙事的评论。第一段提到Montias为其细致的叙述注入了灵活的能量，并且描述了他所围绕的角色；第二段则表达了电影制作者对故事方向的迷茫以及缺乏实现目标的技能。

5.1.3. 为什么选择这些数据集

这些数据集涵盖了广泛的视觉任务和数据分布，从通用物体识别到细粒度分类、从自然图像到卫星图像和医学图像，以及视频动作识别和 OCR。这种多样性使得能够全面评估 CLIP 在不同任务和领域中的 零样本迁移 (zero-shot transfer) 能力、表示学习质量和鲁棒性。

5.2. 评估指标

本文使用了多种评估指标，主要包括准确率 (accuracy) 和 ROC AUC。

5.2.1. 准确率 (Accuracy)

概念定义： 准确率衡量的是模型正确预测样本数量的比例。它是一种直观且广泛使用的分类任务评估指标，特别适用于类别分布平衡的情况。

数学公式： $\text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$

符号解释：

$\text{Number of Correct Predictions}$ : 模型正确分类的样本数量。
$\text{Total Number of Predictions}$ : 总的预测样本数量。

5.2.2. ROC AUC (Receiver Operating Characteristic Area Under the Curve)

概念定义： ROC AUC 是衡量二分类模型性能的指标。它通过绘制 受试者工作特征曲线 (Receiver Operating Characteristic curve, ROC curve) 来评估分类器在不同分类阈值下的表现。ROC 曲线以 真正例率 (True Positive Rate, TPR) 为纵轴，假正例率 (False Positive Rate, FPR) 为横轴。AUC 值代表 ROC 曲线下方的面积，范围在0到1之间，值越高表示模型性能越好。AUC 0.5 表示模型性能与随机猜测无异，AUC 1.0 表示完美分类器。

数学公式： $\text{AUC} = \int_{0}^{1} \text{TPR}(\text{FPR}) \, d\text{FPR}$

符号解释：

$\text{TPR}$ : 真正例率，也称为召回率 (Recall) 或敏感度 (Sensitivity)，计算公式为 $\text{TPR} = \frac{\text{TP}}{\text{TP} + \text{FN}}$ 。
$\text{FPR}$ : 假正例率，计算公式为 $\text{FPR} = \frac{\text{FP}}{\text{FP} + \text{TN}}$ 。
$\text{TP}$ : 真正例 (True Positive)，实际为正类且预测为正类的样本数。
$\text{FN}$ : 假反例 (False Negative)，实际为正类但预测为负类的样本数。
$\text{FP}$ : 假正例 (False Positive)，实际为负类但预测为正类的样本数。
$\text{TN}$ : 真反例 (True Negative)，实际为负类且预测为负类的样本数。

5.2.3. 平均每类准确率 (Mean per Class Accuracy)

概念定义： 当数据集的类别分布不平衡时，简单准确率可能无法公平反映模型性能。平均每类准确率首先计算每个类别的准确率，然后对所有类别的准确率取平均。这样可以避免模型偏向于样本数量多的类别。

数学公式： $\text{Mean per Class Accuracy} = \frac{1}{N_C} \sum_{i=1}^{N_C} \text{Accuracy}_i$

符号解释：

$N_C$ : 数据集中类别的总数量。
$\text{Accuracy}_i$ : 第 $i$ 个类别的准确率，计算公式为 $\frac{\text{Number of Correct Predictions in Class } i}{\text{Total Number of Samples in Class } i}$ 。

5.2.4. 11-点平均精度 (11-point mAP)

概念定义： 11-点平均精度 (11-point mAP) 是一种在物体检测和图像检索任务中常用的评估指标。它通过在11个固定的召回率点（0.0, 0.1, ..., 1.0）上计算最大精度 (precision)，然后对这11个点的精度进行平均。mAP 值越高表示模型在兼顾召回和精度方面的性能越好。

数学公式： $\text{mAP} = \frac{1}{11} \sum_{r \in \{0.0, 0.1, \dots, 1.0\}} \text{max\_precision}(r)$

符号解释：

$r$ : 召回率 (Recall)，计算公式为 $\frac{\text{TP}}{\text{TP} + \text{FN}}$ 。
$\text{max\_precision}(r)$ : 在召回率大于等于 $r$ 的所有点中，所能达到的最大精度 (Precision)。精度计算公式为 $\frac{\text{TP}}{\text{TP} + \text{FP}}$ 。

5.3. 对比基线

本文将 CLIP 与广泛的现有模型和方法进行了比较，以全面评估其性能。这些基线包括：

LM RN50： 同样采用 ResNet-50 架构，但使用自回归损失而非对比损失进行预训练的多模态模型。
EfficietNet (B0-B8, Noisy Student variants L2-475, L2-800)： (Tan & Le, 2019) 提出的模型，以其高效的缩放策略和强大的性能闻名，部分模型在 ImageNet 上进行了 自训练 (self-training)。
Instagram-pretrained ResNeXt (32x8d, 32x16d, 32x32d, 32x48d, FixRes variants)： (Mahajan et al., 2018) 在大规模 Instagram 数据上预训练的模型。
Big Transfer (BiT) (BiT-S, BiT-M)： (Kolesnikov et al., 2019) 提出的用于迁移学习的大规模 ResNet 模型，在 ImageNet-1k 和 ImageNet-21k 上训练。
Vision Transformer (ViT) (ViT-B/32, ViT-B/16, ViT-L/16, ViT-H/14)： (Dosovitskiy et al., 2020) 提出的 Transformer 视觉模型，在 ImageNet-21k 或 JFT-300M 数据集上预训练。
SimCLRv2： (Chen et al., 2020c) 提出的 自监督学习 (self-supervised learning) 方法。
BYOL： (Grill et al., 2020) 提出的 自监督学习 (self-supervised learning) 方法。
Momentum Contrast (MoCo) (MoCo-v1, MoCo-v2)： (He et al., 2020; Chen et al., 2020d) 提出的 自监督学习 (self-supervised learning) 方法。
VirTex： (Desai & Johnson, 2020) 提出的利用文本注释学习视觉表示的模型，模型设计与 CLIP-AR 类似，但在较小的数据集上训练。
ResNet (ResNet-50, ResNet-101, ResNet-152)： (He et al., 2016b) 提出的原始 ResNet 模型。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 零样本迁移性能

CLIP 在30多个不同的计算机视觉数据集上进行了 零样本迁移 (zero-shot transfer) 评估，并展现出强大的性能。

CLIP 与 Visual N-Grams 的初始比较 下表比较了 CLIP 与先前 零样本迁移 (zero-shot transfer) 图像分类结果。CLIP 在所有三个数据集上都大幅提高了性能。以下是原文 Table 1 的结果：

	aYahoo	ImageNet	SUN
Visual N-Grams	72.4	11.5	23.0
CLIP	98.4	76.2	58.5

分析： CLIP 将 ImageNet 上的准确率从 $11.5\%$ 提高到 $76.2\%$ ，这与原始 ResNet-50 的性能相匹配，尽管 CLIP 没有使用 ImageNet 的128万个人工标注训练样本。这表明 CLIP 在 零样本 (zero-shot) 场景下取得了重大进展。

提示工程和集成对零样本性能的提升 Figure 4 展示了 提示工程 (prompt engineering) 和 集成 (ensembling) 如何提高 零样本 (zero-shot) 性能。

该图像是图表，展示了通过提示工程和集成方法提高零-shot分类性能的结果。与使用无上下文类别名称的基线相比，该方法在36个数据集上的平均得分提高了近5个百分点，显示出显著的效率提升。 VLM 描述: 该图像是图表，展示了通过提示工程和集成方法提高零-shot分类性能的结果。与使用无上下文类别名称的基线相比，该方法在36个数据集上的平均得分提高了近5个百分点，显示出显著的效率提升。 分析： 相比直接使用类别名称的基线，提示工程 (prompt engineering) 和 集成 (ensembling) 使得 零样本 (zero-shot) 分类性能平均提高了近5个百分点。这表明通过优化文本提示，可以在不增加模型训练成本的情况下，显著提升 零样本 (zero-shot) 性能。

零样本 CLIP 与完全监督基线的竞争力 Figure 5 比较了 零样本 (zero-shot) CLIP 与一个完全监督的 ResNet-50 基线模型。

Figure 5. Zero-shot CLIP is competitive with a fully supervised baseline. Across a 27 dataset eval suite, a zero-shot CLIP classifier outperforms a fully supervised linear classifier fitted on ResNet-50 features on 16 datasets, including ImageNet. 该图像是一个条形图，展示了零-shot CLIP 与基于 ResNet-50 特征的线性分类器之间的性能比较。图中显示，零-shot CLIP 在27个数据集的评估中，有16个数据集表现优于线性分类器，准确率提升幅度（Δ Score）从 +28.9 到 -37.1不等。 VLM 描述: 该图像是一个条形图，展示了零-shot CLIP 与基于 ResNet-50 特征的线性分类器之间的性能比较。图中显示，零-shot CLIP 在27个数据集的评估中，有16个数据集表现优于线性分类器，准确率提升幅度（Δ Score）从 +28.9 到 -37.1不等。 分析： 在27个数据集的评估中，零样本 (zero-shot) CLIP 在16个数据集上优于在 ResNet-50 特征上拟合的线性分类器，包括 ImageNet。这表明 CLIP 具有强大的 任务学习能力 (task-learning capabilities)，尤其是在 OCR、动作识别和地理定位等任务上表现出色。

零样本 CLIP 优于少样本线性探针 Figure 6 比较了 零样本 (zero-shot) CLIP 与其他模型特征上的 少样本 (few-shot) 逻辑回归。

该图像是图表，展示了不同模型在有标签训练样本数量与平均得分之间的关系。Zero-Shot CLIP 模型的表现与4-shot线性分类器相当，接近16-shot线性分类器的最佳结果。图中标注了 BiT-M 和 SimCLRv2 模型的表现，灰色线条代表其他评估模型。 VLM 描述: 该图像是图表，展示了不同模型在有标签训练样本数量与平均得分之间的关系。Zero-Shot CLIP 模型的表现与4-shot线性分类器相当，接近16-shot线性分类器的最佳结果。图中标注了 BiT-M 和 SimCLRv2 模型的表现，灰色线条代表其他评估模型。 分析： 零样本 (zero-shot) CLIP 的性能与在相同特征空间上训练的4-shot线性分类器相当，并且接近最佳16-shot分类器的结果。这表明 CLIP 能够有效地利用自然语言监督，在不使用任何任务特定示例的情况下，达到与需要少量样本的监督学习方法相近的性能。

6.1.2. 表示学习性能

CLIP 的表示学习能力通过在其特征上训练线性分类器进行评估。

CLIP 特征超越 ImageNet 最佳模型 Figure 11 展示了 CLIP 的特征在广泛数据集上优于最佳 ImageNet 模型的特征。

Figure 11. CLIP's features outperform the features of the best ImageNet model on a wide variety of datasets. Fitting a linear classifier on CLIP's features outperforms using the Noisy Student EfficientNet-L2 on 21 out of 27 datasets. 该图像是图表，展示了在多种数据集上，CLIP模型与Noisy Student EfficientNet-L2的线性回归表现的差异（Δ Score %）。大多数数据集中，CLIP的表现优于EfficientNet-L2，尤其是在SST2、Country211和HatefulMemes等数据集上，表现上升显著。 VLM 描述: 该图像是图表，展示了在多种数据集上，CLIP模型与Noisy Student EfficientNet-L2的线性回归表现的差异（Δ Score %）。大多数数据集中，CLIP的表现优于EfficientNet-L2，尤其是在SST2、Country211和HatefulMemes等数据集上，表现上升显著。 分析： 在27个数据集中的21个数据集上，在 CLIP 特征上拟合的线性分类器表现优于 Noisy Student EfficientNet-L2。CLIP 在 OCR (SST2, HatefulMemes)、地理定位和场景识别 (Country211, SUN397) 以及视频动作识别 (Kinetics700, UCF101) 等任务上提升最大。这表明 CLIP 学习到的特征更具通用性和跨领域迁移能力。

6.1.3. 鲁棒性分析

零样本 CLIP 对自然分布偏移的鲁棒性 Figure 13 比较了 零样本 (zero-shot) CLIP 与现有 ImageNet 模型在自然分布偏移下的性能。

该图像是一个图表，展示了使用 Zero-Shot CLIP 模型在多个数据集上的性能比较。图表中显示了各数据集的准确性以及与其他方法的改进得分，强调了该模型在不同任务中的有效性。 VLM 描述: 该图像是一个图表，展示了使用 Zero-Shot CLIP 模型在多个数据集上的性能比较。图表中显示了各数据集的准确性以及与其他方法的改进得分，强调了该模型在不同任务中的有效性。 分析： 所有 零样本 (zero-shot) CLIP 模型都显著提高了 有效鲁棒性 (effective robustness)，将 ImageNet 准确率与分布偏移准确率之间的差距缩小了高达 $75\%$ 。这表明 零样本 (zero-shot) 模型不太会利用仅在特定分布上存在的虚假关联，从而在面对未见过的数据分布时表现更好。

监督适应对鲁棒性的影响 Figure 14 展示了监督适应 ImageNet 后，CLIP 性能的变化。

$Figure 14. While supervised adaptation to ImageNet increases ImageNet accuracy by $9 . 2 \\%$ , it slightly reduces average robustness. with ImageNet categories.$ 该图像是一个图表，展示了在多个自然分布偏移数据集上，采用不同方法适应 ImageNet 分类器准确度的变化。图中显示，当针对 ImageNet 进行监督适应时，准确度提高了 $9.2\%$ ，但在平均鲁棒性方面略有下降。 VLM 描述: 该图像是一个图表，展示了在多个自然分布偏移数据集上，采用不同方法适应 ImageNet 分类器准确度的变化。图中显示，当针对 ImageNet 进行监督适应时，准确度提高了 $9.2\%$ ，但在平均鲁棒性方面略有下降。 分析： 尽管将 CLIP 适应 ImageNet 分布使 ImageNet 准确率提高了 $9.2\%$ ，但平均分布偏移准确率却略有下降。这表明，为了提高特定分布上的性能而进行的监督适应，可能会牺牲模型的通用鲁棒性，因为它可能学会利用这些分布中存在的虚假特征。

少样本 CLIP 的鲁棒性 Figure 15 展示了 少样本 (few-shot) CLIP 的鲁棒性。

该图像是一个图表，展示了不同训练方式下CLIP模型在7个自然分布迁移数据集上的表现。横轴为在ImageNet子抽样类上的平均准确率，纵轴为在自然分布迁移数据集上的平均准确率。图中包含不同训练样本数量的标记，分别为1-shot至128-shot，并且显示出零-shot和few-shot CLIP相较于传统模型的效果差异。 VLM 描述: 该图像是一个图表，展示了不同训练方式下CLIP模型在7个自然分布迁移数据集上的表现。横轴为在ImageNet子抽样类上的平均准确率，纵轴为在自然分布迁移数据集上的平均准确率。图中包含不同训练样本数量的标记，分别为1-shot至128-shot，并且显示出零-shot和few-shot CLIP相较于传统模型的效果差异。 分析： 随着训练数据的增加，少样本 (few-shot) CLIP 的 有效鲁棒性 (effective robustness) 逐渐减弱。这进一步支持了最小化模型对特定分布训练数据依赖的观点，这有助于提高 有效鲁棒性 (effective robustness)。

6.1.4. 性能可扩展性

Figure 8 和 Figure 9 展示了 CLIP 性能的可扩展性。 Figure 8:

$Figure 8. Zero-shot performance is correlated with linear probe performance but still mostly sub-optimal. Comparing zero-shot and linear probe performance across datasets shows a strong correlation with zero-shot performance mostly shifted 10 to 25 points lower. On only 5 datasets does zero-shot performance approach linear probe performance ( ${ \\le } 3$ point difference).$ 该图像是一个散点图，展示了零-shot CLIP性能与线性探测CLIP性能之间的关系。图中显示，零-shot性能与线性探测性能存在强关联性，相关系数 $r = 0.82$ 。大部分数据点接近45度线，但零-shot性能普遍低于线性探测性能，最高差值在10至25点之间。 VLM 描述: 该图像是一个散点图，展示了零-shot CLIP性能与线性探测CLIP性能之间的关系。图中显示，零-shot性能与线性探测性能存在强关联性，相关系数 $r = 0.82$ 。大部分数据点接近45度线，但零-shot性能普遍低于线性探测性能，最高差值在10至25点之间。 分析： 零样本 (zero-shot) 性能与线性探针性能（监督性能）呈强正相关 ( $r=0.82$ )，但通常低 $10\%$ 到 $25\%$ 。这表明 CLIP 的 任务学习 (task learning) 和 零样本迁移 (zero-shot transfer) 仍有很大的改进空间。

Figure 9:

Figure 9. Zero-shot CLIP performance scales smoothly as a function of model compute. Across 39 evals on 36 different datasets, average zero-shot error is well modeled by a log-log linear trend across a 44x range of compute spanning 5 different CLIP models. Lightly shaded lines are performance on individual evals, showing that performance is much more varied despite the smooth overall trend. 该图像是图表，展示了 CLIP 模型在不同计算量下的零-shot 性能。横轴为模型的 GFLOPs，纵轴为错误率（%）。数据点显示，随着计算量的增加，错误率呈现平滑的下降趋势，表明模型性能的提升。 VLM 描述: 该图像是图表，展示了 CLIP 模型在不同计算量下的零-shot 性能。横轴为模型的 GFLOPs，纵轴为错误率（%）。数据点显示，随着计算量的增加，错误率呈现平滑的下降趋势，表明模型性能的提升。 分析： 零样本 (zero-shot) CLIP 的错误率随着模型计算量的增加呈对数-对数线性趋势平稳下降。这与 GPT 系列模型观察到的 扩展定律 (scaling laws) 相似，表明通过增加计算资源，CLIP 性能有望持续提升。

6.1.5. 数据重叠分析

Figure 17 总结了数据重叠分析。

该图像是一个示意图，展示了在不同数据重叠百分比下，清洁数据与重叠数据的准确性差异。左侧图表显示了包括CIFAR-100和SUN397在内的多个数据集的准确性变化，右侧图表则呈现了不同数据集总体准确性变化的情况。 VLM 描述: 该图像是一个示意图，展示了在不同数据重叠百分比下，清洁数据与重叠数据的准确性差异。左侧图表显示了包括CIFAR-100和SUN397在内的多个数据集的准确性变化，右侧图表则呈现了不同数据集总体准确性变化的情况。 分析： 在35个数据集中，9个没有检测到重叠。中位数重叠率为 $2.2\%$ ，平均重叠率为 $3.2\%$ 。由于重叠量很小，总准确率很少变化超过 $0.1\%$ ，只有7个数据集超过此阈值。最大的性能提升仅为 $0.6\%$ 。这表明数据重叠对 CLIP 的性能影响甚微。

6.2. 数据呈现 (表格)

6.2.1. 线性探针性能

以下是原文 Table 10 的结果：

	20202020202020200diisd202SommS2020220000 200mMASA
LM RN50	. 6..9.649 .1..1.9. 0.1.934.03.70.097....76.8 65.2
5020 101 0x4 50x1650x64	88.9 91.173.558.675.191.3 90.5 73.065.777.0 85.957.3 88.4							79.5 91.9 92.5 97.8				983 64.2 96.6 95.2 87.5 82.4 70.2 25.3 82.											62.652.568.0 76.6 78.253.8 71.180.0 81.597.1 92.8 90.2 69.2 40.7 83.7 89.5 69.1 55.0 75.0 81.2 83.6
																										82.4
												98.5	97.8			96.4		89.7	85.5	59.4	30.3 83.0
	93.3 92.2 74.972.8 79.288.762.7 89.0 79.194.8 94.178.677.2 81.190.5							79.1 93.5 93.7			98.3	98.9	68.7 98.6					91.4	89.0	69.2	34.8 83.5
								82.0 94.5 95.4			98.9	98.9	71.3 99.1 97.1 92.8						90.2	69.2	40.7 83.7
0 B/32/16L/14L/14-336px	92.8 96.2 83.167.8 78.4 86.795.2 98.0 87.577.0 81.8 90.9 69.4 89.6 82.1 95.1 96.5 99.295.9 97.9 87.4 79.9 82.2 91.5 71.6 89.9 83.0 95.1 96.0 99.2							76.5 90.0 93.0			96.9	99.0	69.2		98.3 97.0 90.				85.3	66.2	27.8 83.9		85.5 61.7 52.1 66.7 70.8 76.1
																			94.7	97.192.7			86.6	67.8	33.3 83.5		57.170.3 75.5 80.2
								89.6	83.0 95.1 9.5			99.2	99.272.9 99.7				72.2		99.	98.2 94.1			92.5	64.7	42.9 85.8		72.0 57.8 76.2 80.8 83.998.1 94.9 92.4 69.2 46.4 85.6 92.0 73.0 60.3 77.3 80.5 85.4
								98.1 94.9									92.4 69.2 46.4 85.6
B0B120 B2B3B4B5B6B7B8								71.2 93.0 93.3			91.7	98.2 57.2 97.				97.385.5			80.0	73.8 12.4 83.1			74.4 47.6 47.9 55.7 53.4 76.9
								84.7			74.2 93.4 93.6			92.4	98.3	57.0		97.	96.8		84.5	75.9	75.5	12.5	82.7	74.7	48.5 44.3 54.5 54.4 78.6
								64.4	64.0 63.2 57.0			85.3	73.5	93.9 93.5		92.9	98.5	56.6		97.3	96.9		84.4	76.4	73.1	12.6	84.3	75.1	49.4 42.6 55.4 55.2 79.7
	77.4 94.0 78.0		66.5	64.4 66.0 59.3			85.8	73.1	94.1 93.7		93.3	98.5	57.]		98.2	97.3		85.0	75.8	76.1	13.4	83.3	78.1	50.9 45.1 53.8 54.8 81.0
	79.7 94.1 78.7		70.1	65.4 66.4 60.4			86.5	73.4	94.7 93.5		93.2	98.8	57.9		98.	96.8		85.0	78.3	72.3	13.9	83.1	79.1	52.5 46.5 54.4 55.4 82.9
	81.5 93.6 77.9		72.4	67.1 72.7 68.9			86.7	73.9	95.0 94.7		94.5	98.4	58.5		98.	96.8		86.0	78.5	69.6	14.9	84.7	80.9	54.5 46.6 53.3 56.3 83.7
	84.5 9. 8.0. 73.5			73.5	65.8 71.1 68.2			87.6	73.9	95.0 94.1		93.7	98.4	60.2		98.	96.8		85.4	78.1	72.7	15.3	84.2	80.0	54.1 51.1 53.3 57.0 84.0
				74.7	69.0 77.1 72.3			87.2	76.8	95.2 94.7		96.9	98.6	61.		99.1	96.3		86.8	80.8	75.8	16.4	85.2	81.9
											99.2					97.0		87.4	80.4	70.9
																								57.7 51.9 54. 5.8 84.
				69.6 76.8 71.5			87.4	77.1 94.9 95.2													17.4 85.2		82.4
B0B1B2	78.1 94.0 78.6 63.5 65.5 57.2 53.7						85.6	75.6 93.8 93.1			94.5	98.1	55.		98.2	97.0		84.3	74.0	71.6	14.0 83.1		76.	51.7 47.3 55.7 55.0 78.5
	80.4 95.1	80.2	66.6	67.6 59.6		53.7	86.2	77.0	94.6 94.4		95.1	98.0	56.1		98.	96.9		84.3	73.1	67.1	14.5	83.9	79.9	54.3 54.9 81.1
	80.9 95.3	81.3	67.6	67.9	60.9	55.2	86.3	77.7	95.0	94.7	94.4	98.0	55.5		98.9	97.3		84.6	71.7	70.0	14.6	82.9	80.1	551461 541	553.822
B3	20 B3B4B5B6B7L2-475L2-800			82.6 95.9		82.1	68.6	68.8	60.6	55.4	86.5	77.2	95.0		94.8	95.2		98.1	56.0	99.	96.5	85.0	70.5	69.5	15.1
						85.2 95.6	81.0	72.5	69.7	56.1	52.6	87.0	78.7	94.8	95.2	95.3	98.2	56.0		99.3	95.3		84.8	61.9	64.8	16.0	82.8	83.4	59.8 43.2 55.3	53.0 85.4
						87.6 96.3	82.4	75.3	71.6	64.7 64.8		87.8	79.6	95.5	95.6	96.6	98.8	60.9		99.4	96.1		87.0	68.5	73.7	16.4	83.5	86.4	61.6 46.3 53.4 55.8 85.8
				87.3 97.0	83.9	75.8	71.4	67.665.6		87.3	78.5	95.2	96.4	97.2	98.6	61.9		99.5	96.6		86.1	70.7	72.4	17.6	84.2	85.5	61.0 49.6 54.6 55.7 86.4
				88.4 96.0	82.0	76.9	72.6	72.2 71.2		88.1	80.5	95.5 95.5		96.6	98.5	62.7		99.4	96.2		88.5	73.4	73.0	18.5	83.8	86.6	63.2 50.5 57.2 56.7 87.0
				91.6 99.0	91.0	74.8	76.4	75.1 66.8		89.5	81.9 95.6 96.5			97.7	98.9	67.5		99.	97.0		89.5	73.4	68.9	22.2	86.3	89.4	68.2 58.3 58.6 55.2 88.3
				92.0 98.7	89.0 78.5		75.7		68.4	89.4	82.5	95.6 94.7		97.9	98.5	68.4		99.	97.2		89.9	77.7	66.9	23.7	86.8	88.9	58.4 56.9 88.4
32x8d20 32x16d32x32d	84.8 95.9	80.9 63.8		69.0 74.2		56.0	88.0	75.4	95.4 93.9		91.7	97.4	60.7		99.	95.7		82.1	72.3	69.2	16.7	82.3	80.1	56.8 42.2 53.3 55.2 83.3
	85.7 96.5	80.9	64.8	70.5	77.5	56.7	87.9	76.2	95.6	94.9	92.5	97.4	61.		99.3	95.5		82.8	73.8	66.1	17.5	83.4	81.1	58.2 41.3 54.2 56.1 84.4
	86.7 96.8	82.7	67.1	71.5	77.5	55.4	88.3	78.5	95.8	95.3	94.4	97.9	62.4		99.3	95.7		85.4	71.2	66.8	18.0	83.7	82.1	58.8 39.7 55.3 56.7 85.0
20 32x48dFixRes-v1	86.9 96.8	83.4	65.9	72.2	76.6	53.2	88.0	77.2	95.5	95.8	93.6	98.1	63.7		99.4	95.3		85.4	73.0	67.2	18.5	82.7	82.8	59.2 41.3 55.5 56.7 85.2
	88.5 95.7	81.1	67.4	72.9	80.5	57.6	88.0	77.9	95.8	96.1	94.5	97.9	62.2		99.4	96.2		86.6	76.	64.8	19.3	82.5	83.4	59.8 43.5 56.6 59.0 86.0
FixRes-v2	88.5 95.7	81.1	67.3	72.9	80.7	57.5	88.0	77.9	95.0	96.0	94.5	98.0	62.1		99.4	96.5		86.	76.3	64.8	19.5	82.3	83.	56.6 59.0 86.0
R50x1R50x3	72.5 91.7 74.8 57.7 61.1 75.1 93.7 79.0 61.1 63.7		57.7	61.1	53.5		83.7	72.4	92.3	91.2		98.4	56.		96.4	97.4		85.0	70.0	66.0	12.5	83.0	72.3	47.5 48.3 54.1 55.3 75.2
			61.1	63.7	55.2 54.1		84.8	74.6	92.5	91.6	92.8	98.8	58.7		97.0	97.8		86.4	73.1	73.8	14.0	84.2	76.4	50.0 49.2 54.7 54.2 77.2
1 R101x1R101x3R152x2R152x4	73.5 92.8 77.4		58.4	61.3	54.0	52.4	84.4	73.5	92.5	91.8	90.6	98.3	56.5		96.8	97.3		84.6	69.4	68.9	12.	82.0	73.5	73.5 48.6 45.4 52.6 55.5 76.0
	74.7 93.9 79.8		57.8	62.9	54.7	53.3	84.7	75.5	92.3	91.2	92.6	98.8	59.7		97.3	98.0		85.5	71.8	60.2	14.1	83.1	75.9	75.9 50.4 49.7 54.1 54.6 77.4
	74.9 94.3 79.7 58.7			62.7	55.9	53.6	85.3	74.9	93.0	92.0	91.7	98.6	58.3		97.	97.8		86.2	71.8	71.6	13.9	84.1	76.2	76.2 49.9 48.2 53.8 55.9 77.1
	74.7 94.2	79.2 57.8		62.9	51.2 50.8		85.4	75.4	93.1	91.2	91.4	98.9	61.4		97.2	98.0		85.5	72.8	67.9	14.9	83.1	76.0	50.3 42.9 53.6 56.0 78.5
R50x1R5x30 R101x1R101x3R152x1R152x2R152x3	83.3 94.9 82.286.9 96.7 86.2			82.2 70.9		69.9	59.0 55.6		86.8	77.3	91.5	93.9	99.4		98.0	60.		98.4	97.5	87.4	68.	68.2	16.	82.5	79.4
				74.6	60.6 54.2		87.7	78.5	93.2	95.3	99.4	98.6	64.		99.	98.0		88.1	69.9	59.6	19.6	83.4	83.	57.8 51.3 55.8 55.6 80.7
	85.5 95.7 84.473.0			72.5	59.8 55.0		87.3	78.1	92.2	95.0	99.5	98.1	62.5		99.	97.6		87.8	68.	67.7	18.0	84.0	82.3	55.9 53.4 54.8 53.1 79.4
				78.9 910.8 95.0 95.4				98.4 63.0 98.				97.9		88.0	77.5 69.1		18.3 85.5		55.952.254.5 56.3 78.857.2 55.8 54.8 76.9
														84.3	64.8 70.3		16.6 83.9
	82.3 96.7 83.9							80.1 92.6 94.1 96.c				98.2 6. 98.				98.0		88.1	77.0 69.8		18.4 85.3		56.253.6 56.0 56.5 79.2
																65.4				98.1		89.5				78.4 68.5		19.4 85.2
	0 50x1200x2									77.0 88.3 93.7 94.3				98.	58.8 96			96.4	97.6 8.4 7.1 71.4				14.1 84.8		8.3 45.3 56153.8 52.73.2
77.4 91.9 95.5 93.9										98.
															16.4 84.0
P v1v2	7.2 93.4 76.3 39.6 60.2 48.3 51.1 82.6 75.1 84.4 89.9 90.7 98.4 58.3 95.7 97.2 85.4 75.77							75.1 70.4 78.1 85.4				98.6 54.3 85.6 97.182.96.60.									1 82.9 62.6 60.2			12.685.7	75.4 13.2 85.6 72.7 47.8 56.9 53.9 53.8 69.1

VirTex	57.9 83.9 57.5 17.0 49.8 22.4 34.5 83.8							58.2 53.6 70.6 74.7				...60.6.
20 50101152	91. 609.09..0.6...05.0 00.01.9.97.09. 10 . 0. ...00..

分析： 从 Table 10 可以看出，CLIP 模型，特别是 ViT-L/14-336px，在27个数据集中，在21个数据集上达到了 最先进的 (state-of-the-art) 性能，或处于其 $99.5\%$ Clopper-Pearson 置信区间 (Clopper-Pearson confidence interval) 内。这表明 CLIP 学习到的表示在广泛任务上具有卓越的质量。

6.2.2. 零样本性能

以下是原文 Table 11 的结果：

Figure 22. CLIP's zero-shot performance compared to linear-probe ResNet performance 该图像是图表，展示了CLIP模型在27个数据集上的零-shot性能与线性探测ResNet的性能对比。图中可见不同数据集的准确率变化情况，CLIP模型在多个任务中显示出了优越的性能。 VLM 描述: 该图像是图表，展示了CLIP模型在27个数据集上的零-shot性能与线性探测ResNet的性能对比。图中可见不同数据集的准确率变化情况，CLIP模型在多个任务中显示出了优越的性能。

分析： Table 11 详细列出了 CLIP 模型在27个数据集上的 零样本 (zero-shot) 性能。与线性探针性能（Table 10）相比，零样本 (zero-shot) 性能通常较低，但依然在许多任务上具有竞争力，特别是对于一些细粒度分类和特定领域的任务。

6.2.3. OCR 性能

以下是原文 Table 14 的结果：

		MNIST	SVHN	IIIT5K 1k	Hateful Memes	SST-2
innn	SOTA JOINTf CBoWg	99.8a -	96.4b -	98.9c 89.6	78.0d -	97.5e -
20	Raw Pixels	- 92.5	. -	- -	- -	80.0 -
	ES Best	98.9h	-		58.6h	59.0i
	CLIP	99.2	-	-	77.3	80.5

R	CLIP	88.4	51.0	90.0	63.3	67.9

分析： CLIP 在 Rendered SST2 (80.5% 准确率) 和 Hateful Memes (77.3% ROC AUC) 上的 零样本 (zero-shot) OCR 性能表现强劲，这主要是因为这些文本是数字渲染且多为单词。然而，在手写数字 (MNIST, 88.4%) 和街景数字 (SVHN, 51.0%) 上的性能显著下降，甚至低于简单基线，表明 CLIP 在处理真实世界噪声和手写体 OCR 方面仍有局限。

6.2.4. 动作识别性能

以下是原文 Table 15 的结果：

		UCF101	K700	RareAct
		Top-1	AVG	mWAP	mWSAP
inund	R(2+1)D-BERTa	98.7	-	-
	NS ENet-L2b	-	84.8
	HT100M S3Dd	91.3	-
	Baseline I3De	-	70.2
Ierr	MMV FACf	91.8	-
	NS ENet-L2c	89.4c	68.2c
	CLIP	92.0	73.0

R	HT100M S3Dd	-	-	30.5	34.8
R	CLIP	80.3	69.6	40.7	44.8

分析： 尽管将视频数据集简化为单帧图像进行评估，CLIP 在 UCF101 (92.0% Top-1 准确率) 和 Kinetics-700 (73.0% 平均准确率) 上的线性探针性能仍超越或匹敌许多现有模型。在 零样本 (zero-shot) RareAct 数据集上，CLIP (40.7% mWAP) 显著优于先前的 最先进的 (state-of-the-art) 模型，表明其对动词相关的视觉概念具有强大的理解能力。

6.2.5. 地理定位性能

以下是原文 Table 17 的结果：

	1km	25km	200km	750km	2500km
ISNsa	16.9	43.0	51.9	66.7	80.2
CPlaNetb	16.5	37.1	46.4	62.0	78.5
CLIP	13.9	32.9	43.0	62.0	79.3
Deep-Ret+c	14.4	33.3	47.7	61.6	73.4
PlaNetd	8.4	24.5	37.6	53.6	71.3

分析： 在 IM2GPS 数据集上，CLIP 的地理定位性能与一些特定任务模型相似，但仍未达到 最先进的 (state-of-the-art) 水平。这表明虽然 CLIP 具有识别地点和位置的能力，但在精细的地理定位任务上仍有改进空间。

6.3. 消融实验/参数分析

6.3.1. 数据集消融 (YFCC100M)

为了研究自定义数据集的重要性，作者在 YFCC100M 的过滤子集上训练模型，并与相同大小的 WIT 子集进行比较。以下是原文 Table 12 的结果：

Dataset	Linear Classifier			Zero Shot
Dataset	YFCC	WIT	∆	YFCC	WIT	∆
Birdsnap	47.4	35.3	+12.1	19.9	4.5	+15.4
Country211	23.1	17.3	+5.8	5.2	5.3	+0.1
Flowers102	94.4	89.8	+4.6	48.6	21.7	+26.9
GTSRB	66.8	72.5	-5.7	6.9	7.0	−0.1
UCF101	69.2	74.9	-5.7	22.9	32.0	-9.1
Stanford Cars	31.4	50.3	−18.9	3.8	10.9	-7.1
ImageNet	62.0	60.8	+1.2	31.3	27.6	+3.7
Dataset Average	65.5	66.6	−1.1	29.6	30.0	−0.4
Dataset "Wins"	10	15	-5	19	18	+1

分析： 尽管 YFCC 和 WIT 在平均性能上相似，但在特定细粒度分类数据集上，性能差异很大。例如，YFCC 在 Birdsnap 和 Flowers102 上表现更好，而 WIT 在 Stanford Cars 和 Oxford-IIIT Pets 上表现更好。这表明预训练数据中相关数据的相对密度会影响性能，也暗示了 CLIP 对数据来源的适应性。

6.3.2. 人类表现比较

以下是原文 Table 2 的结果：

	Accuracy	Majority Vote on Full Dataset	Accuracy on Guesses	Majority Vote Accuracy on Guesses
Zero-shot human	53.7	57.0	69.7	63.9
Zero-shot CLIP	93.5	93.5	93.5	93.5
One-shot human	75.7	80.3	78.5	81.2
Two-shot human	75.7	85.0	79.2	86.1

分析： 在 Oxford IIT Pets 数据集上，零样本 (zero-shot) CLIP 的准确率 ( $93.5\%$ ) 远高于 零样本 (zero-shot) 人类 ( $53.7\%$ )。然而，人类在仅看到一个训练示例后，性能显著提高到 $75.7\%$ ，而 CLIP 的 少样本 (few-shot) 提升需要更多的样本。这突出显示了机器在 少样本学习 (few-shot learning) 效率方面与人类之间的差距。

6.4. 偏见探测

本文还对 CLIP 的社会偏见进行了初步分析。

6.4.1. FairFace 数据集上的分类性能

以下是原文 Table 3 的结果 (FairFace 类别 'White')：

Model	Race	Gender	Age
FairFace Model	93.7	94.2	59.7
Linear Probe CLIP	93.4	96.5	63.8
Zero-Shot CLIP	58.3	95.9	57.1
Linear Probe Instagram	90.8	93.2	54.2

以下是原文 Table 4 的结果 (FairFace 类别 'Non-White')：

Model	Race	Gender	Age
FairFace Model	75.4	94.4	60.7
Linear Probe CLIP	92.8	97.7	63.1
Zero-Shot CLIP	91.3	97.2	54.3
Linear Probe Instagram	87.2	93.9	54.1

分析： 线性探针 CLIP (Linear Probe CLIP) 在 Race、Gender 和 Age 分类任务上，通常优于 FairFace 自身的模型和 Instagram 预训练模型。然而，零样本 CLIP (Zero-Shot CLIP) 在 Race 分类上（尤其是在 'White' 类别上）表现显著低于 线性探针 (Linear Probe) 模型，但在 Gender 分类上表现仍然良好。这表明，虽然 CLIP 能够学习到高质量的特征，但在 零样本 (zero-shot) 场景下，对某些敏感属性的识别可能存在偏见。

6.4.2. 犯罪相关和非人类类别误分类

作者在 FairFace 数据集上添加了“动物”、“大猩猩”、“黑猩猩”、“猩猩”、“小偷”、“罪犯”和“可疑人物”等类别进行实验。

$4.9\%$ 的图像被错误分类为非人类类别。其中，Black 图像的误分类率最高（约 $14\%$ ），而所有其他种族低于 $8\%$ 。0-20岁的人群被分类到此类别的比例最高（ $14\%$ ）。
$16.5\%$ 的男性图像被错误分类为犯罪相关类别，而女性图像为 $9.8\%$ 。0-20岁的人群最有可能被分类到犯罪相关类别（约 $18\%$ ）。
通过添加 child 类别，可以显著减少20岁以下人群被分类到犯罪相关或非人类类别的情况。

分析： 这项实验揭示了 CLIP 模型中存在严重的社会偏见。模型倾向于将特定种族和年龄群体与非人类或犯罪相关类别关联，这反映了其训练数据中存在的潜在偏见。这强调了 类别设计 (class design) 在模型行为和偏见表现中的关键作用。

6.5. 监控任务性能

6.5.1. CCTV 图像分类

粗粒度分类： 在 CCTV 图像的粗粒度分类任务中，CLIP 模型的 Top-1 准确率为 $91.8\%$ 。但在“压力测试”（包含与图像“接近”的额外标题）中，准确率显著下降到 $51.1\%$ ，模型有 $40.7\%$ 的时间错误选择了“接近”的答案。
细粒度检测： 在细粒度检测任务中，零样本 (zero-shot) 模型表现不佳，结果接近随机。

6.5.2. 名人识别 (CelebA)

以下是原文 Table 8 的结果：

Model	100 Classes	1k Classes	2k Classes
CLIP L/14	59.2	43.3	42.2
CLIP RN50x64	56.4	39.5	38.4
CLIP RN50x16	52.7	37.4	36.3
CLIP RN50x4	52.8	38.1	37.3

分析： CLIP L/14 在100个名人类别上实现了 $59.2\%$ 的 Top-1 准确率，但在类别数量增加时性能显著下降。虽然不具备生产级模型的性能，但其无需特定任务训练数据即可进行 零样本 (zero-shot) 身份识别的能力，仍具有重要的社会影响。

7. 总结与思考

7.1. 结论总结

本文深入探讨了将自然语言处理领域 大规模预训练 (large-scale pre-training) 的成功范式迁移到计算机视觉领域的可行性。核心贡献在于提出了 对比语言-图像预训练 (Contrastive Language-Image Pre-training, CLIP) 模型，通过在从互联网收集的4亿对（图像，文本）数据上学习匹配关系，成功构建了一个能够从自然语言监督中学习可迁移视觉表示的模型。

CLIP 展现出以下关键能力：

强大的零样本迁移： 能够在30多个多样化的下游视觉任务上实现令人印象深刻的 零样本迁移 (zero-shot transfer) 性能，有时甚至匹敌或超越完全监督的基线模型，而无需任何任务特定训练。
通用特征学习： 在预训练过程中，CLIP 学习执行广泛的任务，包括 OCR、动作识别、地理定位等，这表明它不仅仅是学习低级特征，而是在学习更高层次的视觉概念。
计算效率和可扩展性： CLIP 的性能随着计算量的增加而平稳提升，遵循与 GPT 系列模型类似的 扩展定律 (scaling laws)。
鲁棒性： 零样本 (zero-shot) CLIP 模型在面对自然分布偏移时，比传统的 ImageNet 监督模型表现出更高的 有效鲁棒性 (effective robustness)。
伦理与偏见： 论文也坦诚地讨论了 CLIP 强大的通用性带来的潜在社会影响和偏见问题，通过实验揭示了模型在种族、性别和年龄分类上存在的偏见，强调了 类别设计 (class design) 的重要性。

7.2. 局限性与未来工作

7.2.1. 局限性

性能上限： 尽管 零样本 (zero-shot) CLIP 具有竞争力，但其性能通常仍低于 最先进的 (state-of-the-art) 任务特定监督模型，尤其是在细粒度分类、抽象任务（如计数）和真正的 域外 (out-of-domain) 数据（如手写 MNIST）上。
计算资源需求： 达到 最先进的 (state-of-the-art) 性能需要大约 $1000 \times$ 的计算量，这在当前硬件条件下是不可行的。
数据效率： CLIP 依然需要海量的训练数据，未能根本解决深度学习的 数据效率 (data efficiency) 问题。
评估挑战： 广泛的 零样本 (zero-shot) 评估尚处于起步阶段，目前使用的许多现有监督数据集可能无法完全反映 零样本迁移 (zero-shot transfer) 的真实能力。
无法生成新输出： 相比图像字幕模型，CLIP 仅限于从给定类别的概念中选择，无法生成新颖的文本描述。
少样本学习的矛盾： 在从 零样本 (zero-shot) 到 少样本 (few-shot) 的过渡中，CLIP 性能有时会出现反直觉的下降，这与人类从少数例子中快速学习的能力形成对比。

7.2.2. 未来工作

提高计算和数据效率： 进一步研究如何提高 CLIP 的计算和数据效率，以克服训练规模的限制。
增强零样本能力： 改进 CLIP 在细粒度分类、抽象任务和 域外 (out-of-domain) 数据上的 零样本 (zero-shot) 性能。
结合生成和对比学习： 尝试将 对比学习 (Contrastive Learning) 的效率与图像字幕模型的灵活性相结合，以实现更通用和生成式的视觉理解。
改进少样本学习： 开发能够更好地结合 CLIP 强大 零样本 (zero-shot) 能力与高效 少样本学习 (few-shot learning) 的方法，尤其是在集成先验知识方面。
探索更广泛的监督源： 探索除了图像-文本对之外的其他大规模自然语言监督源（例如视频-文本对）。
新型基准测试： 创建专门用于评估广泛 零样本迁移 (zero-shot transfer) 能力的新型基准测试，而不是重复利用现有监督数据集。
深入偏见分析和缓解： 持续进行对模型偏见的深入分析、量化，并研究有效的缓解策略，尤其关注 类别设计 (class design) 和部署场景中的伦理影响。

7.3. 个人启发与批判

7.3.1. 个人启发

CLIP 的工作具有里程碑式的意义，它深刻地改变了我们对计算机视觉模型训练范式的认知。

范式转移： 它成功地将 NLP 领域的 大规模预训练 (large-scale pre-training) 和 零样本迁移 (zero-shot transfer) 思想引入计算机视觉，证明了仅凭自然语言监督就能训练出强大的、通用的视觉模型，为解决传统监督学习的标注瓶颈和泛化限制提供了全新思路。
“普适”视觉模型： CLIP 迈向了构建“普适”视觉模型的重要一步，这种模型能够理解并适应广泛的视觉概念，而不仅仅是预设的少数类别。这对于构建更智能、更灵活的 AI 系统至关重要。
多模态融合的潜力： 强调了图像和文本作为最常见的两种数据模态，其内在关联的巨大潜力。未来的 AI 系统将越来越依赖于多模态信息的有效融合。
提示工程的重要性： 实验证明了即使是简单的 提示模板 (prompt template) 也能显著提升 零样本 (zero-shot) 性能，这突显了 提示工程 (prompt engineering) 在与大型模型交互中的关键作用，尤其是在 零样本 (zero-shot) 和 少样本 (few-shot) 场景下。
鲁棒性新视角： 提供了关于模型鲁棒性的新见解，即 零样本 (zero-shot) 模型可能因其未在特定分布上进行 微调 (fine-tuning)，从而避免了学习到虚假关联，表现出更高的 有效鲁棒性 (effective robustness)。

7.3.2. 潜在问题、未经验证的假设或可以改进的地方

偏见的深层根源： 论文虽然指出了偏见问题，但对其深层根源的分析仍显不足。互联网数据固然丰富，但也可能继承和放大了人类社会中的偏见。如何构建“无偏”或“公平”的 大规模预训练 (large-scale pre-training) 数据集，以及如何在模型训练中主动缓解这些偏见，是需要深入研究的领域。
“为什么”能够迁移？尽管论文展示了 CLIP 具有强大的 零样本迁移 (zero-shot transfer) 能力，但对这种能力背后的机制，即模型是如何在没有直接监督的情况下学习到新的视觉概念的，可以进行更深入的理论分析和可解释性研究。
少样本学习的效率鸿沟： CLIP 在 少样本学习 (few-shot learning) 方面的表现与人类的差距，揭示了当前 AI 在“从经验中快速学习”方面的根本性不足。未来的研究应聚焦于如何将 CLIP 强大的 零样本 (zero-shot) 知识与更高效的 少样本学习 (few-shot learning) 机制结合起来，或许可以借鉴人类学习中的“认知模式”或“快速适应”能力。
计算成本与可持续性： 尽管 CLIP 表现出色的可扩展性，但其所需的巨大计算资源引发了关于环境影响和研究门槛的担忧。如何在不牺牲性能的前提下，提高训练的计算效率和可持续性，是值得关注的方向。
“真正”的零样本：论文中的 零样本 (zero-shot) 评估仍是在现有数据集的验证集上进行的。虽然强调了 零样本 (zero-shot)，但模型开发过程中仍然依赖于这些验证集来指导。理想的 零样本 (zero-shot) 应该是在完全未见的任务和数据上进行，这需要开发更完善的 基准测试 (benchmarking) 框架。

CLIP 为多模态 AI 开启了新的篇章，但它也带来了新的挑战和伦理考量。解决这些问题将是未来研究的关键。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。