论文状态：已完成

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing

发表：2023/06/19

远程感知视觉语言模型 (1)自监督学习与图像建模 (1)多任务遥感应用 (1)远程感知对象计数 (1)统一图像-文本数据格式 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出RemoteCLIP，这是首个针对遥感的视觉语言基础模型，解决了现有模型对低层特征的依赖和语言理解不足的问题。通过数据扩展策略，结合异构注释转化为统一的图像-文本格式，构建了12倍于现有数据集规模的预训练数据集，显著提升了零-shot和多任务遥感应用能力。

摘要

General-purpose foundation models have led to recent breakthroughs in artificial intelligence. In remote sensing, self-supervised learning (SSL) and Masked Image Modeling (MIM) have been adopted to build foundation models. However, these models primarily learn low-level features and require annotated data for fine-tuning. Moreover, they are inapplicable for retrieval and zero-shot applications due to the lack of language understanding. To address these limitations, we propose RemoteCLIP, the first vision-language foundation model for remote sensing that aims to learn robust visual features with rich semantics and aligned text embeddings for seamless downstream application. To address the scarcity of pre-training data, we leverage data scaling which converts heterogeneous annotations into a unified image-caption data format based on Box-to-Caption (B2C) and Mask-to-Box (M2B) conversion. By further incorporating UAV imagery, we produce a 12 $\times$ larger pretraining dataset than the combination of all available datasets. RemoteCLIP can be applied to a variety of downstream tasks, including zero-shot image classification, linear probing, $\textit{k}$ -NN classification, few-shot classification, image-text retrieval, and object counting in remote sensing images. Evaluation on 16 datasets, including a newly introduced RemoteCount benchmark to test the object counting ability, shows that RemoteCLIP consistently outperforms baseline foundation models across different model scales. Impressively, RemoteCLIP beats the state-of-the-art method by 9.14% mean recall on the RSITMD dataset and 8.92% on the RSICD dataset. For zero-shot classification, our RemoteCLIP outperforms the CLIP baseline by up to 6.39% average accuracy on 12 downstream datasets. Project website: https://github.com/ChenDelong1999/RemoteCLIP

思维导图

论文精读

中文精读约 49 分钟读完 · 36,919 字

1. 论文基本信息

1.1. 标题

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing (RemoteCLIP: 遥感领域的视觉语言基础模型)

1.2. 作者

Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu, Qiaolin Ye, Liyong Fu, Jun Zhou

作者背景与机构: 论文作者来自多个机构，主要包括：

范柳 (Fan Liu): 教授，就职于河海大学。研究兴趣包括计算机视觉 (computer vision)、模式识别 (pattern recognition) 和机器学习 (machine learning)。
陈德龙 (Delong Chen): 香港科技大学 (HKUST) 博士生。研究兴趣包括视觉语言 (vision-language) 和表示学习 (representation learning)。
关张庆云 (Zhangqingyun Guan): 河海大学硕士生。研究兴趣包括图像-文本检索 (image-text retrieval)、视觉语言学习 (vision-language learning) 和多模态学习 (multimodal learning)。
周晓聪 (Xiaocong Zhou): 河海大学硕士生。研究兴趣包括图像描述 (image captioning)、视觉语言学习 (vision-language learning) 和自监督学习 (self-supervised learning)。
朱嘉乐 (Jiale Zhu): 河海大学硕士生。研究兴趣包括语义分割 (semantic segmentation) 和视觉语言学习 (vision-language learning)。
叶巧林 (Qiaolin Ye): 南京林业大学副教授。研究兴趣包括机器学习 (machine learning)、数据挖掘 (data mining) 和模式识别 (pattern recognition)。
付利永 (Liyong Fu): 中国林业科学研究院全职教授。主要研究森林生物统计学。
周军 (Jun Zhou): 格里菲斯大学教授。研究兴趣包括模式识别 (pattern recognition)、计算机视觉 (computer vision) 和光谱成像 (spectral imaging) 及其在遥感 (remote sensing) 和环境信息学 (environmental informatics) 中的应用。

可见，研究团队涵盖了计算机视觉、机器学习、遥感和自然语言处理等多个交叉领域，具有多学科背景。

1.3. 发表期刊/会议

arXiv (预印本，发布于 2023-06-19T15:46:41.000Z)

相关领域声誉和影响力: arXiv 是一个开放获取的预印本服务器，允许研究人员在同行评审过程之前分享他们的研究成果。在人工智能和机器学习领域，许多重要的研究成果首先在 arXiv 上发布，因此它在快速传播新思想和技术方面具有重要影响力。

1.4. 发表年份

2023年

1.5. 摘要

通用基础模型 (General-purpose foundation models) 在人工智能领域取得了突破性进展。在遥感 (remote sensing) 领域，自监督学习 (self-supervised learning, SSL) 和掩码图像建模 (Masked Image Modeling, MIM) 已被用于构建基础模型。然而，这些模型主要学习低级特征 (low-level features)，且需要标注数据进行微调 (fine-tuning)。此外，由于缺乏语言理解能力，它们不适用于检索 (retrieval) 和零样本 (zero-shot) 应用。为了解决这些局限性，本文提出了 RemoteCLIP，这是首个面向遥感的视觉语言基础模型 (vision-language foundation model)，旨在学习具有丰富语义的鲁棒视觉特征 (robust visual features) 以及对齐的文本嵌入 (aligned text embeddings)，以便无缝应用于下游任务。为解决预训练数据稀缺的问题，本文利用数据扩充 (data scaling) 技术，通过“框到描述” (Box-to-Caption, B2C) 和“掩码到框” (Mask-to-Box, M2B) 转换，将异构标注 (heterogeneous annotations) 转换为统一的图像-描述数据格式。通过进一步整合无人机 (UAV) 图像，本文生成了一个比所有现有数据集总和大12倍的预训练数据集。RemoteCLIP 可以应用于多种下游任务，包括零样本图像分类 (zero-shot image classification)、线性探测 (linear probing)、k-NN分类 (k-NN classification)、少样本分类 (few-shot classification)、图像-文本检索 (image-text retrieval) 和遥感图像中的物体计数 (object counting)。在16个数据集（包括一个新引入的 RemoteCount 基准，用于测试物体计数能力）上的评估表明，RemoteCLIP 在不同模型规模下始终优于基线基础模型。令人印象深刻的是，RemoteCLIP 在 RSITMD 数据集上以 9.14% 的平均召回率 (mean recall) 和在 RSICD 数据集上以 8.92% 的平均召回率超越了现有最先进 (state-of-the-art) 方法。对于零样本分类，RemoteCLIP 在12个下游数据集上的平均准确率 (average accuracy) 比 CLIP 基线高出 6.39%。

1.6. 原文链接

https://arxiv.org/abs/2306.11029 PDF 链接: https://arxiv.org/pdf/2306.11029v4.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 遥感领域现有基础模型的局限性

在人工智能领域，通用基础模型 (General-purpose foundation models) 如 BERT、GPT 系列、CLIP 等，已经展示出强大的能力和泛化性。遥感 (remote sensing) 社区也致力于开发适用于卫星图像分析的基础模型。目前，主流方法主要受计算机视觉中自监督学习 (self-supervised learning, SSL)，特别是掩码图像建模 (Masked Image Modeling, MIM) 的启发。这些模型（如 SatMAE、Scale-MAE、ViTAE 等）在大型视觉Transformer (Vision Transformers, ViT) 和大规模卫星图像数据集上取得了初步进展。

然而，这些现有方法存在以下关键局限性，构成了本研究的动机：

低级特征学习: MIM 方法主要学习图像的低级特征 (low-level features)，例如对遮挡不变性 (occlusion invariance) 的特征。虽然这对于自然图像识别很重要（因为地面视角常有遮挡），但对于高空视角下的遥感图像，遮挡问题较少，因此这种特征的相关性较低。理论和实证研究表明，MIM 学习的特征缺乏高级语义 (semantics)，这对于高层语义识别任务（如线性探测和少样本学习）并非最优。此外，MIM 倾向于学习高频纹理特征 (high-frequency texture features)，而非长距离全局模式 (longer-range global patterns)，这与人类行为认知模式相悖，并限制了模型的性能和鲁棒性。
依赖标注数据和微调: 所有现有的遥感基础模型都需要标注数据和额外的微调 (fine-tuning) 阶段才能适应下游任务。这意味着它们无法像 CLIP 模型那样进行零样本推理 (zero-shot inference)，因为它们缺乏视觉和语言的联合建模和对齐 (joint modeling and alignment)。
缺乏语言理解能力: 由于没有进行视觉-语言 (vision-language) 的联合训练，这些模型不具备语言理解能力，因此无法应用于图像-文本检索 (image-text retrieval) 和零样本分类 (zero-shot classification) 等需要跨模态理解的应用。

2.1.2. 遥感领域数据稀缺问题

尽管一些近期工作引入了高质量的人工标注卫星图像描述数据集（如 RSICD、RSITMD、UCM），但它们的规模仍然远远不足。所有现有数据集的样本数量都少于 10k，导致在这些数据集上训练大型视觉语言基础模型时会严重过拟合 (overfitting)。这成为了在遥感领域构建强大视觉语言基础模型的主要瓶颈。

2.1.3. 视觉语言基础模型的重要性

作者强调，多模态 (multi-modality) 在构建地理空间人工智能 (GeoAI) 基础模型中应发挥关键作用。一个面向遥感的视觉语言基础模型可以为遥感场景中众多基于 CLIP 的视觉语言应用铺平道路，例如开放词汇目标检测 (open-vocabulary object detection)、零样本图像分割 (zero-shot image segmentation)、文本到图像生成和编辑 (text-to-image generation and editing) 以及多模态大语言模型 (multimodal large language models, LLMs)。

2.2. 核心贡献/主要发现

本文提出了 RemoteCLIP，旨在解决上述挑战，其主要贡献如下：

首个遥感视觉语言基础模型 (First Vision-Language Foundation Model for RS): 提出了 RemoteCLIP，这是首个专为遥感领域设计的视觉语言基础模型。它学习具有丰富语义的鲁棒视觉特征，并对齐文本嵌入，以支持下游任务。
大规模遥感图像-文本数据集 (Large-scale RS Image-Text Dataset): 针对预训练数据稀缺的问题，引入了一种数据扩充策略，通过“框到描述” (Box-to-Caption, B2C) 和“掩码到框” (Mask-to-Box, M2B) 转换，将异构标注（如目标检测边界框和语义分割图）统一为图像-描述数据格式。通过整合无人机 (UAV) 图像，生成的预训练数据集比所有现有图像-文本数据集总和大了 12 倍。
广泛的下游应用评估 (Diverse Downstream Applications): RemoteCLIP 在多种遥感下游任务中进行了广泛评估，包括零样本图像分类、线性探测、k-NN 分类、少样本分类、图像-文本检索和物体计数。
引入新基准 RemoteCount (New Benchmark RemoteCount): 开发了一个名为 RemoteCount 的新基准，用于测试遥感图像中的物体计数能力。
卓越的性能表现 (Superior Performance):
- 在16个数据集上的评估表明，RemoteCLIP 在不同模型规模下始终优于基线基础模型。
- 在图像-文本检索任务中，RemoteCLIP 在 RSITMD 和 RSICD 数据集上分别以 9.14% 和 8.92% 的平均召回率大幅超越了现有最先进 (state-of-the-art) 方法。
- 在零样本分类任务中，RemoteCLIP 在12个下游数据集上的平均准确率比 CLIP 基线高出 6.39%。
- 在少样本分类和线性探测任务中，RemoteCLIP 也展现出优越的性能。
强调数据为中心的方法论 (Data-centric Methodology): 论文强调了数据为中心的方法论在开发基础模型中的重要性。

3. 预备知识与相关工作

本节旨在为读者提供理解 RemoteCLIP 所需的基础知识背景，并将其与现有工作进行对比。

3.1. 基础概念

3.1.1. 基础模型 (Foundation Models)

概念定义: 基础模型 (Foundation Models) 是指在大规模、多样化数据集上预训练的、具有强大通用能力和泛化能力的模型。它们通常可以适应各种下游任务，而无需从头开始训练。这种“一劳永逸”的通用模型 (one-for-all) 在近年来取得了显著的突破，例如计算机视觉领域的 SimCLR、MAE 和 SAM，自然语言处理领域的 BERT 和 GPT 系列，以及视觉-语言领域的 CLIP 和 Flamingo。

3.1.2. 自监督学习 (Self-supervised Learning, SSL)

概念定义: 自监督学习 (SSL) 是一种机器学习范式，模型通过从数据本身生成“伪标签” (pseudo-labels) 来学习，而不是依赖人类标注的标签。它通过设计前置任务 (pretext tasks) 来学习鲁棒的视觉表示 (visual representations)。

两种主要方法:

对比学习 (Contrastive Learning): 通过最大化不同增强视图 (augmented views) 之间的一致性，同时最小化与负样本 (negative samples) 的一致性来学习表示。例如，SimCLR。
生成学习 (Generative Learning): 通过重建被损坏（如掩码）的输入数据来学习表示。最著名的例子是 Masked Image Modeling (MIM)。

3.1.3. 掩码图像建模 (Masked Image Modeling, MIM)

概念定义: 掩码图像建模 (MIM) 是一种生成式自监督学习方法，其中模型的输入图像的某些部分会被随机遮盖或“掩码”，然后模型的目标是预测或重建这些被掩码的像素或特征。例如，MAE (Masked Autoencoders)。在遥感领域，SatMAE、Scale-MAE 等模型都采用了 MIM。

MIM 的局限性（原文提及）:

学习低级特征: MIM 方法主要学习图像的低级特征，例如对遮挡不变性 (occlusion invariant features)。对于自然图像，这很重要，但对于高空视角下的遥感图像，遮挡较少，因此其必要性降低。
缺乏语义: 理论和实证研究表明，MIM 学习的特征缺乏高级语义 (semantics)，这对于高层语义识别任务（如线性探测和少样本学习）并非最优。
偏好高频纹理: MIM 方法倾向于学习高频纹理特征，而非捕获长距离全局模式 (longer-range global patterns)。

3.1.4. 视觉-语言模型 (Vision-Language Models, VLMs)

概念定义: 视觉-语言模型 (VLMs) 是一类能够同时理解和处理视觉信息（图像、视频）和语言信息（文本）的机器学习模型。它们旨在弥合图像和文本模态之间的语义鸿沟，使得模型能够执行跨模态任务，如图像描述 (image captioning)、视觉问答 (visual question answering) 和图像-文本检索 (image-text retrieval)。

3.1.5. CLIP (Contrastive Language-Image Pre-training)

概念定义: CLIP (Contrastive Language-Image Pre-training) 是 OpenAI 提出的一种里程碑式的视觉-语言模型。它通过在大规模图像-文本对数据集（数十亿对）上进行对比预训练 (contrastive pre-training) 来学习图像和文本的联合表示 (joint representations)。

CLIP 的核心思想: CLIP 训练一个图像编码器 ( $f^I$ ) 和一个文本编码器 ( $f^T$ )，将图像和文本分别映射到同一个低维嵌入空间中。其目标是使得匹配的图像-文本对在嵌入空间中距离更近（相似度更高），而不匹配的对距离更远（相似度更低）。

InfoNCE 损失 (InfoNCE Loss): CLIP 优化的是一种被称为 InfoNCE 损失的对比损失函数。该损失函数旨在最大化一批次内正样本对（匹配的图像和文本）之间的相似度，同时最小化与所有负样本对（不匹配的图像和文本）之间的相似度。

InfoNCE 损失公式: $\begin{array}{rcl} \mathcal{L}_{\mathrm{InfoNCE}} = & - & \underbrace{\left(\frac{1}{N} \sum_{i=1}^{N} \log \frac{\exp(z_{i}^{I} \cdot z_{i}^{T} / \tau_{\mathrm{CLIP}})}{\sum_{j=1}^{N} \exp(z_{i}^{I} \cdot z_{j}^{T} / \tau_{\mathrm{CLIP}})}\right)}_{\mathrm{image \ to \ text}} \\ & & \quad + \frac{1}{N} \sum_{i=1}^{N} \log \frac{\exp(z_{i}^{T} \cdot z_{i}^{I} / \tau_{\mathrm{CLIP}})}{\sum_{j=1}^{N} \exp(z_{i}^{T} \cdot z_{j}^{I} / \tau_{\mathrm{CLIP}})}) / 2 \end{array}$ 符号解释:

$N$ : 当前训练批次 (batch) 中的样本数量。
$(x_i^I, x_i^T)$ : 第 $i$ 个匹配的图像-文本对。
$f^I(x_i^I) = z_i^I$ : 图像编码器将图像 $x_i^I$ 编码得到的视觉嵌入 (visual embedding)。
$f^T(x_i^T) = z_i^T$ : 文本编码器将文本 $x_i^T$ 编码得到的文本嵌入 (text embedding)。
$z_i^I \cdot z_j^T$ : 图像嵌入 $z_i^I$ 和文本嵌入 $z_j^T$ 之间的点积相似度 (dot product similarity)。
$\tau_{\mathrm{CLIP}}$ : 一个可学习的温度参数 (learnable temperature parameter)，用于调整相似度分布的锐度。
$\exp(\cdot)$ : 自然指数函数。
$\log(\cdot)$ : 自然对数函数。
第一个求和项 (image to text): 计算从图像到文本的交叉熵损失，即对于每个图像 $z_i^I$ ，将其与所有文本嵌入 $z_j^T$ 进行比较，并鼓励其与匹配的文本 $z_i^T$ 的相似度最高。
第二个求和项 (text to image): 计算从文本到图像的交叉熵损失，即对于每个文本 $z_i^T$ ，将其与所有图像嵌入 $z_j^I$ 进行比较，并鼓励其与匹配的图像 $z_i^I$ 的相似度最高。
/2: 平均两个方向的损失。

InfoNCE 损失带来的重要特性:

表示对齐 (Representation Alignment): 使得匹配的图像和文本样本 $x_i^I, x_i^T$ 具有高相似度 $z_i^I \cdot z_i^T$ ，而不匹配的样本 $x_i^I, x_j^T (i \neq j)$ 具有低相似度。这对于跨模态检索任务至关重要。
表示分组 (Representation Grouping): 使得语义相似的单模态表示（例如，所有“飞机”图像的嵌入）在嵌入空间中聚集在一起，而语义不相似的表示则被拉开。这对于单模态识别任务（例如，线性分类）至关重要。

这两个特性，结合包含足够开放集概念的大规模数据集，使得 CLIP 模型能够实现强大的零样本分类 (zero-shot classification) 能力。

3.1.6. 零样本学习 (Zero-shot Learning)

概念定义: 零样本学习 (Zero-shot Learning) 是一种机器学习范式，允许模型识别在训练期间从未见过的类别，而无需任何训练样本。在视觉语言模型中，这通常通过将图像嵌入与文本描述（例如类别名称的嵌入）进行比较来实现。

3.1.7. 线性探测 (Linear Probing)

概念定义: 线性探测 (Linear Probing) 是一种评估预训练模型特征表示质量的方法。具体做法是：冻结预训练模型的特征提取层，然后在这些提取出的特征之上训练一个简单的线性分类器（例如逻辑回归）。如果线性分类器在目标任务上表现良好，则说明预训练模型学习到了高质量、可迁移的特征。

3.1.8. k-NN 分类 (k-NN Classification)

概念定义: k-NN (k-Nearest Neighbors) 分类是一种非参数的监督学习方法。它通过查找特征空间中距离最近的 k 个训练样本的类别来预测新样本的类别。在评估预训练模型时，k-NN 可以直接在提取的特征上进行，无需额外的训练（仅需计算距离）。

3.1.9. 少样本分类 (Few-shot Classification)

概念定义: 少样本分类 (Few-shot Classification) 是指模型仅通过少量带标签的训练样本就能学会识别新类别的能力。这对于标注数据稀缺的领域（如遥感）尤为重要。

3.1.10. 图像-文本检索 (Image-Text Retrieval)

概念定义: 图像-文本检索 (Image-Text Retrieval) 是一种跨模态任务，目标是根据给定的文本查询找到最相关的图像，或者根据给定的图像找到最相关的文本描述。视觉语言模型通过计算图像和文本嵌入之间的相似度来执行此任务。

3.2. 前人工作

3.2.1. 遥感领域的自监督基础模型

主流方法: 目前遥感社区的基础模型主要基于自监督学习 (SSL)，特别是掩码图像建模 (MIM)。
代表性工作: SatMAE [12]、Scale-MAE [13]、ViTAE [14]、Billion-scale MAE [15]、RingMo [16]、GFM [17] 等。这些模型在大型视觉 Transformer (ViT) 和大规模卫星图像数据集上应用 MIM，并取得了一些进展。
对比学习方法: 遥感领域也有一些基于对比学习的 SSL 方法，例如利用空间邻居作为增强数据 [32, 33, 34]、随机旋转 [35]、地理植被蒸馏 [36]、对比多视图编码 (CMC) [37] 等。
局限性 (如前所述): 这些 MIM-based 模型主要学习低级特征、缺乏语义，且需要标注数据和微调才能应用于下游任务，无法进行零样本推理，缺乏语言理解能力。

3.2.2. 遥感领域的视觉语言模型

早期图像-文本检索模型:
- Abdullah et al. [44] 和 Rahhal et al. [45] 率先使用 CNN 编码图像和 LSTM 编码文本描述进行遥感检索。
- Yuan et al. [46] 提出了动态融合模块来理解卫星图像的全局和局部尺度。
- Rahhal et al. [47] 提出了多语言框架。
- 其他工作包括 CMFM-Net [48]、HyperMatch [49]、KCR [50]、HVSA [51] 等，它们利用图像-文本检索进行知识获取。
局限性: 这些模型的有效性在检索之外的下游应用中尚未得到充分验证。

3.2.3. 基于 CLIP 的模型

CLIP 原理: CLIP [8, 52] 通过在大规模图像-文本对上训练双塔模型，对比地对齐表示。
近期发展: CLIP 模型的研究主要集中在模型和数据规模的扩展 [53]、引入自监督 [54-56]、提高预训练效率 [57, 58] 和少样本适应 [59, 60] 等方面。
领域特定 CLIP: 由于原始 CLIP 模型是在自然图像上训练的，研究人员开始开发领域特定的 CLIP 模型：
- 医疗领域: ConVIRT [61]、PubMedCLIP [62]、MedCLIP [63]、BioMedCLIP [64]。
- 电商领域: 基于大规模电商图像-文本数据集的 CLIP 模型 [65-67]。
遥感领域现状: 尽管 Zhang et al. [68] 的同期工作从大规模图像-文本数据集中收集航空图像来训练 CLIP 模型，但 CLIP 模型在遥感领域的探索相对有限。

3.3. 技术演进

遥感领域的基础模型技术演进可大致分为以下阶段：

传统特征工程阶段: 早期遥感图像分析主要依赖人工设计的特征（如纹理、光谱特征）和传统机器学习算法。
深度学习早期阶段: 引入 CNN 等深度学习模型进行特征提取和分类，但通常需要大量标注数据。
自监督学习 (SSL) 崛起阶段: 借鉴计算机视觉的 SSL 和 MIM 技术，开始在遥感图像上进行无监督预训练，以学习通用视觉表示，如 SatMAE。这一阶段的模型主要侧重于学习视觉的低级特征，并且不具备语言理解能力。
视觉-语言 (VL) 融合阶段: 认识到多模态数据（图像和文本）的价值，开始尝试将图像和文本信息联合建模，例如早期的图像-文本检索模型。
领域特定视觉-语言基础模型阶段 (本文工作): 本文所处阶段。在 CLIP 等通用 VLMs 强大能力的基础上，针对遥感领域的特点（如数据稀缺、图像特性差异）进行适应性开发，构建具有强大语义理解和零样本泛化能力的领域特定视觉语言基础模型。

3.4. 差异化分析

RemoteCLIP 与相关工作的主要区别和创新点在于：

与 MIM-based 遥感基础模型的区别:
- 语义理解: RemoteCLIP 通过视觉-语言对比学习，能够学习到丰富的语义信息和对齐的跨模态表示，从而支持零样本、少样本等高级语义任务。而 MIM 模型主要学习低级特征，缺乏语义。
- 语言能力: RemoteCLIP 原生支持语言理解，能够进行图像-文本检索、零样本分类和物体计数。MIM 模型不具备语言能力，无法直接处理文本查询。
- 下游应用: RemoteCLIP 支持更广泛的下游任务，尤其是在零样本泛化和跨模态任务方面表现优异。
与通用 CLIP 模型的区别:
- 领域适应性: 原始 CLIP 模型在自然图像上训练，在遥感数据上零样本性能不佳。RemoteCLIP 通过大规模遥感领域数据的持续预训练 (continual pre-training) 解决了域间隙 (domain gap) 问题，显著提升了在遥感任务上的性能。
- 数据策略: 针对遥感领域图像-文本对数据稀缺的问题，RemoteCLIP 创新性地提出了 Box-to-Caption (B2C) 和 Mask-to-Box (M2B) 转换方法，将现有的检测和分割数据集转换为大规模的图像-描述对，从而有效地扩充了预训练数据，这是通用 CLIP 模型训练时无需考虑的特殊挑战。
与现有遥感图像-文本检索模型的区别:
- 通用性与泛化能力: RemoteCLIP 作为一个基础模型，不仅在检索任务上达到 SOTA，其学到的表示还能够泛化到多种其他下游任务（分类、计数等），而现有检索模型通常专注于检索任务本身，其特征的通用性较弱。
- 模型规模和数据规模: RemoteCLIP 利用了大规模模型（如 ViT-L-14）和通过数据扩充技术获得的大规模遥感图像-文本数据进行训练，这使其能够学习到更强大、更鲁棒的表示。

4. 方法论

本节将详细拆解 RemoteCLIP 的技术方案，包括其核心原理、数据扩充策略以及预训练细节。

4.1. 方法原理

RemoteCLIP 的核心思想是借鉴 CLIP (Contrastive Language-Image Pre-training) 的成功范式，并针对遥感领域的数据特点和任务需求进行优化。其主要原理如下：

对比语言-图像预训练 (Contrastive Language-Image Pre-training, CLIP): RemoteCLIP 采用 InfoNCE 损失函数来学习图像和文本的联合嵌入空间。在这个空间中，匹配的图像和文本对的表示被拉近，而不匹配的对被推远。这使得模型能够学习到具有表示对齐 (representation alignment) 和表示分组 (representation grouping) 特性的跨模态表示。
解决数据稀缺问题 (Addressing Data Scarcity): 遥感领域高质量图像-文本对数据稀缺是训练大型视觉语言模型的关键挑战。RemoteCLIP 通过创新的数据扩充策略来解决这个问题，即将现有的异构标注（如目标检测的边界框和语义分割的掩码）统一转换为图像-描述数据格式，从而大大增加了预训练数据集的规模和多样性。
领域适应性 (Domain Adaptability): 尽管大型通用 CLIP 模型在遥感任务中表现出强大的视觉特征提取能力，但其跨模态对齐能力不足。RemoteCLIP 通过在扩充后的遥感领域特定数据集上进行持续预训练 (continual pre-training)，有效地弥合了通用领域与遥感领域之间的鸿沟，使其更好地适应遥感图像的特点和语义。

4.2. 核心方法详解

4.2.1. 对比语言-图像预训练 (Contrastive Language Image Pretraining)

RemoteCLIP 沿用了 CLIP 的基本训练策略，其目标是学习一个图像编码器 $f^I$ 和一个文本编码器 $f^T$ 。这两个编码器将图像 $x_i^I$ 和文本 $x_i^T$ 分别映射到同一个 $d_z$ 维的潜在表示空间，得到 $z_i^I \in \mathbb{R}^{d_z \times 1}$ 和 $z_i^T \in \mathbb{R}^{d_z \times 1}$ 。

InfoNCE 损失函数: 预训练过程中，模型优化以下双向 InfoNCE 目标函数，其中 $N$ 是批次大小， $\tau_{\mathrm{CLIP}}$ 是一个可学习的温度参数。该损失函数鼓励匹配的图像-文本对的嵌入向量相似度高，而不匹配的对的相似度低。 $\begin{array}{rcl} \mathcal{L}_{\mathrm{InfoNCE}} = & - & \underbrace{\left(\frac{1}{N} \sum_{i=1}^{N} \log \frac{\exp(z_{i}^{I} \cdot z_{i}^{T} / \tau_{\mathrm{CLIP}})}{\sum_{j=1}^{N} \exp(z_{i}^{I} \cdot z_{j}^{T} / \tau_{\mathrm{CLIP}})}\right)}_{\mathrm{image \ to \ text}} \\ & & \quad + \frac{1}{N} \sum_{i=1}^{N} \log \frac{\exp(z_{i}^{T} \cdot z_{i}^{I} / \tau_{\mathrm{CLIP}})}{\sum_{j=1}^{N} \exp(z_{i}^{T} \cdot z_{j}^{I} / \tau_{\mathrm{CLIP}})}) / 2 \end{array}$ 符号解释:

$N$ : 批次 (batch) 中的样本数量。
$z_i^I$ : 第 $i$ 个图像样本 $x_i^I$ 经过图像编码器 $f^I$ 得到的潜在表示。
$z_i^T$ : 第 $i$ 个文本样本 $x_i^T$ 经过文本编码器 $f^T$ 得到的潜在表示。
$z_i^I \cdot z_i^T$ : 匹配的图像嵌入和文本嵌入之间的点积相似度。
$z_i^I \cdot z_j^T (i \neq j)$ : 不匹配的图像嵌入和文本嵌入之间的点积相似度。
$\tau_{\mathrm{CLIP}}$ : 一个可学习的温度参数，用于调整相似度分布的平滑程度。

CLIP 在遥感任务中的潜力与挑战:

潜力: 原始 CLIP 模型虽然没有针对遥感领域进行特殊设计，但其学到的视觉特征在遥感任务中表现出强大的潜力。例如，在 OpenAI 的评估中，大型 CLIP 模型在 EuroSAT 和 RESISC45 数据集上的线性探测 (linear probing) 准确率高达 98.1% 和 94.9%，优于其他自监督和全监督视觉模型。这表明大规模对比图像-文本预训练能够产生高质量的视觉表示，适用于遥感领域。
挑战: 尽管视觉特征强大，但原始 CLIP 模型在遥感任务上的零样本检索和分类性能并不理想（例如，在 EuroSAT 和 RESISC45 上的零样本准确率分别为 59.6% 和 71.7%）。这表明其跨模态对齐 (cross-modal alignment) 能力对于遥感领域仍有不足。

持续预训练 (Continual Pretraining): 为解决上述挑战，RemoteCLIP 采用了持续预训练的方法。初步实验表明，在现有遥感检索数据集 (RET-3, 包含 RSITMD, RSICD, UCM) 的联合数据集上对小型 CLIP 模型（如 ResNet-50 和 ViT-Base-32）进行持续预训练，可以显著提升性能，甚至超越大型通用 CLIP 模型的零样本结果。然而，当尝试将模型规模扩大时（例如到 ViT-Large-14），由于持续预训练数据集规模过小 (RET-3 仅有 13k 样本)，会出现严重的过拟合 (overfitting) 现象。这突出了数据规模是制约性能进一步提升的关键瓶颈。

4.2.2. 通过标注统一进行数据扩充 (Data Scaling via Annotation Unification)

为了解决遥感领域预训练数据稀缺的问题，并匹配大型 CLIP 模型的容量，RemoteCLIP 提出了一种基于标注统一的数据扩充方法。该方法的核心思想是将现有的异构标注（如目标检测的边界框和语义分割的掩码）转换为统一的图像-描述数据格式。

下图（原文 Figure 2）概括了 RemoteCLIP 的整体流程，重点展示了第一步数据扩充：

该图像是示意图，展示了不同数据集和模型在遥感图像处理中的应用，包括图像编码器和文本编码器的结构，以及与数据集相关的任务，如零-shot 分类、线性分类和物体计数等。图示：RemoteCLIP 流程概览。Step 1：通过标注统一进行数据扩充。我们从现有遥感数据中收集了10个目标检测数据集 (DET-10)、4个语义分割数据集 (SEG-4) 和3个图像-文本数据集 (RET-3)。我们提出了 B2C 和 M2B 转换方法来统一这些异构标注，从而将训练数据扩充到所有涉及的图像-文本数据总和的12倍。Step 2：RemoteCLIP 预训练。我们进行持续预训练，以增强 RemoteCLIP 的领域适应性和泛化能力。Step 3：下游应用。在预训练之后，RemoteCLIP 可以应用于各种下游任务，包括零样本分类、图像-文本检索和物体计数。

4.2.2.1. 框到描述 (Box-to-Caption, B2C) 生成

Box-to-Caption (B2C) 生成方法能够根据目标检测数据集中已有的边界框标注和类别名称，生成相应的文本描述。该方法采用基于规则 (rule-based) 的策略，为每张图像生成五种不同的描述。

生成规则:

基于目标位置的描述（前两条）：
- 第一条描述聚焦于图像中心 (center) 的物体。
- 第二条描述聚焦于非中心 (non-center) 位置的物体。这种区分提供了关于物体在图像中空间分布的额外上下文信息。
基于物体类别数量的描述（后三条）：
- 这三条描述通过考虑图像中不同物体类别的数量来生成。
- 从边界框标注列表中随机选择物体，并根据其出现次数生成描述。
- 如果某个物体的出现次数超过十次，则使用更通用的词语（例如“很多” (many)、“大量” (a lot of)）来替代确切的数字，以增强描述的可读性和多样性。

4.2.2.2. 掩码到框 (Mask-to-Box, M2B) 转换

Mask-to-Box (M2B) 转换是将语义分割标注 (semantic segmentation annotations) 转换为边界框标注 (bounding box annotations) 的关键步骤，以便将分割数据集无缝集成到 B2C 生成流程中。

下图（原文 Figure 3）详细展示了 M2B 的实现细节：

Fig. 3: Mask-to-Box (M2B) implementation details. First, we get contours of per class from the input mask. Then, we select the lower left and upper right points of each contour as its bbx coordinates. Finally, we can get the bounding boxes of each category in the input mask. 图示：掩码到框 (M2B) 实现细节。首先，我们从输入掩码中获取每个类别的轮廓。然后，我们选择每个轮廓的左下角和右上角点作为其边界框坐标。最后，我们可以在输入掩码中获取每个类别的边界框。

转换步骤:

按类别处理分割掩码: 对分割掩码按类别进行处理，将每个像素的标签编码为对应的目标类别。
识别连通区域的轮廓点: 对于掩码中每个类别的连通区域，识别其轮廓点 (contour points)。这些轮廓点提供了确定边界框坐标所需的信息。
提取最小/最大坐标: 通过排序轮廓点的水平 (horizontal) 和垂直 (vertical) 坐标，可以提取出最小值和最大值，记为 $(x_{\min}, y_{\min})$ 和 $(x_{\max}, y_{\max})$ 。这些坐标定义了边界框。
轮廓提取算法: 为了增强清晰度，本文使用了 Suzuki's border following algorithm [73] 进行轮廓提取。
- 该算法定义了外边界 (outer boundary) 和孔边界 (hole boundary)。
- 它从左到右扫描二值图像 (binary image) 以寻找外边界或孔边界的起始点。
- 通过遍历起始点的邻域，算法根据特定规则决定是否更新像素值，并最终提取轮廓之间的层级关系。
- 由于该算法仅支持二值图像作为输入，因此需要按类别处理分割掩码：需要提取轮廓的类别被识别为前景 (foreground)，其余类别被视为背景 (background)。
确定边界框: 算法应用后，通过对每个连通组件的外边界轮廓点进行排序，将水平和垂直轴上的最小值和最大值作为每个连通组件的水平边界框 (horizontal bounding box) 坐标。

通过 M2B 转换，所有语义分割标注都被转换为边界框标注，然后通过 B2C 步骤生成相应的文本描述。

4.2.2.3. 样本去重 (Sample De-duplication)

RemoteCLIP 是在来自不同来源的数据集上训练的，并在各种下游基准上进行测试，因此避免可能的测试集污染 (test-set contamination) 至关重要。

去重方法: 本文采用 p-Hash [74] (感知哈希) 算法进行块级局部检测 (blockwise local detection) 以识别重复图像。

生成 p-Hash 值: 为所有图像生成 p-Hash 值。p-Hash 通过将图像转换为固定长度的哈希值来表示图像特征，用于图像检索和相似度计算。
分割 p-Hash 值和建立字典: 将每个 p-Hash 值分割成 $N$ 个段。同时，建立 $N$ 个字典，每个字典的键对应于段索引，值包含该段中所有图像的 p-Hash 值。
计算 Hamming 距离: 遍历所有字典，计算图像对之间 p-Hash 值的汉明距离 (Hamming distance)。
识别重复样本: 如果两个图像之间的汉明距离小于阈值 2，则认为它们是重复的。

阈值设定: 当阈值大于 2 时，容易出现过度去重 (excessive de-duplication)；反之，去重可能不足。最终，在不同的数据集中，移除的重复样本数量从 40 到 3k 不等。

4.3. 数据分析

通过上述 B2C 和 M2B 方法，本文能够高效地将各种检测和分割数据集中的异构标注转换为图像-文本样本。为了更深入地理解通过这一数据扩充流程生成的数据集，本节提供了详细的分析。

4.3.1. 数据集来源

下表（原文 Table I）提供了用于扩充数据的每个来源数据集的详细信息，这些数据集被分为三组：

	Dataset	Year	#Image	#Class	#Box	Avg. Res.	Description
RET-3	RSICD [29]	2017	8483			224x224	RSICD dataset contains more than ten thousands remote sensing images
	RSITMD [28]	2021	3603			256x256	RSITMD dataset contains multi-source remote sensing images and textual descriptions
	UCMerced [30]	2018	1676			256x256	UCMerced dataset covers 21 different scene classes, with 100 images per class.
DET-10	AU-AIR [85]	2020	32,823	8	132,031	1920x1080	AU-AIR is a UAV-based dataset.
	CARPK [86]	2017	1,568	1	106,690	1280x720	CARPK dataset contains nearly 90,000 cars collected from four different parking lots by drones.
	DIOR [76]	2019	23,463	20	192,472	800x800	DIOR dataset focuses on object detection in optical remote sensing images.
	DOTA [75]	2017	1,409	15	98,990	1504x1395	DOTA dataset consists of 188,8 instances of 15 different object classes, including airplanes, ships, and vehicles.
	HRRSD [77]	2019	21,761	13	57,137	1406x1264	HRRSD dataset is used for studying object detection in high-resolution remote sensing images.
	HRSC [80]	2017	1,055	1	1,055	1105x791	HRSC dataset includes high-resolution satellite images along with corresponding ship positions and class labels.
	LEVIR [79]	2020	3,913	3	11,028	800x600	LEVIR dataset is for remote sensing image change detection.
	RSOD [78]	2021	936	4	7,400	1050x900	RSOD dataset includes objects such as airplanes, oil tanks, sports fields, and overpasses.
	Stanford [87]	2016	17,351	6	355,443	1424x1088	Stanford dataset for human trajectory understanding in crowded scenes.
	Visdrone [88]	2018	6,471	11	77,547	1509x849	A UAV-based dataset for object detection and tracking.
SEG-4	iSAID [83]	2019	30,821	15	987,239	896x896	iSAID dataset for instance segmentation in aerial images.
	LoveDA [84]	2021	4,187	6	97,989	1024x1024	LoveDA dataset consists of high-resolution images and 166,768 annotated semantic objects from 3 cities.
	Potsdam [82]	2012	5,421	4	92,161	512x512	Potsdam dataset for urban semantic segmentation.
	Vaihingen [81]	2012	742	4	16,875	512x512	Vaihingen dataset for urban semantic segmentation.

1) 检索数据 (RET-3): 包含三个主要的遥感图像-文本数据集：RSICD [29]、RSITMD [28] 和 UCM [30]。这些数据集的描述是人工标注的，因此质量很高，但样本规模较小。
2) 检测数据 (DET-10): 这是数据集扩充的主要来源。本文结合了六个带有目标检测标注的遥感数据集，包括 DOTA [75]、DIOR [76]、HRRSD [77]、RSOD [78]、LEVIR [79] 和 HRSC [80]，以及四个额外的检测数据集 AU-AIR [85]、CARPK [86]、Stanford [87]、Visdrone [88]。这些数据集的分辨率显著高于 RET-3 数据集（至少 800x600 对比 224x224）。该组数据集还包含卫星图像和无人机 (UAV) 图像，展现出高度多样性。每张图像中的平均物体数量从 1 (HRSC) 到 70 (DOTA) 不等。
3) 分割数据 (SEG-4): 采用了四个流行的遥感语义分割数据集：Vaihingen [81]、Potsdam [82]、iSAID [83] 和 LoveDA [84]。这些数据集通过 M2B 转换和 B2C 生成文本描述。它们也具有高图像分辨率和领域多样性。平均物体数量从 2 (Vaihingen) 到 33 (iSAID) 不等。

4.3.2. 描述长度分布

下图（原文 Figure 4）展示了 RET-3 数据和最终数据集的描述长度分布：

Fig. 4: Distribution of caption length of existing image-text datasets UCM (pink), RSICD (yellow), RSITMD (green), and our final dataset (blue). 图示：现有图像-文本数据集 UCM (粉色)、RSICD (黄色)、RSITMD (绿色) 和我们最终数据集 (蓝色) 的描述长度分布。

从图中可以看出，B2C 和 M2B 方法生成的描述长度分布与 RET-3 数据的描述长度分布非常相似，这表明生成的描述在语言学特性上与人工标注的描述保持了一致性。

4.3.3. 词云和关键词

下图（原文 Figure 5）提供了词云和前20个关键词的可视化，其中过滤掉了常见的停用词 (stopwords) 如 "there", "an", "is" 等。

该图像是一个包含词云和柱状图的示意图，展示了UCM、RSICD和RSITMD等数据集中的对象计数信息。左侧为关键词云，右侧为对应的频率柱状图，反映不同场景或类别下的特征分布。 图示：现有图像-文本数据集 UCM、RSICD 和 RSITMD 以及通过 B2C 和 M2B 从 DET-10、SEG-4 和 RET-3 生成的最终数据集的词云和前20个关键词。

这些可视化展示了不同数据集中词汇的频率和重要性，进一步说明了通过数据扩充方法生成的描述能够捕捉遥感领域丰富的语义概念。

4.3.4. T-SNE 可视化

为了更直观地理解数据集的分布和多样性，本文对最终数据 (DET-10 + SEG-4 + RET-3) 进行了 T-SNE (t-Distributed Stochastic Neighbor Embedding) 可视化。从每个子集中随机选择 2k 样本进行可视化。

文本 T-SNE 可视化: 使用 paraphrase-distilrobertabase-v2 (来自 Sentence-Transformer) 提取文本描述的特征。
图像 T-SNE 可视化: 使用 OpenCLIP 中的 ViT-Base-32 提取视觉特征。

下图（原文 Figure 6）展示了 T-SNE 可视化结果：

图示：DET-10、SEG-4 和 RET-3 数据集的 T-SNE 可视化，分别从图像（左）和文本（右）角度展示。

从 Figure 6 可以看出，数据扩充方法提供了更加丰富的样本。从如此多样化的样本分布中学习多模态表示，能够产生一个强大的 RemoteCLIP 模型，以处理各种领域的下游任务。

5. 实验设置

本节将详细介绍 RemoteCLIP 的实验设置，包括模型架构、数据预处理、优化细节、使用的评估指标以及对比基线。

5.1. 数据集

5.1.1. 预训练数据集

组合数据: 最终的预训练数据集是通过结合 RET-3 (RSICD, RSITMD, UCM), DET-10 (AU-AIR, CARPK, DIOR, DOTA, HRRSD, HRSC, LEVIR, RSOD, Stanford, Visdrone), 和 SEG-4 (iSAID, LoveDA, Potsdam, Vaihingen) 数据集，并应用 M2B 和 B2C 转换策略构建的。
规模: 该数据集总共包含 165,745 张图像，每张图像配有 5 个对应的描述，从而产生了 828,725 个图像-文本训练对。
多样性: 整合了卫星图像和无人机 (UAV) 图像，以及多种不同类型的标注，大大增强了预训练数据的多样性。

5.1.2. 下游任务评估数据集

数据集: RSITMD [28], RSICD [29], UCM [30] (统称为 RET-3)。这些是遥感领域常用的图像-文本检索基准。

5.1.2.2. 物体计数 (Object Counting)

数据集: 新引入的 RemoteCount 基准。
- 来源: 主要从 DOTA 数据集的验证集 (validation set) 中选择。
- 规模: 包含 947 个图像-文本对。
- 类别: 涵盖 13 种类别，包括飞机 (planes)、直升机 (helicopters)、环岛 (roundabouts)、桥梁 (bridges)、棒球场 (baseball diamonds)、田径场 (ground track fields)、篮球场 (basketball courts)、网球场 (tennis courts)、港口 (harbors)、足球场 (soccer fields)、游泳池 (swimming pools)、船舶 (ships) 和储油罐 (storage tanks)。
- 标注: 由五名研究生标注，并经过仔细的人工验证以确保质量。
- 样本示例: 下图（原文 Figure 7）展示了 RemoteCount 数据集的一些样本可视化：
  
  图示：RemoteCount 数据集样本的可视化。感兴趣的物体用红色边界框标注。

5.1.2.3. 零样本/少样本/线性探测/k-NN分类 (Zero-shot/Few-shot/Linear Probing/k-NN Classification)

数据集: 共 12 个下游数据集：PatternNet [97]、EuroSAT [98]、OPTIMAL31 [99]、RSC11 [100]、AID [101]、MLRSNet [102]、RSICB128 [103]、RSI-CB256 [103]、RESISC45 [104]、WHU-earth [105]、WHU-RS19 [106] 和 RS2800 [107]。这些数据集涵盖了不同的遥感场景和任务，例如土地覆盖分类 (land cover classification) 和场景识别 (scene recognition)。

5.2. 评估指标

本论文使用了多种评估指标来衡量 RemoteCLIP 在不同任务上的性能。

5.2.1. 召回率@k (Recall@k, R@k)

概念定义: Recall@k 衡量的是在检索任务中，模型在前 $k$ 个检索结果中成功找到相关项的比例。它关注的是模型找到所有相关项的能力。
数学公式: $\text{Recall@k} = \frac{\text{Number of relevant items in top-k results}}{\text{Total number of relevant items}}$
符号解释:
- $k$ : 检索结果列表的长度，即考虑前 $k$ 个结果。
- Number of relevant items in top-k results: 在前 $k$ 个检索结果中实际相关项的数量。
- Total number of relevant items: 对于给定查询，数据集中所有相关项的总数。

5.2.2. 平均召回率 (Mean Recall)

概念定义: 平均召回率是 R@1、R@5 和 R@10 这三个指标的平均值。它提供了一个综合性的检索性能衡量，因为不同的 $k$ 值可以反映模型在不同粒度下的检索能力。
数学公式: $\text{Mean Recall} = \frac{\text{Recall@1} + \text{Recall@5} + \text{Recall@10}}{3}$
符号解释:
- Recall@1: 在检索结果的第一个位置找到相关项的召回率。
- Recall@5: 在检索结果的前五个位置中找到相关项的召回率。
- Recall@10: 在检索结果的前十个位置中找到相关项的召回率。

5.2.3. 准确率 (Accuracy)

概念定义: 准确率是分类任务中最常见的评估指标之一，衡量的是模型正确预测的样本数量占总样本数量的比例。它表示模型整体分类的正确性。
数学公式: $\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$
符号解释:
- Number of correct predictions: 模型做出正确预测的样本数量。
- Total number of predictions: 进行预测的总样本数量。

5.3. 对比基线

本文将 RemoteCLIP 与多种基线模型进行了比较，以全面评估其性能：

通用 CLIP 模型: 来自 OpenAI 和 OpenCLIP 的各种规模的 CLIP 模型，包括 ResNet-50、ViT-Base-32 和 ViT-Large-14。
遥感领域特定图像-文本检索模型:
- $VSE++$ [89], SCAN [90], MTFN [91], AMFMN [92], LW-MRC-u [45], GaLR [46], CMFM-Net [48], HyperMatch [49], HVSA [51], FBCLM [93], DOVE [94], PIR [95]。这些模型代表了图像-文本检索领域的最新进展。
- Rahhal et al. [47]：一个基于微调 CLIP 模型的检索方法。
持续预训练 CLIP (CLIP-CL): 在仅使用现有 RET-3 数据集上进行持续预训练的 CLIP 模型。这用于验证数据扩充的有效性。
自监督学习 (SSL) 基础视觉模型:
- SwAV, Barlow Twins, VICReg: 这些是通用的 SSL 模型，用于学习图像的视觉表示。
- ImageNet 预训练模型: 在 ImageNet 数据集上预训练的 ResNet-50 和 ViT-Base-32 模型。
现有遥感基础模型:
- ViTAE [14] (Vision Transformer with Adaptive Expansion): 遥感领域的一个 MIM-based 基础模型。
- SatMAE [12] (Satellite Masked Autoencoder): 遥感领域另一个 MIM-based 基础模型。

5.4. 模型架构

RemoteCLIP 采用了 CLIP 的双塔架构，包括一个图像编码器和一个文本编码器。

图像编码器 (Visual Backbone): 选择了三种不同规模的视觉骨干网络来证明数据扩充策略对不同大小模型均有效：
- 小规模: ResNet-50 (38M 参数)。其结构基于 OpenAI 版本进行了修改：将原始的三个 $3 \times 3$ 卷积替换为一个 $7 \times 7$ 卷积；将平均池化替换为最大池化；在 ResNet-50 架构顶部添加了一个抗锯齿 rect-2 blur pooling 层；原始的平均池化层被基于多头自注意力 (multi-head self-attention) 的池化层替换。
- 中等规模: ViT-Base-32 (87M 参数)。将输入图像分割成 $32 \times 32$ 像素的固定大小图像块，包含 12 层和 12 个注意力头。
- 大规模: ViT-Large-14 (304M 参数)。将输入图像分割成 $14 \times 14$ 像素的图像块，包含 24 层和 16 个注意力头。
文本编码器 (Text Encoder): 采用 Transformer 架构，包含 12 层和 8 个注意力头。最大词元序列长度 (maximum token sequence length) 设置为 77，与原始 OpenAI CLIP 保持一致。
损失函数: InfoNCE 损失函数作用于图像和文本骨干网络生成的 [CLS] 词元。

5.5. 数据预处理和增强

数据增强 (Data Augmentation): 使用标准操作进行数据增强：
- 随机裁剪 (Random Crops): 调整图像大小以符合模型输入规范。
- 随机水平翻转 (Random Horizontal Flips): 增加数据集多样性。
- 随机旋转 (Random Rotations): 对图像应用 $0^\circ, 90^\circ, 180^\circ, 270^\circ$ 的随机旋转，以鼓励旋转不变性 (rotation invariance)。

5.6. 优化细节

实现基础: RemoteCLIP 的实现基于 OpenCLIP 开发的 ITRA 代码库。
混合精度训练 (Automatic Mixed-Precision, AMP): 采用 AMP 来保持模型准确性的同时减少内存使用。
优化器 (Optimizer): 使用 Adam 优化器。
学习率调度器 (Learning Rate Scheduler): 采用线性预热 (linear warm-up) 和余弦学习率调度器 (cosine learning rate scheduler)。
学习率 (Learning Rate): 分别为 ResNet-50 设置 7e-5，ViT-Base-32 设置 4e-5，ViT-Large-14 设置 1e-4。
批次大小 (Batch Size): 分别为 ResNet-50 设置 256，ViT-Base-32 设置 256，ViT-Large-14 设置 28。
训练步数: 所有模型共训练 108,215 步。
训练硬件和时间: 在一台单节点 $4 \times$ NVIDIA 3090Ti 机器上，训练最大的 RemoteCLIP 模型需要 233.4 小时。

5.6.1. 少样本分类的额外优化设置

训练策略: 随机采样 1、4、8、16 和 32 样本的少样本训练集。
分类器: 在图像表示之上训练一个额外的线性层，使用逻辑回归 (logistic regression)。
逻辑回归超参数:
- 学习率: 0.8
- 优化器: SGD
- 学习率调度策略: CosineAnnealingLR
- 损失函数: CrossEntropyLoss
- 权重衰减 (Weight Decay): 4e-5
- 总 Epoch 数: 1000
- 批次大小: 10,000
超参数选择: 通过 5 次随机搜索 (random search) 选择最佳超参数，每次迭代使用不同的学习率和权重衰减系数，并记录每个阶段的准确率。最终使用获得最佳准确率的参数进行少样本分类。

5.6.2. k-NN 分类超参数

近邻数量 k: 设置为 20。
温度参数 T: 设置为 0.07。
输出: 采用前 1 类别 (top 1 category) 的准确率作为 k-NN 分类的输出。

6. 实验结果与分析

本节将详细阐述 RemoteCLIP 在多项遥感下游任务上的实验结果，并对其性能进行深入分析。

6.1. 核心结果分析

下表（原文 Table II）总结了 RemoteCLIP 在三个遥感图像-文本检索基准 (RSITMD, RSICD, UCM) 上的性能，并与先前结果进行了比较。

Testing Dataset	Training Dataset	Training Samples	Date	Method	Image Backbone Name	Params	Text Backbone Name	Params	Total Params	Image to Text			Text to Image			Mean Recall
Testing Dataset	Training Dataset	Training Samples	Date	Method	Image Backbone Name	Params	Text Backbone Name	Params	Total Params	R@1	R@5	R@10	R@1	R@5	R@10	Mean Recall
RSITMD			Jul 2017	VSE++ [89]	VGG19		GRU			10.38	27.65	39.60	9.82	24.87	38.67	25.16
			Mar 2018	SCAN [90]	ResNet-101		GRU			11.06	25.88	39.38	9.96	29.38	24.83	23.42
			Aug 2019	MTFN [91]	ResNet		GRU			10.40	27.65	36.28	10.43	31.37	42.12	26.38
			Aug 2020	AMFMN [92]	ResNet-50		GloVe + fasText			10.63	24.78	41.81	11.51	34.69	54.87	29.72
			Dec 2020	LW-MRC-u [45]	Big Transfer		Bi-LSTM			9.73	26.77	37.61	9.25	34.07	54.03	28.58
			Apr 2022	GaLR [46]	ResNet-18		GRU			14.82	31.64	42.48	11.15	36.08	51.68	31.02
			Dec 2022	CMFM-Net [48]	ResNet-18		GRU			11.73	28.76	40.04	10.00			28.10
			Dec 2022	HyperMatch [49]	ResNet-18		GRU			10.84	28.10	38.05	9.16	32.31	46.64	27.66
			Oct 2022	Rahhal et al. [47]	ViT-B-32	87	Transformer			19.69		54.42		49.73	66.59	41.38
			Sept 2023	HVSA [51]	Resnet-18		GRU			12.84	30.53	45.89	11.43	37.01	57.94	32.44
			May 2022	FBCLM [93]	ResNet-18		GRU			13.20	32.08	45.58	11.43	39.20	57.45	33.16
			Oct 2023	DOVE [94]	ResNet-50		BERT			16.81	36.80	49.93	10.44	49.93	66.50	38.70
			Oct 2023	PIR [95]	SwinT+ResNet-50	38	Bert			18.14	41.15	51.33	15.09	41.46	63.41	38.24
	RET-3	13,713	Jun 2023	CLIP-CL	ResNet-50	38	Transformer			19.25	39.82	63.27	22.61	55.27	56.64	47.63
	RET-3	13,713	Jun 2023	CLIP-CL	ViT-B-32	87	Transformer			23.67	47.57	65.71	19.29	51.55	70.58	46.40
	RET-3 + DET-10 + SEG-4	165,745	Jun 2023	RemoteCLIP	ResNet-50	38	Transformer			24.78	50.00	64.60	22.17	50.52	69.87	47.01
			Jun 2023	RemoteCLIP	ViT-B-32	87	Transformer			27.88	52.43	66.94	23.76	59.51	73.41	50.66
			Jun 2023	RemoteCLIP	ViT-L-14	304	Transformer			28.76	56.59	70.66	26.73	64.51	77.73	54.16
	RSICD			Jul 2017	VSE++ [89]	VGG19		GRU			15.85	36.56	47.88	12.89	36.40	51.68	33.54
				Mar 2018	SCAN [90]	ResNet-101		GRU			17.46	37.58	49.51	11.32	33.71	49.74	33.22
			Aug 2019	MTFN [91]	ResNet		GRU			16.29	35.53	47.88	12.89	37.17	49.74	33.25
			Aug 2020	AMFMN [92]	ResNet-50		GloVe + fasText			18.28	36.08	50.43	18.85	39.19	55.33	36.36
			Dec 2020	LW-MRC-u [45]	Big Transfer		Bi-LSTM			17.89	38.74	52.33	17.17	40.92	56.12	37.19
			Apr 2022	GaLR [46]	ResNet-18		GRU			19.85	38.28	51.68	18.96	43.76	59.08	38.60
			Dec 2022	CMFM-Net [48]	ResNet-18		GRU			18.66	37.01	49.74	18.96	43.76	58.61	37.79
			Dec 2022	HyperMatch [49]	ResNet-18		GRU			17.75	37.01	49.51	17.75	41.68	57.21	36.82
			Oct 2022	Rahhal et al. [47]	ViT-B-32	87	Transformer			22.31		61.41		48.88	69.87	42.50
			Sept 2023	HVSA [51]	Resnet-18		GRU			19.75	41.68	57.21	19.14	44.59	61.41	39.13
			May 2022	FBCLM [93]	ResNet-18		GRU			20.62	42.82	58.61	21.13	46.94	63.74	42.31
			Oct 2023	DOVE [94]	ResNet-50		BERT			22.35	46.94	63.74	22.72	49.74	67.01	45.42
			Oct 2023	PIR [95]	SwinT+ResNet-50	38	Bert			27.26	50.14	66.50	25.60	55.27	70.39	49.19
RET-3		13,713	Jun 2023	CLIP-CL	ResNet-50	38	Transformer			26.35	51.36	66.94	30.12	62.82	77.73	52.55
RET-3		13,713	Jun 2023	CLIP-CL	ViT-B-32	87	Transformer			32.94	59.72	75.40	35.96	68.03	80.88	58.82
RET-3 + DET-10 + SEG-4		165,745	Jun 2023	RemoteCLIP	ResNet-50	38	Transformer			35.96	62.82	77.73	32.94	66.50	80.88	59.14
			Jun 2023	RemoteCLIP	ViT-B-32	87	Transformer			37.42	66.50	80.88	35.96	71.31	83.75	62.64
			Jun 2023	RemoteCLIP	ViT-L-14	304	Transformer			42.82	71.31	83.75	40.92	76.12	88.41	67.22
UCM				Jul 2017	VSE++ [89]	VGG19		GRU			18.39	37.42	51.05	12.38	44.76	65.71	38.29
				Mar 2018	SCAN [90]	ResNet-101		GRU			20.83	40.48	52.38	14.04	47.62	69.05	40.73
			Aug 2019	MTFN [91]	ResNet		GRU			19.74	39.29	50.00	13.88	46.43	67.86	39.53
			Aug 2020	AMFMN [92]	ResNet-50		GloVe + fasText			21.05	40.95	52.38	14.28	48.81	70.24	41.29
			Dec 2020	LW-MRC-u [45]	Big Transfer		Bi-LSTM			20.12	40.48	53.57	14.28	49.05	71.43	41.49
			Apr 2022	GaLR [46]	ResNet-18		GRU			23.81	45.24	58.33	16.67	52.38	73.81	45.04
			Dec 2022	CMFM-Net [48]	ResNet-18		GRU			22.62	43.33	56.67	15.71	50.48	72.62	43.57
			Dec 2022	HyperMatch [49]	ResNet-18		GRU			21.90	42.86	55.71	15.24	49.52	71.90	42.86
			Oct 2022	Rahhal et al. [47]	ViT-B-32	87	Transformer			27.86		68.33		58.57	82.38	58.70
			Sept 2023	HVSA [51]	Resnet-18		GRU			24.76	47.62	61.90	17.14	54.29	77.14	47.14
			May 2022	FBCLM [93]	ResNet-18		GRU			25.24	48.10	61.90	17.14	54.76	77.14	47.38
			Oct 2023	DOVE [94]	ResNet-50		BERT			26.67	48.10	61.90	18.10	55.71	77.14	47.94
			Oct 2023	PIR [95]	SwinT+ResNet-50	38	Bert			28.57	51.43	64.29	20.48	58.57	80.95	50.72
	RET-3	13,713	Jun 2023	CLIP-CL	ResNet-50	38	Transformer			35.24	59.52	71.43	25.71	63.81	82.86	56.43
	RET-3	13,713	Jun 2023	CLIP-CL	ViT-B-32	87	Transformer			41.90	66.67	79.05	32.86	70.48	85.71	62.78
	RET-3 + DET-10 + SEG-4	165,745	Jun 2023	RemoteCLIP	ResNet-50	38	Transformer			42.86	68.10	80.48	33.81	72.86	88.10	64.37
			Jun 2023	RemoteCLIP	ViT-B-32	87	Transformer			47.62	72.38	84.76	38.10	76.19	89.05	68.02
			Jun 2023	RemoteCLIP	ViT-L-14	304	Transformer			50.48	75.71	86.67	42.38	78.10	90.48	70.64

分析:

SOTA 性能: RemoteCLIP 模型在所有三个检索基准上均达到了最先进 (SOTA) 的性能。
- 在 RSITMD 和 RSICD 这两个具有挑战性的数据集上，RemoteCLIP (ViT-L-14) 相比于之前的 SOTA 方法 (Rahhal et al. [47]) 分别提升了 9.14% 和 8.92% 的平均召回率 (Mean Recall)。
- 即使是较小规模的 RemoteCLIP 模型（如基于 ResNet-50 的版本）也能在 RSITMD 和 RSICD 数据集上超越许多先前的 SOTA 方法。
数据扩充的有效性:
- 对比 CLIP-CL (仅使用 RET-3 数据进行持续预训练) 和 RemoteCLIP (使用 RET-3 + DET-10 + SEG-4 扩充数据)，RemoteCLIP 的性能显著提升。这充分证明了通过数据扩充策略（B2C 和 M2B）构建大规模、多样化的遥感预训练数据集的有效性。例如，在 RSICD 上，ResNet-50 骨干的 CLIP-CL 平均召回率为 52.55%，而 RemoteCLIP (ResNet-50) 达到了 59.14%，提升了 6.59%。
模型规模效应: 结果清晰地表明，模型规模是影响性能的重要因素。更大的模型（如 ViT-L-14）通常能获得更好的性能。
超越单塔模型: 大型 CLIP 模型（以及 RemoteCLIP）在性能上大幅超越了 ALBEF 和 BLIP 等单塔视觉语言模型，这再次验证了 CLIP 双塔架构结合大规模模型和大规模预训练数据的强大潜力。

6.1.2. 物体计数 (Object Counting)

本文引入了一个新的遥感计数基准 RemoteCount，并比较了 CLIP 和 RemoteCLIP 在零样本物体计数任务上的准确性。

下图（原文 Figure 8）展示了物体计数实验的结果：

Fig. 8: The object counting experiment of CLIP and RemoteCLIP on RemoteCount dataset. Upper row: The confusion matrix of CLIP and RemoteCLIP. Bottom row: Top-1 accuracy to top-10 accuracy of CLIP and RemoteCLIP. 图示：CLIP 和 RemoteCLIP 在 RemoteCount 数据集上的物体计数实验。上排：CLIP 和 RemoteCLIP 的混淆矩阵。下排：CLIP 和 RemoteCLIP 的 Top-1 准确率到 Top-10 准确率。

分析:

混淆矩阵: 上方的混淆矩阵（已归一化）显示，CLIP 在此任务中表现不佳，预测结果分布较为分散。而 RemoteCLIP 的混淆矩阵具有清晰的对角线，表明其预测准确率更高。
Top-k 准确率: 下方的图表展示了 CLIP 和 RemoteCLIP 的 Top-1 到 Top-10 准确率。
- RemoteCLIP 在所有 Top-k 准确率级别上均显著优于 CLIP。例如，在 Top-6 准确率级别上，RemoteCLIP 仍保持明显优势。
对数字表示的鲁棒性: 实验还测试了将数字用单词（"one"-"ten"）替换为阿拉伯数字（"1"-"10"）的变体（图中标注为 "(digit)"）。结果显示 RemoteCLIP 对这种变化表现出更高的鲁棒性。
细粒度语言理解: RemoteCLIP 在物体计数任务上的优异表现，证明了其具备细粒度的语言理解能力，能够准确理解并计数图像中特定类别的物体数量。

6.1.3. 零样本图像分类 (Zero-shot Image Classification)

下表（原文 Table III）展示了 RemoteCLIP 模型在 12 个遥感图像分类数据集上的零样本分类结果。

Method	Backbone	PatternNet	EuroSAT	OPTIMAL31	RSC11	AID	MLRSNet	RSICB128	RSI-CB256	RESISC45	WHU-earth	WHU-RS19	RS2800	Average
Method	Backbone													Average
CLIP	ResNet-50	26.56	34.24	40.42	42.02	45.54	46.96	53.57	57.35	62.14	64.52	64.54	69.42	50.61
RemoteCLIP	ResNet-50	13.95	33.03	56.25	17.19	40.68	45.51	53.24	86.55	62.86	70.16	66.93	95.15	53.46
±Δ		-12.61	-1.21	+15.83	-24.83	-4.86	-1.45	-0.33	+29.20	+0.72	+5.64	+2.39	+25.73	+2.85
CLIP	ViT-B-32	28.88	37.35	51.18	47.11	55.29	58.95	60.92	65.65	59.31	68.62	58.35	80.61	56.02
RemoteCLIP	ViT-B-32	24.18	39.50	63.12	35.96	59.28	57.71	70.30	91.30	68.57	77.96	64.94	96.12	62.41
±Δ		-4.70	+2.15	+11.94	-11.15	+3.99	-1.24	+9.41	+25.65	+9.26	+9.34	+6.59	+15.51	+6.39
CLIP	ViT-L-14	40.23	47.94	58.33	60.21	64.89	73.78	69.23	69.88	72.15	76.83	67.11	87.50	65.67
RemoteCLIP	ViT-L-14	37.22	52.82	70.83	59.94	66.32	68.75	79.84	87.90	72.32	90.05	74.90	94.66	71.30
±Δ		-3.01	+4.88	+12.50	-0.27	+1.43	-5.03	+10.61	+18.02	+0.17	+13.22	+7.79	+7.16	+5.63

分析:

整体提升: RemoteCLIP 在零样本图像分类任务上整体优于原始 CLIP 基线。
- 在 12 个下游数据集上，RemoteCLIP 分别以 +2.85% (ResNet-50), +6.39% (ViT-B-32), 和 +5.63% (ViT-L-14) 的平均准确率提升超越了 CLIP。
- 最大的 RemoteCLIP 模型 (基于 ViT-L-14) 在 12 个数据集中有 9 个 (75%) 表现优于对应的 CLIP 模型。
数据扩充的效果: 即使在零样本设置下，经过遥感领域数据持续预训练的 RemoteCLIP 也能更好地适应遥感图像的特点，从而提升分类性能。
局限性 - 域间隙 (Domain Gap):
- 在某些数据集上，RemoteCLIP 的零样本性能反而略低于 CLIP。作者推测这可能是由于图像分布的域间隙造成的。
- RemoteCLIP 模型主要在高分辨率图像（如 Table I 所示）上进行训练，而某些下游数据集（如 EuroSAT）的图像分辨率非常低（例如 64x64）。
- 此外，用于训练 RemoteCLIP 的样本通常包含丰富的语义和变体，而一些土地覆盖分类数据集的分布可能非常不同（如 Figure 6 可视化所示）。这表明虽然 RemoteCLIP 学习了丰富的语义，但图像分辨率和特定任务的图像分布差异仍可能影响零样本泛化。

6.1.4. 少样本分类 (Few-shot Classification)

本文评估了 RemoteCLIP 在 12 个遥感分类数据集上的少样本分类性能，并将其与多种基线模型进行了比较。

下图（原文 Figure 9）展示了少样本评估结果：

该图像是多个折线图示意图，展示了不同模型在多种遥感数据集上，随着每类标签样本数量增加而得到的得分（百分比）。每个子图对应一个数据集，包括RSI-CB128、RSI-CB256、WHU-earth等。不同颜色的线条代表不同的模型，如RemoteCLIP、CLIP等，显示其在有限标签样本下的表现。图中有效对比了RemoteCLIP与其他基线模型在各种条件下的性能。 图示：ResNet-50 和 ViT-Base-32 在 12 个遥感数据集上的少样本评估。在每个少样本设置下，RemoteCLIP 优于所有对比模型和数据集。

分析:

显著提升: 引入少量训练样本可以显著提升 RemoteCLIP 模型在所有数据集上的性能。
超越基线: 在使用 32 个样本的少样本设置下，RemoteCLIP 模型在所有 12 个数据集中均优于所有对比基线模型，包括原始 CLIP (ViT-Base-32 和 ResNet-50)、基于自监督学习 (SSL) 的基础视觉模型 (SwAV, Barlow Twins, VICReg)、ImageNet 预训练模型以及现有遥感基础模型 (ViTAE 和 SatMAE)。
特征质量验证: 这表明 RemoteCLIP 学习到的视觉特征具有出色的可迁移性 (transferability) 和泛化能力，即使在只有少量标注数据的情况下，也能快速适应新任务并取得优异表现。这对于遥感领域标注数据稀缺的场景尤为重要。

6.1.5. 全样本线性探测和 k-NN 分类 (Full-shot Linear Probing and k-NN Classification)

本文进一步在 12 个分类数据集上评估了 RemoteCLIP 的传统线性探测 (linear classification) 和 k-NN 分类性能。

下表（原文 Table IV）展示了线性探测和 k-NN 分类的结果：

Method	Backbone	RSI-CB128		RSI-CB256		WHU-earth		EuroSAT		MLRSNet		PatternNet		RESISC45		AID		RS2800		OPTIMAL-31		RSC11		WHU-RS19		Average
Method	Backbone	Linear	k-NN	Linear	k-NN	Linear	k-NN	Linear	k-NN	Linear	k-NN	Linear	k-NN	Linear	k-NN	Linear	k-NN	Linear	k-NN	Linear	k-NN	Linear	k-NN	Linear	k-NN	Average
ImageNet	ResNet-50	95.69	93.24	97.92	97.40	92.92	93.69	91.48	88.41	78.98	74.78	96.18	93.45	86.16	83.60	83.00	79.45	75.89	79.29	87.10	86.29	79.68	78.09	95.63	92.23	88.97
SwAV		95.27	95.61	98.59	98.17	95.20	93.60	91.17	91.37	79.04	76.12	96.94	94.18	88.60	85.59	86.00	80.80	81.07	86.07	88.44	84.14	84.86	78.89	96.12	93.69	89.47
Barlow Twins		98.07	95.91	99.03	98.13	95.83	95.42	94.78	91.57	82.41	77.55	97.73	93.83	91.10	86.10	88.25	81.50	77.32	86.79	91.94	86.83	85.26	78.09	97.09	91.50	90.23
VICReg		97.47	96.03	98.67	98.21	95.21	94.79	95.06	91.44	82.59	78.02	96.83	94.03	91.03	86.75	88.10	81.50	77.86	86.79	90.59	86.83	84.46	77.69	96.60	90.78	89.85
CLIP-CL		95.99	94.92	98.41	98.09	94.79	91.88	89.80	87.65	79.32	76.99	97.30	95.15	89.10	88.19	94.80	92.85	82.50	89.29	91.40	89.78	91.63	84.86	98.06	97.57	91.18
RemoteCLIP		96.60	94.78	98.39	97.62	95.42	95.63	92.56	90.20	83.32	81.21	97.37	95.95	90.94	90.05	94.35	90.10	85.00	89.46	92.74	90.86	91.63	85.66	98.60	95.63	92.06
ImageNet		96.45	91.29	98.11	97.00	93.75	91.67	85.57	76.56	78.61	74.05	96.81	92.98	86.89	81.63	83.55	76.45	78.04	81.18	89.51	81.67	80.88	76.90	94.17	89.81	86.34
ViTAE	ViT-Base	93.10	95.65	98.41	94.05	93.33	78.96	61.41	82.27	91.15	85.60	98.50	87.94	65.33	88.30	64.05	92.86	78.93	86.29	54.84	92.83	71.31	86.85	91.74	70.39	84.02
SatMAE		97.36	94.17	98.55	97.40	95.00	92.08	95.15	90.28	87.00	80.08	97.58	94.36	92.60	89.73	94.95	90.35	88.57	88.21	93.55	90.86	90.84	89.24	97.57	93.69	92.15
CLIP		98.20	95.82	99.01	98.51	95.42	93.50	96.19	93.50	97.58	90.05	98.47	97.32	94.27	92.67	95.95	92.55	86.96	87.86	95.97	94.35	91.63	89.24	97.57	94.17	93.93
RemoteCLIP		98.47	97.32	99.01	98.51	95.83	94.79	96.88	94.79	91.30	89.13	98.50	97.73	95.22	93.91	96.50	94.00	89.70	89.13	96.77	95.70	93.48	90.87	98.91	97.39	94.97

分析:

优于 CLIP 和其他 SSL 模型: RemoteCLIP 在线性探测和 k-NN 分类任务中，性能均优于原始 CLIP 和其他自监督模型。
强化视觉表示: 这一结果并不令人意外。如论文第 III-A 节所述，原始 CLIP 模型在遥感数据集上的线性探测表现已经优于许多基础视觉模型。RemoteCLIP 进一步增强了这种表示，通过遥感领域的数据扩充和持续预训练，使得其视觉特征更具判别性和泛化能力。
多任务适用性: RemoteCLIP 在全样本分类任务中的强大表现，进一步证明了其学习到的特征是高质量的，并且能够有效地支持各种下游任务，而不仅仅是零样本或少样本设置。

6.2. 消融实验与参数分析

本文进行了一系列消融实验来验证 RemoteCLIP 各组件的有效性。

6.2.1. 骨干网络消融 (Backbone Ablation)

下表（原文 Table V，第一张表格）探讨了图像和文本骨干网络对 RemoteCLIP 性能的影响。

	Image Pre-trained	Text Pre-trained	Retrieval Average	Zero-shot Average
ResNet-50	√	√	42.01	53.46
	×	✓	25.56	37.46
	✓	×	35.72	46.03
	×	×	24.44	36.57
ViT-B-32	√	√	47.00	64.52
	×	✓	21.56	42.60
	✓	×	37.13	54.30
	×	×	18.92	30.93

分析:

最佳性能: 当图像和文本骨干网络都经过预训练时 (√, √)，模型取得了最优结果。例如，ViT-B-32 在检索平均 (Retrieval Average) 上达到 47.00，零样本平均 (Zero-shot Average) 上达到 64.52。
图像骨干的重要性: 图像骨干网络的预训练 ( $Image Pre-trained = √$ ) 相比文本骨干网络的预训练 ( $Text Pre-trained = √$ ) 具有更高的重要性。在 ResNet-50 和 ViT-B-32 两种骨干网络下，仅预训练图像骨干 (✓, ×) 的性能远优于仅预训练文本骨干 (×, ✓)。这表明高质量的视觉特征对于遥感任务至关重要。
双模态预训练的必要性: 不进行任何预训练 (×, ×) 的模型性能最差，强调了视觉和语言联合预训练的必要性。

6.2.2. 预训练模型消融 (Pre-training Model Ablation)

下表（原文 Table V，第二张表格）比较了 RemoteCLIP 与其他预训练技术。

Backbone	Method	Retrieval Average	Zero-shot Average
ResNet-50	ImageNet	37.07	44.36
	SwAV	34.60	44.59
	VICReg	34.28	41.01
	BarlowTwins	32.95	40.36
	CLIP	42.01	55.06
ViT-Base	ViTAE	39.08	47.85
	SatMAE	38.75	48.50
	DINOv2	38.14	50.24
	ImageNet	35.08	46.19
	CLIP	47.00	64.52

分析:

RemoteCLIP 的优越性: 在跨模态检索和零样本任务上，RemoteCLIP 相较于其他预训练技术展现出显著的进步。
- 例如，在 ResNet-50 骨干网络下，相比于原始 CLIP，RemoteCLIP 在检索平均上实现了 42.01 (CLIP) 到 47.01 (RemoteCLIP, 见 Table II)，零样本平均上实现了 55.06 (CLIP) 到 53.46 (RemoteCLIP, 见 Table III)。虽然此表没有直接列出 RemoteCLIP 的行，但结合表 II 和表 III 的结果，RemoteCLIP 的性能是最高的。
- 论文原文提到，RemoteCLIP 在检索任务和零样本任务上分别取得了约 10% 和 15% 的显著提升（这个提升是相对于基线模型的比较）。此消融实验强调了 RemoteCLIP 采用的领域特定持续预训练策略的有效性。

6.2.3. 数据集消融 (Dataset Ablation)

下表（原文 Table V，第三张表格）探讨了不同数据集组合对 RemoteCLIP 性能的影响。

SEG-4	DET-10	RET-3	Retrieval Average	Zero-shot Average
✓	×	×	7.15	14.55
×	✓	×	9.82	21.37
×	×	✓	36.32	48.75
✓	✓	×	10.23	24.09
✓	×	✓	37.24	46.94
×	✓	✓	39.72	51.31
✓	✓	✓	42.01	53.46

分析:

RET-3 的基础作用: RET-3 数据集（已有人工标注的图像-文本对）是性能的基础，单独使用时就能达到 36.32 的检索平均和 48.75 的零样本平均。
DET-10 和 SEG-4 的补充作用: 单独使用 SEG-4 或 DET-10（通过 M2B 和 B2C 转换）时性能较低，因为它们最初不是为图像-文本对设计的。
组合的有效性:
- 将 DET-10 或 SEG-4 与 RET-3 结合，性能有进一步提升，例如 DET-10 + RET-3 达到了 39.72 的检索平均和 51.31 的零样本平均。
- 当所有数据集 (SEG-4 + DET-10 + RET-3) 组合在一起时，性能达到最优（检索平均 42.01，零样本平均 53.46）。这验证了数据扩充策略，特别是将异构标注统一为图像-文本对的有效性。
句子生成规则的有效性: 结果证实了任务对更丰富文本信息的需求，并肯定了本文提出的句子生成策略 (B2C 和 M2B) 的有效性。

6.2.4. 预处理消融 (Preprocessing Ablation)

下表（原文 Table V，第四张表格）探讨了不同预处理方法对 RemoteCLIP 性能的影响。

Preprocessing	Retrieval Average	Zero-shot Average
Rotation Augmentation	38.90	47.98
No Augmentation	37.74	48.05
Super Resolution	37.98	47.18
SimCLR Augmentation	37.99	48.07

分析:

旋转增强的益处: 带有旋转增强 (Rotation Augmentation) 的模型在检索平均上取得了最佳性能（38.90），表明旋转不变性对于遥感图像的检索任务是有益的。
其他增强的效果: 其他增强方法（无增强、超分辨率、SimCLR 增强）的性能相似，略低于旋转增强。这可能表明在特定任务或数据集上，某些类型的增强更具优势。
控制条件的验证: 这些实验是在受控条件下进行的，进一步验证了预处理步骤对模型性能的影响。

6.2.5. 损失函数消融 (Loss Ablation)

下表（原文 Table V，第五张表格）比较了不同损失函数对 RemoteCLIP 性能的影响。

Loss	Retrieval Average	Zero-shot Average
InfoNCE	36.32	48.57
Margin Ranking [108]	28.93	48.47
SigLIP [109]	26.68	45.66
N-pair [110]	25.31	45.52
BarlowTwins [111]	21.03	35.44

分析:

InfoNCE 的优越性: InfoNCE 损失函数在检索平均和零样本平均两项指标上均取得了最优结果 (36.32 和 48.57)。这表明 InfoNCE 能够有效捕捉图像和文本之间的语义关联，在区分样本相似性和差异性方面表现出色，从而学习到更鲁棒的特征表示。
对比其他损失函数: 其他对比损失函数（如 Margin Ranking、SigLIP、N-pair）和自监督损失函数（如 BarlowTwins）的性能均低于 InfoNCE。这验证了 InfoNCE 损失对于 RemoteCLIP 这种视觉语言对比学习模型的优越性。

6.3. 特征可视化 (Feature Visualization)

为了直观地展示 RemoteCLIP 学习到了更丰富的遥感语义信息，本文对图像与相关类别之间的相似度分数进行了可视化。

方法:
- 将高分辨率图像（来自 Potsdam, Vaihingen 和 iSAID 数据集）裁剪成 $64 \times 64$ 的图像块，相邻图像块之间有 1/3 的重叠。
- 使用“A {target class name}”作为文本提示 (text prompt)。
- 计算图像块的视觉特征与文本特征之间的余弦相似度 (cosine similarity)。
可视化结果: 下图（原文 Figure 10）展示了 CLIP 和 RemoteCLIP 的相似度可视化对比：

图示：CLIP 与 RemoteCLIP 在不同类别相似度上的可视化。上排：不同数据集的原始图像。顶排上方是用于计算相似度的类别。第二排：真实标注掩码。为方便起见，使用相同颜色表示感兴趣的类别。第三排：CLIP 计算的图像-文本相似度可视化。第四排：RemoteCLIP 计算的图像-文本相似度可视化。

分析:
语义信息丰富性: 与原始 CLIP 相比，RemoteCLIP 的特征相似度响应与真实标注掩码 (ground truth mask annotation) 具有更好的相关性。这意味着 RemoteCLIP 能够更准确地识别图像中特定类别的语义区域。
视觉定位潜力: RemoteCLIP 展示了粗略定位目标类别空间位置的能力。这表明 RemoteCLIP 不仅学习了丰富的语义信息，还为遥感视觉定位 (visual localization) 相关任务（如遥感目标检测等）提供了潜力。

7. 总结与思考

7.1. 结论总结

本文提出了 RemoteCLIP，这是首个专为遥感领域设计的通用视觉语言基础模型。本研究的核心洞察有两个：

通用 CLIP 模型的强大潜力: 即使是在互联网大规模图像-文本对上预训练的通用 CLIP 模型，在遥感任务中也展现出令人惊讶的强大视觉特征提取能力。
数据规模是关键瓶颈: 尽管域内微调（即持续预训练）可以显著提升性能，但在将大型 CLIP 模型专业化到遥感领域时，数据量成为了主要瓶颈。

基于这些观察，RemoteCLIP 开发了一个数据扩充流程，并通过 Box-to-Caption (B2C) 和 Mask-to-Box (M2B) 转换策略，将异构标注统一为大规模的图像-描述对，从而生成了一个比现有所有遥感图像-文本数据集总和大12倍的预训练数据集。随后，在这一扩充数据集上对 CLIP 模型进行持续预训练，得到了 RemoteCLIP。

RemoteCLIP 在多项遥感下游任务上取得了卓越的成果：

在图像-文本检索任务中，大幅超越了现有最先进 (state-of-the-art) 方法，在 RSITMD 和 RSICD 数据集上分别提升了 9.14% 和 8.92% 的平均召回率。
在零样本图像分类任务中，在 12 个下游数据集上的平均准确率比 CLIP 基线高出 6.39%。
在少样本分类、线性探测和 k-NN 分类任务中，也表现出优越的性能。
引入了新的 RemoteCount 基准，并证明了 RemoteCLIP 具有强大的零样本物体计数能力。
消融实验验证了数据扩充策略、骨干网络选择和 InfoNCE 损失函数的有效性。
特征可视化表明 RemoteCLIP 学习了更丰富的遥感语义信息，并具备视觉定位的潜力。

这些结果强调了数据为中心的方法论 (data-centric methodology) 在开发基础模型中的重要性，这也与医疗领域的 BioMedCLIP 等领域特定基础模型的构建趋势一致。

7.2. 局限性与未来工作

尽管 RemoteCLIP 取得了显著进展，但也存在一些已知局限性，作者在未来工作中计划解决：

模型规模 (Model Scale):
- 目前最大的 RemoteCLIP 模型（基于 OpenAI 的 ViT-Large-14 CLIP 模型初始化）在视觉骨干网络中拥有 304M 参数，并在 400M 数据上进行训练。
- 尽管这比之前的遥感检索模型大得多，但仍有进一步扩展的空间。例如，Billion-scale MAE [15] 已证明 2B 规模的 ViT 可以在遥感图像上成功应用。
- 未来工作: 计划增加模型参数数量，以增强 RemoteCLIP 模型的容量。
数据扩充规模 (Data Scaling):
- 尽管 RemoteCLIP 的数据量已比本文中所有采纳的图像-文本数据总和大了 12 倍，但对于训练更大规模的模型可能仍然不足。
- 未来工作: 旨在通过整合弱标注数据（如分类数据集）和未标注数据（通过伪标签 pseudo labeling）来进一步扩展预训练数据。
数据质量和多样性 (Data Quality and Diversity):
- B2C 和 M2B 方法虽然有效转换了异构标注，但其基于规则的转换方法导致生成的描述多样性有限。
- 未来工作: 计划通过引入生成式语言模型 (generative language models) 来生成更丰富、更多样化的描述。
- 模态多样性 (Modality Diversity): 当前 RemoteCLIP 的模态多样性仅限于 RGB 图像。
- 未来工作: 探索 RGB 之外的更多传感器模态 (sensory modalities) 是一个有前景的方向。

7.3. 个人启发与批判

7.3.1. 个人启发

数据为中心的重要性: 本文再次强调了“数据为中心”方法论在基础模型开发中的核心作用。即使有强大的模型架构（如 CLIP），如果缺乏高质量、大规模、领域适配的训练数据，其性能也难以充分发挥。这对于那些数据稀缺但又急需基础模型能力的领域（如遥感、医学影像）具有普遍指导意义。
跨模态学习的强大潜力: 视觉-语言基础模型在弥合图像与文本语义鸿沟方面展现出无与伦比的优势，使得零样本、少样本等高层语义任务成为可能。RemoteCLIP 成功地将这一范式引入遥感，为 GeoAI 领域开辟了新的道路，预示着未来遥感应用将更加智能和灵活。
知识迁移和领域适应: 通用领域预训练模型（如 CLIP）提供了强大的通用特征，但要达到领域 SOTA，仍需进行领域特定数据的持续预训练。RemoteCLIP 的成功在于它找到了有效的方法来克服遥感领域的域间隙，并通过巧妙的数据扩充策略，将通用知识转化为领域专业知识。
异构数据利用的创新: 将目标检测和语义分割等异构标注数据转化为统一的图像-文本格式，这一数据工程上的创新思路极具价值。它不仅解决了数据稀缺问题，也为如何从现有大量标注数据中挖掘更多价值提供了范例。

7.3.2. 批判与潜在改进点

B2C 和 M2B 的局限性:
- 描述多样性有限: 尽管论文承认了基于规则的 B2C 描述多样性有限，但这是其当前版本的一个主要限制。遥感图像的复杂性远超简单的物体计数或位置描述。例如，描述地表纹理、时间动态、地理关系、环境变化等高级概念，是当前 B2C 难以捕捉的。
- 生成式语言模型的应用: 论文提到未来将使用生成式语言模型来丰富描述。这是一个很有前景的方向，但如何确保生成描述的准确性、避免幻觉 (hallucination)、并保持与图像内容的强对应关系，将是新的挑战。
域间隙 (Domain Gap) 问题：
- 论文在零样本分类结果中指出，RemoteCLIP 在某些低分辨率或特定分布的数据集上性能仍可能不如原始 CLIP，归因于域间隙。虽然数据扩充有助于缓解，但并非一劳永治。未来的工作可能需要探索更复杂的域适应 (domain adaptation) 或多尺度特征融合 (multi-scale feature fusion) 技术，以更好地处理遥感图像固有的多分辨率、多传感器特性。
计算资源需求： 训练大型基础模型需要巨大的计算资源。虽然论文在 4 张 3090Ti 上训练最大模型需要 233.4 小时，但进一步扩展到数十亿参数的模型，将对训练成本和可及性提出更高的要求。如何进行更高效的训练（如通过更优化的并行策略、蒸馏 distillation 等）或开发更轻量级的领域特定模型，是值得探讨的问题。
可解释性 (Interpretability): 视觉语言基础模型，尤其是 Transformer 架构，通常被认为是黑箱模型。RemoteCLIP 的特征可视化虽然展示了粗略的定位能力，但对于模型做出特定判断的深层原因，仍缺乏明确解释。在遥感等高风险应用领域，提升模型的可解释性至关重要。
多模态融合的深度： 目前主要集中在图像和文本的对齐，但遥感数据本身是多模态的（例如，多光谱、高光谱、SAR 数据）。未来的工作可以更深入地探索这些模态如何融入视觉语言基础模型，以实现更全面的地球观测理解。
“黑盒”模型对遥感专家知识的利用：遥感领域有大量的先验知识和领域专家。如何将这些知识有效地融入到基础模型的训练或微调过程中，而不是仅仅依赖数据，也是一个重要的研究方向。例如，通过知识图谱 (knowledge graphs)、符号推理 (symbolic reasoning) 或专家反馈机制来指导模型的学习。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 49 分钟读完 · 36,919 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 遥感领域现有基础模型的局限性

2.1.2. 遥感领域数据稀缺问题

2.1.3. 视觉语言基础模型的重要性

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 基础模型 (Foundation Models)

3.1.2. 自监督学习 (Self-supervised Learning, SSL)

3.1.3. 掩码图像建模 (Masked Image Modeling, MIM)

3.1.4. 视觉-语言模型 (Vision-Language Models, VLMs)

3.1.5. CLIP (Contrastive Language-Image Pre-training)

3.1.6. 零样本学习 (Zero-shot Learning)

3.1.7. 线性探测 (Linear Probing)

3.1.8. k-NN 分类 (k-NN Classification)

3.1.9. 少样本分类 (Few-shot Classification)

3.1.10. 图像-文本检索 (Image-Text Retrieval)

3.2. 前人工作

3.2.1. 遥感领域的自监督基础模型

3.2.2. 遥感领域的视觉语言模型

3.2.3. 基于 CLIP 的模型

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 对比语言-图像预训练 (Contrastive Language Image Pretraining)

4.2.2. 通过标注统一进行数据扩充 (Data Scaling via Annotation Unification)

4.2.2.1. 框到描述 (Box-to-Caption, B2C) 生成

4.2.2.2. 掩码到框 (Mask-to-Box, M2B) 转换

4.2.2.3. 样本去重 (Sample De-duplication)

4.3. 数据分析

4.3.1. 数据集来源

4.3.2. 描述长度分布

4.3.3. 词云和关键词

4.3.4. T-SNE 可视化

5. 实验设置

5.1. 数据集

5.1.1. 预训练数据集

5.1.2. 下游任务评估数据集

5.1.2.1. 跨模态检索 (Cross-modal Retrieval)

5.1.2.2. 物体计数 (Object Counting)

5.1.2.3. 零样本/少样本/线性探测/k-NN分类 (Zero-shot/Few-shot/Linear Probing/k-NN Classification)

5.2. 评估指标

5.2.1. 召回率@k (Recall@k, R@k)

5.2.2. 平均召回率 (Mean Recall)

5.2.3. 准确率 (Accuracy)

5.3. 对比基线

5.4. 模型架构

5.5. 数据预处理和增强

5.6. 优化细节

5.6.1. 少样本分类的额外优化设置

5.6.2. k-NN 分类超参数

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 跨模态检索 (Cross-modal Retrieval)

6.1.2. 物体计数 (Object Counting)

6.1.3. 零样本图像分类 (Zero-shot Image Classification)

6.1.4. 少样本分类 (Few-shot Classification)

6.1.5. 全样本线性探测和 k-NN 分类 (Full-shot Linear Probing and k-NN Classification)

6.2. 消融实验与参数分析

6.2.1. 骨干网络消融 (Backbone Ablation)

6.2.2. 预训练模型消融 (Pre-training Model Ablation)

6.2.3. 数据集消融 (Dataset Ablation)

6.2.4. 预处理消融 (Preprocessing Ablation)

6.2.5. 损失函数消融 (Loss Ablation)