论文状态：已完成

A Survey on Remote Sensing Foundation Models: From Vision to Multimodality

发表：2025/03/28

遥感基础模型 (1)多模态数据融合 (1)遥感任务分析 (1)光学与雷达数据 (1)大规模注释数据集 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文综述了遥感基础模型的快速发展，重点关注视觉与多模态方法。这些模型通过整合光学、雷达、LiDAR图像与文本和地理信息，提升了智能地球空间数据的分析能力，改善了物体检测与土地分类的性能。尽管进展显著，但在数据多样性、大规模标注数据集需求及计算资源等方面仍面临挑战。

摘要

The rapid advancement of remote sensing foundation models, particularly vision and multimodal models, has significantly enhanced the capabilities of intelligent geospatial data interpretation. These models combine various data modalities, such as optical, radar, and LiDAR imagery, with textual and geographic information, enabling more comprehensive analysis and understanding of remote sensing data. The integration of multiple modalities allows for improved performance in tasks like object detection, land cover classification, and change detection, which are often challenged by the complex and heterogeneous nature of remote sensing data. However, despite these advancements, several challenges remain. The diversity in data types, the need for large-scale annotated datasets, and the complexity of multimodal fusion techniques pose significant obstacles to the effective deployment of these models. Moreover, the computational demands of training and fine-tuning multimodal models require significant resources, further complicating their practical application in remote sensing image interpretation tasks. This paper provides a comprehensive review of the state-of-the-art in vision and multimodal foundation models for remote sensing, focusing on their architecture, training methods, datasets and application scenarios. We discuss the key challenges these models face, such as data alignment, cross-modal transfer learning, and scalability, while also identifying emerging research directions aimed at overcoming these limitations. Our goal is to provide a clear understanding of the current landscape of remote sensing foundation models and inspire future research that can push the boundaries of what these models can achieve in real-world applications. The list of resources collected by the paper can be found in the https://github.com/IRIP-BUAA/A-Review-for-remote-sensing-vision-language-models.

思维导图

论文精读

中文精读约 88 分钟读完 · 64,599 字

1. 论文基本信息

1.1. 标题

遥感基础模型综述：从视觉到多模态 (A Survey on Remote Sensing Foundation Models: From Vision to Multimodality)

1.2. 作者

Ziyue Huang, Hongxi Yan, Qiqi Zhan, Shuai Yang, Mingming Zhang, Chenkai Zhang, YiMing Lei, Zeming Liu, Qingjie Liu, Member, IEEE, and Yunhong Wang, Fellow, IEEE

1.3. 发表期刊/会议

该论文尚未在特定期刊或会议上正式发表，其发布状态为预印本 (preprint)，在 arXiv 上发表。arXiv 是一个开放获取的预印本服务器，主要收录物理学、数学、计算机科学、量化生物学、量化金融、统计学、电气工程和系统科学、经济学领域的论文。在学术界，预印本在正式同行评审和发表前提供了一个快速分享研究成果的平台。

1.4. 发表年份

2025年

1.5. 摘要

遥感基础模型 (Remote Sensing Foundation Models)，特别是视觉 (vision) 和多模态 (multimodal) 模型，取得了快速发展，极大地增强了智能地球空间数据解释的能力。这些模型结合了多种数据模态 (data modalities)，如光学 (optical)、雷达 (radar) 和激光雷达 (LiDAR) 图像，以及文本 (textual) 和地理信息 (geographic information)，从而实现对遥感数据更全面的分析和理解。多模态的集成改善了物体检测 (object detection)、土地覆盖分类 (land cover classification) 和变化检测 (change detection) 等任务的性能，这些任务通常因遥感数据复杂和异构的性质而面临挑战。然而，尽管取得了这些进展，仍存在一些挑战。数据类型的多样性、对大规模标注数据集 (large-scale annotated datasets) 的需求以及多模态融合技术 (multimodal fusion techniques) 的复杂性，都对这些模型的有效部署构成了重大障碍。此外，训练和微调 (fine-tuning) 多模态模型所需的计算资源 (computational demands) 巨大，进一步复杂了它们在遥感图像解释任务中的实际应用。本文对遥感领域视觉和多模态基础模型的最新研究进行了全面回顾，重点关注它们的架构 (architecture)、训练方法 (training methods)、数据集 (datasets) 和应用场景 (application scenarios)。论文讨论了这些模型面临的关键挑战，如数据对齐 (data alignment)、跨模态迁移学习 (cross-modal transfer learning) 和可扩展性 (scalability)，同时指出了旨在克服这些限制的新兴研究方向。本文的目标是提供对当前遥感基础模型现状的清晰理解，并激发未来的研究，以期推动这些模型在实际应用中达到新的高度。论文收集的资源列表可在 GitHub 链接中找到。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2503.22081 PDF 链接: https://arxiv.org/pdf/2503.22081v1.pdf 发布状态: 预印本 (preprint)

2. 整体概括

2.1. 研究背景与动机

近年来，深度学习 (Deep Learning) 和人工智能 (Artificial Intelligence) 在遥感 (Remote Sensing) 领域的智能解释 (intelligent interpretation) 方面取得了显著进展，成为关键工具。传统的深度学习模型通常为特定任务（如场景分类、目标检测、变化检测、土地覆盖分类和地理空间定位）设计，具有高度任务导向的架构 (task-oriented architecture)、损失函数 (loss functions) 和训练策略 (training strategies)。这种高度的专业化限制了模型在不同任务（即使是密切相关的任务）之间的泛化能力 (generalization)。此外，这些模型未能充分利用海量的遥感数据，导致泛化性能欠佳，并降低了在实际应用中的表现。

与此同时，以自监督学习 (self-supervised learning) 和多模态学习 (multimodal learning) 为核心的“基础模型” (Foundation Models) 兴起，彻底改变了人工智能领域。这些模型在大量数据集上进行预训练 (pre-training)，以提取通用特征，并通过微调 (fine-tuning) 或提示调整 (prompt-tuning) 有效适应各种下游任务 (downstream tasks)。它们在自然语言处理 (Natural Language Processing - NLP) 和计算机视觉 (Computer Vision) 等领域取得了革命性进展，但遥感数据由于其标注数据稀缺、数据类型复杂多样（光学、雷达、激光雷达等）、分辨率差异大、时空覆盖广以及特定任务需求等特点，对智能解释提出了独特挑战。现有的通用基础模型（如 GPT、LLaMA、DINOv2、SAM、CLIP、GPT-4V）直接应用于遥感领域时，性能往往不佳。

因此，论文旨在解决的核心问题是：如何系统地理解和分类当前遥感领域中涌现的视觉 (Vision) 和多模态 (Multimodal) 基础模型，识别其在架构、训练方法、数据和应用方面的创新，并探讨它们面临的独特挑战和未来发展方向，以推动这些模型更好地服务于遥感智能解释。

2.2. 核心贡献/主要发现

本文的作者对遥感基础模型进行了全面的调查，并提出了以下关键贡献：

综合性综述 (Comprehensive Survey): 本文首次全面综述了遥感基础模型，涵盖了视觉和多模态两种方法。它系统地回顾了这些模型的演变、技术创新和主要成就，为研究人员提供了该领域现状的全面视图。
创新性分类法 (Innovative Taxonomy): 论文引入了一种新颖的组织框架，从模型架构 (model architecture) 和主要功能 (primary functionality) 两个维度对研究进行了分类。这种分类法有助于结构化理解各种方法的开发、相互关联及其适用性。
资源汇编 (Resource Compilation): 为了支持持续的研究，作者编译并维护了一个专门的资源库 (repository)，包括精选论文、排行榜和开源代码，以促进该领域的协作和创新。

3. 预备知识与相关工作

本章旨在为读者铺垫理解遥感基础模型所需的关键概念和技术演进，并分析本文在现有工作中的位置和创新点。

3.1. 基础概念

深度学习 (Deep Learning): 机器学习的一个子领域，其核心是人工神经网络，通过多层处理来从数据中学习高级抽象特征。在遥感中，深度学习模型被广泛应用于图像分类、目标检测等任务。
人工智能 (Artificial Intelligence - AI): 模拟和实现人类智能的理论、方法、技术及应用系统。
遥感 (Remote Sensing): 通过非接触传感器从远处探测和获取地球表面及其上方目标信息的技术。遥感数据通常包括光学图像、合成孔径雷达 (SAR) 图像、激光雷达 (LiDAR) 数据以及多光谱/高光谱图像。
数据模态 (Data Modalities): 指不同类型的数据表示形式，例如图像、文本、视频、音频等。在遥感中，常见的模态包括光学图像、雷达图像、LiDAR数据、地理信息和文本描述等。
基础模型 (Foundation Models): 论文中定义的基础模型是利用自监督 (self-supervised)、半监督 (semi-supervised) 或多模态学习 (multimodal learning) 等技术，在大量数据集上进行预训练 (pre-trained) 以提取通用特征的深度学习模型。这些模型可以通过微调 (fine-tuning) 或提示调整 (prompt-tuning) 有效适应各种下游任务 (downstream tasks)，展现出强大的泛化能力 (generalization capabilities)。
自监督学习 (Self-supervised Learning - SSL): 一种无监督学习范式，模型通过自动从数据中生成伪标签 (pseudo-labels) 来学习有用的表示。例如，通过预测图像中被遮蔽的部分来学习图像特征。
多模态学习 (Multimodal Learning): 旨在处理和理解来自两种或多种模态信息（如图像和文本）的学习范式，目标是实现跨模态的对齐和融合，从而获得更全面的理解。
微调 (Fine-tuning): 在一个大型数据集上预训练的模型，针对特定任务或数据集进行进一步训练的过程。通常只更新模型的部分参数或使用较小的学习率。
提示调整 (Prompt-tuning): 一种轻量级的模型适应技术，通过在输入中添加可学习的“提示” (prompts) 来指导预训练模型执行特定任务，而无需修改或重新训练模型的全部参数。
自然语言处理 (Natural Language Processing - NLP): 研究如何让计算机理解和生成人类语言的人工智能领域。
计算机视觉 (Computer Vision): 研究如何让计算机“看懂”和理解图像及视频的人工智能领域。
大型语言模型 (Large Language Models - LLMs): 基于 Transformer 架构，在海量文本数据上进行预训练的深度学习模型，能够理解、生成和处理人类语言，如 GPT 系列和 LLaMA。
视觉语言模型 (Vision-Language Models - VLMs): 旨在理解和关联图像与文本信息的多模态模型，通过学习视觉和语言之间的对应关系，实现跨模态任务（如图像字幕生成、视觉问答）。CLIP 是一个典型的 VLM。
多模态大型语言模型 (Multimodal Large Language Models - MLLMs): 在 LLM 的基础上扩展，使其能够处理和理解多种模态（如图像、文本、音频）输入并生成相应输出的模型，如 GPT-4V。它们结合了 LLM 强大的推理能力和多模态感知能力。
卷积神经网络 (Convolutional Neural Networks - CNNs): 一种专门处理具有网格状拓扑数据（如图像）的深度学习模型，通过卷积层提取局部特征。
Transformer (Transformer): 一种基于自注意力机制 (self-attention mechanism) 的神经网络架构，最初用于 NLP，后来被广泛应用于计算机视觉等领域，擅长捕捉长距离依赖关系。

3.2. 前人工作

论文回顾了基础模型在 NLP 和视觉领域的一些里程碑式工作，这些是遥感基础模型发展的重要基石：

GPT 系列 (Generative Pre-trained Transformer) [25]-[27]: 最初在 NLP 领域取得突破，通过多阶段训练和数十亿参数，在语言理解、文本生成和机器翻译等任务中达到最先进水平，并展现了零样本 (zero-shot) 和少样本学习 (few-shot learning) 的泛化能力。
LLaMA (Large Language Model Meta AI) [28]: 另一个在 NLP 领域具有影响力的开源大型语言模型系列。
DINOv2 [30]: 在视觉任务中，利用自监督学习 (self-supervised learning) 在大规模网络数据集上训练，实现有效的零样本图像检索 (zero-shot image retrieval)。
SAM (Segment Anything Model) [31]: 采用半监督训练流程 (semi-supervised training pipeline)，开发出用于提示式分割 (prompt-based segmentation) 的高度可靠的基础模型。
CLIP (Contrastive Language-Image Pre-training) [34]: 视觉语言模型 (VLM) 的开创性工作，通过在大规模图像-文本对数据集上进行对比学习 (contrastive learning)，实现了图像和文本数据的广泛对齐，从而能够通过文本提示 (textual prompts) 进行零样本推理 (zero-shot inference)。
Grounding DINO [35]: 一个结合了 DINO 和 grounded pre-training 的开放集目标检测 (open-set object detection) 模型。
GPT-4V [36]: 多模态大型语言模型 (MLLM) 的代表，将图像和文本转换为统一的词元序列 (token sequence) 进行一致处理，实现更灵活的下游任务处理。

3.3. 技术演进

从任务特定的深度学习模型到通用基础模型，遥感领域的技术演进路径大致如下：

任务专用模型阶段: 早期深度学习在遥感中主要表现为针对特定任务（如场景分类、目标检测、变化检测）设计专用模型，通常基于 CNN 架构，并依赖大量标注数据。
通用视觉模型适应阶段: 随着 ImageNet 等大规模自然图像数据集和 CNN 架构的成功，研究人员尝试将预训练在自然图像上的 CNN 模型（如 ResNet）迁移到遥感任务中，通过微调 (fine-tuning) 获得一定性能提升。
遥感专用视觉基础模型阶段: 认识到自然图像与遥感图像之间的模态差异和数据特点，研究人员开始开发专门为遥感图像设计的视觉基础模型。这些模型在遥感专用的大规模无标注数据上进行自监督预训练，采用 CNN、Transformer 或混合架构，以更好地提取遥感图像的视觉表示。例如，通过设计特殊的预训练任务和模型架构来处理高分辨率图像。
遥感多模态基础模型阶段: 进一步发展，模型开始整合多种模态数据，尤其是视觉和文本数据。
- VLM 阶段 (基于 CLIP): 借鉴 CLIP 的思想，将遥感图像与文本描述进行对齐，实现零样本场景分类和检索。
- MLLM 阶段 (基于 LLM): 结合 LLM 强大的推理能力，将遥感图像和其他模态（如地理信息）与语言模型结合，支持更广泛的任务，展现出更强的泛化能力。这些 MLLM 通常将图像和文本转化为统一的词元序列进行处理。
智能体 (Agent) 阶段: 结合 MLLM 的推理和规划能力，开发能够感知环境、做出决策并利用工具执行复杂遥感任务的智能体。

3.4. 差异化分析

本文旨在提供一个全面的遥感基础模型综述，与现有的一些可能侧重于特定任务或阶段的综述相比，其差异化和创新点主要体现在：

全面性: 本文是首个专门针对遥感基础模型的综合性综述，同时涵盖了视觉和多模态方法。它不仅关注模型架构，还深入探讨了训练方法、数据集和应用场景，提供了更全面的视角。
创新性分类法: 论文提出了一种新颖的分类框架，从模型架构和主要功能两个维度对模型进行组织。这有助于读者更系统地理解不同方法之间的关系和适用性，而不是简单地按时间线或任务进行罗列。
资源汇编: 本文主动提供了一个在线资源库，收集了相关论文、排行榜和开源代码。这不仅方便了研究人员追踪最新进展，也促进了社区的协作和创新，是许多传统综述所不具备的实用性贡献。

4. 方法论

本章将详细拆解论文中描述的遥感基础模型的架构和训练方法。

4.1. 模型架构 (Model Architecture)

遥感基础模型的架构可以分为视觉基础模型和多模态基础模型两大类。

4.1.1. 视觉基础模型 (Vision Foundation Model)

深度学习在遥感图像处理任务（如图像分类、目标检测和语义分割）中取得了显著进展，但这些成果依赖于大量标注数据集。遥感图像固有的多源、多分辨率特性带来了巨大挑战，导致在缺乏大规模标注数据时，预训练在自然图像上的模型表现不佳。

为解决此问题，遥感图像专用的基础模型应运而生，旨在利用海量未标注遥感数据。这些模型在提取遥感图像特征方面表现更优，从而在下游应用中取得更佳效果。

这些基础模型的架构可分为三类：基于 CNN 的模型 (CNN-based Models)、基于 Transformer 的模型 (Transformer-based Models) 以及结合 CNN 和 Transformer 的混合模型 (Hybrid Models)。

4.1.1.1. 基于 CNN 的模型 (CNN-based Model)

卷积神经网络 (Convolutional Neural Network - CNN) 最初由 LeCun 在 1980 年代提出 [147]，灵感来源于猫的视觉皮层 [148]。2012 年，AlexNet 在 ImageNet 竞赛 [149] 中取得了突破性进展，使 CNNs 在图像分类领域声名鹊起。随后的创新，如 2016 年的 ResNet [150] 通过残差连接 (residual connections) 显著增加了模型深度，进一步提升了在大型自然图像数据集上的性能。

在遥感领域，早期研究自然也倾向于使用 CNNs，例如 ResNet [150] 和 YOLO [152] 框架 [81], [151]。然而，CNNs 固有的架构限制和有限的参数容量使其难以扩展到大规模数据集上。

为了提升 CNNs 在大规模数据上的性能，研究人员引入了 ConvNeXt [153] 和 ConvNeXtv2 [154] 等架构。ConvNeXt 旨在将 Vision Transformer (ViT) [155] 的设计原则融入 ResNet 架构，从而提高基于 CNN 的模型在大数据集上的可扩展性。受 Transformer 在掩蔽学习 (mask-based representation learning) 方面的成功启发，ConvNeXtv2 重新设计了架构，利用稀疏卷积 (sparse convolutions) [156] 以更好地与掩蔽自编码器 (Masked Autoencoder - MAE) 框架对齐。

一些工作将这些架构应用于遥感领域，例如 SMLFR [39] 和 MMEarth [40]。

SMLFR [39] 使用 ConvNeXt 作为其视觉编码器 (visual encoder)，并配备一个由三个解码器块 (decoder blocks) 和两个上采样层 (upsampling layers) 组成的轻量级解码器 (lightweight decoder)。
MMEarth [40] 采用了 ConvNeXt V2 架构，该架构利用稀疏卷积 [156] 提高效率。

这些方法在与基于 Transformer 的方法比较时，均展现出竞争性结果，强调了 ConvNeXt 作为骨干网络 (backbone) 在推进遥感基础模型方面的潜力。

4.1.1.2. 基于 Transformer 的模型 (Transformer-based Model)

Transformer 架构近年来因其在模型大小和数据集容量方面的出色可扩展性而迅速普及。Vision Transformer (ViT) [155] 将原始 Transformer 设计 [157] 扩展到图像处理领域，将图像块 (image patches) 视为词元序列 (token sequences)。传统的 ViTs 在整个网络中保持固定数量的词元 (tokens) 和词元特征维度 (token feature dimensions)，这限制了其性能。为了克服这一限制，PVT [158] 和 Swin Transformer [159] 等密集预测模型 (dense prediction models) 引入了多尺度架构 (multi-scale architectures)，在小目标检测和分割等细粒度任务中表现出色。此外，Transformer 模型在各个领域 [160]-[162] 的成功凸显了其在大规模预训练方面优于 CNNs 的优势，使其成为许多遥感图像基础模型的自然选择。

在遥感领域，大多数基础模型 [83], [110] 都采用 ViT 或 Swin Transformer 作为其主干网络 (backbone)。一些研究还探索了先进的 ViT 变体以进一步提高性能：

SARATR-X [112] 采用了 HiViT [163]，该模型融合了 Swin Transformer 的优势并支持图像块丢弃 (patch dropping) 来促进掩蔽图像建模 (masked image modeling)。
LeMeViT [49] 集成了可学习的元词元 (learnable meta tokens)，以最少的可学习词元集合高效压缩图像表示。
基于 SAM 的成功，RSPrompter [48] 采用了 SAM [31] 中的提示学习策略 (prompt learning strategy)，生成语义独特的、专为遥感图像定制的分割提示。
EarthPT [44] 调整了 GPT-2 框架，用多层感知机 (multilayer perceptrons) 替换传统的词嵌入 (word embeddings)，以有效编码非文本数据，扩展了其在遥感任务中的多功能性。

为了改进基于 Transformer 的模型，研究人员越来越多地探索多分支架构 (multi-branch architectures) 以增强特征多样性，有效解决多模态融合 (multimodal fusion) 和细粒度细节提取等挑战。鉴于不同模态之间的固有差异，使用单一编码器处理来自不同源的特征仍然是一个重大挑战。为解决此限制，一些多模态基础模型 [16], [41], [86], [102] 采用模态特定编码器 (modality-specific encoders)，并在后期整合提取的特征。

除了模态分离，许多方法还利用多分支设计来提取更复杂和互补的特征：

CtxMIM [95] 引入了上下文增强分支 (context-enhanced branch) 和重建分支 (reconstructive branch) 来缓解上下文缺失的问题。此设计将空间特征提取 (spatial feature extraction) 与特征融合 (feature fusion) 分离，从而能够整合来自模态、时间 (time) 和地理上下文 (geographic context) 的线索。
RS-DFM [164] 引入了双分支信息压缩模块 (dual-branch information compression module)，旨在分离高频 (high-frequency) 和低频特征 (low-frequency features)。这种方法促进了高效的特征级压缩，同时保留了基本的任务无关信息。
BFM [165] 探索了多头自注意力 (multi-headed self-attention) 和前馈网络 (feed-forward networks) 的并行配置，以提高视觉相关任务的性能，特别是那些需要细粒度空间理解的任务，如目标检测和分割。

此外，许多方法专门调整了 Transformer 的组件，如注意力机制 (attention mechanism) 和图像块编码 (patch encoding)，以更准确地捕捉相关的地理特征。

注意力机制 (Attention Mechanism): 作为 Transformer 架构的基石，各种方法都试图在遥感基础模型中改进注意力机制，以增强特征提取或优化性能。

在特征提取方面：
- HyperSIGMA [50] 引入了一种创新的稀疏采样注意力机制 (sparse sampling attention mechanism)，旨在解决高光谱图像 (hyperspectral images) 中的光谱和空间冗余问题。该机制能够提取多样化的上下文特征，并作为 HyperSIGMA 的核心组件，旨在解决高光谱图像在特征利用方面的局限性。
- RingMo-Aerial [38] 提出了频率增强多头自注意力 (frequency-enhanced multi-head self-attention)，以解决遥感图像中由于倾斜角度导致的多尺度变化和遮挡问题。
在效率方面：
- RVSA [166] 引入了一种新颖的旋转变尺寸窗口注意力机制 (rotated varied-size window attention mechanism) 来替代 Transformer 中的传统全注意力 (full attention)，大幅降低了计算开销 (computational overhead) 和内存消耗 (memory consumption)。同时，它通过其产生的多样化窗口提取丰富的上下文信息，增强了目标表示。
- LeMeViT [49] 提出了双交叉注意力 (dual cross attention)，以实现在图像词元 (image tokens) 和元词元 (meta-tokens) 之间无缝的信息交换，与自注意力机制相比，显著降低了计算复杂度。
  
  图像块编码 (Patch Encoding): 基于 Transformer 的模型需要将图像转换为图像块嵌入 (patch embedding)，然后输入到后续的 Transformer 模块。对于多模态模型，通常使用多个独立的图像块嵌入层 (patch embedding layers) 来生成不同模态的图像块嵌入 [46], [87]。
DOFA [47] 引入了一种波长条件动态图像块嵌入层 (wavelength-conditioned dynamic patch embedding layer)，以统一各种地球观测模态的输入。因此，可以在不同数据模态上训练统一的网络架构。
SpectralEarth [167] 使用 $4 \times 4$ 的图像块而非标准的 $16 \times 16$ 图像块，保留了精细的空间细节，并增强了图像块投影层 (patch projection layer) 对光谱信息 (spectral information) 的保留。

位置编码 (Positional Encoding): 在基于 Transformer 的模型中扮演着关键角色，为输入数据提供空间和结构上下文。遥感基础模型中的许多研究都调整了位置嵌入 (positional embedding) 以适应遥感图像的预训练。
SatMAE [92] 引入了时间/光谱维度 (temporal/spectral dimension) 的位置编码，并独立地掩蔽 (masks) 时间/光谱维度上的图像块，这使得模型能够学习更有利于微调的数据表示。
Scale-MAE [88] 扩展了位置编码，通过将位置编码相对于图像覆盖的陆地面积进行缩放，纳入了地面采样距离 (Ground Sample Distance - GSD)。
Prithvi [42] 将 3D 位置嵌入 (3D positional embeddings) 和 3D 图像块嵌入 (3D patch embeddings) 引入 ViT 框架，使模型能够处理时空数据 (spatiotemporal data)。
USat [45] 修改了图像块投影层和位置编码，以建模来自多个传感器 (sensors) 的不同空间尺度 (spatial scales) 的光谱波段。这种方法显著减少了序列长度 (sequence length)，从而减少了内存占用 (memory footprint) 和运行时间，同时保留了来自不同传感器的图像的地理空间对齐 (geospatial alignment)。
MA3E [168] 为了赋予模型更多的维度感知能力，在图像块中添加了角度嵌入 (angle embeddings)，使模型能够感知图像块的角度。

4.1.1.3. CNN-Transformer 混合模型 (CNN-Transfromer Hybrid Model)

为了利用 CNNs 和 Transformers 的互补优势，最近的方法将两种架构集成起来，利用 CNNs 进行高效的局部特征提取 (local feature extraction)，而 Transformers 则用于捕捉全局上下文 (global context) 和长距离依赖关系 (long-range dependencies)。

U-BARN [51] 集成了 U-Net 和 Transformer 架构，处理数据的空间 (spatial)、光谱 (spectral) 和时间维度 (temporal dimensions)，有效捕捉不规则采样 (irregularly sampled) 的多变量卫星图像时间序列 (multivariate satellite image time series) 中嵌入的时空信息。
遥感图像中高频和低频光谱分量之间复杂的相互作用限制了传统 CNNs 和 ViTs 的有效性。RingMo-Sense [94] 采用了 Video Swin Transformer 作为其主干网络，并利用转置卷积层 (transposed convolution layer) 在空间和时间上对特征进行上采样 (upsample)。
SatMAE++ [89] 利用基于 CNN 的收缩-上采样块 (contract-upsample block) 来上采样特征的空间分辨率，用于多尺度重建过程。
RingMo-lite [52] 利用 Transformer 模块作为低通滤波器 (low-pass filters)，通过双分支结构 (dual-branch structure) 提取遥感图像的全局特征，并结合 CNN 模块作为堆叠的高通滤波器 (stacked high-pass filters) 有效捕捉细粒度细节。这种成功的实现导致了一个轻量级网络 (lightweight network)，在各种下游遥感任务中取得了优异性能。
OmniSat [169] 利用基于 CNN 的编码器-解码器 (encoder-decoder) 进行图像处理，并使用轻量级时间注意力编码器 (lightweight temporal attention encoder) [170] 处理时间序列数据，这与数据的固有特征相符。

以下是原文 Figure 1 的示意图，展示了文章的组织结构和分类法。

该图像是一个示意图，展示了遥感基础模型的组织架构与分类，包括视觉模型和多模态模型的架构、训练方法、训练数据集和评估任务等。图中列出了各种模型的类型及其对应的应用场景，提供了对遥感数据分析的全面理解。

Fig. 1: Organization and Taxonomy of this article.

4.1.2. 多模态基础模型 (Multimodal Foundation Models)

近期的研究优先利用大规模数据集和巨大的计算能力来解决各种挑战。主要目标是开发一个能够同时处理多种模态 (modalities) 和任务的统一模型。因此，人们越来越关注构建和应用多模态模型，这些模型旨在整合不同类型的数据并在多任务中表现良好。

视觉语言模型 (Vision-Language Models - VLMs) 因其在各种视觉识别任务中零样本预测 (zero-shot predictions) 的能力而受到广泛研究，它们从网络规模的图像-文本对中学习丰富的视觉-语言关联。

CLIP [34] 是一个开创性的 VLM，具有强大的零样本预测能力，激发了研究人员不断完善和创新其后续迭代。这些进展包括长文本能力 [171]、多模态特征融合方法 [172] 和模型架构 [173], [174] 等方面的改进。

随着大型语言模型 (Large Language Models - LLMs) 的快速发展，以 GPT-4V [36] 为代表的多模态大型语言模型 (Multimodal Large Language Models - MLLMs) 已成为一个新的、快速增长的研究焦点。通过利用 LLMs 强大的推理能力 (reasoning capabilities)，MLLMs 能够执行超出传统多模态模型范围的任务。
随后的研究扩展了 MLLMs 的用例和能力，包括输入和输出类型的扩展 [175], [176]（如视频和点云）、模型细粒度处理能力 [177], [178] 的增强以及语言支持 [179], [180] 的增加。

遥感领域的多模态基础模型根据其结构大致可分为以下四类：基于 CLIP 的模型 (CLIP-based Model) (如图 2(a)所示)、多模态大型语言模型 (Multimodal Large Language Model) (如图 2(b)所示)、基于扩散模型的模型 (Diffusion-based Model) (如图 2(c)所示) 和 智能体 (Agent)。

该图像是示意图，展示了多模态模型的架构。图中的（a）部分为 CLIP 模型，其中显示了机场区域的卫星图像，及其文本编码器和图像编码器之间的关系；（b）部分展示了多模态大型语言模型与智能体的连接；（c）部分则为基于扩散模型的表示。具体细节可参考论文内容。

FThsul LIP-eL diffusion-based model. Agent models are built upon the LLM architecture. VLM 描述: 该图像是示意图，展示了多模态模型的架构。图中的（a）部分为 CLIP 模型，其中显示了机场区域的卫星图像，及其文本编码器和图像编码器之间的关系；（b）部分展示了多模态大型语言模型与智能体的连接；（c）部分则为基于扩散模型的表示。具体细节可参考论文内容。

4.1.2.1. 基于 CLIP 的模型 (CLIP-based Model)

尽管视觉基础模型在各种下游任务中取得了出色的结果，但对于特定下游应用仍需要微调。受自然语言处理 (NLP) 和视觉语言模型 (VLM) 最新突破的启发，VLM 在大规模图像-文本数据集上进行训练，可以直接应用于下游视觉识别任务，而无需进一步微调，从而获得了广泛关注。CLIP [34] 通过大量图像-文本配对数据进行预训练，实现对齐，从而在图像分类、跨模态检索等下游任务中进行零样本预测。在遥感领域，大多数基于 CLIP 的研究 [5], [20], [37], [53]-[55] 遵循与 CLIP 相同的模型结构，如上图 2(a)所示。CLIP [34] 是一个双塔模型 (dual-tower model)，由一个图像编码器 (image encoder) 和一个文本编码器 (text encoder) 组成。图像编码器可以是 ResNet 或 ViT，将图像转换为视觉嵌入 (visual embeddings)。文本编码器基于 Transformer 架构，处理词元序列并生成向量化表示。

Mall 等人 [56] 利用 CLIP 的视觉-语言对齐能力，采用双图像编码器结构 (dual-image encoder structure)，将遥感图像与同一位置拍摄的地面互联网图像进行空间对齐，从而构建了一个用于遥感图像的视觉-语言基础模型。
由于遥感图像空间分辨率的显著差异，对齐遥感图像和文本的特征具有挑战性。Li 等人 [57] 引入了一个轻量级交互式傅里叶变换器模块 (lightweight interactive Fourier transformer module)，用于遥感图像字幕生成任务。该模块包含一个共享参数的基于傅里叶变换的图像 Transformer 和一个基于傅里叶变换的文本 Transformer，它们在频域中提取遥感图像的多尺度特征，增强了两阶段预训练过程中图像和文本特征的对齐。可学习的视觉提示 (learnable visual prompts) 被输入到基于傅里叶变换的图像 Transformer 中，在那里它们与从冻结图像编码器 (frozen image encoder) 中提取的特征进行交互，以捕捉多尺度视觉信息。同时，原始文本数据由基于傅里叶变换的文本 Transformer 处理，用于文本特征提取。

通过将图像与文本描述对齐，CLIP 展示了卓越的泛化能力，启发了将此范式扩展到遥感中其他模态的研究：
CSP [181] 引入了一个视觉-位置自监督学习框架 (vision-location self-supervised learning framework)，采用双编码器架构 (dual-encoder architecture)，独立编码图像和位置信息，通过对比学习实现对齐。
GeoCLIP [19] 引入了一个用于图像地理定位 (image geolocalization) 任务的基础模型，将预训练的 CLIP 图像编码器与 GPS 坐标对齐。它使用随机傅里叶特征 (random Fourier features) 编码 GPS 坐标，并采用指数 sigma 分配策略 (exponential sigma assignment strategy) 来促进不同分辨率下的分层特征学习。
另一个同期工作 SatCLIP [18] 是一个任务无关的、全球覆盖的位置编码器，它使用对比学习将全球分布的卫星图像与其对应的坐标进行匹配。他们利用 [182] 提出的位置编码器，该编码器使用球谐基函数 (spherical harmonics basis functions) 作为位置编码器，并结合正弦表示网络 (sinusoidal representation networks)。
GEOCLAP [59] 基于 CLIP 构建，编码三种模态：地理标记音频记录 (geotagged audio recordings)、音频的文本描述 (textual descriptions of audio) 以及对应位置的航拍图像 (overhead imagery)。它采用对比学习 (contrastive learning) 将这些模态对齐到统一的嵌入空间 (unified embedding space) 中。

4.1.2.2. 基于扩散模型的模型 (Diffusion-based Model)

扩散模型 (Diffusion Models) 是生成模型 (generative models)，通过逐步向数据引入噪声来破坏数据，然后学习反转这个过程。典型的扩散模型结构如上图 2(c)所示，由两个编码器（用于文本和图像）和一个条件扩散模型 (conditional diffusion model) 组成。条件扩散模型通过整合条件信息 (conditional information) 扩展了扩散过程的核心原理，从而能够生成符合特定约束的数据。在遥感领域，高质量数据可用性有限，这凸显了开发先进的基于扩散模型的必要性。

RSDiff [60] 提出了一种新颖轻量级框架，由两个级联扩散模型 (cascading diffusion models) 组成，用于从文本提示生成高分辨率卫星图像。
DiffusionSat [61] 利用卫星图像常用的相关元数据 (metadata)，包括纬度、经度和时间戳，来训练模型进行单图像生成。它设计了一个 3D 控制信号条件模块 (3D control signal conditioning module)，能够处理图像序列，以泛化到多光谱超分辨率 (multispectral super-resolution)、时间预测 (temporal prediction) 和图像修复 (inpainting) 等逆问题。
CRS-Diff [62] 提出了首个多条件可控生成基础模型 (multi-condition controllable generative foundation model)，用于遥感。它整合了 ControlNet [183]，将两个额外的控制信号 (control signals) 引入扩散模型，通过细化全局和局部条件来实现受控的遥感图像生成。该模型利用六个额外的图像控制条件（例如，语义分割掩码、路网图和草图）以及文本条件（例如，提示、内容图像和元数据编码）。
MetaEarth [63] 是一个专为全球规模遥感图像合成 (global-scale remote sensing image synthesis) 而定制的生成基础模型。通过分析生成条件和初始噪声，它引入了一种新颖的噪声采样策略 (noise sampling strategy)，用于去噪扩散模型 (denoising diffusion models)，确保生成图像块 (image tiles) 的风格和语义一致性。这种方法能够无缝地从较小的组件生成任意大的图像。

4.1.2.3. 多模态大型语言模型 (Multimodal Large Language Model)

最近，随着大型语言模型 (LLMs) 的不断涌现，多模态大型语言模型 (MLLMs) 也迅速发展，并在图像描述和视觉问答等各种视觉-语言任务中取得了巨大成功。MLLM 指的是能够接收、推理并根据多模态信息生成输出的基于 LLM 的模型。自从 GPT-4 [36] 发布以来，展示了其令人印象深刻的多模态能力，MLLM 领域取得了快速进展，并在不同场景中显示出有希望的结果。然而，由于自然图像和遥感图像在成像条件和尺度上存在显著差异，通用的 MLLM 在遥感领域表现不佳。因此，一些专门针对遥感领域的 MLLM 研究应运而生 [65], [67]-[69], [73]。这些模型采用现有 MLLM 的架构，包括一个图像编码器 (image encoder)、一个对齐层 (alignment layer) 和一个 LLM，如上图 2 所示。

视觉编码器 (Vision Encoder): 用于从图像中提取视觉特征，类似于人眼的功能。所有模型都采用 ViT 作为其视觉编码器，预训练权重来源于 CLIP [34] 或 EVACLIP [184]。这些预训练模型通常已经与文本模态对齐，使用此类模型与 LLM 对齐是有益的。此外，对不同类型的视觉编码器进行了大量探索。
- Osprey [178] 整合了基于卷积的 ConvNext-L 编码器 [185]，旨在利用更高分辨率的输入并更有效地提取多级特征。
- Fuyu [186] 探索了一种无编码器架构 (encoder-free architecture)，它直接投影图像块，然后将其传递给 LLMs。
- 最近的研究也专注于增强图像分辨率，以提高模型的感知能力。
  - CogAgent [187] 引入了双编码器机制 (dual-encoder mechanism)，其中两个独立的编码器处理高分辨率和低分辨率图像。图像块分割方法将高分辨率图像分割成图像块，并重用低分辨率编码器。
  - Monkey [188] 和 SPHINX [189] 将大图像分割成小图像块，并将子图像以及下采样的高分辨率图像发送给图像编码器。子图像和低分辨率图像分别捕捉局部和全局特征。
对齐层 (Alignment Layer): 负责弥合视觉模态和语言模态之间的鸿沟。对齐层通常采用两种方法：一种基于 BLIP2 [190]，包含一个 Q-Former (Querying Transformer) 和一个线性层 (linear layer)；另一种则仅依赖一个线性层 [191]。Q-Former 通过选择信息最丰富的词元作为输入，压缩视觉词元 (visual tokens) 的长度。
LLM (Large Language Model): 这些模型中的 LLM 选自最新的最先进的开源 LLMs。
- LLaMA 系列 [28], [192] 和 Vicuna 系列 [193] 是具有代表性的开源 LLMs，吸引了大量学术关注。然而，这些模型在多语言支持方面存在局限，特别是中文。
- 相比之下，Qwen [180] 是一种双语 LLM (bilingual LLM)，对中文和英文都提供了强大的支持。
- 这些模型在大量网络语料库上进行了广泛的预训练，嵌入了丰富的世界知识，并展现出强大的泛化和推理能力。这一基础使得它们能够在无需从头训练的情况下，在各种任务中表现良好，显著减少了时间和计算资源。
  
  遥感领域的 MLLMs 具体实现：
GeoChat [66] 是一个多任务遥感 MLLM，能够执行图像级对话以及针对图像内特定区域的对话。他们为每个视觉相关任务创建了一个独特的任务标识符 (task identifier)，使模型能够在各种视觉解释任务之间切换。
RS-CapRet [72] 是一个针对图像字幕生成 (image captioning) 和文本-图像检索 (text-image retrieval) 任务提出的模型，设计了一个特殊的检索词元 [RET]，用于根据图像和 [RET] 词元之间的相似性检索图像。
EarthGPT [70] 提出了一个统一的 MLLM，集成了各种多传感器遥感解释任务，并引入了视觉增强感知机制 (visual enhancement perception mechanism)，通过结合 CNN 和 ViT 主干网络的视觉特征来提炼视觉感知信息。
Popeye [71] 提出了第一个用于多源船舶解释和多粒度船舶检测任务的 MLLM，利用各种预训练的视觉主干网络获取多尺度图像特征。来自不同主干网络的特征随后被连接并通过线性层投影进行精炼。
为了解决遥感图像中复杂地貌和视觉尺度变化的问题，LHRS-Bot [64] 采用了新的桥接策略，即多级视觉-语言对齐策略 (multi-level vision-language alignment strategy)。可学习的查询 (Learnable queries)，应用了递减的查询分配策略 (descending query allocation strategy)，针对从图像编码器不同层保留的不同级别的图像特征进行设计。

4.1.2.4. 基于 LLM 的智能体 (LLM-based Agent)

AI 智能体 (AI agents) [194] 是配备传感器的实体，能够感知环境，基于感知做出决策，并使用执行器 (actuators) 响应周围条件采取行动。大型语言模型 (LLMs) 如 GPT-4 令人印象深刻的推理能力，使得 LLM 智能体在最近的研究中受到越来越多的关注。在这些系统中，LLM 充当大脑，配备各种工具来感知和采取行动。这些基于 LLM 的智能体通过利用思维链 (Chain-of-Thought - CoT) 和问题分解 (problem decomposition) [195]-[198] 等技术展示了推理和规划能力。此外，它们可以通过从反馈中学习和执行新动作 [199]-[201] 来发展与环境的交互能力。LLM 智能体已部署在各种实际应用中，包括软件开发 [202] 和科学研究 [203]。然而，在遥感领域，对智能体的研究仍处于探索阶段。

Tree-GPT [74] 使用 GPT-4 作为执行智能体 (execution agent)，并集成了图像理解模块 (image understanding module) 和领域知识库 (domain knowledge base)。图像理解模块自动或交互式地生成提示 (prompts) 以从森林遥感图像中提取结构化信息，指导 SAM 生成森林分割结果。系统随后根据这些结果计算树结构参数并存储在数据库中。
Remote Sensing ChatGPT [75] 集成了各种遥感任务模型，使用 ChatGPT 解决复杂的任务解释。它根据用户指令生成特定的提示模板 (prompt templates)，帮助 ChatGPT 准确理解命令，并利用 BLIP 模型为输入图像添加字幕 (captions)，从而将视觉信息注入 ChatGPT。
Change-Agent [13] 提出了一个专为遥感图像变化检测 (change detection) 设计的智能体，由多级变化解释 (multi-level change interpretation - MCI) 模型和 LLM 组成。MCI 模型采用双分支结构 (dual-branch structure) 和共享底层 (shared underlying layer)，处理像素级 (pixel-level) 和语义级 (semantic-level) 变化检测任务。LLM 作为智能体，配备了一套 Python 工具，使其能够自主编写 Python 程序，调用视觉提取主干网络 (vision extraction backbone)、变化检测分支 (change detection branch)、变化字幕分支 (change caption branch) 和其他相关 Python 库。
RS-Agent [76] 为 MLLM 配备了解决方案搜索器 (solution searcher)，提供解决方案指导以协助 LLM 从工具空间 (tool space) 中选择合适的工具，以及知识搜索器 (knowledge searcher)，提供知识指导。

4.2. 训练方法 (Training Methods)

遥感图像为训练视觉语言模型 (VLMs) 带来了独特的挑战和机遇。与传统图像不同，遥感数据通常包含多光谱 (multi-spectral) 和高维信息 (high-dimensional information)、大规模空间覆盖 (large-scale spatial coverage) 和时间变异性 (temporal variability)。这些特性使得开发能够有效提取有意义模式，同时解决遥感领域特有问题（如数据异构性、分辨率变化和标注数据集稀缺性）的训练策略至关重要。

传统的自监督方法 (self-supervised methods)，如对比学习 (contrastive learning) 和掩蔽自编码器 (masked autoencoders - MAE)，在利用遥感数据无标注特性方面显示出潜力。对比学习旨在通过区分相似和不相似的样本来学习鲁棒的表示，这对于遥感任务尤其有用，因为环境因素可能导致类内方差 (intra-class variance) 很高。类似地，MAE 利用遥感图像固有的冗余性，使模型能够重建被掩蔽的图像块 (masked patches) 并学习空间-语义相关性。然而，尽管这些方法可以训练出有效的模型，但它们往往未能完全解决遥感的独特需求，例如多模态融合或领域特定理解。

训练方法的发展，超越了对比学习和 MAE，导致了多模态预训练框架的出现。这些方法结合了视觉和文本信息，使模型能够弥合遥感图像和自然语言描述之间的鸿沟。最近的进展进一步将这种范式扩展到多模态大型语言模型 (MLLM) 预训练，其中遥感数据的视觉特征与语言模型对齐，以增强多模态理解。这一进展最终形成了与人类偏好对齐 (alignment with human preferences) 的技术，其中模型被微调以生成与人类判断一致的输出，确保在实际场景中具有更大的适用性。

4.2.1. 视觉基础模型 (Vision Foundation Model)

视觉基础模型强大的泛化能力源于在大规模数据集上的自监督学习 (self-supervised learning)。遥感领域的大多数自监督方法都属于对比范式 (contrastive paradigms) 和生成范式 (generative paradigms)。此外，一些方法试图整合这两种范式，利用它们各自的优势。视觉模型的训练方法组织结构如图 3 所示。

对比方法 (Contrastive methods) 通过比较相似和不相似的样本来学习更具判别性的表示。经典的对比方法，如 MoCo [204]、SimCLR [205] 和 BYOL [206]，在表示学习方面展现出巨大潜力。越来越多的研究 [30], [34], [184] 探索将对比方法整合到大规模预训练框架中，并取得了显著成功。
随着 ViT [155] 和 MAE [161] 的成功，生成方法 (generative methods)，特别是掩蔽图像建模 (masked image modeling - MIM)，在训练视觉基础模型方面越来越受欢迎。MIM 通过掩蔽重建 (mask reconstruction) 的方法学习图像特征。MIM 方法，如 BEiT [207], [208] 和 SimMIM [209]，在大规模数据上取得了有希望的结果，并广泛应用于不同领域。与通常强调全局视图而忽略图像内部结构的对比方法相比，MIM 主要关注局部关系。自然地，最近的研究旨在整合这两种训练框架，以提高模型在图像级任务（如分类）和像素级任务（如分割）上的性能。

接下来，我们将介绍对比方法、生成方法以及对比-生成混合方法在遥感领域的应用。

该图像是远程 sensing 视觉基础模型的训练方法示意图，展示了对比方法、生成方法和对比-生成混合方法等不同类型的训练策略。图中包含多个模型及其对应分类，如空间、时间和多模态等，具体方法包括 GASSL、DINO-MC 等。

Fig. 3: Training methods for Remote Sensing Vision Foundation Models. VLM 描述: 该图像是远程 sensing 视觉基础模型的训练方法示意图，展示了对比方法、生成方法和对比-生成混合方法等不同类型的训练策略。图中包含多个模型及其对应分类，如空间、时间和多模态等，具体方法包括 GASSL、DINO-MC 等。

4.2.1.1. 对比方法 (Contrastive Method)

由于自然图像和遥感图像之间的模态差异，在自然图像上训练的模型难以在遥感任务中取得令人满意的结果。专业的遥感任务使得带标注的遥感图像难以获取。除了利用带标注的训练方法外，受 MOCO [204] 等自监督对比方法的启发，一些方法开始探索通过对比学习在遥感图像上进行预训练的潜力。

对比学习的关键要素是构建正样本对 (positive sample pairs) 和负样本对 (negative sample pairs) 的方法。对于遥感图像，时间和空间对比至关重要。许多研究基于位置和季节等各种因素构建了正负样本对，如图 3 所示。此外，对比学习促进了跨多个模态构建正负样本，捕捉它们之间的共同属性，并使模型能够处理来自不同传感器的数据。我们将遥感图像对比对的构建分为四个不同类别：空间对比 (spatial contrast)、时间对比 (temporal contrast)、时空对比 (spatio-temporal contrast) 和多模态对比 (multimodal contrast)，并将依次深入探讨每个类别。

空间对比 (Spatial Contrast): 对于空间方面，方法通常选择同一图像的不同视图作为正样本，以捕捉遥感图像的内在特征。
- CMC-RSSR [77] 采用对比多视图编码 (contrastive multiview coding)，将同一图片的不同视图视为正样本对，而不同图像的视图视为负样本对。这种方法使得基础模型在下游分类任务中比使用在自然场景图像上预训练的模型取得更好的结果。
- DINO-MC [78] 利用局部裁剪 (local crops) 的尺寸变化来驱动遥感图像语义内容 (semantic content) 的更好表示学习。
时间对比 (Temporal Contrast): 对于时间方面，方法引入了时间维度 (time dimension) 的概念，并利用时间差异来构建正负样本。
- Mall 等人 [79] 提出了一种新的变化感知对比损失 (change-aware contrastive loss)，利用图像中长期和短期差异的时间信号之间的对比，以及卫星图像相对不变的性质。这种方法使模型能够识别长期永久性变化，如房屋建设和湖泊干涸。
时空对比 (Spatial-Temporal Contrast): 此外，同时利用时间 (temporal) 和空间 (spatial) 信息可以生成更复杂的对比样本，从而使模型能够提取更丰富和更细微的特征。
- GASSL [80] 利用时空结构通过地理感知对比学习 (geo-aware contrastive learning) 构建正负样本对，显著缩小了 MoCo-v2 与遥感图像监督学习之间的性能差距。
- SeCo [81] 开发了一个基础模型，使用多个嵌入子空间 (embedding subspaces) 进行季节对比 (season contrast) 和空间对比 (space contrast)。该模型在土地覆盖分类和变化检测等下游任务中表现出卓越的性能。
- Akiva 等人 [82] 引入了 MATTER，一种受经典材料和纹理技术启发的对比方法。它利用稳定区域 (stable regions) 的多时间、空间对齐遥感图像 (multi-temporal, spatially aligned remote sensing imagery)，通过实现对光照和视角的不变性，确保材料和纹理表示的一致性。
多模态对比 (Multimodal Contrast): 仅关注单模态数据的方法未能充分利用所有可用信息。多模态对比学习方法在不同模态之间建立正样本对，确保特征具备每种模态的基本特征。同时，在同一模态内构建负样本增强了特征的判别能力。
- Scheibenreif 等人 [16] 利用同一位置不同传感器的数据作为正样本，不同位置的数据作为负样本，通过对比学习训练了一个基础模型。
- DINO-MM [83] 基于 DINO 框架，通过 RandomSensorDrop 增强了输入的 SAR-光学图像，同时提取光学、SAR 和 SAR-光学特征。
- 为了防止多模态对比学习只捕捉模态内的共同特征，RSBYOL [84] 采用 BYOL 作为基础框架，并使用单通道和三通道特征学习方法训练 RS-BYOL，以嵌入跨多光谱和合成孔径雷达 (SAR) 传感器的不变特征。
- Prexl 等人 [85] 提出了 Intra- and Inter-modality SimCLR (IaI-SimCLR)，鼓励模型同时捕捉模态之间的相似性和每个模态内的固有特征。
- DeCUR [86] 构建了模态间和模态内比较对，使其能够捕捉跨模态的共享特征和个体模态内的独特特征。
- SkySense [41] 提出了跨各种模态和空间粒度 (spatial granularities) 的多粒度对比学习 (multi-granularity contrastive learning)，以处理多模态时间遥感图像序列。

4.2.1.2. 生成方法 (Generative Method)

生成方法侧重于通过从学习到的表示空间中生成样本来获得表示 [210]。掩蔽图像建模 (Masked Image Modeling - MIM)，即图像的一部分被掩蔽，模型被训练来重建它们，被广泛认为是最流行的生成预训练方法之一。遥感领域的大多数生成方法也采用这种方法。不同的方法表现出不同的侧重点。它们分为空间生成 (spatial generation)、时空生成 (spatial-temporal generation)、光谱生成 (spectral generation) 和多模态生成 (multimodal generation)，如图 3 所示。

空间生成 (Spatial Generation): MIM 随机选择图像块进行掩蔽，然后利用空间上下文信息重建掩蔽部分。鉴于遥感图像的高分辨率、大量小目标和显著的尺寸变化，空间生成方法得到了进一步完善，以增强多尺度感知 (multi-scale perception) 和小目标检测 (small target detection)，从而实现更有效的特征提取。
- Scale-MAE [88] 使用带通滤波器 (bandpass filter) 处理掩蔽图像，并在较低/较高尺度重建低频/高频图像，以获得更鲁棒的多尺度表示。
- SatMAE++ [89] 采用多尺度预训练策略，并结合上采样块 (upsampling blocks) 以更高分辨率重建图像，促进额外尺度的灵活集成。这种方法在光学和多光谱卫星图像中都表现出卓越性能。
- 为了捕捉多尺度特征和频域信息，Dong 等人 [39] 提出了稀疏建模和低频重建 (sparse modeling and low-frequency reconstruction - SMLFR) 框架，用于自监督表示学习，使模型能够处理可变长度序列，同时减轻不必要的细节干扰。
- SAR 数据训练面临小目标丢失和 SAR 图像固有普遍噪声的挑战。为了解决这些挑战，SAR JEPA [91] 基于 JEPA [211] 框架，通过局部掩蔽 (local masking) 增强了小目标周围上下文信息的提取，并利用多尺度梯度特征 (multiscale gradient features) 作为引导信号，以减轻 SAR 散斑噪声 (SAR speckle noise) 干扰。
时空生成 (Spatial-Temporal Generation): 遥感图像固有时空特性，生成方法必须考虑如何在生成过程中捕捉这些特性。
- Temporal SatMAE [92] 讨论了各种时间掩蔽方法对生成模型的影响，发现独立掩蔽每张图像，同时在图像之间保持一致的掩蔽率，产生了最佳结果。
- 由于基本掩蔽策略可能导致遥感图像中密集小目标的丢失，RingMo [93] 提出了一种图像块不完全掩蔽 (patch incomplete mask - PIMask) 策略，该策略采用部分不完全掩蔽来保留复杂场景中的遥感特征，同时保持整体掩蔽率。
- 为了注入具有时间连续性和空间亲和力 (temporal continuity and spatial affinity) 的特征，RingMo-Sense [94] 构建了一个空间、时间和时空三分支预测网络 (three-branch prediction network)，分别利用块、管和帧掩蔽方法 (block, tube, and frame masking methods) 来获取空间亲和力、时间连续性和时空交互。
- 为了减轻上下文信息丢失，CtxMIM [95] 提出了一种 Siamese 框架，并将掩蔽图像和未掩蔽图像输入到两个独立的branches中。模型通过重建每个分支，同时保持它们之间的上下文一致性，提取更全面的遥感特征。
光谱生成 (Spectral Generation): 与 RGB 图像不同，光谱图像通常具有独特的特征。某些技术开发了专门针对光谱图像的算法。
- 为了专门处理光谱数据，S2MAE [96] 采用了超过 90% 的 3D 掩蔽策略 (3D masking strategy)。
- SpectralGPT [97] 采用多目标重建策略 (multi-objective reconstruction strategy)，以更有效地全面捕捉局部空间-光谱特征 (local spatial-spectral features) 和光谱序列信息。
- 为了增强多光谱和 SAR 特征的重建，FG-MAE [98] 结合了多光谱图像的梯度方向直方图 (histograms of oriented gradients - HOG) 和归一化差异指数 (normalized difference indices - NDI)，同时重建 SAR 图像的 HOG。
多模态生成 (Multimodal Generation): 遥感图像来源于广泛的来源，并显示出多种格式，包括 RGB、多光谱和 SAR 等。一些研究同时重建多模态遥感图像，从而使模型能够支持遥感图像多种模态相关的下游任务。
- OFA-Net [46] 利用 MAE 有效融合来自不同模态的数据表示。
- MSGFM [87] 实现了跨传感器联合表示学习方法 (cross-sensor joint representation learning approach)，其中一个传感器的特征用于预测和重建其他传感器的图像。这种方法促进了不同传感器之间表示的对齐。
- A2MAE [99] 引入了一种锚点感知掩蔽自编码器 (anchor-aware masked autoencoder)，它利用来自各种图像类型和地理数据的内在互补信息，在预训练阶段重建被掩蔽的图像块。

4.2.1.3. 对比-生成混合 (Contrastive-Generative Hybrid)

Park 等人 [212] 发现结合对比和重建方法可以获得更好的特征表示。在遥感领域，对比-生成混合预训练方法在单模态和跨模态场景中都已成为一种有前景的方法。

空间增强 (Spatial Enhancement):
- Muhtar 等人 [100] 认为，仅通过对比学习或掩蔽生成方法学习的表示，其整合全局语义可分离性 (global semantic separability) 和局部空间感知 (local spatial perception) 的能力有限。为了克服这一限制，他们引入了对比掩蔽图像蒸馏 (Contrastive Mask Image Distillation - CMID) 方法，旨在统一框架中学习全局语义和局部表示。
- 为了从未对齐的多尺度图像中提取有效特征，Cross-Scale MAE [101] 采用多尺度对比学习和掩蔽重建，以识别不同尺度之间的关系。
多模态增强 (Multimodal Enhancement): 对于多模态遥感数据，一些研究探索使用生成方法提取图像特征，并利用对比学习整合跨模态信息。
- CROMA [102] 引入了一个多视觉模态框架 (multi-vision modality framework)，整合了对比和生成自监督目标。它采用生成范式学习单模态编码器 (single-modal encoders)，并实现了跨模态对比学习。
- Feng 等人 [103] 结合了图像块掩蔽重建损失 (patch-masking reconstruction loss) 和跨模态数据对比损失 (cross-modal data contrastive loss)，以解决跨模态协同解释过程中异构模态特征的空间一致性问题。

4.2.1.4. 地理知识 (Geographic Knowledge)

尽管标注地理数据面临巨大挑战，但许多地理数据产品和学术数据集仍包含有价值的标注。为了防止这些标注被低估，一些方法已被用于直接用于模型训练或增强自监督训练方法，旨在提取更准确的地理特征。

带监督的地理知识 (Geographic Knowledge with Supervision): 利用地理知识最简单的方法是直接将其用于构建预文本任务 (pretext task) 并训练基础模型。
- GeoKR [104] 提出了一种利用地理知识作为监督信号 (supervisory signals) 来学习遥感图像表示的方法。
- GeCo [105] 认为以前使用由 GLC 生成的地理监督信号的方法存在偏差。因此，他们引入了一种地理监督偏差校正方法 (bias correction method) 来改善遥感表示的学习性能。
- 此外，随着地理标注数据量的增加，最新方法尝试同时使用多个数据集训练模型。Wang 等人 [106] 在 SAMRS 上进行了多任务预训练 (multi-task pretraining)，并取得了有希望的结果。
带对比的地理知识 (Geographic Knowledge with Contrastive): 为了学习与遥感图像本质对齐的特征，一些方法已将额外的地理知识整合到对比方法的训练框架中。
- GeRSP [107] 将自然图像和分类监督信号 (classification supervision signals) 整合到 EMA (Exponential Moving Average) 框架中的学生模型 (student model) 中，通过视觉知识促进遥感图像特征的学习。
- 为了使对比学习方法学习到更好的地理特征，Tao 等人 [108] 提出了一种自动数据采样和重采样机制 (automatic data sampling and resampling mechanism)，利用地理数据产品（如 OSM 和 FROM-GLC10）构建了一个大规模、可扩展且相对平衡的遥感图像数据集进行训练。
- SoftCon [109] 提出了软对比学习 (soft contrastive learning)，它利用土地覆盖生成的多个标签监督 (multi-label supervision) 来优化跨场景软相似性 (cross-scene soft similarity)，解决了复杂场景中的多个正样本和严格正匹配问题。
- 为了减轻以前对比学习方法中负样本对中发现的相似样本的影响，SwiMDiff [90] 通过实现场景范围匹配策略 (scene-wide matching strategy) 改进了对比学习，并使用扩散分支 (diffusion branch) 增强了模型对细粒度特征的注意力。
带生成的地理知识 (Geographic Knowledge with Generative): 一些研究专注于将遥感知识整合到生成模型的训练方法中。
- 为了探索多个预文本任务的潜力，Nedungadi 等人 [40] 在 MAE 框架中整合了几个辅助任务 (auxiliary tasks) 以促进训练。
- 受 NLP 中“不停止预训练” (not stopping pretrain) 概念的启发，Zhang 等人 [110] 提出了连续预训练 (consecutive pretraining)，首先在大型自然图像数据上进行训练以识别通用视觉模式，然后在大规模遥感图像上进行预训练，使模型熟悉特定任务图像数据的语义和内容。
- Mendieta 等人 [111] 发现标准连续预训练的好处有限。因此，他们引入了一种使用 MAE 的方法，该方法使用 ImageNet 预训练模型作为特征重建的引导模型 (guiding model)，有效利用了预训练的自然图像模型。
- 由于 SAR 图像中存在的散斑噪声 (speckle noise) 会干扰预文本任务，SARATR-X [112] 首先在自然图像上应用 MIM 预训练模型，然后在遥感图像上进行预训练。

4.2.2. 多模态基础模型 (Multimodal Foundation Model)

由于文本和视觉模态之间的鸿沟，多模态模型的训练方法需要将两种模态对齐到同一个空间中。

视觉语言模型 (VLM) 预训练主要有三个关键目标：对比 (contrastive)、生成 (generative) 和 对齐 (alignment)。对比学习在 VLM 预训练中扮演着关键角色，其中对比目标旨在捕捉区分图像-文本特征。生成预训练通过掩蔽图像建模 (masked image modeling)、掩蔽语言建模 (masked language modeling)、掩蔽跨模态建模 (masked cross-modal modeling) 和图像到文本生成 (image-to-text generation) 等技术生成图像或文本，从而发展语义理解。对齐目标确保 VLMs 通过预测给定文本是否准确描述其对应图像来正确对齐图像-文本对。

多模态大型语言模型 (MLLMs) 通常经历以下训练阶段：预训练 (pretraining)、指令微调 (instruction tuning) 和对齐微调 (alignment tuning)。每个训练阶段都需要不同类型的数据并实现不同的目标。预训练阶段旨在对齐不同模态并提供世界知识。指令微调侧重于增强模型理解用户指令并有效执行所需任务的能力。相比之下，对齐微调通常应用于模型必须与特定人类偏好对齐的情况。

接下来，我们将通过将训练方法分为三类来介绍多模态遥感基础模型的训练方法：对比学习 (contrastive learning)、多模态对比 (multimodal contrast) 和自回归学习 (auto-regressive learning)。

4.2.2.1. 对比学习 (Contrastive Learning)

图像-文本对比学习的目标是通过比较图像-文本对来学习视觉和文本数据之间的相关性，使配对的图像和文本嵌入 (embeddings) 彼此更接近，同时将不相关的对推开。CLIP [34] 采用对称的图像-文本 infoNCE 损失，如公式 (1) 和公式 (2) 所示，该损失使用点积 (dot-product) 衡量图像和文本嵌入之间的相似性。大多数遥感 VLM 模型 [37], [53], [54] 基于 CLIP 进行持续预训练 (continual pretraining)。这涉及使用在网络图像-文本数据上预训练的权重初始化 CLIP 模型，然后使用图像-文本对比学习在遥感数据集上进行进一步训练。

$\mathcal L_{I T} = - \displaystyle \frac { 1 } { B } \sum_{i=1}^B \log \frac { \exp { ( z _ { i } ^ { I } \cdot z _ { i } ^ { T } / \tau ) } } { \sum _ { j = 1 } ^ { B } \exp ( z _ { i } ^ { I } \cdot z _ { j } ^ { T } / \tau ) } \quad (1)$

$\mathcal L_{T I} = - \displaystyle \frac { 1 } { B } \sum_{i=1}^B \log \frac { \exp { ( z _ { i } ^ { T } \cdot z _ { i } ^ { I } / \tau ) } } { \sum _ { j = 1 } ^ { B } \exp ( z _ { i } ^ { T } \cdot z _ { j } ^ { I } / \tau ) } \quad (2)$

符号解释:
- $\mathcal L_{I T}$ : 图像到文本的对比损失。
- $\mathcal L_{T I}$ : 文本到图像的对比损失。
- $B$ : 批次大小 (batch size)，即一个训练批次中的样本数量。
- $i$ : 当前样本的索引。
- $j$ : 批次中所有样本的索引。
- $z_i^I$ : 批次中第 $i$ 个图像的视觉嵌入。
- $z_i^T$ : 批次中第 $i$ 个文本的文本嵌入。
- $z_j^I$ : 批次中第 $j$ 个图像的视觉嵌入。
- $z_j^T$ : 批次中第 $j$ 个文本的文本嵌入。
- $\tau$ : 温度参数 (temperature parameter)，一个可学习的标量，用于缩放点积的输出，从而调整 softmax 函数的平滑度。
  
  然而，开发开放词汇 (open-vocabulary) 视觉语言模型需要大量的文本-图像对。这在遥感领域构成了重大挑战。与通常由创作者提供字幕或替代文本的互联网图像不同，卫星图像由遥感传感器自动捕获，人工参与极少，缺乏相应的文本标注。
S-CLIP [55] 是一种半监督学习方法，引入了字幕级 (caption-level) 和关键词级 (keyword-level) 伪标签损失 (pseudo-label losses)，然后与 CLIP 的 InfoNCE 损失相结合。字幕级损失假设未标注图像的语义可以表示为标注图像字幕的组合。关键词级伪标签损失假设未标注图像与视觉相似的图像共享关键词，即使它们的完整字幕不完全相同。伪标签被定义为最近标注图像字幕中的一个关键词，创建一个候选关键词集而不是单个精确标签。
RS-CLIP [5] 也利用伪标签 (pseudo-labels) 进行训练，并引入了课程学习策略 (curriculum learning strategy)，该策略以特定顺序或基于复杂性级别呈现训练样本，使模型能够更有效地学习。他们利用 CLIP 模型通过为每个类别选择相同数量的样本作为伪标签来生成伪标签，这避免了不平衡分布问题。
Mall 等人 [56] 利用 CLIP 的对齐能力，将遥感图像与同一位置拍摄的地面互联网图像进行空间对齐，从而能够在无需任何文本标注的情况下训练遥感图像 VLM。图像-文本对比学习扩展到图像和像素级别，解决了单张卫星图像对应多张地面图像以及像素级理解的问题。
Yang 等人 [57] 提出了一种两阶段预训练框架。在第一阶段，图像-文本对比学习用于将多尺度图像特征与文本描述对齐。傅里叶变换器 (Fourier Transformer) 用于在频域中提取视觉特征，最大程度地减少视觉和文本模态之间的差距。在第二阶段，学习到的视觉特征使用前缀因果语言建模 (prefix causal language modeling) 指导冻结的语言模型，从而提高文本生成质量。这种方法有效地处理了遥感图像的多尺度性质，从而实现了更好的图像-文本对齐和字幕生成。

4.2.2.2. 多模态对比 (Multimodal Contrast)

一些研究也将这种对比学习范式扩展到遥感图像和其他模态。

GeoCLIP [19] 和 SatCLIP [18] 采用了图像-位置对比学习方案来预训练模型。简单的地址坐标无法提供丰富的语义信息，这增加了与图像特征对齐的难度。
AddressCLIP [20] 引入图像字幕信息作为地址文本的补充，通过使用图像-地址对比损失和图像-字幕对比损失促进图像和地址的对齐。同时，他们提出了一种图像-地理匹配机制 (image-geography matching mechanism)，该机制利用空间地址距离来约束图像特征的相似性，确保图像特征的分布与地理坐标紧密对齐。
StreetCLIP [58] 采用合成字幕预训练 (synthetic caption pretraining) 来提高 CLIP 的零样本图像地理定位能力。通过生成描述图像地理位置的字幕，它使 CLIP 能够将视觉内容与地理标签关联起来。
GeoCLAP [59] 在嵌入三元组上进行训练，使用类似于 CLIP [34] 的对比学习目标，用于所有三对嵌入，包括音频-文本对、音频-图像对和图像-文本对。

4.2.2.3. 自回归学习 (Auto-regressive Learning)

自回归学习涉及预测后续词或字符，并用于训练模型以处理广泛的自然语言任务，包括文本生成、文本分类和问答。这个过程通常包括两个阶段：预训练和指令微调 (instruction fine-tuning)。

预训练 (Pretraining): 主要旨在对齐不同模态并获取多模态世界知识，通常利用大规模文本配对数据集，如字幕数据。这些字幕对通常以自然语言句子描述图像、音频或视频。给定一张图像，模型被训练以自回归方式预测字幕，遵循标准的交叉熵损失 (cross-entropy loss)。
指令微调 (Instruction Tuning): 指在监督方式下，在指令-输出对数据集上进一步训练多模态大型语言模型 (MLLMs) 的过程，弥合了 LLMs 的下一词预测目标与用户希望 LLMs 遵循人类指令的目标之间的差距。

给定每个样本作为列表 $X_c = (X_{instruct}^1, X_a^1, ..., X_{instruct}^n, X_a^n)$ ，其中 $X_{instruct}^n$ 是第 $n$ 轮的指令， $X_a^n$ 是第 $n$ 轮的回答。对于给定的遥感图像特征 $\pmb{F}_v$ ，将其与文本模态的指令词元 $X_{instruct}$ 连接起来。然后将这个拼接后的输入输入到 LLM 中。模型生成长度为 $L$ 的回答 $X_a$ 。最大化似然函数定义如下：

$\begin{array} { l } { \mathcal { L } = \log P \left( { X _ { a } } \mid { F _ { v } } , { X _ { i n s t r u c t } } ; \theta \right) } \\ { \ } \\ { \displaystyle = \sum _ { i = 1 } ^ { L } \log P \left( { x _ { i } } \mid { F _ { v } } , { X _ { i n s t r u c t , < i } } , { X _ { a , < i } } ; \theta \right) , } \end{array} \quad (3)$

符号解释:
- $\mathcal L$ : 似然函数，表示在给定视觉特征和指令的情况下，生成回答 $X_a$ 的对数概率。
- $P(\cdot | \cdot; \theta)$ : 模型在参数 $\theta$ 下的条件概率。
- $X_a$ : 模型生成的回答（文本序列）。
- $\pmb{F}_v$ : 遥感图像的视觉特征。
- $X_{instruct}$ : 文本指令词元。
- $\theta$ : 模型的所有可训练参数。
- $L$ : 回答 $X_a$ 的长度（即包含的词元数量）。
- $x_i$ : 回答 $X_a$ 中的第 $i$ 个词元。
- $X_{instruct,<i}$ : 在当前预测词元 $x_i$ 之前的所有指令词元（包括多轮对话中的历史指令）。
- $X_{a,<i}$ : 在当前预测词元 $x_i$ 之前的所有回答词元（包括多轮对话中的历史回答）。
  
  因此，前几轮的指令和回答作为当前任务响应的参考。由于参数数量庞大，对 MLLM 或 LLM 进行微调通常具有挑战性且计算成本高昂。

为了缓解这个问题，引入了参数高效微调方法 (parameter-efficient fine-tuning methods)，如 LoRA [213]，用于微调预训练模型。LoRA [213] 是一种广泛采用的参数高效微调方法，因其简单性和有效性。基于微调期间的更新表现出较低内在秩 (low intrinsic rank) 的假设，LoRA 的核心概念是将大型权重矩阵分解为两个较小的矩阵，使用低秩分解 (low-rank decomposition)。对于预训练权重矩阵 $W^0 \in \mathbb{R}^{d \times k}$ ，我们将参数高效微调定义为更新矩阵 $\Delta W$ 。LoRA [213] 将其分解为两个低秩矩阵的乘积：

$W = W ^ { 0 } + \Delta W = W ^ { 0 } + B A , \quad (4)$

符号解释:
- $W$ : 经过 LoRA 微调后的最终权重矩阵。
- $W^0 \in \mathbb{R}^{d \times k}$ : 预训练模型的原始权重矩阵。
- $\Delta W$ : 在微调过程中添加到原始权重矩阵的更新矩阵。
- $B \in \mathbb{R}^{d \times r}$ : 一个低秩矩阵，秩为 $r$ 。
- $A \in \mathbb{R}^{r \times k}$ : 另一个低秩矩阵，秩为 $r$ 。
- $r$ : 低秩分解的秩，通常 $r \ll \min(d, k)$ ，表示矩阵的维度 $d$ 和 $k$ 远大于 $r$ 。
- $d$ : 权重矩阵的行数（输出维度）。
- $k$ : 权重矩阵的列数（输入维度）。
  
  矩阵 A 用均匀 Kaiming 分布初始化，而 B 最初设置为零。

对于大型遥感多模态模型，我们主要将训练方法分为两类进行讨论：预训练到微调 (Pretraining to Fine-tuning) 和仅微调 (Only Fine-tuning)。

预训练到微调 (Pretraining to Fine-tuning): 在一些研究中，模型进行持续预训练以与遥感图像对齐，然后进行指令微调以使模型适应下游任务。
- LHRS-Bot [64] 提出了一种三阶段课程学习策略 (three-stage curriculum learning strategy)，以逐步对齐视觉和语言模态的特征。第一阶段，使用大规模弱标注数据 (weakly labeled data) 预训练视觉编码器，将广泛的遥感视觉知识整合到 LLM 中。第二阶段涉及多任务预训练 (multi-task pretraining)，其中视觉编码器进一步训练，并使用 LoRA [213] 对 LLM 进行多任务指令数据微调，从而增强多模态和多任务处理能力。第三阶段，使用更复杂的指令数据对 LLM 进行微调，以激活模型的多任务解决和推理能力。
- H2RSVLM [65] 首先经历了一个预训练阶段，在监督微调阶段，视觉编码器被冻结，而 LLM 和投影层 (projection layer) 被微调。
仅微调 (Only Fine-tuning): 工作的另一部分涉及仅使用指令微调方法获取遥感 MLLMs。这又分为单阶段微调和多阶段微调。
- 为了将预训练在自然场景领域的模型迁移到遥感领域，许多研究使用了单阶段指令微调训练方法。
  - RS-LLaVA [73] 仅使用 LoRA 对 LLM 进行指令微调。
  - 除了使用 LoRA 对大型语言模型的特定组件进行指令微调外，一些方法 [66]-[68] 还解冻了图像-文本对齐层 (image-text alignment layers)，如 Q-Former 或 MLP 投影层 (MLP projector layer)，进一步增强图像和文本特征之间的对齐。
- 由于遥感的多模态性质和复杂性，单阶段指令微调可能无法实现最佳对齐。因此，一些研究探索了多阶段微调方法。
  - SkyEyeGPT [69] 设计了一种两阶段指令微调方法，包括遥感图像-文本对齐和多任务对话微调，分别增强指令遵循和多轮对话能力。在遥感图像-文本对齐阶段，模型使用单任务图像-文本指令进行训练，而在多任务对话微调阶段，使用多任务对话指令对模型进行微调。
  - EarthGPT [70] 通过解冻自注意力 (self-attention) 和 RMSNorm 层在自然场景数据上进行训练，以实现视觉-语言对齐和深度跨模态理解。在第二阶段，受 LLaMA-Adapter V2 [214] 启发的指令微调在遥感领域进行，通过在线性层中引入可学习参数和线性变换，增强模型对遥感任务的适应性。
  - Popeye [71] 在视觉-语言对齐和船舶领域适应阶段采用了不同的参数优化方法。在视觉-语言对齐阶段，LoRA 方法用于在通用数据集上微调 LLM。在第二阶段，为了适应多源、多粒度船舶检测数据，LLaMA-Adapter V2 的概念被整合到 LoRA 微调中，并在新构建的 MMShip 数据集上进行训练。

5. 实验设置

本章将回顾遥感基础模型所使用的训练数据集，并深入探讨评估这些模型性能的下游任务、常用数据集、典型评估指标及其性能结果。

5.1. 数据集 (Datasets)

训练数据在基础模型的开发和成功中扮演着关键角色。这些模型的性能与其训练数据集的规模和多样性密不可分。著名的基础模型，如 CLIP [34]、DINOv2 [30]、SAM [31] 和 GPT 系列 [25]-[27]，都通过利用广泛而异构的数据集取得了卓越的成果。

类似地，训练数据对遥感基础模型至关重要，因为它直接影响模型的性能和泛化能力。与主要依赖文本和 RGB 图像的传统视觉或多模态模型不同，遥感数据包含各种模态，包括光学 (optical)、高光谱 (hyperspectral) 和合成孔径雷达 (SAR) 图像。这种多样性给数据处理和模型训练都带来了显著的复杂性。

5.1.1. 视觉基础模型的训练数据集 (Training Datasets for Vision Foundation Models)

视觉基础模型主要利用图像模态数据进行训练，这些数据可以来源于自定义收集的数据集和公开可用的数据集。一些模型在专门为特定应用或区域收集的自定义数据集上进行训练，实现更具针对性的训练，以满足目标环境的独特特征和要求。相比之下，其他模型则依赖于公开可用的数据集，这些数据集提供标准化的基准，并促进不同方法之间的比较。这些数据集在规模、类别、分辨率和模态方面差异显著，反映了遥感任务中遇到的各种实际场景。例如，一些数据集侧重于高分辨率图像，这对于需要详细空间信息的任务至关重要，而另一些则包含多光谱数据，以实现对不同环境条件的建模。例如，一些数据集侧重于高分辨率图像，这对于需要详细空间信息的任务至关重要，而另一些则包含多光谱数据，以捕捉多样化的语义信息。这些数据集的具体属性汇总在表格 I 中，展示了训练视觉基础模型数据的多样性和广度。

以下是原文 Table I 的结果：

Dataset	Year	Image	Size	#ClassResolution (m)		Modality	Models
SARSim [123]	2016	21,168		7	0.1-0.3	SAR	SAR-JEPA [91]
fMoW [119]		2018 ∼1,000,000		62	0.5	RGB	SatMAE [92], SatMAE++ [89], Scale-MAE [88]
Sen12MS [115]	2019	180,662	256 × 256			SAR, Multispectral	RS-BYOL [84], IaI-SimCLR [85],
BigEarthNet-S2 [120]	2019	590,326	20 × 20 − 120 × 120	19	10-60	Multispectral	msGFM [87] SpectralGPT, S2MAE [96]
SAR-Ship [122]	2019	39,729	256 × 256	1	3-25	SAR	SAR-JEPA [91]
SAMPLE [124]	2019	5,380		10	0.3	SAR	SAR-JEPA [91]
Seco [81]		2021 ∼1,000,000			10-60	Multispectral	Seco [81]
MATTER [82] Levir-KR [104]	2021	14,857	1096 × 1096		10		MATTER [82]
	2021	1,431,950	256 × 256	8	0.8-16	RGB	GeoKR [104]
Million-AID [113]			2021 ~1,000,000 110 × 110 - 31, 672 × 31, 672 51		0.5-153	RGB	GeRSP [107], CMID [100], LeMeViT [49], msGFM [87]
BigEarthNet-MM [116]2021		590,326	20 × 20 - 120 × 120		10-60	SAR, Multispectral	DINO-MM [83]
RingMo [93] TOV-RS [108]	2022 2022	2,096,640 3,000,000	448 × 448		0.3-30		RingMo [93]
				31		RGB	TOV [108] CROMA [102], FG-MAE [98],
SSL4EO-S12 [117]		2022 ∼1,000,000	264 × 264	-	10	SAR, Multispectral	DeCUR [86]
SatlasPretrain [118]		2022 3,615,184	512 × 512 − 8, 192 × 8, 192	137		RGB, Multispectral	USatMAE [45] SatMAE [92], SpectralGPT [97],
fMoW-S2 [92]	2022	712,874		-	10-60	Multispectral	S2MAE [96], SatMAE++ [89], Scale-MAE [88]
MSAR [121] SkySense [41]	2022	28,499	256 × 256	4	1	SAR	SAR-JEPA [91]
GeoPile [111]		2023 ~21,500,000			-	RGB, SAR, Multispectral	SkySense [41]
U-BARN [51]	2023	3 ∼600,000			- 10	RGB	GFM [111]
	2024	~27,000	64 × 64		0.05-150	Multispectral	U-BARN [51]
GeoSense [39]		2024 8,916,233	224 × 224				SMLFR [39]
MMEarth [40]		2024 ∼1,200,000	128 × 128		10	RGB, SAR, Multispectral	MP-MAE [40]
SAMRS [114]	2024	105,090	600 × 600 - 1, 024 × 1, 024			RGB	MTP [106]

表 I: 遥感视觉基础模型训练数据集汇总

5.1.1.1. 自定义收集的数据集 (Custom-collected Datasets)

自定义收集的数据集在训练视觉基础模型方面具有显著优势，因为它们可以精心设计以捕捉独特的特征、区域特点或特定的环境条件。这种有针对性的方法使模型能够更好地满足专业任务的独特要求，从而增强其适应性和鲁棒性。

单源数据集 (Single-source Datasets):
- SeCo [81]、U-BARN [51] 和 MATTER [82] 主要利用 Sentinel-2 影像进行训练。
  - SeCo [81] 收集了来自全球 200,000 个地点的 100 万个多光谱图像块，涵盖 12 个光谱波段，分辨率各异（10米、20米和 60米），并涵盖不同时间点以捕捉季节变化。
  - U-BARN [51] 在来自法国 13 个区域的 Sentinel-2 瓦片上预训练模型，并应用了边缘、饱和度和云掩膜以提高图像质量。
  - MATTER [82] 收集了来自 AWS 的正射校正 Sentinel-2 图像，涵盖三年期间的不同气候和区域，并应用了云过滤以增强数据可靠性。
- CtxMIM [95] 的数据集来源于通过 Google Earth Engine 收集的 WorldView-3 影像，捕捉了包括城市、河流、村庄和森林在内的各种亚洲景观。
多源数据集 (Multi-source Datasets):
- SkySense [41]、SMLFR [39]、MP-MAE [40]、RingMo [93]、GeoKR [104] 和 TOV [108] 整合了来自各种遥感来源的数据。
  - SkySense [41] 整合了 WorldView-3/4 光学图像、Sentinel-2 多光谱时间序列和 Sentinel-1 SAR 数据，提供了全面的时间和光谱视角。
  - SMLFR [39] 中使用的 GeoSense 数据集包括来自多个卫星（Sentinel-2、高分、Landsat 和 QuickBird）的图像，分辨率范围从 0.05米到 150米，使其适用于广泛的遥感应用。
  - MP-MAE [40] 提出了 MMEarth 数据集，该数据集包含 12 个地理对齐的模态，包括六个像素级和六个图像级模态，通过 Google Earth Engine 在全球范围内收集。
  - RingMo [93] 数据集是一个用于遥感自监督学习的大规模集合，包含 2,096,640 张图像，来源于公共数据集和中国的“高分二号”卫星。这些图像涵盖多源、多时间和多实例特征，图像裁剪为 $448 \times 448$ 像素，分辨率从 0.3米到 30米不等。
  - GeoKR [104] 利用 Levir-KR 数据集，该数据集包含来自高分卫星的超过 140 万张高分辨率卫星图像，涵盖各种地形，并转换为 RGB 格式用于训练。
  - TOV [108] 利用了两个数据集：TOV-NI，包含 100 万张网络爬取的自然图像，以及 TOV-RS，一个遥感数据集，包含不平衡和平衡版本，总计多达 300 万个样本。

5.1.1.2. 公开可用的数据集 (Publicly Available Datasets)

公开可用的数据集提供标准化的基准，促进不同方法之间的一致模型比较和评估。其多样化的数据源增强了模型的泛化能力，确保了在不同背景下的鲁棒性能。

RGB 数据集 (RGB Datasets): 几个模型严重依赖大规模航空 RGB 图像进行广阔场景理解和通用特征提取。
- 例如，GeRSP [107]、CMID [100] 和 LeMeViT [49] 等模型利用了 Million-AID 数据集 [113]，该数据集包含超过 100 万张图像，涵盖 51 个类别，捕捉了 Google Earth 的多样化景观。
- 此外，Wang 等人 [106] 利用了 SAMRS 数据集 [114]，该数据集结合了 DOTA-V2 [8]、DIOR [7] 和 FAIR1M [132] 的边界框标注，共生成 105,090 张图像，包含 1,668,241 个实例，所有这些都设计用于分割任务。
- Mendieta 等人 [111] 引入了 GeoPile 数据集，这是一个包含约 60 万张带标签和无标签遥感图像的多样化集合，旨在改进地理空间基础模型。该数据集涵盖各种 GSD (Ground Sample Distance)，并包含来自不同来源的数据。这种多样性确保了丰富的特征表示，增强了模型在多个地理空间任务中的泛化能力。
多模态数据集 (Multimodal Datasets): 多模态数据集对于训练 RS-BYOL [84]、IaI-SimCLR [85]、DINO-MM [83]、CROMA [102]、DeCUR [86]、USatMAE [45] 和 FG-MAE [98] 等多模态视觉模型至关重要。这些数据集通过提供异构传感器配对或三元组数据，促进了全面的跨模态特征学习。
- RS-BYOL 和 IaI-SimCLR 利用了 Sen12MS 数据集 [115]，该数据集包含 180,662 个 SAR、Sentinel-2 光学图像和 MODIS 土地覆盖图的三元组。
- DINO-MM [83] 提出了 BigEarthNet-MM [116]，这是 BigEarthNet 数据集的扩展，连接了 Sentinel-1 和 Sentinel-2 图像。
- CROMA [102] 和 FG-MAE [98] 采用了 SSL4EOS12 数据集 [117]，提供了 100 万个 Sentinel-1 和 Sentinel-2 在不同季节的配对样本。
- DeCUR [86] 整合了多样化的多模态数据集，包括 SSL4EOS12、用于 RGB-DEM 融合的 GeoNRW [215] 和用于 RGB-深度分析的 SUN-RGBD [216]。GeoNRW [215] 提供了来自德国北莱茵-威斯特法伦的 111,000 个裁剪的 RGB 和数字高程模型 (DEM) 图像块，增强了基于高程的语义解释，而 SUN-RGBD [216] 提供了 10,335 对 RGB-深度图像，增强了基于深度的场景识别。
- USatMAE [45] 在 Satlas [118] 数据集上进行训练，整合了 NAIP 和 Sentinel-2 图像，并根据空间重叠和最小时间差异进行配对。
- 与这些配对方法不同，RSPrompter [48] 利用了不同的数据集，包括 WHU Building Extraction [217]、NWPU VHR-10 [218] 和 SSDD [10]，每个数据集都贡献了独特的模态和类别。
- MsGFM [87] 提出了 GeoPile-2，一个综合数据集，结合了来自 Million-AID [113]、GeoPile [111]、Sen12MS [115] 和 MDAS [219] 的 RGB、SAR 和高程数据。这种多模态集成实现了通用预训练，显著提高了模型在各种遥感任务（包括场景分类、目标检测和语义分割）中的性能。
- 此外，SatMAE [92]、SatMAE++ [89] 和 Scale-MAE [88] 使用了两个数据集进行训练：fMoW [119] RGB 数据集和 fMoW-S2 [92]，这是一个从 fMoW 派生并包含了所有 13 个 Sentinel-2 波段以及补充时间数据的增强数据集。
多光谱数据集 (Multispectral Datasets): SpectralGPT [97] 和 S2MAE [96] 等模型专门设计用于利用光谱和多光谱数据，以捕捉土地覆盖的细粒度变化。它们利用 fMoW-S2 [92] 和 BigEarthNet-S2 [120]，利用 Sentinel-2 的 12 个光谱波段进行深入的光谱分析。
基于 SAR 的数据集 (SAR-Based Datasets): SAR-JEPA [91] 等模型基于 SAR 特定数据集的利用，以增强雷达图像分析中的特征提取能力。SAR-JEPA 整合了四个主要的 SAR 数据集：MSAR [121]、SAR-Ship [122]、SARSim [123] 和 SAMPLE [124]。这些数据集涵盖了广泛的目标，特别是飞机、船舶和军用车辆，这些目标在各种条件和分辨率下成像。

5.1.2. 多模态基础模型的训练数据集 (Training Datasets for Multimodal Foundation Models)

多模态基础模型通常利用整合了图像和文本模态的数据集进行训练，以促进复杂跨模态关系的学习。这种训练过程主要利用公开可用的图像-文本配对数据集，这些数据集结合了视觉和文本组件。此外，基于 Transformer 的多模态大型语言模型 (MLLMs) 利用各种下游视觉任务数据集来增强其泛化能力，例如场景分类、目标检测、分割、图像字幕生成和视觉问答 (VQA)。数据集被预处理成与模型要求兼容的格式，以确保训练过程中的兼容性和效率。如今，合成数据 (synthetic data) 已成为大型模型数据飞轮 (data flywheel) 的关键组成部分 [220]，并广泛用于遥感多模态基础模型的训练。这些数据集的具体信息如表格 II 所示，而表格 III 详细列出了使用这些数据集的模型。以下部分将深入介绍 VLM 和 MLLM 的训练数据集。

以下是原文 Table II 的结果：

Datasets	Year	Image	Resolution	Models
UCM [17]	2010	2,100	256 × 256	RS-CLIP [5], EarthGPT [70]
UCM-Caption [125]	2016	2,100	256 × 256	RemoteCLIP [37], S-CLIP [55], SkyEyeGPT [69], EarthGPT [70]
Sydney-Caption [125]	2016	613	500 × 500	S-CLIP [55], SkyEyeGPT [69], EarthGPT [70], RS-LLaVA [73]
NWPU-RESISC45 [3]	2016	31,500	256 × 256	RS-CLIP [5], GeoChat [66], EarthGPT [70]
RSICD [126]	2017	10,921	224 × 224	RemoteCLIP [37], S-CLIP [55], SkyEyeGPT [69], EarthGPT [70]
DOTA [8]	2018	2,806		RemoteCLIP [37], GeoChat [66], EarthGPT [70]
fMoW [119]	2018	∼1,000,000	110 × 110 - 31,672 × 31,672	GeoRSCLIP [54]
RSVQA-LR [129]	2020	722	256 × 256	SkyEyeGPT [69], GeoChat [66], EarthGPT [70], RS-LLaVA [73]
RSVQA-HR [129]	2020	10,659	512 × 512	SkyEyeGPT [69]
DIOR [7]	2020	23,463	800 × 800	RemoteCLIP [37], GeoChat [66], EarthGPT [70]
RSIVQA [130]	2021	37,264		SkyEyeGPT [69], EarthGPT [70], RS-LLaVA [73]
FloodNet [131]	2021	2,343	4,000 × 3,000	GeoChat [66], EarthGPT [70]
MillionAID [113]	2021	∼1,000,000		GeoRSCLIP [54]
NWPU-Caption [128]	2022	31,500	256 × 256	SkyEyeGPT [69], EarthGPT [70]
RSITMD [127]	2022	4,743	256 × 256	RemoteCLIP [37], SkyEyeGPT [69], EarthGPT [70]
FAIR1M [132]	2022	16,488		GeoChat [66], EarthGPT [70]
RSVG [133]	2022	4,329	-	GeoChat [66], EarthGPT [70]
DIOR-RSVG [134]	2023	17,402	800 × 800	SkyEyeGPT [69], EarthGPT [70]
SkyScript [53]	2023	~5,200,000		SkyCLIP [53]
S2-100K [18]	2023	∼100,000	256 × 256	SatCLIP [18]
RS5M [54]	2023	~5,000,000		GeoRSCLIP [54]
RSICap [68]	2023	2,585	512 × 512	RSGPT [68]
LHRS-Align [64]	2024	∼1,150,000		LHRS-Bot [64]
LHRS-Instruct [64]	2024	∼398,000		LHRS-Bot [64]
HqDC-1.4M [65]	2024	∼1,400,000		H2RSVLM [65]
HqDC-Instruct [65]	2024	∼30,000		H2RSVLM [65]

表 II: 遥感多模态基础模型训练数据集汇总

以下是原文 Table III 的结果：

Model	Image Caption	Detection/Segmentation	Image Classification	Visual Question Answer	Visual Ground	Other
RemoteCLIP [37]	RSICD, RSITMD, UCM-Captions	DOTA, DIOR, HRRSD, RSOD, LEVIR, HRSC, VisDrone, AU-AIR, S-Drone, CAPRK, Vaihingen, Potsdam, iSAID, LoveDA
GeoRSCLIP [54]			BigEarthNet, fMoW, MillionAID			LAION2B-en, LAION400M, LAIONCOCO, COYO700M, CC3M, CC12M, YFCC15M, WIT, Redcaps, SBU, Visual Genome
SkyCLIP [53]						SkyScript
S-CLIP [55]	RSICD, UCM-Caption, Sydney-Caption
RS-CLIP [5]			UCM, WHU-RS19, NWPU-RESISC45, AID
GeoCLIP [19]						MediaEval Placing Tasks 2016
SatCLIP [18]						S2-100K
SkyEyeGPT [69]	RSICD, RSITMD, UCM-Captions, Sydney-Captions, NWPU-Captions			ERA-VQA, RSIVQA, RSVQA-LR, RSVQA-HR	DIOR-RSVG	DOTA-Conversa, RSVG, DIOR-Conversa, UCM-Conversa, Sydney-Conversa
GeoChat [66]		DOTA, DIOR, FAIR1M	NWPU-RESISC-45	RSVQA-LR, FloodNet	RSVG
RSGPT [68]	RSICap
EarthGPT [70]	RSICD, RSITMD, UCM-Captions, Sydney-Captions, NWPU-Captions	NWPUVHR10, FAIR1M, HRRSD, UCAS-AOD, RSOD, DOTA, VisDrone, SSDD, HRISD, AIR-SARShip-2.0, DIOR, HIT-UAV, Sea-shipping, Infrared-security, Aerial-mancar, Double-light-vehicle, Oceanic ship	UCM, WHU-RS19, RSSCN7, DSCR, EuroSAT, FGSCR-42	FloodNet, RSVQA-LR, RSIVQA, CRSVQA	DIOR-RSVG	LAION-400M, COCO Caption
LHRS-Bot [64]	RSICD, RSITMD, UCM-Captions, NWPU-Captions	DOTA, FAIR1M,	UCM, RSITMD, NWPU-RESISC-45, fMoW, METER-ML	RSVQA-LR, RSVQA-HR	RSVG, DIOR-RSVG	LHRS-Align, LHRS-Instruct
H2RSVLM [65]		LoveDA, MSAR, GID, FBP, DeepGlobe, CrowdAI	fMoW, RSITMD, MillionAID, NWPU-RESISC-45, METER-ML, UCM	RSVQA-LR	DIOR-RSVG	CVUSA, CVACT, BANDON, MtS-WH
RS-LLaVA [73]	UCM-Caption, UAV			RSVQA-LR, RSIVQA

表 III: 不同模型在不同任务中使用的数据集

5.1.2.1. VLMs 训练数据集 (Training Datasets for VLMs)

RemoteCLIP [37] 构建了一个综合训练数据集，整合了三个图像-文本检索数据集，以及 10 个目标检测和 4 个分割数据集。它采用了一种基于规则的方法，将边界框标注和标签转换为描述性文本，从而为检测和分割数据实现更丰富的语义关联。
SkyCLIP [53] 利用来自 Google Earth Engine 的数据，针对卫星和航空图像中的 RGB 波段，以增强语义丰富性。通过整合详细的 OpenStreetMap (OSM) 信息，SkyCLIP 采用两阶段标签分类方法，确定哪些 OSM 标签可以在遥感图像中视觉呈现，确保了全球表示和语义多样性。
S-CLIP [55] 结合了多个图像-文本对数据集，并生成伪标签用于半监督学习。
GeoRSCLIP [54] 从两个主要来源整理其 RS5M 数据集。首先，它处理了 11 个公开可用的图像-文本配对数据集，应用遥感特定关键词进行过滤，并通过使用高级 VLM 进行去重来确保质量。此外，GeoRSCLIP 使用 VLM 为具有类别级标签的大规模数据集生成字幕，以增强数据集的丰富性。
RS-CLIP [5] 利用了四个遥感数据集，包括 UCM [17]、WHU-RS19 [139]、NWPU-RESISC45 [128] 和 AID [4]。通过使用 CLIP 生成伪标签，RS-CLIP 通过多次迭代优化了标签，逐步提高了训练数据的准确性。

总的来说，这些模型展示了处理和利用多模态数据集的各种复杂方法，捕捉了遥感背景下视觉和文本数据之间复杂的关系。

除了图像-文本数据集，还存在与地理空间元数据配对的图像数据集。

例如，GeoCLIP [19] 利用 MediaEval Placing Tasks 2016 (MP-16) [221] 数据集进行训练，该数据集包含来自 Flickr 的 472 万张地理标记图像。这个大规模数据集提供了带有相应 GPS 坐标的图像，从而实现了地理定位任务的有效训练。
SatCLIP [18] 采用 S2-100K 数据集进行预训练，该数据集包含 10 万个 $256 \times 256$ 像素的多光谱（12通道）Sentinel-2 卫星图像瓦片，每个瓦片都与其对应的中心位置配对。该数据集旨在增强多任务适用性和地理泛化能力，提供了从多光谱卫星图像中提取的广泛位置特征。

5.1.2.2. MLLMs 训练数据集 (Training Datasets for MLLMs)

遥感领域 MLLMs 的最新进展包括创建综合数据集和开发复杂的预处理方法。

SkyEyeGPT [69] 使用 SkyEye-968k 数据集进行训练，该数据集结合了重新组织的公共数据和一小部分手动验证的生成内容。该数据集包括单任务公共图像-文本指令和通过重新排列各种任务数据构建的多任务对话指令。
GeoChat [66] 利用自动化管道生成多模态指令微调数据。该过程涉及从现有遥感数据集中提取颜色和位置等属性，将它们插入预定义模板，并使用 Vicuna [193] 生成多轮问答序列。
RSGPT [68] 使用 DOTA [8] 数据集组装了 RSICap 数据集，该数据集以其来自遥感专家的详细标注而著称，涵盖场景描述和视觉推理。
EarthGPT [70] 通过整合 34 个公开可用的遥感数据集，开发了 MMRS-1M 数据集，该数据集设计有半结构化模板，用于形成问答对。EarthGPT 最初在 LAION-400M [222] 和 COCO Caption [223] 等通用领域数据集上进行训练，然后对 MMRS-1M 进行微调，以专注于遥感领域的多传感器视觉理解。
类似地，LHRS-Bot [64] 制作了包括 LHRS-Align 和 LHRS-Instruct 在内的数据集，图像数据来源于 GEE (Google Earth Engine)，地理特征来源于 OpenStreetMap。它使用 Vicuna-v1.5-13B 生成字幕，同时使用 GPT-4 对 15,000 张图像的子集创建复杂指令数据。
H2RSVLM [65] 开发了五个数据集，图像来源于 Million-AID [113] 和 DOTA-v2 [8] 等来源，包括一个图像-文本对数据集和三个指令微调数据集。
RS-LLaVA [73] 使用 UCM-caption [125]、UAV [224]、RSVQA-LR [129] 和 RSIVQA [130] 编译其指令数据集，整合字幕和 VQA 数据以形成基于对话的指令-回答格式。

总的来说，这些项目代表了在遥感背景下完善和扩展 MLLMs 能力的强大努力，突出了多样化数据集和详细标注方法的创新集成。

5.2. 评估指标 (Evaluation Metrics)

5.2.1. 准确率 (Accuracy)

概念定义 (Conceptual Definition): 准确率衡量模型正确预测的样本比例。它是最直观和常用的分类任务评估指标，特别适用于类别分布相对均衡的数据集。
数学公式 (Mathematical Formula): $\text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$
符号解释 (Symbol Explanation):
- Number of Correct Predictions: 模型做出正确预测的样本数量。
- Total Number of Predictions: 模型做出预测的总样本数量。

5.2.2. 平均精度均值 (Mean Average Precision - mAP)

概念定义 (Conceptual Definition): 平均精度均值 (mAP) 是目标检测任务中广泛使用的评估指标，它综合考虑了模型在所有类别上的检测精度和召回率。它通过计算每个类别的平均精度 (Average Precision - AP)，然后对所有类别的 AP 进行平均来得到。AP 是在不同召回率阈值下对精度进行积分得到的。mAP 通常在多个 IoU (Intersection over Union) 阈值下进行计算，以全面评估检测框的定位准确性。
数学公式 (Mathematical Formula): $\text{AP} = \sum_{n} (R_n - R_{n-1})P_n$ $\text{mAP} = \frac{1}{N} \sum_{k=1}^{N} \text{AP}_k$
符号解释 (Symbol Explanation):
- $\text{AP}$ : 单个类别的平均精度。
- $P_n$ : 在第 $n$ 个召回率阈值下的精度 (precision)。
- $R_n$ : 第 $n$ 个召回率 (recall)。
- $N$ : 总类别数量。
- $\text{AP}_k$ : 第 $k$ 个类别的平均精度。

5.2.3. 平均交并比 (Mean Intersection over Union - mIoU)

概念定义 (Conceptual Definition): 平均交并比 (mIoU) 是语义分割和实例分割任务中常用的评估指标，它衡量模型预测的分割区域与真实标注区域之间的重叠程度。对于每个类别，计算其预测区域与真实区域的交集 (Intersection) 和并集 (Union) 之比，然后对所有类别的 IoU 进行平均。
数学公式 (Mathematical Formula): $\text{IoU}_k = \frac{\text{TP}_k}{\text{TP}_k + \text{FP}_k + \text{FN}_k}$ $\text{mIoU} = \frac{1}{N} \sum_{k=1}^{N} \text{IoU}_k$
符号解释 (Symbol Explanation):
- $\text{IoU}_k$ : 第 $k$ 个类别的交并比。
- $\text{TP}_k$ : 第 $k$ 个类别的真阳性 (True Positives)，即正确预测为 $k$ 类的像素数量。
- $\text{FP}_k$ : 第 $k$ 个类别的假阳性 (False Positives)，即错误预测为 $k$ 类，但实际不属于 $k$ 类的像素数量。
- $\text{FN}_k$ : 第 $k$ 个类别的假阴性 (False Negatives)，即实际属于 $k$ 类，但错误预测为其他类别的像素数量。
- $N$ : 总类别数量。

5.2.4. F1 分数 (F1 Score)

概念定义 (Conceptual Definition): F1 分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值。它在 0 到 1 之间，数值越高表示模型性能越好。F1 分数在分类任务中，尤其是在类别不平衡时，比单纯的准确率更能全面地反映模型的性能，因为它同时考虑了假阳性和假阴性。
数学公式 (Mathematical Formula): $\text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}$ $\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}$ $\text{F1 Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$
符号解释 (Symbol Explanation):
- $\text{TP}$ : 真阳性 (True Positives)，即正确预测为正类的样本数量。
- $\text{FP}$ : 假阳性 (False Positives)，即错误预测为正类，但实际是负类的样本数量。
- $\text{FN}$ : 假阴性 (False Negatives)，即实际是正类，但错误预测为负类的样本数量。

5.2.5. BLEU (Bilingual Evaluation Understudy)

概念定义 (Conceptual Definition): BLEU 是一种自动评估机器翻译质量的指标，后来也广泛用于图像字幕生成等文本生成任务。它通过比较机器生成的文本与一个或多个参考文本（由人类编写）之间的 n-gram 重叠程度来计算得分。BLEU-1 到 BLEU-4 逐渐考察更长的词序列匹配，从而捕捉更复杂的语言结构。
数学公式 (Mathematical Formula): $\text{BLEU} = \text{BP} \cdot \exp \left( \sum_{n=1}^{N} w_n \log p_n \right)$ 其中，BP 是简短惩罚因子 (Brevity Penalty)，用于惩罚过短的生成文本。 $p_n = \frac{\sum_{\text{sentence} \in \text{Cand}} \sum_{\text{n-gram} \in \text{sentence}} \min(\text{Count}(\text{n-gram}), \text{Max\_Ref\_Count}(\text{n-gram}))}{\sum_{\text{sentence} \in \text{Cand}} \sum_{\text{n-gram} \in \text{sentence}} \text{Count}(\text{n-gram})}$
符号解释 (Symbol Explanation):
- $\text{BP}$ : 简短惩罚因子，如果候选文本比所有参考文本都短，则小于 1。
- $N$ : 考虑的最大 n-gram 长度（通常为 4）。
- $w_n$ : n-gram 精度的权重（通常为 $1/N$ ）。
- $p_n$ : n-gram 精度。
- $\text{Count}(\text{n-gram})$ : n-gram 在候选文本中出现的次数。
- $\text{Max\_Ref\_Count}(\text{n-gram})$ : n-gram 在所有参考文本中出现的最大次数。
- $\text{Cand}$ : 候选文本集合。

5.2.6. METEOR (Metric for Evaluation of Translation with Explicit Ordering)

概念定义 (Conceptual Definition): METEOR 是另一种评估文本生成质量的指标，它比 BLEU 更进一步，通过词对齐 (word-alignment) 机制考虑同义词、词形变化和句子结构。它基于精确匹配 (exact match)、词干匹配 (stem match)、同义词匹配 (synonym match) 和近义词匹配 (paraphrase match) 来衡量生成文本与参考文本的相似性，从而实现超越精确词汇匹配的语义匹配。
数学公式 (Mathematical Formula): $\text{METEOR} = (1 - \text{Penalty}) \cdot \text{Fmean}$ $\text{Fmean} = \frac{10 \cdot P \cdot R}{P + 9 \cdot R}$ 其中， $P$ 是精确率， $R$ 是召回率。
符号解释 (Symbol Explanation):
- $\text{Penalty}$ : 惩罚因子，基于生成文本中块 (chunk) 的数量，惩罚不连续的匹配。
- $\text{Fmean}$ : 精确率和召回率的调和平均，但召回率的权重是精确率的 9 倍。
- $P$ : 精确率，即匹配的词数除以生成文本中的词数。
- $R$ : 召回率，即匹配的词数除以参考文本中的词数。

5.2.7. ROUGE-L (Recall-Oriented Gisting Evaluation - Longest Common Subsequence)

概念定义 (Conceptual Definition): ROUGE (Recall-Oriented Gisting Evaluation) 是一组用于评估文本摘要和机器翻译质量的指标。ROUGE-L 特别关注最长公共子序列 (Longest Common Subsequence - LCS) 的匹配，评估生成文本与参考文本之间的内容完整性和流畅性，更侧重于召回率。
数学公式 (Mathematical Formula): $\text{LCS}(X, Y)$ $P_{\text{LCS}} = \frac{\text{LCS}(X, Y)}{|X|}$ $R_{\text{LCS}} = \frac{\text{LCS}(X, Y)}{|Y|}$ $\text{ROUGE-L} = \frac{(1 + \beta^2) R_{\text{LCS}} P_{\text{LCS}}}{R_{\text{LCS}} + \beta^2 P_{\text{LCS}}}$ 通常取 $\beta = 1$ ，此时 ROUGE-L 为 $P_{\text{LCS}}$ 和 $R_{\text{LCS}}$ 的调和平均。
符号解释 (Symbol Explanation):
- $\text{LCS}(X, Y)$ : 文本 $X$ 和文本 $Y$ 之间最长公共子序列的长度。
- $|X|$ : 文本 $X$ 的长度（词元数）。
- $|Y|$ : 文本 $Y$ 的长度（词元数）。
- $P_{\text{LCS}}$ : 基于 LCS 的精确率。
- $R_{\text{LCS}}$ : 基于 LCS 的召回率。
- $\beta$ : 一个权重因子，用于调整精确率和召回率的重要性（通常设为 1）。

5.2.8. CIDEr (Consensus-based Image Description Evaluation)

概念定义 (Conceptual Definition): CIDEr 是专门为图像描述任务设计的评估指标，它通过计算生成的描述与人类生成的多个参考描述之间的共识度来评估质量。它使用 n-gram 共识和词频-逆文档频率 (TF-IDF) 加权来衡量匹配度，对具有信息量且与人类描述一致的 n-gram 给予更高的分数。
数学公式 (Mathematical Formula): $\text{CIDEr}_n(c_i, \mathbf{S}_i) = \frac{1}{|\mathbf{S}_i|} \sum_{j} \frac{g_n(c_i) \cdot g_n(s_{ij})}{||g_n(c_i)|| \cdot ||g_n(s_{ij})||}$ $\text{CIDEr} = \sum_{n=1}^{N} w_n \text{CIDEr}_n$
符号解释 (Symbol Explanation):
- $\text{CIDEr}_n(c_i, \mathbf{S}_i)$ : 对于第 $i$ 张图像，生成字幕 $c_i$ 和参考字幕集合 $\mathbf{S}_i$ 的 n-gram 长度为 $n$ 的 CIDEr 分数。
- $N$ : 考虑的最大 n-gram 长度。
- $w_n$ : n-gram 长度 $n$ 的权重。
- $g_n(c_i)$ : 生成字幕 $c_i$ 的 n-gram 向量，其中每个 n-gram 都经过 TF-IDF 加权。
- $g_n(s_{ij})$ : 参考字幕 $s_{ij}$ 的 n-gram 向量。
- $\cdot$ : 向量点积。
- $||\cdot||$ : 向量的 L2 范数。
- $|\mathbf{S}_i|$ : 参考字幕集合 $\mathbf{S}_i$ 中参考字幕的数量。

5.2.9. Accuracy@0.5 (精度@0.5)

概念定义 (Conceptual Definition): Accuracy@0.5 是视觉定位 (Visual Grounding) 任务中的一个指标。当模型预测的边界框与真实标注的边界框之间的交并比 (IoU) 超过 0.5 时，该预测被认为是准确的。它直接衡量模型在给定语言描述下，定位图像中目标对象的准确性。
数学公式 (Mathematical Formula): $\text{Accuracy@0.5} = \frac{\text{Number of Correct Groundings with IoU} > 0.5}{\text{Total Number of Queries}}$
符号解释 (Symbol Explanation):
- $Number of Correct Groundings with IoU > 0.5$ : IoU 大于 0.5 的正确视觉定位数量。
- Total Number of Queries: 总的查询（即语言描述）数量。

5.2.10. Recall@K (召回率@K)

概念定义 (Conceptual Definition): Recall@K (召回率@K) 是在检索任务（如跨模态检索）中常用的指标。它衡量在返回的前 K 个结果中包含相关项目的比例。具体来说，对于一个查询，如果其相关的真实项目出现在检索结果列表的前 K 位中，则认为该查询是成功的。这个指标反映了模型检索相关信息的能力，尤其关注在有限的检索结果中能否找到目标。
数学公式 (Mathematical Formula): $\text{Recall@K} = \frac{\text{Number of Queries for which Relevant Item is in Top K}}{\text{Total Number of Queries}}$
符号解释 (Symbol Explanation):
- Number of Queries for which Relevant Item is in Top K: 相关项目出现在前 K 个检索结果中的查询数量。
- Total Number of Queries: 总的查询数量。

5.3. 对比基线 (Baselines)

论文通过在各种下游任务上展示遥感基础模型的性能，间接比较了其与一系列传统和先进基线模型（如 ResNet、Swin Transformer 等）的优劣。这些基线模型通常是各自领域（如场景分类、目标检测、语义分割等）的 SOTA 模型或广泛使用的骨干网络，它们代表了在基础模型出现之前或与之并行发展的优秀方法。通过比较，可以突出基础模型在泛化能力和性能方面的优势。

6. 实验结果与分析

本章将详细解读遥感基础模型在各种下游任务上的实验结果，并分析其性能表现。

6.1. 视觉基础模型 (Vision Foundation Model)

6.1.1. 场景分类 (Scene Classification)

场景分类 (Scene classification) 在遥感中是一项关键任务，涉及将整个图像分类为几种预定义的场景类型之一，例如森林、城市、农业区或水域。这项任务的核心在于识别和分析图像中的全局特征，以确定其整体类别。通过理解场景类型，研究人员可以更好地解释空间分布和模式，从而应用于环境监测、城市规划和资源管理等广泛领域。

用于评估场景分类任务的常用数据集包括 EuroSAT [14]、NWPURESISC45 [3] 和 AID [4]。每个数据集都提供了一组独特的图像，以满足不同的场景类型和分辨率。这些数据集的详细信息如表格 IV 所示。该任务的主要评估指标是准确率 (accuracy)，定义为正确分类样本占总样本的比例，提供了模型在所有类别上性能的直接度量。标准模型在这些数据集上的性能结果如表格 V 所示，展示了模型准确分类不同场景类型的能力。

以下是原文 Table IV 的结果：

Dataset	Year	Quantity	Class	Resolution
NWPU-RESISC45 [3]	2016	31,500	45	256 × 256
AID [4]	2017	10,000	30	600 × 600
EuroSAT [14]	2018	27,000	10	64 × 64

表 IV: 视觉基础模型场景分类数据集

以下是原文 Table V 的结果：

Method	Backbone	EuroSAT	AID		RESISC-45
Method	Backbone	EuroSAT	(TR=20%)	(TR=50%)	(TR=10%)	(TR=20%)
SatMAE [92]	ViT-L	95.74	95.02	96.94	91.72	94.10
SwiMDiff [90]	ResNet-18	96.10
GASSL [80]	ResNet-50	96.38	93.55	95.92	90.86	93.06
GeRSP [107]	ResNet-50					92.74
SeCo [81]	ResNet-50	97.34	93.47	95.99	89.64	92.91
CACo [79]	ResNet-50	97.77	90.88	95.05	88.28	91.94
TOV [108]	ResNet-50	-	95.16	97.09	90.97	93.79
RingMo [93]	Swin-B	-	96.90	98.34	94.25	95.67
CMID [100]	Swin-B		96.11	97.79	94.05	95.53
GFM [111]	Swin-B		95.47	97.09	92.73	94.64
CSPT [110]	ViT-L		96.30		-	95.62
Usat [45]	ViT-L	98.37
Scale-MAE [88]	ViT-L	98.59	96.44	97.58	92.63	95.04
CtxMIM [95]	Swin-B	98.69		-	-
SatMAE++ [89]	ViT-L	99.04	-	-	-	-
SpectralGPT [97]	ViT-B	99.21
SkySense [41]	Swin-H		97.68	98.60	94.85	96.32
MTP [106]	InternImage-XL	99.24				96.27
RVSA [166]	ViTAE-B		97.03	98.50	93.93	95.69

表 V: 视觉基础模型在 EuroSAT、AID 和 RESISC-45 数据集上的场景分类性能（准确率，%）。TR 表示用于测试的数据百分比。

分析: 从表 V 可以看出，基于 Transformer 的模型，尤其是使用 ViT-L 和 Swin-B/H 作为骨干网络的模型，在场景分类任务上普遍表现出色。

SatMAE++ [89] 在 EuroSAT 上达到了 99.04% 的高准确率，而 SpectralGPT [97] 甚至更高，达到 99.21%。MTP [106] 在 EuroSAT 上更是达到了 99.24%，表明其在多任务预训练上的有效性。
在 AID 数据集上 ( $TR=50%$ )，RingMo [93]、CMID [100] 和 SkySense [41] 均取得了超过 98% 的准确率，表明 Transformer 及其变体在处理复杂遥感场景方面的优势。
在 RESISC-45 数据集上 ( $TR=20%$ )，SkySense [41] 和 MTP [106] 分别达到 96.32% 和 96.27%，再次证明其强大的分类能力。
相较于传统的 ResNet-50 骨干网络，Transformer 及其混合模型通常能达到更高的性能，这可能得益于 Transformer 在捕捉长距离依赖和全局上下文信息方面的优势，以及在更大规模数据集上进行预训练的能力。

6.1.2. 目标检测 (Object Detection)

遥感图像中的目标检测 (Object detection) 是一项关键任务，涉及在卫星或航空图像中识别和分类特定对象，例如建筑物、车辆和船只。它包括水平目标检测 (horizontal object detection)，使用水平边界框，以及旋转目标检测 (rotated object detection)，使用定向边界框，以有效捕捉任意角度放置的对象。准确检测和分类不同方向和尺度的对象对于遥感中的有效分析和决策至关重要。

为了评估目标检测模型，经常使用几个数据集，包括 Xview [135]、DIOR [7]、DIOR-R [6]、FAIR1M [132] 和 DOTA-v1.0 [8]，每个数据集都提供独特的场景和对象种类。这些数据集的详细规格如表格 VI 所示。目标检测的普遍评估指标是平均精度均值 (mAP)，它计算多个交并比 (IoU) 阈值和类别上的 AP 平均值。该指标提供了对精度和召回率的全面评估，反映了模型准确识别和分类对象的熟练程度。常见模型在这些数据集上的结果如表格 VII 和表格 VIII 所示，展示了它们在解决各种检测挑战方面的有效性。

以下是原文 Table VI 的结果：

Dataset	Year	Image	Class	Bbox-Type	Resolution
Xview [135]	2018	846	60	hbb	beyond 2,000 × 2,000
DOTA [8]	2018	2,806	15	obb	varies in size
DIOR [7]	2020	23,463	20	hbb	800 × 800
DIOR-R [6]	2022	23,463	20	hbb	800 × 800
FAIR1M [132]	2022	16,488	37	obb	varies in size

表 VI: 视觉基础模型目标检测数据集

以下是原文 Table VII 的结果：

Method	Backbone	Xview	DIOR
GASSL [80]	ResNet-50	17.70	67.40
SeCo [81]	ResNet-50	17.20	-
CACO [79]	ResNet-50	17.20	66.91
CtxMIM [95]	Swin-B	18.80	-
TOV [108]	ResNet-50	-	70.16
SatMAE [92]	ViT-L		70.89
CSPT [110]	ViT-L		71.70
GeRSP [107]	ResNet-50		72.20
GFM [111]	Swin-B		72.84
Scale-MAE [88]	ViT-L		73.81
CMID [100]	Swin-B		75.11
RingMo [93]	Swin-B		75.90
SkySense [41]	Swin-H		78.73
MTP [106]	InternImage-XL	18.20	78.00
RVSA [166]	ViTAE-B	-	73.22

表 VII: 视觉基础模型在 Xview 和 DIOR 数据集上的水平目标检测结果（mAP，%）。

分析 (水平目标检测): 从表 VII 可以看出，在水平目标检测任务中，基于 Transformer 的模型在 DIOR 数据集上表现出显著优势。

SkySense [41] (Swin-H) 在 DIOR 上取得了最高的 78.73% mAP，紧随其后的是 MTP [106] (InternImage-XL) 的 78.00% 和 RingMo [93] (Swin-B) 的 75.90%。这表明大型 Transformer 模型及其特定的遥感适应性在处理遥感图像中的复杂目标和背景方面具有强大能力。
相较之下，基于 ResNet-50 的方法，如 GASSL [80]、SeCo [81] 和 CACo [79]，mAP 分数普遍较低，在 67% 左右。

Xview 数据集的 mAP 分数普遍较低，可能反映了该数据集目标类别更多 (60类) 且图像分辨率更高的挑战性。

以下是原文 Table VIII 的结果：

Method	Backbone	DIOR-R	FAIR1M-2.0	DOTA-V1.0
CACo [79]	ResNet-50	64.10	47.83	-
RingMo [93]	Swin-B	-	46.21
GASSL [80]	ResNet-50	65.65	48.15
SatMAE [92]	ViT-L	65.66	46.55
TOV [108]	ResNet-50	66.33	49.62
CMID [100]	Swin-B	66.37	50.58	77.36
Scale-MAE [88]	ViT-L	66.47	48.31	-
GFM [111]	Swin-B	67.67	49.69	-
SMLFR [39]	ConvNeXt-L	72.33	-	79.33
SkySense [41]	Swin-H	74.27	54.57	-
MTP [106]	InternImage-XL	72.17	50.93	80.77
RVSA [166]	ViTAE-B	70.67	-	81.01

表 VIII: 视觉基础模型在 DIOR-R、FAIR1M-2.0 和 DOTA-V1.0 数据集上的旋转目标检测结果（mAP，%）。

分析 (旋转目标检测): 在旋转目标检测任务中，模型需要更精确地预测目标的角度。

SkySense [41] (Swin-H) 在 DIOR-R 上以 74.27% 的 mAP 领先，在 FAIR1M-2.0 上也达到 54.57% 的最高分数。
SMLFR [39] (ConvNeXt-L) 和 MTP [106] (InternImage-XL) 在 DOTA-V1.0 上取得了最高的 mAP，分别为 79.33% 和 80.77%，RVSA [166] 更是达到了 81.01%。这表明针对遥感图像特点设计的 ConvNeXt 和 InternImage-XL 骨干网络，在处理旋转目标检测这种需要细粒度定位和角度预测的任务时，具有很强的竞争力。
总体而言，Transformer 及其混合架构在各种目标检测任务中都展现出优于传统 ResNet 的性能，尤其是在处理高分辨率和复杂多变的遥感场景时。

6.1.3. 语义分割 (Semantic Segmentation)

遥感中的语义分割 (Semantic segmentation) 涉及为每个像素分配一个类别标签，从而生成一个全面的地图，区分各种类型的土地覆盖，如植被、水体、道路和建筑物。这项任务需要对图像内的空间布局有像素级 (pixel-level) 的理解，从而对土地特征进行详细分析和分类。

为了评估语义分割模型的性能，经常使用几个数据集，包括 SpaceNetv1 [136]、LoveDA [15]、iSAID [137]、DynamicEarthNet-P1 [138] 和 DynamicEarthNet-S2 [138]。这些数据集提供了多样化的场景，其详细信息如表格 IX 所示。语义分割任务的主要评估指标是平均交并比 (mIoU)，它计算所有类别的 IoU 平均值。对于每个类别，IoU 通过将预测区域和真实区域的交集除以它们的并集来确定，提供了像素级预测准确度的精确度量。标准模型在这些数据集上的性能如表格 X 所示。

以下是原文 Table IX 的结果：

Dataset	Year	Image	Class	Resolution
SpaceNetv1 [136]	2018	6,940	1	varies in size
iAID [137]	2019	2,806	15	varies in size
DynamicEarthNet-PlanetFusion (Dyna.-Pla.) [138]	2022	54,750	7	1,024 × 1,024
LoveDA [15]	2021	5,987	7	1,024 × 1,024
DynamicEarthNet-Sentinel2 (Dyna.-S2) [138]	2022	54,750	7	varies in size

表 IX: 视觉基础模型语义分割数据集

以下是原文 Table X 的结果：

Method	Backbone	SpaceNetv1	LoveDA	iSAID	Dyna. -pla(val/test)	Dyna. S2(val/test)
SeCo [81]	ResNet-50	77.09	43.63	57.20		29.40/39.80
GASSL [80]	ResNet-50	78.51	48.76	65.95	34.00/40.80	28.10/41.00
SatMAE [92]	ViT-L	78.07		62.97	32.80/39.90	30.10/38.70
RingMo [93]	Swin-B			67.20
CMID [100]	Swin-B			66.21	36.40/43.50
CACo [79]	ResNet-50	77.94	48.89	64.32	35.40/42.70	30.20/42.50
TOV [108]	ResNet-50	-	49.70	66.24	32.10/37.80
GeRSP [107]	ResNet-50	-	50.56	-
SMLFR [39]	ConvNext-L		53.03	-
CtxMIM [95]	Swin-B	79.47
GFM [111]	Swin-B			66.62	36.70/45.60
Scale-MAE [88]	ViT-L	78.90		65.77	34.00/41.70
SkySense [41]	Swin-H			70.91	39.70/46.50	33.10/46.20
MTP [106]	InternImage-XL	79.16	54.17
RVSA [166]	ViTAE-B	-	52.44	64.49	34.30/44.40

表 X: 视觉基础模型在 SpaceNetv1、LoveDA、iSAID 和 DynamicEarthNet 数据集上的语义分割结果（mIoU，%）。

分析: 语义分割任务要求像素级的准确性，mIoU 是衡量这一能力的关键指标。

在 iSAID 数据集上，SkySense [41] (Swin-H) 取得了最高的 70.91% mIoU，表明其在复杂场景的细粒度分割方面表现优异。
在 LoveDA 数据集上，MTP [106] (InternImage-XL) 获得了最高的 54.17% mIoU，SMLFR [39] (ConvNext-L) 紧随其后，达到 53.03%。
在 DynamicEarthNet-PlanetFusion (Dyna.-Pla.) 数据集的 val/test 结果中，SkySense [41] 表现最佳，val/test 分数分别为 39.70/46.50。
总体而言，使用 Transformer 架构（特别是 Swin Transformer 系列和 ViT-L）作为骨干网络的模型，在语义分割任务中通常优于基于 ResNet 的模型。这可能归因于 Transformer 捕捉全局上下文和多尺度特征的能力，这对于像素级分类至关重要。

6.1.4. 变化检测 (Change Detection)

遥感中的变化检测 (Change detection) 是一项关键任务，旨在识别同一区域在不同时间拍摄的两幅图像之间的差异。这项任务涉及检测变化区域，并捕捉图像中的时间和空间变异。

用于评估变化检测模型的常用数据集包括 OSCD [12] 和 LEVIR [11] 数据集。这些数据集提供了评估变化检测能力的多样化场景，其详细特征如表格 XI 所示。该任务的主要评估指标是 F1 分数，它是精确率 (precision) 和召回率 (recall) 的调和平均值。它平衡了假阳性 (false positives) 和假阴性 (false negatives)，提供了一个模型性能的综合度量，尤其是在精确率和召回率同等重要的情况下。标准模型在这些数据集上的性能结果如表格 XII 所示，展示了它们在准确识别各种景观变化方面的有效性。

以下是原文 Table XI 的结果：

Dataset	Year	ImagePairs	Resolution
OSCD [12]	2018	24	600 × 600
LEVIR [11]	2020	637	1,024 × 1,024

表 XI: 视觉基础模型变化检测数据集

以下是原文 Table XII 的结果：

Method	Backbone	OSCD	LEVIR
GASSL [80]	ResNet-50	46.26	-
SeCo [81]	ResNet-50	47.67	90.14
SwiMDiff [90]	ResNet-18	49.60	-
CACo [79]	ResNet-50	52.11	-
SatMAE [92]	ViT-L	52.76	-
CMID [100]	Swin-B	-	91.72
RingMo [93]	Swin-B		91.86
SpectralGPT [97]	ViT-B	54.29	-
GFM [111]	Swin-B	59.82	-
Scale-MAE [88]			92.07
SkySense [41]	Swin-H	60.06	92.58
MTP [106]	InternImage-XL	55.61	92.54
RVSA [166]	ViTAE-B	-	90.86

表 XII: 视觉基础模型在 OSCD 和 LEVIR 数据集上的变化检测结果（F1 分数，%）。

分析: 变化检测任务对于遥感应用至关重要，F1 分数在此任务中平衡了精确率和召回率。

在 OSCD 数据集上，SkySense [41] (Swin-H) 取得了最高的 60.06% F1 分数，GFM [111] (Swin-B) 紧随其后，达到 59.82%。
在 LEVIR 数据集上，SkySense [41] 同样以 92.58% 的 F1 分数领先，MTP [106] (InternImage-XL) 达到 92.54%，Scale-MAE [88] 也表现出色，达到 92.07%。
与场景分类和目标检测类似，基于 Transformer 的模型（特别是 Swin Transformer 系列）在变化检测任务中也展现出卓越的性能。这得益于它们能够更好地捕捉图像之间的细微变化和上下文信息。传统 ResNet-50 骨干网络的方法 F1 分数相对较低。

6.2. 多模态基础模型 (Multimodal Foundation Model)

6.2.1. 场景分类 (Scene classification)

遥感中的场景分类，无论是多模态基础模型还是视觉基础模型，都涉及通过分析图像的整体内容和上下文将其分类为预定义的场景类别。这些模型类型中的任务本质上是相似的。对于多模态模型，还利用了额外的 UCM [17]、WHU-RS19 [139]、SIRI-WHU [2] 和 PatternNet [225] 等数据集，以拓宽评估范围，实现更全面的分析和比较。这些数据集的详细信息如表格 XIII 所示，多模态模型的相应性能指标和排名如表格 XIV 所示。

以下是原文 Table XIII 的结果：

Dataset	Year	Image	Class	Resolution
UCM [17]	2010	2,100	21	256 × 256
WHU-RS19 [139]	2012	1,005	19	600 × 600
SIRI-WHU [2]	2016	2,400	12	200 × 200
PatternNet [225]	2018	30,400	38	256 × 256

表 XIII: 多模态基础模型场景分类数据集

以下是原文 Table XIV 的结果：

Method	EuroSAT	NWPU-RESISC45	WHU-RS19	AID	SIRI-WHU
EarthGPT [70]	-	93.84		-	-
GeoChat [66]			-	72.03	-
LHRS-Bot [64]	51.40	83.94	93.17	91.26	62.66
H 2 RSV LM [65]		93.87	97.00	89.33	68.50
RemoteCLIP [37]	59.94	79.84	94.66	87.90
SkyCLIP-50 [53]	51.33	70.94	-	71.70	-
S-CLIP [55]	-		86.30	70.80
GeoRSCLIP [54]	67.47	73.83	-	76.33
RS-CLIP [5]	-	85.07	99.10	79.56

表 XIV: 多模态基础模型在 EuroSAT、NWPU-RESISC45、WHU-RS19、AID 和 SIRI-WHU 数据集上的场景分类结果（准确率，%）。

分析: 多模态模型在场景分类任务中通过结合视觉和文本信息，提供了更丰富的语义理解。

在 WHU-RS19 数据集上，RS-CLIP [5] 取得了最高的 99.10% 准确率，H2RSVLM [65] 和 RemoteCLIP [37] 也表现出色，分别达到 97.00% 和 94.66%。
在 NWPU-RESISC45 数据集上，H2RSVLM [65] 以 93.87% 的准确率领先，EarthGPT [70] 紧随其后，达到 93.84%。
在 AID 数据集上，LHRS-Bot [64] (91.26%) 表现最佳。
与视觉基础模型相比，多模态模型在某些数据集上的表现可能略有不同，这取决于其如何有效融合多模态信息。例如，RS-CLIP 在 WHU-RS19 上的表现非常突出，显示了其伪标签和课程学习策略在特定数据集上的有效性。

6.2.2. 图像字幕生成 (Image Captioning)

图像字幕生成 (Image Captioning) 旨在自动为给定图像生成简洁准确的描述性文本。这项任务要求模型不仅要识别图像中的主要对象和活动，还要理解它们之间的关系和整体上下文，有效地将这些视觉内容转化为自然语言。在遥感领域，图像字幕生成涉及描述卫星或航空图像中的自然地貌、气象条件和建筑物等元素，生成精确且内容丰富的文本描述。

用于评估遥感图像字幕生成的常用数据集包括 UCM-Caption [125]、Sydney-Caption [125]、RSICD [126]、NWPU-Caption [128] 和 RSITMD [127]。这些数据集的详细规格如表格 XV 所示。该任务的常见评估指标包括：

BLEU: 基于 n-gram 重叠的自动翻译质量评估指标，BLEU-1 到 BLEU-4 逐渐考察更长的词序列匹配，从而捕捉复杂的语言结构。
METEOR: 一种基于词对齐的评估指标，考虑同义词和句子结构，实现超越精确词汇的语义匹配。
ROUGE-L: 用于评估摘要或翻译质量，ROUGE-L 关注最长公共子序列 (LCS)，评估召回率和精确率，从而强调内容完整性和流畅性。
CIDEr: 专门为图像描述任务设计，CIDEr 根据人类生成描述之间的共识评估生成描述的质量。

各种模型在这些评估数据集上的性能如表格 XVI 所示。

以下是原文 Table XV 的结果：

Dataset	Year	Image	Sentence	Resolution
UCM-Captions [125]	2016	2,100	10,500	256 × 256
Sydney-Captions [125]	2016	613	3,065	500 × 500
RSICD [126]	2017	10,921	54,605	224 × 224
NWPU-Captions [128]	2022	31,500	157,500	256 × 256
RSITMD [127]	2022	4,743	23,715	256 × 256

表 XV: 多模态基础模型图像字幕生成数据集

以下是原文 Table XVI 的结果：

Dataset	Model	BLUE-1	BLUE-2	BLUE-3	BLUE-4	METEOR	ROUGE_L	CIDEr
UCM-Captions [125]	SkyEyeGPT [69]	90.71	85.69	81.56	78.41	46.24	79.49	236.75
	RSGPT [68]	86.12	79.14	72.31	65.74	42.21	78.34	333.23
	RS-LLaVA7B [73]	88.70	82.88	77.70	72.84	47.98	85.17	349.43
	RS-LLaVA13B [73]	90.00	84.88	80.30	76.03	49.21	85.78	355.61
	RS-CapRet [72]	84.30	77.90	72.20	67.00	47.20	81.70	354.80
	BITA [226]	88.89	83.12	77.30	71.87	46.88	83.76	384.50
Sydney-Captions [125]	SCST [227]	87.27	80.96	75.51	70.39	46.52	82.58	371.29
	SkyEyeGPT [69]	91.85	85.64	80.88	77.40	46.62	77.74	181.06
	RSGPT [68]	82.26	75.28	68.57	62.23	41.37	74.77	273.08
RSICD [126]	RS-CapRet [72]	78.70	70.00	62.80	56.40	38.80	70.70	239.20
	SCST [227]	76.43	69.19	62.83	57.25	39.46	71.72	281.22
	SkyEyeGPT [69]	86.71	76.66	67.31	59.99	35.35	62.63	83.65
	RSGPT [68]	70.32	54.23	44.02	36.83	30.10	53.34	102.94
	RS-CapRet [72]	72.00	59.90	50.60	43.30	37.00	63.30	250.20
NWPU-Caption [128]	BITA [226]	77.38	66.54	57.65	50.36	41.99	71.74	304.53
	SCST [227]	78.36	66.79	57.74	50.42	36.72	67.30	284.36
	EarthGPT [70]	87.10	78.70	71.60	65.50	44.50	78.20	192.60

表 XVI: 多模态基础模型在 UCM-Captions、Sydney-Captions、RSICD 和 NWPU-Caption 数据集上的图像字幕生成结果（BLEU、METEOR、ROUGE_L、CIDEr）。

分析: 图像字幕生成任务要求模型能够理解视觉内容并将其转化为流畅、准确的自然语言描述。

在 UCM-Captions 数据集上，BITA [226] 在 CIDEr 方面表现最佳 (384.50)，同时在 BLEU-4 (71.87) 和 ROUGE_L (83.76) 上也取得了高分。RS-LLaVA13B [73] 在 BLEU 指标上表现出色（例如 BLEU-4 达到 76.03），并在 METEOR (49.21) 和 ROUGE_L (85.78) 上领先，这表明其在生成语法正确和语义相关的描述方面具有优势。
在 Sydney-Captions 数据集上，SkyEyeGPT [69] 在 BLEU 指标上表现突出（例如 BLEU-4 达到 77.40），但在 CIDEr 上得分相对较低 (181.06)。
在 RSICD 数据集上，BITA [226] 在 CIDEr (304.53) 和 METEOR (41.99) 上表现最佳，而 SkyEyeGPT [69] 在 BLEU-4 方面表现突出 (59.99)。
在 NWPU-Caption 数据集上，EarthGPT [70] 在 BLEU 指标上表现出色（BLEU-4 达到 65.50），并在 METEOR (44.50) 和 ROUGE_L (78.20) 上也取得了高分。
总体而言，这些多模态基础模型在图像字幕生成任务中展现了强大的能力。不同的模型在不同数据集和指标上各有侧重，这可能与它们的架构设计、训练数据和优化目标有关。尤其值得注意的是，一些基于 LLM 的模型（如 RS-LLaVA 和 EarthGPT）在语言生成质量上表现出竞争力。

6.2.3. 视觉问答 (Visual Question Answering)

遥感中的视觉问答 (Visual Question Answering - VQA) 涉及根据图像内容分析生成问题的答案。这要求模型识别并理解图像中的元素及其关系，将视觉数据与所提问题的上下文相结合。在遥感中，VQA 任务通常处理关于卫星或航空图像中捕获的特征或事件的查询，例如识别土地利用类型、评估气象条件或统计特定对象。

用于评估遥感 VQA 的常用数据集包括 RSVQA-LR [129]、RSVQA-HR [129]、FloodNet [131] 和 RSIVQA [130]，详细信息如表格 XVII 所示。主要评估指标是准确率 (accuracy)，它衡量系统生成正确答案的比例，特别适用于有明确答案的问题。这些数据集上的性能如表格 XVIII 和表格 XIX 所示。

以下是原文 Table XVII 的结果：

Dataset	Year	Image	QA Pair	Resolution
RSVQA-LR [129]	2020	772	770,232	256 × 256
RSVQA-HR [129]	2020	10,659	1,066,316	512 × 512
FloodNet-VQA [131]	2021	1,448	4,511	4,000 × 3,000
RSIVQA [130]	2021	37,264	111,693	varies in size

表 XVII: 多模态基础模型视觉问答数据集

以下是原文 Table XVIII 的结果：

Method	Count	Presence	Comparison	Rural/Urban	Avg. Accuracy
SkyEyeGPT [69]		88.93	88.63	75.00	84.19
RSGPT [68]		91.17	91.70	94.00	92.29
GeoChat [66]		91.09	90.33	94.00	91.81
LHRS-Bot [64]		88.51	90.00	89.07	89.19
H 2 RSV LM [65]		89.58	89.79	88.00	89.12
RS-LLaVA7B [73]	74.38	92.80	91.33	94.00	88.13
RS-LLaVA13B [73]	73.76	92.27	91.37	95.00	88.10

表 XVIII: 多模态基础模型在 RSVQA-LR 测试集 [129] 数据集上的视觉问答结果（准确率，%）。

分析 (RSVQA-LR): 在 RSVQA-LR 测试集上，各模型在视觉问答任务中表现出较强的能力。

RSGPT [68] 在平均准确率上取得最高分 92.29%，并在 Comparison 和 Rural/Urban 类别上表现出色（91.70% 和 94.00%）。
GeoChat [66] 紧随其后，平均准确率为 91.81%。
RS-LLaVA13B [73] 在 Rural/Urban 类别上达到了最高的 95.00%，但其 Count 类别准确率相对较低（73.76%）。

这些结果表明，多模态 LLMs 能够有效理解遥感图像中的复杂信息，并结合自然语言问题进行推理。不同模型在特定问题类型上的表现差异，可能反映了其训练数据、架构设计以及对不同语义或视觉细节的侧重。

以下是原文 Table XIX 的结果：

Dataset	Method	Presence	Comparison	Avg. Accuracy
RSVQA-HR	SkyEyeGPT [69]	84.95	85.63	85.29
Test Set 1 [129]	RSGPT [68]	91.86	92.15	92.00
	SkyEyeGPT [69]	83.50	80.28	81.89
	RSGPT [68]	89.87	89.68	89.78
RSVQA-HR	GeoChat [66]	58.45	83.19	70.82
Test Set 2 [129]	EarthGPT [70]	62.77	79.53	71.15
	LHRS-Bot [64]	92.57	92.53	92.55
	H 2 RSV LM [65]	65.00	83.70	74.35

表 XIX: 多模态基础模型在 RSVQA-HR 数据集上的视觉问答结果（准确率，%）。

分析 (RSVQA-HR): RSVQA-HR 数据集可能由于其更高分辨率 (HR 代表 High Resolution) 而更具挑战性。

在 Test Set 1 上，RSGPT [68] 取得了 92.00% 的最高平均准确率，在 Presence 和 Comparison 类别上均表现出色。SkyEyeGPT [69] 也表现良好，平均准确率为 85.29%。
在 Test Set 2 上，LHRS-Bot [64] 表现非常突出，取得了 92.55% 的最高平均准确率，在两个子类别上均达到 92% 以上。相比之下，GeoChat [66] 和 EarthGPT [70] 的平均准确率在 70% 左右。
高分辨率图像中的 VQA 任务通常需要模型具备处理细粒度视觉信息和进行更复杂推理的能力。LHRS-Bot 在 RSVQA-HR (Test Set 2) 上的优异表现，可能与其多级视觉-语言对齐策略有关，该策略能够更好地处理遥感图像中景观的复杂性和视觉尺度的变化。

6.2.4. 视觉定位 (Visual Grounding)

视觉定位 (Visual Grounding) 任务是根据自然语言描述在图像中定位参考对象。这要求模型理解描述性语句，并分析图像内容以准确识别和标记描述中指定的对象。在遥感中，视觉定位任务通常涉及在遥感图像中为特定对象（如建筑物和车辆）生成边界框，并由给定的描述引导。

用于评估遥感视觉定位的关键数据集包括 RSVG [133] 和 DIOR-RSVG [134]，详细信息如表格 XX 所示。主要评估指标是 Accuracy@0.5，如果边界框与真实边界框的交并比 (IoU) 重叠超过 0.5，则预测被认为是准确的。这些数据集上的性能如表格 XXI 所示。

以下是原文 Table XX 的结果：

Dataset	Year	Image	Image Query Pair	Resolution
RSVG [133]	2022	4,329	7,933	varies in size
DIOR-RSVG [134]	2023	17,402	38,320	800 × 800

表 XX: 多模态基础模型视觉定位数据集

以下是原文 Table XXI 的结果：

Method	RSVG	DIOR-RSVG
EarthGPT [70]	-	76.65
SkyEyeGPT [69]	70.50	88.59
LHRS-Bot [64]	73.45	88.10
H 2 RSV LM [65]	-	48.04

表 XXI: 多模态基础模型在 RSVG 和 DIOR-RSVG 数据集上的视觉定位结果（Accuracy@0.5，%）。

分析: 视觉定位任务要求模型能够将自然语言描述与图像中的特定对象关联起来，并精确地定位它们。

在 DIOR-RSVG 数据集上，SkyEyeGPT [69] 取得了最高的 88.59% Accuracy@0.5，LHRS-Bot [64] 紧随其后，达到 88.10%。
在 RSVG 数据集上，LHRS-Bot [64] 以 73.45% 的 Accuracy@0.5 表现最佳。
这些结果表明，多模态基础模型在遥感图像的视觉定位方面具有很强的能力。SkyEyeGPT 和 LHRS-Bot 的优异表现可能得益于它们在指令微调和多级视觉-语言对齐方面的策略，使其能够更好地理解复杂的语言描述和图像中的细粒度空间信息。

跨模态检索 (Cross-modal Retrieval) 涉及图像和文本之间的数据检索，旨在将给定的图像或文本查询与数据集中最匹配的对应项进行匹配。这项任务要求模型有效地分析和解释来自两种不同模态的数据，从而实现准确的信息检索。在遥感中，跨模态检索通常侧重于将遥感图像与其描述性文本进行对齐。

对于此任务，常用的数据集包括 RSICD [126]、RSITMD [127] 和 UCM-Captions [125]。主要评估指标是 Recall@K，它衡量在前 K 个结果中检索到的相关项目占所有可用相关项目总数的比例。各种模型在这些数据集上的性能结果如表格 XXII 所示。

以下是原文 Table XXII 的结果：

Dataset	Method	I2T R@1	I2T R@5	I2T R@10	T2I R@1	T2I R@5	T2I R@10	Mean Recall
RSICD [126]	RemoteCLIP [37]	18.39	37.42	51.05	14.73	39.93	56.58	36.35
	SkyCLIP-30 [53]	8.97	24.15	37.97	5.85	20.53	33.53	21.84
	S-CLIP [55]	4.20	18.40		4.20	16.80		-
	GeoRSCLIP [54]	21.13	41.72	55.63	15.59	41.19	57.99	38.87
	RS-CapRet [72]				10.25	31.62	48.53
	PE-RSITR [228]	14.13	31.51	44.78	11.63	33.92	50.73	31.12
RSITMD [127]	RemoteCLIP [37]	28.76	52.43	63.94	23.76	59.51	74.73	50.52
	SkyCLIP-30 [53]	11.73	33.19	47.35	10.19	32.47	49.08	30.67
	GeoRSCLIP [54]	32.30	53.32	67.92	25.04	57.88	74.38	51.81
	PE-RSITR [228]	23.67	44.07	60.36	20.10	50.63	67.97	44.47
	RemoteCLIP [37]	19.05	54.29	80.95	17.71	62.19	93.90	54.68
UCM-Captions [125]	SkyCLIP-30 [53]	38.57	84.29	93.81	31.83	64.19	81.96	65.78
	S-CLIP [55]	11.60	45.70	-	11.10	43.50		-
	RS-CapRet [72]	-	-	-	16.10	56.29	90.76	-
	PE-RSITR [228]	22.71	55.81	80.33	18.82	62.84	93.72	55.71

表 XXII: 多模态基础模型在 RSICD、RSITMD 和 UCM-Captions 数据集上的跨模态检索结果（Recall@K，%）。

分析: 跨模态检索任务对于遥感信息查询和理解至关重要，它要求模型在图像和文本之间建立有效的对应关系。

在 RSICD 数据集上，GeoRSCLIP [54] 在 Mean Recall 方面表现最佳 (38.87%)，在 I2T R@10 和 T2I R@10 上也取得了高分（55.63% 和 57.99%）。
在 RSITMD 数据集上，GeoRSCLIP [54] 同样在 Mean Recall (51.81%) 上领先，而 RemoteCLIP [37] 紧随其后 (50.52%)。
在 UCM-Captions 数据集上，SkyCLIP-30 [53] 取得了最高的 Mean Recall (65.78%)，并在 I2T R@10 和 T2I R@10 上分别达到 93.81% 和 81.96%，表现非常突出。
这些结果表明，通过对比学习等方法对图像和文本进行对齐的多模态基础模型，在跨模态检索任务中能够有效匹配遥感图像和描述文本。特别是 SkyCLIP-30 和 GeoRSCLIP 在多个数据集上的领先表现，证实了它们在学习跨模态语义关联方面的强大能力。

7. 总结与思考

7.1. 结论总结

本文对遥感基础模型进行了全面的调查，重点关注了从视觉到多模态的演进。研究强调了基础模型在智能地球空间数据解释方面取得的显著进展，特别是在目标检测、土地覆盖分类和变化检测等任务中，通过整合光学、雷达、LiDAR 等多种模态数据以及文本和地理信息，模型性能得到了显著提升。

论文详细分析了遥感视觉基础模型和多模态基础模型的架构，包括基于 CNN、Transformer 和混合的视觉模型，以及基于 CLIP、扩散模型、MLLM 和智能体的多模态模型。在训练方法方面，论文回顾了对比学习、生成方法、对比-生成混合方法以及地理知识集成在视觉模型中的应用，并探讨了多模态模型中对比学习、多模态对比和自回归学习的策略。

在实验部分，论文汇总了大量遥感数据集，包括自定义和公开数据集，并展示了这些模型在场景分类、目标检测、语义分割、变化检测、图像字幕生成、视觉问答、视觉定位和跨模态检索等下游任务上的性能。总体而言，基于 Transformer 的模型及其多模态扩展在各项任务中展现出强大的泛化能力和领先的性能，尤其是在处理高分辨率、多模态和复杂场景的遥感数据时。

7.2. 局限性与未来工作

论文作者指出了遥感基础模型目前面临的几个关键挑战和未来的研究方向：

长尾分布数据 (Long-Tail Distribution Data): 尽管遥感数据量庞大，但长尾分布问题仍然存在，即某些场景或目标类别样本极少。这导致模型在罕见场景和目标上的性能不佳。未来的研究需要探索将自然图像领域处理长尾数据的成熟方法扩展到遥感领域。
多模态集成 (Multimodal Integration): 当前研究趋向于利用统一模型集成和处理多样化数据类型（如光学和雷达图像），以获取更深入全面的洞察。尽管 OFA-Net 等模型展示了多模态集成的潜力，但仍需探索更先进的自监督学习 (SSL) 方法，以更好地利用多模态遥感数据。
高效架构 (Efficient Architecture): 遥感图像的分辨率远超自然图像，导致遥感基础模型的训练和推理开销巨大。尤其在无人机等需要即时响应的应用中，高效模型至关重要。尽管已有 Lightweight, pre-trained transformers 等模型进行优化，但仍有很大的改进空间。
评估基准 (Evaluation Benchmark): 尽管涌现出大量遥感基础模型，但评估方法相对受限。当前的遥感评估框架未能涵盖所有场景（如海洋和极地地区），对天气和气候相关任务的评估也较少涉及。此外，MLLM 领域缺乏统一的遥感评估基准，多数仍依赖传统遥感基准。这表明现有模型尚未经过全面评估和分析，对后续改进和应用构成了挑战。

7.3. 个人启发与批判

这篇综述为理解遥感领域基础模型的现状和发展趋势提供了宝贵的视角。

个人启发:

多模态融合是未来趋势: 论文强调了多模态数据（光学、雷达、LiDAR、文本、地理信息）融合在遥感中的巨大潜力。这启发我们，单一模态的分析能力存在上限，未来的遥感智能解释必须走向多模态，通过互补信息提高鲁棒性和精度。
自监督学习的普适性: 自监督学习在弥补遥感数据标注稀缺性方面的作用是革命性的。它使得可以利用海量的无标注遥感数据进行预训练，从而学习到更通用的特征表示，这对于数据获取成本高昂的遥感领域尤为重要。
LLM 和 Agent 的潜力: MLLM 和 LLM 智能体的引入，为遥感任务带来了强大的推理、规划和工具使用能力。这不仅能提升现有任务的自动化水平，更可能催生全新的交互式遥感分析范式，例如通过自然语言进行复杂查询和决策支持。这对于非专业用户而言，大大降低了遥感数据分析的门槛。
模型架构的持续创新: 从 CNN 到 Transformer，再到混合架构，以及针对遥感数据特点（如多尺度、时空连续性、光谱信息）进行的定制化改进（如注意力机制、位置编码），都表明了在特定领域应用中，对通用模型进行“本土化”创新是必不可少的。

批判与可以改进的地方:

数据质量和偏差: 论文提到了长尾分布问题，但未深入探讨遥感数据中可能存在的其他质量问题，例如传感器噪声、大气效应、数据缺失等，以及这些问题如何影响基础模型的训练和泛化。此外，预训练数据中的地理或时间偏差也可能导致模型在特定区域或时间段表现不佳。
可解释性和鲁棒性: 随着模型复杂度的增加，遥感基础模型的可解释性 (interpretability) 变得更加重要。在关键决策（如灾害预警、资源管理）中，仅仅依靠高准确率是不够的，还需要理解模型做出预测的原因。此外，在对抗性攻击或异常数据面前，模型的鲁棒性 (robustness) 也是一个值得关注的问题。
计算资源的可及性: 论文明确指出多模态模型训练需要大量计算资源，这对于许多研究机构和小型企业来说是一个重大障碍。未来的工作不仅要关注模型性能，更要考虑如何开发更参数高效 (parameter-efficient) 或能源高效 (energy-efficient) 的基础模型，使其更具可及性和可持续性。
动态环境的建模: 遥感数据捕捉的是一个不断变化的地球。虽然论文提到了时空生成和时间对比，但如何更有效地建模和预测地球系统的动态变化（如气候变化、土地利用变化模式）仍然是一个巨大的挑战。现有的模型可能在捕捉瞬时变化方面表现良好，但在长期趋势预测和因果推理方面仍有待加强。
伦理和社会影响: 遥感基础模型在军事、监控和资源分配等领域具有广泛应用，这可能带来隐私、公平性和伦理方面的挑战。综述可以进一步讨论这些潜在的社会影响，并呼吁研究人员在开发技术时考虑这些因素。

总而言之，这篇综述清晰地勾勒了遥感基础模型领域的前沿图景，既肯定了其巨大的潜力，也诚实地指出了尚待解决的挑战。它将有力地引导该领域的未来研究，鼓励研究人员在模型、数据、训练策略和评估方法上进行更深入、更全面的探索。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。