论文状态：已完成

Vision Foundation Models in Remote Sensing: A Survey

发表：2024/08/07

遥感中的基础模型 (1)自监督学习技术 (1)对比学习 (1)基础模型架构与预训练数据集 (1)遥感技术的AI转型 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文综述了遥感领域的视觉基础模型，探讨了其架构、预训练数据集和方法论。通过性能比较，强调了基础模型的重大进展和新兴趋势，并讨论了高质量数据、计算资源和模型泛化能力等挑战，发现自监督学习技术显著提升了模型表现与鲁棒性。

摘要

Artificial Intelligence (AI) technologies have profoundly transformed the field of remote sensing, revolutionizing data collection, processing, and analysis. Traditionally reliant on manual interpretation and task-specific models, remote sensing research has been significantly enhanced by the advent of foundation models-large-scale, pre-trained AI models capable of performing a wide array of tasks with unprecedented accuracy and efficiency. This paper provides a comprehensive survey of foundation models in the remote sensing domain. We categorize these models based on their architectures, pre-training datasets, and methodologies. Through detailed performance comparisons, we highlight emerging trends and the significant advancements achieved by those foundation models. Additionally, we discuss technical challenges, practical implications, and future research directions, addressing the need for high-quality data, computational resources, and improved model generalization. Our research also finds that pre-training methods, particularly self-supervised learning techniques like contrastive learning and masked autoencoders, remarkably enhance the performance and robustness of foundation models. This survey aims to serve as a resource for researchers and practitioners by providing a panorama of advances and promising pathways for continued development and application of foundation models in remote sensing.

思维导图

论文精读

中文精读约 39 分钟读完 · 31,157 字

1. 论文基本信息

1.1. 标题

遥感领域的视觉基础模型：一项综述 (Vision Foundation Models in Remote Sensing: A Survey)

1.2. 作者

Siqi Lu, Junlin Guo, James R Zimmer-Dauphinee, Jordan M Nieusma, Xiao Wang, Parker VanValkenburgh, Steven A Wernke, Yuankai Huo。作者隶属于范德堡大学 (Vanderbilt University) 的电气与计算机工程系、人类学系、数据科学研究所，以及橡树岭国家实验室 (Oak Ridge National Laboratory) 和布朗大学 (Brown University) 人类学系。

1.3. 发表期刊/会议

该论文发布在 arXiv 预印本平台，状态为预印本 (preprint)，尚未正式发表于特定期刊或会议。

1.4. 发表年份

2024年

1.5. 摘要

人工智能 (AI) 技术深刻地改变了遥感领域，革新了数据收集、处理和分析方式。传统遥感研究依赖手动解释和任务特定模型，而基础模型 (Foundation Models, FMs) 的出现极大地增强了遥感研究——这些大规模、预训练的 AI 模型能够以前所未有的准确性和效率执行广泛的任务。本文对遥感领域的基础模型进行了全面综述。作者根据模型的架构 (architectures)、预训练数据集 (pre-training datasets) 和方法论 (methodologies) 对这些模型进行分类。通过详细的性能比较，作者强调了新兴趋势和基础模型所取得的重大进展。此外，作者还讨论了技术挑战、实际应用和未来研究方向，包括对高质量数据、计算资源和改进模型泛化能力 (model generalization) 的需求。研究还发现，预训练方法，特别是对比学习 (contrastive learning) 和掩码自编码器 (masked autoencoders) 等自监督学习 (self-supervised learning) 技术，显著提高了基础模型的性能和鲁棒性 (robustness)。本综述旨在为研究人员和从业者提供遥感领域基础模型发展全景和有前景的持续发展与应用路径。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2408.03464 PDF 链接: https://arxiv.org/pdf/2408.03464v2.pdf

2. 整体概括

2.1. 研究背景与动机

传统的遥感 (Remote Sensing, RS) 研究严重依赖手动解释和针对特定任务的模型。这些方法通常需要大量的标注数据集 (labeled datasets) 和显著的计算资源。然而，随着人工智能 (AI) 和深度学习 (Deep Learning, DL) 的兴起，一个新的时代已经到来，其中大规模、预训练的 AI 模型，被称为基础模型 (Foundation Models, FMs)，能够以空前的准确性和效率执行广泛的任务。这些模型不仅增强了遥感应用的潜力，也为其在各个领域的使用开辟了新途径。

本研究的动机在于，在近年来，大量视觉基础模型 (vision foundation models) 在遥感任务中展现出卓越的性能，能够显著改善场景分类 (scene classification)、语义分割 (semantic segmentation)、目标检测 (object detection) 等多种下游任务的表现。通过利用大量的预训练数据 (pre-training data) 和复杂的架构 (architectures)，这些基础模型在遥感领域建立了新的基准，使其成为研究人员和工程师不可或缺的工具。

2.2. 核心贡献/主要发现

本文作为一篇全面的综述论文，其核心贡献和主要发现包括：

全面回顾 (Exhaustive Review): 对遥感领域中当前最新的视觉基础模型进行了详尽的综述，涵盖了这些模型的背景、方法论以及在不同领域和任务中的具体应用，以分层和结构化的方式呈现。
分类与分析 (Categorization and Analysis): 根据模型在图像分析（如图像级、像素级、区域级）和实际应用（如环境监测、农业、考古学、城市规划和灾害管理）中的表现对模型进行了分类和分析。详细讨论了每个模型的架构、预训练数据集、预训练方法和性能。
挑战与未来方向 (Challenges and Future Directions): 探讨了遥感领域基础模型面临的挑战和未解决的问题，指出了新的趋势，提出了重要问题，并为未来的探索提出了研究方向。
预训练方法的关键作用 (Crucial Role of Pre-training Methods): 发现预训练方法，特别是对比学习和掩码自编码器等自监督学习 (Self-Supervised Learning, SSL) 技术，显著增强了基础模型的性能和鲁棒性。
时间范围限定 (Timeframe Limitation): 本综述限定在2021年6月至2024年6月之间发布的基础模型，以突出近年来涌现的独特贡献和创新。

总体而言，本研究旨在通过提供遥感领域基础模型的进展全景和有前景的持续发展与应用路径，为研究人员和从业者提供宝贵资源。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 遥感 (Remote Sensing, RS)

概念定义: 遥感是指在不与目标物体或区域进行物理接触的情况下，通过使用卫星或机载传感器从远处获取其信息的过程。这些技术在地球观测、数字考古学、城市规划与发展、灾害管理等多个领域发挥着至关重要的作用。 传感器类型:

光学传感器 (Optical Sensors): 捕获可见光和近红外光等多种光谱波段，用于土地覆盖和植被健康的详细成像。
热红外传感器 (Thermal Sensors): 检测地球表面发射或反射的热量，适用于监测火山活动、森林火灾和气候变化。
雷达传感器 (Radar Sensors): 能够穿透云层和植被，在全天候条件下提供关键信息，例如土壤湿度估算和城市基础设施测绘。 应用: 环境监测、农业、城市规划、灾害管理等。

3.1.2. 人工智能 (Artificial Intelligence, AI) 与深度学习 (Deep Learning, DL)

概念定义: 人工智能是计算机科学的一个分支，旨在创建能够执行通常需要人类智能的任务的机器。深度学习是 AI 的一个子领域，它使用具有多层结构的神经网络（称为深度神经网络）从大量数据中学习复杂的模式和表示。 在遥感中的应用: AI 和 DL 的出现使得传统遥感中依赖手动解释和任务特定模型的局面得以改变，能够处理大规模数据并学习复杂特征。

3.1.3. 基础模型 (Foundation Models, FMs)

概念定义: 基础模型是经过大规模预训练 (pre-trained) 的大型模型，能够为不同领域中的各种下游任务提供一个强大的起点。这些模型利用庞大的数据集和先进的架构，使其能够捕捉复杂的模式和特征，然后可以通过少量额外的训练进行微调 (fine-tuning) 以适应特定应用。 在遥感中的价值: 由于遥感数据（包括多光谱和多时相图像）的多样性和复杂性，基础模型在遥感中尤其有价值。它们可以通过自监督学习 (SSL) 从大量未标注数据中学习有效表示，并利用 Transformer 等先进架构处理地理空间数据的独特特征。

3.1.4. 自监督学习 (Self-Supervised Learning, SSL)

概念定义: 自监督学习是一种机器学习范式，其中模型通过预测输入数据的一部分来学习表示，而不需要人工标注。它通过设计“代理任务 (pretext tasks)”从数据本身生成监督信号。 在遥感中的优势: 遥感场景中未标注数据通常很丰富，而标注数据稀缺且昂贵，因此 SSL 对于学习可泛化的表示 (generalizable representations) 具有显著优势，能有效解决遥感数据标注的难题。

3.1.5. Transformer 和视觉 Transformer (Vision Transformers, ViT)

概念定义: Transformer 是一种基于自注意力机制 (self-attention mechanism) 的深度学习架构，最初在自然语言处理 (Natural Language Processing, NLP) 领域取得巨大成功，因其能够有效建模长距离依赖关系。视觉 Transformer (ViT) 是将 Transformer 架构应用于计算机视觉 (Computer Vision, CV) 任务的模型。 ViT 图像处理方式: ViT 将图像分割成一系列图像块 (image patches)，并将这些图像块视为序列中的“词元 (tokens)”，然后送入 Transformer 编码器进行处理，从而学习图像的全局和局部关系。 在遥感中的应用: 这种能力使得 Transformer 在语义分割和变化检测等任务中特别有效，尤其是在高分辨率卫星图像中捕捉长距离依赖关系至关重要。

3.1.6. 卷积神经网络 (Convolutional Neural Networks, CNNs) 和残差网络 (Residual Neural Networks, ResNet)

概念定义: 卷积神经网络是一种基础的深度学习架构，通过使用卷积层从图像中提取层次化的空间特征。每个卷积层应用滤波器来检测不同抽象级别的模式，如边缘、纹理和形状。 ResNet: 残差网络 (ResNet) 是一种特殊的 CNN，通过引入残差连接 (residual connections) 来解决深度神经网络中的退化问题。这些连接允许梯度绕过某些层，从而便于训练非常深的网络。ResNet 的残差块包含跳跃连接 (shortcut connections)，跳过一个或多个层。

3.2. 前人工作

本论文在 III. RELATED REVIEW PAPERS 部分总结了遥感领域中几篇有影响力的综述论文，这些工作为理解 AI 在遥感中的发展奠定了基础：

Zhang et al. (2016) [121]: 《Deep Learning for Remote Sensing Data: A Technical Tutorial on the State of the Art》引入了深度学习技术到遥感领域，重点关注卷积神经网络 (CNNs) 在图像分类和目标检测等任务中的应用。
Zhu et al. (2017) [129]: 《Deep Learning in Remote Sensing: A Comprehensive Review and List of Resources》深入探讨了包括高光谱分析 (hyperspectral analysis) 和合成孔径雷达 (SAR) 解释在内的各种 AI 应用，提供了广泛的资源列表。
Wang et al. (2022) [103]: 《Self-Supervised Learning in Remote Sensing》强调了自监督学习 (SSL) 方法利用大量未标注数据的能力，显著减少了对标注数据集的依赖，同时在遥感任务中保持高性能。
Zhang et al. (2022) [120]: 《Artificial Intelligence for Remote Sensing Data Analysis: A Review of Challenges and Opportunities》全面概述了 AI 算法，强调了可解释性 (explainability)、安全性 (security) 以及 AI 与其他计算技术的集成等挑战。
Aleissaee et al. (2023) [3]: 《Transformers in Remote Sensing》探讨了基于 Transformer 的模型在各种遥感任务中的影响，并将其与 CNNs 进行了比较，指出了它们的优势和局限性。
Li et al. (2024) [60]: 《Vision-Language Models in Remote Sensing》考察了视觉-语言模型 (Vision-Language Models, VLMs) 在遥感中日益增长的重要性，突出了 VLMs 在图像字幕 (image captioning) 和视觉问答 (visual question answering) 等应用中的潜力。
Zhu et al. (2024) [130]: 《On the Foundations of Earth and Climate Foundation Models》全面回顾了现有的基础模型，提出了地理定位嵌入 (geolocation embedding) 和多传感器能力 (multisensory capability) 等特征，并概述了未来地球和气候模型的关键特性。

3.3. 技术演进

遥感领域的人工智能技术演进大致可以分为以下几个阶段：

早期统计方法与机器学习: 在深度学习兴起之前，遥感数据分析主要依赖于传统的统计学方法和浅层机器学习算法（如支持向量机、随机森林等），这些方法通常需要手工设计特征。
卷积神经网络 (CNNs) 时代: 随着深度学习的发展，CNNs 因其强大的特征提取能力被引入遥感领域。从 AlexNet 到 VGGNet，再到 ResNet 等，CNNs 逐渐成为图像分类、目标检测和语义分割等任务的主流方法，显著提高了性能。
自监督学习 (SSL) 的崛起: 面对遥感数据标注成本高昂的问题，自监督学习逐渐成为研究热点。通过代理任务，模型能够从大量未标注数据中学习到有用的表示，从而减少对标注数据的依赖，提高了模型在数据稀缺场景下的泛化能力。
Transformer 架构的引入: Transformer 架构在 NLP 领域取得巨大成功后，被引入计算机视觉，诞生了视觉 Transformer (ViT)。ViT 能够有效捕捉图像中的长距离依赖，这对于遥感中大尺度、复杂场景的分析非常有利。
多模态与基础模型 (FMs) 时代: 结合了 SSL 和 Transformer 架构的大规模预训练模型（即基础模型）成为当前的前沿。这些模型能够处理多光谱、多时相甚至多模态（如光学与 SAR 结合）数据，旨在提供通用、可泛化的表示，并通过微调适应各种下游任务。视觉-语言模型 (VLMs) 的兴起也代表了遥感领域向更丰富语义理解方向的发展。

3.4. 差异化分析

本研究与上述前人工作的核心区别和创新点在于：

时间范围聚焦 (Focused Timeframe): 本研究明确将综述范围限定在 2021年6月至2024年6月 间发布的基础模型，这使得它能够更深入地捕捉和分析这一时间段内自监督学习和基于 Transformer 架构的最新进展。而之前的综述往往涵盖了更广的时间范围，或侧重于单一技术（如仅关注 CNNs 或 Transformers）。
综合性方法论探索 (Integrated Methodological Exploration): 与以往可能专注于单一技术（如 SSL 或 Transformer）的综述不同，本文深入探讨了这些先进方法在遥感任务（如语义分割、多光谱分析和变化检测）中的结合潜力。例如，它分析了 SatMAE 如何有效利用 SSL 预训练 Transformer 来改进多光谱图像分割，以及 Scale-MAE 如何采用尺度感知掩码自编码器来更好地处理遥感数据中变化的空间分辨率 (spatial resolutions)。
强调创新模型 (Highlighting Novel Models): 本文着重介绍了 DINO-MC 等新模型，该模型通过集成全局-局部视图对齐 (global-local view alignment) 进行 SSL，使其在识别高分辨率卫星图像变化方面特别有效。
解决持久挑战 (Addressing Persistent Challenges): 通过系统地审查这些创新，本文阐明了最新模型如何解决领域适应 (domain adaptation) 和计算效率 (computational efficiency) 等长期挑战。例如，Scale-MAE 中的高效自注意力机制有助于降低计算成本，而 SatMAE 等模型中增强的地理定位嵌入 (geolocation embeddings) 提高了地理空间特征提取的性能。
理论与实践并重 (Balancing Theory and Practice): 与早期综述可能更偏理论化不同，本研究同时强调了最新模型的理论进展和实际应用。例如，DINO-MC 和 ORBIT 在环境监测和灾害响应中的实际应用，展示了新型基础模型如何有效解决地理空间分析中的紧迫挑战。

通过这些独特的视角，本研究为遥感领域基础模型的最新发展提供了更深入、更聚焦的洞察。

4. 方法论

本章节将详细拆解遥感领域视觉基础模型所采用的核心方法论，包括预训练方法、图像分析级别以及所使用的主要骨干网络。需要注意的是，本论文是一篇综述，因此“方法论”主要指代被综述的各种基础模型所采用的通用技术范式和分类。

4.1. 方法原理

遥感领域的基础模型 (Foundation Models, FMs) 的核心思想是利用大规模数据集和先进的架构进行预训练 (pre-training)，以学习可迁移和泛化的特征表示 (transferable and generalized representations)。这些学到的表示随后可以适应各种下游任务，即使只有少量额外训练。这种方法减少了对昂贵且耗时的标注数据集 (labeled datasets) 的依赖，这在遥感领域尤为有利，因为标注数据通常稀缺或难以获取。

基础模型的通用流程包括两个主要阶段：

预训练 (Pre-training): 在大规模、通常是未标注的遥感数据集上，使用自监督学习 (Self-Supervised Learning, SSL) 或监督学习 (Supervised Learning) 方法，训练一个大型模型，使其能够捕捉数据中的复杂模式和特征。这个阶段的目标是学习一个强大的、通用的特征提取器。
下游任务微调 (Fine-tuning for Downstream Tasks): 将预训练好的模型作为一个强大的起点，在特定遥感任务（如场景分类、目标检测、语义分割或变化检测）的少量标注数据上进行微调。由于模型已经学习了通用的表示，因此通常只需要少量的任务特定数据就能达到高性能。

下图（原文 Figure 3）形象地展示了自监督学习的通用流程在遥感基础模型训练中的应用，包括多样化的数据集、预训练模型、知识迁移以及下游任务。图中突出显示的预训练任务包括 MAE 重建和对比任务，最终目标是实现目标模型的微调以应对物体检测和图像分割等任务。

该图像是示意图，展示了在遥感中基础模型的训练过程，包括多样化的数据集、预训练模型、知识迁移以及下游任务。图中突出显示的预训练任务包括MAE重建和对比任务，最终目标是实现目标模型的微调以应对物体检测和图像分割等任务。

4.2. 核心方法详解

4.2.1. 预训练方法 (Pretraining Methods)

预训练是开发基础模型 (FM) 的关键步骤，使其能够从大规模数据集中学习可迁移和泛化的表示。本节探讨遥感基础模型中常用的关键预训练方法。

4.2.1.1. 自监督学习 (Self-Supervised Learning, SSL)

自监督学习已成为预训练基础模型的基石，它提供了一种范式，使模型通过预测输入数据的一部分来学习表示。这种方法减少了对昂贵且耗时的人工标注数据集的依赖，在遥感等标注数据稀缺或难以获取的领域尤其具有优势。TABLE I 中详细列出了许多模型使用的自监督预训练策略，例如对比学习 (Contrastive Learning) 和预测编码 (Predictive Coding)。

自监督学习允许模型利用大量未标注数据，学习丰富、可泛化的表示，这些表示可以很好地迁移到场景分类、语义分割、目标检测和变化检测等下游任务。通过揭示底层数据结构和模式，SSL 不仅增强了模型的鲁棒性 (robustness)，还提高了遥感图像在不同领域和分辨率上的适应性。

两种常用的 SSL 方法是预测编码和对比学习。

4.2.1.1.1. 预测编码 (Predictive Coding)

方法原理: 预测编码利用生成式方法 (generative approach)，模型通过预测图像的可见部分来学习预测缺失或被遮挡的部分。这种策略有助于捕捉遥感图像中的空间和上下文关系，因为遥感图像通常包含多样的纹理、复杂的场景和不同的分辨率。

遥感应用: 在遥感中，预测编码可应用于卫星图像的填补缺失 (gap filling) 任务，模型学习推断由传感器限制或云层覆盖等遮挡造成的缺失数据。

实现框架: 预测编码的流行实现框架包括基于自编码器 (autoencoder-based) 的架构、例如 MAE (Masked Autoencoders) [34] 中使用的掩码图像建模 (masked image modeling, MIM) 技术，以及自回归模型 (autoregressive models)。这些方法在学习高分辨率图像和专业任务所需的细粒度细节方面特别有效。

4.2.1.1.2. 对比学习 (Contrastive Learning)

方法原理: 对比学习是另一种强大的 SSL 技术，它侧重于区分数据中相似样本和不相似样本。其核心思想是使相似（正例）样本的表示更接近，同时将不相似（负例）样本的表示推开。这鼓励模型学习判别性 (discriminative) 和不变性 (invariant) 的特征，这对于遥感任务至关重要。

遥感应用: SimCLR [13]、MoCo [35]、DINO [9] 和 BYOL [29] 等对比学习框架在遥感应用中展现出前景。它们使用随机裁剪 (random cropping)、旋转 (rotations) 或光谱波段丢弃 (spectral band dropping) 等数据增强 (augmentations) 来生成正例对，使模型能够学习对这些变换不变的鲁棒表示。例如，在多光谱或高光谱图像中，对比学习可以帮助模型捕捉不同条件下的光谱特征 (spectral signatures)，从而提高作物分类或土地覆盖测绘等任务的性能。

对比学习在标注数据集高度不平衡的遥感场景中尤其相关，因为它使模型能够在没有明确标注的情况下从代表性不足的类别或区域中学习。

4.2.1.1.3. 其他自监督学习方法

除了预测编码和对比学习，还有许多其他创新的 SSL 方法可以应用于遥感任务。例如，教师-学生自蒸馏框架 (teacher-student self-distillation frameworks) 也展现出潜力。CMID [70] 通过结合对比学习和掩码图像建模在一个教师-学生自蒸馏框架中，实现了有希望的性能。这种结构使其能够捕捉全局和局部特征，从而有效地处理各种遥感任务。

以下是原文 TABLE I 展示的遥感基础模型预训练方法和图像分析任务评估的总结：

Year-Month	Architecture	Model Name	Image-Level	Pixel-Level	Region-Level	Spatial-Temporal	Contrastive Learning	Predictive Coding
2021 Jun	ResNet-50	CMC-RSSR [84]	✓				√
2021 Oct	ResNet-50	SeCo [66]	✓	✓		✓
2021 Oct	ResNet-50	GeoKR [56]			✓
2021 Dec	ResNet-34	MATTER [2]	✓	✓		✓		√
2022 Mar	ResNet-50	GASSL [6]		✓			√
2022 May	ViTAEv2-S	RSP [96]	✓	✓	✓	✓
2022 Jun	ViT-S/8	DINO-MM [105]	✓				√
2022 Jun	Swin Transformer	Scheibenreif, et al. [79]		✓			√
2022 Jul	ViT/Swin Transformer	RingMo [87]		✓	√			√
2022 Aug	ResNet-50	GeCO [57]			✓			√
2022 Se	BYOL	RS-BYOL [45]		✓			√
2022 Nov	ViT-B	CSPT [124]						√
2022 Nov	ViT	RVSA [100]		✓				√
2023 Jan	MAE-based Framework	SatMAE [16]		✓				√
2023 Apr	TOV	TOV [89]		✓				√
2023 Apr	Teacher-student	CMID [70]	✓
	Self-distillation				✓
2023 Jun	CACo	CACo [67]		✓			√
2023 Jun	ResNet-18	IaI-SimCLR [77]	✓				√
2023 Jun	ResNet	SSL4EO-L [83]					√
023 Aug	Teacher-Student	GFM [69]	✓	✓		✓		√
2023 Aug	Swim Transformer	SatlasPretrain [7]	✓	✓
2023 Sep	Multi-Branch	RingMo-Sense [119]	✓					√
203 Sep	ViT	Scale-MAE [78]						√
2023 Sep	CNN-Transformer	RingMo-lite [109]				√		√
2023 Sep	Multimodel SSL	DeCUR [102]
2023 Oct	MSFE+MMFH	Feng et al. [27]
2023 Oct	ViT	FG-MAE [108]
2023 Nov	ViT	Prithvi [46]		✓
2023 Nov	Multimodal Encoder	CROMA [28]					√
2023 Dec	ViT	USat [44]		✓
2024 Jan	ViT-B	Cross-Scale MAE [88]		✓				√
2024 Jan	Unet+Transformer	U-BARN [26]
2024 Jan	Autoregressive Transformer	EarthPT [82]						√
	Teacher-Student Network	GeRSP [42]		✓			√
2024 Jan	Dual-Branch	SwiMDiff [91]						√
2024 Jan 2024 Jan	Generative ConvNet	SMLFR [22]		✓	✓
2024 Feb	3D GPT	SpectralGPT [40]	✓	✓				√
2024 Feb	MAE-based Framework	Presto [92]		✓			√	√
2024 Mar	SatMAE	SatMAE++ [73]	✓
2024 Mar	Joint-Embedding	SAR-JEPA [58]	✓					√
	Predictive Architecture							√
2024 Mar	ViT Factorized Multi-Modal	FoMo-Bench [8]	✓	✓	✓			√
2024 Mar	Spatiotemporal Encoder	SkySense [32] UPetu [24]	✓	✓	✓	✓		√
2024 Mar 2024 Apr	Multi-Modules Swim Transformer

4.2.1.2. 监督预训练 (Supervised Pretraining)

方法原理: 监督预训练是一种基础的深度学习方法，模型使用标注数据集进行训练，以最小化特定任务的预测误差，例如图像分类。这种方法使模型能够学习输入特征和目标标签之间的直接映射，从而形成详细的、任务特定的表示。 示例: 在 ImageNet [18] 等大规模数据集上训练的 ResNet [36] 和 VGGNet (Visual Geometry Group Network) [81] 等模型，展示了监督预训练如何捕捉鲁棒的特征层级，这些特征可以高度迁移到相关任务，包括语义分割或目标检测。 局限性:

依赖大规模标注数据集: 这是主要限制。为遥感任务创建标注数据集（特别是涉及多光谱或高光谱数据时）是资源密集型的，通常需要领域专业知识进行标注。例如，为土地覆盖分类标注像素级数据或在复杂城市环境中勾画对象可能耗时过长。
领域特异性: 遥感中的标注数据通常是领域特定的，这限制了在一个数据集上训练的模型对其他应用或区域的泛化能力。

这些挑战突显了解决对标注数据依赖的需求，从而推动了包括自监督预训练方法在内的替代方法的开发。

4.2.2. 图像分析方法 (Image Analysis Methods)

遥感领域的基础模型能够实现三种主要的图像分析级别：图像级 (image-level)、区域级 (region-level) 和像素级 (pixel-level)。这些级别解决不同的空间、上下文和应用特定需求，为广泛的任务提供基础。

4.2.2.1. 图像级 (Image-Level)

目标: 图像级分析侧重于分类任务，将整个图像或大型图像片段分类为预定义的类别，例如城市、森林、水体或农业区域。 应用: 这种方法提供对地理区域的广泛、高层次洞察，在土地利用测绘、土地覆盖分类和资源管理等大规模应用中发挥作用。通过对整个场景进行分类，这种分析级别能够有效监测广阔区域，支持环境管理和政策规划中的决策。 TABLE II 详细列出了哪些模型在图像级任务上进行了评估。

4.2.2.2. 区域级 (Region-Level)

目标: 区域级分析识别和定位图像中的特定对象，例如建筑物、车辆、船只或其他结构。 应用: 与图像级分析提供整体分类不同，区域级任务侧重于目标检测 (object detection)，即检测单个实体及其空间位置。这种分析对于城市规划等目标应用至关重要，其中基础设施的检测是必不可少的，以及灾害响应和安全领域，其中识别受损建筑物或脆弱区域可以显著帮助及时干预。 TABLE II 详细列出了哪些模型在区域级任务上进行了评估。

4.2.2.3. 像素级 (Pixel-Level)

目标: 像素级分析提供最细粒度的图像感知形式，为图像中的每个像素分配一个标签。 任务: 这包括语义分割 (semantic segmentation) 等任务，其中每个像素被分类为植被、水体或建筑物等类别；它还包括变化检测 (change detection)，识别不同时间捕获的图像之间的时间差异。 应用: 像素级分析对于创建用于精准农业、森林砍伐追踪和灾害管理等应用的高度详细地图不可或缺。分析细粒度细节的能力使得这些关键领域能够进行更准确的评估和可操作的洞察。 TABLE II 详细列出了哪些模型在像素级任务上进行了评估。

以下是原文 TABLE II 展示的遥感基础模型架构、预训练数据集、地理覆盖、图像分析级别、预训练方法和参数数量的总结：

Model Name Architecture Pre-training Dataset Resolution (m) Geographic Coverage Image Analysis Levels Pretrain methods # of Params

CMC-RSSR [84] ResNet-50 NWPU-DOTA [114],BigEarthNet [85], 0.2 to 60 Global Image-level ContrastiveMultiview Coding 23M

ImageNet [18]

SeCo [66] ResNet-50 Sentinel-2 Imagery 10, 20, 60 200k LocationsWorldwide Image-level,Spacial-temporal CL 23.5M

GeoKR [56] ResNet-50 Levir-KR [56] 0.8 to 16 Global Image-level, Pixel-level,Region-level Geographical KnowledgeSupervision 23.5M/138M

MATTER [2] ResNet-34 Sentinel-2 Imagery - Rural and Remote Regionswith Little Changes Image-level,Pixel-level SSL 21.3M

GASSL [6] ResNet-50 fMoW [15], GeoImageNet [18] - 7 Continents Image-level, Pixel-levelRegion-level CL 23.5M24.8M/23.5M/29M

RSP [96] ViTAEv2-S MillionAID [63], [64] 0.5 to 153 Global Image-level, Pixel-level,Region-level, Spacial-temporal Supervised Learning

DINO-MM [105] ViT-S/8 BigEarthNet-MM [86] 10 Global Image-level SSL 22M

Scheibenreif, et al. [79] Swin Transformer SEN12MS [80] 10 Global Image-level,Pixel-level CL -

RingMo [87] ViT/Swin Transformer 2 million RS images 0.3 to 30 6 Continents Image-level, Pixel-level,Region-level, Spacial-temporal MIM -

GeCO [57] ResNet-50 Levir-KR [56] 0.8 to 16 Global Image-level, Pixel-level,Region-level SSL 23.5M

RS-BYOL [45] BYOL Sen12MS [80] 10 to 20 Global Image-level,Pixel-level SSL 23.5M

CSPT [124] ViT-B ImageNet-1K [18] - Global Image-level,Region-level SSL 86M

RVSA [100] ViT MillionAID [63], [64] 0.5 to 153 Global Image-level, Pixel-level,Region-level MAE 100M

SatMAE [16] MAE-basedFramework fMoW Sentinel-2 [15] 10, 20, 60 Global Image-level,Pixel-level MAE 307M

TOV [89] TOV TOV-NI,TOV-RS - Global Image-level, Pixel-level,Region-level SSL -

CMID [70] Teacher-studentSelf-distillation MillionAID [63], [64] Varied Global Image-level, Pixel-level,Region-level, Spacial-temporal SSL 25.6M/87.8M

CACo [67] ResNet-18/50 Sentinel-2 Imagery 10 Global Image-level, Pixel-level,Spacial-temporal SSL 11.7M/23.5M

IaI-SimCLR [77] ResNet-18 SEN12MS - Global Image-level CL 11.7M

SSL4EO-L [83] ResNet/ViT ImageNet [18],MoCo [35], SimCLR [13] 30 Global Pixel-level SSL 11.7M/23.5M/86M

GFM [69] Teacher-Student GeoPile [69] Global Image-level, Pixel-level Continual Pretraining

SatlasPretrain [7] SatlasNet GeoPile [69] 1,10 Global Image-level, Pixel-level Multi-task Learning 88M

RingMo-Sense [119] Multi-Branch RS Spatiotemporal Dataset - Global Pixel-level SSL -

Scale-MAE [78] ViT-Large FMoW [15] - Global Image-level, Pixel-level Image-level, MAE 322.9M

RingMo-lite [109] CNN-Transformer AID [115] 0.3 to 30 Global Pixel-level, Region-level, Spacial-temporal FD-MIM 60% less than RingMo

DeCUR [102] Multimodel SSL SSL4EO-S12 [107], RGB-DEM/depth Varied Global Image-level, Pixel-level Image-level, SSL 23.5M

Feng et al. [27] MSFE+MMFH Multi-modal Dataset Varied Global Pixel-level, Region-level, Spacial-temporal SSL -

FG-MAE [108] ViT SSL4EO-S12 [107] 10 Global Image-level, Pixel-level MAE -

Prithvi [46] ViT Harmonized Landsat Sentinel 2 30 Contiguous U.S. Pixel-level MAE 100M

CROMA [28] Multimodal Encoder SSL4EO [107] 10 Areas Surrounding Human Settlements Image-level, Pixel-level CL, MAE 86M

USat [44] ViT Satlas [7] Varied Global Pixel-level MAE -

Cross-Scale MAE [88] ViT-B fMoW [15] - Global Image-level, Pixel-level MAE 86M

U-BARN [26] Unet+Transformer Sentinel-2 Imagery Varied France Image-level, Pixel-level SSL -

EarthPT [82] Transformer Sentinel-2 Imagery 10 UK Image-level Image-level, Autoregressive SSL 700M

GeRSP [42] Teacher-Student Network ImageNet [18], MillionAID [63], [64] 0.5 to 153 Global Pixel-level, Region-level SSL, SL -

SwiMDiff [91] Dual-Branch Sen12MS [80] Varied Global Image-level, Spacial-temporal SSL 11.7M

SMLFR [22] Generative ConvNet GeoSense [23] 0.05 to 150 Multiple Continents Pixel-level, Region-level Image-level, SSL 88M/197M

SpectralGPT [40] 3D GPT Sentinel-2 Imagery Varied Global Pixel-level, Spacial-temporal MAE 100M/300M/600M

Presto [92] MAE-based Framework Presto-21.5M [92] 10 Global Crop Type Segmentation MAE 402K

SatMAE++ [73] SatMAE Joint-Embedding fMoW [15] Varied Global Image-level Multi-Scale Pre-training -

SAR-JEPA [58] Predictive Architecture 100K SAR Images Varied Global Image-level SSL -

FoMo-Bench [8] ViT Multiple Varied Global Image-level, Pixel-level, Region-level Image-level, MAE 101M/110M

SkySense [32] Factorized Multi-Modal Spatiotemporal Encoder Multiple Varied Global Pixel-level, Region-level, Spacial-temporal CL 2.06B

UPetu [24] Multi-Modules GeoSense [23] - Global Image-level, Pixel-level, Spacial-temporal SSL 0.65M

msGFM [33] Swin Transformer GeoPile-2 [69] 0.1 to 153 Global Image-level, Pixel-level MIM 89M

DINO-MC [11] OFA-Net [[118] DINO OFA-Net SeCo-100K [66] 10 to 60 Image-level, Spacial-temporal Image-level, Pixel-level -

Multi-modal Dataset Global MIM Multi-Task MTP [99] SAMRS [98] Global Pretraining BFM [11] MillionAID [63], [64] Global MAE MMEarth [72] MP-MAE - Image-level, Pixel-level 3.7M to 650M

CtxMIM [123] ViT WorldView-3 Imagery Asia MIM SARATR-X [54] HiViT Siamese Network SAR Datasets 0.1 to 3 Image-level, Region-level Image-level, 66M

with ResNet and ViT Backbones - Pixel-level, Spacial-temporal 23M, 23M, 86M

Hierarchical ViT - Image-level, Pixel-level, Region-level , Spacial-temporal 8.33M to 52.61M

3D Transformer-based MAE - Image-level, Spacial-temporal

AirCo-MultiTasks [110]

Generalized Feature Mapping with Relative Depth Estimation

A2-MAE [122]

STSSD (Spatial-Temporal-Spectral Structured Dataset)

Global

Anchor-aware Masking Strategy and Geographic Encoding Module

HyperSIGMA [95]

HyperGlobal-450K [95]

Global

MAE

DOFA [117]

Multiple

Global

MIM

4.2.3. 主干网络 (Backbone)

主干网络是深度学习模型的基础，负责从输入数据中提取特征。在遥感基础模型中，主要使用两种类型的主干网络：卷积神经网络 (CNNs) 和 Transformer。

4.2.3.1. 卷积神经网络 (Convolutional Neural Networks, CNNs)

架构描述: CNNs [74] 是一种基本的深度学习架构，旨在通过卷积层从图像中提取层次化的空间特征。每个卷积层对输入数据应用滤波器，检测不同抽象级别的模式，如边缘、纹理和形状。这使得 CNNs 非常适合处理遥感中复杂的视觉任务，如图像分类、分割和目标检测。

残差网络 (ResNet): 残差网络 (ResNet) [36] 是一种 CNN 类型，通过引入残差连接 (residual connections) 来解决深层神经网络中的退化问题。残差连接允许梯度绕过某些层，从而有助于训练非常深的网络。这在遥感中特别有益，因为深层模型通常需要捕捉卫星图像中复杂的细节和变化。

残差块公式: ResNet 以其残差块为特征，残差块包括跳跃连接 (shortcut connections)，跳过一个或多个层。残差块可以用以下方程描述： $\mathbf { y } = \mathcal { F } ( \mathbf { x } , \{ W _ { i } \} ) + \mathbf { x }$ 符号解释:

$\mathbf { y }$ ：输出。
$\mathcal { F } ( \mathbf { x } , \{ W _ { i } \} )$ ：表示要学习的残差映射，其中 $\mathbf { x }$ 是输入， $\{ W _ { i } \}$ 是层权重。
$\mathbf { x }$ ：输入。
$\{ W _ { i } \}$ ：残差映射中各层的权重集合。该公式表明，输出 $\mathbf { y }$ 是输入 $\mathbf { x }$ 加上残差映射 $\mathcal { F } ( \mathbf { x } , \{ W _ { i } \} )$ 的结果。这种设计使得网络可以学习残差而非直接学习完整的映射，从而更易于优化深层网络。

应用: ResNet 有 ResNet-50、ResNet-101 和 ResNet-152 等各种架构，数字表示总层数。这些网络由于能够训练更深的网络而不会出现性能退化，在各种视觉任务中表现出卓越的性能。在遥感中，ResNet 广泛用于图像分类、目标检测和变化检测任务。例如，基于 ResNet 的模型可以分类不同的土地覆盖类型，检测建筑物和车辆等对象，并通过比较卫星图像的时间序列来监测景观随时间的变化。

4.2.3.2. Transformer 和视觉 Transformer (ViTs)

架构描述: Transformer 架构，在计算机视觉 (CV) 中被称为视觉 Transformer (ViT)，通过自注意力机制 (self-attention) 建模长距离依赖关系，使其能有效处理复杂的地理空间数据。

下图（原文 Figure 4）展示了视觉 Transformer 架构的结构。上方的 RGB 图像通过分割解码器和 Transformer 编码器进行处理，形成最终的分割结果。该图展示了线性投影的平铺块与分割过程的关系。

Fig. 4: The Vision transformer architecture.3 该图像是一个示意图，展示了视觉变换器架构的结构。上方的RGB图像通过分割解码器和变换器编码器进行处理，形成最终的分割结果。该图展示了线性投影的平铺块与分割过程的关系。

自注意力机制公式: ViT 将图像视为一系列图像块 (patches)，捕捉全局和局部模式，这对于分割和变化检测非常有用。自注意力机制计算如下： ${ \mathrm { Attention } } ( Q , K , V ) = { \mathrm { softmax } } \left( { \frac { Q K ^ { T } } { \sqrt { d _ { k } } } } \right) V$ 符号解释:

$Q$ ：查询矩阵 (Query matrix)。
$K$ ：键矩阵 (Key matrix)。
$V$ ：值矩阵 (Value matrix)。
$Q K ^ { T }$ ：查询和键的点积，衡量查询与每个键的相关性。
$\sqrt{d_k}$ ：键向量维度 $d_k$ 的平方根，用于缩放点积，防止梯度过小。
$\mathrm{softmax}(\cdot)$ ： softmax 函数，将缩放后的点积转换为注意力权重，确保所有权重之和为 1。
$V$ ：值矩阵，与注意力权重相乘得到最终的注意力输出。该公式描述了 Transformer 如何通过计算查询与所有键的相似度来动态地为每个值分配权重，从而捕获输入序列中的长距离依赖关系。

通过结合这些方法论，遥感的基础模型能够利用大量数据，处理复杂结构，并在各种应用中达到最先进的性能。这些方法论使模型能够有效应对遥感领域的独特挑战，如大图像尺寸、多样化的数据源以及环境监测和分析中对高精度的需求。

5. 实验设置

本节将概述遥感基础模型中常用的数据集以及用于评估其性能的评估指标。由于本文是一篇综述，实验设置主要指代被综述模型在各种任务中的通用设置和评估方式。

5.1. 数据集

数据集在遥感中起着至关重要的作用，为模型的训练和评估提供了基础。高质量的数据集使模型能够学习地球表面的准确表示，从而提高其在各种遥感任务中的性能。下图（原文 Figure 2）展示了用于训练基础模型和其下游任务的一些数据类型示例，包括全色 (Panchromatic)、真实色彩 (True Color)、合成孔径雷达 (SAR)、高光谱 (Hyperspectral) 和多光谱 (Multispectral) 等影像类型，以及下游任务（分割、目标检测、分类和变化检测）。

该图像是一个示意图，展示了不同类型的遥感数据（如全色影像、真实色彩、合成孔径雷达、超光谱和多光谱）与下游任务（如分割、目标检测、分类和变化检测）之间的关系。图中包含了多种遥感影像类型及其应用领域，主要用于说明基础模型在遥感中的应用。

以下是原文附录 APPENDIX 中列出的常用遥感预训练数据集的详细信息，以及 TABLE II 中模型使用的预训练数据集。

Month, Year	Dataset	Title	Patch Size	Size	Resolution (m)	Sensor	Categories	Geographic Coverage	Image Type	Application
Month, Year	Dataset	Title	Patch Size	Size	Resolution (m)	Sensor	Categories	Geographic Coverage	Image Type	Application	2017	RSD46-WHU [62], [116]	256 x 256	117,000	0.5 - 2	Google Earth,Tianditu	46	Global	RGB	Scene Classification
Apr, 2018	fMoW [15]	Functional Map of the World		1,047,691	-	Digital Globe	63	207 of 247 countries	Multispectral	Scene Classification,Object Detection
May, 2019	DOTA [114]	DOTA: A Large-scale Dataset for Object Detection in Aerial Images	800× 800 to 20,000 × 20,000	11,268	Various	Google Earth,GF-2 Satelite, and aerial images	18	Global	RGB	Object Detection
Jun, 2019	SEN12MS [80]	SEN12MS A Curated Dataset of Georeferenced Multi-Spectral Sentinel-1/2 Imagery r Deep Learing and Data Fusion	256 x 256	541,986	10	Sentinel-1,Sentinel-2, MODIS Land Cover		Globally distributed	SAR/Multispectral	Land Cover Classification, Change Detection
Jun, 2019	BigEarthNet [85]	BigEarthNet: A Large-Scale Benchmark Archive For Remote Sensing Image Understanding	20 x 20 to 120 x 120	590,326	Various	Sentinel-2	43	Europe	Multispectral	Scene Classification,Object Detection
Jun, 2019	SeCo [66]	Seasonal Contrast: Unsupervised Pre-Training from Uncurated Remote Sensing Data	264 x 264	~1M	10 - 60	Sentinel-2		Global	Multispectral	Seasonal Change Detection,Land Cover Classification over Seasons
Mar, 2021	MillionAID [63], [64]	Million-AID	110 - 31,672	1,000,848	Various	Google Earth	51	Global	RGB	Scene Classification
Jul, 2021	Levir-KR [56]	Geographical Knowledge-driven Representation Learing forRemote Sensing Images	-	1,431,950	Various	Gaofen1,Gaofen-2, Gaofen-6		Global	Multispectral	Change Detection,Scene Classification
Apr, 2022	TOV-RS-Balanced [90]	The Ogial Vision Model r OptalRemote Sensing Image Understanding via Self-supervised Learning	600 x 600	500,000	1 - 20	Google Earth	31	Global	RGB	Scene Classification,Object Detection,Semantic Segmentation
Jul, 2022	SeasoNet [53]	SeasoNet: A Seasonal Scene Classification,Segmentation and Retrieval dataset for satellite Imagery over Germany	up to 120 x 120	1,759,830	10 - 60	Sentinel-2		Germany	Multispectral	Seasonal Scene Classification,Scene Segmentation
Nov, 2022	SSL4EO-S12 [107]	SSLEO-S12: A Lare-Scale Multi-Modal,uTl Da Sel Learning in Earth Observation	264 x 264	3,012,948	10 - 60	Sentinel-1, Sentinel-2		Global	SAR/Multispectral	Self-Supervised Learning
Oct, 2023	SAMRS [98]	SAMRS: Scaling-up Remote Sensing SegmentationDataset with Segment Anything Model	to 1024 x 1024	105,090	Various	HRSC2016,DOTA-V2.0, DIOR, FAIR1M-2.0		Global	High-resolution	Semantic Segmentation,Instance Segmentation,Object Detection
Jun, 2023	CACo [67]	Change-Aware Sampling and Conastive ng el	Variable	-	10	Sentinel-2		Urban and Rural Areas	Multispectral	Change Detection,Self-Supervised Learning
Oct, 2023	SatlasPretrain [7]	Sataaiare-cal ata Remote Sensing Image Understanding	512 x 512	856,000	1(Sentinel-2), 0.5 - 2 NAIP)	Sentinel-1, Sentinel-2,Landset, and NAIP	137	Global	Multispectral,High-resolution	Land Cover Classification,Segmentation, Change Detection
Oct, 2023	SSL4EO-L [83]	SSL4EO-L: Datasets and Foundation Models for Landsat Imagery	264 x 264	5,000,000	30	Landsat 45 TM,Landsat 7 ETM+,Landsat 89 OLITIRS		Global	Multispectral	Cloud Detection,Land Cover Classification,Semantic Segmentation
Jul, 2024	MMEarth [72]	MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learing	128 x 128	1,200,000	10	Sentinel-2, Sentinel-1,Aster DEM	46	Global	Multispectral, SAR,Climate	Land Cover Classification,Semantic Segmentation

遥感中使用的这些数据集在规模、分辨率和传感器类型上差异显著，提供了丰富的资源来推进遥感研究和应用。它们促进了鲁棒模型 (robust models) 的开发，这些模型能够解决通过遥感技术理解和解释地球表面的各种挑战。

5.2. 评估指标

论文在比较各种遥感基础模型的性能时，使用了以下几种标准评估指标：

5.2.1. 平均精度均值 (Mean Average Precision, mAP)

概念定义: 平均精度均值 (mAP) 是在目标检测和图像分类任务中广泛使用的一个指标，它衡量模型在所有类别上的平均检测或分类性能。它通过计算每个类别的平均精度 (Average Precision, AP)，然后对所有类别的 AP 进行平均，从而综合评估模型在不同召回率 (recall) 下的精度表现。 数学公式: $mAP = \frac{1}{N} \sum_{i=1}^{N} AP_i$ 符号解释:

$N$ : 类别总数。
$AP_i$ : 第 $i$ 个类别的平均精度 (Average Precision)。AP 的计算通常涉及绘制精度-召回率曲线 (Precision-Recall curve) 并计算曲线下的面积。

5.2.2. F1 分数 (F1 Score)

概念定义: F1 分数是分类任务中衡量模型性能的另一个重要指标，它结合了精度 (Precision) 和召回率 (Recall)。它是精度和召回率的调和平均值 (harmonic mean)，旨在平衡假阳性 (False Positives, FP) 和假阴性 (False Negatives, FN) 的影响，尤其适用于类别不平衡 (class imbalance) 的数据集。 数学公式: $F1 = 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall}$ 其中， $Precision = \frac{TP}{TP+FP}$ $Recall = \frac{TP}{TP+FN}$ 符号解释:

TP (True Positives, 真阳性): 模型正确预测为正的样本数。
FP (False Positives, 假阳性): 模型错误预测为正的负样本数。
FN (False Negatives, 假阴性): 模型错误预测为负的正样本数。
Precision: 预测为正的样本中，真正为正的比例。
Recall: 所有真正为正的样本中，被模型正确预测为正的比例。

5.2.3. 平均交并比 (Mean Intersection over Union, mIoU)

概念定义: 平均交并比 (mIoU) 是语义分割 (semantic segmentation) 任务中常用的评估指标，它衡量预测分割区域与真实标注区域的重叠程度。它通过计算每个类别的交并比 (Intersection over Union, IoU)，然后对所有类别的 IoU 进行平均。 数学公式: $mIoU = \frac{1}{N} \sum_{i=1}^{N} IoU_i$ 其中， $IoU_i = \frac{TP_i}{TP_i + FP_i + FN_i}$ 符号解释:

$N$ : 类别总数。
$IoU_i$ : 第 $i$ 个类别的交并比。
$TP_i$ : 第 $i$ 个类别中正确分类的像素数。
$FP_i$ : 第 $i$ 个类别中被错误分类的像素数。
$FN_i$ : 第 $i$ 个类别中未被检测到的像素数。

5.2.4. 总体准确率 (Overall Accuracy, OA)

概念定义: 总体准确率 (OA) 是分类任务中最直观的评估指标之一，它衡量模型在所有类别上正确分类的样本（或像素）总数占总样本（或像素）数的比例。 数学公式: $OA = \frac{\sum_{i=1}^{N} TP_i}{\sum_{i=1}^{N} (TP_i + FP_i + FN_i)}$ 符号解释:

$N$ : 类别总数。
$TP_i$ : 第 $i$ 个类别中正确分类的样本（或像素）数。
$FP_i$ : 第 $i$ 个类别中被错误分类的样本（或像素）数。
$FN_i$ : 第 $i$ 个类别中未被检测到的样本（或像素）数。
分母表示所有类别中所有样本（或像素）的总数。

5.3. 对比基线

本综述通过比较遥感领域中各种已发布的基础模型来评估其性能，这些模型本身就充当了彼此的基线。例如，在图像级任务中，msGFM [33] 与 SkySense [32] 等进行比较；在像素级任务中，SkySense [32] 与 CMID [70] 等进行比较；在区域级任务中，RVSA [100] 与 SMLFR [22] 等进行比较；在变化检测任务中，SkySense [32] 与 GFM [69] 等进行比较。此外，一些比较也包括了非基础模型 (Non-FM) 的传统方法，如 R-SegNet [127] 和 Faster R-CNN [55] 等，以展示基础模型的性能优势。这些模型之所以具有代表性，是因为它们代表了近年来遥感领域基础模型的最新进展，涵盖了不同的架构、预训练方法和应用场景。

6. 实验结果与分析

本节将深入分析遥感领域中视觉基础模型在不同任务上的实验结果，并根据原文提供的数据表格进行详细呈现。分析将侧重于模型的性能、预训练方法的影响以及不同模型之间的权衡。

6.1. 核心结果分析

6.1.1. 图像级任务 (Image-Level Tasks)

在 BigEarthNet 数据集 [85] 上的图像分类任务中，不同基础模型的准确性表现各异。

以下是原文 TABLE IV 展示的 BigEarthNet 数据集上图像级任务的性能指标：

Dataset	Model	Performance (%)	Metrics
BigEarthNet [85]	SeCo [66]	87.81	mAP
	CMC-RSSR [84]	82.90	mAP
	DINO-MM [105]	87.10	mAP
	CACo [67]	74.98	mAP
	GFM [69]	86.30	mAP
	DINO-MC [111]	88.75	mAP
	CROMA [28]	86.46	mAP
	DeCUR [102]	89.70	mAP
	CtxMIM [123]	86.88	mAP
	FG-MAE [108]	78.00	mAP
	USat [44]	85.82	mAP
	FoMo-Bench [8]	69.33	F1 Score
	SwiMDiff [91]	81.10	mAP
	SpectralGPT [40]	88.22	mAP
	SatMAE++ [73]	85.11	mAP
	msGFM [33]	92.90	mAP
	SkySense [32]	92.09	mAP
	MMEarth[72]	78.6	mAP

分析:

最佳表现: msGFM [33] 以 92.90% 的 mAP 取得了最高性能，紧随其后的是 SkySense [32]，达到 92.09%。这表明这些模型在处理 BigEarthNet 数据集上的分类任务方面表现出卓越的效率和准确性。
强劲竞争者: DeCUR [102] 和 DINO-MC [111] 分别达到 89.70% 和 88.75% 的 mAP，展现出强大的分类能力。SeCo [66] 和 DINO-MM [105] 也表现良好，分别为 87.81% 和 87.10% 的 mAP。
有待提升的模型: CACo [67] 的 mAP 为 74.98%，FoMo-Bench [8] 的 F1-Score 为 68.33%，显示出一定的竞争力，但仍有改进空间。
预训练方法的优势: SkySense 通过在包含 2150 万光学和 SAR 序列的多样化数据集上实施多粒度对比学习 (multigranularity contrastive learning)，平均比最近的模型提高了 2.76%。HyperSIGMA [95] 在大规模高光谱数据集 HyperGlobal-450K 上预训练，通过稀疏采样注意力机制优化了高维高光谱数据中的谱空间特征提取，在高光谱场景中实现了高分类精度。这些结果突出了设计能够捕捉多模态特征并有效利用数据集多样性的预训练策略的重要性。

6.1.2. 像素级任务 (Pixel-Level Tasks)

在 ISPRS Potsdam 数据集 [43] 上的语义分割任务中，12 个基础模型的性能表现各异。

以下是原文 TABLE V 展示的 ISPRS Potsdam 数据集上像素级任务的性能指标：

Dataset	Model	Performance (%)	Metrics
ISPRS Potsdam	GeoKR [56]	70.48	mIoU
	RSP [96]	65.30	mIoU
	RingMo [87]	91.74	OA
	RVSA [100]	91.22	OA
	TOV [89]	60.34	mIoU
	CMID [70]	87.04	mIoU
	RingMo-lite [109]	90.96	OA
	Cross-Scale MAE [88]	76.17	mIoU
	SMLFR [22]	91.82	OA
	SkySense [32]	93.99	mF1
	UPetu [24]	83.17	mIoU
	BFM [11]	92.58	OA
	R-SegNet* [127]	91.37	OA

分析:

最佳表现: SkySense [32] 在所有模型中表现最好，mF1 Score 达到 93.99%。CMID [70] 以最高的 mIoU 87.04% 脱颖而出，展示了其在数据集中准确分割不同区域的卓越能力。
总体准确率: BFM [11] 的 OA 评分最高，达到 92.58%。SMLFR [22]、RingMo [87] 和 RingMo-lite [109] 也表现出强大的整体准确性。
竞争性表现: Cross-Scale MAE [88]、UPetu [24] 和 RSP [96] 的 mIoU 分别为 76.17%、83.17% 和 65.30%，显示出具有竞争力的分割能力。GeoKR [56] 的 mIoU 达到 70.48%，表明其具有鲁棒的分割性能，但与 CMID [70] 相比仍有改进空间。
有待提升的模型: TOV [89] 的 mIoU 最低，为 60.34%，表明其在精细分割任务中可能不如其他模型。

6.1.3. 区域级任务 (Region-Level Tasks)

在 DOTA、DIOR 和 DIOR-R 数据集上的目标检测任务中，基础模型的性能根据 mAP 和 AP50 进行评估。

以下是原文 TABLE VI 展示的 DOTA、DIOR 和 DIOR-R 数据集上区域级任务的性能指标：

Dataset	Model	Performance (%)	Metrics
DOTA	RSP [96]	77.72	mAP
	RVSA [100]	81.24	mAP
	TOV [89]	26.10	mAP50
	CMID [70]	72.12	mAP
	GeRSP [42]	67.40	mAP
	SMLFR [22]	79.33	mAP
	BFM [11]	58.69	mAP
	YOLOv2-D* [21]	60.51	AP
DIOR	RingMo [87]	75.80	mAP
	CSPT [124]	69.80	mAP
	RingMo-lite [109]	73.40	mAP
	GeRSP [42]	72.20	mAP
	MTP [99]	78.00	AP50
	Faster R-CNN* [55]	74.05	mAP
DIOR-R	RVSA [100]	71.05	mAP
	SMLFR [22]	72.33	mAP
	SkySense [32]	78.73	mAP
	MTP [99]	74.54	mAP
	BFM [11]	73.62	mAP
	AOPG* [14]	64.41	mAP

分析:

DOTA 数据集: RVSA [100] 以 mAP 81.24% 取得了最高性能，其次是 SMLFR [22] 和 RSP [96]，mAP 分别为 79.33% 和 77.72%。CMID [70]、GeRSP [42] 和 BFM [11] 也表现出中等性能，mAP 分别为 72.12%、67.40% 和 58.69%。
DIOR 和 DIOR-R 数据集: MTP [99] 和 SkySense [32] 是表现最好的模型，在 DIOR 上 AP50 为 78%，在 DIOR-R 上 mAP 为 78.73%，展示了其卓越的目标检测能力。
基线对比: 基础模型通常优于传统的监督基线，例如 YOLOv2-D [21] 和 Faster R-CNN [55]，突显了它们在遥感目标检测中的优势。

6.1.4. 时空任务 (Spatial-Temporal Tasks)

在 OSCD 和 LEVIR-CD 数据集上的变化检测任务中，基础模型的 F1 Score 性能差异显著。

以下是原文 TABLE VII 展示的 OSCD 和 LEVIR-CD 数据集上时空任务的性能指标：

Dataset	Model	F1 Score
OSCD [10]	SeCo [66]	46.94
	MATTER [2]	49.48
	CACo [67]	52.11
	GFM [69]	59.82
	SWiMDiff [91]	49.60
	SpectralGPT [40]	54.29
	SkySense [32]	60.06
	DINO-MC [111]	52.71
	HyperSIGMA [95]	59.28
	MTP [99]	53.36
	CNNs* [10]	89.66 (OA)
LEVIR-CD [12]	RSP [96]	90.93
	RingMo [87]	91.86
	RIngMo-lite [109]	91.56
	SwiMDiff [91]	80.90
	SkySense [32]	92.58
	UPetu [24]	88.50
	STANet* [12]	85.4

分析:

OSCD 数据集: SkySense [32] 以 F1 Score 60.06% 取得了最高性能，其次是 GFM [69]（59.82%）和 HyperSIGMA [95]（59.28%）。SeCo [66] 记录了最低的 F1 Score 46.94%。
LEVIR-CD 数据集: 模型的性能普遍较高。MTP [99]（未在表格中列出具体 F1 Score，但原文提到其在 LEVIR-CD 上 F1 Score 为 92.67%）和 SkySense [32]（92.58%）表现出最强的性能。RingMo [87] 和 RIngMo-lite [109] 也表现出色，分别达到 91.86% 和 91.56%。
性能差异: 两个数据集上的性能差异显著，LEVIR-CD 上的 F1 Score 普遍高于 OSCD。这可能反映了数据集的复杂性、标注质量或变化特征的性质。
与其他方法的比较: 某些基础模型（如 SkySense、GFM）在变化检测任务上展现出强大的能力，甚至超越了一些传统的监督方法。

6.1.5. 预训练方法的影响和模型权衡

预训练方法的影响: 使用自监督学习 (SSL) 方法（如对比学习 CL 和掩码自编码器 MAE）预训练的模型，通常比使用传统监督学习预训练的模型表现出更优越的性能。
- SkySense 使用多粒度对比学习，在场景分类和目标检测任务中比其他模型平均高出约 3.6% [32]。
- SeCo 基于季节对比学习，将土地覆盖分类的指标提高了高达 7%，超过了 ImageNet 预训练的模型 [66]。
- SatMAE [16] 和 Scale-MAE [78] 使用掩码自编码器处理多时相和多光谱数据，SatMAE 在土地覆盖分类中性能提升高达 14% [16]，Scale-MAE 在不同分辨率下的分割任务中 mIoU 提高了 1.7% [78]。
- 生成式方法 (如 MAE) 在处理时间序列数据时，特别是在标注数据有限的情况下，相比对比方法具有显著优势 [61]。MAE 通过从掩码片段重建数据来捕获复杂的基础结构和关系，对于需要细致时间分析的遥感任务特别有效。
模型实用权衡: 不同的基础模型在性能和计算要求之间存在权衡：
- SatMAE [16] 虽能有效捕获复杂的时空模式，但计算要求高，不适用于资源受限的实时监测。
- RingMo [87] 提供轻量级的视觉 Transformer 架构，在性能和计算需求之间取得平衡，适合灾害响应等快速推理任务。
- A2-MAE [122] 引入锚点感知掩码策略，优化时空光谱表示，增强了对多样数据分辨率和模态的适应性，但其复杂的编码技术增加了计算负荷，适合高精度而非高效率的应用。
- ORBIT [101] 拥有 1130 亿参数，在地球系统可预测性任务中具有出色的可扩展性，但其巨大的资源需求限制了其在专业高性能计算环境中的部署。
  
  这些权衡强调了根据特定操作目标（最大化精度或最小化计算开销）选择模型的重要性。

6.2. 实际应用的影响

这些模型在准确性方面的改进对实际遥感应用产生了深远影响：

森林砍伐监测: GFM 在语义分割中实现了高像素级精度，比基线模型提高了高达 4.5%，从而提高了森林覆盖变化测绘的精度，支持了保护工作 [101]。
高光谱植被监测: HyperSIGMA 在高光谱植被监测中实现了惊人的 6.2% 准确率提升，为评估森林健康和生物多样性提供了宝贵数据 [95]。
城市规划: UPetu 通过集成多模态数据（如光学和雷达图像）在基础设施测绘中表现出色，比单一模态模型高出 5% 以上的准确率，使城市规划者能够做出更明智的土地利用决策 [24]。
目标检测与城市特征: RingMo 将目标检测精度提高了 3.7%，超过了传统的监督模型，有效识别了密集的城市特征，这对于灾害管理和城市基础设施评估至关重要 [87]。
长期环境监测: ORBIT 展示了卓越的可扩展性，以高达 85% 的扩展效率处理大型气候数据集，支持气候变化预测和季节预报等长期环境监测应用 [101]。

这些进展不仅推动了传统的遥感工作流程，还使得过去通过传统方法难以实现的复杂多时相分析和预测建模成为可能。

7. 总结与思考

7.1. 结论总结

本综述全面回顾了遥感领域视觉基础模型 (Vision Foundation Models, VFMs) 的最新进展，涵盖了从2021年6月到2024年6月间发布的重要模型。文章根据这些模型的预训练方法、图像分析技术和在不同应用领域（如环境监测、数字考古学、农业、城市规划和灾害管理）中的实际应用进行了分类和分析。

核心发现包括：

性能显著提升: 基础模型在图像级、像素级和区域级等不同图像感知水平上，以及在多种应用中，都显著提高了性能。
预训练方法的关键作用: 自监督学习 (Self-Supervised Learning, SSL) 技术，特别是对比学习 (contrastive learning) 和掩码自编码器 (masked autoencoders, MAE)，被证明能显著增强基础模型的性能和鲁棒性。
先进架构的应用: 视觉 Transformer (ViT) 和残差神经网络 (ResNet) 等先进架构在处理遥感数据中的复杂模式和长距离依赖方面发挥了核心作用。
实际应用潜力: 基础模型为环境监测、农业优化、考古发现、城市可持续发展和灾害快速响应提供了前所未有的精度和效率。

总体而言，本综述详细概述了遥感领域基础模型的当前状态，提供了宝贵的见解，并为未来的研究方向指明了道路。

7.2. 局限性与未来工作

7.2.1. 本综述的局限性

范围和覆盖: 本综述主要关注 2021 年 6 月至 2024 年 6 月期间发布的基础模型。尽管涵盖了许多重要进展，但并非穷尽所有内容。在此期间后期出现或尚未充分评估的一些前沿模型可能未被包含。
领域快速演变: AI 和遥感领域发展迅速，新的技术、方法和模型不断涌现。这使得任何综述都只能是特定时间点的快照，需要持续监测最新文献以捕捉新兴趋势。
模型应用广度验证不足: 尽管基础模型具有鲁棒的架构和通用训练范式，但现有文献中对它们下游应用的测试范围有限。作者指出，这些模型有望泛化到更广泛的遥感任务中，但仍需未来的研究去探索和验证其全部潜力。

7.2.2. 未来研究方向

高效模型开发 (Efficient Model Development):
- 计算资源优化: 探索模型蒸馏 (model distillation)、剪枝 (pruning) 和量化 (quantization) 等技术，以在不损害性能的情况下减少计算需求。
- 可扩展架构: 开发能够高效处理超高分辨率图像的可扩展架构。
- 参数高效微调: 整合 LoRA (Low-Rank Adaptation) [41] 等参数高效微调方法，以最小的计算开销适应大型模型，使其适用于资源受限的环境或需要频繁再训练的场景。
多模态数据集成 (Multi-Modal Data Integration):
- 增强集成方法: 改进多模态数据（例如，结合光学和雷达图像）的集成和处理方法，以提供更全面的洞察。
- 先进 SSL 技术: 研发能够利用多模态数据的先进自监督学习技术。例如，OFA-Net [118] 框架，它集成了多模态数据，为未来模型提供了有前景的方向。
跨学科协作 (Interdisciplinary Collaboration):
- 促进合作: 推动遥感专家、AI 研究人员和领域专家之间的协作，以解决复杂挑战并推动创新。例如，AI 研究人员与环境科学家之间的伙伴关系可以改进 GASSL [6] 等模型，以更好地进行环境监测和保护工作。
自监督学习的持续探索: 自监督学习方法在基础模型中持续取得成功，预示着未来研究的巨大潜力。通过减少对大规模标注数据集的依赖，SSL 能够解决许多遥感应用中数据标注的瓶颈问题。
效率与性能的平衡: 随着模型规模和复杂性的增长，平衡计算需求与效率变得越来越重要。未来的工作可能需要开发更具资源效率的基础模型版本，同时保持高水平性能，特别是在实时监测系统或计算资源有限的环境中部署。

7.3. 个人启发与批判

这篇综述为遥感领域的视觉基础模型提供了一个全面且及时的概览，对我理解该领域的最新进展和未来方向有很大的启发。

个人启发:

范式转变: 基础模型的兴起标志着遥感数据分析从传统的任务特定模型向通用、可迁移模型迈进的重大范式转变。这种转变极大地降低了对海量标注数据的需求，并加速了新应用场景的落地。
多模态融合的潜力: 论文强调了多模态数据集成（如光学、SAR、高光谱结合）的重要性，这预示着未来遥感模型将能够从更丰富的地球观测数据中提取更全面的信息，从而应对更复杂的地球科学问题。
自监督学习的基石地位: 自监督学习作为基础模型预训练的核心方法，其多样性和有效性令人印象深刻。它为我们提供了一种在数据丰富但标注稀缺的领域（如遥感）中构建强大模型的可行路径。
跨学科融合的必要性: 论文多次提及跨学科协作的重要性，这提醒我们，解决复杂的地球科学问题，不仅需要先进的 AI 技术，更需要 AI 专家与领域专家（如考古学家、环境科学家）的深度结合，才能真正将技术转化为实际价值。

潜在问题、未经验证的假设或可以改进的地方:

可解释性与信任 (Explainability and Trust): 随着基础模型变得越来越复杂，其“黑箱”性质也日益突出。在灾害管理、环境政策制定等高风险应用中，模型的决策依据往往需要高度透明和可解释。综述中虽然提及了 AI 的可解释性是挑战，但并未深入探讨基础模型在该方面的具体进展或特殊挑战。未来的研究可以更多地关注如何提高遥感基础模型的可解释性，建立领域专家对模型决策的信任。
数据偏差与公平性 (Data Bias and Fairness): 遥感数据虽然“客观”，但其采集、处理和使用的过程中仍可能存在偏差（例如，某些地区的数据覆盖不足、分辨率不均、特定传感器数据缺乏）。如果预训练数据存在偏差，模型可能会在某些地区或特定现象上表现不佳，从而导致决策不公或遗漏关键信息。综述强调了对高质量和多样化数据的需求，但可以进一步探讨如何主动识别和缓解遥感基础模型中的数据偏差问题。
模型更新与适应性 (Model Update and Adaptability): 地球环境和人类活动持续变化，这意味着遥感数据是动态演变的。基础模型需要具备持续学习 (continual learning) 和适应新现象的能力，而不仅仅是基于静态数据集进行预训练。虽然一些模型提到了时空能力，但如何高效地更新和适应不断变化的地球动态仍是一个挑战。
计算成本与可持续性 (Computational Cost and Sustainability): 训练和部署大规模基础模型需要巨大的计算资源，这不仅带来了经济成本，也引发了能源消耗和环境可持续性的担忧。未来需要更多研究关注如何开发更“绿色”、更低碳的基础模型，或者探索更高效的模型部署方案。
缺乏统一的评估基准: 综述中呈现了各个模型在不同数据集和指标上的性能，但由于数据集、任务和评估设置的差异，很难进行直接的“苹果对苹果”的比较。这突显了遥感领域缺乏统一、全面的基础模型评估基准的挑战，这可能会阻碍领域的快速发展和新模型的有效验证。

总的来说，这篇综述为遥感与 AI 交叉领域的发展描绘了一幅令人振奋的蓝图，同时也清晰地指出了前方的挑战。未来的研究需要平衡技术进步与实际应用需求、计算成本、可解释性及伦理考量。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Vision Foundation Models in Remote Sensing: A Survey

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 39 分钟读完 · 31,157 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 遥感 (Remote Sensing, RS)

3.1.2. 人工智能 (Artificial Intelligence, AI) 与 深度学习 (Deep Learning, DL)

3.1.3. 基础模型 (Foundation Models, FMs)

3.1.4. 自监督学习 (Self-Supervised Learning, SSL)

3.1.5. Transformer 和 视觉 Transformer (Vision Transformers, ViT)

3.1.6. 卷积神经网络 (Convolutional Neural Networks, CNNs) 和 残差网络 (Residual Neural Networks, ResNet)

3.2. 前人工作

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 预训练方法 (Pretraining Methods)

4.2.1.1. 自监督学习 (Self-Supervised Learning, SSL)

4.2.1.1.1. 预测编码 (Predictive Coding)

4.2.1.1.2. 对比学习 (Contrastive Learning)

4.2.1.1.3. 其他自监督学习方法

4.2.1.2. 监督预训练 (Supervised Pretraining)

4.2.2. 图像分析方法 (Image Analysis Methods)

4.2.2.1. 图像级 (Image-Level)

4.2.2.2. 区域级 (Region-Level)

4.2.2.3. 像素级 (Pixel-Level)

4.2.3.1. 卷积神经网络 (Convolutional Neural Networks, CNNs)

4.2.3.2. Transformer 和 视觉 Transformer (ViTs)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.2.1. 平均精度均值 (Mean Average Precision, mAP)

5.2.2. F1 分数 (F1 Score)

5.2.3. 平均交并比 (Mean Intersection over Union, mIoU)

5.2.4. 总体准确率 (Overall Accuracy, OA)

5.3. 对比基线

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 图像级任务 (Image-Level Tasks)

6.1.2. 像素级任务 (Pixel-Level Tasks)

6.1.3. 区域级任务 (Region-Level Tasks)

6.1.4. 时空任务 (Spatial-Temporal Tasks)

6.1.5. 预训练方法的影响和模型权衡

6.2. 实际应用的影响

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.2.1. 本综述的局限性

7.2.2. 未来研究方向

7.3. 个人启发与批判

相似论文推荐

3.1.2. 人工智能 (Artificial Intelligence, AI) 与深度学习 (Deep Learning, DL)

3.1.5. Transformer 和视觉 Transformer (Vision Transformers, ViT)

3.1.6. 卷积神经网络 (Convolutional Neural Networks, CNNs) 和残差网络 (Residual Neural Networks, ResNet)

4.2.3.2. Transformer 和视觉 Transformer (ViTs)