Vision Foundation Models in Remote Sensing: A Survey
TL;DR 精炼摘要
本文综述了遥感领域的视觉基础模型,探讨了其架构、预训练数据集和方法论。通过性能比较,强调了基础模型的重大进展和新兴趋势,并讨论了高质量数据、计算资源和模型泛化能力等挑战,发现自监督学习技术显著提升了模型表现与鲁棒性。
摘要
Artificial Intelligence (AI) technologies have profoundly transformed the field of remote sensing, revolutionizing data collection, processing, and analysis. Traditionally reliant on manual interpretation and task-specific models, remote sensing research has been significantly enhanced by the advent of foundation models-large-scale, pre-trained AI models capable of performing a wide array of tasks with unprecedented accuracy and efficiency. This paper provides a comprehensive survey of foundation models in the remote sensing domain. We categorize these models based on their architectures, pre-training datasets, and methodologies. Through detailed performance comparisons, we highlight emerging trends and the significant advancements achieved by those foundation models. Additionally, we discuss technical challenges, practical implications, and future research directions, addressing the need for high-quality data, computational resources, and improved model generalization. Our research also finds that pre-training methods, particularly self-supervised learning techniques like contrastive learning and masked autoencoders, remarkably enhance the performance and robustness of foundation models. This survey aims to serve as a resource for researchers and practitioners by providing a panorama of advances and promising pathways for continued development and application of foundation models in remote sensing.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
遥感领域的视觉基础模型:一项综述 (Vision Foundation Models in Remote Sensing: A Survey)
1.2. 作者
Siqi Lu, Junlin Guo, James R Zimmer-Dauphinee, Jordan M Nieusma, Xiao Wang, Parker VanValkenburgh, Steven A Wernke, Yuankai Huo。 作者隶属于范德堡大学 (Vanderbilt University) 的电气与计算机工程系、人类学系、数据科学研究所,以及橡树岭国家实验室 (Oak Ridge National Laboratory) 和布朗大学 (Brown University) 人类学系。
1.3. 发表期刊/会议
该论文发布在 arXiv 预印本平台,状态为预印本 (preprint),尚未正式发表于特定期刊或会议。
1.4. 发表年份
2024年
1.5. 摘要
人工智能 (AI) 技术深刻地改变了遥感领域,革新了数据收集、处理和分析方式。传统遥感研究依赖手动解释和任务特定模型,而基础模型 (Foundation Models, FMs) 的出现极大地增强了遥感研究——这些大规模、预训练的 AI 模型能够以前所未有的准确性和效率执行广泛的任务。本文对遥感领域的基础模型进行了全面综述。作者根据模型的架构 (architectures)、预训练数据集 (pre-training datasets) 和方法论 (methodologies) 对这些模型进行分类。通过详细的性能比较,作者强调了新兴趋势和基础模型所取得的重大进展。此外,作者还讨论了技术挑战、实际应用和未来研究方向,包括对高质量数据、计算资源和改进模型泛化能力 (model generalization) 的需求。研究还发现,预训练方法,特别是对比学习 (contrastive learning) 和掩码自编码器 (masked autoencoders) 等自监督学习 (self-supervised learning) 技术,显著提高了基础模型的性能和鲁棒性 (robustness)。本综述旨在为研究人员和从业者提供遥感领域基础模型发展全景和有前景的持续发展与应用路径。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2408.03464 PDF 链接: https://arxiv.org/pdf/2408.03464v2.pdf
2. 整体概括
2.1. 研究背景与动机
传统的遥感 (Remote Sensing, RS) 研究严重依赖手动解释和针对特定任务的模型。这些方法通常需要大量的标注数据集 (labeled datasets) 和显著的计算资源。然而,随着人工智能 (AI) 和深度学习 (Deep Learning, DL) 的兴起,一个新的时代已经到来,其中大规模、预训练的 AI 模型,被称为基础模型 (Foundation Models, FMs),能够以空前的准确性和效率执行广泛的任务。这些模型不仅增强了遥感应用的潜力,也为其在各个领域的使用开辟了新途径。
本研究的动机在于,在近年来,大量视觉基础模型 (vision foundation models) 在遥感任务中展现出卓越的性能,能够显著改善场景分类 (scene classification)、语义分割 (semantic segmentation)、目标检测 (object detection) 等多种下游任务的表现。通过利用大量的预训练数据 (pre-training data) 和复杂的架构 (architectures),这些基础模型在遥感领域建立了新的基准,使其成为研究人员和工程师不可或缺的工具。
2.2. 核心贡献/主要发现
本文作为一篇全面的综述论文,其核心贡献和主要发现包括:
-
全面回顾 (Exhaustive Review): 对遥感领域中当前最新的视觉基础模型进行了详尽的综述,涵盖了这些模型的背景、方法论以及在不同领域和任务中的具体应用,以分层和结构化的方式呈现。
-
分类与分析 (Categorization and Analysis): 根据模型在图像分析(如图像级、像素级、区域级)和实际应用(如环境监测、农业、考古学、城市规划和灾害管理)中的表现对模型进行了分类和分析。详细讨论了每个模型的架构、预训练数据集、预训练方法和性能。
-
挑战与未来方向 (Challenges and Future Directions): 探讨了遥感领域基础模型面临的挑战和未解决的问题,指出了新的趋势,提出了重要问题,并为未来的探索提出了研究方向。
-
预训练方法的关键作用 (Crucial Role of Pre-training Methods): 发现预训练方法,特别是对比学习和掩码自编码器等自监督学习 (Self-Supervised Learning, SSL) 技术,显著增强了基础模型的性能和鲁棒性。
-
时间范围限定 (Timeframe Limitation): 本综述限定在2021年6月至2024年6月之间发布的基础模型,以突出近年来涌现的独特贡献和创新。
总体而言,本研究旨在通过提供遥感领域基础模型的进展全景和有前景的持续发展与应用路径,为研究人员和从业者提供宝贵资源。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 遥感 (Remote Sensing, RS)
概念定义: 遥感是指在不与目标物体或区域进行物理接触的情况下,通过使用卫星或机载传感器从远处获取其信息的过程。这些技术在地球观测、数字考古学、城市规划与发展、灾害管理等多个领域发挥着至关重要的作用。 传感器类型:
- 光学传感器 (Optical Sensors): 捕获可见光和近红外光等多种光谱波段,用于土地覆盖和植被健康的详细成像。
- 热红外传感器 (Thermal Sensors): 检测地球表面发射或反射的热量,适用于监测火山活动、森林火灾和气候变化。
- 雷达传感器 (Radar Sensors): 能够穿透云层和植被,在全天候条件下提供关键信息,例如土壤湿度估算和城市基础设施测绘。 应用: 环境监测、农业、城市规划、灾害管理等。
3.1.2. 人工智能 (Artificial Intelligence, AI) 与 深度学习 (Deep Learning, DL)
概念定义: 人工智能是计算机科学的一个分支,旨在创建能够执行通常需要人类智能的任务的机器。深度学习是 AI 的一个子领域,它使用具有多层结构的神经网络(称为深度神经网络)从大量数据中学习复杂的模式和表示。 在遥感中的应用: AI 和 DL 的出现使得传统遥感中依赖手动解释和任务特定模型的局面得以改变,能够处理大规模数据并学习复杂特征。
3.1.3. 基础模型 (Foundation Models, FMs)
概念定义: 基础模型是经过大规模预训练 (pre-trained) 的大型模型,能够为不同领域中的各种下游任务提供一个强大的起点。这些模型利用庞大的数据集和先进的架构,使其能够捕捉复杂的模式和特征,然后可以通过少量额外的训练进行微调 (fine-tuning) 以适应特定应用。 在遥感中的价值: 由于遥感数据(包括多光谱和多时相图像)的多样性和复杂性,基础模型在遥感中尤其有价值。它们可以通过自监督学习 (SSL) 从大量未标注数据中学习有效表示,并利用 Transformer 等先进架构处理地理空间数据的独特特征。
3.1.4. 自监督学习 (Self-Supervised Learning, SSL)
概念定义: 自监督学习是一种机器学习范式,其中模型通过预测输入数据的一部分来学习表示,而不需要人工标注。它通过设计“代理任务 (pretext tasks)”从数据本身生成监督信号。 在遥感中的优势: 遥感场景中未标注数据通常很丰富,而标注数据稀缺且昂贵,因此 SSL 对于学习可泛化的表示 (generalizable representations) 具有显著优势,能有效解决遥感数据标注的难题。
3.1.5. Transformer 和 视觉 Transformer (Vision Transformers, ViT)
概念定义: Transformer 是一种基于自注意力机制 (self-attention mechanism) 的深度学习架构,最初在自然语言处理 (Natural Language Processing, NLP) 领域取得巨大成功,因其能够有效建模长距离依赖关系。视觉 Transformer (ViT) 是将 Transformer 架构应用于计算机视觉 (Computer Vision, CV) 任务的模型。 ViT 图像处理方式: ViT 将图像分割成一系列图像块 (image patches),并将这些图像块视为序列中的“词元 (tokens)”,然后送入 Transformer 编码器进行处理,从而学习图像的全局和局部关系。 在遥感中的应用: 这种能力使得 Transformer 在语义分割和变化检测等任务中特别有效,尤其是在高分辨率卫星图像中捕捉长距离依赖关系至关重要。
3.1.6. 卷积神经网络 (Convolutional Neural Networks, CNNs) 和 残差网络 (Residual Neural Networks, ResNet)
概念定义: 卷积神经网络是一种基础的深度学习架构,通过使用卷积层从图像中提取层次化的空间特征。每个卷积层应用滤波器来检测不同抽象级别的模式,如边缘、纹理和形状。 ResNet: 残差网络 (ResNet) 是一种特殊的 CNN,通过引入残差连接 (residual connections) 来解决深度神经网络中的退化问题。这些连接允许梯度绕过某些层,从而便于训练非常深的网络。ResNet 的残差块包含跳跃连接 (shortcut connections),跳过一个或多个层。
3.2. 前人工作
本论文在 III. RELATED REVIEW PAPERS 部分总结了遥感领域中几篇有影响力的综述论文,这些工作为理解 AI 在遥感中的发展奠定了基础:
- Zhang et al. (2016) [121]: 《Deep Learning for Remote Sensing Data: A Technical Tutorial on the State of the Art》引入了深度学习技术到遥感领域,重点关注卷积神经网络 (CNNs) 在图像分类和目标检测等任务中的应用。
- Zhu et al. (2017) [129]: 《Deep Learning in Remote Sensing: A Comprehensive Review and List of Resources》深入探讨了包括高光谱分析 (hyperspectral analysis) 和合成孔径雷达 (SAR) 解释在内的各种 AI 应用,提供了广泛的资源列表。
- Wang et al. (2022) [103]: 《Self-Supervised Learning in Remote Sensing》强调了自监督学习 (SSL) 方法利用大量未标注数据的能力,显著减少了对标注数据集的依赖,同时在遥感任务中保持高性能。
- Zhang et al. (2022) [120]: 《Artificial Intelligence for Remote Sensing Data Analysis: A Review of Challenges and Opportunities》全面概述了 AI 算法,强调了可解释性 (explainability)、安全性 (security) 以及 AI 与其他计算技术的集成等挑战。
- Aleissaee et al. (2023) [3]: 《Transformers in Remote Sensing》探讨了基于 Transformer 的模型在各种遥感任务中的影响,并将其与 CNNs 进行了比较,指出了它们的优势和局限性。
- Li et al. (2024) [60]: 《Vision-Language Models in Remote Sensing》考察了视觉-语言模型 (Vision-Language Models, VLMs) 在遥感中日益增长的重要性,突出了 VLMs 在图像字幕 (image captioning) 和视觉问答 (visual question answering) 等应用中的潜力。
- Zhu et al. (2024) [130]: 《On the Foundations of Earth and Climate Foundation Models》全面回顾了现有的基础模型,提出了地理定位嵌入 (geolocation embedding) 和多传感器能力 (multisensory capability) 等特征,并概述了未来地球和气候模型的关键特性。
3.3. 技术演进
遥感领域的人工智能技术演进大致可以分为以下几个阶段:
- 早期统计方法与机器学习: 在深度学习兴起之前,遥感数据分析主要依赖于传统的统计学方法和浅层机器学习算法(如支持向量机、随机森林等),这些方法通常需要手工设计特征。
- 卷积神经网络 (CNNs) 时代: 随着深度学习的发展,CNNs 因其强大的特征提取能力被引入遥感领域。从 AlexNet 到 VGGNet,再到 ResNet 等,CNNs 逐渐成为图像分类、目标检测和语义分割等任务的主流方法,显著提高了性能。
- 自监督学习 (SSL) 的崛起: 面对遥感数据标注成本高昂的问题,自监督学习逐渐成为研究热点。通过代理任务,模型能够从大量未标注数据中学习到有用的表示,从而减少对标注数据的依赖,提高了模型在数据稀缺场景下的泛化能力。
- Transformer 架构的引入: Transformer 架构在 NLP 领域取得巨大成功后,被引入计算机视觉,诞生了视觉 Transformer (ViT)。ViT 能够有效捕捉图像中的长距离依赖,这对于遥感中大尺度、复杂场景的分析非常有利。
- 多模态与基础模型 (FMs) 时代: 结合了 SSL 和 Transformer 架构的大规模预训练模型(即基础模型)成为当前的前沿。这些模型能够处理多光谱、多时相甚至多模态(如光学与 SAR 结合)数据,旨在提供通用、可泛化的表示,并通过微调适应各种下游任务。视觉-语言模型 (VLMs) 的兴起也代表了遥感领域向更丰富语义理解方向的发展。
3.4. 差异化分析
本研究与上述前人工作的核心区别和创新点在于:
-
时间范围聚焦 (Focused Timeframe): 本研究明确将综述范围限定在 2021年6月至2024年6月 间发布的基础模型,这使得它能够更深入地捕捉和分析这一时间段内自监督学习和基于 Transformer 架构的最新进展。而之前的综述往往涵盖了更广的时间范围,或侧重于单一技术(如仅关注 CNNs 或 Transformers)。
-
综合性方法论探索 (Integrated Methodological Exploration): 与以往可能专注于单一技术(如 SSL 或 Transformer)的综述不同,本文深入探讨了这些先进方法在遥感任务(如语义分割、多光谱分析和变化检测)中的结合潜力。例如,它分析了
SatMAE如何有效利用 SSL 预训练 Transformer 来改进多光谱图像分割,以及Scale-MAE如何采用尺度感知掩码自编码器来更好地处理遥感数据中变化的空间分辨率 (spatial resolutions)。 -
强调创新模型 (Highlighting Novel Models): 本文着重介绍了
DINO-MC等新模型,该模型通过集成全局-局部视图对齐 (global-local view alignment) 进行 SSL,使其在识别高分辨率卫星图像变化方面特别有效。 -
解决持久挑战 (Addressing Persistent Challenges): 通过系统地审查这些创新,本文阐明了最新模型如何解决领域适应 (domain adaptation) 和计算效率 (computational efficiency) 等长期挑战。例如,
Scale-MAE中的高效自注意力机制有助于降低计算成本,而SatMAE等模型中增强的地理定位嵌入 (geolocation embeddings) 提高了地理空间特征提取的性能。 -
理论与实践并重 (Balancing Theory and Practice): 与早期综述可能更偏理论化不同,本研究同时强调了最新模型的理论进展和实际应用。例如,
DINO-MC和ORBIT在环境监测和灾害响应中的实际应用,展示了新型基础模型如何有效解决地理空间分析中的紧迫挑战。通过这些独特的视角,本研究为遥感领域基础模型的最新发展提供了更深入、更聚焦的洞察。
4. 方法论
本章节将详细拆解遥感领域视觉基础模型所采用的核心方法论,包括预训练方法、图像分析级别以及所使用的主要骨干网络。需要注意的是,本论文是一篇综述,因此“方法论”主要指代被综述的各种基础模型所采用的通用技术范式和分类。
4.1. 方法原理
遥感领域的基础模型 (Foundation Models, FMs) 的核心思想是利用大规模数据集和先进的架构进行预训练 (pre-training),以学习可迁移和泛化的特征表示 (transferable and generalized representations)。这些学到的表示随后可以适应各种下游任务,即使只有少量额外训练。这种方法减少了对昂贵且耗时的标注数据集 (labeled datasets) 的依赖,这在遥感领域尤为有利,因为标注数据通常稀缺或难以获取。
基础模型的通用流程包括两个主要阶段:
-
预训练 (Pre-training): 在大规模、通常是未标注的遥感数据集上,使用自监督学习 (Self-Supervised Learning, SSL) 或监督学习 (Supervised Learning) 方法,训练一个大型模型,使其能够捕捉数据中的复杂模式和特征。这个阶段的目标是学习一个强大的、通用的特征提取器。
-
下游任务微调 (Fine-tuning for Downstream Tasks): 将预训练好的模型作为一个强大的起点,在特定遥感任务(如场景分类、目标检测、语义分割或变化检测)的少量标注数据上进行微调。由于模型已经学习了通用的表示,因此通常只需要少量的任务特定数据就能达到高性能。
下图(原文 Figure 3)形象地展示了自监督学习的通用流程在遥感基础模型训练中的应用,包括多样化的数据集、预训练模型、知识迁移以及下游任务。图中突出显示的预训练任务包括
MAE重建和对比任务,最终目标是实现目标模型的微调以应对物体检测和图像分割等任务。
该图像是示意图,展示了在遥感中基础模型的训练过程,包括多样化的数据集、预训练模型、知识迁移以及下游任务。图中突出显示的预训练任务包括MAE重建和对比任务,最终目标是实现目标模型的微调以应对物体检测和图像分割等任务。
4.2. 核心方法详解
4.2.1. 预训练方法 (Pretraining Methods)
预训练是开发基础模型 (FM) 的关键步骤,使其能够从大规模数据集中学习可迁移和泛化的表示。本节探讨遥感基础模型中常用的关键预训练方法。
4.2.1.1. 自监督学习 (Self-Supervised Learning, SSL)
自监督学习已成为预训练基础模型的基石,它提供了一种范式,使模型通过预测输入数据的一部分来学习表示。这种方法减少了对昂贵且耗时的人工标注数据集的依赖,在遥感等标注数据稀缺或难以获取的领域尤其具有优势。TABLE I 中详细列出了许多模型使用的自监督预训练策略,例如对比学习 (Contrastive Learning) 和预测编码 (Predictive Coding)。
自监督学习允许模型利用大量未标注数据,学习丰富、可泛化的表示,这些表示可以很好地迁移到场景分类、语义分割、目标检测和变化检测等下游任务。通过揭示底层数据结构和模式,SSL 不仅增强了模型的鲁棒性 (robustness),还提高了遥感图像在不同领域和分辨率上的适应性。
两种常用的 SSL 方法是预测编码和对比学习。
4.2.1.1.1. 预测编码 (Predictive Coding)
方法原理: 预测编码利用生成式方法 (generative approach),模型通过预测图像的可见部分来学习预测缺失或被遮挡的部分。这种策略有助于捕捉遥感图像中的空间和上下文关系,因为遥感图像通常包含多样的纹理、复杂的场景和不同的分辨率。
遥感应用: 在遥感中,预测编码可应用于卫星图像的填补缺失 (gap filling) 任务,模型学习推断由传感器限制或云层覆盖等遮挡造成的缺失数据。
实现框架: 预测编码的流行实现框架包括基于自编码器 (autoencoder-based) 的架构、例如 MAE (Masked Autoencoders) [34] 中使用的掩码图像建模 (masked image modeling, MIM) 技术,以及自回归模型 (autoregressive models)。这些方法在学习高分辨率图像和专业任务所需的细粒度细节方面特别有效。
4.2.1.1.2. 对比学习 (Contrastive Learning)
方法原理: 对比学习是另一种强大的 SSL 技术,它侧重于区分数据中相似样本和不相似样本。其核心思想是使相似(正例)样本的表示更接近,同时将不相似(负例)样本的表示推开。这鼓励模型学习判别性 (discriminative) 和不变性 (invariant) 的特征,这对于遥感任务至关重要。
遥感应用: SimCLR [13]、MoCo [35]、DINO [9] 和 BYOL [29] 等对比学习框架在遥感应用中展现出前景。它们使用随机裁剪 (random cropping)、旋转 (rotations) 或光谱波段丢弃 (spectral band dropping) 等数据增强 (augmentations) 来生成正例对,使模型能够学习对这些变换不变的鲁棒表示。例如,在多光谱或高光谱图像中,对比学习可以帮助模型捕捉不同条件下的光谱特征 (spectral signatures),从而提高作物分类或土地覆盖测绘等任务的性能。
对比学习在标注数据集高度不平衡的遥感场景中尤其相关,因为它使模型能够在没有明确标注的情况下从代表性不足的类别或区域中学习。
4.2.1.1.3. 其他自监督学习方法
除了预测编码和对比学习,还有许多其他创新的 SSL 方法可以应用于遥感任务。例如,教师-学生自蒸馏框架 (teacher-student self-distillation frameworks) 也展现出潜力。CMID [70] 通过结合对比学习和掩码图像建模在一个教师-学生自蒸馏框架中,实现了有希望的性能。这种结构使其能够捕捉全局和局部特征,从而有效地处理各种遥感任务。
以下是原文 TABLE I 展示的遥感基础模型预训练方法和图像分析任务评估的总结:
| Year-Month | Architecture | Model Name | Image-Level | Pixel-Level | Region-Level | Spatial-Temporal | Contrastive Learning | Predictive Coding |
| 2021 Jun | ResNet-50 | CMC-RSSR [84] | ✓ | √ | ||||
| 2021 Oct | ResNet-50 | SeCo [66] | ✓ | ✓ | ✓ | |||
| 2021 Oct | ResNet-50 | GeoKR [56] | ✓ | |||||
| 2021 Dec | ResNet-34 | MATTER [2] | ✓ | ✓ | ✓ | √ | ||
| 2022 Mar | ResNet-50 | GASSL [6] | ✓ | √ | ||||
| 2022 May | ViTAEv2-S | RSP [96] | ✓ | ✓ | ✓ | ✓ | ||
| 2022 Jun | ViT-S/8 | DINO-MM [105] | ✓ | √ | ||||
| 2022 Jun | Swin Transformer | Scheibenreif, et al. [79] | ✓ | √ | ||||
| 2022 Jul | ViT/Swin Transformer | RingMo [87] | ✓ | √ | √ | |||
| 2022 Aug | ResNet-50 | GeCO [57] | ✓ | √ | ||||
| 2022 Se | BYOL | RS-BYOL [45] | ✓ | √ | ||||
| 2022 Nov | ViT-B | CSPT [124] | √ | |||||
| 2022 Nov | ViT | RVSA [100] | ✓ | √ | ||||
| 2023 Jan | MAE-based Framework | SatMAE [16] | ✓ | √ | ||||
| 2023 Apr | TOV | TOV [89] | ✓ | √ | ||||
| 2023 Apr | Teacher-student | CMID [70] | ✓ | |||||
| Self-distillation | ✓ | |||||||
| 2023 Jun | CACo | CACo [67] | ✓ | √ | ||||
| 2023 Jun | ResNet-18 | IaI-SimCLR [77] | ✓ | √ | ||||
| 2023 Jun | ResNet | SSL4EO-L [83] | √ | |||||
| 023 Aug | Teacher-Student | GFM [69] | ✓ | ✓ | ✓ | √ | ||
| 2023 Aug | Swim Transformer | SatlasPretrain [7] | ✓ | ✓ | ||||
| 2023 Sep | Multi-Branch | RingMo-Sense [119] | ✓ | √ | ||||
| 203 Sep | ViT | Scale-MAE [78] | √ | |||||
| 2023 Sep | CNN-Transformer | RingMo-lite [109] | √ | √ | ||||
| 2023 Sep | Multimodel SSL | DeCUR [102] | ||||||
| 2023 Oct | MSFE+MMFH | Feng et al. [27] | ||||||
| 2023 Oct | ViT | FG-MAE [108] | ||||||
| 2023 Nov | ViT | Prithvi [46] | ✓ | |||||
| 2023 Nov | Multimodal Encoder | CROMA [28] | √ | |||||
| 2023 Dec | ViT | USat [44] | ✓ | |||||
| 2024 Jan | ViT-B | Cross-Scale MAE [88] | ✓ | √ | ||||
| 2024 Jan | Unet+Transformer | U-BARN [26] | ||||||
| 2024 Jan | Autoregressive Transformer | EarthPT [82] | √ | |||||
| Teacher-Student Network | GeRSP [42] | ✓ | √ | |||||
| 2024 Jan | Dual-Branch | SwiMDiff [91] | √ | |||||
| 2024 Jan 2024 Jan | Generative ConvNet | SMLFR [22] | ✓ | ✓ | ||||
| 2024 Feb | 3D GPT | SpectralGPT [40] | ✓ | ✓ | √ | |||
| 2024 Feb | MAE-based Framework | Presto [92] | ✓ | √ | √ | |||
| 2024 Mar | SatMAE | SatMAE++ [73] | ✓ | |||||
| 2024 Mar | Joint-Embedding | SAR-JEPA [58] | ✓ | √ | ||||
| Predictive Architecture | √ | |||||||
| 2024 Mar | ViT Factorized Multi-Modal | FoMo-Bench [8] | ✓ | ✓ | ✓ | √ | ||
| 2024 Mar | Spatiotemporal Encoder | SkySense [32] UPetu [24] | ✓ | ✓ | ✓ | ✓ | √ | |
| 2024 Mar 2024 Apr | Multi-Modules Swim Transformer |
4.2.1.2. 监督预训练 (Supervised Pretraining)
方法原理: 监督预训练是一种基础的深度学习方法,模型使用标注数据集进行训练,以最小化特定任务的预测误差,例如图像分类。这种方法使模型能够学习输入特征和目标标签之间的直接映射,从而形成详细的、任务特定的表示。
示例: 在 ImageNet [18] 等大规模数据集上训练的 ResNet [36] 和 VGGNet (Visual Geometry Group Network) [81] 等模型,展示了监督预训练如何捕捉鲁棒的特征层级,这些特征可以高度迁移到相关任务,包括语义分割或目标检测。
局限性:
-
依赖大规模标注数据集: 这是主要限制。为遥感任务创建标注数据集(特别是涉及多光谱或高光谱数据时)是资源密集型的,通常需要领域专业知识进行标注。例如,为土地覆盖分类标注像素级数据或在复杂城市环境中勾画对象可能耗时过长。
-
领域特异性: 遥感中的标注数据通常是领域特定的,这限制了在一个数据集上训练的模型对其他应用或区域的泛化能力。
这些挑战突显了解决对标注数据依赖的需求,从而推动了包括自监督预训练方法在内的替代方法的开发。
4.2.2. 图像分析方法 (Image Analysis Methods)
遥感领域的基础模型能够实现三种主要的图像分析级别:图像级 (image-level)、区域级 (region-level) 和像素级 (pixel-level)。这些级别解决不同的空间、上下文和应用特定需求,为广泛的任务提供基础。
4.2.2.1. 图像级 (Image-Level)
目标: 图像级分析侧重于分类任务,将整个图像或大型图像片段分类为预定义的类别,例如城市、森林、水体或农业区域。
应用: 这种方法提供对地理区域的广泛、高层次洞察,在土地利用测绘、土地覆盖分类和资源管理等大规模应用中发挥作用。通过对整个场景进行分类,这种分析级别能够有效监测广阔区域,支持环境管理和政策规划中的决策。
TABLE II 详细列出了哪些模型在图像级任务上进行了评估。
4.2.2.2. 区域级 (Region-Level)
目标: 区域级分析识别和定位图像中的特定对象,例如建筑物、车辆、船只或其他结构。
应用: 与图像级分析提供整体分类不同,区域级任务侧重于目标检测 (object detection),即检测单个实体及其空间位置。这种分析对于城市规划等目标应用至关重要,其中基础设施的检测是必不可少的,以及灾害响应和安全领域,其中识别受损建筑物或脆弱区域可以显著帮助及时干预。
TABLE II 详细列出了哪些模型在区域级任务上进行了评估。
4.2.2.3. 像素级 (Pixel-Level)
目标: 像素级分析提供最细粒度的图像感知形式,为图像中的每个像素分配一个标签。
任务: 这包括语义分割 (semantic segmentation) 等任务,其中每个像素被分类为植被、水体或建筑物等类别;它还包括变化检测 (change detection),识别不同时间捕获的图像之间的时间差异。
应用: 像素级分析对于创建用于精准农业、森林砍伐追踪和灾害管理等应用的高度详细地图不可或缺。分析细粒度细节的能力使得这些关键领域能够进行更准确的评估和可操作的洞察。
TABLE II 详细列出了哪些模型在像素级任务上进行了评估。
以下是原文 TABLE II 展示的遥感基础模型架构、预训练数据集、地理覆盖、图像分析级别、预训练方法和参数数量的总结:
| Model Name | Architecture | Pre-training Dataset | Resolution (m) | Geographic Coverage | Image Analysis Levels | Pretrain methods | # of Params | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| CMC-RSSR [84] | ResNet-50 | NWPU-DOTA [114],BigEarthNet [85], | 0.2 to 60 | Global | Image-level | ContrastiveMultiview Coding | 23M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ImageNet [18] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| SeCo [66] | ResNet-50 | Sentinel-2 Imagery | 10, 20, 60 | 200k LocationsWorldwide | Image-level,Spacial-temporal | CL | 23.5M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| GeoKR [56] | ResNet-50 | Levir-KR [56] | 0.8 to 16 | Global | Image-level, Pixel-level,Region-level | Geographical KnowledgeSupervision | 23.5M/138M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| MATTER [2] | ResNet-34 | Sentinel-2 Imagery | - | Rural and Remote Regionswith Little Changes | Image-level,Pixel-level | SSL | 21.3M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| GASSL [6] | ResNet-50 | fMoW [15], GeoImageNet [18] | - | 7 Continents | Image-level, Pixel-levelRegion-level | CL | 23.5M24.8M/23.5M/29M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| RSP [96] | ViTAEv2-S | MillionAID [63], [64] | 0.5 to 153 | Global | Image-level, Pixel-level,Region-level, Spacial-temporal | Supervised Learning | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| DINO-MM [105] | ViT-S/8 | BigEarthNet-MM [86] | 10 | Global | Image-level | SSL | 22M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Scheibenreif, et al. [79] | Swin Transformer | SEN12MS [80] | 10 | Global | Image-level,Pixel-level | CL | - | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| RingMo [87] | ViT/Swin Transformer | 2 million RS images | 0.3 to 30 | 6 Continents | Image-level, Pixel-level,Region-level, Spacial-temporal | MIM | - | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| GeCO [57] | ResNet-50 | Levir-KR [56] | 0.8 to 16 | Global | Image-level, Pixel-level,Region-level | SSL | 23.5M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| RS-BYOL [45] | BYOL | Sen12MS [80] | 10 to 20 | Global | Image-level,Pixel-level | SSL | 23.5M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| CSPT [124] | ViT-B | ImageNet-1K [18] | - | Global | Image-level,Region-level | SSL | 86M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| RVSA [100] | ViT | MillionAID [63], [64] | 0.5 to 153 | Global | Image-level, Pixel-level,Region-level | MAE | 100M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| SatMAE [16] | MAE-basedFramework | fMoW Sentinel-2 [15] | 10, 20, 60 | Global | Image-level,Pixel-level | MAE | 307M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| TOV [89] | TOV | TOV-NI,TOV-RS | - | Global | Image-level, Pixel-level,Region-level | SSL | - | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| CMID [70] | Teacher-studentSelf-distillation | MillionAID [63], [64] | Varied | Global | Image-level, Pixel-level,Region-level, Spacial-temporal | SSL | 25.6M/87.8M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| CACo [67] | ResNet-18/50 | Sentinel-2 Imagery | 10 | Global | Image-level, Pixel-level,Spacial-temporal | SSL | 11.7M/23.5M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| IaI-SimCLR [77] | ResNet-18 | SEN12MS | - | Global | Image-level | CL | 11.7M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| SSL4EO-L [83] | ResNet/ViT | ImageNet [18],MoCo [35], SimCLR [13] | 30 | Global | Pixel-level | SSL | 11.7M/23.5M/86M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| GFM [69] | Teacher-Student | GeoPile [69] | Global | Image-level, Pixel-level | Continual Pretraining | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| SatlasPretrain [7] | SatlasNet | GeoPile [69] | 1,10 | Global | Image-level, Pixel-level | Multi-task Learning | 88M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| RingMo-Sense [119] | Multi-Branch | RS Spatiotemporal Dataset | - | Global | Pixel-level | SSL | - | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Scale-MAE [78] | ViT-Large | FMoW [15] | - | Global | Image-level, Pixel-level Image-level, | MAE | 322.9M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| RingMo-lite [109] | CNN-Transformer | AID [115] | 0.3 to 30 | Global | Pixel-level, Region-level, Spacial-temporal | FD-MIM | 60% less than RingMo | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| DeCUR [102] | Multimodel SSL | SSL4EO-S12 [107], RGB-DEM/depth | Varied | Global | Image-level, Pixel-level Image-level, | SSL | 23.5M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Feng et al. [27] | MSFE+MMFH | Multi-modal Dataset | Varied | Global | Pixel-level, Region-level, Spacial-temporal | SSL | - | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| FG-MAE [108] | ViT | SSL4EO-S12 [107] | 10 | Global | Image-level, Pixel-level | MAE | - | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Prithvi [46] | ViT | Harmonized Landsat Sentinel 2 | 30 | Contiguous U.S. | Pixel-level | MAE | 100M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| CROMA [28] | Multimodal Encoder | SSL4EO [107] | 10 | Areas Surrounding Human Settlements | Image-level, Pixel-level | CL, MAE | 86M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| USat [44] | ViT | Satlas [7] | Varied | Global | Pixel-level | MAE | - | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Cross-Scale MAE [88] | ViT-B | fMoW [15] | - | Global | Image-level, Pixel-level | MAE | 86M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| U-BARN [26] | Unet+Transformer | Sentinel-2 Imagery | Varied | France | Image-level, Pixel-level | SSL | - | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| EarthPT [82] | Transformer | Sentinel-2 Imagery | 10 | UK | Image-level Image-level, | Autoregressive SSL | 700M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| GeRSP [42] | Teacher-Student Network | ImageNet [18], MillionAID [63], [64] | 0.5 to 153 | Global | Pixel-level, Region-level | SSL, SL | - | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| SwiMDiff [91] | Dual-Branch | Sen12MS [80] | Varied | Global | Image-level, Spacial-temporal | SSL | 11.7M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| SMLFR [22] | Generative ConvNet | GeoSense [23] | 0.05 to 150 | Multiple Continents | Pixel-level, Region-level Image-level, | SSL | 88M/197M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| SpectralGPT [40] | 3D GPT | Sentinel-2 Imagery | Varied | Global | Pixel-level, Spacial-temporal | MAE | 100M/300M/600M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Presto [92] | MAE-based Framework | Presto-21.5M [92] | 10 | Global | Crop Type Segmentation | MAE | 402K | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| SatMAE++ [73] | SatMAE Joint-Embedding | fMoW [15] | Varied | Global | Image-level | Multi-Scale Pre-training | - | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| SAR-JEPA [58] | Predictive Architecture | 100K SAR Images | Varied | Global | Image-level | SSL | - | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| FoMo-Bench [8] | ViT | Multiple | Varied | Global | Image-level, Pixel-level, Region-level Image-level, | MAE | 101M/110M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| SkySense [32] | Factorized Multi-Modal Spatiotemporal Encoder | Multiple | Varied | Global | Pixel-level, Region-level, Spacial-temporal | CL | 2.06B | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| UPetu [24] | Multi-Modules | GeoSense [23] | - | Global | Image-level, Pixel-level, Spacial-temporal | SSL | 0.65M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| msGFM [33] | Swin Transformer | GeoPile-2 [69] | 0.1 to 153 | Global | Image-level, Pixel-level | MIM | 89M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| DINO-MC [11] OFA-Net [[118] | DINO OFA-Net | SeCo-100K [66] | 10 to 60 | Image-level, Spacial-temporal Image-level, Pixel-level | - | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Multi-modal Dataset | Global | MIM Multi-Task | MTP [99] | SAMRS [98] | Global | Pretraining | BFM [11] | MillionAID [63], [64] | Global | MAE | MMEarth [72] | MP-MAE | - | Image-level, Pixel-level | 3.7M to 650M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| CtxMIM [123] | ViT | WorldView-3 Imagery | Asia | MIM | SARATR-X [54] | HiViT Siamese Network | SAR Datasets | 0.1 to 3 | Image-level, Region-level Image-level, | 66M | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| with ResNet and ViT Backbones | - | Pixel-level, Spacial-temporal | 23M, 23M, 86M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Hierarchical ViT | - | Image-level, Pixel-level, Region-level , Spacial-temporal | 8.33M to 52.61M | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 3D Transformer-based MAE | - | Image-level, Spacial-temporal | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| AirCo-MultiTasks [110] | - | Generalized Feature Mapping with Relative Depth Estimation | A2-MAE [122] | STSSD (Spatial-Temporal-Spectral Structured Dataset) | Global | Anchor-aware Masking Strategy and Geographic Encoding Module | HyperSIGMA [95] | HyperGlobal-450K [95] | Global | MAE | DOFA [117] | Multiple | Global | MIM | 4.2.3. 主干网络 (Backbone)
主干网络是深度学习模型的基础,负责从输入数据中提取特征。在遥感基础模型中,主要使用两种类型的主干网络:卷积神经网络 (CNNs) 和 Transformer。 4.2.3.1. 卷积神经网络 (Convolutional Neural Networks, CNNs)架构描述: CNNs [74] 是一种基本的深度学习架构,旨在通过卷积层从图像中提取层次化的空间特征。每个卷积层对输入数据应用滤波器,检测不同抽象级别的模式,如边缘、纹理和形状。这使得 CNNs 非常适合处理遥感中复杂的视觉任务,如图像分类、分割和目标检测。 残差网络 (ResNet): 残差网络 (ResNet) [36] 是一种 CNN 类型,通过引入残差连接 (residual connections) 来解决深层神经网络中的退化问题。残差连接允许梯度绕过某些层,从而有助于训练非常深的网络。这在遥感中特别有益,因为深层模型通常需要捕捉卫星图像中复杂的细节和变化。 残差块公式:
应用: 4.2.3.2. Transformer 和 视觉 Transformer (ViTs)架构描述: Transformer 架构,在计算机视觉 (CV) 中被称为视觉 Transformer (ViT),通过自注意力机制 (self-attention) 建模长距离依赖关系,使其能有效处理复杂的地理空间数据。 下图(原文 Figure 4)展示了视觉 Transformer 架构的结构。上方的 RGB 图像通过分割解码器和 Transformer 编码器进行处理,形成最终的分割结果。该图展示了线性投影的平铺块与分割过程的关系。
自注意力机制公式:
通过结合这些方法论,遥感的基础模型能够利用大量数据,处理复杂结构,并在各种应用中达到最先进的性能。这些方法论使模型能够有效应对遥感领域的独特挑战,如大图像尺寸、多样化的数据源以及环境监测和分析中对高精度的需求。 5. 实验设置本节将概述遥感基础模型中常用的数据集以及用于评估其性能的评估指标。由于本文是一篇综述,实验设置主要指代被综述模型在各种任务中的通用设置和评估方式。 5.1. 数据集数据集在遥感中起着至关重要的作用,为模型的训练和评估提供了基础。高质量的数据集使模型能够学习地球表面的准确表示,从而提高其在各种遥感任务中的性能。下图(原文 Figure 2)展示了用于训练基础模型和其下游任务的一些数据类型示例,包括全色 (Panchromatic)、真实色彩 (True Color)、合成孔径雷达 (SAR)、高光谱 (Hyperspectral) 和多光谱 (Multispectral) 等影像类型,以及下游任务(分割、目标检测、分类和变化检测)。
以下是原文附录
遥感中使用的这些数据集在规模、分辨率和传感器类型上差异显著,提供了丰富的资源来推进遥感研究和应用。它们促进了鲁棒模型 (robust models) 的开发,这些模型能够解决通过遥感技术理解和解释地球表面的各种挑战。 5.2. 评估指标论文在比较各种遥感基础模型的性能时,使用了以下几种标准评估指标: 5.2.1. 平均精度均值 (Mean Average Precision, mAP)概念定义: 平均精度均值 (mAP) 是在目标检测和图像分类任务中广泛使用的一个指标,它衡量模型在所有类别上的平均检测或分类性能。它通过计算每个类别的平均精度 (Average Precision, AP),然后对所有类别的 AP 进行平均,从而综合评估模型在不同召回率 (recall) 下的精度表现。 数学公式: 符号解释:
5.2.2. F1 分数 (F1 Score)概念定义: F1 分数是分类任务中衡量模型性能的另一个重要指标,它结合了精度 (Precision) 和召回率 (Recall)。它是精度和召回率的调和平均值 (harmonic mean),旨在平衡假阳性 (False Positives, FP) 和假阴性 (False Negatives, FN) 的影响,尤其适用于类别不平衡 (class imbalance) 的数据集。 数学公式: 其中, 符号解释:
5.2.3. 平均交并比 (Mean Intersection over Union, mIoU)概念定义: 平均交并比 (mIoU) 是语义分割 (semantic segmentation) 任务中常用的评估指标,它衡量预测分割区域与真实标注区域的重叠程度。它通过计算每个类别的交并比 (Intersection over Union, IoU),然后对所有类别的 IoU 进行平均。 数学公式: 其中, 符号解释:
5.2.4. 总体准确率 (Overall Accuracy, OA)概念定义: 总体准确率 (OA) 是分类任务中最直观的评估指标之一,它衡量模型在所有类别上正确分类的样本(或像素)总数占总样本(或像素)数的比例。 数学公式: 符号解释:
5.3. 对比基线本综述通过比较遥感领域中各种已发布的基础模型来评估其性能,这些模型本身就充当了彼此的基线。例如,在图像级任务中, 6. 实验结果与分析本节将深入分析遥感领域中视觉基础模型在不同任务上的实验结果,并根据原文提供的数据表格进行详细呈现。分析将侧重于模型的性能、预训练方法的影响以及不同模型之间的权衡。 6.1. 核心结果分析6.1.1. 图像级任务 (Image-Level Tasks)在 以下是原文
分析:
6.1.2. 像素级任务 (Pixel-Level Tasks)在 以下是原文
分析:
6.1.3. 区域级任务 (Region-Level Tasks)在 以下是原文
分析:
6.1.4. 时空任务 (Spatial-Temporal Tasks)在 以下是原文
分析:
6.1.5. 预训练方法的影响和模型权衡
6.2. 实际应用的影响这些模型在准确性方面的改进对实际遥感应用产生了深远影响:
7. 总结与思考7.1. 结论总结本综述全面回顾了遥感领域视觉基础模型 (Vision Foundation Models, VFMs) 的最新进展,涵盖了从2021年6月到2024年6月间发布的重要模型。文章根据这些模型的预训练方法、图像分析技术和在不同应用领域(如环境监测、数字考古学、农业、城市规划和灾害管理)中的实际应用进行了分类和分析。 核心发现包括:
7.2. 局限性与未来工作7.2.1. 本综述的局限性
7.2.2. 未来研究方向
7.3. 个人启发与批判这篇综述为遥感领域的视觉基础模型提供了一个全面且及时的概览,对我理解该领域的最新进展和未来方向有很大的启发。 个人启发:
潜在问题、未经验证的假设或可以改进的地方:
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
相似论文推荐
基于向量语义检索推荐的相关论文。
该图像是一个示意图,展示了视觉变换器架构的结构。上方的RGB图像通过分割解码器和变换器编码器进行处理,形成最终的分割结果。该图展示了线性投影的平铺块与分割过程的关系。
该图像是一个示意图,展示了不同类型的遥感数据(如全色影像、真实色彩、合成孔径雷达、超光谱和多光谱)与下游任务(如分割、目标检测、分类和变化检测)之间的关系。图中包含了多种遥感影像类型及其应用领域,主要用于说明基础模型在遥感中的应用。