AiPaper
论文状态:已完成

BioCLIP: A Vision Foundation Model for the Tree of Life

发表:2023/12/01
原文链接PDF 下载
价格:0.10
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

论文提出了BioCLIP,一个针对生命之树的视觉基础模型,利用了最大、最丰富的生物图像数据集TreeOfLife-10M。BioCLIP在细粒度生物分类任务中性能显著优于现有模型,进一步证明了其在多样性和泛化能力上的优势。

摘要

Images of the natural world, collected by a variety of cameras, from drones to individual phones, are increasingly abundant sources of biological information. There is an explosion of computational methods and tools, particularly computer vision, for extracting biologically relevant information from images for science and conservation. Yet most of these are bespoke approaches designed for a specific task and are not easily adaptable or extendable to new questions, contexts, and datasets. A vision model for general organismal biology questions on images is of timely need. To approach this, we curate and release TreeOfLife-10M, the largest and most diverse ML-ready dataset of biology images. We then develop BioCLIP, a foundation model for the tree of life, leveraging the unique properties of biology captured by TreeOfLife-10M, namely the abundance and variety of images of plants, animals, and fungi, together with the availability of rich structured biological knowledge. We rigorously benchmark our approach on diverse fine-grained biology classification tasks and find that BioCLIP consistently and substantially outperforms existing baselines (by 16% to 17% absolute). Intrinsic evaluation reveals that BioCLIP has learned a hierarchical representation conforming to the tree of life, shedding light on its strong generalizability. https://imageomics.github.io/bioclip has models, data and code.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

BioCLIP: A Vision Foundation Model for the Tree of Life (BioCLIP:生命之树的视觉基础模型)

1.2. 作者

Samuel Stevens, Jiaman Wu, Matthew J Thompson, Elizabeth G Campolongo, Chan Hee Song, David Edward Carlyn, Li Dong, Wasila M Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun Chao, 和 Yu Su。

作者所属机构包括俄亥俄州立大学 (The Ohio State University)、微软研究院 (Microsoft Research)、加州大学欧文分校 (University of California, Irvine) 和伦斯勒理工学院 (Rensselaer Polytechnic Institute)。

1.3. 发表期刊/会议

该论文目前作为预印本 (preprint) 发布在 arXiv 上,尚未经过正式同行评审。

1.4. 发表年份

2023年。

1.5. 摘要

自然界图像,通过各种相机(从无人机到个人手机)收集,正日益成为丰富的生物信息来源。计算方法和工具,特别是计算机视觉,在从图像中提取生物学相关信息以用于科学和保护方面正爆炸式增长。然而,大多数这些方法都是针对特定任务定制的,不易适应或扩展到新的问题、背景和数据集。因此,迫切需要一个用于处理图像上通用生物体生物学问题的视觉模型。为了实现这一目标,我们策划并发布了 TreeOfLife-10M,这是迄今为止最大、最多样化的机器学习就绪生物图像数据集。随后,我们开发了 BioCLIP,一个针对生命之树的基础模型 (foundation model),它利用了 TreeOfLife-10M 所捕捉的生物学的独特属性,即植物、动物和真菌图像的丰富性和多样性,以及丰富的结构化生物学知识的可用性。我们严格地在多样化的细粒度生物学分类任务 (fine-grained biology classification tasks) 上对我们的方法进行了基准测试,发现 BioCLIP 持续并显著优于现有基线模型(绝对提高16%至17%)。内在评估显示 BioCLIP 已经学习了符合生命之树层次结构的表示,揭示了其强大的泛化能力 (generalizability)。模型、数据和代码已在 https://imageomics.github.io/bioclip 发布。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2311.18803 PDF 链接: https://arxiv.org/pdf/2311.18803v3.pdf 发布状态: 预印本 (preprint)。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题是什么?

论文试图解决的核心问题是:缺乏一个通用、可泛化的视觉基础模型 (vision foundation model),能够处理从图像中提取生物学信息的广泛任务,并适用于“生命之树”上的各种生物。现有的计算机视觉方法大多是针对特定任务定制的(bespoke approaches),难以适应新的生物学问题、情境和数据集。

为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白(Gap)?

  1. 图像数据爆炸式增长与信息提取瓶颈: 随着无人机、相机陷阱和公民科学平台等技术的发展,自然世界的图像数据量呈爆炸式增长。这些图像蕴含着丰富的生物学信息,对于进化生物学、生态学和生物多样性保护至关重要。然而,将这些海量图像转化为可操作的生物学信息(例如物种分类、个体识别、性状检测)仍然面临巨大挑战。
  2. 现有方法局限性: 大多数现有的计算机视觉工具虽然在特定任务上表现出色,但它们是“定制的”,需要大量的机器学习专业知识和工作量。生物学家通常需要为感兴趣的特定分类群和任务手动标记足够的数据,并寻找和训练合适的模型。这种模式效率低下,难以扩展。
  3. 缺乏通用基础模型:CLIP (Contrastive Language-Image Pre-training) 和 GPT-3 这样的基础模型 (foundation models) 在通用领域展现了强大的零样本学习 (zero-shot learning)少样本学习 (few-shot learning) 能力,显著降低了应用人工智能的门槛。但在生物学领域,缺乏一个能够覆盖整个生命之树 (tree of life) 的类似视觉基础模型。

现有研究的挑战或空白(Gap):

  • 泛化能力不足: 现有的通用视觉模型 (vision models),即使在数亿张图像上训练,也难以泛化到整个生命之树,特别是对训练数据中未出现的分类群。由于数百万个已知分类群不可能都包含在训练数据中,模型必须具备对未见分类群的泛化能力。
  • 细粒度识别能力欠缺: 生物学任务经常涉及视觉上非常相似的生物,如同一属内的近缘物种,或为适应性优势而模仿其他物种的物种。现有的通用模型通常难以提供满足这种细粒度 (fine-grained) 区分需求的表示。
  • 数据效率低下: 生物学数据收集和标注成本高昂,因此在低数据量 (low-data regime) (即零样本或少样本)情况下表现出色至关重要,而现有方法往往需要大量标注数据。
  • 预训练数据集和策略的不足:
    • 数据集: 现有生物学图像数据集(如 iNat21BIOSCAN-1M)在规模、多样性或细粒度标签方面存在不足,无法支持训练一个覆盖整个生命之树的基础模型。
    • 预训练策略: 现有的主流预训练算法(如 ResNetSwin TransformerCLIP)未能充分利用生物学领域特有的丰富结构,例如生命之树的分类学 (taxonomy) 层次结构。

这篇论文的切入点或创新思路是什么?

论文的创新思路和切入点在于:

  1. 构建大规模、多样化的生物学图像数据集: 克服了现有数据集在规模和多样性上的限制,通过整合现有数据源并新增从生命百科 (EOL) 收集的图像,构建了 TreeOfLife-10M
  2. 将生物分类学结构融入 CLIP 风格的对比学习: 认识到生物分类学标签的丰富层次结构是独特的信号,并提出了一种将整个分类学路径(从界到物种)“扁平化”为单一字符串作为文本输入(即分类学名称)的策略,与图像进行对比学习。
  3. 引入混合文本类型训练: 为了提高模型在推理时的灵活性,允许用户使用不同的文本类型(如学名、俗名),提出了一种在训练过程中混合使用不同文本类型的策略。
  4. 严格评估模型在细粒度、低数据量和未见分类群任务上的性能: 特别是创建了一个新的 RARE SPECIES (稀有物种) 数据集,用于评估模型对未见分类群的泛化能力。

2.2. 核心贡献/主要发现

论文最主要的贡献是什么?

  1. 发布 TreeOfLife-10M 数据集: 策划并发布了目前最大、最多样化的机器学习就绪生物图像数据集。该数据集包含超过1000万张图像,覆盖生命之树中45.4万个独特的分类群,并关联了完整的分类学层次标签。这显著超越了现有数据集在规模和多样性上的限制。
  2. 开发 BioCLIP 视觉基础模型: 提出了一个针对生命之树的视觉基础模型 BioCLIP。该模型通过结合 CLIP 风格的多模态对比学习 (multimodal contrastive learning) 和生物学特有的丰富分类学结构(特别是使用“扁平化”的分类学名称作为文本输入),有效地学习了生物图像的表示。
  3. 引入混合文本类型训练策略: 为了提高模型的灵活性和泛化能力,BioCLIP 在训练中采用了混合不同文本类型(如分类学名称、学名、俗名)的策略,使得模型在推理时能够适应各种标签形式。
  4. 全面的性能评估: 在10个多样化的细粒度生物学分类任务 (fine-grained biology classification tasks)(包括一个新创建的 RARE SPECIES 数据集)上对 BioCLIP 进行了严格的基准测试,并证明其在零样本 (zero-shot)少样本 (few-shot) 设置下,性能始终显著优于现有基线模型(绝对提高16%至17%)。
  5. 揭示模型内在学习机制: 通过内在评估(例如 t-SNE 可视化),发现 BioCLIP 学习到了符合生命之树层次结构的细粒度表示 (fine-grained representations),从而解释了其强大的泛化能力。

论文得出了哪些关键的结论或发现?

  • 数据规模和多样性至关重要: TreeOfLife-10M 的规模和多样性对于训练一个能够在生命之树上广泛泛化的基础模型至关重要。
  • 生物分类学结构是强大的信号: 将生物分类学层次结构(通过“分类学名称”字符串)融入 CLIP 风格的对比学习中,能够显著提升模型学习到的表示质量和泛化能力,特别是对未见分类群。
  • CLIP 目标函数在处理层次结构上表现优异: 相比传统的交叉熵分类损失或多任务分层分类损失,CLIP 的对比学习目标函数在学习符合生物学层次结构的表示方面表现出压倒性的优势。
  • 混合文本类型训练提升了灵活性: 在训练中使用混合文本类型,使得 BioCLIP 在推理时能灵活处理各种标签形式,同时不损失其泛化优势。
  • BioCLIP 具备强大的零样本和少样本学习能力: 模型在低数据量情境下,对动物、植物、真菌等多细胞生物的细粒度分类表现出色,甚至可以扩展到物种之外的任务,如植物病害诊断。
  • 模型学习到符合生物学层次的视觉表示: 可视化结果表明,BioCLIP 的图像嵌入空间自然地形成了与生物分类学层次结构一致的聚类,这为其强大的泛化能力提供了内在解释。

3. 预备知识与相关工作

3.1. 基础概念

1. 视觉基础模型 (Vision Foundation Model)

概念定义: 视觉基础模型是指在大规模数据集上进行预训练的视觉模型 (vision model),它学习到能够用于多种下游任务的通用视觉表示 (visual representations)。这些模型通常具有强大的零样本学习 (zero-shot learning)少样本学习 (few-shot learning) 能力,即在没有见过特定任务的训练数据或只见过少量训练数据的情况下,也能完成任务。其目标是降低人工智能在不同应用领域的使用门槛。

2. 对比语言-图像预训练 (CLIP - Contrastive Language-Image Pre-training)

概念定义: CLIP 是一种由 OpenAI 开发的多模态模型 (multimodal model),通过对比学习 (contrastive learning) 的方式,将图像和文本映射到同一个嵌入空间 (embedding space) 中。它在大规模的图像-文本对数据集上进行训练,学习哪些图像与哪些文本描述是匹配的,哪些是不匹配的。

工作原理: CLIP 包含两个独立的编码器:一个视觉编码器 (vision encoder)(例如 ViT - Vision Transformer)和一个文本编码器 (text encoder)(例如因果自回归转换器 (causal autoregressive transformer))。在训练过程中,对于一个批次 (batch) 中的 NN 对图像-文本数据,CLIP 会计算 N×NN \times N 的相似度矩阵。目标是最大化匹配的图像-文本对(正样本对)之间的相似度,同时最小化不匹配的图像-文本对(负样本对)之间的相似度。通过这种方式,CLIP 学习到一种通用的跨模态表示 (cross-modal representation),使得语义相关的图像和文本在嵌入空间中距离较近。

零样本能力: 训练完成后,CLIP 可以通过文本提示 (text prompts) 进行零样本分类。例如,要对一张图片进行分类,可以为每个可能的类别构造一个文本描述(如“一张猫的照片”、“一张狗的照片”),然后计算图像嵌入与所有类别文本嵌入之间的相似度,选择相似度最高的类别作为预测结果,而无需任何特定类别的训练数据。

3. 分类学 (Taxonomy)

概念定义: 分类学 (Taxonomy) 是生物学的一个分支,负责对生物体进行识别、描述、命名和分类。它将生物体组织成一个分层的结构,称为分类等级 (taxonomic ranks)分类单元 (taxa)

分类等级层次结构: 经典的林奈分类系统通常包括以下主要等级,从最广泛到最具体:

  • 界 (Kingdom): 例如动物界 (Animalia)、植物界 (Plantae)、真菌界 (Fungi)。
  • 门 (Phylum): 例如脊索动物门 (Chordata)。
  • 纲 (Class): 例如鸟纲 (Aves)。
  • 目 (Order): 例如雀形目 (Passeriformes)。
  • 科 (Family): 例如鸦科 (Corvidae)。
  • 属 (Genus): 例如鸦属 (Corvus)。
  • 种 (Species): 例如家鸦 (Corvus splendens)。 每个等级内的生物体都共享更具体的共同特征。这种分层结构是生物学领域的核心组织原则。

4. 细粒度分类 (Fine-grained Classification)

概念定义: 细粒度分类 (Fine-grained Classification) 是指在视觉上相似的子类别之间进行区分的图像分类任务。与一般分类(如“猫”和“狗”)不同,细粒度分类可能需要区分不同品种的猫(如“暹罗猫”和“波斯猫”),或不同种类的鸟(如“麻雀”和“燕雀”)。这类任务通常需要模型捕捉物体之间微小但具有区分性的视觉差异。在生物学中,这意味着区分视觉上高度相似但属于不同物种或亚种的生物体。

5. 零样本学习 (Zero-shot Learning, ZSL) 和 少样本学习 (Few-shot Learning, FSL)

概念定义:

  • 零样本学习 (Zero-shot Learning, ZSL): 指模型能够在训练过程中从未见过的类别上进行分类的能力。模型通过利用类别之间的辅助信息(例如类别描述、属性或词嵌入 (word embeddings))来泛化到新类别。在 CLIP 的语境中,文本描述就是这种辅助信息。
  • 少样本学习 (Few-shot Learning, FSL): 指模型在每个新类别只提供极少量(例如1到5个)标记样本的情况下,快速学习并泛化到这些新类别的能力。它旨在模拟人类快速学习新概念的能力,通常通过元学习 (meta-learning) 或预训练模型结合小样本微调来实现。

3.2. 前人工作

1. 通用视觉模型 (General Vision Models)

  • ResNet (Residual Networks) [33]: 深度残差网络,通过引入残差连接 (residual connections) 解决了深度神经网络的梯度消失 (vanishing gradient)梯度爆炸 (exploding gradient) 问题,使得训练非常深的神经网络成为可能,是计算机视觉领域的一个里程碑。

  • Swin Transformer (Shifted Window Transformer) [48]: 基于 Transformer 架构的视觉模型 (vision model),通过引入分层结构和移位窗口 (shifted window) 机制,使其在各种视觉任务上取得了优异性能,并能够处理不同尺度的视觉信息。

  • DINO (Self-supervised Vision Transformers) [15]: 一种自监督学习 (self-supervised learning) 方法,使用自蒸馏 (self-distillation) 训练视觉转换器 (vision transformers)。它能够在没有标签数据的情况下学习强大的视觉表示,并在下游任务中表现出色。

  • ImageNet [21]: 一个大规模的图像数据集,包含数百万张带标签的图像,涵盖上千个类别。它是推动深度学习在计算机视觉领域发展的重要基石,许多视觉模型的预训练都基于 ImageNet

    局限性: 尽管这些模型在通用图像识别任务中表现出色,但它们通常在细粒度生物学分类 (fine-grained biology classification) 任务上表现不佳。它们主要关注通用对象之间的区别,而非生物学上高度相似的物种之间的微小差异。

2. CLIP 变体与大规模多模态数据集

  • OpenCLIP [42]: OpenAI CLIP 的开源实现,通常在更大的数据集上进行训练,如 LAION-400M [73]。
  • LAION-400M [73]: 一个大规模的公开图像-文本对数据集,包含4亿个过滤后的图像-文本对,用于训练 OpenCLIP 等模型。
  • 数据集质量研究 [24, 26, 57, 93, 94]: 后续研究表明,数据集的多样性 (diversity) 和图像与文本描述之间的语义对齐 (semantic alignment) 比单纯的数据集大小对模型性能更为重要。

3. 生物学专用数据集

  • iNat21 [86]: 最大的机器学习就绪生物图像数据集之一,包含270万张图像和1万个物种。

  • BIOSCAN-1M [28]: 一个包含100万张昆虫实验室图像的数据集,覆盖了494个不同的科。

    局限性: 论文指出 iNat21 的物种多样性(1万种)对于整个生命之树(超过200万已知物种)而言仍然非常有限。这限制了它们训练一个通用生物学基础模型的潜力。

4. 计算机视觉中的层次结构 (Hierarchy in Computer Vision)

  • WordNet [55] 和 ImageNet [70]: ImageNet 的类别结构来源于语义词典 (lexical database) WordNet,本身具有层次性。

  • Bilal et al. [10]: 研究发现 CNNImageNet 上的混淆模式遵循类别层次结构,并通过将层次结构融入 AlexNet 架构,提高了 ImageNet top-1 准确率。

  • Bertinetto et al. [9]: 提出了结合层次结构的目标函数,以减少分类错误的严重性,但代价是降低了 top-1 准确率。

  • Zhang et al. [96]: 提出了一种对比目标函数 (contrastive objective),其中标签之间的层次距离对应于嵌入空间中期望的距离,并在 ImageNetiNat17 [88] 上优于交叉熵。

    差异: 尽管前人工作尝试将层次结构引入模型,但这些方法通常应用于较小的标签空间。BioCLIP 将层次结构应用于45.4万个独特分类群,并创新性地通过重构的 CLIP 目标函数 (repurposed CLIP objective) 来实现。

5. 计算机视觉在生物学中的应用

  • 细粒度分类基准: 鸟类物种分类(如 Birdsnap [8]、Birds 525 [68]、Caltech-UCSD Birds [89])常被用作评估模型细粒度分类 (fine-grained classification) 能力的基准。
  • 对比学习和弱监督学习: 生物学任务也用于对比学习框架 (contrastive learning frameworks) [20, 92]、弱监督目标检测 (weakly supervised object detection) [19] 和半监督学习方法 (semi-supervised learning methods) [34]。

3.3. 技术演进

计算机视觉领域从早期的手工特征(如 SIFTHOG)到深度学习的兴起(AlexNetResNet),再到 Transformer 架构在视觉领域的应用(ViTSwin Transformer),模型学习到的视觉表示能力不断增强。同时,数据集的规模和多样性也从 ImageNet 发展到 LAION-400M 等大规模图像-文本对数据集。

CLIP 的出现是技术演进中的一个重要里程碑,它通过多模态对比学习 (multimodal contrastive learning),让模型能够理解图像和文本之间的语义关联,从而具备了强大的零样本和少样本泛化能力。

在生物学领域,计算机视觉的应用也从早期针对特定物种或任务的定制模型,逐渐转向利用更通用的方法。然而,将通用视觉模型直接应用于生物学,尤其是在细粒度分类 (fine-grained classification) 和对未见分类群 (taxa) 的泛化上,仍然存在挑战。

BioCLIP 正是建立在这一技术演进的基础上,它认识到 CLIP 强大的跨模态学习 (cross-modal learning) 能力,并在此基础上,通过精心构建的生物学特定数据集 (biology-specific dataset) TreeOfLife-10M 和创新的文本编码策略 (text encoding strategy),将生物分类学中特有的层次结构知识融入到 CLIP 的学习过程中,从而实现了对整个生命之树的有效建模,弥补了现有技术在生物学领域泛化能力不足的空白。

3.4. 差异化分析

BioCLIP 的方法与相关工作中的主要方法相比,核心区别和创新点在于:

  1. 利用生物学特有的分类学层次结构:

    • 与通用 CLIP/OpenCLIP 的区别: 通用 CLIP 模型主要依赖于从网络收集的自由形式文本(如图像说明文字 (captions)),这些文本通常不包含显式的生物学分类学层次信息。BioCLIP 则创新性地将从界到种的完整生物学分类路径“扁平化”为一个分类学名称字符串,并以此作为文本输入进行对比学习。这使得模型能够显式地学习和编码这种丰富的层次结构,从而更好地理解生物体之间的关系。
    • 与传统分层分类方法 (如 Zhang et al. [96]) 的区别: 传统分层分类方法通常通过修改损失函数或使用多个分类头来显式地处理层次结构。BioCLIP 则是重构 (repurposing)CLIP对比学习目标函数 (contrastive learning objective)。它不依赖于额外的分类头或复杂的层次损失计算,而是让文本编码器 (text encoder) 在其自回归过程中自然地学习嵌入这种层次关系,并通过对比学习将图像对齐到这个具有层次意义的文本嵌入空间。这种方法在处理45.4万个独特分类群的巨大标签空间时展现出显著优势。
  2. 构建和利用大规模、多样化的生物学特定数据集 TreeOfLife-10M

    • 与通用 CLIP 数据集 (如 LAION-400M) 的区别: 通用 CLIP 数据集虽然规模庞大,但其内容主要来源于网络,可能在生物学图像的覆盖范围和细粒度标签的准确性上存在不足。TreeOfLife-10M 则是专门为生物学领域构建,通过整合 iNat21BIOSCAN-1M 和来自生命百科 (EOL) 的新增图像,实现了前所未有的分类群多样性(45.4万个独特分类群)和图像数量(1000万张),且所有图像都关联了标准化的分类学标签。这种领域特定的数据策展是 BioCLIP 成功的关键。
    • 与现有生物学数据集 (如 iNat21BIOSCAN-1M) 的区别: TreeOfLife-10M 在规模和多样性上均显著超越了这些现有数据集,为训练一个真正的“生命之树”基础模型提供了可能。
  3. 混合文本类型训练策略:

    • 创新点: 引入了混合文本类型训练策略 (mixed text type training strategy),在训练过程中随机从图像所有可用的文本类型(分类学名称、学名、俗名)中采样一个作为配对文本。这使得 BioCLIP 能够同时利用分类学名称提供的泛化优势,又能在推理时灵活适应用户提供的各种文本形式,提高了模型的实用性。
  4. 对未见分类群的泛化能力:

    • 评估方式创新: 通过创建独特的 RARE SPECIES (稀有物种) 数据集(包含 IUCN 红色名录中的未见物种),严格评估了 BioCLIP 对训练数据中未出现分类群的泛化能力,并证明了其在该任务上的卓越表现。

      总而言之,BioCLIP 的核心创新在于如何巧妙地将生物学领域固有的、丰富的层次结构知识,通过精心构建的领域特定大规模数据集和创新的文本输入编码方式,高效地融入到现有强大的 CLIP 多模态对比学习框架中,从而打造了一个在整个生命之树上具有强大泛化能力和细粒度识别能力的视觉基础模型。

4. 方法论

4.1. 方法原理

BioCLIP 的核心思想是利用 CLIP 多模态对比学习 (multimodal contrastive learning) 的强大能力,并将其专门应用于生物学领域特有的层次化分类学 (hierarchical taxonomy) 结构。该方法旨在学习一种通用的视觉表示 (visual representation),能够泛化到整个生命之树,包括在训练中未曾见过的分类群 (taxa),并能进行细粒度分类 (fine-grained classification)

其背后的理论基础或直觉是:

  1. 图像-文本对齐 (Image-Text Alignment):CLIP 这样的模型通过学习将图像和描述其内容的文本映射到共同的嵌入空间 (embedding space),从而能够理解图像的语义。
  2. 分类学作为结构化语义 (Taxonomy as Structured Semantics): 生物分类学提供了一个丰富且结构化的语义信息来源。如果能将这种层次化的生物学知识编码到文本输入中,CLIP文本编码器 (text encoder) 就能学习到这些结构,进而指导视觉编码器 (vision encoder) 学习符合这些结构的图像表示。
  3. 泛化到未见分类群 (Generalization to Unseen Taxa): 一个物种即使在训练数据中未出现,其所属的属、科、目等上级分类群很可能已经出现。通过将完整的分类学路径作为文本输入,模型可以学习到这些上级分类群的表示,从而在推理时,即使面对全新的物种,也能通过其已知的上级分类群信息进行合理的泛化。
  4. 细粒度识别 (Fine-Grained Recognition): 完整的分类学路径包含了从广义到细微的层层信息,这有助于模型学习区分视觉上相似的近缘物种所需的细粒度特征 (fine-grained features)

4.2. 核心方法详解 (逐层深入)

BioCLIP 的方法主要围绕两个核心要素展开:大规模生物图像数据集 TreeOfLife-10M 的构建将生物分类学融入 CLIP 风格的训练策略

4.2.1. TreeOfLife-10M:大规模、多样化的机器学习就绪生物图像数据集

BioCLIP 的成功首先依赖于一个高质量、大规模且多样化的预训练数据集。论文为此策划并发布了 TreeOfLife-10M

  1. 数据集来源与构成:

    • TreeOfLife-10M 整合了多个现有高质量数据集,并补充了新收集的数据:
      • iNat21 [86]: 现有的最大生物图像数据集之一,包含270万张图像和1万个物种。主要来源于公民科学家标注的野外图像,用于细粒度分类 (fine-grained classification)
      • BIOSCAN-1M [28]: 包含110万张昆虫实验室图像,覆盖494个不同的科。它提供了与 iNat21 不同的图像分布(实验室图像而非野外图像),增加了数据集的多样性。
      • EOL (Encyclopedia of Life - 生命百科) (eol.org): 论文从 EOL 项目中下载了660万张图像,并将其与现有数据整合。EOL 提供了大量额外44万个分类群 (taxa) 的图像,极大地扩展了数据集的物种多样性 (species diversity)
    • 规模与多样性: TreeOfLife-10M 最终包含了超过1000万张图像,覆盖了45.4万个独特的分类学名称 (taxonomic names)。这使其成为迄今为止最大、最多样化的机器学习就绪生物图像数据集。
  2. 元数据与聚合:

    • 挑战: 整合不同来源的生物学数据集是一个复杂任务,因为分类学层次结构 (taxonomic hierarchies) 通常存在噪声,且在不同来源之间可能不一致(如同名异物 (homonyms) 问题)。
    • 解决方案: 论文通过统一和回填分类学层次结构 (taxonomic hierarchies) 来解决这些挑战。主要使用了来自 EOL整合分类学信息系统 (ITIS - Integrated Taxonomic Information System) [43]iNaturalist 的数据。
    • 标签处理: 数据集中每张图像都尽可能被标注到最精细的分类级别,并包含上层的分类等级。论文提到,他们实现了84%的图像完全分类学标签,其中10%的数据(主要来自 BIOSCAN-1M)仅标注到科 (family) 级别。
    • 示例: Table 3 展示了分类等级和标签的示例。

4.2.2. BioCLIP 模型:结合 CLIP 与生物分类学

BioCLIP 的训练基于 OpenAICLIP 模型,并对其进行持续预训练 (continual pre-training)

  1. 模型初始化与架构:

    • BioCLIPOpenAI CLIP 的公开检查点 (checkpoint) 进行初始化。
    • 视觉编码器 (Vision Encoder): 采用 ViT-B/16 视觉转换器 (Vision Transformer) [22]
    • 文本编码器 (Text Encoder): 采用一个77词元 (token)因果自回归转换器 (causal autoregressive transformer)
  2. 训练目标:CLIP 风格的多模态对比学习

    • BioCLIP 沿用了 CLIP 的核心对比学习目标函数 (contrastive learning objective)
    • 目标: 训练两个单模态嵌入模型 (embedding models)(视觉编码器和文本编码器),以:
      1. 最大化正样本对 (positive pairs)(匹配的图像-文本对)之间的特征相似度 (feature similarity)
      2. 最小化负样本对 (negative pairs)(批次中所有其他不匹配的图像-文本对)之间的特征相似度。
    • 共享特征空间: 训练结束后,两个编码器将各自模态的实例嵌入到同一个共享特征空间 (feature space) 中。
  3. 文本类型与分类学编码: 这是 BioCLIP 最关键的创新点,它将生物分类学结构融入 CLIP 的文本输入。CLIP 的优点在于其文本编码器 (text encoder) 可以接受自由形式文本 (free-form text)。在生物学中,类别名称有多种格式。

    • 文本类型: 论文考虑了以下几种文本类型:

      • Common (俗名):例如 black-billed magpie (黑嘴喜鹊)。俗名可能存在一物多名或一名多物的情况。
      • Scientific (学名):由属名和种加词组成,例如 Pica hudsonia
      • Taxonomic (分类学名称):将从界 (Kingdom) 到最末端分类等级的所有标签连接成一个字符串。例如:Animalia Chordata Aves Passeriformes Corvidae Pica hudsonia。这种“扁平化”的字符串编码了完整的分类学层次。
      • Scientific + Common (学名 + 俗名):例如 Pica hudsonia with common name black-billed magpie
      • Taxonomic + Common (分类学名称 + 俗名):例如 Animalia Chordata Aves Passeriformes Corvidae Pica hudsonia with common name black-billed magpie
    • 混合文本类型训练策略 (Mixed Text Type Training Strategy): 为了提高推理时的灵活性,BioCLIP 采用了一种混合训练策略。在每个训练步骤中,对于每张输入图像,都会从其所有可用的文本类型中随机采样 (randomly sampled) 一个文本作为配对输入。例如,如果一张图像同时有俗名、学名和分类学名称,训练时会随机选择其中一种来与图像组成正样本对。 直觉: 这种策略旨在保留使用分类学名称带来的泛化优势 (generalization benefits),同时在测试时提供使用其他名称的灵活性。最终的文本输入会按照标准的 CLIP 模板进行格式化,例如 "a photo of [TEXT_TYPE]"

    以下是 Table 3 的内容,展示了训练 BioCLIP 时考虑的文本类型示例:

    Text Type Example
    Common black-billed magpie
    Scientific Pica hudsonia
    Taxonomic Animalia Chordata Aves Passeriformes Corvidae Pica hudsonia
    Scientific + Common Pica hudsonia with common name black-billed magpie
    Taxonomic + Common Animalia Chordata Aves Passeriformes Corvidae Pica hudsonia with common name black-billed magpie

    分层表示学习: 论文认为,这种通过分类学名称输入的方式,使得自回归文本编码器 (autoregressive text encoder) 能够将分类学层次结构 (taxonomic hierarchy) 自然地嵌入到密集标签空间 (dense label space) 中,通过让后续分类等级的表示依赖于更高级别的表示。这有助于模型泛化到未见分类群——即使模型从未见过某个物种,它很可能已经学习了该物种所属的属或科的合理表示。

  4. 与传统层次分类的对比 (CLIP objective vs. Cross-entropy):

    • 传统方法: 传统的分层分类 (hierarchical classification) (如 [9, 11, 96]) 通常采用多任务学习 (multitask learning) 的方式,为每个分类层级设置一个交叉熵损失 (cross-entropy loss)

    • BioCLIP 的选择: 论文明确指出,虽然 TreeOfLife-10M 主要是带有类别标签的数据,但使用 CLIP 的对比学习目标函数来利用标签空间的层次结构是一个非直观但有效的选择。实验结果也证明了 CLIP 目标函数在泛化能力上显著优于传统的交叉熵方法。

      以下是 Listing 1 的 Python 伪代码,展示了传统的分层多任务目标函数 (hierarchical multitask objective) 的计算方式,供读者对比理解 BioCLIP 方法的差异:

    # import torch.nn.functional as F
    
    def forward(vit, heads, images, h_labels):
        # vit: vision transformer.
        # heads: linear layers, one for each taxonomic rank.
        # images: batch of input images
        # h_labels: hierarchical labels; each image has 7 labels (one for each rank)
    
        img_feats = vit(images) # 视觉转换器提取图像特征
        # 为每个分类等级的head计算logits
        h_logits = [head(img_feats) for head in heads]
        # 为每个分类等级计算交叉熵损失
        losses = [F.cross_entropy(logits, label) for logits, labels in zip(h_logits, h_labels)]
        # 将所有等级的损失求和
        return sum(losses)
    
    • vit:视觉转换器,用于从输入图像中提取图像特征 (image features)

    • heads:一个列表,包含针对每个分类等级 (taxonomic rank) (例如界、门、纲等)的独立线性分类头 (linear classification head)

    • images:一个批次的输入图像。

    • h_labels:一个列表,每个元素是对应图像在特定分类等级上的真实标签。每张图像有7个这样的标签(对应7个分类等级)。

    • img_feats:从 vit 提取的图像的密集特征表示 (dense feature representation)

    • h_logits:一个列表,包含每个分类等级分类头输出的逻辑值 (logits)

    • losses:一个列表,包含每个分类等级计算出的交叉熵损失 (cross-entropy loss)F.cross_entropyPyTorch 中计算交叉熵的函数。

    • sum(losses):将所有分类等级的交叉熵损失求和,作为最终的总损失 (total loss)

      这个伪代码展示了,在传统的分层分类 (hierarchical classification) 中,通常需要为每个分类层级设计一个独立的分类器和损失函数。而 BioCLIP 则通过 CLIP 的对比学习目标函数,使得模型在学习图像-文本对齐的同时,隐式地 (implicitly) 学习到这种层次结构,而不需要显式的多任务分类头。

5. 实验设置

5.1. 数据集

1. 训练数据集

  • TREEOFLIFE-10M (生命之树-10M):
    • 描述: 这是论文作者策划并发布的大规模、多样化的机器学习就绪生物图像数据集。
    • 来源: 整合了 iNat21 的训练集、BIOSCAN-1M 的数据,以及从生命百科 (Encyclopedia of Life, EOL) (eol.org) 新收集的图像。
    • 规模: 包含超过1000万张图像,覆盖45.4万个独特的分类学名称。
    • 特点: 每张图像都标注了其完整的分类学层次 (taxonomic hierarchy)(从界到种),并支持多种文本类型(学名、俗名、分类学名称)。该数据集旨在解决现有生物学数据集在规模、多样性和细粒度标签方面的不足,为训练视觉基础模型 (vision foundation model) 提供基础。

2. 评估数据集

论文在10个不同的细粒度分类任务 (fine-grained classification tasks) 上评估了 BioCLIP 的性能。这些任务涵盖了动物、植物和真菌等四个多细胞王国,并包含多种图像分布(照片、显微图像、手绘图、博物馆标本)。

以下是原文 Table 2 的内容,总结了评估数据集:

Dataset Description Images Classes Labels
Birds 525 Scraped dataset of bird images from web search. [68] 89,885 525 Taxonomic
Plankton Expert-labeled in situ images of plankton [35]. 4,080 102 Mixed
Insects Expert and volunteer-labeled in-the-wild citizen science images of insects [74]. 4,680 117 Scientific
Insects 2 Mixed common and scientific name classification for insect pests [91]. 4,080 102 Mixed
PlantNet Citizen science species-labeled plant images, some drawings [27]. 1,000 25 Scientific
Fungi Expert-labeled images of Danish fungi [66]. 1,000 25 Scientific
PlantVillage Museum-style leaf specimens labeled with common names [25]. 1,520 38 Common
Medicinal Leaf Species classification of leaves from mature, healthy medicinal plants [71]. 1,040 26 Scientific
PlantDoc 17 diseases for 13 plant species [76]. 1,080 27 Common
Rare Species Subset of species in the IUCN Red List categories: Near Threatened through Extinct in the Wild (iucnredlist.org). 12,000 400 Taxonomic
  • RARE SPECIES (稀有物种):
    • 描述: 这是论文作者新策划的一个数据集,用于评估 BioCLIP未见分类群 (unseen taxa)泛化能力 (generalization)。该数据集包含了 IUCN 红色名录中被列为“近危 (Near Threatened)”到“野外灭绝 (Extinct in the Wild)”的物种。
    • 来源:EOL 数据集中选取了约2.5万个 IUCN 红色名录物种中,至少有30张图像的400个物种。这些物种的所有图像都从 TREEOFLIFE-10M 中移除,确保它们在训练时对 BioCLIP 来说是“未见的”。
    • 规模: 包含1.2万张图像,覆盖400个物种,每个物种有30张图像。
    • 特点: 旨在提供一个多样化、公开可用的稀有物种分类数据集 (rare species classification dataset),对于生物多样性保护具有重要意义。

为什么要选择这些数据集进行实验?它们是否能有效地验证方法的性能?

  • 多样性覆盖: 这些数据集涵盖了动物、植物、真菌和原生生物等多种生物类群,以及野外照片、实验室图像、显微镜图像和手绘图等多种图像类型,确保了评估的全面性。

  • 细粒度挑战: 许多数据集(如 Birds 525Insects)本身就是细粒度分类 (fine-grained classification) 的基准,能够有效验证 BioCLIP 在区分视觉相似物种方面的能力。

  • 泛化能力验证: RARE SPECIES 数据集专门用于测试模型对训练中未见分类群的域外泛化能力 (out-of-distribution generalization),这是基础模型 (foundation model) 的一个关键特性。

  • 任务扩展性: PlantVillagePlantDoc 数据集(涉及植物病害诊断)验证了 BioCLIP 不仅限于物种分类,还能应用于更广泛的生物学任务。

  • 标签类型多样性: 数据集包含各种标签类型(分类学名称、学名、俗名、混合),这对于评估 BioCLIP混合文本类型训练策略 (mixed text type training strategy) 的效果至关重要。

    这些数据集的选择能够全面、有效地验证 BioCLIP 在生物学领域作为基础模型的关键性能指标:泛化能力 (generalization)细粒度识别 (fine-grained recognition)低数据量学习 (low-data regime learning)任务通用性 (task generality)

5.2. 评估指标

论文主要使用准确率 (Accuracy) 作为评估指标。

1. 准确率 (Accuracy)

概念定义: 准确率 (Accuracy) 衡量的是模型正确预测的样本数量占总样本数量的比例。它是一个直观且常用的分类任务评估指标,反映了模型整体的分类性能。

数学公式: Accuracy=NcorrectNtotal \text{Accuracy} = \frac{N_{correct}}{N_{total}}

符号解释:

  • NcorrectN_{correct}:模型正确分类的样本数量。
  • NtotalN_{total}:总样本数量。

5.3. 对比基线

论文将 BioCLIP 的性能与以下几种基线模型 (Baselines) 进行了比较:

  1. CLIP (OpenAI's Original CLIP) [69]:

    • 描述: OpenAI 发布的原始 CLIP 模型,作为最直接的对比基线。它在通用图像-文本对上进行训练,并展现出强大的零样本 (zero-shot) 能力。
    • 代表性: 它是多模态对比学习 (multimodal contrastive learning) 领域的开创性工作,是 BioCLIP 架构的起点。
    • 标签使用: 默认使用俗名 (common names) 作为类别标签进行评估,因为其训练数据中此类文本最常见。
  2. OpenCLIP [42] (trained on LAION-400M [73]):

    • 描述: CLIP 的开源实现,通常在更大规模的 LAION-400M 数据集上进行训练。
    • 代表性: 代表了在更大通用数据集上训练的 CLIP 模型的性能上限。
    • 标签使用: 默认使用俗名 (common names) 作为类别标签。
  3. Supervised-IN21K (ImageNet-21K pre-trained model) [78]:

    • 描述: 一个在 ImageNet-21K 数据集上进行监督预训练 (supervised pre-training) 的模型。具体架构未明确说明,但通常是 ViT 等。
    • 代表性: 代表了传统上在大型监督图像数据集上预训练的视觉模型 (vision model) 的性能。它主要用于少样本分类 (few-shot classification) 的对比,因为它不具备零样本能力。
  4. DINO (Self-supervised Vision Transformers) [15]:

    • 描述: 一种自监督学习 (self-supervised learning) 方法,用于训练视觉转换器 (vision transformers)
    • 代表性: 代表了先进的自监督学习在学习通用视觉表示方面的性能。它也主要用于少样本分类 (few-shot classification) 的对比。
  5. iNat21 Only (iNat21-trained CLIP model):

    • 描述: 一个只在 iNat21 数据集上持续预训练的 CLIP 模型。
    • 代表性: 用于评估 TREEOFLIFE-10M 数据集(特别是 EOL 部分)所带来的额外多样性对模型性能的提升。它展示了在现有生物学数据集上训练的 CLIP 的性能。
  6. Random Guessing (随机猜测):

    • 描述: 作为最低性能基线,表示完全随机选择类别的准确率。
    • 代表性: 用于提供一个最低性能参考点,以衡量所有模型是否学到了任何有意义的信息。

评估设置:

  • 零样本学习 (Zero-shot Learning): 遵循 CLIP 的标准程序,即为每个类别构建文本提示,计算图像嵌入与文本嵌入的相似度。
  • 少样本学习 (Few-shot Learning): 遵循 SimpleShot [90] 方法,使用最近质心分类器 (nearest-centroid classifier)。对于 kk 样本学习,每个类别随机采样 kk 个示例,计算其图像嵌入的平均值作为该类别的质心 (centroid)。测试时,将测试图像嵌入与所有质心进行比较,选择最近的类别。所有实验重复5次,报告平均准确率和标准差。

5.4. 训练和评估细节

  1. 训练细节:

    • 初始化: BioCLIPOpenAI CLIPViT-B/16 视觉转换器和77词元 (token) 的因果自回归转换器文本编码器权重进行初始化。

    • 持续预训练:TREEOFLIFE-10M 数据集上进行100个周期 (epochs) 的持续预训练。

    • 学习率调度: 使用余弦学习率调度 (cosine learning rate schedule) [49]

    • 硬件: 在8个 NVIDIA A100-80GB GPU(分布在2个节点上)上训练,全局批次大小 (global batch size) 为32768。

    • 基线模型训练: 针对 iNat21 训练的基线模型和消融实验模型,遵循相同的程序,但使用较小的全局批次大小16384和4个 NVIDIA A100 GPU(分布在1个节点上)。

    • 超参数 (Hyperparameters): 以下是原文 Table D1Table D2 的内容,列出了训练超参数:

      Hyperparameter Value
      Architecture ViT-B/16
      Max learning rate 1 × 10-4
      Warm-up steps 1,000
      Weight Decay 0.2
      Input Res. 224 × 224
      Dataset Text Type Batch Size Epoch
      TreeOfLifE-10M Mixture 32K 100
      iNat21 Only Mixture 16K 65
      TreeOfLife-1M Mixture 16K 86
      Common 16K 87
      Scientific 16K 87
      Taxonomy 16K 87
      Sci+Com 16K 87
  2. 评估细节:

    • 零样本学习: 遵循 CLIP 的标准程序。
    • 少样本学习: 遵循 SimpleShot [90] 方法。对于 kk 样本学习,从每个类别中随机采样 kk 个样本,计算这些样本图像嵌入的平均值作为该类别的质心 (centroid)。数据集中剩余的所有样本用于测试。对每个质心和测试特征向量进行均值减法 (mean subtraction)L2 范数归一化 (normalization) 后,选择与测试向量最近质心 (nearest centroid) 的类别作为预测结果。
    • 重复实验: 每个少样本实验重复5次,报告平均准确率。零样本结果是确定性的,没有变异。
    • 标签格式: BioCLIP 默认使用 taxonomic+commontaxonomic+common 名称(如果可用),否则使用数据集中提供的标签。CLIPOpenCLIP 默认使用俗名 (common names),除非数据集中不可用。

6. 实验结果与分析

6.1. 核心结果分析

1. BioCLIP 对比基线模型的整体性能

以下是原文 Table 4 的内容,展示了 BioCLIP 在零样本和少样本分类任务上的性能对比:

Model Animals Plants & Fungi Rare Species Mean (∆)
Birds 525 Plankton Insects Insects 2 PlantNet Fungi PlantVillage Medicinal Leaf PlantDoc
Random Guessing 0.2 1.2 1.0 1.0 4.0 4.0 2.6 4.0 3.7 0.3 2.2
Zero-Shot Classification
CLIP 49.9 3.2 9.1 9.8 58.5 10.2 5.4 15.9 26.1 31.8 21.9
OpenCLIP 54.7 2.2 6.5 9.6 50.2 5.7 8.0 12.4 25.8 28.4 20.4 -1.5
BIOCLIP 72.1 6.1 34.8 20.4 91.4 40.7 24.4 38.6 20.5 39.4 39.4 +17.5
- iNat21 Only 56.1 2.6 30.7 11.5 88.2 43.0 18.4 25.6 21.3 31.7 33.0 +9.8
One-Shot Classification
CLIP 43.7 25.1 21.6 13.7 42.1 17.2 49.7 70.1 24.8 28.5 33.6
OpenCLIP 53.7 32.3 23.2 14.3 45.1 18.4 53.6 71.2 26.8 29.2 36.7 +3.1
Supervised-IN21K 60.2 22.9 14.7 14.4 46.7 16.9 62.3 58.6 27.7 28.0 35.2 +1.6
DINO 40.5 37.0 23.5 16.4 30.7 20.0 60.0 79.2 23.7 31.0 36.2 +2.6
BIOCLIP 71.8 30.6 57.4 20.4 64.5 40.3 58.8 84.3 30.7 44.9 50.3 +16.7
- iNat21 Only 74.8 29.6 53.9 19.7 67.4 35.5 55.2 75.1 27.8 36.9 47.5 +13.9
Five-Shot Classification
CLIP 73.5 41.2 39.9 24.6 65.2 27.9 71.8 89.7 35.2 46.0 51.5
OpenCLIP 81.9 52.5 42.6 25.0 68.0 30.6 77.8 91.3 42.0 47.4 55.9 +4.4
Supervised-IN21K 83.9 39.2 32.0 25.4 70.9 30.9 82.4 82.3 44.7 47.3 53.9 +2.4
DINO 70.8 56.9 46.3 28.6 50.3 34.1 82.1 94.9 40.3 50.1 55.4 +3.9
BIOCLIP 90.0 49.3 77.8 33.6 85.6 62.3 80.9 95.9 47.5 65.7 68.8 +17.3
- iNat21 Only 90.1 48.2 73.7 32.1 84.7 55.6 77.2 93.5 41.0 55.6 65.1 +13.6

分析:

  • 零样本分类 (Zero-Shot Classification): BioCLIP 在零样本分类任务中表现出显著优势,平均准确率达到39.4%,比最佳基线 CLIP 高出17.5个百分点。尤其是在 Birds 525 (+22.2%)、Insects (+25.7%) 和 Fungi (+30.5%) 等细粒度 (fine-grained) 任务上提升巨大。在 RARE SPECIES (稀有物种) 任务上,BioCLIP 也以39.4%的准确率远超 CLIP 的31.8%,证明了其对未见分类群 (unseen taxa) 的强大泛化能力 (generalization ability)
  • 少样本分类 (Few-Shot Classification) (One-shot & Five-shot): 随着样本数量的增加(从零样本到一样本再到五样本),所有模型的性能都有所提升。BioCLIP 在一样本和五样本设置下依然保持领先,平均准确率分别为50.3%和68.8%,相对于 CLIP 的提升分别为16.7%和17.3%。这表明 BioCLIP 学习到的视觉表示 (visual representations) 具有更高的质量和更强的可迁移性,即使在极少量标注数据的情况下也能快速适应新任务。
  • iNat21 Only 基线: 仅在 iNat21 数据集上训练的 CLIP 模型(iNat21 Only)在许多任务上优于原始 CLIPOpenCLIP,这说明生物学领域数据预训练的重要性。但 BioCLIP 仍然显著优于 iNat21 Only,这证实了 TREEOFLIFE-10M 数据集所提供的额外数据多样性 (data diversity)(尤其是 EOL 数据源)对于提升模型性能至关重要。

2. 文本类型对泛化能力的影响

以下是原文 Table 5 的内容,展示了零样本分类在 RARE SPECIES 任务上,不同训练和测试文本类型组合的准确率:

Dataset Train↓Test→
Com Sci Tax Sci+Com Tax+Com
ToL-1M Com 24.9 9.5 10.8 22.3 21.0
Sci 11.0 22.3 4.5 21.5 8.0
Tax 11.8 10.1 26.6 16.0 24.8
Sci+Com 24.5 12.9 12.6 28.0 24.9
Tax+Com Mixture 20.5 8.0 19.7 24.0 30.4
iNat21-2.7M Mixture 26.1 24.9 26.7 29.5 30.9
ToL-10M Mixture 31.6 30.1 34.1 37.0 38.0

分析:

  • 分类学名称的优势: 当训练时使用Taxonomic (分类学名称) 或 Tax+ComTax+Com (分类学名称+俗名) 文本类型时,尤其是在测试时也使用这些类型时,性能表现最佳。例如,ToL-1M (10% 的 TREEOFLIFE-10M 数据) 在 Tax 训练、Tax+ComTax+Com 测试时,准确率达到30.4%。这有力地证明了将分类学层次结构 (taxonomic hierarchy) 编码到文本输入中的重要性。
  • 混合文本类型训练的灵活性: Tax+Com Mixture (混合文本类型训练) 在所有测试文本类型上都保持了相对较好的性能,显示出其在提供泛化优势 (generalization benefits) 的同时,也保证了推理时的灵活性。如果只用单一文本类型训练,当测试文本类型不同时,性能会大幅下降。
  • 数据规模和多样性再次验证: ToL-1M (10%的 TREEOFLIFE-10M) 的混合训练模型(30.4%)优于在更大规模的 iNat21-2.7M 上训练的混合模型(30.9%),这间接说明了 TREEOFLIFE-10M 所带来的数据多样性 (data diversity) 即使在数据量较少的情况下也比纯粹的数据量更重要。而 ToL-10M 混合训练模型则以38.0%的准确率再次验证了 TREEOFLIFE-10M 完整数据集的强大。

3. CLIP 目标函数的必要性

以下是原文 Table 6 的内容,展示了不同预训练目标函数在一样本和五样本分类任务上的平均准确率:

Objective Mean 1-Shot Mean 5-shot
Cross-entropy 16.5 26.2
Hier. cross-entropy 19.3 30.5
CLIP 44.7 63.8

分析:

  • CLIP 目标函数的压倒性优势: 无论是一样本还是五样本分类,使用 CLIP 目标函数进行预训练的模型(平均准确率分别为44.7%和63.8%)都大幅优于 (massively outperforms) 传统的交叉熵损失 (cross-entropy loss) 模型(16.5%和26.2%)和分层交叉熵损失 (hierarchical cross-entropy loss) 模型(19.3%和30.5%)。
  • 证明 CLIP 目标函数在处理层次结构中的有效性: 尽管 TreeOfLife-10M 是带标签的数据集,使用 CLIP 的对比学习目标函数最初可能看起来非直观。但这个结果强有力地证明了 CLIP 目标函数在学习分层表示 (hierarchical representations) 和提供强大泛化能力 (generalization) 方面的优越性。它能够更好地捕捉和利用生物学分类学中的结构信息。

4. BioCLIP 在物种分类之外的任务能力

  • 植物病害诊断:PlantVillagePlantDoc 数据集上,BioCLIP 在零样本和少样本设置下均优于基线模型。这表明 BioCLIP 学习到的视觉表示 (visual representations) 具有通用性,可以迁移到物种分类 (species classification) 之外的任务,如识别植物病害,而这些任务在训练时并非显式目标。
  • 一样本优于零样本: BioCLIP 的平均一样本准确率比零样本准确率高出9.1%。这表明即使只有一个标记样本,BioCLIP 也能有效地利用其强大的视觉表示进行学习和改进,这与 CLIP 原始论文中发现的有时一、二样本不如零样本的情况不同,进一步验证了 BioCLIP 学习到的生物学特征 (features) 的有用性。

5. BioCLIP 是否学习到了层次结构?

以下是原文 Figure 3 的内容,展示了 t-SNE 可视化的结果,对比了 CLIPBioCLIP 在不同分类学等级上的图像表示:

该图像是一个示意图,展示了生物分类中的不同层级,包括动物门、节肢动物类、昆虫目及其家族和物种。图中的点代表不同的生物类别,颜色区分了不同的类群和属。
该图像是一个示意图,展示了生物分类中的不同层级,包括动物门、节肢动物类、昆虫目及其家族和物种。图中的点代表不同的生物类别,颜色区分了不同的类群和属。 描述: 该图像是一个示意图,展示了生物分类中的不同层级,包括动物门、节肢动物类、昆虫目及其家族和物种。图中的点代表不同的生物类别,颜色区分了不同的类群和属。从左上到右下,层次结构逐渐细化:左上是动物门中的六个最常见门,右上是节肢动物门中的六个最常见纲,左下是昆虫纲中的六个最常见目,右下是鳞翅目中的六个最常见科。

分析:

  • t-SNE 可视化: t-SNE (t-Distributed Stochastic Neighbor Embedding) 是一种降维技术 (dimensionality reduction technique),用于将高维数据映射到二维或三维空间,以便可视化其聚类结构。这里用于可视化 BioCLIPCLIP 学习到的图像嵌入。
  • 层次结构聚类:
    • 在较高的分类等级(例如界和门,图3的左上和右上),CLIPBioCLIP 都能展现出较好的分离度。然而,BioCLIP 的表示在这些高层级已经展现出更精细的内部聚类结构,表明它能更好地组织信息。
    • 在较低的分类等级(例如目和科,图3的左下和右下),BioCLIP 学习到的特征具有明显更好的可分离性 (evidently more separable features),不同的分类群形成了清晰的聚类。
    • 相比之下,CLIP 在较低分类等级上的特征则显得混乱,缺乏清晰的结构。点(代表图像)在空间中混杂在一起,难以区分不同的细粒度类别。
  • 解释泛化能力: 这种符合生命之树层次结构 (tree of life hierarchy)细粒度聚类 (fine-grained clustering) 解释了 BioCLIP 强大的泛化能力 (generalization ability)。模型不仅能区分广义类别,还能在嵌入空间中形成清晰的、有意义的子类别聚类,这使得它能够更好地处理细粒度分类 (fine-grained classification) 任务,并对未见分类群 (unseen taxa) 进行有效推理,因为即使新物种本身未见过,其上级分类群的表示已经得到了很好的学习和组织。

6.2. 示例预测

以下是原文 Figure F1Figure F2 的内容,展示了 BioCLIPCLIP 在零样本预测上的示例,以及 BioCLIP 正确标签而 CLIP 错误标签的示例:

该图像是一个插图,展示了多种生物(鸟类、植物和真菌)的分类和识别结果。每种生物的图像旁边列出了相关的分类信息和相应的置信度值,显示了BioCLIP模型在生物分类任务中的效果。
该图像是一个插图,展示了多种生物(鸟类、植物和真菌)的分类和识别结果。每种生物的图像旁边列出了相关的分类信息和相应的置信度值,显示了BioCLIP模型在生物分类任务中的效果。 描述: 该图像是一个插图,展示了多种生物(鸟类、植物和真菌)的分类和识别结果。每种生物的图像旁边列出了相关的分类信息和相应的置信度值,显示了BioCLIP模型在生物分类任务中的效果。例如,对于鸟类,BioCLIP能够正确识别出其分类学路径(如 Animalia Chordata Aves Passeriformes Corvidae Pica hudsonia),置信度为 91.4%;而CLIP则错误地识别为 A photo of Pica hudsonia,置信度为 63.8%。

该图像是一个包含多组植物和动物的分类示意图,展示了不同植物病害及其对应的分类模型置信度。图中展示了多种植物叶片及其患病情况,配有条形图显示各类病害的识别可能性。该结果支持《BioCLIP: A Vision Foundation Model for the Tree of Life》研究。
该图像是一个包含多组植物和动物的分类示意图,展示了不同植物病害及其对应的分类模型置信度。图中展示了多种植物叶片及其患病情况,配有条形图显示各类病害的识别可能性。该结果支持《BioCLIP: A Vision Foundation Model for the Tree of Life》研究。 描述: 该图像是一个包含多组植物和动物的分类示意图,展示了不同植物病害及其对应的分类模型置信度。图中展示了多种植物叶片及其患病情况,配有条形图显示各类病害的识别可能性。该结果支持《BioCLIP: A Vision Foundation Model for the Tree of Life》研究。

分析: 这些示例图直观地展示了 BioCLIP 的卓越性能:

  • 准确性: BioCLIP 能够正确地识别出图像中的生物体,并给出准确的分类学名称 (taxonomic name),甚至在细粒度 (fine-grained) 级别上(如特定的鸟类物种)。
  • 对比 CLIP 在许多情况下,当 CLIP 给出错误或不够细粒度的预测时,BioCLIP 仍然能够提供正确的分类,这进一步印证了 Table 4 中量化结果的优越性。
  • 任务多样性: 除了物种识别,BioCLIP 还能应用于植物病害诊断等任务(如 PlantVillagePlantDoc 示例),展示了其通用性 (generality)
  • 鲁棒性: 图像涵盖了不同背景、拍摄条件和表现形式(如显微图像、野外照片),说明 BioCLIP 具有较好的鲁棒性 (robustness)

6.3. 泛化零样本学习 (Generalized Zero-Shot Learning, GZSL)

  • GZSL 设置:GZSL (Generalized Zero-Shot Learning) 设置中,模型需要从一个包含已见类别 (seen classes)未见类别 (unseen classes) 的混合标签集中对图像进行分类。这比传统零样本学习更具挑战性。
  • 结果: 论文从 TREEOFLIFE-10M 中挑选了400个已见物种,并结合 RARE SPECIES 任务中的400个未见物种,形成一个包含800个标签的混合集。
    • CLIPTop-1 准确率为23.0%。
    • OpenCLIPTop-1 准确率为18.2%。
    • BioCLIP 在这个具有挑战性的 GZSL 设置中取得了26.0%的 Top-1 准确率。
  • 分析: BioCLIPGZSL 任务中也优于 CLIPOpenCLIP,尽管所有模型在该任务上的绝对准确率都相对较低(这符合 GZSL 的固有挑战性)。这进一步证明了 BioCLIP 学习到的表示 (representations) 更具区分性,能够更好地处理已见 (seen)未见 (unseen) 类别的复杂混合情况。

6.4. 标准差 (Standard Deviations)

以下是原文 Table E3Table E4 的内容,展示了少样本实验五次运行的平均准确率及标准差:

Birds 525 Plankton Insects Insects 2 Rare Species
One-Shot Classification
CLIP 43.7 ± 0.26 25.1 ± 0.71 21.6 ± 1.05 13.7 ± 1.09 28.5 ± 0.65
OpenCLIP 53.7 ± 0.52 32.3 ± 0.63 23.2 ± 1.58 14.3 ± 0.67 29.2 ± 0.64
Supervised-IN21K 60.2 ± 1.02 22.9 ± 0.84 14.7 ± 1.38 14.4 ± 0.90 28.0 ± 0.77
DINO 40.5 ± 0.96 37.0 ± 1.39 23.5 ± 1.49 16.4 ± 0.78 31.0 ± 0.89
BIOCLIP 71.8 ± 0.47 30.6 ± 0.77 57.4 ± 2.4 20.4 ± 1.28 44.9 ± 0.73
- iNat21 Only 74.8 ± 0.89 29.6 ± 0.82 53.9 ± 0.97 19.7 ± 0.80 36.9 ± 1.02
Five-Shot Classification
CLIP 73.5 ± 0.37 41.2 ± 1.01 39.9 ± 0.86 24.6 ± 0.90 46.0 ± 0.33
OpenCLIP 81.9 ± 0.25 52.5 ± 0.83 42.6 ± 0.82 25.0 ± 0.83 47.4 ± 0.34
Supervised-IN21K 83.9 ± 0.15 39.2 ± 1.66 32.0 ± 1.90 25.4 ± 2.13 47.3 ± 0.41
DINO 70.9 ± 0.34 56.9 ± 1.61 46.3 ± 1.37 28.6 ± 1.59 50.1 ± 0.47
BIOCLIP 90.0 ± 0.12 49.3 ± 1.14 77.8 ± 0.81 33.6 ± 0.74 65.7 ± 0.43
- iNat21 Only 90.1 ± 0.08 48.2 ± 1.24 73.7 ± 0.65 32.1 ± 1.97 55.6 ± 0.16
PlantNet Fungi PlantVillage Medicinal Leaf PlantDoc
One-Shot Classification
CLIP 42.1 ± 3.40 17.2 ± 0.78 49.7 ± 2.53 70.1 ± 2.83 24.8 ± 1.61
OpenCLIP 45.1 ± 3.40 18.4 ± 1.26 53.6 ± 0.79 71.2 ± 3.58 26.8 ± 1.45
Supervised-IN21K 46.7 ± 6.30 16.9 ± 2.32 62.3 ± 2.28 58.6 ± 4.45 27.7 ± 2.86
DINO 30.7 ± 3.79 20.0 ± 1.53 60.0 ± 2.15 79.2 ± 2.74 23.7 ± 2.48
BIOCLIP 64.5 ± 2.15 40.3 ± 3.00 58.8 ± 2.83 84.3 ± 1.90 30.7 ± 1.75
- iNat21 Only 67.4 ± 4.54 35.5 ± 2.93 55.2 ± 1.58 75.1 ± 1.16 27.8 ± 1.31
Five-Shot Classification
CLIP 65.2 ± 1.25 27.9 ± 2.54 71.8 ± 1.46 89.7 ± 1.45 35.2 ± 1.59
OpenCLIP 68.0 ± 0.86 30.6 ± 1.26 77.8 ± 1.28 91.3 ± 0.85 42.0 ± 1.32
Supervised-IN21K 70.9 ± 2.45 30.9 ± 2.64 82.4 ± 1.53 82.3 ± 3.81 44.7 ± 2.26
DINO 50.3 ± 3.20 34.1 ± 2.87 82.1 ± 1.31 94.9 ± 1.30 40.3 ± 2.32
BIOCLIP 85.6 ± 1.79 62.3 ± 1.82 80.9 ± 1.04 95.9 ± 1.07 47.5 ± 1.35
- iNat21 Only 84.7 ± 1.24 55.6 ± 2.61 77.2 ± 0.68 93.5 ± 1.13 41.0 ± 1.75

分析:

  • 稳定性: 从这些表格中可以看出,在少样本设置下,各个模型在不同任务上的标准差普遍较小(大多数在 ±3% 以内)。这表明实验结果具有较好的一致性和稳定性,不受随机种子选择的影响。
  • BioCLIP 的优势稳固: 即使考虑到标准差,BioCLIP 的平均性能提升依然显著且具有统计学意义,进一步支持了其优于基线模型的结论。例如,在五样本分类中,BioCLIPBirds 525 上的准确率为 90.0±0.1290.0 \pm 0.12,远高于其他模型。
  • 部分任务波动: 某些任务(如 PlantNetFungi 的一样本分类,以及 Supervised-IN21K 在多个任务上的表现)的标准差相对较大,这可能与数据集规模较小或类别分布不均有关。但总体而言,论文的结论依然稳健。

7. 总结与思考

7.1. 结论总结

这篇论文成功地提出了 BioCLIP,一个开创性的、面向整个生命之树的视觉基础模型 (vision foundation model)。其核心贡献在于:

  1. 大规模数据集 TREEOFLIFE-10M 策划并发布了迄今为止最大、最多样化的机器学习就绪生物图像数据集,包含超过1000万张图像和45.4万个独特的分类群 (taxa),为模型训练提供了坚实基础。
  2. 创新的模型训练策略: BioCLIP 基于 CLIP多模态对比学习 (multimodal contrastive learning) 框架,通过将完整的生物学分类学层次结构 (taxonomic hierarchy) 编码成“分类学名称”字符串作为文本输入,并辅以混合文本类型训练策略 (mixed text type training strategy),使得模型能够有效学习并利用生物领域特有的结构化知识。
  3. 卓越的性能表现: 在10个多样化的细粒度生物学分类任务 (fine-grained biology classification tasks) 上(包括对未见分类群 (unseen taxa)RARE SPECIES 任务),BioCLIP零样本 (zero-shot)少样本 (few-shot) 设置下均持续且显著优于所有现有基线模型,平均绝对准确率提升高达16%至17%。
  4. 学习到层次化表示: 内在评估(通过 t-SNE 可视化)表明,BioCLIP 成功学习到了符合生命之树层次结构的细粒度视觉表示 (fine-grained visual representations),这为其强大的泛化能力 (generalization ability) 提供了坚实的解释。

7.2. 局限性与未来工作

论文作者指出了哪些自身的局限性?

  1. 同名异物 (Hemi-homonyms) 误标签: 尽管在数据整合过程中付出了巨大努力,作者发现大约有0.1-0.2%的数据在较高分类等级(科到界)存在同名异物引起的误标签问题。
  2. 重命名问题: 生物分类学是动态变化的,物种名称经常被重命名,这给数据标注和模型更新带来了挑战。
  3. 以分类为中心: 尽管 BioCLIP 能够高效学习超过45万个分类群的视觉表示 (visual representations),但其本质上是为分类任务而训练的。这意味着它可能在提取更细粒度的性状 (trait-level) 信息或其他非分类任务上存在局限性。

并提出了哪些未来可能的研究方向?

  1. 数据规模扩展: 进一步扩大数据集规模,例如整合 iNaturalist 中超过1亿张研究级图像。
  2. 丰富文本描述: 收集更丰富的物种外观文本描述,使得 BioCLIP 能够提取更细粒度 (fine-grained) 的性状级别表示。这将允许模型回答更复杂的生物学问题,例如识别特定物种的特定身体部位特征或行为。
  3. 解决同名异物和重命名问题: 开发更鲁棒的分类学标签 (taxonomic labeling) 解决方案,以解决同名异物和物种重命名的问题。

7.3. 个人启发与批判

个人启发

  1. 领域特定数据和知识的重要性: 这篇论文强有力地证明了,即使拥有像 CLIP 这样强大的通用基础模型 (foundation model)领域特定的、高质量和结构化的数据(如 TREEOFLIFE-10M)以及领域知识(如生物分类学)仍然是实现突破性性能的关键。仅仅依赖通用数据和方法,可能无法捕捉到专业领域中细粒度 (fine-grained)层次化 (hierarchical) 的复杂性。
  2. 巧妙的“重构”思想:CLIP对比学习目标函数 (contrastive learning objective) 巧妙地“重构”用于编码生物学分类学层次结构 (taxonomic hierarchy),而不是简单地采用传统的分层交叉熵 (hierarchical cross-entropy),是一个非常具有启发性的设计。它展示了现有先进模型在不同领域进行创新性应用的巨大潜力,而无需从头设计复杂的架构。
  3. 面向实际应用: BioCLIP 的强大零样本 (zero-shot)少样本学习 (few-shot learning) 能力,以及对未见分类群 (unseen taxa)泛化能力 (generalization ability),对于生物学研究和保护具有巨大的实际意义。它能显著降低人工智能在生物学领域的应用门槛,加速科学发现和生物多样性监测。
  4. 混合文本类型的实用性: 引入混合文本类型训练策略 (mixed text type training strategy),考虑了实际用户可能使用不同标签形式(学名、俗名、分类学名称)的场景,大大提升了模型的实用性和用户友好性。

潜在的问题、未经验证的假设或可以改进的地方

  1. 分类学路径“扁平化”的局限性: 论文将分类学层次结构 (taxonomic hierarchy) 简单地“扁平化”为字符串。虽然实验证明其有效,但这种方式是否能完全捕捉到复杂的拓扑关系 (topological relationships)进化距离 (evolutionary distances) 仍有讨论空间。例如,两个物种可能在种 (species) 级别上差异很大,但在属 (genus) 级别上却非常接近,这种距离信息在扁平化字符串中可能不如图结构 (graph structures)树结构 (tree structures) 编码得那么显式。未来可以探索将图神经网络或其他专门处理层次结构的方法与 CLIP 结合。

  2. 文本编码器的依赖性: 模型对文本编码器 (text encoder) 学习并内化分类学层次结构的能力有很强的依赖。如果文本编码器未能完全理解这种层次关系,可能会影响模型性能。对文本编码器学习到的内部表示进行更深入的分析,可能会揭示其运作机制和潜在限制。

  3. 数据质量和标注一致性: 尽管 TREEOFLIFE-10M 经过精心策划,但作者也承认存在同名异物 (hemi-homonyms) 误标签等问题。在大规模数据集中确保分类学标签 (taxonomic labels) 的绝对一致性和准确性是一个持续的挑战。未来的工作可以投入更多资源开发更强大的数据清洗 (data cleaning)标签一致性 (label consistency) 验证工具。

  4. 超越分类任务: 论文主要关注分类任务。虽然提及了植物病害识别,但 BioCLIP 作为基础模型,其潜力远不止于此。如何将其迁移到目标检测 (object detection)语义分割 (semantic segmentation)个体识别 (individual identification)性状提取 (trait extraction) 等更复杂的生物学任务,将是重要的研究方向。例如,对于识别物种,可能还需要定位物种在图像中的位置,而不仅仅是分类。

  5. 因果关系和可解释性: 尽管 t-SNE 可视化显示了层次聚类,但这仍然是一种相关性观察。深入理解 BioCLIP 学习到的特征 (learned features) 如何具体反映生物学中的形态学 (morphological)遗传学 (genetic) 特征,以及为何这些特征在细粒度 (fine-grained) 识别中有效,将有助于提升模型可解释性 (interpretability)

    总的来说,BioCLIP 为生物学领域的计算机视觉应用开辟了新路径,其创新方法和强大性能为未来的研究奠定了坚实的基础,但同时也留下了许多值得深入探索的问题和方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。