Deciphering the biosynthetic potential of microbial genomes using a BGC language processing neural network model
TL;DR 精炼摘要
本研究介绍了一种名为BGC-Prophet的变压器基础语言模型,用于预测和分类微生物基因组中的生物合成基因簇(BGC)。该模型通过捕捉基因间的空间依赖关系,显著提升了效率和准确性,分析了85203个基因组和9428个宏基因组,揭示了BGC在不同类群中的分布及其环境影响,为微生物次级代谢物的研究和合成生物学应用提供了新工具。
摘要
Biosynthetic gene clusters (BGCs), key in synthesizing microbial secondary metabolites, are mostly hidden in microbial genomes and metagenomes. To unearth this vast potential, we present BGC-Prophet, a transformer-based language model for BGC prediction and classification. Leveraging the transformer encoder, BGC-Prophet captures location-dependent relationships between genes. As one of the pioneering ultrahigh-throughput tools, BGC-Prophet significantly surpasses existing methods in efficiency and fidelity, enabling comprehensive pan-phylogenetic and whole-metagenome BGC screening. Through the analysis of 85,203 genomes and 9,428 metagenomes, BGC-Prophet has profiled an extensive array of sub-million BGCs. It highlights notable enrichment in phyla like Actinomycetota and the widespread distribution of polyketide, NRP, and RiPP BGCs across diverse lineages. It reveals enrichment patterns of BGCs following important geological events, suggesting environmental influences on BGC evolution. BGC-Prophet’s capabilities in detection of BGCs and evolutionary patterns offer contributions to deeper understanding of microbial secondary metabolites and application in synthetic biology.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
解读微生物基因组生物合成潜力:基于 BGC 语言处理神经网络模型 (Deciphering the biosynthetic potential of microbial genomes using a BGC language processing neural network model)
1.2. 作者
Qilong Lai, Shuai Yao, Yuguo Zha, Haohong Zhang, Haobo Zhang, Ying Ye, Yonghui Zhang, Hong Bai, Kang Ning.
隶属机构:
- 华中科技大学 (Science and Technology, Wuhan 430074, Hubei, China; University of Science and Technology, Wuhan 430030, Hubei, China)
主要联系作者:
- Hong Bai (baihong@hust.edu.cn)
- Kang Ning (ningkang@hust.edu.cn)
共同第一作者:
- Qilong Lai, Shuai Yao, Yuguo Zha 被视为共同第一作者。
1.3. 发表期刊/会议
论文没有明确指出发表在哪个期刊或会议上。根据提供的发布时间 2025-04-10T00:00:00.000Z,这可能是一篇尚未正式发表的预印本(preprint)或计划于未来发布的文章。
1.4. 发表年份
2025年
1.5. 摘要
原文摘要: Biosynthetic gene clusters (BGCs), key in synthesizing microbial secondary metabolites, are mostly hidden in microbial genomes and metagenomes. To unearth this vast potential, we present BGC-Prophet, a transformer-based language model for BGC prediction and classification. Leveraging the transformer encoder, BGC-Prophet captures location-dependent relationships between genes. As one of the pioneering ultrahigh-throughput tools, BGC-Prophet significantly surpasses existing methods in efficiency and fidelity, enabling comprehensive pan-phylogenetic and whole-metagenome BGC screening. Through the analysis of 85,203 genomes and 9,428 metagenomes, BGC-Prophet has profiled an extensive array of sub-million BGCs. It highlights notable enrichment in phyla like Actinomycetota and the widespread distribution of polyketide, NRP, and RiPP BGCs across diverse lineages. It reveals enrichment patterns of BGCs following important geological events, suggesting environmental influences on BGC evolution. BGC-Prophet’s capabilities in detection of BGCs and evolutionary patterns offer contributions to deeper understanding of microbial secondary metabolites and application in synthetic biology.
摘要解读:
这篇论文介绍了一个名为 BGC-Prophet 的新型模型,旨在发现微生物基因组和宏基因组中隐藏的生物合成基因簇 (Biosynthetic Gene Clusters, BGCs)。BGCs 对于合成微生物次级代谢产物至关重要,但大部分尚未被识别。BGC-Prophet 是一个基于 Transformer 编码器的语言模型,它能够捕捉基因之间依赖位置的关系,从而进行 BGC 的预测和分类。
该模型被描述为一种开创性的超高通量 (ultrahigh-throughput, UHT) 工具,在效率和准确性上显著优于现有方法,使其能够进行全面的泛系统发育 (pan-phylogenetic) 和全宏基因组 (whole-metagenome) BGC 筛选。通过对 85,203 个基因组和 9,428 个宏基因组的分析,BGC-Prophet 已经绘制了数十万个 BGC 的广泛图谱。研究发现,放线菌门 (Actinomycetota) 等门类中的 BGC 显著富集,并且聚酮 (polyketide)、非核糖体肽 (nonribosomal peptides, NRP) 和核糖体合成及翻译后修饰肽 (ribosomally synthesized and post-translationally modified peptides, RiPP) 等 BGC 在不同谱系中广泛分布。
此外,该研究还揭示了 BGC 在重要地质事件(如大氧化事件和寒武纪大爆发)后出现的富集模式,这表明环境变化可能对 BGC 的演化产生了影响。BGC-Prophet 在 BGC 检测和演化模式揭示方面的能力,将有助于更深入地理解微生物次级代谢产物,并在合成生物学领域得到应用。
1.6. 原文链接
/files/papers/6912d8143ac94a268629e4a0/paper.pdf
2. 整体概括
2.1. 研究背景与动机
核心问题: 微生物基因组和宏基因组中蕴藏着巨大的生物合成基因簇 (BGCs) 潜力,这些 BGCs 编码着产生具有重要生物活性的次级代谢产物(如抗生素、抗癌药物)的途径。然而,绝大多数 BGCs 仍然隐藏在海量的基因组数据中,未被发现和表征。
问题的重要性:
- 天然产物发现: 微生物次级代谢产物是天然产物的重要来源,具有多样化的化学结构和广泛的治疗应用前景(如抗菌、抗癌)。
- 药物开发: 发现新型 BGCs 是药物发现和合成生物学的重要途径。
现有研究的挑战或空白 (Gap):
- 效率和可扩展性: 传统的基于规则的方法(如
antiSMASH)虽然在检测已知 BGC 类别方面表现良好,但在分析大规模基因组数据时存在可扩展性问题,并且计算成本高昂。 - 新颖性检测: 现有方法(包括规则型和早期机器学习方法)在识别不符合预定义生物合成类别的“新型” BGCs 时能力不足。它们通常对已知类别有效,但难以泛化到未知结构。
- 长程依赖性捕获: 现有深度学习方法(如
DeepBGC使用的 BiLSTM)难以有效捕捉复杂 BGC 中基因之间长距离的、依赖位置的关系,这可能导致信息丢失。 - 特征表示: 一些方法依赖于专家定义的 Pfam 结构域,这种方式计算密集,并且可能丢失基因的全局信息或序列特异性。
本文的切入点或创新思路:
受自然语言处理 (Natural Language Processing, NLP) 领域语言模型的成功启发,本文将 BGC 视为由基因组成的“句子”,并引入了基于 Transformer 架构的语言模型 BGC-Prophet。该模型旨在:
- 通过
ESM嵌入生成序列特异性的基因表示。 - 利用 Transformer 编码器捕捉基因之间复杂的、依赖位置的关系。
- 实现超高通量处理能力,以应对大规模基因组和宏基因组数据。
- 更有效地预测已知 BGCs 并发现潜在的新型 BGCs。
2.2. 核心贡献/主要发现
主要贡献:
- 提出新型模型
BGC-Prophet: 开发了一个基于 Transformer 编码器的语言模型,用于微生物基因组和宏基因组中 BGC 的高效、准确预测和分类。该模型创新性地将基因作为“词元 (token)”,并使用ESM嵌入来表示基因,从而捕捉基因序列的演化和功能属性。 - 超高通量能力:
BGC-Prophet实现了比现有方法(如DeepBGC)快几个数量级的处理速度,成为首批能够进行泛系统发育和全宏基因组 BGC 筛选的超高通量工具之一。 - 大规模 BGC 图谱构建: 利用
BGC-Prophet分析了 85,203 个基因组和 9,428 个宏基因组,构建了包含数十万个 BGC 的综合图谱,极大地扩展了已知的 BGC 资源。 - 揭示 BGC 演化模式: 发现了 BGC 在微生物门类(如放线菌门)中的富集模式,以及聚酮、NRP 和 RiPP 等 BGC 在不同谱系中的广泛分布。更重要的是,揭示了 BGC 丰度和多样性与重要地质事件(大氧化事件、寒武纪大爆发)之间的关联,暗示了环境变化对 BGC 演化的影响。
关键结论或发现:
BGC-Prophet在 BGC 检测和分类任务中表现出高准确性,其性能与DeepBGC相当或更优,尤其在 BGC 产品分类方面表现卓越。- 相较于
antiSMASH等传统工具,BGC-Prophet能够预测出更多此前未注释的 BGCs,表明其发现新型 BGCs 的潜力。 - 微生物基因组中的 BGC 丰度和分布具有物种特异性,如放线菌门 BGCs 数量最多,假单胞菌门 BGCs 基因组覆盖最广。古菌的 BGCs 丰度显著低于细菌。
- 地质事件(如大氧化事件和寒武纪大爆发)后,微生物 BGC 的丰度和多样性显著增加,特别是聚酮和 NRPs,这可能反映了微生物为适应环境变化而演化出新的次级代谢产物。
3. 预备知识与相关工作
3.1. 基础概念
为了更好地理解这篇论文,我们需要了解以下几个核心概念:
3.1.1. 生物合成基因簇 (Biosynthetic Gene Clusters, BGCs)
- 概念定义:
BGCs是一组在基因组空间上相邻、功能相关的基因集合,它们协同作用,编码产生一种或多种特定次级代谢产物的生物合成途径。这些基因包括核心生物合成基因(负责骨架结构的合成)、修饰酶基因(对骨架进行修饰)、以及辅助基因(如转运蛋白、调控因子和宿主抗性基因)。 - 重要性:
BGCs是微生物天然产物(如抗生素、抗肿瘤药物)的“工厂”,这些产物在自然界中发挥着生态功能(如竞争、共生),并在医药、农业等领域具有巨大的应用价值。 - 例子: 论文中提到了非核糖体肽 (NRPs)、聚酮 (polyketides)、核糖体合成及翻译后修饰肽 (RiPPs)、糖类 (saccharides)、萜烯 (terpenes) 和生物碱 (alkaloids) 等常见的 BGC 类别。
3.1.2. 微生物次级代谢产物 (Microbial Secondary Metabolites)
- 概念定义: 次级代谢产物是指生物体(在这里特指微生物)在正常生长和繁殖(初级代谢)之外产生的、并非维持其基本生命活动所必需的有机化合物。它们通常具有特殊的生物活性,如抗菌、抗病毒、抗肿瘤等。
- 重要性: 尽管不是生存必需,但这些化合物对微生物在特定环境中的生存竞争、防御和适应能力至关重要。它们是药物发现的宝库。
3.1.3. 语言模型 (Language Models)
- 概念定义: 在自然语言处理 (NLP) 领域,语言模型是一种统计模型,用于预测给定文本序列中下一个词的概率,或者评估一个给定序列的概率。它通过学习大量文本数据中的模式和结构来理解语言。
- 核心思想: 将离散的符号(如单词、基因)转换为连续的向量表示(嵌入),并通过神经网络捕捉这些符号之间的关系和上下文信息。
3.1.4. Transformer (Transformer) 架构
-
概念定义:
Transformer是一种在 2017 年由 Google 提出的深度学习模型架构,最初用于自然语言处理任务,特别是机器翻译。它完全摒弃了传统的循环神经网络 (RNN) 和卷积神经网络 (CNN) 结构,转而完全依赖于“自注意力 (self-attention)”机制来处理序列数据。 -
核心优势:
- 并行化:
Transformer可以并行处理序列中的所有元素,解决了RNN/LSTM顺序处理的瓶颈,大大提高了训练效率。 - 长程依赖捕获:
自注意力 (self-attention)机制允许模型直接计算序列中任意两个位置之间的依赖关系,有效捕获长距离依赖,解决了RNN/LSTM容易丢失“长记忆”的问题。
- 并行化:
-
Transformer 编码器 (Transformer Encoder):
Transformer通常包含编码器和解码器两部分。编码器用于将输入序列映射到一系列连续的表示,每个表示都包含了该位置的信息以及其与序列中其他所有位置的上下文信息。本文的BGC-Prophet主要使用了Transformer的编码器部分。 -
自注意力机制 (Self-Attention Mechanism):
自注意力是Transformer的核心组成部分。它允许模型在处理序列中的某个元素时,动态地权衡序列中其他所有元素的重要性,从而为该元素生成一个上下文丰富的表示。自注意力计算公式: 符号解释:
- (Query, 查询) 矩阵:由输入序列的每个元素通过线性变换得到,表示当前元素“想要寻找什么”。
- (Key, 键) 矩阵:由输入序列的每个元素通过线性变换得到,表示序列中其他元素“拥有什么信息”。
- (Value, 值) 矩阵:由输入序列的每个元素通过线性变换得到,表示序列中其他元素“实际包含的信息”。
- : 计算查询向量与所有键向量的点积,衡量每个查询与每个键的相似度或相关性。
- : 键向量的维度。 是一个缩放因子,用于防止点积结果过大导致
softmax函数的梯度过小,从而稳定训练。 - : 将相似度分数归一化为注意力权重,这些权重之和为 1,表示每个元素对当前位置的贡献程度。
- : 注意力权重与值矩阵相乘,得到一个加权平均的值向量,作为当前位置的最终输出表示。
3.1.5. 嵌入 (Embeddings)
- 概念定义: 嵌入 (Embeddings) 是一种将离散型变量(如单词、类别、基因)映射到连续向量空间的技术。在嵌入空间中,具有相似语义或功能的离散变量通常会被映射到彼此靠近的向量。
- 作用: 嵌入向量能够捕捉离散符号之间的复杂关系,并作为神经网络的输入。本文使用
ESM模型为基因生成嵌入向量。
3.1.6. 隐马尔可夫模型 (Hidden Markov Models, HMMs) / Pfam
- 概念定义:
隐马尔可夫模型 (HMMs)是一种统计模型,用于描述一个含有隐性未知参数的马尔可夫过程。在生物信息学中,HMMs广泛用于序列建模和模式识别,例如识别蛋白质家族。 - Pfam:
Pfam是一个蛋白质家族数据库,其中包含了大量蛋白质家族的 HMMs。通过将蛋白质序列与Pfam中的HMMs进行比对,可以识别序列中存在的蛋白质结构域 (Pfam domains)。 - 论文中的上下文: 许多现有方法(包括
antiSMASH和DeepBGC)使用Pfam domains作为 BGC 识别的基本单位。然而,Pfam依赖于专家手动定义结构域,并且使用pHMMs(profile-HMMs) 进行比对的计算成本较高。
3.1.7. 长短时记忆网络 (Long Short-Term Memory, LSTM) / 循环神经网络 (Recurrent Neural Network, RNN)
- 概念定义:
RNN是一种专门处理序列数据的神经网络,通过循环连接使其能够保留“记忆”。LSTM是RNN的一种特殊类型,通过引入“门控机制”(输入门、遗忘门、输出门)解决了RNN训练中梯度消失和梯度爆炸的问题,能够更好地捕捉长程依赖。 - 论文中的上下文: 许多早期的深度学习 BGC 预测方法(如
DeepBGC)采用了BiLSTM(双向LSTM)架构。然而,BiLSTM在处理极长序列时仍然可能面临“长记忆”丢失的问题,并且其顺序处理的特性限制了并行计算能力。
3.2. 前人工作
论文回顾了 BGC 识别领域的两类主要方法:
3.2.1. 规则型方法 (Rule-based Methods)
- 代表工具:
antiSMASH[15, 16] 和PRISM[20]。 - 核心思想: 这些方法基于预定义的规则和专家知识,通过比对已知的生物合成基因家族(通常使用
pHMMs)来识别 BGC。它们会查找特定的酶基因、辅助基因和调控元件的组合,并应用启发式规则来划定 BGC 区域。 - 优点: 在检测已知 BGC 类别方面表现成功,例如聚酮、NRP、RiPP、糖类和萜烯等。
- 缺点: 难以识别新型 BGC 类别,因为它们依赖于预设的模式。在处理大规模基因组数据时,可扩展性受限,且
pHMM的计算成本高。
3.2.2. 机器学习与深度学习方法 (Machine Learning and Deep Learning Approaches)
- 早期机器学习:
- 代表工具:
ClusterFinder[23]、NeuRiPP[24]、DeepRiPP[25]。 - 特点: 这些方法开始利用机器学习算法来识别 BGCs,相对于规则型方法在识别新型 BGCs 方面具有一定优势。
- 缺点: 常常在效率和准确性之间进行权衡,可能导致较高的假阳性率 (FPR),并且对已知 BGCs 也可能存在假阴性。
- 代表工具:
- 近期深度学习:
- 代表工具:
DeepBGC[26]、e-DeepBGC[27]、Deep-BGCPred[28]、BiGCARP[29]、GECCO[30]、SanntiS[31]。 - 核心思想: 这些方法将
pHMMs与神经网络模型(如双向长短时记忆网络BiLSTM)结合,用于 BGC 注释。 - 优点: 提高了从细菌基因组中检测 BGCs 的能力,并具有检测新型 BGCs 的巨大潜力。
- 缺点:
- 训练数据量小: 监督式机器学习方法受限于训练数据量(已验证的 BGCs 数量有限)。
- 长记忆丢失:
BiLSTM难以有效捕捉生物合成基因之间长距离的、依赖位置的关系。 - Pfam 依赖:
Pfam结构域的定义依赖专家手动判断,且pHMMs的使用计算成本高昂。
- 代表工具:
3.3. 技术演进
BGC 识别技术的发展路线大致为:
- 规则型匹配 (Rule-based Matching): 以
antiSMASH为代表,基于专家知识库和特征模式匹配。适用于已知 BGC 类型的精确识别。 - 统计学习与早期机器学习 (Statistical and Early Machine Learning):
ClusterFinder等,尝试用统计模型和简单 ML 算法处理更复杂的模式。 - 深度学习与特征工程 (Deep Learning with Feature Engineering): 以
DeepBGC为代表,结合pHMMs提取的特征和BiLSTM等序列模型。提升了识别能力,但仍受限于pHMMs和BiLSTM的固有缺点。 - 语言模型与自注意力机制 (Language Models and Self-Attention): 本文的
BGC-Prophet代表了最新的发展趋势,借鉴Transformer架构和蛋白质语言模型ESM,旨在克服传统方法在效率、长程依赖捕获和新型 BGC 发现方面的局限性。
3.4. 差异化分析
BGC-Prophet 与现有方法的核心区别和创新点体现在以下几个方面:
-
基因表示方式:
- 现有方法 (
DeepBGC等): 通常使用Pfam domains作为基因的特征,这意味着它们依赖于预先定义的蛋白质结构域信息,并通过pHMMs比对来获取。 BGC-Prophet: 直接将基因作为基本“词元 (token)”,并使用进化规模建模 (Evolutionary Scale Modeling, ESM) 预训练的蛋白质语言模型来生成基因的向量表示(嵌入)。这种方式:- 更自然和灵活: 不需要额外的操作来平衡遗传信息损失和计算复杂性。
- 序列特异性:
ESM模型生成的嵌入能够捕捉基因的序列特异性、进化信号和功能属性,避免了Pfam对专家手动定义的依赖以及pHMMs的高计算成本。 - 更强的新型 BGC 预测能力:
ESM直接从个体序列生成向量,打破了训练样本固有的局限性,提高了预测未知 BGCs 的可能性。
- 现有方法 (
-
序列建模架构:
- 现有深度学习方法 (
DeepBGC等): 主要采用BiLSTM等循环神经网络架构。 BGC-Prophet: 采用基于 Transformer 的语言模型,特别是Transformer编码器。- 长程依赖捕获:
Transformer的自注意力 (self-attention)机制能够有效捕捉基因之间长距离的、依赖位置的关系,解决了BiLSTM在处理长序列时可能出现的“长记忆”丢失问题。 - 并行计算:
Transformer架构允许并行处理,显著提高了训练和推理效率。
- 长程依赖捕获:
- 现有深度学习方法 (
-
效率和通量:
- 现有方法:
pHMMs的使用和BiLSTM的顺序处理限制了大规模分析的效率。例如,DeepBGC处理一个基因组可能需要数小时。 BGC-Prophet: 结合了高效的ESM嵌入生成和Transformer的并行处理能力,实现了超高通量 (UHT)。论文中指出BGC-Prophet比DeepBGC快了几个数量级(例如,每基因组仅需 1 分钟,而DeepBGC需要 4 小时),这使其成为首批能够进行泛系统发育和全宏基因组 BGC 筛选的工具。
- 现有方法:
-
新型 BGC 发现潜力:
BGC-Prophet在Aspergillus基因组上的分析显示,它比antiSMASH预测了更多数量的 BGCs,尤其是在某些类别(如萜烯、聚酮),并且展示了对之前未注释 BGCs 的发现能力。
4. 方法论
本研究提出了 BGC-Prophet 模型,一个基于 Transformer 架构的语言处理神经网络,用于识别和分类生物合成基因簇 (BGCs)。其核心思想是将基因序列视为语言中的“句子”,基因作为“词元 (token)”,通过学习基因之间的上下文关系来识别 BGCs。
4.1. 方法原理
BGC-Prophet 的方法原理基于自然语言处理 (NLP) 的类比,将 BGC 视为一个“句子”,其中的基因是“词元”。模型通过预训练的蛋白质语言模型 (ESM-2 8M) 将每个基因转换为高维向量(嵌入),这些嵌入捕捉了基因的序列特异性、进化信号和功能属性。随后,这些基因嵌入被输入到 Transformer 编码器中,Transformer 编码器利用其核心的 自注意力 (self-attention) 机制,学习基因序列中依赖位置的关系,从而理解 BGC 的“语法”和“语义”。
BGC-Prophet 被设计用于完成两个下游任务:
-
BGC 基因位点检测 (BGC gene detection): 判断给定基因序列中的每个基因是否属于 BGC。
-
BGC 产品类别分类 (BGC product classification): 将检测到的 BGCs 分类到预定义的七个类别之一(或多个,因为是多标签问题)。
这种方法旨在克服传统
pHMMs的计算密集性以及BiLSTM在捕获长程依赖方面的局限性,提供一个更高效、更准确且更具泛化能力的 BGC 识别工具。
4.2. 核心方法详解 (逐层深入)
4.2.1. 数据集准备与样本生成
为了训练和评估 BGC-Prophet,研究人员精心策划了多个数据集。
4.2.1.1. 数据集概述
- MIBiG v3.1 (Minimum Information about a BGC): 包含 2502 个经过实验验证的 BGCs,用于构建正样本。
- 6KG (6000 Genomes): 来自 GTDB RS214 数据库的 5886 个系统发育多样化的基因组,用于构建非 BGC 基因库。
- NG (Nine Genomes): 包含 9 个细菌基因组,用于在
ClusterFinder和DeepBGC等现有工作中的性能评估。 - AG (Aspergillus Genomes): 来自 NCBI 基因组数据库的 982 个曲霉属 (Aspergillus) 基因组,用于比较
BGC-Prophet和antiSMASH的性能。 - 85KG (85000 Genomes): GTDB RS214 中 85,203 个可用的物种/基因组,用于大规模 BGC 挖掘。
- MG (Metagenomes): 包含 47 项宏基因组研究的 9428 个宏基因组样本,用于全宏基因组 BGC 筛选。
4.2.1.2. 正负样本生成
- 正样本生成:
- 来源:
MIBiG数据集中的 2502 个 BGCs。 - 处理:对于每个 BGC,采用两侧填充 (two-sided padding) 策略,使用来自非 BGC 基因库的基因进行填充,直到基因序列长度达到 128。这是因为
MIBiG中最长的 BGC 包含 115 个基因,且考虑到基因组中 BGC 之间非 BGC 基因的平均数量。 - 数量:每个
MIBiGBGC 重复生成 5 次,总共产生 12,510 个正样本。
- 来源:
- 负样本生成:
- 挑战:确保负样本在一定程度上与 BGC 中的基因相似,但缺乏 BGC 中固有的语义信息(即基因的顺序)。
- 处理:从非 BGC 基因库中随机选择一个区域,并从该区域中随机选择包含 128 个连续基因的子区域作为一个负样本。
- 数量:总共生成 20,000 个负样本。
4.2.1.3. 样本标签 (Labeling the samples)
- BGC 类别: 根据
MIBiG数据库,BGCs 被分为七个类别:生物碱 (alkaloids)、非核糖体肽 (NRPs)、聚酮 (polyketides)、核糖体合成及翻译后修饰肽 (RiPPs)、糖类 (saccharides)、萜烯 (terpenes) 和其他 (others)。 - 多标签问题: 由于一个 BGC 可能属于多个类别(例如,一个 BGC 既可以是生物碱,也可以是 NRP),因此 BGC 类别预测被视为一个多标签七类别问题。
- 负样本标签: 所有负样本都不属于这七个类别中的任何一个。
4.2.2. BGC-Prophet 模型实现
4.2.2.1. 词元 (Token) 的选择
BGC-Prophet的选择: 采用基因作为最小语义单元(即“词元”),以表示一个 BGC 或非 BGC 序列(“句子”)。- 与现有方法的对比: 传统方法如
ClusterFinder和DeepBGC使用Pfam domains作为词元。然而,Pfam结构域的定义依赖于专家手动判断,并且使用pHMMs进行识别计算成本高昂。选择基因作为词元被认为更自然、更灵活,无需额外操作,并能避免Pfam的局限性。
4.2.2.2. 词向量表示 (Vector Representation of Token)
- 方法: 使用
ESM-2 8M模型 (Evolutionary Scale Modeling, version 2 with 8 million parameters) 来生成基因的向量表示(嵌入)。ESM是一种最先进的通用蛋白质语言模型,可以直接从单个蛋白质序列预测结构、功能和其他属性。 - 具体实现: 对于每个正负样本中的基因,
ESM-2 8M模型会生成一个 320 维的向量表示。每个基因的最终词嵌入是通过取ESM-2 8M模型最后一层输出的均值获得的。 - 优势:
ESM嵌入直接从个体序列生成,捕捉了进化信号和功能属性,使得向量表示更简洁,并打破了训练样本的限制,从而提高了预测未知 BGCs 的可能性。此外,这种方法能有效利用 GPU 加速计算。
4.2.2.3. 模型架构与配置 (Model Architecture and Configuration)
BGC-Prophet 的核心是 Transformer 编码器 [33],它是一个专门用于处理序列数据的神经网络架构。
- 输入维度: 设置为 320,与
ESM-2 8M模型生成的嵌入维度一致。 - 预层归一化 (Pre-layer Normalization): 用于加速模型收敛 [38]。
- 位置编码 (Positional Encoding): 采用经典的正弦-余弦位置编码 (classical sine-cosine position coding)。这种编码方式不需要额外的训练,能够有效地捕捉基因之间的相对位置关系。
- Transformer 编码器配置:
- 层数: 2 层编码器层。
- 自注意力头数 (Attention Heads): 5 个注意力头。
- 丢弃率 (Dropout Rate): 10%。
- 训练配置:
- 优化器 (Optimizer):
AdamW优化器 [41]。 - 学习率 (Learning Rate): 1e-2。
- 批次大小 (Batch Size): 64。
- 早停策略 (Early Stopping): 如果验证集的损失值在连续 20 个 epoch 后没有改善,则停止训练,并选择验证集损失值最低的 epoch 对应的模型作为最终模型。
- 优化器 (Optimizer):
- 实现框架: 使用 PyTorch v2.0.0 实现。
4.2.3. BGC 基因检测与产品分类
BGC-Prophet 针对两个下游任务进行设计:
4.2.3.1. 任务一:BGC 基因位点检测 (BGC gene detection)
- 目标: 给定一个由多个基因组成的序列,预测其中每个基因是否属于 BGC。
- 建模方法: 这个问题可以通过统计建模,使用线性链条件随机场 (linear-chain Conditional Random Field, linear-CRF) [39] 来解决,因为它能够捕捉序列中基因标签之间的相关性。
- 模型结构:
- 在
Transformer编码器输出的隐藏状态向量之后,连接一个全连接层。 - 该全连接层有 128 个时间步 (timesteps),每个时间步的权重共享。
- 隐藏状态向量的维度从 320 逐步降低到 128,再到 32,最后到 1,这个最终的标量表示给定基因属于 BGC 的概率。
- 在
- 激活函数 (Activation Function):
- 每个全连接层使用 高斯误差线性单元 (Gaussian Error Linear Unit, GELU) [40] 作为激活函数。
- 最后一个全连接层之后应用 Sigmoid 激活函数,将输出标量压缩到 0 到 1 之间,表示模型对基因属于 BGC 的置信度。
- 损失函数 (Loss Function): 二元交叉熵 (binary cross entropy)。
- 优化器 (Optimizer):
AdamW优化算法。
4.2.3.2. 任务二:BGC 产品类别分类 (BGC product classification)
- 目标: 预测基因组中给定区域所属的 BGC 类别。
- BGC 类别: 共七个类别(生物碱、NRPs、聚酮、RiPPs、糖类、萜烯、其他)。
- 编码方式: 这些类别使用独热编码 (one-hot encoding) 进行表示。非 BGC 类别用全零向量表示。
- 多标签分类: 由于一个 BGC 可以属于多个类别,因此这是一个多标签七类别问题。
- 模型结构:
- 从
Transformer编码器模型中提取隐藏状态变量序列 ,其中 。 - 计算平均隐藏状态 。
- 掩码 (Masking):
Transformer编码器允许输入键填充掩码 (key padding masks)。本研究使用基因标签作为掩码,以防止非 BGC 基因影响 BGC 的分类。 - 平均隐藏状态通过一个简单的全连接层输出一个 7 维向量。
- 对 7 维向量应用 Sigmoid 函数,输出每个类别的置信度分数。
- 从
4.2.4. 超参数调优与性能评估 (Hyperparameter Tuning and Performance Evaluation)
-
与 BiLSTM 的性能比较:
- 为了评估
Transformer架构的必要性,研究人员将BGC-Prophet的核心Transformer架构替换为单层和双层双向LSTM网络,并在相同数据集和评估指标下进行评估。 - 单层
BiLSTM(1.7M 参数) 在测试集上获得 AUROC 0.88, F1 0.65。 - 双层
BiLSTM(4.2M 参数) 性能更低,AUROC 0.87, F1 0.61。 - 两种
LSTM模型在训练过程中都出现了严重的过拟合(训练/验证集准确率 > 95%)。 - 相比之下,
BGC-Prophet(2.5M 参数) 实现了优越的性能,有效平衡了参数效率和泛化能力,凸显了Transformer架构在捕获序列特异性信息和缓解过拟合方面的优势。
- 为了评估
-
消融研究 (Ablation Study):
- 编码器层数: 超过两层编码器层会导致测试集性能略有下降,表明额外层并未增强序列特异性特征的表示。
- 注意力头数 (Attention Heads): 变化不大,5 个注意力头在计算复杂性和性能之间提供了最佳平衡。
- 嵌入大小 (Embedding Size): 较大的维度可以提高模型表示序列特异性信息的能力,但会增加计算需求。最终选择 320 维的嵌入大小(每个注意力头 64 维),作为准确性和效率之间的最佳权衡。
- 最终模型配置: 两个编码器层、五个注意力头、320 维嵌入。
5. 实验设置
5.1. 数据集
本研究使用了以下数据集进行模型的训练、验证、比较和大规模应用:
-
MIBiG v3.1 (Minimum Information about a BGC):
- 来源: 一个开放的、经过社区标准化的 BGC 数据库。
- 规模与特点: 包含 2502 个经过实验验证的 BGCs 及其分子产物信息。
- 用途: 用于构建
BGC-Prophet的训练集和测试集的正样本。
-
6KG (6000 Genomes):
- 来源: 来自 GTDB RS214 数据库。
- 规模与特点: 包含 5886 个系统发育多样化的物种/基因组,覆盖细菌进化树。
- 用途: 用于构建非 BGC 基因库,以生成负样本。
-
NG (Nine Genomes):
- 来源: 之前
ClusterFinder[23] 和DeepBGC[26] 等研究中使用的 9 个细菌基因组。 - 规模与特点: 共包含 291 个 BGCs,且这些 BGCs 未用于模型训练。
- 用途: 用于验证和比较
BGC-Prophet与其他方法的性能。
- 来源: 之前
-
AG (Aspergillus Genomes):
- 来源: NCBI 基因组数据库中的曲霉属 (Aspergillus) 基因组。
- 规模与特点: 共 982 个曲霉属基因组。
- 用途: 用于比较
BGC-Prophet和antiSMASH在一个具有高生物合成潜力的属中的 BGC 挖掘能力。
-
85KG (85000 Genomes):
- 来源: GTDB RS214 中 85,203 个可用的物种/基因组(一个基因组对应一个物种)。
- 规模与特点: 覆盖了大多数细菌和古菌谱系。
- 用途: 用于使用
BGC-Prophet进行大规模 BGC 挖掘,构建全面的 BGC 图谱。
-
MG (Metagenomes):
- 来源: 47 项宏基因组研究 [36] 的宏基因组数据。
- 规模与特点: 包含 9428 个宏基因组样本,总计 1,792,406,629 条 contigs。筛选后保留了 6,238,438 条核苷酸序列长度大于 20,000 的 contigs。
- 用途: 用于使用
BGC-Prophet进行全宏基因组 BGC 筛选,并分析宏基因组中的 BGC 分布。 - 分类: 宏基因组组装后,使用
MetaBAT2和GTDB-Tk分箱 (binning) 和进行分类学注释,共得到 160,814 个 bin(或MAGs),其中 132,809 个 bin 成功分配到物种。
-
FunBGC:
- 来源: 额外的数据集 [46],包含经过实验验证的 BGCs。
- 用途: 用于进一步验证
BGC-Prophet的召回率 (recall)。
5.2. 评估指标
论文使用了以下标准评估指标来衡量模型的性能:
-
准确率 (Accuracy)
- 概念定义:
准确率衡量的是模型正确预测的样本(包括真阳性TP和真阴性TN)占所有样本的比例。它提供了模型整体性能的一个概览。 - 数学公式:
- 符号解释:
TP (True Positive):真阳性,实际是 BGC,模型也判断为 BGC。TN (True Negative):真阴性,实际是非 BGC,模型也判断为非 BGC。FP (False Positive):假阳性,实际是非 BGC,模型却判断为 BGC。FN (False Negative):假阴性,实际是 BGC,模型却判断为非 BGC。
- 概念定义:
-
精确率 (Precision)
- 概念定义:
精确率衡量的是在模型预测为阳性的样本中,实际为阳性的比例。它关注的是模型在做出阳性预测时的“准确性”,即减少假阳性。 - 数学公式:
- 符号解释:
TP:真阳性。FP:假阳性。
- 概念定义:
-
召回率 (Recall) / 真阳性率 (True Positive Rate, TPR)
- 概念定义:
召回率(或真阳性率)衡量的是在所有实际为阳性的样本中,模型正确预测为阳性的比例。它关注的是模型识别出所有相关样本的能力,即减少假阴性。 - 数学公式: 或
- 符号解释:
TP:真阳性。FN:假阴性。
- 概念定义:
-
F1 分数 (F1-score)
- 概念定义:
F1 分数是精确率和召回率的调和平均值。它在精确率和召回率之间取得平衡,当两者都较高时,F1 分数才会高。对于类别不平衡的数据集,它比准确率是更好的评估指标。 - 数学公式:
- 符号解释:
Precision:精确率。Recall:召回率。
- 概念定义:
-
假阳性率 (False Positive Rate, FPR)
- 概念定义:
假阳性率衡量的是在所有实际为阴性的样本中,模型错误预测为阳性的比例。 - 数学公式:
- 符号解释:
FP:假阳性。TN:真阴性。
- 概念定义:
-
受试者工作特征曲线下面积 (Area Under the Receiver Operating Characteristic curve, AUROC)
- 概念定义:
AUROC是ROC(Receiver Operating Characteristic) 曲线下方的面积。ROC曲线是以真阳性率 (TPR)为纵轴、假阳性率 (FPR)为横轴绘制的,通过遍历不同分类阈值得到的曲线。AUROC值越高,表示模型在区分正负样本方面的整体性能越好,模型在所有可能的分类阈值下的表现越鲁棒。AUROC值的范围从 0 到 1,其中 1 表示完美分类器,0.5 表示随机分类器。
- 概念定义:
5.3. 对比基线
论文将 BGC-Prophet 的性能与以下几种代表性方法进行了比较:
-
DeepBGC:
- 类型: 一种新型的深度学习和自然语言处理策略,用于细菌基因组中 BGC 的识别。
- 核心技术: 采用
BiLSTM循环神经网络和Pfam domains作为输入特征。 - 代表性: 是近年来 BGC 预测领域的先进深度学习工具。
-
antiSMASH:
- 类型: 综合性的规则型生物信息学管道,用于识别已知次级代谢产物化合物类别的生物合成位点。
- 核心技术: 采用一组经过策展的
pHMMs来识别生物合成相关的基因家族,并使用启发式规则来划分 BGC 区域。 - 代表性: 是最广泛使用的基于
pHMMs规则的 BGC 挖掘工具,拥有最全面的生态系统和数据库。选择antiSMASH进行比较,是因为其在已知 BGC 类别识别方面的成功,以及作为规则型方法的代表。
-
GECCO 和 BiGCARP:
- 在 NG 数据集上与
BGC-Prophet进行了 F1 分数的比较,这些也是深度学习或机器学习背景的 BGC 预测工具。
- 在 NG 数据集上与
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. BGC-Prophet 模型建立与评估策略
研究将 BGC 概念化为由基因组成的“句子”,并将 BGC 预测类比为 NLP 中的文本分类任务。BGC-Prophet 模型通过训练数千个 BGC 来学习基因的通用“语法”(即基因位置依赖性),从而提高泛化能力并避免过拟合。
BGC-Prophet 的创新设计:
-
基因作为词元 (tokens): 相较于
DeepBGC使用Pfam结构域,BGC-Prophet直接使用基因作为词元,这被认为更直观和灵活,避免了Pfam专家手动定义和pHMMs高计算成本的缺点。 -
ESM 嵌入: 使用
ESM(预训练的蛋白质语言模型)将蛋白质序列转换为嵌入向量,这些向量封装了基因的进化信号和功能特性,能更好地捕捉基因之间的相似性。下图(Figure 1)展示了
BGC-Prophet的模型架构和评估策略,包括基因嵌入、Transformer 编码器以及 BGC 检测与产品分类流程。
该图像是一个示意图,展示了 BGC-Prophet 模型的结构和工作流程,包括基因嵌入、Transformer 编码器以及 BGC 检测与产品分类。图中展示了 BGC 和非 BGC 样本的处理过程,并列出了模型的超参数设计。
Figure 1. BGC-Prophet 模型结构和工作流程。 (A) 基因作为词元,BGC 或非 BGC 基因序列被视为句子。模型通过 ESM 嵌入将基因转换为向量。 (B) BGC-Prophet 的总体架构,包括基因嵌入、Transformer 编码器和下游任务(BGC 基因检测和产品分类)。 (C) BGC-Prophet 的训练和评估流程。 (D) 本研究的评估和应用策略,包括模型评估、与 antiSMASH 比较、大规模基因组和宏基因组分析。 (E) 揭示重要地质事件后 BGC 的富集模式。
6.1.2. 基因序列特异性表示评估
为了评估 ESM 嵌入的有效性,研究人员对 MIBiG 数据库中所有 BGC 的基因向量进行了 t-SNE 降维分析。
下图(Figure 2)展示了不同类型 BGCs 及其在 t-SNE 降维中的分布情况。
该图像是图表,展示了不同类型的生物合成基因簇(BGC)及其在t-SNE降维中的分布情况。左侧展示了与BGC相关的多种化合物类型的箱线图,以及投影图;右侧则展示了BGC和负样本的分布差异,通过t-SNE分析反映出环境影响对BGC演化的启示。
Figure 2. 基因序列特异性表示的评估。 (A) MIBiG 数据库中不同 BGC 类别的 t-SNE 降维散点图和箱线图。散点图显示了七种不同 BGC 类别(生物碱、NRP、聚酮、RiPP、糖类、萜烯、其他)的分布。箱线图展示了每种类别在降维后的两个维度上的分布统计。 (B) 训练集中 BGCs(正样本)和非 BGCs(负样本)在 t-SNE 降维后的二维分布散点图。
分析:
- BGC 类别聚类 (Figure 2A): 不同的 BGC 类别在 t-SNE 图中表现出独特的模式,集中在三个主要簇(右上、左下和右下)。例如,萜烯主要聚集在右下,糖类和 RiPPs 主要聚集在右上,聚酮主要分布在左下和右下。这表明构成不同 BGCs 的基因具有一定的特异性,其嵌入向量能够区分不同 BGC 类型。
- BGC 与非 BGC 的区分 (Figure 2B): 尽管图中有些区域完全被 BGCs 占据,但在散点图中 BGCs 和非 BGCs 之间存在显著重叠。这表明仅依靠基因嵌入向量的特征不足以完全区分 BGCs 和非 BGCs,还需要
Transformer编码器学习的上下文特征。 - 结论:
ESM模型能够生成序列特异性的基因表示,帮助语言模型学习区分 BGCs 和非 BGCs 的依赖位置关系。
6.1.3. 准确且超高通量的 BGC 预测
研究评估了 BGC-Prophet 在 BGC 基因检测和 BGC 产品分类任务上的性能,并与 DeepBGC 等现有工具进行了比较。
下图(Figure 3)展示了 BGC-Prophet 的性能评估结果。
该图像是一个综合性结果图,包括模型表现的热图(A)、ROC曲线(B)、性能指标(C)、计算时间比较(D)、查询与键的热图(E)以及基因组关联图(F)。这些结果表明BGC-Prophet在BGC预测中具有显著优势,且表现出了对细菌群落基因组的深刻解析能力。
Figure 3. BGC-Prophet 的性能评估。 (A) BGC-Prophet 和 DeepBGC 在 NG 数据集上 BGC 基因检测的 F1 分数和 AUROC 热图。 (B) BGC-Prophet 和 DeepBGC 在 NG 数据集上 BGC 基因检测的 ROC 曲线。 (C) BGC-Prophet 和 DeepBGC 在 BGC 产品分类任务中,基于七个 BGC 类别的精确率、召回率和 AUROC 比较。 (D) BGC-Prophet 与 DeepBGC 处理 10 个和 100 个基因组的计算时间比较。 (E) Transformer 编码器中基因 76(KUTG_02125,编码 NRP 合成酶)的注意力图,显示了其与其他生物合成基因的依赖关系。 (F) 基因 76 在 BGC 中的位置以及其他基因对其施加的注意力权重。
分析:
- BGC 基因检测 (Figure 3A, B):
- 在 NG 数据集上,
BGC-Prophet的 AUROC (91.9%) 与DeepBGC(93.1%) 相当,表明两者在定位 BGC 方面具有相似的高精度。 - 然而,
BGC-Prophet在默认阈值 0.5 下实现了更高的精确率 (59.2% vs 22.0%) 和更高的 F1 分数(比DeepBGC高约 50%),这表明BGC-Prophet在平衡精确率和召回率方面表现更好,能够更有效地减少假阳性。
- 在 NG 数据集上,
- BGC 产品分类 (Figure 3C):
BGC-Prophet在区分七个 BGC 类别时表现出卓越的性能,AUROC 达到 98.8%,显著高于DeepBGC的 91.3%。BGC-Prophet的精确率 (92.8%) 和召回率 (89.0%) 也优于DeepBGC(精确率 90.2%,召回率 76.4%)。这表明BGC-Prophet在 BGC 产品分类任务中表现更优。- 尽管如此,
BGC-Prophet在RiPP预测方面仍有挑战,这可能与MIBiG中RiPP数量较少以及RiPP类别本身的多样性有关。
- 与其他工具的比较:
BGC-Prophet在 NG 数据集上的 F1 分数 (0.57) 优于antiSMASH、GECCO和BiGCARP。 - 超高通量 (UHT) 能力 (Figure 3D):
BGC-Prophet在处理速度上具有显著优势。处理一个基因组平均仅需 1 分钟,而DeepBGC需要 4 小时。- 当处理 100 个基因组时,时间消耗差异高达两个数量级。这使得
BGC-Prophet成为进行泛系统发育和全宏基因组 BGC 筛选的开创性超高通量工具。
- 位置依赖关系捕获 (Figure 3E, F):
- 注意力图(
Attention Maps)清晰地展示了BGC-Prophet如何捕捉生物合成基因之间的位置依赖关系。 - 例如,基因 76(KUTG_02125),编码一个 NRP 合成酶,从其他生物合成基因获得了最高的注意力分数。这表明其在 BGC 中可能具有保守性和核心作用,为理解 BGC 的结构和功能组织提供了洞见。
- 注意力图(
6.1.4. Aspergillus 982 个基因组的 BGC 综合分析
研究使用 BGC-Prophet 和 antiSMASH 对具有高生物合成潜力的曲霉属 (Aspergillus) 的 982 个基因组进行了 BGC 预测。
下图(Figure 4)展示了 BGC-Prophet 与 antiSMASH 在曲霉属基因组中 BGC 预测的比较。
该图像是一个示意图,展示了BGC-Prophet与antiSMASH在不同类型生物合成基因簇(BGCs)预测中的比较。图中包括Venn图和圆形图,显示各类别BGCs数量及其分布,特别强调了在Aspergillus属中检测到的数量和分布。
Figure 4. BGC-Prophet 与 antiSMASH 在曲霉属基因组中 BGC 预测的比较。 (A) 饼图展示了通过 BGC-Prophet 和 antiSMASH 在曲霉属基因组中检测到的 BGC 总数及其共享和独特的部分。 (B) 不同 BGC 类别在两种工具预测中的数量比较。 (C) 维恩图 (Venn diagrams) 展示了 antiSMASH 和 BGC-Prophet 在七个 BGC 类别中的交集和独有部分。
分析:
- 总 BGC 数量 (Figure 4A):
BGC-Prophet预测的总 BGC 数量几乎是antiSMASH的三倍 (167,375 vs 59,037),表明BGC-Prophet能够发现更多之前未注释的 BGCs。 - 类别差异 (Figure 4B, C):
- 萜烯 (Terpene):
BGC-Prophet预测的萜烯 BGC 数量远高于antiSMASH(52,004 vs 7,748),且大部分是BGC-Prophet独有的。 - 聚酮 (Polyketide):
BGC-Prophet预测的聚酮 BGC 数量也显著多于antiSMASH(35,606 vs 18,225)。 - NRP: 两种工具在 NRP BGC 的预测数量上几乎相同 (27,603 vs 27,100)。
- RiPPs: 两种工具在 RiPPs 预测上表现出互补性 (27,155 vs 8,082),且
BGC-Prophet识别出更多独有 RiPPs。 - 生物碱 (Alkaloids) 和糖类 (Saccharides):
BGC-Prophet也预测了比antiSMASH更多的这些类别 BGCs。
- 萜烯 (Terpene):
- 新型 BGC 发现潜力: 两种工具之间预测的 BGCs 存在显著差异,表明
BGC-Prophet能够预测antiSMASH之外的潜在新型 BGCs。 - 预测相关性: 两种工具的预测结果显示出明显的线性相关性 (Pearson 相关系数 r = 0.91, P < 0.001),表明
BGC-Prophet的预测在曲霉属内没有物种偏好性。 - 准确性验证: 通过
BiG-SCAPE对生物碱和糖类 BGCs 进行验证,发现BGC-Prophet预测的 BGCs 与MIBiG中相应类别 BGCs 的相似性显著更高,支持了预测的可靠性。
6.1.5. 85,203 个微生物基因组的 BGC 综合分析
研究利用 BGC-Prophet 对 85,203 个来自 GTDB 数据库的细菌和古菌基因组 (85KG 数据集) 进行了 BGC 概况分析。
下图(Figure 5)展示了微生物 BGC 的分类与分布。
该图像是一个示意图,展示了微生物基因簇(BGC)的分类与分布。图中包括不同类型的BGC,如NRP、聚酮类和RiPP,并标注了它们在古菌和细菌中的丰度及分布情况。此外,图示还显示了BGC的数量和流行率,突出各类BGC的特点与数量关系。
Figure 5. BGCs 的综合分析。 (A) 饼图展示了在 85,203 个微生物基因组中检测到的 BGC 类别比例。 (B) 棒状图展示了不同 BGC 类别在基因组中的流行率(含有该 BGC 类别的物种比例)和丰度(该类别 BGC 占总 BGC 的比例)。 (C) 热图展示了平均 BGC 数量最高的 27 个目(Orders)在 15 个不同门(Phyla)中的分布。颜色深浅表示平均每基因组的 BGC 数量。
分析:
- BGC 数量和分布: 在 85,203 个基因组中,有 41,599 个基因组被发现含有 BGCs,共识别出 119,305 个 BGCs。
- BGC 类别比例 (Figure 5A): 最广泛分布的 BGC 类别是聚酮 (34% 的物种含有)、NRP (33%) 和 RiPP (24%)。最丰富的类别是 NRP (33%)、聚酮 (28%) 和 RiPP (27%)。生物碱的分布最窄 (2%)。与
MIBiG数据库中聚酮 (41%)、NRP (34%)、RiPP (13%) 的比例相比,BGC-Prophet识别出更多“其他”类别的 BGCs(从 324 个增加到 32,233 个,比例从 13% 增加到 24%),表明其挖掘潜在新型 BGC 类别的能力。 - 宿主分布 (Figure 5C):
- 放线菌门 (Actinomycetota): 具有最高的预测 BGC 数量(总计 39,252 个)。
- 假单胞菌门 (Pseudomonadota): 表现出最广的基因组覆盖,有 12,637 个基因组至少含有一个 BGC,总计 29,675 个 BGCs。
- 在目 (order) 层面,平均 BGC 数量最高的 27 个目 (>7.0) 分布在 15 个门中,包括放线菌门 (Actinobacteria) 和酸杆菌门 (Acidobacteriota),这些门已被报道具有相对较高的生物合成潜力。
- 古菌与细菌的比较:
- 古菌基因组平均含有 1.63 个 BGCs,而细菌基因组平均含有 2.90 个 BGCs。古菌的 BGC 丰度显著低于细菌 (t-test, P = 6.1e-29)。
- 古菌中主要的 BGC 类别是糖类 (30%) 和 RiPP (24%),而在细菌中分别为 10% 和 11%。
- 细菌中主要的 BGC 类别是 NRP (33%) 和聚酮 (28%),而在古菌中分别为 8% 和 1%。
- 这种差异可能与古菌比细菌更古老、能量获取和代谢策略不同有关。这表明新进化的物种可能因在资源有限环境中竞争而拥有更高频率的 BGCs。
6.1.6. 9428 个宏基因组样本的 BGC 综合分析
BGC-Prophet 作为超高通量工具,还被用于对 9428 个宏基因组样本(来自人类微生物组研究)进行 BGC 筛选。
下图(Figure 6)展示了从宏基因组数据中提取的 BGCs 分类和数量。
该图像是一个示意图,展示了通过BGC-Prophet在47个宏基因组数据集中提取的生物合成基因簇(BGCs)分类和数量。图中包含BGC分类的统计数据和多样性分析,突出不同类别的丰富度和流行度,以及与环境影响相关的演化模式。
Figure 6. 宏基因组 BGC 分析。 (A) 饼图展示了在 9428 个宏基因组样本中预测到的 BGC 类别比例。 (B) 棒状图展示了不同 BGC 类别在宏基因组中的流行率(含有该 BGC 类别的物种比例)和丰度(该类别 BGC 占总 BGC 的比例)。
分析:
- 宏基因组 BGC 数量: 从这些宏基因组样本中生成了 160,814 个 bin(部分基因组),其中 8255 个样本被预测至少含有一个 BGC。共预测出 248,229 个 BGCs,分布在 2922 个物种中。
- BGC 类别分布 (Figure 6A, B): 与 GTDB 数据集的结果一致,宏基因组数据中识别出的 BGCs 在放线菌门 (Actinomycetota) 的物种中显著富集(平均每基因组 8.30 个 BGCs,而其他物种平均为 4.24 个 BGCs,P = 1.06e-105)。这进一步证实了放线菌门在 BGC 生产中的重要性。
6.1.7. 重要地质事件后微生物 BGC 的显著富集
研究通过 TimeTree [50] 分析,探索了 BGC 分布与地球历史上的重要地质事件之间的关系。
分析:
- 大氧化事件 (Great Oxidation event): 发生在大约 25-23 亿年前。
- 富集模式: 在此事件之后,平均每基因组的 BGC 数量从 2.5 显著增加到 4.5 (t-test, P = 0.024)。
- 特定类别: 聚酮 BGCs 的丰度显著增加,平均每基因组从 1.09 增加到 2.81 (t-test, P = 0.057)。这可能暗示聚酮在微生物适应更高氧气水平中的作用,或者氧气的存在促进了聚酮的产生。
- 其他类别: RiPPs 和 NRPs 的平均丰度没有显著变化。
- 寒武纪大爆发 (Cambrian Explosion event): 发生在大约 5.42-5.20 亿年前。
- 富集模式: 在此事件之后,平均每基因组的 BGC 数量显著翻倍,从 2.95 增加到 6.07 (t-test, P = 4.89e-305)。
- 特定类别: 聚酮 (1.77 增加到 3.52, t-test, P = 2.53e-157) 和 NRPs (2.14 增加到 3.77, t-test, P = 2.12e-132) 的平均丰度都显著增加。
- 解释: 聚酮和 NRPs 在帮助宿主抵御其他细菌和增强适应多样环境方面发挥关键作用。寒武纪时期,地球环境变化剧烈(如海洋氧化增加),多细胞生物开始出现,生物多样性呈指数级增长。这些变化创造了丰富的微环境和选择压力,可能导致微生物生物合成潜力激增,以产生多样化的次级代谢产物来适应新环境和竞争资源。
- 结论: 这些发现揭示了 BGC 在长时间尺度上的动态变化,并表明环境变化可能影响微生物产生的特异性代谢产物的丰度和多样性。然而,论文也指出,这些 BGC 可能在这些地质事件之后很久才演化而来,因此这些事件对 BGC 演化的直接影响需要进一步研究。
6.2. 数据呈现 (表格)
由于原文中没有直接的表格图像,我将根据文本描述总结关键数据点,并强调原文中未以表格形式呈现的详细数据,以避免虚构。
在 NG 数据集上的性能比较 (基于文本总结):
在 NG 数据集上,BGC-Prophet 和 DeepBGC 在 BGC 基因检测和产品分类任务上的性能概览如下:
| 指标 | BGC-Prophet (基因检测) | DeepBGC (基因检测) | BGC-Prophet (产品分类) | DeepBGC (产品分类) |
|---|---|---|---|---|
| AUROC | 91.9% | 93.1% | 98.8% | 91.3% |
| Precision (默认阈值 0.5) | 59.2% | 22.0% | 92.8% | 90.2% |
| Recall (默认阈值 0.5) | - | - | 89.0% | 76.4% |
| F1 (默认阈值 0.5) | 比 DeepBGC 高约 50% | - | - | - |
与 antiSMASH、GECCO、BiGCARP 在 NG 数据集上的 F1 分数比较 (基于文本总结):
| 工具 | 平均 F1 分数 |
|---|---|
| BGC-Prophet | 0.57 |
| antiSMASH | - |
| GECCO | - |
| BiGCARP | - |
注:原文在 Supplementary Fig. S5 和 Supplementary Table S4 中提供了更详细的 F1 分数比较,这里仅根据正文描述进行总结。
计算效率比较 (基于文本总结):
| 任务规模 | BGC-Prophet (平均时间) | DeepBGC (平均时间) | 速度优势 |
|---|---|---|---|
| 1 个基因组 | 1 分钟/基因组 | 4 小时/基因组 | 240 倍 |
| 100 个基因组 | 100 分钟 (~1.67 小时) | 400 小时 | 240 倍 |
BGC-Prophet 与 antiSMASH 在 Aspergillus 基因组上的预测数量 (基于文本总结):
| BGC 类别 | BGC-Prophet 预测数量 | antiSMASH 预测数量 | 交集 BGC 数量 |
|---|---|---|---|
| 总数 | 167,375 | 59,037 | - |
| 萜烯 | 52,004 | 7,748 | 7,260 |
| NRP | 27,603 | 27,100 | 26,278 |
| 聚酮 | 35,606 | 18,225 | 16,607 |
| RiPPs | 27,155 | 8,082 | 1,401 |
| 生物碱 | 更多 | 较少 | - |
| 糖类 | 更多 | 较少 | - |
6.3. 消融实验/参数分析
论文中提到了超参数调优和消融研究的结果,以验证 Transformer 架构的有效性以及关键超参数对模型性能的影响。
-
与 BiLSTM 的比较:
- 为了评估
Transformer架构的必要性,将BGC-Prophet的Transformer核心替换为单层和双层BiLSTM网络。 - 单层
BiLSTM(1.7M 参数) 在测试集上 AUROC 0.88,F1 0.65。 - 双层
BiLSTM(4.2M 参数) 在测试集上 AUROC 0.87,F1 0.61。 - 这两种
LSTM模型均在训练和验证集上表现出严重的过拟合(准确率超过 95%)。 - 结论:
BGC-Prophet(2.5M 参数) 实现了更好的性能,有效平衡了参数效率和泛化能力,证明了Transformer架构在捕获序列特异性信息和缓解过拟合方面的优势。
- 为了评估
-
消融研究 (Ablation Study):
- 编码器层数: 发现编码器层数超过两层会导致测试集性能略微下降,说明增加层数并未提升序列特异性特征的表示能力。
- 注意力头数: 实验结果显示注意力头数的变化对性能影响不大,最终选择 5 个注意力头作为计算复杂性和性能之间的平衡点。
- 嵌入大小: 较大的嵌入维度可以增强模型表示序列特异性信息的能力,但会增加计算需求。最终选择 320 维的嵌入大小(每个注意力头 64 维),作为准确性和效率之间的最佳权衡。
- 最终模型配置: 基于以上研究,最终模型配置为两个编码器层、五个注意力头和 320 维的嵌入,旨在实现最佳的整体性能和计算效率。
7. 总结与思考
7.1. 结论总结
本研究成功开发并验证了 BGC-Prophet,一个基于 Transformer 架构的语言处理神经网络模型,用于高效、准确地预测和分类微生物基因组及宏基因组中的生物合成基因簇 (BGCs)。该模型创新性地将基因视为“词元”,并结合了 ESM 预训练蛋白质语言模型生成的序列特异性嵌入,以及 Transformer 编码器捕捉基因之间依赖位置关系的能力。
BGC-Prophet 展现出显著的优势:
-
高准确性: 在 BGC 基因检测和产品分类任务上,
BGC-Prophet的性能与现有最先进工具DeepBGC相当或更优,尤其在多标签分类任务中表现卓越。 -
超高通量: 其处理速度比
DeepBGC快几个数量级,使其成为首批能够进行泛系统发育和全宏基因组 BGC 筛选的工具之一。 -
大规模发现: 通过对 85,203 个基因组和 9,428 个宏基因组进行分析,
BGC-Prophet成功构建了包含数十万个 BGC 的综合图谱,极大地扩展了我们对微生物生物合成潜力的认知,并能够识别出许多现有工具无法检测到的潜在新型 BGCs。 -
揭示演化模式: 研究结果揭示了 BGC 在特定微生物谱系(如放线菌门)中的富集,以及不同 BGC 类别在地球历史上的分布和演化趋势。特别是,论文发现 BGC 丰度和多样性与大氧化事件和寒武纪大爆发等重要地质事件存在显著关联,暗示了环境选择压力在塑造微生物次级代谢物多样性中的关键作用。
BGC-Prophet的问世为微生物次级代谢产物的深入理解、新天然产物的发现以及合成生物学应用提供了强大而高效的工具。
7.2. 局限性与未来工作
论文作者也指出了 BGC-Prophet 的局限性并展望了未来的研究方向:
- 无法确定具体小分子:
BGC-Prophet能够检测和分类 BGC,但无法直接确定这些 BGC 产生的具体小分子产物。未来的工作可以结合已知的与 BGCs 相关的小分子信息,并通过计算化学方法筛选和验证这些预测。 - 训练数据量限制: 尽管
BGC-Prophet表现出高准确性,但由于MIBiG数据库中实验验证的 BGCs 数量相对较少,模型仍存在过拟合的风险。未来需要构建更多样、更全面的 BGC 数据库来增强模型的训练和验证。 - 对稀有 BGC 类别的表现: 对一些在训练数据中代表性不足的 BGC 类别(如
RiPPs),模型的性能仍有待提升。这可能需要通过数据增强或专门的模型改进来解决。 - 潜在的假阳性: 尽管
BGC-Prophet能够识别潜在的新型 BGCs,但对于缺乏明确生物合成特征的 BGCs,假阳性风险仍然存在。实验验证对于确认这些预测的真实性至关重要。 - 去偏置技术: 尽管
Transformer架构通过有效处理不同序列长度来缓解了数据集中长尾分布可能带来的偏差,但未来迭代中可以进一步整合去偏置技术以增强模型的鲁棒性和公平性。 - 进一步探索: 未来的改进可能包括发现新的 BGC 类别,以及动态地研究 BGC 的获得或丢失。
- 模型泛化:
BGC-Prophet的语言模型方法可以扩展到其他功能基因的发现,例如抗生素抗性基因和抗 CRISPR 蛋白。在这些领域,模型可以针对预测类型和机制等下游任务进行微调。
7.3. 个人启发与批判
7.3.1. 个人启发
- 语言模型在非 NLP 领域的巨大潜力: 这篇论文再次证明了
Transformer架构和语言模型范式不仅限于自然语言处理,它们在生物序列(如基因、蛋白质)分析中也具有强大的能力。将生物序列视为一种“语言”,基因视为“词元”,这种思维方式为生物信息学带来了新的突破口。 - 效率与准确性的平衡:
BGC-Prophet在提供高准确性的同时,实现了超高通量的处理能力,这对于海量基因组和宏基因组数据的分析至关重要。这强调了在实际应用中,计算效率与模型性能同等重要。 - 多尺度生物学洞察: 从微观的基因序列特异性表示到宏观的 BGCs 在地质事件后的演化模式,
BGC-Prophet能够提供跨尺度的生物学洞察,帮助我们理解微生物如何适应环境并产生多样化的次级代谢产物。 - 新型生物分子发现的加速器: 通过识别和分类大量此前未知的 BGCs,
BGC-Prophet为天然产物发现和合成生物学提供了丰富的候选资源,有望加速新药和生物活性分子的开发。
7.3.2. 批判
- 性能比较的细微之处: 论文提到
BGC-Prophet的 BGC 检测 AUROC (91.9%) 略低于DeepBGC(93.1%)。尽管论文解释了BGC-Prophet在精确率和 F1 分数上的优势,并强调其在发现新型 BGC 方面的潜力,但这种“略低”的表现在某些严格的场景下仍可能成为关注点。对于初学者而言,可能会对如何权衡这些指标感到困惑。更详细的误差分析,例如不同错误类型(假阳性/假阴性)对后续生物学实验的影响评估,将增强其说服力。 - “新型” BGC 的验证挑战:
BGC-Prophet预测了大量antiSMASH未能发现的 BGCs,并将其标注为“潜在新型 BGCs”。然而,这些“新型” BGCs 的生物学功能和产物需要大量的实验验证。在没有实验验证的情况下,这些预测的价值仍是潜在的。论文中提到的BiG-SCAPE相似性分析提供了间接支持,但直接的化学生物学验证才是最终的确认。 - 地质事件与 BGC 演化的因果关系: 论文发现了 BGC 丰度和多样性与重要地质事件(如大氧化事件、寒武纪大爆发)之间的相关性。虽然这提供了引人深思的演化洞察,但相关性并不等同于因果关系。作者也谨慎地指出“这些 BGC 可能在这些地质事件之后很久才演化而来,因此这些事件对 BGC 演化的直接影响需要进一步研究”。未来需要更精细的分子钟分析和谱系追踪,以确定这些关联的直接性和机制。
- 模型的可解释性: 虽然
注意力图 (attention maps)提供了一种 BGC 内基因间关系的可视化,但Transformer模型作为一个黑箱模型,其内部决策过程的完全解释性仍然是一个挑战。对于生物学家来说,理解模型为何做出特定预测,以及哪些具体特征组合导致了预测结果,将有助于指导后续的实验设计。
相似论文推荐
基于向量语义检索推荐的相关论文。