AiPaper
论文状态:已完成

AI-DrivenAntimicrobialPeptideDiscovery:MiningandGeneration

原文链接
价格:0.10
已有 5 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文综述了人工智能如何通过挖掘和生成策略突破抗菌肽发现难题,利用判别模型预测活性与毒性,生成模型设计新肽以提升疗效安全性,显著加速抗菌素耐药性新疗法研发,展望AI在生物医学整合中的关键作用。

摘要

AI-Driven Antimicrobial Peptide Discovery: Mining and Generation Paulina Szymczak, Wojciech Zarzecki, Jiejing Wang, Yiqian Duan, Jun Wang, Luis Pedro Coelho, Cesar de la Fuente-Nunez, * and Ewa Szczurek * Cite This: Acc. Chem. Res. 2025, 58, 1831−1846 Read Online ACCESS Metrics & More Article Recommendations CONSPECTUS: The escalating threat of antimicrobial resistance (AMR) poses a significant global health crisis, potentially surpassing cancer as a leading cause of death by 2050. Traditional antibiotic discovery methods have not kept pace with the rapidly evolving resistance mechanisms of pathogens, highlighting the urgent need for novel therapeutic strategies. In this context, antimicrobial peptides (AMPs) represent a promising class of therapeutics due to their selectivity toward bacteria and slower induction of resistance compared to classical, small molecule antibiotics. However, designing effective AMPs remains challenging because of the vast combinatorial sequence space and the need to balance efficacy with low toxicity. Addressing this issue is of paramount importance for chemists and researchers dedicated to developing next-generation a

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

AI 驱动的抗菌肽发现:挖掘与生成 (AI-Driven Antimicrobial Peptide Discovery: Mining and Generation)

1.2. 作者

Paulina Szymczak, Wojciech Zarzecki, Jiejing Wang, Yiqian Duan, Jun Wang, Luis Pedro Coelho, Cesar de la Fuente- Nunez*, 和 Ewa Szczurek*

  • Cesar de la Fuente-Nunez: 宾夕法尼亚大学佩雷尔曼医学院机器学习生物学组、精神病学和微生物学系、生物医学信息学研究所、转化医学和治疗学研究所;宾夕法尼亚大学工程与应用科学学院生物工程和化学生物分子工程系;宾夕法尼亚大学计算科学研究所;宾夕法尼亚大学文理学院化学系。

  • Ewa Szczurek: 德国慕尼黑亥姆霍兹中心人工智能健康研究所;波兰华沙大学数学、信息学和力学学院。

    其他作者分别来自:德国慕尼黑亥姆霍兹中心人工智能健康研究所,波兰华沙大学数学、信息学和力学学院,波兰华沙理工大学电子与信息技术学院,中国科学院微生物研究所,复旦大学脑启智智能科学技术研究院,澳大利亚昆士兰科技大学微生物组研究中心,澳大利亚昆士兰科技大学数据科学中心。

1.3. 发表期刊/会议

Accounts of Chemical Research。这是一个由美国化学学会 (American Chemical Society, ACS) 出版的著名化学领域期刊,专注于对特定研究领域进行简明、批判性的综述,通常邀请该领域的专家撰写。在化学和相关生物化学领域享有较高声誉和影响力。

1.4. 发表年份

2025年。论文于2024年11月7日收到,2025年4月25日修订,2025年4月28日接受,并计划于2025年6月3日发表。

1.5. 摘要

抗菌素耐药性(AMR)的日益增长对传统抗生素之外的新型治疗策略提出了迫切需求。抗菌肽(AMPs)因其对细菌的选择性和较慢的耐药性诱导而前景广阔,但其巨大的序列多样性以及平衡毒性仍是挑战。本综述(Account)回顾了人工智能(AI)如何通过两种关键策略彻底改变抗菌肽发现:挖掘——利用判别模型从生物序列中识别抗菌肽以预测活性和毒性——和生成——通过生成模型创建新的肽以优化增强的功效和安全性。论文讨论了完善肽预测和设计的技术进步、数据整合和算法改进。通过突出成功的实验验证和未来前景,作者强调了AI在加速发现和揭示具有前所未有特性的新型肽方面的变革作用,为对抗抗菌素耐药性提供了新希望,并强调了AI持续整合到生物医学研究中的必要性。

1.6. 原文链接

/files/papers/6909d57a4d0fb96d11dd73c3/paper.pdf (已正式发表)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

论文旨在解决抗菌素耐药性 (Antimicrobial Resistance, AMR) 日益严峻的全球健康危机,特别是传统抗生素发现方法无法跟上病原体快速演变耐药机制的挑战。具体而言,它探讨了如何利用人工智能 (Artificial Intelligence, AI) 来加速和优化抗菌肽 (Antimicrobial Peptides, AMPs) 的发现与设计,从而为对抗 AMR 提供新型治疗策略。

2.1.2. 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白(Gap)?

  • 全球健康危机: AMR 已成为一个重大的全球健康和经济问题,预计到2050年可能超越癌症成为主要的死亡原因。传统抗生素的发现停滞不前,近三十年来缺乏新型抗生素类别进入市场,而现有抗生素的耐药性却不断升级。
  • AMPs 的潜力与挑战: AMPs 因其对细菌的选择性以及比传统小分子抗生素更慢的耐药性诱导而备受关注。然而,AMPs 的设计面临巨大挑战:
    • 巨大的序列组合空间: 潜在的肽序列空间极其庞大,例如,25个氨基酸长度的肽序列就高达 103210^{32} 种,这使得暴力搜索 (brute-force search) 变得不可行。
    • 平衡功效与毒性: 设计有效的 AMPs 需要在对细菌的高活性和对哺乳动物细胞的低毒性之间取得微妙平衡。许多 AMPs 对哺乳动物细胞表现出毒性(通过溶血和细胞毒性活动评估),这阻碍了它们的临床应用。
    • 数据稀缺: 现有经过实验验证的 AMPs 数量相对较少(约 10410^4 种),而针对特定细菌物种的活性数据更加稀缺。
  • 现有研究空白 (Gap): 传统的 AMP 设计方法效率低下,无法有效探索庞大的序列空间并优化关键特性。迫切需要创新方法来增强 AMPs 的性能,超越现有肽的局限性。

2.1.3. 这篇论文的切入点或创新思路是什么?

论文的创新思路是:将人工智能作为强大的工具,彻底改变 AMP 的发现过程。 它提出了两个主要策略来应对上述挑战:

  1. AMP 挖掘 (AMP Mining): 利用 AI 扫描生物序列(如基因组、蛋白质组、宏基因组)来识别潜在的 AMPs,并使用判别模型 (discriminative models) 预测它们的活性和毒性。这种方法侧重于发现自然存在的、可能已经过生物验证的肽(现实主义)。

  2. AMP 生成 (AMP Generation): 利用生成模型 (generative models) 从现有数据中学习并创建全新的肽序列,旨在优化增强的活性和降低的毒性。这种方法能够设计出超越自然存在的、具有理想特性的合成肽(理想主义)。

    通过结合这两种策略,并辅以先进的判别方法,AI 有望显著加速 AMP 的发现,甚至创造出具有前所未有特性的新型肽。

2.2. 核心贡献/主要发现

论文的核心贡献在于系统性地综述了人工智能在抗菌肽 (AMP) 发现领域的革命性应用,具体体现在以下几个主要方面:

  • 确立 AI 驱动的 AMP 发现两大核心策略: 明确将 AMP 发现分为 AMP 挖掘 (AMP Mining)AMP 生成 (AMP Generation)
    • AMP 挖掘: 利用 AI 扫描现有生物序列(如基因组、蛋白质组、宏基因组)来识别潜在 AMPs,并通过判别模型预测其活性和毒性。
    • AMP 生成: 运用生成模型从现有数据中学习并创造全新的肽序列,旨在优化活性并降低毒性。
  • 详述判别方法在 AMP 发现中的关键作用: 强调判别模型不仅用于 AMP 挖掘,也是 AMP 生成 中筛选和优化候选肽的关键工具。综述了从传统机器学习到深度学习(RNNs, LSTMs, CNNs)以及蛋白质语言模型(PLMs)等多种判别方法的最新进展。
  • 阐述技术挑战与进步: 讨论了 AIAMP 发现中面临的挑战(如数据稀缺、平衡现实主义与理想主义、处理复杂修饰肽等),并展示了如何通过数据整合、算法改进和先进模型(如 LLMs)来应对这些挑战。
  • 突出成功案例与实验验证: 引用了多项成功案例,包括从人类蛋白质组、灭绝生物和全球微生物组中发现的 AMPs,以及通过生成模型设计出的新型 AMPs,其中许多已通过体外 (in vitro) 和体内 (in vivo) 实验验证了其功效。例如,APEX 模型发现了史前候选物(如 mammuthusinelephasin),HydrAMP 模型发现了15种新型高效 AMPs
  • 强调 AI 的变革性作用: 总结了 AI 在加速 AMP 发现过程、揭示具有前所未有特性的新型肽方面的能力,将其视为对抗 AMR 的新希望。
  • 展望未来方向: 指出了当前方法存在的局限性,如缺乏负例数据、结构信息利用不足、对修饰肽的支持有限、生成模型评估困难等,并提出了未来研究的潜在方向,呼吁 AI 与生物医学研究的持续整合。

3. 预备知识与相关工作

3.1. 基础概念

为了全面理解这篇关于 AI 驱动的抗菌肽发现的综述,初学者需要掌握以下几个核心概念:

3.1.1. 抗菌素耐药性 (Antimicrobial Resistance, AMR)

AMR 指的是微生物(如细菌、病毒、真菌、寄生虫)对抗微生物药物(如抗生素、抗病毒药、抗真菌药)产生抵抗力,导致这些药物失去疗效的现象。一旦微生物变得具有耐药性,治疗感染将变得更加困难,甚至不可能,从而增加疾病传播、严重疾病和死亡的风险。论文强调 AMR 是一个日益增长的全球健康危机。

3.1.2. 抗菌肽 (Antimicrobial Peptides, AMPs)

AMPs 是一类广泛存在于各种生物体(包括哺乳动物、两栖动物、昆虫和微生物)中的天然免疫分子。它们是具有抗菌活性的短链氨基酸聚合物,通常长度在10-100个氨基酸之间。

  • 特点:
    • 净正电荷: 通常带有 +2^{+}2+9^{+}9 的净正电荷。
    • 高疏水性: 通常含有 30%\geq 30\% 的疏水氨基酸。
    • 选择性: 正电荷的 AMPs 对带负电荷的微生物细胞膜表现出选择性,而通常不会靶向真核细胞的中性膜。
  • 作用机制:
    • 膜靶向: 多数 AMPs 通过破坏细菌细胞膜的完整性来发挥作用,例如形成孔洞导致细胞内容物泄漏。
    • 抑制关键过程: 其他作用机制包括抑制蛋白质或核酸合成、蛋白酶活性或细胞分裂。
  • 耐药性: 微生物对 AMPs 产生耐药性的速度通常比对传统抗生素慢。
  • 挑战: 许多 AMPs 对哺乳动物细胞也表现出毒性(例如溶血活性和细胞毒性),这限制了它们的临床应用。

3.1.3. 最小抑菌浓度 (Minimum Inhibitory Concentration, MIC)

MIC 是衡量抗微生物药物体外 (in vitro) 活性的一种指标。它定义为在特定条件下,能够完全抑制细菌或其他微生物可见生长的最低药物浓度。MIC 值越低,表示药物的抗菌活性越强。

3.1.4. 溶血活性 (Hemolytic Activity) 与 细胞毒性 (Cytotoxicity)

  • 溶血活性 (Hemolytic Activity):AMPs 破坏红细胞(哺乳动物细胞的一种)膜导致其裂解的能力。它是评估 AMPs 对宿主毒性的一个重要指标,通常通过测量溶血百分比来量化。
  • 细胞毒性 (Cytotoxicity):AMPs 对各种哺乳动物细胞(不限于红细胞)产生毒性作用的能力,可能导致细胞损伤或死亡。这也是评估 AMPs 安全性的关键指标。

3.1.5. 人工智能 (Artificial Intelligence, AI)

AI 是计算机科学的一个分支,旨在创建能够执行通常需要人类智能的任务的机器,例如学习、解决问题、感知和理解语言。

3.1.6. 机器学习 (Machine Learning, ML)

MLAI 的一个子领域,它使计算机系统能够从数据中学习,而无需进行明确的编程。它通常涉及构建算法,这些算法可以识别数据中的模式并做出预测或决策。

  • 判别模型 (Discriminative Models): 这类模型主要用于区分不同类别或预测特定输出。它们直接学习输入特征和输出标签之间的映射关系。例如,在 AMP 发现中,判别模型可以预测一个肽是 AMP 还是非 AMP,或者预测其活性和毒性。
  • 生成模型 (Generative Models): 这类模型旨在学习数据的内在分布,然后根据这种学习到的分布生成新的、类似于原始数据的样本。在 AMP 发现中,生成模型可以从头开始创建新的肽序列。

3.1.7. 深度学习 (Deep Learning, DL)

DLML 的一个子集,它使用多层神经网络(即“深度”网络)来从大量数据中学习复杂的模式。

  • 循环神经网络 (Recurrent Neural Networks, RNNs) 和 长短期记忆网络 (Long Short-Term Memory, LSTMs): 这类神经网络特别适用于处理序列数据,例如文本或氨基酸序列,因为它们能够捕捉序列中的时间依赖性。LSTMRNN 的一种特殊形式,可以有效解决 RNN 中梯度消失的问题。
  • 卷积神经网络 (Convolutional Neural Networks, CNNs): 最初用于图像处理,但也可以应用于序列数据,通过卷积核(filters)来捕捉序列中的局部模式或特征。
  • 图神经网络 (Graph Neural Networks, GNNs): 适用于处理图结构数据,例如分子结构或肽的二级/三级结构信息,通过节点和边的特征进行信息传播和学习。
  • 注意力机制 (Attention Mechanism): 一种允许模型在处理序列时,对输入序列中不同部分赋予不同权重,从而关注更重要信息的技术。它在处理长序列和捕捉长距离依赖关系方面表现出色。

3.1.8. 大型语言模型 (Large Language Models, LLMs) 和 蛋白质语言模型 (Protein Language Models, PLMs)

  • LLMs: 基于 Transformer 架构的深度学习模型,通过在大量文本数据上进行预训练来学习语言的统计规律和语义信息。它们能够理解、生成和处理人类语言。
  • PLMs:LLM 的概念应用于蛋白质序列。PLMs 在大规模蛋白质序列数据上进行预训练,学习氨基酸序列的“语言”和蛋白质的结构-功能关系。它们可以生成蛋白质的嵌入 (embeddings),这些嵌入包含了丰富的生物学信息,可用于下游任务,如 AMP 预测。
    • BERT (Bidirectional Encoder Representations from Transformers): 一种双向 Transformer 编码器模型,通过屏蔽语言模型 (Masked Language Model) 任务进行预训练,能够捕捉序列的双向上下文信息。
    • ESM (Evolutionary Scale Modeling): 一类 PLM,通过整合序列和进化信息来学习蛋白质表示。
    • Transformer 架构: LLMs 的核心,它完全依赖注意力机制来处理输入序列,能够并行处理序列中的所有元素,并有效捕捉长距离依赖关系。

3.1.9. 变分自编码器 (Variational Autoencoders, VAEs) 和 生成对抗网络 (Generative Adversarial Networks, GANs)

  • VAEs: 一种生成模型,它学习数据的潜在(隐式)表示,并能够从这个潜在空间中采样以生成新的数据点。VAE 引入了概率框架,使其生成的样本具有一定的多样性和平滑性。
  • GANs: 另一种生成模型,由两个相互竞争的神经网络组成:一个生成器 (generator) 试图生成逼真的数据,一个判别器 (discriminator) 试图区分真实数据和生成数据。通过这种对抗训练,生成器能够学习生成高度逼真的新样本。

3.1.10. 分子动力学模拟 (Molecular Dynamics, MD)

MD 是一种计算机模拟技术,用于模拟原子和分子在给定时间段内的物理运动。它通过求解牛顿运动方程来跟踪系统中每个原子的轨迹,从而提供关于系统动力学行为的详细信息,例如蛋白质或肽的构象变化、折叠和相互作用。在 AMP 设计中,MD 模拟可以用来预测肽的结构稳定性、膜相互作用等,辅助评估其活性。

3.2. 前人工作与技术演进

在抗生素发现的20世纪繁荣之后,过去三十年出现了发现空白 (discovery void),没有新的抗生素类别进入市场。与此同时,对抗生素的耐药性却不断升级,AMR 成为全球性威胁。这种背景促使研究人员寻求传统小分子抗生素之外的替代疗法,其中 AMPs 因其独特的抗菌机制和较慢的耐药诱导潜力而备受关注。

3.2.1. 传统 AMP 发现与设计

早期 AMP 的发现主要依赖于从自然界中分离和鉴定,例如两栖动物的皮肤分泌物。传统的 AMP 设计往往是基于已知的序列模体 (motifs) 或通过理性设计来调整理化性质。然而,这种方法受限于对肽结构-功能关系的有限理解,且无法有效探索庞大的肽序列空间。设计具有高活性和低毒性的 AMPs 仍然是一个巨大的挑战。

3.2.2. 机器学习在 AMP 预测中的兴起

随着生物序列数据(如基因组、蛋白质组数据库)的积累和机器学习技术的发展,研究人员开始利用 ML 模型来预测肽的抗菌活性和毒性。

  • 传统 ML 方法: 早期的 ML 模型,如决策树、支持向量机 (SVMs) 和随机森林 (RF),依赖于人工提取的肽序列衍生特征(如氨基酸组成、净电荷、疏水性等)。例如,Macrel (28^{28}) 就是一个基于随机森林的模型,用于基因组和宏基因组中的 AMP 筛选。这些模型相对简单,有时性能可与更复杂的深度学习方法媲美,并且能够提供生物学洞察力(例如通过 Shapley Additive exPlanations 分析)。
  • 深度学习的引入: 随着深度学习的兴起,RNNsLSTMsCNNs 开始被应用于 AMP 预测。这些模型能够自动从原始序列数据中学习更复杂的特征和模式。
    • RNNsLSTMs 因其处理序列数据的能力而被广泛采用,能够捕捉氨基酸序列中的上下文关系。
    • CNNs 虽然起源于图像处理,但也被用于从序列衍生特征中提取信息,例如 MBc-Attention (24^{24}) 结合 CNN 和注意力机制来预测 MIC
    • 注意力机制 (Attention Mechanism) 的引入进一步增强了模型理解序列“语义”的能力,例如 AMPlify (22^{22}) 和 AMPpred-MFA (23^{23})。

3.2.3. 大型语言模型 (LLMs) 和 蛋白质语言模型 (PLMs) 的崛起

Transformer 架构的出现彻底改变了自然语言处理领域,并催生了 LLMs。很快,这一成功经验被迁移到生物序列分析中,发展出了 PLMs

  • PLMs 在大规模蛋白质语料库上进行预训练,学习蛋白质序列的进化和结构信息,然后通过微调 (fine-tuning) 应用于特定的下游任务,如 AMP 活性和毒性预测。
  • BERTESM 等模型被广泛用于 AMP 预测,通常通过生成 PLM 嵌入 (embeddings) 来代表肽序列。

3.2.4. 生成模型在 AMP 设计中的应用

传统的 AMP 发现主要依赖“挖掘”自然存在的肽。然而,为了设计出具有特定优化特性(如高活性、低毒性、特定靶向性)的新型肽,生成模型应运而生。

  • VAEsGANs 等生成模型被用于学习 AMP 序列的分布,然后生成具有所需属性的新肽。
  • 条件生成 (conditional generation)潜在空间采样 (latent space sampling) 等技术被开发出来,以更好地控制生成过程,引导模型生成特定类型的 AMPs
  • HydrAMP (1^{1}) 等模型通过引入预训练分类器和定制损失函数,实现了更精确的条件生成和已知肽的模拟优化 (analog optimization)。

3.3. 差异化分析

本文的工作与相关工作的核心区别和创新点在于将 AI 视为一个整合的、双管齐下的解决方案,超越了传统方法的局限性:

  • 克服巨大的序列空间挑战: 传统方法(如理性设计或随机筛选)难以有效探索高达 103210^{32} 种序列的组合空间。AI 方法,无论是 AMP 挖掘(通过判别模型高效筛选)还是 AMP 生成(通过学习分布生成新序列),都能更智能地导航这个空间。

  • 平衡“现实主义”与“理想主义”:

    • 传统挖掘: 倾向于发现自然存在的肽,这些肽在生物学上是“现实的”,但可能并非最优或具有新颖性。
    • AI 驱动的挖掘: 利用先进的判别模型(特别是 PLMs)能更有效地从海量生物数据中识别潜在 AMPs,包括此前未被识别的或来自灭绝物种的肽,从而扩展了“现实”的边界。
    • AI 驱动的生成: 旨在创造“理想的”合成肽,通过优化模型学习到的特性(如提高活性、降低毒性),生成可能超越自然界存在肽的性能。这解决了传统方法难以实现高度优化设计的挑战。论文强调了这种 现实主义-理想主义 的权衡与结合。
  • 加速发现过程: AI 算法能够将识别临床前候选药物所需的时间从数年缩短到数小时,这是传统实验室方法无法比拟的。

  • 处理数据稀缺性: 通过 迁移学习 (transfer learning)PLMs(在大规模蛋白质数据上预训练),AI 方法能够部分缓解 AMP 领域专用标记数据稀缺的问题,使其在有限的 AMP 训练数据下仍能有效工作。

  • 整合多模态信息: AI 方法能够整合氨基酸序列、序列衍生描述符、结构信息(通过图网络)乃至分子动力学模拟结果等多模态数据,从而更全面地理解和预测肽的特性,而传统方法往往更侧重于单一或少数特征。

  • 自动化与可扩展性: AI 提供了高度自动化的发现和设计流程,使其能够处理远超人类专家能力的庞大数据库和设计空间。

    总之,本文通过强调 AIAMP 发现中 挖掘生成 的双重作用,并详述其背后的判别方法,展示了 AI 如何作为一个综合性的、变革性的工具,克服传统方法的限制,推动 AMP 领域进入一个全新的高效发现时代。

4. 方法论

本论文作为一篇综述性文章,其“方法论”部分主要集中于对 AI 驱动 AMP 发现中两大核心策略——AMP 挖掘 (AMP Mining)AMP 生成 (AMP Generation)——及其所依赖的 判别方法 (Discriminative Methods) 的详细阐述。这里我们将按照论文的结构,逐层深入解析这些方法。

4.1. 判别方法 (Discriminative Methods)

判别方法在 AMP 发现中扮演着核心角色,无论是用于从现有生物序列中识别 AMP(挖掘)还是用于评估和优化生成的新肽序列(生成)。这些方法旨在区分 AMP 与非 AMP,或预测 AMP 的活性和毒性。

4.1.1. 目的与类型

  • 广义区分: 大多数模型旨在区分 AMP 和非 AMP,例如 sAMP-pred-GAT (21^{21})、AMPlify (22^{22}) 和 AMPpred-MFA (23^{23})。
  • 高活性肽识别: 更精细的方法通过分类或回归,结合 MIC 测量数据,识别高活性肽。
  • 菌株特异性预测: 少数模型尝试选择对特定微生物(如 大肠杆菌 (E. coli))具有特定活性谱的肽,例如 AMP-META (26^{26}) 或 MBC-attention (24^{24})。
  • 毒性预测: 由于数据稀缺,毒性预测模型较少,但也有如 EnDL-HemoLyt (27^{27})、AMP-META (26^{26}) 和 Macrel (28^{28}) 等。

4.1.2. 模型与架构

4.1.2.1. 传统机器学习 (Traditional ML) 方法

传统 ML 方法依赖于从序列中提取的特征 (sequence-derived descriptors)。

  • 模型类型: 决策树 (decision trees)、支持向量机 (Support Vector Machines, SVMs)随机森林 (Random Forest, RF)
  • 特点: 相对简单,可用于推断生物学见解(如通过 Shapley Additive exPlanations 分析 AMP 对革兰氏阴性菌和革兰氏阳性菌作用机制的差异)。
  • 示例: Macrel (28^{28}) 是一个基于 RF 的模型,在不平衡数据集上训练,以更好地模拟基因组挖掘任务中 AMP 与非 AMP 的分布。

4.1.2.2. 深度学习 (Deep Learning, DL) 模型

DL 模型在处理复杂挑战和提高预测准确性方面具有潜力。

  • 循环神经网络 (Recurrent Neural Networks, RNNs) 和 长短期记忆网络 (Long Short-Term Memory, LSTMs): 这些是 AMP 预测中最普遍的 DL 方法,源自自然语言处理领域,适用于处理序列数据。它们通过捕捉氨基酸序列中的上下文关系来学习。
  • 注意力机制 (Attention Mechanism): 已成为许多最新架构的关键组成部分。它通过检查与序列组成相关的特征(如每个氨基酸的出现频率)以及前后关系,使模型能够深入理解生物序列中固有的“语义”。
    • 示例: AMPlify (22^{22}) 结合了 BiLSTM(双向 LSTM)和注意力层。
  • 卷积神经网络 (Convolutional Neural Networks, CNNs): 尽管最初用于视觉任务,CNNs 也可用于 AMP 预测,基于序列衍生特征。
    • 示例: MBc-Attention (24^{24}) 结合了多分支 CNN 和注意力机制,以回归 大肠杆菌 (E. coli)AMP 最小抑菌浓度 (MIC)
  • 混合架构: AMPpred-MFA (23^{23}) 结合了双向 LSTMCNN,并辅以多头注意力机制 (multihead attention mechanism),以提取肽序列的上下文依赖性。
  • 量子支持向量机 (Quantum Support Vector Machine, QSVM): ZhuangShengxin 提出了一种 QSVM 来检测基于序列衍生描述符的肽毒性 (38^{38})。

4.1.2.3. 大型语言模型 (Large Language Models, LLMs) 应用

LLMs,特别是基于 Transformer 架构的模型,通过高效利用注意力机制,为分析大规模序列数据提供了新机遇。

  • 蛋白质语言模型 (Protein Language Models, PLMs): LLMs 已成功应用于蛋白质序列,产生了 PLMs
    • 训练过程: 通常分两步:
      1. Transformer 模型在大量蛋白质语料库上进行生成任务的预训练。
      2. 模型针对特定下游任务(如功能、属性或结构预测)进行微调 (fine-tuning)。
  • 应用范围: PLMs 已用于预测抗菌活性 (5,4045^{5,40-45})、非毒性 (4648^{46-48}),以及溶解度 (solubility) 或二级结构 (41,46,47,49^{41,46,47,49}) 等其他属性。
  • 架构类型:
    • 最普遍使用的 LLM 架构是 双向编码器表示模型 (Bidirectional Encoder Representations from Transformers, BERT),擅长处理长距离依赖关系并学习全局上下文信息。
    • 其他编码器专用架构包括 进化尺度模型 (Evolutionary Scale Modeling, ESM) 编码器,它整合了序列和进化信息。
    • OntoProtein 是一个类似 BERT 的模型,结合蛋白质序列和基因本体论 (Gene Ontology, GO),用于 AMPFinder (51^{51}) 预测 AMP 功能类型。
    • 最近的研究表明,全编码器-解码器 Transformer 架构 (49,51,52^{49,51,52}) 在某些情况下优于编码器专用模型。
  • 预训练语料库: PLM 模型在 AMP 预测中使用的预训练语料库各异,多数方法使用 UniRef50 (4145,49,51,52^{41-45,49,51,52}),少数使用 UniRef100 (47,51^{47,51}),还有一些使用 Pfam (53^{53})、BFD (45,52^{45,52}) 或 UniProt (48^{48}),或合并语料库 (51^{51})。语料库的选择对模型性能有显著影响,更多样化的语料库(如 UniRef50 相比 UniRef100)能改善结果。
  • 额外微调阶段: 一些方法在 PLM 预训练后,会进行额外的微调阶段,例如使用分泌数据作为毒性预测的额外语料库 (45^{45}),或使用短于50个氨基酸的序列数据 (41^{41})。这有助于将预训练模型的焦点转向更像肽或 AMP 的序列分布,因为肽通常比蛋白质更短、结构更简单。

4.1.3. 肽的表示 (Representations of Peptides)

判别模型在输入肽时,会采用不同的表示形式:

  • 氨基酸序列 (Amino Acid Sequence): 这是最普遍的表示形式,既可以直接作为模型输入,也可以用于生成序列衍生描述符或 PLM 嵌入。PLM 嵌入在基准测试中表现优于人工设计的特征 (54^{54})。

  • 融合特征: SenseXAMP (42^{42}) 模型通过融合预训练蛋白质模型的嵌入与传统蛋白质描述符 (PD) 来提高 AMP 预测性能,表明传统 PDsAMP 筛选任务中仍有重要作用。

  • 图像表示: 其他方法将序列转换为图像,例如使用 细胞自动机 (cellular automata) (40^{40}) 或 原子连接性信息 (atom connectivity information) (55^{55}),然后应用 CNNs 作为判别模型的架构。

  • 结构信息: 一些方法尝试将结构信息作为补充视图纳入模型。

    • 图基方法 (Graph-based Approaches): 利用图来编码肽的结构信息。例如,sAMP-pred-GAT (21^{21}) 整合了肽的结构、序列和进化信息来构建 图注意力网络 (Graph Attention Network, GAT)

    • 图卷积网络 (Graph Convolutional Net): AMPredictor (56^{56}) 是一个 图卷积网络,结合了 Morgan 指纹、肽接触图和 ESM 嵌入来回归 MIC 值。

    • 多视图对比学习 (Multiview Contrastive Learning): PepHarmony (41^{41}) 将 ESM 的序列级编码与 GearNet 的结构级嵌入融合,实现多视图对比学习。

      以下是原文 Table 1: Discriminative Methods for AMP Discovery 的结果:

      methodframeworkfeature typetaskexperimental validationapproach type
      sAMPred-GAT21GNN, ATT; MLPsequence-derived descriptors, structureAMPML-based
      AMPli:22LSTM, ATT; MLPsequenceAMPmicrobiological assays
      AMPpredMFA23LSTM, CNN, ATT; MLPsequenceAMP
      MBC-attention24CNN, ATT; MLPsequence derived structure, sequence-derived descriptorsactivity
      AMP-META26LGBNAMP, activity, toxicitymicrobiological assays
      EnDL-HemoLy27LSTM, CNN; MLPsequencetoxicity
      Macrel28RFsequence-derived descriptorsAMP, toxicity
      Pandi et al24CNN, RNN; MLPsequenceactivitymicrobiological assays, hemolysis assays, cytotoxicity assays
      APEX2RNN, ATT; MLPsequenceactivitymicrobiological assays, in vivo animal models, cytotoxicity assays
      Capecchi et al.29RNN, GRU, SVM; MLPsequenceactivity, toxicitymicrobiological assays, hemolysis assays
      Ansari and White32RNN, LSTMsequencetoxicity, solubility
      ESKAPEE-MICpred31LSTM, CNN; MLPsequence, sequence-derived descriptorsactivitymicrobiological assays
      Ansari and White30LSTM; MLPsequencetoxicity, non-fouling activity, SHP-2
      Zhuang and Shengxin38QSVMsequence-derived descriptorstoxicity
      AmPEPpy34RFsequenceAMP
      Orsi and Reymond46GPT-3; MLPsequencetoxicity, solubilityLLM-based
      iAMP-Attendre40BERT; MLPpLM embeddingAMP
      PepHarmony41ESM, GearNet; MLPsequence, structuresolubility, affinity, self-contraction
      SenseXAMP42ESM-1b; MLPpLM embeddingactivity
      HDM-AMP43ESM-1b; DFpLM embeddingactivitymicrobiological assays
      AMPFinder51ProfTrans, OntoProtein; MLPpLM embeddingactivity
      LMpred52ProfTrans, MLPpLM embeddingactivity
      PHAT49ProfTrans, MLPpLM embeddingsecondary structure
      PeptideBERT47BERT (ProtBert); MLPpLM embeddingtoxicity, solubility, non-fouling activity
      TransImbAMP53BERT; MLPpLM embeddingactivity
      AMPDeep45BERT (ProtBert); MLPpLM embeddingtoxicity
      Zhang et al.48BERT; MLPpLM embeddingactivity
      Ma, Yue, et al5BERT, ATT, LSTM; MLPsequenceAMPmicrobiological assays, in vivo animal models, hemolysis assays, cytotoxicity assays
      iAMP-CA2L39CNN, Bi-LSTM, MLP; SVMstructureAMPstructure-based
      sAMP-VGG1655CNN; MLPsequence-derived descriptorsAMP
      AMPredicter56ESM; MLPsequence-derived descriptors, structureactivitymicrobiological assays, in vivo animal models, hemolysis assays
  • 表头解释:

    • method (方法): 论文中讨论的具体判别模型或研究。
    • framework (框架): 模型使用的主要架构,如 GNN (图神经网络), ATT (注意力机制), MLP (多层感知机), LSTM (长短期记忆网络), CNN (卷积神经网络), LGBM (轻量级梯度提升机), RF (随机森林), RNN (循环神经网络), GRU (门控循环单元), SVM (支持向量机), QSVM (量子支持向量机), GPT-3 (生成式预训练 Transformer 3), BERT (双向编码器表示模型), ESM (进化尺度模型), DF (深度森林), Bi-LSTM (双向长短期记忆网络)。
    • feature type (特征类型): 模型输入的特征类型,如 sequence-derived descriptors (序列衍生描述符), structure (结构), sequence (序列), pLM embedding (蛋白质语言模型嵌入)。
    • task (任务): 模型执行的预测任务,如 AMP (抗菌肽识别), activity (活性预测), toxicity (毒性预测), solubility (溶解度), secondary structure (二级结构), affinity (亲和力), self-contraction (自收缩), non-fouling activity (防污活性), SHP-2
    • experimental validation (实验验证): 模型预测结果是否经过实验验证,包括 microbiological assays (微生物学实验), in vivo animal models (体内动物模型), hemolysis assays (溶血实验), cytotoxicity assays (细胞毒性实验)。
    • approach type (方法类型): 模型的总体方法分类,如 ML-based (基于机器学习), LLM-based (基于大型语言模型), structure-based (基于结构)。

4.2. AMP 挖掘 (AMP Mining)

AMP 挖掘 涉及将 AMP 判别方法应用于生物序列数据,以发现新的 AMP 候选物。这种方法通常产生高质量的预测结果,并已通过体外和体内验证得到证实。

4.2.1. 概念

AMP 挖掘 的核心思想是利用计算工具(特别是上述判别模型)在海量的生物序列数据库中“搜索”潜在的 AMPs。它强调从自然界中发现肽,这些肽更“现实”,因为它们通常由生物体产生,并且是 L-氨基酸组成,易于合成。

4.2.2. 生物序列集合 (Biological Sequence Collections)

AMP 挖掘 利用了近年来生物序列数据前所未有的扩张。

  • 基因组、蛋白质组和宏基因组: 这些数据被收集在公共数据库中 (5963^{59-63})。
  • 全球微生物基因目录 (Global Microbial Gene Catalogue, GMCGv1): 包含来自数千个宏基因组的数十亿个 开放阅读框 (ORFs),以及通过同源性搜索识别的数万个 AMR 基因 (64^{64})。
  • 全球微生物小开放阅读框目录 (Global Microbial Small Open Reading Frames Catalogue, GMSC): 包含来自数千个宏基因组的近一百万个非冗余 小开放阅读框 (smORFs),这些 smORFs 编码小蛋白 (60^{60})。

4.2.3. 基因组与蛋白质组挖掘 (AMP Mining of Genomes and Proteomes)

4.2.3.1. 人类蛋白质组 (Human Proteome)

  • Torres et al. (4^{4}): 首次探索人类蛋白质组作为抗生素来源。该算法利用关键理化性质(如序列长度、净电荷和平均疏水性)来预测抗菌活性。它将抗菌效力建模为理化性质的幂函数,模型参数通过已知 AMPs 拟合。
    • 方法: 扫描了42,361个人类蛋白质序列,识别出2,603个潜在 AMP 候选物。
    • 特点: 避免使用已知 AMP 模体 (motifs),而是专注于理化特性,从而发现此前未被识别为抗菌剂或在宿主免疫中发挥作用的新型抗菌肽。
    • 验证: 实验合成并验证了其中一些肽,并在动物模型中显示出功效。

4.2.3.2. 灭绝物种蛋白质组 (Proteomes of Extinct Species)

  • 分子“去灭绝” (Molecular De-Extinction): AI 使探索灭绝物种(如尼安德特人、丹尼索瓦人、猛犸象)的蛋白质成为可能,从而发现新的抗菌序列。
    • panCleave (19^{19}): 一个基于随机森林 (RF) 的模型,用于蛋白质组范围的裂解位点预测。结合专家策选和六个公开的传统 ML AMP 模型(包括 Macrel)的共识,进行 AMP 候选物的选择。
    • APEX (2^{2}): 一个更强大的深度学习模型,用于挖掘所有已知灭绝生物的蛋白质组。
    • 发现: 发现了如 neanderthalin-1mammuthusin-2elephantin-2 等新型 AMPs,这些已成为临床前候选物。
    • 影响: 这些计算工作将抗生素发现过程从数年缩短到数小时。

4.2.3.3. 噬菌体肽聚糖水解酶 (Phage Peptidoglycan Hydrolases, PGHs)

  • Wu et al. (71^{71}): 提出了一种计算流程来挖掘来自 ESKAPE 微生物(一组临床上危险的病原体)及其相关噬菌体的 PGHs 衍生 AMPs
    • 模型: 训练了一个结合 CNNsLSTM 层的模型来评估提取肽的抗菌活性。
    • 结果: 建立了 ESKtides 数据库,包含超过1200万个预测高抗菌活性的肽。

4.2.4. 微生物组挖掘 (AMP Mining of the Microbiome)

4.2.4.1. 人类肠道微生物组 (Human Gut Microbiome)

  • Ma et al. (5^{5}): 使用深度学习技术(包括 LSTM注意力机制BERT)从人类肠道微生物组中挖掘 AMPs
    • 发现: 识别出181个具有抗菌活性的肽,其中许多与已知 AMPs 的序列同源性低于40%。
    • 功效: 对抗生素耐药的革兰氏阴性菌显示出显著功效,并在小鼠肺部感染模型中降低了细菌载量。
  • 抗癌肽 (Anticancer Peptide, ACP) 发现: 利用 ACPAMP 之间的重叠,通过高通量挖掘过程从肠道微生物组宏基因组数据中识别出40个潜在 ACP。其中39个在各种癌细胞系中显示出显著的抗癌活性,两个肽在小鼠模型中有效缩小肿瘤且无毒性。

4.2.4.2. 全球微生物组 (Global Microbiome)

  • Santos-Junior et al. (3^{3}): 通过计算分析全球微生物组,利用机器学习发现了近一百万个潜在的新 AMPs
    • 数据源: 分析了63,410个宏基因组和87,920个微生物基因组。
    • 过滤: 在基于基因组序列识别后,还使用了蛋白质组学和转录组学数据作为过滤步骤。
    • 结果: 约一百万个新 AMP 候选物被预测并存入 AMPSphere 数据库。

4.2.4.3. smORFs (Small Open Reading Frames) 编码肽

  • 整合多体部位宏基因组: 整合来自四个不同体部位的宏基因组以识别 smORF 编码肽。
  • 判别模型: 使用基于随机森林的模型来评估哪些 smORF 可能编码 AMPs
  • 发现: 识别出323个候选抗生素肽,在体外和体内对临床相关病原体均显示出活性。

4.2.4.4. 其他微生物组

  • 淡水水螅 (Freshwater Polyp Hydra): Klimovich et al. (73^{73}) 对淡水水螅的微生物组进行了高通量转录组和基因组测序,并进行机器学习分析。研究发现 AMP 编码基因在水螅物种中经历了快速进化,AMPs 在特定细胞类型中选择性表达,并且 AMP 活性遵循空间模式。
  • 蟑螂肠道微生物组 (Cockroach Gut Microbiome): 另一项研究 (74^{74}) 基于带有 Dense-Net 块和自注意力模块的深度学习模型,专注于蟑螂肠道微生物组,该微生物组在不引起病理的情况下携带有害物种。

4.2.5. 短肽组合序列空间挖掘 (Exhaustive Mining of Combinatorial AMP Sequence Spaces for Short Peptides)

这种方法不再局限于挖掘天然生物序列资源,而是全面评估固定短长度的所有可能肽序列。

  • Huang et al. (75^{75}): 开发了一个机器学习流程,系统地从一个由6-9个氨基酸组成的海量虚拟肽库中识别有效 AMPs
    • 流程: 包含多个顺序的机器学习模块,用于过滤、分类、排序和预测潜在 AMPs 的功效。
    • 数据处理: 由于判别模型在 GRAMPA 数据集(可能存在实验室特异性偏差)上训练,作者采用了两步实验验证策略,在初始阶段后优化判别器以减轻训练数据中的偏差。
    • 发现: 识别出三个高效的六肽,对多药耐药病原体具有强大的抗菌活性,在小鼠细菌感染治疗中与青霉素具有可比的功效,且毒性较低。
  • Ji et al. (78^{78}): 专注于开发针对 鲍曼不动杆菌 (Acinetobacter baumannii)AMPs,扫描了所有六肽、七肽和八肽库,包含了数百亿个候选物。
    • 流程: 包含针对 鲍曼不动杆菌 特异性 AMPs 的分类器,该分类器在一个极其稀缺的训练数据集(仅148个序列)上使用 少样本学习 (few-shot learning) 策略进行训练,包括预训练和多个微调步骤。

      以下是原文 Table 2: Mining approaches for AMD discovery 的结果。 注意: 原文提供的 Table 2 存在明显的格式错误和内容混乱,导致大部分信息难以识别和解读。我将尽力转录其中可识别的部分,并指出其完整性受到影响。

Approach typeTool appliedmodel functionproforemenbiophysical sequerce sourcelotsiblogicalfrontillactivityactivityActivity
For آثارPaper set 1#7free list functionFor Bilireroves выдаFor discoverFor solverFor solverFor solver
EpCMPaper set 2#7Human 1For hinderFor Human 1For human 1For hinderFree list functionFree list function
XWBPaperSet Stack 3#7For hinderFor hinderFor human 1For human 1For hinderFree list functionFree list function
XWBAPaperSet Stack 4#7For hinderFor human 1For hinderFree list functionFor human 1For hinderFree list function
SuperconPaperSet Stack 5#7For hinderFor hinderFor human 1For hinderFor human 1For hinderG23b1/4
XGYPaperSet Stack 6#7For hinderFor hinderFor human 1For hinderFor human 1For hinderFree list function
XLBPaperSet Stack 7#7For hinderFor hinderFor hinderFor human 1For hinderFree list functionG23b1/4
PaperSet Stack 8#7PaperSet Stack 9#7For hinderFor hinderFor hinderFor human 1For hinderFree list functionG23b1/4
PaperRTPapersetX9064, LMIP
XGBscorePaperSETX6026PaperSETX6026PaperSETX6026PaperSET
EPATfree list FunctionKVF1GVAGFELTGVAGFELTGVAGFELTGVAGFELTGVAGFELTGSACGSAC
XGB北魏Paper SETLRSMFLRFePTLRFePTLRFePTLRFePTLRNePTLRNePTLRNePT

说明: 原文 Table 2 的结构和内容严重受损,大部分单元格内容无法构成有意义的学术信息,例如出现“For آثار”、“For hinder”、“free list function”等非专业词汇,且多列重复。因此,无法对其进行有效解析。这可能是原始 PDF 转换文本时出现的错误。

4.3. AMP 生成 (AMP Generation)

AMP 生成 利用生成式 AI 来创造新的肽序列,旨在优化其功效和安全性,从而加速新型药物候选物的发现。

4.3.1. 建模框架 (Modeling Frameworks)

AMP 生成 中采用的 AI 模型框架多种多样:

  • 自回归模型 (Autoregressive Models):LSTMs 和更一般的 RNNs (25,80^{25,80}) 已经被探索,但目前使用频率低于其他方法。
  • 变分自编码器 (Variational Autoencoders, VAEs): VAEs (1,2,8888^{1,2,88-88}) 是迄今为止研究的重点,能够学习数据分布并从潜在空间中生成新序列。
  • 瓦瑟斯坦自编码器 (Wasserstein Autoencoders, WAEs): 也是一种生成模型 (80,89^{80,89})。
  • 生成对抗网络 (Generative Adversarial Networks, GANs): GANs (9094^{90-94}) 也被广泛应用,展示了生成新 AMP 序列的能力。
  • 扩散模型 (Diffusion Models): 最近兴起的生成模型,在 PLM 嵌入上训练,用于 AMP 生成 (100,101^{100,101})。 大多数 AMP 生成方法侧重于生成有前景的抗菌候选物,少数方法同时解决溶血性或细胞毒性问题。

4.3.2. 受控 AMP 生成 (Controlled AMP Generation)

由于生成式 AI 可以高效地产生大量候选肽,因此引导生成过程以获得期望的属性至关重要。

  • 辅助判别器 (Auxiliary Discriminators): 一种基本的受控生成方法是使用辅助判别器来指导生成过程和筛选最佳候选物。
    • CLASS 模型 (80^{80}):WAE 的潜在空间上训练判别模型,引导生成过程朝着具有目标活性和毒性的肽发展。
    • 局限性: 判别器引导过滤 (discriminator-guided filtering)仅限正例学习 (positive-only learning) 都受限于正向标记训练数据(即活性且无毒的 AMPs)的稀缺性。
  • 仅限正例学习 (Positive-Only Learning): PandoraGAN (91^{91}) 证明,仅使用高活性肽进行训练也可以进行生成。
  • 条件变体 (Conditional Variants): GANVAE 模型的条件变体,如 cGANs (90,93,94^{90,93,94}) 和 cVAEs (1,85^{1,85}),可以在生成阶段进行配置,以产生更符合特定标准的肽。
    • Multi-CGAN (90^{90}): 优化生成过程以同时处理多个属性。
    • M3-CAD (85^{85}): 一个多模态、多任务、多标签的 cVAE,旨在处理八个特征类别,包括预测的3D结构、菌种特异性抗菌活性、抗菌机制和毒性。
  • 潜在空间采样 (Latent Space Sampling): 某些方法利用模型的潜在空间来引导生成。
    • LSSAMP (83^{83}): 将潜在表示离散化,以编码序列和结构信息,促进生成具有所需二级结构的肽。
  • HydrAMP (1^{1}): Szymczak et al. 开发的模型,通过以下增强功能改进了标准 cVAE 框架:
    • 条件生成: 通过调节低 MIC 值等属性来生成高活性 AMPs
    • 预训练分类器: 包含一个预训练分类器,确保生成的肽保留所需属性。
    • 损失函数优化: 在损失函数中添加项,确保生成的肽与输入紧密匹配,并且输入和生成肽的潜在表示也匹配,以提高训练稳定性。
    • “创造力”参数: 能够修改现有肽以满足特定活性条件,通过“创造力”参数控制,更高的创造力导致更多样化的模拟物。
    • 能力: 不仅可以从头生成,还可以优化已知的 AMPs 和实验证明缺乏抗菌活性的肽。
    • 分子动力学 (MD) 模拟: MD 模拟提供额外的肽活性描述符,结合分类器集成,帮助对候选物进行排名。
    • 验证: 实验合成了最有前景的肽,并验证了其活性和毒性。HydrAMP 发现了15个新型、高效 AMPs,对包括多药耐药菌株在内的多种细菌具有活性。
  • 直接优化生成 (Direct Optimized Generation): 这是理想主义肽设计的一个方向,通常使用定制的成本函数。
    • QMO (89^{89}): 使用 零阶梯度优化 (zeroth-order gradient optimization) 来导航潜在空间。
    • 其他优化方法包括 GFlowNets主动学习 (active learning) (96^{96})、量子退火 (quantum annealing) (87^{87})、贝叶斯优化 (Bayesian optimization) (97^{97}) 和 进化算法 (evolutionary algorithms) (98^{98})。

4.3.3. 大型语言模型 (Large Language Models, LLMs) 应用

随着 ChatGPT 等工具的成功,生成式语言建模在 AMP 生成领域也变得流行。

  • 架构: AMP 生成通常涉及解码器式架构(如 GPT (99^{99}))或在预训练 LLMs 获得的连续嵌入上训练的 扩散过程 (diffusion process) (100,101^{100,101})。

  • 挑战: 这些方法目前在受控设计方面实施的策略相对简单,主要依赖 仅限正例学习判别器引导过滤

  • 对比学习 (Contrastive Learning): MMCD (102^{102}) 使用 对比学习,通过对比已知正 AMP 样本和负样本的嵌入来训练基于扩散的模型,这是一个有前景的方向。

    以下是原文 Table 3: Generation Approaches to AMP Discovery 的结果:

    methodgeneration modecontrolled generationaimed propertiesgeneration frameworkexperimental validationMD
    AMP-GAN93unconstrainedconditional generationsequence length, microbial target, target mechanism, activitycGANmicrobiological assays, cytotoxicity assaysyes
    MMCD102unconstrainedconditional generation, con-trastive learningAMP, ACPdiffusion
    CLaSS100unconstraineddiscriminator-guided filteringAMP, activity, nontoxicity, structureWAEmicrobiological assays, in vivo animal models, cytotoxicity assays, hemolysis assaysyes
    LSSAMP83unconstrainedlatent space samplingsecondary structurevector quantized VAEmicrobiological assays, in vivo animal models, cytotoxicity assays, hemolysis assays
    AMP-Diffu-sion101unconstrainedpositive-only learningAMPPLM + diffusionmicrobiological assays, in vivo animal models, cytotoxicity assays
    AMPGAN v2 94unconstrainedconditional generationsequence length, microbial tar-get, target mechanism, activitycGAN
    AMPTrans-LSTM82unconstraineddiscriminator-guided filteringAMPLSTM + transformer
    Zeng et al.99unconstraineddiscriminator-guided filteringAMPPLMmicrobiological assays
    Jain et al.106unconstrainedactive learningAMPGFRwNets + active learning
    Pandi et al.24unconstraineddiscriminator-guided filteringVAEmicrobiological assays, cytotoxicity assays, hemolysis assaysyes
    M3-CAD85unconstrainedconditional generation, dis-criminator-guided filteringmicrobial target, nontoxicity, mode of actioncVAEmicrobiological assays and in vivo, cytotoxicity assays, hemolysis assays
    Ghorbani et al.88unconstrainedAMPVAE
    MODAN97optimizedbaysian optimizationGaussian processmicrobiological assays, hemolysis assays
    Cao et al.92unconstraineddiscriminator-guided filteringAMPGANmicrobiological assaysyes
    Diff-AMP100unconstraineddiscriminator-guided filteringAMPDiffusion
    HydrAMPlunconstrained, analogueconditional generationAMP, activitycVAEmicrobiological assays, hemolysis assaysyes
    AMPEMO98optimizeddiscriminator-guided filteringAMP, diversityGenetic algo-rithm
    Buehler et al.103unconstrainedconditional generationsecondary structure, solubilityGEN
    Renaud and Mansbach94unconstrained,analoguelatent space samplingAMP, hydrophobicityVAE
    Capecchi et al.29unconstraineddiscriminator-guided filteringactivity, nontoxicityRNNmicrobiological assays, hemolysis assays
    Multi-CGAN90unconstrainedconditional generationactivity, nontoxicity, structurecGAN
    QMO99optimizedzeroth-order optimization, gradient descentactivity, nontoxicityWAE
    PandoraGAN91unconstrainedpositive-only learninganlrtral activityGAN
    PepVAE96unconstrainedlatent space samplingactivityVAEmicrobiological assays
    ProT-Diff104unconstraineddiscriminator-guided filteringAMP, activityPLM + diffusionmicrobiological assays and in vivo, cytotoxicity assays, hemolysis assays
    MOQA87optimizedD-wave quantum annealeractivity, nontoxicitybinary VAEmicrobiological assays, hemolysis assays
  • 表头解释:

    • method (方法): 论文中讨论的具体生成模型或研究。
    • generation mode (生成模式): 生成是 unconstrained (无约束) 的,还是 analogue (模拟,即基于现有肽进行修改)。
    • controlled generation (受控生成): 是否采用受控生成策略,如 conditional generation (条件生成), discriminator-guided filtering (判别器引导过滤), latent space sampling (潜在空间采样), positive-only learning (仅限正例学习), contrastive learning (对比学习), baysian optimization (贝叶斯优化), active learning (主动学习), zeroth-order optimization (零阶优化), D-wave quantum annealer (D-wave 量子退火器)。
    • aimed properties (目标属性): 生成肽旨在优化的属性,如 AMP (抗菌肽), ACP (抗癌肽), activity (活性), nontoxicity (无毒性), sequence length (序列长度), microbial target (微生物靶点), target mechanism (作用机制), secondary structure (二级结构), solubility (溶解度), diversity (多样性)。
    • generation framework (生成框架): 使用的生成模型框架,如 cGAN (条件生成对抗网络), diffusion (扩散模型), WAE (瓦瑟斯坦自编码器), vector quantized VAE (向量量化 VAE), PLM + diffusion (蛋白质语言模型 + 扩散模型), LSTM + transformer (LSTM + Transformer), VAE (变分自编码器), Gaussian process (高斯过程), GAN (生成对抗网络), cVAE (条件变分自编码器), Genetic algorithm (遗传算法), GEN
    • experimental validation (实验验证): 模型预测结果是否经过实验验证,包括 microbiological assays (微生物学实验), in vivo animal models (体内动物模型), cytotoxicity assays (细胞毒性实验), hemolysis assays (溶血实验)。
    • MD: 是否使用 Molecular Dynamics (MD) (分子动力学模拟) 作为辅助工具或验证手段。

5. 实验设置

本论文是一篇综述性文章,主要回顾了 AI 驱动的 AMP 发现领域的现有工作和进展,因此它没有传统意义上的“实验设置”来验证自身提出的新方法。相反,它总结了被综述论文中使用的数据源评估指标以及这些研究中的对比基线

5.1. 数据集

AI 驱动的 AMP 发现中,数据集主要分为两种:用于训练模型的生物序列数据和用于实验验证的体外/体内数据

  • 生物序列数据 (Biological Sequence Data):
    • 基因组、蛋白质组和宏基因组 (Genomes, Proteomes, and Metagenomes): 大量公开数据库中的序列数据是 AMP 挖掘的基础。例如:
      • DBAASP (18^{18}): 抗菌/细胞毒性肽活性和结构数据库,包含了数万个已验证的 AMPs,但对特定细菌物种的活性数据(如针对 大肠杆菌 (E. coli))更稀缺(约 10310^3 种)。
      • GMCGv1 (Global Microbial Gene Catalogue v1) (64^{64}): 包含来自数千个宏基因组的数十亿个开放阅读框 (ORFs)。
      • GMSC (Global Microbial Small Open Reading Frames Catalogue) (60^{60}): 包含来自数千个宏基因组的近一百万个非冗余小开放阅读框 (smORFs)。
      • UniRef50/UniRef100, Pfam, BFD, UniProt (4145,4749,5153^{41-45,47-49,51-53}): 这些是用于蛋白质语言模型 (PLM) 预训练的大规模蛋白质语料库,它们提供了丰富的蛋白质序列和进化信息。
    • 短肽虚拟库 (Virtual Libraries of Short Peptides): 对于短肽组合空间挖掘,研究会构建包含所有可能短肽序列(如6-9个氨基酸)的虚拟库。
  • 实验验证数据 (Experimental Validation Data):
    • MIC 测量 (MIC measurements): 衡量肽对特定细菌的抑制能力。
    • 溶血活性 (Hemolysis assays): 评估肽对红细胞的毒性。
    • 细胞毒性 (Cytotoxicity assays): 评估肽对哺乳动物细胞的毒性。
    • 体内动物模型 (In vivo animal models): 在小鼠等动物模型中测试肽的实际抗菌效果和安全性。

选择这些数据集的原因:

  • 生物序列数据 提供了训练 AI 模型所需的大量原始信息,使其能够学习肽的特征和功能。
  • DBAASP 等数据库提供了已知的 AMPs 和其活性数据,作为监督学习的标签 (labels)。
  • 虚拟肽库 允许全面探索特定长度肽的组合空间。
  • 实验验证数据MIC、溶血、细胞毒性、动物模型)是评估 AI 模型预测或生成肽实际效果的黄金标准 (gold standard)

5.2. 评估指标

AI 驱动的 AMP 发现中,评估指标用于衡量模型的预测性能或生成肽的生物学特性。

5.2.1. 抗菌活性与毒性评估指标

  • 最小抑菌浓度 (Minimum Inhibitory Concentration, MIC):
    1. 概念定义: MIC 是指在体外条件下,能够完全抑制细菌或其他微生物可见生长的最低抗微生物药物浓度。它直接量化了 AMP 对特定微生物的抑制效力。
    2. 数学公式: 通常通过稀释法在实验室中确定,不是一个直接通过公式计算的指标,而是实验测定的一个阈值浓度。 MIC=min{CMicrobial growth is completely inhibited at concentration C} \text{MIC} = \min \{C \mid \text{Microbial growth is completely inhibited at concentration } C \}
    3. 符号解释:
      • MIC\text{MIC}: 最小抑菌浓度。
      • CC: 抗菌肽的浓度。
      • min\min: 最小值函数。
      • Microbial growth is completely inhibited\text{Microbial growth is completely inhibited}: 表示微生物生长完全受到抑制的状态。
  • 溶血活性 (Hemolytic Activity):
    1. 概念定义: 衡量 AMP 引起红细胞裂解(即破坏细胞膜)的能力。它是评估 AMP 对宿主细胞毒性的一个关键指标。高溶血活性通常意味着高毒性。
    2. 数学公式: 通常以溶血百分比表示,通过测量血红蛋白释放量计算。 Hemolytic Activity(%)=(AsampleAnegative control)(Apositive controlAnegative control)×100% \text{Hemolytic Activity} (\%) = \frac{(A_{\text{sample}} - A_{\text{negative control}})}{(A_{\text{positive control}} - A_{\text{negative control}})} \times 100\%
    3. 符号解释:
      • AsampleA_{\text{sample}}: 含有 AMP 样本的吸光度。
      • Anegative controlA_{\text{negative control}}: 阴性对照(通常是未经处理的红细胞)的吸光度,表示自发溶血。
      • Apositive controlA_{\text{positive control}}: 阳性对照(通常是完全裂解红细胞,如通过 Triton X-100 处理)的吸光度,表示100%溶血。
  • 细胞毒性 (Cytotoxicity):
    1. 概念定义: 评估 AMP 对非红细胞哺乳动物细胞的毒性作用,如细胞存活率下降或细胞死亡。通常通过 半数最大抑制浓度 (IC50)半数有效浓度 (EC50) 来量化,或通过细胞存活率百分比。
    2. 数学公式: IC50EC50 也是实验测定的一个浓度值,表示抑制50%细胞生长或达到50%最大效应所需的药物浓度。 IC50=Concentration of AMP required to inhibit 50% of cell growth \text{IC50} = \text{Concentration of AMP required to inhibit } 50\% \text{ of cell growth}
    3. 符号解释:
      • IC50\text{IC50}: 半数最大抑制浓度。
      • AMP\text{AMP}: 抗菌肽。
  • 体外微生物学实验 (Microbiological Assays): 除了 MIC,还包括细菌生长曲线、杀菌动力学 (killing kinetics) 等。
  • 体内动物模型 (In vivo Animal Models): 评估在活体生物体中的疗效和安全性,例如在感染小鼠模型中测量细菌载量减少、存活率提高等。

5.2.2. 机器学习模型性能评估指标 (针对判别模型)

尽管论文本身未详细列出这些公式,但作为机器学习领域的标准,它们是评估判别模型性能所必需的:

  • 准确率 (Accuracy):
    1. 概念定义: 分类器正确预测的样本数量占总样本数量的比例。
    2. 数学公式: Accuracy=TP+TNTP+TN+FP+FN \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
    3. 符号解释:
      • TP: 真阳性 (True Positives),模型正确预测为正例的样本数。
      • TN: 真阴性 (True Negatives),模型正确预测为负例的样本数。
      • FP: 假阳性 (False Positives),模型错误预测为正例的样本数。
      • FN: 假阴性 (False Negatives),模型错误预测为负例的样本数。
  • 精确率 (Precision):
    1. 概念定义: 在所有被模型预测为正例的样本中,实际为正例的比例。衡量模型预测正例的准确性。
    2. 数学公式: Precision=TPTP+FP \text{Precision} = \frac{TP}{TP + FP}
    3. 符号解释: (同上)
  • 召回率 (Recall) / 敏感度 (Sensitivity):
    1. 概念定义: 在所有实际为正例的样本中,被模型正确预测为正例的比例。衡量模型识别出所有正例的能力。
    2. 数学公式: Recall=TPTP+FN \text{Recall} = \frac{TP}{TP + FN}
    3. 符号解释: (同上)
  • F1-分数 (F1-score):
    1. 概念定义: 精确率和召回率的调和平均值,用于综合评估模型的性能,特别是在类别不平衡的数据集中。
    2. 数学公式: F1=2×Precision×RecallPrecision+Recall F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
    3. 符号解释: (同上)
  • 受试者工作特征曲线下面积 (Area Under the Receiver Operating Characteristic Curve, AUC-ROC):
    1. 概念定义: ROC 曲线是 真阳性率 (TPR)(即召回率)与 假阳性率 (FPR)1 - 特异度)之间的关系图。AUC-ROC 衡量模型区分正负样本的整体能力,值越接近1表示性能越好。
    2. 数学公式: AUC 是一个积分,通常通过数值方法计算,没有简单的代数公式。 AUC=01TPR(FPR)d(FPR) \text{AUC} = \int_0^1 \text{TPR}(FPR) \,d(FPR)
    3. 符号解释:
      • TPR\text{TPR}: 真阳性率,与召回率相同。
      • FPR\text{FPR}: 假阳性率,FPR=FPFP+TNFPR = \frac{FP}{FP + TN}
      • \int: 积分符号。
      • d(FPR): 对 FPR 进行积分。

5.2.3. 生成模型评估指标 (针对生成肽的特性)

  • 多样性 (Diversity): 评估生成肽序列的丰富程度和独特性。
  • 新颖性 (Novelty): 评估生成肽与训练数据中已知肽的差异程度。
  • 与训练数据的相似性 (Similarity to Training Data): 衡量生成肽与训练数据分布的接近程度。
  • 目标属性符合度 (Fidelity to Aimed Properties): 衡量生成肽是否达到了预期的活性、无毒性等目标属性,这通常需要通过辅助判别器或实验验证来评估。

5.3. 对比基线

由于这篇论文是综述,它本身不进行实验,而是总结了被综述研究中使用的对比基线。这些基线通常包括:

  • 传统机器学习方法: 许多 DLLLM 模型会与 RFSVM 等传统 ML 方法进行比较,以展示深度学习在复杂 AMP 预测任务中的优势。例如,Macrel (28^{28}) 作为一个 RF 模型,在许多挖掘研究中可能被用作基线。
  • 早期深度学习模型: 新的 DL 架构(如 Transformer)会与较早的 DL 模型(如 RNNLSTMCNN)进行比较,以展示技术进步。
  • 物理化学性质模型: 一些研究会与基于肽的物理化学性质(如净电荷、疏水性、长度)进行简单建模的方法进行比较,例如 Torres et al. (4^{4}) 的工作就基于理化性质。
  • 随机生成或专家设计: 在生成 AMP 的语境中,生成模型的结果可能会与随机生成的序列或由人类专家根据经验设计的肽进行比较。
  • 其他 AI 模型的变体: 同一类型的 AI 模型(如不同的 VAEGAN 变体)也会相互比较,以评估各自的性能改进。
  • 无 AI 方法 / 传统实验室方法: 总体而言,AI 驱动的方法的出现本身就是对耗时且效率低下的传统实验室筛选和发现方法的改进,因此传统方法可以被视为隐性的基线。

6. 实验结果与分析

本论文作为一篇综述,其“实验结果与分析”部分并非呈现自身的研究成果,而是总结和分析了在 AI 驱动的 AMP 发现领域中,通过各种方法所取得的显著成果和实验验证。它通过引用多项已发表的工作,展示了 AIAMP 挖掘和生成方面的有效性。

6.1. 核心结果分析

论文强调了 AIAMP 发现中加速和优化过程的强大能力,主要体现在以下几个方面:

6.1.1. AMP 挖掘的成功案例

  • 人类蛋白质组: Torres et al. (4^{4}) 的研究通过分析人类蛋白质组,识别出2,603个潜在 AMP 候选物,其中许多此前未被识别。这些肽通过实验验证,并在动物模型中显示出功效,揭示了宿主免疫中一个此前未被认识到的分支。
  • 灭绝物种的分子“去灭绝”: APEX 深度学习模型 (2^{2}) 成功从灭绝生物(如猛犸象)中发现了新型 AMPs,例如 mammuthusin-2elephantin-2,这些已成为有前景的临床前候选物。这项工作展示了 AI 如何将发现新抗生素所需的时间从数年缩短到数小时。
  • 全球微生物组的深度挖掘: Santos-Junior et al. (3^{3}) 利用机器学习分析了全球微生物组的庞大数据,计算预测了近一百万个新的 AMP 候选物,这些候选物被收录到 AMPSphere 数据库中。
  • 人类肠道微生物组: Ma et al. (5^{5}) 的深度学习方法从人类肠道微生物组中识别出181个具有抗菌活性的肽,其中许多与已知 AMPs 的同源性较低(低于40%)。这些肽在体外对多药耐药的革兰氏阴性菌有效,并在小鼠肺部感染模型中显著降低了细菌载量。类似的方法也被成功用于发现抗癌肽 (ACP)。
  • 短肽组合空间探索: Huang et al. (75^{75}) 通过机器学习流程,从一个巨大的虚拟短肽库中发现了三个高效的六肽,它们对多药耐药病原体具有强大的抗菌活性,在小鼠感染模型中表现出与青霉素相当的功效,且毒性较低。

6.1.2. AMP 生成的成功案例

  • HydrAMP 模型 (1^{1}): Szymczak et al. 开发的 HydrAMP 模型(基于 cVAE)成功发现了15个新型、高效的 AMPs。这些肽对多种细菌(包括多药耐药菌株)具有活性,并已通过微生物学实验和溶血实验验证。该模型还能通过“创造力”参数修改现有肽,以优化其特性。
  • 加速设计与优化: 生成模型能够根据目标属性(如活性、非毒性、特定作用机制)设计出新的肽序列。通过 条件生成 (conditional generation)潜在空间采样 (latent space sampling) 等策略,模型能够引导生成过程,创造出可能超越自然界存在肽的合成肽。例如,M3-CAD (85^{85}) 旨在同时优化多个特性(3D结构、菌种特异性活性、作用机制、毒性)。

6.1.3. 实验验证的重要性

论文反复强调了 AI 预测和生成结果的实验验证。许多成功的 AI 驱动发现都经过了严格的实验验证,包括 微生物学实验 (microbiological assays)(如 MIC 测量)、溶血实验 (hemolysis assays)细胞毒性实验 (cytotoxicity assays),以及更高级别的 体内动物模型 (in vivo animal models)。这些验证步骤是证明 AI 方法有效性和可靠性的关键。

6.1.4. 挑战与局限性 (从结果角度看)

尽管取得了显著进展,论文也间接指出了现有结果的局限性:

  • 毒性预测的不足: 相较于活性预测,毒性预测模型(特别是细胞毒性)由于训练数据有限而表现不佳。
  • 复杂修饰肽的处理: 目前的 AI 模型主要针对线性肽,对含有非规范氨基酸或翻译后修饰的复杂肽的发现能力有限。
  • 临床转化仍需努力: 尽管一些 AI 发现的 AMPs 已通过临床前动物模型验证,但尚未有进入临床试验的案例,表明从发现到临床应用仍有漫长路径。

6.2. 数据呈现 (表格)

以下是原文 Table 1: Discriminative Methods for AMP Discovery 的结果:

methodframeworkfeature typetaskexperimental validationapproach type
sAMPred-GAT21GNN, ATT; MLPsequence-derived descriptors, structureAMPML-based
AMPli:22LSTM, ATT; MLPsequenceAMPmicrobiological assays
AMPpredMFA23LSTM, CNN, ATT; MLPsequenceAMP
MBC-attention24CNN, ATT; MLPsequence derived structure, sequence-derived descriptorsactivity
AMP-META26LGBNAMP, activity, toxicitymicrobiological assays
EnDL-HemoLy27LSTM, CNN; MLPsequencetoxicity
Macrel28RFsequence-derived descriptorsAMP, toxicity
Pandi et al24CNN, RNN; MLPsequenceactivitymicrobiological assays, hemolysis assays, cytotoxicity assays
APEX2RNN, ATT; MLPsequenceactivitymicrobiological assays, in vivo animal models, cytotoxicity assays
Capecchi et al.29RNN, GRU, SVM; MLPsequenceactivity, toxicitymicrobiological assays, hemolysis assays
Ansari and White32RNN, LSTMsequencetoxicity, solubility
ESKAPEE-MICpred31LSTM, CNN; MLPsequence, sequence-derived descriptorsactivitymicrobiological assays
Ansari and White30LSTM; MLPsequencetoxicity, non-fouling activity, SHP-2
Zhuang and Shengxin38QSVMsequence-derived descriptorstoxicity
AmPEPpy34RFsequenceAMP
Orsi and Reymond46GPT-3; MLPsequencetoxicity, solubilityLLM-based
iAMP-Attendre40BERT; MLPpLM embeddingAMP
PepHarmony41ESM, GearNet; MLPsequence, structuresolubility, affinity, self-contraction
SenseXAMP42ESM-1b; MLPpLM embeddingactivity
HDM-AMP43ESM-1b; DFpLM embeddingactivitymicrobiological assays
AMPFinder51ProfTrans, OntoProtein; MLPpLM embeddingactivity
LMpred52ProfTrans, MLPpLM embeddingactivity
PHAT49ProfTrans, MLPpLM embeddingsecondary structure
PeptideBERT47BERT (ProtBert); MLPpLM embeddingtoxicity, solubility, non-fouling activity
TransImbAMP53BERT; MLPpLM embeddingactivity
AMPDeep45BERT (ProtBert); MLPpLM embeddingtoxicity
Zhang et al.48BERT; MLPpLM embeddingactivity
Ma, Yue, et al5BERT, ATT, LSTM; MLPsequenceAMPmicrobiological assays, in vivo animal models, hemolysis assays, cytotoxicity assays
iAMP-CA2L39CNN, Bi-LSTM, MLP; SVMstructureAMPstructure-based
sAMP-VGG1655CNN; MLPsequence-derived descriptorsAMP
AMPredicter56ESM; MLPsequence-derived descriptors, structureactivitymicrobiological assays, in vivo animal models, hemolysis assays

分析: Table 1 总结了各种判别方法在 AMP 发现中的应用。

  • 多样化的框架: 从传统的 RFSVM 到现代的 GNNLSTMCNNBERTESM,显示了技术演进的趋势。PLM 嵌入作为特征类型越来越普遍,表明 LLMs 在该领域的重要性。

  • 任务重点: 主要任务集中在 AMP 识别、活性预测和毒性预测,但也有涉及溶解度、二级结构等其他肽属性。

  • 实验验证的稀缺性: 值得注意的是,许多列出的方法没有明确的“experimental validation”或仅有部分验证(如微生物学实验),而同时进行 微生物学实验体内动物模型溶血实验细胞毒性实验 的方法相对较少。这印证了论文中提到的一个挑战:许多判别模型缺乏全面的实验验证。APEXMa, Yue, et al. 的研究在这方面表现突出。

    以下是原文 Table 2: Mining approaches for AMD discovery 的结果。

    Approach typeTool appliedmodel functionproforemenbiophysical sequerce sourcelotsiblogicalfrontillactivityactivityActivity
    For آثارPaper set 1#7free list functionFor Bilireroves выдаFor discoverFor solverFor solverFor solver
    EpCMPaper set 2#7Human 1For hinderFor Human 1For human 1For hinderFree list functionFree list function
    XWBPaperSet Stack 3#7For hinderFor hinderFor human 1For human 1For hinderFree list functionFree list function
    XWBAPaperSet Stack 4#7For hinderFor human 1For hinderFree list functionFor human 1For hinderFree list function
    SuperconPaperSet Stack 5#7For hinderFor hinderFor human 1For hinderFor human 1For hinderG23b1/4
    XGYPaperSet Stack 6#7For hinderFor hinderFor human 1For hinderFor human 1For hinderFree list function
    XLBPaperSet Stack 7#7For hinderFor hinderFor hinderFor human 1For hinderFree list functionG23b1/4
    PaperSet Stack 8#7PaperSet Stack 9#7For hinderFor hinderFor hinderFor human 1For hinderFree list functionG23b1/4
    PaperRTPapersetX9064, LMIP
    XGBscorePaperSETX6026PaperSETX6026PaperSETX6026PaperSET
    EPATfree list FunctionKVF1GVAGFELTGVAGFELTGVAGFELTGVAGFELTGVAGFELTGSACGSAC
    XGB北魏Paper SETLRSMFLRFePTLRFePTLRFePTLRFePTLRNePTLRNePTLRNePT

分析: 如前所述,原文提供的 Table 2 在文本转换后存在严重的数据损坏和格式问题,导致其大部分内容无法正确解读。例如,“For آثار”、“For hinder”等重复且无意义的短语充斥其中,无法提供关于 AMP 挖掘方法、工具、功能或序列来源的有效信息。因此,无法基于此表格进行有意义的学术分析。

以下是原文 Table 3: Generation Approaches to AMP Discovery 的结果:

methodgeneration modecontrolled generationaimed propertiesgeneration frameworkexperimental validationMD
AMP-GAN93unconstrainedconditional generationsequence length, microbial target, target mechanism, activitycGANmicrobiological assays, cytotoxicity assaysyes
MMCD102unconstrainedconditional generation, con-trastive learningAMP, ACPdiffusion
CLaSS100unconstraineddiscriminator-guided filteringAMP, activity, nontoxicity, structureWAEmicrobiological assays, in vivo animal models, cytotoxicity assays, hemolysis assaysyes
LSSAMP83unconstrainedlatent space samplingsecondary structurevector quantized VAEmicrobiological assays, in vivo animal models, cytotoxicity assays, hemolysis assays
AMP-Diffu-sion101unconstrainedpositive-only learningAMPPLM + diffusionmicrobiological assays, in vivo animal models, cytotoxicity assays
AMPGAN v2 94unconstrainedconditional generationsequence length, microbial tar-get, target mechanism, activitycGAN
AMPTrans-LSTM82unconstraineddiscriminator-guided filteringAMPLSTM + transformer
Zeng et al.99unconstraineddiscriminator-guided filteringAMPPLMmicrobiological assays
Jain et al.106unconstrainedactive learningAMPGFRwNets + active learning
Pandi et al.24unconstraineddiscriminator-guided filteringVAEmicrobiological assays, cytotoxicity assays, hemolysis assaysyes
M3-CAD85unconstrainedconditional generation, dis-criminator-guided filteringmicrobial target, nontoxicity, mode of actioncVAEmicrobiological assays and in vivo, cytotoxicity assays, hemolysis assays
Ghorbani et al.88unconstrainedAMPVAE
MODAN97optimizedbaysian optimizationGaussian processmicrobiological assays, hemolysis assays
Cao et al.92unconstraineddiscriminator-guided filteringAMPGANmicrobiological assaysyes
Diff-AMP100unconstraineddiscriminator-guided filteringAMPDiffusion
HydrAMPlunconstrained, analogueconditional generationAMP, activitycVAEmicrobiological assays, hemolysis assaysyes
AMPEMO98optimizeddiscriminator-guided filteringAMP, diversityGenetic algo-rithm
Buehler et al.103unconstrainedconditional generationsecondary structure, solubilityGEN
Renaud and Mansbach94unconstrained,analoguelatent space samplingAMP, hydrophobicityVAE
Capecchi et al.29unconstraineddiscriminator-guided filteringactivity, nontoxicityRNNmicrobiological assays, hemolysis assays
Multi-CGAN90unconstrainedconditional generationactivity, nontoxicity, structurecGAN
QMO99optimizedzeroth-order optimization, gradient descentactivity, nontoxicityWAE
PandoraGAN91unconstrainedpositive-only learninganlrtral activityGAN
PepVAE96unconstrainedlatent space samplingactivityVAEmicrobiological assays
ProT-Diff104unconstraineddiscriminator-guided filteringAMP, activityPLM + diffusionmicrobiological assays and in vivo, cytotoxicity assays, hemolysis assays
MOQA87optimizedD-wave quantum annealeractivity, nontoxicitybinary VAEmicrobiological assays, hemolysis assays

分析: Table 3 展示了 AMP 生成方法的概况。

  • 生成模式: 大多数方法采用 unconstrained (无约束) 生成,但也有一部分支持 analogue (模拟) 生成,即基于现有肽进行修改和优化。
  • 受控生成策略: conditional generation (条件生成) 和 discriminator-guided filtering (判别器引导过滤) 是最常见的受控生成策略,也有 latent space sampling (潜在空间采样)、positive-only learning (仅限正例学习) 等。
  • 目标属性: 几乎所有方法都旨在生成 AMP,并结合活性和无毒性。一些更高级的方法还考虑了序列长度、微生物靶点、作用机制、二级结构、溶解度等。
  • 框架多样性: cGANVAEcVAE 是主流框架,扩散模型 (diffusion models)PLM + diffusion 正在兴起,而 RNNLSTM + transformer遗传算法 等也被应用。
  • 实验验证情况: 相较于判别方法(Table 1),生成方法在实验验证方面似乎更为积极,许多研究进行了 微生物学实验溶血实验细胞毒性实验。然而,同时包含 体内动物模型 (in vivo animal models) 验证的生成研究相对较少,如 CLaSSAMP-DiffusionM3-CADHydrAMPProT-Diff
  • 分子动力学模拟 (MD) 的使用: 一部分生成研究(如 AMP-GANCLaSSPandi et al.Cao et al.HydrAMPProT-Diff)结合了 MD 模拟,这表明 MDAMP 设计和验证中作为补充工具的价值。

6.3. 消融实验/参数分析

论文作为综述,并未直接提供消融实验或参数分析的具体细节,但它在讨论方法论时暗示了这些分析的重要性:

  • 判别方法中的特征融合: SenseXAMP (42^{42}) 通过融合 PLM 嵌入和传统蛋白质描述符来提高性能,这本质上是一种对特征选择的消融分析,表明传统 PDs 仍有价值。

  • PLM 预训练语料库的影响: 论文提到,预训练语料库的选择对模型性能有显著影响(如 UniRef50 优于 UniRef100),这相当于对预训练策略的分析。

  • 生成模型中的控制参数: HydrAMP (1^{1}) 引入的“创造力”参数可以调整生成的肽与原型肽的相似度,这是一种对生成多样性与新颖性之间权衡的参数分析。

  • 鉴别器引导和条件生成: 这些策略的引入本身就是为了提高生成肽的质量和控制力,其效果通常通过与无约束生成或简单生成模型进行对比来评估,类似于消融实验。

    总体而言,虽然没有直接呈现具体的消融实验数据,但论文通过讨论不同方法组件和策略对 AI 驱动 AMP 发现性能的影响,间接反映了这些研究内部进行了类似的分析来优化其模型和方法。

7. 总结与思考

7.1. 结论总结

本综述全面地描绘了人工智能 (AI) 在抗菌肽 (AMP) 发现领域所带来的革命性变革。论文的核心结论可以总结为:

  • AI 是应对 AMR 的关键: 面对日益严峻的抗菌素耐药性 (AMR) 威胁和传统抗生素发现的停滞,AI 提供了一个前所未有的强大工具,能够显著加速新型抗菌药物(尤其是 AMPs)的发现和设计。
  • 双管齐下的策略: AI 驱动的 AMP 发现主要通过两种互补的策略实现:
    1. AMP 挖掘 (AMP Mining): 利用判别模型从海量生物序列数据(基因组、蛋白质组、宏基因组)中高效识别潜在的、具有高“现实性”的 AMPs,包括来自人类、灭绝物种和全球微生物组的未知肽。
    2. AMP 生成 (AMP Generation): 利用生成模型(如 VAEs, GANs, 扩散模型等)学习肽序列的分布,并创造全新的、具有高度“理想化”特性的肽,以优化活性和降低毒性,甚至超越自然界现有肽的性能。
  • 判别方法是基石: 先进的判别方法(包括传统机器学习、深度学习及蛋白质语言模型 PLMs)是这两种策略的共同核心,用于预测肽的活性、毒性及其他关键属性,指导挖掘过程和评估生成结果。
  • 显著的成功案例: 论文列举了多项成功案例,如从灭绝生物中发现临床前候选药物,从微生物组中识别出数百万个新 AMPs,以及通过生成模型设计出具有高效抗菌活性的新型肽,其中许多已通过体外和体内实验验证。
  • 加速与创新: AI 将发现过程从数年缩短到数小时,并能够揭示具有前所未有特性的新肽,为对抗 AMR 提供了新希望。
  • 呼吁持续整合: 论文强调了 AI 持续整合到生物医学研究中的重要性,以应对未来的挑战。

7.2. 局限性与未来工作

论文作者在“挑战与未来展望”部分详细指出了当前 AI 驱动 AMP 发现的局限性,并提出了未来研究方向。

7.2.1. 判别模型的挑战

  • 数据稀缺性:
    • 总体数据量不足: 尤其是对于多重耐药菌株的菌株特异性活性预测数据,以及肽毒性(溶血性、细胞毒性)数据。
    • 负例数据缺乏: 实验通常只报告阳性结果,导致缺乏明确且经过实验验证的非 AMP 或无毒肽的负例数据,这对监督学习模型的训练构成重大挑战。负例数据集的构建方法会严重影响模型性能。
    • 实验条件不统一: 不同的实验条件下测定的活性和毒性数据,使得标签的定义混乱。
  • 结构信息利用不足: 尽管结构信息对功能预测至关重要,但由于结构数据稀缺,以及现有数据库中结构信息未考虑细胞膜近端效应或肽自聚集效应,导致结构信息未能得到充分利用。
  • 模型泛化性与鲁棒性: 现有深度学习模型缺乏客观的外部数据集评估,其鲁棒性 (robustness) 和泛化能力 (generalizability) 仍需验证。
  • 非经典肽的局限性: 当前判别方法主要适用于线性肽。对于含有非规范氨基酸、环状结构、β\beta-氨基酸、修饰半胱氨酸和脂质连接等复杂修饰的肽(例如已获 FDA 批准的 多粘菌素 (polymyxins)),现有模型无法有效处理,限制了其在临床相关 AMPs 发现中的应用。
  • 其他重要属性缺乏数据: 缺乏肽的体内半衰期 (half-life) 数据,以及 吸收、分布、代谢、排泄和毒性 (ADMET) 特性数据,这阻碍了更全面的 AI 模型训练,导致 AI 驱动的设计无法充分考虑这些关键的转化开发因素。

7.2.2. AMP 挖掘的挑战

  • 依赖判别模型: AMP 挖掘 的局限性直接继承自判别模型,例如无法检测复杂修饰肽。
  • 基因组背景信息利用不足: 现有方法虽然取得了成功,但对基因组背景信息的充分利用仍有待探索。
  • 多模态数据整合不足: 挖掘方法可以受益于整合转录组学或核糖体测序数据,但这些数据类型与基因组数据相比仍稀缺。
  • 缺乏多序列比对分析: 大多数方法独立处理每个序列,而未充分利用多序列比对中蕴含的自然变异信息。
  • 临床转化仍需努力: 尽管一些 AI 挖掘的 AMPs 已进入临床前测试,但尚未有进入临床研究的案例。

7.2.3. AMP 生成的挑战

  • 模型评估和基准测试困难: 生成肽的评估通常基于多样性、新颖性、与训练数据的相似性,但活性和毒性只能通过辅助判别器估计或少数实验验证。缺乏统一、客观的评估标准和基准,使得不同生成模型之间难以比较。
  • 高效排名机制缺乏: 生成模型能产生大量候选肽,但缺乏有效的方法来高效筛选和排名最佳候选物,目前仍依赖大量过滤和专家知识。
  • 数据稀缺性: 与判别模型类似,数据稀缺也限制了生成模型的性能。
  • 生成“分布外”样本的挑战: 寻找高效肽可以被视为生成“分布外 (out-of-distribution)”样本,这是生成建模中的一个公认难题。
  • 非规范氨基酸和修饰肽处理不足: 绝大多数生成模型仅限于20种标准氨基酸字母表,无法处理翻译后修饰或非规范氨基酸,极大地低估了肽世界的复杂性。
  • 临床前和临床验证有限: 相对较少通过生成式 AI 获得的 AMPs 经过了临床前体内验证,进入临床试验的更是没有。这需要 AI、化学和生物学实验室与工业伙伴的协同努力。
  • 生成模型与肽设计的适配性: 许多新兴的生成 AI 方法最初为文本或图像生成开发,并非总能很好地适配肽生成任务。实现更精细的受控生成,以设计特定属性的 AMPs,仍是一个有待探索的重要研究方向。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇综述提供了一个非常鼓舞人心的视角,展示了 AI 如何成为解决全球性生物医学难题(如 AMR)的强大催化剂。

  • 加速与创新潜力: 最重要的启发是 AI 将药物发现过程从传统耗时数年缩短到数小时甚至更短的巨大潜力。这种效率提升对于应对快速演进的病原体至关重要。
  • “分子去灭绝”的想象力: 从灭绝物种中发现抗生素的理念 (molecular de-extinction) 极具想象力,它拓展了我们寻找药物分子的视野,揭示了自然界中未被开发的巨大资源库。这表明 AI 不仅能优化已知,还能帮助我们重新审视过去,发现新的可能性。
  • 交叉学科融合的重要性: AMP 发现的进展是计算生物学、机器学习、化学、微生物学等多学科深度融合的成果。它强调了跨领域合作在解决复杂科学问题中的不可替代性。
  • 潜在空间探索的智能性: AI,尤其是生成模型,能够智能地探索巨大的化学空间和序列空间,这远远超出了人类直觉或传统高通量筛选的能力。这种智能探索有望发现结构新颖、作用机制独特的肽。

7.3.2. 批判与改进

尽管 AI 驱动 AMP 发现前景广阔,但论文中也揭示了一些值得批判和改进的地方:

  • 数据质量与数量的根本性挑战:

    • 负例数据的缺乏是核心痛点: 论文多次强调缺乏实验验证的负例数据是制约判别模型性能的根本原因。这不仅仅是技术问题,更是科学文化问题——研究人员倾向于发表阳性结果。未来的工作需要激励科学家主动生成和分享负例数据,并建立统一的实验标准来确保数据质量。
    • ADMET 数据的空白: 缺乏 ADMET 数据是临床转化的巨大障碍。这需要大规模的、系统性的实验研究来填补这一空白,并建立相应的数据库以训练 AI 模型。仅依靠小分子 SMILES 预测肽的 ADMET 性能可能不足。
  • 模型评估的标准化问题: 论文指出生成模型缺乏统一的评估和基准测试方法,判别器的任意选择可能导致结果不可比。这呼吁社区建立一套标准化的基准数据集、评估指标和协议,以便公平地比较不同模型的性能。

  • 从“现实”到“临床”的鸿沟: 尽管 AI 能够加速“现实”和“理想”肽的发现,但从实验室的有效性到临床应用的安全性、稳定性、药代动力学等仍有巨大的鸿沟。目前 AI 发现的 AMPs 尚未进入临床试验,这表明需要更深入地整合生物学、药学知识到 AI 设计流程中,而不仅仅是序列和结构预测。

  • 对复杂修饰肽的限制: 现有模型主要关注线性肽,而许多临床上重要的 AMPs 具有复杂的修饰。这限制了 AI 在更广阔的肽空间中发挥作用。未来的 AI 架构需要发展出能够直接建模和生成这些复杂结构的肽。

  • “黑箱”问题与可解释性: 尽管 AI 能够做出强大的预测,但其“黑箱”性质有时会阻碍对作用机制的深入理解,从而影响理性设计和优化。提高 AI 模型的可解释性对于生物医学研究至关重要。

  • 伦理与社会考量: 随着 AI 能够设计出具有强大生物活性的分子,其潜在的误用风险也需要被关注。如何确保 AI 的负责任和伦理化使用是未来需要考虑的问题。

    总之,这篇综述清晰地展示了 AIAMP 发现中的巨大潜力和已取得的成就,同时也诚实地指出了其面临的挑战。未来的成功将取决于如何系统地解决数据稀缺性、模型评估标准化、复杂肽处理以及从实验室到临床的转化等关键问题,并进一步促进跨学科的深度合作。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。