AiPaper
论文状态:已完成

Artificial intelligence-driven antimicrobial peptide discovery

发表:2023/08/21
原文链接PDF 下载
价格:0.10
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文综述了利用人工智能判别器和生成器相结合的方法,加速抗菌肽(AMPs)的发现与设计。通过预测活性与毒性,实现对AMP序列的受控生成,以应对抗生素耐药性危机,推动安全有效新型抗菌药物的研发。

摘要

Antimicrobial peptides (AMPs) emerge as promising agents against antimicrobial resistance, providing an alternative to conventional antibiotics. Artificial intelligence (AI) revolutionized AMP discovery through both discrimination and generation approaches. The discriminators aid the identification of promising candidates by predicting key peptide properties such as activity and toxicity, while the generators learn the distribution over peptides and enable sampling novel AMP candidates, either de novo, or as analogues of a prototype peptide. Moreover, the controlled generation of AMPs with desired properties is achieved by discriminator-guided filtering, positive-only learning, latent space sampling, as well as conditional and optimized generation. Here we review recent achievements in AI-driven AMP discovery, highlighting the most exciting directions.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

人工智能驱动的抗菌肽发现 (Artificial intelligence-driven antimicrobial peptide discovery)

1.2. 作者

Paulina Szymczak 和 Ewa Szczurek (通讯作者) 均隶属于华沙大学数学、信息学和力学学院。

1.3. 发表期刊/会议

该论文作为预印本发表于 arXiv。arXiv 是一个开放获取的预印本服务器,允许研究人员在正式同行评审和出版之前分享他们的研究成果。虽然它不是正式期刊或会议,但在学术界,尤其是在计算机科学和物理学等领域,是一个重要的信息交流平台。

1.4. 发表年份

2023年

1.5. 摘要

抗菌肽 (Antimicrobial Peptides, AMPs) 被认为是应对抗生素耐药性 (Antimicrobial Resistance, AMR) 的有前景的替代方案。人工智能 (Artificial Intelligence, AI) 通过判别 (discrimination) 和生成 (generation) 两种方法彻底改变了 AMP 的发现过程。判别器 (discriminators) 通过预测关键的肽属性(如活性和毒性)来帮助识别有前景的候选物。生成器 (generators) 则学习肽的分布,并能够从头 (de novo) 或作为原型肽的类似物 (analogues) 采样新的 AMP 候选物。此外,通过判别器引导过滤 (discriminator-guided filtering)、仅正样本学习 (positive-only learning)、潜在空间采样 (latent space sampling) 以及条件 (conditional) 和优化 (optimized) 生成等方法,实现了具有所需属性的 AMP 的受控生成。本文综述了 AI 驱动的 AMP 发现领域 recent achievements,并强调了最令人兴奋的方向。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2308.10921v1

1.7. PDF 链接

PDF 链接: https://arxiv.org/pdf/2308.10921v1.pdf

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 全球日益严重的抗生素耐药性 (Antimicrobial Resistance, AMR) 问题,传统抗生素开发陷入停滞,导致迫切需要发现新型抗菌药物。抗菌肽 (Antimicrobial Peptides, AMPs) 作为替代方案备受关注,但其临床应用受限于低活性、高毒性或不稳定性等问题。因此,如何高效、精准地发现和设计安全有效的 AMPs 是一个重大挑战。

为什么这个问题在当前领域是重要的:

  • 全球健康危机: AMR 在2019年已成为全球第三大致死原因,超过艾滋病和疟疾 [1]。

  • 传统抗生素研发瓶颈: 超过30年没有成功开发出新型抗生素 [2]。

  • AMPs的潜力与局限: AMPs 具有对抗耐药病原体的潜力,且耐药性产生速度慢于传统抗生素 [3]。然而,尽管进行了大量研究,目前只有少数 AMPs 进入临床试验,极少被商业化 [5]。其临床失败常源于活性不足、毒性高或稳定性差 [6]。

    这篇论文的切入点或创新思路: 近年来,人工智能 (AI),特别是生成模型 (generative models) 和大语言模型 (large language models) 的快速发展,为药物、蛋白质和 AMPs 的设计带来了革命性的变化 [7, 8, 9, 10, 11, 12]。本文旨在回顾 AI 驱动的 AMP 发现领域的最新进展(特别是过去两年的成果),系统性地分析 AI 方法在 AMP 发现中的具体任务、分类、受控生成策略、评估方法,并指出当前面临的挑战和未来的发展方向,以补充现有综述的不足。

2.2. 核心贡献/主要发现

本文作为一篇综述,其核心贡献在于:

  • 系统性分类与表征: 详细描述了 AI 方法在 AMP 发现中可以执行的任务,引入了 AMPs 的各种属性及其模型表征方式。
  • AI 方法的两大类别: 将 AI 方法分为判别 (discrimination) 和生成 (generation) 两大类,并对最新进展进行了深入分析。
    • 判别器 (Discriminators): 依据预测属性(如活性、毒性)对现有方法进行分类。
    • 生成器 (Generators): 依据无约束生成 (unconstrained generation) 和模拟生成 (analogue generation) 模式进行归类,并重点阐述了受控生成 (controlled generation) 策略,包括判别器引导过滤 (discriminator-guided filtering)、仅正样本学习 (positive-only learning)、潜在空间采样 (latent space sampling) 以及条件 (conditional) 和优化 (optimized) 生成。
  • 评估方法总结: 总结了 AI 驱动的 AMP 发现方法的评估方式,包括方法学评估和实验验证。
  • 挑战与机遇分析: 概述了阻碍 AMPs 进入临床的未解决挑战,并提出了 AI 领域可促进进展的方法学机遇。
  • 强调最新方向: 特别关注了过去两年内的研究成果,突出了该领域最令人兴奋的前沿方向。

3. 预备知识与相关工作

3.1. 基础概念

为了理解这篇关于人工智能驱动的抗菌肽发现的综述,初学者需要掌握以下几个基础概念:

  • 抗生素耐药性 (Antimicrobial Resistance, AMR): 指细菌、病毒、真菌和寄生虫等微生物在接触药物后,能够存活甚至繁殖的现象。这使得感染变得难以治疗,增加了疾病传播、重症和死亡的风险。AMR 是一个严重的全球健康威胁。

  • 抗菌肽 (Antimicrobial Peptides, AMPs): 是一类由宿主防御系统天然产生的短链(通常为10-100个氨基酸)多肽。它们具有广谱抗菌活性,通常带正电荷(+2至+9)并含有较高比例(30%\geq 30\%)的疏水氨基酸。AMPs 主要通过破坏微生物细胞膜来发挥作用,且产生耐药性的速度通常慢于传统抗生素。

  • 最小抑菌浓度 (Minimum Inhibitory Concentration, MIC): 在抗菌药物敏感性测试中,MIC 是指在体外培养条件下,能抑制微生物可见生长的最低药物浓度。MIC 值越低,代表药物的抗菌活性越强。

  • 最小杀菌浓度 (Minimal Bacterial Concentration, MBC): 在体外培养条件下,能杀死99.9%初始微生物菌落的最低药物浓度。

  • 溶血活性 (Hemolytic Activity): 衡量药物对红细胞(如人红细胞)造成破坏(溶血)的程度。通常用 HC50 表示,即导致50%红细胞溶血的药物浓度。HC50 值越高,说明肽的溶血毒性越低,对宿主细胞越安全。

  • 细胞毒性 (Cytotoxicity): 衡量药物对各类宿主细胞(如成纤维细胞、结肠细胞、肺细胞、癌细胞系)的毒性作用。常用 IC50 或 EC50 表示,即导致50%细胞死亡或抑制50%细胞活性的药物浓度。与 HC50 类似,IC50/EC50 值越高,毒性越低。

  • 分级抑制浓度指数 (Fractional Inhibition Concentration, FIC index): 用于评估两种或多种抗菌药物联合使用时是否具有协同作用。FIC 值 0.5\leq 0.5 通常表示存在显著协同作用。

  • 人工智能 (Artificial Intelligence, AI): 旨在使机器模仿、学习和执行人类智能任务的科学和技术领域。在本文中,AI 主要指机器学习和深度学习方法在生物分子设计中的应用。

  • 判别模型 (Discriminators): 机器学习模型的一种,用于对输入数据进行分类或预测其属性。在 AMP 发现中,判别器可以预测肽是否具有抗菌活性、毒性,或其 MIC 值等。

  • 生成模型 (Generators): 机器学习模型的一种,用于生成新的、与训练数据具有相似特征的数据样本。在 AMP 发现中,生成器可以创建全新的肽序列,或者在现有肽序列的基础上生成具有特定属性的变体。

  • 深度学习 (Deep Learning): 机器学习的一个子领域,利用多层人工神经网络(深度神经网络)从大量数据中学习复杂的模式。深度学习在处理序列数据(如肽序列)和图像数据方面表现出色。

  • 自然语言处理 (Natural Language Processing, NLP) 模型: 专注于处理和理解人类语言。由于肽序列可以被视为“氨基酸语言”,因此 NLP 模型(如 BERT、LSTM)常被改编用于分析和生成肽序列。

    • 长短期记忆网络 (Long Short-Term Memory, LSTM): 一种特殊的循环神经网络 (Recurrent Neural Network, RNN),能够学习长期依赖关系,适用于序列数据。
    • BERT (Bidirectional Encoder Representations from Transformers): 基于 Transformer 架构的预训练语言模型,通过双向上下文信息学习词嵌入 (word embeddings),在理解序列语境方面非常强大。
  • 生成对抗网络 (Generative Adversarial Networks, GANs): 由一个生成器 (Generator) 和一个判别器 (Discriminator) 组成的深度学习框架。生成器试图创建逼真的假数据,判别器则试图区分真实数据和假数据。两者通过对抗性训练不断提高性能,最终生成器能产生高质量的新数据。

  • 变分自编码器 (Variational Autoencoders, VAEs): 一种生成模型,由编码器 (encoder) 和解码器 (decoder) 组成。编码器将输入数据映射到一个潜在空间 (latent space) 的概率分布,解码器从该潜在空间采样并生成新数据。VAEs 能够学习数据的紧凑、连续的潜在表示,便于进行数据生成和属性控制。

  • 图神经网络 (Graph Neural Networks, GNNs): 一类用于处理图结构数据的神经网络。当肽被表示为原子连接图时,GNNs 可以用来学习其结构特征。

  • 分子动力学模拟 (Molecular Dynamics, MD simulations): 一种计算机模拟技术,通过计算原子和分子在给定力场下的运动轨迹,来模拟分子系统的行为。在 AMP 发现中,MD 模拟可以用于预测肽的构象稳定性、与膜的相互作用模式以及作用机制,是评估肽性质的重要工具。

  • 潜在空间 (Latent Space): 在生成模型中,潜在空间是一个低维的抽象空间,用于表示数据的压缩和语义特征。模型通过在这个空间中采样或操作,来生成具有特定属性的新数据。

3.2. 前人工作

这篇论文本身是一篇综述,其目标是整合并总结最新的研究进展。它并未基于某一特定的前人工作,而是对整个 AI 驱动的 AMP 发现领域进行了梳理。论文提及了此前的一些综述,并说明了自身工作的切入点:

  • 聚焦特定 AI 方法的综述: 一些现有综述可能侧重于特定 AI 方法的原理,例如语言模型和生成模型 [12]。

  • 聚焦特定深度学习方法的综述: 另一些可能专注于几何深度学习方法 [11]。

    本文的工作旨在补充这些现有综述。其独特性在于:

  • 时间范围: 重点关注过去两年(从2021年到2023年)内 AI 驱动的 AMP 发现的最新进展。

  • 全面性: 涵盖了更广泛的 AI 方法,包括判别器和生成器,以及多种受控生成策略。

  • 突出令人兴奋的方向: 旨在识别并强调当前领域中最有前景的研究方向。

    因此,本文不是在某个具体技术点上超越前人,而是在对领域趋势的总结和分析上提供了更新、更全面的视角。

3.3. 技术演进

AI 驱动的 AMP 发现领域的技术演进可以概括为从简单的特征工程和分类任务,发展到复杂的深度学习模型,再到如今的生成式 AI 和受控设计。

  1. 早期阶段:基于描述符的判别模型 (Descriptor-based Discriminators):

    • 最初,研究人员主要依赖人工设计的肽描述符(如氨基酸组成、理化性质、二级结构预测)结合传统机器学习算法(如支持向量机 SVM、随机森林 Random Forest)来预测肽的抗菌活性或毒性。
    • 这些方法侧重于将肽分类为 AMP/非 AMP。
  2. 深度学习的崛起:自动特征提取与更复杂的判别 (Deep Learning for Discrimination):

    • 随着深度学习技术的发展,特别是循环神经网络 (RNNs, LSTMs) 和卷积神经网络 (CNNs) 的引入,模型能够直接从肽序列中自动学习更抽象、更有效的特征。
    • 预训练语言模型(如 BERT)在蛋白质序列上的应用,进一步提升了特征提取能力,使得 AMP-BERT [44] 等模型能更准确地进行分类。
    • 判别任务也从简单的 AMP/非 AMP 分类发展到更具体、更实用的预测,如 MIC 值预测 [36, 46]、菌株特异性活性预测 [35, 46],以及毒性预测 [47]。
  3. 生成模型:从识别到设计 (Generative Models: From Identification to Design):

    • 生成式 AI 的出现是领域的一个重要转折点,使得研究不再局限于从现有数据库中筛选肽,而是能够从头生成 (de novo generation) 新的、潜在的 AMP 候选物。
    • 生成对抗网络 (GANs)变分自编码器 (VAEs) 成为了主要的生成框架。GANs 通过对抗学习生成逼真的肽序列 [19, 21, 45, 29],VAEs 则通过学习潜在空间来生成和操作肽属性 [41, 24, 18, 22, 59, 30, 32, 31]。
    • 模拟生成 (Analogue generation) 也随之兴起,允许在现有肽的基础上进行微调和优化,生成具有相似骨架但改进性能的类似物 [31, 30, 22, 42, 32, 59, 51]。
  4. 受控生成与优化:走向精准设计 (Controlled and Optimized Generation):

    • 仅仅生成新肽是不够的,关键在于生成具有所需特定属性的肽。这推动了受控生成策略的发展:
      • 判别器引导过滤 (Discriminator-guided filtering): 将生成模型与判别器结合,筛选出具有特定属性的生成肽。
      • 条件生成 (Conditional generation): 在生成过程中直接引入条件信息,指导模型生成满足条件的肽。例如,条件 VAE (cVAE) 和条件 GAN (cGAN)。
      • 潜在空间采样 (Latent space sampling): 利用 VAE 学习到的潜在空间的结构,通过在特定区域采样来控制生成肽的属性。
      • 优化生成 (Optimized generation): 将生成模型与优化算法(如贝叶斯优化、梯度下降、进化算法)相结合,对肽序列进行迭代优化,以达到多个目标(如高活性、低毒性)。
  5. 多模态与实验结合:加速发现 (Multi-modal and Experimental Integration):

    • 将肽序列信息与结构信息相结合,甚至纳入细胞生物学和分子动力学模拟结果,形成更全面的肽表征和评估。

    • AI 方法开始与自动化实验流程相结合(如细胞外生物合成),形成快速迭代的“设计-合成-测试”循环,显著加速 AMP 的发现 [24]。

      总体而言,AI 在 AMP 发现中的演进是一个从“识别”到“生成”再到“精准设计和优化”,并最终走向与“自动化实验”融合,加速药物发现的进程。

3.4. 差异化分析

本文在 AI 驱动的 AMP 发现领域与现有相关综述文章的主要差异化体现在:

  1. 时间聚焦: 本文明确指出其综述范围是“过去两年(last two years)”的进展。这意味着它提供了比早期综述更时新、更前沿的视角,能够捕捉到最近的技术突破和趋势,例如大型语言模型和图神经网络在肽设计中的应用。而许多其他综述可能覆盖更长的时间跨度,或在撰写时未能包含这些最新发展。

  2. 全面性与深度结合:

    • 方法论的全面分类: 本文不仅区分了判别器和生成器,还在生成器部分细致地划分了无约束生成、模拟生成,并重点阐述了五种受控生成策略(判别器引导过滤、仅正样本学习、潜在空间采样、条件生成和优化生成)。这种细致的分类有助于读者更好地理解不同 AI 方法的应用场景和技术细节。
    • 突出“最令人兴奋的方向”: 本文旨在超越对方法的简单罗列,而是通过批判性分析,识别并强调当前领域中最具潜力和创新性的研究方向,这在许多广度优先的综述中可能难以深入体现。
  3. 补充现有综述的视角: 论文提到,此前的综述可能侧重于:

    • 特定 AI 方法的原理: 例如,只关注语言模型和生成模型的工作原理 [12]。
    • 特定深度学习方法: 例如,专门讨论几何深度学习方法 [11]。 本文通过提供一个更广泛的、涵盖判别和生成模型的、并着重于受控生成和评估挑战的综述,有效补充了这些聚焦于特定主题的综述。
  4. 挑战与机遇的深入探讨: 本文在总结现有成就的同时,投入了大量篇幅探讨了该领域面临的实际挑战(如数据标准化、数据稀缺性、噪声处理、未充分利用现有数据结构)以及未来的发展机遇(如基准数据集建设、多属性数据填充、AI 驱动的 MD 模拟加速、优化生成、自动化实验室流程)。这种对现实世界障碍和未来潜力的深入分析,使其不仅是一个技术回顾,更是一个领域发展的路线图。

    总而言之,本文的差异化在于其对最新研究成果的及时捕捉、对方法论的细致分类、对关键挑战的深入剖析以及对未来发展方向的前瞻性展望,使其成为 AI 驱动 AMP 发现领域近期进展的全面且富有洞察力的指南。

4. 方法论

本文作为一篇综述论文,其“方法论”体现在它如何系统地组织、分类和分析 AI 驱动的抗菌肽 (AMP) 发现领域的研究进展。作者通过以下几个核心方面来构建其综述框架:AMP 的属性与表征、AI 方法的分类(判别器和生成器)、受控生成策略以及评估方法。

4.1. AMP 的表征与数据挑战

4.1.1. AMP 的多种属性

AMPs 具有多种属性,这些属性对于评估其临床潜力至关重要。

  • 活性 (Activity): 主要通过抗菌实验测量,例如针对不同细菌菌株的最小抑菌浓度 (MIC) 或最小杀菌浓度 (MBC)。常见参考菌株包括 Escherichia coli ATCC 25922Staphylococcus aureus ATCC 25923
  • 毒性 (Toxicity): 通常以溶血活性 (hemolytic activity) 或细胞毒性 (cytotoxicity) 衡量。
    • 溶血活性 (Hemolysis): 主要通过 HC50 评估,表示导致人红细胞 50% 溶血的肽浓度。
    • 细胞毒性 (Cytotoxicity): 针对多种细胞类型(成纤维细胞、结肠细胞、肺细胞、癌细胞系),使用 IC50 或 EC50 衡量。
  • 稳定性 (Stability): 肽在生理环境下的降解速率或保留其功能的时间。
  • 协同作用 (Synergy): AMPs 与传统抗生素或其他药物联用时的增强效果,用分级抑制浓度指数 (FIC index) 表示,FIC 值 0.5\leq 0.5 表示显著协同。

4.1.2. AMP 的模型表征

AI 模型处理 AMP 序列时,需要将其转换为可计算的表示形式。

  • 氨基酸序列 (Amino Acid Sequence): 最普遍的表征方式 [17-32]。
  • N端和C端修饰 (N and C-terminal Modifications): 少数方法考虑了这些修饰对肽结构和电荷的影响 [33, 25]。
  • 衍生属性 (Derived Properties):
    • 氨基酸组成 (Amino acid composition): 不同氨基酸在序列中的比例。
    • 理化属性 (Physicochemical attributes): 如疏水性、亲水性、电荷、等电点等 [34, 35, 36, 37, 38, 39]。
    • 序列相似性 (Sequence similarity): 基于序列比对的相似性度量 [40]。
    • 结构细节 (Structural details): 二级结构 [41]、分子指纹 (molecular fingerprints) [42] 和原子类型连通性 (atom-type connectivity) [43]。
  • 预训练语言模型嵌入 (Pretrained Language Model Embeddings): 使用在蛋白质序列上预训练的语言模型(如 BERT)提取的序列嵌入 (sequence embeddings),在 AMP 发现中显示出有效性 [44, 45, 46, 47, 48, 49, 50, 51]。
  • 组合编码 (Combinations of Encodings): 一些方法结合了上述多种编码方式 [40, 33, 52]。

4.1.3. 数据集构建的挑战

大多数 AI 驱动的 AMP 发现方法在监督学习环境下运行,需要正例和负例数据集。然而,数据集的构建存在诸多挑战:

  • 正例数据集: 通常直接从 AMP 数据库收集,但往往包含大量异质性样本,且存在偏倚(例如,细菌 AMPs 大多只针对大肠杆菌进行测试)。
  • 负例数据集: 常见做法是从 UniProt 中筛选,排除与“抗菌”、“抗生素”等关键词相关的条目 [17, 44, 37, 40, 49, 19, 41, 24, 50]。然而,这种选择方式可能导致高度偏倚 [53]。另一种方法是使用打乱的 AMP 序列作为负例 [39]。
  • 活性/毒性测量的冲突:
    • 单位不一致: 活性测量单位报告为质量/体积 (μg/mL\mu\mathrm{g/mL}) 或摩尔浓度 (μM\mu\mathrm{M}),缺乏统一共识。单位转换可能忽略反离子 (counterions) 对肽活性和细胞毒性的影响 [54]。

    • 矛盾的条目: 同一个肽可能在不同实验室报告了不同的活性/毒性测量值。处理冲突的方法包括平均值 [21, 25, 46, 36]、分位数离散化 [21]、选择最小值、丢弃冲突条目 [34] 或保留所有测量值 [52, 23]。

    • 阈值缺乏共识: 对于何为“活性”或“毒性”的肽,缺乏统一的定义,不同方法采用的阈值各异(参见 Table 1)。

      以下是原文 Table 1 的结果:

      Ref Task Property Positive Negative
      [35] Discrimination Activity MIC <25 µg/ml MIC >100 µg/ml
      Discrimination Activity MIC <25 µg/ml MIC >100 µg/ml
      Generation Activity MIC <25 µg/ml MIC >100 µg/ml
      E Generation Activity MIC <5 µM MIC >5 µM
      Generation Activity MIC <32 µg/mL MIC >32 µg/mL
      [28] Generation Activity MIC <32 µg/mL or 10 µM MIC >32 µg/mL or 10 µM
      [24] Generation Activity log MIC <4 µM log MIC >4 µM
      Generation Toxicity Non-toxic Toxic
      Discrimination Toxicity Less than 20% hemolysis at a concentration of at least 50 µM more than 20% hemolysis at any concentration
      AEE Discrimination Toxicity HC50 >100 µg/ml HC50 >100 µg/ml HC50 <100 µg/ml
      Generation Toxicity HC50 >100 µM HC50 <100 µg/ml
      Discrimination Toxicity MHC ≥ 50 µM HC50 <100 µM MHC ≤ 50 µM
      Generation Toxicity Hemolytic/cytotoxic activities >250 µg/ml
      Hemolytic/cytotoxic activities <200 µg/ml
Table 1: Activity and toxicity thresholds applied in AMP discovery methods used for defining positive an negative examples.

4.2. 人工智能方法分类

4.2.1. AMP 判别器 (AMP Discriminators)

判别器主要用于分类肽或预测其属性。

  1. AMP 或非 AMP 分类 (AMP or non-AMP Classification):

    • 目的: 将肽广泛地分类为 AMP 或非 AMP。
    • 方法:
      • AMPlify [17]:基于双向长短期记忆网络 (bidirectional Long Short-Term Memory, LSTM) 模型,并结合多头注意力机制 (multihead attention mechanism),自动提取描述性特征。
      • AMP-BERT [44]:在蛋白质序列上预训练的 BERT 模型,利用其强大的序列编码能力进行分类。
      • VGG16-AMP [43]:将序列和结构信息转化为基于连通性矩阵 (connectivity matrices) 的三通道图像,然后应用图像识别方法(如 VGG16 架构)进行分类。
    • 子类别分类: 进一步将 AMPs 分类为抗菌、抗病毒、抗真菌、抗癌等。
      • 单标签分类(如抗癌肽的二分类)[55]。
      • 多标签分类(挑战性更大,受限于训练数据)[49, 40]。例如,Yang et al. [40] 提出两阶段二分类:首先是 AMP/非 AMP,其次是抗菌/非抗菌子类别。
    • 局限性: 这种宽泛的分类缺乏特异性和实用性,因为被分类为 AMP 的肽可能对特定细菌菌株的活性并不高 [31]。
  2. MIC 预测 (MIC Prediction):

    • 目的: 预测肽的最小抑菌浓度,提供更具体和实用的信息。
    • 方法:
      • 回归任务 (Regression): 直接预测 MIC 值 [36, 46]。
      • 分类任务 (Classification): 基于设定阈值将肽分类为“活性”或“非活性”[34, 35]。
      • 菌株特异性预测 (Strain-Specific Prediction): 针对特定属 [25, 46]、种 [34] 或菌株 [35] 进行预测。
      • 微生物特异性菌株 (Microbial Specific Strain, MSS) 预测 [35, 46]: 预测给定肽-细菌菌株对的活性,利用菌株的基因组信息,包括菌株间相似性和寡核苷酸组成。
      • 活性比较 [25]: LosinVeltri 使用暹罗神经网络 (Siamese neural networks) 预测每对 AMP 之间的 MIC 差异。
      • 协同效应预测 [38]: Olcay et al. 提出预测肽和抗生素针对给定细菌菌株的协同效应(FIC)。
  3. 其他属性的判别器 (Discriminators for Other Properties):

    • 毒性预测: 相对较少,但也有将肽分类为毒性/非毒性或溶血性/非溶血性的方法 [47, 33, 52, 23]。Salem et al. [47] 使用迁移学习 (transfer learning),首先训练大型语言模型识别分泌肽,然后将其应用于溶血活性分类。
    • 溶解度预测 (Solubility Prediction): AI 也用于预测肽的溶解度 [52, 56, 57]。但这些方法主要针对长序列,对短肽的准确性可能较低。
    • 二级结构分类/预测 (Secondary Structure Classification/Prediction): Ji et al. [48] 构建了一个结合预训练语言模型、超图多头注意力网络和带条件随机场 (Conditional Random Fields, CRF) 的双向 LSTM 的二级结构分类器,专为短肽序列设计。也有用于 AMPs 的结构预测方法 [58, 24],但可能存在过度稳定化二级结构的趋势 [31],且多数模型适用于大蛋白质。

4.2.2. AMP 生成器 (AMP Generators)

生成器是 AI 驱动 AMP 发现的最新进展,旨在创建新颖的肽序列。

  1. 生成模式 (Generation Modes):

    • 无约束生成 (Unconstrained Generation): 模型从头 (de novo) 自由采样肽序列,不依赖于现有原型肽 [31, 29, 28, 26, 18, 24, 21, 41, 20, 19]。
    • 模拟生成 (Analogue Generation): 以一个给定肽作为原型,生成其类似物。这可以单步或多步进行,多步生成可能更优化但与原型相似度降低 [31, 30, 22, 42, 32, 59, 51]。
  2. 建模框架 (Modeling Frameworks):

    • 生成对抗网络 (Generative Adversarial Networks, GANs): 常见的生成方法 [19, 21, 45, 29]。所有基于 GAN 的模型都实现了无约束生成模式。
    • 变分自编码器 (Variational Autoencoders, VAEs): 另一种流行的生成方法 [41, 24, 18, 22, 59, 30, 32, 31]。所有 VAE 模型也实现了无约束生成。VAEs 还常用于模拟生成,通过在潜在空间中编码原型肽并采样类似物。
    • 循环神经网络 (Recurrent Neural Network, RNN): Capecchi et al. [28] 使用 RNN 进行无约束生成。
    • 图神经网络 (Graph Neural Network, GNN): Buehler [26] 使用自回归 Transformer GNN 进行无约束生成。
  3. 受控 AMP 生成 (Controlled AMP Generation): 为了获得具有所需属性的肽,生成过程需要受到控制。受控属性可以包括 AMP 活性 [20, 45, 31, 2, 0]、活性 [9, 19, 20, 1, 24, 28, 31, 6, 59, 3]、毒性 [0, 8, 59, 3]、靶标 [19, 1]、作用机制 [19, 21]、疏水性 [22]、二级结构 [41, 26, 20] 以及序列长度 [19, 21]。 受控生成主要通过以下方法实现,如图像 1c 所示:

    • 判别器引导过滤 (Discriminator-guided filtering):

      • 原理: 生成模型与判别器耦合 [20, 24, 45, 28]。生成模型产生大量肽候选物后,判别器根据其预测属性(如活性、毒性)筛选出符合要求的肽。
      • 实践: 判别器通常在独立数据集上训练,然后应用于生成的样本。在 CLaSS [20] 中,判别器在生成模型的潜在空间中以拒绝采样 (rejection sampling) 方案进行训练。
    • 仅正样本学习 (Positive-only learning):

      • 原理: 模型仅使用正例进行训练 [29, 45]。由于这些模型学习的是底层数据分布,因此生成的肽也预期为正例。
      • 实践: 例如,PandoraGAN [29] 在经过实验验证的高抗病毒活性肽上训练。这种方法也可与迁移学习结合,如 RNN 模型首先在活性肽上训练,然后使用活性和非溶血肽进行微调 [28]。
    • 潜在空间采样 (Latent space sampling):

      • 原理: 利用具备潜在空间 (latent space) 的生成模型(如 VAEs)的结构,通过在潜在空间中采样来获取具有所需属性的候选肽 [41, 30, 22]。
      • 实践:PepVAE [30] 中,活性肽从潜在空间中与非活性查询肽的余弦相似度 (cosine similarity) 最远的区域采样。Renaud et al. [22] 引入了主成分分析 (PCA) 属性对齐采样,通过固定一个与特定属性(如疏水性)相关的核心主成分,沿其他主成分采样来生成相似肽。Wang et al. [41] 将序列和结构信息编码在多尺度向量量化 VAE (multi-scale vector quantized-VAE) 的相同离散潜在空间中,从而实现具有所需结构的肽生成。
    • 条件生成 (Conditional generation):

      • 原理: 模型配备额外的变量,这些变量编码了与选定 AMP 属性对应的条件,并训练模型生成满足这些条件的样本。
      • 实践: 条件生成器包括基于 GAN [19, 21] 和 GNN [26] 的模型。HydrAMP [31] 是一种扩展的条件 VAE (cVAE),与一对分类器耦合。它可以在温度控制 (temperature-controlled) 的设置下进行模拟生成,甚至可以从没有抗菌活性的肽生成高活性类似物。HydrAMP 也是唯一能够同时进行无约束生成和模拟生成的模型。
    • 优化生成 (Optimized generation):

      • 原理: 旨在修改给定查询肽,以改善其属性 [32, 60]。它将生成模型与优化算法结合。
      • 实践:
        • 应用了最先进的优化算法,如贝叶斯优化 [42] 或多目标进化算法 (multi-objective evolutionary algorithm) [51]。

        • Hoffman et al. [59] 引入了一个基于 VAE 的模型,结合零阶优化 (gradient descent zeroth-order optimization),将毒性肽转换为非毒性肽,同时保持抗菌特性。

        • Tucs et al. [32] 在二元 VAE (binary VAE) 中,通过非支配排序 (non-dominated sorting) 计算每个肽与帕累托前沿 (Pareto front) 的距离来评分,然后通过量子退火 (quantum annealing) 优化预测得分。

        • Jain et al. [60] 提出了一个主动学习算法 (active learning algorithm),利用认知不确定性估计 (epistemic uncertainty estimation) 和 GFlowNets 作为生成器,用于生成多样化的活性肽候选批次。

          以下是原文 Figure 1 的图像:

          该图像是示意图,展示了抗菌肽(AMP)发现过程中关键属性、发现方法及评估指标,重点说明了受控AMP生成的多种策略,包括判别器引导过滤、仅正样本学习、潜在空间采样、条件生成及优化生成等。 该图像是示意图,展示了抗菌肽(AMP)发现过程中关键属性、发现方法及评估指标,重点说明了受控AMP生成的多种策略,包括判别器引导过滤、仅正样本学习、潜在空间采样、条件生成及优化生成等。

Figure 1: AI-driven AMP discovery overview, including AMP properties of interest, main AI methods, and various evaluation strategies.

图1a展示了 AMP 发现的概述,包括感兴趣的 AMP 属性(活性、毒性、稳定性、协同作用)和主要的 AI 方法(判别器和生成器)。 图1b更详细地展示了判别器(分类、回归)和生成器(无约束生成、模拟生成)的分类。 图1c则描绘了实现受控 AMP 生成的各种策略:判别器引导过滤、仅正样本学习、潜在空间采样、条件生成和优化生成。

5. 实验设置

由于本文是一篇综述论文,它没有自身的“实验设置”来验证一个新提出的模型。相反,它总结和分析了被综述论文在进行 AMP 发现研究时所采用的实验设置,包括它们使用的数据集、评估指标以及与基线模型的比较方法。

5.1. 数据集

综述指出,AI 驱动的 AMP 发现方法普遍面临数据集构建的挑战,而非使用统一的标准化数据集。

  • 数据来源:

    • AMP 数据库: 许多研究从现有的 AMP 数据库(如 DBAASP [16])收集正例 AMP 序列。DBAASP 提供了 API 接口,方便自动提取肽信息、活性和毒性测量,以及介质和 CFU 数据 [16]。
    • UniProt: 负例数据通常从 UniProt 数据库中采样,通过排除与“抗菌”、“抗生素”等关键词相关的条目来获取 [17, 44, 37, 40, 49, 19, 41, 24, 50]。
    • 打乱的 AMP 序列: 另一种生成负例的方法是打乱已知 AMP 序列 [39]。
  • 数据规模与特点:

    • 正例数据的异质性: 从 AMP 数据库收集的正例肽可能对不同的目标物种或菌株有效,导致数据集内部具有很大的异质性。
    • 负例数据的偏倚: 从 UniProt 采样的负例数据可能存在偏倚 [53]。
    • 数据稀缺性: 论文强调,多属性数据(如细胞毒性、溶解度、耐药性产生时间、稳定性或降解)非常稀缺或根本不存在于数据库中。
    • MIC 测量的缺乏: 临床上重要的 MIC 测量(如针对碳青霉烯耐药肺炎克雷伯菌、艰难梭菌、结核分枝杆菌或新德里金属-β-内酰胺酶产生菌株)对于已知 AMPs 很少报告。
    • 替代毒性测量的不足: 除了溶血活性,肾毒性 (nephrotoxicity) 和白细胞毒性 (leucotoxicity) 等替代毒性测量数据也很少。
    • 非蛋白源氨基酸肽 (NPAA) 数据稀少: 脂肽 (lipopeptides) [63]、糖肽 (glycopeptides) [63]、类肽 (peptoids) [64] 或使用非蛋白源氨基酸修饰的肽的数据在数据库中仅占极小部分。
  • 数据样本示例: 原文未提供具体的数据样本,但其描述涵盖了 AMP 序列(由氨基酸组成)、活性(MIC/MBC值)、毒性(HC50/IC50值)以及其他理化和结构属性。例如,一个 AMP 样本可能是一段氨基酸序列 KLLKLLKLLKLL 及其对应的 MIC 值 2µg/mL2 µg/mLE. coli 和 HC50 值 >100µM>100 µM

  • 选择这些数据集的原因: 研究人员通常选择这些数据集来训练和评估他们的模型,因为它们是目前公开可用的最大且最相关的 AMP 相关数据来源。然而,综述也明确指出了这些数据集存在的严重问题,这反过来也构成了该领域的一个主要挑战。

5.2. 评估指标

论文详细阐述了判别模型和生成模型的评估指标,并强调了它们的局限性。

5.2.1. 判别模型的评估指标

  1. 曲线下面积 (Area Under the Receiver Operating Characteristic Curve, AUROC)

    • 概念定义: AUROC 用于评估二分类模型的性能,它表示在所有可能的分类阈值下,真阳性率 (True Positive Rate, TPR) 与假阳性率 (False Positive Rate, FPR) 之间的权衡。AUROC 值为1表示完美分类器,0.5表示随机分类器。它对类别不平衡不敏感。
    • 数学公式: AUROC=01TPR(FPR)d(FPR) \text{AUROC} = \int_0^1 \text{TPR}(\text{FPR}) d(\text{FPR}) 其中,TPR=TPTP+FN\text{TPR} = \frac{\text{TP}}{\text{TP} + \text{FN}}FPR=FPFP+TN\text{FPR} = \frac{\text{FP}}{\text{FP} + \text{TN}}
    • 符号解释:
      • TPR\text{TPR} (真阳性率):正确识别出的阳性样本占所有实际阳性样本的比例。
      • FPR\text{FPR} (假阳性率):错误识别出的阳性样本占所有实际阴性样本的比例。
      • TP\text{TP} (真阳性):实际为阳性且预测为阳性的样本数。
      • FN\text{FN} (假阴性):实际为阳性但预测为阴性的样本数。
      • FP\text{FP} (假阳性):实际为阴性但预测为阳性的样本数。
      • TN\text{TN} (真阴性):实际为阴性且预测为阴性的样本数。
  2. 均方根误差 (Root Mean Squared Error, RMSE)

    • 概念定义: RMSE 是回归模型常用的性能指标,衡量预测值与真实值之间偏差的平均大小。它对误差的量纲与原变量一致,并且对异常值比较敏感。
    • 数学公式: RMSE=1ni=1n(yiy^i)2 \text{RMSE} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}
    • 符号解释:
      • nn:样本总数。
      • yiy_i:第 ii 个样本的真实值。
      • y^i\hat{y}_i:第 ii 个样本的预测值。

5.2.2. 生成模型的评估指标

生成模型的评估通常更为复杂,因为它不仅要衡量生成样本的质量,还要衡量其多样性和符合特定属性的能力。

  1. 多样性 (Diversity)

    • 概念定义: 衡量生成模型产生不同样本的能力,以及生成样本与训练数据之间的差异性。高多样性意味着模型能够探索更广阔的设计空间。
    • 常用指标:
      • 莱文斯坦距离 (Levenshtein distance): 衡量两个序列之间转换(插入、删除、替换)所需的最小编辑次数 [41, 28, 31]。
      • BLEU (Bilingual Evaluation Understudy): 最初用于机器翻译,衡量生成序列与参考序列之间 n-gram 重叠的程度 [18]。
      • Jaccard 相似度 (Jaccard similarity): 衡量两个集合(如序列中的氨基酸集合)的交集大小与并集大小之比 [22]。
      • 成对序列相似度得分 (Pairwise sequence similarity score): 衡量生成序列两两之间的相似性 [20, 59, 22, 24]。
    • 局限性: 某些指标(如 Levenshtein 和 Jaccard)可能忽略氨基酸的顺序 [51]。
  2. 特异性所需属性 (Specific Desired Properties)

    • 概念定义: 衡量生成肽序列是否具备特定的所需属性(如高 AMP 概率、高活性、低毒性)。
    • 评估方法:
      • 判别器预测: 将已训练好的判别器应用于生成的肽序列,并使用其预测结果作为真实属性的代理 [20, 24, 45, 28]。
      • 理化性质计算: 直接计算生成肽的理化性质(如两亲性、疏水性、电荷),这些性质易于计算但特异性不如 AMP 属性强。
    • 局限性: 现有判别器的准确性有限,可能导致评估存在偏倚或过于乐观。
  3. 分子动力学 (Molecular Dynamics, MD) 模拟

    • 概念定义: MD 模拟通过计算原子和分子在力场下的运动轨迹,评估肽的稳定性、作用机制以及与生物膜的相互作用,提供更可靠的评估数据。
    • 应用:
      • 研究二级结构的稳定性 [45]。
      • 研究肽的作用机制 [28]。
      • 作为与细菌膜相互作用的代理 [19, 31]。
      • 研究 AMP 对细菌膜和人膜的选择性 [24]。
    • 局限性: 计算成本高昂。全原子模拟非常耗时,粗粒化模拟虽然快但特异性下降 [20]。
  4. 实验验证 (Experimental Validation)

    • 概念定义: 对生成的肽序列进行实际的体外和体内实验,测量其活性(MIC)、毒性(HC50)和其他生物学特性,这是最终和最可靠的评估方式。
    • 实践:
      • 测量 MIC 和 HC50。
      • 作者提出了 AMP 成功率曲线 (AMP success rate curve) [31] 来总结实验活性验证,该曲线展示了在不同阈值下活性肽的比例。
      • 进一步的实验应包括:针对耐药菌株的抗菌测定、细胞系上的细胞毒性、膜破坏、杀菌时间、耐药性诱导、生物膜功效等。
    • 局限性: 并非所有已发表的生成器都经过了实验验证(参见 Table 2)。MIC 阈值缺乏共识,导致不同研究结果的比较困难。

5.3. 对比基线

作为一篇综述,本文不直接与基线模型进行比较,而是总结了被综述论文在评估其方法时所采用的对比策略。

  • 判别模型: 通常会与领域内已有的经典机器学习方法(如 SVM、随机森林)或早期深度学习模型进行性能比较。然而,由于每个判别模型都在不同的数据集上训练(活性阈值、相似性截断、负例数据集构建方式各异),直接比较不同论文中报告的性能指标存在困难。作者指出,为了公平比较,需要使用相同的数据集重新训练每个模型。
  • 生成模型:
    • 多样性比较: 常常与随机生成、或简单的序列变异方法进行比较,以展示其生成新颖多样肽序列的能力。

    • 属性符合度比较: 通过判别器预测结果或理化性质计算,与现有 AMPs 的分布进行比较,或与无受控条件的生成结果进行比较,以验证受控生成策略的有效性。

    • 与专家设计肽的比较: 少数研究可能会将其生成的高性能肽与人类专家设计或自然界中已知的优秀 AMPs 进行比较。

      以下是原文 Table 2 的结果:

      Reference Generation mode Generation framework Controlled condition Discriminators Approach to controlled generation Experimental validation MD Details
      [29] Unconstrained GAN Antiviral activity Positive-only learning Discriminator-guided no no
      [45] Unconstrained GAN AMP Sequence length, yes filtering yes yes
      [21] Unconstrained Bidirectional cGAN microbial target, target mechanism, activity Sequence length, Conditional generation no no
      [19] Unconstrained Bidirectional Wasserstein cGAN with gradient penalty microbial target, target mechanism, activity Conditional generation yes yes
      [28] Unconstrained RNN Multitask Activity, toxicity yes Positive-only learning, Discriminator-guided filtering yes no
      [26] Unconstrained autoregressive transformer GNN Secondary structure Conditional generation no no Forward and inverse training
      [24] Unconstrained VAE Activity yes Discriminator-guided filtering yes yes Cell-free biosynthesis
      [20] Unconstrained Wasserstein autoencoder AMP, activity, toxicity, structure yes Discriminator-guided filtering yes yes Classifiers trained in the latent space
      [41] Unconstrained Vector quantized VAE Secondary structure Latent space sampling yes no Discrete latent space
      [31] Unconstrained, analogue cVAE AMP, activity yes Conditional generation yes yes Temperature controlled creativity
      [30] Analogue VAE VAE-like models (RNN, RNN Activity Latent space sampling yes no Sampling based on cosine similarity
      [22] Analogue with attention, Wasserstein autoencoder, adversarial autoencoder, transformer) AMP, hydrophobicity Latent space sampling no no PCA property aligned sampling
      [59] Analogue VAE Activity, toxicity yes Optimized generation no no Zeroth-order optimization, gradient descent D-Wave quantum
      [32] Analogue Binary VAE Activity, toxicity yes Optimized generation yes no annealer, non-dominated sorting, factorization machine
      [60] Analogue GFlowNets AMP yes Optimized generation no no Active learning, epistemic uncertainty
Table 2: An overview of generation methods applied in AMP discovery. The table summarises the generation mode, indicate methods of special and outstanding interest.

6. 实验结果与分析

作为一篇综述论文,本文不包含新的实验结果。它通过分析和总结现有研究论文的“实验结果”,来阐述 AI 驱动的 AMP 发现领域的现状、成就和挑战。因此,本节将聚焦于论文对这些“结果”的解读和其引出的分析。

6.1. 核心结果分析

6.1.1. 判别模型的成就与局限

  • AMP/非 AMP 分类的饱和与不足: 领域内充斥着将肽广泛分类为 AMP 或非 AMP 的方法。虽然像 AMPlify [17] 和 AMP-BERT [44] 这样的深度学习模型在自动特征提取方面表现出色,甚至 VGG16-AMP [43] 将序列和结构转化为图像,但作者指出,这种基础分类任务缺乏特异性和实用性。被分类为 AMP 的肽可能对特定细菌菌株的活性并不高 [31]。
  • MIC 预测的实用性提升: 相比之下,MIC 预测方法(无论是回归 [36, 46] 还是分类 [34, 35])提供了更具体和实际可用的预测。特别是在微生物特异性菌株 (MSS) 预测 [35, 46] 中,通过整合菌株基因组信息,AI 模型能够预测肽对特定菌株的活性,这对于精准医疗至关重要。
  • 其他属性判别器的发展: 毒性(溶血性、细胞毒性)预测 [47, 33, 52, 23] 和溶解度预测 [52, 56, 57] 也在发展,但相对较少。二级结构分类器 [48] 和预测 [58, 24] 也有所探索,但作者也指出,多数现有模型更适用于大蛋白,可能不适合短肽。
  • 手工描述符与深度学习的竞争: 在一些基本分类任务中,基于手工描述符的方法仍能与深度学习方法相媲美 [39],这表明并非所有情况下深度学习都具有压倒性优势。

6.1.2. 生成模型的多样化发展与受控生成

  • 从筛选到生成: 传统上 AMP 发现通过判别器扫描数据库。现在,生成式 AI 已成为主流,能够 de novo 生成 [31, 29, 28, 26, 18, 24, 21, 41, 20, 19] 或作为原型肽的类似物进行生成 [31, 30, 22, 42, 32, 59, 51]。
  • 主流框架: GANs [19, 21, 45, 29] 和 VAEs [41, 24, 18, 22, 59, 30, 32, 31] 是最流行的生成框架,RNN [28] 和 GNN [26] 也有应用。
  • 受控生成策略的进步: 这是生成模型的核心亮点,实现了对生成肽属性的精准控制(见 Figure 1c)。
    • 判别器引导过滤: 将生成模型与判别器结合 [20, 24, 45, 28] 来筛选符合要求的肽。例如,CLaSS [20] 在生成模型的潜在空间中训练判别器进行拒绝采样。
    • 仅正样本学习: 主要通过 GANs [29, 45] 实现,通过只在正例上训练来确保生成样本的质量。
    • 潜在空间采样: VAE 模型利用潜在空间的结构来采样具有所需属性的候选物 [41, 30, 22],如 PepVAE [30] 和 Renaud et al. 的 PCA 属性对齐采样 [22]。
    • 条件生成: 模型内置条件变量来指导生成,如 cGAN [19, 21] 和 cVAE (如 HydrAMP [31])。HydrAMP 甚至能在温度控制下从非活性肽生成高活性类似物,并支持无约束和模拟生成。
    • 优化生成: 结合生成模型和优化算法 [60, 32, 59],如贝叶斯优化 [42]、多目标进化算法 [51]。Hoffman et al. [59] 使用 VAE 和零阶优化将毒性肽转换为非毒性肽。Tucs et al. [32] 结合二元 VAE 和量子退火来优化肽。

6.1.3. 评估方法的挑战与演进

  • 判别模型评估: 常用 AUROC 和 RMSE。然而,缺乏标准化的基准测试,每个模型都在不同数据集上训练,导致难以公平比较。
  • 生成模型评估的复杂性:
    • 多样性: Levenshtein 距离 [41, 28, 31]、BLEU [18]、Jaccard 相似度 [22] 等被用于量化多样性,但也存在忽略氨基酸顺序等局限性 [51]。
    • 属性符合度: 主要通过已训练的判别器对生成肽进行预测 [20, 24, 45, 28]。但判别器本身的准确性限制了这种评估的可靠性。
    • 分子动力学 (MD) 模拟: 提供了更可靠的评估手段,可用于研究二级结构稳定性 [45]、作用机制 [28]、与细菌膜的相互作用 [19, 31, 24]。但计算成本高昂。
    • 实验验证: 最终且最可靠的评估手段,测量 MIC 和 HC50。但并非所有生成模型都经过了实验验证 (见 Table 2)。作者提出了 AMP 成功率曲线 [31] 来更好地表示活性验证结果,并指出只有少数模型能生成 MIC 2μg/mL\leq 2 \mu\mathrm{g/mL}1μM1 \mu\mathrm{M} 的高活性肽 [31, 24, 30]。

6.2. 数据呈现 (表格)

以下是原文 Table 1 和 Table 2 的完整转录,它们总结了不同研究中活性和毒性的阈值定义以及各种生成方法。

以下是原文 Table 1 的结果:

Ref Task Property Positive Negative
[35] Discrimination Activity MIC <25 µg/ml MIC >100 µg/ml
Discrimination Activity MIC <25 µg/ml MIC >100 µg/ml
Generation Activity MIC <25 µg/ml MIC >100 µg/ml
E Generation Activity MIC <5 µM MIC >5 µM
Generation Activity MIC <32 µg/mL MIC >32 µg/mL
[28] Generation Activity MIC <32 µg/mL or 10 µM MIC >32 µg/mL or 10 µM
[24] Generation Activity log MIC <4 µM log MIC >4 µM
Generation Toxicity Non-toxic Toxic
Discrimination Toxicity Less than 20% hemolysis at a concentration of at least 50 µM more than 20% hemolysis at any concentration
AEE Discrimination Toxicity HC50 >100 µg/ml HC50 >100 µg/ml HC50 <100 µg/ml
Generation Toxicity HC50 >100 µM HC50 <100 µg/ml
Discrimination Toxicity MHC ≥ 50 µM HC50 <100 µM MHC ≤ 50 µM
Generation Toxicity Hemolytic/cytotoxic activities >250 µg/ml
Hemolytic/cytotoxic activities <200 µg/ml
Table 1: Activity and toxicity thresholds applied in AMP discovery methods used for defining positive an negative examples.

以下是原文 Table 2 的结果:

Reference Generation mode Generation framework Controlled condition Discriminators Approach to controlled generation Experimental validation MD Details
[29] Unconstrained GAN Antiviral activity Positive-only learning Discriminator-guided no no
[45] Unconstrained GAN AMP Sequence length, yes filtering yes yes
[21] Unconstrained Bidirectional cGAN microbial target, target mechanism, activity Sequence length, Conditional generation no no
[19] Unconstrained Bidirectional Wasserstein cGAN with gradient penalty microbial target, target mechanism, activity Conditional generation yes yes
[28] Unconstrained RNN Multitask Activity, toxicity yes Positive-only learning, Discriminator-guided filtering yes no
[26] Unconstrained autoregressive transformer GNN Secondary structure Conditional generation no no Forward and inverse training
[24] Unconstrained VAE Activity yes Discriminator-guided filtering yes yes Cell-free biosynthesis
[20] Unconstrained Wasserstein autoencoder AMP, activity, toxicity, structure yes Discriminator-guided filtering yes yes Classifiers trained in the latent space
[41] Unconstrained Vector quantized VAE Secondary structure Latent space sampling yes no Discrete latent space
[31] Unconstrained, analogue cVAE AMP, activity yes Conditional generation yes yes Temperature controlled creativity
[30] Analogue VAE VAE-like models (RNN, RNN Activity Latent space sampling yes no Sampling based on cosine similarity
[22] Analogue with attention, Wasserstein autoencoder, adversarial autoencoder, transformer) AMP, hydrophobicity Latent space sampling no no PCA property aligned sampling
[59] Analogue VAE Activity, toxicity yes Optimized generation no no Zeroth-order optimization, gradient descent D-Wave quantum
[32] Analogue Binary VAE Activity, toxicity yes Optimized generation yes no annealer, non-dominated sorting, factorization machine
[60] Analogue GFlowNets AMP yes Optimized generation no no Active learning, epistemic uncertainty
Table 2: An overview of generation methods applied in AMP discovery. The table summarises the generation mode, indicate methods of special and outstanding interest.

6.3. 消融实验/参数分析

综述论文本身不会进行消融实验或参数分析。然而,它在总结未来挑战和机遇时,隐含地指出了现有研究在这些方面的不足:

  • 模型不确定性: 作者指出,判别器和生成器都应该整合模型不确定性 (model uncertainty) 测量,以指导用户有效利用预测或样本。这表明当前许多模型可能缺乏对自身预测信心的评估,而这在实际应用中是至关重要的。
  • 优化生成中的权衡: 在优化生成方法中,作者强调需要考虑“理想主义-现实主义权衡 (idealism-realism tradeoff)”。这意味着在优化过程中,生成的序列在提高属性的同时,仍需保持生物学意义和可合成性。这暗示了当前优化方法可能未能充分平衡多个复杂目标。
  • 聚类信息利用不足: 作者提出,现有模型可能未能充分利用已知 AMPs 的聚类信息,例如在潜在空间中对相似肽进行分组,或者进行依赖于聚类的局部组织。这表明在模型架构和训练策略上仍有优化空间。

7. 总结与思考

7.1. 结论总结

本文全面综述了人工智能 (AI) 驱动的抗菌肽 (AMP) 发现领域的最新进展,特别关注了过去两年(2021-2023)的研究。它清晰地阐述了 AI 在 AMP 发现中的两大核心作用:判别 (discrimination) 和生成 (generation)。判别器通过预测活性、毒性等关键属性来筛选有潜力的候选肽,而生成器则能够从头或作为类似物生成新颖的 AMP 序列。更重要的是,文章详细分析了实现具有期望属性的 AMP 受控生成的多种策略,包括判别器引导过滤、仅正样本学习、潜在空间采样、条件生成和优化生成。此外,文章还深入讨论了该领域评估方法所面临的挑战,并强调了实验验证的最终重要性。总体而言,AI 正在彻底改变 AMP 的发现流程,但仍面临数据质量、标准化和评估方法等方面的显著挑战。

7.2. 局限性与未来工作

论文作者指出了当前 AI 驱动的 AMP 发现领域面临的显著局限性,并提出了诸多未来研究方向:

  1. 基准数据集建设的挑战 (Construction of benchmarking data):

    • 问题: 缺乏社区普遍接受的标准化抗菌或溶血活性数据集。现有数据集存在异质性、负例选择偏倚、单位冲突、矛盾条目和活性/毒性阈值缺乏共识等问题。
    • 未来工作: 需要协调一致的努力,构建清洗、大型、标准化的基准数据集,包括正例(针对特定菌种活性)和负例,并详细记录实验条件(介质、pH、盐含量)。这需要整个研究社区接受统一的预处理步骤、总结测量方法和活性阈值。
  2. 知识空白与新方法开发 (Filling the current gaps of knowledge to enable novel method development):

    • 问题: 缺乏关于多种 AMP 属性(如细胞毒性、溶解度、耐药性产生时间、稳定性、降解)的数据。临床重要菌株(如碳青霉烯耐药肺炎克雷伯菌)的 MIC 测量数据稀缺。替代毒性测量(如肾毒性、白细胞毒性)数据不足。非蛋白源氨基酸 (NPAA) 修饰肽(如脂肽、糖肽、类肽)数据极少,阻碍了抗蛋白水解降解 AMP 的设计。缺乏可靠的抗癌 AMP 生成器。
    • 未来工作: 需要大规模倡议来系统测量和报告这些缺失的数据。可以开发新型生成器,在多任务学习中同时考虑肽序列和细菌基因型。扩大和完善细胞毒性数据库,以开发准确预测或生成无毒肽的 AI 方法。进一步推动 NPAA 肽的设计方法,以发现更稳定的 AMPs。
  3. 数据噪声与稀缺性的处理 (Accounting for noise and scarcity of the data):

    • 问题: 数据集的噪声和稀缺性是普遍问题。虽然判别器已尝试通过迁移学习 [46, 47, 48, 49, 51] 解决数据稀缺问题,但 AMP 生成方法尚未明确解决此问题。
    • 未来工作: 判别器和生成器都应整合模型不确定性 (model uncertainty) 测量,以指导用户有效利用预测或样本。
  4. 已知 AMP 聚类信息的利用 (Exploiting clustering of known AMPs):

    • 问题: 现有 AMP 存在显著相似性,许多新 AMP 通过修饰已知 AMP 发现。这种“冗余”被忽视,但实际上包含了宝贵的建模机会(如相似肽在活性上的微小差异)。
    • 未来工作: 模型应利用这些相似对来学习区分活性差异微小的肽。开发 AMP 比较模型。生成方法应考虑训练数据中的肽聚类,例如在潜在空间中对同一聚类的肽表示进行分组,或尝试聚类相关的局部组织。
  5. 生成 AMP 的排序 (Ranking of generated AMPs):

    • 问题: 生成器可以输出成千上万的候选肽,但实验验证能力有限。现有的判别器可能无法提供有效的排名分数,或导致许多肽排名相似。
    • 未来工作: 迫切需要开发对设计出的 AMP 序列进行排名的有效方法。可以应用保守的集成方法 (conservative ensemble approach) 来过滤和排名,但仍需系统、专用的集成方法来同时考虑活性和毒性。
  6. AI 驱动、更快、更具体的分子动力学模拟方法 (AI-driven, faster and more specific molecular dynamics simulation methods):

    • 问题: 全原子分子动力学 (MD) 模拟在评估候选 AMP 质量方面可靠但计算昂贵。
    • 未来工作: AI 可用于加速 MD 模拟,例如预测可跳过的模拟步骤。AI 驱动的肽在细胞膜存在下的构象预测也可用于开发更准确的判别器和生成器。
  7. 未来的优化生成方法 (Optimized generation methods of the future):

    • 问题: 现有的优化生成方法 [60, 32, 59] 尚未能够设计出比训练集中已知 AMPs 显著更优的肽。同时优化多个属性(如活性和非毒性)是相互冲突的目标。
    • 未来工作: 开发能够同时进行生成和优化的 AI 模型。投入更多精力于帕累托优化 (Pareto optimization) 方法来处理多目标冲突。优化生成方法应考虑“理想主义-现实主义权衡”,确保生成的序列在改善属性的同时保持生物学意义和可合成性(例如,通过估计固态肽合成的相对难易度)。
  8. AI 驱动、加速、自动化实验室与设计流程 (AI-driven, accelerated, automated lab and design process):

    • 问题: 整个 AMP 发现流程(生成候选、合成、实验验证)仍存在大量手动环节。
    • 未来工作: 实现生成新候选、肽合成、多并行检测中实验验证的全自动化和迭代式应用,从而实现机器人和 AI 方法的自适应在线改进。

7.3. 个人启发与批判

个人启发: 这篇综述深刻揭示了人工智能在应对全球健康挑战(抗生素耐药性)方面的巨大潜力。它不仅仅是对技术进展的罗列,更是对整个研究生态系统(数据、方法、评估、应用)的系统性反思。其中最令我印象深刻的是:

  1. 从“预测”到“设计”的范式转变: AI 不再仅仅是筛选工具,而是能够主动“创造”新分子的设计引擎。特别是受控生成策略,如条件生成和优化生成,使得科学家能够更有目标、更高效地设计具有特定期望属性的肽,这对于药物发现而言是革命性的。
  2. 跨学科融合的必然性: 肽序列、结构、理化性质、生物活性、毒性,乃至分子动力学模拟和自动化实验,这些领域的深度融合是 AI 驱动生物分子发现成功的关键。这强调了生物学、化学、计算机科学和工程学的协同作用。
  3. 数据质量和标准化的核心地位: 论文反复强调数据异质性、稀缺性、噪声和缺乏标准化是该领域最大的瓶颈。这启发我,在任何 AI 应用领域,高质量、标准化和丰富的“燃料”是驱动“引擎”前进的基石,再先进的模型也无法弥补数据本身的缺陷。

批判: 尽管论文提供了全面的综述和深刻的见解,但也有一些可以进一步探讨或批判的地方:

  1. “最令人兴奋的方向”的量化: 论文虽然强调了“最令人兴奋的方向”,但作为一个综述,其主观性难以避免。如果能引入一些趋势分析(如特定方法在近两年发表论文数量的增长、被引次数的骤升等),或许能从数据层面进一步支撑其对“兴奋方向”的判断。

  2. 对“黑盒”问题讨论不足: 深度学习模型,尤其是生成模型,通常是“黑盒”。在药物发现这种高风险领域,理解模型为何生成某个肽、其决策依据是什么,对于信任和优化至关重要。论文虽然提到了潜在空间采样等试图增加可解释性的方法,但对模型可解释性 (interpretability) 方面的挑战和进展讨论相对较少。这对于初学者来说,可能是一个未被充分强调的关键点。

  3. 多目标优化冲突的量化: 论文提到了在优化生成中,活性和毒性可能是冲突目标,并提出了帕累托优化。但对于这种冲突的实际程度、在不同肽家族中的表现,以及 AI 模型如何量化和解决这种冲突的更深入讨论,可能会让读者对这一挑战有更具体的理解。

  4. 伦理和社会影响: 任何强大的生成式 AI 工具都可能带来伦理问题(例如,生成具有高毒性或生物武器潜力的肽)。虽然这篇综述主要聚焦技术,但在未来展望中简要提及这些潜在影响,或许能提供更全面的视角。

  5. 对计算资源的考量: 许多先进的 AI 模型,尤其是大型语言模型和复杂的生成模型,需要巨大的计算资源进行训练和推断,MD 模拟也是计算密集型任务。论文在挑战部分提到了 MD 模拟的计算成本,但对 AI 模型自身的计算成本(特别是对于小型实验室或发展中国家)的讨论相对较少,这可能会影响其普适性。

    总而言之,这篇论文为 AI 驱动的 AMP 发现提供了一个及时且全面的路线图,对于初学者和资深研究者都极具价值。它不仅展示了该领域激动人心的进展,也坦诚地指出了前进道路上的重重障碍,并为未来的研究指明了方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。