Artificial intelligence in food bioactive peptides screening: Recent advances and future prospects
TL;DR 精炼摘要
本文综述了人工智能在食品源生物活性肽筛选中的应用,详细介绍了基于数据、分子特征表示和深度学习模型构建的高通量筛选流程,取得抗炎、抗菌等功能性肽的筛选进展,同时指出抗肥胖和抗疲劳肽研究尚处早期,未来需发展多尺度化学特征的通用深度学习框架及高通量筛选策略。
摘要
Trends in Food Science & Technology 156 (2025) 104845 Available online 13 December 2024 0924-2244/© 2024 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies. Artificial intelligence in food bioactive peptides screening: Recent advances and future prospects Jingru Chang e , Haitao Wang a,b,c,d , Wentao Su a,b,c,d , Xiaoyang He e,** , Mingqian Tan a,b,c,d,* a State Key Laboratory of Marine Food Processing and Safety Control, Dalian Polytechnic University, Dalian, 116034, Liaoning, China b Academy of Food Interdisciplinary Science, School of Food Science and Technology, Dalian Polytechnic University, Dalian, 116034, Liaoning, China c National Engineering Research Center of Seafood, Dalian Polytechnic University, Dalian, 116034, Liaoning, China d Dalian Key Laboratory for Precision Nutrition, Dalian Polytechnic University, Dalian, 116034, Liaoning, China e School of Information Science and Engineering, Dalian Polytechnic University, Dalian, 116034, Liaoning, China A R T I C L E I N F O Handling Editor: Dr. S Charlebois Keywords: Artificial intelligence Food-derived bioactive peptides Mac
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
人工智能在食品源生物活性肽筛选中的应用:最新进展与未来展望 (Artificial intelligence in food bioactive peptides screening: Recent advances and future prospects)
1.2. 作者
Jingru Chang, Haitao Wang, Mingqian Tan
1.3. 发表期刊/会议
Food Chemistry。该期刊在食品科学与技术、化学等领域具有较高的声誉和影响力,是发表食品化学相关高水平研究成果的重要平台。
1.4. 发表年份
2025年
1.5. 摘要
食品源生物活性肽 (FBPs) 在营养和健康中扮演着至关重要的角色。传统的实验方法在识别 FBPs 时通常耗费大量人力、时间,且成本高昂。而计算方法,例如虚拟筛选 (virtual screening) 和分子动力学模拟 (molecular dynamics simulations),也存在其自身的局限性。人工智能 (AI) 技术使得 FBPs 的高通量筛选和活性机制分析成为可能。持续进行的 AI 研究将促进 FBPs 的深入开发和应用。
本综述概述了 AI 筛选 FBPs 的通用流程,包括数据基础、分子特征表示、机器学习 (Machine Learning, ML) 和深度学习 (Deep Learning, DL) 模型构建与训练,以及评估和验证。此外,它还总结了 AI 筛选不同生物活性 FBPs 的最新研究进展,讨论了当前的关键问题和挑战,并展望了 FBPs 的未来研究方向和趋势。
研究发现与结论:在利用 AI 筛选方法识别具有抗炎、抗菌、抗氧化、增味和降压等功能的 FBPs 方面已取得显著进展,而抗肥胖和抗疲劳肽的研究仍处于早期阶段。深度学习在预测方面展现出比传统机器学习技术更明显的优势。然而,在筛选具有不同生物活性的肽时,挑战依然存在。展望未来,应在食品特定大模型 (food-specific large models) 中开发数据增强 (data augmentation) 策略,并创建基于多尺度化学空间特征的通用深度学习框架来预测肽-靶点动态相互作用。同时,应建立高通量筛选框架,并加强抗肥胖和抗疲劳等多功能特性 AI 方法的研究。
1.6. 原文链接
/files/papers/690b66a9079665a523ed1dbe/paper.pdf (该链接指向 PDF 文件,说明论文已发布或作为预印本可用)。
2. 整体概括
2.1. 研究背景与动机
论文试图解决的核心问题: 该论文旨在解决食品源生物活性肽 (FBPs) 发现和筛选过程中存在的效率低下、成本高昂以及传统计算方法局限性等问题。FBPs 因其在营养和健康方面的巨大潜力而受到广泛关注,但其巨大的组合多样性(由20种常见氨基酸构成的 种组合,以及更高级结构带来的复杂性)使得传统的“湿实验室”实验方法(如体外实验和体内实验)在探索其生物活性时面临巨大的挑战,表现为劳动密集、耗时且成本高昂。虽然虚拟筛选 (virtual screening) 和分子动力学模拟 (molecular dynamics simulations) 等计算方法可以在一定程度上提高效率,但它们也受限于肽的构象灵活性、计算资源需求以及肽-蛋白质复合物 (peptide-protein complexes) 信息的有限性。
为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白? 随着人们对健康和营养的日益关注,FBPs 作为功能性食品成分和潜在药物的价值不断提升。高效、经济地发现和开发新型 FBPs 对食品工业和生物医药领域都具有重要意义。当前的研究挑战在于:
- 高通量筛选的瓶颈: 传统方法无法有效应对 FBPs 庞大的化学空间,发现效率低。
- 计算方法的局限: 现有计算方法(如虚拟筛选)在精度和处理动态相互作用方面存在不足。
- 缺乏系统性整合: 尽管人工智能在多个领域取得了突破性进展,但其在 FBPs 筛选领域的系统性、全面性应用尚缺乏深入的综述和指导。
这篇论文的切入点或创新思路是什么? 该论文的切入点在于,通过系统性地梳理和展望人工智能(特别是机器学习和深度学习)在 FBPs 筛选中的应用,填补现有综述对这一交叉领域系统性分析的空白。它提出 AI 能够从已知数据中提取关键特征,快速预测未知 FBPs 的活性,并降低成本和错误率。论文的创新思路是:
- 构建全面的 AI 筛选流程: 从数据基础、分子特征表示、模型构建与训练到评估验证,提供一个完整的 AI 驱动 FBPs 筛选框架。
- 总结多活性 FBPs 的 AI 应用: 详细分析 AI 在抗炎、抗菌、抗氧化、增味、降压等多种生物活性肽筛选中的具体进展。
- 识别并应对现有挑战: 明确指出当前 AI 筛选 FBPs 面临的数据量小、负样本模糊、模型单一、动态交互预测不足等挑战。
- 展望未来发展方向: 提出结合大模型、多尺度分子表示、通用深度学习框架、高通量集成筛选等创新性解决方案,推动 FBPs 筛选的智能化发展。
2.2. 核心贡献/主要发现
论文最主要的贡献:
- 系统性框架的提出: 首次系统性地总结并提出了一个全面的 AI 驱动食品源生物活性肽筛选流程,涵盖了数据基础、分子特征表示、机器学习和深度学习模型构建与训练,以及评估验证等关键环节。
- 多活性肽筛选进展的梳理: 详细回顾并分析了 AI 在不同生物活性肽(如抗炎、抗菌、抗氧化、增味、降压肽)筛选中的最新研究进展,为研究人员提供了各领域 AI 应用的概览。
- 明确挑战与未来方向的洞察: 深入剖析了当前 AI 筛选 FBPs 所面临的数据限制(小数据、负样本模糊、类别不平衡)、分子表示局限、算法模型单一、训练效率低以及动态相互作用预测不足等核心挑战,并基于此提出了具体、前瞻性的未来研究方向,包括利用大模型进行数据增强、开发多尺度化学空间特征表示、构建通用深度学习框架、预测肽-靶点动态相互作用以及建立高通量集成筛选框架等。
- 强调深度学习的优势: 明确指出深度学习在 FBPs 预测方面相比传统机器学习具有显著的预测优势。
论文得出了哪些关键的结论或发现?这些发现解决了什么具体问题?
- AI 在多数 FBPs 筛选中表现出色: AI 方法已在抗炎、抗菌、抗氧化、增味和降压肽的筛选中取得了显著成就,有效提升了这些传统筛选方法的效率和精准度。
- 深度学习的预测能力优越性: 深度学习模型因其自动特征提取和处理复杂模式的能力,在 FBPs 活性预测方面展现出比传统机器学习更强的性能,解决了传统方法依赖人工特征工程的局限性。
- 抗肥胖和抗疲劳肽研究的空白: 论文发现,尽管 AI 在其他类型的 FBPs 筛选中表现突出,但在抗肥胖和抗疲劳肽等新兴功能领域的研究尚处于初期,表明这些领域是未来研究的重要方向。
- 当前方法仍有局限: 现有 AI 筛选方法在数据(小数据、负样本模糊、不平衡)、特征表示(局限于序列、缺乏结构和理化性质)、模型(相对单一、缺乏集成和动态预测能力)和验证(缺乏生物实验验证)等方面仍存在挑战,阻碍了其更广泛和深入的应用。
- 未来发展路线图: 论文为解决上述问题提供了清晰的未来发展路线图,包括利用大模型进行数据增强、开发通用深度学习框架以预测动态肽-靶点相互作用、以及构建集成式的高通量筛选平台,旨在推动 FBPs 发现从静态、单功能预测走向动态、多功能、高通量筛选。
3. 预备知识与相关工作
3.1. 基础概念
理解本文需要对以下基本概念有清晰的认识:
3.1.1. 食品源生物活性肽 (Food-derived Bioactive Peptides, FBPs)
FBPs 是指从食品蛋白质中释放出来的、具有特定生理调节作用的蛋白质片段。它们通常由 2 到 20 个氨基酸残基组成,具有分子量低、毒性小、易吸收、生物活性高和靶向性强等特点。FBPs 能够通过多种机制发挥作用,例如与体内生物分子(如酶、受体)结合,从而影响免疫功能、血压调节、抗氧化应激、抗菌等。它们是营养健康领域的研究热点,在膳食补充剂和医药领域有广泛的应用潜力。
3.1.2. 人工智能 (Artificial Intelligence, AI)
人工智能旨在开发能够自主感知、理解、分析、推理和决策的智能系统,以模拟和扩展人类的认知过程。在 FBPs 筛选的语境下,AI 利用复杂的算法和统计模型从已知数据中学习模式,从而预测未知肽的生物活性或相互作用。
3.1.3. 机器学习 (Machine Learning, ML)
机器学习是实现人工智能的一个重要途径,它通过让计算机从数据中学习,而无需进行明确的编程。在 FBPs 筛选中,ML 模型通过训练数据集学习肽的特征与其生物活性之间的关系,然后利用这些学习到的模式对新的肽进行预测。本文主要讨论了三种主要的机器学习类型:
- 监督学习 (Supervised Learning): 算法在带有标签(即已知输出)的数据集上进行训练,以学习从输入到输出的映射。在 FBPs 筛选中,这意味着使用已知活性(阳性样本)和非活性(阴性样本)的肽作为训练数据,来预测新肽的活性。常见的任务包括分类(预测肽是否具有某种活性)和回归(预测肽的活性强度,如 IC50 值)。
- 无监督学习 (Unsupervised Learning): 算法在没有标签的数据集上进行训练,旨在发现数据中隐藏的模式或结构。例如,可以用于肽的聚类分析,发现具有相似特征的肽群。
- 强化学习 (Reinforcement Learning): 智能体 (agent) 通过与环境的交互学习最优行为策略,以最大化累积奖励。目前在 FBPs 筛选中应用较少,但未来可能用于优化肽设计。
3.1.4. 深度学习 (Deep Learning, DL)
深度学习是机器学习的一个子领域,它利用包含多层神经网络的模型来从数据中学习复杂的模式和高层次的抽象特征。与传统机器学习需要人工设计特征不同,深度学习模型能够自动从原始数据(如氨基酸序列)中学习和提取有用的特征。这使得深度学习在处理高维、复杂数据(如肽序列和结构)时具有强大优势。
3.1.5. 高通量筛选 (High-throughput Screening, HTS)
高通量筛选是一种在短时间内对大量样本(如肽文库)进行快速测试的方法。传统 HTS 通常依赖自动化实验设备。而 AI 驱动的 HTS 则是通过计算模型在虚拟世界中快速预测和识别潜在的活性肽,大大提高了筛选效率并降低了实验成本。
3.1.6. 分子特征表示 (Molecular Feature Representation)
这是将肽或蛋白质的原始信息(如氨基酸序列、三维结构)转化为机器学习模型可以理解和处理的数值形式的过程。有效的分子特征表示是 AI 筛选成功的关键,因为它决定了模型能够从数据中学习到哪些信息。
3.2. 前人工作
论文在 1. Introduction 和 2.1. Data foundation 中提及了多项前人工作,主要围绕传统实验方法、计算方法以及现有数据库的建立。
3.2.1. 传统实验方法与计算方法的局限性
- 传统实验方法: 如体外和体内实验,能够提供可靠数据,但其“劳动密集、耗时且成本高昂 (labor-intensive, time-consuming, and costly)”的缺点限制了其高通量应用 (Yang et al., 2021)。
- 计算方法: 虚拟筛选 (virtual screening) 和分子动力学模拟 (molecular dynamics simulations) 旨在简化肽的识别和表征过程,通过分析大型数据集和预测生物活性来提高效率 (Yu, Xu, He, & Liang, 2023)。然而,这些方法也存在缺陷:
- 肽的柔性: 肽的高度柔性使其能与多种蛋白质构象相互作用,并在结合过程中发生构象变化 (Yin, Mi, & Shukla, 2023)。
- 计算资源需求: 高昂的计算资源需求和有限的肽-蛋白质复合物信息对传统计算方法构成挑战。
- 虚拟筛选准确性: 虚拟筛选的评分函数缺乏足够的精度,多数不能有效区分活性和非活性肽。此外,大多数方法依赖半柔性对接 (semi-flexible docking),忽略了靶蛋白的构象变化,进一步影响了预测准确性。
3.2.2. AI 在其他领域的成功案例
论文引述了 AI 在其他领域的显著成功,这些案例为 AI 在 FBPs 筛选中的应用提供了信心和基础:
- AlphaGo (Ma et al., 2024; Silver et al., 2016): 展示了 AI 在复杂决策和策略游戏中的强大能力。
- ChatGPT (Schulman et al., 2022): 证明了大型语言模型在理解和生成人类语言方面的突破。
- SORA (Liu et al., 2024): 视频生成模型,展示了 AI 在多媒体内容创作方面的潜力。
- AlphaFold 3 (Brooks et al., 2024): 蛋白质结构预测的重大突破,能够高精度预测蛋白质-配体相互作用,甚至超越了传统实验方法。AlphaFold 3 利用了扩散模型 (diffusion models),这是一种生成模型,通过模拟从数据分布到噪声分布的渐进扩散过程,然后学习逆过程从噪声中重构高质量数据样本。在 AlphaFold 3 中,扩散生成模块取代了 AlphaFold2-monomer 和 AlphaFold2-multimer 的结构模块,实现了对各种生物分子复合物空间结构和蛋白质-配体相互作用的高精度预测。
- OpenAI O1 (Karpenko et al., 2024): 学习推理能力,进一步拓宽了 AI 的应用边界。
3.2.3. 相关数据库
论文在 2.1. Data foundation 中详细列举了蛋白质和肽结构数据库、蛋白质-肽复合物结构数据库以及生物活性肽数据库,这些是构建 AI 模型的关键数据基础。这些数据库是前人积累的重要工作,为 AI 模型的训练提供了宝贵的数据资源。例如:
- UniProt, RCSB PDB, Pfam, AlphaFoldDB: 蛋白质结构相关数据库。
- NORINE, FoldamerDB, ConjuPepDB, StraPep, DBAASP, PepBDB: 肽结构和功能数据库。
- PepX, STRING, BioLip2: 蛋白质-肽相互作用数据库。
- Food DB, COCONUT, BioPep DB, BIOPEP-UWM, DFBP, Feptide DB, SpirPep, CAMPR3, DBAASP v3, NeuroPepB 2.0, MAMPs-Pred, IF-AIP: 生物活性肽数据库,包含特定活性(如抗微生物肽 AMPs)或多种活性的肽数据。
3.2.4. AI 在食品工业其他领域的应用
文章指出,AI 已被广泛应用于食品工业的其他领域,但专门针对 FBPs 筛选的综述较少。这些相关工作包括:
- 食品加工 (Zhu, Spachos, Pensini, & Plataniotis, 2021)
- 食品包装 (Li, X et al., 2023)
- 食品质量与安全 (Sahni, Srivastava, & Khan, 2021; Lin, Ji, Wang & Sun, 2023; Goyal et al., 2022)
- 食品科学与营养 (Miyazawa et al., 2022; Neo et al., 2023)
- 生物活性化合物的机器学习应用 (Doherty, Wall, Khaldi, & Kussmann, 2021; Kussmann, 2022; Zhang, Zhang, Freddolino, & Zhang, 2024)
- 食品源活性肽的生物信息学工具 (Du, Comer, & Li, 2023; Rivero-Pino, Millán-Linares, & Montserrat-de-la-Paz, 2023)
3.3. 技术演进
该领域的技术演进主要体现在从传统实验方法到计算方法,再到以 AI 为核心的智能化筛选。
- 早期阶段 - 传统实验方法: 主要依赖体外和体内实验,精度高但效率低下,难以应对庞大的肽库。
- 过渡阶段 - 传统计算方法: 引入虚拟筛选和分子动力学模拟,通过模拟分子行为来预测相互作用,提高了筛选速度,但受限于计算资源、准确性及对动态过程的捕捉能力。
- 当前阶段 - 机器学习与深度学习: 随着大数据和计算能力的提升,机器学习和深度学习开始应用于肽筛选。它们能够从海量数据中自动学习复杂模式,极大地提高了预测效率和精度,并减少了对人工特征工程的依赖。深度学习尤其在处理序列和结构数据方面展现出强大潜力。
- 未来趋势 - 通用大模型与动态交互: 结合大型语言模型 (Large Language Models, LLMs) 和扩散模型等先进 AI 技术,有望实现更高效的数据增强、更精细的分子特征表示,甚至预测肽与靶点在溶液中的动态相互作用,从而推动 FBPs 筛选进入更智能、更精准的阶段。
3.4. 差异化分析
本文的方法与相关工作中的主要方法相比,核心区别和创新点如下:
-
与传统实验方法的区别:
- 核心差异: AI 方法主要在“硅(计算机)”上进行预测,而非在“湿实验室 (wet-lab)”中进行物理实验。
- 效率与成本: 传统方法耗时、耗力、成本高昂,而 AI 能够以秒级甚至毫秒级的速度预测大量肽的活性,显著降低了筛选成本和时间。
- 错误率: AI 减少了人为操作误差的风险。
- 规模: AI 可以处理远超传统实验方法所能及的庞大肽化学空间。
-
与传统计算方法(如虚拟筛选、分子动力学模拟)的区别:
- 预测速度: AI 模型一旦训练完成,其预测速度远超虚拟筛选和分子动力学模拟。
- 预测准确性: 虚拟筛选的评分函数精度不足,且多为半柔性对接,忽略了靶蛋白的构象变化。AI,特别是深度学习,能够通过学习更复杂的特征和模式,提供更高的预测准确性,并有望捕捉动态相互作用。
- 特征学习: 传统计算方法依赖预定义的力场或评分函数,而深度学习能够自动从原始数据中学习和提取多层次、抽象的特征,减少了人工特征工程的依赖。
-
与现有 AI 在食品工业其他领域的应用综述的区别:
- 专注性: 本文专门聚焦于 AI 在 食品源生物活性肽 (FBPs) 筛选中的应用,填补了现有综述在这特定领域的空白,而其他综述可能更侧重于食品加工、包装、质量安全或通用生物活性化合物。
- 深度和广度: 本文不仅总结了现有进展,更深入探讨了该领域的独特挑战,并提出了详细的未来展望和技术路线图,例如对食品特定大模型、多尺度化学空间特征、动态交互预测的强调,这些在其他通用综述中较少涉及。
-
创新点:
- 提出了一个涵盖数据、特征、模型、评估和验证的全面 AI 筛选 FBPs 流程。
- 详细分析了深度学习在 FBPs 筛选中的优势及其对传统方法的超越。
- 明确指出了当前研究的空白领域(如抗肥胖和抗疲劳肽),并为这些领域提供了研究方向。
- 前瞻性地提出了利用大模型进行数据增强、构建通用深度学习框架以捕捉动态交互、以及建立高通量集成筛选框架等未来发展策略。
4. 方法论
本论文主要是一篇综述性文章,其“方法论”部分描述的是 AI 驱动的食品源生物活性肽 (FBPs) 筛选的通用过程和核心组件,而非提出一个具体的新模型或算法。因此,本节将详细拆解论文中描述的 AI 筛选 FBPs 的各个阶段及其原理。
4.1. 方法原理
AI 驱动的 FBPs 筛选的核心思想是利用机器学习和深度学习算法,从已知的肽数据中学习肽的结构-活性关系,然后将这些学习到的知识应用于预测大量未知肽的生物活性。这一过程通过将肽的复杂化学和生物信息转化为计算机可处理的数值特征,并构建能够识别这些特征与活性之间模式的模型来实现。其直觉在于,如果我们可以从少量已知数据中发现规律,那么这些规律也应适用于未见过的数据,从而实现高效的预测。
4.2. 核心方法详解
AI 驱动的 FBPs 筛选过程通常包括四个相互关联的关键步骤:数据基础、分子特征表示、模型构建与训练,以及评估与验证。
4.2.1. 数据基础
数据是机器学习的基石。模型的性能、准确性和可靠性与数据的数量、质量和多样性密切相关。
-
数据类型: 由于大多数 FBPs 通过肽-蛋白质相互作用发挥生物活性,因此训练数据集通常包含:
- 肽 (Peptides): 氨基酸序列信息,可能包括修饰。
- 靶蛋白 (Target Proteins): 与肽相互作用的蛋白质信息。
- 蛋白质-肽复合物 (Protein-Peptide Complexes): 描述肽与蛋白质结合时的结构信息。
- 活性肽 (Active Peptides): 已知具有特定生物活性的肽。
- 非活性肽 (Inactive Peptides): 已知不具有特定生物活性的肽(通常用于监督学习中的负样本)。
-
数据来源: 论文强调了从各种数据库(如表 1 所示)收集数据的重要性,并指出研究人员通常需要结合现有数据库、文献搜索和计算机辅助数据收集来获取全面准确的结果。
以下是原文 Table 1 的结果:
Name Description Website Protein Structural Databases RCSB PDB Currently the world's largest biological macromolecule structure database. As of June 15, 2024, a total of 194,259 protein 3D structures have been recorded using X-ray crystallography, NMR spectroscopy, and electron microscopy. https://www.rcsb.org/ UniProt Currently the most comprehensive database of protein-related information. Contains Swiss-Prot with 571,609 manually reviewed protein sequences, TrEMBL with 244,910,918 unreviewed protein sequences and PIR with protein sequences. https://www.uniprot.org/ Pfam A database specializes in providing complete classification information of protein families and structural domains, covers 21,979 protein families. http://pfam.xfam.org/ AlphaFoldDB A protein structure prediction database built based on advanced AI technology. Provides over 200 million protein structure predictions. https://alphafold.ebi.ac.uk/ Peptide Structural Databases NORINE The platform features a database of nonribosomal peptides equipped with analytical tools and houses over 1000 peptides. https://ngdc.cncb.ac.cn/databasecommons/database/id/1476 FoldamerDB A public database of peptidic foldamers. http://foldamerdb.ttk.mt/ ConjuPepDB A public database of drug-peptide conjugates, containing 645 drug-peptide conjugates. https://conjupepdb.ttk.hu/ StraPep A database dedicated to collecting all active peptides of known structure, containing 3791 bioactive peptide structures belonging to 1312 unique bioactive peptide sequences. http://isyslab.info/StraPep/ DBAASP A database dedicated to information on antimicrobial peptides (AMPs), containing 21,426 peptides. https://www.dbaasp.org/home Protein-Peptide Complex Structural Databases PepBDB A database presents extensive information about biological peptide-mediated protein interaction. The current number of structures is 13,299. http://huanglab.phys.hust.edu.cn/pepbdb/ PepX An extensive and comprehensive dataset includes all protein-peptide complexes available in the Protein Data Bank, with peptide lengths of up to 35 residues. This dataset encompasses 505 distinct protein-peptide interface clusters derived from 1431 complexes. https://ngdc.cncb.ac.cn/databasecommons/database/id/1240 STRING A database provides the most comprehensive information on protein-protein interactions. As of August 2, 2024, it includes 332,075,812 interactions at highest confidence (score ≥0.900). https://cn.string-db.org/ BioLip2 An updated structural database focusing on biologically relevant ligand-protein interactions. As of June 15, 2024, it contains 3,7492 entries for peptide ligands. https://zhanggroup.org/BioLiP2/index.cgi Bioactive Peptide Databases Food DB A database includes 70,926 molecules in the food. https://foodb.ca/ Coconut A natural product database currently available with over 400,000 molecules. https://coconut.naturalproducts.net BioPep DB A searchable database of FBPs that contains 4807 bioactive peptides. http://bis.zju.edu.cn/biopepdbr/index.php BIOPEP-UWM A searchable database of bioactive peptides, especially on these derived from foods and being constituents of diets. It contains 5047 bioactive peptides. https://biochemia.uwm.edu.pl/biopep-uwm/ DFBP FBPs database currently contains 6818 bioactive peptides, 21,249 food sources of protein. http://www.cqudfbp.net/ Feptide DB A collection of 12 open-access bioactive peptide repositories and peptides extracted from research publications to predict food-derived bioactive peptides. http://www4g.biotec.or.th/FeptideDB/ SpirPep Combination of 13 published bioactive peptide databases, containing 28,334 unique bioactive peptide sequences for compare with putative peptide. http://spirpepapp.sbi.kmutt.ac.th/Bioacti vePeptideDB.html CAMPR3 A database provides comprehensive information on antimicrobial peptides, including 10,247 antimicrobial peptide sequences obtained through the analysis of 1386 sequences derived from experimental studies. http://www.camp3.bicnirrh.res.in/ DBAASP v3 A database dedicates to information on antimicrobial peptides containing over 15,700 entries, which include more than 14,500 monomers and nearly 400 homo- and hetero-oligomers. http://dbaasp.org NeuroPep B 2.0 A neuropeptide database holds 11,417 unique neuropeptide entries. https://isyslab.info/NeuroPepV2/ MAMPs-Pred A database provides 6989 peptides consisting of antimicrobial and non-antimicrobial. https://github.com/JianyuanLin/SupplementaryData IF-AIP A database provides 5265 peptides with anti-inflammatory and non-anti-inflammatory. https://github.com/Mir-Saima/IF-AIP -
数据处理: 在数据收集后,需要进行以下处理步骤,以确保数据的可靠性和模型的学习能力:
- 数据清洗 (Data Cleaning): 移除错误、不完整或重复的数据。
- 数据标注 (Annotation): 为数据添加标签,例如肽是否具有某种活性(分类任务)或其活性强度(回归任务)。
- 数据归一化 (Normalization): 将数据转换到统一的尺度,以防止某些特征对模型训练产生过大影响。
4.2.2. 分子特征表示
分子特征表示是将原始的肽或蛋白质数据转换为机器学习模型可以处理的数值向量或矩阵的过程。这包括特征选择、提取和编码。
-
特征选择 (Feature Selection): 识别与肽生物活性最相关的属性。常用的特征包括:
- 氨基酸序列 (Amino Acid Sequence): 肽的基本构成。
- 结构信息 (Structural Information): 肽的二级(如 -螺旋、-折叠)、三级甚至四级结构。
- 理化性质 (Physicochemical Properties): 例如分子量、电荷、疏水性、亲水性、等电点等。
-
特征提取与编码 (Feature Extraction and Encoding): 将选定的特征转换为数值形式。论文将肽或蛋白质的表示技术分为三类:
- 基于序列内在特征的方法 (Sequence-intrinsic methods):
- 氨基酸组成 (Amino Acid Composition, AAC): 将蛋白质序列转换为一个 20 维向量,量化每种氨基酸在序列中的相对丰度。
- 二肽组成 (Dipeptide Composition): 计算由两个特定氨基酸连接形成的二肽在整个蛋白质序列中的比例,捕捉氨基酸分布及其局部排列信息。
- 归一化 Moreau-Broto 自相关描述符 (Normalization Moreau-Broto autocorrelation descriptors): 通过分析特定结构特征或理化性质来表征两个蛋白质或肽链之间的相关性。
- Moran 自相关 (Moran autocorrelation): 利用 Moran 指数描述蛋白质序列中氨基酸属性或特征的空间自相关性。
- 序列序偶联 (Sequence-order-coupling): 评估蛋白质中氨基酸序列顺序与其三维结构之间的偶联关系,捕捉局部和全局信息。
- 位置特异性评分矩阵 (Position-specific scoring matrix, PSSM): 量化蛋白质序列中氨基酸的相对位置和理化差异,表示进化信息。
- 基于序列的独热编码 (One-hot encoding based on sequence): 将序列中的每个氨基酸转换为固定长度的二进制向量,提供直观、简单和可扩展的特征。
- 基于理化性质的方法 (Physicochemical methods):
- 总氨基酸性质 (Total amino acid properties): 通过计算蛋白质序列中相同位置相同氨基酸的比例来评估序列相似性。
- 组成-转换-分布描述符 (Composition-transition-distribution descriptors, CTDD): 根据氨基酸的理化性质将蛋白质序列转换为数值特征向量,描述氨基酸的组成、转换和分布特征。
- 两亲伪氨基酸组成 (Amphiphilic pseudo amino acid composition): 在 AAC 基础上,结合氨基酸的理化性质和排列信息。
- 伪氨基酸组成 (Pseudo amino acid composition, PseAAC): 考虑氨基酸序列顺序以及疏水性、亲水性、分子量等理化性质,构建蛋白质信息。
- 基于结构性质的方法 (Structural properties methods):
-
原子水平拓扑结构 (Topological structure at the atomic level): 基于分子结构的数学描述符,包括原子组成、化学键类型及其连接属性。
-
二级结构和溶剂可及性 (Secondary structure and solvent accessibility): 将氨基酸序列转换为新的序列,通过二级结构和溶剂可及性信息进行表示。
以下是原文 Table 2 的结果:
Name Description Based on intrinsic sequence properties Amino acid composition (AAC) The protein sequence is transformed into a 20-dimensional vector that quantifies the relative abundance of each amino acid within the protein. Dipeptide composition This method calculates the proportion of dipeptides, formed by the linkage of two specific amino acids, within the entire protein sequence. It not only captures the distribution of amino acids but also encodes information about their local arrangement. Normalization Moreau-Broto autocorrelation descriptors The correlation between two proteins or peptide chains is characterized by analyzing specific structural features or physicochemical properties. Moran autocorrelation Utilizing the Moran's index to describe the spatial autocorrelation of amino acid properties or features within a protein sequence. Sequence-order-coupling A metric for assessing the coupling between the amino acid sequence order in a protein and its three-dimensional structure. Capturing both local and global information in a sequence by considering interactions between each amino acid and its surrounding residues. Position-specific scoring matrix (PSSM) This quantifies features related to the relative positions and physicochemical differences between amino acids in a protein sequence. A global encoding strategy that converts a protein sequence into a 1000 × 20 binary matrix, providing information on the evolution of the protein sequence. One-hot encoding based on sequence Converting each amino acid in a sequence into a fixed-length binary vector, offering intuitive, simple, and scalable features. Based on physicochemical properties Total amino acid properties Evaluating the similarity between protein sequences by calculating the proportion of identical amino acids at the same positions in two or more sequences. Composition-transition-distribution descriptors Converting protein sequences into numerical feature vectors based on the physicochemical properties of amino acids, describing the composition, transformation, and distribution characteristics of the amino acids. Amphiphilic pseudo amino acid composition Based on AAC, this approach incorporates the physicochemical properties and arrangement information of amino acids. Pseudo amino acid composition Not only the amino acid sequence order is considered, but also the physicochemical properties of amino acids, such as hydrophilicity, hydrophobicity, and molecular weight, are utilized, along with the compositional information of the 20 amino acids, to construct protein information. Based on structural properties Topological structure at the atomic level A mathematical descriptor based on molecular structure, which primarily consists of the atomic composition, the type of chemical bonds, and the attributes of their connections. Secondary structure and solvent accessibility The amino acid sequence is converted into two new sequences by using secondary structure and solvent accessibility. Each of the new sequences is represented by a 3D vector and a 2D vector, and finally, each amino acid gets a binary matrix. Representation-related tools Scratch Protein Predictor A web-based tool that forecasts the tertiary structure and structural characteristics of proteins not only predicts their secondary structure and hydrophobicity but also provides extensive information regarding disordered regions, structural domains, and individual residue interactions. https://scratch.proteomics.ics.uci.edu/ POSSUM A website that provides property information based on position-specific scoring matrix, which contains 21 distinct PSSM descriptors. https://possum.erc.monash.edu/
-
- 基于序列内在特征的方法 (Sequence-intrinsic methods):
-
当前低级表示方法:
- 序列基方法 (Sequence-based methods): 自动学习全面的分子特征空间,无需复杂领域知识,但对新数据集需要从头学习特征,且需要更大的训练数据。
- 图基方法 (Graph-based methods): 使用节点表示氨基酸原子,边表示共价键,更直观地描绘蛋白质和肽。常与图神经网络 (Graph Neural Networks, GNNs) 结合,但多用于 2D 配体,忽略 3D 结构和相互作用信息。
- 图像基方法 (Image-based methods): 将分子图像作为深度学习模型的输入,捕捉更详细的分子结构信息,但高质量标注图像数据集稀缺,且计算资源需求高。
4.2.3. 模型构建与训练
这一阶段涉及选择合适的机器学习算法,并对其进行训练以学习肽的特征与活性之间的复杂关系。
4.2.3.1. 机器学习算法
论文将机器学习技术分为非深度学习模型和深度学习模型。
4.2.3.1.1. 非深度学习模型
这些模型依赖于预定义或人工设计的特征集。
- 支持向量机 (Support Vector Machine, SVM):
- 原理: SVM 的优化目标是找到一个具有最大间隔的超平面 (hyperplane),从而在不同类别之间进行最佳分离。通过最大化类别之间的边界,SVM 旨在减少误分类率并增强模型的泛化能力和鲁棒性。
- 优点: 适用于处理高维 FBPs 数据,模型具有较强的可解释性。
- 局限性: 性能高度依赖原子特征表示的质量;内存密集;标准 SVM 设计用于二分类,处理多分类问题需要特殊适配。
- 随机森林 (Random Forest):
- 原理: 随机森林是一种集成学习方法,它通过构建多棵决策树 (decision trees) 并汇总它们的预测结果来做出最终决策。每棵决策树都通过递归地将数据集分割成更小的子集来构建。
- 优点: 易于实现和解释;不需要大量数据预处理;能有效处理高维 FBPs 数据;具有高准确性和并行化能力。
- 局限性: 对特征选择敏感;可解释性相对较差;对不平衡数据集敏感。
4.2.3.1.2. 深度学习模型
深度学习模型利用多层神经网络和梯度下降算法,能够直接从原始数据中学习和提取层次化、抽象的特征表示。
-
卷积神经网络 (Convolutional Neural Networks, CNNs):
- 原理: CNNs 在计算机视觉领域表现出色。其核心组件包括卷积层 (convolutional layers)、池化层 (pooling layers) 和全连接层 (fully connected layers)。卷积层通过滤波器 (filters) 提取局部特征,池化层降低数据维度并保留关键信息。
- 优点: 在图像处理中泛化能力强。在处理肽序列时,可将其视为一维“图像”进行特征提取。
- 局限性: 卷积操作主要关注提取局部特征,对于分子相互作用的全局特征学习能力有限。
-
循环神经网络 (Recurrent Neural Networks, RNNs):
- 原理: RNNs 具有记忆能力,擅长处理序列数据中的依赖关系。它们通过在序列中的每个时间步共享参数,使其能够处理变长序列。为解决梯度消失 (vanishing gradient) 和梯度爆炸 (exploding gradient) 问题,长短期记忆网络 (Long Short-Term Memory, LSTM) 和门控循环单元 (Gated Recurrent Unit, GRU) 被提出,以更好地捕捉序列中的长期依赖。
- 优点: 在处理序列数据中的时间信息和上下文信息时具有更好的泛化能力。
- 局限性: 易出现梯度消失和梯度爆炸问题,导致模型难以收敛;LSTM 和 GRU 的复杂架构导致高训练成本;如果数据集缺乏多样性,模型容易过拟合 (overfitting)。
-
图神经网络 (Graph Neural Networks, GNNs):
- 原理: GNNs 是一种专门设计用于处理和分析图结构数据 (graph-structured data) 的深度学习模型。它们通过在图的节点和边上传播信息来学习节点表示,从而捕捉复杂的原子间关系。关键模型包括图嵌入 (graph embedding)、图卷积网络 (graph convolutional networks) 和图注意力网络 (graph attention networks)。
- 优点: 可以直接处理图结构数据,捕捉复杂的、多尺度的原子关系。
- 局限性: 对于大规模图数据,计算复杂度较高;只能捕获局部分子结构。
-
变换器 (Transformers):
- 原理: Transformers 是一种基于自注意力机制 (self-attention mechanisms) 的深度学习模型。与 RNNs 不同,它通过并行处理整个输入序列来捕捉任意位置之间的依赖关系,不再受距离限制。其核心是注意力机制,允许模型在处理序列的某个部分时,权衡输入序列中所有其他部分的重要性。
自注意力机制的核心公式可以表示为:
其中:
- (Query) 是查询矩阵,由输入序列的每个元素通过线性变换得到。
- (Key) 是键矩阵,由输入序列的每个元素通过线性变换得到。
- (Value) 是值矩阵,由输入序列的每个元素通过线性变换得到。
- , , 都是矩阵,其行数对应序列长度,列数对应其维度。
- 是 的转置。
- 计算了查询与所有键之间的相似度分数。
- 是缩放因子,其中 是键的维度,用于防止点积结果过大导致 softmax 函数进入梯度饱和区。
- 函数将相似度分数转换为权重,表示每个值对当前查询的重要性。
- 矩阵通过这些权重进行加权求和,得到注意力机制的输出。
- 优点: 具有更好的并行计算能力;能捕捉输入序列中任意位置之间的依赖关系,不受距离限制。
- 局限性: 模型复杂性高,训练成本高昂;需要额外的位置编码 (positional encoding) 来表示序列中元素的顺序;内部工作机制复杂,缺乏清晰的输入-输出映射,导致预测结果和内部机制难以解释。
- 原理: Transformers 是一种基于自注意力机制 (self-attention mechanisms) 的深度学习模型。与 RNNs 不同,它通过并行处理整个输入序列来捕捉任意位置之间的依赖关系,不再受距离限制。其核心是注意力机制,允许模型在处理序列的某个部分时,权衡输入序列中所有其他部分的重要性。
自注意力机制的核心公式可以表示为:
其中:
-
扩散模型 (Diffusion Models):
-
原理: 扩散模型是一类基于深度学习的生成模型。其核心概念是模拟一个从数据分布到简单噪声分布的渐进扩散过程(前向过程),然后学习逆过程,从而能够从噪声中重新生成高质量的数据样本。例如,AlphaFold 3 利用扩散模型在生物分子空间中建立了全面的深度学习框架,取代了 AlphaFold2-monomer 和 AlphaFold2-multimer 的结构模块,实现了对各种生物分子复合物空间结构和蛋白质-配体相互作用的高精度预测。
-
优点: 能够生成高质量的数据样本;在复杂生物分子结构预测方面展现出强大能力。
-
局限性: 由于复杂的神经网络架构,计算资源消耗巨大;在处理离散数据时存在挑战;容易产生“幻觉” (hallucinations),即生成看似合理但实际不存在的数据。
下图(原文 Fig. 3)展示了五种经典深度学习模型的结构示意图:
该图像是一个示意图,展示了用于食物生物活性肽筛选的多种人工智能模型架构,包括卷积神经网络(a)、循环神经网络(b)、图神经网络(c)、变换器模型(d)以及扩散模型(e),描述了从分子结构输入到输出的处理流程。
-
图 3 描述了 a) 卷积神经网络 (CNN),b) 循环神经网络 (RNN),c) 图神经网络 (GNNs),d) 仅包含编码器的变换器 (Transformer),以及 e) 扩散模型。这些模型在 AI 筛选 FBPs 中各有应用,处理不同类型和尺度的分子特征。
4.2.3.2. 模型架构选择
模型架构的选择是一个需要专业知识和经验的过程,它取决于数据类型、分子表示方法、任务目标以及可用的计算资源。
- 泛化能力: 在参数数量相似的情况下,通常更深的网络具有更好的泛化能力。
- 迭代优化: 需要探索不同的模型架构,并根据网络的深度、连接方式、神经元数量和类型进行调整。
- 启发式评估: 可以设计大量候选模型和启发式评估函数,通过快速评估其性能来选择最优架构。
4.2.3.3. 训练机器学习模型
训练过程涉及参数优化和超参数调优。
- 参数优化 (Parameter Optimization): 使用优化算法(如随机梯度下降 Stochastic Gradient Descent, SGD; 自适应矩估计 Adaptive Moment Estimation, Adam; 自适应梯度 Adaptive Gradient, Adagrad 等)迭代更新模型内部参数,以最小化损失函数 (loss function)。常见的损失函数包括均方误差 (Mean Squared Error, MSE)、交叉熵损失 (cross-entropy loss) 或对数损失 (logarithmic loss)。
- 超参数调优 (Hyperparameter Tuning): 在训练过程中对激活函数 (activation function)、学习率 (learning rate)、优化器 (optimizer) 和训练轮次 (epochs) 等超参数进行精细调整。
- 数据集划分: 数据集通常被划分为训练集 (training set)、验证集 (validation set) 和测试集 (test set)。
- 训练集: 用于模型的参数学习。
- 验证集: 定期评估模型性能,用于调整超参数和防止过拟合。
- 测试集: 用于评估模型在未见过数据上的最终性能。
- 计算资源: 深度学习模型通常具有大量参数和复杂架构,需要大量计算资源。图形处理单元 (Graphics Processing Units, GPUs) 在处理大规模并行计算任务方面比中央处理单元 (Central Processing Units, CPUs) 更高效,能显著加速训练过程。
4.2.4. 评估与验证
模型训练完成后,需要进行全面的评估和验证,以确保其在未见过数据(测试集)上的预期性能。
-
分类任务评估指标:
- 准确率 (Accuracy): 正确预测的样本数占总样本数的比例。
其中:
TP(True Positives) 表示真阳性,即实际为阳性且被模型正确预测为阳性的样本数。TN(True Negatives) 表示真阴性,即实际为阴性且被模型正确预测为阴性的样本数。FP(False Positives) 表示假阳性,即实际为阴性但被模型错误预测为阳性的样本数。FN(False Negatives) 表示假阴性,即实际为阳性但被模型错误预测为阴性的样本数。
- 精确率 (Precision): 所有被预测为阳性的样本中,真正是阳性的比例。
- 召回率 (Recall) / 灵敏度 (Sensitivity) / 真阳性率 (True Positive Rate, TPR): 所有实际为阳性的样本中,被模型正确预测为阳性的比例。
- F1 分数 (F1 Score): 精确率和召回率的调和平均值,综合衡量模型的分类性能。
- 受试者工作特征曲线 (Receiver Operating Characteristic Curve, ROC Curve) 与曲线下面积 (Area Under the Curve, AUC): ROC 曲线以真阳性率 (TPR) 为纵轴,假阳性率 (False Positive Rate, FPR) 为横轴绘制。FPR 的计算公式为: AUC 是 ROC 曲线下的面积,用于衡量分类器在所有可能分类阈值下的整体性能。AUC 值越接近 1,模型性能越好。
- 准确率 (Accuracy): 正确预测的样本数占总样本数的比例。
其中:
-
回归任务评估指标:
- 均方误差 (Mean Squared Error, MSE): 预测值与真实值之间差值的平方的平均值。
其中:
- 是样本数量。
- 是第 个样本的真实值。
- 是第 个样本的预测值。
- 均方根误差 (Root Mean Squared Error, RMSE): 均方误差的平方根,与原始数据具有相同的单位,更具可解释性。
- 平均绝对误差 (Mean Absolute Error, MAE): 预测值与真实值之间差值的绝对值的平均值。
- 均方误差 (Mean Squared Error, MSE): 预测值与真实值之间差值的平方的平均值。
其中:
-
验证方法:
- 交叉验证 (Cross-validation): 将数据集分成 份(例如 或 ),轮流将其中一份作为验证集,其余
k-1份作为训练集,进行 次训练和评估,然后取平均结果。这种方法充分利用数据,避免过拟合,但计算成本高。 - 留一法 (Leave-one-out): 折交叉验证的特例,每次只留一个样本作为测试集。
- 留出法 (Hold-out): 将数据集一次性划分为训练集和测试集。
- 自助法 (Bootstrapping): 通过有放回抽样从数据集中生成多个训练集。
- 交叉验证 (Cross-validation): 将数据集分成 份(例如 或 ),轮流将其中一份作为验证集,其余
-
AI 筛选 FBPs 的综合验证流程: 为了确保 AI 模型的有效性和泛化能力,通常采用多阶段验证:
- AI 模型初步筛选: 识别高活性候选肽。
- 高级计算筛选: 通过分子对接 (molecular docking)、基于配体的虚拟筛选 (ligand-based virtual screening) 和分子动力学模拟 (molecular dynamics simulations) 进一步验证和细化候选肽。
- 体外实验 (in vitro experiments): 在细胞系或生化体系中验证肽的生物活性。
- 体内实验 (in vivo experiments): 在动物模型中验证肽的生物活性和安全性。
5. 实验设置
本综述文章并未涉及具体的实验设置,而是总结了 AI 在食品源生物活性肽 (FBPs) 筛选领域的进展,并展望了未来的挑战和方向。因此,本节将根据论文中对各个生物活性肽筛选案例的描述,概括其通用的实验设置特征,例如数据集规模、分子表示方法、机器学习模型类型以及验证方法等。
5.1. 数据集
论文强调数据是机器学习的基石,其数量、质量和多样性直接影响模型性能。在 FBPs 筛选中,数据集通常包含肽序列、结构信息以及相应的生物活性标签。
- 数据来源: 主要来自公共数据库(如 Table 1 所列)和文献报道的实验数据。
- 样本数量:
- 抗炎肽:从几百到五千多个样本不等 (4194, 4620, 2748, 5265)。
- 抗菌肽:从几千到四万多个样本不等 (6989, 42213, 1067, 3244)。
- 抗氧化肽:通常在几百到两千个样本之间 (1338, 1404, 2120, 564)。
- 味觉肽:普遍样本量较小,通常在几百个样本左右 (499, 203, 600, 2233/2366)。
- 降压肽:约一千到三千多个样本 (1587, 2277, 3429, 1020)。
- 数据平衡性: 论文多次指出,许多研究在构建数据集时存在数据不平衡 (imbalanced datasets) 问题,特别是负样本 (negative samples) 的生成(常采用随机生成或未知活性肽作为负样本)可能引入噪声,影响模型性能。
5.2. 评估指标
论文在 2.4. Evaluation and validation 部分详细介绍了分类任务和回归任务常用的评估指标。这些指标是衡量 AI 模型在 FBPs 筛选中性能的关键。
-
分类任务 (如预测肽是否具有某种活性):
- 准确率 (Accuracy):
其中,
TP(True Positives) 是真阳性,TN(True Negatives) 是真阴性,FP(False Positives) 是假阳性,FN(False Negatives) 是假阴性。该指标衡量模型正确预测的样本比例。 - 精确率 (Precision): 衡量所有被预测为阳性的样本中,实际为阳性的比例,关注预测的“纯度”。
- 召回率 (Recall): 衡量所有实际为阳性的样本中,被正确预测为阳性的比例,关注对阳性样本的“覆盖度”。
- F1 分数 (F1 Score): 精确率和召回率的调和平均值,在两者之间取得平衡。
- 受试者工作特征曲线 (ROC Curve) 和曲线下面积 (AUC): ROC 曲线以真阳性率 为纵轴,假阳性率 为横轴。AUC 是 ROC 曲线下的面积,用于衡量分类器在所有可能分类阈值下的整体性能,AUC 值越高表示模型性能越好。
- 准确率 (Accuracy):
其中,
-
回归任务 (如预测肽的 IC50 值或活性强度):
- 均方误差 (Mean Squared Error, MSE): 其中, 是样本数量, 是真实值, 是预测值。MSE 衡量预测值与真实值之间差值的平方的平均值。
- 均方根误差 (Root Mean Squared Error, RMSE): RMSE 是 MSE 的平方根,与原始数据具有相同的单位,更易于解释。
- 平均绝对误差 (Mean Absolute Error, MAE): MAE 衡量预测值与真实值之间差值的绝对值的平均值,对异常值 (outliers) 不如 MSE/RMSE 敏感。
5.3. 对比基线
在 AI 筛选 FBPs 的研究中,对比基线主要包括:
- 传统机器学习模型: 支持向量机 (SVM)、随机森林 (Random Forest, RF)、逻辑回归 (Logistic Regression, LR)、 近邻 (K-Nearest Neighbors, KNN) 等经常作为基线模型,与新兴的深度学习方法进行比较。
- 基于规则或统计的方法: 某些研究可能会与基于特定理化性质规则或统计分析的方法进行比较。
- 其他深度学习模型: 在评估新的深度学习模型时,通常会将其与现有或经典的深度学习架构(如 CNN、RNN/LSTM、GNN 等)进行比较,以展示其性能优势。
- 人工特征工程方法: 许多非深度学习方法依赖于人工设计的分子特征,深度学习方法常常通过与这些方法比较,展示其自动特征学习的优势。
- 多模型集成 (Ensemble Models): 有些研究会使用集成学习方法(如投票分类器 voting classifier 或堆叠模型 stacked models)作为基线或作为最终的预测模型。
6. 实验结果与分析
本节将根据论文中对不同生物活性肽的 AI 筛选进展总结,分析其核心结果和各方法的优劣势。由于本文是综述性文章,没有具体的“实验”结果,而是对已有研究的“结果”进行总结。
6.1. 核心结果分析
论文详细总结了 AI 在不同生物活性食品源生物活性肽 (FBPs) 筛选中的应用进展,并指出了深度学习 (Deep Learning, DL) 相较于传统机器学习 (Machine Learning, ML) 的预测优势。
6.1.1. 抗炎肽 (Anti-inflammatory Peptides, AIPs)
- 进展: AI 筛选 AIPs 主要集中在非特异性肽,利用随机森林 (Random Forest, RF) 等传统机器学习算法,结合肽序列和结构信息作为特征。例如,Khatun 等人使用 RF 结合序列和结构信息筛选非特异性 AIPs;AIEpred 基于 RF 和三个肽序列特征进行预测;iAIPs 也使用 RF 模型并输入三种手动设计的肽特征编码。Gaffar 等人则利用八种序列特征训练了五种传统 ML 模型,并通过投票分类器 (voting classifier) 进行集成预测。
- 优劣势: 传统 ML 模型在处理此类分类任务时表现出一定的有效性,但其性能高度依赖于人工设计的特征工程。目前研究缺乏对特异性抗炎靶点的关注,且数据标注未充分考虑结构特征。
6.1.2. 抗菌肽 (Antimicrobial Peptides, AMPs)
- 进展: AI 在 AMPs 筛选中应用了多标签分类 (multi-label classification)(Lin et al., 2019)、人工神经网络 (Artificial Neural Networks, ANNs) 与 RF 的组合 (Caprani et al., 2021)、卷积神经网络 (Convolutional Neural Networks, CNNs) 与 RF 的组合 (León Madrazo & Segura Campos, 2022) 以及图卷积网络 (Graph Convolutional Network, GCN) (Sun et al., 2022)。这些方法从不同食品源(如太平洋白虾、海藻、奇亚籽、乳酸菌)中识别潜在 AMPs。
- 优劣势: 多数方法在预测准确性方面表现良好,但存在数据多样性不足(缺乏来自广泛食品源的数据)、分子表示未充分考虑 AMPs 低序列同源性等特性。此外,堆叠模型可能产生累积预测误差,且很多研究缺乏实验验证。
6.1.3. 抗氧化肽 (Antioxidant Peptides)
- 进展: 研究利用逻辑回归 (Logistic Regression, LR)、线性判别分析 (Linear Discriminant Analysis, LDA)、支持向量机 (SVM) 和 近邻 (KNN) 构建二分类预测器 (Shen et al., 2022)。CNN 模型也用于筛选抗氧化肽,输入独热编码 (one-hot encoding) 的肽序列 (Olsen et al., 2020)。AnOxPP 设计了基于双向长短期记忆网络 (Bidirectional Long Short-Term Memory, Bi-LSTM) 的模型来学习肽序列特征,探索构效关系 (Qin et al., 2023)。还有研究综合使用 SVM、RF、KNN 和 LR 算法,结合氨基酸组成、转换和分布特征 (García et al., 2022)。
- 优劣势: 现有研究的数据集规模(约 2000 个样本)相对有限,影响了模型的泛化能力。分子表示多局限于序列特征,未能深入提取结构和特定氨基酸(如含硫氨基酸、芳香族氨基酸)的理化性质。负样本生成方法有时缺乏可靠性。
6.1.4. 味觉肽 (Taste Peptides)
- 进展: 主要聚焦于鲜味肽和苦味肽的筛选。研究包括整合多层感知机 (Multilayer Perceptron, MLP) 和循环神经网络 (Recurrent Neural Networks, RNNs) 的深度学习模型预测鲜味肽 (Qi et al., 2023);基于梯度提升 (Gradient Boosting) 和 RF 算法的鲜味和苦味短肽预测分类器 (Cui et al., 2023);以及使用 SVM、LR、自适应增强 (Adaptive Boosting) 和 KNN 预测大豆源苦味肽 (Yolandani et al., 2024)。还有研究利用 MLP、CNN 和两种分子表示方法(分子描述符 molecular descriptors 和分子指纹 molecular fingerprints)构建苦味和甜味结构-味觉关系模型 (Bo et al., 2022)。
- 优劣势: 普遍存在样本量小(数百个)的问题,导致深度学习模型易于过拟合。数据不平衡和分子特征信息有限也影响了模型的预测准确性。对其他味觉肽(如酸、甜、咸)的研究相对较少。
6.1.5. 降压肽 (Anti-hypertensive Peptides)
- 进展: 研究利用回归决策树 (regression decision tree) 结合伪氨基酸组成 (PseAAC) 特征预测降压肽 (Kalyan et al., 2021)。深度学习模型(包括 BERT、ProtBERT、LSTM 和 RNN)被用于构建降压肽二分类器 (Zhang, Dai, Zhao et al., 2023)。LSTM 模型也被用于预测血管紧张素转换酶抑制剂 (Angiotensin-Converting Enzyme Inhibitor, ACE-I) 肽的 IC50 值 (Liao et al., 2023)。最近的研究结合了 13 种嵌入方法和 5 种机器学习模型来识别具有强 ACE 抑制活性的肽 (Du et al., 2024)。
- 优劣势: 负样本通常通过随机生成,可能引入噪声,影响二分类预测的可靠性。数据不平衡也影响了模型性能。部分研究中,肽分子序列特征表示过于单一。许多研究缺乏进一步的生物实验验证。
6.1.6. 其他生物活性肽
-
进展: AI 还成功应用于降血糖肽 (Basith et al., 2023)、抗癌肽 (Chantawannakul et al., 2021)、神经活性肽 (Lin, Li, Zhang et al., 2023) 和防止肌肉萎缩肽 (Corrochano et al., 2021) 的发现与筛选。在多功能生物活性肽的筛选方面也取得了显著进展 (Li, Li, Liu, Yao, & Huang, 2022)。
-
空白领域: 抗肥胖肽 (anti-obesity peptides) (Ashaolu et al., 2024) 和抗疲劳肽 (anti-fatigue peptides) (Li, Li, Cheng, et al., 2024) 的 AI 筛选研究目前非常稀少,表明这些领域仍处于初期阶段,具有巨大的探索潜力。
以下是原文 Table 3 的结果:
Bioactivity Type of problem Data Maching learning models Validation experiments Website Reference Data size Molecular representations Anti-inflammatory Binary classification 4194 Peptide sequence and structural information Random Forests / http://kurata14.bio.kyutech.ac.jp/PreAIP/ Khatun et al. (2019) 4620 3 peptide sequence features Random Forests / / Zhang et al. (2021) 2748 3 feature encodings Random Forests / / Zhao et al. (2021) 5265 8 sequence features Integrated model / https://github.com/Mir-Saima/IF-AIP Gaffar et al. (2024) Antimicrobial Multi-label classification 6989 8 types of physical-chemical properties and AAC Random Forests / https://balalab-skku.org/AMP-Fuse Lin et al. (2019) Binary classification 42,213 Protein sequences Ensemble of artificial neural networks and random forests Vitro experiments / Caprani et al. (2021) 1067 Peptide sequences Integrated model Vitro experiments https://cbbio.online/AxPEP/? León Madrazo and Segura Campos (2022) 3244 Initial graph obtained by peptide sequences Graph convolutional networks / http://www.dong-group.cn/database/dlabamp/Prediction/amplab/result/ Sun et al. (2022) Antioxidant Binary classification 1338 Peptide sequences with PseAAC encoding The four models of logistic regression, linear discriminant analysis, support vector machine and K-nearest neighbors / https://doi.org/10.1016/j.foodcont.2021.108439 Shen et al. (2022) 1404 Peptide sequences with one-hot encoding Convolutional neural networks Vitro experiments http://services.bioinformatics.dtu.dk/service.php?AnOxPePred-1.0 Olsen et al. (2020) 2120 Peptide sequences Long short-term memory / http://www.cqudfbp.net/AnOxPP/index.jsp Qin et al. (2023) 564 Peptide sequence The ensemble model with support vector machine, random forests, k-nearest neighbors and logistic regression Vitro experiments / García et al. (2022) Taste Binary classification of umami 499 6 feature representations A merged model for multi-layer perceptron and recurrent neural networks / https://umami-mrnn.herokuapp. Qi et al. (2023) Binary classification of umami 203 8 molecular descriptors Gradient boosting and random forests Sensory experiments https://pypi.org/project/Auto-Taste ML Cui et al. (2023) Binary classification of bitterants 600 Molecular weight, surface hydrophobicity, and relative hydrophobicity Support vector machine, linear regression, adaptive boosting, and k-nearest neighbors Sensory experiments https://doi.org/10.1016/j.foodres.2022.110974 Yolandani et al. (2024) Binary classification of bitterants and sweeteners 2233 bitter, 2366 sweet MLP: molecular descriptors and fingerprint CNN: the 2D image Convolutional neural networks, multi-layer perceptron / http://hazralab.iitr.ac.in/ahpp/index.php. Bo et al. (2022) Binary classification of bitterants and sweeteners 2233 bitter, 2366 sweet MLP: molecular descriptors and fingerprint CNN: the 2D image Convolutional neural networks, multi-layer perceptron / http://hazralab.iitr.ac.in/ahpp/index.php. Kalyan et al. (2021) Anti-hypertensive Regression-based binary classification 1587 PseACC for peptide structural and sequence features The regression decision tree Molecular docking and in vitro experiments / Kalyan et al. (2021) Binary classification 2277 Protein sequences with PseAAC encoding Four deep learning models including BERT, ProtBERT, long short-term memory and recurrent neural networks Molecular docking and in vitro experiments / Zhang, Dai, Zhao et al. (2023) Regression prediction of the IC50 value 3429 Protein sequences Long short-term memory networks In vitro experiments / Liao et al. (2023) Binary classification 1020 the ESM-2-based peptide embeddings Logistic regression, random forests, support vector machine, k-nearest neighbors and multi-layer perceptron / https://github.com/dzjxzyd/LM4ACE_webserver Du et al. (2024) Other Bioactivities Multiple classifications of ADPs and diabetes types 21,148 Peptide sequences in 3 machine learning-based prediction servers 8 notable machine learning algorithms / https://balalab-skku.org/ADP-Fuse Basith et al. (2023) Binary classification of Anticancer peptides 500 Peptide sequences to A deep learning model consisting of convolutional neural networks and long short-term memory Molecular docking and in vivo experiments AntiCP (http://crdd.osdd.net/raghava/anticp), iACP (http://lin-group.cn/server), and MLACP (http://www.thegleelab.org/MLACP/MLACP.html) Chantawannakul et al. (2021) Binary classification of multifunctional neuroprotective peptides 10,000 digital vector conversion Peptide sequences A deep neural network consisting of stacked recurrent and dense layers in vitro experiments https://doi.org/10.1039/d3fo01602a Lin, Ma, Wang, and Sun (2023) Binary classification of muscle synthesis bioactive peptides / Multi-scale peptide sequences An end-to-end deep learning model consisting of convolutional neural networks and long short-term memory gastrointestinal digestion / https://doi.org/10.1016/j.crfs.2021.03.008 Corrochano et al. (2021) Probabilities of types of bioactive peptides 6115 / / / https://agbg.shinyapps.io/MultiPep/ Li et al. (2022)
注: 上表中,符号 "/" 表示未找到相关信息。
6.2. 消融实验/参数分析
论文作为一篇综述,并没有包含具体的消融实验或参数分析。然而,在讨论挑战和未来展望时,论文隐式地指出了未来研究中需要进行的参数分析和模型组件验证的方向:
- 分子特征表示的影响: 论文强调当前 AI 方法多局限于序列表示,未能充分利用结构和理化性质等信息。这暗示未来需要进行消融实验,验证不同分子表示方法(如多模态、多尺度化学空间特征)对模型性能的影响。
- 模型架构的选择: 论文指出不同机器学习模型各有优劣,且深度学习模型的复杂性和训练成本较高。未来研究需要通过消融实验和参数调优,探索最优的模型架构(网络深度、连接、神经元数量、类型),并验证各组件(如自注意力机制、扩散模型)对预测准确性和解释性的贡献。
- 数据处理策略的影响: 论文多次提及小数据量、负样本模糊和类别不平衡问题。这表明未来需要通过实验评估数据增强、负样本生成策略和成本敏感学习等数据处理方法对模型鲁棒性和泛化能力的影响。
- 动态相互作用建模: 论文提出未来应预测肽-靶点动态相互作用。这意味着需要开发新的模型组件和参数化方案,并通过实验来验证其在捕捉分子动态行为方面的有效性。
7. 总结与思考
7.1. 结论总结
本综述全面审视了人工智能在食品源生物活性肽 (FBPs) 筛选领域的最新进展和未来前景。论文首先详细阐述了 AI 驱动 FBPs 筛选的通用流程,包括数据基础、分子特征表示、机器学习和深度学习模型构建与训练,以及评估验证等关键步骤。其次,它总结了 AI 在抗炎、抗菌、抗氧化、增味和降压等多种生物活性肽筛选中的应用成果,并明确指出深度学习在预测性能上优于传统机器学习技术。然而,论文也深刻剖析了当前研究面临的挑战,如数据量小、负样本模糊、类别不平衡、分子表示局限、模型单一、训练效率低以及动态相互作用预测不足等。最后,论文提出了前瞻性的未来研究方向,包括在食品特定大模型中开发数据增强策略、创建基于多尺度化学空间特征的通用深度学习框架以预测肽-靶点动态相互作用、建立高通量集成筛选框架,以及加强抗肥胖和抗疲劳等多功能肽的 AI 方法研究。总而言之,AI 为 FBPs 的系统性研究开辟了新途径,并有望推动食品工业的智能化转型。
7.2. 局限性与未来工作
论文作者指出了 AI 筛选 FBPs 的多项局限性,并据此提出了明确的未来研究方向:
7.2.1. 数据方面的局限性与未来工作
- 小数据量 (Small data size): 现有数据集规模相对较小,尤其对于复杂的深度学习模型可能导致过拟合。
- 未来工作: 探索新的数据增强 (data augmentation) 方法,如生成模型 (generative models) 和在大型模型内部进行交叉蒸馏 (cross-distillation techniques),以解决肽数据稀缺问题。
- “非活性”分类的模糊性 (Ambiguity in "inactive" classification): 负样本 (negative data) 的获取和定义通常不明确,可能引入噪声。
- 未来工作: 通过合成数据生成 (synthetic data generation) 和迁移学习 (transfer learning) 等方法构建更可靠的非活性肽数据库。
- 类别不平衡 (Class imbalance): 某些类别的肽样本数量远多于其他类别,导致模型偏向多数类。
- 未来工作: 采用过采样 (oversampling)、欠采样 (under-sampling) 和成本敏感学习 (cost-sensitive learning) 等技术来处理数据不平衡问题。
7.2.2. 分子表示方面的局限性与未来工作
- 局限于序列表示: 当前 AI 方法多仅使用肽序列信息,限制了对复杂原子相互作用相关特征的学习。
- 未来工作: 采用多模态分子表示 (multimodal molecular representations) 和跨化学空间的多尺度数据特征 (multi-scale data features across chemical spaces),以更全面地捕捉肽的生物学信息。
7.2.3. 算法模型方面的局限性与未来工作
- 模型相对单一: 当前多数研究仍依赖传统分类算法,模型架构缺乏多样性。
- 未来工作: 整合多种深度学习模型,以更全面地理解食品源肽的分子化学环境。
- 动态交互预测不足: 现有 AI 模型主要基于静态数据预测原子间相互作用,无法捕捉肽与靶点在溶液中的动态过程。
- 未来工作: 探索新方法来预测肽与靶点在溶液中的动态相互作用,这对于理解肽的活性机制和增强靶向递送至关重要。
- 模型可解释性和鲁棒性: 随着模型复杂性增加,可解释性降低;模型的鲁棒性也需要提升。
- 未来工作: 深入研究模型的解释性 (interpretability) 和鲁棒性 (robustness),特别是在 AI 与生物学和化学知识深度融合的背景下。
7.2.4. 训练效率方面的局限性与未来工作
- 训练效率低: 传统训练方法(如交叉验证、早停)在面对复杂模型和大数据时效率不高。
- 未来工作: 采用知识蒸馏 (knowledge distillation)、预训练模型微调 (fine-tuning of pretrained models) 和生成训练 (generative training) 等更高效的训练方法。
7.2.5. 问题简化与缺乏多功能肽研究的局限性与未来工作
- 问题过度简化: 目前研究多将肽-靶点相互作用简化为二分类或简单的结合概率回归,忽略了其复杂性和关键细节。
- 未来工作: 预测多级肽-靶点相互作用 (multilevel peptide-target interactions)。
- 多功能肽研究不足: 研究主要集中在少数常见肽,缺乏对多功能、抗肥胖和抗疲劳肽的研究。
- 未来工作: 加强抗肥胖和抗疲劳肽等具有多功能特性的 AI 方法研究。
- 缺乏生物实验验证: 许多机器学习方法缺乏后续的生物实验验证。
- 未来工作: 建立一个高通量筛选框架,将 AI 预测与虚拟筛选 (virtual screening)、分子动力学模拟 (molecular dynamics simulations)、体外测试 (in vitro testing) 和体内实验 (in vivo experiments) 相结合,并将其应用于工业生产。
7.3. 个人启发与批判
这篇综述为食品源生物活性肽的发现和开发提供了一个清晰的 AI 视角,对我个人有以下启发:
- 交叉学科融合的重要性: 论文强调了计算机科学、食品科学、人工智能、化学和生物学等多学科交叉的重要性。这意味着在面对复杂生物问题时,单一学科的知识已经不足以提供全面的解决方案,跨学科合作和知识融合是未来研究的必然趋势。
- 数据是核心,但数据质量和表示更关键: 论文多次指出数据量小、负样本模糊和类别不平衡等问题。这启发我们,即使拥有强大的 AI 算法,如果数据基础薄弱,模型的性能也会受限。因此,在项目初期投入更多精力在高质量数据收集、标注和多维度特征表示上至关重要。未来的研究应更多关注如何从有限的生物学数据中挖掘更多信息(如通过数据增强、迁移学习),并开发更鲁棒的分子表示方法。
- 从静态预测到动态交互: 论文提出未来应研究肽-靶点的动态相互作用,这是一个非常具有前瞻性的方向。当前的 AI 模型多关注静态结合,但生物体内的相互作用是动态变化的。如果 AI 能够模拟和预测这些动态过程,将极大地提升我们对肽作用机制的理解,并指导更精准的肽设计和靶向递送。这可能需要结合分子动力学模拟和深度学习,开发新的模型架构。
- 可解释性与鲁棒性的双重挑战: 随着深度学习模型复杂度的增加,其“黑箱”特性使得理解其决策过程变得困难。在生物医药领域,模型的决策依据往往与实际机制紧密相关。因此,开发既高效又可解释的 AI 模型,并提高其在不同数据集和应用场景下的鲁棒性,是 AI 应用从学术研究走向实际落地的关键。
- 关注新兴和未探索领域: 论文指出抗肥胖和抗疲劳肽等领域的研究尚处于早期,具有巨大潜力。这启发我们,在追逐热门领域的同时,也应关注那些具有重要社会意义但尚未被充分探索的“蓝海”领域,AI 在这些领域可能发挥颠覆性作用。
批判:
- 负样本生成问题: 论文反复提到许多研究中负样本的随机生成问题。虽然论文指出了这一问题并提出了构建非活性肽数据库的建议,但如何可靠地生成或识别真正的非活性肽仍然是一个巨大的挑战。在生物学中,“非活性”并不总是意味着完全没有作用,可能只是活性低于阈值或作用机制不同。因此,对“非活性”的精确定义和数据收集方法本身就需要深入的生物学研究,AI 无法完全脱离这一点。
- 通用框架的挑战: 论文提出要创建通用深度学习框架来预测肽-靶点动态相互作用。这是一个宏伟的目标,但肽的类型多样(线性、环状、修饰)、靶点多样(蛋白质、核酸、脂质),以及它们所处的生物环境复杂性(pH、离子强度、共存分子),都使得构建一个真正“通用”且高性能的框架极具挑战。可能需要更细致地考虑特定肽-靶点类别的模型,或者设计具有强大领域适应性 (domain adaptation) 和元学习 (meta-learning) 能力的框架。
- 计算资源的可及性: 论文展望了利用大模型(如食品特定大模型)和扩散模型等先进技术。虽然这些技术潜力巨大,但它们对计算资源(GPU、存储)的需求也极高,这对于许多实验室和研究机构而言可能是一个严重的瓶颈。如何在有限资源下实现这些先进理念,或者开发更轻量级但仍然高效的模型,将是未来需要权衡的问题。
- 实验验证的滞后: 论文多次强调 AI 预测方法缺乏实验验证。这反映了 AI 领域普遍存在的问题:模型开发速度快于实验验证速度。要真正推动 AI 在 FBPs 筛选中的应用,需要建立更紧密的 AI 研究者和生物实验科学家之间的协作机制,以及更高效的体外/体内验证平台。
相似论文推荐
基于向量语义检索推荐的相关论文。