AiPaper
论文状态:已完成

Development of a machine learning-based predictor for identifying and discovering antioxidant peptides based on a new strategy

发表:2021/07/21
原文链接
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

研究基于伪氨基酸组合和肽模体,开发了PseAAC-二肽-模体混合机器学习模型预测抗氧化肽,AUC达0.939。以高精度筛选潜在肽,合成验证显示QCQ肽具显著抗氧化活性,提供了高效发现抗氧化肽的新工具。

摘要

Food Control 131 (2022) 108439 Available online 22 July 2021 0956-7135/© 2021 Elsevier Ltd. All rights reserved. Development of a machine learning-based predictor for identifying and discovering antioxidant peptides based on a new strategy Yong Shen, Chunmei Liu, Kunmei Chi, Qian Gao, Xue Bai, Ying Xu, Na Guo * College of Food Science and Engineering, Jilin University, Changchun, 130062, China A R T I C L E I N F O Keywords: Machine learning SVM Hybrid model Multifunctional peptide Antioxidant peptide A B S T R A C T It is necessary to solve the problem of food corruption and oxidation to improve food quality. Peptides are a good candidate to solve the above problems. In this paper, a machine learning method was used to construct an antioxidant peptide classification model based on the pseudo-amino acid composition and motifs of peptides as input features. The AUC of PseAAC-dipeptide-motif hybrid model is 0.939 and the average precision score is 0.947, which is the best among all models in this paper. Besides, the classification threshold has been increased to make the model precision above 0.95. Then, the model was used as predictor to discover potential antioxidant pe

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

开发一种基于新策略的机器学习预测器,用于识别和发现抗氧化肽 (Development of a machine learning-based predictor for identifying and discovering antioxidant peptides based on a new strategy)

1.2. 作者

Yong Shen, Chunmei Liu, Kunmei Chi, Qian Gao, Xue Bai, Ying Xu, Na Guo

隶属机构: 吉林大学食品科学与工程学院 (College of Food Science and Engineering, Jilin University, Changchun, 130062, China)

1.3. 发表期刊/会议

未明确提及期刊名称,但从 ARTICLEINFO 字段推断为学术期刊。从 https://doi.org/10.1016/j.foodcont.2021.108439 推断,该论文发表于 Food Control 期刊,该期刊在食品科学与技术领域具有良好的声誉和影响力,专注于食品安全、质量控制和食品政策等研究。

1.4. 发表年份

2021年 (从DOI链接推断)。

1.5. 摘要

该研究旨在通过构建一个基于机器学习的预测模型来解决食品腐败和氧化问题,以期发现具有抗氧化功能的肽。论文以肽的伪氨基酸组成 (PseAAC) 和模体 (motifs) 作为输入特征,构建了一个抗氧化肽分类模型。其中,PseAAC-dipeptide-motif 混合模型表现最佳,其 AUC (曲线下面积) 达到0.939,平均精确率 (average precision score) 为0.947。为了确保预测结果的可靠性,研究人员将分类阈值提高,使得模型的精确率 (precision) 达到0.95以上。随后,该模型被用作预测器,从一个随机肽数据集中发现潜在的抗氧化肽。根据预测结果,合成了5种潜在抗氧化肽(PSGKLKPQGRPQCQQGM),并测定了它们的 DPPH 自由基清除活性 (DPPH radical-scavenging activity) 和总抗氧化能力 (Total Antioxidant Capacity, T-AOC)。实验结果显示,QCQ 肽具有很强的抗氧化性能,其 T-AOC 值为9.59 U/mg prot,在125 μg/mL浓度下 DPPH 清除活性达到95.52%。此外,该预测器还可用于挖掘具有抗氧化功能的多功能肽。总的来说,该预测器为发现具有抗氧化功能的肽提供了一个有效的工具。

1.6. 原文链接

/files/papers/6910a0b25d12d02a6339cf92/paper.pdf (本地链接,发布状态未知,可能为已发表版本)

2. 整体概括

2.1. 研究背景与动机

核心问题: 食品腐败和氧化是导致巨大经济损失甚至食源性疾病的主要原因。传统的食品防腐方法可能存在安全隐患或效率问题。肽作为一种天然、安全的生物活性物质,被认为是解决上述问题的良好候选者,尤其是抗氧化肽在食品保鲜中具有巨大潜力。然而,现有大量肽的序列数据,通过传统实验方法筛选和鉴定具有特定功能的肽耗时且成本高昂。

问题的重要性与现有挑战:

  • 食品安全与质量: 氧化和微生物污染是食品变质的主要原因,影响食品质量和安全性。
  • 传统方法局限: 手动分析和传统湿实验方法无法高效处理海量的肽序列数据,导致许多肽的功能未被充分挖掘。
  • 功能多样性需求: 食品工业不仅需要抗氧化功能,还可能需要抗菌、抗真菌等多功能肽来确保食品的全面安全。

论文的切入点与创新思路: 本研究利用机器学习方法,通过构建一个高效、准确的抗氧化肽预测模型,来快速识别和发现具有抗氧化活性的肽,从而克服传统方法的局限性。在此基础上,进一步探索了结合预测模型与现有肽数据库,挖掘具有多重功能的肽(如兼具抗菌和抗氧化功能),以满足食品工业对多功能肽的需求。其新策略在于:

  1. 构建一个高性能的机器学习分类模型,将 伪氨基酸组成 (PseAAC)模体 (motif) 这两种肽序列特征结合起来,以提高预测准确性。
  2. 通过实验验证预测模型的有效性,即合成模型预测出的潜在抗氧化肽并测定其生物活性。
  3. 提出了一种 新策略 (new strategy),即将机器学习预测器与现有肽数据库结合,用于从已知具有其他功能的肽(如抗菌肽)中筛选出同时具有抗氧化功能的肽,从而发现 多功能肽 (multifunctional peptides)

2.2. 核心贡献/主要发现

主要贡献:

  • 高性能抗氧化肽预测器: 成功开发了一个基于机器学习的抗氧化肽预测器,其中 PseAAC-dipeptide-motif 混合模型表现最佳,具有高 AUC (0.939) 和平均精确率 (0.947)。
  • 模型验证: 通过合成模型预测的5种肽并进行实验验证,证明了预测器发现潜在抗氧化肽的有效性。其中 QCQ 肽被实验证实具有显著的抗氧化活性。
  • 多功能肽发现新策略: 提出并成功应用了一种将机器学习预测器与现有肽数据库结合的新策略,从已知具有抗菌、抗真菌等功能的肽中识别出潜在的抗氧化肽,从而实现了多功能肽的挖掘。这为食品工业提供了解决复合问题的潜在方案。

关键结论与发现:

  • PseAACmotif 结合的特征提取方法能够有效捕捉肽序列与抗氧化活性之间的关系。
  • 支持向量机 (SVM) 在所比较的四种机器学习算法中,对于抗氧化肽分类任务表现出最佳性能。
  • 通过调整分类阈值,可以显著提高预测模型的精确率,确保筛选出的潜在抗氧化肽的可靠性。
  • 实验验证结果表明,机器学习预测器能够有效指导新型生物活性肽的发现,其中 QCQ 肽展现出优异的 DPPH 自由基清除活性和总抗氧化能力。
  • 利用该预测器成功从已知抗菌、抗真菌、抗MRSA等肽中筛选出具有抗氧化功能的多功能肽,为食品工业提供了更全面的解决方案。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本研究,需要掌握以下核心概念:

3.1.1. 肽 (Peptides)

概念定义: 肽是由两个或多个氨基酸通过肽键连接而成的化合物。它们比蛋白质小,通常由少数几个到几十个氨基酸组成。肽在生物体内发挥着广泛的生物学功能,包括激素、神经递质、酶抑制剂、抗菌剂以及本研究关注的抗氧化剂等。

3.1.2. 抗氧化肽 (Antioxidant Peptides)

概念定义: 抗氧化肽是指能够清除体内或食品中自由基、抑制脂质过氧化反应,从而保护细胞免受氧化损伤或延缓食品氧化的肽。它们通常具有特定的氨基酸组成和序列,例如含有酪氨酸 (Tyr)、色氨酸 (Trp)、组氨酸 (His)、半胱氨酸 (Cys) 等具有抗氧化活性的氨基酸。

3.1.3. 机器学习 (Machine Learning)

概念定义: 机器学习是人工智能的一个分支,旨在通过从数据中学习模式和关系,使计算机系统能够在没有明确编程的情况下执行特定任务。它通常涉及模型训练、特征提取、预测和评估等步骤。

3.1.4. 支持向量机 (Support Vector Machine, SVM)

概念定义: 支持向量机 (SVM) 是一种监督学习模型,用于分类和回归分析。其核心思想是找到一个最优的超平面,使得不同类别的数据点尽可能地分开,并且离超平面最近的数据点(支持向量)到超平面的距离最大化。SVM 在处理小样本、高维度数据时表现优异。

3.1.5. 伪氨基酸组成 (Pseudo-amino Acid Composition, PseAAC)

概念定义: 伪氨基酸组成 (PseAAC) 是一种将蛋白质或肽序列转换为固定长度数值向量的方法。它不仅考虑了氨基酸的频率(传统氨基酸组成),还考虑了氨基酸之间的局部或全局序列顺序信息,以及氨基酸的物理化学性质(如疏水性、亲水性等)。这使得 PseAAC 能够更全面地表征肽序列的特征,是机器学习模型的重要输入。

3.1.6. 模体 (Motif)

概念定义: 在生物序列(如肽或DNA)中,模体 (motif) 是指在多个序列中频繁出现、具有特定功能或结构意义的短序列模式。识别 模体 有助于揭示序列的功能特征。在本研究中,模体 被用来捕获抗氧化肽序列中特有的、与抗氧化活性相关的短序列模式。

3.1.7. 性能评估指标 (Performance Metrics)

概念定义: 用于衡量机器学习模型预测效果的指标。

  • 曲线下面积 (Area Under the Curve, AUC): AUCROC (Receiver Operating Characteristic) 曲线下的面积,它衡量了分类模型在所有可能分类阈值下的性能。AUC 值越高,模型区分正负样本的能力越强,是一个 阈值无关 (threshold independent) 的评估指标。
  • 精确率 (Precision): 精确率 衡量的是模型预测为正类别的样本中,有多少比例是真正的正类别。它关注的是预测的准确性,即“预测为真的,有多少是真的”。
  • 召回率 (Recall) / 敏感度 (Sensitivity): 召回率 衡量的是在所有真正的正类别样本中,有多少比例被模型成功地预测为正类别。它关注的是模型的覆盖能力,即“真正的真,有多少被找到”。
  • 特异度 (Specificity): 特异度 衡量的是在所有真正的负类别样本中,有多少比例被模型成功地预测为负类别。它关注的是模型识别负样本的能力。
  • 准确率 (Accuracy): 准确率 衡量的是模型正确预测的样本(包括正类别和负类别)占总样本数的比例。
  • 马修斯相关系数 (Matthews Correlation Coefficient, MCC): MCC 是一个平衡的二元分类评估指标,即使在类别不平衡的情况下也能提供可靠的度量。MCC 值介于 -1 和 +1 之间,+1 表示完美预测,0 表示随机预测,-1 表示完全不一致的预测。

3.1.8. DPPH 自由基清除活性 (DPPH Radical-Scavenging Activity)

概念定义: DPPH (2,2-二苯基-1-苦基肼) 是一种稳定的自由基,呈紫色。当遇到具有自由基清除能力的物质(如抗氧化剂)时,DPPH 自由基会接受一个电子或氢原子,使其颜色褪去并变为黄色。通过测量吸光度变化,可以定量评估样品清除 DPPH 自由基的能力,是体外评估抗氧化活性的常用方法。

3.1.9. 总抗氧化能力 (Total Antioxidant Capacity, T-AOC)

概念定义: 总抗氧化能力 (T-AOC) 是指样品中所有抗氧化物质协同作用的总和,反映了样品抵抗氧化应激的整体能力。通常通过试剂盒或特定生化反应来测定。

3.1.10. 交叉验证 (Cross-validation)

概念定义: 交叉验证 是一种统计学方法,用于评估机器学习模型的泛化能力。它将数据集分成几个子集,轮流使用其中一个子集作为测试集,其余子集作为训练集,重复多次以减少模型对特定训练数据的依赖,防止过拟合。10-fold cross-validation 是一种常见的形式,即将数据分成10份,每次用其中9份训练,1份测试,重复10次。

3.2. 前人工作与技术演进

论文在引言和讨论部分提及了多种利用机器学习预测肽功能的研究,显示了该领域的技术演进:

  • 早期研究: 机器学习已被广泛应用于肽功能预测,例如:
    • Manavalan 等人使用 SVM随机森林 (random forest) 预测抗癌肽 (Manavalan et al., 2017)。
    • Grisoni 等人使用 循环神经网络 (recurrent neural network) 预测抗癌肽 (Grisoni et al., 2018)。
    • Gupta 等人使用机器学习分类抗炎表位 (Gupta et al., 2017)。
  • 多种肽功能预测: 机器学习也被用于预测抗菌肽 (Liu et al., 2018; Meher et al., 2017)、抗真菌肽 (Agrawal et al., 2018) 和抗生物膜肽 (Haney et al., 2018; Sharma et al., 2016) 等。
  • 特征提取方法: PseAAC (Shen & Chou, 2008) 和 motif (Vens et al., 2011) 是肽序列特征提取的常用方法,已被许多研究用于建模 (Gupta et al., 2016; Nagpal et al., 2018)。
  • 现有抗氧化肽预测模型: 论文也对比了已有的抗氧化肽预测模型:
    • Meng 等人构建了基于序列特征和 SVMAOPs-SVM 模型 (Meng et al., 2019)。
    • Butt 等人构建的模型 (Butt et al., 2019)。
    • Olsen 等人构建了名为 AnOxPePred 的抗氧化预测工具,使用了 深度学习 (deep learning) (Olsen et al., 2020)。

3.3. 差异化分析

本研究与现有工作的主要差异和创新点在于:

  • 特征组合: 本文结合了 伪氨基酸组成 (PseAAC)(特别是 PseAAC-dipeptide 模式,考虑了氨基酸组成和二肽信息)和 模体 (motif) 两种特征,构建 混合模型 (hybrid model),以期更全面地捕捉肽的抗氧化活性信息,从而在预测性能上超越单一特征的模型。
  • 模型性能优化策略: 不仅关注 AUC 等整体性能指标,还特别强调了通过调整 分类阈值 (classification threshold) 来提高模型的 精确率 (precision),以确保发现的抗氧化肽具有更高的可靠性,这在实际应用(如食品安全领域)中至关重要。
  • 多功能肽发现的新策略: 提出了一个 新策略 (new strategy),即将训练好的抗氧化肽预测器应用于已知具有其他生物活性(如抗菌、抗真菌、抗MRSA、抗毒素、抗病毒)的肽数据库中,从而发现兼具抗氧化功能的 多功能肽 (multifunctional peptides)。这不仅提高了发现效率,也为食品工业对综合性解决方案的需求提供了可能。
  • 实验验证: 预测器发现的潜在抗氧化肽经过了体外实验(DPPH 自由基清除活性和 T-AOC 测定)的严格验证,增强了研究结果的说服力。

4. 方法论

本研究旨在开发一个基于机器学习的预测器,用于识别和发现抗氧化肽。其核心方法包括数据集构建、特征提取、模型训练与优化、性能评估以及实验验证。

4.1. 数据集 (Datasets)

收集可靠的数据集是构建模型的关键第一步。

4.1.1. 正样本数据集 (Positive Dataset)

  • 来源:APD3 (Antimicrobial Peptide Database 3) 和 BIOPEP-UWM (Bioactive Peptides Database at the University of Warmia and Mazury) 数据库中收集抗氧化肽。
  • 筛选条件:
    • 肽链长度在2到31个氨基酸之间。
    • 移除非标准氨基酸。
    • 移除重复肽。
  • 最终数量: 669个抗氧化肽被收集作为正样本数据集。
  • 特征分析:
    • 长度分布: 超过80%的抗氧化肽长度不超过10个氨基酸。

    • 氨基酸组成: 正样本中富含亮氨酸 (L, Leu)、脯氨酸 (P, Pro)、酪氨酸 (Y, Tyr),且组氨酸 (H, His) 和色氨酸 (W, Trp) 的含量也高于负样本,这些氨基酸与抗氧化活性呈正相关。

      以下是原文 Figure 1 的结果:

      Fig. 1. The length distribution of antioxidant peptides in the positive dataset. 该图像是图表,展示了正样本数据集中抗氧化肽的氨基酸残基长度分布,其中1-5个残基的肽所占比例最高,超过50%。

图 1. 正样本数据集中抗氧化肽的长度分布。

以下是原文 Figure 2 的结果:

Fig. 2. Amino acids compositional analysis of the peptides in the positive dataset and negative dataset. 该图像是一张柱状图,展示了正样本抗氧化肽(AOP)和负样本非抗氧化肽(NAOP)中20种氨基酸组成的比例分布差异。

图 2. 正样本数据集和负样本数据集中肽的氨基酸组成分析。

4.1.2. 负样本数据集 (Negative Dataset)

  • 来源: 由于没有现成的负样本数据集,研究从 Swiss-Prot 数据库中筛选。
  • 筛选条件:
    • 选择 reviewed 状态的肽。
    • 肽链长度在2到31个氨基酸之间。
    • 移除通过“antioxidant”或“antimicrobial”关键词筛选出的肽。
    • 移除正样本数据集和预测数据集中已有的肽。
    • 最终得到3718个肽,从中随机选择669个作为负样本数据集,与正样本数量相同。

4.1.3. 训练集 (Training Set)、验证集 (Validation Set) 和测试集 (Test Set)

  • 划分方法: 将上述正负样本数据集合并,随机划分为训练集和测试集,比例为8:2。
  • 交叉验证: 在模型训练过程中,训练集被进一步随机划分为10份,采用 10折交叉验证 (10-fold cross-validation)。每次验证时,9份作为训练集,1份作为验证集。
  • 一致性: 使用固定的随机种子,以确保后续建模中使用相同的训练集、验证集和测试集。

4.1.4. 随机肽数据集 (Random Peptide Dataset)

  • 生成方法: 使用 Python 随机生成2007个肽。
  • 组成: 这些肽由20种典型氨基酸中的一种或多种组成。
  • 长度: 氨基酸残基长度范围在2到31之间。
  • 用途: 用于评估训练好的预测器发现未知抗氧化肽的能力。

4.2. 特征提取 (Feature Extraction)

特征提取是机器学习模型构建的关键步骤,旨在将肽序列转换为模型可处理的数值向量,并捕获与生物活性相关的关键信息。

4.2.1. 伪氨基酸组成 (PseAAC Feature)

PseAAC 方法考虑了肽的氨基酸组成及其物理化学特性。本研究使用 PseAAC 网络服务器 (http://www.csbio.sjtu.edu.cn/bioinf/PseAAC) 生成三种类型的 PseAAC 特征向量。

4.2.1.1. PseAAC-Type 1

  • 原理: 也称为 parallel-correlation type,生成 20+λ20 + \lambda 个离散数字来表示一个肽。
  • 参数设置:
    • λ\lambda (非负整数): 为保证所有肽序列(最短长度为2)都能生成有效向量,设置为1。
    • 氨基酸属性: 疏水性 (hydrophobicity)、亲水性 (hydrophilicity)、质量 (mass)、pKa1 (alpha-COOH)、pKa2 (NH3)、pI (at 25°C)。
    • 权重因子: 使用默认值。
  • 维度: 最终生成21维向量。

4.2.1.2. PseAAC-Type 2

  • 原理: 也称为 series-correlation type,生成 20+iλ20 + i\lambda 个离散数字来表示一个肽。
  • 参数设置:
    • λ\lambda: 同样设置为1。
    • ii: 表示选择的氨基酸属性数量,本研究选择了6个属性(疏水性、亲水性、质量、pKa1、pKa2、pI)。
  • 维度: 最终生成26维向量。

4.2.1.3. PseAAC-Dipeptide

  • 原理: 基于二肽组成 (Dipeptide-composition) 模式。与前两种模式不同,生成向量时无需选择任何参数。
  • 维度: 每个肽最终生成420维向量。

4.2.2. 模体特征 (Motif Feature)

  • 原理: 肽序列中的 模体 (motifs) 常常能定义重要的功能特性。
  • 识别工具: 使用 MERCI 程序 (Vens et al., 2011) 识别抗氧化肽的 模体。该程序需要正负样本的肽序列以 Fasta 格式输入。
  • 参数设置: kk 值(即在前 kk 个模体中)设置为默认值10。
  • 结果: 最终识别出11个 模体 (S2 File中列出)。

4.3. 机器学习算法 (Machine Learning Algorithms)

为了选择最佳模型,本研究评估了四种常用的分类算法:

  • 逻辑回归 (Logistic Regression, LR)

  • 线性判别分析 (Linear Discriminant Analysis, LDA)

  • 支持向量机 (Support Vector Machines, SVM)

  • K近邻 (k-Nearest Neighbors, KNN)

    这些算法在默认参数下首先进行初步评估,然后对表现最佳的算法进行参数优化。

4.4. PseAAC 模型 (PseAAC Models)

基于三种 PseAAC 特征(Type 1Type 2Dipeptide)分别构建模型。

4.4.1. PseAAC-Type 1 模型

  • 特征向量: 21维 PseAAC-Type 1 向量。
  • 算法: LRLDASVMKNN
  • 训练过程:
    • 将数据分为训练集、验证集和测试集。
    • 训练集用于模型训练。
    • 10折交叉验证 用于参数优化,主要依据 AUC (阈值无关参数)。
    • 测试集用于最终模型评估,计算 敏感度 (Sensitivity)特异度 (Specificity)准确率 (Accuracy)MCC (阈值相关参数) 和 AUC平均精确率得分 (average precision score) (阈值无关参数)。
  • 参数优化: 对表现最佳的算法(SVM)使用 GridSearchCV 进行参数优化,包括选择 核函数 (kernel function) (linearpolynomialsigmoid径向基函数 (Radial Basis Function, RBF)),以及 RBF 核函数的 超参数 Cgamma

4.4.2. PseAAC-Type 2 模型

  • 特征向量: 26维 PseAAC-Type 2 向量。
  • 建模步骤:PseAAC-Type 1 模型相同。

4.4.3. PseAAC-Dipeptide 模型

  • 特征向量: 420维 PseAAC-Dipeptide 向量。
  • 建模步骤: 与前两种模型相同。在初步评估时,为避免数据不收敛,将 max-iter 参数增加到3000。

4.5. 混合模型 (Hybrid Model)

为了进一步优化模型性能,将 模体特征 (motif feature)PseAAC 特征结合,构建了三种混合模型。

  • 构建方法:

    1. 首先,使用相应的 PseAAC 模型(PseAAC-Type 1PseAAC-Type 2PseAAC-Dipeptide)得到肽的预测得分。
    2. 如果该肽序列包含任何已识别的 模体,则在预测得分上增加0.5分 (Gupta et al., 2016)。
    3. 基于调整后的得分进行后续的模型评估和预测。
  • 三种混合模型:

    1. PseAAC-Type 1-motif 混合模型
    2. PseAAC-Type 2-motif 混合模型
    3. PseAAC-Dipeptide-motif 混合模型

4.6. 交叉验证 (Cross-validation)

  • 目的: 避免模型过拟合,评估泛化能力。
  • 步骤:
    1. 整个数据集随机划分为80%的训练集和20%的独立测试集。使用固定随机种子确保划分一致。
    2. 训练集进一步划分为10份,进行 10折交叉验证:每次取1份作为验证集,其余9份作为训练集。
    3. 重复10次,计算评估指标的平均值。

4.7. 性能衡量 (Performance Measure)

  • 评估指标: 使用 阈值相关参数 (threshold dependent parameters)阈值无关参数 (threshold independent parameters)
    • 阈值相关: 敏感度 (Sensitivity)特异度 (Specificity)准确率 (Accuracy)MCC (Matthews Correlation Coefficient)
    • 阈值无关: AUC (Area Under Curve)平均精确率得分 (average precision score)
  • 主要选择依据:
    1. 在模型选择和参数优化阶段,AUC 作为主要指标。

    2. 建模完成后,根据 AUC平均精确率得分 选择最佳模型。

    3. 最终,调整模型分类阈值,使 精确率 (precision) 大于0.95,以确保预测结果的高度可靠性,并将此模型作为最终的机器学习预测器。

      以下是所有评估指标的定义、公式和符号解释:

4.7.1. 混淆矩阵 (Confusion Matrix)

在解释评估指标前,首先定义二分类任务中的混淆矩阵,其各项如下:

  • 真阳性 (True Positives, TP): 真实为正,预测也为正。
  • 真阴性 (True Negatives, TN): 真实为负,预测也为负。
  • 假阳性 (False Positives, FP): 真实为负,预测为正 (第一类错误)。
  • 假阴性 (False Negatives, FN): 真实为正,预测为负 (第二类错误)。

4.7.2. 敏感度 (Sensitivity) / 召回率 (Recall)

  • 概念定义: 敏感度召回率 衡量的是模型从所有真实正样本中正确识别出正样本的能力。高 敏感度 意味着模型能够捕获到大部分正样本。
  • 数学公式: Sensitivity=Recall=TPTP+FN \text{Sensitivity} = \text{Recall} = \frac{TP}{TP + FN}
  • 符号解释:
    • TP: 真阳性数量。
    • FN: 假阴性数量。

4.7.3. 特异度 (Specificity)

  • 概念定义: 特异度 衡量的是模型从所有真实负样本中正确识别出负样本的能力。高 特异度 意味着模型能够有效排除负样本。
  • 数学公式: Specificity=TNTN+FP \text{Specificity} = \frac{TN}{TN + FP}
  • 符号解释:
    • TN: 真阴性数量。
    • FP: 假阳性数量。

4.7.4. 准确率 (Accuracy)

  • 概念定义: 准确率 衡量的是模型正确预测的样本总数占所有样本总数的比例。
  • 数学公式: Accuracy=TP+TNTP+TN+FP+FN \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
  • 符号解释:
    • TP: 真阳性数量。
    • TN: 真阴性数量。
    • FP: 假阳性数量。
    • FN: 假阴性数量。

4.7.5. 马修斯相关系数 (Matthews Correlation Coefficient, MCC)

  • 概念定义: MCC 是一种衡量二分类模型预测质量的指标,即使在类别不平衡的情况下也能给出公正的评估。它的取值范围是 -1 到 +1,其中 +1 表示完美预测,0 表示随机预测,-1 表示完全不一致的预测。
  • 数学公式: MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN) \text{MCC} = \frac{TP \times TN - FP \times FN}{\sqrt{(TP + FP)(TP + FN)(TN + FP)(TN + FN)}}
  • 符号解释:
    • TP: 真阳性数量。
    • TN: 真阴性数量。
    • FP: 假阳性数量。
    • FN: 假阴性数量。

4.7.6. 精确率 (Precision)

  • 概念定义: 精确率 衡量的是在所有被模型预测为正类别的样本中,有多少比例是真正的正类别。在本研究中,它反映了预测器识别出的抗氧化肽中有多少是真实的抗氧化肽。
  • 数学公式: Precision=TPTP+FP \text{Precision} = \frac{TP}{TP + FP}
  • 符号解释:
    • TP: 真阳性数量。
    • FP: 假阳性数量。

4.7.7. 曲线下面积 (Area Under the Curve, AUC)

  • 概念定义: AUCROC (Receiver Operating Characteristic) 曲线下的面积。ROC 曲线描绘了在不同分类阈值下,真阳性率 (True Positive Rate, TPR = Sensitivity)假阳性率 (False Positive Rate, FPR = 1 - Specificity) 之间的关系。AUC 值越接近1,模型的分类性能越好,是一个 阈值无关 的指标。

4.7.8. 平均精确率得分 (Average Precision Score)

  • 概念定义: 平均精确率得分精确率-召回率曲线 (Precision-Recall curve, PR curve) 下的面积。PR 曲线 显示了在不同分类阈值下,精确率召回率 之间的权衡。平均精确率得分 对正类别不平衡的数据集更为敏感,并且在高召回率区域的性能评估上比 AUC 更具信息量。

4.8. 肽的化学合成与抗氧化活性测定 (Chemical Synthesis of Peptides and Determination of Antioxidant Activity)

4.8.1. 肽的化学合成 (Chemical Synthesis of Peptides)

  • 依据: 根据模型预测结果,选择具有潜在抗氧化功能的肽进行合成。
  • 合成商: 桑格生物科技(上海)有限公司 (Sangon Biotech (Shanghai, China) Co., Ltd.)。
  • 质量控制: 合成后的肽通过 高效液相色谱 (HPLC)质谱 (MS) 进行分析,纯度均高于98%。

4.8.2. 抗氧化活性测定 (Determination of Antioxidant Activity)

  • 总抗氧化能力 (Total Antioxidant Capacity, T-AOC):
    • 方法: 使用 T-AOC 试剂盒,按照制造商说明进行测定。
  • DPPH 自由基清除活性 (DPPH Radical-scavenging Activity):
    • 方法: 参照 Liu 等人 (2020) 的方法并稍作修改。
    • 试剂准备:
      • DPPH 溶液: 2 mg DPPH 溶于50 mL无水乙醇。
      • 合成肽溶液: 溶于纯水。
    • 实验步骤:
      1. 在96孔微孔板中进行。
      2. 每孔加入200 μL溶液。
      3. 样品组 (S): 100 μL DPPH 溶液 + 100 μL 肽溶液。
      4. 对照组 (C): 100 μL DPPH 溶液 + 100 μL 水。
      5. 空白样品组 (BS): 用100 μL 水代替样品组中的100 μL 肽溶液。
      6. 空白对照组 (BC): 用100 μL 乙醇代替对照组中的100 μL DPPH 乙醇溶液。
      7. 微孔板在黑暗中孵育30分钟。
      8. 在517 nm波长处测量吸光度。
    • 重复性: 所有实验重复三次。
    • 统计分析: 使用 R 4.03 (R Core Team, 2020) 进行统计分析。
  • DPPH 清除能力计算公式: DPPH scavenging activity(%)=[1(ASABS)(ACABC)]×100% \text{DPPH scavenging activity} (\% ) = \left[ 1 - \frac{(A_S - A_{BS})}{(A_C - A_{BC})} \right] \times 100\%
    • 符号解释:
      • ASA_S: 样品组的吸光度 (Absorbance of Sample)。
      • ABSA_{BS}: 空白样品组的吸光度 (Absorbance of Blank Sample)。
      • ACA_C: 对照组的吸光度 (Absorbance of Control)。
      • ABCA_{BC}: 空白对照组的吸光度 (Absorbance of Blank Control)。

4.9. 基于新策略的多功能肽发现 (Discovery of Multifunctional Peptides Based on a New Strategy)

  • 动机: 抗氧化功能不足以全面确保食品安全,食品工业还需要具有抗菌、抗真菌、抗MRSA、抗毒素和抗病毒等功能的多功能肽。
  • 新策略: 将机器学习预测器与现有肽数据库结合使用。
  • 步骤:
    1. APD3 数据库中收集具有特定功能(抗菌、抗真菌、抗MRSA、抗毒素、抗病毒)且残基长度在2到31之间的肽作为 预测数据集 (prediction dataset)
    2. 使用训练好的抗氧化肽预测器(即调整阈值后的 PseAAC-Dipeptide-motif 混合模型)对这些肽进行预测。
    3. 筛选出被预测具有抗氧化功能的肽,这些肽即被认为是多功能肽。
    • 注意: APD3 中有些肽本身就具有多种功能,本研究按功能分类收集,未移除重复肽。

5. 实验设置

5.1. 数据集

本研究使用了以下数据集进行模型构建、训练、验证和预测:

  • 正样本数据集 (Positive Dataset):
    • 来源: APD3BIOPEP-UWM 数据库中收集的抗氧化肽。
    • 规模与特点: 669个肽,长度为2-31个氨基酸。这些肽的氨基酸组成和长度分布具有特征性,例如酪氨酸、色氨酸、组氨酸含量较高,且短肽居多(超过80%长度不超过10个氨基酸)。
  • 负样本数据集 (Negative Dataset):
    • 来源:Swiss-Prot 数据库中筛选。
    • 规模与特点: 669个肽,与正样本数量相同,长度为2-31个氨基酸,且排除了已知抗氧化或抗菌功能的肽。
  • 训练集、验证集和测试集:
    • 将669个正样本和669个负样本合并,总计1338个肽。
    • 随机划分为训练集 (80%,约1070个肽) 和独立测试集 (20%,约268个肽)。
    • 训练集在 10折交叉验证 中进一步用于训练和验证。
  • 随机肽数据集 (Random Peptide Dataset):
    • 来源: 使用 Python 随机生成。
    • 规模与特点: 2007个肽,由20种典型氨基酸组成,长度范围为2-31个氨基酸。这些肽的功能未知,用于评估预测器发现新抗氧化肽的能力。
  • 多功能肽预测数据集 (Multifunctional Peptide Prediction Dataset):
    • 来源:APD3 数据库中收集。

    • 规模与特点: 包含具有已知抗菌 (1612个)、抗真菌 (744个)、抗MRSA (133个)、抗病毒 (128个) 和抗毒素 (9个) 功能的肽,长度为2-31个氨基酸。这些肽用于筛选其中兼具抗氧化功能的肽。

      这些数据集的选择旨在全面覆盖抗氧化肽的特性,并提供足够的数据量来训练和验证机器学习模型。随机肽数据集和多功能肽预测数据集则用于验证模型在实际发现和筛选应用中的能力。

5.2. 评估指标

本研究使用了多种评估指标来衡量模型的性能,包括 阈值相关参数阈值无关参数。每个指标都旨在从不同角度反映模型的有效性。

5.2.1. 敏感度 (Sensitivity)

  • 概念定义: 衡量的是模型从所有真实正样本中正确识别出正样本的能力。高 敏感度 意味着模型能够捕获到大部分抗氧化肽。
  • 数学公式: Sensitivity=TPTP+FN \text{Sensitivity} = \frac{TP}{TP + FN}
  • 符号解释:
    • TP: 真实抗氧化肽被正确预测为抗氧化肽的数量(真阳性)。
    • FN: 真实抗氧化肽被错误预测为非抗氧化肽的数量(假阴性)。

5.2.2. 特异度 (Specificity)

  • 概念定义: 衡量的是模型从所有真实负样本中正确识别出负样本的能力。高 特异度 意味着模型能够有效排除非抗氧化肽。
  • 数学公式: Specificity=TNTN+FP \text{Specificity} = \frac{TN}{TN + FP}
  • 符号解释:
    • TN: 真实非抗氧化肽被正确预测为非抗氧化肽的数量(真阴性)。
    • FP: 真实非抗氧化肽被错误预测为抗氧化肽的数量(假阳性)。

5.2.3. 准确率 (Accuracy)

  • 概念定义: 衡量的是模型正确预测的样本总数占所有样本总数的比例。
  • 数学公式: Accuracy=TP+TNTP+TN+FP+FN \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
  • 符号解释:
    • TP: 真阳性数量。
    • TN: 真阴性数量。
    • FP: 假阳性数量。
    • FN: 假阴性数量。

5.2.4. 马修斯相关系数 (Matthews Correlation Coefficient, MCC)

  • 概念定义: MCC 是一种平衡的二元分类评估指标,即使在类别不平衡的情况下也能提供可靠的度量。MCC 值介于 -1 和 +1 之间,+1 表示完美预测,0 表示随机预测,-1 表示完全不一致的预测。
  • 数学公式: MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN) \text{MCC} = \frac{TP \times TN - FP \times FN}{\sqrt{(TP + FP)(TP + FN)(TN + FP)(TN + FN)}}
  • 符号解释:
    • TP: 真阳性数量。
    • TN: 真阴性数量。
    • FP: 假阳性数量。
    • FN: 假阴性数量。

5.2.5. 曲线下面积 (Area Under the Curve, AUC)

  • 概念定义: AUCROC 曲线下的面积,衡量了模型在所有可能分类阈值下的性能。AUC 值越高,模型区分抗氧化肽和非抗氧化肽的能力越强,是一个 阈值无关 的评估指标。

5.2.6. 平均精确率得分 (Average Precision Score)

  • 概念定义: 平均精确率得分精确率-召回率曲线 下的面积。它综合考虑了模型在不同召回率水平下的精确率表现,尤其适用于类别不平衡或关注正样本识别率高的场景。

5.3. 对比基线

本研究主要将不同特征提取方法(PseAAC-Type 1PseAAC-Type 2PseAAC-Dipeptide)和不同机器学习算法(LRLDASVMKNN)构建的模型进行相互比较,以确定最佳的特征-算法组合。此外,还通过引入 motif 特征构建 混合模型,与单一 PseAAC 特征模型进行对比,证明特征融合的有效性。

虽然论文没有直接列出与具体外部 基线模型 (Baselines) 的性能对比表格,但在讨论部分提及了与之前报道的模型(如 Meng 的 AOPs-SVM、Butt 的模型和 Olsen 的 AnOxPePred 工具)的性能比较,指出本研究构建的预测器在 敏感度 (Sensitivity)MCCAUC 等指标上优于某些现有模型,但在 特异度 (Specificity)准确率 (Accuracy) 上可能有所权衡。这些比较间接构成了模型性能的基线参考。

6. 实验结果与分析

6.1. PseAAC 作为输入特征的预测模型 (Prediction model using PseAAC As input features)

研究首先基于三种 PseAAC 模式构建模型,并比较了四种机器学习算法 (LR, LDA, SVM, KNN) 的性能。

6.1.1. PseAAC-Type 1 模型

  • 初步评估: 使用 PseAAC-Type 1 特征,在默认参数下比较四种算法。

  • 结果: 从原文 Figure 3 可以看出,SVM 模型的 AUC 显著高于其他模型 (type1_SVM 表现最佳),因此选择 SVM 进行后续优化。

    以下是原文 Figure 3 的结果:

    Fig. 3. AUC of four models based on the PseAAC-type 1. 该图像是图3,展示了基于PseAAC-type 1编码的四种机器学习模型的AUC箱线图。图中type1_SVM模型的AUC值最高,表现优于type1_LR、type1_LDA和type1_KNN模型,说明其在抗氧化肽分类任务中的预测性能最佳。

图 3. 基于 PseAAC-Type 1 的四种模型 AUC 箱线图。

  • SVM 参数优化: 使用 GridSearchCV10折交叉验证 优化 SVM 参数。
    • 核函数选择: 径向基函数 (RBF) 核函数被选为最佳。
    • 超参数优化: 最佳参数为 C=1C=1gamma=0.01gamma=0.01
  • 性能: 在这些参数下,使用测试集评估,其性能指标列于 Table 1 中。

6.1.2. PseAAC-Type 2 模型

  • 初步评估: 使用 PseAAC-Type 2 特征,在默认参数下比较四种算法。

  • 结果: 从原文 Figure 4 可以看出,SVM 模型依然表现最佳 (type2_SVM 表现突出)。

    以下是原文 Figure 4 的结果:

    Fig. 4. AUC of four models based on the PseAAC-type 2. 该图像是图4,展示了基于PseAAC-type 2的四种机器学习模型AUC值的箱线图,模型包括type2_LR、type2_LDA、type2_SVM和type2_KNN,显示了各模型AUC的分布范围及中位数。

图 4. 基于 PseAAC-Type 2 的四种模型 AUC 箱线图。

  • SVM 参数优化:
    • 核函数选择: RBF 核函数。
    • 超参数优化: 最佳参数为 C=1C=1gamma=0.001gamma=0.001
  • 性能: 在这些参数下,AUC 为0.914。根据 Table 1,其性能指标略优于 PseAAC-Type 1 模型。

6.1.3. PseAAC-Dipeptide 模型

  • 初步评估: 使用 PseAAC-Dipeptide 特征,在默认参数下比较四种算法。由于数据维度较高,max-iter 参数增加到3000以确保收敛。

  • 结果: 从原文 Figure 5 可以看出,SVM 模型再次表现优于其他模型 (dipep_SVM 最佳)。

    以下是原文 Figure 5 的结果:

    Fig. 5. AUC of four models based on the PseAAC- dipeptide. 该图像是一个箱线图,展示了基于PseAAC-二肽特征的四种模型(LR、LDA、SVM、KNN)的AUC分布情况,显示dipep_SVM模型的AUC最高且波动最小,表现最佳。

图 5. 基于 PseAAC-Dipeptide 的四种模型 AUC 箱线图。

  • SVM 参数优化:
    • 核函数选择与超参数: 最佳参数与前两种模式相同(RBF 核,C=1C=1gamma 具体值未在此处明确给出,但表示与前两种模式类似),但 AUC 得到了显著提升。
  • 性能: 在 Table 1 中,其 AUC 为0.939,平均精确率得分 为0.946,显示出比 PseAAC-Type 1PseAAC-Type 2 模型更好的性能。

6.2. 混合模型 (Hybrid model)

模体特征 (motif) 与三种 PseAAC 特征结合,构建了三种混合模型。模体 通过 MERCI 程序识别,共11个。如果肽序列包含任何模体,则 SVM 预测得分增加0.5。

以下是原文 Table 1 的结果:

Model Sensitivity Specificity Accuracy MCC AUC average precision score
PseAAC-type 1 model 0.965 0.712 0.847 0.708 0.934 0.937
PseAAC-type 2 model 0.832 0.888 0.858 0.719 0.921 0.931
PseAAC-dipeptide mode 0.916 0.832 0.877 0.753 0.939 0.946
PseAAC-dipeptide-motif hybrid model 0.965 0.712 0.847 0.708 0.935 0.937
PseAAC-dipeptide-motif hybrid model 0.832 0.888 0.858 0.719 0.921 0.932
PseAAC-dipeptide-motif hybrid model 0.916 0.832 0.877 0.753 0.939 0.947

注: 原文 Table 1 中有三行模型名称均为 "PseAAC-dipeptide-motif hybrid model",但性能指标不同。根据原文 3.2. Hybrid model 部分的描述 "The three hybrid models of PseAAC-type 1-motif hybrid model, PseAAC-type 2-motif hybrid model and PseAAC-dipeptide-motif hybrid model constructed by the method mentioned above were evaluated.",以及各行指标与前面单一 PseAAC 模型指标的相似性,可以推断这三行实际对应的是 PseAAC-type 1-motif hybrid modelPseAAC-type 2-motif hybrid modelPseAAC-dipeptide-motif hybrid model。其中最后一行的数据与摘要和正文对最佳模型的描述一致。

  • 混合模型性能分析:
    • PseAAC-dipeptide-motif 混合模型表现最佳,其 AUC平均精确率得分 分别为0.939和0.947。
    • 尽管 PseAAC-dipeptide-motif (最后一行) 在 敏感度 上略低于 PseAAC-type 1 modelPseAAC-type 1-motif hybrid model (第一行和第四行),但其 MCC平均精确率得分 均为最高,且 AUCPseAAC-dipeptide mode 持平,但 平均精确率得分 略有提高。这表明 模体 特征的加入有助于略微改善模型性能。
  • 模型选择与阈值调整:
    • 最终选择了 PseAAC-dipeptide-motif 混合模型作为最佳模型。
    • 为了确保高可靠性(precision>0.95precision > 0.95),研究人员分析了 PR 曲线 (Precision-Recall curve),并将模型的分类阈值调整为0.668。这意味着只有预测得分高于0.668的肽才会被认定为抗氧化肽。

6.3. 抗氧化肽的预测 (Predictions of antioxidant peptide)

  • 预测对象: 使用调整阈值后的预测器对2007个随机生成的肽数据集进行预测。
  • 结果: 预测出254个潜在的抗氧化肽。
  • 合成与验证: 选择了预测得分最高的5个肽(PSGK, LKPQ, GRP, QCQ, QGM)进行化学合成和体外抗氧化活性测定。

6.4. 抗氧化活性 (Antioxidant activity)

对合成的5种潜在抗氧化肽进行了 T-AOCDPPH 自由基清除活性测定。

6.4.1. 总抗氧化能力 (T-AOC)

  • 结果: 从原文 Figure 6 可以看出,肽 P4 (QCQ) 的 T-AOC 显著高于其他肽 (p<0.05p < 0.05)。

    以下是原文 Figure 6 的结果:

    Fig. 6. T-AOC of the 5 synthetic peptides (PSGK, P1; LKPQ, P2; GRP, P3; QCQ, P4; QGM, P5). 该图像是图表,展示了5种合成肽(PSGK,LKPQ,GRP,QCQ,QGM)的总抗氧化能力(T-AOC,单位U/mg蛋白)。结果显示肽QCQ的T-AOC显著高于其他肽,表明其具有较强的抗氧化活性。

图 6. 5种合成肽 (PSGK, P1; LKPQ, P2; GRP, P3; QCQ, P4; QGM, P5) 的 T-AOC

6.4.2. DPPH 自由基清除活性

  • 初步结果: 所有5种肽都显示出一定的 DPPH 自由基清除活性。其中,P4 (QCQ) 表现出最强的活性 (从 Figure 7 可见)。

    以下是原文 Figure 7 的结果:

    Fig. 7. DPPH radical scavenging activity of the 5 synthetic peptides. 该图像是图7,为合成的5种肽类的DPPH自由基清除活性柱状图,展示了各肽在125 μg/mL浓度下的清除率及其误差线,P4肽表现出最高的自由基清除活性。

图 7. 5种合成肽的 DPPH 自由基清除活性。

  • QCQ 肽的浓度依赖性: 进一步测试了 QCQ 肽在不同浓度下的 DPPH 清除活性。

  • 结果: 从 Figure 8 可以看出,在125 μg/mL浓度下,DPPH 清除活性达到95.52%,且浓度继续增加清除活性没有显著下降。在62.5 μg/mL时,清除活性降至88.45%。这表明 QCQ 肽具有很强的浓度依赖性抗氧化活性。

    以下是原文 Figure 8 的结果:

    Fig. 8. DPPH radical scavenging activity of different concentrations of the QCQ peptide (P4). 该图像是图表,展示了QCQ肽在不同浓度下的DPPH自由基清除率。随浓度增加,清除率逐渐上升,125 μg/mL及以上浓度的清除率接近或达到最高水平,证明QCQ具有显著的抗氧化活性。

图 8. QCQ 肽 (P4) 不同浓度下的 DPPH 自由基清除活性。

  • 结论: 实验结果验证了 QCQ 肽具有显著的抗氧化性能,证明了机器学习预测器发现潜在抗氧化肽的有效性。

6.5. 发现多功能肽 (Discover multifunctional peptides)

研究利用构建的预测器,从 APD3 数据库中收集的已知功能肽中筛选具有抗氧化功能的肽,以发现多功能肽。

  • 预测数据集:

    • 抗毒素肽: 9个
    • 抗MRSA肽: 133个
    • 抗病毒肽: 128个
    • 抗真菌肽: 744个
    • 抗菌肽: 1612个
  • 预测结果:

    • 从抗菌肽中发现25个具有抗氧化功能。

    • 从抗真菌肽中发现12个具有抗氧化功能。

    • 从抗MRSA肽中发现3个具有抗氧化功能。

    • 从抗病毒肽中发现1个具有抗氧化功能。

    • 从抗毒素肽中未发现具有抗氧化功能。

      以下是原文 Table 2 的结果:

      ID sequences
      ABPa AP00142 GLKKLLGKLLKKLGKLLLK
      AP00143 KKLLKWLKKLL
      AP00334 IIGGR
      AP00511 GYGGHGGHGGHGGHGGHGGHGHGGGGHG
      AP00528 DDDDDDD
      AP00551 FRWWHR
      AP01357 FFHLHFHY
      AP01406 ACSAG
      AP01518 AMVSS
      AP01899 FLKPLFNAALKLLP
      AP02204 KTKKKLLKKT
      AP02243 VKLFPVKLFP
      AP02261 PLGG
      AP02418 QWGGG
      AP02461 FLPGLIKAAVGVGSTILCKITKKC
      AP02670 DEDDD
      AP02681 YL
      AP02803 DEDLDE
      AP02856 WWWLRKIW
      AP02874 YSYYTIV
      AP02884 GDDDDDD
      AP02885 GADDDDD
      AP02984 YPVEPF
      AP03230 CVWLVVV
      AP03236 RRRWWWWV
      AFpb AP00511 GYGGHGGHGGHGGHGGHGGHGHGGGGHG
      AP00889 APPGARPPPGPPPPGPPPPGP
      AP01494 GHHPHGHHPHGHHPHGHHHPH
      AP02243 VKLFPVKLFP
      AP02261 PLGG
      AP02381 EL
      AP02382 ELLL
      AP02383 ELLL
      AP02461 FLPGLIKAAVGVGSTILCKITKKC
      AP02681 YL
      AP02856 WWWLRKIW
      AP02874 YSYYTIV
      AMPc AP02856 WWWLRKIW
      AP02874 YSYYTIV
      AP03236 RRRWWWWV
      AVPd AP01406 ACSAG
  • 部分多功能肽的分析:

    • 在抗菌肽组中,有25个肽被预测具有抗氧化功能。其中,AP02261AP02461APD3 中已被标记为抗氧化肽。抗菌肽 FLKPLFNAALKLLP (AP01899) 在 BIO 数据库中也标记为抗氧化肽。其余22个肽是模型新发现的潜在抗氧化肽。
    • 在抗真菌组中,有12个肽被预测具有抗氧化功能。其中2个肽 (AP02261, AP02681) 与抗菌肽组中的肽编号相同,表明它们具有抗菌、抗真菌和抗氧化三种功能。
    • 通过数据库检索,发现肽 YL(由 Yang 等人合成并实验证明具有抗氧化功能)也被本模型预测为抗氧化肽,验证了模型的有效性。
  • 总结: 该新策略成功地从已知具有其他功能的肽中识别出了潜在的抗氧化肽,从而发现了多功能肽,为食品工业提供了具有多重防护作用的生物活性物质。

7. 总结与思考

7.1. 结论总结

本研究成功开发了一个基于机器学习的抗氧化肽预测器,并提出了一种发现多功能肽的新策略。通过结合肽的 伪氨基酸组成 (PseAAC)模体 (motif) 特征,并利用 支持向量机 (SVM) 算法,构建了 PseAAC-dipeptide-motif 混合模型,该模型在 AUC平均精确率得分 上均表现最佳。通过调整分类阈值,模型实现了高于0.95的精确率,确保了预测结果的可靠性。实验验证部分,合成了模型预测的5种肽,其中 QCQ 肽被证实具有显著的 DPPH 自由基清除活性和 T-AOC,有力地验证了预测器的有效性。此外,本研究还将预测器应用于现有功能肽数据库,成功地从抗菌、抗真菌等肽中挖掘出了兼具抗氧化功能的多功能肽,这为解决食品工业中微生物污染和氧化问题提供了高效且全面的生物解决方案。

7.2. 局限性与未来工作

论文中虽然没有明确列出“局限性与未来工作”的专门章节,但在讨论部分提及了一些潜在的改进方向和思考:

  • 模型性能提升空间: 尽管本模型表现优秀,但与其他现有模型对比时,在 特异度 (Specificity)准确率 (Accuracy) 上可能存在权衡。未来可以进一步优化特征表示或模型架构,以实现更全面的性能提升。
  • 多功能肽的全面验证: 尽管模型成功预测并发现了多功能肽,但这些肽的多种功能(例如兼具抗菌和抗氧化)的协同作用和实际应用效果,仍需更深入的实验验证。
  • 实验验证的范围: 仅验证了5种预测出的肽,未来可以扩大验证范围,进一步增强模型的说服力。
  • 非抗氧化肽的预测结果关注度: 论文提到“对非抗氧化肽的预测结果没有那么关注”,这在某些应用场景下可能是一个局限,例如在需要精确排除有害或无效肽时。未来的研究可以探索如何平衡对正负样本预测性能的关注。
  • 更复杂的特征表示: 随着 深度学习 (deep learning) 等技术的发展,可以探索更复杂的肽序列表示方法,如使用 循环神经网络 (RNN)Transformer 等模型来捕捉更深层次的序列信息。

7.3. 个人启发与批判

7.3.1. 个人启发

  • 多特征融合的有效性: 本文通过 PseAACmotif 两种不同类型特征的融合,成功提升了模型的预测性能,这启发我们在处理生物序列数据时,应考虑从多个角度提取特征,如物理化学性质、序列模式、结构信息等。
  • 模型实用性的关注: 论文不仅追求高性能,更通过调整分类阈值来提高 精确率 (precision),以确保发现的肽的可靠性,这体现了研究从实验室走向实际应用时的严谨性和务实性。在实际场景中,尤其是高风险领域(如食品、医药),高精确率往往比高召回率更受青睐。
  • 多功能肽发现的潜力: 机器学习与数据库结合发现多功能肽的策略非常具有创新性和实用价值。在生物活性物质的研究中,单一功能肽的发现已取得显著进展,而多功能肽的挖掘能够更高效地解决实际生产中的复杂问题,例如食品防腐中的“氧化与微生物”双重挑战。这种跨功能发现思路可以推广到其他领域,如寻找兼具抗炎和抗癌功能的分子等。
  • 机器学习在生物领域的应用前景: 本研究再次证明了机器学习在加速生物活性物质发现方面的强大能力,可以显著缩短研发周期,降低成本。

7.3.2. 批判与潜在改进

  • 数据集的平衡性与偏差: 虽然研究中正负样本数量相同,但在负样本的构建过程中,是从 Swiss-Prot 中随机选取非抗氧化肽,这可能无法完全代表所有非抗氧化肽的多样性。例如,某些肽可能功能未知,但具有弱抗氧化性,被误归为负样本。更严格的负样本定义(如已知无抗氧化活性或活性很低)可能进一步提高模型的泛化能力。
  • 模型可解释性: SVM 模型虽然性能优异,但其内在决策机制通常被认为是“黑箱”。如果能结合可解释性机器学习方法(如 SHAPLIME),揭示模型做出预测的关键氨基酸位点或 模体,将更有助于理解抗氧化肽的作用机制,并指导肽的理性设计。
  • 实验验证的全面性: 尽管 DPPHT-AOC 是常用的体外抗氧化活性指标,但它们不能完全代表体内或真实食品体系中的复杂抗氧化过程。未来的工作可以考虑在细胞层面、动物模型甚至实际食品体系中进行更全面的抗氧化活性验证。
  • 模体特征的权重: 论文中为包含 模体 的肽直接加0.5分,这种固定权重的设定可能过于简化。可以探索通过机器学习方法(如神经网络或集成学习)自动学习 模体 对抗氧化活性的贡献权重,使其更加灵活和精确。
  • 新策略的推广: 发现多功能肽的策略很新颖,但目前仅限于预测抗氧化功能。未来可以扩展到预测其他功能,从而发现更广泛的多功能肽,例如预测抗菌肽的毒性等。
  • 与其他先进模型的对比: 在讨论中提及了与 深度学习 (deep learning) 模型 AnOxPePred 的对比,但并未给出详细的对比数据。如果能将本模型与最新的 深度学习 模型进行严格的性能对比,并分析各自的优劣势,将更有助于确立本研究的地位和贡献。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。