AiPaper
论文状态:已完成

IF-AIP: A machine learning method for the identification of anti-inflammatory peptides using multi-feature fusion strategy

发表:2023/11/18
原文链接
价格:0.10
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究提出了IF-AIP,一种基于投票分类器的机器学习模型,旨在识别抗炎肽(AIPs)。该模型结合八种特征描述符和五种传统分类器,通过特征选择优化特征集。在两个独立数据集测试中,IF-AIP显著提高了识别准确率和MCC得分,表现优于现有方法。

摘要

Background: The most commonly used therapy currently for inflammatory and autoimmune diseases is non-specific anti-inflammatory drugs, which have various hazardous side effects. Recently, some anti-inflammatory peptides (AIPs) have been found to be a substitute therapy for inflammatory diseases like rheumatoid arthritis and Alzheimer’s. Therefore, the identification of these AIPs is an emerging topic that is equally important. Methods: In this work, we have proposed an identification model for AIPs using a voting classifier. We used eight different feature descriptors and five conventional machine-learning classifiers. The eight feature encodings were concatenated to get a hybrid feature set. The five baseline models trained on the hybrid feature set were integrated via a voting classifier. Finally, a feature selection algorithm was used to select the optimal feature set for the construction of our final model, named IF-AIP. Results: We tested the proposed model on two independent datasets. On independent data 1, the IF-AIP model shows an improvement of 3%–5.6% in terms of accuracies and 6.7%–10.8% in terms of MCC compared to the existing methods. On the independent dataset 2, our model IF-AIP shows an overall improvement of 2.9%–5.7% in terms of accuracy and 8.3%–8.6% in terms of MCC score compared to the existing methods. A comparative performance analysis was conducted between the proposed model and existing methods using a set of 24 novel peptide sequences. Notably, the IF-AIP method exhibited exceptional accuracy, correctly identifying all 24 peptides as AIPs. The source code, pre-trained models, and all datasets are made available at https://github.com/Mir-Saima/IF-AIP.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

IF-AIP: 一种使用多特征融合策略识别抗炎肽的机器学习方法 (IF-AIP: A machine learning method for the identification of anti-inflammatory peptides using multi-feature fusion strategy)

1.2. 作者

Saima Gaffar a,1, Mir Tanveerul Hassan a,1, Hilal Tayara b,, Kil To Chong a,c,*

  • a: 韩国全北国立大学电子与信息工程系 (DeparentElectronic anInformationgineeri, Jeonbuk National Universy, Jeon, 5896, SoutKor)
  • b: 韩国全北国立大学国际工程与科学学院 (School of International Engineering and Science, Jeonbuk National University, Jeonju, 54896, South Korea)
  • c: 韩国全北国立大学电子与信息研究中心 (Electronic and Information Researc Cente, Jeonbuk National Universy, Jeon, 54896, South Korea)

1.3. 发表期刊/会议

论文内容暗示其发表在生物信息学或计算生物学相关期刊上,尽管原文未明确列出期刊名称,但从行文风格和引用 DOI 模式来看,其性质为学术期刊论文。

1.4. 发表年份

2023年11月18日 (UTC)

1.5. 摘要

背景: 当前治疗炎症和自身免疫疾病最常用的疗法是非特异性抗炎药,它们具有各种有害的副作用。最近,一些抗炎肽 (AIPs) 被发现可以作为治疗类风湿关节炎和阿尔茨海默病等炎症疾病的替代疗法。因此,识别这些 AIPs 是一个同样重要的新兴课题。 方法: 在这项工作中,我们提出了一种使用投票分类器 (voting classifier) 识别 AIPs 的模型。我们使用了八种不同的特征描述符和五种传统的机器学习分类器。这八种特征编码被拼接起来,形成一个混合特征集 (hybrid feature set)。在混合特征集上训练的五个基线模型通过一个投票分类器进行集成。最后,使用特征选择 (feature selection) 算法选择最优特征集,用于构建我们的最终模型,命名为 IF-AIP结果: 我们在两个独立数据集上测试了所提出的模型。在独立数据集1上,IF-AIP 模型在准确率方面比现有方法提高了 3%–5.6%,在 MCC 方面提高了 6.7%–10.8%。在独立数据集2上,我们的模型 IF-AIP 在准确率方面比现有方法总体提高了 2.9%–5.7%,在 MCC 得分方面提高了 8.3%–8.6%。对提出的模型和现有方法进行了比较性能分析,使用了 24 个新型肽序列。值得注意的是,IF-AIP 方法表现出卓越的准确性,正确识别了所有 24 个肽为 AIPs。源代码、预训练模型和所有数据集均可在 https://github.com/Mir-Saima/IF-AIP 获取。

1.6. 原文链接

/files/papers/6919eba6110b75dcc59ae31e/paper.pdf

2. 整体概括

2.1. 研究背景与动机

当前,炎症和自身免疫疾病的治疗主要依赖非特异性抗炎药,如非甾体抗炎药 (NSAIDs) 和类固醇。然而,这些药物普遍存在有害的副作用,例如脑-血屏障阻塞、胃肠道和心血管并发症等,这使得它们的长期使用受到限制。

近年来,随着生物医学研究的深入,一些内源性肽 (endogenous peptides) 被发现具有抗炎活性,被称为抗炎肽 (Anti-inflammatory Peptides, AIPs)。这些 AIPs 作为替代疗法展现出巨大的潜力,因为它们在正常情况下副作用极小,能够更安全有效地抑制炎症反应,甚至对类风湿关节炎和阿尔茨海默病等慢性炎症疾病也显示出治疗前景。

然而,传统的生物学实验方法来识别这些 AIPs 是一个耗时且成本高昂的过程,难以进行大规模筛选。因此,开发高效、准确的计算方法来自动化 AIPs 的识别变得至关重要。尽管机器学习在生物信息学领域已广泛应用于自动化肽的分类任务,但现有的大多数计算模型在数据量和特征提取方法上仍存在局限性,从而限制了它们的性能和泛化能力。

本文旨在解决上述挑战,通过开发一种新颖的计算模型,结合更丰富的数据集、多样化的特征表示和先进的集成学习技术,以期提高 AIPs 识别的准确性和可靠性。

2.2. 核心贡献/主要发现

本文提出了一个名为 IF-AIP 的机器学习模型,用于高效准确地识别抗炎肽。其核心贡献和主要发现如下:

  • 多特征融合策略: 首次系统地结合了八种不同的肽序列特征描述符 (AAC, DPC, PAAC, APAAC, QSON, SOCN, CKSAAGP, GTPC),并将其拼接成一个丰富的混合特征集 (hybrid feature set),旨在全面捕捉肽序列的组成、理化性质和序列顺序信息。
  • 集成学习模型: 采用了投票分类器 (voting classifier) 的集成学习方法,将五种性能优异的基线机器学习分类器 (Random Forest, LGBM, XGBoost, Extra Tree Classifier, CatBoost) 的预测结果进行整合,显著提升了模型的鲁棒性和预测能力。
  • 不平衡数据处理: 引入了 SMOTE-Tomek 混合采样技术来平衡训练数据集,有效解决了生物序列数据中常见的类别不平衡问题,确保模型能够公平地学习正负样本的特征。
  • 优化特征选择: 在混合特征集的基础上,进一步应用了特征选择算法,筛选出最优的特征子集来训练最终的 IF-AIP 模型,从而减少冗余信息,提高模型的效率和泛化性能。
  • 卓越的预测性能: 在两个独立的测试数据集上,IF-AIP 模型在准确率 (Acc) 和马修斯相关系数 (MCC) 等关键评估指标上,均显著优于现有的 AIP 预测方法。
    • 在独立数据集1上,IF-AIP 模型的准确率提高了 3%–5.6%,MCC 提高了 6.7%–10.8%。
    • 在独立数据集2上,IF-AIP 模型的准确率提高了 2.9%–5.7%,MCC 提高了 8.3%–8.6%。
  • 强大的泛化能力: 在由 24 个新型实验验证的抗炎肽序列组成的案例研究中,IF-AIP 模型成功地正确识别了所有肽,远超现有方法,展示了其在识别未知 AIPs 方面的强大实用性和泛化能力。
  • 开源共享: 提供了模型的源代码、预训练模型和所有数据集,促进了研究的可重复性和社区的进一步开发。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 IF-AIP 模型,有必要了解以下几个核心概念:

  • 抗炎肽 (Anti-inflammatory Peptides, AIPs): AIPs 是一类具有抑制炎症反应能力的生物活性肽。炎症是机体对损伤或感染的保护性反应,但慢性或失控的炎症可能导致多种疾病。AIPs 通过调节免疫细胞功能、抑制促炎介质释放等机制发挥作用,因其靶向性强、副作用小而被视为治疗炎症和自身免疫疾病(如类风湿关节炎、阿尔茨海默病)的潜在新药。

  • 炎症 (Inflammation): 炎症是生物体对有害刺激(如病原体、受损细胞或刺激物)的固有免疫反应。它涉及免疫细胞、血管和分子介质的复杂相互作用,旨在消除有害刺激并启动组织修复。然而,当炎症反应失调或持续存在时,可能导致慢性炎症性疾病,对组织和器官造成损害。

  • 非甾体抗炎药 (Non-Steroidal Anti-Inflammatory Drugs, NSAIDs): NSAIDs 是一类广泛使用的药物,通过抑制环氧合酶 (cyclooxygenase) 酶来减少前列腺素的产生,从而减轻疼痛、发热和炎症。常见的 NSAIDs 包括布洛芬、阿司匹林等。尽管有效,但长期使用 NSAIDs 会带来胃肠道损伤、心血管风险和肾脏损害等副作用。

  • 机器学习 (Machine Learning): 机器学习是人工智能的一个分支,旨在使计算机系统能够通过从数据中学习来执行特定任务,而无需明确编程。在生物信息学中,机器学习算法被广泛用于模式识别、分类和预测,例如识别蛋白质功能、预测药物靶点以及本论文中的 AIP 识别。

  • 特征工程与特征编码 (Feature Engineering and Feature Encoding): 在机器学习中,特征工程是将原始数据转换为模型可以理解和学习的数值表示的过程。对于生物序列(如肽序列),特征编码是一种将可变长度的氨基酸序列转换为固定长度的数值向量的技术。这些数值向量捕捉了序列的组成、理化性质和结构信息,是机器学习模型输入的基础。

  • 投票分类器 (Voting Classifier): 投票分类器是一种集成学习 (ensemble learning) 方法,它结合了多个独立的基线分类器的预测结果来做出最终决策。通过对每个基线分类器的预测结果进行“投票”(可以是简单多数投票或加权投票),投票分类器可以利用不同模型之间的互补优势,提高整体预测的准确性和鲁棒性,减少单个模型过拟合或欠拟合的风险。

  • 不平衡数据集与 SMOTE-Tomek 采样技术 (Imbalanced Dataset and SMOTE-Tomek Sampling Technique): 当一个数据集中不同类别的样本数量严重不均衡时,称之为不平衡数据集。在这种情况下,标准机器学习模型往往会偏向于多数类,导致少数类的预测性能不佳。SMOTE-Tomek 是一种混合采样技术,用于处理不平衡数据集:

    • SMOTE (Synthetic Minority Over-sampling Technique): 通过在少数类样本之间合成新的少数类样本来增加少数类的数量,从而实现过采样 (oversampling)。
    • Tomek Links: 识别并移除在少数类和多数类之间形成最近邻对的样本(即 Tomek 链接),这些链接通常代表边界噪声或重叠区域的样本,通过移除它们可以使类别边界更清晰,从而实现欠采样 (undersampling) 和数据清洗。SMOTE-Tomek 结合了 SMOTE 的过采样和 Tomek 链接的欠采样,以更有效地平衡数据集并提高模型性能。

3.2. 前人工作

AIP 识别的计算方法方面,已经有许多研究:

  • Gupta 等人 (2017) [11]: 首次将机器学习方法引入 AIP 识别领域,提出了一个基于支持向量机 (Support Vector Machine, SVM) 的预测模型 AntiInflam
  • Manavalan 等人 (2018) [12]: 提出了 AIPpred,一个基于随机森林 (Random Forest, RF) 的预测方法。他们发现二肽组成 (DPC) 在特征提取方面比其他方法更有效。
  • Khatun 等人 (2019) [13]: 开发了 PreAIP 模型,该模型使用了氨基酸组成 (AAC) 和条件熵 (conditional entropy) 特征。他们选择了五个特征,分别训练 RF 模型,并通过组合这五个 RF 分类器来计算最终分类结果。
  • Zhang 等人 (2020) [14]: 提出了 AIEpred,一个基于三种特征表示的集成分类器,用于编码肽序列。
  • Zhao 等人 (2021) [15]: 提出了另一个基于 RF 的预测方法 iAIPs。他们使用了三种特征编码,包括 g-gap 二肽组成 (GDC)、二肽与预期平均值的偏差 (DDC) 和氨基酸组成 (AAC),并将选择的特征输入到 RF 分类器中生成最终分类结果。

共同局限性: 这些现有方法虽然为 AIP 识别奠定了基础,但根据本文的观察,它们普遍存在以下局限性:

  1. 数据集规模较小: 如 Table 1 所示,这些方法通常使用相对较小的数据集进行训练,这可能限制了模型的泛化能力。
  2. 特征提取方法有限: 大多数方法仅使用少量(如一到三种)特征提取技术,未能充分捕捉肽序列的复杂信息。

3.3. 技术演进

AIP 识别的计算方法经历了从简单的机器学习模型到更复杂的集成方法和多特征融合策略的演进。

  • 早期阶段 (基于单一特征和分类器): 最初的研究(如 AntiInflam)主要集中于使用一种或少数几种特征表示(如 AACDPC)配合单一的机器学习分类器(如 SVMRF)来构建预测模型。这一阶段验证了计算方法在 AIP 识别中的可行性。
  • 中期阶段 (集成学习与有限特征组合): 随着研究的深入,集成学习方法开始被引入,如 AIPpredPreAIP,通过组合多个 RF 模型或使用少量特征组合来提高预测性能。这一阶段开始认识到不同特征和模型可能提供互补信息。
  • 当前阶段 (多特征融合与优化集成): 本文的工作 (IF-AIP) 代表了这一领域的最新进展。它通过系统地融合大量多样化特征,并结合优化的投票分类器以及特征选择策略,旨在克服现有方法在数据规模和特征利用上的局限,进一步提升 AIP 识别的准确性和鲁棒性。

3.4. 差异化分析

IF-AIP 与上述现有方法的核心区别和创新点在于:

  • 更广泛的特征集: 现有方法通常使用少数几种特征,而 IF-AIP 整合了八种不同的特征编码,创建了一个维度更高的混合特征集,能够从多个角度描述肽序列的生物学和理化特性。
  • 更强大的集成策略: IF-AIP 采用投票分类器集成五种不同类型的先进机器学习分类器,相比于单一分类器或仅集成同类分类器(如 PreAIP 集成多个 RF),IF-AIP 的集成模型具有更强的鲁棒性和判别能力。
  • 优化的数据处理: IF-AIP 通过 SMOTE-Tomek 混合采样技术有效处理了不平衡数据集,而现有方法对此类问题的处理可能不如 IF-AIP 细致。
  • 引入特征选择: IF-AIP 在构建最终模型之前,通过特征选择算法进一步优化了混合特征集,移除了冗余或低效的特征,这在现有方法中并未普遍采用。
  • 验证的广度和深度: 本文不仅在两个独立的测试集上进行了广泛的性能比较,还通过 24 个新型实验验证肽的案例研究,有力地证明了 IF-AIP 模型的卓越泛化能力,这是现有研究中较为缺乏的。

4. 方法论

本文提出了一种基于机器学习的抗炎肽识别模型 IF-AIP,该模型的核心思想是利用多特征融合策略和投票分类器,结合特征选择来提高识别准确性。整个模型架构如下图(原文 Fig. 1)所示。

Fig. 1. The proposed architecture of the model IF-AIP. 该图像是IF-AIP模型构建的示意图,展示了数据集构建、特征提取、模型训练和性能评估的流程。包含多个数据集的信息和多个分类器的结果评估,通过 f(x) = rac{1}{5} extstyleigg( extstyleigg)igg( extstyleigg) 进行综合得分,以提高AIP识别的准确性。

Fig. 1. The proposed architecture of the model IF-AIP.

该架构图清晰地展示了 IF-AIP 模型的构建流程,包括数据收集、特征提取、数据平衡、基线模型训练、混合特征集构建、投票分类器集成以及最终的特征选择和 IF-AIP 模型生成。

4.1. 方法原理

IF-AIP 模型的核心原理在于通过多样化特征的融合强大分类器的集成来捕捉肽序列中与抗炎活性相关的复杂模式。肽序列是生物大分子,其功能不仅取决于其氨基酸的种类和比例,还取决于氨基酸的排列顺序以及由此产生的理化性质。通过结合 AACDPC 等组成信息特征,以及 PAACAPAACQSONSOCN 等理化和序列顺序特征,模型能够从多个维度全面了解肽序列的特性。

集成学习中的投票分类器则进一步提升了模型的鲁棒性。不同的机器学习算法(如 RFLGBMXGBoost 等)具有不同的学习机制和偏置,擅长处理不同类型的数据模式。将它们的预测结果进行融合,可以利用它们的互补优势,减少单一模型可能存在的过拟合或欠拟合问题,从而得到更稳定和准确的预测。

此外,针对生物序列数据集常见的类别不平衡问题,SMOTE-Tomek 技术确保了模型在训练过程中能够公平地学习正负样本的特征。最后,通过特征选择,模型能够聚焦于那些对分类贡献最大的特征,去除冗余和噪声,进一步优化性能并提升模型的可解释性。

4.2. 数据策展

高质量的数据集是构建有效机器学习模型的基础。本文的数据集来自 iAIPs [15] 和 AntiInflam [11] 两篇论文。

  • 初始数据集: 收集到的初始训练样本共计 1962 个阳性样本(AIPs)和 2896 个阴性样本(Non-AIPs)。
  • 冗余去除: 为了消除样本间的冗余和相似性,研究人员使用 CD-HIT 工具,设置相似度阈值 c=0.9c=0.9 进行聚类。这意味着如果两个肽序列的相似度超过 90%,则只保留其中一个代表样本。
  • 最终基准数据集 (训练集): 经过 CD-HIT 处理后,最终用于基准训练的样本为 1451 个阳性样本和 2339 个阴性样本。
  • 独立测试数据集: 模型的性能在两个独立的测试数据集上进行评估:
    • 独立数据集 1: 来自 iAIPs [15] 论文,包含 420 个阳性样本和 629 个阴性样本。

    • 独立数据集 2: 来自 AntiInflam [11] 论文,包含 173 个阳性样本和 253 个阴性样本。

      这些独立数据集在模型训练过程中未被使用,用于公平地评估模型的泛化能力。

4.3. 特征表示

肽序列通常表示为氨基酸的有序列表。为了将可变长度的肽序列转换为固定长度的数值向量以供机器学习模型使用,本文采用了八种不同的特征编码技术。一个肽序列可以表示为: S=[S1,S2,.............SL] S = [ S _ { 1 } , S _ { 2 } , . . . . . . . . . . . . . S_L ] 其中,S1S_1 代表肽序列中的第一个氨基酸,LL 表示肽序列的长度。

4.3.1. 氨基酸组成 (Amino Acid Composition, AAC)

AAC 是一种 20 维的特征向量,它通过计算肽序列中每种氨基酸的出现频率来表示。 数学公式: x(m)=LmL,m ϵ{A,C,D,....,Y} x ( m ) = \frac { L _ { m } } { L } , \quad m \ \epsilon \{ A , C , D , . . . . , Y \} 符号解释:

  • x(m): 氨基酸类型 mm 的频率。
  • LmL_m: 氨基酸类型 mm 在肽序列中出现的次数。
  • LL: 肽序列的总长度。
  • m ϵ{A,C,D,....,Y}m \ \epsilon \{ A , C , D , . . . . , Y \}: 表示 mm 是 20 种标准氨基酸中的一种(丙氨酸、半胱氨酸、天冬氨酸等)。

4.3.2. 二肽组成 (Dipeptide Composition, DPC)

DPC 是一种 400 维的特征向量,用于蛋白质和肽序列分析。它表示肽序列中每个可能的二肽(两个相邻氨基酸)的出现频率或比例。 数学公式: x(m,n)=LmnL1,m,n ϵ{A,C,D,....,Y} x ( m , n ) = \frac { L _ { m n } } { L - 1 } , \quad m , n \ \epsilon \{ A , C , D , . . . . , Y \} 符号解释:

  • x(m, n): 二肽 mn 的频率。
  • LmnL_{mn}: 氨基酸类型 mmnn 组合(即二肽 mn)在肽序列中出现的次数。
  • L-1: 肽序列中可以形成的总二肽数量。
  • m,n ϵ{A,C,D,....,Y}m, n \ \epsilon \{ A , C , D , . . . . , Y \}: 表示 mmnn 是 20 种标准氨基酸中的两种。

4.3.3. 伪氨基酸组成 (Pseudo Amino Acid Composition, PAAC)

PAAC 是一种特征表示方法,旨在捕捉蛋白质序列的理化性质和序列顺序信息。它通过在标准的 20 维氨基酸组成特征之外,引入一些序列相关因子来扩展特征向量。本文中 PAAC 的特征向量维度为 22D。 数学公式: S=[S1,S2,....,S20+1,,S20+λ] S = [ S _ { 1 } , S _ { 2 } , \ldots . . . . , S _ { 2 0 + 1 } , \ldots , S _ { 2 0 + \lambda } ] 其中 Sz=xzj=120xj+wk=1λθk, (1z20)Sz=wθz20j=120xj+wk=1λθk, (21z20+λ)θλ=1Lλm=1LλΘ(S(Rm),S(Rm+λ)),λ<L \begin{array} { l } { { S _ { z } = \displaystyle \frac { x _ { z } } { \sum _ { j = 1 } ^ { 2 0 } x _ { j } + w \sum _ { k = 1 } ^ { \lambda } \theta _ { k } } , ~ ( 1 \le z \le 2 0 ) } } \\ { { S _ { z } = \displaystyle \frac { w \theta _ { z - 2 0 } } { \sum _ { j = 1 } ^ { 2 0 } x _ { j } + w \sum _ { k = 1 } ^ { \lambda } \theta _ { k } } , ~ ( 2 1 \le z \le 2 0 + \lambda ) } } \\ { { \theta _ { \lambda } = \displaystyle \frac { 1 } { L - \lambda } \sum _ { m = 1 } ^ { L - \lambda } \Theta ( S ( R _ { m } ) , S ( R _ { m + \lambda } ) ) , \lambda < L } } \end{array} 符号解释:

  • SS: PAAC 特征向量。
  • SzS_z: PAAC 特征向量的第 zz 个分量。
  • xzx_z: 氨基酸 zz 的标准化频率。
  • ww: 权重因子,本文中设置为 0.05。
  • λ\lambda: 一个整数参数,表示序列相关因子考虑的最大间隔,本文中设置为 2。
  • θk\theta_k: 序列相关因子,捕捉了序列顺序信息。
  • LL: 肽序列的总长度。
  • Θ(S(Rm),S(Rm+λ))\Theta ( S ( R _ { m } ) , S ( R _ { m + \lambda } ) ): 相关函数,表示在序列中相距 λ\lambda 个氨基酸位置的两个氨基酸 RmR_mRm+λR_{m+\lambda} 之间的相关性。

4.3.4. 两亲性伪氨基酸组成 (Amphiphilic Pseudo Amino Acid Composition, APAAC)

APAAC 考虑了氨基酸的两亲性(疏水性和亲水性)特征,以表示蛋白质序列。与 PAAC 类似,它也在标准氨基酸组成基础上加入了序列顺序因子,但这些因子特异性地捕捉了两亲性信息。APAAC 特征向量的总维度为 24D。 数学公式: S=[S1,S2,,S20,S20+1,,S20+λ,,S20+2λ] S = [ S _ { 1 } , S _ { 2 } , \ldots , S _ { 2 0 } , S _ { 2 0 + 1 } , \ldots , S _ { 2 0 + \lambda } , \ldots , S _ { 2 0 + 2 \lambda } ] 其中 Sz=xzj=120xj+wk=12λτk,(1z20)Sz=wτzj=120xj+wk=12λτk,(21z20+2λ) \begin{array} { r l } & { S _ { z } = \cfrac { x _ { z } } { \sum _ { j = 1 } ^ { 2 0 } x _ { j } + w \sum _ { k = 1 } ^ { 2 \lambda } \tau _ { k } } , \quad ( 1 \leq z \leq 2 0 ) } \\ & { S _ { z } = \cfrac { w \tau _ { z } } { \sum _ { j = 1 } ^ { 2 0 } x _ { j } + w \sum _ { k = 1 } ^ { 2 \lambda } \tau _ { k } } , \quad ( 2 1 \leq z \leq 2 0 + 2 \lambda ) } \end{array} 其中序列顺序因子定义为: τ2λ=1Lλk=1LλHk,k+λ2 \tau _ { 2 \lambda } = \frac { 1 } { L - \lambda } \sum _ { k = 1 } ^ { L - \lambda } H _ { k , k + \lambda } ^ { 2 } τ2λ1=1Lλk=1LλHk,k+λ1 \tau _ { 2 \lambda - 1 } = \frac { 1 } { L - \lambda } \sum _ { k = 1 } ^ { L - \lambda } H _ { k , k + \lambda } ^ { 1 } 符号解释:

  • SS: APAAC 特征向量。
  • SzS_z: APAAC 特征向量的第 zz 个分量。
  • ww: 权重因子,本文中设置为 0.05。
  • xzx_z: 氨基酸 zz 的标准化频率。
  • τk\tau_k: 序列顺序因子,捕捉了两亲性相关的序列顺序信息。
  • λ\lambda: 一个整数参数,本文中设置为 2。
  • LL: 肽序列的总长度。
  • Hk,k+λ1H^1_{k, k+\lambda}Hk,k+λ2H^2_{k, k+\lambda}: 表示在序列中相距 λ\lambda 个氨基酸位置的两个氨基酸之间的疏水性和亲水性相关的特征值。

4.3.5. 准序列顺序数 (Quasi Sequence Order Number, QSON)

QSON 是一种用于建立分子序列(如肽、蛋白质或核酸)与其相应活性或性质之间定量关系的方法。它将分子序列编码为捕捉相关结构和理化信息的数值表示,生成 130 维的向量。 数学公式: Qz=xzm=120xz+wt=1nlagτt,z=1,2,,20 Q _ { z } = \frac { x _ { z } } { \sum _ { m = 1 } ^ { 2 0 } x _ { z } + w \sum _ { t = 1 } ^ { n l a g } \tau _ { t } } , z = 1 , 2 , \ldots , 2 0 符号解释:

  • QzQ_z: QSON 特征向量的第 zz 个分量。
  • xzx_z: 氨基酸 zz 的标准化频率。
  • ww: 权重因子,本文中设置为 0.1。
  • τt\tau_t: 表示序列顺序因子,捕捉了序列的结构和理化信息。
  • nlag: 表示滞后参数,即序列顺序因子考虑的最大间隔。

4.3.6. 含间隙的k间隔氨基酸对组成 (Composition of k-spaced Amino Acid Pairs with Gap, CKSAAGP)

CKSAAGP 是一种生物信息学特征提取技术,用于蛋白质/肽序列分析。它计算在肽序列中具有 kk 个氨基酸间隙的氨基酸对的频率。

  • 计算方式: 涉及一系列步骤来计算在肽序列中具有 kk 个间隙的氨基酸对的频率。
  • 参数: kk 的范围为 0-5,本文中提取了 k=3k=3 的描述符。
  • 维度: 100 维。

4.3.7. 序列顺序耦合数 (Sequence-Order Coupling Number, SOCN)

SOCN 特征提取方法使用不相似性矩阵计算两个氨基酸成分之间的不相似性。

  • 计算方式: 衍生的 90 个描述符是使用 Schneirder-Wrede 理化矩阵和 Grantham 化学距离矩阵计算得出的。 数学公式: xm=k=1Lm(mk,k+m)2,m=1,2,,nlag x _ { m } = \sum _ { k = 1 } ^ { L - m } ( m _ { k , k + m } ) ^ { 2 } , m = 1 , 2 , \ldots , n l a g 符号解释:
  • xmx_m: SOCN 特征向量的第 mm 个分量。
  • mk,k+mm_{k, k+m}: 表示在肽序列中相距 mm 个位置的两个氨基酸对 kkk+mk+m 之间的不相似性或距离。
  • LL: 序列的总长度。
  • nlag: 表示滞后参数,即序列顺序因子考虑的最大间隔。

4.3.8. 分组三肽组成 (Grouped Tri-peptide Composition, GTPC)

GTPC 编码是三肽组成的一种变体,长度为 125 个描述符。它将 20 种氨基酸根据其理化性质分为五个组:

  • g1g1 (脂肪族): A, G, V, I, L, M, P, F, W

  • g2g2 (芳香族): F, W, Y

  • g3g3 (带正电): K, R, H

  • g4g4 (带负电): D, E

  • g5g5 (不带电/极性): N, Q, S, T, C, Y

  • 计算方式: 计算这五个组中任意三个组组合形成的三肽的频率。 数学公式: t(x,y,z)=NxyzL1, x,y,z  {g1,g2,g3,g4,g5} t ( x , y , z ) = \frac { N _ { x y z } } { L - 1 } , ~ x , y , z ~ \in ~ \{ g _ { 1 } , g _ { 2 } , g _ { 3 } , g _ { 4 } , g _ { 5 } \} 符号解释:

  • t(x, y, z): 类型为 x, y, z 的三肽的频率。

  • NxyzN_{xyz}: 类型为 x, y, z 的三肽氨基酸(其中 x, y, z 分别代表五个氨基酸组之一)在序列中出现的频率。

  • L-1: 肽序列的总长度减一,表示可以形成的三肽总数。

    所有这些特征编码都是使用 iLearn 独立 Python 包 [21] 提取的。

4.4. SMOTE-Tomek 采样技术

AIP 识别任务中,训练数据集经常存在类别不平衡问题,即 AIP (正样本) 和 Non-AIP (负样本) 的数量差异很大。本文的训练数据集由 1465 个阳性样本和 2339 个阴性样本组成,是一个不平衡数据集。为了解决这个问题,研究人员采用了 SMOTE-Tomek 混合采样技术:

  • SMOTE (Synthetic Minority Over-sampling Technique) [22]: 是一种过采样技术,通过在少数类样本(本例中为阳性 AIP 样本)之间创建合成的新样本来增加少数类的数据量。它沿着连接少数类样本与其最近邻的线段上生成新的合成样本。

  • Tomek Links [22]: Tomek 链接是一对实例,其中一个来自多数类,另一个来自少数类,并且它们是彼此的最近邻。通过识别和移除 Tomek 链接,可以清除类别边界上的噪声和重叠区域的样本,从而使分类器更容易学习清晰的决策边界。这通常涉及移除多数类中的样本(欠采样)。

    SMOTE-Tomek 技术结合了 SMOTE 的过采样和 Tomek 链接的欠采样,以实现更有效的样本平衡和数据清洗。这种混合采样技术已被广泛应用于生物信息学和计算生物学领域 [23-26]。需要注意的是,SMOTE-Tomek 技术仅应用于基准训练集,以平衡模型学习,而两个独立的测试数据集则未经过任何修改,以确保对模型泛化能力的公平评估。

4.5. 基线分类器

本文使用了五种广泛应用于生物信息学领域 [27-29] 的常规机器学习分类器作为基线模型:

  • 随机森林 (Random Forest, RF): 一种集成学习方法,通过构建多个决策树并取其预测的平均值或多数投票来提高准确性和鲁棒性。
  • 轻量级梯度提升机 (Light Gradient Boost Machine, LGBM): 一种基于决策树的梯度提升框架,以其高效率和高性能而闻名,尤其适用于大规模数据。
  • 极限梯度提升 (Extreme Gradient Boosting, XGBoost, XGB): 另一种高效且灵活的梯度提升算法,在各种机器学习竞赛中表现出色,提供了并行计算、剪枝等功能。
  • 额外树分类器 (Extra Tree Classifier, ETC): 类似于随机森林,但决策树在构建时是随机选择特征和分裂点,而不是寻找最佳分裂点,从而进一步减少过拟合风险并提高计算效率。
  • CatBoost 分类器 (CatBoost classifier): 一种开源的梯度提升决策树库,专门为处理分类特征而优化,具有强大的泛化能力。

模型调优与验证:

  • 超参数优化 (Hyperparameter Optimization): 为了为每个基线模型找到最优的超参数设置,研究人员使用了 Optuna 超参数优化算法 [30]。Optuna 是一种自动优化框架,可以高效地搜索超参数空间。

  • 交叉验证 (Cross-Validation): 在模型调优过程中,采用了重复分层 5 折交叉验证 (repeated stratified 5-fold cross-validation)。这意味着数据集被分成 5 份,每次用其中 4 份进行训练,1 份进行验证,这个过程重复多次,以确保评估结果的稳定性和可靠性。分层采样确保了每个折叠中类别比例与原始数据集保持一致,这对于不平衡数据集尤其重要。

    这些基线分类器首先在八种单独的特征编码上进行训练和评估,然后在一个通过拼接所有八种特征编码得到的混合特征集上进行训练和评估。混合特征集总计包含 889 个特征。

4.6. IF-AIP模型构建

IF-AIP 模型的构建是一个多阶段的过程,核心是基于投票分类器进行集成和优化。具体步骤如下:

步骤 1: 提取八种不同的特征编码 (Extract eight different feature encodings for the given dataset) 对肽序列数据集进行处理,提取之前介绍的八种特征描述符:AACDPCPAACAPAACQSONSOCNCKSAAGPGTPC

步骤 2: 拼接特征形成混合特征集 (Concatenate these features to get a hybrid feature set) 将所有八种特征编码的向量进行拼接,形成一个更高维度的混合特征集。这个混合特征集包含了肽序列从组成、理化性质到序列顺序等多个方面的信息。

步骤 3: 应用基线分类器 (Apply RF, LGBM, XGB, ETC, and CatBoost classifiers to these 8 individual descriptors and to the hybrid feature set) 将五种基线机器学习分类器 (RF, LGBM, XGB, ETC, CatBoost) 分别应用于:

  • 八种单独的特征描述符。
  • 以及上述构建的混合特征集。 这一步的目的是评估不同分类器在不同特征集上的基础性能。

步骤 4: 通过投票分类器集成 HB-AIP 模型 (The 5 machine learning classifiers trained on the hybrid feature set were integrated via a voting classifier named HB-AIP) 将步骤 3 中在混合特征集上训练的五个基线机器学习分类器进行集成。这种集成通过投票分类器实现,其结果模型被命名为 HB-AIP。投票分类器结合了各个基线模型的预测结果(例如,通过多数投票或平均概率),以得出最终的分类决策。

步骤 5: 特征选择与 IF-AIP 模型构建 (Finally, a feature selection algorithm was used to select the optimal feature set and the voting classifier HB-AIP trained on the optimal feature set was termed as IF-AIP model) 为了进一步优化模型性能,本文采用了一个特征选择算法来从混合特征集中选择最优的特征子集。具体方法是,在 45 个基线模型(5 个分类器 x 8 种特征 + 混合特征)中,识别出在 PAACAPAACSOCN 等编码上表现相对较差的模型。通过计算每个分类器在所有基线模型中的平均准确率,并排除性能低于平均准确率的基线模型,最终确定了由 AACDPCQSONCKSAAGPGTPC 这五种特征编码组成的“最优特征集 (Optimal Feature Set, OFs)”。

最后,将步骤 4 中构建的 HB-AIP 投票分类器重新在这个最优特征集上进行训练,得到的最终模型即被命名为 IF-AIP 模型。

IF-AIP 模型的集成逻辑可以表示为: IFAIPRFETCXGBLGBMCatBoost I F - A I P \approx R F \lor E T C \lor X G B \lor L G B M \lor C a t B o o s t 符号解释:

  • IF-AIP: 最终的投票分类模型。
  • \approx: 表示 IF-AIP 模型是基于五个基线分类器的集成。
  • RF, ETC, XGB, LGBM, CatBoost: 指的是在最优特征集上训练的 Random ForestExtra Tree ClassifierExtreme Gradient BoostingLight Gradient Boost MachineCatBoost 分类器。
  • \lor: 表示融合操作符,用于结合各个分类器在优化特征集上的预测结果,通常通过多数投票或概率平均来实现。

5. 实验设置

5.1. 数据集

实验使用了以下数据集:

  • 基准训练集 (Benchmark Training Set):
    • 来源: 整合自 iAIPs [15] 和 AntiInflam [11] 论文。
    • 初始规模: 1962 个阳性(AIP)样本,2896 个阴性(Non-AIP)样本。
    • 去冗余处理: 使用 CD-HIT(相似度阈值 c=0.9c=0.9)去除冗余。
    • 最终规模: 1451 个阳性样本,2339 个阴性样本。
    • 平衡处理: 在训练过程中,该数据集使用了 SMOTE-Tomek 技术进行平衡处理。
  • 独立数据集 1 (Independent Dataset 1):
    • 来源: 来自 iAIPs [15] 论文。
    • 规模: 420 个阳性样本,629 个阴性样本。
    • 特点: 未经任何修改,用于公平评估模型泛化能力。
  • 独立数据集 2 (Independent Dataset 2):
    • 来源: 来自 AntiInflam [11] 论文。

    • 规模: 173 个阳性样本,253 个阴性样本。

    • 特点: 未经任何修改,用于公平评估模型泛化能力。

      选择这些数据集是为了:

  1. 增加数据量: 相较于现有方法使用的小数据集,本文通过整合数据增加了训练样本数量,有助于提高模型的泛化能力。
  2. 验证泛化性: 使用两个来自不同来源的独立数据集进行测试,可以更全面地评估模型在未见过数据上的性能和鲁棒性。

5.2. 评估指标

为了全面衡量预测模型的性能,本文采用了以下广泛使用的评估指标 [31-36]:

5.2.1. 准确率 (Accuracy, Acc)

概念定义: 准确率表示模型正确预测的样本(包括真阳性 TPT_P 和真阴性 TNT_N)占总样本的比例。它衡量了模型整体的正确性。 数学公式: Acc=TP+TNTP+FN+TN+FP Acc = \frac { T _ { P } + T _ { N } } { T _ { P } + F _ { N } + T _ { N } + F _ { P } } 符号解释:

  • TPT_P (True Positive): 真实为阳性,预测也为阳性的样本数。
  • TNT_N (True Negative): 真实为阴性,预测也为阴性的样本数。
  • FPF_P (False Positive): 真实为阴性,预测却为阳性的样本数(第一类错误)。
  • FNF_N (False Negative): 真实为阳性,预测却为阴性的样本数(第二类错误)。

5.2.2. 灵敏度 (Sensitivity, Sn)

概念定义: 灵敏度(也称为召回率或真阳性率)表示模型正确识别出的阳性样本占所有真实阳性样本的比例。它衡量了模型识别出所有相关(阳性)样本的能力。 数学公式: Sn=TPTP+FN Sn = \frac { T _ { P } } { T _ { P } + F _ { N } } 符号解释:

  • TPT_P (True Positive): 真实为阳性,预测也为阳性的样本数。
  • FNF_N (False Negative): 真实为阳性,预测却为阴性的样本数。

5.2.3. 特异性 (Specificity, Sp)

概念定义: 特异性(也称为真阴性率)表示模型正确识别出的阴性样本占所有真实阴性样本的比例。它衡量了模型识别出所有不相关(阴性)样本的能力。 数学公式: Sp=TNTN+FP Sp = \frac { T _ { N } } { T _ { N } + F _ { P } } 符号解释:

  • TNT_N (True Negative): 真实为阴性,预测也为阴性的样本数。
  • FPF_P (False Positive): 真实为阴性,预测却为阳性的样本数。

5.2.4. 马修斯相关系数 (Mathews Correlation Coefficient, MCC)

概念定义: MCC 是一个衡量二元分类器性能的平衡指标,它考虑了混淆矩阵中的所有四个值(TPT_P, TNT_N, FPF_P, FNF_N)。MCC 的值域在 -1 到 +1 之间,+1 表示完美预测,0 表示随机预测,-1 表示完全不一致的预测。MCC 被认为是一个比准确率更可靠的指标,特别是在类别不平衡的数据集上。 数学公式: MCC=(TPTN)(TP+FP)(TP+FN)(TN+FP)(TN+FN) MCC = \frac { ( T _ { P } * T _ { N } ) } { \sqrt { ( T _ { P } + F _ { P } ) * ( T _ { P } + F _ { N } ) * ( T _ { N } + F _ { P } ) * ( T _ { N } + F _ { N } ) } } 符号解释:

  • TPT_P (True Positive): 真实为阳性,预测也为阳性的样本数。
  • TNT_N (True Negative): 真实为阴性,预测也为阴性的样本数。
  • FPF_P (False Positive): 真实为阴性,预测却为阳性的样本数。
  • FNF_N (False Negative): 真实为阳性,预测却为阴性的样本数。 注: 论文中给出的 MCC 公式为 (TPTN)(TP+FP)(TP+FN)(TN+FP)(TN+FN)\frac { ( T _ { P } * T _ { N } ) } { \sqrt { ( T _ { P } + F _ { P } ) * ( T _ { P } + F _ { N } ) * ( T _ { N } + F _ { P } ) * ( T _ { N } + F _ { N } ) } }。这与标准 MCC 公式 TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)\frac{TP \times TN - FP \times FN}{\sqrt{(TP+FP)(TP+FN)(TN+FP)(TN+FN)}} 在分子上有所不同。论文中呈现的公式实际上是标准 MCC 分子中一项乘积与分母的简化比值,通常标准 MCC 的分子还需要减去 FP×FNF_P \times F_N。本文严格按照原文公式进行转录和解释。

5.2.5. 曲线下面积 (Area Under Curve, AUC)

概念定义: AUC 是指接收者操作特征 (Receiver Operating Characteristic, ROC) 曲线下方的面积。ROC 曲线绘制了在不同分类阈值下,真阳性率 (灵敏度) 与假阳性率 (1 - 特异性) 之间的关系。AUC 值越高,表示分类器性能越好,因为它在区分正负类别方面的能力越强,且对分类阈值的选择不敏感。AUC 的值域在 0 到 1 之间,0.5 表示随机猜测,1 表示完美分类器。

5.3. 对比基线

为了证明 IF-AIP 方法的有效性,本文将其性能与多个现有的 AIP 预测方法进行了比较:

  • iAIPs [15]: 基于随机森林,使用 g-gap 二肽组成、二肽与预期平均值的偏差和氨基酸组成。

  • AIPpred [12]: 基于随机森林,强调二肽组成。

  • PreAIP [13]: 结合 AAC 和条件熵特征,集成多个随机森林模型。

  • AIEPred [14]: 一个基于三种特征表示的集成分类器。

  • AntiInflam [11]: 首个使用 SVM 分类器进行 AIP 预测的方法。

    选择这些方法作为对比基线,是因为它们是 AIP 识别领域中具有代表性的最先进计算模型,能够全面评估 IF-AIP 相对于现有技术的改进程度。

6. 实验结果与分析

6.1. 组成和位置分析

为了更好地理解抗炎肽的特性,本文对训练数据集进行了氨基酸组成和位置偏好分析。结果如图(原文 Fig. 2)所示。

Fig. 2. . 该图像是一个柱状图和一个字母云。柱状图(a部分)展示了AIP与非AIP氨基酸的平均组成百分比。字母云(b部分)则展示了富集和耗竭氨基酸的可视化信息,显示了不同氨基酸的分布情况。

Fig. 2. .

  • 氨基酸组成分析 (图 2a):

    • AIP 数据集中,Ile (异亮氨酸)、Lys (赖氨酸)、Leu (亮氨酸)、Arg (精氨酸) 和 Ser (丝氨酸) 的出现频率较高(过表达)。
    • Non-AIP 数据集中,Ala (丙氨酸)、Asp (天冬氨酸)、Gly (甘氨酸)、Pro (脯氨酸)、Thr (苏氨酸) 和 Val (缬氨酸) 的出现频率较高(占主导地位)。
    • 这些发现揭示了 AIPNon-AIP 之间氨基酸组成的显著差异。
  • 位置偏好分析 (图 2b):

    • 该图是使用 two-sample-logo 服务器 [37] 在线生成的,图中标识的高度与 tt 检验 (p<0.5p < 0.5) 的统计显著性成比例。

    • AIP 中,氨基酸 SS 在位置 2 和 12 处以及氨基酸 LL 在位置 5、6、7、10、11 和 15 处占主导地位。

    • Non-AIP 中,氨基酸 TT 在位置 3、7 和 14 处以及氨基酸 DD 在位置 4、5、10、13 和 15 处占主导地位。

    • 这些位置偏好进一步证实了 AIPNon-AIP 在氨基酸分布上的差异。

      意义: 这些组成和位置上的差异对于预测模型来说是重要的判别特征。机器学习模型可以利用这些差异来学习和区分 AIPNon-AIP

6.2. 基线模型在原始特征上的性能

本文评估了 45 个基线模型(5 种分类器与 8 种特征编码以及混合特征集)的性能。图 3 展示了其中性能最佳的 10 个基线模型在准确率 (Acc) 和 MCC 得分方面的表现。

该图像是图表,展示了不同模型在交叉验证准确率及MCC得分方面的比较。图中的多个条形图分别对应于不同的模型和性能指标,如图(a)展示了交叉验证准确性,而图(b)显示了交叉验证的MCC得分。 该图像是图表,展示了不同模型在交叉验证准确率及MCC得分方面的比较。图中的多个条形图分别对应于不同的模型和性能指标,如图(a)展示了交叉验证准确性,而图(b)显示了交叉验证的MCC得分。

Fi. the independent dataset 1. (e and f) Accuracy and MCC score on the independent dataset 2.

  • 交叉验证性能 (图 3a 和 3b):
    • 所有基线分类器在混合特征集上表现最佳,交叉验证准确率在 78.1%–80.1% 之间。
    • LGBM 分类器在交叉验证准确率和 MCC 得分方面表现最好,其次是 CatBoost 分类器。LGBM 在混合特征、CKSAAGPAACGTPC 等特征上显示出更好的判别能力。CatBoost 在混合特征、AACDPCQSONCKSAAGP 上表现良好。
    • AAC 特征编码上的基线分类器交叉验证准确率在 76.1%–78.6% 之间。
    • CKSAAGP 是下一个表现最好的特征编码,基线分类器交叉验证准确率在 75.2%–78.3% 之间。
    • 总体而言,混合特征、AACCKSAAGP 描述符上的基线分类器性能优于其他描述符。
  • 独立数据集性能 (图 3c-3f):
    • 在独立数据集 1 和独立数据集 2 上的表现趋势与基准数据集上的交叉验证结果大致相同,验证了模型的泛化能力。

      详细的基线模型在基准数据集上的重复分层 5 折交叉验证性能在附录表 S2 中给出,在独立数据集 1 和独立数据集 2 上的详细性能分别在附录表 S3 和 S4 中给出。

6.3. 投票分类器和HB-AIP方法的性能

本文的核心方法是构建一个投票分类器,以结合不同机器学习分类器的优势。以下是 HB-AIP 方法(在混合特征集上训练的投票分类器)和其他基于单一特征的投票分类器在基准数据集(详见附录表 S5)以及独立数据集 1 和独立数据集 2 上的性能分析。

以下是原文 Table 2 的结果,该表格展示了不同描述符下投票分类器在独立数据集上的性能。 以下是原文 Table 2 的结果:

DescriptorsIndependent dataset 1Independent dataset 2
AccSnSpMCCAUCAccSnSpMCCAUC
AAC76.458.083.70.42880.074.869.976.50.46282.9
DPC77.561.486.70.49781.678.978.082.90.57785.2
PAAC73.553.882.90.37975.876.565.384.10.50683.2
APAAC75.863.081.90.44977.677.665.386.10.53083.8
SOCN75.951.985.90.40176.777.684.373.00.56485.4
QSON77.875.783.80.52482.479.083.874.70.58587.2
CKSAAGP77.778.978.90.51282.877.678.077.30.54786.6
GTPC77.364.183.00.45579.975.775.176.10.50783.7
Hybrid78.769.581.60.50183.976.376.974.20.52884.4
  • 基准数据集上的性能:

    • HB-AIP 方法在混合特征集上表现最佳,获得了最高的交叉验证准确率 80.2%MCC 得分 0.606
    • 其他基于八种单一描述符的投票分类器模型,其交叉验证准确率范围在 72.7%–78.5%MCC 得分范围在 0.458–0.571。这表明混合特征集结合投票分类器能够显著优于基于单一特征的投票分类器。
  • 独立数据集 1 上的性能 (Table 2):

    • HB-AIP 模型取得了 78.7% 的准确率和 0.501MCC 得分。
    • 基于其余 8 种描述符的投票分类器,其准确率和 MCC 得分范围分别为 73.5%–77.8%0.379–0.524。其中,QSON 在准确率 (77.8%) 和 MCC (0.524) 上表现最佳,DPCCKSAAGP 次之。
    • PAAC 的性能相对较差,准确率仅为 73.5%MCC0.379
  • 独立数据集 2 上的性能 (Table 2):

    • HB-AIP 模型取得了 76.3% 的准确率和 0.528MCC 得分。

    • 基于其余 8 种描述符的投票分类器,其准确率和 MCC 得分范围分别为 74.8%–79.0%0.462–0.585QSON 在此数据集上表现仍然出色,准确率为 79.0%MCC0.585DPC 也表现良好,准确率为 78.9%MCC0.577

      分析: 无论是在基准数据集还是独立数据集上,HB-AIP(基于混合特征集的投票分类器)均表现出优异的性能,突显了多特征融合和集成学习的优势。虽然某些单一特征(如 QSON)在独立数据集上也能取得不错的成绩,但混合特征集的综合性能通常更稳定和强大。

6.4. 最佳特征选择对HB-AIP方法性能的影响

为了进一步优化模型性能,本文进行了特征选择。通过分析 45 个基线模型(5 个分类器 x 8 种特征编码 + 混合特征)的性能,发现 PAACAPAACSOCN 这三种编码上的性能相对较差。因此,这些特征被排除在最终的最优特征集 (OFs) 之外。

最优特征集 (OFs) 是由以下五种特征编码的描述符拼接而成:AACDPCQSONCKSAAGPGTPC。这个新的拼接特征集维度为 775D。

HB-AIP 投票分类器在最优特征集上重新训练,得到了最终模型 IF-AIP。以下是 HB-AIP(在 911 维混合特征集上训练)和 IF-AIP(在 775 维最优特征集上训练)在基准数据集和独立数据集上的性能比较。

以下是原文 Table 3 的结果:

DatasetMethodNumber of featuresAccSnSpMCCAUC
Benchmark datasetHB-AIP91180.280.180.50.60688.6
IF-AIP77581.079.982.10.62189.2
Independent dataset 1HB-AIP91178.769.581.60.50183.9
IF-AIP77580.069.087.40.57987.3
Independent dataset 2HB-AIP91176.376.974.20.52884.4
IF-AIP77577.780.374.20.53687.1

性能比较分析:

  • 基准数据集:
    • IF-AIP 模型比 HB-AIP 模型在交叉验证性能上略好。
    • IF-AIP 达到了 81.0% 的准确率和 0.621MCC 得分,分别比 HB-AIP 提高了约 0.8%1.5%AUC 也从 88.6% 提高到 89.2%
  • 独立数据集 1:
    • IF-AIP 模型表现优于 HB-AIP 模型,准确率达到 80.0%MCC 得分达到 0.579
    • 这分别比 HB-AIP 模型的准确率提高了 1.3%MCC 得分提高了 7.8%AUC83.9% 提高到 87.3%
  • 独立数据集 2:
    • IF-AIP 模型的性能也略优于 HB-AIP 模型,准确率提高了 1.4% (达到 77.7%),MCC 得分提高了 0.8% (达到 0.536%)。AUC84.4% 提高到 87.1%

      结论: 经过特征选择优化后的 IF-AIP 模型在所有评估场景下都表现出优于 HB-AIP 模型,尤其是在独立数据集 1 上 MCC 有显著提升。因此,IF-AIP 被确立为最终的预测模型。

6.5. IF-AIP模型与现有方法的性能比较

为了进一步证明 IF-AIP 方法的有效性,本文将其性能与现有方法进行了比较。现有方法的预测结果直接引用自其各自的论文。

以下是原文 Table 4 的结果:

DatasetMethodWorkAccSnSpMCCAUC
Independent test 1AIPpredManvalan201874.474.174.60.47981.4
PreAIPKhatun201977.061.887.10.51284.0
AIEPredZhang202076.255.589.90.49776.7
iAIPsZhao202175.156.787.40.47182.2
HB-AIPOur work78.769.581.60.50183.9
IF-AIPOur work80.069.087.40.57987.3
Independent test 2AntiInflamGupta201772.078.667.40.450
AIEPredZhang202074.852.388.30.453
HB-AIPOur work76.376.974.20.52884.4
IF-AIPOur work77.780.374.20.53687.1

性能对比分析:

  • 基准数据集:

    • HB-AIPIF-AIP 在基准数据集上的重复分层 5 折交叉验证性能:
      • HB-AIP: 准确率 80.2%MCC 0.606AUC 88.6%
      • IF-AIP: 准确率 81.0%MCC 0.621AUC 89.2%
    • 两者均在基准数据集上表现良好。
  • 独立数据集 1 (420 个阳性样本,629 个阴性样本):

    • IF-AIP 模型在准确率 (80.0%)、MCC (0.579) 和 AUC (87.3%) 上均显著优于现有方法:
      • 相较于 AIPpredPreAIPAIEPrediAIPsIF-AIP 在准确率方面提高了 3%–5.6%
      • MCC 得分方面提高了 6.7%–10.8%
      • AUC 分数也比现有方法高出 3.3%–10.6%
    • 值得注意的是,IF-AIP 保持了相对较高的特异性 (87.4%),同时灵敏度 (69.0%) 也在可接受范围内。
  • 独立数据集 2 (173 个阳性样本,252 个阴性样本):

    • IF-AIP 模型同样表现出色,准确率 (77.7%) 和 MCC (0.536) 均优于现有方法:

      • AIEPred 方法的准确率高出 2.9%MCC 高出 8.3%
      • AntiInflam 方法的准确率高出 5.7%MCC 高出 8.6%
    • IF-AIP 在此数据集上的 AUC 得分为 87.1%,而 AntiInflamAIEPredAUC 得分未在其论文中提及。

      总体结论: 这些比较结果表明,所提出的 IF-AIP 模型在预测性能上优于并比现有方法更稳定,尤其是在准确率和 MCC 等关键指标上。

6.6. 案例研究

为了评估 IF-AIP 模型的效力、鲁棒性和泛化能力,研究人员在一个包含 24 个实验验证的抗炎肽序列的新数据集上对其进行了测试。这些肽序列是从 Peplab [38] 和 Uniprot [39] 数据库中下载的,并且在模型的训练和测试阶段均未被使用。使用 CD-HIT (c=1.0c=1.0) 检查了这些新型肽与基准训练集之间是否存在任何冗余,确保了其新颖性。

由于 iAIPsAIEPred 不提供在线服务器,而 AIPpredAntiInflam 的在线服务器不可用,因此本文仅将 IF-AIPPreAIP [13] 方法进行了比较(通过其在线服务器)。

以下是原文 Table 5 的结果:

SequencesIF-AIPPreAIP
ScorePredictionScorePrediction
ELRLPEIARPVPEVLPARLPLPALPRNKMAKNQ0.875AIP0.625AIP
MAPRGFSCLLLLTSEIDLPVKRRA0.828AIP0.585AIP
FLSLIPHIATGIAALAKHL0.826AIP0.592AIP
DTEAR0.826AIP0.283Non-AIP
FLSLIPKIAGGIASLVKDL0.821AIP0.588AIP
FLSLIPKIAGGIASLVKNL0.819AIP0.615AIP
FFSMIPKIATGIASLVKDL0.810AIP0.552AIP
FFSMIPKIATGIASLVKNL0.800AIP0.577AIP
LLGMIPVAITAISALSKL0.774AIP0.593AIP
KGHYAERVG0.759AIP0.417Non-AIP
NSPGPHDVALDQ0.758AIP0.400Non-AIP
FIGMIPGLIGGLISAIK0.754AIP0.626AIP
GLVNGLLSSVLGGQGGGGLLGGIL0.748AIP0.527AIP
HDMNKVLDL0.744AIP0.457Non-AIP
RMVLPEYELLYE0.736AIP0.513AIP
MRWQEMGYIFYPRKLR0.723AIP0.525AIP
KPVAAP0.696AIP0.298Non-AIP
FDLIYSV0.687AIP0.463Non-AIP
GLVSGLLNSVTGLLGNLAGGGL0.673AIP0.569AIP
AAFAATY0.653AIP0.298Non-AIP
GPETAFLR0.634AIP0.481Non-AIP
GKWMSLLKHILK0.553AIP0.636AIP
KIPYIL0.546AIP0.343Non-AIP
APTLW0.511AIP0.328Non-AIP

案例研究结果:

  • IF-AIP 模型: 成功地将所有 24 个新型肽序列正确识别为抗炎肽 (AIP),其预测得分(置信度)均高于 0.5(分类阈值)。

  • PreAIP 模型 [13]: 在这 24 个肽序列中,PreAIP 仅正确识别出 14 个肽为 AIP,有 10 个肽被错误地预测为 Non-AIP

    意义: 这项比较结果充分展示了 IF-AIP 模型在识别未知 AIP 方面的强大泛化能力和卓越有效性,远超现有方法。IF-AIP 在案例研究中的成功表明,它是一个可行的预测模型,可以用于高通量设置下快速发现新型 AIPs

7. 总结与思考

7.1. 结论总结

本文提出了一种名为 IF-AIP 的机器学习模型,用于基于肽序列识别抗炎肽 (AIPs)。该模型采用了一种新颖的多特征融合策略和优化的集成学习方法。

  • 研究人员首先使用了八种不同的特征描述符,包括 AACDPCPAACAPAACQSONSOCNCKSAAGPGTPC
  • 为了解决数据集不平衡问题,采用了 SMOTE-Tomek 混合采样技术处理基准训练集。
  • 模型构建分为多个阶段:首先,五种基线分类器 (RF, LGBM, XGBoost, ETC, CatBoost) 分别在各种特征编码上进行评估;随后,所有八种特征被拼接成一个混合特征集,并在其上训练这五种分类器,然后通过投票分类器集成,形成了 HB-AIP 模型。
  • 最终,通过特征选择算法,筛选出最优特征集(由 AAC, DPC, QSON, CKSAAGP, GTPC 组成),并在该最优特征集上重新训练 HB-AIP 投票分类器,得到了最终的预测模型 IF-AIP
  • 在基准数据集上,优化后的 IF-AIP 模型实现了 81.0% 的交叉验证准确率和 0.621MCC 得分。
  • 在两个独立数据集上,IF-AIP 模型分别取得了 80.0%77.7% 的准确率,以及 0.5790.536MCC 得分。
  • 这些结果表明,IF-AIP 方法在基准数据集和独立数据集上均优于所有现有模型。特别是在对 24 个新型实验验证肽序列的案例研究中,IF-AIP 成功识别了所有肽,展示了其卓越的泛化能力和实际应用潜力。

7.2. 局限性与未来工作

作者指出了当前研究的局限性和未来可能的研究方向:

  • 性能提升空间: AIP 预测模型的性能仍有进一步提升的空间。
  • 深度学习的应用: 深度学习 (Deep learning) 被视为提高预测模型性能的一个可行选择,未来可以探索基于深度学习的方法。
  • 数据策展: 数据策展 (Data curation) 是影响预测方法性能提升的一个重要因素,尤其是目前在线可用的阳性样本数量相对较少,这限制了模型能够学习到的复杂模式。未来需要更大规模、更高质量的数据集。
  • 新的特征表示: 开发新的特征表示方法也能在增强 AIP 识别方面发挥关键作用,可以探索更能够捕捉 AIP 特有生物学机制的描述符。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一些重要的启发:

  • 多维度特征的重要性: 肽序列的复杂性决定了单一特征难以全面捕捉其功能。本文通过融合八种不同类型的特征,从组成、理化性质到序列顺序等多个维度描述肽,这种策略在生物序列分析中非常有效,值得在其他生物信息学预测任务中借鉴。
  • 集成学习的鲁棒性: 投票分类器结合多种基线模型,能够利用不同模型的互补优势,有效提升预测的准确性和鲁棒性,尤其是在处理复杂生物数据时,这种策略能够减少单一模型过拟合或欠拟合的风险。
  • 数据不平衡处理的必要性: SMOTE-Tomek 混合采样技术在处理 AIP 识别中常见的类别不平衡问题上表现出了良好的效果,这对于确保模型在少数类(如 AIP)上的预测性能至关重要。
  • 特征选择的优化作用: 即使在多特征融合后,通过特征选择去除冗余或低效特征,依然能够进一步优化模型性能和效率,并可能提高模型的可解释性,这是一个值得关注的步骤。
  • 案例研究的价值: 论文通过在全新的、实验验证的肽序列上进行案例研究,有力地证明了模型的实际应用价值和泛化能力,这对于科研成果的转化和推广至关重要。

7.3.2. 批判

尽管 IF-AIP 模型取得了显著的成果,但仍存在一些值得商榷和改进的地方:

  • MCC 公式的使用: 论文中给出的 MCC 公式为 (TPTN)(TP+FP)(TP+FN)(TN+FP)(TN+FN)\frac { ( T _ { P } * T _ { N } ) } { \sqrt { ( T _ { P } + F _ { P } ) * ( T _ { P } + F _ { N } ) * ( T _ { N } + F _ { P } ) * ( T _ { N } + F _ { N } ) } }。这与标准的 MCC 公式 TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)\frac{TP \times TN - FP \times FN}{\sqrt{(TP+FP)(TP+FN)(TN+FP)(TN+FN)}} 在分子上存在差异。标准的 MCC 考虑了假阳性和假阴性的惩罚项。如果论文使用的是一个非标准的或简化的 MCC 变体,应该明确说明其理由和此变体所衡量的具体性能侧面。否则,使用一个不完整的 MCC 公式可能会导致对模型性能的误判或与其他研究的比较不公平。
  • 特征选择方法的具体细节: 论文提到使用了“特征选择算法”来选择最优特征集,但并未详细说明所使用的具体算法类型(例如,是基于模型的特征选择、过滤式方法还是包裹式方法)。更详细的方法描述将有助于读者理解其选择过程的严谨性,并可能提供改进空间。
  • 特征描述符的深层生物学解释: 尽管列出了八种特征描述符,但论文可以更深入地探讨每种特征如何捕捉 AIP 的特定生物学或理化属性,以及这些属性对于抗炎活性的重要性。这将增强模型的可解释性,并为未来特征工程提供指导。
  • 独立数据集 2 上的性能提升幅度: 尽管 IF-AIP 优于 HB-AIP,但在独立数据集 2 上,MCC 的提升幅度相对较小(从 0.5280.536,仅 0.8%)。这可能表明该数据集的内在特性或样本量较小导致特征选择的优化效果不显著,或者当前特征选择策略仍有进一步改进的空间。
  • 在线服务器的可用性问题: 论文提到多款现有方法的在线服务器不可用,导致无法进行全面的线上性能比较。虽然这超出作者控制,但这一现状也凸显了在生物信息学领域模型和数据长期可访问性的重要性。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。