AiPaper
论文状态:已完成

Identify Bitter Peptides by Using Deep Representation Learning Features

发表:2022/07/17
原文链接
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种新颖的机器学习方法iBitter-DRLF,用于识别苦味肽。该方法依托于深度学习技术,结合了软对称对齐、统一表示和双向长短期记忆序列嵌入。研究表明,通过这一新方法显著提高了苦味肽的识别能力,有望改善相关产品的适口性。

摘要

A bitter taste often identifies hazardous compounds and it is generally avoided by most animals and humans. Bitterness of hydrolyzed proteins is caused by the presence of bitter peptides. To improve palatability, bitter peptides need to be identified experimentally in a time-consuming and expensive process, before they can be removed or degraded. Here, we report the development of a machine learning prediction method, iBitter-DRLF, which is based on a deep learning pre-trained neural network feature extraction method. It uses three sequence embedding techniques, soft symmetric alignment (SSA), unified representation (UniRep), and bidirectional long short-term memory (BiLSTM). These were initially combined into various machine learning algorithms to build several models. After optimization, the combined features of UniRep and BiLSTM were finally selected, and the model was built in combination with a light gradient boosting machine (LGBM). The results showed that the use of deep representation learning greatly improves the ability of the model to identify bitter peptides, achieving accurate prediction based on peptide sequence data alone. By helping to identify bitter peptides, iBitter-DRLF can help research into improving the palatability of peptide therapeutics and dietary supplements in the future. A webserver is available, too.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Identify Bitter Peptides by Using Deep Representation Learning Features (利用深度表征学习特征识别苦味肽)

1.2. 作者

Jici Jiang, Xinxu Lin, Yueqi Jiang, Liangzhen Jiang, and Zhibin Lv

1.3. 发表期刊/会议

International Journal of Molecular Sciences (《国际分子科学杂志》), 2022, 23, 7877。该期刊在分子科学和生物化学领域具有良好的声誉和影响力。

1.4. 发表年份

2022年

1.5. 摘要

苦味通常是危险化合物的标志,大多数动物和人类普遍避免。水解蛋白的苦味是由苦味肽的存在引起的。为了改善适口性,苦味肽需要通过耗时且昂贵的实验过程进行识别,然后才能将其去除或降解。本文报告了一种机器学习预测方法 iBitter-DRLF 的开发,该方法基于深度学习预训练神经网络特征提取方法。它使用了三种序列嵌入技术:软对称对齐 (soft symmetric alignment, SSA)、统一表示 (unified representation, UniRep) 和双向长短期记忆 (bidirectional long short-term memory, BiLSTM)。这些技术最初与各种机器学习算法结合,以构建多个模型。经过优化后,最终选择了 UniRep 和 BiLSTM 的组合特征,并结合轻量级梯度提升机 (light gradient boosting machine, LGBM) 构建了模型。结果表明,深度表征学习的使用大大提高了模型识别苦味肽的能力,仅基于肽序列数据实现了准确预测。通过帮助识别苦味肽,iBitter-DRLF 有望在未来帮助改善肽类疗法和膳食补充剂的适口性研究。该方法还提供了一个可用的网页服务器。

1.6. 原文链接

/files/papers/6917522c110b75dcc59ae06e/paper.pdf 发布状态:已于2022年7月17日正式发表。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 论文旨在解决苦味肽(bitter peptides)的自动识别问题。苦味肽是水解蛋白中产生苦味的主要原因,它们会降低食品、膳食补充剂和肽类药物的适口性(palatability)。

为什么这个问题在当前领域是重要的:

  • 生物学意义: 苦味通常与有毒物质相关,是动物和人类本能避免的。
  • 食品工业与健康: 许多有益的营养物质(如大豆制品、某些治疗性肽)也可能带有苦味。蛋白质水解产物因其良好的营养特性和易吸收性而被广泛应用,但水解过程常产生苦味肽。这种苦味即使在低浓度下也能被检测到,严重影响产品的接受度。
  • 实验识别的局限性: 传统的实验室方法(如体外味觉受体结合实验、感官评价)来识别苦味肽是耗时且昂贵的。

现有研究存在的具体挑战或空白:

  • 尽管现有的一些基于机器学习(machine learning, ML)的方法(如BitterX、BitterPredict、iBitter-SCM、iBitter-Fuse、BERT4Bitter、MIMML)在识别苦味肽方面取得了一定进展,但它们主要依赖于传统序列特征或基于自然语言处理(natural language processing, NLP)的启发式编码方法。这些方法在性能上仍有提升空间。
  • 特别是,将蛋白质/肽序列原始数据直接转化为机器学习模型能有效利用的形式,是传统方法面临的挑战。

这篇论文的切入点或创新思路:

  • 论文的创新点在于引入了“深度表征学习”(deep representation learning)技术来提取肽序列特征。这种方法能够自动从原始序列数据中学习到更丰富、更抽象的特征表示,从而避免了传统特征工程的局限性。
  • 具体地,它结合了预训练的神经网络模型(SSA、UniRep、BiLSTM)来生成序列嵌入(sequence embedding),并通过特征融合(feature fusion)和特征选择(feature selection)进一步优化特征表示。

2.2. 核心贡献/主要发现

论文最主要的贡献:

  • 开发了一种名为 iBitter-DRLF 的新型机器学习预测方法,用于准确识别苦味肽。
  • 首次系统地将三种深度表征学习特征提取方法(SSA、UniRep、BiLSTM)应用于苦味肽的识别,并通过特征融合和选择过程,证明了其在提高模型性能方面的显著优势。
  • 构建了一个基于 UniRep 和 BiLSTM 融合特征并结合 LGBM 模型的高性能预测器。

论文得出了哪些关键的结论或发现:

  • 深度表征学习特征(deep representation learning features)能够显著提高苦味肽识别模型的性能。
  • 通过特征融合,特别是 UniRep 和 BiLSTM 融合特征,模型性能得到了进一步提升。
  • 特征选择(feature selection)是解决高维特征冗余和过拟合问题的有效手段,并能进一步优化模型性能。
  • 经过优化后的 iBitter-DRLF 模型在独立测试中表现出卓越的性能,其准确率(accuracy, ACC)、马修斯相关系数(Matthews correlation coefficient, MCC)、特异性(specificity, Sp)和曲线下面积(area under the ROC curve, auROC)等关键指标均显著优于现有的最先进方法。
  • 提供了用户友好的网页服务器,方便其他研究人员使用该算法。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 苦味肽 (Bitter Peptides)

苦味肽是具有苦味感觉的短链蛋白质片段。它们通常由2到几十个氨基酸组成,其苦味特性与肽链中疏水性氨基酸的暴露程度、肽的长度、整体疏水性、序列以及氨基酸组成等多种因素有关。在蛋白质水解过程中,酶切会暴露出这些疏水性区域,从而产生苦味。

3.1.2. 机器学习 (Machine Learning, ML)

机器学习是人工智能的一个分支,旨在通过学习数据中的模式来让计算机系统能够执行任务,而无需进行显式编程。在本文中,机器学习模型(如 SVMRFLGBM)被用来根据肽序列的特征预测其是否具有苦味。

3.1.3. 深度学习 (Deep Learning, DL)

深度学习是机器学习的一个子集,它使用具有多层结构的神经网络来从数据中学习复杂的模式和高层抽象特征。与传统机器学习需要人工进行特征工程不同,深度学习能够自动从原始数据中提取有用的特征。

3.1.4. 序列嵌入 (Sequence Embedding)

序列嵌入是一种将生物序列(如肽或蛋白质序列)转换为低维连续向量表示的技术。这些向量能够捕获序列的生物学和化学特性,使得机器学习模型能够更好地处理和理解这些序列数据。嵌入空间中相似的序列通常具有相似的生物学功能。

3.1.5. 支持向量机 (Support Vector Machine, SVM)

SVM 是一种经典的监督学习模型,用于分类和回归分析。它的核心思想是找到一个最优超平面,将不同类别的样本最大程度地分开。在处理非线性问题时,SVM 可以通过核函数(kernel function)将数据映射到高维空间,从而实现线性可分。

3.1.6. 随机森林 (Random Forest, RF)

RF 是一种基于决策树的集成学习算法,通过构建多个决策树并将它们的预测结果进行平均(分类问题中进行投票),来提高模型的准确性和鲁棒性。RF 在训练过程中引入了随机性(如随机选择样本和特征),以减少过拟合。

3.1.7. 轻量级梯度提升机 (Light Gradient Boosting Machine, LGBM)

LGBM 是一种高效的梯度提升决策树(Gradient Boosting Decision Tree, GBDT)实现。与许多梯度提升工具采用层级(level-wise)决策树生长策略不同,LGBM 采用叶级(leaf-wise)算法,并带有深度限制,这使得它在处理大规模数据时具有更快的训练速度和更高的效率,同时保持了良好的准确性。它也常用于特征选择,通过计算特征的重要性(feature importance)来评估每个特征对模型预测的贡献。

3.1.8. 软对称对齐 (Soft Symmetric Alignment, SSA)

SSA 是一种序列嵌入技术,它通过深度学习模型学习将任意长度的肽序列嵌入到固定维度的向量空间中,并定义了一种新的序列相似性度量方法。其核心在于通过软对齐机制计算两条序列基于其嵌入向量的相似性。

3.1.9. 统一表示 (Unified Representation, UniRep)

UniRep 是一种预训练的深度表征学习模型,它在大量的蛋白质序列数据(如UniRef50)上进行训练,学习如何有效地表示蛋白质。它通过预测下一个氨基酸来最小化交叉熵损失(cross-entropy losses),从而学习到序列的内部表示。UniRep 生成的固定长度向量可以作为各种生物信息学任务的特征输入。

3.1.1. 双向长短期记忆 (Bidirectional Long Short-Term Memory, BiLSTM)

BiLSTM 是一种循环神经网络(Recurrent Neural Network, RNN)的变体,特别擅长处理序列数据。它结合了前向 LSTM 和后向 LSTM,能够同时捕捉序列的过去和未来信息,从而更好地理解序列中的上下文依赖关系。LSTM 单元通过门控机制(遗忘门、输入门、输出门)来选择性地记忆和遗忘信息,解决了传统 RNN 中梯度消失和梯度爆炸的问题。

3.1.11. 特征选择 (Feature Selection)

特征选择是从原始特征集中选择一个具有代表性的子集的过程。其目的是减少特征维度、提高模型性能、降低过拟合风险,并提高模型的可解释性。在本文中,LGBM 被用于评估特征的重要性并选择最优特征子集。

3.2. 前人工作

本文在引言中回顾了苦味肽识别领域的一些重要前人工作:

  • 传统序列特征方法:

    • BitterX [15]:一个早期的基于传统特征的苦味肽预测工具。
    • BitterPredict [16]:另一个利用传统序列特征的预测器。
    • iBitter-SCM [17]:使用传统序列特征的预测方法,旨在提高性能。
    • iBitter-Fuse [18]:通过融合多视图(multi-view)传统特征来提升苦味肽预测性能。 这些方法主要依赖于人工设计的序列特征,如氨基酸组成、二肽组成、疏水性等,然后结合传统的机器学习算法进行预测。
  • 基于自然语言处理(NLP)启发式方法:

    • BERT4Bitter [19]:于2021年提出,它借鉴了NLP领域的思想,使用启发式签名编码方法(heuristic signature coding methods)将肽序列表示为特征描述符,并取得了更好的准确性。这标志着该领域开始向更高级的序列表示学习方法发展。
  • 基于元学习的方法:

    • MIMML (mutual information-based meta learning) [20]:于2022年提出,旨在发现苦味肽的最佳特征组合,并在独立测试中达到了93.8%的准确率。这表明了探索更优特征组合策略的重要性。

3.3. 技术演进

苦味肽识别的技术演进大致经历了以下几个阶段:

  1. 早期基于 QSAR (Quantitative Structure-Activity Relationship) 和传统机器学习的方法: 这一阶段主要关注肽的物理化学性质(如疏水性、电荷、分子量)和氨基酸组成/排列等特征,通过统计学方法或简单机器学习模型进行预测。
  2. 基于传统特征工程的机器学习方法: 随着机器学习算法的发展,研究人员开始设计更复杂的序列特征(如伪氨基酸组成、二肽组成等),并结合 SVMRF 等模型,开发出如 BitterXBitterPredictiBitter-SCMiBitter-Fuse 等工具。
  3. 借鉴 NLP 思想的方法: 认识到肽序列与自然语言文本的相似性,BERT4Bitter 等工作开始尝试使用 NLP 中成熟的编码技术来表示肽序列,捕获更深层次的序列模式。
  4. 深度表征学习方法(本文工作): 进一步发展,利用预训练的深度神经网络模型(如 UniRepBiLSTM)自动从大规模蛋白质序列中学习通用的、高维度的特征表示。这些“开箱即用”的强大特征可以更好地捕获序列的复杂生物学信息,从而在各种预测任务中取得显著性能提升,如本文的 iBitter-DRLF

3.4. 差异化分析

本文的 iBitter-DRLF 方法与相关工作中的主要方法相比,核心区别和创新点在于:

  • 特征提取方法: iBitter-DRLF 摒弃了传统的人工特征工程或简单的启发式编码,而是全面采用了深度表征学习。它利用了在大规模序列数据上预训练的 SSAUniRepBiLSTM 模型来提取高维、信息丰富的序列嵌入。这与 BitterXBitterPredictiBitter-SCMiBitter-Fuse 等依赖传统序列特征的方法形成鲜明对比。
  • 特征融合与选择策略: 论文系统地探索了不同深度学习特征的融合(SSA+UniRepSSA+UniRepSSA+BiLSTMSSA+BiLSTMUniRep+BiLSTMUniRep+BiLSTM,以及三者融合),并结合 LGBM 进行特征选择,以应对高维特征带来的冗余和过拟合问题,这使得最终的模型更加精简和高效。
  • 性能提升: 通过深度表征学习、特征融合和优化,iBitter-DRLF 在独立测试中的各项性能指标(ACC、MCC、Sp、auROC)均显著优于现有的最先进预测器,包括 iBitter-FuseBERT4BitterMIMML。这证明了其方法的优越性。
  • 通用性: 深度表征学习特征在其他生物序列分析任务中已被证明具有良好的通用性,这使得 iBitter-DRLF 理论上可以更好地推广到新的、未见的肽序列。

4. 方法论

本文提出的 iBitter-DRLF 是一种基于深度表征学习特征的苦味肽识别模型。其核心思想是利用在大规模生物序列数据上预训练的深度学习模型来提取肽序列的丰富特征表示,然后通过特征融合、特征选择和优化的机器学习算法进行苦味肽的分类预测。

4.1. 方法原理

该方法的核心原理是,肽序列的生物学和化学信息可以被深度神经网络模型有效地编码为高维向量(即序列嵌入)。这些嵌入向量能够捕获序列中复杂的模式和关系,从而比传统的人工特征更能区分苦味肽和非苦味肽。通过融合来自不同深度学习模型的嵌入,可以获得更全面的序列信息。随后,利用特征选择技术去除冗余信息,并结合强大的分类器(如 LGBM)进行预测。

4.2. 核心方法详解

4.2.1. 基准数据集 (Benchmark Dataset)

  • 数据集来源: 本研究使用了来自 iBitter-SCM [17] 更新后的基准数据集。
  • 数据集组成: 包含了通过 BIOPEP 数据库 [29] 构建的非苦味肽以及先前实验证实为苦味的肽。
  • 数据集规模: 总计 BTP640 数据集包含320个苦味肽和320个非苦味肽。
  • 数据划分: 为了防止模型过拟合,数据集被随机划分为两部分:
    • 训练集 (BTP-CV): 用于模型的训练和交叉验证,包含256个苦味肽和256个非苦味肽。
    • 独立测试集 (BTP-TS): 用于评估模型的泛化能力,包含64个苦味肽和64个非苦味肽。
  • 数据可访问性: 用户可以从 https://www.aibiochem.net/servers/iBitter-DRLF/https://github.com/Shoombuatong2527/Benchmark-datasets 获取这两个数据集。

4.2.2. 特征提取 (Feature Extraction)

为了探索不同特征对苦味肽识别的影响,本文采用了三种深度表征学习特征提取方法:SSAUniRepBiLSTM。这些模型在用于苦味肽识别的替代数据集上进行了训练,并对不同的特征编码方案进行了比较,以构建更全面的预测模型。

4.2.2.1. 预训练 SSA 嵌入模型 (Pre-Trained SSA Embedding Model)

SSAsoft symmetric alignment)定义了一种新的任意长度序列嵌入向量之间的相似性度量。

  1. 输入与编码: 首先,肽序列作为输入进入一个预训练模型,并通过一个三层堆叠的 BiLSTM 编码器进行编码。

  2. 最终嵌入: 最终的嵌入表示为矩阵 RL×121\mathtt { R } ^ { \mathrm { L } \times 1 2 1 },其中 L\mathrm { L } 是肽的长度。这个经过 SSA 训练和优化的模型被称为 SSA 嵌入模型。

    假设有两个嵌入矩阵 RL×121\mathtt { R } ^ { \mathrm { L } \times 1 2 1 },分别表示两个不同长度的肽序列 L1\mathrm { L _ {1} }L2\mathrm { L _ {2} },命名为 F1\mathrm { F _ {1} }F2\mathrm { F _ {2} }F1=[x1,x2,,xL1] \mathrm { F } _ { 1 } = [ \mathrm { x } _ { 1 } , \mathrm { x } _ { 2 } , \cdot \cdot \cdot , \mathrm { x } _ { \mathrm { L1 } } ] 其中 xi\mathbf { x _ {i} } 是一个121维的向量。 F2=[y1,y2,,yL2] \mathrm { F } _ { 2 } = [ \mathrm { y } _ { 1 } , \mathrm { y } _ { 2 } , \cdot \cdot \cdot , \mathrm { y } _ { \mathrm { L } 2 } ] 其中 yi\mathrm { y _ {i} } 也是一个121维的向量。

为了计算表示为 F1\mathrm { F _ {1} }F2\mathrm { F _ {2} } 的两个氨基酸序列之间的相似性,开发了一种软对称对齐机制,其中两个序列之间的相似性根据其嵌入向量计算如下: s^=1Ai=1L1j=1L2aijxiyj1(3) { \hat { \mathbf { s } } } = - { \frac { 1 } { \operatorname { A } } } \sum _ { \mathrm { i = 1 } } ^ { \operatorname { L1 } } \sum _ { \mathrm { j = 1 } } ^ { \operatorname { L2 } } { \mathrm { a } } _ { \mathrm { i j } } \| \operatorname { x } _ { \mathrm { i } } - \operatorname { y } _ { \mathrm { j } } \| _ { 1 } \quad (3) 其中,s^\hat { \mathbf { s } } 表示两个序列的相似性分数。aij\mathrm { a } _ { \mathrm { i j } } 是由以下公式确定的: φij=exp(xiyj1)k=1L2exp(xiyk1)(4) \varphi _ { \mathrm { i j } } = \frac { \exp ( - \| \mathbf { \boldsymbol { x } } _ { \mathrm { i } } - \mathbf { \boldsymbol { y } } _ { \mathrm { j } } \| _ { 1 } ) } { \sum _ { \mathbf { k } = 1 } ^ { \mathrm { L2 } } \exp ( - \| \mathbf { \boldsymbol { x } } _ { \mathrm { i } } - \mathbf { \boldsymbol { y } } _ { \mathrm { k } } \| _ { 1 } ) } \quad (4) ωij=exp(xiyj1)k=1L1exp(xkyj1)(5) \omega _ { \mathrm { i j } } = \frac { \exp ( - \| \mathbf { \boldsymbol { x } } _ { \mathrm { i } } - \mathbf { \boldsymbol { y } } _ { \mathrm { j } } \| _ { 1 } ) } { \sum _ { \mathbf { k } = 1 } ^ { \mathrm { L1 } } \exp ( - \| \mathbf { \boldsymbol { x } } _ { \mathrm { k } } - \mathbf { \boldsymbol { y } } _ { \mathrm { j } } \| _ { 1 } ) } \quad (5) aij=ωij+φijωijφij(6) \mathsf { a } _ { \mathrm { i j } } = \omega _ { \mathrm { i j } } + \varphi _ { \mathrm { i j } } - \omega _ { \mathrm { i j } } \varphi _ { \mathrm { i j } } \quad (6) A=i=1L1j=1L2aij(7) \mathbf { A } = \sum _ { \mathbf { i } = 1 } ^ { \mathrm { L1 } } \sum _ { \mathrm { j } = 1 } ^ { \mathrm { L2 } } \mathsf { a } _ { \mathrm { i j } } \quad (7) 这些参数通过一个完全可区分的 SSA 对序列编码器的参数进行反向拟合(backfitted)。训练后的模型将肽序列转换为嵌入矩阵 RL×121\mathtt { R } ^ { \mathrm { L } \times 1 2 1 }

符号解释:

  • F1\mathrm { F _ {1} }: 第一个肽序列的嵌入矩阵。
  • F2\mathrm { F _ {2} }: 第二个肽序列的嵌入矩阵。
  • xi\mathrm { x _ {i} }: 第一个序列中第 ii 个氨基酸的121维嵌入向量。
  • yj\mathrm { y _ {j} }: 第二个序列中第 jj 个氨基酸的121维嵌入向量。
  • L1\mathrm { L1 }: 第一个肽序列的长度。
  • L2\mathrm { L2 }: 第二个肽序列的长度。
  • s^\hat { \mathbf { s } }: 两个序列之间的相似性分数。
  • aij\mathrm { a } _ { \mathrm { i j } }: 衡量第一个序列的第 ii 个氨基酸与第二个序列的第 jj 个氨基酸对总相似性的贡献。
  • 1\| \cdot \| _ { 1 }: L1范数(Manhattan distance),表示两个向量之间的距离。
  • exp()\exp(\cdot): 指数函数。
  • φij\varphi _ { \mathrm { i j } }: 第一个序列的第 ii 个氨基酸与第二个序列的第 jj 个氨基酸的对齐权重,相对于第二个序列中所有氨基酸的软对齐。
  • ωij\omega _ { \mathrm { i j } }: 第一个序列的第 ii 个氨基酸与第二个序列的第 jj 个氨基酸的对齐权重,相对于第一个序列中所有氨基酸的软对齐。
  • A\mathbf { A }: 归一化因子,是所有 aij\mathrm { a } _ { \mathrm { i j } } 值的总和。

4.2.2.2. 预训练 UniRep 嵌入模型 (Pre-Trained UniRep Embedding Model)

UniRep 模型在2400万个 UniRef50 原始氨基酸序列上进行训练。该模型通过最小化交叉熵损失(cross-entropy losses)来执行下一个氨基酸预测,从而在此过程中学习如何在其内部表示蛋白质。

  1. 输入编码: 首先,将具有 L\mathrm { L } 个氨基酸残基的序列使用独热编码(one-hot code)嵌入为矩阵 RL×10\mathtt { R } ^ { \mathrm { L } \times 1 0 }

  2. mLSTM 处理: 然后将该矩阵输入到 mLSTM 编码器以获得 R1900×L\mathtt { R } ^ { 1 9 0 0 \times \mathrm { L } } 的隐藏状态输出。

  3. 特征向量生成: 通过聚合操作,得到1900维的 UniRep 特征向量。

    mLSTM 编码器的计算涉及以下公式: mt=(XtWxm)(ht1Whm)(8) \mathrm { m } _ { \mathrm { t } } = \left( { { { X } _ { \mathrm { t } } } { { W } _ { { \mathrm { x m } } } } } \right) \otimes \left( { { { \mathrm { h } } _ { { \mathrm { t } - 1 } } } { { W } _ { { \mathrm { h m } } } } } \right) \quad (8) { \hat { \mathrm { h } } } _ { \mathrm { t } } = \mathrm { tanh } \left( { { { X } _ { \mathrm { t } } } { { W } _ { { \mathrm { x h } } } } } + { { \mathrm { m } } _ { \mathrm { t } } } { { W } _ { { \mathrm { m h } } } } } \right) \quad (9) ft=σ(XtWxf+mtWmf)(10) \mathrm { f } _ { \mathrm { t } } = \sigma ( { { X } _ { \mathrm { t } } } { { W } _ { { \mathrm { x f } } } } + { { \mathrm { m } } _ { \mathrm { t } } } { { W } _ { { \mathrm { m f } } } } ) \quad (10) it=σ(XtWxi+mtWmi)(11) \mathrm { i } _ { \mathrm { t } } = \sigma ( { { X } _ { \mathrm { t } } } { { W } _ { { \mathrm { x i } } } } + { { \mathrm { m } } _ { \mathrm { t } } } { { W } _ { { \mathrm { m i } } } } ) \quad (11) ot=σ(XtWxo+mtWmo)(12) \mathrm { o } _ { \mathrm { t } } = \sigma ( { { X } _ { \mathrm { t } } } { { W } _ { { \mathrm { x o } } } } + { { \mathrm { m } } _ { \mathrm { t } } } { W _ { { \mathrm { m o } } } } ) \quad (12) Ct=ftCt1+ith^t(13) { { C } _ { \mathrm { t } } } = \mathrm { f } _ { \mathrm { t } } \otimes { C } _ { \mathrm { t - 1 } } + \mathrm { i } _ { \mathrm { t } } \otimes \hat { \mathrm { h } } _ { \mathrm { t } } \quad (13) ht=ottanh(Ct)(14) { { h } _ { \mathrm { t } } } = \mathrm { o } _ { \mathrm { t } } \otimes \mathrm { tanh } ( { C } _ { \mathrm { t } } ) \quad (14) 符号解释:

  • \otimes: 表示元素级别的乘法(element-by-element multiplication)。
  • ht1\mathrm { h } _ { \mathrm { t - 1 } }: 表示前一个时间步的隐藏状态。
  • Xt\mathsf { X } _ { \mathrm { t } }: 表示当前时间步的输入。
  • mt\mathrm { m } _ { \mathrm { t } }: 表示当前时间步的中间乘法状态。
  • h^t\hat { \mathrm { h } } _ { \mathrm { t } }: 表示隐藏状态之前的输入。
  • ft\mathrm { f _ {t} }: 遗忘门(forget gate),控制前一个单元状态有多少信息被遗忘。
  • it\mathrm { i } _ { \mathrm { t } }: 输入门(input gate),控制当前输入有多少信息被存储到单元状态中。
  • ot{ \mathrm { o } } _ { \mathrm { t } }: 输出门(output gate),控制当前单元状态有多少信息被输出到隐藏状态。
  • Ct1\mathrm { C } _ { \mathrm { t - 1 } }: 前一个时间步的单元状态。
  • CtC _ { \mathrm { t } }: 当前时间步的单元状态。
  • ht\mathrm { h } _ { \mathrm { t } }: 当前时间步的隐藏状态(输出)。
  • σ\sigma: Sigmoid 激活函数,其输出值介于0到1之间,用于门控机制。
  • tanh\mathrm { tanh }: 双曲正切激活函数,其输出值介于-1到1之间。
  • WW: 权重矩阵。
  • bb: 偏置向量。

4.2.2.3. 预训练 BiLSTM 嵌入模型 (Pre-Trained BiLSTM Embedding Model)

BiLSTM 是前向 LSTM 和后向 LSTM 的组合,它比单一 LSTM 模型能更好地捕获双向序列特征。LSTM 通过遗忘和记忆信息来获得计算能力,将对后续计算时刻有用的信息传播出去,同时丢弃无用信息,并在每个时间点输出隐藏状态。遗忘、记忆和输出由遗忘门、记忆门和输出门控制。这些门控机制通过前一个时刻的隐藏状态和当前输入来计算。

BiLSTM 的计算涉及以下公式(这里展示的是一个 LSTM 单元的门控机制,BiLSTM 会有两个这样的单元,分别处理前向和后向序列): ft=σ(Wf[ht1,Xt]+bf)(15) \mathbf { f _ { t } } = \sigma ( \mathbf { W _ { f } } \cdot [ \mathbf { h _ { t - 1 } } , \mathbf { X _ { t } } ] + \mathbf { b _ { f } } ) \quad (15) it=σ(Wi[ht1,Xt]+bi)(16) \mathbf { i } _ { \mathrm { t } } = \sigma ( \mathbf { W } _ { \mathrm { i } } \cdot [ \mathbf { h } _ { \mathrm { t - 1 } } , \mathbf { \boldsymbol { X } } _ { \mathrm { t } } ] + \mathbf { b } _ { \mathrm { i } } ) \quad (16) C~t=tanh(WC[ht1,Xt]+bC)(17) \widetilde { \mathrm { C } } _ { \mathrm { t } } = \mathrm { tanh } ( \mathrm { W } _ { \mathrm { C } } \cdot \left[ \mathrm { h } _ { \mathrm { t - 1 } } , \mathrm { X } _ { \mathrm { t } } \right] + \mathrm { b } _ { \mathrm { C } } ) \quad (17) ot=σ(Wo[ht1,Xt]+bo)(18) \mathsf { o } _ { \mathsf { t } } = \sigma ( \mathsf { W } _ { \mathrm { o } } \cdot [ \mathsf { h } _ { \mathrm { t - 1 } } , \mathsf { X } _ { \mathrm { t } } ] + \mathsf { b } _ { \mathrm { o } } ) \quad (18) Ct=ftCt1+itC~t(19) \mathbf { C _ { \mathrm { t } } } = \mathbf { f _ { \mathrm { t } } } * \mathbf { C _ { \mathrm { t - 1 } } } + \mathbf { i _ { \mathrm { t } } } * \widetilde { \mathbf { C } } _ { \mathrm { t } } \quad (19) ht=ottanh(Ct)(20) \mathrm { h } _ { \mathrm { t } } = \mathrm { o } _ { \mathrm { t } } * \mathrm { tanh } ( \mathrm { C } _ { \mathrm { t } } ) \quad (20) 符号解释:

  • Xt{ \mathrm { X } } _ { \mathrm { t } }: 当前时间步的输入。
  • ht1\mathrm { h } _ { \mathrm { t - 1 } }: 前一个时间步的隐藏状态。
  • [ht1,Xt][ \mathbf { h _ { t - 1 } } , \mathbf { X _ { t } } ]: 表示将前一个隐藏状态和当前输入进行拼接(concatenation)。
  • C~t\widetilde { \mathsf { C } } _ { \mathrm { t } }: 当前时间步的候选单元状态(candidate cell state)。
  • ft\mathrm { f _ {t} }: 遗忘门。
  • it\mathrm { i } _ { \mathrm { t } }: 输入门。
  • Ot\mathrm { \mathbf { O } } _ { \mathrm { t } }: 输出门。
  • Ct1\mathrm { C } _ { \mathrm { t - 1 } }: 前一个时间步的单元状态。
  • ht\mathrm { h } _ { \mathrm { t } }: 输出隐藏状态。
  • σ\sigma: Sigmoid 激活函数。
  • tanh\mathrm { tanh }: 双曲正切激活函数。
  • W\mathbf { W }: 权重矩阵,带有相应的下标表示其所属的门或状态。
  • b\mathbf { b }: 偏置向量,带有相应的下标表示其所属的门或状态。
  • \cdot: 点积(dot product)。
  • *: 元素级别的乘法。

4.2.2.4. 特征融合 (Feature Fusion)

为了建立最佳特征组合,本文将不同深度表征学习模型提取的特征向量进行了融合:

  • SSA + UniRep: 将121维的 SSA 特征向量与1900维的 UniRep 特征向量组合,得到2021维的融合特征向量。
  • SSA + BiLSTM: 将121维的 SSA 特征向量与3605维的 BiLSTM 特征向量组合,得到3726维的融合特征向量。
  • UniRep + BiLSTM: 将1900维的 UniRep 特征向量与3605维的 BiLSTM 特征向量组合,得到5505维的融合特征向量。
  • SSA + UniRep + BiLSTM: 将121维的 SSA、1900维的 UniRep 和3605维的 BiLSTM 特征向量全部组合,得到5626维的融合特征向量。

4.2.3. 特征选择方法 (Feature Selection Method)

  • 目的: 融合后的特征向量维度较高,这增加了冗余信息和模型过拟合的风险。特征选择旨在解决这个问题。
  • 方法: 本文使用 LGBM 算法进行特征选择。
  • 过程:
    1. 将数据和数据标签输入 LGBM 模型进行拟合。
    2. 利用 LGBM 的内置函数获取每个特征的重要性值(importance values)。
    3. 根据特征重要性值从“大”到“小”对特征进行排序。
    4. 选择重要性值大于临界值(即平均特征重要性值)的特征作为最终特征集。
  • 策略: 结合了增量特征策略(incremental feature strategy)和超参数网格搜索方法(hyperparametric mesh search method)。

4.2.4. 机器学习方法 (Machine Learning Methods)

本文使用了三种广泛应用的高性能机器学习模型进行预测:

  • 支持向量机 (SVM) [32,33]:
    • 参数范围: 选择了 gammaCC 在对数空间中从 10410^{-4}10410^4 之间30个元素的行向量范围。
    • 核函数: 默认使用 'rbf' (径向基函数,radial basis function) 作为核函数。
  • 随机森林 (RF) [34,35]:
    • 参数范围: n_estimators (决策树的数量) 范围为 (25, 550),Nleaf (每个叶子的最小样本数) 范围为 (2, 12)。
  • 轻量级梯度提升机 (LGBM) [23,36]:
    • 参数范围: n_estimators (决策树的数量) 范围为 (25, 750),max_depth (决策树的最大深度) 范围为 (1, 12)。

5. 实验设置

5.1. 数据集

  • 名称: BTP640 基准数据集,该数据集更新自 iBitter-SCM [17]
  • 组成: 包含320个苦味肽和320个非苦味肽,共640条肽序列。
  • 划分: 数据集被随机划分为训练集和独立测试集,以避免模型过拟合。
    • 训练集 (BTP-CV): 包含256个苦味肽和256个非苦味肽(占总数据的80%)。
    • 独立测试集 (BTP-TS): 包含64个苦味肽和64个非苦味肽(占总数据的20%)。
  • 数据来源: 苦味肽和非苦味肽的来源包括 BIOPEP 数据库 [29] 以及先前实验验证的苦味肽。
  • 数据可访问性: 用户可以从 https://www.aibiochem.net/servers/iBitter-DRLF/https://github.com/Shoombuatong2527/Benchmark-datasets 获取这两个数据集。
  • 样本示例: 原文未提供数据集中的具体肽序列示例。

5.2. 评估指标

本文使用了五种广泛使用的评估指标来衡量模型的性能,并结合 auROC (受试者工作特征曲线下面积) 和 auPRC (精确率-召回率曲线下面积) 进行综合评价。

  1. 准确率 (Accuracy, ACC)

    • 概念定义: 准确率衡量了模型正确预测的样本数量占总样本数量的比例。它是一个直观的指标,适用于类别分布相对均衡的情况。
    • 数学公式: ACC=TP+TN(TP+TN+FP+FN)(21) \mathrm { A C C } = { \frac { \mathrm { T P } + \mathrm { T N } } { ( \mathrm { T P } + \mathrm { T N } + \mathrm { F P } + \mathrm { F N } ) } } \quad (21)
    • 符号解释:
      • TP\mathrm { TP } (True Positives):真阳性,正确预测为苦味肽的苦味肽数量。
      • TN\mathrm { TN } (True Negatives):真阴性,正确预测为非苦味肽的非苦味肽数量。
      • FP\mathrm { FP } (False Positives):假阳性,错误预测为苦味肽的非苦味肽数量。
      • FN\mathrm { FN } (False Negatives):假阴性,错误预测为非苦味肽的苦味肽数量。
  2. 马修斯相关系数 (Matthews Correlation Coefficient, MCC)

    • 概念定义: MCC 是一个综合性指标,在类别不平衡时也能给出可靠的评估。其值范围从 -1(完全错误预测)到 +1(完全正确预测),0 表示随机预测。它考虑了所有四种预测结果(TP, TN, FP, FN)。
    • 数学公式: MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)(22) \mathrm { M C C } = { \frac { \mathrm { T P } \times \mathrm { T N } - \mathrm { F P } \times \mathrm { F N } } { \sqrt { ( \mathrm { T P } + \mathrm { F P } ) ( \mathrm { T P } + \mathrm { F N } ) ( \mathrm { T N } + \mathrm { F P } ) ( \mathrm { T N } + \mathrm { F N } ) } } } \quad (22)
    • 符号解释:
      • TP\mathrm { TP }: 真阳性。
      • TN\mathrm { TN }: 真阴性。
      • FP\mathrm { FP }: 假阳性。
      • FN\mathrm { FN }: 假阴性。
  3. 敏感性 / 召回率 (Sensitivity / Recall, Sn)

    • 概念定义: 敏感性(或称召回率)衡量了模型正确识别出所有实际苦味肽的能力,即真阳性率。它在高风险预测任务中(如疾病诊断)非常重要,因为它关注的是避免漏报。
    • 数学公式: Sn=TP(TP+FN)(23) \mathrm { S n } = { \frac { \mathrm { T P } } { \left( \mathrm { T P } + \mathrm { F N } \right) } } \quad (23)
    • 符号解释:
      • TP\mathrm { TP }: 真阳性。
      • FN\mathrm { FN }: 假阴性。
  4. 特异性 (Specificity, Sp)

    • 概念定义: 特异性衡量了模型正确识别出所有实际非苦味肽的能力,即真阴性率。它关注的是避免误报。
    • 数学公式: Sp=TN(TN+FP)(24) \mathrm { S p } = { \frac { \mathrm { T N } } { \left( \mathrm { T N } + \mathrm { F P } \right) } } \quad (24)
    • 符号解释:
      • TN\mathrm { TN }: 真阴性。
      • FP\mathrm { FP }: 假阳性。
  5. F1 分数 (F1 Score)

    • 概念定义: F1 分数是精确率(Precision)和召回率(Recall,即 Sn)的调和平均值。精确率衡量模型预测为正类别的样本中有多少是真正的正类别。F1 分数综合考虑了精确率和召回率,在高类别不平衡的数据集中是一个有用的指标。
    • 数学公式: F1=2×TP(2×TP+FN+FP)(25) \mathrm { F1 } = { \frac { 2 \times \mathrm { T P } } { ( 2 \times \mathrm { T P } + \mathrm { F N } + \mathrm { F P } ) } } \quad (25) (注:精确率 Precision=TP(TP+FP)\mathrm { Precision } = \frac { \mathrm { TP } } { ( \mathrm { TP } + \mathrm { FP } ) } 。F1 分数 = 2×Precision×RecallPrecision+Recall2 \times \frac{\mathrm{Precision} \times \mathrm{Recall}}{\mathrm{Precision} + \mathrm{Recall}},经过代入简化即为上述公式)
    • 符号解释:
      • TP\mathrm { TP }: 真阳性。
      • FN\mathrm { FN }: 假阴性。
      • FP\mathrm { FP }: 假阳性。
  6. 受试者工作特征曲线下面积 (Area Under the Receiver Operating Characteristic Curve, auROC)

    • 概念定义: auROC 衡量了模型区分正负样本的能力。它的值范围从0.5(随机分类器)到1(完美分类器)。ROC 曲线描绘了在不同分类阈值下,真阳性率(敏感性)与假阳性率(1-特异性)之间的关系。
    • 公式: 没有单一的数学公式,是通过计算ROC曲线与坐标轴围成的面积得到。
  7. 精确率-召回率曲线下面积 (Area Under the Precision-Recall Curve, auPRC)

    • 概念定义: auPRC 衡量了模型在不同分类阈值下,精确率与召回率之间的权衡。对于类别不平衡的数据集,auPRC 往往比 auROC 提供更具信息量的评估,因为它更关注正类别样本的预测性能。
    • 公式: 没有单一的数学公式,是通过计算PR曲线与坐标轴围成的面积得到。

验证方法:

  • K 折交叉验证 (K-fold Cross-Validation): 将原始数据分为 KK 个子集。每次训练时,选择一个子集作为验证集,其余 K-1 个子集作为训练集。重复 KK 次,每次使用不同的子集作为验证集。最终模型的评估指标是 KK 次验证结果的平均值。本文采用了 10 折交叉验证 (K=10K=10)。
  • 独立测试 (Independent Testing): 使用一个完全独立于训练集的测试集来评估模型性能。该测试集中的所有样本对训练好的模型来说都是全新的,能够更真实地反映模型的泛化能力。

5.3. 对比基线

为了评估 iBitter-DRLF 的有效性和实用性,论文将其预测性能与以下现有方法进行了比较:

  • iBitter-Fuse [18]:一个通过融合多视图特征来预测苦味肽的方法。
  • MIMML (mutual information-based meta learning) [20]:一种基于互信息元学习的方法,用于发现苦味肽的最佳特征组合。
  • iBitter-SCM [17]:一种基于传统序列特征的苦味肽预测方法。
  • BERT4Bitter [19]:一种利用自然语言处理(NLP)启发式签名编码方法来表示肽序列的预测器。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 初步优化结果 (Results of Preliminary Optimization)

本节旨在探索哪些嵌入特征对识别苦味肽有用。作者首先使用 SSAUniRepBiLSTM 三种深度表征学习特征提取方法,结合 SVMLGBMRF 三种机器学习方法,进行模型开发和初步优化。

以下是原文 Table 1 的结果: 以下是原文 Table 1 的结果:

Feature Model Dim 10-Fold Cross-Validation Independent Test
ACC MCC Sn Sp F1 auPRC auROC ACC MCC Sn Sp F1 auPRC auROC
SSA b SVM 0.826 0.652 0.836 0.816 0.828 0.890 0.898 0.883 0.766 0.891 0.875 0.884 0.951 0.944
LGBM 121 0.787 0.575 0.816 0.758 0.793 0.874 0.886 0.859 0.722 0.906 0.812 0.866 0.949 0.941
RFc 0.791 0.584 0.828 0.754 0.798 0.848 0.865 0.820 0.644 0.875 0.766 0.830 0.934 0.922
SVM c 0.865 0.730 0.867 0.863 0.865 0.937 0.931 0.867 0.735 0.844 0.891 0.864 0.952 0.948
UniRep b LGBM C 1900 0.840 0.680 0.828 0.852 0.838 0.939 0.930 0.867 0.735 0.844 0.891 0.864 0.953 0.952
RFc 0.842 0.684 0.836 0.848 0.841 0.927 0.920 0.844 0.688 0.828 0.859 0.841 0.946 0.943
SVM 0.818 0.637 0.820 0.816 0.819 0.910 0.912 0.883 0.766 0.906 0.859 0.885 0.956 0.951
LGBM 0.855 0.711 0.863 0.848 0.857 0.924 0.926 0.836 0.673 0.812 0.859 0.832 0.950 0.950
BiLSTM b RFc 3605 0.818 0.637 0.828 0.809 0.820 0.900 0.908 0.844 0.688 0.844 0.844 0.844 0.954 0.949

分析:

  • 10折交叉验证结果: UniRep 特征与 SVM 结合的模型表现最佳,其 ACC 达到0.865,MCC 达到0.730,auPRC 达到0.937,auROC 达到0.931。这表明 UniRep 提取的特征在单一使用时具有较强的区分能力。
  • 独立测试结果: UniRep 特征与 SVM 结合的模型在独立测试中也表现出色,各项指标均处于领先水平,例如 ACC 为0.867,MCC 为0.735。然而,BiLSTM 特征与 SVM 结合的模型在独立测试中的 auPRC (0.956) 和 auROC (0.951) 略优于 UniRep-SVM
  • 初步结论: UniRep 特征在识别苦味肽方面优于 BiLSTM 特征,特别是在交叉验证中表现更稳定。

6.1.2. 特征融合对苦味肽自动识别的影响 (The Effects of Feature Fusion on the Automatic Identification of Bitter Peptides)

本节评估了特征两两组合以及三者组合的融合特征(fusion features)对模型性能的影响。融合特征被输入到 SVMLGBMRF 算法中进行预测。

以下是原文 Table 2 的结果: 以下是原文 Table 2 的结果:

Feature Model Dim 10-Fold Cross-Validation Independent Test
ACC MCC Sn Sp F1 auPRC auROC ACC MCC Sn Sp F1 auPRC auROC
SSA + UniRep b SVM 0.861 0.723 0.875 0.848 0.863 0.929 0.927 0.867 0.734 0.859 0.875 0.866 0.954 0.952
LGBM 2021 0.840 0.680 0.848 0.832 0.841 0.933 0.924 0.859 0.719 0.859 0.859 0.859 0.960 0.958
RFc 0.838 0.676 0.840 0.836 0.838 0.923 0.917 0.867 0.735 0.844 0.891 0.864 0.955 0.954
SSA + BiLSTM b SVMc 0.836 0.672 0.848 0.824 0.838 0.915 0.917 0.883 0.766 0.859 0.906 0.880 0.943 0.947
LGBM 3726 0.848 0.696 0.859 0.836 0.849 0.927 0.927 0.875 0.751 0.906 0.844 0.879 0.961 0.957
RFc 0.824 0.649 0.832 0.816 0.826 0.906 0.911 0.898 0.797 0.891 0.906 0.898 0.959 0.951
UniRep + BiLSTM b SVM 0.844 0.688 0.859 0.828 0.846 0.921 0.926 0.891 0.783 0.922 0.859 0.894 0.966 0.962
LGBM 5505 0.863 0.727 0.871 0.855 0.864 0.932 0.935 0.870 0.737 0.859 0.886 0.873 0.972 0.958
RFc 0.832 0.664 0.844 0.820 0.834 0.932 0.930 0.875 0.750 0.859 0.891 0.873 0.963 0.960
SVM 0.871 0.742 0.863 0.879 0.870 0.943 0.941 0.891 0.783 0.922 0.859 0.894 0.940 0.943
SSA +UniRep LGBM 5626 0.855 0.711 0.844 0.867 0.854 0.945 0.942 0.898 0.797 0.891 0.906 0.898 0.971 0.971
+ BiLSTM b RFc 0.840 0.680 0.848 0.832 0.841 0.926 0.925 0.898 0.799 0.859 0.937 0.894 0.963 0.957

分析:

  • 融合特征的优越性: 对比 Table 1 和 Table 2,可以看出融合特征的模型性能普遍优于单一特征的模型。例如,SSA 单独使用 RF 时 ACC 为0.791,而 SSA + BiLSTM 融合特征与 RF 结合时,ACC 提高到0.898,性能提升了9.51%。

  • 最佳融合特征组合: SSA + UniRep + BiLSTMLGBM 结合的模型在独立测试中表现出了最高的 ACC (0.898)、MCC (0.797)、F1 (0.898)、auPRC (0.971) 和 auROC (0.971)。这表明融合所有三种深度表征学习特征可以提供最全面的信息。

  • 可视化支持: 原文 Figure 2 也直观地展示了融合特征的优势。其中一个三重融合特征和四个双重融合特征的准确率均优于最佳的单一特征,而准确率最低的四个预测器都是单一特征模型。

    以下是原文 Figure 2:

    该图像是图表,展示了不同特征组合在机器学习模型中的表现。图中列出了多种特征组合(如SSA、UniRep、BiLSTM等),并以不同颜色区分,各模型的预测准确率在0.78到0.9之间。可以看出,部分组合(如SSA+UniRep+BiLSTM)在准确率上表现最佳,表明深度表征学习在识别苦味肽方面的有效性。 该图像是图表,展示了不同特征组合在机器学习模型中的表现。图中列出了多种特征组合(如SSA、UniRep、BiLSTM等),并以不同颜色区分,各模型的预测准确率在0.78到0.9之间。可以看出,部分组合(如SSA+UniRep+BiLSTM)在准确率上表现最佳,表明深度表征学习在识别苦味肽方面的有效性。

图2. 苦味肽个体和融合特征预测的独立测试准确率。三种个体特征(SSA、UniRep和BiLSTM)、三种双重融合特征(SSA+UniRep、SSA+BiLSTM和UniRep+BiLSTM)以及一种三重融合特征(SSA+UniRep+BiLSTM)通过三种不同的机器学习算法进行了测试。相同颜色表示相同特征。个体或融合特征/机器学习算法组合的准确率按从高到低排序。其中一个三重融合特征和四个融合双重特征的性能优于最佳的个体特征。相比之下,准确率最低的四个预测器是个体特征模型,表明融合特征的优越性。SSA+UniRep+BiLSTM-LGBM组合的准确率为0.898。最佳表现的SSA-SVM和BiLSTM-SVM个体特征的准确率为0.883。总而言之,结合不同的特征信息集有助于提高模型的预测性能。请注意SSA-SVM表示以SSA特征向量作为输入的SVM模型,而SSA+UniRep+BiLSTM-LGBM表示以SSA、UniRep和BiLSTM特征组合作为输入的LGBM模型。其他类似标签具有相似含义。

6.1.3. 特征选择对苦味肽自动识别的影响 (The Effect of Feature Selection on the Automatic Identification of Bitter Peptides)

本节探讨了特征选择如何解决高维融合特征带来的冗余和过拟合问题。作者使用 LGBM 算法进行特征选择,并结合增量特征策略和超参数网格搜索。

以下是原文 Table 3 的结果: 以下是原文 Table 3 的结果:

Feature Model Dim ACC 10-Fold Cross-Validation Independent Test
MCC Sn Sp F1 auPRC auROC ACC MCC Sn Sp F1 auPRC auROC
SSA b SVM 53 0.820 0.641 0.840 0.801 0.824 0.910 0.909 0.914 0.829 0.937 0.891 0.916 0.948 0.941
LGBM 77 0.816 0.634 0.848 0.785 0.822 0.877 0.892 0.883 0.768 0.922 0.844 0.887 0.947 0.940
RFc 16 0.805 0.610 0.820 0.789 0.808 0.860 0.881 0.867 0.734 0.875 0.859 0.868 0.888 0.894
UniRep b SVM 65 0.875 0.750 0.875 0.875 0.875 0.946 0.943 0.906 0.813 0.891 0.922 0.905 0.952 0.952
LGBM 313 0.854 0.707 0.855 0.852 0.854 0.946 0.938 0.914 0.829 0.891 0.937 0.912 0.954 0.948
RFc 329 0.836 0.672 0.824 0.848 0.834 0.918 0.908 0.891 0.785 0.844 0.937 0.885 0.958 0.957
BiLSTM b SVM 344 0.820 0.641 0.824 0.816 0.821 0.913 0.915 0.922 0.844 0.937 0.906 0.923 0.955 0.956
LGBM 339 0.871 0.742 0.883 0.859 0.873 0.925 0.929 0.906 0.813 0.906 0.906 0.906 0.969 0.966
RFc 434 0.830 0.660 0.836 0.824 0.831 0.906 0.914 0.898 0.797 0.906 0.891 0.899 0.957 0.950
SSA +UniRep b SVM 62 0.865 0.730 0.863 0.867 0.865 0.944 0.942 0.914 0.828 0.906 0.922 0.913 0.958 0.957
LGBMC 106 0.881 0.762 0.887 0.875 0.882 0.961 0.957 0.891 0.783 0.859 0.922 0.887 0.952 0.947
RFc 47 0.838 0.676 0.859 0.816 0.841 0.937 0.931 0.906 0.816 0.859 0.953 0.902 0.956 0.947
SSA + BiLSTM b SVMc 267 0.836 0.672 0.836 0.836 0.836 0.910 0.911 0.914 0.828 0.906 0.922 0.913 0.956 0.952
LGBM 317 0.861 0.723 0.875 0.848 0.863 0.924 0.929 0.906 0.813 0.906 0.906 0.906 0.962 0.958
RFc 176 0.832 0.664 0.848 0.816 0.835 0.922 0.925 0.906 0.813 0.906 0.906 0.906 0.959 0.952
UniRep + BiLSTM bb SVM 186 0.873 0.746 0.887 0.859 0.875 0.932 0.934 0.914 0.829 0.937 0.891 0.916 0.961 0.965
LGBM 106 0.889 0.777 0.891 0.887 0.889 0.947 0.952 0.944 0.889 0.922 0.977 0.952 0.984 0.977
RFc 45 0.871 0.742 0.871 0.871 0.871 0.937 0.941 0.938 0.875 0.938 0.938 0.938 0.976 0.971
SVMc 336 0.881 0.762 0.883 0.879 0.881 0.940 0.942 0.922 0.845 0.953 0.891 0.924 0.942 0.946
SSA +UniRep LGBM 285 0.881 0.762 0.891 0.871 0.882 0.951 0.947 0.938 0.875 0.922 0.953 0.937 0.969 0.969
+ BiLSTM b RFc 192 0.863 0.727 0.859 0.867 0.863 0.932 0.932 0.922 0.844 0.906 0.937 0.921 0.970 0.967

分析:

  • 特征选择的有效性: 对比 Table 2 和 Table 3,可以明显看出经过特征选择后的模型性能显著优于未选择特征的模型。例如,原始 UniRep + BiLSTM 融合特征(5505维)与 LGBM 结合时,独立测试 ACC 为0.870,而经过选择后的106维 UniRep + BiLSTM 融合特征与 LGBM 结合时,独立测试 ACC 飙升至0.944。这证明了特征选择能够有效降低维度,去除冗余信息,并提升模型性能。

  • 最佳特征集: 在所有经过特征选择的组合中,106维的 UniRep + BiLSTM 融合特征与 LGBM 模型结合表现最佳。其在10折交叉验证和独立测试中均取得了最高的各项指标,例如:

    • 10折交叉验证: ACC=0.889, MCC=0.777, Sn=0.891, Sp=0.887, F1=0.889, auPRC=0.947, auROC=0.952。
    • 独立测试: ACC=0.944, MCC=0.889, Sn=0.922, Sp=0.977, F1=0.952, auPRC=0.984, auROC=0.977。
  • 性能提升幅度: 最佳的106维 UniRep + BiLSTM 融合特征的独立测试 ACC 相比其他特征集提升了0.64-9.90%,MCC 提升了1.60-23.64%,充分体现了其卓越性能。

    以下是原文 Figure 3:

    Figure 3. The performance metrics of fusion features using a range of selected features and different algorithms. Panels (A,C,E) show 10-fold cross-validation results, and panels (B,D,F) are independ… 该图像是图表,展示了不同机器学习算法在融合特征中的性能指标,包括支持向量机(SVM)、轻梯度提升机(LGBM)和随机森林(RF)。面板(A、C、E)显示了10倍交叉验证结果,面板(B、D、F)则为独立测试结果。图中描述了不同特征组合的表现,验证了深度表示学习方法在苦味肽识别中的有效性。

图3. 使用一系列选定特征和不同算法的融合特征的性能指标。面板 (A,C,E) 显示10折交叉验证结果,面板 (B,D,F) 为独立测试结果。请注意,不同面板中相同颜色代表不同的选定特征。请参阅面板下方代码以获取适当的选定特征/模型组合代码。

6.1.4. 机器学习模型参数优化对苦味肽自动识别的影响 (The Effect of Machine Learning Model Parameter Optimization on the Automated Identification of Bitter Peptides)

在确定了106维 UniRep + BiLSTM 融合特征为最佳特征集后,本节进一步对 SVMRFLGBM 模型进行了超参数优化。作者利用 scikit-learn GridSearchCV 模块进行超参数搜索。

以下是原文 Figure 4:

Figure 4. Performance metrics of the UniRep \(^ +\) BiLSTM features analyzed by different models using default parameters (light bars) or hyperparameters (dark bars). Results using selected hyperparame…
该图像是图表,展示了 UniRep +^ + BiLSTM 特征在不同模型下的性能指标,包括 ACC、MCC、Sn、Sp、F1、auPRC 和 auROC。图中的浅色柱子代表默认参数,深色柱子则代表优化的超参数,结果显示优化后模型性能普遍提升。

图4. 使用默认参数(浅色条)或超参数(深色条)分析UniRep+BiLSTM特征的不同模型的性能指标。使用选定超参数的结果总是匹配或优于默认参数。

分析:

  • 超参数优化的效果: Figure 4 清晰地表明,经过超参数优化后的模型(深色条)性能普遍优于使用默认参数的模型(浅色条)。这强调了超参数调优对模型性能的重要性。
  • 最佳模型参数:
    • RF 模型在 Nleaf=2,nestimators=300Nleaf = 2, n_estimators = 300 参数下表现最佳。
    • LGBM 模型在 depth=3,nestimators=75depth = 3, n_estimators = 75 参数下表现最佳。
  • 最终模型选择: 尽管 RF 模型在独立测试中的 Sn(0.938)略高(高出1.73%),但在所有其他方面(ACC、MCC、Sp、F1、auPRC、auROC),LGBM 模型在独立测试和10折交叉验证中均表现出明显优越的性能。因此,作者最终选择 106维的 UniRep + BiLSTM 融合特征,结合参数为 depth=3depth = 3nestimators=75n_estimators = 75LGBM 模型,作为 iBitter-DRLF 预测器。
  • 最终模型的性能:
    • 10折交叉验证: ACC=0.889, MCC=0.777, Sn=0.891, Sp=0.887, F1=0.889, auPRC=0.947, auROC=0.952。
    • 独立测试: ACC=0.944, MCC=0.889, Sn=0.922, Sp=0.977, F1=0.952, auPRC=0.984, auROC=0.977。

6.1.5. 与现有方法的比较 (Comparison with Existing Methods)

本节将 iBitter-DRLF 的预测性能与 iBitter-Fuse [18]MIMML [20]iBitter-SCM [17]BERT4Bitter [19] 等现有最先进方法进行了比较。

以下是原文 Table 4 的结果: 以下是原文 Table 4 的结果:

Classifier ACC MCC Sn Sp auROC
iBitter-DRLF 0.944 0.889 0.922 0.977 0.977
iBitter-Fuse 0.930 0.859 0.938 0.922 0.933
BERT4Bitter 0.922 0.844 0.938 0.906 0.964
iBitter-SCM 0.844 0.688 0.844 0.844 0.904
MIMML 0.938 0.875 0.938 0.938 0.955

分析:

  • 显著优越性: Table 4 的独立测试结果清晰地表明,iBitter-DRLF 在 ACC、MCC、Sp 和 auROC 等关键指标上显著优于所有现有方法。
    • ACC 超出其他方法 0.64% 到 11.85%。
    • MCC 超出 1.60% 到 29.22%。
    • Sp 超出 4.16% 到 15.76%。
    • auROC 超出 1.35% 到 8.08%。
  • 可靠性和稳定性: 尤其是在 MCC、Sp 和 auROC 方面的大幅提升,表明 iBitter-DRLF 在区分苦味肽和非苦味肽方面更可靠和稳定。虽然 iBitter-FuseBERT4BitterMIMMLSn 上略高(0.938 vs 0.922),但 iBitter-DRLF 在整体平衡指标上表现更优。

6.1.6. 苦味肽自动识别效果的特征可视化 (Feature Visualization of the Picric Peptide Automatic Recognition Effect)

本节使用 UMAP (统一流形近似与投影降维,unified manifold approximation and projection dimensionality reduction) 算法对降维后的特征进行了可视化,以直观展示不同特征表示的效果。

以下是原文 Figure 5:

Figure 5. UMAP was used to visualize the dimension-reduced features of fused features: (A) is the UniRep feature, (B) is the BiLSTM feature, (C) is the BiLSTM \(^ +\) UniRep fusion, and (D) represents…
该图像是图表,展示了使用UMAP可视化融合特征的降维结果:A为UniRep特征,B为BiLSTM特征,C为BiLSTM和UniRep的融合,D为BiLSTM_UniRep融合特征集中的前106个特征。红点表示BTP(苦味肽),蓝点表示非BTP。

图5. UMAP用于可视化融合特征的降维特征:(A) 是UniRep特征,(B) 是BiLSTM特征,(C) 是BiLSTM+UniRep融合,(D) 表示使用BiLSTM_UniRep融合特征集中的前106个选定特征的数据。

分析:

  • UMAP 的作用: UMAP 能够有效地将高维特征降维到二维或三维空间,同时尽可能保留原始数据的内在结构和特征,从而实现可视化。
  • 可视化结果:
    • Figure 5A (UniRep 特征) 和 Figure 5B (BiLSTM 特征) 显示,单独的 UniRepBiLSTM 特征虽然能够对苦味肽和非苦味肽进行一定程度的区分,但两类样本仍然存在较大的重叠区域。
    • Figure 5C (BiLSTM + UniRep 融合特征) 显示,融合后的特征在区分两类样本方面有所改善,重叠区域有所减少。
    • Figure 5D (BiLSTM + UniRep 融合特征集中的前106个选定特征) 显示,经过特征选择后的106维融合特征在分离苦味肽和非苦味肽方面表现出明显更好的效果,两类样本在二维空间中形成了更清晰的簇,重叠区域非常小。
  • 解释模型性能提升: 这种可视化结果直观地解释了为什么融合特征和特征选择能够显著提升模型性能,因为它们能够生成更具区分性的特征表示,使得苦味肽和非苦味肽在特征空间中更容易被分类器分开。

6.2. 数据呈现 (表格)

所有表格已在对应的小节中完整呈现并分析。

7. 总结与思考

7.1. 结论总结

本文成功开发了一种名为 iBitter-DRLF 的新型计算模型,能够仅依据肽序列数据准确识别苦味肽。该模型的核心创新在于:

  • 深度表征学习: 利用 SSAUniRepBiLSTM 等预训练的深度学习模型进行特征提取,自动从肽序列中学习到丰富而高维的特征表示。

  • 特征融合与优化: 通过系统地探索不同深度特征的融合策略,并结合 LGBM 进行高效的特征选择,成功地构建了一个最优的特征集(106维的 UniRep + BiLSTM 融合特征)。

  • 卓越的预测性能: 在独立的测试集上,iBitter-DRLF 模型(基于 LGBM,参数为 depth=3depth=3, nestimators=75n_estimators=75)在 ACC (0.944)、MCC (0.889)、Sp (0.977) 和 auROC (0.977) 等多个评估指标上,均显著超越了当前所有最先进的苦味肽预测器。

  • 实用性: 为了方便其他科学家使用,作者还开发并提供了一个用户友好的 iBitter-DRLF 网页服务器。

    该研究证明了深度表征学习在生物序列分析,特别是苦味肽识别中的强大潜力,为改善食品适口性、膳食补充剂和肽类药物的开发提供了有力的计算工具。

7.2. 局限性与未来工作

  • 局限性: 论文指出,尽管深度表征学习特征极大地提高了模型的预测性能,但这些特征的精确物理化学相关性(physicochemical relevance)尚不明确。这意味着模型虽然能有效预测,但其内部决策过程的生物学解释性有待提高。
  • 未来工作: 作者并未明确提出未来的研究方向,但可以推断,解决上述特征的物理化学解释性将是一个重要的研究方向,例如通过可解释人工智能(explainable AI, XAI)技术来理解模型所学到的特征与肽的结构、疏水性等已知苦味相关因素之间的关系。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 深度表征学习的强大潜力: 这篇论文再次印证了深度表征学习在生物序列分析领域的巨大价值。它能够将复杂的生物信息编码成机器学习模型可理解且高效利用的形式,极大地减少了人工特征工程的负担,并能捕获传统方法难以发现的模式。这种方法可以迁移到其他生物序列相关的预测任务中,例如酶活性预测、毒性预测、功能分类等。
  2. 特征融合与选择的必要性: 即使是来自强大预训练模型的特征,也并非越多越好。高维特征融合后,通过有效的特征选择方法(如 LGBM 基于重要性排序)来去除冗余、突出关键信息,是提升模型性能和防止过拟合的关键步骤。这对于任何利用多源或高维特征的机器学习任务都具有指导意义。
  3. 实践与工程化: 提供一个用户友好的网页服务器是研究成果工程化和推广的重要一步。这不仅方便了其他研究人员和行业用户,也大大提升了研究工作的实际应用价值和影响力。

7.3.2. 批判

  1. 可解释性不足: 论文明确提到了“这些特征的精确物理化学相关性尚不明确”这一局限性。虽然对于许多应用而言,高预测精度比可解释性更重要,但在生物医学领域,理解模型为何做出特定预测往往至关重要。例如,了解哪些氨基酸组合或序列模式导致苦味,可以指导肽的结构设计或修饰,以消除苦味。未来研究应着力于结合可解释 AI 技术,将深度学习模型的“黑箱”转化为“灰箱”,揭示其内部机制。
  2. 单一数据集的依赖: 论文主要依赖于 BTP640 这个相对较小(640个样本)且均衡的数据集进行训练和评估。尽管使用了10折交叉验证和独立测试,但在不同来源、更大规模或更不平衡的苦味肽数据集上进行验证,将进一步增强模型的泛化能力和鲁棒性。
  3. 预训练模型更新频率: SSAUniRepBiLSTM 都是基于预训练的。随着生物序列数据量的不断增长和更先进的预训练模型(如 Transformer 架构的蛋白质语言模型)的出现,模型的性能可能还有进一步提升的空间。定期更新或尝试更先进的预训练特征提取器,是保持 iBitter-DRLF 领先地位的重要途径。
  4. 未探讨苦味强度: 论文主要关注苦味肽的二分类识别(苦味 vs. 非苦味)。然而,实际应用中,苦味强度(bitterness intensity)的预测也具有重要意义。将模型扩展到预测苦味强度,或者将不同强度的苦味肽作为多分类任务来处理,将是更有价值的探索。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。