AiPaper
论文状态:已完成

A Machine Learning Method to Identify Umami Peptide Sequences by Using Multiplicative LSTM Embedded Features

发表:2023/04/02
原文链接
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

提出基于乘法LSTM的深度预训练特征表示和逻辑回归的iUmami-DRLF方法,实现高效精准识别鲜味肽序列。该方法克服传统湿实验耗时昂贵,提升预测稳健性,有助于推动鲜味食物开发与营养研究。

摘要

Citation: Jiang, J.; Li, J.; Li, J.; Pei, H.; Li, M.; Zou, Q.; Lv, Z. A Machine Learning Method to Identify Umami Peptide Sequences by Using Multiplicative LSTM Embedded Features. Foods 2023 , 12 , 1498. https://doi.org/10.3390/ foods12071498 Academic Editor: Christophe Flahaut Received: 26 February 2023 Revised: 24 March 2023 Accepted: 30 March 2023 Published: 2 April 2023 Copyright: © 2023 by the authors. Licensee MDPI, Basel, Switzerland. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution (CC BY) license (https:// creativecommons.org/licenses/by/ 4.0/). foods Article A Machine Learning Method to Identify Umami Peptide Sequences by Using Multiplicative LSTM Embedded Features Jici Jiang 1 , Jiayu Li 2 , Junxian Li 1 , Hongdi Pei 1,3 , Mingxin Li 1 , Quan Zou 4,5, * and Zhibin Lv 1, * 1 College of Biomedical Engineering, Sichuan University, Chengdu 610065, China 2 College of Life Science, Sichuan University, Chengdu 610065, China 3 Wu Yuzhang Honors College, Sichuan University, Chengdu 610065, China 4 Institute of Fundamental and Frontier Sciences, University o

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

标题 (Title): A Machine Learning Method to Identify Umami Peptide Sequences by Using Multiplicative LSTM Embedded Features

1.2. 作者

作者 (Authors): Jici Jiang, Jiayu Li, Junxian Li, Hongdi Pei, Mingxin Li, Quan Zou, Zhibin Lv

研究背景和隶属机构 (Research Background and Affiliations):

  • Jici Jiang, Junxian Li, Hongdi Pei, Mingxin Li, Zhibin Lv: 隶属于四川大学生物医学工程学院 (College of Biomedical Engineering, Sichuan University, Chengdu, China)。其中,Hongdi Pei 还隶属于四川大学吴玉章学院 (Wu Yuzhang Honors College, Sichuan University, Chengdu, China)。
  • Jiayu Li: 隶属于四川大学生命科学学院 (College of Life Science, Sichuan University, Chengdu, China)。
  • Quan Zou: 隶属于电子科技大学基础与前沿科学研究院 (Institute of Fundamental and Frontier Sciences, University of Electronic Science and Technology of China, Chengdu, China) 和长江三角洲区域研究所(衢州)(Yangtze Delta Region Institute (Quzhou), University of Electronic Science and Technology of China, Quzhou, China)。
  • Zou Quan 和 Lv Zhibin 为共同通讯作者。

1.3. 发表期刊/会议

发表期刊 (Journal): Foods

声誉和影响力 (Reputation and Impact): Foods 是一本开放获取的国际同行评审期刊,涵盖食品科学与技术领域。它在食品科学、营养学等交叉学科领域具有一定的认可度,发表高质量的研究论文和综述。

1.4. 发表年份

发表年份 (Publication Year): 2023年

1.5. 摘要

本文报告了一种名为 iUmami-DRLF 的机器学习 (ML) 方法,用于识别鲜味肽 (umami peptide) 序列。鲜味肽因其能增强食物鲜味、具有良好食品加工特性、营养价值及潜在应用而备受关注。传统的湿实验 (wet testing) 识别方法耗时且昂贵。iUmami-DRLF 仅基于深度学习预训练神经网络特征提取方法——统一表示 (UniRep,基于乘法长短期记忆网络 (multiplicative LSTM)) 对肽序列进行特征提取,并使用逻辑回归 (LR) 方法进行分类。研究结果表明,深度学习表示学习 (deep learning representation learning) 显著提升了模型识别鲜味肽的能力和预测精度,且仅依赖于肽序列信息。通过使用新验证的鲜味序列对 iUmami-DRLF 和其他预测器进行测试,结果显示 iUmami-DRLF 具有更好的鲁棒性 (robustness) 和准确性 (accuracy),并在更高的概率阈值 (probability thresholds) 下依然有效。iUmami-DRLF 方法有望助力未来研究,以增强食品鲜味,满足对鲜味饮食的需求。

1.6. 原文链接

原文链接 (Original Link): /files/papers/6908b45ae81fdddf1c48bfa8/paper.pdf 发布状态 (Publication Status): 已正式发表。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题 (Core Problem Addressed): 论文旨在解决鲜味肽识别的效率和成本问题。鲜味肽因其独特的风味增强作用、营养价值和食品加工特性而具有广泛的应用前景。然而,通过传统的生物湿实验来鉴定鲜味肽是一个耗时且昂贵的过程。随着肽序列数据库的迅速增长,开发基于计算方法,特别是机器学习方法的自动化识别工具变得至关重要。

为什么这个问题在当前领域是重要的 (Importance of the Problem):

  • 食品工业需求: 鲜味是食物品质的关键因素,增加食物中的鲜味物质可以提高整体适口性。开发高效的鲜味肽识别方法有助于食品工业快速筛选和利用这些天然增味剂。
  • 健康饮食趋势: 鲜味肽作为天然的鲜味增强剂,可以减少食品中对盐和糖的依赖,符合健康饮食的发展趋势。
  • 生物信息学挑战: 肽序列的复杂性使得从海量数据中准确预测其功能具有挑战性。现有计算方法在性能、鲁棒性和泛化能力上仍有提升空间。

现有研究存在的具体挑战或空白 (Specific Challenges or Gaps in Existing Research): 尽管已有一些基于机器学习的鲜味肽预测工具,如 Umami-SCMUMPred-FRLiUP-BERT,但它们仍存在以下局限:

  • 准确性不足: 现有预测器的准确性仍有待提高。
  • 鲁棒性问题: 例如,iUP-BERT 在某些情况下表现出不如预期的鲁棒性。
  • 泛化能力: 在面对新的、未经训练验证的肽序列时,现有模型的泛化能力可能不足。
  • 特征工程挑战: 传统的机器学习方法通常依赖于手工特征工程 (manual feature engineering),这既耗时又可能无法充分捕捉肽序列的深层信息。

这篇论文的切入点或创新思路 (Entry Point or Innovative Idea of This Paper): 本文的创新点在于:

  1. 纯粹基于深度表示学习特征: 首次纯粹使用深度学习预训练模型 UniRep (基于乘法长短期记忆网络 (multiplicative LSTM)) 进行肽序列的特征提取,摒弃了传统的手工特征工程。这种方法能够自动从原始数据中学习有效的表示。
  2. 结合传统机器学习分类器: 将深度学习提取的特征与经典的、解释性较强的逻辑回归 (LR) 分类器结合,形成 iUmami-DRLF 模型。
  3. 强调鲁棒性和泛化能力: 通过引入 SMOTE 处理数据不平衡问题,并利用多种特征选择方法 (ANOVALGBMMI) 优化特征空间,以及在独立测试集和新验证集上的严格评估,旨在构建一个更具鲁棒性和泛化能力的预测模型。

2.2. 核心贡献/主要发现

论文最主要的贡献 (Main Contributions of the Paper):

  1. 提出了 iUmami-DRLF 预测器: 开发了一个基于纯序列信息的鲜味肽预测器,其核心是使用 UniRep 进行深度表示学习特征提取,并结合逻辑回归 (LR) 进行分类。
  2. 验证了深度表示学习的有效性: 证明了 UniRep (基于 multiplicative LSTM) 在鲜味肽识别任务中能够显著提升模型性能,无需手动设计特征。
  3. 优化了模型构建流程: 引入了 SMOTE 处理不平衡数据,并系统地评估了 ANOVALGBMMI 等特征选择方法,确定了最佳特征子集 (177D UniRep 特征)。
  4. 实现了卓越的性能和鲁棒性: 在10折交叉验证和独立测试中,iUmami-DRLF 表现出优于现有最先进方法的准确性、马修斯相关系数 (MCC)、灵敏度 (Sn)、特异性 (Sp) 和曲线下面积 (auROC)。特别是在针对91个湿实验验证的鲜味肽序列 (UMP-VERIFIED 数据集) 的鲁棒性测试中,iUmami-DRLF 在高概率阈值下仍能保持有效预测,显著优于 UMPred-FRLiUP-BERT
  5. 开发了用户友好的网络服务器: 为研究人员提供了一个免费在线使用的 iUmami-DRLF 网络服务器,便于实际应用。

论文得出的关键结论或发现 (Key Conclusions or Findings):

  • 深度表示学习 (通过 UniRep) 能够从肽序列中自动提取出高度信息丰富的特征,极大地提升了鲜味肽预测模型的性能。
  • SMOTE 数据平衡策略对于处理不平衡数据集至关重要,能够有效改善模型对少数类 (umami peptides) 的识别能力。
  • 特征选择(尤其是使用 LGBM 方法)可以进一步优化模型性能,通过去除冗余信息并聚焦于最重要的特征来防止过拟合 (over-fitting)。
  • 在综合评估中,以 UniRep 提取的特征结合逻辑回归 (LR) 构建的 iUmami-DRLF 模型,在准确性、泛化能力和鲁棒性方面均超越了现有的先进方法。
  • iUmami-DRLF 在高概率阈值下的有效性,使其在实际应用中具有更高的可信度。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解本研究,需要了解以下基础概念:

  • 鲜味 (Umami taste): 被公认为继甜、酸、咸、苦之后的第五种基本味道。鲜味物质能增强食物风味,对健康饮食有益。
  • 鲜味肽 (Umami peptide): 指具有鲜味或能增强鲜味效果的肽。它们通常含有天冬氨酸 (aspartic acid)、谷氨酸 (glutamic acid)、天冬酰胺 (asparagine) 或谷氨酰胺 (glutamine) 残基。
  • 肽序列 (Peptide sequence): 由氨基酸 (amino acid) 通过肽键连接形成的多肽链的排列顺序。这是机器学习模型进行预测的原始输入数据。
  • 机器学习 (Machine Learning, ML): 计算机科学的一个分支,使计算机系统能够从数据中“学习”而无需明确编程。它通过识别数据中的模式和关系来做出预测或决策。
  • 深度学习 (Deep Learning, DL): 机器学习的一个子领域,使用具有多层结构的神经网络 (neural network) 来学习数据表示。它在处理图像、语音和序列数据方面表现出色。
  • 逻辑回归 (Logistic Regression, LR): 一种广义线性模型 (generalized linear model),通常用于解决二分类 (binary classification) 问题。它通过 sigmoid 函数将线性回归的输出映射到 (0, 1) 区间,表示事件发生的概率。
  • 长短期记忆网络 (Long Short-Term Memory, LSTM): 一种特殊的循环神经网络 (Recurrent Neural Network, RNN) 结构,旨在解决传统 RNN 中长期依赖 (long-term dependency) 问题。LSTM 包含输入门 (input gate)、遗忘门 (forget gate) 和输出门 (output gate) 来控制信息流,从而有效地学习和记忆序列中的长距离模式。
  • 乘法长短期记忆网络 (Multiplicative LSTM, mLSTM): 是一种 LSTM 的变体,它引入了乘法交互 (multiplicative interactions) 到状态更新中,允许网络学习更复杂的特征组合,可能在处理序列数据时提供更丰富的表示。
  • 统一表示 (Unified Representation, UniRep): 一种基于 mLSTM 的深度学习模型,通过在大规模蛋白质/肽序列数据上进行预训练,学习序列的通用、固定长度的嵌入向量 (embedding vector)。这些向量捕获了序列的生物物理和功能特性,可以作为下游机器学习任务的特征。
  • 合成少数类过采样技术 (Synthetic Minority Over-sampling Technique, SMOTE): 一种用于处理不平衡数据集 (imbalanced dataset) 的方法。它通过在少数类样本之间进行插值来合成新的少数类样本,从而增加少数类的数量,使得数据分布更加均衡,防止模型偏向多数类。
  • 特征选择 (Feature Selection): 从原始特征集中选择一个子集,以提高模型性能、减少计算成本和增强模型可解释性。它可以消除冗余和不相关的特征。
  • 方差分析 (Analysis of Variance, ANOVA): 一种统计方法,用于比较两个或多个组之间均值的显著性差异。在特征选择中,它可以评估单个特征区分不同类别的能力。
  • 轻量级梯度提升机 (Light Gradient Boosting Machine, LGBM): 一种基于决策树 (decision tree) 的梯度提升框架 (gradient boosting framework)。它以其高效性和高性能而闻名,常用于分类和排序任务,也可以用于评估特征的重要性进行特征选择。
  • 互信息 (Mutual Information, MI): 衡量两个随机变量之间相互依赖性的度量。在特征选择中,MI 可以评估特征与目标变量之间的非线性关系和联合相关性。
  • K近邻 (k-Nearest Neighbors, KNN): 一种非参数的监督学习算法,用于分类和回归。它根据数据点与其 k 个最近邻居的类别来决定其类别。
  • 支持向量机 (Support Vector Machine, SVM): 一种强大的监督学习模型,用于分类和回归。它通过找到一个最优的超平面 (hyperplane) 来最大化不同类别数据点之间的间隔。
  • 随机森林 (Random Forest, RF): 一种集成学习 (ensemble learning) 方法,通过构建多个决策树并将它们的预测结果进行平均来提高准确性和鲁棒性。
  • 均匀流形近似与投影 (Uniform Manifold Approximation and Projection, UMAP): 一种非线性降维 (non-linear dimensionality reduction) 技术,常用于可视化高维数据,使其在低维空间中保持原始数据的局部和全局结构。

3.2. 前人工作

本文主要对比了以下几种现有鲜味肽预测方法:

  • Umami-SCM [9] (2020): 使用评分卡方法 (Scoring Card Method, SCM),结合氨基酸和二肽的倾向性分数 (propensity score) 来识别鲜味肽。在独立测试中报告的准确率为 0.865。
  • UMPred-FRL [11] (2021): 集成了七种不同的传统特征编码方法来构建鲜味肽分类器。
  • iUP-BERT [12] (2022): 基于单个深度表示学习特征编码方法 BERT (Bidirectional Encoder Representations from Transformer) 提出。与 Umami-SCMUMPred-FRL 相比,iUP-BERT 在独立测试和交叉验证中均表现出更优的性能。

背景知识补充 - BERT: BERT 是一种基于 Transformer 架构的预训练语言模型,由 Google 在2018年提出。它通过在大量无标签文本上进行双向训练(同时考虑上下文的左侧和右侧信息)来学习语言的深层表示。BERT 的核心在于其 Transformer 编码器结构,特别是其中的自注意力机制 (self-attention mechanism),使得模型能够捕获序列中任意两个位置之间的依赖关系。

自注意力机制 (Self-Attention Mechanism) 的计算公式: 虽然本文没有直接使用 BERTTransformer 公式,但由于 iUP-BERT 是一个重要的对比基线,且 BERT 广泛采用自注意力机制,理解其核心机制对于了解深度表示学习至关重要。 Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V 其中:

  • QQ (Query), KK (Key), VV (Value) 是输入序列通过线性变换得到的三个矩阵。它们是输入序列的投影,用于计算注意力权重并加权求和。
  • QKTQ K^T 计算了 Query 和 Key 之间的点积相似度,用于衡量序列中不同位置之间的相关性。
  • dk\sqrt{d_k} 是一个缩放因子,用于防止点积结果过大,导致 softmax 函数进入梯度饱和区,其中 dkd_k 是 Key 向量的维度。
  • softmax()\mathrm{softmax}(\cdot) 函数将相似度分数转换为概率分布,使得所有注意力权重之和为1。
  • softmax 后的注意力权重与 VV 矩阵相乘,得到加权后的 Value 向量,这表示了序列中每个位置对当前位置的贡献。

3.3. 技术演进

鲜味肽的计算预测技术从传统的基于氨基酸组成、理化性质等特征的机器学习方法,逐步演进到利用深度学习进行自动特征提取的时代。早期的 Umami-SCMUMPred-FRL 依赖于专家知识或多种传统特征编码方法,需要大量手动特征工程。而 iUP-BERT 则引入了 BERT 这种强大的深度表示学习模型,实现了特征的自动化提取,显示出优越性能。本文的 iUmami-DRLF 则进一步探索了 UniRep (基于 mLSTM) 这种不同的深度表示学习方法,并结合了数据平衡和特征选择策略,以期在性能和鲁棒性上超越前作。

3.4. 差异化分析

iUmami-DRLF 与相关工作的主要区别和创新点在于:

  • 特征提取方法:
    • Umami-SCM:使用氨基酸和二肽的倾向性分数。
    • UMPred-FRL:集成七种传统特征编码方法。
    • iUP-BERT:使用 BERT (基于 Transformer) 进行深度表示学习。
    • iUmami-DRLF首次纯粹使用 UniRep (基于 multiplicative LSTM) 进行深度表示学习特征提取。 mLSTM 在捕获序列中的复杂非线性关系方面可能具有独特优势。
  • 模型组合策略: iUmami-DRLF 强调将 UniRep 提取的深层特征与简单而有效的分类器 (如逻辑回归 LR) 相结合,而非使用更复杂的深度学习分类器,旨在实现更好的泛化能力和鲁棒性。
  • 数据预处理和优化: iUmami-DRLF 系统地引入了 SMOTE 处理数据不平衡,并详细比较了 ANOVALGBMMI 等多种特征选择方法,以构建一个更优化的特征空间。这些优化步骤在提升模型性能和鲁棒性方面发挥了关键作用。
  • 鲁棒性验证: 论文特别强调了 iUmami-DRLF 在不同概率阈值下,使用新的湿实验验证数据集 (UMP-VERIFIED) 进行的鲁棒性测试,结果显示其在高阈值下仍能有效预测,这是对现有方法的一个显著改进。

4. 方法论

4.1. 方法原理

iUmami-DRLF 方法的核心思想是利用深度学习模型 UniRep(基于 multiplicative LSTM)自动从肽序列中提取高维、信息丰富的特征,然后通过数据平衡、特征选择等预处理步骤,将这些特征输入到传统的机器学习分类器(如逻辑回归 LR)中,以实现对鲜味肽的高效、准确和鲁棒性预测。整个流程旨在克服传统湿实验的局限性,并提升现有计算方法的性能和泛化能力。

4.2. 核心方法详解 (逐层深入)

iUmami-DRLF 的模型开发概述如下图(原文 Figure 1)所示:

Figure 1. Overview of model development. The pre-trained UniRep sequence embedding model was used to embed the peptide sequences into eigenvectors. The peptide sequences were converted into 1900-dime… 该图像是论文中描述iUmami-DRLF模型开发流程的示意图,展示了数据集收集、特征提取、数据平衡、特征选择、模型训练以及性能评估和网页服务器的整体流程。

Figure 1. Overview of model development. The pre-trained UniRep sequence embedding model was used to embed the peptide sequences into eigenvectors. The peptide sequences were converted into 1900-dimensional (D) UniRep eigenvectors. The synthetic minority over-sampling technique (SMOTE) was used for balancing the imbalanced data. These features were used as inputs to the knearest neighbors (KNN), logistic regression (LR), support vector machine (SVM), random forest (RF), and light gradient boosting machine (LGBM) predictor algorithms. Feature extraction was performed for model optimization using analysis of variance (ANOVA), LGBM, and mutual information (MI). The selected feature sets were subjected to another round of analysis using the three feature extraction algorithms and various hyperparameters. The final optimized model was developed by comparison of model performance in 10-fold cross-validation and independent tests. Based on the 91 wet-test validated umami peptide sequences reported in the latest research (UMP-VERIFIED), we evaluated iUmami-DRLF in comparison to state-of-the-art methods.

4.2.1. 基准数据集 (Benchmark Dataset)

本研究使用了从 iUmami-SCM [9] 更新而来的基准数据集。

  • 正例数据集: 包含来自 BIOPEP-UWM [4] 数据库和实验验证的鲜味肽。
  • 负例数据集: 包含苦味非鲜味肽。 经过数据清洗后,构建了 UMP442 基准数据集,其中包含304个非鲜味肽和140个鲜味肽。为避免模型过拟合,该数据集被随机划分为训练子集 UMP-TR 和独立测试肽子集 UMP-IND
  • UMP-TR: 包含112个鲜味肽和241个非鲜味肽。
  • UMP-IND: 包含28个鲜味肽和61个非鲜味肽。 为了进一步验证模型的准确性和鲁棒性,研究还收集了91个来自最新研究的湿实验验证的鲜味肽序列,命名为 UMP-VERIFIED 数据集。

4.2.2. 特征提取 (Feature Extraction) - UniRep 与 Multiplicative LSTM

特征提取是 iUmami-DRLF 的核心步骤,它利用了预训练的深度学习模型 UniRep

  • UniRep 训练: UniRep 模型使用 UniRef50 中总计2400万个核心氨基酸序列进行训练。其训练目标是通过最小化交叉熵损失 (cross-entropy losses) 来预测下一个氨基酸。通过这种方式,模型学会了如何准确地表示蛋白质。
  • 特征向量生成: 训练好的 UniRep 模型使用乘法长短期记忆网络 (mLSTM) 编码器,将输入的肽序列表示为一个固定长度的向量(隐藏状态 hidden state)。这个输出向量即为 UniRep 特征向量,它将作为后续机器学习模型的输入。

mLSTM 编码器计算过程: 首先,包含 SS 个氨基酸残基的序列矩阵通过 one-hot 编码 RS×20R^{S \times 20} 被整合。然后,该矩阵被输入 mLSTM 编码器,生成隐藏状态 R1900×SR^{1900 \times S} 作为嵌入矩阵。最后,通过平均池化 (average pooling) 操作,得到1900维的 UniRep 特征向量。

mLSTM 编码器执行计算的方程如下:

  1. 中间乘法状态 (Current Intermediate Multiplication State): mt=(XtWxm)(Whmht1) m _ { t } = ( X _ { t } W _ { x m } ) \bigotimes ( W _ { h m } h _ { t - 1 } )

    • mtm_t: 当前时间步 tt 的中间乘法状态。
    • XtX_t: 当前时间步 tt 的输入。
    • WxmW_{xm}: 连接输入 XtX_t 到中间乘法状态 mtm_t 的权重矩阵。
    • \bigotimes: 表示元素级别的乘法(Hadamard 积)。
    • WhmW_{hm}: 连接前一隐藏状态 ht1h_{t-1} 到中间乘法状态 mtm_t 的权重矩阵。
    • ht1h_{t-1}: 前一时间步 t-1 的隐藏状态。 这个方程引入了输入 XtX_t 和前一隐藏状态 ht1h_{t-1} 之间的乘法交互,是 mLSTM 的关键特性,使其能学习更复杂的特征关系。
  2. 输入到隐藏状态的变换 (Input Transformation before Hidden State): h^t=(Wmhmt+WxhXt)×tanh \hat { h } _ { t } = ( W _ { m h } m _ { t } + W _ { x h } X _ { t } ) \times \mathrm { tanh }

    • h^t\hat{h}_t: 当前隐藏状态的预激活值。
    • WmhW_{mh}: 连接中间乘法状态 mtm_t 到预激活隐藏状态 h^t\hat{h}_t 的权重矩阵。
    • WxhW_{xh}: 连接输入 XtX_t 到预激活隐藏状态 h^t\hat{h}_t 的权重矩阵。
    • tanh\mathrm{tanh}: 双曲正切激活函数,将值缩放到 (-1, 1) 范围。 这个方程将中间乘法状态 mtm_t 和当前输入 XtX_t 结合起来,并通过 tanh\mathrm{tanh} 函数进行非线性变换,生成候选的隐藏状态。
  3. 遗忘门 (Forget Gate): ft=σ(XtWxf+mtWmf) f _ { t } = \sigma \Big ( X _ { t } W _ { x f } + m _ { t } W _ { m f } \Big )

    • ftf_t: 遗忘门在当前时间步 tt 的激活值。
    • σ\sigma: sigmoid 激活函数,将值缩放到 (0, 1) 范围,用于门控。
    • WxfW_{xf}: 连接输入 XtX_t 到遗忘门 ftf_t 的权重矩阵。
    • WmfW_{mf}: 连接中间乘法状态 mtm_t 到遗忘门 ftf_t 的权重矩阵。 遗忘门决定了细胞状态 Ct1C_{t-1} 中哪些信息应该被遗忘(乘以接近0的值)或保留(乘以接近1的值)。
  4. 输入门 (Input Gate): it=σ(XtWxi+mtWmi) i _ { t } = \sigma ( X _ { t } W _ { x i } + m _ { t } W _ { m i } )

    • iti_t: 输入门在当前时间步 tt 的激活值。
    • WxiW_{xi}: 连接输入 XtX_t 到输入门 iti_t 的权重矩阵。
    • WmiW_{mi}: 连接中间乘法状态 mtm_t 到输入门 iti_t 的权重矩阵。 输入门决定了有多少新的信息 (h^t\hat{h}_t) 应该被添加到细胞状态 CtC_t 中。
  5. 输出门 (Output Gate): ot=σ(XtWxo+mtWmo) o _ { t } = \sigma ( X _ { t } W _ { x o } + m _ { t } W _ { m o } )

    • oto_t: 输出门在当前时间步 tt 的激活值。
    • WxoW_{xo}: 连接输入 XtX_t 到输出门 oto_t 的权重矩阵。
    • WmoW_{mo}: 连接中间乘法状态 mtm_t 到输出门 oto_t 的权重矩阵。 输出门决定了细胞状态 CtC_t 的哪一部分将作为隐藏状态 hth_t 输出。
  6. 细胞状态更新 (Cell State Update): Ct=ftCt1+ith^t C _ { t } = f _ { t } \bigotimes C _ { t - 1 } + i _ { t } \bigotimes \hat { h } _ { t }

    • CtC_t: 当前时间步 tt 的细胞状态。
    • Ct1C_{t-1}: 前一时间步 t-1 的细胞状态。 这个方程是 LSTM 的核心,通过遗忘门 ftf_t 控制旧细胞状态 Ct1C_{t-1} 的保留程度,并通过输入门 iti_t 和候选隐藏状态 h^t\hat{h}_t 控制新信息的加入程度,从而更新细胞状态。
  7. 隐藏状态输出 (Hidden State Output): ht=ottanh(Ct) h _ { t } = o _ { t } \bigotimes \mathrm { tanh } \big ( C _ { t } \big )

    • hth_t: 当前时间步 tt 的隐藏状态,同时也是 mLSTM 单元的输出。 这个方程通过输出门 oto_t 筛选经过 tanh\mathrm{tanh} 激活的细胞状态 CtC_t,最终生成当前时间步的隐藏状态。

总结:

  • \bigotimes: 表示元素级别的乘法。
  • XtX_t: 表示当前输入。
  • ht1h_{t-1}: 表示前一隐藏状态。
  • Ct1C_{t-1}: 表示前一单元状态。
  • σ\sigma: 表示 sigmoid 函数。
  • tanh\mathrm{tanh}: 表示双曲正切函数。

4.2.3. 平衡策略 (Balancing Strategy) - SMOTE

由于鲜味肽数据集通常存在类别不平衡 (class imbalance) 问题(即鲜味肽样本远少于非鲜味肽样本),直接训练模型容易导致模型偏向多数类。为解决此问题,研究采用了 SMOTE 方法。

  • 原理: SMOTE 是一种过采样 (oversampling) 技术,它通过识别少数类样本的近邻 (k-nearest neighbors),然后在线性插值 (linear random interpolation) 的基础上合成新的少数类样本。
  • 过程:
    1. 对每个少数类样本,找到其 kk 个最近邻样本。
    2. 随机选择一个近邻样本。
    3. 在当前少数类样本和所选近邻样本之间随机选择一个插值位置,生成一个新的合成样本。
  • 目的: 这种方法不仅增加了少数类样本的数量,也改善了样本质量,使分类器能学习到更具区分性的特征,从而提高模型性能。

4.2.4. 特征选择策略 (Feature Selection Strategy)

UniRep 获得的1900维特征向量维度较高,可能导致过拟合或特征信息冗余。为优化特征空间,研究使用了三种特征选择技术:ANOVALGBMMI

  • 策略: 这些技术根据特征的重要性对特征进行排名。然后,选择重要性值大于某个关键阈值(平均特征重要性值)的特征子集。

4.2.4.1. 方差分析 (Analysis of Variance, ANOVA)

ANOVA 旨在通过比较组间方差 (variance between groups) 和组内方差 (variance within groups) 的比率来评估特征的重要性。

  • 计算公式: S(t)=Sθ2(t)Sω2(t) S ( t ) = \frac { S _ { \theta } ^ { 2 } ( t ) } { S _ { \omega } ^ { 2 } ( t ) }

    • S(t): 特征 tt 的得分。
    • Sθ2(t)S _ { \theta } ^ { 2 } ( t ): 组间方差(衡量不同类别之间特征值的差异)。
    • Sω2(t)S _ { \omega } ^ { 2 } ( t ): 组内方差(衡量同一类别内部特征值的差异)。 高 S(t) 值表示特征在区分不同类别方面更重要。
  • 组间方差计算公式: Sθ2(t)=1K1i=1Kmi(j=1mift(i,j)mii=1Kj=1mift(i,j)i=1Kmi)2 \begin{array} { r } { S _ { \theta } ^ { 2 } ( t ) = \frac { 1 } { K - 1 } \displaystyle \sum _ { i = 1 } ^ { K } m _ { i } \biggl ( \frac { \sum _ { j = 1 } ^ { m _ { i } } f _ { t } ( i , j ) } { m _ { i } } - \frac { \sum _ { i = 1 } ^ { K } \sum _ { j = 1 } ^ { m _ { i } } f _ { t } ( i , j ) } { \sum _ { i = 1 } ^ { K } m _ { i } } \biggr ) ^ { 2 } } \end{array}

    • KK: 组的数量(即类别数量)。
    • mim_i: 第 ii 组中的样本数量。
    • ft(i,j)f_t(i, j): 第 ii 组中第 jj 个样本的特征 tt 的值。
    • j=1mift(i,j)mi\frac { \sum _ { j = 1 } ^ { m _ { i } } f _ { t } ( i , j ) } { m _ { i } }: 第 ii 组中特征 tt 的均值。
    • i=1Kj=1mift(i,j)i=1Kmi\frac { \sum _ { i = 1 } ^ { K } \sum _ { j = 1 } ^ { m _ { i } } f _ { t } ( i , j ) } { \sum _ { i = 1 } ^ { K } m _ { i } }: 所有组中特征 tt 的总均值。
  • 组内方差计算公式: Sω2(t)=1NKi=1Kj=1mi(ft(i,j)j=1mift(i,j)mi)2 S _ { \omega } ^ { 2 } ( t ) = \frac { 1 } { N - K } \sum _ { i = 1 } ^ { K } \sum _ { j = 1 } ^ { m _ { i } } \left( f _ { t } ( i , j ) - \frac { \sum _ { j = 1 } ^ { m _ { i } } f _ { t } ( i , j ) } { m _ { i } } \right) ^ { 2 }

    • NN: 实例的总数量。
    • ft(i,j)f_t(i, j): 第 ii 组中第 jj 个样本的特征 tt 的值。
    • j=1mift(i,j)mi\frac { \sum _ { j = 1 } ^ { m _ { i } } f _ { t } ( i , j ) } { m _ { i } }: 第 ii 组中特征 tt 的均值。

4.2.4.2. 轻量级梯度提升机 (Lighting Gradient Boosting Machine, LGBM)

LGBM 是一种基于决策树的梯度提升框架,能够学习学习器的性能并持续改进。在特征选择中,LGBM 通过其内在的机制(如计算特征在树分裂中使用的频率或信息增益)来评估特征的重要性。

  • 估计函数: hc(x)=argminhHL(y,Fc1(x)+h(x)) h _ { c } ( x ) = \mathop { \mathrm { argmin } } _ { h \in H } \sum L ( y , F _ { c - 1 } ( x ) + \mathop { \mathrm { h } } ( x ) )

    • hc(x)h_c(x): 当前迭代 cc 中,旨在最小化损失函数 LL 的学习器函数。
    • yy: 真实标签。
    • Fc1(x)F_{c-1}(x): 前 c-1 次迭代的模型累积成就。
    • argmin\mathrm{argmin}: 找到使损失函数最小的参数或函数。 这个公式描述了在每次迭代中,LGBM 寻找一个新的基学习器 h(x) 来最小化残差的损失函数。
  • 损失函数评估: rti=L(y,Ft1(xi))Ft1(xi) r _ { t i } = - \frac { \partial L ( y , F _ { t - 1 } ( x _ { i } ) ) } { \partial F _ { t - 1 } ( x _ { i } ) }

    • rtir_{ti}: 在第 tt 次迭代中,第 ii 个样本的负梯度(残差)。
    • LFt1(xi)\frac{\partial L}{\partial F_{t-1}(x_i)}: 损失函数 LL 对前一步预测 Ft1(xi)F_{t-1}(x_i) 的偏导数。 LGBM 通过拟合这些负梯度(伪残差)来训练新的决策树。
  • 特征选择与重要性排序:

F _ { c + n } ( x ) = h _ { 2 n } ( x ) + F _ { c - n } ( x )
*   Fc+n(x)F_{c+n}(x): 经过 nn 次迭代后的模型预测。
*   h2n(x)h_{2n}(x): 新添加的基学习器。
    通过迭代地构建模型,`LGBM` 能够评估每个特征在模型构建过程中的贡献,从而对其重要性进行排名。

4.2.4.3. 互信息 (Mutual Information, MI)

MI 用于衡量两个变量之间的统计依赖性,能够捕获非线性关系。在特征选择中,MI 评估特征与目标变量之间的信息量。

  • 肽序列 SS 的熵估计: H(S)=iUP(εi)logP(εi) H ( S ) = - \sum _ { i \in \sum U } P ( \varepsilon _ { i } ) \log P ( \varepsilon _ { i } )

    • H(S): 肽序列 SS 的熵,衡量其不确定性。
    • U\sum U: 氨基酸残基的字母表。
    • P(εi)P(\varepsilon_i): 残基 ii 出现的边际概率 (marginal probability)。
  • 互信息计算公式: MI=iUjUP(εi,εj)logP(εi,εj)P(εi)P(εj) M I = \sum _ { i \in \sum U } \sum _ { j \in \sum U } P \big ( \varepsilon _ { i } , \varepsilon _ { j } \big ) \log \frac { P \big ( \varepsilon _ { i } , \varepsilon _ { j } \big ) } { P \big ( \varepsilon _ { i } \big ) P \big ( \varepsilon _ { j } \big ) }

    • P(εi,εj)P(\varepsilon_i, \varepsilon_j): 残基 ii 和残基 jj 同时出现的联合概率 (joint probability)。
    • P(εi)P(εj)P(\varepsilon_i)P(\varepsilon_j): 假设残基 ii 和残基 jj 独立的联合概率。 MI 越大,表示特征与目标变量之间的关联性越强,特征越重要。

4.2.5. 机器学习方法 (Machine Learning Methods)

研究使用了五种广泛应用的机器学习方法作为分类器,对提取和选择后的特征进行训练和预测。

  • K近邻 (KNN): 一种基于实例 (instance-based) 的学习算法。它根据新数据点与其 kk 个最近邻居的类别进行分类。
  • 逻辑回归 (LR): 一种线性分类器,适用于二分类问题。它通过 sigmoid 函数将线性组合的特征映射到概率值。因其简单、并行化和强可解释性而广泛使用。
  • 支持向量机 (SVM): 通过在高维空间中找到最优超平面来分离不同类别的数据点。
  • 随机森林 (RF): 一种集成学习方法,通过构建多棵决策树并聚合它们的预测结果来提高准确性和鲁棒性。
  • 轻量级梯度提升机 (LGBM): 一种高效的梯度提升决策树框架,在许多分类任务中表现出色。

5. 实验设置

5.1. 数据集

实验使用了以下数据集:

  • UMP442 基准数据集:
    • 来源:iUmami-SCM [9] 的更新版本中获取,并结合 BIOPEP-UWM [4] 数据库和实验验证的鲜味肽(正例),以及苦味非鲜味肽(负例)进行构建。
    • 规模: 经过数据清洗后,包含304个非鲜味肽和140个鲜味肽,共444个肽序列。
    • 特点: 涵盖了鲜味肽和非鲜味肽两大类别,用于模型的训练和初始测试。
  • UMP-TR 训练子集:
    • 来源: UMP442 数据集随机划分而来。
    • 规模: 包含112个鲜味肽和241个非鲜味肽。
    • 用途: 用于训练机器学习模型。
  • UMP-IND 独立测试子集:
    • 来源: UMP442 数据集随机划分而来。
    • 规模: 包含28个鲜味肽和61个非鲜味肽。
    • 用途: 用于评估模型在未见过数据上的泛化能力,避免过拟合。
  • UMP-VERIFIED 湿实验验证数据集:
    • 来源: 从最新文献 [56-70] 中收集的91个湿实验验证的鲜味肽序列。

    • 规模: 91个鲜味肽序列。

    • 用途: 用于进一步验证模型的准确性和鲁棒性,与现有最先进方法进行比较,特别是在高概率阈值下的表现。

      所有数据集的URL为 http://public.aibiochem.net/peptides/iUmami-DRLF/ (访问时间:2023年4月1日)。

5.2. 评估指标

论文使用了五种广泛使用的指标来评估模型性能,并计算了 auROC 和交叉熵损失 (Cross-Entropy Loss)。

  1. 准确率 (Accuracy, ACC)

    • 概念定义: 衡量模型正确预测的样本占总样本数的比例。它反映了模型整体的正确分类能力。
    • 数学公式: ACC=TP+TNFP+FN+TP+TN \mathrm { ACC } = { \frac { \mathrm { TP } + \mathrm { TN } } { \mathrm { FP } + \mathrm { FN } + \mathrm { TP } + \mathrm { TN } } }
    • 符号解释:
      • TP (True Positives): 真正例,成功识别为鲜味肽的鲜味肽数量。
      • TN (True Negatives): 真负例,成功识别为非鲜味肽的非鲜味肽数量。
      • FP (False Positives): 假正例,错误识别为鲜味肽的非鲜味肽数量。
      • FN (False Negatives): 假负例,错误识别为非鲜味肽的鲜味肽数量。
  2. 马修斯相关系数 (Matthews Correlation Coefficient, MCC)

    • 概念定义: 一种平衡的二分类指标,即使在类别大小差异很大的情况下也能提供可靠的度量。MCC 值范围从 -1(完全错误)到 +1(完全正确),0 表示随机预测。
    • 数学公式: MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN) \mathrm { MCC } = { \frac { \mathrm { TP } \times \mathrm { TN } - \mathrm { FP } \times \mathrm { FN } } { \sqrt { ( \mathrm { TP } + \mathrm { FP } ) ( \mathrm { TP } + \mathrm { FN } ) ( \mathrm { TN } + \mathrm { FP } ) ( \mathrm { TN } + \mathrm { FN } ) } } }
    • 符号解释:
      • TP: 真正例。
      • TN: 真负例。
      • FP: 假正例。
      • FN: 假负例。
  3. 灵敏度 (Sensitivity, Sn) 或 召回率 (Recall)

    • 概念定义: 衡量模型正确识别所有正例(鲜味肽)的能力。即在所有实际为鲜味肽的样本中,有多少被正确识别出来。
    • 数学公式: Sn=TPTP+FN \mathrm { Sn } = \frac { \mathrm { TP } } { \mathrm { TP } + \mathrm { FN } }
    • 符号解释:
      • TP: 真正例。
      • FN: 假负例。
  4. 特异性 (Specificity, Sp)

    • 概念定义: 衡量模型正确识别所有负例(非鲜味肽)的能力。即在所有实际为非鲜味肽的样本中,有多少被正确识别出来。
    • 数学公式: Sp=TNTN+FP \mathsf { Sp } = \frac { \mathrm { TN } } { \mathrm { TN } + \mathrm { FP } }
    • 符号解释:
      • TN: 真负例。
      • FP: 假正例。
  5. 平衡准确率 (Balanced Accuracy, BACC)

    • 概念定义: 正确分类的每个类别的样本比例的平均值。它在处理不平衡数据集时比 ACC 更能反映模型的真实性能。在平衡样本中,ACCBACC 值相等。
    • 数学公式: BACC=Sn+Sp2 \mathsf { BACC } = { \frac { \mathsf { Sn } + \mathsf { Sp } } { 2 } }
    • 符号解释:
      • Sn: 灵敏度。
      • Sp: 特异性。
  6. 接收者操作特征曲线下面积 (Area Under the Receiver Operating Characteristic curve, auROC)

    • 概念定义: ROC 曲线是以真阳性率 (Sn) 为 Y 轴,假阳性率 (1-Sp) 为 X 轴绘制的曲线。auROCROC 曲线下的面积,用于衡量分类器在所有可能分类阈值下的整体性能。auROC 值为 0.5 表示随机模型,为 1 表示完美模型。
  7. 交叉熵损失 (Cross-Entropy Loss)

    • 概念定义: 衡量模型预测概率分布与真实标签分布之间差异的损失函数。在二分类任务中,它量化了模型预测的概率与实际标签之间的距离,损失越小表示分类效果越好。
    • 数学公式 (二分类): Loss=(ylog(y^)+(1y)log(1y^)) Loss = - ( y \cdot \log ( \hat { y } ) + ( 1 - y ) \cdot \log ( 1 - \hat { y } ) )
    • 符号解释:
      • yy: 样本的真实标签,如果样本是正例则为 1,否则为 0。
      • y^\hat{y}: 模型预测样本为正例的概率。

模型评估方法:

  • K折交叉验证 (K-fold Cross-validation): 将原始数据分成 kk 个子集。每次训练时,其中一个子集用作验证集,其余 k-1 个子集用作训练集。重复 kk 次,每次使用不同的子集作为验证集。最终的评估指标是 kk 次结果的平均值。本研究使用10折交叉验证 (k=10k=10)。
  • 独立测试 (Independent Testing): 使用一个完全独立于训练集的测试数据集来评估模型的性能。这能够更真实地反映模型在实际未见过数据上的泛化能力。

5.3. 对比基线

论文将 iUmami-DRLF 与以下最先进 (state-of-the-art, SOTA) 方法进行了比较:

  • iUmami-SCM [9]

  • UMPred-FRL [11]

  • iUP-BERT [12]

    这些基线模型代表了该领域现有的一些最佳预测方法,用于验证 iUmami-DRLF 的优越性。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. SMOTE 的影响 (Effect of SMOTE)

研究首先使用 UniRep 提取了1900维的特征向量,并比较了使用 SMOTE 和不使用 SMOTE 的五种机器学习模型 (KNNLRSVMLGBMRF) 的性能。

以下是原文 Figure 2 的结果:

Figure 2. Results of 10-fold cross-validation (A) and independent testing (B) of the five ML models balanced with SMOTE and the five ML models balanced without SMOTE.As ilustrated in Figure 2 and Sup… 该图像是图表,展示了五种机器学习模型经过SMOTE平衡处理与未处理后,在10折交叉验证(A)和独立测试(B)中的多项性能指标对比结果,表明SMOTE优化显著提升了模型表现。

Figure 2. Results of 10-fold cross-validation (A) and independent testing (B) of the five ML models balanced with SMOTE and the five ML models balanced without SMOTE.As ilustrated in Figure 2 and Supplementary Table S1, the features of models following optimization with SMOTE were clearly superior to the features of models developed without SMOTE optimization. Using the LR-based prediction model as an example, the LR-SMOTE model outperformed or equaled the LR model without SMOTE optimization in 66.76 6 . 7 \\% of the metrics in 10-fold cross-validation and independent tests. Of the SVM-based models, the SVM-SMOTE model outperformed the SVM model developed without SMOTE optimization in 83.38 3 . 3 \\% of the indicators.

分析:

  • 显著提升: 如图2所示,经过 SMOTE 优化后的模型特征明显优于未优化模型。例如,基于 LR 的预测模型,LR-SMOTE 模型在10折交叉验证和独立测试中,有66.7%的指标表现优于或持平于未优化模型。对于 SVM 模型,SVM-SMOTE 模型在83.3%的指标上优于未优化模型。
  • 解决不平衡问题: 在某些未优化模型中,特异性 (Sp) 值很高,但灵敏度 (Sn) 和其他指标却非常差,这表明模型由于数据集不平衡而偏向于负类(非鲜味肽),导致对正类(鲜味肽)的识别能力很差。SMOTE 的应用有效地解决了这个问题。
  • 可视化验证: UMAP 可视化(图3)进一步证实了 SMOTE 优化后的数据集在区分鲜味肽和非鲜味肽方面表现更好。

6.1.2. 不同机器学习模型的影响 (Effects of Different ML Models)

SMOTE 平衡后的特征上,研究比较了五种机器学习算法的性能。

以下是原文 Table 1 的结果:

Model 10-Fold Cross-Validation Independent Test
ACC MCC Sn Sp auROC BACC ACC MCC Sn Sp auROC BACC
LRc 0.921a 0.847 0.954 0.888 0.956 0.921 0.853 0.653 0.721 0.913 0.928 0.817
KNN 0.861b 0.727 0.917 0.805 0.924 0.861 0.807 0.589 0.818 0.802 0.875 0.810
SVMc 0.865 0.756 0.738 0.992 0.981 0.865 0.716 0.258 0.100 0.998 0.789 0.549
RFc 0.917 0.837 0.942 0.892 0.967 0.917 0.836 0.617 0.725 0.887 0.893 0.806
LGBM 0.919 0.841 0.946 0.892 0.972 0.919 0.845 0.636 0.729 0.898 0.907 0.813

a 最佳性能值以粗体和下划线显示。
b 蓝色表示 ACC 和 BACC 值相等。
c LR: 逻辑回归; KNN: k-最近邻; SVM: 支持向量机; LGBM: 轻量级梯度提升机; RF: 随机森林。

分析:

  • LR 的优越性: 如表1所示,LR 模型在识别鲜味肽方面,在66.7%的指标上优于其他机器学习模型。
    • 在10折交叉验证中,LR 模型在四项指标上(ACCMCCSnBACC)表现最佳,ACCBACC 分别比其他模型高 0.22%6.97%0.22\% - 6.97\%MCCSn 分别高 0.71%16.51%0.71\% - 16.51\%0.85%29.27%0.85\% - 29.27\%
    • 在独立测试中,LR 模型在四项指标上(ACCMCCauROCBACC)表现最佳,ACCMCCauROCBACC 分别比其他模型高 0.95%19.13%0.95\% - 19.13\%2.67%153.10%2.67\% - 153.10\%2.32%17.62%2.32\% - 17.62\%0.49%48.82%0.49\% - 48.82\%
  • SVM 的问题: 尽管 SVM 模型在某些方面取得了最佳指标(例如10折交叉验证中的 auROC),但其独立测试结果显示出严重的不平衡数据问题(MCC = 0.258, Sn = 0.100, BACC = 0.549),这表明 SVM 在实际应用中的泛化能力和鲁棒性较差。
  • LR 被选择: 鉴于 LR 模型在多个指标上的优越性和其在独立测试中的稳定表现,研究选择 LR 模型来开发鲜味肽预测器。
  • 数据平衡验证: 10折交叉验证中 ACCBACC 值相等,表明 SMOTE 优化后数据集的平衡性良好。

6.1.3. 不同特征选择方法的影响 (Effects of Different Feature Selection Methods)

UniRep 提取的特征是1900维,维度较高,可能存在冗余。研究应用 ANOVALGBMMI 三种特征选择方法来优化特征空间。

以下是原文 Table 2 的结果:

Model Feature D Selection Method Dim 10-Fold Cross-Validation Independent Test
ACC MCC Sn Sp auROC BACC ACC MCC Sn Sp auROC BACC
LRc LGBMd 177 0.925b 0.853 0.959 0.892 0.957 0.938 0.925 0.921a 0.815 0.821 0.967 0.956 0.894
ANOVAd 102 0.882 0.764 0.896 0.867 0.863 0.882 0.899 0.768 0.857 0.918 0.930 0.888
MId 136 0.888 0.777 0.913 0.942 0.888 0.888 0.733 0.750 0.951 0.864 0.850
KNN LGBMd 33 0.892 0.788 0.938 0.846 0.955 0.892 0.899 0.782 0.929 0.885 0.911 0.907
ANOVAd 15 0.873 0.748 0.896 0.851 0.934 0.873 0.865 0.703 0.857 0.869 0.907 0.863
MId 58 0.888 0.783 0.954 0.822 0.927 0.888 0.888 0.773 0.964 0.852 0.931 0.908
SVM LGBMd 121 0.944 0.889 0.971 0.917 0.980 0.944 0.888 0.739 0.821 0.918 0.913 0.870
ANNOVAd 48 0.925 0.854 0.967 0.884 0.977 0.925 0.865 0.678 0.679 0.951 0.906 0.815
MId 16 0.919 0.841 0.959 0.80 0.968 0.919 0.88 0.735 0.786 0.934 0.921 0.860
RFc LGBMd 88 0.915 0.830 0.913 0.884 0.975 0.915 0.898 0.716 0.821 0.902 0.920 0.862
ANNOVAd 118 0.898 0.797 0.971 0.961 0.898 0.888 0.739 0.821 0.918 0.912
MId 8 0.902 0.806 0.921 0.884 0.952 0.902 0.888 0.753 0.893 0.885 0.923 0.889
LGBMc LGBMd 35 0.938 0.877 0.942 0.905 0.988 0.938 0.876 0.706 0.714 0.951 0.929 0.870
ANNOVAd 19 0.902 0.807 0.863 0.945 0.938 0.902 0.833 0.865 0.682 0.750 0.918 0.916 0.834
MId 18 0.888 0.777 0.917 0.859 0.953 0.888 0.865 0.682 0.750 0.918 0.916 0.834

a 最佳性能值以粗体和下划线显示。
b 蓝色表示 ACC 和 BACC 值相等。
c LR: 逻辑回归; KNN: k-最近邻; SVM: 支持向量机; LGBM: 轻量级梯度提升机; RF: 随机森林。
d LGBM: 轻量级梯度提升机; ANOVA: 方差分析; MI: 互信息。

以下是原文 Figure 4 的结果:

Figure 4. Comparison of the results of independent testing of the models with selected features and the models without selected features. 该图像是图表,展示了不同机器学习模型(KNN、LR、SVM、RF、LGBM)基于不同特征集在独立测试集上的多种性能指标(ACC、MCC、Sn、Sp、auROC、BACC)对比结果。

Figure 4. Comparison of the results of independent testing of the models with selected features and the models without selected features.

分析:

  • 特征选择的有效性: 图4清楚表明,经过特征选择后的融合特征集性能明显优于未选择特征的模型。在独立测试中,未进行特征选择的1900D模型的特异性 (Sp) 低于所有经过特征选择的模型,这再次强调了特征选择在解决信息冗余和优化预测性能方面的重要性。
  • LGBM 特征选择的优越性: 如表2和图4所示,LGBM 特征选择方法在三种方法中表现最佳。
    • LR 模型为例,LGBM 在10折交叉验证中,所有六项指标均优于 ANOVAMIACCMCCSnSpauROCBACC 分别提升了 4.17%4.88%4.17\% - 4.88\%9.78%11.65%9.78\% - 11.65\%5.04%7.03%5.04\% - 7.03\%2.88%3.36%2.88\% - 3.36\%1.59%2.03%1.59\% - 2.03\%4.17%4.88%4.17\% - 4.88\%
    • 在独立测试中,LGBM 在五项指标上优于 ANOVAMIACCMCCSpauROCBACC 分别提升了 2.45%3.72%2.45\% - 3.72\%6.12%11.19%6.12\% - 11.19\%1.68%5.34%1.68\% - 5.34\%2.80%10.65%2.80\% - 10.65\%0.68%5.18%0.68\% - 5.18\%
  • 最终选择: 基于上述结果,研究选择了经过 SMOTE 优化数据后,由 LGBM 特征选择方法选出的 UniRep 前177维特征,并结合 LR 模型构建最终的 iUmami-DRLF 预测器。

以下是原文 Figure 3 的结果:

Figure 3. UMAP was used for visualizing the dimension-reduced features. (A) UniRep features without SMOTE balancing, (B) UniRep features following SMOTE balancing, (C) data of the top 177 features se… 该图像是图表,展示了论文中图3使用UMAP方法对降维特征的可视化分析。分别显示了(A)未经SMOTE平衡的UniRep特征,(B)经过SMOTE平衡的UniRep特征,(C)从SMOTE平衡的UniRep特征集中选取的177个重要特征,以及(D)选取的121个重要特征的数据分布情况。

Figure 3. UMAP was used for visualizing the dimension-reduced features. (A) UniRep features without SMOTE balancing, (B) UniRep features following SMOTE balancing, (C) data of the top 177 features selected from the SMOTE-balanced UniRep feature set, and (D) data obtained using the top 121 features selected from the SMOTE-balanced UniRep feature set.

分析: 图3的 UMAP 可视化结果直观地展示了特征优化过程。

  • 图3A显示了未经 SMOTE 优化的 UniRep 特征向量,鲜味肽和非鲜味肽的区分度不高。
  • 图3B显示了经过 SMOTE 优化后的1900维 UniRep 特征向量,相比图3A,两类样本的聚类效果和区分度有所改善。
  • 图3C(选择的177维特征)和图3D(选择的121维特征)在特征选择后,鲜味肽和非鲜味肽的边界变得更加清晰,聚类更加紧密,这印证了特征选择能够进一步优化数据的可分性。

6.1.4. 与现有方法的比较 (Comparison with Existing Methods)

研究将 iUmami-DRLFiUmami-SCMUMPred-FRLiUP-BERT 等现有方法进行了比较。

以下是原文 Table 3 的结果:

Classifier 10-Fold Cross-Validation Independent Test
ACC MCC Sn Sp auROC BACC ACC MCC Sn Sp auROC BACC
iUmami-DRLF(LR) 0.925b 0.853 0.959 0.892 0.957 0.925 0.921a 0.815 0.821 0.967 0.956 0.894
iUmami-DRLF(SVM) 0.944 0.889 0.971 0.917 0.980 0.944 0.888 0.739 0.821 0.918 0.913 0.870
iUP-BERT 0.940 0.881 0.963 0.917 0.971 0.94 0.899 0.770 0.893 0.902 0.933 0.897
UMPred-FRL 0.921 0.810 0.847 0.955 0.93 0.901 0.888 0.735 0.860 0.934 0.919 0.860
Umami-SCM 0.935 0.864 0.947 0.930 0.945 0.939 0.865 0.679 0.714 0.934 0.898 0.824

a 最佳性能值以粗体和下划线显示。
b 蓝色表示 ACC 和 BACC 值相等。

分析:

  • 10折交叉验证: iUmami-DRLF(SVM) 在除了特异性 (Sp) 之外的所有指标上均优于其他分类器,ACCMCCSnauROCBACC 分别比其他方法高 2.02%2.50%2.02\% - 2.50\%4.31%9.25%4.31\% - 9.25\%1.30%14.63%1.30\% - 14.63\%2.37%4.43%2.37\% - 4.43\%2.02%4.77%2.02\% - 4.77\%
  • 独立测试的决定性优势: 最重要的是,iUmami-DRLF(LR) 在独立测试中表现出了对现有预测器的全面优势,ACCMCCSpauROCBACC 分别比其他方法高 3.76%6.51%3.76\% - 6.51\%10.86%20.00%10.86\% - 20.00\%4.51%15.05%4.51\% - 15.05\%4.04%6.47%4.04\% - 6.47\%3.99%8.53%3.99\% - 8.53\%
  • LR 的泛化能力: 尽管 iUmami-DRLF(SVM) 在10折交叉验证中表现略优,但 iUmami-DRLF(LR) 在独立测试中的结果更优,这表明 LR 具有更强的泛化能力 (generalization ability)。
  • 结论: 比较分析结果证明了 iUmami-DRLF 在鲜味肽预测方面的优越性,其预测能力比现有方法更可靠。

6.1.5. 方法的鲁棒性 (Methods' Robustness)

为进一步验证模型的有效性和鲁棒性,研究使用了 UMP-VERIFIED 数据集(91个湿实验验证的鲜味肽序列)对 iUmami-DRLFUMPred-FRLiUP-BERT 进行了测试。比较了不同预测概率阈值下的模型准确率和交叉熵损失。

以下是原文 Figure 5 的结果:

Figure 5. Under varying probability thresholds, the prediction results of iUmami-DRLF (this work), UMPred-FRL, and iUP-BERT are shown using the UMP-VERIFIED dataset. (A) is the relationship between p… 该图像是图表,展示了iUmami-DRLF、UMPRED-FRL和iUP-BERT三种模型在UMP-VERIFIED数据集上不同概率阈值下的预测性能。(A)显示了预测准确率与概率阈值的关系。(B)展示了交叉熵损失与概率阈值的关系,交叉熵损失越小表示模型的鲁棒性和准确性越好。

Figure 5. Under varying probability thresholds, the prediction results of iUmami-DRLF (this work), UMPred-FRL, and iUP-BERT are shown using the UMP-VERIFIED dataset. (A) is the relationship between prediction accuracy and probability threshold. (B) is the cross-entropy loss of the predicted outcome about the probability threshold. The smaller the cross-entropy loss, the better the robustness and accuracy of the model. Note that at the probability thresholds of 959 5 \\% and 999 9 \\% , the prediction accuracy of iUP-BERT and UMPred-FRL is 0, and their corresponding cross-entropy losses can be calculated, but they are not meaningful.

分析:

  • 准确率与概率阈值 (Figure 5A):
    • iUmami-DRLF 在任何概率阈值下都保持了最佳准确率。
    • 在95%的概率阈值下,iUP-BERT 的准确率降至0,表明模型失效。而 iUmami-DRLF 的准确率仍为52.7%,是 UMPred-FRL (8.8%) 的近六倍。
    • 在99%的概率阈值下,iUP-BERTUMPred-FRL 的预测准确率均为0,即完全失效。而 iUmami-DRLF 仍能保持40.7%的预测准确率,模型依然有效。
    • 这些结果有力地证明了 iUmami-DRLF 具有更好的鲁棒性和泛化性能。
  • 交叉熵损失与概率阈值 (Figure 5B):
    • iUmami-DRLF 在50%、70%和85%的概率阈值下,交叉熵损失均为最低。
    • 在95%的概率阈值下,iUmami-DRLF 的交叉熵损失显著低于 UMPred-FRL
    • 对于95%和99%的概率阈值,UMPred-FRLiUP-BERT 模型失效,其计算出的交叉熵损失没有实际意义。例如,iUP-BERT 在95%和99%阈值下的交叉熵损失保持不变,进一步说明了其失效。
    • 交叉熵损失越小,意味着模型预测结果越接近真实标签,从而具有更好的鲁棒性和准确性。

6.1.6. 网络服务器开发 (Web Server Development)

研究开发了一个用户友好的 iUmami-DRLF 网络服务器,可免费在线访问 https://www.aibiochem.net/servers/iUmami-DRLF/。用户只需输入肽序列即可进行预测,输出结果包括输入序列、是否为鲜味肽以及置信水平 (confidence level)。

6.2. 数据呈现 (表格)

本节已在 6.1.1. SMOTE 的影响6.1.2. 不同机器学习模型的影响6.1.4. 与现有方法的比较 中以 HTML <table><table> 格式完整转录了原文的 Table 1、Table 2 和 Table 3。

7. 总结与思考

7.1. 结论总结

本研究成功提出了一种名为 iUmami-DRLF 的新型鲜味肽预测器,它仅依赖于肽序列信息。该方法的核心创新在于将 UniRep 深度表示学习特征提取(基于 multiplicative LSTM)与逻辑回归 (LR) 分类器相结合。通过引入 SMOTE 技术有效处理了数据集的不平衡问题,并通过 LGBM 特征选择方法优化了特征空间,最终确定了 UniRep 的前177维特征作为最优特征集。

实验结果表明,iUmami-DRLF 在10折交叉验证和独立测试中均表现出卓越的性能。与现有的 iUmami-SCMUMPred-FRLiUP-BERT 等最先进方法相比,iUmami-DRLF 在独立测试中的 ACCMCCSnSpauROC 等关键指标上取得了显著提升。特别是在使用91个湿实验验证的鲜味肽序列 (UMP-VERIFIED 数据集) 进行的鲁棒性测试中,iUmami-DRLF 在高概率阈值下依然能保持较高的预测准确率和较低的交叉熵损失,显著优于其他方法,展现出更强的鲁棒性和泛化性能。

研究还开发了一个用户友好的在线网络服务器,使得该方法可供广大研究人员便捷使用。iUmami-DRLF 的成功开发为鲜味肽的快速、准确识别提供了一个强大的计算工具,有望加速食品风味增强和健康饮食领域的研究与应用。

7.2. 局限性与未来工作

论文作者指出的局限性:

  1. 计算成本高: 特征提取模型(UniRep)需要大量的计算资源。没有 GPU 配置的网络服务器完成任务可能需要很长时间。对于需要预测大量序列的用户,建议直接联系作者。
  2. 数据时效性: 使用最新的经验数据训练模型可能会产生更好的结果。
  3. 模型复杂度: 尽管 iUmami-DRLF 性能优异,但深度特征提取模型的复杂性仍然存在。

论文作者提出的未来研究方向:

  1. 模型蒸馏 (Model Distillation): 通过模型蒸馏方法简化特征提取模型,以降低其计算复杂性,提高效率。
  2. 融入最新数据: 持续更新模型训练数据,利用最新的湿实验验证数据来进一步提升模型性能。

7.3. 个人启发与批判

个人启发:

  • 深度表示学习的威力: 这篇论文再次验证了深度学习在生物序列分析中的巨大潜力。UniRep 能够自动学习肽序列的深层特征,省去了传统方法中繁琐且耗时的手工特征工程,这对于蛋白质/肽功能预测领域具有普适性的借鉴意义。
  • “黑箱”与“白箱”的融合: 将深度学习提取的特征与逻辑回归这种相对“白箱”的模型结合,是一个非常明智的策略。它既利用了深度学习强大的特征学习能力,又可能在一定程度上保留了传统机器学习模型更好的可解释性和更强的泛化能力(如本文独立测试中 LR 优于 SVM 的情况)。
  • 鲁棒性评估的重要性: 论文对模型鲁棒性的深入评估,特别是在高概率阈值下的表现,提供了比单一指标更具说服力的证据。这提示我们在开发和评估预测模型时,应更全面地考虑其在不同应用场景下的可靠性。
  • 解决数据不平衡的必要性: SMOTE 的显著效果提醒我们,在处理现实世界中的生物医学数据时,数据不平衡是常态,必须采取有效的策略来解决,否则模型性能会大打折扣。
  • 应用前景广阔: 鲜味肽的精准识别不仅对食品工业有益,也可启发其他生物活性肽(如抗菌肽、降压肽等)的发现与应用。

批判与可以改进的地方:

  • 特征的可解释性: 尽管 UniRep 提取的特征效果显著,但这些高维特征的具体生物学意义仍然是“黑箱”。未来工作可以尝试引入可解释性 AI (eXplainable AI, XAI) 技术,例如特征归因 (feature attribution) 方法,来探究 UniRep 关注的是肽序列的哪些特定区域或氨基酸组合,这对于指导湿实验和理性设计鲜味肽至关重要。
  • UniRep 模型的选择: UniRep 是基于 mLSTM 的,而目前 Transformer 架构在序列建模中表现更为强大。尽管 iUP-BERT 在本文中表现不佳,但这可能是训练数据、模型参数或下游任务适应性问题。未来可以尝试更先进的 Transformer 变体或对其进行更充分的领域适应性预训练,并与 UniRep 进行更细致的比较。
  • 负例数据集的质量: 论文的负例是“苦味非鲜味肽”。虽然这有助于提高区分度,但实际应用中可能需要区分鲜味肽与“非鲜味非苦味肽”等更广泛的负例。负例数据集的构成对模型性能和泛化能力有重要影响,可以进一步探讨更全面的负例选择策略。
  • 长肽序列的处理: 论文没有明确提及肽序列的最大长度,以及 UniRep 在处理非常长或非常短肽序列时的性能表现。不同长度的肽在结构和功能上可能存在显著差异,模型对序列长度的鲁棒性值得深入探究。
  • 湿实验验证的限制: UMP-VERIFIED 数据集虽然是湿实验验证的,但其只包含鲜味肽,缺乏同等规模的湿实验验证的非鲜味肽。这使得在高概率阈值下评估模型的假阳性率 (False Positive Rate) 变得困难。一个更平衡的独立湿实验验证集将能提供更全面的模型鲁棒性评估。
  • 模型蒸馏的具体方案: 论文提出了模型蒸馏作为未来方向,但未给出具体思路。可以进一步探讨将复杂 mLSTM 模型蒸馏到更轻量级的模型(如浅层神经网络或决策树集成)的可行性,以在保持性能的同时降低计算成本。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。