IUP-BERT: Identification of Umami Peptides Based on BERT Features
TL;DR 精炼摘要
本文介绍了一种新型鲜味肽预测器iUP-BERT,它利用BERT深度学习模型进行特征提取。通过结合SMOTE和支持向量机,iUP-BERT显著提高了鲜味肽识别的效率和准确性。实验证明,其性能优于现有方法,并建立了开放获取的网络服务器支持这个研究。
摘要
Umami is an important widely-used taste component of food seasoning. Umami peptides are specific structural peptides endowing foods with a favorable umami taste. Laboratory approaches used to identify umami peptides are time-consuming and labor-intensive, which are not feasible for rapid screening. Here, we developed a novel peptide sequence-based umami peptide predictor, namely iUP-BERT, which was based on the deep learning pretrained neural network feature extraction method. After optimization, a single deep representation learning feature encoding method (BERT: bidirectional encoder representations from transformer) in conjugation with the synthetic minority over-sampling technique (SMOTE) and support vector machine (SVM) methods was adopted for model creation to generate predicted probabilistic scores of potential umami peptides. Further extensive empirical experiments on cross-validation and an independent test showed that iUP-BERT outperformed the existing methods with improvements, highlighting its effectiveness and robustness. Finally, an open-access iUP-BERT web server was built. To our knowledge, this is the first efficient sequence-based umami predictor created based on a single deep-learning pretrained neural network feature extraction method. By predicting umami peptides, iUP-BERT can help in further research to improve the palatability of dietary supplements in the future.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
IUP-BERT: Identification of Umami Peptides Based on BERT Features (IUP-BERT:基于 BERT 特征的鲜味肽识别)
1.2. 作者
-
Liangzhen Jiang (1,3), Jici Jiang (2), Xiao Wang (1,3), Yin Zhang (1), Bowen Zheng (2), Shuqi Liu (1,3), Yiting Zhang (4,5), Changying Liu (1,3), Yan Wan (1,3), Dabing Xiang (1,3), Zhibin Lv (2)
-
隶属机构:
- 成都大学食品与生物工程学院 (College of Food and Biological Engineering, Chengdu University)
- 北京大学 (Peking University) - 具体部门在原文中被截断
- 农业农村部西南稻麦玉米加工重点实验室 (Key Laboratory of Cereal Processing, Ministry of Agriculture and Rural Affairs)
- 西南交通大学生物学院 (College of Biology, Southwest Jiaotong University)
- 佐治亚州立大学生物学院 (College of Biology, Georgia State University)
1.3. 发表期刊/会议
Foods 2022, 11, 3742. (MDPI 出版的食品科学与技术领域的国际同行评审期刊)
1.4. 发表年份
2022 年 11 月 21 日 (UTC)
1.5. 摘要
鲜味是食品调味中一种重要且广泛使用的味觉成分。鲜味肽是赋予食品良好鲜味特征的特定结构肽。目前用于识别鲜味肽的实验室方法耗时且费力,不适用于快速筛选。本文开发了一种新颖的基于肽序列的鲜味肽预测器,命名为 iUP-BERT,它基于深度学习预训练神经网络特征提取方法。经过优化,该模型采用单一的深度表示学习特征编码方法 (BERT: Bidirectional Encoder Representations from Transformer),结合合成少数类过采样技术 (SMOTE: Synthetic Minority Over-sampling Technique) 和支持向量机 (SVM: Support Vector Machine) 方法进行模型构建,以生成潜在鲜味肽的预测概率分数。进一步广泛的交叉验证和独立测试实验表明,iUP-BERT 在性能上优于现有方法,突显了其有效性和鲁棒性。最后,本文建立了一个开放获取的 iUP-BERT 网络服务器。据作者所知,这是第一个基于单一深度学习预训练神经网络特征提取方法创建的高效序列鲜味预测器。通过预测鲜味肽,iUP-BERT 有助于未来的研究,以改善膳食补充剂的适口性。
1.6. 原文链接
/files/papers/6919ed1f110b75dcc59ae33c/paper.pdf (已正式发表)
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 鲜味是食品美味的关键因素,鲜味肽因其独特的味觉属性和潜在的健康益处(如降低膳食盐含量、抗氧化、抑制酶活性)而备受关注。然而,传统的实验室方法(如
RP-HPLC、MALDI-TOF-MS、LC-Q-TOF-MS等)在识别和表征鲜味肽时,存在耗时、费力、通量低的缺点,无法满足高通量、快速筛选的需求。 - 现有研究的挑战或空白:
- 虽然已有一些计算方法尝试识别鲜味肽,例如
iUmami-SCM和UMPred-FRL。 iUmami-SCM是首个基于序列的预测器,但其特征提取方法是人工设计的(基于氨基酸和二肽的倾向性分数),且只使用了单一类型特征,导致序列特征信息不足,预测性能不尽如人意(例如ACC仅为 0.824)。UMPred-FRL是一个基于特征表示学习的元预测器,结合了七种不同的特征编码和六种机器学习算法,虽然性能有所提升,但其特征提取仍依赖于人工设计,整体预测性能(例如ACC0.888,MCC0.735)仍不够高效。- 这些现有方法普遍依赖于手动或半自动的机器学习特征提取方法,这限制了模型从原始序列中捕获深层、复杂模式的能力。
- 虽然已有一些计算方法尝试识别鲜味肽,例如
- 论文的切入点或创新思路: 鉴于深度学习在蛋白质识别、自然语言处理等领域自动提取特征的强大能力,特别是
BERT模型在功能肽预测方面取得的显著成果,本文旨在利用深度学习预训练神经网络(尤其是BERT)的优势,开发一种更鲁棒、更准确、敏感性更高的鲜味肽预测模型,从而克服现有方法的局限性。
2.2. 核心贡献/主要发现
- 提出了新颖的预测模型: 开发了一个名为
iUP-BERT的新颖机器学习预测模型,用于基于肽序列准确预测鲜味肽。 - 引入深度学习特征提取: 首次将深度表示学习特征提取方法
BERT应用于计算识别鲜味肽,实现了自动化的特征工程,无需人工设计复杂的特征。 - 优化模型架构: 结合
BERT特征、合成少数类过采样技术 (SMOTE) 处理数据不平衡问题,并使用支持向量机 (SVM) 作为分类器,构建了最优的BERT-SVM-SMOTE模型(采用 139 维特征)。 - 性能显著提升: 经过广泛的 10 折交叉验证和独立测试,
iUP-BERT在ACC、MCC、Sn、auROC和BACC等多个性能指标上均显著优于现有的iUmami-SCM和UMPred-FRL方法,证明了其卓越的有效性和鲁棒性。 - 提供开放获取的工具: 建立了开放获取的
iUP-BERT网络服务器,方便研究人员进行快速高通量鲜味肽筛选,促进食品调味品行业的发展。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 鲜味肽 (Umami Peptides)
鲜味肽是一组具有特定结构的肽,能够赋予食品独特的鲜味。鲜味是除甜、苦、咸、酸之外的第五种基本味觉,通常被描述为肉味、鲜美或高汤味。鲜味肽通常是短链线性肽,分子量分布小于 5000 Da,其中二肽和三肽约占已分离鲜味肽的 60%。它们通过与 蛋白偶联受体,特别是异源二聚体 受体结合来产生味觉。鲜味肽不仅能直接提供鲜味,还可能与谷氨酸钠 (MSG) 等典型鲜味物质产生协同作用,甚至在 MSG 或 NaCl 溶液中表现出增鲜效果。此外,它们还具有多种健康益处,包括降低膳食盐含量、抗氧化活性、抑制二肽基肽酶-IV 和血管紧张素 I 转换酶的活性。
3.1.2. 机器学习 (Machine Learning, ML)
机器学习是人工智能的一个分支,旨在使计算机系统能够从数据中学习模式、做出预测或决策,而无需被明确编程。其核心思想是构建算法,这些算法可以从训练数据中识别规律,并利用这些规律来处理新的、未见过的数据。机器学习模型通过迭代优化其内部参数来最小化预测误差。
3.1.3. 深度学习 (Deep Learning)
深度学习是机器学习的一个子集,它使用包含多层神经网络的模型来从数据中学习复杂的表示和模式。与传统机器学习需要人工设计特征不同,深度学习模型能够自动地从原始输入数据中学习和提取高级特征,这使其在图像识别、自然语言处理和生物序列分析等领域取得了突破性进展。
3.1.4. 双向编码器表示来自 Transformer (Bidirectional Encoder Representations from Transformer, BERT)
BERT 是一种由 Google 开发的基于 Transformer 架构的深度学习预训练语言模型,主要用于自然语言处理 (NLP) 任务。其核心优势在于能够生成深度双向语言表示。
- Transformer 架构:
BERT的基础是Transformer模型,它主要由编码器 (encoder) 和解码器 (decoder) 组成,但BERT主要使用Transformer的编码器部分。Transformer摒弃了传统的循环神经网络 (RNN) 和卷积神经网络 (CNN),完全依赖自注意力机制 (Self-attention Mechanism) 来处理序列数据。 - 自注意力机制: 允许模型在处理序列中的某个词元 (token) 时,同时关注序列中的所有其他词元,并根据它们之间的相关性分配不同的权重,从而捕捉长距离依赖关系。
- 双向编码: 传统的语言模型通常是单向的(从左到右或从右到左),而
BERT通过引入掩码语言模型 (Masked Language Model, MLM) 和下一句预测 (Next Sentence Prediction, NSP) 任务,实现了真正的双向上下文理解。MLM随机遮盖输入序列中的一些词元,然后训练模型预测这些被遮盖的词元,迫使模型学习其上下文信息。 - 预训练与微调:
BERT首先在大规模无标注文本数据上进行预训练,学习通用的语言表示。然后,可以针对特定的下游任务(如文本分类、问答等)进行微调,只需在BERT的顶部添加一个简单的输出层。 在生物序列分析中,肽序列可以被视为一种“语言”,氨基酸是“词元”,BERT能够学习氨基酸序列的复杂模式和功能表示。
3.1.5. 合成少数类过采样技术 (Synthetic Minority Over-sampling Technique, SMOTE)
SMOTE 是一种用于处理分类问题中数据不平衡(即一个类别的样本数量远少于另一个类别)的常用技术。当数据集中的少数类样本过少时,机器学习模型往往会偏向于多数类,导致对少数类的识别性能较差。SMOTE 的基本思想不是简单地复制少数类样本(这可能导致过拟合),而是通过对少数类样本进行人工合成新的样本。
- 原理: 对于每个少数类样本,
SMOTE会首先找到其 个最近邻居(通常使用k-nearest neighbor, KNN算法)。然后,从这 个邻居中随机选择一个或多个邻居,并与原始样本进行线性插值,从而在特征空间中生成新的合成样本。这些新样本在一定程度上保持了少数类别的特征分布,同时增加了少数类别的样本数量,从而平衡了数据集。
3.1.6. 支持向量机 (Support Vector Machine, SVM)
SVM 是一种强大的监督学习模型,主要用于分类和回归任务。其核心思想是在特征空间中找到一个最优的超平面 (hyperplane),将不同类别的样本尽可能地分开。
- 最大间隔 (Maximum Margin):
SVM的目标是找到一个超平面,使得它到最近的训练样本点(这些点被称为支持向量 (support vectors))的距离最大化。这个距离被称为“间隔”。最大化间隔可以提高模型的泛化能力,使其对训练数据中的微小扰动更具鲁棒性。 - 核技巧 (Kernel Trick): 对于非线性可分的数据,
SVM可以通过核技巧将其映射到更高维的特征空间,在这个高维空间中,数据可能变得线性可分。常用的核函数包括线性核、多项式核、径向基函数(RBF)核等。
3.2. 前人工作
3.2.1. 鲜味肽识别的传统实验室方法
传统的实验室方法包括 RP-HPLC (反相高效液相色谱)、MALDI-TOF-MS (基质辅助激光解吸电离飞行时间质谱)、LC-Q-TOF-MS (液相色谱-四极杆飞行时间质谱) 和 UPLC-ESI-QTOF-MS/MS (超高效液相色谱-电喷雾电离-四极杆飞行时间串联质谱) 等。这些方法能够精确地分离和鉴定鲜味肽,但其缺点在于耗时、劳动密集,不适用于高通量筛选。
3.2.2. 基于计算方法的鲜味肽识别
- 分子对接 (Molecular Docking) 和同源建模 (Homology Modeling): 这些计算方法基于鲜味肽与味觉受体(如 )的相互作用机制来识别鲜味肽。它们需要肽的三维结构和受体结构信息,计算量较大。
- iUmami-SCM:
- 方法: 第一个基于序列的鲜味肽预测器。它通过结合氨基酸和二肽的估计倾向性分数与评分卡方法 (
SCM) 来分析和预测鲜味肽。 - 特点: 仅基于肽的初级序列信息进行预测,无需高级结构信息。
- 局限性: 采用人工特征提取方法,且只使用了单一类型的特征,导致序列特征信息不足,模型性能不理想(
Sn0.714,BACC0.824,MCC0.679)。
- 方法: 第一个基于序列的鲜味肽预测器。它通过结合氨基酸和二肽的估计倾向性分数与评分卡方法 (
- UMPred-FRL:
- 方法: 基于特征表示学习 (
Feature Representation Learning) 的机器学习元预测器。它结合了七种不同的特征编码(包括氨基酸组成、二肽组成、组成-转换-分布、两亲性伪氨基酸组成和伪氨基酸组成)与六种机器学习算法(KNN、Extremely Randomized Trees、Partial Least Squares、RF、LR和SVM)。 - 特点: 在基准数据集上取得了比
iUmami-SCM更高的准确性,并在独立测试数据集上持续表现优异。 - 局限性: 尽管有所改进,但整体预测性能(
ACC0.888,MCC0.735,Sn0.786,BACC0.860)仍不够高效,这可能归因于其特征提取方法依然是效率不高的人工方式。
- 方法: 基于特征表示学习 (
3.3. 技术演进
鲜味肽的识别技术从最初耗时费力的湿实验室方法,逐渐发展到依赖于计算模拟(如分子对接)和机器学习方法的阶段。在机器学习方面,最初的模型如 iUmami-SCM 依赖于专家知识和手工设计的特征。随后,UMPred-FRL 通过集成多种人工特征编码和多种机器学习算法,试图提升性能。然而,这些方法的核心瓶颈在于特征工程的人工性和局限性。随着深度学习,特别是 Transformer 架构和 BERT 等预训练模型的兴起,为生物序列分析带来了新的范式转变,即模型可以自动学习序列的深层特征表示,从而摆脱对人工特征设计的依赖,有望显著提升预测模型的性能和泛化能力。本文的工作正是在这一技术演进的背景下,将 BERT 引入鲜味肽识别领域,代表了该领域向自动化、智能化特征学习迈进的重要一步。
3.4. 差异化分析
iUP-BERT 与 iUmami-SCM 和 UMPred-FRL 的核心区别在于其特征提取方法。
- iUmami-SCM 依赖于单一的人工设计特征(氨基酸和二肽倾向性分数),特征表达能力有限。
- UMPred-FRL 虽然结合了多种人工设计的特征编码方案和多种机器学习算法,但其特征仍然是预定义和手动组合的,无法像深度学习模型那样自动从原始序列中学习高级、抽象和上下文相关的特征。
- iUP-BERT 的创新之处在于它首次将单一的深度学习预训练神经网络特征提取方法(即 BERT)应用于鲜味肽识别。
BERT能够从原始肽序列中自动学习深层、双向和全局上下文相关的特征表示,极大地增强了特征的表达能力,从而显著提高了模型的预测性能和鲁棒性,克服了前人工作在特征工程上的瓶颈。
4. 方法论
4.1. 方法原理
iUP-BERT 的核心原理是利用深度学习预训练模型 BERT 强大的序列表示学习能力,将复杂的肽序列自动转换为高效的特征向量。这种自动特征提取避免了传统机器学习方法中繁琐且可能不完善的人工特征工程。为了解决生物数据集中常见的类别不平衡问题,模型引入了 SMOTE 技术来平衡训练数据。最后,结合 SVM 等高性能机器学习算法,构建一个能够准确区分鲜味肽和非鲜味肽的分类器。整个流程旨在通过先进的深度学习技术,实现更精准、更鲁棒的鲜味肽预测。
4.2. 核心方法详解
iUP-BERT 的开发流程如下图(原文 Figure 1)所示,主要包含以下六个步骤:
该图像是示意图,展示了 iUP-BERT 模型开发的六个主要步骤。包括肽序列的文本提取、BERT 模型与 SSA 方法生成特征向量的融合、数据不平衡处理(SMOTE)、特征选择、结合多种机器学习算法以及最终建立优化模型的过程。图中用流程图的形式清晰地体现了各步骤的关系和操作。
Figure 1. Overview of iUP-BERT development. The illustration depicts the 6 main steps for model development. (1) The peptide sequence was included as text and feature-extracted by the BERT model and SSA method. (2) The 788D BERT extracted feature was fused with the 121D SSA extracted features to make an 889D fusion feature vector, with individual feature vectors as comparison. (3) The SMOTE method was used to overcome the data imbalance. (4) The LGBM feature selection method was used to attain the best feature combinations. (5) Five different ML algorithms (KNN, LR, SVM, RF, and LGBM) were combined with the above techniques to build several models. (6) The final iUP-BERT predictor was established by combining the optimized feature representations. Here, BERT is for Bidirectional Encoder Representations from Transformers; SSA is for Soft Sequence Alignment; SMOTE: Synthetic Minority Oversampling Technique; LGBM is for Lighting Gradient Boosting Machine; D is for Dimension; KNN is for K-Nearest Neighbors; LR is for Logistic Regression; SVM is for Support Vector Machine; RF is for Random Forest.
4.2.1. 肽序列输入与特征提取
首先,肽序列作为文本形式的输入。为了提取不同且有效的特征,本文使用了两种深度表示学习特征提取方法:预训练的 SSA 序列嵌入模型和预训练的 BERT 序列嵌入模型。同时,数据集也经过了 SMOTE 嵌入模型预训练或未预训练。
4.2.1.1. 预训练 SSA 嵌入模型 (Pretrained SSA Embedding Model)
SSA 定义了一种比较任意长度序列内向量的新方法。其原理是利用一个初始的预训练模型来编码肽序列,同时结合三层堆叠的 BiLSTM (双向长短期记忆网络) 编码器输出。每个肽序列通过一个线性层生成最终的嵌入矩阵 ,其中 代表肽的长度。通过 SSA 方法训练和优化的模型被称为 SSA 嵌入模型。
为了计算两个氨基酸序列之间的相似性,SSA 机制基于它们的嵌入向量进行度量。考虑两个嵌入矩阵 和 ,分别代表两个具有不同长度 和 的肽序列:
其中, 和 代表肽序列中第 个和第 个氨基酸的 121 维向量表示。
这两个序列之间的相似性 的计算公式如下: 该公式计算的是两个序列中所有氨基酸对之间距离的加权和的负值,并通过归一化因子 进行调整,从而得到序列的整体相似性。
其中, 是一个权重系数,其计算涉及以下中间步骤: 符号解释:
-
: 两个肽序列的嵌入矩阵。
-
: 分别是肽序列 和 中第 个和第 个氨基酸的 121 维向量表示。
-
: 肽序列 和 的长度。
-
: 两个氨基酸序列之间的相似性度量。值越小表示相似性越高(因为是负值加距离)。
-
: 权重系数,反映了序列元素 和 之间的匹配程度。
-
: L1 范数,表示两个向量之间的 Manhattan 距离。在相似性计算中,距离越小表示越相似。
-
: 指数函数。
-
: 反映了 与所有 的相似性,并对其进行归一化。
-
: 反映了 与所有 的相似性,并对其进行归一化。
-
: 中间变量,通过组合 和 计算得到。原文此处似乎有笔误, 和 未定义,但根据上下文,这应是 和 的某种组合或派生。此处我们严格遵循原文公式呈现。
-
: 归一化因子,由所有 的和构成,用于对相似性分数进行缩放。
完成相似性计算后,通过平均池化 (averaging pooling procedures) 将 的嵌入矩阵转换为一个固定长度的 121 维向量,作为
SSA的特征输出。
4.2.1.2. 预训练 BERT 嵌入模型 (Pretrained BERT Embedding Model)
BERT 是一种强大的自然语言处理启发的深度学习方法。本文使用传统的 BERT 架构来构建基于 BERT 的肽预测模型。其核心优势在于无需预先系统地设计和选择特征编码,肽序列可以直接作为输入,由 BERT 方法自动生成特征描述符。
- 输入表示: 首先,肽序列被转换为
k-mers的token表示作为输入。接着,添加位置嵌入 (positional embedding) 以捕捉氨基酸在序列中的位置信息,从而获得最终的输入token。 - 上下文语义捕捉: 输入
token随后通过多头自注意力模型 (multi-head self-attention model) 进行处理。该模型能够捕捉序列中不同氨基酸之间的语义关系和全局上下文信息。 - 多层编码:
BERT模型包含 12 个这样的层。每一层都会对输入进行一系列的线性变换和非线性激活,进一步提取和精炼特征。 - 预训练任务:
BERT的预训练任务仍采用传统的掩码任务 (mask task),即随机遮盖部分token,然后训练模型去预测这些被遮盖的token。通过交叉熵损失函数进行反向传播,模型学习序列的深层表示。 - 特征输出: 经过
BERT训练的模型最终生成一个 768 维的BERT特征向量。
4.2.2. 特征融合 (Feature Fusion)
为了探索最优的特征组合,本文将 121 维的 SSA 特征向量与 768 维的 BERT 特征向量进行融合,生成了一个 889 维的 融合特征向量。
4.2.3. 合成少数类过采样技术 (Synthetic Minority Oversampling Technique, SMOTE)
SMOTE(也称为“人工少数类过采样方法”)是一种改进的随机过采样算法,旨在解决数据不平衡问题,避免传统随机复制少数类样本可能导致的模型过拟合。
- 基本思想: 通过分析少数类样本,根据其特征分布合成新的类别样本,并将其添加到数据集中,直到数据不平衡满足预设要求。
- 实现过程:
- 对于每个少数类样本,首先计算其 个最近邻居(使用
KNN算法)。 - 从这 个邻居中随机选择 个样本。
- 对原始少数类样本与选定的 个邻居进行随机线性插值,从而在特征空间中创建新的合成少数类样本。
- 将这些新生成的样本与原始数据合并,形成新的训练集。
- 对于每个少数类样本,首先计算其 个最近邻居(使用
4.2.4. 特征选择 (Feature Selection)
特征选择旨在从原始特征集中识别并去除冗余或不相关的特征,以优化特征空间,降低维度,并防止模型过拟合。本文使用了 LGBM 特征选择方法来获得最佳的特征组合。LGBM 算法在特征选择方面已被证明是一种有效的方法。
4.2.5. 机器学习方法 (Machine Learning Methods)
本文采用了五种常用的高性能机器学习模型进行建模:
- k-近邻算法 (k-Nearest Neighbor, KNN):
- 原理: 一种非参数的分类和回归方法。对于一个新的未知样本,
KNN通过计算它与训练集中所有样本的距离,找到其 个最近的邻居。然后,根据这 个邻居的类别(分类任务中取多数票,回归任务中取平均值)来决定新样本的类别或值。
- 原理: 一种非参数的分类和回归方法。对于一个新的未知样本,
- 逻辑回归 (Logistic Regression, LR):
- 原理: 一种广义线性模型,主要用于二分类问题。它使用
sigmoid函数(逻辑函数)将线性模型的输出映射到 (0, 1) 区间内的概率值。通过设置一个阈值,将概率转换为类别预测。sigmoid函数作为正负样本之间的分界线。
- 原理: 一种广义线性模型,主要用于二分类问题。它使用
- 支持向量机 (Support Vector Machine, SVM):
- 原理: 旨在找到一个最优的超平面,该超平面能够最大化不同类别数据点之间最近距离(即“间隔”)。对于二分类问题,
SVM寻找最远的分类边界,确保数据点的轻微偏差不会对分类结果产生太大影响,从而提高模型的泛化能力。
- 原理: 旨在找到一个最优的超平面,该超平面能够最大化不同类别数据点之间最近距离(即“间隔”)。对于二分类问题,
- 随机森林 (Random Forest, RF):
- 原理: 一种集成学习算法,通过构建多个决策树并将它们的预测结果进行组合(分类任务中投票,回归任务中取平均)来提高模型的准确性和鲁棒性。
RF的关键在于“随机”:它在训练每棵决策树时,会使用有放回抽样(bootstrap aggregating,bagging)来选择训练样本,并且在每个决策树的节点分裂时,只随机选择一部分特征进行考虑。
- 原理: 一种集成学习算法,通过构建多个决策树并将它们的预测结果进行组合(分类任务中投票,回归任务中取平均)来提高模型的准确性和鲁棒性。
- 轻量级梯度提升机 (Light Gradient Boosting Machine, LGBM):
- 原理: 一种高效的梯度提升决策树 (
GBDT) 框架。它采用了直方图算法,将连续浮点特征转换为 个离散值,并构建宽度为 的直方图,从而加快训练速度并降低内存消耗。LGBM使用深度受限的leaf-wise(叶子生长)策略代替传统的level-wise(按层生长)策略,可以更有效地减少损失,但可能更容易过拟合。它还支持并行计算。
- 原理: 一种高效的梯度提升决策树 (
4.2.6. 模型优化与建立 iUP-BERT 预测器
将上述特征提取、数据平衡和特征选择方法与五种机器学习算法进行组合,构建并优化多个模型。最终,根据 10 折交叉验证和独立测试的综合表现,选择了基于 BERT 特征、SMOTE 处理和 SVM 分类器 (BERT-SVM-SMOTE) 的模型,并经过特征选择优化后(139 维特征),作为最终的 iUP-BERT 预测器。
5. 实验设置
5.1. 数据集
为了与之前的鲜味肽机器学习模型进行公平比较,本文选择了相同的数据集(可在补充文件 S1 中获取)。
-
正样本(鲜味肽): 140 条肽序列,这些肽经过实验验证具有鲜味属性,或者从
BIOPEP-UWM数据库中获取。 -
负样本(非鲜味肽): 302 条肽序列,这些肽被鉴定为苦味肽。
-
数据特点: 所有正负样本中的肽序列都是唯一的。数据集存在类别不平衡问题,负样本数量多于正样本。
-
数据集划分:
- 训练数据集: 包含 112 条鲜味肽和 241 条非鲜味肽。
- 独立测试数据集: 包含 28 条鲜味肽和 61 条非鲜味肽。
-
样本示例: 原文未提供具体的肽序列样本作为示例,但说明数据为肽序列。
5.2. 评估指标
本文使用了六种广泛使用的二分类评估指标来衡量模型性能:ACC、MCC、Sn、Sp、BACC 和 auROC。
-
准确率 (Accuracy, ACC):
- 概念定义: 正确预测的样本(包括真阳性
TP和真阴性TN)占总样本数的比例。它衡量了模型整体的正确分类能力。 - 数学公式:
- 符号解释:
TP (True Positive): 真阳性,实际是鲜味肽且被模型预测为鲜味肽的样本数。TN (True Negative): 真阴性,实际是非鲜味肽且被模型预测为非鲜味肽的样本数。FP (False Positive): 假阳性,实际是非鲜味肽但被模型预测为鲜味肽的样本数。FN (False Negative): 假阴性,实际是鲜味肽但被模型预测为非鲜味肽的样本数。
- 概念定义: 正确预测的样本(包括真阳性
-
Matthew's 相关系数 (Matthew's Correlation Coefficient, MCC):
- 概念定义: 一种衡量二分类模型预测质量的综合指标,它考虑了所有四种情况(
TP、TN、FP、FN),并能很好地反映模型在类别不平衡数据集上的性能。MCC的值介于 -1 和 +1 之间,+1 表示完美预测,0 表示随机预测,-1 表示完全不一致。 - 数学公式:
- 符号解释: 同
ACC。
- 概念定义: 一种衡量二分类模型预测质量的综合指标,它考虑了所有四种情况(
-
敏感性/召回率 (Sensitivity, Sn):
- 概念定义: 也称为真阳性率 (
True Positive Rate, TPR) 或召回率 (Recall)。它衡量了所有实际为鲜味肽的样本中,有多少被模型正确识别为鲜味肽的比例。 - 数学公式:
- 符号解释: 同
ACC。
- 概念定义: 也称为真阳性率 (
-
特异性 (Specificity, Sp):
- 概念定义: 也称为真阴性率 (
True Negative Rate, TNR)。它衡量了所有实际为非鲜味肽的样本中,有多少被模型正确识别为非鲜味肽的比例。 - 数学公式:
- 符号解释: 同
ACC。
- 概念定义: 也称为真阴性率 (
-
平衡准确率 (Balanced Accuracy, BACC):
- 概念定义:
敏感性 (Sn)和特异性 (Sp)的平均值。当数据集存在类别不平衡时,BACC比传统ACC更能公正地评估模型性能,因为它对每个类别的错误率给予同等权重。 - 数学公式:
- 符号解释: 同
ACC。
- 概念定义:
-
受试者工作特征曲线下面积 (Area Under the Receiver Operating Characteristic Curve, auROC):
- 概念定义:
ROC曲线是以真阳性率 (TPR,即Sn) 为纵轴,假阳性率 (FPR,即 ) 为横轴绘制的曲线。auROC是ROC曲线下方的面积,其值介于 0 到 1 之间。auROC衡量了模型在不同分类阈值下区分正负样本的整体能力。auROC值越高,模型的分类性能越好,1 表示完美分类器,0.5 表示随机分类器。 - 数学公式:
auROC通常不是一个简单的代数公式,而是通过计算ROC曲线与坐标轴围成的面积来获得。其计算涉及到对模型输出的概率分数进行排序,并遍历所有可能的分类阈值。 - 符号解释: 无需额外符号解释,其含义由
TPR和FPR决定。
- 概念定义:
-
模型评估方法:
- K 折交叉验证 (K-fold Cross-validation): 本文采用 10 折交叉验证。训练集被随机分成 10 份,其中 9 份用于模型训练,剩余 1 份用于验证。这个过程重复 10 次,每次使用不同的验证集,最终性能取 10 次验证结果的平均值。
- 独立测试 (Independent Testing): 使用一个独立于训练集和验证集的新数据集来评估训练好的模型。这可以更真实地反映模型在未见过数据上的泛化能力。
5.3. 对比基线
本文将 iUP-BERT 的性能与以下两种现有的鲜味肽预测方法进行了比较:
-
iUmami-SCM: 第一个基于肽序列的鲜味肽预测器,通过结合氨基酸和二肽的估计倾向性分数与评分卡方法 (
SCM) 进行预测。 -
UMPred-FRL: 一个基于特征表示学习的机器学习元预测器,结合了七种不同的特征编码和六种机器学习算法。
这些基线模型具有代表性,因为它们是当前领域中已有的、基于计算方法的鲜味肽预测工具,可以有效衡量
iUP-BERT相对于现有“最先进”方法的改进程度。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 带有或不带有 SMOTE 的模型初步性能
为了克服数据不平衡问题,首先在建模中应用了 SMOTE 方法。同时,为了探索鲜味肽中嵌入特征的类型,本文基于 SSA 和 BERT 两种深度表示学习特征提取方法,结合五种机器学习算法(KNN、LR、SVM、RF 和 LGBM)构建了不同的模型。通过重复 10 次分层 10 折交叉验证测试,比较了带有或不带有 SMOTE 的不同组合模型的性能。
以下是原文 Table 1 的结果:
| Feature | Model | SMOTE | Dim | 10-Fold Cross-Validation | Independent Test | ||||||||||
| ACC | MCC | Sn | Sp | auROC | BACC | ACC | MCC | Sn | Sp | auROC | BACC | ||||
| SSA | KNN | − | 121 | 0.833 | 0.607 | 0.663 | 0.913 | 0.849 | 0.788 | 0.825 | 0.575 | 0.596 | 0.930 | 0.876 | 0.763 |
| LR | − | 121 | 0.776 | 0.485 | 0.634 | 0.842 | 0.814 | 0.738 | 0.780 | 0.498 | 0.679 | 0.826 | 0.839 | 0.752 | |
| SVM | − | 121 | 0.827 | 0.588 | 0.613 | 0.925 | 0.909 | 0.769 | 0.857 | 0.658 | 0.680 | 0.944 | 0.907 | 0.806 | |
| RF | − | 121 | 0.836 | 0.609 | 0.618 | 0.938 | 0.902 | 0.778 | 0.826 | 0.578 | 0.557 | 0.949 | 0.879 | 0.753 | |
| LGBM | − | 121 | 0.852 | 0.664 | 0.721 | 0.913 | 0.896 | 0.817 | 0.827 | 0.583 | 0.621 | 0.921 | 0.880 | 0.771 | |
| KNN | + | 121 | 0.842 | 0.709 | 0.962 | 0.930 | 0.841 | 0.787 | 0.794 | 0.555 | 0.814 | 0.774 | 0.885 | 0.843 | |
| LR | + | 121 | 0.857 | 0.722 | 0.904 | 0.809 | 0.902 | 0.856 | 0.774 | 0.485 | 0.682 | 0.813 | 0.916 | 0.748 | |
| SVM | + | 121 | 0.917 | 0.835 | 0.921 | 0.913 | 0.967 | 0.917 | 0.866 | 0.683 | 0.696 | 0.941 | 0.895 | 0.819 | |
| RF | + | 121 | 0.915 | 0.833 | 0.921 | 0.908 | 0.967 | 0.915 | 0.866 | 0.683 | 0.710 | 0.936 | 0.895 | 0.825 | |
| LGBM | + | 121 | 0.917 | 0.835 | 0.929 | 0.904 | 0.964 | 0.917 | 0.827 | 0.585 | 0.643 | 0.911 | 0.887 | 0.777 | |
| BERT | KNN | - | 768 | 0.836 | 0.610 | 0.679 | 0.908 | 0.879 | 0.794 | 0.807 | 0.537 | 0.618 | 0.893 | 0.872 | 0.756 |
| LR | - | 768 | 0.836 | 0.649 | 0.820 | 0.842 | 0.888 | 0.833 | 0.850 | 0.660 | 0.743 | 0.907 | 0.912 | 0.825 | |
| SVM | - | 768 | 0.840 | 0.613 | 0.727 | 0.880 | 0.910 | 0.803 | 0.820 | 0.599 | 0.770 | 0.841 | 0.875 | 0.806 | |
| RF | - | 768 | 0.859 | 0.667 | 0.714 | 0.925 | 0.925 | 0.820 | 0.819 | 0.567 | 0.643 | 0.900 | 0.900 | 0.771 | |
| LGBM | - | 768 | 0.830 | 0.609 | 0.705 | 0.890 | 0.898 | 0.797 | 0.830 | 0.596 | 0.668 | 0.905 | 0.915 | 0.786 | |
| KNN | + | 768 | 0.884 | 0.775 | 0.954 | 0.813 | 0.928 | 0.884 | 0.820 | 0.625 | 0.857 | 0.803 | 0.881 | 0.830 | |
| LR | + | 768 | 0.911 | 0.825 | 0.959 | 0.863 | 0.952 | 0.911 | 0.843 | 0.635 | 0.750 | 0.885 | 0.905 | 0.818 | |
| SVM | + | 768 | 0.923 | 0.849 | 0.880 | 0.959 | 0.984 | 0.923 | 0.876 | 0.706 | 0.714 | 0.951 | 0.926 | 0.832 | |
| RF | + | 768 | 0.898 | 0.797 | 0.909 | 0.880 | 0.967 | 0.898 | 0.896 | 0.793 | 0.905 | 0.880 | 0.971 | 0.897 | |
| LGBM | + | 768 | 0.896 | 0.793 | 0.905 | 0.888 | 0.971 | 0.896 | 0.843 | 0.635 | 0.750 | 0.852 | 0.920 | 0.818 | |
以下是原文 Figure 2 的图表,展示了带有或不带有 SMOTE 的 SSA 和 BERT 特征在不同算法下的 10 折交叉验证性能指标。
该图像是图表,展示了不同算法在进行10折交叉验证时的性能指标,包括 KNN(图 A)、LR(图 B)、SVM(图 C)、RF(图 D)和 LGBM(图 E)。图中列出了 ACC、MCC、Sn、Sp、auROC 和 BACC 等指标,比较了预训练带SMOTE与不带SMOTE的 SSA 和 BERT 特征的表现。不同颜色的柱状图展示了各方法在不同条件下的效果。
Figure 2. The performance of 10-fold cross-validation metrics of SSA and BERT features using different algorithms pretrained with or without SMOTE. (A) KNN; (B) LR; (C) SVM; (D) RF; (E) LGBM.
- SMOTE 的显著效果: 从 Figure 2 和 Table 1 可以看出,在 10 折交叉验证结果中,所有五种算法模型(
KNN、LR、SVM、RF、LGBM),无论基于SSA还是BERT特征,只要使用了SMOTE方法,其在ACC、MCC、Sn、auROC和BACC五个指标上的表现均优于未使用SMOTE的模型。特异性 (Sp) 除外。- 例如,基于
SSA特征且使用SMOTE的KNN、LR、SVM、RF和LGBM模型的平均ACC分别为 0.842、0.857、0.917、0.915 和 0.917,比未使用SMOTE的模型分别提高了 1.08%、10.44%、10.88%、9.45% 和 7.63%。 - 在
BERT特征上,也观察到了类似的改进。虽然使用SMOTE的SSA特征的最佳Sp(0.913) 低于未使用的模型 (0.938),但整体最佳Sp(0.959) 仍然来自使用SMOTE方法优化的BERT特征。 - 对于独立测试结果,使用
SMOTE的模型在所有五个指标上仍然取得了更好的分数。
- 例如,基于
- BACC 的冗余性: 值得注意的是,在使用
SMOTE后,交叉验证结果中五种算法的BACC分数与ACC分数相同。这表明SMOTE有效平衡了数据,使得BACC在这种情况下变得冗余。 - 结论: 增加
SMOTE过采样能够有效克服数据不平衡问题,显著提高鲜味肽预测模型的性能。
6.1.2. 不同特征类型的影响
- BERT 特征表现优异: 从交叉验证结果(Figure 2 和 Table 1)来看,
BERT特征向量与SVM算法和SMOTE方法结合的模型在所有测试组合中表现最佳,其在ACC(0.923)、MCC(0.849)、Sp(0.959)、auROC(0.984) 和BACC(0.923) 五个指标上均达到最高。例如,ACC比其他选项高出 0.65%-18.9%。 - SSA 在 Sn 上有优势: 尽管如此,
SSA特征向量结合KNN和SMOTE算法在Sn指标上(0.962)超越了所有BERT组合。 - 独立测试结果分析: 在独立测试中,
BERT-SVM-SMOTE组合的ACC(0.876) 略低于BERT-RF-SMOTE(0.896),MCC(0.706) 和Sn(0.714) 也相对较低。然而,Sp(0.951) 较高,auROC(0.926) 仍有竞争力。尽管如此,综合考虑,BERT-SVM-SMOTE组合仍被认为是所有组合中表现最佳的模型。
6.1.3. 特征融合的影响
为了进一步提升模型性能并获取更多信息,本文尝试将 SSA 和 BERT 特征进行融合。融合后的特征与五种机器学习算法(KNN、LR、SVM、RF 和 LGBM)结合,用于训练基线模型并提升性能。
以下是原文 Table 2 的结果:
| Feature | Model | SMOTE | Dim | 10-Fold Cross-Validation | Independent Test | ||||||||||
| ACC | MCC | Sn | Sp | auROC | BACC | ACC | MCC | Sn | Sp | auROC | BACC | ||||
| SSA+BERT | KNN | − | 889 | 0.836 | 0.610 | 0.679 | 0.909 | 0.908 | 0.794 | 0.820 | 0.576 | 0.679 | 0.885 | 0.900 | 0.782 |
| LR | − | 889 | 0.844 | 0.640 | 0.750 | 0.880 | 0.900 | 0.819 | 0.876 | 0.716 | 0.821 | 0.902 | 0.910 | 0.862 | |
| SVM | − | 889 | 0.858 | 0.667 | 0.732 | 0.917 | 0.921 | 0.825 | 0.854 | 0.658 | 0.750 | 0.902 | 0.906 | 0.826 | |
| RF | − | 889 | 0.841 | 0.620 | 0.643 | 0.934 | 0.906 | 0.788 | 0.831 | 0.599 | 0.679 | 0.902 | 0.906 | 0.790 | |
| LGBM | − | 889 | 0.813 | 0.553 | 0.625 | 0.900 | 0.892 | 0.763 | 0.831 | 0.606 | 0.714 | 0.852 | 0.921 | 0.800 | |
| KNN | + | 889 | 0.888 | 0.787 | 0.971 | 0.805 | 0.932 | 0.888 | 0.831 | 0.643 | 0.820 | 0.883 | 0.883 | 0.838 | |
| LR | + | 889 | 0.917 | 0.836 | 0.954 | 0.880 | 0.951 | 0.917 | 0.876 | 0.724 | 0.857 | 0.850 | 0.906 | 0.871 | |
| SVM | + | 889 | 0.934 | 0.867 | 0.938 | 0.929 | 0.980 | 0.934 | 0.820 | 0.563 | 0.571 | 0.934 | 0.916 | 0.730 | |
| RF | + | 889 | 0.915 | 0.830 | 0.929 | 0.900 | 0.968 | 0.915 | 0.820 | 0.592 | 0.750 | 0.852 | 0.919 | 0.801 | |
| LGBM | + | 889 | 0.919 | 0.840 | 0.950 | 0.888 | 0.963 | 0.919 | 0.843 | 0.643 | 0.786 | 0.869 | 0.919 | 0.827 | |
以下是原文 Figure 3 的图表,展示了带有 SMOTE 的个体和融合特征在机器学习方法下的性能指标。
该图像是图表,展示了利用SMOTE技术和不同机器学习方法在十折交叉验证(A)和独立测试(B)中的性能指标,包括ACC、MCC、Sn、Sp、auROC和BACC等。结果显示,结合BERT特征的模型表现优异。
Figure 3. The performance metrics of individual and fused features with SMOTE, according to the machine learning methods used. (A) Ten-fold cross-validation results. (B) Independent test results.
- 交叉验证表现: 与 3.1 节结果一致,在 10 折交叉验证中(Table 2),使用
SMOTE的 融合特征模型在所有五种算法下均显示出比不使用SMOTE的模型更高的指标值(除了Sp),且BACC分数与ACC相同。 - 融合特征在交叉验证中的优势: 具体来看,融合特征的最佳性能(结合
SVM)在ACC(0.934)、MCC(0.867)、Sn(0.971) 和BACC(0.934) 四个指标上略优于单独使用BERT特征时的最佳表现(分别高出 1.19%、1.90%、1.25% 和 1.19%)。 - 独立测试中的劣势: 然而,在独立测试结果中(Figure 3 和 Table 2),融合特征(结合
LR)在所有六个指标上的最佳性能(ACC=0.876,MCC=0.724,Sn=0.857,Sp=0.934,auROC=0.919,BACC=0.871)均低于单独使用BERT特征时的相应分数(ACC=0.896,MCC=0.793,Sn=0.905,Sp=0.951,auROC=0.971,BACC=0.897)。 - 结论: 特征融合(
SSA和BERT)对于鲜味肽自动预测的模型优化并不是一个有益的选择,它可能引入了冗余信息。
6.1.4. 特征选择的影响
由于特征融合未能带来独立测试性能的提升,且高维度特征可能导致信息冗余和模型过拟合,本文使用了 LGBM 特征选择方法来寻找优化后的特征空间。
以下是原文 Table 3 的结果:
| Feature | Model | SMOTE | Dim | 10-Fold Cross-Validation | Independent Test | ||||||||||
| ACC | MCC | Sn | Sp | auROC | BACC | ACC | MCC | Sn | Sp | auROC | BACC | ||||
| SSA | KNN | + | 43 | 0.892 | 0.788 | 0.942 | 0.842 | 0.938 | 0.892 | 0.921 | 0.825 | 0.929 | 0.918 | 0.914 | 0.923 |
| LR | + | 29 | 0.884 | 0.768 | 0.900 | 0.867 | 0.938 | 0.884 | 0.880 | 0.745 | 0.857 | 0.902 | 0.919 | 0.879 | |
| SVM | + | 29 | 0.909 | 0.820 | 0.946 | 0.871 | 0.962 | 0.909 | 0.899 | 0.761 | 0.786 | 0.951 | 0.913 | 0.868 | |
| RF | + | 39 | 0.892 | 0.784 | 0.892 | 0.892 | 0.957 | 0.892 | 0.880 | 0.735 | 0.786 | 0.934 | 0.914 | 0.860 | |
| LGBM | + | 39 | 0.902 | 0.805 | 0.905 | 0.900 | 0.958 | 0.902 | 0.899 | 0.763 | 0.821 | 0.934 | 0.919 | 0.878 | |
| BERT | KNN | + | 163 | 0.888 | 0.786 | 0.967 | 0.809 | 0.950 | 0.888 | 0.865 | 0.723 | 0.929 | 0.836 | 0.909 | 0.882 |
| LR | + | 129 | 0.876 | 0.751 | 0.884 | 0.867 | 0.937 | 0.876 | 0.880 | 0.739 | 0.821 | 0.918 | 0.913 | 0.870 | |
| SVM | + | 139 | 0.940 | 0.881 | 0.963 | 0.917 | 0.971 | 0.940 | 0.899 | 0.774 | 0.893 | 0.902 | 0.933 | 0.897 | |
| RF | + | 177 | 0.921 | 0.843 | 0.938 | 0.905 | 0.973 | 0.921 | 0.865 | 0.711 | 0.821 | 0.852 | 0.923 | 0.853 | |
| LGBM | + | 174 | 0.917 | 0.834 | 0.929 | 0.905 | 0.973 | 0.917 | 0.876 | 0.694 | 0.786 | 0.918 | 0.916 | 0.852 | |
| SSA+BERT | KNN | + | 165 | 0.900 | 0.806 | 0.954 | 0.846 | 0.942 | 0.900 | 0.876 | 0.742 | 0.929 | 0.852 | 0.898 | 0.891 |
| LR | + | 179 | 0.915 | 0.832 | 0.950 | 0.880 | 0.941 | 0.915 | 0.880 | 0.745 | 0.857 | 0.902 | 0.902 | 0.879 | |
| SVM | + | 199 | 0.932 | 0.864 | 0.950 | 0.913 | 0.981 | 0.932 | 0.880 | 0.745 | 0.857 | 0.902 | 0.909 | 0.879 | |
| RF | + | 168 | 0.909 | 0.818 | 0.925 | 0.892 | 0.974 | 0.909 | 0.876 | 0.716 | 0.821 | 0.902 | 0.917 | 0.862 | |
| LGBM | + | 114 | 0.919 | 0.839 | 0.942 | 0.896 | 0.979 | 0.919 | 0.876 | 0.724 | 0.857 | 0.885 | 0.920 | 0.871 | |
以下是原文 Figure 4 的图表,展示了使用选择特征和不同算法的个体和融合特征的性能指标。
该图像是图表,展示了采用不同算法和特征选择的个体及融合特征的性能指标,包括十折交叉验证结果(A)和独立测试结果(B)。
Figure 4. The performance metrics of individual and fusion features using selected features and different algorithms. (A) Ten-fold cross-validation results. (B) Independent test results.
- 交叉验证中的最佳性能: 从 10 折交叉验证结果(Figure 4 和 Table 3)可以看出,经过特征选择后,基于
SVM算法的所有个体或融合特征在ACC、MCC、Sp和BACC四个指标上均优于其他四种算法。其中,单独使用BERT特征编码并结合SVM算法(139 维特征)的模型表现最佳,ACC(0.940) 比其他选项高 0.86%-7.31%,MCC(0.881) 高 1.97%-17.31%,Sp(0.917) 高 0.44%-13.35%,BACC(0.940) 高 0.86%-7.31%。这表明特征选择是优化鲜味肽预测模型性能的有效方法。 - 独立测试结果分析: 在独立测试中(Table 3),尽管
SSA特征结合KNN(43 维)或SVM(29 维)在ACC(0.921)、MCC(0.825)、Sn(0.929) 和BACC(0.923) 上获得了最高分,但BERT特征结合SVM(139 维)在auROC(0.933) 指标上仍表现最佳。此外,BERT模型在其他四个指标上的得分(ACC0.899,MCC0.774,Sn0.893,BACC0.897)也位居所有模型的第二。 - 结论: 综合交叉验证和独立测试结果,选择
BERT特征结合SVM算法(139 维特征)被认为是鲜味肽预测的最佳方案。
6.1.5. iUP-BERT 与现有模型的比较
为了评估 iUP-BERT 模型在鲜味肽识别中的效力和鲁棒性,本文将其预测性能与现有方法(iUmami-SCM 和 UMPred-FRL)进行了比较。
以下是原文 Table 4 的结果:
| Classifier | 10-Fold Cross-Validation | Independent Test | ||||||||||
| ACC | MCC | Sn | Sp | auROC | BACC | ACC | MCC | Sn | Sp | auROC | BACC | |
| iUP-BERT | 0.940 | 0.881 | 0.963 | 0.917 | 0.971 | 0.940 | 0.899 | 0.774 | 0.893 | 0.902 | 0.933 | 0.897 |
| iUmami-SCM | 0.935 | 0.864 | 0.947 | 0.930 | 0.939 | 0.939 | 0.865 | 0.679 | 0.714 | 0.934 | 0.898 | 0.824 |
| UMPred-FRL | 0.921 | 0.814 | 0.847 | 0.955 | 0.938 | 0.901 | 0.888 | 0.735 | 0.786 | 0.934 | 0.919 | 0.860 |
- 交叉验证表现: 从交叉验证结果来看,
iUP-BERT在ACC、MCC、Sn、auROC和BACC方面均明显优于iUmami-SCM和UMPred-FRL。 - 独立测试表现: 在独立测试结果中,
iUP-BERT在五个指标上(ACC、MCC、Sn、auROC和BACC)均表现出显著优于iUmami-SCM和UMPred-FRL的结果。具体提升幅度如下:ACC提高了 1.23%-3.93%MCC提高了 5.31%-13.99%Sn提高了 13.6%-25.07%auROC提高了 1.52%-3.90%BACC提高了 4.30%-8.86%
- 结论: 综合比较表明,基于
BERT-SVM-SMOTE组合的iUP-BERT在鲜味肽预测方面比现有方法更有效、更可靠、更稳定。
6.2. 特征分析使用特征投影和决策函数
为了直观地解释 iUP-BERT 模型的优秀性能,本文使用了主成分分析 (PCA) 和统一流形逼近与投影 (UMAP) 两种降维方法。首先,将经过特征选择优化的 139 维 BERT 特征向量降至二维平面。然后,绘制决策函数边界,以区分正负样本。
以下是原文 Figure 5 的图表,展示了鲜味肽 BERT 特征的降维可视化和 SVM 模型的决策函数边界分析。
该图像是图表,展示了基于主成分分析(PCA)和统一流形逼近与投影(UMAP)对139维选定BERT特征进行二维可视化的结果。红点代表风味肽,蓝点代表非风味肽,黄色区域表示正样本区域,紫色区域表示负样本区域。
Figure 5. Dimension reduction visualization of umami peptide BERT features and decision function boundary analysis of the SVM model. The red dots are umami peptides and the blue dots are non-umami peptides. The sub-figure (A,B) show the use of principal components analysis (PCA) and uniform manifold approximation and projection (UMAP) respectively for reducing 139 dimensional selected BERT features to 2 dimensions for visual analysis. Additionally, the decision function boundary lines of support vector machine (SVM) are drawn in both. The yellow section represents the positive sample area and the purple section represents the negative sample area.
- 可视化结果: 从 Figure 5 可以看出,正样本(红点)和负样本(蓝点)在降维后的二维空间中相对集中于两个不同的区域:黄色区域主要包含正样本,紫色区域主要包含负样本。
- 决策边界:
SVM的决策函数边界能够有效地分离大部分正负样本。然而,图中仍显示存在一些误分类的样本点(即红点出现在紫色区域,或蓝点出现在黄色区域)。 - 结论: 这种可视化结果证实了
BERT特征能够有效地捕捉鲜味肽和非鲜味肽之间的可区分模式。同时,图中存在的误分类样本也暗示了未来可以通过更好的特征提取方法或更合适的机器学习方法,进一步提升鲜味肽识别的准确性。
6.3. iUP-BERT 网络服务器的构建
为了促进鲜味肽的快速高通量筛选,并最大化 iUP-BERT 预测器的应用价值,本文建立了一个开放获取的网络服务器,网址为 https://www.aibiochem.net/servers/iUP-BERT/。该服务器旨在成为一个强大的工具,用于探索新的鲜味肽并推动食品调味品行业的发展。
7. 总结与思考
7.1. 结论总结
本研究成功开发了一个名为 iUP-BERT 的新颖机器学习预测模型,用于基于肽序列准确预测鲜味肽。该模型的核心创新在于首次利用单一的深度表示学习特征编码方法 BERT 来自动提取肽序列特征,克服了传统人工特征工程的局限性。为应对数据不平衡问题,模型集成了 SMOTE 技术。经过广泛的测试和优化,最终确定 BERT 特征结合 SMOTE 和 SVM 分类器(经过特征选择后,采用 139 维特征)的 BERT-SVM-SMOTE 模型为最佳方案。
实验结果表明,iUP-BERT 在 10 折交叉验证和独立测试中均表现出卓越的有效性和鲁棒性。与现有方法 iUmami-SCM 和 UMPred-FRL 相比,iUP-BERT 在独立测试中取得了显著的性能提升:ACC 提高了 1.23%-3.93%,MCC 提高了 5.31%-13.99%,Sn 提高了 13.6%-25.07%,auROC 提高了 1.52%-3.90%,BACC 提高了 4.30%-8.86%。最后,为了便于研究人员使用,本文构建了一个开放获取的 iUP-BERT 网络服务器。
7.2. 局限性与未来工作
- 训练样本规模: 作者指出,当前研究使用的训练数据集规模相对较小(112 个正样本和 241 个负样本)。对于深度学习模型而言,更大的训练样本量通常能带来更好的预测性能。
- 未来工作方向:
- 构建更大规模的优化数据集: 未来的工作可以致力于构建一个包含更多已识别鲜味肽和非鲜味肽的、规模更大且经过优化的数据集,以进一步提升模型的性能。
- 微调 BERT 模型: 可以尝试对
BERT模型进行微调,使其更专注于鲜味肽识别任务的特征提取,从而可能实现更高的准确性。
7.3. 个人启发与批判
- 个人启发:
- 深度学习在生物序列分析中的潜力: 这篇论文进一步证实了
BERT这类预训练语言模型在处理非自然语言序列(如肽序列)方面的强大能力。它提供了一个范例,说明如何将NLP的先进技术迁移到生物信息学领域,实现高效的自动特征工程,从而避免了传统方法中耗时且可能不完善的人工特征设计。 - 数据预处理的重要性:
SMOTE和特征选择在提高模型性能方面的显著效果,再次强调了数据预处理(特别是针对数据不平衡和高维度冗余)在构建鲁棒机器学习模型中的关键作用。 - 开放科学的价值: 建立开放获取的
Web服务器是模型应用和推广的重要一步,极大地促进了研究成果的实用性和影响力,使得非专业用户也能受益于这项技术。
- 深度学习在生物序列分析中的潜力: 这篇论文进一步证实了
- 批判与潜在改进:
- 数据集来源与负样本选择: 负样本被定义为“苦味肽”。虽然苦味肽是非鲜味肽,但这种选择可能存在一定的偏见。鲜味和苦味是两种不同的味觉感知,但世界上的肽并非只有这两类。模型对既非鲜味也非苦味的肽(例如无味肽或其他味觉肽)的识别能力可能未得到充分验证。未来的工作可以考虑构建更广义的负样本集,或者包含多种味觉肽的分类任务。
- 模型可解释性: 尽管
BERT提供了强大的预测能力,但作为一种复杂的深度学习模型,其内部决策过程通常是“黑箱”。对于鲜味肽的识别,如果能解释模型“为什么”认为某个肽具有鲜味(例如,识别出关键的氨基酸基序或结构),这将对理解鲜味机制和指导新肽设计具有巨大价值。未来的研究可以探索结合可解释性人工智能 (XAI) 技术来增强模型的可解释性。 - 泛化能力与小数据集: 作者也指出了训练数据集较小的局限性。尽管独立测试集用于验证泛化能力,但其规模也相对较小。在真实世界中,肽序列的结构和功能多样性极大,小规模数据集训练出的模型可能在处理高度新颖的肽序列时表现不佳。这需要持续的数据积累和模型迭代。
- 微调 BERT 的潜力: 论文提到未来可以微调
BERT以提高准确性,这是一个重要的方向。当前的实现可能仅将BERT用作特征提取器,而未对其进行领域适应性微调,这可能限制了BERT在肽序列特定任务上的最佳性能。 - 计算资源需求: 预训练的
BERT模型通常较大,进行推理和潜在的微调都需要一定的计算资源。对于资源受限的实验室或应用场景,这可能是一个实际的挑战。
相似论文推荐
基于向量语义检索推荐的相关论文。