AiPaper
论文状态:已完成

iBitter-SCM: Identification and characterization of bitter peptides using a scoring card method with propensity scores of dipeptides

发表:2020/03/28
原文链接
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

iBitter-SCM是一种新提出的计算模型,能够基于氨基酸序列预测苦味肽。该模型利用评分卡方法,结合氨基酸和二肽的倾向性评分,实现了高效的苦味肽识别。在独立数据集上,其准确率达到84.38%,显著优于其他机器学习分类器,为药物开发和营养研究提供了重要工具。

摘要

In general, hydrolyzed proteins, plant-derived alkaloids and toxins displays unpleasant bitter taste. Thus, the perception of bitter taste plays a crucial role in protecting animals from poisonous plants and environmental toxins. Therapeutic peptides have attracted great attention as a new drug class. The successful identification and characterization of bitter peptides are essential for drug development and nutritional research. Owing to the large volume of peptides generated in the post-genomic era, there is an urgent need to develop computational methods for rapidly and effectively discriminating bitter peptides from non-bitter peptides. To the best of our knowledge, there is yet no computational model for predicting and analyzing bitter peptides using sequence information. In this study, we present for the first time a computational model called the iBitter-SCM that can predict the bitterness of peptides directly from their amino acid sequence without any dependence on their functional domain or structural information. iBitter-SCM is a simple and effective method that was built using the scoring card method (SCM) with estimated propensity scores of amino acids and dipeptides. Our benchmarking results demonstrated that iBitter-SCM achieved an accuracy and Matthews coefficient correlation of 84.38% and 0.688, respectively, on the independent dataset. Rigorous independent test indicated that iBitter-SCM was superior to those of other widely used machine-learning classifiers (e.g. k-nearest neighbor, naive Bayes, decision tree and random forest) owing to its simplicity, interpretability and implementation. Furthermore, the analysis of estimated propensity scores of amino acids and dipeptides were performed to provide a better understanding of the biophysical and biochemical properties of bitter peptides. For the convenience of experimental scientists, a web server is provided publicly at http://camt.pythonanywhere.com/iBitter-SCM. It is anticipated that iBitter-SCM can serve as an important tool to facilitate the high-throughput prediction and de novo design of bitter peptides.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

iBitter-SCM: Identification and characterization of bitter peptides using a scoring card method with propensity scores of dipeptides (iBitter-SCM:使用带有二肽倾向性评分的评分卡方法识别和表征苦味肽)

1.2. 作者

Phasit Charoenkwana, Janchai Yanab, Nalini Schaduangrat, Chanin Nantasenamatc, Md. Mehedi Hasand, Watshara Shoombuatongc,*

1.3. 发表期刊/会议

Journal of Genomics (基因组学杂志)

1.4. 发表年份

2020年

1.5. 摘要

水解蛋白、植物来源的生物碱和毒素通常会产生令人不快的苦味。因此,苦味感知在保护动物免受有毒植物和环境毒素侵害方面起着至关重要的作用。治疗性肽作为一类新药备受关注。成功识别和表征苦味肽对于药物开发和营养研究至关重要。鉴于后基因组时代产生了大量的肽,迫切需要开发计算方法来快速有效地从非苦味肽中区分苦味肽。据作者所知,目前还没有基于序列信息预测和分析苦味肽的计算模型。在这项研究中,作者首次提出了一种名为 iBitter-SCM 的计算模型,该模型可以直接从氨基酸序列预测肽的苦味,而无需依赖其功能域或结构信息。iBitter-SCM 是一种简单有效的方法,使用评分卡方法 (SCM) 构建,并结合了氨基酸和二肽的估计倾向性评分。基准测试结果表明,iBitter-SCM 在独立数据集上分别达到了 84.38% 的准确率 (Ac) 和 0.688 的马修斯相关系数 (MCC)。严格的独立测试表明,iBitter-SCM 优于其他广泛使用的机器学习分类器(例如 k-近邻 (KNN)、朴素贝叶斯 (NB)、决策树 (DT) 和随机森林 (RF)),因为它具有简单性、可解释性和易于实现。此外,还对氨基酸和二肽的估计倾向性评分进行了分析,以更好地理解苦味肽的生物物理和生化特性。为了方便实验科学家,该工具的网络服务器已公开发布,网址为 http://camt.pythonanywhere.com/iBitter-SCM。预计 iBitter-SCM 可以作为一种重要工具,促进苦味肽的高通量预测和从头设计。

1.6. 原文链接

/files/papers/69135bc8430ad52d5a9ef439/paper.pdf 该论文已于 2020-03-28T00:00:00.000Z 正式发表。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题与重要性

苦味是一种重要的味觉感知,它通常与潜在的毒性相关,对动物(包括人类)的生存具有保护作用。在药物开发和营养研究领域,肽类化合物越来越受到关注,其中一些肽具有治疗潜力。然而,许多水解蛋白、植物生物碱和毒素会产生不愉快的苦味,这在食品工业中可能导致产品不被接受,在药物开发中可能影响患者依从性。因此,准确识别和表征苦味肽对于:

  • 药物开发 (Drug Development):避免开发出具有不必要苦味的治疗性肽,或理解苦味与药效之间的潜在关联。
  • 营养研究 (Nutritional Research):改进食品的口感,去除或减少不希望的苦味,或识别具有特定功能(如益生)的肽。 在后基因组时代,肽序列数据呈爆炸式增长,通过传统的高通量实验方法来筛选和鉴定苦味肽既耗时又昂贵。这使得开发高效、快速的计算方法变得至关重要。

2.1.2. 现有挑战与空白 (Gap)

现有的关于苦味化合物预测的研究主要集中在:

  • 基于定量构效关系 (QSAR) 的小分子或短肽预测:这些模型通常依赖于化合物的三维结构、各种描述符或特定的有限长度肽(如二肽、三肽、四肽)的分析。

  • 基于化学结构预测苦味化合物的工具:如 BitterXBitterPredict,它们侧重于化学结构而非肽序列信息。

    然而,据作者所知,目前还没有专门针对肽序列信息进行苦味预测和表征的计算模型。这意味着,对于任意长度的肽序列,缺乏一种直接利用其氨基酸序列进行苦味评估和机制解析的通用工具。这种空白限制了对大量肽序列进行快速、高通量筛选的能力,也阻碍了对苦味肽生物物理和生化特性更深层次的理解。

2.1.3. 本文切入点与创新思路

本文的创新点在于:

  • 首次提出序列信息驱动的苦味肽预测模型:iBitter-SCM 是第一个直接从氨基酸序列预测肽苦味的计算模型,不依赖于功能域或结构信息。
  • 采用评分卡方法 (SCM) 和倾向性评分:SCM 是一种简单而有效的方法,通过估计氨基酸和二肽的倾向性评分来捕捉苦味肽的特征,这增强了模型的可解释性。
  • 提供生物物理和生化特性分析:模型不仅能预测,还能通过倾向性评分揭示苦味肽的关键氨基酸残基和二肽组成对苦味产生的影响。
  • 开发用户友好的网络服务器:为实验科学家提供一个便捷的在线工具进行高通量预测和从头设计。

2.2. 核心贡献/主要发现

2.2.1. 核心贡献

  1. 开发并首次提出了 iBitter-SCM 模型:一个基于序列信息预测和分析苦味肽的计算模型,填补了该领域的空白。
  2. 创新性地应用了评分卡方法 (SCM):通过结合 遗传算法 (GA) 优化的二肽倾向性评分,实现了高效且可解释的苦味预测。
  3. 构建了高质量的基准数据集:手动收集了 320 个苦味肽和从 BIOPEP 数据库随机生成的 320 个非苦味肽,为模型的开发和评估提供了坚实基础。
  4. 提供了深入的苦味肽特性分析:利用氨基酸和二肽的倾向性评分,以及与 AAindex 中的 Physicochemical Properties (PCPs) 的相关性分析,揭示了苦味肽的生物物理和生化特性(如疏水性、C-末端疏水氨基酸的重要性、侧链碳原子数的影响)。
  5. 发布了公共网络服务器:为实验科学家提供了一个易于使用的在线工具,以促进苦味肽的高通量预测和从头设计。

2.2.2. 主要发现

  1. iBitter-SCM 表现优异:在独立数据集上,iBitter-SCM 实现了 84.38% 的准确率和 0.688 的马修斯相关系数,且 auROC 值达到了 0.904,表明其具有强大的预测能力。
  2. iBitter-SCM 优于传统机器学习模型:相比于 k-近邻 (KNN)朴素贝叶斯 (NB)决策树 (DT)支持向量机 (SVM)随机森林 (RF) 等主流分类器,iBitter-SCM 在预测性能、简单性、可解释性和实现方面均显示出优势。
  3. 优化后的二肽倾向性评分显著提升模型性能遗传算法 (GA) 优化后的 opti-DPS 在准确率和 MCC 上均优于未经优化的 init-DPS,证明了优化过程的有效性。
  4. 揭示苦味肽的关键特性
    • 高倾向性氨基酸Gly (甘氨酸)Phe (苯丙氨酸)Pro (脯氨酸)Glu (谷氨酸)Asp (天冬氨酸) 是苦味肽中倾向性最高的氨基酸。PhePro 在增强苦味方面发挥重要作用。
    • 疏水性是关键因素:疏水性氨基酸残基(如 PheProIleCysValLeu)在苦味肽中含量较高,且 PCP 分析也证实了疏水性(如 PONP800104)与苦味强度高度相关。
    • C-末端疏水氨基酸的重要性:位于 C-末端的疏水氨基酸对苦味强度有显著影响,其苦味强度通常高于位于 N-末端的同类氨基酸。
    • 侧链碳原子数的影响:氨基酸侧链的碳原子数量越多,通常越能增强苦味强度。线性侧链(如 n-Valn-Leu)比支链(如 ValIleLeu)产生更强的苦味。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 肽 (Peptides)

中文翻译 (English Term):肽 (Peptides) 解释:肽是由两个或多个氨基酸通过肽键连接而成的化合物。它们比蛋白质小,可以具有多种生物活性,包括激素作用、抗菌、抗氧化和味觉调节等。在本文中,重点关注的是它们是否具有苦味。

3.1.2. 苦味感知 (Bitter Taste Perception)

中文翻译 (English Term):苦味感知 (Bitter Taste Perception) 解释:苦味是人类五种基本味觉之一,通常与潜在的有毒物质相关联。味觉感受器(例如人类的 TAS2Rs)负责识别不同的苦味化合物。理解苦味产生机制和预测化合物苦味的能力对食品和医药领域都非常重要。

3.1.3. 定量构效关系 (Quantitative Structure-Activity Relationship, QSAR)

中文翻译 (English Term):定量构效关系 (Quantitative Structure-Activity Relationship, QSAR) 解释QSAR 是一种计算化学方法,旨在建立分子结构(或其描述符)与特定生物活性(如苦味强度)之间的数学关系模型。通过 QSAR 模型,研究人员可以在没有进行昂贵实验的情况下预测新化合物的活性。它通常用于药物发现、毒性预测和材料科学。

3.1.4. 机器学习 (Machine Learning, ML)

中文翻译 (English Term):机器学习 (Machine Learning, ML) 解释机器学习 是一类人工智能方法,它允许计算机系统通过从数据中学习模式来进行预测或决策,而无需明确编程。在本文中,多种 机器学习 算法被用于构建和比较苦味肽的分类模型。

  • k-近邻 (k-nearest neighbor, KNN):一种非参数分类和回归方法。它根据一个样本在特征空间中最接近的 kk 个训练样本的类别或值来预测该样本的类别或值。
  • 朴素贝叶斯 (Naive Bayes, NB):基于贝叶斯定理和特征条件独立性假设的分类算法。它简单高效,在文本分类等领域表现良好。
  • 决策树 (Decision Tree, DT):一种树形结构的分类器,通过一系列简单的决策规则来对数据进行分类。每个内部节点代表一个特征上的测试,每个分支代表一个测试结果,每个叶节点代表一个类别标签。
  • 随机森林 (Random Forest, RF):一种集成学习方法,通过构建多个 决策树 并将其预测结果进行平均或投票来提高模型的准确性和鲁棒性。
  • 支持向量机 (Support Vector Machine, SVM):一种二分类模型。它的基本思想是找到一个超平面,使不同类别的样本点之间的间隔最大化。

3.1.5. 评分卡方法 (Scoring Card Method, SCM)

中文翻译 (English Term):评分卡方法 (Scoring Card Method, SCM) 解释SCM 是一种用于预测和分析蛋白质和肽功能的方法,它通过估计氨基酸或二肽的倾向性评分(即这些元素在特定功能蛋白质/肽中出现的可能性或对该功能的贡献程度)来进行。这些评分可以用于计算给定序列的总分,并基于阈值进行分类,同时提供对序列特征的直观解释。

3.1.6. 氨基酸和二肽倾向性评分 (Amino Acid and Dipeptide Propensity Scores)

中文翻译 (English Term):氨基酸和二肽倾向性评分 (Amino Acid and Dipeptide Propensity Scores) 解释:在 SCM 中,倾向性评分 量化了特定氨基酸或二肽(两个相连的氨基酸)对给定功能(例如,苦味)的贡献程度。较高的 倾向性评分 表明该氨基酸或二肽在具有该功能的序列中更常见或更重要。这些评分可以从统计分析(如标准化频率)或通过优化算法(如 遗传算法)获得。

3.2. 前人工作

3.2.1. 早期 QSAR 模型

  • Yin 等人 (2010):开发了 28 个 QSAR 模型来预测二肽的苦味。他们使用了定量多维氨基酸描述符 E(E1E5)E (E1-E5),这些描述符代表了疏水性、空间特性、α-螺旋偏好、组成和净电荷。模型基于 支持向量回归 (SVR),分析了 48 个 ACE 抑制剂二肽、55 个 ACE 抑制剂三肽和 48 个苦味二肽。

  • Soltani 等人 (2013):分析了 229 个肽和 5 个氨基酸的实验苦味值,特别是苦味阈值 (log(1/T))( \log ( 1 / T ) )。他们使用 多重线性回归 (MLR)支持向量机 (SVM)人工神经网络 (ANN) 构建模型,描述 224 个肽的 3D 描述符包含 1295 个特征。

  • Xu 和 Chung (2019):提出了通过整合 14 个氨基酸描述符来预测苦味肽的 QSAR 模型。他们的交叉验证数据集包含 48 个二肽、52 个三肽和 23 个四肽。

    这些工作主要关注特定长度肽的 QSAR 建模,往往依赖于复杂的描述符或 3D 结构信息。

3.2.2. 基于化学结构的苦味预测工具

  • Huang 等人 (2016) 的 BitterX:一个用于识别小分子的人类苦味受体 TAS2Rs 的工具。它使用了 顺序最小优化 (SMO)逻辑回归 (LR)随机森林 (RF) 算法来区分苦味和非苦味化合物,但主要关注小分子,而非肽序列。
  • Dagan-Wiener 等人 (2017) 的 BitterPredict:一个 机器学习 分类器,根据化学结构预测化合物是否具有苦味。同样,它侧重于化学结构而非肽序列。

3.2.3. 技术演进与本文的定位

从上述工作可以看出,该领域的技术演进经历了从早期的实验鉴定到 QSAR 建模(通常基于有限的肽长度和结构描述符),再到基于化学结构的小分子苦味预测。然而,对于任意长度肽的苦味预测,尤其是直接利用其氨基酸序列信息,仍然存在一个显著的空白。

3.2.4. 差异化分析

本文提出的 iBitter-SCM 方法与上述相关工作的主要区别和创新点在于:

  • 序列信息作为唯一输入:iBitter-SCM 直接使用肽的氨基酸序列作为输入,而无需任何结构或功能域信息。这与许多 QSAR 模型形成对比,后者通常需要计算复杂的结构描述符,且往往仅限于短肽。
  • 普适性更强:iBitter-SCM 不受肽长度限制,可以应用于任意长度的肽序列,而 QSAR 模型通常对特定长度的肽效果更好。
  • 模型可解释性:iBitter-SCM 基于 评分卡方法 (SCM)倾向性评分,这些评分可以直接量化每个氨基酸或二肽对苦味的贡献,提供了比许多“黑箱” 机器学习 模型(如 SVMRF)更强的生物学可解释性。这使得研究人员不仅能预测苦味,还能理解哪些序列特征导致了苦味。

4. 方法论

4.1. 方法原理

iBitter-SCM 的核心思想是利用 评分卡方法 (SCM),通过计算氨基酸和二肽的倾向性评分来识别和表征苦味肽。SCM 假设肽的整体苦味属性可以通过其组成氨基酸和相邻二肽的特定贡献来量化。通过将这些贡献(即倾向性评分)相加,可以得到一个总分,然后根据预设的阈值将肽分类为苦味或非苦味。这种方法不仅提供预测,还能通过分析倾向性评分来揭示苦味肽的生物物理和生化特征,从而增强模型的可解释性。

4.2. 核心方法详解 (逐层深入)

4.2.1. 基准数据集构建 (Benchmark Datasets Construction)

为了构建一个高质量的基准数据集,作者遵循了以下步骤:

  1. 收集苦味肽 (Positive Dataset):从多种文献来源(如 [3,9-14,17,20-26])和 BIOPEP 数据库 [27] 手动收集了经过实验验证的苦味肽。
  2. 数据清洗
    • 移除了包含模糊残基(如 XXBBUUZZ)的肽。
    • 移除了重复的肽序列,确保所有肽序列的唯一性。 最终得到了 320 个唯一的苦味肽作为阳性数据集。
  3. 构建非苦味肽数据集 (Negative Dataset):由于实验验证的非苦味肽很少,作者采用了标准方法 [42-44],从 BIOPEP 数据库 [27] 中随机生成了 320 个肽,将其视为非苦味肽。
  4. 最终数据集:将 320 个苦味肽和 320 个非苦味肽合并,形成名为 BTP640 的基准数据集。
  5. 数据集划分:为避免模型过拟合,BTP640 数据集被随机划分为训练集 (BTP-CV) 和独立测试集 (BTP-TS),比例为 8:2。
    • BTP-CV 包含 256 个苦味和非苦味肽。
    • BTP-TS 包含 64 个苦味和非苦味肽。

4.2.2. 特征表示 (Feature Representation)

肽序列首先需要被转换为数值特征,以便 机器学习 模型处理。iBitter-SCM 采用的是 二肽组成 (Dipeptide Composition, DPC)

给定一个肽序列 P\mathbf{P},它可以表示为: P=p1p2p3...p1N \mathbf { P } = \mathtt { p } _ { 1 } \mathtt { p } _ { 2 } \mathtt { p } _ { 3 } . . . \mathtt { p } _ { 1 \mathrm { N } } 其中,pi\mathtt{p}_i 表示肽 P\mathbf{P} 中的第 ii 个氨基酸残基,N\mathrm{N} 表示肽的长度。氨基酸残基 pi\mathtt{p}_i 属于 20 种天然氨基酸的集合(AACCDDEEFFGGHHIIKKLLMMNNPPQQRRSSTTVVWWYY)。

DPC 是一种广泛使用的、可解释且有效的特征表示方法。它表示肽序列中所有 400 种可能的天然二肽(20 种氨基酸 ×\times 20 种氨基酸)的出现频率。 因此,一个肽序列 P\mathbf{P} 可以用一个 400 维的向量表示: P=[dp1,dp2,...,dp400]T \mathbf { P } = [ \mathrm { d } \mathbf { p } _ { 1 } , \mathrm { d } \mathbf { p } _ { 2 } , . . . , \mathrm { d } \mathbf { p } _ { 400 } ] ^ { \mathbf { T } } 其中,T\mathbf{T} 是转置运算符,而 dp1,dp2,,dp400\mathrm{d}\mathbf{p}_1, \mathrm{d}\mathbf{p}_2, \ldots, \mathrm{d}\mathbf{p}_{400} 分别表示这 400 种天然二肽在肽序列 P\mathbf{P} 中的出现频率。

4.2.3. 评分卡方法 (SCM) 实施步骤

iBitter-SCM 的开发涉及 SCM 方法的六个主要步骤:

  1. 准备训练集 (BTP-CV) 和独立测试集 (BTP-TS):如前所述,数据集已被划分。

  2. 计算初始二肽倾向性评分 (init-DPS)init-DPS 是使用统计方法计算的。对于每种二肽,其初始倾向性评分可以通过比较其在苦味肽和非苦味肽中出现的频率来估计。具体来说,对于每种二肽 XY,其 init-DPS 可以通过以下方式计算: init-DPS(XY)=log(fbitter(XY)+ϵfnon-bitter(XY)+ϵ) \text{init-DPS}(XY) = \log \left( \frac{f_{\text{bitter}}(XY) + \epsilon}{f_{\text{non-bitter}}(XY) + \epsilon} \right) 其中,fbitter(XY)f_{\text{bitter}}(XY) 是二肽 XY 在苦味肽数据集中出现的标准化频率,fnon-bitter(XY)f_{\text{non-bitter}}(XY) 是二肽 XY 在非苦味肽数据集中出现的标准化频率,ϵ\epsilon 是一个小的常数(如 1),用于避免除以零的情况。这个公式捕捉了二肽 XY 在苦味肽中相对非苦味肽的富集程度。

  3. 使用遗传算法 (GA) 优化 init-DPS 获得 opti-DPS (Augmented Dipeptide Propensity Score)遗传算法 (GA) 是一种启发式搜索算法,灵感来源于生物进化过程中的自然选择。在这里,GA 用于优化 init-DPS,以找到一组更能有效区分苦味肽和非苦味肽的二肽倾向性评分。

    • 目标函数 (Fitness Function)GA 的目标是最大化模型的分类性能(例如,在 BTP-CV 数据集上的 MCCAccuracy)。
    • 个体 (Individual)GA 中的每个“个体”代表一组 400 个二肽的倾向性评分。
    • 进化过程GA 通过选择、交叉、变异等操作,迭代地改进这些评分,使得每一代产生的“个体”(评分集)在目标函数上的表现越来越好,从而找到最佳的 opti-DPS。由于 GA 的非确定性特性,会运行多次 GA 实验(本文中是 10 次)以获得多个 opti-DPS 候选集,并选择性能最佳的一个。
  4. 估计氨基酸倾向性评分 (Amino Acid Propensity Scores): 在获得 opti-DPS 之后,可以通过统计方法从 opti-DPS 中推导出 20 种氨基酸的倾向性评分。这通常是通过对包含该氨基酸的所有二肽的 opti-DPS 进行平均或其他统计处理来完成的。例如,一个氨基酸的倾向性评分可以由所有以它开头或结尾的二肽的 opti-DPS 的平均值或加权平均值来决定。

  5. 使用加权和 (Weighted-Sum) 和 opti-DPS 区分苦味肽和非苦味肽: 对于给定的肽序列 P\mathbf{P},其苦味评分 (Bitter Score, BS) 可以通过将其 DPCopti-DPS 进行加权求和来计算。虽然原文没有直接给出 S(P)(即苦味评分)的显式公式,但它描述为“使用加权和与 opti-DPS 区分苦味肽和非苦味肽”,这通常意味着: BS(P)=j=1400dpj(P)×opti-DPSj \mathrm{BS}(\mathbf{P}) = \sum_{j=1}^{400} \mathrm{dp}_j(\mathbf{P}) \times \text{opti-DPS}_j 其中,BS(P)\mathrm{BS}(\mathbf{P}) 是肽 P\mathbf{P} 的苦味评分,dpj(P)\mathrm{dp}_j(\mathbf{P}) 是二肽 jj 在肽 P\mathbf{P} 中的出现频率(来自 DPC 向量),opti-DPSj\text{opti-DPS}_j 是二肽 jj 的优化倾向性评分。 一旦计算出 BS(P),就可以通过与一个阈值 (Threshold) 进行比较来对肽进行分类。如果 BS(P) 大于该阈值,则肽被分类为苦味肽;否则,为非苦味肽。这个阈值也是在模型训练过程中(通常通过优化 MCCAccuracy)确定的。

  6. 使用氨基酸和二肽的倾向性评分进行苦味肽表征 (Bitter Peptides Characterization)SCM 的优势在于其可解释性。通过分析高倾向性评分的氨基酸和二肽,可以直接识别对苦味贡献最大的序列元素。这些分析结果有助于理解苦味肽的生物物理和生化基础。

4.2.4. 苦味肽的表征分析

为了深入分析苦味肽的生物物理和生化特性,作者利用了以下方法:

  • 倾向性评分分析:氨基酸和二肽的倾向性评分直接揭示了它们对苦味的相对重要性。高倾向性评分的氨基酸和二肽被认为是苦味肽的关键组成部分。
  • 物理化学特性 (Physicochemical Property, PCP) 分析:从 AAindex 数据库 [49] 中提取了氨基酸的 PCPs。通过计算氨基酸倾向性评分与 PCPs 之间的 皮尔逊相关系数 (Pearson Correlation Coefficient, R),可以识别与苦味最相关的物理化学特性(如疏水性、侧链大小等)。

5. 实验设置

5.1. 数据集

5.1.1. 数据集来源与构建

  • 名称BTP640
  • 组成:包含 320 个苦味肽(阳性样本)和 320 个非苦味肽(阴性样本),总计 640 个肽序列。
  • 苦味肽来源:手动从多种文献 [3,9-14,17,20-26] 和 BIOPEP 数据库 [27] 中收集,这些肽经过实验验证具有苦味。
  • 非苦味肽来源:由于实验验证的非苦味肽稀少,采用了从 BIOPEP 数据库 [27] 中随机生成 320 个肽的方法。
  • 数据清洗:移除了含有模糊残基(如 XX, BB, UU, ZZ)的肽,并去除了重复序列,确保数据集的唯一性。

5.1.2. 数据集划分

BTP640 数据集被随机划分为两个子集,比例为 8:2:

  • 训练集 (BTP-CV):包含 256 个苦味和非苦味肽。用于模型训练、参数优化和 10 折交叉验证 (10-fold CV)。
  • 独立测试集 (BTP-TS):包含 64 个苦味和非苦味肽。用于评估模型在未见过数据上的泛化能力和鲁棒性。

5.2. 评估指标

为了全面评估模型的预测能力,论文使用了以下针对二分类问题广泛使用的指标:

5.2.1. 准确率 (Accuracy, Ac)

概念定义准确率 表示模型正确分类的样本数占总样本数的比例。它衡量了模型整体的正确性。 数学公式Ac=TP+TNTP+TN+FP+FN \mathrm{Ac} = \frac{\mathrm{TP} + \mathrm{TN}}{\mathrm{TP} + \mathrm{TN} + \mathrm{FP} + \mathrm{FN}} 符号解释

  • TP\mathrm{TP} (True Positives):真阳性,实际为苦味肽且被模型正确预测为苦味肽的样本数。
  • TN\mathrm{TN} (True Negatives):真阴性,实际为非苦味肽且被模型正确预测为非苦味肽的样本数。
  • FP\mathrm{FP} (False Positives):假阳性,实际为非苦味肽但被模型错误预测为苦味肽的样本数。
  • FN\mathrm{FN} (False Negatives):假阴性,实际为苦味肽但被模型错误预测为非苦味肽的样本数。

5.2.2. 敏感性 (Sensitivity, Sn)

概念定义敏感性(或称召回率、真阳性率)表示模型正确预测为苦味肽的样本数占所有实际苦味肽样本数的比例。它衡量了模型识别阳性样本的能力。 数学公式Sn=TPTP+FN \mathrm{Sn} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FN}} 符号解释

  • TP\mathrm{TP}:真阳性。
  • FN\mathrm{FN}:假阴性。

5.2.3. 特异性 (Specificity, Sp)

概念定义特异性(或称真阴性率)表示模型正确预测为非苦味肽的样本数占所有实际非苦味肽样本数的比例。它衡量了模型识别阴性样本的能力。 数学公式Sp=TNTN+FP \mathrm{Sp} = \frac{\mathrm{TN}}{\mathrm{TN} + \mathrm{FP}} 符号解释

  • TN\mathrm{TN}:真阴性。
  • FP\mathrm{FP}:假阳性。

5.2.4. 马修斯相关系数 (Matthews Correlation Coefficient, MCC)

概念定义MCC 是一个衡量二分类模型性能的综合指标,特别适用于类别不平衡的数据集。它的值介于 -1 和 +1 之间,+1 表示完美预测,0 表示随机预测,-1 表示完全不一致的预测。MCC 考虑了所有四种混淆矩阵结果 (TP, TN, FP, FN),被认为是比 准确率 更平衡的指标。 数学公式MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN) \mathrm{MCC} = \frac{\mathrm{TP} \times \mathrm{TN} - \mathrm{FP} \times \mathrm{FN}}{\sqrt{(\mathrm{TP} + \mathrm{FP})(\mathrm{TP} + \mathrm{FN})(\mathrm{TN} + \mathrm{FP})(\mathrm{TN} + \mathrm{FN})}} 符号解释

  • TP\mathrm{TP}:真阳性。
  • TN\mathrm{TN}:真阴性。
  • FP\mathrm{FP}:假阳性。
  • FN\mathrm{FN}:假阴性。

5.2.5. 受试者工作特征曲线 (Receiver Operating Characteristic curve, ROC) 和 曲线下面积 (Area Under the ROC Curve, auAUC)

概念定义

  • ROC 曲线 是一种图形化工具,用于展示二分类模型在所有可能分类阈值下的性能。它以真阳性率 (敏感性) 为 Y 轴,假阳性率 (1 - 特异性) 为 X 轴绘制。
  • auAUCROC 曲线 下方的面积,它量化了模型在所有分类阈值下的整体性能。auAUC 值为 0.5 表示随机预测,1 表示完美预测。它是一个独立于阈值的性能指标,衡量了模型将阳性样本排在阴性样本之前的能力。

5.3. 对比基线

论文将 iBitter-SCM 与以下几种方法进行了比较:

  1. BLAST (Basic Local Alignment Search Tool):一种基于序列相似性的工具,用于识别同源序列。在本研究中,BTP-CV 数据集被用作 BLASTP 数据库,BTP-TS 数据集作为查询序列,通过不同的 EE 值截止点评估其预测性能。
  2. 五种广泛使用的机器学习分类器:这些模型都使用相同的特征表示(DPC)和交叉验证方法,并在 Scikit-Learn 包 [62] 中实现。
    • k-近邻 (k-nearest neighbor, KNN)
    • 朴素贝叶斯 (Naive Bayes, NB)
    • 决策树 (Decision Tree, DT)
    • 支持向量机 (Support Vector Machine, SVM)
    • 随机森林 (Random Forest, RF)

6. 实验结果与分析

6.1. Prediction results using BLAST (BLAST 预测结果)

BLAST 是一种基于序列相似性的常用工具。为了评估其在苦味肽预测方面的能力,作者使用 BTP-CV 作为 BLASTP 数据库,BTP-TS 作为查询序列,并在不同的 EE 值截止点下进行了测试。

以下是原文 Table 1 的结果:

E-valueAc (%)Sn (%)Sp (%)
0.165.0834.9295.24
0.0156.3515.8796.83
0.00153.9711.1196.83
0.000150.794.7696.83

从 Table 1 可以看出:

  • EE 值为 0.1 时,BLASTP 达到了最高的 准确率 (Ac) 65.08%。
  • 随着 EE 值截止点变得更严格(从 0.1 减小到 0.0001),准确率 逐渐下降到 50.79%,敏感性 (Sn) 也显著下降。
  • 尽管 特异性 (Sp) 保持在较高水平(95% 以上),但 敏感性 极低(最低只有 4.76%),这意味着 BLAST 很难识别出真正的苦味肽。
  • 这些结果表明,仅仅依靠序列相似性来预测苦味肽的能力是不足的。因此,需要开发更智能的基于 机器学习 的计算模型。

6.2. Prediction performance of iBitter-SCM (iBitter-SCM 的预测性能)

本研究旨在开发一个名为 iBitter-SCM 的基于序列的预测器,利用 SCM 模型和二肽倾向性评分来区分苦味肽和非苦味肽。由于 遗传算法 (GA) 的非确定性特性,作者进行了 10 次独立的 SCM 模型训练,每次都生成不同的优化二肽倾向性评分 (opti-DPS)。

以下是原文 Table 2 的结果,展示了 10 个 SCM 模型在独立测试集上的性能比较:

#Exp.Fitness scoreThresholdAc (%)Sn (%)Sp (%)MCCauROC
10.90133482.8181.2584.380.6570.896
20.90933282.8184.3881.250.6570.865
30.90434382.8176.5689.060.6610.881
40.91133182.8185.9479.690.6580.871
50.90933384.3884.3884.380.6880.904
60.90833482.8184.3881.250.6570.872
70.91133483.5982.8184.380.6720.860
80.90833382.8184.3881.250.6570.884
90.90133384.3885.9482.810.6880.890
100.90733382.8185.9479.690.6580.893
Mean0.907334.00083.2083.5982.810.6650.882
STD.0.0043.3000.662.882.850.0130.014

结果分析:

  • 最佳模型选择:在 10 次实验中,实验 #5 在独立测试集上表现最佳,取得了 84.38% 的 准确率 (Ac)、0.688 的 马修斯相关系数 (MCC) 和 0.904 的 auROC。该模型在 10 折交叉验证中也表现出色(Ac 87.11%, MCC 0.751, auROC 0.903)。
  • 稳定性:尽管 GA 具有非确定性,但 10 次实验的平均 Ac 为 83.20%,MCC 为 0.665,auROC 为 0.882,标准差较小,表明 SCM 方法在预测苦味肽方面具有相对稳定的性能。
  • iBitter-SCM 的定义:最终,实验 #5 中获得的 opti-DPS 被选定,并结合 SCM 方法,构成了本文提出的 iBitter-SCM 模型。该 opti-DPS 也用于后续的苦味肽生化和生物物理特性分析。

6.3. Contribution and effectiveness of the estimated propensities of dipeptides (估计二肽倾向性评分的贡献和有效性)

为了证明 遗传算法 优化 init-DPS 得到 opti-DPS 的有效性,作者比较了 opti-DPSinit-DPS 在 10 折交叉验证和独立测试上的性能。

以下是原文 Table 3 的结果:

Method10-fold CVIndependent test
Ac (%)MCCAc (%)Sn (%)Sp (%)MCC
Init-DPS85.170.71681.2586.4676.040.628
opti-DPS87.110.75184.3884.3884.380.688

结果分析:

  • 10 折交叉验证opti-DPSAc (87.11%) 和 MCC (0.751) 分别比 init-DPS 高出 2% 和 4%,显示了显著的改进。

  • 独立测试opti-DPSAcSnSpMCC 上均优于 init-DPS,分别提高了 3%、2%、8% 和 6%。这表明 遗传算法 优化过程有效地提升了模型的泛化能力和鲁棒性。

  • 判别能力直方图: 下图(原文 Fig. 3)展示了 init-DPSopti-DPS 在苦味肽和非苦味肽评分分布上的差异。

    Fig. 3. The histogram of scores of bitter and non-bitter peptides derived from iBitter-SCM on the benchmark dataset by using initial (a) and optimized (b) dipeptide propensity scores, respectively. 该图像是图表,展示了来自 iBitter-SCM 的苦味和非苦味肽在基准数据集上的评分直方图,分别使用初始(A)和优化(B)二肽倾向分数。蓝色代表苦味肽,红色代表非苦味肽。

    从 Fig. 3 (a) 和 (b) 中可以看出,opti-DPS(图 b)生成的苦味肽和非苦味肽的评分分布重叠程度明显低于 init-DPS(图 a),这意味着 opti-DPS 具有更强的判别能力,能够更好地将苦味肽和非苦味肽区分开来。

6.4. Comparison of iBitter-SCM with conventional classifiers (iBitter-SCM 与传统分类器的比较)

为了进一步验证 iBitter-SCM 的有效性,作者将其与五种常用的 机器学习 分类器 (KNN, NB, DT, SVM, RF) 进行了比较。所有对比模型均使用相同的特征表示(DPC)和交叉验证方法。

以下是原文 Table 4 的结果:

DatasetClassifierAc (%)Sn (%)Sp (%)MCCauROC
BTP-CVSVM77.5483.2671.890.5600.859
RF76.1886.3566.020.5370.858
NB74.0383.2264.750.4930.789
KNN73.6385.5261.620.4890.736
DT74.4285.5863.320.4850.764
iBitter-SCM87.1191.3182.820.7510.903
BTP-TSSVM84.3882.8185.940.6880.862
RF83.5990.6376.560.6790.916
NB76.5689.0664.060.5490.855
KNN83.5985.9481.250.6730.836
DT78.9185.9471.880.5840.789
iBitter-SCM84.3884.3884.380.6880.904

下图(原文 Fig. 4)展示了 iBitter-SCM 与传统分类器在 ROC 曲线上的比较。

该图像是两个ROC曲线图(A和B),用于评估不同机器学习模型在预测苦味肽时的准确性。图(A)中列出了多个模型的AUC值,其中SCM的AUC值为0.933,为表现最佳的模型。图(B)显示了另外一组模型的评估结果,SCM的AUC值为0.904,也表现良好。

结果分析:

  • 10 折交叉验证 (BTP-CV)
    • iBitter-SCM 取得了最高的 Ac (87.11%)、MCC (0.751) 和 auROC (0.903)。
    • SVMRF 表现次之,但与 iBitter-SCM 仍有明显差距。
  • 独立测试 (BTP-TS)
    • iBitter-SCMSVMAc (84.38%) 和 MCC (0.688) 上表现并列第一,且 iBitter-SCMSp (84.38%) 略高于 SVM (85.94%),但 Sn (84.38%) 略低于 SVM (82.81%)。
    • RF 模型虽然在 Sn (90.63%) 和 auROC (0.916) 上高于 iBitter-SCM,但其 AcMCC 较低,表明其在整体平衡性上不如 iBitter-SCM
  • 综合评估:考虑到独立测试是最严格的交叉验证方法,并且 MCC 是一个更全面的指标,iBitter-SCM 被认为是比其他 机器学习 模型更有效和稳定的预测器。其简单性、可解释性和易于实现也是其优势。

6.5. Identification of peptides having high bitterness intensities (具有高苦味强度的肽的识别)

iBitter-SCM 的一个重要应用是帮助研究人员识别具有高苦味强度的肽。通过计算肽的 苦味评分 (Bitter Score, BS),可以对肽进行排序。

以下是原文 Table 5 的结果,列出了 BTP-CV 数据集中 苦味评分 (BS) 最高的 20 个肽:

PeptidesBSlog(1/T)Reference
PF1000.002.8[64]
RPF839.502.83[17]
GF823.002.36[9,16]
PFP806.503.4[9,16]
GPFF805.003.8[9,16]
LE802.002.52[9,16]
GP774.001.79[9,16]
GGP773.502.04[9,16]
RPFF773.334.4[9,16]
GG773.00tasteless[67]
GGFF745.672.85[9,16]
GFF732.003.23[9,16]
GPPF728.672.52[9,16]
RPFG712.333.41[9,16]
RGP702.001.9[9,16]
LGGGG702.001.90[21]
RGFF698.003.8[9,16]
RPGGFF695.404.04[9,16]
GGFFGG693.63.7[9,16]
RPFFRPFF692.85715[9,16]

结果分析:

  • BS 与苦味:所有 苦味评分 (BS) 最高的肽的 BS 都远高于分类阈值 331(当 BS 大于 331 时,肽被分类为苦味肽)。这表明 iBitter-SCM 能够有效识别高苦味强度的肽。
  • 序列特征:前十名中,多个肽(如 PFRPFPFPGPFFRPFF)含有 P (脯氨酸)F (苯丙氨酸),这与后续氨基酸倾向性分析的结果一致,即 PhePro 对苦味有重要贡献。
  • 例外GG (甘氨酸-甘氨酸)BS 为 773.00,但其 log(1/T)log(1/T) 标记为 tasteless (无味) [67]。这可能表明 BS 并非总能精确反映所有文献中的苦味阈值,也可能反映了不同实验条件下(或不同参考)的苦味感知差异。但总体而言,BS 仍是一个强有力的苦味指示器。

6.6. Analysis of bitter peptides using propensity scores of amino acids and dipeptides (使用氨基酸和二肽倾向性评分分析苦味肽)

为了理解苦味肽的生物化学和生物物理特性,作者分析了氨基酸和二肽的倾向性评分。这些评分是从实验 #5opti-DPS 导出的。

以下是原文 Table 6 的结果,展示了 20 种氨基酸的倾向性评分、它们在苦味肽和非苦味肽中的组成百分比以及差异:

Amino acidBTP (%)Non-BTP (%)P-valueDifferenceScore
G-Gly15.9866.7360.0009.250(1)389.25(1)
F-Phe13.1575.2690.0007.888(2)380.00(2)
P-Pro16.39017.0480.6840.658(11)352.90(3)
E-Glu5.1351.6150.0003.520(3)345.53(4)
D-Asp2.2781.2340.1221.044(6)344.75(5)
I-Ile7.2866.4990.5040.787(7)342.98(6)
R-Arg5.5063.9850.1481.521(5)338.65(7)
C-Cys0.0000.4880.055-0.488(9)336.98(8)
V-Val6.9994.3050.0162.694(4)335.23(9)
L-Leu9.4519.9720.7360.521(10)334.90(10)
M-Met0.2032.0610.000 1.859(16)334.33(11)
W-Trp1.8972.2210.688−0.324(8)328.03(12)
T-Thr0.5981.8790.013 1.280(12)325.28(13)
N-Asn1.7153.0780.042 1.363(13)321.58(14)
H-His0.6793.4770.0002.799(17)318.23(15)
Y-Tyr5.0746.6770.201 1.603(14)317.20(16)
S-Ser0.8562.6960.0011.841(15)312.35(17)
K-Lys2.2516.4250.000- 4.173(18)309.50(18)
A-Ala2.9018.2880.0005.387(20)303.18(19)
Q-Gln1.6406.0470.000− 4.408(19)302.30(20)

分析要点:

  • 高倾向性氨基酸Gly (甘氨酸)Phe (苯丙氨酸)Pro (脯氨酸)Glu (谷氨酸)Asp (天冬氨酸) 是苦味肽中倾向性评分最高的五种氨基酸。其中,GlyPhe 在苦味肽中的百分比显著高于非苦味肽。

  • 疏水性氨基酸的重要性:疏水性氨基酸集合通常包括 GlyPheProIleCysValLeuMetTrpTyrAla。在倾向性评分最高的前十名氨基酸中,有七种是疏水性氨基酸(GlyPheProIleCysValLeu)。特别是 PhePro 分别排在第 2 和第 3 位,表明它们在苦味肽中起着关键作用。

  • 低倾向性氨基酸Ala (丙氨酸)Gln (谷氨酰胺) 具有最低的倾向性评分,且在苦味肽中的组成百分比远低于非苦味肽,表明它们对苦味贡献较小。Lys (赖氨酸)Ser (丝氨酸)Tyr (酪氨酸) 也是低倾向性氨基酸。

  • 二肽倾向性评分:根据原文 Fig. 2(热图)和 Table S2(原文未提供),苦味肽中排名前十的二肽包括 PFISQLDPGFNALEGPGGYV。而非苦味肽中排名前十的二肽包括 LPYIPNLVRKTFLKESHSWM。这提供了更细粒度的苦味贡献信息。

    Fig. 2. Heatmap of dipeptide propensity scores obtained from the proposed iBitter-SCM. 该图像是热图,展示了通过iBitter-SCM获得的二肽倾向性评分。颜色深浅反映了不同二肽的评分值,有助于理解与苦味相关的二肽特性。

    上图(原文 Fig. 2)显示了二肽倾向性评分的热图,颜色越深表示倾向性评分越高,对苦味的贡献越大。例如,PFGFGP 等二肽在热图中颜色较深,表明它们与苦味密切相关。

6.6.1. PhePro 的作用

多项研究(如 Ishibashi 等人 [22,26])已证实 PhePro 在增强苦味中的重要性。例如,含有 Phe 的寡肽在 C-端或 N-端都可能产生苦味,并且一些含 Phe 的肽(如 FPFRPFFRRPFF)甚至比咖啡因的苦味强度高出许多倍。Pro 同样能产生苦味,与 Gly 结合的肽(如 GPPPG)也表现出强苦味。

6.6.2. Ala 的作用

Ala 的倾向性评分较低(303.18),且在苦味肽中的百分比(2.901%)远低于非苦味肽(8.288%)。这表明 Ala 对苦味不是一个重要的元素。

6.7. Analysis of bitter peptides using informative physicochemical properties (使用信息丰富的物理化学特性分析苦味肽)

作者通过计算氨基酸倾向性评分与 AAindex [49] 中 PCPs皮尔逊相关系数 (R),来识别与苦味相关的关键生物物理和生化特性。

以下是原文 Table 7 的结果,展示了与苦味肽相关的三个重要 PCP

Amino acidScorePONP800104MEIH800103COWR900101
G-Gly389.25(1)15.36(1)90(8)0(11)
F-Phe380.00(2)14.08(4)108(1)1.74(3)
P-Pro352.90(3)11.51(16)78(15)0.86(7)
E-Glu345.53(4)12.55(11)72(16)0.37(13)
D-Asp344.75(5)10.98(20)71(17)-0.51(14)
I-Ile342.98(6)14.63(2)105(2)1.81(1)
R-Arg338.65(7)11.28(18)81(14)−1.56(18)
C-Cys336.98(8)14.49(3)104(3)0.84(8)
V-Val335.23(9)12.88(9)94(6)1.34(5)
L-Leu334.90(10)14.01(5)104(4)1.8(2)
M-Met334.33(11)13.4(7)100(5)1.18(6)
W-Trp328.03(12)12.06(13)94(7)1.46(4)
T-Thr325.28(13)13(8)83(11)−0.26(12)
N-Asn321.58(14)12.24(12)70(18)−1.03(17)
H-His318.23(15)11.59(15)90(9)2.28(20)
Y-Tyr317.20(16)12.64(10)83(12)0.51(9)
S-Ser312.35(17)11.26(19)83(13)0.64(15)
K-Lys309.50(18)11.96(14)65(20)−2.03(19)
A-Ala303.18(19)13.65(6)87(10)0.42(10)
Q-Gln302.30(20)11.3(17)66(19)−0.96(16)

分析要点:

  • 与疏水性高度相关:选出的三个 PCPs 分别是 PONP800104(α-螺旋中的环境疏水性,RR = 0.495)、MEIH800103(疏水矩方向,RR = 0.403)和 COWR900101(疏水性指数,RR = 0.396)。这三个 PCPs 都与氨基酸的疏水特性密切相关,表明疏水性是决定肽苦味的关键因素。
  • 其他与疏水性相关的 PCPs,如 WILM950101(疏水性系数)和 EISD860103(疏水矩的直接性),也在 Table S3 中被列为重要特性。这进一步强调了疏水性在苦味肽中的核心作用。

6.7.1. Importance of hydrophobic amino acid residue for the manifestation of bitterness (疏水性氨基酸残基对苦味表现的重要性)

多项研究(如 Matoba 和 Hata [3]、Tamura 等人 [71])指出,疏水性氨基酸残基在肽的苦味表现中起着关键作用。

  • 苦味肽通常具有两个主要活性位点:结合单元 (BU) 和刺激单元 (SU)。苦味的强度取决于当 BUSU 共存于受体口袋底部时,位于受体壁上的疏水性识别区。
  • Gly 本身可能无味或甜味,但当它与疏水性氨基酸(如 ProValIleLeuPheTyr)结合形成二肽或三肽时,往往会产生苦味。
  • 肽的疏水性增加,其苦味强度也随之增加。例如,VV 二肽是鲜味,但 三Val四Val 肽则表现出苦味。类似地,Phe二Phe三Phe 的苦味强度依次增强。
  • 由大量疏水性氨基酸(如 GlyPhe)组成的肽能够产生强烈的苦味。这表明苦味受体识别的是苦味肽的疏水性特征。

6.7.2. Importance of hydrophobic amino acids located at the C-terminus for determining bitterness intensity (位于 C-末端的疏水性氨基酸对苦味强度决定的重要性)

除了氨基酸的疏水性本身,其在肽链中的位置也对苦味强度有影响。

  • Ishibashi 等人 [20,26,65,66] 的研究表明,当疏水性氨基酸(如 Phe)位于 C-末端时,其苦味强度通常高于位于 N-末端的情况。例如,FGFV 二肽在 Phe 位于 C-末端时具有更强的苦味。
  • 含有 C-末端 疏水性氨基酸的寡肽(如 RPFFRRPFF)比咖啡因的苦味高出 25 到 50 倍。
  • QSAR 模型的分析也支持 C-末端 氨基酸的高疏水性是苦味的关键决定因素 [17]。
  • 然而,也有例外,例如 Ishibashi 等人 [67] 的研究显示,连接 C-末端 Val 的肽苦味强度低于连接 N-末端 Val 的肽,这表明这种位置效应可能因氨基酸而异。

6.7.3. The number of carbon atoms on the amino acid side chain affects the intensity of bitterness (氨基酸侧链的碳原子数量影响苦味强度)

氨基酸侧链的结构特征(如碳原子数量、线性/支链)也被发现与苦味强度有关。

  • 侧链碳原子数
    • GlyAlaaminobutylric acid (Abu) 等侧链碳原子数较少(小于三个)的氨基酸,其单体或寡肽通常无味。
    • Val(含丙基侧链,三个碳)表现出混合的苦味和甜味,但当 Val 连接到 C-末端时,苦味更加明显。
    • Pro(侧链三个碳)也呈现出苦甜混合的味道,且几乎所有含 Pro 的肽都具有苦味。
    • 当侧链碳原子数大于四个时(如 LeuIlePheTyr),这些氨基酸与 Gly 形成的肽几乎都产生了苦味。这强烈表明侧链的碳原子数量显著影响苦味强度。
  • 线性与支链侧链
    • 具有线性丙基侧链的 正缬氨酸 (n-Val) 产生的苦味比支链 Val 更强。
    • 具有线性丁基侧链的 正亮氨酸 (n-Leu) 产生的苦味比支链 LeuIle 更强。 这些发现表明,线性侧链比支链更能增强苦味强度。

6.8. iBitter-SCM web server (iBitter-SCM 网络服务器)

为了方便科学界使用,作者开发了一个用户友好的 iBitter-SCM 网络服务器,并在 http://camt.pythonanywhere.com/iBitter-SCM 上免费提供。

下图(原文 Fig. 5)是 iBitter-SCM 网络服务器的截图。

Fig. 5. Screenshots of the iBitter-SCM web server. 该图像是iBitter-SCM网站的截图,展示了输入序列的功能,用户可以粘贴或上传FASTA格式的文件进行预测或清除操作。

用户可以通过以下步骤进行预测:

  1. 打开网站。
  2. 在文本框中输入查询序列,或点击 "Choose file" 按钮上传 FASTA 格式的文件。
  3. 点击 "Submit" 按钮启动预测过程,结果将在网页右侧显示。

7. 总结与思考

7.1. 结论总结

本文首次提出并开发了一个基于序列的计算模型 iBitter-SCM,用于预测和表征肽的苦味。该模型利用了 评分卡方法 (SCM)遗传算法 (GA) 优化的二肽倾向性评分,实现了从氨基酸序列直接预测苦味,而无需依赖结构或功能域信息。在独立数据集上,iBitter-SCM 表现出卓越的性能,其 准确率 达到 84.38%,马修斯相关系数 (MCC) 为 0.688,并优于多种常用的 机器学习 分类器。通过分析氨基酸和二肽的倾向性评分以及相关的物理化学特性,iBitter-SCM 揭示了苦味肽的关键生物物理和生化特征,例如疏水性、C-末端疏水氨基酸的重要性以及侧链碳原子数量对苦味强度的影响。最终,作者发布了一个公开的网络服务器,极大地便利了实验科学家进行苦味肽的高通量预测和从头设计。

7.2. 局限性与未来工作

7.2.1. 论文作者指出的局限性与未来工作

论文中未明确指出自身的局限性,但其强调了开发高效计算方法以应对后基因组时代大量肽序列的挑战,以及 iBitter-SCM 在促进苦味肽高通量预测和从头设计中的作用,暗示了当前研究的重点是解决大规模筛选和设计问题。

7.2.2. 个人分析的局限性与未来工作

  • 数据集的覆盖范围:尽管构建了基准数据集,但 320 个苦味肽和 320 个非苦味肽的数量在整个肽空间中可能仍显有限。尤其是非苦味肽是通过随机生成而非实验验证,这可能引入一定偏差。未来工作可以致力于扩大和丰富经过实验验证的苦味和非苦味肽数据集。
  • 单一特征表示:模型主要依赖 二肽组成 (DPC)。虽然 DPC 是一种有效的特征,但结合其他序列特征(如氨基酸组成、伪氨基酸组成、序列保守性信息或更复杂的序列嵌入表示)可能会进一步提高模型的性能和泛化能力。
  • 模型可解释性的深入挖掘SCM 提供了直观的倾向性评分,但这些评分如何精确地映射到具体的味觉受体结合机制,仍需进一步的生物学实验验证。未来可以探索将模型预测与分子对接或动力学模拟结合,以提供更深层次的机制解释。
  • 阈值的设定:模型的分类依赖于一个固定的阈值(例如 331)。这个阈值的选择可能对模型的 敏感性特异性 产生影响。在实际应用中,用户可能需要根据具体需求调整阈值。未来可以研究动态阈值调整策略或提供置信度评分。
  • 肽的长度效应:虽然 DPC 理论上可以处理任意长度的肽,但不同长度肽的苦味机制可能存在差异。模型在处理非常长或非常短的肽时,其性能是否保持一致仍需更全面的评估。
  • 非苦味肽的“随机”生成:从 BIOPEP 数据库中随机生成的非苦味肽可能不能完全代表所有“真实”的非苦味肽,或可能包含一些未被报道为苦味但实际上有微弱苦味的肽。这可能影响模型的精确度。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 简单方法的强大力量iBitter-SCM 证明了即使是相对简单和高度可解释的方法,如 评分卡方法 (SCM),在精心设计和优化(通过 遗传算法)后,也能在复杂的生物学问题中取得优异的性能,甚至超越更复杂的“黑箱” 机器学习 模型。这提醒我们,在追求模型复杂性时,不应忽视简单而有效的解决方案。
  2. 特征工程的重要性二肽组成 (DPC) 作为一种有效的特征表示,再次凸显了将生物序列信息转化为模型可理解特征的关键性。而 遗传算法 对这些特征倾向性评分的优化,更是进一步提升了其判别能力。
  3. 可解释性模型的价值iBitter-SCM 不仅提供了预测结果,还通过倾向性评分直接揭示了苦味肽的生物化学和生物物理特性。这种可解释性对于生物学研究和药物设计至关重要,它能帮助科学家理解“为什么”一个肽是苦味的,而不仅仅是“是否”苦味。这为从头设计(de novo design)具有特定味觉属性的肽提供了理论指导。
  4. 跨学科方法的融合:本文成功地将生物学问题、统计学、机器学习遗传算法 结合起来,为解决生物信息学挑战提供了典范。

7.3.2. 个人批判

  1. “无味”样本的真实性:非苦味肽是通过从 BIOPEP 数据库中随机抽样生成的。这种“无味”的定义可能存在局限性。一个肽未被报道为苦味,并不意味着它在实验上是无味的,可能只是尚未被测试,或者其苦味阈值极高。这种负样本的构建方式可能引入噪音,并可能影响模型的泛化能力。未来,应争取获取更多实验验证的非苦味肽数据。
  2. SCM 的线性假设SCM 本质上是一种线性模型,假定各个氨基酸或二肽的贡献是可加的。然而,肽的苦味机制可能涉及复杂的非线性相互作用,例如特定三维结构或多个残基的协同效应。虽然 DPC 捕捉了局部序列信息,但 SCM 可能难以捕捉长程相互作用或构象效应。
  3. 泛化到更广泛的肽类型:当前模型在特定数据集上表现良好,但其对不同来源、不同功能或不同长度范围的肽的泛化能力仍需进一步验证。例如,对于包含修饰氨基酸或环状肽的情况,DPC 可能不足以完整描述其特征。
  4. 遗传算法 的稳定性与计算成本:虽然 GA 能够优化倾向性评分,但其本身是一个随机过程,收敛性和最优解的稳定性需要多次运行来评估。此外,对于更大规模的特征空间或更复杂的优化问题,GA 的计算成本可能会增加。
  5. 缺乏更深层次的机制验证:尽管模型揭示了疏水性、C-末端效应和侧链结构的重要性,但这些发现仍主要基于统计相关性。如果能通过分子模拟、受体结合实验等方式,从分子层面进一步验证这些特性如何具体影响与苦味受体的相互作用,将使研究更具说服力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。