AiPaper
论文状态:已完成

A TastePeptides-Meta system including an umami/bitter classification model Umami_YYDS, a TastePeptidesDB database and an open-source package Auto_Taste_ML

原文链接
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究构建了味觉肽数据库TastePeptidesDB,筛选关键分子描述符,开发了准确率89.6%的鲜味/苦味分类模型Umami_YYDS,并通过感官验证,搭建预测网站及开源软件包Auto_Taste_ML,促进味觉肽的快速识别和筛选。

摘要

Food Chemistry 405 (2023) 134812 Available online 9 November 2022 0308-8146/© 2022 Published by Elsevier Ltd. A TastePeptides-Meta system including an umami/bitter classification model Umami_YYDS, a TastePeptidesDB database and an open-source package Auto_Taste_ML Zhiyong Cui a , Zhiwei Zhang a , Tianxing Zhou b , Xueke Zhou a , Yin Zhang c , Hengli Meng a , Wenli Wang a , * , Yuan Liu a , * a Department of Food Science & Technology, School of Agriculture & Biology, Shanghai Jiao Tong University, Shanghai 200240, China b Department of Bioinformatics, Faculty of Science, The University of Melbourne, Victoria 3010, Australia c Key Laboratory of Meat Processing of Sichuan, Chengdu University, Chengdu 610106, China A R T I C L E I N F O Keywords: Peptides Umami prediction TastePeptidesDB Machine learning A B S T R A C T Taste peptides with umami/bitterness play a role in food attributes. However, the taste mechanisms of peptides are not fully understood, and the identification of these peptides is time-consuming. Here, we created a taste peptide database by collecting the reported taste peptide information. Eight key molecular descriptors from

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

A TastePeptides-Meta system including an umami/bitter classification model Umami_YYDS, a TastePeptidesDB database and an open-source package Auto_Taste_ML

1.2. 作者

Zhong Cui, Zhiwei Zhang, Tianxig Zhou, Xueke Zhou, Yin Zhang, Hengli Meng, Wenli Wang, Yuan Liu

隶属机构: BTe Key Laboratory of Meat Processing of Sichuan, Chengdu University, Chengdu 610106, China

1.3. 发表期刊/会议

根据补充材料中的 DOI (10.1016/j.foodchem.2022.13481210.1016/j.foodchem.2022.134812),该论文发表于 Food Chemistry 期刊。Food Chemistry 是食品科学领域享有盛誉的国际期刊,主要发表食品化学、生物化学、分析化学以及食品科学与技术等方面的原创研究。

1.4. 发表年份

2022年

1.5. 摘要

味觉肽(Taste peptides),尤其是具有鲜味(umami)和苦味(bitterness)的肽,在食品属性中扮演着重要角色。然而,肽的味觉机制尚未完全阐明,且传统方法鉴定这些肽耗时耗力。本研究通过收集已报道的味觉肽信息,构建了一个味觉肽数据库 TastePeptidesDB。通过模型筛选,从二肽/三肽中选择了八个关键分子描述符。在此基础上,通过数据增强(data enhancement)、比较算法(comparison algorithm)和模型优化,建立了一个名为 Umami_YYDS 的梯度提升决策树(Gradient Boosting Decision Tree)模型,其准确率(accuracy)达到 89.6%。该模型在预测性能上优于其他模型,并通过感官实验(sensory experiments)验证了其卓越能力。为了提供便捷的识别方法,研究团队部署了一个基于 Umami_YYDS 的预测网站,并上传了 Auto_Taste_ML 机器学习软件包。综上所述,本研究建立了 TastePeptides-Meta 系统,该系统包含一个味觉肽数据库 TastePeptidesDB、一个鲜味/苦味预测模型 Umami_YYDS 和一个开源机器学习软件包 Auto_Taste_ML,这些工具将有助于快速筛选鲜味肽。

1.6. 原文链接

/files/papers/6908b7cae81fdddf1c48bfdb/paper.pdf

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 味觉肽(Taste peptides),特别是鲜味(umami)和苦味(bitterness)肽,对食品质量至关重要。然而,这些肽的味觉机制仍不完全清楚,并且传统方法识别味觉肽(包括预处理、分离、纯化、合成、表征和感官评价)耗时、昂贵且劳动密集。这导致了味觉肽的识别效率低下,阻碍了相关研究和应用。
  • 问题的重要性: 鲜味与愉悦的食物体验相关,而苦味则通常代表不宜食用。有研究表明,鲜味物质能通过阻断苦味受体来抑制苦味感知。因此,理解和识别这些味觉肽对于食品加工、贸易和营养具有重要意义。
  • 现有研究的挑战或空白:
    • 数据不足: 之前的研究受限于不足的数据量。
    • 模型简化: 现有模型(如评分卡方法 Scoring Card Method)过于简化。
    • 准确性和泛化性能不理想: 导致模型的预测准确性和泛化能力不佳。
    • 单一味觉判断: 大多数模型只能进行单一味觉判断,如 iBitter-SCMiUmami-SCM
    • “黑盒”算法: 一些模型(如 BERT4Bitter 基于 XGBoost)虽然性能优异,但缺乏可解释性(interpretability),难以理解其决策过程和进行调试维护。
    • 代码封装缺失: 大多数建模研究仍处于方法开发阶段,缺乏对代码的封装和整合,不便于研究人员使用。
  • 本文的切入点或创新思路: 针对上述挑战,本文旨在通过构建一个集数据库、预测模型和开源软件包于一体的系统,提供一个有效且专业的味觉肽信息汇总平台,并解决现有模型的准确性、泛化能力和可解释性问题。

2.2. 核心贡献/主要发现

  • 提出了 TastePeptides-Meta 系统: 这是该领域首个构建了系统性味觉肽生态系统(taste peptides universe)的平台,集成了味觉肽查询、预测和辅助建模功能。
  • 构建了 TastePeptidesDB 数据库: 收集了迄今为止最大量的味觉肽信息(483个肽段),并以网络查询系统的形式发布。
  • 开发了 Umami_YYDS 鲜味/苦味分类模型: 基于梯度提升决策树(Gradient Boosting Decision Tree),通过详尽的特征筛选(从278个描述符中筛选出8个关键描述符)、数据增强和模型优化,实现了高准确率(89.6%)和出色的泛化性能(AUC=0.98),并通过感官实验验证。
  • 增强了模型可解释性: 利用 SHAP (SHapley Additive exPlanation)算法对模型进行解释,揭示了水溶性、极化率(polarizability)和范德华半径(van der Waals radius, vdwr)是影响短肽味觉特征的主要因素。
  • 发布了 Auto_Taste_ML 开源软件包: 将建模过程封装为自动化机器学习工具包,方便研究人员进行味觉肽数据处理、分析、特征构建和模型选择。这是该领域首个开源机器学习软件包。
  • 部署了 Umami_YYDS 预测网站: 提供了便捷的用户界面,实现了学术界与产业界的直接连接,便于快速筛选和鉴定味觉肽。

3. 预备知识与相关工作

3.1. 基础概念

  • 味觉肽 (Taste peptides): 指具有特定味觉(如鲜味、苦味、甜味、咸味等)的短链氨基酸。它们在食品的口感和风味形成中起关键作用。
  • 鲜味 (Umami): 五种基本味觉之一,通常被描述为“美味”或“肉味”,与谷氨酸钠(MSG)的味觉相似。
  • 苦味 (Bitterness): 五种基本味觉之一,通常代表潜在的毒性或不适感,是生物体避免摄入有害物质的一种防御机制。
  • 定量构效关系 (Quantitative Structure-Activity Relationships, QSAR): 一种计算化学方法,通过建立分子结构参数与生物活性或物理化学性质之间的数学模型,预测未知化合物的性质。
  • 分子描述符 (Molecular descriptors): 用于量化分子结构特征的数值,可以是从分子式、连接性、拓扑结构到三维空间构象等不同层面导出的物理化学参数,例如水溶性、电荷分布、原子性质、形状、大小等。RDKit 是一个常用的开源化学信息学工具包,用于计算这些描述符。
  • 梯度提升决策树 (Gradient Boosting Decision Tree, GTB): 一种强大的集成学习(Ensemble Learning)算法,通过顺序地训练多个弱预测器(通常是决策树),每个新的树都旨在修正前一个树的预测误差,从而逐步提升整体模型的性能。
  • 数据增强 (Data enhancement): 在机器学习中,通过对现有数据进行变换或生成新数据,增加训练数据集的大小和多样性,以提高模型的泛化能力和减少过拟合,尤其适用于数据量有限或类别不平衡的情况。
  • 特征筛选 (Feature selection): 从原始特征集中选择最相关、最有用或最重要的特征子集的过程,旨在降低模型复杂性、减少过拟合、提高模型性能和可解释性。
  • SHAP (SHapley Additive exPlanation): 一种基于合作博弈论(cooperative game theory)的解释性机器学习方法,用于解释任何机器学习模型的输出。它为每个特征分配一个 SHAP 值,表示该特征对模型预测的贡献,从而帮助理解“黑盒”模型的决策过程。
  • 评估指标 (Evaluation metrics):
    • 准确率 (Accuracy, ACC): 分类正确的样本数占总样本数的比例。
    • 受试者工作特征曲线下面积 (Area Under the Receiver Operating Characteristic Curve, AUC): ROC 曲线下的面积,用于衡量分类模型在所有可能分类阈值下的整体性能。AUC 值越接近 1,模型性能越好。
    • 精确率 (Precision): 分类为正例的样本中,真正例的比例。
    • 召回率 (Recall): 所有正例样本中,被正确分类为正例的比例,也称真阳性率。
    • F1 分数 (F1-score): 精确率和召回率的调和平均值,综合衡量模型的分类性能,尤其在类别不平衡时更有意义。
    • 马修斯相关系数 (Matthews correlation coefficient, MCC): 一种综合性的分类指标,考虑了真阳性、真阴性、假阳性和假阴性,被认为在类别不平衡数据集上表现更均衡和信息量更大,值范围在 -1 到 +1 之间。

3.2. 前人工作

文章引用了一些关键的前人工作,主要分为味觉肽预测模型和数据库建设两类:

  • 味觉肽预测模型:
    • iBitter-SCMiUmami-SCM (Charoenkwan et al., 2020): 基于评分卡方法(Scoring Card Method)的单一味觉预测模型,但受限于数据量和模型复杂度,准确性和泛化性不理想。
    • BERT4Bitter (Charoenkwan et al., 2021): 基于 BERT 架构的苦味肽预测模型,性能优异但被认为是“黑盒”模型,缺乏可解释性。
    • UMPred-FRL (Charoenkwan et al., 2021): 同样是味觉肽预测模型,也应用了 SHAP 算法进行解释。
    • MLP 模型 (Bo et al., 2022): 用于苦味/甜味分子分类的多层感知机模型,其部分特征描述符与本文模型有重叠。
  • 数据库和网络服务:
    • Toxindb (D. Zhang et al., 2021): 一个毒性预测数据库。
    • ChemTastesDB (Rojas et al., 2022): 一个分子味觉数据库。
    • VirtualTaste (Fritz et al., 2021): 一个用于预测化合物感官性质的网络服务器。

3.3. 技术演进

该领域的技术演进主要体现在从传统的耗时实验方法向计算化学和机器学习驱动的预测方法的转变。早期模型(如 iBitter-SCM, iUmami-SCM)通常基于较简单的方法(如评分卡法)和有限的数据,导致准确性和泛化能力受限。随着计算机性能的提升和化学信息学(chemoinformatics)的发展,QSAR 模型在预测材料性质方面展现出巨大潜力,尤其是在生物肽活性判断上。 近年来,更复杂的机器学习模型(如 BERT4Bitter)被引入,显著提升了预测性能,但常常牺牲了模型的可解释性。同时,为了方便研究人员,一些数据库(如 Toxindb, ChemTastesDB)和网络预测服务(如 VirtualTaste)也相继出现。 本文的工作处于这一技术演进的前沿,它不仅致力于提高预测模型的准确性和泛化能力,更强调模型的可解释性,并通过整合数据库和开源软件包,构建了一个系统性的解决方案,以解决现有研究中数据不足、模型简化、黑盒问题和代码封装缺失的痛点。

3.4. 差异化分析

本文 TastePeptides-Meta 系统与现有工作相比,具有以下核心区别和创新点:

  • 系统集成性: TastePeptides-Meta 是一个高度集成的系统,首次将味觉肽数据库(TastePeptidesDB)、鲜味/苦味预测模型(Umami_YYDS)和开源机器学习软件包(Auto_Taste_ML)整合在一个统一的生态系统中,提供了一站式解决方案。
  • 数据库规模与信息量: TastePeptidesDB 是目前已发布的最大的味觉肽数据库,包含了更全面的信息,这为模型训练和研究提供了坚实的数据基础。
  • 模型性能与泛化能力: Umami_YYDS 模型通过数据增强、优化的特征选择和算法(梯度提升决策树),在准确率和 AUC 方面表现出色(89.6%准确率,98% AUC),并且在泛化测试集上展示了对长肽的可靠预测能力。
  • 强调模型可解释性: 不同于一些“黑盒”模型,Umami_YYDS 利用 SHAP 算法对模型决策过程进行解释,识别出水溶性、极化率和范德华半径等关键分子描述符,这有助于理解味觉肽的作用机制,并为后续的肽设计提供指导。
  • 开放性和易用性: Auto_Taste_ML 是该领域首个开源机器学习软件包,降低了研究人员进行味觉肽建模的门槛。同时,Umami_YYDS 网络服务器的部署提供了便捷的在线预测服务。
  • 解决“黑盒”问题: 论文明确指出,与 BERT4Bitter 等追求高性能但忽略可解释性的模型不同,Umami_YYDS 在确保高性能的同时,提供了模型可解释性,有助于模型调试和规则挖掘。

4. 方法论

本文的方法论围绕构建 TastePeptides-Meta 系统展开,该系统整合了味觉肽数据库 TastePeptidesDB、鲜味/苦味分类模型 Umami_YYDS 以及开源机器学习软件包 Auto_Taste_ML。核心在于通过机器学习方法,基于肽的分子描述符预测其味觉属性。

4.1. 方法原理

该研究的核心思想是通过收集和整理已知的味觉肽数据,从中提取结构特征(即分子描述符),然后利用先进的机器学习算法构建一个分类模型,能够准确预测肽是鲜味还是苦味。为了提高模型的可靠性和实用性,研究还注重数据增强以解决类别不平衡问题、模型优化以提升性能,并通过可解释性分析来理解模型决策依据。最终,将数据库、模型和建模工具进行整合,形成一个方便用户使用的系统。

4.2. 核心方法详解 (逐层深入)

4.2.1. 基准数据集构建 (Benchmark Data Sets)

研究首先收集了用于模型构建的基准数据集:

  • 数据来源: 收集了 203 个已报道的鲜味/苦味肽,包括 99 个二肽(31 个鲜味,68 个苦味)和 104 个三肽(53 个鲜味,61 个苦味)。
  • 标签定义: 考虑到鲜味物质对苦味的抑制作用,将鲜味肽标记为正例(positive),苦味肽标记为负例(negative)。
  • 数据库构建: 使用关键词“Tastes”、“Sour”、“Sweet”、“Bitter”、“Salty”、“Umami”、“Kokumi”、“Astringent”和“Peptides”在 Web of Science 上搜索,最终收集到 483 个肽段(截至 2021 年 12 月 3 日),并展示在 TastepeptidesDB 数据库中。这些数据构成了 ATPD (all taste peptides dataset)。

4.2.2. 特征结构 (Feature Structure)

特征选择(Feature selection)是构建模型的关键步骤,共分为 4 个阶段,如图 S1A 所示。

步骤 1: 分子描述符计算 对于每个肽,利用化学计量学工具包 RDKit 2020.9.1 计算了 208 个分子描述符。这些描述符有效描述了肽的水溶性、静电性质和原子性质。为了更全面地描述肽,额外增加了 69 个描述符,包括平面性质、环状性质和芳香性质,以及首尾氨基酸性质(C-末端疏水氨基酸的存在与否)。总共获得了 278 个肽的描述符特征。图 S2 展示了这些描述符。

步骤 2: 方差检验 使用 scikit-learn 0.24.2 中的方差检验算法,去除方差为 0 的特征,留下 207 个特征。

步骤 3: 统计学特征筛选 采用 Kolmogorov-Smirnov 检验和 t-testpp0.0001\leq 0.0001)从统计学角度进行特征筛选,以获取不服从相同分布且显示显著差异的数据,结果展示在图 S3 中。

步骤 4: 递归特征消除与交叉验证 使用带交叉验证的递归特征消除(Recursive Feature Elimination with Cross-Validation)方法,基于 Random Forest Model 选择特征数量。

  • 每次迭代中,依次使用 51 个特征作为参数(指标),并保留影响最大的特征。

  • 当特征数量为 8 时,模型的交叉验证得分达到最高(图 S1B)。

  • 考虑到计算成本和过拟合(overfitting)的可能性,最终选择这 8 个特征作为最终特征。

    以下是原文 Table 1 的结果:

    RDKit Module (Rdkit. Chem.) The selected feature Explanation
    rdMolDescriptors. BCUT2D BCUT2D_MWLOW Calculates lowest and highest eigenvalues of the original Burden matrix and the three variant introduced by Pearlamn and Smith (Beno & Mason, 2001) polarizability
    MolSurf module SMR_VSA1 MOE-type descriptors using EState indices and surface area
    EState.EState. MinEStateIndex MinEStateIndex contributions (developed at RD, not
    EState.EState_VSA module VSA_EState5 described in the CCG paper) (Hall, Mohney, & Kier, 1991)
    VSA_EState6
    VSA_EState7
    Chem.MolSurf module PEOE_VSA14 Exposes functionality for MOE-like approximate molecular surface area descriptors (Labute, 2000). Indicators for describing ligands based on atomic contribution (Wildman & Crippen, 1999)
    Crippen module MolLogP

数据不平衡处理与增强:

  • 考虑到数据不平衡(imbalance)问题,使用 imblearn0.8.1 包对鲜味肽数据进行过采样(oversample)。
  • 选择 KMeans-SMOTESMOTESVM-SMOTE 算法中的一种进行数据增强。
  • 通过与 Random Forest Model 比较,尽管精确率略低(图 S1C),SMOTE 算法在准确率和召回率相关的四个指标上表现最佳。
  • 为了可视化,将增强数据的 8 个特征值缩放到 0-10 范围(图 S1D),以便肉眼区分鲜味和苦味肽。
  • 使用主成分分析(PCA)将 8 维数据降至 2 维,以可视化 SMOTE 数据增强前后的变化(图 S1E),结果显示数据之间有明显区别,证明 SMOTE 具有良好的泛化性能。

数据集划分:

  • 通过分层抽样(stratified sampling)按 4:1 的比例将数据分为训练集和验证集,用于独立测试和验证。
  • 构建了一个包含 410 个肽的泛化测试集(GTS),以更好地检测模型的泛化性能。

4.2.3. 模型选择与优化 (Model Selection and Optimization)

  • 算法选择: 选择了 19 种流行且广泛认可的二分类算法进行模型构建,以挖掘数据内部规律。

  • 评估指标: 使用 5 折交叉验证(5-fold cross-validation),以准确率(ACC)和 AUC 作为评估指标(图 S1F)。

  • 初步结果: 集成模型在 ACCAUC 中值上更高,且箱线图分布更集中,表明鲁棒性更强。其中,BaggingGradientBoostingRandomForest 算法效果领先。

  • 最终算法确定: 综合考虑图 S4 中各模型的 ROC 趋势,选择了具有更高上限(ROC=0.934ROC = 0.934)的 GradientBoosting (GTB) 算法作为最终的建模算法。

  • 超参数优化 (Hyperparameter Optimization):

    • 为了尽可能全面地探索 Gradient Boosting 算法的建模可能性,开发了共 551,840 种组合。
    • 使用准确率作为网格搜索(grid search)的评估指标,每种组合通过 5 折交叉验证进行评估。
    • S1G 示意性地展示了首次超参数搜索的结果:n_estimator 是影响结果的主要因素,其次是 max_depthmin_samples_split,而 min_samples_leaf 影响较小,不具有统计显著性。
    • 考虑到模型的泛化性能,排除了 n_estimator 大于样本数的部分,最终选择的参数条件为:
      • criterion = friedman_mse
      • loss=devianceloss = deviance
      • max_depth = 17
      • min_samples_leaf = 3
      • min_samples_split = 10
      • nestimators=211n_estimators = 211

4.2.4. 性能评估 (Performance Evaluation)

为了公平、客观、有效和定量地评估每个二分类模型的性能,引入了以下五个广泛使用的指标:

  • F1 分数 (F1 Score): F1=2×TP2TP+FN+FP F1 = \frac { 2 \times TP } { 2TP + FN + FP } 其中:

    • TP (True Positive): 真正例,实际为正例且被预测为正例的样本数。
    • FN (False Negative): 假反例,实际为正例但被预测为负例的样本数。
    • FP (False Positive): 假正例,实际为负例但被预测为正例的样本数。
  • 准确率 (Accuracy): Accuracy=TP+TNTP+TN+FP+FN Accuracy = \displaystyle \frac { TP + TN } { TP + TN + FP + FN } 其中:

    • TN (True Negative): 真反例,实际为负例且被预测为负例的样本数。
  • 精确率 (Precision): Precision=TPTP+FP Precision = \displaystyle \frac { TP } { TP + FP }

  • 召回率 (Recall): Recall=TPTP+FN Recall = \frac { TP } { TP + FN }

  • 马修斯相关系数 (Matthews Correlation Coefficient, MCC): MCC=TP×TNFP×FN(TP+TP)(TP+FN)(TN+FP)(TN+PN) MCC = { \frac { TP \times TN - FP \times FN } { \sqrt { ( TP + TP ) ( TP + FN ) ( TN + FP ) ( TN + PN ) } } } 符号解释:

    • TP (True Positive): 真正例。

    • TN (True Negative): 真反例。

    • FP (False Positive): 假正例。

    • FN (False Negative): 假反例。

    • 注: 原文 MCC 公式分母部分可能存在排版错误,标准 MCC 公式分母为 (TP+FP)(TP+FN)(TN+FP)(TN+FN)\sqrt{(TP+FP)(TP+FN)(TN+FP)(TN+FN)}

    • MCC 值接近 +1 表示完美预测,0 表示随机预测,-1 表示反向预测。

      所有指标均基于 scikit-learn 0.24.2 计算。AUC 值越接近 1,综合分类效果越好;0.5 表示与随机分类器无异。

4.2.5. 感官评价 (Sensory Evaluation)

  • 专家组: 招募了 15 名具有 6 个月以上鲜味肽感官评价经验的专家(6 名男性,9 名女性,年龄 22-29 岁)。
  • 实验环境: 在 23 ± 2 °C、60% 湿度的空调感官评价室进行。
  • 样品准备: 将 0.05, 0.1, 0.15, 0.2, 0.4, 0.6, 0.8 mg/ml 的合成肽溶液各 5 mL 放入带有三位随机编码的感官塑料杯中。
  • 评价方法: 根据 ISO 4120:2004 (Sensory Analysis-Methodology-Triangle Test) 和 ISO 3972:2011 (Sensory Analysis-Methodology-Method of Investigating Sensitivity of Taste) 进行三角形测试。
    • 小组成员被要求将每份 5 mL 稀释样品在口中旋转 15 秒后吐出。
    • 对每个样品描述苦味、酸味、甜味、咸味和鲜味等味觉属性。
  • 避免味觉疲劳: 两次测试之间,小组成员休息 5 分钟,并用超纯水漱口至少两次。
  • 试剂: 超纯水由 NW10VF 净水器系统生产。所有肽(ATQLPGECHRVFRGGNQS)均为分析纯标准,由 Geer Group Chemical Reagent Co., ltd. (上海) 合成。

4.2.6. 软件实现 (Software Implementation)

TastePeptides-Meta 系统是一个集味觉肽查询、预测和 Python 语言辅助建模的综合平台。

  • 前端: TastePeptidesDBUmami_YYDS 的前端使用 HTMLBootStrap4 框架构建。
  • 负载均衡: 采用 Nginx 进行动态负载均衡。
  • 后端: 基于 Django3.2 构建的 Uwsgi 负责响应后端建模和 Umami-SQL 数据库查询请求。
  • 浏览器兼容性: 该网络服务已在最新版本的 Google ChromeApple Safari 上测试 3 个月,表现良好。
  • 开源软件包: Auto_Taste_ML 作为辅助建模的第三方包,已发布到 Python 包管理网站 https://pypi.org/project/Auto-TasteML/,并可在 GitHub 上获取详细说明和速度测量文件 https://github.com/SynchronyML/Auto_Taste_ML/

4.2.7. 统计分析 (Statistical Analysis)

  • 工具:Python3.8.10 环境下,使用 Pandas 1.3.3Numpy 1.2.0 进行数值计算和传输,使用 Matplotlib 3.4.2plotlyExpress 0.4.1 进行绘图。
  • 显著性水平: 统计分析中,显著性差异(T-testKolmogorov-Smirnov test)的 PP 值设置为 0.0001\leq 0.0001

5. 实验设置

5.1. 数据集

  • 模型构建数据集:
    • 203 个已报道的鲜味/苦味肽,其中 99 个二肽(31 个鲜味,68 个苦味)和 104 个三肽(53 个鲜味,61 个苦味)。鲜味肽被标记为正例,苦味肽为负例。
  • TastePeptidesDB 数据库:
    • 截至 2021 年 12 月 3 日,共收集了 483 个肽段信息。
  • 泛化测试集 (Generalization Test Set, GTS):
    • 由 410 个肽组成,用于测试模型的泛化性能。
  • 感官评价样本:
    • Umami_YYDS 模型的预测结果中随机选择并合成了 6 种未报道的食品源二肽/三肽用于感官验证:NQSATQLPGECHRVFRGG

5.2. 评估指标

论文中使用的评估指标及其说明如下:

  1. F1 分数 (F1 Score):

    • 概念定义: F1 分数是精确率(Precision)和召回率(Recall)的调和平均值。它综合考虑了分类器的准确性和完整性,在类别不平衡数据集上比单纯的准确率更能反映模型的真实性能。
    • 数学公式: F1=2×TP2TP+FN+FP F1 = \frac { 2 \times TP } { 2TP + FN + FP }
    • 符号解释:
      • TP (True Positive): 真正例,指模型正确地将正类别样本预测为正类别的数量。
      • FN (False Negative): 假反例,指模型错误地将正类别样本预测为负类别的数量。
      • FP (False Positive): 假正例,指模型错误地将负类别样本预测为正类别的数量。
  2. 准确率 (Accuracy):

    • 概念定义: 准确率是最直观的分类评估指标,表示模型正确预测的样本数占总样本数的比例。
    • 数学公式: Accuracy=TP+TNTP+TN+FP+FN Accuracy = \displaystyle \frac { TP + TN } { TP + TN + FP + FN }
    • 符号解释:
      • TP (True Positive): 真正例。
      • TN (True Negative): 真反例,指模型正确地将负类别样本预测为负类别的数量。
      • FP (False Positive): 假正例。
      • FN (False Negative): 假反例。
  3. 精确率 (Precision):

    • 概念定义: 精确率衡量的是模型预测为正类别的样本中,有多少比例是真正的正类别。它关注的是预测结果的“纯度”。
    • 数学公式: Precision=TPTP+FP Precision = \displaystyle \frac { TP } { TP + FP }
    • 符号解释:
      • TP (True Positive): 真正例。
      • FP (False Positive): 假正例。
  4. 召回率 (Recall):

    • 概念定义: 召回率衡量的是所有真实的正类别样本中,有多少比例被模型成功地识别出来。它关注的是预测结果的“完整性”或“覆盖率”,也称为真阳性率(True Positive Rate)。
    • 数学公式: Recall=TPTP+FN Recall = \frac { TP } { TP + FN }
    • 符号解释:
      • TP (True Positive): 真正例。
      • FN (False Negative): 假反例。
  5. 马修斯相关系数 (Matthews Correlation Coefficient, MCC):

    • 概念定义: MCC 是一种均衡的二分类和多分类质量度量,它考虑了所有四种混淆矩阵类别(TPTNFPFN)。即使类别大小差异很大,MCC 也能提供一个相对平衡的度量,被认为是比 F1 分数更可靠的指标。其值范围为 -1(完全不一致)到 +1(完美预测),0 表示平均随机预测。
    • 数学公式: MCC=TP×TNFP×FN(TP+TP)(TP+FN)(TN+FP)(TN+PN) MCC = { \frac { TP \times TN - FP \times FN } { \sqrt { ( TP + TP ) ( TP + FN ) ( TN + FP ) ( TN + PN ) } } }
    • 符号解释:
      • TP (True Positive): 真正例。
      • TN (True Negative): 真反例。
      • FP (False Positive): 假正例。
      • FN (False Negative): 假反例。
      • 注: 原文 MCC 公式分母部分可能存在排版错误,标准 MCC 公式分母为 (TP+FP)(TP+FN)(TN+FP)(TN+FN)\sqrt{(TP+FP)(TP+FN)(TN+FP)(TN+FN)}

5.3. 对比基线

论文将 Umami_YYDS 模型与以下已发表的味觉肽判断模型进行了比较:

  • iUmami-SCM (Phasit Charoenkwan et al., 2020): 一种基于评分卡方法(Scoring Card Method)的鲜味肽预测模型。

  • BERT_bitter (即 BERT4Bitter, Phasit Charoenkwan et al., 2021): 一种基于 BERT 架构的苦味肽预测模型。

  • Q model (Ney, 1979): 可能指的是一种早期或简化的模型,具体指代在文中未详细展开。

    这些基线模型代表了该领域不同的预测方法,从传统的评分卡法到先进的深度学习模型,提供了全面的比较基准,以评估 Umami_YYDS 的性能和竞争力。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. Umami_YYDS 揭示已知和新的鲜味/苦味决定因素

通过 SHAP (SHapley Additive exPlanation)算法对 GTB 模型进行可解释性分析,揭示了模型的决策路径和特征重要性。最终选定的 8 个关键特征如下:

  • BCUT2D_MWLOW (BM)

  • PEOE_VSA14 (PV14)

  • SMR_VSA1 (SV1)

  • MinEStateIndex (ME)

  • VSA_EState5 (VS5)

  • VSA_EState6 (VS6)

  • VSA_EState7 (VS7)

  • MolLogP

    这些关键特征与用于苦味/甜味分子分类的 MLP 模型中的特征描述符(MolLogP, EState_VSA9, PEOE_VSA10, PEOE_VSA9, SMR_VSA6)部分重叠,表明 MolLogP 对苦味分子分类有较大贡献。Umami_YYDSMLP 模型都选择了 SMR_VSAPEOE_VSA 作为子特征,这证明了这些矩阵在味觉物质筛选中的应用价值。

下图 (原文 Figure 2) 展示了 Umami_YYDS 模型中八个关键分子描述符对模型预测的贡献分析:

该图像是图表,展示了Umami_YYDS模型中八个关键分子描述符对模型预测的贡献分析。A部分为SMR_VSA1和MolLogP的二维关系图,气泡大小与颜色代表频数和强度。B部分为SHAP值分布,展示各特征值对模型输出的影响。C部分为各特征的模型输出路径,体现特征值变化与模型预测的关联。 该图像是图表,展示了Umami_YYDS模型中八个关键分子描述符对模型预测的贡献分析。A部分为SMR_VSA1和MolLogP的二维关系图,气泡大小与颜色代表频数和强度。B部分为SHAP值分布,展示各特征值对模型输出的影响。C部分为各特征的模型输出路径,体现特征值变化与模型预测的关联。

图 2. (A) SMR_VSA1 和 MolLogP 的二维关系图;(B) 特征的 SHAP 值分布;(C) 味觉肽的判断路径。

根据排列重要性(Permutation Importance)对 8 个特征进行排序(图 2B),发现 MolLogPVSA_ESate6BCUT2D_MWLOWSHAP 值的贡献呈正相关。这些指标可分为水溶性、电荷与范德华半径(vdwr)以及分子量三类。

  • 水溶性 (Solubility): 是判断肽是否为鲜味或苦味肽最重要的指标,由 MolLogP (LogP) 和 SMR_VSA1 (代表极化率) 描述。

    • 高水溶性通常意味着更高的鲜味肽可能性。
    • 根据偏依赖图(Partial Dependence Plot, PDP),当 LogP<0.83LogP < -0.83 时(区间 [-1.18, -0.83]),肽是鲜味肽的概率超过 61.5%;在区间 [-3.84, -2.51] 和 [-2.11, -1.64] 中,正确判断的成功率分别为 92.6% 和 80.8%(图 S6A)。
    • SMR_VSA1 > 24.6 时(区间 [24.6, 29.39]),通过极化信息识别鲜味肽的概率为 76.3%;在 [34.5, 49.19] 范围内准确率达到 100%(图 S6B)。
    • 研究表明,鲜味肽通常具有亲水结构(如 TAY, AAPY, VPY, GFP)和富含 G/E 氨基酸。
    • 图 2A 中,SMR_VSA1LogP 两个特征具有良好的区分效果,气泡颜色相对纯净且沿对角线均匀分布,表明它们在鲜味/苦味判断中起主导作用。
  • 电荷特性与范德华表面 (Charged Properties and Van der Waals Surface): VSA_ESTAT5/ESTAT6/ESTAT7, MinEStateIndex, SMR_VSA1, PEOE_VSA14 属于此类,是通过复杂矩阵综合电荷性质和范德华空间体积获得的“非直观指标”。

    • 如图 S6C 所示,当 VSA_Estate6 < -1.84 时,肽是鲜味肽的概率超过 74.1%(区间 [-2.27, -1.84]),在 [-5.21, -3.61] 范围内成功率达 100%。
    • 电荷性质包含电荷量及其正负。例如,当碱性氨基酸精氨酸与脂肪族氨基酸脯氨酸相邻时(如 Arg-Pro, Gly-Arg-Pro, Arg-Pro-Gly),会产生苦味。
  • 分子量 (Molecular Weight): BUCT2D_MWLOWBCUT 描述符的四个方面之一,BCUT 描述符旨在编码与分子间相互作用相关的原子性质。

    • BCUT 的区域判断相对波动,难以通过单一指标确定(图 S6DS6E)。
    • 然而,其 CI 显著性与 iUmami-SCM 的结果一致,表明肽的分子量对鲜味有贡献。
    • 小于 0.5 kDa 和 0.5-3 kDa 常作为鲜味肽的筛选条件。分子量大的肽更倾向于无味或苦味,这与 Norio Ishibashi 提出的苦味肽侧链骨架应至少有 3 个碳原子的定律/原理相关。

6.1.2. Umami_YYDS 与已知味觉分类器的比较

  • 校准集性能: Umami_YYDS 模型在校准集上表现良好,准确率达到 89.6%,AUC 达到 98%(图 3A&B)。
  • ATPD 上的味觉识别效果: Umami_YYDSATPD 上也表现出良好的味觉识别效果。
    • 混淆矩阵(图 S5)显示 Umami_YYDS 保持了最高的准确率(73%,与 iUmami-SCM 一致)。
    • 模型识别的鲜味和苦味肽数量(46:63)最接近 ATPD 中鲜味和苦味肽的比例(198:215),表明 Umami_YYDS 公平地学习了鲜味和苦味属性特征,而其他模型可能过分强调苦味判断,导致对鲜味的误判较多,对苦味的误判较少。
  • iUmami-SCM 的比较 (图 3C):
    • Umami_YYDS 的准确率(0.735)和 MCC(0.474)与 iUmami-SCM(准确率 0.738;MCC 0.485)非常相似。

    • Umami_YYDS 的精确率处于中等水平,这归因于其他模型的过度保守判断(偏向苦味)。

    • Umami_YYDS 在召回率(Recall)方面显著领先,表现为对较高准确率识别的误判较少。

    • 作为召回率和精确率的调和平均值,F1 分数也显示出最高值,表明 Umami_YYDS 具有相对理想且无偏的判断。

      下图 (原文 Figure 3) 展示了 Umami_YYDS 模型的性能验证:

      该图像是图表,展示了Umami_YYDS模型的性能验证,包括(A)混淆矩阵,(B)ROC曲线及AUC=0.98,(C)与其他模型在多项指标上的对比,(D)不同训练集大小下的指标变化情况。 该图像是图表,展示了Umami_YYDS模型的性能验证,包括(A)混淆矩阵,(B)ROC曲线及AUC=0.98,(C)与其他模型在多项指标上的对比,(D)不同训练集大小下的指标变化情况。

图 3. (A) Umami_YYDS 在校准集上的混淆矩阵;(B) Umami_YYDS 在校准集上的 ROC 曲线 (AUC=0.98AUC = 0.98);(C) Umami_YYDSiUmami-SCMATPD 上的性能比较;(D) 不同肽长度下 Umami_YYDS 与其他模型在 GTS 上的性能比较。

  • 泛化性能 (GTS) 比较 (图 3D):
    • ACCF1 方面,Umami_YYDS 在开始时呈线性增长趋势,并从六肽开始占据领先地位。
    • 在精确率方面,Umami_YYDS 的值随肽长度的增加而逐渐改善。由于其“无偏”判断特性,其精确率不如其他模型易于理解。
    • 在召回率方面,尽管模型略有下降趋势并在 10 个肽处与 Q model 相交,但仍处于领先地位。
    • MCC 方面,Umami_YYDS 未被最好的模型 BERT_bitter 超越,并在中长肽范围逐渐赶超。
    • 总体而言,Umami_YYDS4\geq 4 个肽的判断可靠且极具竞争力。

6.1.3. 识别新型鲜味肽

为了验证模型的性能,研究团队随机选择并合成了 6 种未报道的食品源二肽/三肽(NQS, ATQ, LPG, ECH, RVF, RGG),并进行了感官评价。

  • 验证结果:
    • ATQ, ECH, RVF, NQS 的实际味觉感知与预测结果高度一致(表 S5)。

    • Umami_YYDS 在此验证中实现了 80% 的最佳准确率(表 S6),优于类似模型。

    • ATQ, ECH, NQS 表现出强烈的鲜味,识别阈值分别为 0.164, 0.184, 0.148 mg/ml。

    • RVF 表现出强烈的苦味,识别阈值为 0.150 mg/ml。

    • 值得注意的是,ATQ, ECH, NQS 也表现出甜味,识别阈值分别为 0.134, 0.181, 0.137 mg/ml。甜味与鲜味的协同作用可以增强鲜味感知。

      下图 (原文 Figure 4) 展示了六种肽的味觉分布和特征值比较:

      该图像是论文中的图表,包含两个部分。A部分为雷达图,展示了五种感觉(酸、苦、咸、鲜、甜)下六种肽的味觉分布;B部分为柱状图,比较了不同肽样本在多个特征上的数值差异,反映其味觉属性。 该图像是论文中的图表,包含两个部分。A部分为雷达图,展示了五种感觉(酸、苦、咸、鲜、甜)下六种肽的味觉分布;B部分为柱状图,比较了不同肽样本在多个特征上的数值差异,反映其味觉属性。

图 4. (A) 六种肽在五种味觉(酸、苦、咸、鲜、甜)下的味觉分布雷达图;(B) RGGLPG 在特定特征(SV1VS7)上的值与鲜味/苦味肽平均值的比较柱状图。

  • 误判分析:
    • RGGLPG 被预测为苦味,实际也表现出一定的苦味,但鲜味感知是主要味觉。
    • 分析 RGGLPG 的特征属性值(图 4B)发现,除了 SV1VS7 之外,它们的所有属性都与鲜味肽的平均值相似。
      • 鲜味肽的 SV1 平均值为 30.647,而 RGGLPGSV1 值均为 19.40,非常接近苦味肽的 SV1 平均值 18.567。
      • 鲜味肽的 VS7 平均值为 -0.366,而 RGGLPGVS7 值分别为 0.905 和 1.843,也接近苦味肽的 VS7 平均值 1.213。
    • 因此,推测这两个参数(SV1VS7)导致了模型的误判,为未来的模型升级指明了方向。

6.1.4. TastePeptides-Meta 系统

TastePeptides-Meta 包含三个部分:

  • TastePeptidesDB 数据库: 用于味觉肽信息存储和展示。
    • 目前包含 483 条味觉肽信息,是已发布的最大味觉肽数据库。

    • 每个肽条目包括名称(FASTA 格式)、味觉(Taste)、验证状态(Vitro_verit)、简化分子线性输入规范(Canonical SMILES)、文献、作者、更新时间等。

    • 查询页面有 4 个基本功能:精确搜索、味觉筛选、新发现提交和跨页跳转链接(图 5A)。

    • 提交新发现的页面如图 5B 所示。

    • 数据库中的味觉肽按味觉属性分类,鲜味和苦味肽占比最高(占所有味觉肽的 79.4%)。

    • 这表明肽的结构或其他特性易受 T1R1-T1R3(鲜味受体)和 GABAT2Rs(苦味受体)激活,而不易激活 T1R2-T1R3(甜味受体)。

    • 如图 5D 所示,单一味觉(苦味或鲜味)的肽数量最多,其次是甜味/鲜味肽和苦味/鲜味肽,表明一些肽可以同时激活多种味觉受体。

    • 如图 5E 所示,二肽和三肽占据了近一半的比例,随着肽长度的增加,味觉肽的数量逐渐减少。

      下图 (原文 Figure 5) 展示了 TastePeptidesDB 数据库界面和味道分布统计:

      该图像是一个关于TastePeptidesDB数据库界面和味道分布统计的图表。图A展示了数据库的查询界面,图B为添加肽段信息的表单,图C和D分别展示了味觉类别分布和组合频率,图E为不同肽段长度的数量统计环形图。 该图像是一个关于TastePeptidesDB数据库界面和味道分布统计的图表。图A展示了数据库的查询界面,图B为添加肽段信息的表单,图C和D分别展示了味觉类别分布和组合频率,图E为不同肽段长度的数量统计环形图。

图 5. TastePeptidesDB 的界面展示:(A) 查询页面;(B) 添加肽段信息的表单;(C) 味觉类别分布统计;(D) 组合味觉频率统计;(E) 肽段长度分布环形图。

  • Auto_Taste_ML 数据包:

    • 一个用于味觉模型处理的第三方科学数值工具包,用 Python 编写,遵循 BSD 协议。
    • 旨在揭示 TastePeptidesDB 数据处理和 Umami_YYDS 模型构建的整个过程,包括特征构建、模型选择和可视化。
    • 已发布在 PyPI 上,相应功能可在 1 分钟内实现。
  • Umami_YYDS 网络服务器:

    • 为连接学术界和工业界,方便识别更多味觉肽而开发的用户友好型网络服务器。
    • 部署在 http://tastepeptides-meta.com/cal
    • 已在最新版本的 Google ChromeApple Safari 上测试 3 个月,表现良好。

6.2. 数据呈现 (表格)

本研究在方法论中提供了关于特征来源和计算模块的表格。

以下是原文 Table 1 的结果:

RDKit Module (Rdkit. Chem.) The selected feature Explanation
rdMolDescriptors. BCUT2D BCUT2D_MWLOW Calculates lowest and highest eigenvalues of the original Burden matrix and the three variant introduced by Pearlamn and Smith (Beno & Mason, 2001) polarizability
MolSurf module SMR_VSA1 MOE-type descriptors using EState indices and surface area
EState.EState. MinEStateIndex MinEStateIndex contributions (developed at RD, not
EState.EState_VSA module VSA_EState5 described in the CCG paper) (Hall, Mohney, & Kier, 1991)
VSA_EState6
VSA_EState7
Chem.MolSurf module PEOE_VSA14 Exposes functionality for MOE-like approximate molecular surface area descriptors (Labute, 2000). Indicators for describing ligands based on atomic contribution (Wildman & Crippen, 1999)
Crippen module MolLogP

6.3. 消融实验/参数分析

论文中没有明确标注为“消融实验”的部分,但特征筛选过程(从 278 个描述符到 8 个关键特征)可以视为一种组件分析,验证了精简特征集对模型性能的影响。通过递归特征消除与交叉验证,确认了 8 个特征在计算成本和过拟合风险之间取得了最佳平衡点,使得模型交叉验证得分达到最高。

此外,超参数优化(对 Gradient Boosting 模型的 551,840 种组合进行网格搜索)也属于参数分析,旨在找到最优的模型配置以最大化准确率。研究发现 n_estimator 是最主要的影响因素,其次是 max_depthmin_samples_split,而 min_samples_leaf 的影响较小。这表明了不同模型组件和超参数对模型性能的重要性。

7. 总结与思考

7.1. 结论总结

本研究成功构建了一个名为 TastePeptides-Meta 的综合系统,旨在解决味觉肽识别效率低、现有模型可解释性差以及工具集成度不足的问题。该系统包含:

  1. TastePeptidesDB 数据库: 收集了迄今为止规模最大的味觉肽信息,为研究提供了丰富的数据基础。
  2. Umami_YYDS 鲜味/苦味预测模型: 基于梯度提升决策树,通过精细的特征筛选(识别出 8 个关键分子描述符)和数据增强,实现了高准确率(89.6%)和出色的泛化能力(AUC=0.98)。该模型不仅性能优异,还通过 SHAP 算法提供了良好的可解释性,揭示了水溶性、极化率和范德华半径是影响短肽味觉特性的主要因素。
  3. Auto_Taste_ML 开源机器学习软件包: 将建模过程封装为易于使用的工具包,降低了研究人员的门槛,促进了该领域的研究。 该模型的有效性得到了感官实验的验证,并且在与现有模型的比较中展现出竞争力。TastePeptides-Meta 系统的建立为味觉肽的快速筛选和设计提供了重要的计算支持。

7.2. 局限性与未来工作

论文作者指出了当前模型的一些局限性,并提出了未来的研究方向:

  • 融合模型方法: 尽管 Umami_YYDS 取得了优异性能,但未来可以进一步构建具有更好识别性能的融合模型(fusion model)方法。
  • 协同效应研究: 鲜味肽可能具有多种味觉特征,且存在协同效应。因此,可以收集更多数据来研究它们的协同作用。
  • 配体相互作用信息: 在特征构建方面,可以引入基于分子对接(molecular docking)的配体相互作用信息,以实现共识判断。
  • 模型升级方向: 对于 RGGLPG 等被误判的肽,其 SV1VS7 属性值与苦味肽的平均值相似,这为未来模型升级提供了具体方向,即需进一步优化这些特征的权重或处理方式。

7.3. 个人启发与批判

  • 启发:

    • 集成系统的重要性: 本文最大的启发在于其构建了一个集数据库、预测模型和开源工具于一体的 TastePeptides-Meta 系统。这种系统化的方法极大提高了研究效率和成果的可及性,为其他生物信息学或化学信息学领域的研究提供了范例。仅仅发布模型或数据库是不够的,提供一套完整的解决方案才能真正推动领域发展。
    • 可解释性与黑盒模型: 在追求高性能的同时不放弃模型可解释性(SHAP 应用)是机器学习在科学研究中的关键。这不仅有助于理解模型决策背后的生物学/化学原理,也方便模型的调试和改进。对于食品科学这种需要深入理解机制的领域,这一点尤为重要。
    • 特征工程的艺术: 从 278 个原始描述符中筛选出 8 个关键特征,体现了特征工程在 QSAR 模型中的核心作用。这不仅降低了计算成本,也提升了模型的泛化能力和可解释性。这提示我们,特征的数量并非越多越好,关键在于特征的有效性和信息量。
    • 数据增强的价值: SMOTE 等数据增强技术在处理类别不平衡问题上的有效性再次得到验证,这对于许多实际生物医学数据集都是常见挑战。
  • 批判:

    • MCC 公式中的潜在笔误: 正如我在方法论部分提到的,论文中给出的 MCC 公式分母部分存在潜在的笔误(TP+TPTP+TPTN+PNTN+PN)。尽管我忠实地复制了原文,但作为一个严谨的学术报告,这应该被指出。这可能是一个简单的排版错误,但可能会给不熟悉该指标的读者带来困惑。
    • 数据可用性表述的矛盾: 在“Declaration of Competing Interest”部分提到“The authors do not have permission to share data.”,但在“Data availability”部分又提供了 GitHub 链接 https://github.com/SynchronyML/Auto_Taste_ML/tree/main/Example/Data 指明数据是可用的。这种表述上的矛盾可能会让读者感到困惑。
    • 感官实验的局限性: 仅用 6 种肽进行感官验证,虽然能初步验证模型的有效性,但样本量相对较小。未来的研究可以扩大感官验证的肽段种类和数量,并考虑更复杂的味觉交互(如多味觉协同作用)进行验证。
    • 长肽的预测能力: 论文提到 Umami_YYDS4\geq 4 个肽的判断可靠且极具竞争力,但对于非常长的肽,其预测性能是否会下降,以及如何处理更复杂的结构(如二级、三级结构)对味觉的影响,是值得探讨的问题。
    • 通用性考量: 尽管模型在鲜味/苦味分类上表现出色,但自然界中的味觉肽可能具有多种复杂味觉(如酸、甜、咸、鲜、苦等)及其组合。未来模型如何扩展到更广泛的味觉预测,将是其从二分类走向多分类甚至定量预测的重要挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。