AiPaper
论文状态:已完成

Identification and prediction of milk-derived bitter taste peptides based on peptidomics technology and machine learning method

发表:2023/09/01
原文链接
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究开发了一种基于肽组学和机器学习的苦味肽筛选工作流程,构建了新型分类预测模型CPM-BP,预测准确率达90.3%。在724个不同肽中,识别出180个潜在苦味肽,经过实验验证,三个预测肽显示出激活人苦味受体的能力,证明了模型的有效性。

摘要

Bitter taste peptides (BPs) are vital for drug and nutrition research, but large-scale screening of them is still time-consuming and costly. This study developed a complete workflow for screening BPs based on peptidomics technology and machine learning method. Using an expanded dataset and a new combination of BPs’ characteristic factors, a novel classification prediction model (CPM-BP) based on the Light Gradient Boosting Machine algorithm was constructed with an accuracy of 90.3% for predicting BPs. Among 724 significantly different peptides between spoiled and fresh UHT milk, 180 potential BPs were predicted using CPM-BP and eleven of them were previously reported. One known BP (FALPQYLK) and three predicted potential BPs (FALPQYL, FFVAPFPEVFGKE, EMPFPKYP) were verified by determination of calcium mobilization of HEK293T cells expressing human bitter taste receptor T2R4. Three potential BPs could activate the hT2R4 and are demonstrated to be BPs, which proved the effectiveness of CPM-BP.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Identification and prediction of milk-derived bitter taste peptides based on peptidomics technology and machine learning method

1.2. 作者

Yang Yu, Shengchi Liu, Xinchen Zhang, Wenhao Yu, Xiaoyan Pei, Li Liu, Yan Jin

1.3. 发表期刊/会议

Food Chemistry (Volume 433, 2024, Article 137288)

1.4. 发表年份

2023年9月1日(UTC)

1.5. 摘要

苦味肽 (Bitter taste peptides, BPs) 对药物和营养研究至关重要,但大规模筛选它们仍然耗时且昂贵。本研究开发了一个基于肽组学技术和机器学习方法的完整 BPs 筛选工作流程。通过扩展数据集和新的 BPs 特征因子组合,构建了一个基于 Light Gradient Boosting Machine (LightGBM) 算法的新型分类预测模型 (CPM-BP),其预测 BPs 的准确率达到90.3%。在变质和新鲜超高温灭菌乳 (UHT milk) 之间724个显著不同的肽中,CPM-BP 预测了180个潜在的 BPs,其中11个先前已有报道。一个已知 BP (FALPQYLK) 和三个预测的潜在 BPs (FALPQYL, FFVAPFPEVFGKE, EMPFPKYP) 通过测定表达人苦味受体 T2R4 (hT2R4) 的 HEK293T 细胞的钙动员得到了验证。三个潜在的 BPs 能够激活 hT2R4 并被证明是 BPs,这证明了 CPM-BP 的有效性。

1.6. 原文链接

/files/papers/691751fe110b75dcc59ae05c/paper.pdf。该论文已于2023年9月1日正式发表,并于2024年3月1日发布了勘误。

2. 整体概括

2.1. 研究背景与动机

  • 论文试图解决的核心问题: 苦味肽 (BPs) 的大规模筛选传统上耗时且昂贵。虽然已有一些机器学习方法用于 BPs 预测,但它们仍存在一些不足,如区分性特征不完整、信息冗余、过拟合以及当前基准数据集的不足,这些都影响了模型的预测能力。同时, UHT 牛奶在储存过程中可能出现苦味,但其原因尚不完全清楚,识别变质 UHT 牛奶中的 BPs 有助于分析苦味产生的原因并提高产品质量。
  • 为什么这个问题在当前领域是重要的: BPs 不仅影响味觉,还具有多种生物活性(如血管紧张素转换酶抑制活性),在药物开发和营养研究中具有重要价值。因此,高效识别基质中的 BPs 对于食品科学和生物医药领域都至关重要。
  • 现有研究存在的挑战或空白: 现有的 BPs 预测模型,如 iBitter-SCMiBitter-FuseBERT4BitteriBitter-DRLF,存在以下问题:
    • 苦味肽与非苦味肽 (NBPs) 之间的区分特征不完整。
    • 包含非重要特征导致的信息冗余和过拟合。
    • 当前基准数据集的不足限制了模型的性能。
  • 这篇论文的切入点或创新思路: 本研究旨在开发一个完整的、高效的 BPs 筛选工作流程,结合肽组学技术和机器学习方法。通过构建一个更大的、更可靠的基准数据集,并筛选出一组新的、更具区分度的特征因子,然后使用 LightGBM 算法构建一个优化的分类预测模型,以克服现有方法的局限性。

2.2. 核心贡献/主要发现

  • 提出了新型分类预测模型 CPM-BP: 基于 LightGBM 算法,利用扩展的基准数据集和优化的特征因子组合,构建了一个用于预测苦味肽的分类预测模型 CPM-BP,其准确率 (ACC) 达到90.3%。
  • 构建了扩展的基准数据集 BTP720: 将现有数据集 BTP640 与来自 BiopepFlavor DatabaseBitterDB 和其他文献的苦味肽进行了整合,创建了一个包含360个苦味肽和360个非苦味肽的更大、更可靠的基准数据集,并特别确保只包含具有单一苦味的肽。
  • 筛选并优化了 BPs 的特征因子: 提出了14个潜在的特征因子,并通过 LightGBM 算法和可分离性验证(基于欧氏距离),最终确定了10个最优的特征因子组合,这些因子在区分 BPsNBPs 方面表现出更高的贡献度。
  • 实现了变质 UHT 牛奶中潜在 BPs 的大规模预测: 结合肽组学技术,对新鲜和变质 UHT 牛奶中的肽进行分析,识别出724个显著差异肽,并利用 CPM-BP 从中预测出180个潜在的 BPs
  • 通过生物学实验验证了 CPM-BP 的有效性: 选择了1个已知 BP 和3个预测的潜在 BPs,通过 HEK293T 细胞表达人苦味受体 T2R4 (hT2R4) 的钙动员测定进行体外验证。结果表明,这3个潜在 BPs 能够激活 hT2R4,从而证实了 CPM-BP 预测的准确性。

3. 预备知识与相关工作

3.1. 基础概念

  • 苦味肽 (Bitter Taste Peptides, BPs): 指一类具有苦味的短链蛋白质片段。它们通常由蛋白质水解产生,通过与味觉细胞膜上的苦味受体结合来引发苦味感知。除了味觉影响,一些 BPs 还具有生物活性。
  • 肽组学 (Peptidomics): 一种研究生物体或样本中所有肽的总和(即肽组)的技术。它通常结合液相色谱-串联质谱 (LC-MS/MS) 技术,用于鉴定、定量和表征肽。在本研究中,用于分析 UHT 牛奶中的肽谱。
  • 机器学习 (Machine Learning, ML): 计算机科学的一个分支,使计算机系统能够通过数据学习,而无需进行明确的编程。它通过构建模型来从数据中识别模式,并对新数据进行预测或决策。在本文中,ML 用于构建苦味肽的分类预测模型。
  • Light Gradient Boosting Machine (LightGBM): 一种高效的梯度提升决策树 (GBDT) 框架。它通过优化算法(如直方图算法、GOSSEFB)实现更快的训练速度、更低的内存消耗和更好的准确性,特别适用于处理大规模数据。
  • 人苦味受体 (Human Bitter Taste Receptors, hT2Rs): 位于味蕾细胞膜上的一类 GG 蛋白偶联受体 (GPCRs),负责感知苦味物质。人体内有约25种 hT2RshT2R4 是其中一种具有广泛结合多种苦味化合物能力的受体,因此在本研究中被选用于验证潜在 BPs
  • 钙动员 (Calcium Mobilization): 指细胞内钙离子浓度瞬时升高,这通常是细胞对外部刺激(如受体激活)做出响应的信号转导过程。在味觉研究中,苦味受体激活后会导致细胞内钙离子释放,通过检测钙离子荧光信号变化可以评估受体激活程度。
  • 超高温灭菌乳 (Ultra-High Temperature milk, UHT milk): 一种经过超高温瞬时灭菌处理的牛奶,可以在常温下长期保存。但有时在货架期内会产生苦味。

3.2. 前人工作

作者在引言中提及了多种现有的基于机器学习的苦味肽预测方法,这些方法主要通过定量构效关系 (QSAR) 建模和机器学习技术来实现:

  • iBitter-SCM: 使用传统序列特征和记分卡方法 (Scoring Card Method) 识别苦味肽。

  • iBitter-Fuse: 通过融合多视图特征(即整合多种类型的肽序列特征)来预测苦味肽,显示出更高的性能。

  • BERT4Bitter: 利用自然语言处理 (NLP) 技术,将肽序列表示为特征描述符,然后进行预测。

  • iBitter-DRLF: 基于深度学习预训练神经网络特征提取方法来预测苦味肽。

    然而,这些模型仍然存在一些共同的局限性,包括:

  • 区分性特征不足: 苦味肽与非苦味肽之间的判别特征提取不够充分。

  • 信息冗余和过拟合: 模型中可能包含不重要的特征,导致冗余并增加过拟合的风险。

  • 基准数据集不足: 当前用于训练和测试的基准数据集规模和质量有待提高。

3.3. 技术演进

苦味肽的识别方法经历了从传统实验室方法到计算预测模型的演变:

  1. 传统实验室方法: 早期主要依赖耗时且昂贵的体外或体内实验方法,如感官评价、细胞钙动员测定等,这些方法虽然可靠但效率低下,不适合大规模筛选。
  2. 肽组学技术: 随着质谱技术的发展,肽组学方法能够高效地分析复杂样品中的肽,为苦味肽的初步筛选提供了可能,但仍需结合其他方法进行苦味属性鉴定。
  3. 计算预测模型: 为了提高筛选效率,研究人员开始将机器学习和生物信息学方法引入苦味肽预测。这包括:
    • QSAR 建模: 基于肽的理化性质或结构信息,建立预测苦味的定量模型。
    • 机器学习分类器: 利用肽的序列特征、组成信息等作为输入,训练分类模型来区分苦味肽和非苦味肽。早期模型如 iBitter-SCM 依赖于传统序列特征。
    • 深度学习和自然语言处理: 近年来,随着深度学习技术的发展,如 BERT4BitteriBitter-DRLF,开始利用更复杂的神经网络模型和 NLP 技术来捕捉肽序列中更深层次的特征,进一步提升预测能力。

3.4. 差异化分析

本文提出的 CPM-BP 模型与上述相关工作的主要区别和创新点在于:

  • 扩展的基准数据集: CPM-BP 使用了更大的 BTP720 数据集(360个苦味肽和360个非苦味肽),相较于之前常用的 BTP640 数据集,数据量更大,且严格筛选了仅具有单一苦味特征的肽,提高了数据的可靠性和区分度。
  • 新的特征因子组合: 本文创新性地提出并筛选了14个潜在特征因子,并通过优化过程确定了10个最优组合。这些因子不仅考虑了肽的疏水性(多个维度),还考虑了特定氨基酸的百分比和在肽链N/C端的分布,从而更全面地捕捉了苦味肽的特征。
  • LightGBM 算法的应用: 选择了 LightGBM 这一高效的 GBDT 算法,它在处理大规模数据和提高模型准确性方面表现优异,能够更好地利用所选的特征因子。
  • 强调预测精度: CPM-BP 在独立测试数据集上取得了90.3%的准确率,并在多项评估指标上(ACCPREF1MCC)显著优于 iBitter-SCMiBitter-Fuse。虽然在敏感性 (SN) 上略低,但其更高的精确度 (PRE) 表明 CPM-BP 预测的苦味肽具有更高的真实性,这符合本研究准确预测 BPs 的目标。
  • 完整的实验验证流程: 不仅在计算层面进行了模型构建和比较,还结合了肽组学技术识别真实牛奶样本中的肽,并通过体外钙动员实验对预测出的潜在苦味肽进行了生物学验证,形成了从计算预测到实验验证的完整工作流程。

4. 方法论

4.1. 方法原理

本文旨在通过整合肽组学技术和机器学习方法,开发一个高效、准确的苦味肽 (BPs) 筛选和预测工作流程。核心思想是利用 LightGBM 算法构建一个分类预测模型 (CPM-BP),该模型通过学习苦味肽和非苦味肽 (NBPs) 之间在氨基酸序列特征上的差异来实现预测。为了提高模型的准确性和泛化能力,研究人员构建了一个扩展的基准数据集,并精心选择了能够有效区分 BPsNBPs 的特征因子。最终,将该模型应用于变质 UHT 牛奶中的肽谱分析,预测潜在的苦味肽,并通过体外生物实验进行验证。

4.2. 核心方法详解

4.2.1. CPM-BP 的构建

CPM-BP 的构建包括基准数据集的建立、苦味肽特征因子的选择、LightGBM 模型的构建和性能评估四个主要步骤。

4.2.1.1. 基准数据集构建 (Benchmark dataset construction)

  • 数据来源:
    • 基础数据集:BTP640 (包含320个 BPs 和320个 NBPs)。
    • 扩展来源:Biopep 数据库 (https://biochemia.uwm.edu.pl/biopep-uwm/),上海交通大学食品风味感知创新实验室开发的风味数据库 (https://mffi.sjtu.edu.cn/database/),BitterDB 数据库 (https://bitterdb.agri.huji.ac.il/bitterdb/),以及多篇已发表文献。
  • 筛选标准: 仅收录具有单一苦味特征的肽,排除同时具有两种或多种味觉的肽,以确保数据的纯粹性。
  • 最终数据集 (BTP720): 包含720个肽序列,其中360个 BPs (如 Table S1) 和360个 NBPs (如 Table S2)。
  • 数据划分: 为确保公平测试,BTP720 数据集被随机划分为训练集和独立测试集,比例为8:2。
    • 训练集:288个 BPs 和288个 NBPs
    • 独立测试集:72个 BPs 和72个 NBPs

4.2.1.2. 苦味肽特征因子的选择 (Selection of the characteristic factors of BPs)

根据已发表文献和相关数据库,提出了14个潜在的苦味肽特征因子。这些因子主要围绕肽的疏水性、特定氨基酸的组成和位置等。

  • 特征因子列表 (Table 1): 以下是原文 Table 1 的结果:

    Codes Interpretations Contribution degrees
    Q Average hydrophobicity of peptides 56
    Q1* Percentage of the amino acids with value < 0 in peptides \
    Q2 Percentage of the amino acids with value in range 0–1000 in peptides 21
    Q3* Percentage of the amino acids with value in range 1000–2000 in peptides \
    Q4 Percentage of the amino acids with value in range 2000–3000 in peptides 17
    AH Average hydrophobicity of peptides 52
    N The hydrophobicity of amino acids located in the N-terminal of peptides 26
    C The hydrophobicity of amino acids located in the C-terminal of peptides 41
    Percentage- HAA Percentage of bitter-contributing amino acids (Ala, Phe, Gly, Ile, Leu, Met, Pro, Val, Tyr, and Trp) in peptides 64
    N-basic AA The amino acids located in N-terminal of peptides were basic amino acids or not 5
    LFIYWV-C** The amino acids located in C-terminal of peptides were six kinds bitter-contributing amino acids (Leu, Phe, Ile, Tyr, Trp, and Val) or not \
    Percentage- FWY Percentage of three kinds of bitter-contributing amino acids (Phe, Trp, and Tyr) in peptides 11
    P-X-C Amino acid P located in the second place from C-terminal of peptides or not 7
    RP* Adjacent RP in peptides or not \
    • 注意: * 表示在后续步骤中被人为消除的特征因子;** 表示在后续步骤中被 LightGBM 算法自动消除的特征因子;\ 表示在最优组合中被消除且没有贡献度的特征因子。
  • 特征量化: BPsNBPs 数据集通过这些特征因子进行量化。

  • 可分离性验证 (Separability verification): 基于欧氏距离 (Euclidean distance) 判断特征因子区分 BPsNBPs 的能力。距离越短,相似度越高。

4.2.1.3. LightGBM 模型构建 (LightGBM model construction)

  • 算法选择: LightGBM (一种基于梯度提升决策树 GBDT 的机器学习框架)。
    • 优势: 更快的训练速度、更低的内存消耗、更好的准确性,并支持并行、分布式和 GPU 学习。
    • 优化机制:
      • 同时使用损失函数的一阶和二阶负梯度来计算当前树的残差,并用此结果拟合下一轮新树。
      • 采用基于直方图的决策树算法 (Histogram-based decision tree algorithm)。
      • 采用基于梯度的单边采样 (Gradient-based-One-Side Sampling, GOSS) 算法。
      • 采用独占特征捆绑 (Exclusive Feature Bundling, EFB) 算法,提高算法整体效率。
  • 模型训练: 将经过不同特征因子子集量化的训练数据集输入 LightGBM 分类器。
  • 超参数优化: 使用 10-fold cross-validationgrid search 来选择模型的最佳调优参数,以找到最优的特征子集。

4.2.1.4. 性能评估 (Performance evaluation)

采用六个广泛使用的指标来评估模型的预测能力:

  • 准确率 (Accuracy, ACC): ACC=TP+TNTP+FP+FN+TN \mathrm{ACC} = \frac{\mathrm{TP} + \mathrm{TN}}{\mathrm{TP} + \mathrm{FP} + \mathrm{FN} + \mathrm{TN}} 其中,
    • TP\mathrm{TP} (True Positives): 正确预测为苦味肽的苦味肽数量。
    • TN\mathrm{TN} (True Negatives): 正确预测为非苦味肽的非苦味肽数量。
    • FP\mathrm{FP} (False Positives): 错误预测为苦味肽的非苦味肽数量。
    • FN\mathrm{FN} (False Negatives): 错误预测为非苦味肽的苦味肽数量。
  • 精确率 (Precision, PRE): PRE=TPTP+FP \mathrm{PRE} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FP}} 其中,
    • TP\mathrm{TP}: 正确预测为苦味肽的苦味肽数量。
    • FP\mathrm{FP}: 错误预测为苦味肽的非苦味肽数量。
  • 敏感性/召回率 (Sensitivity, SN): SN=TPTP+FN \mathrm{SN} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FN}} 其中,
    • TP\mathrm{TP}: 正确预测为苦味肽的苦味肽数量。
    • FN\mathrm{FN}: 错误预测为非苦味肽的苦味肽数量。
  • F1 分数 (F1 score): 精确率和敏感性的调和平均值,综合评估两者的指标。 F1=2×TP2×TP+FN+FP \mathrm{F1} = \frac{2 \times \mathrm{TP}}{2 \times \mathrm{TP} + \mathrm{FN} + \mathrm{FP}} 其中,
    • TP\mathrm{TP}: 正确预测为苦味肽的苦味肽数量。
    • FN\mathrm{FN}: 错误预测为非苦味肽的苦味肽数量。
    • FP\mathrm{FP}: 错误预测为苦味肽的非苦味肽数量。
  • 马修斯相关系数 (Matthews Correlation Coefficient, MCC): 在机器学习中常用于衡量二分类和多分类模型质量的均衡指标。 MCC=TPTNFPFN(TP+FP)(TP+FN)(TN+FP)(TN+FN) \mathrm{MCC} = \frac{\mathrm{TP} \cdot \mathrm{TN} - \mathrm{FP} \cdot \mathrm{FN}}{\sqrt{(\mathrm{TP} + \mathrm{FP})(\mathrm{TP} + \mathrm{FN})(\mathrm{TN} + \mathrm{FP})(\mathrm{TN} + \mathrm{FN})}} 其中,
    • TP\mathrm{TP}: 正确预测为苦味肽的苦味肽数量。
    • TN\mathrm{TN}: 正确预测为非苦味肽的非苦味肽数量。
    • FP\mathrm{FP}: 错误预测为苦味肽的非苦味肽数量。
    • FN\mathrm{FN}: 错误预测为非苦味肽的苦味肽数量。
  • 受试者工作特征曲线 (Receiver Operating Characteristic, ROC) 和曲线下面积 (Area Under the ROC curve, AUC): ROC 曲线是阈值无关的参数,AUC 值用于评估预测性能,范围在0.5(随机模型)到1(完美模型)之间。

4.2.2. 肽提取和鉴定 (Peptides extraction and identification)

4.2.2.1. 样品制备 (Sample preparation)

  1. 样品获取: 购买新鲜超高温灭菌乳 (FM) 和变质超高温灭菌乳 (SM) 样品。
  2. 前处理: 样品在 4C4^\circ\mathrm{C} 下放置1小时,然后以 15,000×g15,000 \times g4C4^\circ\mathrm{C} 离心20分钟,以去除脂肪和沉淀物。
  3. 超滤: 上清液使用10 kDa 超滤离心管 (Millipore Corp.) 在 4,000×g4,000 \times g20C20^\circ\mathrm{C} 离心20分钟,以获得肽。
  4. 冻干: 提取的肽进行冻干以备后续步骤。

4.2.2.2. 样品脱盐 (Sample desalting)

  1. C18 SPE 柱活化与平衡: C18 SPE 柱 (10 mg, Waters) 用1 mL 甲醇活化,然后用0.1% TFA (v/v) 水溶液平衡。
  2. 上样: 1 mg 冻干肽用0.1% TFA (v/v) 重溶,并加载到柱上。
  3. 清洗与洗脱: 用200 µL 的0.1% TFA (v/v) 清洗两次进行脱盐。肽用1.5 mL 的0.1% TFA (v/v) 在80%乙腈 (v/v) 中洗脱。
  4. 保存: 收集纯化的肽,冻干并储存于 80C-80^\circ\mathrm{C}

4.2.2.3. HPLC-MS/MS 鉴定 (HPLC-MS/MS identification)

  1. 仪器: Dionex UltiMate 3000 RSLCnano 系统 (Thermo Scientific) 连接 LTQ-Orbitrap Elite 质谱仪 (Thermo Scientific)。
  2. 进样: 冻干肽溶于0.1% FA,每次分析进样1 µL
  3. 色谱分离: 肽在 C18 捕集柱 (3.5cm×200µm3.5 \mathrm{cm} \times 200 \mathrm{µm} i.d.) 上富集,然后在反相 (RP) C18 分析柱 (15cm×150µm15 \mathrm{cm} \times 150 \mathrm{µm} i.d.) 上分离,流速约为 600nL/min600 \mathrm{nL/min}
  4. 梯度洗脱: 采用二元梯度:
    • 2-8% 缓冲液 B (80% ACN/0.1% FA) 2分钟。
    • 8-45% 缓冲液 B 100分钟。
    • 45-95% 缓冲液 B 3分钟。
    • 每个样品进行三次重复分析。
  5. 质谱操作: 质谱仪以正离子数据依赖采集 (DDA) 模式运行。
    • 离子传输毛细管温度:320C320^\circ\mathrm{C}
    • 喷雾电压:1.9kV1.9 \mathrm{kV}
    • MS 分辨率:120,000。
    • 扫描范围:m/z~350-2000
    • 碰撞诱导解离 (CID) 碎裂:对丰度最高的20个前体离子进行,最小强度500,隔离宽度2,归一化碰撞能35,启用动态排除 (重复计数1,重复持续时间30,排除持续时间40)。

4.2.2.4. 数据分析 (Data analysis)

  1. 软件: MaxQuantTM (v1.5.3.30)。
  2. 数据库搜索: 原始数据文件在从 https://www.UniProt.org/ 下载的牛数据库中搜索。
  3. 搜索参数:
    • 前体离子质量容差:4.5ppm4.5 \mathrm{ppm}
    • 碎片离子质量容差:20ppm20 \mathrm{ppm}
    • 无酶切,无错切。
    • 固定修饰:无。
    • 可变修饰:蛋氨酸氧化 (M, +15.9949Da+15.9949 \mathrm{Da})。
    • PSM 假阳性率 (FDR):设定为0.01。
  4. 有效肽段鉴定: 在每个牛奶样品的五次平行运行中至少有三次鉴定到的肽段才被认为是有效肽段。

4.2.3. 钙动员测定 (Determination of calcium mobilization)

为了验证潜在的 BPs,采用测量 HEK293T 细胞内钙离子动员的方法。

  1. 细胞培养: HEK293T 细胞以 1.0×1051.0 \times 10^5 个细胞/孔的密度接种在 PLL 涂层的96孔板中,在含10% FBSDMEM 培养基中,37C37^\circ\mathrm{C} 和5% CO2\mathrm{CO_2} 湿润气氛下孵育24小时。
  2. 瞬时转染: 使用 Lipofectamine 2000FLAG-TAS2R4 (人 T2R4 基因) 和 Gα16/44-FLAG (嵌合 GG 蛋白) 共转染到实验组细胞中。对照组细胞仅转染 Gα16/44-FLAG
  3. 染料加载: 细胞与含 probenecid (2.5 mM) 和 Pluronic F-127 (0.05%, w/v) 的 Fluo-4 acetoxymethyl ester (Fluo-4 AM) 染料在 37C37^\circ\mathrm{C} 下孵育30分钟,随后在室温下孵育30分钟。
  4. 肽处理和测量: 用不同浓度的潜在 BPs (0.1 mM、1.0 mM 和5.0 mM) 处理细胞。在微孔板读数仪 (Biotek Synergy H1) 上测量 525nm525 \mathrm{nm} (激发光 494nm494 \mathrm{nm}) 处的钙离子水平。
  5. 数据计算: 对照组的响应作为空白响应。Δ\Delta 荧光强度 (
\Delta`fluorescence intensities`) 通过从实验组的最大响应中减去空白响应来计算。数据来自至少三次独立实验。

### 4.2.4. 统计分析 (Statistical analysis)
数据分析和图表可视化使用 `EVenn` (`https://www.ehbio.com/test/venn/`)、`SIMCA 14.1` 软件 (UMETRICS) 和 `Graph-Pad Prism 9.0` (GraphPad Software)。

# 5. 实验设置

## 5.1. 数据集
*   **苦味肽预测模型数据集 (`BTP720`):**
    *   **组成:** 720个肽序列,包括360个苦味肽 (`BPs`) 和360个非苦味肽 (`NBPs`)。这些数据来自 `BTP640` 数据集、`Biopep` 数据库、上海交通大学风味数据库、`BitterDB` 数据库以及多篇文献。
    *   **筛选标准:** 确保 `BTP720` 中的苦味肽仅具有单一苦味特征,不含同时具有其他味觉的肽。
    *   **划分:**
        *   **训练集:** 288个 `BPs` 和288个 `NBPs`。
        *   **独立测试集:** 72个 `BPs` 和72个 `NBPs`。
*   **肽组学分析数据集:**
    *   **样品:** 新鲜超高温灭菌乳 (`FM`) 和变质超高温灭菌乳 (`SM`) 样品,购自当地市场。
    *   **目的:** 用于鉴定 `FM` 和 `SM` 之间显著差异的肽,这些肽可能包含潜在的苦味肽。
    *   **肽鉴定结果:** `FM` 中鉴定出1280个独特肽,`SM` 中鉴定出1072个独特肽。

## 5.2. 评估指标
论文使用了六种广泛用于二分类预测问题的指标来评估 `CPM-BP` 模型的性能,这些指标已在方法论部分详细介绍,这里仅列出其公式以供参考。

*   **准确率 (Accuracy, ACC):** 衡量模型整体预测正确的比例。
\mathrm{ACC} = \frac{\mathrm{TP} + \mathrm{TN}}{\mathrm{TP} + \mathrm{FP} + \mathrm{FN} + \mathrm{TN}}
\text{其中,}$\mathrm{TP}$ \text{为真阳性,}$\mathrm{TN}$ \text{为真阴性,}$\mathrm{FP}$ \text{为假阳性,}$\mathrm{FN}$ \text{为假阴性。}

*   <strong>\text{精确率} (Precision, PRE):</strong> \text{衡量模型预测为正类中真实正类的比例。}
\mathrm{PRE} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FP}}
\text{其中,}$\mathrm{TP}$ \text{为真阳性,}$\mathrm{FP}$ \text{为假阳性。}

*   <strong>\text{敏感性}/\text{召回率} (Sensitivity, SN):</strong> \text{衡量模型真实正类中被正确预测为正类的比例。}
\mathrm{SN} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FN}}
\text{其中,}$\mathrm{TP}$ \text{为真阳性,}$\mathrm{FN}$ \text{为假阴性。}

*   <strong>F1 \text{分数} (F1 score):</strong> \text{精确率和敏感性的调和平均值,综合评估两者的指标。}
\mathrm{F1} = \frac{2 \times \mathrm{TP}}{2 \times \mathrm{TP} + \mathrm{FN} + \mathrm{FP}}
\text{其中,}$\mathrm{TP}$ \text{为真阳性,}$\mathrm{FN}$ \text{为假阴性,}$\mathrm{FP}$ \text{为假阳性。}

*   <strong>\text{马修斯相关系数} (Matthews Correlation Coefficient, MCC):</strong> \text{在机器学习中常用于衡量二分类和多分类模型质量的均衡指标。}
\mathrm{MCC} = \frac{\mathrm{TP} \cdot \mathrm{TN} - \mathrm{FP} \cdot \mathrm{FN}}{\sqrt{(\mathrm{TP} + \mathrm{FP})(\mathrm{TP} + \mathrm{FN})(\mathrm{TN} + \mathrm{FP})(\mathrm{TN} + \mathrm{FN})}}
\$\$
其中,TP\mathrm{TP} 为真阳性,TN\mathrm{TN} 为真阴性,FP\mathrm{FP} 为假阳性,FN\mathrm{FN} 为假阴性。
  • 受试者工作特征曲线下面积 (Area Under the ROC curve, AUC): 衡量模型在所有可能分类阈值下的整体性能,AUC 值越接近1表示模型性能越好。

5.3. 对比基线

本文将 CPM-BP 模型的性能与以下两个已有的苦味肽预测模型进行了比较:

  • iBitter-SCM: 一种使用记分卡方法 (Scoring Card Method) 和二肽倾向性分数识别苦味肽的模型。

  • iBitter-Fuse: 一种通过融合多视图特征来预测苦味肽的模型。

    此外,为了公平比较,作者还将 CPM-BP 在原始 BTP640 数据集上重新训练后的性能与这两个模型进行了对比。

6. 实验结果与分析

6.1. 背景算法选择和特征因子选择

  • LightGBM 算法的优势: 本文选择 LightGBM 构建 CPM-BP,原因在于它相比传统 GBDT 具有更快的训练速度、更低的内存消耗、更高的准确性,并且支持并行、分布式和 GPU 学习,能高效处理大规模数据。它通过利用损失函数的一阶和二阶负梯度、基于直方图的决策树、GOSSEFB 算法来优化性能。
  • 特征因子选择: 从文献中筛选出14个潜在的苦味肽特征因子(如 Table 1 所示),主要关注疏水性(例如 QQAHNNCCPercentage-HAAPercentage-FWY)以及特定氨基酸在肽链中的位置(例如 N-basic AAP-X-CLFIYWV-C)。疏水性被认为是苦味肽最重要的因子。

6.2. 最佳 LightGBM 模型的确定

通过可分离性验证(基于欧氏距离)和逐步消除特征因子,对 CPM-BP 进行了优化。

以下是原文 Table 2 的结果:

Eliminated factors
ACC1 PRE2 SN3 F14 MCC5 AUC6
10-fold CV 83.7 % 84.3 % 83.6 % 83.6 % 67.4 % 86.3 %
RP + Q1 84.4 % 85.1 % 84.3 % 84.3 % 68.8 % 86.6 %
RP + Q1 + Q3 84.9 % 85.4 % 84.9 % 84.8 % 69.8 % 86.8 %
RP + Q1 + Q3 + N-basic AA 84.0 % 84.5 % 84.0 % 84.0 % 68.0 % 86.4 %
RP + Q1 + Q3 + N-basic AA + P-X-C 83.5 % 84.0 % 83.5 % 83.4 % 67.0 % 86.3 %
Independent test 87.5 % 92.2 % 81.9 % 86.8 % 75.5 % 88.2 %
RP + Q1 88.9 % 95.2 % 81.9 % 88.0 % 78.5 % 89.3 %
RP + Q1 + Q3 90.3 % 98.3 % 81.9 % 89.3 % 81.6 % 90.5 %
RP + Q1 + Q3 + N-basic AA 88.2 % 95.1 % 80.6 % 87.2 % 77.3 % 88.7 %
RP + Q1 + Q3 + N-basic AA + P-X-C 88.9 % 95.2 % 81.9 % 88.0 % 78.5 % 89.3 %

1 ACC (Accuracy); 2 PRE (Precision); 3 SN (Sensitivity); 4 F1 (F1 score); 5 MCC (Matthews Correlation Coefficient); 6 AUC (Area Under the ROC curve).

  • 特征因子优化:
    • 通过可分离性验证,RPQ1Q3N-basic AAP-x-C 被认为是相似度较高或贡献较低的因子。
    • 10-fold cross-validation 中,当人工消除 RPQ1Q3 后,模型性能最佳 (ACC 84.9%)。这表明这些因子统计显著性较低,例如 RP 仅存在于少数 BPsNBPs 中。
    • 因子 LFIYWV-C 随后被 LightGBM 算法自动消除。
    • 最终,包含 QQQ2Q4AHNNCCPercentage-HAAN-basic AAPercentage-FWYP-X-C 这10个特征因子的组合被确定为最优。
  • CPM-BP 性能:
    • 在独立测试数据集上,使用最优10个特征因子的 CPM-BP 取得了最佳性能:ACC 达到 90.3%PRE 达到 98.3%F1 达到 89.3%MCC 达到 81.6%AUC 达到 90.5%
    • 贡献度分析显示,Percentage-HAA (64%)、QQ (56%)、AH (52%) 和 CC (41%) 的贡献度最高,这与之前文献中强调的疏水性氨基酸和 QQ 值对苦味的重要性一致。

6.3. CPM-BP 与其他现有 BPs 预测模型的比较

  • 基准数据集 BTP720 上的表现:
    • CPM-BP 在扩展的 BTP720 独立测试数据集上,显著优于 iBitter-SCMiBitter-Fuse
    • CPM-BPACCPREF1MCC 四项指标上均表现更好,例如 ACCiBitter-SCM 提高了16.7%,PRE 提高了29.0%。
    • iBitter-SCMiBitter-FuseSN (敏感性) 上略优于 CPM-BP (分别高2.8%和7.0%)。这意味着 CPM-BP 可能无法预测所有 BPs,但其预测出的 BPs 具有非常高的真实性,与本研究侧重准确预测 BPs 的目标一致。
  • 基准数据集 BTP640 上的表现:
    • 为了公平比较,CPM-BPBTP640 (与 iBitter-SCMiBitter-Fuse 相同的数据集) 上重新训练后,其性能有所下降 (ACC 83.6%)。
    • 这一结果进一步强调了 BTP720 这一更大、更准确的基准数据集对 CPM-BP 性能提升的关键作用。

6.4. FM 和 SM 的肽组学分析

下图(原文 Figure 2)展示了新鲜 (FM) 和变质 (SM) UHT 牛奶的肽组学分析结果:

该图像是一个多部分图,包括主成分分析(A)、维恩图(B)、小提琴图(C)和火山图(D),展示了新鲜与变质UHT奶的不同肽类的特征。A部分显示了肽的主成分分布,B部分揭示了两组样本间的相似性,C部分展示了肽的LFQ强度差异,D部分则体现了肽的统计显著性。 该图像是一个多部分图,包括主成分分析(A)、维恩图(B)、小提琴图(C)和火山图(D),展示了新鲜与变质UHT奶的不同肽类的特征。A部分显示了肽的主成分分布,B部分揭示了两组样本间的相似性,C部分展示了肽的LFQ强度差异,D部分则体现了肽的统计显著性。

  • 主成分分析 (PCA) (图2A): PCA 结果显示 FMSM 样品之间存在良好的区分度,R2X (58.50%) 和 R2Y (8.27%) 解释了约66.77%的总方差,表明两组样品在肽谱上存在显著差异。
  • 肽鉴定 (图2B): FM 中鉴定了1280个独特肽,来自57种蛋白质;SM 中鉴定了1072个独特肽,来自27种蛋白质。
  • 肽丰度分布 (图2C): 小提琴图显示 FMSM 中肽的丰度分布存在显著差异 (P<0.01P < 0.01)。
  • 火山图 (图2D): 揭示了 FMSM 之间肽丰度的显著变化。折叠变化 (fold change) 定义为 SM/FMSM / FM,折叠变化 >5>5<0.2<0.2P<0.05P < 0.05 的肽被认为是显著变化的。
  • 肽长度分布 (图S3): 在7-25个氨基酸的范围内,SM 中鉴定了更多的短肽,这表明 SM 中可能发生了蛋白酶作用下的进一步水解。
  • 差异肽鉴定: 满足以下任一条件的肽被认为是 FMSM 之间的差异肽:
    1. 仅在 SM 中鉴定的肽 (639个独特肽)。
    2. FMSM 中均鉴定到,但在 SM 中的强度至少是 FM 的5倍的肽 (85个显著增加肽)。
    • 总共有724个差异肽被鉴定。这些差异肽可能包含导致 SM 苦味的潜在苦味肽。

6.5. SM 中潜在 BPs 的预测

  • 预测结果: 在724个显著差异肽中,CPM-BP 预测了180个潜在的苦味肽 (如 Table S7)。

  • 来源蛋白质: 大多数预测的潜在 BPs (164/180) 来自酪蛋白 (casein),其中大部分来源于 β\beta-酪蛋白 (P02666),其次是 αS1\alpha S1-酪蛋白 (P02662)、αS2\alpha S2-酪蛋白 (P02663) 和 κ\kappa-酪蛋白 (P02668)。这证实酪蛋白是产生苦味肽的重要来源。

  • 起源类型: 大多数潜在 BPs (150/180) 仅在 SM 中发现(条件1),而不是在 SM 中丰度显著增加(条件2,30/180)。这表明这些肽是在 SM 中由未失活的蛋白酶作用下新产生的。

  • 已知 BPs 的预测: 在180个潜在 BPs 中,有11个肽(如 Table 3 所示)已被报道为苦味肽。这些已知 BPs 也都来源于酪蛋白,其中 β\beta-酪蛋白释放的最多 (7个)。

    以下是原文 Table 3 的结果:

    Category Sequences CPM-BP iBitter-SCM iBitter-Fuse References
    Known BPs YLEQLLR Bitter Bitter Bitter (Lemieux & Simard, 1992)
    FALPQYLK Bitter Non-Bitter Non-Bitter (Lemieux & Simard, 1992)
    LHLPLPLL Bitter Non-Bitter Non-Bitter (Sebald et al., 2020)
    LPLPLLQSW Bitter Non-Bitter Non-Bitter (Sebald et al., 2020)
    PFPGPIPNS Bitter Bitter Bitter (Belitz & Wieser, 1985)
    VYPFPGPIPN Bitter Bitter Bitter (Toelstede & Hofmann, 2008; Zhao et al., 2016)
    YLGYLEQLLR Bitter Bitter Bitter (Belitz & Wieser, 1985)
    VENLHLPLPLL Bitter Non-Bitter Non-Bitter (Sebald et al., 2020)
    MPFPKYPVEPF Bitter Bitter Bitter (Karametsi et al., 2014)
    AIPPKKNQDKTEIPTIN Bitter Non-Bitter Non-Bitter (Sebald et al., 2020)
    APKHKEMPFPKYPVEPF Bitter Bitter Bitter (Karametsi et al., 2014)
    Potential BPs FALPQYL Bitter Non-bitter Non-bitter This study
    FFVAPFPEVFGKE Bitter Bitter Bitter
    EMPFPKYP Bitter Bitter Bitter
  • CPM-BP 在已知 BPs 上的表现: CPM-BP 成功预测了所有11个已知 BPs,而 iBitter-SCMiBiter-Fuse 仅预测了其中6个。例如,FALPQYLK (一个在 BTP640BTP720 中都包含的已知 BP) 被 CPM-BP 预测为苦味肽,但被 iBitter-SCMiBiter-Fuse 预测为非苦味肽。这进一步表明,更大、更可靠的基准数据集有助于构建更准确的模型。

6.6. 潜在 BPs 对表达 hT2R4 的 HEK293T 细胞钙释放的影响

为了验证 CPM-BP 预测的潜在 BPs,选择了以下肽进行钙动员测定:

  • 已知 BP (阳性对照): FALPQYLK (已报道为苦味肽)。

  • 预测潜在 BPs: FALPQYL (与 FALPQYLK 序列相似,用于研究C端赖氨酸 (KK) 的影响), FFVAPFPEVFGKE, EMPFPKYP

  • 非苦味肽 (阴性对照): AGDDAPRAVF (已证明抑制奎宁依赖的 hT2R4 钙释放)。

  • 预测情况: FALPQYLKFALPQYLiBitter-SCMiBitter-Fuse 预测为非苦味肽,而 FFVAPFPEVFGKEEMPFPKYP 被它们预测为苦味肽。

    下图(原文 Figure 3)展示了四种不同肽在不同浓度下的钙动员结果:

    该图像是 fluorescence intensity(荧光强度)相关的柱状图,展示了四种不同肽(FALPQYLK, FALPQYL, FFVAPFPEVFGKE, EMPFPKYP)在不同浓度(0.1 mM, 1.0 mM, 5.0 mM)下的表现。图中数据表明,浓度增加时部分肽的荧光强度有明显提升,验证了其作为苦味肽的潜力。 该图像是 fluorescence intensity(荧光强度)相关的柱状图,展示了四种不同肽(FALPQYLK, FALPQYL, FFVAPFPEVFGKE, EMPFPKYP)在不同浓度(0.1 mM, 1.0 mM, 5.0 mM)下的表现。图中数据表明,浓度增加时部分肽的荧光强度有明显提升,验证了其作为苦味肽的潜力。

  • 阴性对照 AGDDAPRAVF: 未能激活 hT2R4,符合预期。

  • 阳性对照 FALPQYLK: 表现出最显著的钙信号变化,证实其苦味属性。

  • 预测潜在 BPs 的激活能力:

    • FALPQYLK 和 FALPQYL (图3A, 3B): FALPQYLKFALPQYL 均表现出剂量依赖性效应。FALPQYLK 的最高 Δ\Delta 荧光强度值几乎是 FFVAPFPEVFGKE 的10倍,且显著高于 FALPQYL。这表明C端赖氨酸 (KK) 对 FALPQYLK 的苦味具有显著增强作用。
    • FFVAPFPEVFGKE (图3C): 表现出剂量依赖性效应,证明其苦味属性。
    • EMPFPKYP (图3D): 在相对低浓度 (0.1 mM 和 1.0 mM) 下也表现出剂量依赖性效应,但 5.0 mM 时钙信号持续增加,可能与更复杂的钙动员机制(如激活其他信号通路或离子通道)有关。
  • 验证结论: 实验结果表明,FALPQYLKFALPQYLFFVAPFPEVFGKE 能够明显激活苦味受体,EMPFPKYP 在低浓度下也显示出苦味,这些结果证明了 CPM-BP 的有效性,并进一步证实了整个工作流程的可行性。

7. 总结与思考

7.1. 结论总结

本研究成功开发了一个基于肽组学技术和机器学习方法的完整苦味肽 (BPs) 识别与预测工作流程。核心贡献包括:

  • 构建了高性能预测模型 CPM-BP: CPM-BP 基于 LightGBM 算法,利用扩展的 BTP720 基准数据集和优化的特征因子组合,在预测 BPs 方面达到了90.3%的准确率,并在多项性能指标上优于现有模型。
  • 创新性数据集和特征因子: 通过整合多源数据构建了更大的 BTP720 数据集,并筛选出10个最优的特征因子,这些因子能有效区分 BPsNBPs,特别是疏水性相关因子贡献显著。
  • 应用于实际食品样本:CPM-BP 应用于变质 UHT 牛奶的肽组学分析,成功预测出180个潜在的 BPs,其中大部分来源于酪蛋白,且多数是变质过程中新产生的肽。
  • 实验验证模型有效性: 通过体外钙动员实验,验证了1个已知 BP 和3个预测的潜在 BPs 能够激活人苦味受体 T2R4 (hT2R4),有力地证明了 CPM-BP 的有效性和整个工作流程的可靠性。

7.2. 局限性与未来工作

  • 基准数据集规模限制: 论文指出,目前 BPsNBPs 的基准数据集规模(720项)相对较小,这可能限制了训练和测试集中特征分布的完整性。虽然 BTP720 已经比现有数据集有所扩展,但仍有进一步增大的空间。
  • 模型泛化能力: 尽管 CPM-BP 在本研究中表现出色,但其在更广泛、更多样化的肽样本中的泛化能力仍需进一步验证。
  • 钙动员机制复杂性: 实验验证中 EMPFPKYP 在高浓度下表现出的异常钙信号模式,提示苦味肽激活受体的机制可能比简单剂量依赖性更复杂,可能涉及其他信号通路或离子通道的激活。
  • 未来工作方向:
    • 扩展基准数据集: 随着更多苦味肽数据的积累,进一步扩大和完善基准数据集将有助于提升模型的性能和鲁棒性。
    • 引入深度学习算法: 结合深度学习算法(如循环神经网络 RNN、卷积神经网络 CNNTransformer 架构)可能能捕捉到肽序列中更复杂的模式和长距离依赖关系,进一步增强预测能力。
    • 多领域应用: 本研究提出的工作流程有望应用于食品工业(如控制食品苦味)、制药工业(如开发苦味掩盖剂或具有生物活性的肽药物)等多个领域。

7.3. 个人启发与批判

  • 跨学科研究的典范: 这篇论文是生物学(肽组学、细胞实验)与计算科学(机器学习)成功结合的优秀案例,展示了如何通过多学科方法解决复杂的生物学问题。
  • 数据集质量的重要性: 论文通过构建更严谨、更具代表性的 BTP720 数据集,显著提升了模型性能,强调了在机器学习任务中,高质量数据比复杂的模型架构有时更为关键。特别是,严格筛选仅具有单一苦味特征的肽,避免了数据中的歧义性。
  • 特征工程的价值: 在深度学习时代,特征工程的地位似乎有所下降。但本文通过精心选择和优化传统特征因子,并分析其贡献度,仍然展现了良好特征工程在提升模型解释性和性能方面的巨大价值。例如,对疏水性、特定氨基酸百分比和位置的深入挖掘。
  • 模型选择的实用性: LightGBM 作为一种高效的集成学习算法,在实际应用中常能取得与深度学习模型媲美的效果,且训练成本更低,解释性更强。这提示我们在选择模型时,应兼顾性能、效率和可解释性。
  • 生物学验证不可或缺: 仅有计算预测是不够的,通过细胞实验对预测结果进行生物学验证,极大地增强了研究结果的说服力和可靠性,也为模型提供了真实世界的反馈。
  • 批判性思考:
    • 特征因子可解释性与通用性: 虽然当前筛选出的特征因子效果显著,但这些因子是否具有普适性,能够适用于所有类型的苦味肽(例如,非牛奶来源的肽),仍需进一步验证。
    • 黑盒问题: 尽管 LightGBM 比深度学习模型更具可解释性,但其内部决策过程对于普通用户而言仍是“黑盒”。如果能结合 SHAPLIME 等可解释性工具,进一步揭示每个特征因子对具体肽苦味预测的贡献,将有助于理解苦味肽的构效关系。
    • 低敏感性的考量: CPM-BP 的敏感性略低于其他模型,这意味着它可能会漏掉一些真实的苦味肽。在某些应用场景(如全面筛选所有潜在苦味物质)中,这可能是一个限制。未来的工作可以探索如何在保持高精度的同时,适度提升敏感性。
    • 高浓度下 EMPFPKYP 的异常行为: 实验中 EMPFPKYP 在高浓度下的非典型钙信号响应,提出了苦味肽作用机制多样性的问题。这可能暗示了苦味感知是一个复杂的多受体、多通路事件,未来的模型和验证方法可能需要考虑这种多维度响应。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。