AiPaper
论文状态:已完成

From prediction to design: Revealing the mechanisms of umami peptides using interpretable deep learning, quantum chemical simulations, and module substitution

原文链接
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究采用可解释深度学习模型与模块替代策略有效筛选和设计鲜味肽,模型准确率达0.94,领先2-9%。通过虚拟水解与感官评估识别出多种鲜味肽,探讨模块替代机制,揭示与T1R1/T1R3受体的相互作用,氨基酸D、E、Q、K、R关键助力鲜味肽设计。

摘要

This study screened and designed umami peptides using deep learning model and module substitution strategies. The predictive model, which integrates pre-training, enhanced feature, and contrastive learning module, achieved an accuracy of 0.94, outperforming other models by 2–9 %. Umami peptides were identified through virtual hydrolysis, model predictions, and sensory evaluation. Peptides EN, ETR, GK4, RK5, ER6, EF7, IL8, VR9, DL10, and PK14 demonstrated umami taste and exhibited umami-enhancing effects with MSG. Module substitution strategy, where highly contributive module from umami peptides replace corresponding module in bitter peptides, facilitates peptide design and modification. The mechanism underlying module substitution and taste presentation were elucidated via molecular docking and active site analysis, revealing that substituted peptides form more hydrogen bonds and hydrophobic interactions with T1R1/T1R3. Amino acids D, E, Q, K, and R were critical for umami taste. This study provides an efficient tool for rapid umami peptide screening and expands the repository.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

从预测到设计:利用可解释深度学习、量子化学模拟和模块替代揭示鲜味肽的机制 (From prediction to design: Revealing the mechanisms of umami peptides using interpretable deep learning, quantum chemical simulations, and module substitution)

1.2. 作者

Lijun Su, Hui Koe, Jian Li, Min Zuo 等。 作者们来自北京工商大学食品与健康学院以及北京物资学院信息学院。

1.3. 发表期刊/会议

该论文发表在 Food Chemistry 期刊。Food Chemistry 是一本在食品科学与技术领域具有较高声誉和影响力的国际期刊,专注于食品化学、食品成分、食品分析和食品加工等方面的研究。

1.4. 发表年份

文章中提到了 Food Chemistry, 2025, 469, Article 142457 等字样,推测是2025年发表。在 Data availability 部分,文章底部有一行 https://doi. org/10.1016/j.foodchem.2025.144301,确认文章计划于2025年发表。

1.5. 摘要

本研究使用深度学习模型和模块替代策略筛选和设计鲜味肽。所提出的预测模型整合了预训练、增强特征和对比学习模块,达到了0.94的准确率,比其他模型高出2%–9%。通过虚拟水解、模型预测和感官评估识别出鲜味肽。EN、ETR、GK4、RK5、ER6、EF7、IL8、VR9、DL10和PK14等肽段表现出鲜味,并与味精 (MSG) 具有增鲜效果。模块替代策略,即用鲜味肽中贡献度高的模块替换苦味肽中对应的模块,有助于肽的设计和修饰。通过分子对接和活性位点分析阐明了模块替代和味觉呈现的机制,揭示了替代肽与T1R1/T1R3受体形成了更多的氢键和疏水相互作用。氨基酸D、E、Q、K和R对鲜味至关重要。本研究为快速筛选鲜味肽提供了一种高效工具,并扩展了鲜味肽库。

1.6. 原文链接

/files/papers/69135ac4430ad52d5a9ef421/paper.pdf (该链接指向PDF文件,显示为已正式发表状态或预印本,具体取决于发布平台。)

2. 整体概括

2.1. 研究背景与动机

随着健康食品概念的兴起,消费者对食品品质和风味的要求越来越高。鲜味肽 (umami peptides) 作为新型风味增强剂,能够有效缓解传统风味增强剂(如味精 MSG,Monosodium Glutamate,谷氨酸钠)高钠摄入带来的健康风险,从而降低高血压及相关原发疾病的发病率。这符合食品开发中“天然、营养、安全”的原则,代表了科学前沿的新兴领域。然而,传统鲜味肽的筛选和设计方法通常依赖于复杂的多步骤色谱分离纯化、化学合成和感官评估,这些过程技术繁琐、成本高、耗时长,难以实现高通量筛选和工业化应用,极大地限制了鲜味肽的产业化发展。

为了应对这些挑战,研究人员迫切需要开发一种准确高效的方法来快速制备和设计鲜味肽。虽然已有一些基于机器学习的方法用于预测肽的鲜味特性,但它们在有效表示肽序列特征方面仍面临挑战,且通常依赖手动提取特征,可能引入噪声和冗余信息。此外,用于模型训练的数据集获取困难且需要实验验证,限制了鲜味肽数据集的可用性,从而影响了模型的预测性能。

2.2. 核心贡献/主要发现

本研究通过整合可解释深度学习、量子化学模拟和模块替代策略,为鲜味肽的快速筛选、精确设计和作用机制阐明提供了一个高效全面的解决方案。其核心贡献和主要发现包括:

  • 高性能鲜味肽预测模型: 开发了一个结合了预训练模块、增强特征模块和对比学习模块的深度学习模型,用于预测鲜味肽及其阈值。该模型在分类任务中表现出卓越的性能,准确率 (ACC) 达到0.93981,比其他现有模型高出2%到9%。在鲜味阈值回归预测中,模型的 R2\text{R}^2 值高达0.98,MSE、RMSE和MAE值极低,表明其在定量预测方面的鲁棒性。

  • 新型鲜味肽的识别和验证: 通过对黄粉虫 (Tenebrio molitor) 蛋白进行虚拟水解和模型预测,筛选出大量潜在鲜味肽。通过感官评估验证了其中十种未报道的肽(如EN, ETR, GK4等)具有鲜味,且检测阈值低于味精 (MSG),并与 MSG 具有显著的协同增鲜效应。

  • 模块替代策略的提出与验证: 提出了一种创新的模块替代策略,即利用深度学习模型解释性分析识别出的鲜味肽中高贡献的二肽片段(如EE),替换苦味肽中高贡献的苦味模块(如PF、FP、GP、PP、PG),成功将苦味肽转化为鲜味肽,实现了肽的精确设计和修饰。

  • 鲜味肽作用机制的阐明:

    • 通过深度学习模型的解释性分析和量子化学模拟,揭示了氨基酸D、E、Q、K和R对鲜味至关重要,特别是当K或R作为C-末端残基时,其在鲜味肽中的活性位点出现频率更高。
    • 通过分子对接实验,阐明了模块替代改变肽味觉特性的分子机制:替代后的肽与味觉受体T1R1/T1R3形成了更多的氢键和疏水相互作用,从而激活受体产生鲜味。
  • 扩展鲜味肽库并奠定理论基础: 本研究不仅提供了一个快速筛选鲜味肽的有效工具,显著丰富了鲜味肽库,还深入阐明了味觉呈现的机制,为鲜味肽的开发和设计奠定了理论基础。

3. 预备知识与相关工作

本研究整合了多个先进的计算生物学和机器学习技术,以解决鲜味肽的预测、设计和机制探索问题。理解这些技术对于掌握论文的核心内容至关重要。

3.1. 基础概念

3.1.1. 肽 (Peptides)

概念定义: 肽是由两个或多个氨基酸通过肽键连接形成的化合物。它们在生物体内具有多种生物活性,如激素、酶、抗菌剂等。根据氨基酸的数量,肽可以分为二肽、三肽、寡肽(通常指少于20个氨基酸的肽)和多肽(通常指较长的肽链)。 本文语境: 论文关注的是具有特定味觉属性的肽,特别是鲜味肽。

3.1.2. 鲜味 (Umami Taste)

概念定义: 鲜味是人类五种基本味觉之一,常被描述为肉味、美味或醇厚味。它主要由谷氨酸、天冬氨酸、核苷酸等物质引起。鲜味肽是指能诱导或增强鲜味感知的肽类物质。 本文语境: 论文旨在识别和设计具有鲜味特性的肽,并探讨其作用机制。

3.1.3. T1R1/T1R3 受体 (T1R1/T1R3 Receptor)

概念定义: T1R1和T1R3是两种G蛋白偶联受体 (G protein-coupled receptors, GPCRs) 亚基,它们共同组成人类味蕾中的异二聚体鲜味受体。当鲜味物质(如谷氨酸或鲜味肽)结合到这些受体上时,会激活细胞内的信号通路,最终导致鲜味感的产生。 本文语境: 分子对接 (Molecular Docking) 部分将鲜味肽与T1R1/T1R3受体进行模拟结合,以阐明其作用机制。

3.1.4. 深度学习 (Deep Learning, DL)

概念定义: 深度学习是机器学习的一个分支,其核心是构建和训练具有多层非线性变换的人工神经网络。这些网络能够从大量数据中自动学习复杂的特征表示,从而在图像识别、自然语言处理等任务中取得突破性进展。 本文语境: 论文使用深度学习模型进行鲜味肽的分类和阈值预测。

3.1.5. BERT (Bidirectional Encoder Representations from Transformers)

概念定义: BERT 是一种预训练的自然语言处理 (Natural Language Processing, NLP) 模型,由Google于2018年发布。它基于 Transformer 架构,通过在海量文本数据上进行双向无监督预训练(例如掩码语言模型 Masked Language Model 和下一句预测 Next Sentence Prediction),学习丰富的上下文信息和语言表示。其“双向”是指在处理文本时,它能同时考虑一个词语前后的所有词语,从而获得更全面的语义理解。 本文语境: 肽序列与自然语言文本序列具有相似性,因此 BERT 被用于将肽序列转换为高维特征向量,以支持下游的鲜味肽预测任务。

3.1.6. 对比学习 (Contrastive Learning)

概念定义: 对比学习是一种自监督学习方法,旨在通过比较不同样本之间的相似性与差异性来学习有效的特征表示。其核心思想是使相似样本(正样本对)在特征空间中距离更近,而不相似样本(负样本对)距离更远。这有助于模型提取数据中有价值的底层特征表示。 本文语境: 论文引入对比学习模块,以增强模型对肽序列特征的捕获能力,提高预测性能。

3.1.7. 量子化学模拟 (Quantum Chemical Simulations)

概念定义: 量子化学模拟是利用量子力学原理和计算方法研究分子结构、能量、反应路径和电子性质的计算技术。它可以提供分子层面上的详细信息,如分子轨道、电荷分布等,从而深入理解分子的化学行为。 本文语境: 论文利用量子化学模拟分析鲜味肽的活性位点,特别是最高占据分子轨道 (HOMO) 和最低未占据分子轨道 (LUMO),以阐明其味觉呈现机制。

3.1.8. 分子对接 (Molecular Docking)

概念定义: 分子对接是一种计算模拟方法,用于预测小分子配体(如肽)与大分子受体(如蛋白质)之间的结合模式和亲和力。它通过模拟配体在受体结合位点中的构象变化和相互作用,来预测最优的结合姿态和结合能。 本文语境: 论文使用分子对接来研究鲜味肽与T1R1/T1R3受体的相互作用,从而解释模块替代如何影响肽的味觉特性。

3.2. 前人工作

在鲜味肽的预测和筛选领域,前人工作主要集中在机器学习和深度学习方法的应用上:

  • 基于评分卡方法和机器学习: Charoenkwan 等人提出了 iUmami-SCM,结合机器学习算法和评分卡方法预测和分析鲜味肽,准确率达到0.824 (Charoenkwan et al., 2020)。
  • 基于分子描述符和梯度提升树: Cui 等人应用梯度提升决策树模型,基于分子描述符预测鲜味肽,并取得了较高的性能 (Cui et al., 2023)。
  • 基于神经网络:
    • Qi 等人提出了 Umami-MRNN 模型,结合多层感知机 (Multi-Layer Perceptron, MLP) 和循环神经网络 (Recurrent Neural Network, RNN),利用六种特征向量作为输入,在 UMP499 数据集上准确率达到90.5% (Qi et al., 2023)。
    • Zhang 等人采用两阶段训练策略,将双向编码器表示模型 BERT 与 Inception 网络结合,构建了一个鲜味肽预测模型,在平衡数据集上准确率达到93.23% (Zhang et al., 2023)。
    • Jiang 等人也利用 BERT 模型对鲜味肽进行预测,如 IUP-BERT (Jiang et al., 2022)。

3.2.1. 前人工作中的核心公式(以 Attention 机制为例)

尽管并非所有前人工作都直接在本文中复述了 Attention 机制的公式,但鉴于本文核心模型 BERT 是基于 Transformer 架构的,而 Attention 机制是 Transformer 的核心,对其理解至关重要。本文在方法论部分提到了 Attention 机制,并给出了其公式,因此在此提前解释,以帮助初学者更好地理解 BERT

Attention 机制的核心思想是允许模型在处理序列数据时,动态地为输入序列中的不同部分分配不同的“注意力”权重,从而捕获序列内部的长距离依赖关系。

Attention 机制的计算公式如下: Attention(Q,K,V)=Softmax(QKTdk)V \mathrm { Attention } ( \mathbf { Q } , \mathbf { K } , \mathbf { V } ) = \mathbf { Softmax } \left( \frac { \mathbf { Q } \mathbf { K } ^ { \mathrm { T } } } { \sqrt { \mathsf { d } _ { \mathbf { k } } } } \right) \mathbf { V } 符号解释:

  • Q\mathbf{Q} (Query): 查询矩阵,由当前词的表示通过线性变换得到。它代表了模型在编码当前词时“想要寻找什么”。
  • K\mathbf{K} (Key): 键矩阵,由序列中所有词的表示通过线性变换得到。它代表了序列中所有词的“内容摘要”。
  • V\mathbf{V} (Value): 值矩阵,由序列中所有词的表示通过线性变换得到。它包含了序列中所有词的“信息内容”。
  • KT\mathbf{K}^{\mathrm{T}}: 键矩阵的转置。
  • QKT\mathbf{Q} \mathbf{K}^{\mathrm{T}}: 查询矩阵与键矩阵转置的乘积,用于计算查询与所有键的相似度得分。得分越高,表示相关性越强。
  • dk\mathsf{d}_{\mathbf{k}}: 键向量的维度。除以 dk\sqrt{\mathsf{d}_{\mathbf{k}}} 是一种缩放因子 (scaling factor),用于防止在 QKT\mathbf{Q} \mathbf{K}^{\mathrm{T}} 结果过大时 Softmax 函数梯度过小,导致训练不稳定。
  • Softmax\mathbf{Softmax}: 归一化指数函数,将相似度得分转换为介于0到1之间的概率分布,这些概率即为注意力权重。
  • V\mathbf{V}: 值矩阵,注意力权重与值矩阵相乘,得到加权求和的结果。这意味着模型根据注意力权重,从所有词的信息内容中提取出与当前词最相关的信息。

3.3. 技术演进

该领域的技术演进经历了从传统机器学习到深度学习,再到结合预训练模型和高级学习策略的阶段:

  1. 传统机器学习: 早期工作主要依赖于手工提取的特征(如氨基酸组成、理化性质等)结合支持向量机 (SVM)、随机森林 (Random Forest) 等传统机器学习算法进行预测。这些方法往往受限于特征工程的质量和经验。
  2. 深度学习的引入: 随着深度学习技术的发展,循环神经网络 (RNN)、卷积神经网络 (CNN) 等被引入肽序列预测,能够自动学习序列特征,减少了对人工特征工程的依赖。
  3. 预训练模型和 Transformer 架构: BERT 等基于 Transformer 的预训练模型在自然语言处理领域取得巨大成功后,也被应用于肽序列分析。这些模型通过在大规模未标注肽数据上预训练,学习通用的肽表示,然后通过微调 (fine-tuning) 适应特定任务(如鲜味肽预测),显著提升了性能。
  4. 特征增强与对比学习: 为了克服数据集稀缺和模型泛化能力不足的问题,研究人员开始探索结合多种特征表示(如伪氨基酸组成 PseAACCKSAAGP 等)以及对比学习策略,以更有效地捕获肽的结构和功能信息。
  5. 可解释性与设计: 仅有预测能力不足以满足实际应用需求,因此对模型进行可解释性分析,并结合分子模拟(如量子化学模拟、分子对接)来理解作用机制,进而指导肽的理性设计,成为新的研究热点。

3.4. 差异化分析

本论文的方法与现有相关工作相比,其核心区别和创新点体现在以下几个方面:

  • 模型集成与性能提升:

    • 深度融合多源特征: 现有模型多依赖单一特征或有限特征组合。本文不仅使用了 BERT 进行自动化的上下文特征提取,还通过“增强特征模块”集成了 DistancePairCKSAAGPQSOrderDDE 等多种序列表示方法,融合了氨基酸组成、理化性质、结构信息和进化信息,为模型提供了更全面的输入。
    • 引入对比学习: 现有鲜味肽预测模型较少使用对比学习。本文引入了对比学习模块,通过比较正负样本对的相似性,学习更鲁棒的特征表示,尤其在数据量有限的情况下,能有效提升模型的泛化能力和区分度。
    • 卓越的预测性能: 本文模型在准确率、精度、召回率和F1分数上均优于现有最先进的模型,表明其在鲜味肽分类任务上的显著优势。同时,在鲜味阈值回归预测方面也取得了极高的 R2\text{R}^2 值和极低的误差,展现了强大的定量预测能力。
  • 从“预测”走向“设计”的策略创新:

    • 模块替代策略: 现有肽设计多集中于单氨基酸替换或从头设计 (de novo design),成本高或成功率有限。本文创新性地提出了“模块替代策略”,利用深度学习模型识别的氨基酸对(即二肽)作为功能模块,用鲜味肽中的高贡献模块替换苦味肽中的高贡献苦味模块,实现了肽风味属性的精确调控和设计,这是一种更高效且有针对性的肽修饰方法。
    • 可解释性驱动设计: 本文充分利用深度学习模型的可解释性,识别对鲜味贡献大的氨基酸和二肽片段,这些解释性结果直接指导了模块替代策略的设计,使得设计过程更加有理有据,而非盲目尝试。
  • 综合性机制阐明:

    • 多尺度机制探索: 本文不仅在宏观层面验证了肽的味觉特性,更结合量子化学模拟(分子轨道分析)和分子对接(受体结合分析)从微观分子层面深入阐明了鲜味肽的活性位点和与受体T1R1/T1R3的相互作用机制,以及模块替代如何改变这些相互作用,从而改变味觉特性。这提供了一个从计算到实验再到机制解释的完整闭环研究。
  • 应用于新型蛋白质资源:

    • 研究以黄粉虫蛋白作为潜在来源,通过虚拟水解筛选,为开发新型、可持续的鲜味肽资源提供了有益探索。

      综上,本论文通过集成先进的深度学习技术、创新的设计策略和多尺度的机制分析,显著提升了鲜味肽的预测准确性和设计效率,并深入揭示了其作用机制,超越了前人工作中仅限于预测的局限性。

4. 方法论

本研究提出了一种多模块集成的方法,旨在实现鲜味肽的预测、设计和机制阐明。整个方法流程由四个主要模块构成:基于 BERT 的预训练模块、特征增强模块、对比学习模块和预测模块。此外,还结合了量子化学模拟、模块替代策略和分子对接等方法来深入理解鲜味肽的机制和指导设计。

4.1. 方法原理

该方法的核心思想是利用深度学习模型强大的特征学习能力和预测能力,结合生物信息学特征工程,从大规模肽序列数据中挖掘鲜味肽的规律。通过引入对比学习增强模型对细微特征差异的捕捉,提高预测的准确性和鲁棒性。在此基础上,利用模型的可解释性识别关键的氨基酸和肽片段,指导模块替代策略进行肽的精确设计和修饰。最后,通过量子化学模拟和分子对接,在分子层面揭示鲜味肽与味觉受体T1R1/T1R3的相互作用机制,验证设计合理性。

4.2. 核心方法详解

以下是方法论的详细步骤和原理:

4.2.1. 预训练 BERT 模型进行特征编码

目的: 将肽序列转换为高维度的特征向量,捕获序列中的上下文信息和语义关联。

原理: BERT (Bidirectional Encoder Representations from Transformers) 是一种先进的预训练自然语言处理模型,它能够从大规模语料库中获取压缩的通用知识,并通过双向 Transformer 结构捕获丰富的上下文信息。BERT 在生成每个词的表示时会考虑所有周围的词,从而提供更全面的语义理解。由于肽序列与自然语言文本序列之间存在相似性,BERT 可以用于将肽序列转化为高维特征集,以支持下游的生物活性肽预测任务。BERT 模型通过其核心的自注意力机制 (self-attention mechanism) 来实现这一点。

自注意力机制的计算公式如下: n(Q,K,V)=Softmax(QKTdk)V { \mathfrak { n } } \left( \mathbf { Q } , \mathbf { K } , \mathbf { V } \right) = \mathbf { Softmax } \left( { \frac { \mathbf { Q } \mathbf { K } ^ { \mathrm { T } } } { \sqrt { \mathsf { d } _ { \mathbf { k } } } } } \right) \mathbf { V } 符号解释:

  • Q\mathbf{Q} (Query): 查询矩阵,由输入序列中每个氨基酸的表示通过线性变换得到。
  • K\mathbf{K} (Key): 键矩阵,由输入序列中每个氨基酸的表示通过线性变换得到。
  • V\mathbf{V} (Value): 值矩阵,由输入序列中每个氨基酸的表示通过线性变换得到。
  • KT\mathbf{K}^{\mathrm{T}}: 键矩阵的转置。
  • QKT\mathbf{Q} \mathbf{K}^{\mathrm{T}}: 查询矩阵与键矩阵转置的乘积,用于计算查询与所有键的相似度得分。
  • dk\mathsf{d}_{\mathbf{k}}: 键向量的维度,作为缩放因子防止梯度过小。
  • Softmax\mathbf{Softmax}: 归一化指数函数,将相似度得分转换为注意力权重。
  • V\mathbf{V}: 值矩阵,注意力权重与值矩阵相乘,得到加权求和的输出。

模型结构: 本研究构建了一个包含12个 Transformer 编码器的 BERT 模型,每个编码器包含12个多头注意力机制 (multi-head attention mechanisms)。肽序列直接作为输入,BERT 方法自动生成特征描述符。模型接受最大长度为512的序列,并输出维度为768的特征向量,这些向量可用于训练下游任务。

4.2.2. 增强特征构建

目的: 补充 BERT 提取的特征,纳入肽的理化性质和结构信息,以提高模型的泛化能力和准确性。

方法: 采用四种序列表示方法来提取增强特征:

  1. DistancePair: 结合伪氨基酸组成 (Pseudo Amino Acid Composition, PseAAC) 和距离对信息。PseAAC 扩展了传统的氨基酸组成,通过纳入位置特异性和序列特异性信息。DistancePair 方法使用距离配对的氨基酸和简化字母表,考虑氨基酸之间的距离关系和相对位置,提供详细的序列信息。它计算肽链中每对氨基酸之间的距离,并将此信息表示为特征,结合简化氨基酸字母表,更有效地捕捉序列的结构和功能特征。

  2. CKSAAGP (Composition of K-Spaced Amino Acid Group Pairs): 基于氨基酸理化性质的序列表示方法。它考虑肽序列中间隔 kk 个位置的氨基酸对的组成。通过计算序列中所有 kk 间隔氨基酸对的频率,CKSAAGP 获得序列的特征表示。该方法捕获序列中长距离氨基酸对之间的相互作用信息,有助于提高肽风味属性和生物活性预测的准确性。

  3. QSOrder (Quasi-Sequence Order): 通过计算氨基酸之间的顺序关系来表征序列。它分析氨基酸组成,并结合其在序列中的顺序信息构建特征向量,反映序列的结构特征。QSOrder 捕获序列中的局部和全局结构信息,对风味性质的功能预测具有重要意义。

  4. DDE (Dipeptide Deviation from the Expected Mean): 基于二肽偏差的序列表示技术。该方法通过计算序列中所有二肽组合的频率及其与期望频率的偏差来表示序列。

    输出: 整合这些序列表示方法后,每个序列被转换为一个562维的特征向量。

4.2.3. 对比学习策略

目的: 通过比较不同样本之间的相似性和差异性,学习更有效的特征表示,从而增强模型的区分能力。

原理: 对比学习旨在最小化正样本对(相似样本)之间的距离,同时最大化负样本对(不相似样本)之间的距离。这使得模型能够提取有价值的潜在特征表示,并在潜在空间中将相似实例紧密聚类,同时分离不相似实例。

方法: 在对比学习模块中,通过添加噪声作为数据增强技术来增强预训练模块和增强特征模块组合特征的均匀性。为了提高模型性能,在训练过程中采用了 InfoNCE 对比损失函数。

InfoNCE 损失函数定义如下: LCL=1Ni=1Nlogexp(sin(zizi+)/τexp(sin(zizi+)/τ+j=1Kexp(sin(zi,zij)/τ \mathrm { L _ { C L } = - \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \log \frac { \exp ( \sin ( z _ { i } \bullet z _ { i + } ) / \tau } { \exp \left( \sin ( z _ { i } \bullet z _ { i + } ) \middle / \tau + \sum _ { j = 1 } ^ { K } \exp \left( \sin ( z _ { i } , z _ { i - j } ) \middle / \tau \right. \right. } } 符号解释:

  • LCL\mathrm{L_{CL}}: 对比学习损失 (Contrastive Learning Loss)。
  • NN: 批次 (batch) 中的样本总数。
  • ziz_i: 第 ii 个样本的特征表示。
  • zi+z_{i+}: 第 ii 个样本的正样本(通常是经过数据增强后的 ziz_i 本身或语义相似的样本)的特征表示。
  • zijz_{i-j}: 第 ii 个样本的第 jj负样本(通常是批次中除 ziz_izi+z_{i+} 之外的其他样本)的特征表示。
  • sin(x,y)\sin( \mathbf { x } , \mathbf { y } ): 衡量样本 x\mathbf { x }y\mathbf { y } 之间相似度的函数(通常是余弦相似度或点积)。
  • τ\tau: 温度参数 (temperature parameter),用于控制损失函数的形状和对比学习的难度。较小的 τ\tau 值会使模型更关注困难的负样本,从而更严格地进行区分。
  • exp()\exp(\cdot): 指数函数。
  • j=1K\sum_{j=1}^{K}: 对批次中的所有 KK 个负样本求和。

4.2.4. 预测模块

目的: 基于对比学习模块输出的特征,执行鲜味肽的分类和阈值回归预测。

4.2.4.1. 鲜味肽分类器

功能: 对给定肽序列进行三分类,识别其风味属性(鲜味、苦味、非鲜味非苦味)。

方法: 分类器接收对比学习模块提取的无噪声特征作为输入。随后,一个两层全连接神经网络 (fully connected neural network) 执行三分类任务。为了引导模型收敛训练,使用了 Softmax 函数。

损失函数定义如下: Loss=c=1Myclog(pc) \mathrm { L o s s = - \sum _ { c = 1 } ^ { M } y _ { c } l o g ( p _ { c } ) } 符号解释:

  • Loss\mathrm{Loss}: 分类任务的交叉熵损失 (Cross-Entropy Loss)。
  • MM: 类别总数(此处为3:鲜味、苦味、非鲜味非苦味)。
  • ycy_c: 真实标签,如果样本属于第 cc 类,则为1,否则为0。
  • pcp_c: 模型预测的样本属于第 cc 类的概率。
  • log\log: 自然对数。

4.2.4.2. 鲜味肽回归器

功能: 预测鲜味肽的鲜味阈值。

方法:

  1. 异常值识别与处理: 首先使用四分位距 (Interquartile Range, IQR) 识别异常值。超出 Q11.5×IQRQ_1 - 1.5 \times IQRQ3+1.5×IQRQ_3 + 1.5 \times IQR 范围的值被认为是异常值,并用数据的均值替换,以减轻其对模型的影响。

  2. 聚类: 随后,应用 K-近邻 (K-nearest neighbors) 算法根据阈值将数据聚类为三个类别。

  3. 回归预测: 采用 AdaBoost 回归器对样本进行回归预测。具体而言,首先训练一个基于全连接神经网络的分类模型,使用聚类结果作为标签。对于每个类别,单独训练一个 AdaBoost 回归器。在预测阶段,数据首先通过全连接神经网络分类器进行分类。根据分类结果,选择相应的 AdaBoost 回归器进行回归分析。

    AdaBoost 回归器的公式如下: F(x)=m=1Mαmhm(x) \mathbf { F } ( \mathbf { x } ) = \sum _ { \mathrm { m } = 1 } ^ { \mathrm { M } } \alpha _ { \mathrm { m } } \mathbf { h } _ { \mathrm { m } } ( \mathbf { x } ) 符号解释:

  • F(x)\mathbf{F}(\mathbf{x}): 最终的回归预测值。

  • MM: 弱回归器 (weak regressors) 的数量。

  • αm\alpha_m: 第 mm 个弱回归器的权重,表示其在集成模型中的重要性。

  • hm(x)\mathbf{h}_m(\mathbf{x}): 第 mm 个弱回归器对输入 x\mathbf{x} 的预测。

    回归任务的平方损失 (squared loss) 定义如下: L(y,F(x))=(yF(x))2 \operatorname { L } ( \mathbf { y } , \operatorname { F } ( \mathbf { x } ) ) = \left( \mathbf { y } - \operatorname { F } ( \mathbf { x } ) \right) ^ { 2 } 符号解释:

  • L(y,F(x))\operatorname{L}(\mathbf{y}, \operatorname{F}(\mathbf{x})): 平方损失。

  • y\mathbf{y}: 真实值。

  • F(x)\operatorname{F}(\mathbf{x}): 模型预测值。

训练配置: 模型训练100个 epochs,初始学习率为0.0001。当连续5个 epochs 准确率没有提高时,学习率按0.8倍衰减。采用五折交叉验证 (5-fold cross-validation) 进行参数优化,结合 Adam 优化器和早停策略 (early stopping) 减少过拟合。引入 dropout 机制增强模型泛化能力。实验使用 PyTorchCUDA 框架,Python 语言,iFeatureOmega 包用于获取序列表示。

4.2.5. 模块替代策略进行肽精确设计和修饰

目的: 根据模型解释性分析结果,通过替换肽序列中的功能模块,实现肽味觉特性的精确调控。

方法: 本策略利用深度学习模型可解释性分析识别出的,在鲜味肽中具有高鲜味活性贡献度的二肽片段,用于替换苦味肽中具有高苦味贡献度的相应模块。例如,用高贡献鲜味模块 EE 替换高贡献苦味模块 PFFPGPPPPG。然后,使用训练好的深度学习模型预测替代后肽的味觉特性和阈值。

4.2.6. 基于量子化学计算的肽活性位点分析

目的: 从分子层面分析鲜味肽的活性位点,阐明其味觉呈现机制。

方法:

  1. 三维结构构建与几何优化: 使用 GaussView 6.0 构建鲜味肽的三维结构。然后,使用 Gaussian 16 软件,通过密度泛函理论 (Density Functional Theory, DFT) 并采用 B3LYP/6-311G(d,p) 基组进行几何优化,以获得最低能量结构。随后进行振动频率计算,确认结构处于能量最小值。
  2. 前沿分子轨道 (Frontier Molecular Orbitals, FMOs) 计算: 使用 Molekel 程序计算优化结构的最高占据分子轨道 (Highest Occupied Molecular Orbital, HOMO) 和最低未占据分子轨道 (Lowest Unoccupied Molecular Orbital, LUMO)。 原理: HOMO 代表分子最容易失去电子的区域(电子供体),LUMO 代表分子最容易接受电子的区域(电子受体)。HOMO-LUMO 能隙反映了分子的化学反应活性。能隙越小,分子越容易发生电子转移,化学反应性越高。在味觉感知中,较小的能隙可能意味着肽分子更容易与味觉受体发生相互作用。通过分析这些轨道在分子上的分布,可以识别出肽分子中负责与受体结合或发生电子相互作用的活性位点。

4.2.7. 肽与味觉受体 T1R1/T1R3 的分子对接

目的: 阐明模块替代如何影响肽的味觉特性,以及肽与味觉受体的分子相互作用机制。

方法:

  1. T1R1/T1R3 受体三维晶体结构构建: 使用同源建模 (homology modeling) 方法构建T1R1/T1R3受体的三维晶体结构,以鱼类味觉受体T1R2a-T1R3 (PDB ID: 5X2M) 作为模板。
  2. 分子对接: 使用 Autodock Vina 软件进行半柔性分子对接 (Semiflexible molecular docking)。对接箱 (docking box) 的中心坐标设置为 x=46.595x = 46.595, y=35.837y = 35.837, z=23.666z = 23.666,箱体尺寸为 X=68X = 68, y=86y = 86, z=88z = 88
  3. 相互作用分析: 使用 LigPlot+LigPlot+ 软件分析最佳对接姿态的结果,以识别肽与T1R1/T1R3结合的关键氨基酸残基和相互作用力(如氢键和疏水相互作用)。 原理: 分子对接能够模拟肽分子(配体)如何进入并结合到T1R1/T1R3受体(大分子)的结合口袋中。通过比较模块替代前后肽与受体的结合模式、结合位点、形成的氢键和疏水相互作用数量及类型,可以从分子层面解释味觉特性变化的机制。例如,形成更多或更强的特异性相互作用通常意味着更强的结合和更显著的味觉响应。

4.2.8. 统计分析

方法: 使用 Microsoft Office Excel 2019Origin 2024 软件进行数据分析和处理。采用独立样本 t 检验 (independent samples t-test) 进行显著性检验,当 P<0.05P < 0.05 时认为具有统计学显著性。

5. 实验设置

5.1. 数据集

高质量的训练数据是构建鲁棒可靠预测模型的关键。本研究在预训练和再训练阶段使用了不同的数据集。

5.1.1. 预训练数据集

在预训练阶段,为了让模型捕获肽序列的通用特征表示,使用了来自多个公共数据集的大量生物肽序列:

  • 抗癌肽: 1850个抗癌肽,来自UCI机器学习库 (Grisoni et al., 2019)。

  • 神经肽: 847个神经肽,来自NeuroPedia (Kim et al., 2011)。

  • 抗结核肽: 1010个抗结核肽,来自AntiTbPdb (Usmani et al., 2018)。

  • 发酵源肽: 2325个发酵源肽,来自FermFooDb (Charoenkwan et al., 2021)。

  • 食品源生物活性肽: 6289个食品源生物活性肽,来自DFBP (Qin et al., 2022)。

  • 天然信号肽: 20027个天然信号肽,来自PeptideDB (Liu et al., 2008)。

    数据筛选: 预训练数据集仅包含长度在2到50个氨基酸之间的序列,并移除了重复序列。

5.1.2. UMP1080 数据集

在再训练阶段,构建了一个平衡的 UMP1080 数据集用于鲜味肽预测模型的训练和评估。

  • 鲜味肽: 360个经过实验验证的鲜味肽,收集自Web of Science数据库(截至2024年5月),并通过TastepeptidesDB和BIOPEP-UWM数据库扩展 (Cui et al., 2023; Minkiewicz et al., 2019)。

  • 苦味肽: 360个苦味肽,收集自TastepeptidesDB数据库、BIOPEP-UWM数据库和之前的研究。

  • 非鲜味非苦味肽: 360个既不表现鲜味也不表现苦味的肽,从预训练数据集中随机选择。

    数据集组成: 最终的 UMP1080 数据集包含360个鲜味肽、360个苦味肽和360个既非鲜味也非苦味的肽,共1080个肽序列。

训练集与测试集划分: 为了构建预测模型和评估其泛化能力,UMP1080 数据集被随机划分为训练集和测试集。

  • 训练集: 300个鲜味肽、300个苦味肽和300个既非鲜味也非苦味的肽(总计900个)。

  • 测试集: 60个鲜味肽、60个苦味肽和60个既非鲜味也非苦味的肽(总计180个)。

    论文中提到“基准数据集的详细信息如表S1所示”,但补充材料未提供,因此无法展示具体样本示例。

5.2. 评估指标

模型性能的评估基于分类任务和回归任务的不同指标。

5.2.1. 分类任务评估指标

用于评估分类模型性能的指标包括准确率 (Accuracy, ACC)、精确率 (Precision)、召回率 (Recall) 和 F1 分数 (F1 score)。

  • 准确率 (Accuracy, ACC) 概念定义: 准确率衡量了模型正确预测的样本占总样本数的比例。它表示模型整体的正确分类能力。 数学公式: ACC=TP+TNTP+FN+TN+FP \mathsf { ACC } = \frac { \mathsf { T P } + \mathsf { T N } } { \mathsf { T P } + \mathsf { F N } + \mathsf { T N } + \mathsf { F P } } 符号解释:

    • TP\mathsf{TP} (True Positives): 真阳性,模型正确地将阳性样本预测为阳性。
    • TN\mathsf{TN} (True Negatives): 真阴性,模型正确地将阴性样本预测为阴性。
    • FP\mathsf{FP} (False Positives): 假阳性,模型错误地将阴性样本预测为阳性。
    • FN\mathsf{FN} (False Negatives): 假阴性,模型错误地将阳性样本预测为阴性。
  • 精确率 (Precision) 概念定义: 精确率衡量了模型预测为阳性的样本中,真正是阳性的比例。它关注模型预测结果的“纯度”。 数学公式: Precision=TPTP+FP \mathrm { P r e c i s i o n } = { \frac { \mathrm { T P } } { \mathrm { T P } + \mathrm { F P } } } 符号解释:

    • TP\mathsf{TP}: 真阳性。
    • FP\mathsf{FP}: 假阳性。
  • 召回率 (Recall) 概念定义: 召回率衡量了所有实际为阳性的样本中,模型正确预测为阳性的比例。它关注模型发现所有阳性样本的能力。 数学公式: Recall=TPTP+FN { \mathrm { R e c a l l } } = { \frac { \mathrm { T P } } { \mathrm { T P } + { \mathrm { F N } } } } 符号解释:

    • TP\mathsf{TP}: 真阳性。
    • FN\mathsf{FN}: 假阴性。
  • F1 分数 (F1 score) 概念定义: F1 分数是精确率和召回率的调和平均值。它综合考虑了精确率和召回率,尤其适用于类别不平衡的数据集。 数学公式: F1  score=2×Precision×RecallPrecision+Recall \mathrm { F1 \; score } = 2 \times \frac { \mathrm { Precision } \times \mathrm { Recall } } { \mathrm { Precision } + \mathrm { Recall } } 符号解释:

    • Precision\mathrm{Precision}: 精确率。
    • Recall\mathrm{Recall}: 召回率。

5.2.2. 回归任务评估指标

用于评估回归模型性能的指标包括 R 平方 (R2\text{R}^2)、平均绝对误差 (Mean Absolute Error, MAE)、均方误差 (Mean Squared Error, MSE) 和均方根误差 (Root Mean Squared Error, RMSE)。

  • R 平方 (R-squared, R2\text{R}^2) 概念定义: R 平方是衡量模型对因变量的解释程度的指标,表示模型能够解释的因变量方差的比例。其值越接近1,表示模型拟合效果越好。 数学公式: R2=1i=1n(yifi)2i=1n(yiyˉ)2 \mathrm { R } ^ { 2 } = 1 - \frac { \sum _ { i = 1 } ^ { n } ( y _ { i } - f _ { i } ) ^ { 2 } } { \sum _ { i = 1 } ^ { n } ( y _ { i } - \bar{y} ) ^ { 2 } } 符号解释:

    • yiy_i: 第 ii 个样本的真实值。
    • fif_i: 第 ii 个样本的模型预测值。
    • yˉ\bar{y}: 所有真实值的平均值。
    • nn: 样本总数。
  • 平均绝对误差 (Mean Absolute Error, MAE) 概念定义: MAE 是所有样本预测值与真实值之间绝对误差的平均值。它直接衡量了预测误差的平均大小,对异常值不敏感。 数学公式: MAE=1ni=1n(yifi) \mathrm { \sf M A E } = \frac { 1 } { \mathrm { \mathbf { n } } } \sum _ { \mathrm { i = 1 } } ^ { \mathrm { n } } \left| \left( \mathbf { y } _ { \mathrm { i } } - \mathbf { f } _ { \mathrm { i } } \right) \right| 符号解释:

    • MAE\mathsf{MAE}: 平均绝对误差。
    • nn: 样本总数。
    • yiy_i: 第 ii 个样本的真实值。
    • fif_i: 第 ii 个样本的模型预测值。
    • |\cdot|: 绝对值。
  • 均方误差 (Mean Squared Error, MSE) 概念定义: MSE 是所有样本预测值与真实值之间误差平方的平均值。它对较大的误差给予更高的惩罚,因此对异常值比较敏感。 数学公式: MSE=1ni=1n(yifi)2 \mathrm { { M S E } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } { { { \left( { { y } _ { \mathrm { i } } } - { { f } _ { \mathrm { i } } } \right) } ^ { 2 } } } } 符号解释:

    • MSE\mathsf{MSE}: 均方误差。
    • nn: 样本总数。
    • yiy_i: 第 ii 个样本的真实值。
    • fif_i: 第 ii 个样本的模型预测值。
  • 均方根误差 (Root Mean Squared Error, RMSE) 概念定义: RMSE 是 MSE 的平方根。它与因变量的量纲相同,更容易理解。RMSE 同样对异常值敏感。 数学公式: RMSE=1ni=1n(yifi)2 \mathrm { R M S E } = \sqrt { \frac { 1 } { \mathrm { n } } \sum _ { \mathrm { i } = 1 } ^ { \mathrm { n } } \left( \mathbf { y } _ { \mathrm { i } } - \mathbf { f } _ { \mathrm { i } } \right) ^ { 2 } } 符号解释:

    • RMSE\mathsf{RMSE}: 均方根误差。
    • nn: 样本总数。
    • yiy_i: 第 ii 个样本的真实值。
    • fif_i: 第 ii 个样本的模型预测值。
    • \sqrt{\cdot}: 平方根。

5.3. 对比基线

为了全面评估本研究提出的模型性能,论文将其与多个现有最先进的 (state-of-the-art) 模型进行了比较:

  • UMPred-FRL (Charoenkwan et al., 2021): 一种基于特征表示学习的鲜味肽预测方法。

  • Umami-YYDS (Cui et al., 2023): 一种鲜味/苦味分类模型,可能是基于梯度提升决策树或类似集成学习方法。

  • Umami-MRNN (Qi et al., 2023): 基于多层感知机 (MLP) 和循环神经网络 (RNN) 组合的鲜味肽预测模型。

  • LSTM (Long Short-Term Memory): 一种特殊的循环神经网络,常用于序列数据处理。论文中对比的可能是基于 LSTM 的鲜味肽预测方法 (Jiang et al., 2023)。

  • IUP-BERT (Jiang et al., 2022): 一种基于 BERT 的可解释鲜味肽预测模型。

    这些基线模型涵盖了从传统机器学习到不同深度学习架构(包括基于 BERT 的模型)的方法,具有较强的代表性,能充分证明本研究模型的优越性。

6. 实验结果与分析

本节详细阐述了研究的实验结果,包括氨基酸组成分析、模型性能比较、模型解释性、鲜味肽的识别与感官评价,以及模块替代机制的分子层面解释。

6.1. 氨基酸组成和分布分析

为了深入了解肽的味觉特性与其氨基酸序列和组成之间的关系,研究对鲜味肽和苦味肽数据集中的氨基酸长度分布和频率进行了分析。

肽长度分布: 如原文图1A所示,鲜味肽和苦味肽的长度分布相似,主要集中在10个氨基酸以下。具体而言,86.7%的鲜味肽和85.8%的苦味肽在此长度范围内。这表明短肽在味觉活性肽中占主导地位。

氨基酸频率:

  • 鲜味肽: 在鲜味肽组成中,谷氨酸 (E)、天冬氨酸 (D)、亮氨酸 (L)、丙氨酸 (A)、甘氨酸 (G) 和赖氨酸 (K) 的比例显著高于其他氨基酸(原文图1B)。这与前人研究中E和D作为鲜味氨基酸的结论一致 (Wang et al., 2022)。A和G与D或E的协同作用可增强鲜味 (Wang et al., 2020)。
  • 苦味肽: 苦味肽数据集中疏水性氨基酸的比例相对较高,特别是脯氨酸 (P) 和苯丙氨酸 (F)(原文图1C)。这与之前研究中P、L、I、F以及H、K、R组合与苦味相关的发现一致 (Sun et al., 2023)。

N-端和C-端氨基酸频率:

  • 鲜味肽: N-端主要富集D和E,而C-端K和R的比例相对较高(原文图1D)。刘等人研究发现C-端含有K残基的肽可以增强鲜味表达 (Liu et al., 2020)。
  • 苦味肽: N-端主要由R、G和V组成,C-端P和F更为普遍(原文图1D)。
  • 不同长度肽的末端氨基酸分布:
    • 2-3个氨基酸的鲜味肽 (原文图1E): D和E在肽链两端出现频率显著高于其他氨基酸,且D和E在N-端比C-端更常见。这强化了D和E在鲜味感知机制中的关键作用 (Huang et al., 2024)。
    • 4-7个氨基酸的鲜味肽: L、E和D在N-端出现频率显著高于C-端,而碱性氨基酸K和R在C-端更常见。
    • 8-10个氨基酸的鲜味肽: A和G在N-端出现频率显著高于C-端,K和R仍以C-端为主,与Wang等人的研究一致,认为G和A是鲜味肽中产生鲜味感知的关键成分 (Wang et al., 2020)。
    • 10个以上氨基酸的多肽: 氨基酸组成与短肽显著不同,未显示出明显的规律。R和K残基是高频残基,在C-端分别占27.6%和29.7%,合计57.3%。末端未发现C或P残基。这与前人研究中长肽的味觉特性不主要由单个氨基酸决定,而是更多依赖其复杂空间构象的结论一致 (Su et al., 2024)。
    • 苦味肽 (原文图1F): N-端疏水性氨基酸G、L和P的出现频率显著高于其他氨基酸。碱性氨基酸R在N-端比C-端更常见。C-端以疏水性残基P和F为主。末端未发现D和C残基。

鲜味肽和苦味肽的整体氨基酸组成特征 (原文图1G, 1H):

  • 鲜味肽 (原文图1G): 长度小于10个氨基酸的鲜味肽中,D和E被确定为关键成分,显著影响鲜味特性。而长度超过10个氨基酸的鲜味肽则没有显示出明确的氨基酸序列分布模式。

  • 苦味肽 (原文图1H): 长度小于10个氨基酸的短链苦味肽中,疏水性残基G、F和P是主要氨基酸。对于含有10个以上残基的苦味肽,P的出现频率显著高于其他氨基酸。

    总体而言,通过对鲜味肽和苦味肽氨基酸组成的系统分析和比较,研究深入了解了鲜味肽中氨基酸的分布模式,并揭示了其在分子层面的独特结构特征。这不仅为探索鲜味感知的分子机制提供了坚实基础,也启发了对不同氨基酸组合对鲜味肽风味特性潜在影响的进一步研究。

6.2. 不同序列编码方法的性能比较

为了评估不同序列编码方法对鲜味肽预测的有效性,研究综合评估了四种指标(ACCPrecisionRecallF1 score)下的性能。

原文表S2比较了使用5折交叉验证的不同序列编码方法对肽的性能。结果表明,BERT 和四种序列编码(特征融合)的组合模型在准确率、精确率、召回率和F1分数方面取得了显著提升,分别达到0.93981、0.94366、0.93056和0.93706。这些结果证明了特征融合模型卓越的预测能力。

6.3. 与最先进模型的性能比较

为了评估本研究构建模型的性能,将其与多种基于不同算法的最先进模型进行了比较。

以下是原文 Table 1 的结果:

Algorithms Samples ACC Precision Recall F1 score
UMPred-FRL 140 umami and 340 bitter 0.860 0.786
Umami-YYDS 198 umami and 215 bitter 0.896 0.913 0.875 0.894
Umami-MRNN 212 umami and 287 bitter 0.915 0.879 -
LSTM 140 umami and 304 bitter 0.921 0.821
IUP-BERT 140 umami and 302 bitter 0.923 0.888
Ours 360 umami, 360 bitter, and 360 others 0.93981 0.94366 0.93056 0.93706

核心结果分析: 本研究的模型在各项指标上均优于其他模型:

  • 准确率 (ACC): 达到了0.93981的最高准确率,比其他模型高出2%到9%。
  • 精确率 (Precision)、召回率 (Recall) 和 F1 分数: 分别为0.94366、0.93056和0.93706,也显著优于其他模型。 这些结果表明,本模型在区分鲜味肽和非鲜味肽方面具有卓越的性能,展现出强大的泛化能力和预测性能。

模型性能卓越的原因:

  1. BERT 预训练模型进行肽特征编码: BERT 在大规模生物活性肽数据集上预训练,学习了丰富的上下文特征表示,这些特征对于理解肽序列和结构信息至关重要,增强了预测能力。通过迁移学习 (transfer learning),BERT 将从其他任务中学到的知识迁移到鲜味肽预测任务中,即使在有限的训练数据下也能取得良好性能 (Charoenkwan et al., 2021; Kenton & Toutanova, 2019)。
  2. 多特征融合策略: 集成肽序列信息、氨基酸组成、理化性质、结构特征和进化信息,为模型提供了多维度的特征输入,使其能够学习肽的多维度特性,从而提高预测准确性和泛化性能。
  3. 对比学习策略: 使得模型通过比较同一类别内和不同类别间的肽,学习到细微而关键的差异,进一步增强了区分鲜味肽和非鲜味肽的能力。

特征空间可视化: 为了评估深度学习模型在分类任务中的性能并验证特征的有效性,研究使用均匀流形逼近与投影 (Uniform Manifold Approximation and Projection, UMAP) 方法对特征空间进行了可视化。 如原文图3A所示,鲜味肽和苦味肽之间的区分非常显著,这表明本模型在分类任务中具有高准确性。

鲜味阈值预测: 为了促进鲜味肽在食品、营养和调味品开发等领域的实际应用,本模型还预测了鲜味肽的鲜味阈值。 如原文图3B所示,鲜味肽阈值的实际值与预测值之间存在很强的相关性,R2\text{R}^2 值高达0.98。 为了进一步评估回归模型的预测误差率和性能,研究计算了 MSERMSEMAE。这些值越接近零,表示模型预测误差率越低,性能越好。具体计算值为:

  • MSE = 0.0013
  • RMSE = 0.036
  • MAE = 0.031 与Guo等人使用随机森林模型预测类黄酮化合物涩味阈值的研究 ( R2\text{R}^2 为0.883,MSE为0.103,RMSE为0.321,MAE为0.235) (Guo et al., 2023) 相比,本模型在预测鲜味肽阈值方面表现出卓越的性能,R2\text{R}^2 更高,而 MSERMSEMAE 值更低。 此外,为了可视化特征空间,使用K-近邻算法将鲜味阈值数据聚类为三类。通过 UMAP 技术对从模型获得的特征向量进行降维 (Mao et al., 2024)。如原文图3C所示,这些特征在三维空间中与鲜味阈值表现出很强的相关性。 这些结果不仅表明本模型在鲜味肽阈值预测方面具有卓越的预测能力,还进一步证明了其鲁棒性。

6.4. 模型解释性

肽的味觉特性通常与其氨基酸组成有关,不同氨基酸的组合可以赋予肽不同的味觉属性 (Zhang et al., 2019)。为了评估氨基酸残基如何影响模型对鲜味肽预测的准确性,研究通过提取和分析鲜味肽中单个氨基酸的注意力值 (attention values),系统地解释了模型的预测机制。

氨基酸重要性分析: 如原文图3D所示,结果表明氨基酸残基D和E表现出更高的注意力值,在模型准确预测鲜味肽方面发挥着重要作用。这一发现与鲜味肽数据集中氨基酸频率的统计结果一致,进一步证实了D和E在决定肽鲜味特性方面的显著贡献。此外,氨基酸残基Q、M、S、P和H在深度学习模型中也获得了高注意力值,这与直接分析鲜味肽数据集中的氨基酸组成有所不同。可能的原因是氨基酸在肽链中的不同位置会显著影响其味觉特性。

氨基酸对分数分析: 为了有效识别在鲜味肽和苦味肽中表现出显著味觉特性的二肽片段,研究基于每个二肽的平均注意力值及其在数据集中的出现频率计算了氨基酸对分数。 如原文图3E和图3F所示,蓝色越深表示二肽片段的氨基酸对分数越高。

  • 鲜味肽: 在鲜味肽数据集中,谷氨酸-谷氨酸 (EE)、天冬氨酸-谷氨酸 (DE)、谷氨酸-赖氨酸 (EK)、谷氨酸-亮氨酸 (EL) 和谷氨酸-丙氨酸 (EA) 等氨基酸对分别获得了1.496、1.042、0.892、0.845和0.797的高分(原文图3E)。这些结果与Zhang等人的发现一致,表明二肽片段EE、DE、EK、EL和EA可能是肽鲜味特性的关键决定因素 (Zhang et al., 2023)。

  • 苦味肽: 相反,在苦味肽数据集中,脯氨酸-苯丙氨酸 (PF)、苯丙氨酸-脯氨酸 (FP)、甘氨酸-脯氨酸 (GP)、脯氨酸-脯氨酸 (PP) 和脯氨酸-甘氨酸 (PG) 等氨基酸对分别获得了3.603、2.370、2.152、2.146和1.570的高分(原文图3F)。

    这些解释性结果为理解肽的味觉机制和指导肽的理性设计提供了重要的分子线索。

6.5. 鲜味肽的识别

研究对黄粉虫 (Tenebrio molitor) 蛋白进行了体外水解模拟,产生了1469个肽。 筛选标准: 毒性是肽开发过程中的一个主要问题,因为它可能对人体健康产生不良影响。此外,良好的水溶性使肽能够均匀分散在食品基质中,从而增强其实际应用性 (Gupta et al., 2013)。因此,肽的毒性和溶解度都应被考虑。

  • 毒性预测: 使用 ToxinPred 程序 (http://www.imtech.res.in/raghava/toxinpred/) 评估肽的毒性。结果显示所有肽均为无毒。
  • 水溶性预测: 使用 Peptide Property Calculator (https://www.innovagen.com/proteomics-tools) 预测肽的水溶性。结果显示1316个肽具有良好的水溶性。 这些发现表明,源自黄粉虫蛋白的生物活性肽作为鲜味肽库具有进一步研究的潜力。

模型预测: 基于本研究构建的深度学习模型,预测了源自黄粉虫蛋白的肽的味觉特性和阈值。结果显示,在1469个肽中,有1237个是鲜味肽,202个是苦味肽,30个是其他类型的肽。这些发现表明黄粉虫蛋白是一种高质量的蛋白质资源,非常适合开发新型鲜味肽,这与Chewaka等人的研究一致 (Chewaka et al., 2023)。

6.6. 合成肽的味觉特性

基于深度学习模型的预测结果,研究选择了10种此前未报道的源自黄粉虫蛋白的肽进行合成,涵盖了二肽到十肽以及更长的肽段,并设定了最低阈值标准。

感官评价: 对这些合成肽进行了感官评价,以评估模型的性能。以下是原文 Table S3 的结果(补充材料未提供,此处根据文本描述总结):

根据原文描述,合成肽的味觉特性如表S3所示。EN、ETR、GVVK (GK4)、RPIEK (RK5)、EDAQR (ER6)、ECQVEGF (EF7)、IKPTVVEL (IL8)、VLGHELPER (VR9)、DDDGQPIPEL (DL10) 和 PEIIEAQPIEEQEK (PK14) 等肽的实际味觉感知与预测结果高度一致。所有这些肽主要表现出鲜味。

检测阈值: 原文图4展示了这些肽的检测阈值范围为0.02446至0.13464 mg/mL。

该图像是一个示意图,展示了不同氨基酸肽(如EN、ETR、GVVK等)在各种浓度下的正确选择概率与对数浓度的关系。每个子图包括了氨基酸结构以及拟合曲线,表现出不同的阈值和相关系数。 该图像是一个示意图,展示了不同氨基酸肽(如EN、ETR、GVVK等)在各种浓度下的正确选择概率与对数浓度的关系。每个子图包括了氨基酸结构以及拟合曲线,表现出不同的阈值和相关系数。

图4:该图像是一个示意图,展示了不同氨基酸肽(如EN、ETR、GVVK等)在各种浓度下的正确选择概率与对数浓度的关系。每个子图包括了氨基酸结构以及拟合曲线,表现出不同的阈值和相关系数。

这些阈值均低于 MSG 的阈值 (0.3 mg/mL),与之前报道的研究一致 (Jia et al., 2024; Li et al., 2024)。肽ECQVEGF中含有含硫氨基酸,会产生刺激性气味,影响鲜味阈值的测定,因此本实验未测量其阈值。

其他味觉: 除了基本的鲜味,这些鲜味肽还表现出甜味、酸味和涩味等其他基本味觉。值得注意的是,甜味和鲜味之间的协同作用可以增强鲜味感知 (Kong et al., 2019)。酸味和涩味可能由肽合成过程中的溶剂残留引起。

氨基酸组成与模型解释性一致性: 这些鲜味肽高频率地含有D、E、G和A氨基酸残基,并且在C-端含有K或R残基。这与深度学习模型的可解释性结果一致,表明本研究开发的模型能够有效区分鲜味肽和非鲜味肽,具有强大的泛化能力和预测性能。

与 MSG 的相互作用: 使用R值研究了EN、ETR、GK4、RK5、ER6、IL8、VR9、DL10和PK14与 MSG 的相互作用。R值定义为实验测定阈值与通过S形曲线拟合得到的理论预测阈值之比。

  • 当R < 0.5时,两种化合物表现出协同效应。

  • 当0.5 ≤ R ≤ 1时,观察到加和效应。

  • 当R = 1时,两种化合物之间没有相互作用。

  • 当R > 1时,观察到掩盖效应 (Shan et al., 2022)。

    原文图5展示了结果:

    该图像是多条曲线图,展示了不同肽与MSG共同作用下的判断概率。这些曲线提供了每种肽与MSG浓度关系的理论拟合和实验数据,显示了不同肽的阈值和R²值,揭示了其对鲜味的影响。 该图像是多条曲线图,展示了不同肽与MSG共同作用下的判断概率。这些曲线提供了每种肽与MSG浓度关系的理论拟合和实验数据,显示了不同肽的阈值和R²值,揭示了其对鲜味的影响。

图5:该图像是多条曲线图,展示了不同肽与MSG共同作用下的判断概率。这些曲线提供了每种肽与MSG浓度关系的理论拟合和实验数据,显示了不同肽的阈值和R²值,揭示了其对鲜味的影响。

结果显示,EN、ETR、GK4、RK5、ER6、IL8、VR9、DL10和PK14与 MSG 的R值分别为0.69、0.84、0.91、0.80、0.72、0.77、0.83、0.74和0.72。这些R值均在0.5到1之间,表明这些肽不仅具有鲜味,而且在与 MSG 结合时可以通过加和效应增强鲜味。这些结果表明,这些鲜味肽具有减少 MSG 使用的潜力,从而有助于缓解过量钠离子摄入带来的健康风险。

6.7. 鲜味肽活性位点分析

前沿分子轨道 (Frontier Molecular Orbitals, FMOs) 在分子活性位点分析中起着关键作用。通过计算 FMOs,可以确定肽分子的最高占据分子轨道 (HOMO) 和最低未占据分子轨道 (LUMO)。这些轨道指示了分子结构的电子供体和受体特性。

HOMO-LUMO 能隙: 原文表S4展示了合成肽的 HOMO-LUMO 能隙(补充材料未提供)。能隙反映了分子的化学反应性,能隙越小通常意味着反应性越高。在本研究中,较小的 HOMO-LUMO 能隙可能表明这些鲜味肽更容易与味觉受体相互作用,从而可能增强鲜味特性。肽RPIEK的 HOMO-LUMO 能隙最低 (-3.16 eV),这与阈值测定结果一致(即阈值越低,鲜味越强)。

HOMO/LUMO 轨道分析: 如原文图6和图7所示,HOMO/LUMO 轨道分析结果表明,鲜味肽的活性位点主要分布在氨基酸残基D、E、Q、K和R上。

该图像是分子轨道图,展示了不同肽(EN, ETR, GVVK, RPIEK, EDAQDR)的LUMO和HOMO态。在图中,各分子的电子分布由不同颜色的球体表示,用于理解其在味觉潜能中的电子特性。 该图像是分子轨道图,展示了不同肽(EN, ETR, GVVK, RPIEK, EDAQDR)的LUMO和HOMO态。在图中,各分子的电子分布由不同颜色的球体表示,用于理解其在味觉潜能中的电子特性。

图6:该图像是分子轨道图,展示了不同肽(EN, ETR, GVVK, RPIEK, EDAQDR)的LUMO和HOMO态。在图中,各分子的电子分布由不同颜色的球体表示,用于理解其在味觉潜能中的电子特性。

该图像是示意图,展示了不同肽链与其对应的LUMO和HOMO轨道的关系。图中显示了五个肽链(ECQVEGF、IKPTVVEL、VLGHELPER、DDDGQPIPEL、PEIEAQPIEEQK)的分子结构以及相应的电子云分布。通过对比可以观察到特定的电子特性。 该图像是示意图,展示了不同肽链与其对应的LUMO和HOMO轨道的关系。图中显示了五个肽链(ECQVEGF、IKPTVVEL、VLGHELPER、DDDGQPIPEL、PEIEAQPIEEQK)的分子结构以及相应的电子云分布。通过对比可以观察到特定的电子特性。

图7:该图像是示意图,展示了不同肽链与其对应的LUMO和HOMO轨道的关系。图中显示了五个肽链(ECQVEGF、IKPTVVEL、VLGHELPER、DDDGQPIPEL、PEIEAQPIEEQK)的分子结构以及相应的电子云分布。通过对比可以观察到特定的电子特性。

值得注意的是,当R或K作为C-末端残基时,它们作为鲜味肽活性位点出现的频率显著高于其他氨基酸。前人研究已表明D和E是关键的鲜味氨基酸,而C-末端含有K或R氨基酸残基的肽可以增强鲜味表达 (Wang et al., 2022)。此外,氨基酸活性位点分析的结果与深度学习模型的可解释性结果一致,表明该模型具有强大的预测能力和阐明肽味觉呈现机制的能力。

6.8. 肽的设计与修饰的鲜味评估

肽修饰可以有效增强其稳定性、功能特性和味觉特性,是提高实际应用价值的重要策略。 模块替代策略: 考虑到氨基酸序列和组成对肽味觉特性的影响,本研究采用了模块替代策略。二肽模块 EE 被模型解释性分析确定为具有高鲜味活性,因此被用于替换苦味肽中高贡献的苦味模块,即 PFFPGPPPPG。然后预测了设计肽的味觉特性。

原文表S5展示了结果(补充材料未提供,此处根据文本描述总结):

在黄粉虫蛋白衍生的非鲜味肽中,共有27个肽含有 PFFPGPPPPG 模块。这些肽均为无毒,其中20个表现出良好的水溶性。在将这些高贡献苦味模块替换为 EE 模块后,所有产生的肽都转化为鲜味肽,并且都具有良好的水溶性和无毒性。 这与Mirzaei等人的研究结果一致,他们通过替换XOD抑制肽(GGYGIF)中的甘氨酸残基为色氨酸残基,以及ACE抑制肽(YGKPVAVPAR)中的脯氨酸残基为组氨酸残基,显著增强了对XOD和ACE的抑制活性 (Mirzaei et al., 2019; Zhao et al., 2023)。Meng等人也将低贡献模块GP替换为高贡献模块KE和KN,发现这显著增强了肽GPAGPR对XOD的活性 (Meng et al., 2024)。这些结果表明,模块替代是改善肽风味的有效策略,可以实现肽的精确设计和修饰。

未来应用: 获得修饰后的鲜味肽后,这些肽序列可以映射到蛋白质序列上。通过生物信息学分析,可以选择合适的酶来辅助制定优化的水解条件,以制备这些目标肽。反过来,目标肽也可以为选择合适的蛋白质来源进行靶向肽制备提供有价值的信息,从而显著推动鲜味肽的开发。

6.9. 模块替代改变肽味觉特性的机制

上述研究已证明模块替代是精确设计和修饰肽的有效策略。为了阐明其潜在的分子机制,研究通过分子对接(Molecular Docking)研究了模块替代前后肽与鲜味受体T1R1/T1R3之间的相互作用。

由于长肽的计算资源需求较大,选择了长度小于10个氨基酸的肽来阐明模块替代改变肽味觉特性的分子机制。

分子对接结果: 如原文图7(可能指的是Fig. 8, 9)和图S1所示,肽与T1R1/T1R3的最佳结合模型揭示,模块替代后的肽与鲜味受体T1R1/T1R3形成了更多的氢键和疏水相互作用。

该图像是示意图,展示了多个氨基酸序列及其对应的分子结构,标注了关键的氢键和疏水相互作用。每个结构代表一种特定的味道肽,揭示了其与T1R1/T1R3的相互关系。 该图像是示意图,展示了多个氨基酸序列及其对应的分子结构,标注了关键的氢键和疏水相互作用。每个结构代表一种特定的味道肽,揭示了其与T1R1/T1R3的相互关系。

图8:该图像是示意图,展示了多个氨基酸序列及其对应的分子结构,标注了关键的氢键和疏水相互作用。每个结构代表一种特定的味道肽,揭示了其与T1R1/T1R3的相互关系。

Fig. 7. (continued). 该图像是分子结构示意图,展示了三种肽链TPPSEEIN、DQTPGIPQR和DQTEEIQR的氢键和疏水相互作用。每个氨基酸通过不同的颜色和符号标示,强调了关键氨基酸在味道呈现中的重要性。

图9:该图像是分子结构示意图,展示了三种肽链TPPSEEIN、DQTPGIPQR和DQTEEIQR的氢键和疏水相互作用。每个氨基酸通过不同的颜色和符号标示,强调了关键氨基酸在味道呈现中的重要性。

相互作用位点分析: 详细分析相互作用位点发现,修饰后的肽主要与T1R1/T1R3上的残基Arg151、Asp147、Arg277、His71、Ser146和Ala302相互作用,而未修饰的肽主要与残基Asp147、Ala302和His71相互作用。 机制解释: 前人研究已表明,氢键和疏水相互作用是鲜味肽与鲜味受体T1R1/T1R3相互作用的关键力量 (Gu et al., 2025; Zhao, Su, et al., 2023)。此外,残基Arg151、Asp147、Gln52、Glu277、Arg277、His71、Ser146和Ala302对鲜味肽与T1R1/T1R3受体的相互作用至关重要。这些结果表明,模块替代后,修饰过的肽能够进入T1R1/T1R3的结合口袋,并通过增强与关键残基的相互作用(形成更多氢键和疏水相互作用),从而产生鲜味。这进一步澄清了通过模块替代改变肽序列组成可以影响肽的味觉特性,从而加深了对鲜味呈现机制的理解。

7. 总结与思考

7.1. 结论总结

本研究成功地开发了一个基于深度学习的模型,用于预测鲜味肽及其阈值,该模型在区分鲜味肽和非鲜味肽方面表现出强大的泛化能力和卓越的预测性能。具体而言,提出的深度学习模型在准确率、精确率、召回率和F1分数上均达到了现有最先进水平,准确率高达0.93981,比其他模型高出2%–9%。感官评价结果证实,源自黄粉虫蛋白的肽的味觉感知与模型预测结果高度一致,这些肽主要表现出鲜味,检测阈值介于0.02446至0.13464 mg/mL之间,并与味精 (MSG) 结合时表现出显著的加和增鲜效应。

通过深度学习模型的可解释性分析和量子化学模拟,本研究揭示了氨基酸残基D、E、Q、K和R对鲜味至关重要。此外,研究提出并验证了模块替代作为一种有效的肽精确设计和修饰策略。分子对接结果进一步阐明了模块替代后的肽能够进入T1R1/T1R3味觉受体的结合口袋,并与受体形成更多的氢键和疏水相互作用,从而产生鲜味。这项工作不仅提供了快速筛选鲜味肽的高效工具,扩展了鲜味肽库,而且通过揭示模块替代如何影响肽的味觉特性,加深了对鲜味呈现机制的理解。

7.2. 局限性与未来工作

论文在“Conclusions”部分并未明确列出局限性或未来工作,但从全文内容和研究背景中可以推断出一些潜在的局限性和未来的研究方向。

潜在局限性:

  • 数据集规模和多样性: 尽管使用了多种公共数据集进行预训练,但用于鲜味肽和苦味肽分类的 UMP1080 数据集规模相对有限(各360个样本)。生物活性肽的多样性极高,更丰富、更多样化的实验验证数据将有助于进一步提升模型的泛化能力。
  • 感官评价的挑战: 感官评价虽然是金标准,但其受限于评估员的主观性、疲劳度以及样品制备等因素,难以进行大规模高通量的验证。如何开发更客观、自动化的感官评价替代方法是一个持续的挑战。
  • 计算资源的依赖: 深度学习模型训练和量子化学模拟、分子对接等过程都需要大量的计算资源,这可能限制了其在某些实验室的应用。
  • 模块替代的复杂性: 论文中的模块替代主要针对二肽片段。对于更复杂的肽链,功能模块可能不仅仅是简单的二肽,其相互作用和构效关系可能更为复杂,需要更精细的模块定义和替代策略。
  • 味觉机制的完整性: 尽管分子对接提供了关键见解,但味觉感知是一个复杂的生物学过程,涉及多步信号转导。分子对接只能提供结合层面的信息,完整的细胞信号通路验证仍需湿实验支持。

未来工作(可从研究成果中引申):

  • 模型泛化和优化: 进一步扩大和多样化训练数据集,尤其是收集更多不同来源、不同长度和不同味觉强度的鲜味肽,以提升模型的泛化能力和对未知肽的预测准确性。
  • 多味觉属性预测: 将模型扩展到同时预测其他味觉属性(如甜味、酸味、咸味、苦味、涩味),甚至更复杂的风味特征,实现多维度风味肽的预测和设计。
  • 更复杂的模块定义和替代策略: 探索更高级的肽功能模块定义方法,例如考虑三肽、四肽甚至结构基序,并开发更智能的模块替代算法,以处理更复杂的肽设计任务。
  • 实验验证与产业化: 对更多通过模型设计出的鲜味肽进行实际的生物合成、分离纯化和感官验证,并积极探索将这些高效筛选和设计工具应用于工业化生产,加速鲜味肽产品的开发。
  • 结合多组学数据: 将肽序列信息与蛋白质组学、代谢组学等数据相结合,更全面地理解肽在生物系统中的作用,并发现新的生物活性肽。
  • 受体结合亲和力定量预测: 尝试开发能够定量预测肽与味觉受体结合亲和力的模型,而不仅仅是定性地分析相互作用,这将为更精确的肽设计提供指导。
  • 开发用户友好平台: 将开发的预测和设计工具整合成一个用户友好的在线平台,供广大研究人员和行业从业者使用。

7.3. 个人启发与批判

个人启发:

  • 跨领域融合的强大潜力: 这篇论文是计算生物学、机器学习和食品科学的完美结合,展示了跨学科研究如何解决传统方法难以逾越的瓶颈。特别是 BERT 模型从自然语言处理领域成功迁移到生物序列分析,再次印证了 Transformer 架构在序列数据处理上的通用性和强大能力。
  • 可解释性是关键: 论文强调了深度学习模型的可解释性 (interpretability) 在科学研究中的重要性。仅仅拥有高预测精度是不够的,理解“为什么”模型做出这样的预测,才能真正指导实际的科学发现和工程设计。模型解释性不仅增强了对模型结果的信任,更直接驱动了模块替代这种有意义的设计策略。
  • 从预测到设计的飞跃: 传统上,计算方法多集中于预测。本研究通过引入模块替代和分子模拟,实现了从纯粹的“预测”到“设计”的范式转变,这对于药物发现、材料科学和食品科学等领域都具有重要的借鉴意义。它提供了一条明确的路径,即如何将计算智能转化为实际的分子创新。
  • “模块化”思维的价值: 将肽序列分解为“模块”并进行操作,是生物学系统工程中的一个重要思想。论文通过识别高贡献的二肽模块并进行替代,提供了一个成功应用模块化设计原则的案例。

批判:

  • 黑箱模型解释的深度: 虽然论文使用了注意力值进行解释,但深度学习模型的内部运作仍然高度复杂。注意力值可以指示哪些输入部分对预测贡献大,但未必能完全揭示其深层生化或物理机制。例如,Q、M、S、P、H氨基酸获得高注意力值,但其具体机制与D、E不同,论文仅简单归因于位置影响,未能深入阐释。更深层次的解释可能需要结合更先进的可解释人工智能 (XAI) 技术。

  • 模块替代的广度: 论文主要展示了用高鲜味二肽模块替换高苦味二肽模块的案例。未来可以探索更广泛的模块定义(例如,三肽、具有特定结构特征的模块)以及更复杂的替代规则(例如,多模块协同替换,或基于结合位点特性的精细设计),以应对更复杂的味觉修饰任务。

  • 体外验证的限制: 尽管进行了分子对接和量子化学模拟,这些都是体外计算模型。最终的验证仍然需要细胞水平的受体激活实验或动物模型实验,以更全面地确认肽与受体的结合及信号转导机制,而不仅仅是感官评价。

  • 成本与规模的平衡: 尽管比传统方法更高效,但深度学习模型的训练、量子化学计算和分子对接仍需要一定的计算资源。如何在实际应用中平衡计算成本与设计效率,尤其是在工业级大规模生产中,是一个需要持续优化的问题。

  • 数据偏差的潜在影响: 尽管努力平衡数据集,但生物活性肽数据的收集往往存在偏差,例如某些类型的肽可能更容易被研究和报道。这种潜在的数据偏差可能影响模型的泛化能力,尤其是在预测远超训练数据分布的肽时。

    总之,本研究为鲜味肽的智能设计和机制探索开辟了新的道路,其多技术融合和可解释性驱动的设计理念,为其他生物活性分子的发现和改造提供了宝贵的经验。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。