Explainable Machine Learning and Deep Learning Models for Predicting TAS2R-Bitter Molecule Interactions
TL;DR 精炼摘要
本研究开发了可解释的机器学习和深度学习模型,用于预测苦味分子与TAS2R受体的相互作用。模型基于实验验证数据,具有高性能和易用性,能够辅助配体选择并增强对苦味受体功能的理解,对于药物设计和疾病研究具有重要意义。
摘要
This work aims to develop explainable models to predict the interactions between bitter molecules and TAS2Rs via traditional machine-learning and deep-learning methods starting from experimentally validated data. Bitterness is one of the five basic taste modalities that can be perceived by humans and other mammals. It is mediated by a family of G protein-coupled receptors (GPCRs), namely taste receptor type 2 (TAS2R) or bitter taste receptors. Furthermore, TAS2Rs participate in numerous functions beyond the gustatory system and have implications for various diseases due to their expression in various extra-oral tissues. For this reason, predicting the specific ligand-TAS2Rs interactions can be useful not only in the field of taste perception but also in the broader context of drug design. Considering that in-vitro screening of potential TAS2R ligands is expensive and time-consuming, machine learning (ML) and deep learning (DL) emerged as powerful tools to assist in the selection of ligands and targets for experimental studies and enhance our understanding of bitter receptor roles. In this context, ML and DL models developed in this work are both characterized by high performance and easy applicability. Furthermore, they can be synergistically integrated to enhance model explainability and facilitate the interpretation of results. Hence, the presented models promote a comprehensive understanding of the molecular characteristics of bitter compounds and the design of novel bitterants tailored to target specific TAS2Rs of interest.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Explainable Machine Learning and Deep Learning Models for Predicting TAS2R-Bitter Molecule Interactions
1.2. 作者
Francesco Ferri, Marco Cannariato, Lorenzo Pallante, Eric A. Zizzi, Marcello Miceli, Giacomo di Benedetto, and Marco A. Deriu。
这些作者来自多个机构,主要包括德国慕尼黑工业大学食品系统生物学研究所(Leibniz Institute for Food Systems Biology at the Technical University of Munich)和意大利都灵理工大学(Politecnico di Torino),以及 TroliMeDerelT y 27hc srl, Rome, Italy。Francesco Ferri 和 Marco Cannariato 对本研究有同等贡献。
1.3. 发表期刊/会议
原文未明确指出具体的发表期刊或会议名称,但从研究内容来看,通常会发表在化学信息学 (Cheminformatics)、计算生物学 (Computational Biology)、药物设计 (Drug Design) 或食品科学 (Food Science) 相关的学术期刊上。
1.4. 发表年份
2025年10月9日(UTC)。
1.5. 摘要
本研究旨在开发可解释的模型,用于预测苦味分子与TAS2R(味觉受体2型)之间的相互作用。研究从实验验证数据入手,采用传统机器学习(TML)和深度学习(DL)方法进行建模。苦味是人类和其他哺乳动物感知的五种基本味觉模式之一,由G蛋白偶联受体(GPCRs)家族中的味觉受体2型(TAS2R)介导。值得注意的是,TAS2R在味觉系统之外的多种生理功能中也有作用,由于其在口腔外组织中的表达,它们与多种疾病的发生发展相关。因此,预测特定的配体-TAS2R相互作用不仅在味觉感知领域,而且在更广泛的药物设计背景下都具有重要意义。考虑到体外筛选潜在TAS2R配体的成本高昂且耗时,机器学习和深度学习作为强大的工具应运而生,可辅助实验研究中的配体和靶点选择,并增强我们对苦味受体作用的理解。
本研究开发的机器学习和深度学习模型具有高性能和易用性。此外,它们可以协同集成,以增强模型的可解释性,并促进结果的理解。因此,本文提出的模型促进了对苦味化合物分子特征的全面理解,并有助于设计针对特定TAS2R的新型苦味剂。
1.6. 原文链接
/files/papers/69120b7eb150195a0db74a14/paper.pdf
2. 整体概括
2.1. 研究背景与动机
核心问题: 论文旨在解决的核心问题是如何准确、高效且可解释地预测苦味分子与其G蛋白偶联受体TAS2R之间的特定相互作用。
重要性:
- 味觉感知与健康: 苦味是人类和哺乳动物五种基本味觉之一,对食物摄入和消费模式至关重要,进而影响人类营养和健康。TAS2R受体作为苦味感知的介导者,其功能和配体识别机制的理解具有基础科学意义。
- 口腔外功能与疾病: TAS2R受体不仅存在于口腔味蕾中,还广泛表达于多种口腔外组织(
extra-oral tissues),并在调节炎症反应、控制上呼吸道免疫等多种生理功能中发挥作用。这意味着TAS2R与肥胖、糖尿病、哮喘、癌症等多种疾病可能存在关联。 - 药物设计与食品工业: 预测特定的配体-TAS2R相互作用对于药物设计具有重大价值,例如,可以设计新的苦味调节剂来改善苦味药物(如儿童或老年人常用药)的适口性,或开发针对特定TAS2R的配体以探索其在疾病治疗中的潜力。在食品工业中,这有助于设计替代苦味剂,以改善某些高苦味健康食品的适口性。
- 现有方法局限性: 当前识别TAS2R配体的方法主要依赖于劳动密集型和昂贵的体外实验,导致相关蛋白质-配体相互作用数据有限。尽管计算方法已被提出,但许多现有的机器学习和深度学习模型通常是“黑箱”模型,难以解释其预测结果和特征重要性。
现有挑战或空白:
- 体外筛选潜在TAS2R配体成本高昂且耗时。
- 苦味受体-配体相互作用的实验数据稀疏、多样性不足且不平衡。
- 现有计算模型(如BitterX, BitterMatch)虽然能预测,但缺乏对预测机理的深入解释,难以提供分子层面上的洞察。
- 需要能够同时兼顾预测性能、易用性和可解释性的模型。
论文的切入点或创新思路:
本文的创新点在于同时开发了两种互补的、高性能且高度可解释的模型:一种是基于传统机器学习(TML)方法的模型(具体为梯度提升决策树,CatBoost实现),另一种是基于图卷积神经网络(GCN)的模型。并且,论文将模型可解释性作为核心关注点,通过集成SHAP、GNNExplainer和Grad-CAM等先进的可解释性方法,旨在揭示模型预测背后的分子机制,从而提供超越“黑箱”预测的深层洞察。这种结合不同类型模型并强调可解释性的方法,旨在克服现有研究中的挑战。
2.2. 核心贡献/主要发现
论文最主要的贡献:
- 开发了互补的高性能可解释模型: 成功开发了基于TML(CatBoost)和GCN的两种模型,用于预测苦味分子与22种人类TAS2R受体的相互作用。这两种模型在预测性能上都表现出色。
- 集成了先进的可解释性方法: 将
SHAP(针对TML)和GNNExplainer、Grad-CAM(针对GCN)等可解释性技术集成到模型中,有效地揭示了模型预测的底层机制和关键分子特征。 - 提供了分子层面洞察: 通过可解释性分析,模型能够识别出对预测贡献最大的受体关联特征以及配体的特定分子描述符(TML),或分子结构中的关键原子和键(GCN),从而深化了对苦味受体-配体相互作用的分子理解。
- 易用性和广泛适用性: 提出的模型设计成易于应用,且能够在模型适用域内对新的查询分子进行预测,为药物设计和食品科学等领域提供了实用的工具。
- 与现有SOTA模型对比并显示优势: 在与
BitterMatch等现有先进模型的比较中,本文模型展现出竞争甚至更优的性能,并在可解释性与易用性方面具有显著优势。
论文得出的关键结论或发现:
- TML模型(基于梯度提升决策树)在整体预测性能(ROC AUC为0.92,PR AUC为0.75)上略优于GCN模型(ROC AUC为0.88,PR AUC为0.67),尤其在正样本(
class 1)的精确度方面表现更好。 - GCN模型在提供直观的分子结构层面解释方面具有独特优势,能够通过
UGrad-CAM热图直接可视化分子中对预测有正负贡献的原子和键。 - 可解释性分析揭示,与“滥交性”受体(
promiscuous receptors,即能结合多种配体的受体,如TAS2R14和TAS2R46)的关联对正向预测有偏向性,而与选择性受体的关联则倾向于负向预测。 - 模型能够识别出关键的分子描述符(如自相关和拓扑描述符)以及分子结构中的特定官能团(如
strychnine中的叔胺),这些对于配体-受体结合至关重要。 - 尽管数据集存在不平衡问题(负样本是正样本的五倍),模型仍然表现出令人满意的性能。
3. 预备知识与相关工作
3.1. 基础概念
理解本文内容需要掌握以下基础概念:
- 味觉感知 (Taste Perception): 生物通过味觉感受器感知化学物质的过程,包括甜、酸、苦、咸、鲜五种基本味觉。
- 苦味 (Bitterness): 五种基本味觉之一,通常与有毒物质相关联,是避免摄入有害物质的重要保护机制。
- G蛋白偶联受体 (G protein-coupled receptors, GPCRs): 一类跨膜受体,在细胞信号传导中扮演关键角色。它们感知细胞外信号(如激素、神经递质、光、味觉分子),并激活细胞内的G蛋白,从而引发细胞反应。
TAS2R就是GPCRs家族的一个子集。 - 味觉受体2型 (Taste Receptor Type 2, TAS2R): 专门负责感知苦味的GPCRs。人类有约25种TAS2R,它们识别广泛的结构多样的苦味分子。这些受体不仅存在于味蕾中,还在许多口腔外组织中表达,具有多种生理功能。
- 配体 (Ligand): 能够特异性结合到生物大分子(如受体)上的分子,通常会引发或调节生物功能。在本文中,苦味分子即为TAS2R的配体。
- 机器学习 (Machine Learning, ML): 人工智能的一个分支,使计算机系统能够从数据中学习模式,从而在没有明确编程的情况下完成特定任务(如分类、预测)。
- 深度学习 (Deep Learning, DL): 机器学习的一个子领域,使用多层人工神经网络(
Neural Networks)从大量数据中学习高级抽象特征。DL模型通常在处理复杂数据(如图像、文本、图结构数据)方面表现出色。 - 图神经网络 (Graph Neural Networks, GNNs): 一种专门用于处理图结构数据(如分子结构、社交网络)的深度学习模型。GNN可以直接在图上进行学习,能够捕捉节点之间以及节点与边之间的复杂关系。在化学领域,原子可以被视为节点,化学键可以被视为边,GNN非常适合处理分子数据。
- 可解释人工智能 (Explainable AI, XAI): 旨在使机器学习模型的决策过程和预测结果对人类更易于理解和信任的一系列方法和技术。由于许多高性能ML/DL模型是“黑箱”模型,XAI对于提高模型的透明度和应用价值至关重要。
- SMILES (Simplified Molecular Input Line Entry System): 一种用ASCII字符串表示分子结构的标准方法。它允许将复杂的分子结构以简洁的线性文本格式编码,便于计算机处理。
- Morgan 指纹 (Morgan Fingerprints): 一种常用的圆形分子指纹,通过系统性地识别分子中的原子及其周围环境(在一定半径内)来编码分子结构信息。通常表示为一个二进制向量,用于衡量分子相似性或作为机器学习模型的输入特征。
- Mordred 描述符 (Mordred Descriptors): 一个Python库,用于计算大量(超过1800种)二维和三维分子描述符。这些描述符可以量化分子的各种理化性质、拓扑结构、电子特性等,作为机器学习模型的输入特征。
- 独热编码 (One-hot Encoding): 一种将类别型特征转换为数值型表示的方法。对于一个具有个类别的特征,独热编码会创建一个长度为的二进制向量,其中只有一个位置为1,表示该样本所属的类别,其他位置为0。本文中,受体信息被转换为独热编码。
- 梯度提升决策树 (Gradient Boosting on Decision Trees, GB on DTs): 一种强大的集成学习方法,通过顺序构建多个弱预测器(通常是决策树),每次迭代都尝试纠正前一个模型的错误。
CatBoost是GB on DTs的一种高效实现,特别擅长处理类别型特征。 - SHAP (SHapley Additive exPlanations): 一种基于博弈论的统一模型可解释性框架。它为每个特征分配一个“SHAP值”,表示该特征对模型预测的贡献,并能揭示特征如何推动预测结果偏向某一类别。
SHAP是模型无关的,可以用于解释任何机器学习模型。 - GNNExplainer: 一种模型无关的方法,用于解释图神经网络的预测。它通过识别对特定预测最重要的子图(节点和边)和节点特征来提供解释,帮助理解GNN为何做出某个决策。
- Grad-CAM (Gradient-weighted Class Activation Mapping): 最初用于图像分类任务,通过计算特定特征图相对于模型输出的梯度,来生成一个热力图,显示图像中哪些区域对模型的最终预测贡献最大。本文中,其变体
UGrad-CAM被用于GCN来识别分子中对预测有贡献的原子。 - Tanimoto 距离 (Tanimoto Distance): 衡量两个集合之间差异的指标,通常用于计算分子指纹之间的相似性(Tanimoto相似度)或距离。
3.2. 前人工作
论文在引言中提及了多个前人工作,主要分为两类:
-
预测化合物是否具有苦味:
Zheng et al., 2018: 提出了一个用于识别苦味化合物的模型。Bitterntense (Margulis et al., 2021): 另一个预测苦味的工具。BitterCNN (Bo et al., 2022): 基于卷积神经网络的苦味预测模型。VirtuousSweetBitter (Maroni et al., 2022): 旨在对甜味剂/苦味剂进行分类。
-
预测特定的TAS2R靶点(即化合物与哪个TAS2R相互作用):
BitterX (Huang et al., 2016): 使用支持向量机(SVM)在缩减和平衡的数据集上训练。BitterSweet (Tuwani et al., 2019): 提供苦味剂-TAS2R关联信息,但其预测模型开发的具体细节在原始出版物和在线材料中均缺乏。BitterMatch (Margulis et al., 2022): 使用梯度提升(Gradient Boosting,GB)在决策树(Decision Trees,DTs)上训练,数据来源于BitterDB。
主动补充必要背景知识:
- 苦味受体数据库 (BitterDB):
BitterDB是一个全面的数据库,收录了已知苦味化合物及其与TAS2R受体的相互作用信息。它是许多苦味预测计算模型(包括BitterMatch和本文工作)的数据来源基础。
3.3. 技术演进
该领域的技术演进大致遵循以下路径:
-
早期实验方法 (In-vitro assays): 最初,识别苦味配体和TAS2R靶点主要依靠耗时且昂贵的体外实验。
-
传统机器学习 (Traditional ML) 的引入: 随着数据量的增长和计算能力的提升,机器学习方法被引入,首先用于分类化合物是否为苦味剂(如
Bitterntense),随后扩展到预测特定的配体-TAS2R相互作用(如BitterX、BitterMatch)。这些方法通常依赖于分子描述符和指纹作为输入,并使用如SVM、Random Forest、Gradient Boosting等算法。 -
深度学习 (Deep Learning) 的发展: 近年来,深度学习模型,尤其是基于神经网络(
NNs)的模型,因其强大的特征学习能力而展现出优越的性能(如BitterCNN)。 -
图神经网络 (GNN) 的兴起: 在计算化学和药物发现领域,
GNNs成为处理分子结构数据的强大工具。它们能够直接将原子和键编码为节点和边,更好地捕捉分子拓扑信息。 -
可解释性 (Explainability) 的重要性: 随着ML/DL模型性能的提高,其“黑箱”特性成为一个主要限制。为了提高模型的信任度和实际应用价值,可解释人工智能(
XAI)方法被开发出来,用于理解模型决策的原理,例如SHAP、GNNExplainer、Grad-CAM等。本文的工作正处于这种演进的交叉点,它不仅利用了传统机器学习和先进的图神经网络,还特别强调了模型的可解释性,以提供更深入的科学洞察。
3.4. 差异化分析
本文的方法与相关工作中的主要方法的核心区别和创新点在于:
-
双模型互补策略: 大多数现有工作要么专注于传统ML,要么专注于DL。本文同时开发了高性能的TML和GCN模型,并将其视为互补工具。TML模型在性能上可能略优,而GCN则在可视化解释分子结构方面有独特优势。
-
强调可解释性: 这是本文的核心创新。现有模型,特别是DL模型,常被批评为“黑箱”。本文积极整合
SHAP、GNNExplainer和Grad-CAM等可解释性方法,旨在不仅提供预测,还能揭示预测背后的分子机制。这对于科学发现(如识别关键官能团)和实际应用(如理性设计新分子)至关重要。 -
易用性和普适性: 论文明确指出其模型具有
easy applicability和within the model's applicability domain对任何查询分子进行预测的能力,这对于扩展模型的使用受众和应用场景非常重要。 -
数据集扩展: 虽然部分数据来源于
BitterDB,但本文通过纳入最新文献中的37个分子(760个已知关联),扩展了数据集,可能提高了模型的泛化能力。 -
特征选择的严谨性: TML模型中对
noisy特征选择和Backward-SFS方法的比较,以及SFS选择的17个Mordred描述符,体现了特征工程的细致。与
BitterMatch(使用Gradient Boosting)相比,本文的TML模型也使用了类似的树基方法,但本文模型在Recall、F1和F2分数上表现略优(根据Table S3),且本文提供了更详尽的可解释性分析。此外,本文的GCN模型提供了BitterMatch所不具备的分子结构层面的直观解释。
4. 方法论
4.1. 方法原理
本文的核心思想是构建两种互补的、可解释的机器学习模型——一种基于传统机器学习(TML),另一种基于图卷积神经网络(GCN)——来预测苦味分子与TAS2R受体之间的相互作用。这两种模型都从实验验证数据中学习模式,以实现高预测性能。更重要的是,它们都集成了专门的可解释性方法,以揭示模型预测背后的分子结构特征和机制,从而将“黑箱”预测转化为可理解的科学洞察。TML模型侧重于从分子描述符中学习特征重要性,而GCN模型则直接从分子的图结构中学习,并提供原子和键层面的解释。
4.2. 核心方法详解
4.2.1. 数据集获取与预处理
- 数据来源:
- 主要数据来源于
BitterMatch的数据集,其本身又来自BitterDB数据库。这部分包含了301个分子和3204个已知的TAS2R关联。 - 额外补充了37个分子(760个已知关联)来自近期文献,以扩充数据集。
- 总计338个苦味分子,与22个人类TAS2R受体(
TAS2R45、TAS2R48和TAS2R60是孤儿受体,无已知激动剂)。
- 主要数据来源于
- 定义相互作用:
- 正向关联 (Positive association): 分子-受体对已知相互作用,标记为
class 1。 - 负向关联 (Negative association): 分子已知不与相关受体结合,标记为
class 0。 - 仅考虑唯一已知且经过体外验证的相互作用。
- 最终数据集包含3964对苦味剂-TAS2R的已知关联。
- 正向关联 (Positive association): 分子-受体对已知相互作用,标记为
- 问题转化: 将配体-受体相互作用预测问题简化为二元分类任务。
- 特征编码:
- 分子编码: 使用Canonical SMILES表示,来源于
BitterDB或PubChem。 - 受体编码: 使用独热编码 (one-hot encoding) 策略。
- 分子编码: 使用Canonical SMILES表示,来源于
- 数据集不平衡性: 最终数据集呈现显著不平衡,结合实例数量(
class 1)大约是非结合实例数量(class 0)的五倍。 - 数据聚类与划分:
- 为了确保训练集和测试集在化学空间上的良好代表性,在数据分割之前进行了数据聚类。
- 使用
agglomerative clustering(凝聚聚类),采用complete linkage algorithm,将数据划分为个簇。 - 通过
Silhouette score分析来确定最佳的值。 - 聚类距离参数:选择
Tanimoto distance,基于预先计算的Morgan fingerprints。 - 分割:每个簇中的数据按80:20的比例划分为训练集和测试集,并按类别标签进行分层抽样 (stratifying over the class labels)。
4.2.2. 传统机器学习 (TML) 方法
TML的工作流程如下图所示:
该图像是传统机器学习(TML)工作流程示意图。流程从扩展数据集开始,包含对配体和受体的处理,使用摩根指纹、排序描述符和相关性过滤等步骤,最终进行模型评估和解释。
图 1. 传统机器学习(TML)工作流程。
- SMILES标准化: 遵循
ChEMBL structure pipeline对分子SMILES进行标准化处理。 - 特征提取:
- 指纹 (Fingerprints): 计算
Morgan fingerprints(位数 = 1024, 半径 = 2),使用RDKitPython包。 - 理化描述符 (Physicochemical descriptors): 使用
MordredPython库计算。
- 指纹 (Fingerprints): 计算
- 特征预处理:
- 相关性过滤: 移除与其它描述符相关性超过90%的描述符。
- 归一化 (Normalization): 所有非二元数据使用Min-Max归一化 (Min-Max normalization) 处理,将值缩放到0到1之间。
符号解释:
- :归一化后的数据。
- :原始数据。
minimum~value~of~A:原始数据 中的最小值。maximum~value~of~A:原始数据 中的最大值。C, D:归一化后的数据范围的下限和上限,在此处设定为 。
- 模型选择:
- 比较了Gaussian Naive Bayes (GaussianNB)、Logistic Regression (LR)、K-Neighbors、Support Vector Machines (SVM)、Random Forest (RF) 和 Gradient Boosting on Decision Trees (GB on DTs)。
- GB on DTs(具体实现为
CatBoost)因其在ROC AUC上的最佳性能而被选中。CatBoost使用有序提升 (ordered boosting)、随机置换 (random permutations) 和基于梯度的优化 (gradient-based optimization)。 CatBoostClassifier的超参数经过调优,详细见Table S2。
- 特征选择: 旨在减少2824个配体特征的维度,保留信息量最大的特征。
noisy特征选择:- 该方法基于先前文献,迭代进行选择。
- 向数据集中添加一个“噪声”列,其中填充0到1之间的伪随机数。
- 训练树基分类器后,计算每个特征的
Gini importance。 - 系统地排除重要性低于噪声特征的特征,直到只剩下比噪声列信息量更大的特征。
Sequential Feature Selection (SFS):- 一种贪婪算法,用于选择特征子集。
Backward-SFS: 从所有特征开始,逐步移除导致交叉验证(CV)得分最小化的最差特征。- 本文使用
scikit-learn实现Backward-SFS,以average precision作为5折CV得分,从CatBoostClassifier树基重要性指标排名前150的特征开始。 - 最终选择17个特征(相比
noisy方法选择的28个)。SFS因其更高的可重现性和更少的特征数量而被选为最终方法。
- 模型训练与评估:
- 在训练集上使用10折CV训练
CatBoostClassifier。 - 在测试集上评估模型的性能。
- 在训练集上使用10折CV训练
4.2.3. 图卷积神经网络 (GCN) 方法
GCN框架的工作流程如下图所示:
该图像是示意图,展示了用于预测 TAS2R-苦味分子相互作用的图卷积网络(GCN)框架工作流程。流程包括从扩展数据集提取配体和受体信息,经过 Morgan 指纹、图形生成、聚类,最终在 10 折交叉验证的基础上进行模型评估和解释。
图 2. GCN 框架工作流程。
-
分子图表示:
- 将标准化的SMILES分子转换为分子图 (molecular graphs),使用
NetworkX库。 - 节点 (Node) 特征: 原子被定义为节点。节点特征包括质量、
logP、Molar Refractivity、EState、Accessible Solvent Area (ASA)、Topological Polar Surface Area (TPSA)、部分电荷 (Partial Charge)、度数 (Degree)、隐式价 (Implicit Valence) 和氢原子数 (nH)。详细见Table S1。 - 边 (Edge) 特征: 化学键被定义为边。边特征包括单键、双键、三键和芳香键的布尔值。详细见
Table S1。 - 分子被定义为无向图,邻接矩阵 (adjacency matrix) 对称。
- 将标准化的SMILES分子转换为分子图 (molecular graphs),使用
-
受体特征: 独热编码的受体信息与图嵌入结合作为GCN模型的输入。
-
GCN模型架构 (Figure 3):
-
模型构建在
PyTorch和PyTorch Geometric上。 -
图卷积层 (Graph Convolutional Layers): 使用
GATv2Conv模块(Graph Attention Network的变体)。模型包含两个GATv2Conv层,输出通道数分别为32和8。 -
批归一化层 (Batch Normalization Layers): 放置在两个卷积层之后。
-
图嵌入 (Graph Embeddings): 通过对节点嵌入应用全局平均池化 (global mean pooling) 获得。
-
全连接层 (Fully Connected Layers): 四个全连接层,输出单元数分别为32、16、8和4。
-
Dropout 层 (Dropout Layers): 两个
dropout层,概率分别为0.1和0.2。第一个应用于全连接层输入,第二个应用于最后一个全连接层输出。 -
输入组合: 第一个全连接层接收图嵌入和受体特征的拼接作为输入。
-
激活函数 (Activation Functions): 隐藏单元使用
ReLU,节点嵌入使用sigmoid。 -
输出层: 最后一个全连接层后接一个线性变换层,产生两个输出(对应分类任务的概率)。
以下是GCN模型的架构示意图:
该图像是图表,展示了GCN模型的性能评估。图(A)显示了验证集(绿色)和测试集(红色)的ROC曲线,验证集AUC为0.87±0.03,测试集AUC为0.88。图(B)展示了测试集的PR曲线,其AUC为0.67。
图 3. GATv2Conv 模型的架构示意图。
-
-
训练与评估:
- 数据集的聚类和训练/测试集划分与TML方法类似。
- 在10折CV中训练模型,并选择在最佳折中性能最高的模型在测试集上进行评估。
4.2.4. 模型可解释性 (Explainability)
-
TML模型可解释性:
CatBoost特征重要性:CatBoost本身能够评估每个输入特征的相关性,反映特征值变化对预测造成的平均变化。- SHAP (SHapley Additive exPlanations):
- 基于博弈论的统一框架,用于解释任何机器学习模型的输出。
SHAP值衡量每个特征对模型预测的贡献,具有一致性。- 本文使用树基模型作为局部解释方法,计算最优局部解释。
SHAP能够揭示特征如何推动预测结果偏向某一类别。
-
GCN模型可解释性:
- GNNExplainer:
- 一种模型无关的方法,为GNN模型的预测提供可解释的解释。
- 能够提供单实例解释,识别对预测最重要的子图(节点和边)和节点特征。
- 图解释忠实度 (Graph Explanation Faithfulness, GEF) 分数: 用于评估解释的可靠性。
符号解释:
- :原始图的输出概率向量。
- :掩码子图(即通过
GNNExplainer识别出的关键子图)的输出概率向量。 KL:Kullback-Leibler散度,衡量两个概率分布之间的差异。GEF分数范围在0到1之间,接近0表示解释忠实度高,接近1表示忠实度差。通常,高于0.5被认为解释不可信。
- UGrad-CAM (Unsigned Grad-CAM):
Grad-CAM的图结构泛化版本,最初用于图像分类。- 通过计算输出相对于最后一个卷积层的梯度,生成热力图。
UGrad-CAM能够识别每个节点对预测(正类或负类)的正负贡献,提供视觉上更直观的解释。
- GNNExplainer:
5. 实验设置
5.1. 数据集
- 来源: 主要来自
BitterMatch数据集(其本身源自BitterDB数据库),并补充了最新文献中的数据。 - 规模:
- 338个苦味分子。
- 涉及22个人类TAS2R受体(排除了3个孤儿受体
TAS2R45、TAS2R48、TAS2R60)。 - 总共3964对苦味剂-TAS2R的已知关联。
- 其中,301个分子(3204个关联)来自
BitterMatch数据集,37个分子(760个关联)来自近期文献。
- 特点:
- 任务:二元分类,预测苦味分子与TAS2R受体之间的结合(
class 1)或不结合(class 0)。 - 数据不平衡:数据集中结合实例(
class 1)的数量大约是非结合实例(class 0)的五倍。 - 分子编码:Canonical SMILES。
- 受体编码:独热编码 (one-hot encoding)。
- 任务:二元分类,预测苦味分子与TAS2R受体之间的结合(
- 数据集示例:
论文中未提供数据集的直接样本示例,但提到了
strychnine(士的宁)作为一个苦味分子的例子,它与TAS2R46受体有正向关联,与TAS2R1受体有负向关联。
5.2. 评估指标
论文使用了以下评估指标来衡量模型的性能:
-
精确度 (Precision):
- 概念定义: 精确度衡量的是模型在所有预测为正类的样本中,有多少比例是真正为正类的。它关注的是预测结果的纯度,即在模型认为某个样本是正类时,这个判断有多大的可信度。
- 数学公式:
- 符号解释:
TP(True Positive):真正例,指模型正确地将正类样本预测为正类的数量。FP(False Positive):假正例,指模型错误地将负类样本预测为正类的数量。
-
召回率 (Recall / Sensitivity):
- 概念定义: 召回率衡量的是在所有实际为正类的样本中,有多少比例被模型正确地识别出来。它关注的是模型识别出所有正类的能力,即模型有没有遗漏掉重要的正类样本。
- 数学公式:
- 符号解释:
TP(True Positive):真正例,指模型正确地将正类样本预测为正类的数量。FN(False Negative):假负例,指模型错误地将正类样本预测为负类的数量。
-
特异性 (Specificity):
- 概念定义: 特异性衡量的是在所有实际为负类的样本中,有多少比例被模型正确地识别出来。它关注的是模型识别出所有负类的能力,即模型有没有错误地将负类样本预测为正类。
- 数学公式:
- 符号解释:
TN(True Negative):真负例,指模型正确地将负类样本预测为负类的数量。FP(False Positive):假正例,指模型错误地将负类样本预测为正类的数量。
-
F-Beta 分数 ():
- 概念定义: F-Beta分数是精确度和召回率的加权调和平均值,用于平衡这两个指标。参数 决定了召回率相对于精确度的重要性。当 时,F1分数给予精确度和召回率同等权重;当 时,F2分数给予召回率更高的权重,适用于召回率更重要的场景。
- 数学公式:
- 符号解释:
Recall:模型的召回率。Precision:模型的精确度。- :一个正数,表示召回率在度量中的重要性是精确度的 倍。
-
平均精确度 (Average Precision, AP):
- 概念定义: 平均精确度是精确度-召回率曲线(PR曲线)下的面积,它是一个在不同召回率阈值下精确度的加权平均值。AP常用于评估在不平衡数据集上模型对正类样本的识别性能,因为PR曲线对正类的性能变化更敏感。
- 数学公式:
- 符号解释:
R _ { n }:在第 个阈值下的召回率。- :在第
n-1个阈值下的召回率。 P _ { n }:在第 个阈值下的精确度。
-
ROC 曲线 (Receiver Operating Characteristic Curve) 和 AUC (Area Under the Curve):
- 概念定义: ROC曲线通过绘制所有分类阈值下的真阳性率(TPR,即召回率)与假阳性率(FPR,
1 - Specificity)的关系来评估二分类模型的性能。AUC是ROC曲线下的面积,它提供了一个单一的数值来衡量模型区分正负样本的整体能力,AUC值越高表示模型性能越好。 - 数学公式: ROC曲线没有单一的数学公式,它是一个二维曲线。AUC的计算是曲线下的积分面积。
- 符号解释:
TPR(True Positive Rate):真阳性率,等同于召回率。FPR(False Positive Rate):假阳性率。
- 概念定义: ROC曲线通过绘制所有分类阈值下的真阳性率(TPR,即召回率)与假阳性率(FPR,
5.3. 对比基线
论文将自己的方法与以下基线模型进行了比较:
-
TML方法内部比较:
- Gaussian Naive Bayes (GaussianNB)
- Logistic Regression (LR)
- K-Neighbors
- Support Vector Machines (SVM)
- Random Forest (RF)
- Gradient Boosting on Decision Trees (GB on DTs):其中
CatBoost是最终选择并优化的模型。 这些模型代表了传统机器学习领域常用的分类算法,通过内部比较选出最适合本任务的TML模型。
-
与现有SOTA模型比较:
- BitterMatch: 这是目前该领域最先进且可公开获取的模型之一。为了进行公平比较,作者从
BitterMatch的官方GitHub仓库中获取代码,并将其训练数据限制为仅人类受体数据(BM Human-Only),以排除其原始训练数据中包含的鼠类受体数据,使其与本文的TAS2R人类受体预测任务更具可比性。BitterMatch本身也是基于Gradient Boosting的树基方法(XGBoost)。 - BitterX: 虽然在引言中提及,但
BitterX未被纳入公平比较,因为其训练数据集(540个苦味剂,260个正向和260个负向相互作用)与本文使用的扩展数据集差异太大。 - BitterSweet: 由于其原始出版物和在线材料中缺乏具体的模型开发细节,也未被纳入公平比较。
- BitterMatch: 这是目前该领域最先进且可公开获取的模型之一。为了进行公平比较,作者从
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 传统机器学习 (TML) 方法的性能
在初步比较了多种传统机器学习算法后,梯度提升决策树 (GB on DTs),具体实现为CatBoost,表现出最佳性能。
以下是原文 Figure S1 中,不同传统机器学习算法在验证集上的ROC曲线比较:
该图像是ROC曲线图,展示了不同机器学习模型在预测TAS2R-苦味分子相互作用中的性能。图中分别展示了高斯朴素贝叶斯、逻辑回归、K邻近、支持向量机、随机森林及CatBoost模型的真阳性率与假阳性率的关系,AUC值也在图例中标注。
asalsal o validation are depicted as solid lines, while the standard deviations are represented by shaded areas.
从 Figure S1 可以看出,CatBoost和RandomForest在ROC曲线上表现最好,CatBoost最终被选为最佳模型。CatBoostClassifier的超参数经过调优,具体参数列于Table S2。
以下是原文 Table S2 的内容:
| Boosting Type | Depth | Iterations | Learning Rate | Leaf Estimation Iterations | L2 Leaf Reg | Subsample |
| Plain | 6 | 1000 | 0.1 | 4 | 3 | 0.7 |
超参数解释:
Boosting Type(Plain): 梯度提升的类型。Plain表示标准的梯度提升。Depth(6): 决策树的最大深度,控制树的复杂性。Iterations(1000): 提升阶段的数量,即构建的决策树的数量。Learning Rate(0.1): 学习率,每次迭代对模型权重更新的步长。Leaf Estimation Iterations(4): 在每个叶子节点上计算梯度和Hessian的迭代次数。L2 Leaf Reg(3): L2正则化系数,用于控制模型复杂度,防止过拟合。Subsample(0.7): 每次迭代用于训练的样本比例,也称为特征采样比率。
特征选择方法比较:
作者比较了两种特征选择方法:“noisy”特征选择和Backward-SFS。Backward-SFS方法最终选择了17个特征。
以下是原文 Figure S2 的内容:
该图像是一个示意图,展示了选择特征数量与平均精度(avgP)之间的关系。可以看到,当选择17个特征时,平均精度达到了0.68。
utu le nvaurBcar s.e precision value was achieved using 17 features.
Figure S2 展示了Backward-SFS方法在不同特征数量下达到最佳平均精确度 (average precision) 的过程,最终在17个特征处达到峰值0.68。
以下是原文 Figure S3 的内容:
该图像是图表,展示了“噪声”特征选择与后向特征选择(Backward-SFS)方法的性能比较。左侧为真实正率与假正率的关系图,右侧为精确度与召回率的关系图。图中分别标示了AUC值,噪声方法的AUC为0.92,而SFS方法的AUC为0.92,显示出二者的相似性能。
图 S3. “噪声”特征选择与后向特征选择(Backward-SFS)方法的性能比较。
从 Figure S3 可以看出,两种特征选择方法在ROC和PR曲线上表现相似。尽管SFS计算成本较高,但因其更高的可重现性和选择的特征数量更少(17个Mordred描述符,而noisy方法选择28个),因此被选为最终的特征选择方法。值得注意的是,最终选择的特征集中仅包含Mordred描述符,没有保留任何配体指纹。
TML模型的最终性能: 以下是原文 Figure 4 的内容:
该图像是图表,展示了用于预测strychnine与TAS2R46结合的GCN模型的可解释性,包括特征重要性(A)、分子结构(B)以及UGrad-CAM热图(C, D)。图中相比红色的节点表示与类别1的贡献,蓝色则对应类别0。
图 4. (A) TML 在验证集(绿色,10折交叉验证期间的均值和标准差)和测试集(红色)的 ROC 曲线。(B) 测试集的 PR 曲线。
TML模型在测试集上取得了0.92的ROC AUC和0.75的PR AUC。验证集的ROC AUC为0.91 ± 0.02。
TML模型特征重要性分析: 以下是原文 Figure 5 的内容:
该图像是ROC曲线图,展示了不同机器学习模型在预测TAS2R-苦味分子相互作用中的性能。图中分别展示了高斯朴素贝叶斯、逻辑回归、K邻近、支持向量机、随机森林及CatBoost模型的真阳性率与假阳性率的关系,AUC值也在图例中标注。
图 5. TML模型的树基特征重要性。22个受体关联特征以橙色显示,通过SFS方法选择的17个配体描述符以蓝色显示。
从 Figure 5 可以看出:
- 受体关联特征:
TAS2R14和TAS2R46的关联特征具有最高的特征重要性。这与它们的“滥交性”(promiscuity,即能结合多种配体)相符,因为它们是已知激动剂数量最多的受体。受体越具有选择性(激动剂数量越少),其关联特征的重要性越低。 - 配体描述符: SFS方法选择的17个
Mordred描述符中,重要性较高的包括GATS1i、ATSC4d、Xpc-5dv等。这些描述符主要属于自相关 (autocorrelation) 和拓扑 (topological) 描述符类别,它们捕获了分子内原子或性质之间的空间关系以及分子图的结构信息。
SHAP可解释性分析: 以下是原文 Figure 6 的内容:
该图像是一个示意图,展示了选择特征数量与平均精度(avgP)之间的关系。可以看到,当选择17个特征时,平均精度达到了0.68。
图 6. (A) 每个 TAS2R 的激动剂数量和 (B) 受体关联的相对 SHAP 值。(C, D) 士的宁-TAS2R46(正向关联)(C) 和士的宁-TAS2R1(负向关联)(D) 对的 SHAP 瀑布图。
- 受体关联的SHAP值:
- Figure 6A 显示了每个TAS2R的激动剂数量。
- Figure 6B 显示了受体关联的SHAP值。可以看出,与更“滥交”的受体(如
TAS2R14、46和39)的关联往往将预测推向class 1(正向结合),而与选择性受体的关联则倾向于class 0(负向不结合)。
- 个例解释:
- 士的宁-TAS2R46(正向关联): Figure 6C 的SHAP瀑布图显示,
TAS2R46关联特征对预测结果(class 1)有显著的正向贡献,这与TAS2R46作为多配体受体的预期一致。 - 士的宁-TAS2R1(负向关联): Figure 6D 显示,对于这个预测为
class 0的配对,一个配体描述符(ATSC4d)成为最具影响力的特征,表明在这种情况下,配体自身的分子结构是预测结果的主要驱动因素。 - 数据集不平衡的影响: 由于数据集中负样本数量远多于正样本,模型预测总体上偏向负类。因此,较低的负
SHAP值对将预测推向负类有更强的影响,而较低的正SHAP值主要起平衡初始负向预测的作用。
- 士的宁-TAS2R46(正向关联): Figure 6C 的SHAP瀑布图显示,
6.1.2. 图卷积神经网络 (GCN) 方法的性能
以下是原文 Figure 7 的内容:
该图像是图表,展示了“噪声”特征选择与后向特征选择(Backward-SFS)方法的性能比较。左侧为真实正率与假正率的关系图,右侧为精确度与召回率的关系图。图中分别标示了AUC值,噪声方法的AUC为0.92,而SFS方法的AUC为0.92,显示出二者的相似性能。
图 7. (A) GCN 在验证集(绿色,交叉验证期间的均值和标准差)和测试集(红色)的 ROC 曲线。(B) 测试集的 PR 曲线。
GCN模型在测试集上取得了0.88的ROC AUC和0.67的PR AUC。验证集的ROC AUC为0.87 ± 0.03。
GCN模型可解释性分析: 以下是原文 Figure 8 的内容:
该图像是一个直方图,显示了Jaccard相似度的密度分布,包含训练-训练和测试-训练的比较。红色条形表示训练集之间的相似度,而蓝色条形表示测试集与训练集的相似度。虚线标记了相似度阈值,体现了不同组别的相似度趋势。
图 8. 士的宁-TAS2R46 对(正向关联)的 GCN 模型可解释性,使用 GNNExplainer (A, B) 和 UGrad-CAM (C, D)。(A) 预测的10个最重要节点特征的重要性。(B) 边缘重要性热力图,绿色深浅与边缘重要性成正比。(C) UGrad-CAM 热力图,红色节点表示对类别1的贡献,蓝色节点表示对类别0的贡献。(D) 修改后的士的宁分子与 TAS2R46 受体配对的 UGrad-CAM 热力图,红色节点表示对预测类别(1)的贡献,蓝色节点表示对相反类别(0)的贡献。
- GNNExplainer (节点和边特征重要性):
- Figure 8A 显示了
strychnine-TAS2R46预测最重要的10个节点特征。其中,原子部分电荷(Gasteiger Charge)和分配系数(logP)是重要的节点特征,与分子的亲水性有关,这对于配体-靶点相互作用至关重要。 - Figure 8B 显示了边(键)的重要性热力图。与实验发现的
TAS2R46相互作用相关的叔胺所形成的键,被识别为对预测最相关的键之一。
- Figure 8A 显示了
- UGrad-CAM (节点贡献可视化):
- Figure 8C 展示了
strychnine-TAS2R46对的UGrad-CAM热力图。其中,红色节点表示对class 1(结合)的贡献,蓝色节点表示对class 0(不结合)的贡献。与实验证据一致,士的宁中涉及与TAS2R46结合的叔胺区域对class 1的预测有显著贡献。而士的宁的芳香环区域则主要贡献于class 0。 - 结构修饰的影响: Figure 8D 展示了移除士的宁中两个碳原子后的
UGrad-CAM热力图。这种修饰导致该叔胺区域对class 0的贡献增加,并降低了其他区域的影响力,最终导致模型输出概率降低。这表明UGrad-CAM能够有效揭示分子结构变化如何影响预测。
- Figure 8C 展示了
6.1.3. TML与GCN模型性能比较
以下是原文 Table 1 的内容:
| ROC AUC | PR AUC | Class | Precision | Recall | F1 | F2 | |
| TML | 0.92 | 0.75 | 0 | 0.93 | 0.97 | 0.95 | 0.96 |
| 1 | 0.78 | 0.60 | 0.68 | 0.63 | |||
| GCN | 0.88 | 0.67 | 0 | 0.94 | 0.92 | 0.93 | 0.93 |
| 1 | 0.62 | 0.67 | 0.64 | 0.66 |
表 1. TML 和 GCN 模型在测试集上的性能指标比较。粗体值表示各项指标中的最高值。
从 Table 1 可以看出:
- 整体性能: TML模型在ROC AUC (0.92) 和 PR AUC (0.75) 上均优于GCN模型 (ROC AUC 0.88, PR AUC 0.67)。
- 负样本 (class 0): 两个模型在负样本上的性能非常接近且都表现优秀,精确度(0.93 vs 0.94)、召回率(0.97 vs 0.92)、F1(0.95 vs 0.93)和F2(0.96 vs 0.93)都处于高位。
- 正样本 (class 1):
- TML模型在正样本的精确度 (0.78) 显著高于GCN模型 (0.62)。
- GCN模型在正样本的召回率 (0.67)、F1 (0.64) 和 F2 (0.66) 略优于TML模型 (召回率0.60, F1 0.68, F2 0.63)。
- 性能权衡: TML模型似乎更倾向于
precision(当它预测正类时,更有可能是对的),而GCN模型更倾向于recall(它能识别出更多的正类样本,但可能伴随更多误报)。这种差异可能与数据集的不平衡性有关,GCN模型可能对训练集中有限的正样本更为敏感。
6.1.4. 与BitterMatch模型比较
为了与现有工作进行公平比较,作者对BitterMatch模型进行了改编,仅使用人类受体数据进行训练(BM Human-Only)。
以下是原文 Figure S5 的内容:
该图像是一个性能评估图,展示了三种模型(BM、TML、GNN)在精确率和召回率上的表现。图中蓝线、红线和绿色线分别表示各模型在不同AUC值下的表现,反映了它们的预测能力。
ur aron eehe cre tMatdelain-nly t Lmel anhe mol reen aro oap he The ean c represented as a continuous line, while the shaded parts correspond to the region between the and percentiles.
Figure S5 展示了TML、GCN和BM Human-Only模型在测试集上的PR曲线比较。
以下是原文 Table S3 的内容:
| TML | GCN | BM | ||
| Class 0 | Precision | 0.93 | 0.94 | 0.88 |
| Recall | 0.97 | 0.92 | 0.96 | |
| F1 | 0.95 | 0.93 | 0.92 | |
| F2 | 0.96 | 0.93 | 0.95 | |
| Class 1 | Precision | 0.78 | 0.62 | 0.75 |
| Recall | 0.60 | 0.67 | 0.44 | |
| F1 | 0.68 | 0.64 | 0.55 | |
| F2 | 0.63 | 0.66 | 0.48 | |
表 S3. TML、GCN 和 BitterMatch (BM) 性能指标比较。粗体值表示各项指标中的最高值。
从 Table S3 可以看出:
- 负样本 (class 0): 所有三个模型在负样本上的性能都很高,且接近。TML和GCN略优于BM。
- 正样本 (class 1):
- TML模型在Precision (0.78) 上表现最佳。
- GCN模型在Recall (0.67)、F1 (0.64) 和 F2 (0.66) 上表现最佳,特别是召回率远超BM (0.44)。
- BM模型在正样本的召回率、F1和F2分数上相对较低,表明其识别正样本的能力稍弱。
- 总体而言: 三个模型在PR AUC上表现相似,但在
class 1的Recall、F1和F2指标上,本文的TML和GCN模型展现出优于BitterMatch的性能。 - 优势: 本文模型的一大优势在于其易用性和对模型适用域内任何查询分子的预测能力,这拓宽了它们在精密营养、营养品开发等新兴领域的应用前景。
6.2. 数据呈现 (表格)
以下是原文 Table 1 的结果:
| ROC AUC | PR AUC | Class | Precision | Recall | F1 | F2 | |
| TML | 0.92 | 0.75 | 0 | 0.93 | 0.97 | 0.95 | 0.96 |
| 1 | 0.78 | 0.60 | 0.68 | 0.63 | |||
| GCN | 0.88 | 0.67 | 0 | 0.94 | 0.92 | 0.93 | 0.93 |
| 1 | 0.62 | 0.67 | 0.64 | 0.66 |
表 1. TML 和 GCN 模型在测试集上的性能指标比较。粗体值表示各项指标中的最高值。
以下是原文 Table S2 的结果:
| Boosting Type | Depth | Iterations | Learning Rate | Leaf Estimation Iterations | L2 Leaf Reg | Subsample |
| Plain | 6 | 1000 | 0.1 | 4 | 3 | 0.7 |
表 S2. CatBoostClassifier 超参数。
以下是原文 Table S3 的结果:
| TML | GCN | BM | ||
| Class 0 | Precision | 0.93 | 0.94 | 0.88 |
| Recall | 0.97 | 0.92 | 0.96 | |
| F1 | 0.95 | 0.93 | 0.92 | |
| F2 | 0.96 | 0.93 | 0.95 | |
| Class 1 | Precision | 0.78 | 0.62 | 0.75 |
| Recall | 0.60 | 0.67 | 0.44 | |
| F1 | 0.68 | 0.64 | 0.55 | |
| F2 | 0.63 | 0.66 | 0.48 | |
表 S3. TML、GCN 和 BitterMatch (BM) 性能指标比较。粗体值表示各项指标中的最高值。
6.3. 消融实验/参数分析
-
TML算法的比较: 论文通过比较GaussianNB、LR、K-Neighbors、SVM、RF和GB on DTs(CatBoost)的ROC曲线(Figure S1),验证了GB on DTs作为TML方法中最佳选择的有效性。
RandomForest也表现良好,这证实了树基算法对于此特定预测问题的稳健性。 -
TML特征选择方法的比较: 论文比较了“
noisy”特征选择和Backward-SFS两种方法。结果(Figure S3)显示两者在ROC和PR曲线上性能相似。尽管SFS计算成本较高,但因其更高的可重现性和选择的特征数量更少(17个Mordred描述符 vs. 28个),因此被选为更合适的特征选择方法。这部分分析验证了SFS在保持性能的同时,有效简化了模型,也为后续的解释性分析奠定了基础。 -
GCN模型超参数: 论文在GCN模型描述中提及了具体的层数、输出通道、dropout概率和激活函数等配置,这些配置是经过调优以达到最佳性能。
-
适用域 (Applicability Domain, AD) 分析: 论文通过平均相似度方法对模型的适用域进行了评估(Figure S4)。 以下是原文 Figure S4 的内容:
该图像是图表,展示了TML模型在验证集(绿色,AUC = 0.91 ± 0.02)和测试集(红色,AUC = 0.92)的ROC曲线(A),以及测试集的PR曲线(B,AUC = 0.75)。这些曲线用于评估模型的预测能力。图 S4. Jaccard 相似度密度分布,用于确定适用域的相似度阈值。
Figure S4 展示了训练集内部(训练-训练)和训练集与测试集之间(测试-训练)的Jaccard相似度分布。这种分析用于确定一个相似度阈值,以区分模型适用域内外的查询化合物,确保模型预测的可靠性。这并非传统的消融实验,但它验证了模型在处理新、未知分子时的泛化能力和可靠性。
7. 总结与思考
7.1. 结论总结
本研究成功地开发了两种互补的可解释模型:基于传统机器学习(TML)的梯度提升决策树(CatBoost)模型和基于图卷积神经网络(GCN)的模型,用于预测苦味分子与TAS2R受体之间的相互作用。这两个模型都展示了令人满意的预测性能,其中TML模型在性能指标上略占优势,而GCN模型则提供了更直观的分子结构层面解释。
论文的核心贡献在于其对模型可解释性的高度重视。通过集成SHAP(针对TML)和GNNExplainer、Grad-CAM(针对GCN)等先进的可解释性方法,模型不仅提供了预测结果,更重要的是,揭示了预测背后的分子机制和关键特征。例如,TML模型通过特征重要性分析揭示了“滥交性”受体对正向预测的偏向性,以及特定配体描述符的重要性;GCN模型则能通过UGrad-CAM热图直接可视化分子结构中对结合贡献最大的原子和键。
这些模型具有易用性和对模型适用域内新分子的预测能力,为食品工业(如开发新型苦味调节剂)和制药行业(如改善苦味药物适口性、探索TAS2R在疾病中的作用)提供了有价值的工具。通过将机器学习与可解释性相结合,本研究深化了对苦味感知分子特征的理解,并为未来理性设计具有特定靶向能力的苦味剂奠定了基础。
7.2. 局限性与未来工作
局限性:
- 数据集稀疏、多样性和不平衡: 论文承认其主要障碍是可用数据的稀疏性、多样性不足和不平衡性。数据集仅包含苦味分子,这限制了模型的适用域仅限于此类化合物。
- 缺乏受体三维结构信息: 模型目前未整合TAS2R受体的三维结构信息。受体结合口袋的体积、溶剂可及表面积(
Solvent Accessible Surface Area)和回旋半径(radius of gyration)等三维特征已知会驱动配体结合和识别,但由于苦味受体结构确定本身就是一个挑战,这部分信息尚未纳入模型。 - TML特征解释的复杂性: 尽管进行了特征选择,TML模型最终保留的17个
Mordred描述符在化学和物理意义上仍然相对复杂,难以直观地将其与分子的具体结构特征或官能团关联起来,从而限制了TML解释的直观性。
未来工作:
- 扩展数据集: 随着更多实验数据的出现,应进一步扩充数据集,以增强模型的性能和化学适用域。
- 整合受体三维结构信息: 探索如何有效地将受体的三维结构信息(一旦可用)整合到模型中,以提高预测的准确性和生物学相关性。
- 开发更直观的TML特征解释方法: 针对TML模型中复杂描述符的解释问题,需要开发特定的方法,以便更直观地将分子描述符与结构特征或官能团联系起来。
- 拓展模型应用范围: 将模型应用于精密营养或营养品开发等新兴领域,以识别具有特定功能的配体。
7.3. 个人启发与批判
个人启发:
这篇论文的价值不仅在于开发了有效的预测模型,更在于其对模型可解释性的深入关注。在科学研究,特别是生命科学领域,仅仅知道“是什么”是不够的,还需要理解“为什么”。TML与GCN的结合利用了各自的优势,TML可能在某些宏观特征上表现更佳,而GCN则在微观的分子结构层面提供了无与伦比的洞察力。SHAP、GNNExplainer和UGrad-CAM这些可解释性工具,将“黑箱”模型转化为可以引导新实验假设的“灰箱”,这对于药物设计和理解生物学机制至关重要。识别出strychnine中叔胺对TAS2R46结合的关键贡献,并能通过结构修饰可视化其影响,是计算方法直接指导实验设计和分子优化的绝佳案例。
批判:
- 数据集不平衡问题的影响: 尽管论文提及了数据集不平衡问题,并指出其可能导致模型对少数类(正样本)的精确度较低,但并未详细探讨如何更有效地缓解这种不平衡。例如,可以尝试更高级的欠采样、过采样技术(如
SMOTE)或代价敏感学习(cost-sensitive learning),以进一步优化对正样本的预测性能。 - 受体三维结构信息的缺失: 论文将受体三维结构信息的缺乏视为未来工作,但这是配体-受体相互作用预测中最关键的信息之一。仅依赖配体特征(即使是GCN),在没有受体结合口袋细节的情况下,其预测能力可能存在根本性的上限。未来的研究可能需要探索更先进的
docking或ligand-protein interaction fingerprint方法与机器学习的结合。 - TML描述符解释的挑战: 虽然
SFS选择了17个重要的Mordred描述符,但这些描述符的化学直观性仍然不高。对于初学者或非专家而言,理解GATS1i或ATSC4d这类描述符的具体化学意义仍然是一个挑战。这限制了TML模型解释结果的易读性和普及性。尽管论文也指出了这一点,并作为未来工作,但这仍是当前模型的一大局限。 - 模型泛化能力的边界: 尽管论文探讨了适用域,但苦味分子化学空间的广阔性和TAS2R受体的多样性意味着模型在预测全新结构或与训练数据化学空间相距较远的分子时的可靠性仍需谨慎。这需要持续的数据积累和模型更新。
相似论文推荐
基于向量语义检索推荐的相关论文。