Recent Developments in GNNs for Drug Discovery
TL;DR 精炼摘要
本文综述了图神经网络(GNN)在计算药物发现中的最新进展,涵盖分子生成、分子属性预测和药物-药物相互作用预测。强调GNN理解复杂分子模式的能力,讨论现有模型的输入类型与应用,以及相关的基准数据集,展望当前与未来应用。
摘要
In this paper, we review recent developments and the role of Graph Neural Networks (GNNs) in computational drug discovery, including molecule generation, molecular property prediction, and drug-drug interaction prediction. By summarizing the most recent developments in this area, we underscore the capabilities of GNNs to comprehend intricate molecular patterns, while exploring both their current and prospective applications. We initiate our discussion by examining various molecular representations, followed by detailed discussions and categorization of existing GNN models based on their input types and downstream application tasks. We also collect a list of commonly used benchmark datasets for a variety of applications. We conclude the paper with brief discussions and summarize common trends in this important research area.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Recent Developments in GNNs for Drug Discovery (GNN在药物发现中的最新进展)
1.2. 作者
Zh Fang, Xie Zhan1, Anyi Zhao1, Xiao Li1, Hu Chen, ad Ji Li*1
- Department of Computer and Data Sciences, Case Western Reserve University (凯斯西储大学计算机与数据科学系)
- Department of Biochemistry, Case Western Reserve University (凯斯西储大学生物化学系)
- Center for RNA Science and Therapeutics, Case Western Reserve University (凯斯西储大学RNA科学与治疗中心)
- Department of Biomedical Engineering, Case Western Reserve University (凯斯西储大学生物医学工程系)
1.3. 发表期刊/会议
预印本 (Preprint)
1.4. 发表年份
2025年 (Published at UTC: 2025-06-02T04:24:05.000Z)
1.5. 摘要
这篇论文综述了图神经网络 (Graph Neural Networks, GNNs) 在计算药物发现 (computational drug discovery) 中的最新进展及其作用,涵盖了分子生成 (molecule generation)、分子属性预测 (molecular property prediction) 和药物-药物相互作用预测 (drug-drug interaction prediction) 等方面。通过总结该领域的最前沿进展,论文强调了GNN理解复杂分子模式的能力,并探讨了其当前和未来的应用。讨论首先考察了各种分子表示 (molecular representations),随后根据输入类型和下游应用任务详细讨论并分类了现有的GNN模型。论文还收集了一系列用于各种应用的常用基准数据集 (benchmark datasets)。最后,文章对这一重要研究领域的共同趋势进行了简要讨论和总结。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2506.01302v1 PDF 链接: https://arxiv.org/pdf/2506.01302v1.pdf 发布状态: 预印本 (Preprint)
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 传统的药物发现 (drug discovery) 过程因其高昂的成本、漫长的时间周期和高失败率而广受诟病 [1]。这导致了对计算方法 (computational methods) 的迫切需求,以优化发现流程并减少资源密集型的实验室工作。
- 现有研究的挑战与空白: 现有文献虽然提供了一些关于深度学习 (deep learning) 在药物发现中应用的全面综述 [2, 3, 4, 5],但这些综述通常涵盖范围较广。随着图神经网络 (GNNs) 的快速发展及其在处理结构化数据方面的独特优势,其在药物发现特定子领域(如分子生成、分子属性预测和药物-药物相互作用预测)的最新进展需要一个更集中、更深入的总结。
- 论文的切入点与创新思路: 本文正是聚焦于GNNs,并着重总结自2021年以来在上述三个日益受到关注并展现出良好前景的计算药物开发相关领域中的最新发展。论文旨在强调GNN理解复杂分子模式的能力,并探索其当前和未来的应用。
2.2. 核心贡献/主要发现
- 系统综述与最新进展总结: 论文提供了GNN在药物发现中,特别是在分子生成 (molecule generation)、分子属性预测 (molecular property prediction) 和药物-药物相互作用预测 (drug-drug interaction prediction, DDI) 三个关键领域的最新进展的系统综述,主要聚焦于2021年及之后发表的研究。
- 分子表示与模型分类: 文章首先审视了各种分子表示 (molecular representations) 方法(1D
SMILES、2D/3D分子图),随后根据输入类型和下游应用任务对现有GNN模型进行了详细的讨论和分类。 - 基准数据集列表: 论文收集并总结了广泛用于评估模型性能的基准数据集 (benchmark datasets),涵盖综合数据库、临床数据库、结构信息数据库和分子相互作用数据库。
- 识别共同趋势与未来方向: 论文总结了该领域出现的共同趋势,例如预训练 (pre-training) 和自监督学习 (self-supervised learning) 的普及、领域特定知识 (domain-specific knowledge) 的整合、以及多模态 (multi-modal) 数据融合。同时,也指出了数据稀缺性、模型可解释性 (model interpretability) 和多组学数据整合 (multi-omics integration) 等挑战和未来研究方向。
3. 预备知识与相关工作
3.1. 基础概念
为了充分理解本综述论文,读者需要对以下核心概念有清晰的认识:
-
图神经网络 (Graph Neural Networks, GNNs):
- 概念定义: GNNs 是一种专门设计用于处理图结构数据的深度学习模型。图数据由节点 (nodes)(或顶点
vertices)和边 (edges) 组成,边表示节点之间的连接关系。与传统的神经网络(如卷积神经网络 (Convolutional Neural Networks, CNNs) 处理图像、循环神经网络 (Recurrent Neural Networks, RNNs) 处理序列)不同,GNNs 能够直接在非欧几里得空间的图数据上进行学习,捕获节点之间的复杂关系和图的拓扑结构信息。 - 工作原理: GNN 的核心思想是消息传递 (Message Passing) 机制。在每个“层”中,每个节点通过迭代地从其邻居节点收集(聚合
aggregate)信息,然后与自身的信息结合来更新其自身的表示(嵌入embedding)。这个过程可以重复多次,使得节点能够整合其多跳邻居的信息,从而学习到丰富的上下文感知表示。 - 在药物发现中的重要性: 分子天然地可以表示为图,其中原子是节点,化学键是边。GNNs 能够直接处理这种图表示,从而避免了传统方法中繁琐的特征工程 (feature engineering),能够更有效地捕获分子的结构信息和化学性质。
- 概念定义: GNNs 是一种专门设计用于处理图结构数据的深度学习模型。图数据由节点 (nodes)(或顶点
-
分子表示 (Molecular Representations):
- 概念定义: 将复杂的分子结构转换为计算机能够处理的标准化数据格式。
- 1D SMILES 字符串 (Simplified Molecular Input Line Entry System, SMILES):
- 定义: 一种线性的符号表示法,用字符序列来描述分子的结构。它简洁高效,广泛用于化学数据库和计算。
- 示例: 水分子为 ,乙醇为
CCO,咖啡因为 。 - 局限性: 尽管高效,但其一维特性使得直接从中提取复杂的拓扑和三维空间信息具有挑战性,尤其是在使用自然语言处理 (Natural Language Processing, NLP) 算法时。
- 2D 分子图 (2D Molecular Graphs):
- 定义: 将分子抽象为图,其中每个原子 (atom) 是一个节点,每个化学键 (chemical bond) 是一条边。节点可以带有属性(如原子类型、原子序数、电荷、杂化态),边可以带有属性(如键类型:单键、双键、三键、芳香键)。
- 优势: 直观地反映了分子的拓扑结构,是GNN处理分子的自然输入形式。
- 3D 分子图 (3D Molecular Graphs):
- 定义: 在2D图的基础上,进一步整合了每个原子的三维空间坐标。这允许模型捕获分子的精确构象 (conformation)、原子间的距离、键角和扭转角等几何信息。
- 优势: 提供了更全面的分子视图,对于建模基于空间距离和角度的相互作用(如蛋白质-配体结合)至关重要。
-
药物发现 (Drug Discovery):
- 概念定义: 一个多学科的复杂过程,从识别潜在的疾病靶点开始,经过药物设计、合成、筛选、优化、临床试验,最终获得新药并推向市场。
- 计算药物发现 (Computational Drug Discovery): 利用计算方法和模型来加速、优化或替代传统实验室实验,从而降低成本、缩短周期并提高成功率。
-
分子生成 (Molecule Generation):
- 概念定义: 借助计算模型,根据特定设计原则或约束条件,从头 (de novo) 生成具有新颖结构和期望性质的分子。这通常是为了寻找具有特定药理活性的候选药物。
-
分子属性预测 (Molecular Property Prediction):
- 概念定义: 预测分子的各种理化性质(如水溶性、脂溶性、量子力学性质)或生物活性(如毒性、对靶蛋白的结合亲和力)。这有助于在早期阶段筛选出有潜力或有风险的化合物。
-
药物-药物相互作用预测 (Drug-Drug Interaction Prediction, DDI):
- 概念定义: 当患者同时服用两种或多种药物时,预测它们之间可能发生的相互作用。这些相互作用可能是协同的(增强疗效)或拮抗的(降低疗效)或导致不良副作用。DDI预测对于多药治疗的安全性至关重要。
-
预训练 (Pre-training) 和自监督学习 (Self-Supervised Learning, SSL):
- 概念定义: 一种机器学习范式,其中模型首先在一个通常较大、无标签或自生成标签的数据集上进行训练,学习通用的表示。
- 自监督学习: 通过设计代理任务 (pretext tasks),从数据本身(例如,预测分子图中被遮蔽的原子,或区分不同数据增强视图的一致性)中生成监督信号来训练模型,从而学习到有用的表示,无需人工标注。
- 预训练: 在代理任务上训练模型的过程,其目标是获得一个初始化良好的模型,该模型捕捉了数据的内在结构。
- 微调 (Fine-tuning): 预训练完成后,模型可以在特定任务的小规模带标签数据集上进行进一步训练,以适应下游任务。
- 在药物发现中的重要性: 药物发现领域的带标签数据往往稀缺且昂贵。预训练和自监督学习能够利用大量易于获取的未标记分子结构数据,学习通用的分子表示,从而有效缓解标签数据稀缺问题,提高模型在下游任务上的性能和泛化能力。
-
少样本学习 (Few-shot Learning):
- 概念定义: 一种机器学习范式,旨在使模型能够在只有少量带标签样本的情况下,快速学习并泛化到新的、未见过的任务。
- 在药物发现中的重要性: 对于罕见疾病或新靶点,可能只有极少量化合物的活性数据。少样本学习能够使模型在这种数据极度缺乏的情况下,仍然能够进行有效的预测。
3.2. 前人工作
论文提及并构建在其基础上的关键先前研究和技术演进脉络如下:
-
传统药物发现的局限性: 传统方法耗时、成本高、成功率低 [1]。这促使研究人员寻求计算解决方案。
-
早期计算方法:
- 深度学习在药物发现中的应用:
Gawehn et al.[2]、Chen & Li[3, 4] 和Wang et al.[5] 等综述性工作已经涵盖了深度学习在药物发现中的广泛应用。这为GNNs的特定综述奠定了基础。 - 传统机器学习: 在深度学习兴起之前,分子属性预测 (molecular property prediction) 严重依赖于随机森林 (random forests) 或支持向量机 (support vector machines) 等传统机器学习技术 [2]。这些方法通常需要专家级的领域知识 (domain knowledge) 进行特征工程 (feature engineering),将分子结构手工转化为数值特征。
- 生成模型: 早期分子生成 (molecule generation) 方法主要是生成式深度学习模型 (generative deep learning models) 的应用,例如变分自编码器 (Variational Autoencoder, VAE) [16]。
- 深度学习在药物发现中的应用:
-
深度学习的转变与GNNs的兴起:
- 从1D到2D/3D表示: 随着深度学习的发展,分子表示从一维的
SMILES字符串转向更丰富的二维图和三维构象模型 [2, 29]。这种转变显著拓宽了药物属性预测的范围和准确性。 - GNNs的天然优势:
Kipf & Welling[47] 提出的图卷积网络 (Graph Convolutional Networks, GCN) 等GNNs能够直接接收分子图作为输入,从而避免了手工特征工程的需求,并能更好地捕获分子的拓扑和几何信息 [30]。这使得GNNs成为药物发现领域的核心技术。 - DDI预测的演进: 药物-药物相互作用预测 (DDI prediction) 经历了从基于传统机器学习算法和/或矩阵分解 (matrix decomposition) 框架 [38] 到基于深度学习模型 [38] 的发展。特别是,随着GNNs的发展,将相互作用建模为网络并以GNNs作为骨干的方法已取得了最先进的 (state-of-the-art) 结果 [42]。
- 从1D到2D/3D表示: 随着深度学习的发展,分子表示从一维的
3.3. 技术演进
GNN在药物发现领域的技术演进可以概括为以下几个阶段和趋势:
- 从手工特征到端到端学习: 早期计算药物发现依赖专家知识提取分子特征。GNNs的出现使得模型能够直接从原始分子图(2D或3D)中自动学习特征,实现了端到端 (end-to-end) 的学习范式,极大地简化了流程。
- 从一维序列到高维图结构: 分子表示从
SMILES字符串(一维)发展到2D分子图和3D分子构象,为GNNs提供了更丰富的输入。特别是3D图,能够捕获精确的空间信息,对理解分子相互作用至关重要 [45, 46]。 - 从通用GNN到领域特定优化: 最初,通用的GNN架构(如
MPNN、GCN)被直接应用于分子数据。随后,研究人员开始针对药物发现的特定挑战(如分子手性、环结构先验、扭转角分布)对GNN架构进行定制化和优化 [7, 23, 74]。 - 应对数据挑战的策略:
- 标签稀缺: 引入预训练 (pre-training) 和自监督学习 (self-supervised learning) 策略,利用大量无标签分子数据学习通用表示 [18, 63, 64]。
- 小数据问题: 发展少样本学习 (few-shot learning) 方法,使模型在只有少量带标签数据时也能有效预测 [19, 20]。
- 从单一任务到多任务/多模态集成:
- 多任务学习 (multi-task learning): 共享模型在多个相关任务上的知识,提高泛化能力。
- 多模态融合: 整合不同模态的数据(如2D图、3D图、
SMILES序列、蛋白质序列、临床记录),通过注意力机制等方式实现信息互补,提升预测精度 [73, 75, 76]。
- 从静态预测到动态模拟: 传统的GNN主要进行静态属性预测。然而,一些最新研究开始探索使用GNN模拟蛋白质-配体结合动力学等动态过程 [84],这代表了从静态预测向更真实物理模拟的演进。
- 从通用预测到个性化推荐: 在DDI预测领域,研究从泛化性预测DDI事件,发展到结合患者医疗历史进行个性化药物组合推荐 (personalized drug combination recommendation) [40, 41, 42],迈向精准医疗。
3.4. 差异化分析
本文与现有相关工作的核心区别和创新点在于其聚焦性和时效性:
- 聚焦GNNs: 现有文献中,如
Gawehn et al.[2] 和Wang et al.[5] 的综述,通常是对深度学习在药物发现中的广义应用进行回顾,涵盖了CNN、RNN、VAE、GAN等多种模型。而本文则明确将焦点限定在GNNs这一特定且在药物发现中日益占据主导地位的模型范式。这种聚焦性使得论文能够更深入地探讨GNNs的独特优势、面临的挑战以及专门为分子数据设计的创新架构。 - 关注最新进展 (2021年至今): 论文明确指出其总结的是自2021年以来的最新发展。这意味着它涵盖了许多前几年综述中尚未出现的前沿技术和方法,例如基于3D构象的GNNs、先进的预训练 (pre-training) 策略、少样本学习 (few-shot learning) 应用,以及在药物-药物相互作用 (DDI) 预测和个性化药物推荐 (personalized drug recommendation) 方面的最新突破。这种时效性确保了综述内容能够反映当前研究的最先进的 (state-of-the-art) 水平。
- 结构化应用领域划分: 论文将GNNs在药物发现中的应用清晰地划分为分子生成 (Molecule Generation)、分子属性预测 (Molecular Property Prediction) 和药物-药物相互作用预测 (Drug-Drug Interaction Prediction) 三大核心领域,并在此基础上进一步细化分类,使得对GNNs在不同任务中的具体应用和创新点的理解更为系统和深入。例如,在分子生成中区分了无约束、有约束和基于蛋白质-配体的方法。
4. 方法论
本章节将详细拆解本综述论文对GNN在药物发现中三大核心应用领域(分子生成、分子属性预测、药物-药物相互作用预测)所总结的技术方案。由于这是一篇综述而非提出新方法的论文,其“方法论”部分主要在于对现有GNN模型的分类、核心思想和技术特点的阐述。
4.1. 分子表示 (Representations of Molecules)
在深入探讨GNN模型之前,论文首先强调了分子表示的重要性。分子可以被表示为:
- 指纹 (Fingerprints):二进制的指纹 (binary fingerprints) 代表分子的子结构或拓扑结构,允许高效的计算和数据库搜索 [43]。然而,它们难以编码分子的全局特征,如大小和形状。
- SMILES 字符串 (Simplified Molecular Input Line Entry System, SMILES):自发明以来 [44],
SMILES一直是描述化学结构最广泛使用的线性表示。虽然优于其他一维表示方案,但其内部结构在用于自然语言处理 (NLP) 算法时存在固有的局限性。 - 2D-/3D-图 (2D-/3D-graphs):
-
2D图: 节点代表原子 (atoms),边代表化学键 (chemical bonds)。
-
3D图: 除了2D图信息外,还包含3D坐标 (3D coordinates),提供详细的空间信息。节点和边都可以具有独特的属性或特征。
-
优势: 2D图表示更简单,但3D表示能更好地捕捉基于原子间距离和角度的相互作用 [45, 46],从而提供更全面的视图,这对于建模分子动力学和结合至关重要。
下图(原文 Figure 1)展示了计算药物发现模型中常用的各种分子表示:
该图像是示意图,展示了在计算药物发现模型中常用的三种分子表示方法:1D SMILES 字符串、2D 分子图和 3D 分子图。1D表示的SMILE字符串为 CN1C=NC2=C1C(=O)N(C)C(=O)N2C。
-
Figure 1: Various molecular representations commonly employed in computational drug discovery models: 1D SMILES strings, 2D molecular graphs, and 3D molecular graphs.
GNNs 提供了一个处理和分析分子数据的自然框架,因为分子可以直观地表示为图。这种协同作用推动了GNN在分子属性和相互作用预测领域的前沿创新。GNN允许节点通过边聚合信息,创建全面的图表示,并能处理分类和回归任务 [47, 48, 49]。因此,许多GNN创新侧重于图表示学习,而非特定的预测任务。
4.2. 分子生成 (Molecule Generation)
论文将基于GNN的分子生成方法广义地分为三类,如下图(原文 Figure 2)所示:无约束生成 (unconstrained generation)、有特定子结构约束的生成 (constrained generation with targeted substructures) 和 基于配体-蛋白质的生成 (ligand-protein-based generation)。
该图像是示意图,展示了三种不同的分子生成过程框架。首先,通过分子输入,GNN 模块生成分子子结构的分布概率;其次,通过特定子结构的约束生成结果;最后,基于配体-蛋白质的生成方法确定结合位点并生成结合分子。
Figure 2: The general framework of three different types of molecule generation processes. Molecular graphs and protein-ligand complexes are fed into GNN backbone models, which output the probability distribution of molecular substructures to be sampled, based on which the models select substructures and assemble the resulting molecules.
4.2.1. 无约束生成 (Unconstrained Generation)
这类方法旨在生成结构有效且化学上合理的分子,其多样性由训练数据分布指导,不施加额外的分子子结构或化学属性约束。主要目标是生成与已知药物和候选药物(即已知训练数据)相似但具有高多样性的化合物。
-
GraphINVENT [56]: 这是早期探索无约束分子图生成的方法之一。它利用门控GNN (gated GNNs) 和注意力GNN (attention-based GNNs) 等不同的GNN架构,从训练分子中学习“动作”的概率分布。这些“动作”可能包括添加一个键或一个原子。模型随后一次采样一个动作,直到达到“终止生成”动作,从而逐步构建一个分子。这种迭代采样策略是此类模型 [57, 58, 59, 60] 的代表。
-
ConfVAE [61]: 该模型整合了2D分子图和3D构象信息,确保了旋转不变性 (rotational invariance) 和转换不变性 (translational invariance)。它采用条件变分自编码器 (Conditional Variational Autoencoder, CVAE) 框架,使用消息传递神经网络 (Message Passing Neural Networks, MPNNs) 进行图编码,从而实现端到端的条件分子生成。
-
VonMisesNet [7]: 该方法采取了不同的路径,专注于捕获分子中扭转角 (torsional angles) 的真实分布。它引入了一种新颖的GNN架构,从Von Mises分布 (Von Mises distribution) 中采样扭转角,这种分布能够更好地反映分子几何的物理约束。此外,
VonMisesNet解决了原子手性反转 (chirality inversion) 等关键挑战,并支持具有大量可旋转键的分子,增强了其输出的化学准确性和多样性。共同趋势: 无约束生成模型越来越多地与
VAE和GAN等生成架构结合,旨在更好地近似真实数据分布。然而,随着降低候选分子筛选成本和提高生成分子质量的需求增长,研究正逐渐转向结合明确子结构和目标属性约束的生成模型。
4.2.2. 有特定子结构约束的生成 (Constrained Generation with Specific Substructures)
在药物开发中,生成具有特定子结构和目标化学性质的分子通常比无约束分子生成更受青睐。
-
MoLeR [8]: 由
Maziarz et al.提出,展示了执行约束和无约束分子生成的能力。它在一个编码器-解码器 (encoder-decoder) 框架中利用基序 (motifs)(常见的化学子结构)。通过结合GNN和多层感知机 (Multilayer Perceptron, MLP) 模块,MoLeR逐个基序地精心构建分子,顺序选择基序或原子,确定连接点,并分配键类型,每个步骤都针对分子的有效性和功能性进行了优化。 -
GEAM [10]: 基于
MoLeR等基于片段方法的成功,GEAM引入了图信息瓶颈 (Graph Information Bottleneck, GIB) 原理,以识别与特定药物特性最相关的子结构。GEAM首先提取有意义子结构的词汇表,然后从该学习到的词汇表中组装分子。使用软演员-评论家 (soft actor-critic, SAC) 强化学习算法识别高质量样本,然后通过遗传算法 (genetic algorithm, GA) 突变这些样本,以生成化学有效并符合所需药物特性的最终分子。 -
MiCam [9]: 提出了构建化学上“合理”基序词汇表的新策略。
MiCam解决了先前基于片段方法在识别分子生成合适基序方面的局限性。其词汇表构建包括两个阶段:在合并操作学习 (merging-operation learning) 阶段,模型迭代合并在分子中发现的最常见原子模式以形成初步基序集;在基序词汇表构建 (motif-vocabulary construction) 阶段,模型在学习到的连接点断开片段,并用特殊标记标记这些连接位点,以保留分子组装所需的信息。这种方法使MiCam能够通过添加已知基序或根据连接历史扩展部分生成的结构来灵活地生成分子。共同趋势: 这些模型都采用了将子结构作为模块化构建块的共同策略,将生成目标与训练损失对齐,并以逐步方式构建分子。其中,
GEAM和MiCam在整合对子结构和化学性质的特定约束方面提供了更大的灵活性,因为它们允许在生成过程中使用原子和基序。相比之下,MoLeR主要依赖于从预定义的支架开始。
4.2.3. 基于配体-蛋白质的生成 (Protein-Ligand based Generation)
除了仅基于单个化合物的训练数据生成分子外,研究人员还开发了专注于蛋白质结合位点及其相关配体 (ligands) 的模型,解决了药物发现中的新挑战。最近基于GNN的分子生成进展使得能够创建专门为靶蛋白定制的分子。这些模型采用GNN模块来保持结构一致性(确保对翻转、平移和旋转的鲁棒性),同时处理蛋白质结合位点的属性和3D坐标。
-
AR model [11]: 该模型结合了多层感知机 (MLP) 模块和辅助网络 (auxiliary network) 来指导原子生成和键合决策。
-
GraphBP [12]: 利用球形坐标 (spherical coordinates) 和
MLP进行原子逐个的序列构建。 -
Pocket2Mol [13]: 通过条件3D坐标采样实现了更高的计算效率。
-
FLAG [14]: 整合了辅助
MLP分类器和预测器来优化原子定位和基序连接。 -
SQUID [15]: 是第一个旨在解决根据所需3D结合构象生成分子挑战的模型。给定一个目标3D形状,
SQUID使用GNN层将输入构象(被视为无序点云)编码为隐藏特征,然后迭代生成3D分子片段,以逐片段地重建所需形状。共同趋势: 这些模型都采用了各种技术来优先考虑上下文表示和对刚性转换的弹性。它们代表了定制分子以适应特定蛋白质靶点方面的重要进展,这是药物发现中的一个关键进步。
4.3. 分子属性和相互作用预测 (Prediction of Molecular Properties and Interactions)
本节回顾了基于GNN的分子属性和相互作用预测方法。下图(原文 Figure 3)展示了GNN在药物属性和相互作用预测的通用框架。
该图像是GNN基础的药物属性和相互作用预测的示意图。图中展示了三种常见输入类型:2D分子图、3D分子图和多分子相互作用图。输入经过GNN模型进行处理后,采用少量学习或自监督学习策略来解决标签稀缺问题,最终实现属性预测。
Figure 3: The general framework for GNN-based drug property and interaction prediction. Three common types of inputs are used individually or jointly: 2D molecule graphs, 3D molecule graphs, multi-molecule interaction graphs such as protein-ligand complexes. Additional auxiliary information can also be incorporated by some approaches. These inputs are then fed into GNN models, which aggregate information from neighboring nodes and produced final latent node representations.To alleviate the label sparsiy issue, various learning strategies, such as few-shot learning or self-supervised learning, are widely adopted.
4.3.1. 基于2D图的属性预测和分子表示学习 (Property Prediction and Molecule Representation Learning Based on 2D Graphs)
学习有效的分子表示是属性预测的基础步骤。从2D图进行属性预测的许多创新在于分子表示学习的策略。
- 早期研究的MPNNs [62]: 当分子表示为2D图时,早期研究通常采用消息传递神经网络 (MPNNs),其中节点(原子)与其邻居节点交换消息,聚合这些信息以更新各自的状态。
- 预训练 (Pre-training):为缓解标签稀缺问题而广泛采用。
- MGSSL [63]: 引入了基于基序 (motif-based) 的图自监督学习 (self-supervised learning) 框架,利用子图中丰富的、在节点级别常被忽视的信息。
- MoCL [18]: 利用知识感知对比学习 (knowledge-aware contrastive learning),并结合局部和全局领域知识。局部领域知识确保了数据增强过程中的语义不变性,而全局领域知识则在学习过程中融入了结构相似性。
- KCL [64]: 将对比学习 (contrastive learning) 与领域特定知识图谱 (domain-specific knowledge graphs) 相结合,提供定制化的数据增强。
- MCHNN [65]: 应用多视图对比学习 (multi-view contrastive learning) 和任务特定数据增强,增强分子表示的表达能力。
- HiMol [66]: 提出分层GNN (hierarchical GNN),捕获节点、基序和图级别表示。
- 少样本学习 (Few-shot Learning):旨在用少量标记数据预测分子属性。
- HSLRG [19]: 探索全局和局部结构语义:全局信息通过从图核 (graph kernels) 构建的分子关系图捕获,而局部信息通过转换不变表示 (transformation-invariant representations) 学习。
- MHNfs [68]: 采用上下文模块,从大量参考分子池中检索和丰富分子表示。
- GS-Meta [69]: 将少样本学习 (few-shot learning) 扩展到同时处理多个属性或标签。
- PACIA [20]: 引入超网络 (hypernetworks) 生成自适应参数以调节GNN编码器,在保持灵活性的同时减少过拟合。
- Geo-DEG [70]: 采用分层分子文法 (hierarchical molecular grammar) 创建分子图,使用生产路径 (production paths) 作为结构相似性的信息先验。
- 整合辅助信息 (Incorporating Auxiliary Information):
- PhysChem [22]: 结合物理和化学属性(如量子力学属性)改进分子表示。
- O-GNN [23]: 将环先验 (ring priors) 整合到模型中,利用环结构在决定分子属性方面的重要性。
- MoleOOD [71]: 引入不变子结构学习 (invariant substructure learning),以更好地处理跨环境的分布偏移 (distribution shifts)。
- DVMP [73]: 联合利用一维序列编码(如
SMILES字符串)和2D图,通过GNN编码分子图,通过Transformer编码SMILES序列,使用双视图一致性损失 (dual-view consistency loss) 保持语义连贯性。
4.3.2. 基于3D图的属性预测 (Property Prediction based on 3D-graphs)
随着大规模3D分子数据集的增加,基于3D分子图的属性预测取得了显著进展。
- SphereNet [45]: 引入了一种创新的3D分子表示学习方法,提出了一种球形消息传递 (spherical message-passing) 方案,明确整合了3D空间信息。
- MolKGNN [74]: 在定量结构-活性关系 (Quantitative Structure-Activity Relationship, QSAR) 建模背景下,通过使用具有可学习分子核 (molecular kernels) 的分子图卷积,增强了3D分子表示学习,有效捕获化学模式。重要的是,
MolKGNN整合了分子手性 (molecular chirality),这是之前模型常忽略的关键方面。 - GraphMVP [75]: 开发了一个由鉴别性3D几何信息丰富的2D图编码器。它采用了一种自监督预训练策略,利用2D拓扑和3D构象之间的对应性和一致性。
- 3D-Informax [30]: 提出了一种迁移学习框架,在同时包含2D和3D数据的分子上进行预训练,然后将学习到的知识迁移到仅有2D结构的分子上。
- UnifiedPML [76]: 通过在其预训练方案中联合考虑2D和3D信息,进一步改进了表示学习。该框架采用了三个互补任务:重建掩蔽原子和坐标、基于2D图生成3D构象,以及基于3D构象生成2D图。
- GeomGCL [77]: 采用双通道消息传递神经网络 (dual-channel message-passing neural network),有效捕获分子图的拓扑和几何特征。
- MoleculeSDE [78]: 通过将2D和3D分子表示视为多模态预训练框架中的独立模态,统一了它们。
- 3D-PGT [79]: 提出了一种在3D分子图上进行生成式预训练 (generative pre-training) 的方法,随后在缺乏3D结构数据的分子上进行微调。它采用了一种基于三个几何描述符(键长、键角和二面角)的多任务学习 (multi-task learning) 策略,并使用总分子能量作为优化目标。
4.3.3. 相互作用预测 (Interaction Prediction)
除了属性预测,相互作用预测 (interaction prediction) 也得到了广泛探索,特别是药物-靶点 (drug-target) 或药物-疾病 (drug-disease) 相互作用预测。论文排除了那些主要依赖于药物-靶点相互作用网络作为输入的方法(如NeurTN [17]),而专注于依赖药物结构信息作为分子图表示的方法。
药物(或化学化合物)与其蛋白质靶点之间的相互作用是药物发现中最关键且研究最广泛的关系。计算上,给定两个分子的2D或3D结构,相互作用可以在三个层面进行研究:1) 相互作用存在性(是否发生相互作用),2) 结合亲和力(一个数值,通常反映结合自由能),以及3) 对接 (docking) 或蛋白质-配体结合动力学。
- 基于2D结构的药物-靶点相互作用预测:
- CGIB [28]: 主要利用配对图的子结构信息预测相互作用。
- MGraphDTA [27]: 基于2D化合物图和蛋白质序列预测药物-靶点结合亲和力。它利用深度GNN捕获局部和全局分子结构,并使用多尺度卷积神经网络 (multiscale CNN) 从蛋白质序列中提取特征。
- 基于3D信息的相互作用预测 (结合亲和力预测和对接): 鉴于利用3D分子几何结构通常能观察到更优异的性能,越来越多的方法将3D信息整合到相互作用预测中,特别是用于结合亲和力预测和对接。
- 结合亲和力预测 (Binding Affinity Prediction): 输入通常是蛋白质-配体复合物,目标是预测一个反映相互作用强度的结合分数。
- Jones et al. [24] (SG-CNN): 提出一个融合模型,结合互补分子表示。其方法利用3D
CNN捕获局部空间特征,并使用空间GNN (spatial GNN) 编码全局结构信息,将两者整合到一个融合架构中。 - IGN framework [80]: 使用三个不同的分子图对蛋白质-配体复合物进行建模,每个图都整合了3D结构和化学性质。
- MP-GNN [81]: 引入多物理分子图表示 (multiphysical molecular graph representation),系统捕获跨不同原子类型和物理尺度的广泛分子相互作用。
- GraphscoreDTA [82]: 通过整合比特传输信息机制 (bitransport information mechanism) 和
Vina距离优化项,更好地捕获蛋白质和配体之间的互信息。 - NERE [25]: 提出一种无监督的结合能量预测方法,将其视为一个生成式建模 (generative modeling) 任务。其方法基于神经欧拉旋转方程 (Neural Euler's Rotation Equations, NERE),通过建模配体和蛋白质原子之间的力和扭矩来预测分子旋转。
- Jones et al. [24] (SG-CNN): 提出一个融合模型,结合互补分子表示。其方法利用3D
- 对接 (Docking):
- E3Bind [26]: 引入一个端到端 (end-to-end) 模型,直接生成配体坐标,从而消除了传统采样程序和坐标重建的需要。
- FABind [83]: 将口袋预测 (pocket prediction) 和对接结合在一个集成模型中,用于快速准确的结合姿态预测。
- NeuralMD [84]: 提供蛋白质-配体结合动力学的细粒度模拟 (fine-grained simulation)。该模型包括
BindingNet(遵循群对称性 (group symmetry) 并捕获多级相互作用)和神经常微分方程 (neural ordinary differential equation, ODE) 求解器(基于牛顿力学模拟原子的物理轨迹)。 - EquiPocket [85]: 专注于预测给定3D蛋白质结构的配体结合位点。它引入了三个新颖的模块:局部几何建模模块、全局结构模块和表面消息传递模块。
- 结合亲和力预测 (Binding Affinity Prediction): 输入通常是蛋白质-配体复合物,目标是预测一个反映相互作用强度的结合分数。
4.4. 药物-药物相互作用预测 (Prediction of Drug-Drug Interactions)
药物-药物相互作用预测 (DDI prediction) 是计算药物发现中的关键一步,尤其在药物组合疗法 [86, 87, 88] 中,多种药物常用于治疗癌症 [89, 90, 91] 等复杂疾病。然而,多药治疗 (polypharmacy) 增加了不良DDI的风险 [92, 93, 94]。 下图(原文 Figure 4)展示了基于GNN模型的DDI预测通用过程。
该图像是一个示意图,展示了基于图神经网络(GNN)模型的药物相互作用(DDI)预测的总体过程。输入包括DDI事件图和药物分子结构,模型通过GNN模块将输入映射到潜在空间,以进行DDI预测,并可结合患者病史生成个体化的药物安全推荐。
Figure 4: The general process of DDI prediction based on GNN models. Possible inputs for the general DDI prediction (the one inside the small rectangle) include DDI event graphs, and drug molecular structures, either individually or jointly. Additional auxiliary data can be incorporated into the models. GNN blocks map the inputs into the latent space, which wil be utilized or DDI prediction. By including patient medical history, the model can be extended to perform patient-specific drug safety recommendations.
4.4.1. 输入数据类型 (Types of Input Data)
- DDI 事件图 (DDI event graphs): 节点代表药物,边编码它们之间的相互作用。边可以标记以指示相互作用类型(例如,协同或拮抗效应)。
- 药物分子结构 (Drug molecular structures): 通常以分子图表示,节点表示原子,边对应化学键。节点和边通常会富集额外的特征或属性。
- 辅助信息 (Auxiliary information): 例如药物相似性矩阵。
- 融合输入: 越来越多的方法旨在在一个统一的学习框架中整合这两种图类型以及辅助信息。
4.4.2. 问题公式化 (Problem Formulations)
- 早期模型: 主要关注药物-药物相互作用图 (drug-drug interaction graphs) 结合简单的节点级药物特征。各种GNN架构用于从这些图中学习药物的低维表示 [97, 98]。
- GCNMK [36]: 将DDI图分解为两个独立的图(一个表示药物活性增加,另一个表示药物活性减少),并应用两个GNN从这些差异化视图中学习药物表示。
- 整合药物分子图: 通过整合药物分子图,扩展了输入空间,从而能够结合结构和关系视角,提高模型性能。
- MRCGNN [39]: 采用GNN处理关系型DDI图,同时通过另一个GNN处理其分子图,提取分子级信息,丰富每个药物的特征表示。这种多模态 (multimodal) 方法使模型能够同时捕获化学和相互作用级别知识。
- 预测任务设计:
- 二分类问题 (Binary classification): 仅关注预测相互作用的存在 [98]。
- 多标签分类问题 (Multi-label classification): 预测相互作用的存在性以及从预定义标签集中预测具体相互作用类型 [99, 100, 101, 102]。
- 细粒度预测: 区分不良DDI预测 (adverse DDI prediction) [103, 104, 105] 和药物组合或协同预测 (drug combination or synergy prediction) [106, 105, 107, 108]。
4.4.3. 模型架构的进展 (Advancements in Model Structure)
除了问题公式化,研究还致力于改进模型架构,以更有效地聚合来自不同数据模态和药物表示的信息。
- 特征融合策略:
- 简单拼接 (Simple concatenation): 早期模型(如
MDNN[37]、GCNMK[36]、MRCGNN[39] 和DeepDDS[107])通过简单拼接融合来自各模态或表示的特征。 - 注意力机制 (Attention mechanisms): 较新的模型引入注意力机制,通过交叉注意力 (cross-attention) 融合来自不同模态或同一模态内不同药物的潜在特征。
- SSF-DDI [109]: 利用药物的1D
SMILES序列和2D图结构两种表示,使用独立的架构(CNN用于SMILES,GNN用于分子图),并通过交叉注意力机制整合两个模型生成的潜在特征。 - SRR-DDI [110]: 构建药物对的2D分子图表示,并应用交叉注意力融合学习到的两种药物的潜在特征。
- SSF-DDI [109]: 利用药物的1D
- 多模态架构 (Multi-modal architecture):
MD-Syn[111] 提出了一种包含一维和二维特征嵌入模块的多模态架构,允许整合SMILES序列、细胞系信息、药物分子图和蛋白质-蛋白质相互作用 (Protein-Protein Interaction, PPI) 网络。MD-Syn引入了图转换池化模块 (graph-trans pooling module),使用带有多头自注意力 (multi-head self-attention) 的Transformer编码器层来处理PPI网络和药物图的拼接潜在表示。
- 简单拼接 (Simple concatenation): 早期模型(如
- 多级特征聚合 (Multi-level feature aggregation):
- DAS-DDI [112]: 引入加权层级聚合 (weighted layer-wise aggregation),其中每个GNN层对最终嵌入的贡献不同。这使得不同粒度的分子子结构能够为最终药物表示提供信息,从而增强模型捕获复杂药物间关系的表达能力和鲁棒性。
4.4.4. 个性化药物组合推荐 (Personalized Drug Combination Recommendation)
一类独特的研究侧重于通过整合患者特定的医疗历史进行个性化DDI预测 (personalized DDI prediction)。
- SafeDrug [40]: 使用GNNs和
RNNs将分子特征与患者治疗历史对齐,为候选药物组合生成兼容性分数。 - MoleRec [41]: 利用注意力机制整合患者记录和药物表示,用于安全处方生成。
- Carmen [42]: 解决了GNNs对结构相似分子生成几乎相同嵌入的问题,引入了上下文感知GNN (context-aware GNN),在原子级消息聚合过程中整合了用药背景。这种架构根据治疗相关性生成独特的嵌入,为个性化药物组合推荐提供了更精细的策略。
5. 实验设置
本综述论文本身不进行实验,但其“基准数据库”一节(原文第6节)详细列举了药物发现领域常用的数据集。本节将主要基于此节内容进行总结。
5.1. 数据集
论文将基准数据集分为四大类:综合数据库 (Comprehensive Databases)、临床数据库 (Clinical Databases)、结构信息数据库 (Structural Information Databases) 和 分子相互作用数据库 (Molecular Interaction Databases)。分子相互作用数据库又细分为蛋白质-配体结合 (Protein-Ligand Binding) 和 药物-药物相互作用 (Drug-Drug Interaction)。
以下是原文 Table 2 的结果:
| Task | Dataset | Description |
| Comprehensive Databases | DrugBank [113]PubChem [114]MoleculeNet [21] | Vastcompoundlirary nnotated withhigh-hroughput screeningbioativites andcomprehensiv chemical properes.Aggregated benchmark collection covering diversemolecular properties and activities for algorithm evaluation. |
| Clinical Databases | MIMIC-III [115]MIMIC-IV [116]UK Biobank [117] | Detailed, de-identified ICU patient records including vitals, labs, and clinical interventions over time..Population-scale cohort with deep phenotypic, genotypic, and long-term health outcome data |
| Structural Information Databases | ZINC [118]GEOM [119]MISATO [120]CrossDocked [121] | Vendor-curated set of purchasable compounds each with experimentally determined 3D conformers.High-precision quantum-mechanically optimized 3D molecular geometries for conformational analysis.Multigrained collection of proteinligand complexes annotated with binding-site details.Large-scale docking dataset providing multiple poses and affinity estimates for proteinligand pairs. |
| Molecular Interaction DatabasesProtein-Ligand Binding | ChEMBL [122]Metz Dataset [123]KIBA Dataset [124]Davis Dataset [125]PDBbind Dataset [126] | Expert-curated database of small molecules linked to experimentally measured target binding afinities.Collection of kinase inhibitor experiments reporting inhibition constants (Ki) across targets.Unified resource converting heterogeneous kinase-inhibitor bioactivities into standardized KIBA scores.Comprehensive mapping of kinaseinhibitor dissociation constants (Ka) over multiple enzymes.Annotated set of biomolecular complexes with experimentally determined binding affinities and structures. |
| Molecular Interaction DatabasesDrugDrug Interaction | TwoSIDES [127]Deng's Dataset [128]ChChMiner [129]DrugCombDB [130]O'Neil's dataset [131]AstraZeneca's dataset [31] | Pharmacovigilance resource of adverse drugdrug event pairs mined from FAERS reporting data.Multimodal catalog of 570 approved drugs' interactions stratified by 65 mechanistic event types.A BioSNAP sub-dataset of 1,514 FDA-approved drugs and 48,514 DDI.D.A dataset that features 910 combinations of 118 drugs across 85 cell lines, with 797 pairs showing high synergy |
5.1.1. 综合数据库 (Comprehensive Databases)
这些数据库包含药物的广泛分子和生化信息(SMILES、2D和/或3D图)、适应症和靶点信息,支持广泛的应用。
- DrugBank [113]: 一个全面、免费访问的在线数据库,包含药物和药物靶点的可靠信息。最新版本有超过1.7万个药物条目(包括
FDA批准的小分子药物、生物技术药物、营养品和实验药物),并提供约6000个唯一蛋白质的序列、结构和通路信息。 - PubChem [114]:
NCBI维护的综合化学分子及其生物活性数据库,包含PubChem Compound(超过1亿个化合物)、PubChem Substance和PubChem BioAssay (PCBA)(约167万个生物测定实验的生物活性结果)。 - MoleculeNet [21]: 机器学习分子属性预测的基准平台,整合了来自其他主要来源的多种数据集,涵盖量子力学、物理化学、生物物理学和生理学四个方面的性质。
- 量子力学 (Quantum Mechanics):
QM7、QM8、QM9提供量子力学性质和3D分子几何结构。 - 物理化学 (Physical Chemistry):
ESOL(水溶性)、FreeSolv(水合自由能)、Lipophilicity(脂溶性)。 - 生物物理学 (Biophysics):
PCBA(活性谱)、MUV(虚拟筛选)、HIV(HIV复制抑制)、BACE(BACE-1抑制剂)。 - 生理学 (Physiology):
BBBP(血脑屏障渗透)、Tox21(毒性数据)、ToxCast(生物活性测量)、SIDER(不良药物反应)、ClinTox(毒性问题导致的临床试验失败药物)。
- 量子力学 (Quantum Mechanics):
5.1.2. 临床数据库 (Clinical Databases)
这些数据库包含患者的临床和健康信息,可用于疾病预测、治疗结果建模、药物推荐和精准医疗。
- MIMIC-III [115] 和 MIMIC-IV [116]: 由
MIT计算生理学实验室开发的免费、大规模临床数据库。MIMIC-III: 包含2001年至2012年间在Beth Israel Deaconess Medical Center (BIDMC)重症监护室住院的4万多名患者的去身份化健康数据。MIMIC-IV: 包含2008年至2019年间BIDMC18万多名住院患者和5万多名ICU住院患者的详细去身份化临床数据。
- UK Biobank [117]: 一个大规模生物医学数据库和研究资源,包含英国约50万名志愿参与者的深入遗传、生活方式和健康信息。
5.1.3. 结构信息数据库 (Structural Information Databases)
这些数据集提供孤立配体和/或蛋白质-配体复合物的3D结构和/或构象信息。
- ZINC [118]: 精心策划的存储库,包含超过2.3亿个可商购化合物的3D结构、理化性质和供应商元数据。
- GEOM [119]: 包含约3000万个构象异构体(代表45万个类药分子)的量子力学优化3D几何结构。
- MISATO [120]: 面向机器学习的数据集,包含约2万个实验解析的蛋白质-配体复合物,经过结构精修和量子力学优化,并包括约1.7万个复合物的显式溶剂分子动力学 (explicit-solvent molecular dynamics, MD) 模拟数据。
- CrossDocked [121]: 从蛋白质数据库 (Protein Data Bank, PDB) [132] 中整理出18,450个非冗余蛋白质-配体复合物,通过系统交叉对接 (cross-docking) 产生超过250万个结合姿态。
5.1.4. 分子相互作用数据库 (Molecular Interaction Databases)
这些数据库记录了不同分子之间的关系,分为蛋白质-配体结合和药物-药物相互作用。
5.1.4.1. 蛋白质-配体结合数据库 (Protein-Ligand Binding Databases)
- ChEMBL [122]: 人工策划的数据库,专注于具有类药性质的生物活性分子,主要使用从科学文献中提取的实验生物活性数据评估小分子配体对其靶点的结合亲和力。
- Metz Dataset [123]: 专注于激酶抑制活性,包含超过15万个激酶抑制测量。
- KIBA Dataset [124]: 通过系统评估激酶抑制剂的选择性,引入了一种统一的亲和力指标——“KIBA分数”,包含52,498个化合物和467个激酶靶点,共246,088个KIBA分数。
- Davis Dataset [125]: 提供了覆盖人类催化激酶组80%以上的广泛靶点面板,包含72种激酶抑制剂对442种人类激酶的3万多个高精度测量。
- PDBbind Dataset [126]: 收集了
PDB中具有高分辨率3D结构的生物分子复合物的实验结合数据,提供能量和结构信息之间的联系。
5.1.4.2. 药物-药物相互作用数据库 (Drug-Drug Interaction Databases)
- TwoSIDES [127]: 多药副作用数据库,通过挖掘美国食品药品监督管理局 (
FDA) 不良事件报告系统 (FAERS) [133] 构建,包含868,221个统计学显著的关联,涉及59,220对药物和1,301个不良事件。 - Deng's Dataset [128]: 包含从
DrugBank条目中通过NLP算法提取的572种已批准药物之间的74,528个不同DDI,每个相互作用记录为四元组(药物A、药物B、机制、作用)。 - ChChMiner [129]:
Stanford Biomedical Network Dataset Collection (BioSNAP)的子数据集,包含1514种FDA批准药物之间的48,514个DDI。 - DrugCombDB [130]: 整合了来自各种数据源的药物组合数据,包含448,555个药物组合,涉及2887种独特药物和124个人类癌细胞系。
- O'Neil's Dataset [131]: 包含38种实验性或已批准药物在39种不同癌细胞系中测试的583个药物组合。
- AstraZeneca's Dataset [31]: 包含118种药物在85种分子特征癌细胞系中的910个组合的11,576个实验。
5.2. 评估指标
由于这是一篇综述论文,它并未执行具体的实验,因此没有明确列出其自身实验所使用的评估指标。然而,根据论文讨论的分子生成 (molecule generation)、分子属性预测 (molecular property prediction) 和药物-药物相互作用预测 (drug-drug interaction prediction) 这三类任务,可以推断出通常用于评估这些任务模型性能的指标。
5.2.1. 分子生成 (Molecule Generation)
对于分子生成任务,评估通常关注以下几个方面:
- 概念定义: 评估生成分子在化学上的有效性、新颖性、多样性以及对特定属性的匹配程度。
- 具体衡量:
- 有效性 (Validity): 衡量生成分子在化学上是否合理且可合成。通常通过检查分子结构是否符合化学价键规则,或使用专业的化学工具包(如
RDKit)进行验证。 - 多样性 (Diversity): 衡量生成分子在结构上的不同程度。高多样性意味着模型能够探索更广阔的化学空间。通常通过计算生成分子集合内任意两分子之间的Tanimoto相似度 (Tanimoto similarity),并取平均值来衡量。
- 新颖性 (Novelty): 衡量生成分子是否是训练数据集中未曾出现过的新结构。通常通过计算生成分子与训练数据集中所有分子之间的最大Tanimoto相似度来衡量。
- 属性目标达成度 (Property Goal Attainment): 对于有约束的生成任务,评估生成分子是否成功满足预设的化学或生物学属性要求(例如,生成具有高结合亲和力或特定子结构的分子)。
- 有效性 (Validity): 衡量生成分子在化学上是否合理且可合成。通常通过检查分子结构是否符合化学价键规则,或使用专业的化学工具包(如
5.2.2. 分子属性预测 (Molecular Property Prediction)
根据预测任务是分类 (classification) 还是回归 (regression),会使用不同的评估指标。
- 概念定义: 衡量模型预测分子分类标签(如毒性有/无)或回归值(如溶解度数值)的准确性和可靠性。
- 数学公式与符号解释:
- 分类任务 (Classification Tasks):
- 受试者工作特征曲线下面积 (Receiver Operating Characteristic - Area Under the Curve, ROC-AUC):
- 概念定义:
ROC-AUC衡量分类模型在所有可能分类阈值下区分正类和负类的能力。它表示模型将随机选择的正样本的得分高于随机选择的负样本的概率。 - 数学公式:
AUC是ROC曲线下方的面积。ROC曲线绘制了在不同分类阈值下真阳性率 (True Positive Rate, TPR) 对 假阳性率 (False Positive Rate, FPR) 的关系。 - 符号解释:
- (True Positive): 真实为正,预测为正。
- (False Negative): 真实为正,预测为负。
- (False Positive): 真实为负,预测为正。
- (True Negative): 真实为负,预测为负。
- 概念定义:
- 准确率 (Accuracy):
- 概念定义: 预测正确的样本数占总样本数的比例。
- 数学公式:
- 符号解释: 同上。
- 受试者工作特征曲线下面积 (Receiver Operating Characteristic - Area Under the Curve, ROC-AUC):
- 回归任务 (Regression Tasks):
- 均方根误差 (Root Mean Squared Error, RMSE):
- 概念定义: 衡量模型预测值与真实值之间差异的平方和的均值的平方根。
RMSE对异常值比较敏感,单位与预测值相同。 - 数学公式:
- 符号解释:
- : 样本总数。
- : 第 个样本的真实值。
- : 第 个样本的预测值。
- 概念定义: 衡量模型预测值与真实值之间差异的平方和的均值的平方根。
- 平均绝对误差 (Mean Absolute Error, MAE):
- 概念定义: 衡量模型预测值与真实值之间绝对差异的平均值。
MAE对异常值不如RMSE敏感,单位与预测值相同。 - 数学公式:
- 符号解释: 同上。
- 概念定义: 衡量模型预测值与真实值之间绝对差异的平均值。
- 均方根误差 (Root Mean Squared Error, RMSE):
- 分类任务 (Classification Tasks):
5.2.3. 药物-药物相互作用预测 (Drug-Drug Interaction Prediction)
DDI预测可以被公式化为二分类(是否存在相互作用)、多分类(相互作用的类型)或回归(相互作用的强度)任务。因此,其评估指标与分子属性预测类似。
- 概念定义: 衡量模型在预测药物对之间相互作用的存在性、类型或强度方面的性能。
- 数学公式与符号解释: 通常采用
ROC-AUC、Accuracy等进行分类任务评估;采用RMSE、MAE等进行回归任务评估。对于多分类任务,还可能使用F1分数 (F1-score)、精确率 (Precision) 和召回率 (Recall) 等。
5.3. 对比基线
综述论文本身并不进行实验,因此没有设定具体的“对比基线”模型。相反,它通过回顾和比较不同时期、不同GNN架构或不同策略(如2D vs. 3D、预训练 vs. 无预训练、多模态 vs. 单模态)在特定任务上的表现,来展现这些方法的相对优劣和演进。论文强调,GNNs相较于传统机器学习方法(如随机森林、支持向量机)在处理分子图数据方面的固有优势,以及在深度学习范式内部,不同GNN变体和集成策略如何逐步提升性能。
例如,在分子生成中,迭代生成方法与一次性生成方法进行了比较;在分子属性预测中,早期MPNN与引入自监督学习 (self-supervised learning) 或少样本学习 (few-shot learning) 的GNNs进行了比较;在DDI预测中,基于传统机器学习的方法与基于GNN的方法,以及不同特征融合策略的GNN模型(如简单拼接与注意力机制)进行了比较。这些比较共同构成了药物发现领域GNN技术发展的“基线”和进步。
6. 实验结果与分析
本综述论文不包含具体的实验结果,而是通过总结和分析自2021年以来GNN在药物发现三大核心领域(分子生成、分子属性预测、药物-药物相互作用预测)的最新研究,展示了GNN的强大能力、发展趋势和所面临的挑战。本节将通过转录并分析论文中提供的表格,来呈现这些“结果”和趋势。
6.1. 核心结果分析
论文通过对大量最新研究的归纳,得出了GNN在药物发现领域的核心成果和发展趋势:
-
分子生成方面:GNNs在设计具有期望性质的新化合物方面发挥了关键作用。生成策略从无约束生成(追求结构多样性)演进到有约束生成(结合特定子结构或化学性质),再到基于蛋白质结合位点的生成(定制化分子以适应特定靶点),展现出更高的效率和精确性。特别是3D分子图和构象信息的整合,使得生成的分子更具化学真实性和生物相关性。
-
分子属性预测方面:从2D分子图到3D分子图的转变,结合了消息传递机制 (message-passing mechanisms) 和对比学习 (contrastive learning) 技术,显著提高了预测的准确性和鲁棒性。预训练 (pre-training) 和自监督学习 (self-supervised learning) 策略的广泛采用,有效缓解了标签数据稀缺的问题,提升了模型的泛化能力。此外,将领域特定知识 (domain-specific knowledge)(如物理化学性质、环结构先验、分子手性)融入GNN架构,也带来了显著的性能提升。
-
DDI预测方面:GNNs通过整合药物结构信息、DDI事件图和患者临床数据,在DDI预测中取得了显著进展。从简单预测相互作用存在性到预测具体相互作用类型,再到结合患者医疗历史进行个性化药物组合推荐 (personalized drug combination recommendation),GNNs在确保多药治疗安全性和发现协同疗法方面显示出巨大潜力。
共同趋势:
- 预训练和自监督学习的普及: 这些技术已成为提升GNN模型性能的关键,尤其是在缓解有限标签数据问题和提高模型泛化能力方面。
- 领域特定知识的整合: 将化学、生物学等领域的专业知识融入GNN架构,显著提升了模型性能,表明模型正变得更加专业化和生物学信息丰富。
- 多模态融合: 越来越多的研究采用多模态 (multi-modal) 方法,整合2D和3D分子图、
SMILES字符串等多种输入格式,有时还将GNN与其他深度学习架构(如Transformer、CNN)结合,以实现对数据的更全面理解和更强的预测性能。
6.2.1. GNNs在药物发现中的模型及其特点
以下是原文 Table 1 的结果:
| Name | architecture | Task | Datasets | |
| ConfVAE [6] | MPNN | Unconstrained Generation w/ CVAE and uses 2D&3D | GEOM-QM9, GEOM-Drugs |
| VonMisesNet[7] | GCN | Unconstrained Generation w/ Von Mises distribution | NMRShiftDB, GDB-17 |
| MoLeR [8] | GNN | Constrained Generation w/ motifs-based substructures | GuacaMol |
| MiCam [9] | GN | Constrained Generation w/ connection-aware motif vocabulary | QM9, ZINC, GuacaMol |
| GEAM [10] | MPN | Constrained Generation w/ soft-actor critic | ZINC250k |
| AR [11] | GNN | Ligand-Protein Based Generation w/ auxiliary network | CrossDocked |
| GraphBP [12] | GNN | Ligand-Protein Based Generation w/ spherical coordinates | CrossDocked |
| Pocket2Mol [13] | GNN | Ligand-Protein Based Generation w/ auxiliary atom positioning | CrossDocked |
| FLAG [14] | GNN | Ligand-Protein Based Generation w/ auxiliary motif attachment | CrossDocked |
| SQUD 15] | GN | Ligand-Protein Based Generation w/ 3-D shape | MOSES |
| NeurTN [17] | GNN | Property Prediction w/ powerful nonlinear relationships | CTD,DrugBank,UniProt4 |
| PhysChem [22] | MPNN | Property Prediction w/ physical&chemical information | QM7,QM8,QM9,Lipop,FreeSolv,ESOL,COVID19 |
| O-GN [23] | GNN | Property Prediction w/ ring substructures | BBBP,Tox21,ClinTox,HIV,BACE,SIDER,FS-Mol |
| MoMoOD [71] | SAGE | Property Prediction w/ invariant substructure across environments | BACE,BBBP,SIDER,HIV,DrugOOD |
| MGSSL [63] | GNN# | Property Prediction w/ motif-based self-supervised learning | MUV,ClinTox,SIDER,HIV,Tox21,BACE, |
| GIN# | PropertyPrediction/knowledge-awar contrastive lean | ToxCast,BBBP BACE,BBBP,ClinTox,Mutag,SIDER,Tox21,ToxCast | |
| MoCL [18] KCL [64] | MPN | Property Prediction w/domain knowledge contrastive learnin | BBBP,Tox21,ToxCast,SIDER,ClinTox,BACE, |
| MCHNN [65] | GCN # | Property Prediction w/multi-view contrastive learnin | ESOL,FreeSolv PubChem,MDAD,DrugVirus,HMDAD,Disbiome, |
| GNN# | gutMDisorder,Peryton BACE,BBBP,Tox21,ToxCast,SIDER,ClinTox, | ||
| HiMol [66] | Property Prediction /bndaries sel-upervised ea | ESOL,FreeSolv,Lipop,QM7,QM8,QM9 | |
| HSL-RG [19] MNfs [68] | GNN #* GNN* | Property Prediction w/ few-shot learning&self-supervised learning Property Prediction w/ few-shot learning&context module | Tox21,SIDER,MUV,ToxCast FS-Mol |
| GS-Meta [69] | GN * | Property Prediction w/ few-shot learning&simultaneous multiple labels | Tox21,SIDER,MUV,ToxCast,PCBA |
| PACIA [20] | GNN#* | Property Prediction w/ few-shot learning&adaptive parameters | Tox21,SIDER,MUV,ToxCast,FS-Mol |
| Geo-DEG [70] | MPN | Property Prediction w/ hierarchical molecular grammar | CROW,Permeability,FreeSolv,Lipop,HOPV,PTC,ClinTox |
| DVMP [73] | GN | Property Prediction w/pre-train for dual-view 1D&2D molecule | BBBP,Tox21,ClinTox,HIV,BACE,SIDER,ESOL |
| GraphMVP [75] | GNN | Property Prediction w/ pre-train consistency between 2D&3D | BBBP,Tox21,ToxCast,SIDER,MUV,HIV,BACE |
| MPNN | Property Prediction w/ spherical message passing | QM9 | |
| SphereNet [45] | GN Blocks # | Property Prediction w/ pre-train on multi-tasks for 2D&3D | BBBP,Tox21,ClinTox,HIV,BACE,SIDER |
| UnifiedPML [76] | MPN | Property Prediction w/ dual-channel message passing for 2D&3D | ClinTox,SIDER,Tox21,ToxCast,ESOL,FreeSolv,Lipop |
| GeomGCL [77] MolKGNN [74] | GNN | Property Prediction w/ molecular chirality | PubChem |
| 3D-Informax [30] | PN | Property Prediction w/ transfer learning for 2D&3D | QM9,GEOM-Drugs |
| MoleculeSDE [78] | GNN | Property Prediction w/ multi-modal pre-train for 2D&3D | BBBP,Tox21,ToxCast,SIDER,ClinTox,MUV,HIV,BACE |
| 3D-PGT [79] | GNN | Property Prediction w/multi-ask nerative pre-train n 3D | BBBP,Tox21,ToxCast,SIDER,ClinTox,MUV, |
| HIV,BACE,ESOL,Lipop,Malaria,CEP,Davis,KIBA | |||
| MGraphDTA [27] CIB [28] | GNN | Molecular Interactions Prediction w/ super-deep GNN Molecular Interactions Prediction w/ substructure information | Davis,KIBA,Metz,Human,C. elegans,ToxCast |
| SG-CNN [24] | MPNN | Binding Affinity Prediction w/ complementary representations | MNSol,FreeSolv,CompSol,Abraham,CombiSolv |
| IN [80] | GNN GN | BidngAffityPredicion/cheical ioraio | PDBbind |
| MP-GNN [81] | Binding Affinity Prediction w/ multiphysical representations | PDBbind | |
| GN | PDBbind,SARS-CoV BA | ||
| GraphscoreDTA [82] | GNN | Binding Affinity Prediction w/ bitransport information | PDBbind |
| NERE [25] | MPNN # | Binding Affinity Prediction w/ Neural Euler's Rotation Equations | PDBbind |
| E3Bind [26] | GIN | Binding Affinity Prediction w/ docking | DDBbind |
| FABind [83] | GCN | Binding Affinity Prediction w/ pocket prediction and docking | PDBbind |
| NeuralMD [84] | MPNN | Protein-Ligand Binding Dynamics Simulations Ligand Binding Site Prediction w/ geometric and chemical | MISATO |
| EquiPocket [85] | GN | scPDB,PDBbind,COACH420,HOLO4K | |
| MDNN [37] | GNN | DDI Prediction w/ knowledge graphs | DrugBank |
| DPD [9] | GCN | DDI prcon /xton the etor uuetur o DDI n | DrugBank,ZhangDDI |
| GCNK [36] | GCN | DDI Prediction w/ dual-block GNN | DrugBank |
| MRCGNN [39] | GCN | DDI Prediction w/incorporation of negative DDI event | Deng's dataset,Ryu's dataset |
| SRR-DDI [110] | MPN | DDI Prediction w/ self-attention mechanism | DrugBank,Twosides |
| DDI Prediction w/ dual-view framework | DrugBank,ChChMiner,ZhangDDI | ||
| DAS-DDI [112] | GCN | ||
| SSF-DDI [109] DeepDDS [107] | MPNN GAT, GCN | DDI Prediction w/ on sequence and substructure features synergetic DDI Prediction w/ attention mechanism | DrugBank,Twosides O'Neil's dataset,Menden's dataset |
| MD-Synn [11] | GCN | is Picioneicals ncanc e ressn os | O'Neil's dataset, DrugCombDB |
| SafeDrug [40] | MPNN | Drug Combinations Recommendation w/ explicit leverages of drugs' molecule structures and model DDIs | MIMIC-III |
| olec [41] | GIN | Drug Combinations Recommendation w/ molecular substructure-aware encoding method | MIMIC-III |
| Carmen [42] | GNN | Drug Combinations Recommendation w/ context-aware GNN | MIMIC-III,MIMIC-IV |
| Graph IsomorphismNetwork(GIN), GraphSAGE(SAGE), Graph Convolutional Network(GCN), Graph network block(GN blocks) |
Table 1 分析: 该表系统地总结了本文讨论的GNN模型及其在药物发现三大任务中的应用特点。
- 架构多样性与融合: 表中列出的模型广泛使用了各种GNN架构,包括
MPNN、GCN、GIN、GraphSAGE等,这表明GNN是核心骨干。此外,许多方法将其与条件变分自编码器 (CVAE)、多层感知机 (MLP)、注意力机制 (attention mechanisms) 甚至CNN等其他深度学习模块结合,形成更复杂的混合架构,以处理多模态数据或实现特定任务目标。 - 分子表示的演进: 论文通过背景颜色(黄色代表主要使用2D结构,蓝色代表主要使用3D结构)直观展示了输入表示的趋势。在分子生成和属性预测任务中,从单纯的2D图输入,逐步演进到整合2D和3D信息(如
ConfVAE、GraphMVP、UnifiedPML),甚至直接基于3D构象进行操作(如SphereNet、3D-PGT),这反映了对分子空间几何信息日益增长的重视。 - 学习策略的创新:
预训练 (Pre-training)(标记为#)和少样本学习 (Few-shot Learning)(标记为*)是解决药物发现领域数据稀缺问题的关键策略。特别是自监督学习 (self-supervised learning) 和对比学习 (contrastive learning) 在分子属性预测中被广泛采用,以学习更鲁棒的分子表示。 - 任务导向的专业化:
- 分子生成:从早期的无约束生成(追求结构多样性)向更具目标导向性的约束生成(如基于基序 (motifs)、基于配体-蛋白质结合位点 (ligand-protein binding sites))发展,体现了从广撒网到精准制导的策略转变。
- 分子属性预测:覆盖了从基础的量子力学性质到复杂的毒性、生物活性预测。许多模型通过融入特定的化学或物理信息(如环结构先验、分子手性)来增强预测能力。
- 相互作用预测:包括分子间相互作用预测 (molecular interactions prediction)(如药物-靶点结合亲和力)和药物-药物相互作用预测 (DDI prediction)。在结合亲和力预测中,3D复合物表示和动力学模拟开始发挥作用。在DDI预测中,从简单的二分类问题演变为多标签分类,并进一步发展到结合患者临床数据进行个性化药物组合推荐 (personalized drug combination recommendation),展现了向精准医疗发展的趋势。
6.2.2. 常用的基准数据库
以下是原文 Table 2 的结果:
| Task | Dataset | Description |
| Comprehensive Databases | DrugBank [113]PubChem [114]MoleculeNet [21] | Vastcompoundlirary nnotated withhigh-hroughput screeningbioativites andcomprehensiv chemical properes.Aggregated benchmark collection covering diversemolecular properties and activities for algorithm evaluation. |
| Clinical Databases | MIMIC-III [115]MIMIC-IV [116]UK Biobank [117] | Detailed, de-identified ICU patient records including vitals, labs, and clinical interventions over time..Population-scale cohort with deep phenotypic, genotypic, and long-term health outcome data |
| Structural Information Databases | ZINC [118]GEOM [119]MISATO [120]CrossDocked [121] | Vendor-curated set of purchasable compounds each with experimentally determined 3D conformers.High-precision quantum-mechanically optimized 3D molecular geometries for conformational analysis.Multigrained collection of proteinligand complexes annotated with binding-site details.Large-scale docking dataset providing multiple poses and affinity estimates for proteinligand pairs. |
| Molecular Interaction DatabasesProtein-Ligand Binding | ChEMBL [122]Metz Dataset [123]KIBA Dataset [124]Davis Dataset [125]PDBbind Dataset [126] | Expert-curated database of small molecules linked to experimentally measured target binding afinities.Collection of kinase inhibitor experiments reporting inhibition constants (Ki) across targets.Unified resource converting heterogeneous kinase-inhibitor bioactivities into standardized KIBA scores.Comprehensive mapping of kinaseinhibitor dissociation constants (Ka) over multiple enzymes.Annotated set of biomolecular complexes with experimentally determined binding affinities and structures. |
| Molecular Interaction DatabasesDrugDrug Interaction | TwoSIDES [127]Deng's Dataset [128]ChChMiner [129]DrugCombDB [130]O'Neil's dataset [131]AstraZeneca's dataset [31] | Pharmacovigilance resource of adverse drugdrug event pairs mined from FAERS reporting data.Multimodal catalog of 570 approved drugs' interactions stratified by 65 mechanistic event types.A BioSNAP sub-dataset of 1,514 FDA-approved drugs and 48,514 DDI.D.A dataset that features 910 combinations of 118 drugs across 85 cell lines, with 797 pairs showing high synergy |
Table 2 分析: 该表详细列举了药物发现领域常用的基准数据集,并根据其数据特性进行了分类,突显了在不同研究方向上所依赖的数据类型。
- 数据维度与复杂度: 数据集从简单的分子结构信息 (
DrugBank、PubChem、ZINC) 扩展到复杂的临床记录 (MIMIC-III/IV、UK Biobank) 和详细的分子相互作用数据 (ChEMBL、PDBbind、TwoSIDES)。这种多样性为GNN模型从不同抽象层次和模态学习分子特征提供了丰富的资源。 - 任务覆盖:
- 综合数据库:为广泛的分子属性预测、分子生成和药物重定向任务提供基础数据。
- 临床数据库:对于个性化药物推荐 (personalized drug recommendation)、DDI预测和患者结局建模等需要真实世界患者数据的任务至关重要,但其隐私性和复杂性也带来了挑战。
- 结构信息数据库:对于3D分子生成、蛋白质-配体对接和结合亲和力预测至关重要,提供了精确的分子几何和构象信息。
- 分子相互作用数据库:直接用于蛋白质-配体结合亲和力预测和DDI预测,帮助理解生物分子间的相互作用机制。
- 数据来源多样: 数据来源于多种渠道,包括生物信息学数据库、高通量筛选实验、临床记录和药理学文献,这反映了药物发现研究的交叉性和复杂性。
- DDI的细分: DDI数据集进一步细分为关注不良DDI (adverse DDI)(如
TwoSIDES)和协同DDI (synergistic DDI)(如DrugCombDB、O'Neil's dataset),这表明在预测药物相互作用时,区分其性质(有害或有益)至关重要。
6.3. 消融实验/参数分析
作为一篇综述论文,本文不包含具体的消融实验或参数分析。这些通常是方法类论文为了验证模型组件的有效性或超参数的影响而进行的。然而,论文通过对不同研究的讨论,间接反映了某些组件或策略的重要性,例如:
-
3D信息的重要性: 论文多次提及3D分子图和构象信息能够提供更全面的视图,并显著提高结合亲和力预测等任务的性能,这暗示了3D信息相比2D信息具有优势。
-
预训练和少样本学习的有效性: 论文强调这些策略在缓解标签稀缺问题方面的关键作用,这表明它们是提升模型在小数据任务上性能的有效组件。
-
领域特定知识的价值: 结合环先验、分子手性、扭转角分布等领域知识被认为是提升模型化学准确性和鲁棒性的重要因素。
这些讨论虽然不是严格的消融实验,但传达了各个方法组件或策略对GNN模型在药物发现中表现的贡献。
7. 总结与思考
7.1. 结论总结
这篇综述论文对图神经网络 (GNNs) 在计算药物发现 (computational drug discovery) 领域的最新进展进行了系统而深入的回顾,特别是聚焦于2021年以来在分子生成 (molecule generation)、分子属性预测 (molecular property prediction) 和药物-药物相互作用预测 (drug-drug interaction prediction, DDI) 三个核心应用中的发展。
论文的主要发现和贡献包括:
- GNN的核心作用: 强调GNN作为一种能够有效建模化学结构和捕获复杂分子模式的强大工具,已成为这些应用领域的主导范式。
- 多维度进步: 在分子生成方面,GNNs通过无约束和约束生成策略,实现了新型化合物的设计,并且越来越关注基于蛋白质结合位点的定制化生成。在分子属性预测方面,向利用3D分子图的转变,结合消息传递机制 (message-passing mechanisms) 和对比学习 (contrastive learning),带来了更准确和鲁棒的预测结果。在DDI预测方面,GNNs通过识别安全有效的药物组合,为个性化医疗 (personalized medicine) 开辟了新的前景。
- 共同趋势: 多个研究领域涌现出共同趋势,包括:预训练 (pre-training) 和自监督学习 (self-supervised learning) 策略的广泛应用以缓解数据稀缺;领域特定知识 (domain-specific knowledge) 的整合以提高模型性能和生物学相关性;以及多模态 (multi-modal) 方法的采纳,将2D/3D分子图、
SMILES字符串等多种输入格式与GNNs或其他深度学习架构融合。
7.2. 局限性与未来工作
论文作者严谨地指出了当前研究的局限性并展望了未来的研究方向:
- 数据稀缺性 (Data Scarcity):高质量、多样化数据集的有限可用性仍然是制约GNN在药物发现中发挥全部潜力的主要因素。许多数据集存在覆盖偏差 (coverage bias)(集中于已被充分研究的靶点和化合物)和标签偏差 (label biases)(如标签不平衡、噪声和不完整标签)。特别地,缺乏结合分子数据和真实世界电子健康记录 (Electronic Health Record, EHR) 的患者级数据 (patient-level data),阻碍了个性化医疗 (personalized medicine) 的发展。
- 模型可解释性 (Model Interpretability):随着GNN架构日益复杂,其决策过程的可解释性 (interpretability) 仍然是一个关键障碍。为了在实际应用中建立信任并促进其采纳,未来的研究应优先考虑那些不仅提供准确预测,还能提供清晰解释的模型 [135]。弥合计算预测与人类理解之间的鸿沟对于产生可操作的科学见解至关重要。
- 多组学数据整合 (Multi-omics Integration):将GNN模型与多组学 (multi-omics) 数据(如基因组学、转录组学、蛋白质组学、代谢组学、表观基因组学等)相结合,以创建对疾病机制更全面的理解,是未来药物发现领域的一个重要方向。这种整合有望识别更好的药物靶点、开发个性化疗法,并最终改善治疗效果。
7.3. 个人启发与批判
7.3.1. 个人启发
这篇综述为GNN在药物发现领域的应用描绘了一幅令人鼓舞的图景,提供了几个关键启发:
- 数据表示与模型设计的协同: 分子作为天然图结构,GNN的出现是计算药物发现领域的一次“天作之合”。从1D
SMILES到2D拓扑图,再到3D空间构象,分子表示的不断丰富直接驱动了GNN模型设计从简单消息传递到复杂多模态融合的演进,这表明在任何数据驱动的研究中,对数据本身的深刻理解和有效表示是模型成功的基石。 - 解决核心痛点的智慧: 药物发现的“高成本、长周期、高失败率”是长期痛点。GNN通过加速分子生成、提高属性预测效率、及早识别潜在DDI,直接针对这些痛点提供了计算解决方案。这提醒我们在进行研究时,应紧密围绕领域的核心问题和瓶颈,寻找技术突破口。
- 学习范式的进化: 面对昂贵的实验数据和稀缺的标签,自监督学习 (self-supervised learning)、预训练 (pre-training) 和少样本学习 (few-shot learning) 等范式的兴起,是深度学习走向更普适应用的关键。它们使得模型能够从海量的未标记数据中学习通用知识,再迁移到特定但数据量有限的任务上,极大地扩展了GNN在药物发现中的应用边界。
- 走向精准与个性化: 从通用DDI预测到结合患者医疗历史 (medical history) 的个性化药物组合推荐 (personalized drug combination recommendation),GNNs展示了将分子级信息与临床级信息连接起来的能力。这标志着药物发现正从“一刀切”的模式向更精准、更个性化的治疗方案迈进,有望为复杂疾病带来更优解。
7.3.2. 批判与潜在改进
尽管GNN在药物发现中取得了显著进展,但论文中提及的局限性也引发了一些批判性思考和潜在的改进方向:
- 可解释性与科学发现的平衡: 论文强调了GNN可解释性的重要性,但这仍然是深度学习的普遍挑战。在药物发现领域,可解释性不仅关乎信任,更关乎能否从模型中提取新的科学假设,指导后续实验。目前的解释方法多为事后归因(如注意力权重),缺乏对底层化学或生物学机制的因果理解。未来的研究应探索如何构建内在可解释的GNN (intrinsically interpretable GNNs),例如通过将GNN与符号推理 (symbolic reasoning)、知识图谱 (knowledge graphs) 或物理化学模拟 (physicochemical simulations) 深度融合,使模型的决策路径更透明,更具生物学意义。
- 领域外分布 (Out-of-Distribution, OOD) 泛化能力:药物发现经常遇到
OOD问题,即模型需要在与训练数据分布显著不同的新分子或新靶点上进行预测。尽管论文提到了MoleOOD等方法,但GNNs对训练数据分布的敏感性仍是一个挑战。未来的GNN研究应更深入地关注因果表示学习 (causal representation learning) 和鲁棒性 (robustness),使其能够捕获更本质、更具泛化能力的分子规律,而不仅仅是表面的统计关联。元学习 (meta-learning) 和领域适应 (domain adaptation) 策略与GNN的结合,有望提升OOD泛化能力。 - 动态性和多尺度建模的不足: 大多数GNN模型仍基于静态分子结构进行预测,然而药物的作用是一个动态过程,涉及分子的构象变化、与靶点的结合-解离动力学、以及在生物体内的 ADMET(吸收、分布、代谢、排泄、毒性)过程。虽然
NeuralMD等工作开始探索动态模拟,但仍处于早期阶段。未来的GNN可以探索如何更好地整合时空信息 (spatiotemporal information) 和多尺度(从量子力学到细胞、组织、个体)相互作用,例如通过时空图神经网络 (spatiotemporal GNNs) 或多尺度图建模 (multi-scale graph modeling),以更真实地反映药物-生物体的复杂相互作用。 - 数据质量与偏差的深远影响: 论文详细讨论了数据集的挑战,包括异质性、覆盖偏差和标签偏差。这些数据问题直接限制了GNN模型的上限。除了模型创新,药物发现领域更需要大规模、高质量、无偏且包含丰富负样本和罕见事件的数据集。同时,开发能够鲁棒处理噪声、不完整和不平衡数据的GNN算法也至关重要,例如通过不确定性量化 (uncertainty quantification) 来评估模型在低置信度数据上的预测。
- 计算效率与可扩展性: 随着GNN模型变得越来越复杂,融合多模态数据,其训练和推理的计算成本也在增加。这可能成为其在大规模虚拟筛选和实际药物研发中部署的瓶颈。未来的工作应在模型性能和计算效率之间寻找更好的平衡,例如通过开发更轻量级但高效的GNN架构、模型压缩 (model compression) 技术(如剪枝 (pruning) 和量化 (quantization))或利用异构计算 (heterogeneous computing) 平台。
相似论文推荐
基于向量语义检索推荐的相关论文。