Enzyme specificity prediction using cross-attention graph neural networks
TL;DR 精炼摘要
本文开发了名为`EZSpecificity`的交叉注意力图神经网络架构,用于预测酶底物特异性。通过在全面的酶-底物相互作用数据库上训练,该模型在识别反应底物时达到了91.7%的准确率,显著优于现有方法,推动了生物催化和药物发现的实际应用。
摘要
Enzymes are the molecular machines of life, and a key property that governs their function is substrate specificity—the ability of an enzyme to recognize and selectively act on particular substrates. Here we developed a cross-attention-empowered SE(3)-equivariant graph neural network architecture named EZSpecificity for predicting enzyme substrate specificity, trained on a comprehensive database of enzyme–substrate interactions. Experimental validation showed that EZSpecificity achieved a 91.7% accuracy in identifying the single potential reactive substrate, significantly outperforming existing models.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Enzyme specificity prediction using cross-attention graph neural networks (使用交叉注意力图神经网络预测酶特异性)
1.2. 作者
Haiyang Cui, Yufeng Su, Tanner J. Dean, Tianhao Yu, Zhengyi Zhang, Jian Peng, Diwakar Shukla & Huimin Zhao
1.3. 发表期刊/会议
Nature (自然) 该期刊是全球顶尖的科学期刊之一,涵盖所有科学和技术领域,以发表突破性的、高影响力的原创研究而闻名。在相关领域(生物学、化学、机器学习在生物应用)具有极高的声誉和影响力。
1.4. 发表年份
Published online: 2025年10月08日
1.5. 摘要
酶是生命体的分子机器,其功能的关键属性是底物特异性 (substrate specificity),即酶识别并选择性作用于特定底物的能力。本文开发了一种名为 EZSpecificity 的、由交叉注意力 (cross-attention) 增强的 -等变图神经网络 (equivariant graph neural network) 架构,用于预测酶底物特异性。该模型在一个全面的酶-底物相互作用数据库上进行训练。实验验证表明,EZSpecificity 在识别单一潜在反应底物方面达到了 91.7% 的准确率,显著优于现有模型。
1.6. 原文链接
/files/papers/6916b3da110b75dcc59adf89/paper.pdf (此为内部文件链接,代表论文已发布)
发布状态:已正式发表 (Published online: 2025-10-08T00:00:00.000Z)
2. 整体概括
2.1. 研究背景与动机
2.1.1. 论文试图解决的核心问题
该论文旨在解决酶底物特异性 (enzyme substrate specificity) 的准确预测问题。酶的底物特异性是其功能的核心,决定了酶能够识别和催化哪些底物。然而,数百万已知酶仍然缺乏可靠的底物特异性信息,这极大地阻碍了它们在实际应用(如生物催化、药物发现)中的潜力以及对自然界生物催化多样性的全面理解。
2.1.2. 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白 (Gap)?
- 生物催化和药物发现的瓶颈: 缺乏特异性信息限制了酶在工业、医药和农业中的应用。准确预测特异性能够加速新酶的发现和工程化,用于生物合成、药物靶点识别等。
- 现有机器学习工具的局限性: 过去几年开发的机器学习工具在预测酶底物特异性方面取得了有限的成功,主要面临以下挑战:
- 特定蛋白家族的局限性: 大多数工具集中于开发特定于某些蛋白家族的计算工具,缺乏通用性。
- 难以区分同源酶: 流行工具(如
CLEAN、ProteInfer、DeepECTransformer)在区分相同EC编号 (Enzyme Commission number) 内的酶反应性和底物特异性方面存在困难,这是生物催化面临的核心挑战。 - 数据集规模和信息利用不足: 现有模型(如
ESP)的底物收集数量有限(约1.3k),难以覆盖基因组规模代谢模型中的所有天然和非天然酶-底物对。此外,许多模型主要关注从一维蛋白序列和二维分子图中提取特征,忽略了底物结合过程的三维 (3D) 性质,并且在连接步骤之前将底物和酶简化为两个独立的嵌入,限制了它们捕获酶与底物之间复杂相互作用的能力。 - 忽视催化位点的重要性: 催化残基的身份、空间排列以及长程偶联在决定特异性方面的重要性未能被充分捕捉。
2.1.3. 这篇论文的切入点或创新思路是什么?
本文的创新思路在于开发一个通用的深度学习模型 EZSpecificity,通过以下方面解决现有局限性:
- 构建高质量、大规模的酶-底物相互作用数据库 (ESIBank): 整合序列和结构信息,涵盖了广泛的天然和非天然底物、突变体以及酶-底物复合物信息。
- 整合三维结构信息和活性位点环境: 采用 -等变图神经网络 (equivariant GNN) 编码催化活性位点中每个原子的微环境,以捕获底物结合过程的三维特性。
- 引入交叉注意力机制: 设计交叉注意力层来显式建模底物原子与酶氨基酸之间的复杂相互作用,强调对特异性至关重要的氨基酸和原子,从而增强预测性能。
- 通用性设计: 旨在构建一个通用的机器学习模型,能够应用于多种蛋白家族,而非仅限于特定家族。
2.2. 核心贡献/主要发现
2.2.1. 论文最主要的贡献是什么?
- 提出了
EZSpecificity模型: 一个新颖的、由交叉注意力增强的 -等变图神经网络架构,能够整合酶序列、三维酶-底物复合物结构和活性位点环境信息,以准确预测酶底物特异性。 - 构建了
ESIBank数据库: 首个结构层面的综合性酶-底物复合物数据库,包含了323,783个酶-底物对,显著扩展了现有数据集的规模和多样性。 - 展示了卓越的预测性能: 在
ESIBank数据集上,EZSpecificity在AUROC(Area Under the Receiver Operating Characteristic curve) 方面比现有最先进模型ESP高出48.1%。在八种卤素酶和78种底物的实验验证中,EZSpecificity在识别单一潜在反应底物方面达到了91.7%的准确率,远高于ESP的58.3%。 - 证明了模型的通用性和可迁移性:
EZSpecificity在六个代表性酶家族中表现良好,并且通过微调能够进一步提升在目标酶家族上的性能。
2.2.2. 论文得出了哪些关键的结论或发现?这些发现解决了什么具体问题?
- 三维结构和原子相互作用的关键性:
EZSpecificity的成功证明了将三维结构信息和显式的原子级酶-底物相互作用(通过 -等变GNN和交叉注意力建模)整合到模型中对于准确预测酶特异性至关重要。这解决了现有模型忽视三维结合过程和原子相互作用的局限性。 - 高质量、大规模数据集的重要性:
ESIBank数据库的构建及其在模型训练中的应用,极大地提升了模型的性能,表明了高质量、大规模、结构化的数据对深度学习模型在生物信息学领域的重要性。 - 模型通用性:
EZSpecificity在不同酶家族和未知酶/底物场景下都表现出强大的泛化能力,使其成为一个可广泛应用于生物学和医学基础及应用研究的工具。这解决了现有模型对特定酶家族的局限性问题。 - 卤素酶特异性预测的突破: 在卤素酶这一研究不足的酶家族上进行的实验验证取得了高准确率,为
C-H官能化等生物催化应用提供了有力工具。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 酶特异性 (Enzyme Specificity)
指酶识别和选择性地作用于特定底物 (substrate) 的能力。这种特异性是酶功能的关键,因为它决定了酶在复杂的生物环境中能够催化哪些特定的生化反应。
3.1.2. 底物 (Substrate)
指在酶催化反应中,被酶作用的反应物分子。酶会与底物结合,将其转化为产物 (product)。
3.1.3. 活性位点 (Active Site)
指酶分子上与底物结合并进行催化反应的特定三维区域。活性位点的形状、化学环境以及其中的催化残基 (catalytic residues) 对酶的底物特异性和催化效率至关重要。
3.1.4. 图神经网络 (Graph Neural Networks, GNN)
一种专门设计用于处理图结构数据的神经网络模型。在图结构中,数据点表示为节点 (nodes),它们之间的关系表示为边 (edges)。GNN 通过在图中的节点及其邻居之间传递消息 (message passing) 来学习节点的嵌入 (embeddings) 或整个图的表示,从而捕获图的结构和特征信息。
3.1.5. -等变 (SE(3)-equivariant)
指三维欧几里得空间中的特殊欧几里得群 (Special Euclidean group),它包含所有平移 (translation) 和旋转 (rotation) 操作。一个模型是 -等变的,意味着如果模型的输入数据在三维空间中经过平移或旋转变换,模型的输出也会以相同的方式进行相应的变换。这对于处理分子结构等具有固有三维空间对称性的数据至关重要,因为它能确保模型的预测结果与分子的空间摆放无关,从而提高模型的泛化能力和物理合理性。
3.1.6. 交叉注意力 (Cross-Attention)
是 Transformer 架构中的一种注意力机制,它允许模型在处理两个不同的序列时,让一个序列的元素(作为查询 Query)去关注另一个序列的元素(作为键 Key 和值 Value)。在本文中,交叉注意力用于建模酶的氨基酸与底物的原子之间的相互作用,使模型能够识别对酶特异性最关键的酶-底物原子对。
3.1.7. EC 编号 (Enzyme Commission number)
是国际生物化学和分子生物学联盟 (IUBMB) 对酶进行系统分类的数字编码系统。每个 EC 编号由四个用点分隔的数字组成,表示酶催化反应的类型,从广义到特异性递减。例如,EC 1.1.1.1 中的第一个数字 1 表示氧化还原酶,第二个 1 表示作用于 CH-OH 基团,第三个 1 表示使用 或 作为受体,第四个 1 表示醇脱氢酶。
3.1.8. AUROC (Area Under the Receiver Operating Characteristic curve)
概念定义: AUROC 是评估二分类模型性能的常用指标。ROC 曲线描绘了在不同分类阈值下,模型的真阳性率 (True Positive Rate, TPR) 与假阳性率 (False Positive Rate, FPR) 之间的关系。AUROC 则是 ROC 曲线下方的面积,其值介于 0 到 1 之间。AUROC 越大,表示模型在区分正负样本方面的性能越好,其物理意义是随机选择的正样本的得分高于随机选择的负样本的得分的概率。
数学公式: AUROC 通常通过梯形法则 (trapezoidal rule) 或曼-惠特尼 检验 (Mann-Whitney U-test) 的统计量来近似计算。其理论定义是:
符号解释:
- : 真阳性率 (True Positive Rate),也称召回率 (Recall),是当分类阈值为 时,所有真实正样本中被正确识别为正样本的比例。
- : 假阳性率 (False Positive Rate),是当分类阈值为 时,所有真实负样本中被错误识别为正样本的比例。
- : 表示对
ROC曲线(由不同阈值 下的 和 绘制)在横轴(假阳性率)上的积分。
3.1.9. AUPR (Area Under the Precision-Recall curve)
概念定义: AUPR 是评估二分类模型性能的另一个重要指标,尤其适用于数据类别分布不平衡 (imbalanced dataset) 的情况。PR 曲线描绘了在不同分类阈值下,模型的精确率 (Precision) 与召回率 (Recall) 之间的关系。AUPR 则是 PR 曲线下方的面积,其值介于 0 到 1 之间。AUPR 越大,表示模型在识别正样本方面具有更好的精确率和召回率,特别关注在召回率提高的同时,精确率的保持能力。
数学公式: AUPR 通常也通过梯形法则来近似计算。其理论定义是:
符号解释:
- : 精确率 (Precision),是在召回率 (Recall) 为 时,被模型预测为正样本中实际为正样本的比例。它的计算公式是 。
- : 召回率 (Recall),即真阳性率 (True Positive Rate),是所有真实正样本中被正确识别为正样本的比例。它的计算公式是 。
- : 表示对
PR曲线(由不同阈值下对应的 Precision 和 Recall 绘制)在横轴(召回率)上的积分。
3.1.10. SMILES (Simplified Molecular Input Line Entry System)
一种用于以单行文本字符串形式表示分子结构的规范。它允许计算机程序理解和处理分子信息,例如用于生成分子的三维结构或计算分子指纹。
3.2. 前人工作
- 早期的酶功能预测工具:
CLEAN(contrastive learning-enabled enzyme annotation):基于对比学习的酶注释工具。ProteInfer:深度神经网络用于蛋白质功能推断。DeepECTransformer:基于Transformer层的酶功能预测工具。- 局限性: 这些工具在区分相同
EC编号内的酶反应性和底物特异性方面存在困难,这在生物催化领域是一个核心挑战。它们通常难以精细地区分密切相关的酶的特异性差异。
- 基于图神经网络的模型:
ESP(Enzyme Substrate Prediction):使用图神经网络 (GNN) 编码各种代谢物以预测蛋白质的底物。- 局限性:
ESP面临的挑战是其收集的底物数量有限(约1.3k),难以覆盖基因组规模代谢模型中的所有天然和非天然酶-底物对。此外,其模型架构可能未能充分捕捉底物-酶识别的复杂性。
- 指纹和序列嵌入方法:
- 虽然指纹 (fingerprint) 和序列 (sequence) 嵌入方法取得了一些进展,但它们在准确捕获底物-酶识别方面仍然存在不足。
- 局限性: 这类方法通常未能充分体现催化残基的身份、空间排列和长程偶联在决定特异性中的关键作用。
- 更广泛应用框架:
CPI(Compound-Protein Interaction):化合物-蛋白质相互作用预测。ALDELE(all-purpose deep-learning-based multiple toolkit):通用深度学习工具包。- 局限性: 这些框架虽然凸显了更广泛应用的可能性,但仍面临如何全面整合和利用序列、结构和相互作用信息以提高预测性能的挑战。
3.3. 技术演进
酶特异性预测领域的技术演进经历了从早期的基于序列和指纹特征的方法,到后来引入图神经网络处理分子结构,再到本文工作进一步整合三维结构信息和高级注意力机制的阶段。
- 一维序列和二维分子图特征提取: 最初的模型主要关注从蛋白质的一维氨基酸序列和底物的二维分子图(如分子指纹)中提取特征。这些方法相对简单,但难以捕捉复杂的空间相互作用。
- 图神经网络 (GNN) 的引入: 随着
GNN的发展,研究人员开始利用它来更好地编码底物和酶的结构信息,例如ESP模型。GNN能够捕获分子拓扑结构中的局部连接性。 - 整合三维结构和高级交互: 本文的工作代表了这一领域的最新进展。通过引入 -等变
GNN,模型能够直接处理三维结构数据,使其对空间变换不变。同时,交叉注意力机制的引入,使得模型能够显式地建模酶和底物之间原子级别的相互作用,这比简单地拼接两个独立嵌入的方法更为精细和有效。此外,构建大规模、高质量的三维酶-底物相互作用数据库ESIBank也为这一进展提供了坚实的数据基础。
3.4. 差异化分析
EZSpecificity 与相关工作中的主要方法相比,核心区别和创新点如下:
-
数据整合的全面性:
- 现有方法: 大多数模型主要依赖一维蛋白质序列和二维分子图来提取特征,忽略了酶-底物结合过程的三维性质。有些模型(如
ESP)虽然使用了GNN,但其数据集规模有限且可能未充分利用三维结构。 EZSpecificity: 首次全面整合了序列数据(通过ESM-2编码)、三维酶-底物复合物结构(通过对接生成)和活性位点环境(通过 -等变GNN编码)。这种多维度信息的深度融合,使得模型能够更真实地模拟酶催化过程。
- 现有方法: 大多数模型主要依赖一维蛋白质序列和二维分子图来提取特征,忽略了酶-底物结合过程的三维性质。有些模型(如
-
建模原子级别相互作用的机制:
- 现有方法: 许多模型在连接之前将底物和酶简化为两个独立的嵌入,这可能限制了它们捕捉酶与底物之间复杂原子相互作用的能力,因为它们通常对每个氨基酸或原子赋予相同的权重。
EZSpecificity: 引入了双向交叉注意力层,能够显式地建模酶的氨基酸与底物的原子之间的相互作用。这种机制允许模型强调对酶-底物特异性至关重要的原子和氨基酸,从而减少不必要的噪声并增强模型的聚焦能力。
-
对三维空间变换的鲁棒性:
- 现有方法: 传统
GNN或序列模型通常不具备对三维空间变换(如旋转和平移)的等变性或不变性。 EZSpecificity: 采用 -等变GNN来建模结合口袋,确保编码过程对 变换(欧几里得变换)保持等变性,这使得模型对底物和酶的空间摆放具有物理合理性和鲁棒性。
- 现有方法: 传统
-
数据集规模和质量:
- 现有方法: 例如
ESP的数据集仅包含约1.3k独特的底物。 EZSpecificity: 构建了ESIBank数据库,包含了34,417种底物和8,124种酶,总计323,783个酶-底物对,是ESP数据集的25倍。这个大规模、高质量、结构化的数据集为模型训练提供了前所未有的丰富信息。
- 现有方法: 例如
-
通用性和性能:
- 现有方法: 许多模型通常特定于某些蛋白质家族,泛化能力有限。
EZSpecificity: 设计为一个通用的深度学习模型,并在多个未知底物、未知酶以及未知底物和酶的场景下,以及六个不同酶家族中展示出始终优于现有最先进模型ESP和其他基线的卓越性能,包括在体外实验验证中也取得了显著优势。
4. 方法论
4.1. 方法原理
EZSpecificity 的核心思想是整合酶的序列信息、酶-底物复合物的三维结构信息以及活性位点环境的详细特征,并通过交叉注意力机制显式地建模酶与底物之间的复杂相互作用,从而准确预测酶的底物特异性。模型通过一个精心构建的大规模酶-底物相互作用数据库 ESIBank 进行训练,该数据库包含了丰富的序列、结构和相互作用层面的信息。
4.2. 核心方法详解 (逐层深入)
EZSpecificity 的架构如图 1 所示,它是一个多阶段的深度学习流程:
4.2.1. ESIBank 数据库准备和三维酶-底物复合物构建
为了训练 EZSpecificity 模型,首先需要一个高质量、全面的酶-底物相互作用数据库。
-
数据收集:
- 从
BRENDA和UniProt等序列数据库收集已知的天然和/或非天然底物的SMILES字符串和酶信息。 - 为了解决
BRENDA中酶序列与底物不直接对应的问题,通过EC编号和生物体名称随机选择酶与底物匹配,生成约180,000个阳性酶-底物对。 - 负样本生成: 对于每个阳性对,生成
5个负性酶和5个负性底物,总计10个负性酶-底物对。这些负性对根据EC编号的共同数字数量来定义差异级别,从而覆盖酶底物特异性预测的所有分辨率。根据EC编号,总共生成了约1,100,000个负性底物-酶对。 - 移除异常或低质量数据点,例如底物原子数超过
280、酶氨基酸数超过1,000或UniProt中缺乏活性位点信息的酶。 - 额外纳入六个代表性酶家族(酯酶、糖基转移酶、腈水解酶、磷酸酶、硫解酶和未知功能域蛋白
DUF)的数据。 - 使用半自动数据提取过程(包括识别、提取、翻译和连接四个步骤)从文献中提取了约
3,300个卤素酶-底物对,构建了HaloS数据集用于后续模型验证。 - 最终,
ESIBank数据库共收集了323,783个高质量酶-底物对,涵盖了34,417种底物和8,124种酶。
- 从
-
三维酶-底物复合物构建:
-
底物结构准备: 使用
Open Babel和RDKit从SMILES字符串生成底物的三维结构。 -
酶结构准备:
- 从
AlphaFill数据库获取酶的三维结构,并整合必要的辅因子。AlphaFill通过AlphaFold Protein Structure Database提供的apo酶模型来填充辅因子。 - 利用
UniProt数据库中的活性位点信息,将对接盒子 (docking box) 限制在以活性位点氨基酸为中心的20 Å立方体区域内。对于没有已知活性位点的酶,则以酶的中心作为盒子中心。
- 从
-
分子对接: 使用
AutoDock-GPU对ESIBank中的所有酶-底物对进行对接。每个酶-底物对执行100次运行,每次运行最多2,500,000次分数评估。 -
姿态选择: 对接后,通过距离评分(针对已知活性位点)和亲和力评分(确定最有利的结合姿态)筛选出最高得分的姿态作为最终的酶-底物结合结构。
下图(原文 Figure 2)展示了
ESIBank数据库的构建过程:
该图像是图示,展示了ESIBank数据库的构建过程,包括从文献和在线服务器中提取酶和基质的信息。图中分别描述了识别、提取、翻译与连接的四个步骤,强调了光学结构识别应用于化合物的化学结构信息转换。
-
4.2.2. 酶序列表示 (Pretrained Protein Language Model to Represent Enzymes)
- 使用
ESM-2(一个强大的预训练Transformer蛋白质语言模型)来嵌入ESIBank中蛋白质的氨基酸序列。ESM-2拥有150亿参数,通过重构Uniref数据库中蛋白质序列的随机掩码部分进行训练。 - 取神经网络倒数第二层的输出作为氨基酸嵌入。
ESM-2生成的每个氨基酸嵌入是一个1,280维向量。 - 为了降维和统一表示,使用一个线性层将原始的
1,280维向量重新投影到128维。这被称为酶的氨基酸表示。这些氨基酸表示的平均值被用作酶的整体表示。
4.2.3. 通过 -等变 GNN 捕获催化口袋环境 (Capturing Catalytic Pocket Environment by SE(3)-equivariant GNNs)
- 图表示: 将酶的结合口袋建模为图 。图中的每个节点 代表一个原子(可以是底物原子或酶原子),边 连接每个原子与其 个最近邻原子(实际中 )。
- 原子特征:
- 酶原子: 包含化学元素、氨基酸类型以及是否属于骨架原子。
- 底物原子: 表示为
multi-hot向量,包含化学元素类型和芳香性。
- 边特征 : 包含距离嵌入 (distance embeddings) 和键类型 (bond types)。
- 距离嵌入: 使用在 范围内
32个中心处的径向基函数 (radial basis functions)。 - 键类型: 通过四维
one-hot向量表示(单键、双键、三键或虚拟键),以及一个二维one-hot向量指示是否连接底物和酶之间的原子。
- 距离嵌入: 使用在 范围内
- -等变
GNN编码: 为了使编码过程对 变换(欧几里得变换)保持等变性,模型使用了 -等变GNN来建模催化位点环境。- 初始隐藏嵌入 通过两个独立的线性层获得,分别用于重新投影酶原子和底物原子的特征。
- 在第 层,原子隐藏嵌入 的更新方式如下:
首先,定义初始嵌入 为:
其中:
-
: 最终的原子隐藏嵌入,表示原子 的微环境。
-
: 一个可学习的函数,用于将初始嵌入和边特征转换为最终嵌入。
-
: 原子的初始隐藏嵌入。
-
: 连接原子 和原子 的边的特征。
然后,原子隐藏嵌入 在第 层被更新为: 其中:
-
: 原子 在第 层的隐藏嵌入。
-
: 原子 在第 层的隐藏嵌入。
-
: 一个两层感知机 (two-layer perceptron),用于建模消息聚合。
-
: 原子 的邻居原子集合。
-
: 一个两层感知机,用于建模消息传递。
-
: 连接原子 和原子 的边的特征。
-
: 原子 在第 层的隐藏嵌入。
最终的原子隐藏嵌入 被称为微环境嵌入 (micro-environment embedding)。其中底物原子的最终原子隐藏嵌入称为底物原子嵌入 (substrate atom embedding),其平均值则作为底物嵌入 (substrate embedding)。
-
4.2.4. 通过交叉注意力层建模底物和酶之间的相互作用 (Modelling the Interactions between Substrates and Enzymes Using Cross-Attention Layers)
-
为了捕捉活性位点环境中复杂的酶-底物相互作用,模型使用了两个交叉注意力层来生成酶感知底物原子嵌入和底物感知酶氨基酸嵌入。
-
交叉注意力机制: 标准的注意力机制定义为: 其中:
- : 查询 (Query) 矩阵。
- : 键 (Key) 矩阵。
- : 值 (Value) 矩阵。
- :
softmax函数,用于将注意力分数归一化为概率分布。 - : 键向量的维度,用于缩放点积以防止梯度过大。
生成酶感知底物原子嵌入: 其中,每个注意力头 的计算如下:
- : 表示酶 对底物 的交叉注意力输出,生成酶感知底物原子嵌入。
- : 一个线性层。
- : 拼接操作,将多个注意力头的输出拼接起来。
- : 第 个注意力头的输出。
- : 注意力头的数量。
- : 酶的氨基酸嵌入 (enzyme amino acid embedding)。
- : 底物原子嵌入 (substrate atom embedding)。
- , , : 可学习的线性层,用于将输入嵌入转换为查询、键和值。
生成底物感知酶氨基酸嵌入: 其中,每个注意力头 的计算如下:
-
: 表示底物 对酶 的交叉注意力输出,生成底物感知酶氨基酸嵌入。
-
其余符号与上述相同。
酶感知底物原子嵌入的平均值被称为酶感知底物嵌入 (enzyme-aware substrate embedding),底物感知酶氨基酸嵌入的平均值被称为底物感知酶嵌入 (substrate-aware enzyme embedding)。
4.2.5. 多层感知机作为预测器 (Multilayer Perceptron as the Base Predictor)
- 最终的预测器是一个多层感知机 (
MLP)。它将酶和底物的各种嵌入拼接起来作为输入,预测酶的特异性分数。 - 输入拼接包括:酶感知底物嵌入 ()、底物感知酶嵌入 ()、原始底物嵌入 () 和原始酶嵌入 ()。
- 预测函数如下:
其中:
-
: 预测的酶特异性分数。
-
: 多层感知机模型。
-
: 拼接操作,将所有输入向量拼接成一个长向量。
-
: 酶感知底物嵌入。
-
: 底物感知酶嵌入。
-
: 原始底物嵌入(由 -等变
GNN编码的底物原子嵌入的平均值)。 -
: 原始酶嵌入(由
ESM-2编码的酶氨基酸嵌入的平均值)。下图(原文 Figure 1)展示了
EZSpecificity的机器学习架构:
该图像是EZSpecificity机器学习架构的示意图,展示了如何利用ESM-2和SE(3)-不变图神经网络提取酶-底物复合物的序列和结构嵌入。图中包含氨基酸残基表示、内部消息传递神经网络、双重交叉注意力机制,以及加权3D催化核心嵌入和加权序列嵌入的集合,用于训练酶特异性深度神经网络。
-
4.2.6. 训练过程 (Training Process of EZSpecificity)
- 任务定义: 将酶特异性预测任务表述为二分类问题。
- 损失函数: 使用交叉熵损失函数 (cross-entropy loss function)。
- 优化器: 采用
AdamW优化器,使用默认参数。 - 学习率: 初始学习率设置为
0.0003。 - 学习率调度:
- 在最初的几个 epoch 中,学习率从
0.000006线性增加到0.0003(热身warm-up阶段)。 - 如果模型性能连续
10个 epoch 没有改善,学习率将减半。 - 当学习率降至
0.000006以下时,训练停止。
- 在最初的几个 epoch 中,学习率从
- 批量大小 (Batch Size):
32。 - 网络结构: 神经网络包含
3个GNN层;基础预测器MLP包含3个前馈层。 - 隐藏嵌入维度: 除非另有说明,所有隐藏嵌入的维度都设置为
128。
5. 实验设置
5.1. 数据集
5.1.1. ESIBank 数据集
- 来源: 通过整合序列数据库(如
BRENDA和UniProt)与通过AlphaFold、AlphaFill和AutoDock/Vina-GPU生成的结构信息构建。 - 规模: 涵盖了
34,417种天然和非天然底物,8,124种野生型和变体酶。总计323,783个高质量酶-底物对。 - 特点: 这是第一个结构层面的广泛酶-底物复合物数据库,比
ESP可用的数据集(1,379个独特底物)多25倍的底物。数据包含序列、结构和相互作用层面的信息。 - 正负样本生成: 正样本通过匹配
EC编号和生物体名称从BRENDA和UniProt收集。负样本通过为每个正样本生成5个负性酶和5个负性底物来创建,负样本与正样本在EC编号数字上的差异级别进行控制,以覆盖不同分辨率的预测。 - 三维结构构建: 利用
UniProt中的活性位点信息,结合AlphaFill整合辅因子,并使用AutoDock-GPU进行分子对接,生成每个酶-底物对的功能性3D结构。
5.1.2. HaloS 数据集
- 来源: 作为概念验证,通过半自动数据提取方法(识别、提取、翻译和连接)从科学出版物中收集。
- 规模: 包含约
3,300个酶-底物对,用于卤素酶的实验验证。 - 特点: 这是一个高质量的策展数据集,用于评估
EZSpecificity在具体酶家族上的性能。
5.1.3. 选择这些数据集的原因
这些数据集的选择旨在全面验证 EZSpecificity 的性能和泛化能力:
ESIBank的大规模和多样性使其成为训练通用酶特异性预测模型的理想选择,能够捕捉广泛的酶-底物相互作用模式。HaloS数据集作为特定酶家族的体外实验验证,证明了模型在实际应用中识别未知底物的能力,尤其是在研究不足的酶家族中。
5.2. 评估指标
5.2.1. AUROC (Area Under the Receiver Operating Characteristic curve)
-
概念定义:
AUROC是评估二分类模型性能的常用指标。ROC曲线描绘了在不同分类阈值下,模型的真阳性率 (True Positive Rate,TPR) 与假阳性率 (False Positive Rate,FPR) 之间的关系。AUROC则是ROC曲线下方的面积,其值介于0到1之间。AUROC越大,表示模型在区分正负样本方面的性能越好,其物理意义是随机选择的正样本的得分高于随机选择的负样本的得分的概率。 -
数学公式:
AUROC通常通过梯形法则 (trapezoidal rule) 或曼-惠特尼 检验 (Mann-Whitney U-test) 的统计量来近似计算。其理论定义是: -
符号解释:
- : 真阳性率 (True Positive Rate),也称召回率 (Recall),是当分类阈值为 时,所有真实正样本中被正确识别为正样本的比例。其计算公式是 。
- : 假阳性率 (False Positive Rate),是当分类阈值为 时,所有真实负样本中被错误识别为正样本的比例。其计算公式是 。
- : 表示对
ROC曲线(由不同阈值 下的 和 绘制)在横轴(假阳性率)上的积分。
5.2.2. AUPR (Area Under the Precision-Recall curve)
-
概念定义:
AUPR是评估二分类模型性能的另一个重要指标,尤其适用于数据类别分布不平衡 (imbalanced dataset) 的情况。PR曲线描绘了在不同分类阈值下,模型的精确率 (Precision) 与召回率 (Recall) 之间的关系。AUPR则是PR曲线下方的面积,其值介于0到1之间。AUPR越大,表示模型在识别正样本方面具有更好的精确率和召回率,特别关注在召回率提高的同时,精确率的保持能力。 -
数学公式:
AUPR通常也通过梯形法则来近似计算。其理论定义是: -
符号解释:
- : 精确率 (Precision),是在召回率 (Recall) 为 时,被模型预测为正样本中实际为正样本的比例。它的计算公式是 。
- : 召回率 (Recall),即真阳性率 (True Positive Rate),是所有真实正样本中被正确识别为正样本的比例。它的计算公式是 。
- : 表示对
PR曲线(由不同阈值下对应的 Precision 和 Recall 绘制)在横轴(召回率)上的积分。
5.2.3. 准确率 (Accuracy)
-
概念定义: 准确率 (Accuracy) 是最直观的分类模型评估指标,表示模型正确预测的样本数占总样本数的比例。
-
数学公式:
-
符号解释:
- : 真阳性 (True Positive),指实际为正样本且被模型正确预测为正样本的数量。
- : 真阴性 (True Negative),指实际为负样本且被模型正确预测为负样本的数量。
- : 假阳性 (False Positive),指实际为负样本但被模型错误预测为正样本的数量。
- : 假阴性 (False Negative),指实际为正样本但被模型错误预测为负样本的数量。
5.3. 对比基线
论文将 EZSpecificity 与以下基线模型进行了比较:
-
ESP(Enzyme Substrate Prediction): 这是当前最先进的、通用的酶底物特异性预测机器学习模型。它使用图神经网络编码代谢物。ESP被选为基线,因为它代表了该领域的最新通用模型。 -
EZSpecificity-w/oGCS(EZSpecificity without Graph, Cross-attention and Structural Embeddings): 这是EZSpecificity的一个消融版本,移除了图、交叉注意力和结构嵌入。文章指出,CPI(Compound-Protein Interaction) 的架构与EZSpecificity-w/oGCS几乎相同。这个基线用于评估EZSpecificity中结构信息、图神经网络和交叉注意力机制的贡献。 -
CPI(Compound-Protein Interaction): 虽然CPI没有直接作为独立模型进行比较,但EZSpecificity-w/oGCS被认为是其在ESIBank上训练的等价形式,因此间接与CPI进行了比较。 -
EZSpecificity-fine-tune:EZSpecificity模型在目标酶家族数据上进行微调后的版本,用于评估微调策略的有效性。 -
EZSpecificity-individual: 使用与EZSpecificity相同的架构,但仅在目标酶家族数据上从头开始训练的模型,用于评估在有限数据下,模型架构的独立性能。 -
EZSpecificity-ensemble:EZSpecificity-individual和EZSpecificity-fine-tune模型的集成版本,用于探索组合模型的性能。 -
Docking Score: 在代谢物-酶对预测任务中,将物理对接分数(使用AutoDock Vina)作为基线进行比较,以展示EZSpecificity学习到的复杂特征超越纯物理模型的能力。这些基线具有代表性,因为它们涵盖了从最先进的通用模型到模型内部组件的消融,再到特定家族微调和从零开始训练的多种场景,全面评估了
EZSpecificity的性能、各组件的有效性以及在不同应用场景下的适用性。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. EZSpecificity 在 ESIBank 数据集上的评估
论文首先在 ESIBank 数据集上对 EZSpecificity 进行了全面评估,并与最先进的通用模型 ESP 进行了比较。实验设置了四种交叉验证场景:随机拆分 (random split)、未知底物 (unknown substrate)、未知酶 (unknown enzyme) 和未知酶与底物 (unknown enzyme and substrate),以模拟不同的真实世界应用情况。
-
AUROC性能对比(原文 Figure 3a):EZSpecificity在所有四种场景下始终优于ESP。- 在最具挑战性的“未知酶与底物”场景下,
EZSpecificity的AUROC为0.7198,而ESP为0.6523,EZSpecificity表现出显著优势,这表明其在处理全新酶和底物组合时的可靠性。 - 即使与架构相似但训练数据集不同的
EZSpecificity-w/oGCS相比,EZSpecificity在随机数据集上的AUROC(0.8822) 也显著高于ESP(0.6572)。
-
ESIBank数据集质量的贡献:-
EZSpecificity-w/oGCS(架构与ESP相似,但在ESIBank上训练) 在随机数据集上的AUROC(0.8822) 远高于ESP(0.6572,在ESP-database上训练)。 -
这有力地表明,
ESIBank这个全面且高质量的训练数据集是模型性能显著提升的关键因素。下图(原文 Figure 3)展示了
EZSpecificity在ESIBank数据集上的评估:
该图像是评估 EZSpecificity 在 ESIBank 数据集上的效果图,包含 AUROC 分数和不同模型的比较。图中 a 显示了 EZSpecificity 与 ESP 的 AUROC 分数,b 为 EZSpecificity 各配置的消融实验,c、d 展示了对 EC 编号的预测分辨率,e 则为四个数据集拆分下的平均分辨率得分。
-
6.1.2. 消融实验
为了剖析 EZSpecificity 各组件的性能贡献,作者进行了消融实验。
- 在“未知酶与底物”数据集上的
AUROC(原文 Figure 3b):- 去除活性结构信息 (
loss of active structure) 导致AUROC从0.7198下降到0.7036,这表明显式建模酶结合口袋与底物之间的原子相互作用是有益的。 - 去除交叉注意力层 (
loss of cross-attention layers) 导致AUROC从0.7198下降到0.7021,这表明交叉注意力层在提升模型性能方面发挥了重要作用。 - 虽然这些数值变化可能看起来不大,但在深度学习的背景下,即使是微小的改进也具有挑战性,并且能反映预测准确性的有意义提升。
- 去除活性结构信息 (
6.1.3. EC 编号分辨率预测
EZSpecificity 在区分不同粒度 EC 编号的酶特异性方面展示了卓越的性能。
AUROC和AUPR评估(原文 Figure 3c-e):EZSpecificity在所有EC编号分辨率级别上均表现出卓越的性能,证明了其在不同深度预测酶底物特异性方面的鲁棒性和分辨率。EZSpecificity在EC.x.x.x.x级别(最精细的特异性级别)上略优于ESP,突显了其区分同源酶和/或酶变体的能力。
6.1.4. 跨酶家族的泛化能力
论文评估了 EZSpecificity 在六个代表性酶家族(酯酶、糖基转移酶、腈水解酶、磷酸酶、硫解酶和 DUF)上的可迁移性。
- 平均
AUPR性能(原文 Figure 4b):EZSpecificity在所有这些酶家族上表现良好,在随机、未知底物和未知酶数据集类型上,平均AUPR值高达0.6835。- 微调策略的有效性: 经过微调 (
EZSpecificity-fine-tune) 后,EZSpecificity模型的性能进一步提升,在未知底物拆分上的AUPR比未微调时增加了约7%。这与先前的研究一致,即微调过程能够通过强化词汇理解来确保模型恰当使用聚焦知识。 - 独立模型性能(原文 Figure 4c):
EZSpecificity-individual模型(仅在目标酶家族数据上从头训练)在AUPR方面优于CPI-individual模型,提升了4.2-8.3%。与ESP相比,提升幅度达到27.4-54.5%。这表明EZSpecificity即使在有限数据点的情况下也能有效管理,可能得益于3D结构上下文的整合。
- 未知酶与底物拆分下的
AUPR性能(原文 Figure 4d):-
EZSpecificity在所有选定的酶家族中都优于CPI和ESP。 -
然而,微调并非总是带来改善,例如对于硫解酶和糖基转移酶,微调后性能略有下降。
-
不同微调策略的有效性也因酶家族而异。例如,对于
DUF和硫解酶,从EZSpecificity基础模型开始比从头训练 (EZSpecificity-individual) 效果更好。而对于其他酶,EZSpecificity-individual表现优于EZSpecificity和EZSpecificity-fine-tune。下图(原文 Figure 4)展示了
EZSpecificity在六个代表性酶家族上的计算评估:
该图像是图表,展示了EZSpecificity在六个酶家族中的计算评估。图中包括不同酶的功能、性能评估结果和平均AUPR分数,具体结果显示在b和c部分的柱状图中。d部分则列出了在未知酶和底物数据集上的AUPR评分。
-
6.1.5. 卤素酶的实验验证
论文通过体外实验验证了 EZSpecificity 在卤素酶这一研究不足的酶家族上的预测准确性。选择了 8 种黄素依赖性卤素酶和 78 种底物进行实验验证,收集了 624 个实验卤化数据点。
- 体外实验结果(原文 Figure 5e):
- 对于数据库中未曾出现的
12种新底物,使用HaloS数据集微调后的EZSpecificity-fine-tune模型在top-1推荐中的预测准确率达到了91.7%。 - 这显著超越了基线方法:
EZSpecificity-w/oGCS(41.7%) 和ESP(58.3%)。 EZSpecificity-individual模型的准确率为66.7%,低于EZSpecificity-fine-tune。- 集成的
EZSpecificity-ensemble模型达到了75.0%的准确率。 - 当推荐范围扩大到
top 25酶时,EZSpecificity各模型的预测准确率仍保持在62.5%到85.2%之间。
- 对于数据库中未曾出现的
- 结构特征、图和交叉注意力机制的贡献:
-
在卤素酶数据集上,
EZSpecificity(未经微调)的AUROC范围为0.7720-0.9447,AUPR范围为0.5430-0.8506。微调后,EZSpecificity-fine-tune进一步提升了性能,AUROC范围为0.8008-0.9600,AUPR范围为0.5698-0.8823。 -
与
EZSpecificity-w/oGCS-individual相比,EZSpecificity-individual的AUPR增加了27.87%到35.26%(从随机到未知酶和底物场景),这强有力地表明了结构特征、图和交叉注意力机制对EZSpecificity性能提升的贡献。下图(原文 Figure 5)展示了
EZSpecificity在HaloS数据集上的实验验证:
该图像是图表,展示了EZSpecificity在HaloS数据集上的实验验证,包括四种卤素酶的卤化功能、代表性底物结构及相应的TMAP可视化结果。结果显示EZSpecificity在识别潜在反应底物方面的准确度达到91.7%。
-
6.1.6. 代表性应用
论文通过几个案例研究展示了 EZSpecificity 的实用性。
-
代谢物-酶对预测任务:
-
在对大肠杆菌 (
E. coli) 中的34种代谢物和860种酶进行研究时,EZSpecificity成功地将10种代谢物(29.4%)与其对应的酶匹配到预测酶排名前5%的范围内,而单独使用对接分数 (docking scores) 只能达到20.4%。当排名阈值扩展到前20%时,累积成功率增加到50%(17种代谢物)。 -
序列相似度分析表明,
EZSpecificity在序列相似度较高的酶上表现出最高的预测置信度(峰值密度在约10%的百分位数排名),同时即使对于与训练数据序列相似度较低的酶,也能保持合理的预测准确性,展示了其对新序列的泛化能力。下图(原文 Extended Data Fig. 1)展示了
EZSpecificity在代谢物-酶对预测任务中的表现:
该图像是一个图表,展示了EZSpecificity与对接得分在预测中的累积百分比比较。图(a)显示了不同前百分比的预测准确性,图(b)展示了酶预测的序列相似度与前百分比之间的关系。
-
-
生物合成基因簇 (
BGCs) 研究:EZSpecificity能够将BGC基因与其对应的生物合成中间体联系起来,在爪哇酸 (clavulanic acid) 和阿苯酸 (albonoursin) 生物合成途径中,识别每个步骤的正确靶酶的准确率高达66.7%(在前三个排名候选者中)。这表明EZSpecificity在识别BGC内基因-中间体对方面具有潜力,尽管中间体之间可能只有微小的化学修饰差异。
6.2. 消融实验/参数分析
除了上述核心结果分析中提到的 AUROC 下降数值,消融实验更深层次地揭示了 EZSpecificity 中结构特征、图神经网络和交叉注意力机制的关键作用。
-
结构特征的贡献:
EZSpecificity在没有图、交叉注意力和结构嵌入的情况下(即EZSpecificity-w/oGCS),其性能下降。这表明显式建模原子相互作用,特别是酶结合口袋和底物之间的相互作用,对于提高预测准确性是必不可少的。 -
交叉注意力层的贡献: 交叉注意力层能够使模型关注决定酶底物特异性的关键原子和/或氨基酸,从而减少间接原子和/或氨基酸引入的偏差。这与先前方法(如对所有氨基酸进行平均池化)形成对比,显著增强了模型捕获重要特异性驱动信息的能力。
-
对卤素酶数据集的强化: 消融实验在卤素酶数据集上尤其明显,表明这些机制对高质量策展数据集的性能提升至关重要。
这些结果共同验证了
EZSpecificity独特架构设计的有效性,即通过整合多维度信息和精细的交互建模机制,能够显著提升酶底物特异性预测的准确性和泛化能力。
7. 总结与思考
7.1. 结论总结
本文成功开发了一个名为 EZSpecificity 的通用深度学习模型,用于预测酶的底物特异性。该模型通过以下创新点解决了现有方法的局限性:
- 创新架构:
EZSpecificity引入了一个基于 -等变图神经网络的编码器,用于处理三维结合复合物,并结合了交叉注意力层来显式建模酶与底物之间的原子级别相互作用。这些机制弥补了现有方法常忽视三维结合过程和原子相互作用的缺陷。 - 高质量数据集: 构建了
ESIBank数据库,这是一个大规模、综合性的酶-底物复合物数据库,为模型训练提供了丰富的数据资源。ESIBank本身也作为一个宝贵的社区资源,可用于酶功能和反应性研究。 - 卓越性能:
EZSpecificity在计算模拟中表现出强大的性能,AUROC比ESP高出高达48.1%。在体外实验验证中,针对八种卤素酶和78种底物,EZSpecificity的预测准确率达到了91.7%,远高于ESP的58.3%。EZSpecificity因此代表了一个可广泛应用于生物学和医学基础及应用研究的工具,特别是在生物催化和药物发现领域。
7.2. 局限性与未来工作
论文作者也指出了 EZSpecificity 的一些局限性以及未来的研究方向:
- 立体选择性预测限制:
EZSpecificity专注于底物特异性预测,目前尚不支持可靠地预测化学选择性 (chemo-selectivity)、区域选择性 (regio-selectivity) 或立体选择性 (stereo-selectivity)。这一限制源于当前的分子表示和编码策略在处理同一原子处不同立体选择性时将其视为等同。 - 活性位点注释缺失的影响: 对于缺乏活性位点注释的酶-底物对,模型的性能可能会受到影响。
- 未来工作方向: 论文提出未来将动态结合信息整合到模型中,以进一步增强预测能力。此外,尽管当前
EZSpecificity在生物合成基因簇 (BGCs) 研究中已显示出潜力,但通过在更多BGC相关数据上进行训练,其性能有望进一步提升,尽管目前这些数据集的组织状况不佳。
7.3. 个人启发与批判
7.3.1. 个人启发
- 三维信息与交互建模的重要性: 这篇论文给我最大的启发是,在生物大分子(如酶)与小分子(如底物)相互作用的复杂系统中,仅仅依赖一维序列或二维拓扑信息是远远不够的。显式地建模三维空间结构和原子级别的相互作用是提升预测准确性的关键。-等变
GNN和交叉注意力机制的结合,提供了一个强大的范式来解决这类问题。 - 高质量数据集的驱动力:
ESIBank的构建是本文成功的基石之一。它再次强调了在大规模深度学习时代,数据质量和规模对于模型性能的决定性影响。针对特定领域需求定制高质量数据集,本身就是一项重要的科研贡献。 - 通用性与微调的平衡:
EZSpecificity作为一个通用模型,在多个酶家族上表现良好,并通过微调在特定任务上获得进一步提升。这种“预训练-微调”的范式在大语言模型中被广泛验证,现在也成功应用于生物大分子领域,预示着该领域未来模型开发的方向。 - 跨学科融合的潜力: 本文是计算化学、生物信息学和机器学习深度融合的典范。这种跨学科研究能够催生出解决实际生物学和医学难题的创新工具。
7.3.2. 批判与潜在问题
- 立体选择性预测的局限性: 论文明确指出了模型无法可靠预测立体选择性,这在药物开发和精细化学合成中是一个非常重要的特性。虽然作者解释了原因,但这是模型在实际应用中需要迫切解决的“最后一公里”问题。未来可能需要更精细的分子表示(如手性信息编码)或更复杂的几何深度学习模型来捕捉这种微小但关键的差异。
- 消融实验中“微小改进”的解读: 论文在消融实验中指出,去除活性结构或交叉注意力层导致的
AUROC下降在数值上可能看似不大(例如0.7198到0.7036),但“反映了预测准确性的有意义提升”。对于初学者而言,这种“有意义”需要更深入的语境解释,例如:在哪些场景下这种提升变得至关重要?这种提升是否在统计学上显著?在生物学或化学层面上,这种提升能带来哪些具体的好处? - 计算成本: 构建
ESIBank涉及大量的分子对接(例如323,783对酶-底物,每对100次运行,每次运行多达2,500,000次分数评估),这是一个巨大的计算负担。尽管使用了AutoDock-GPU加速,但这种数据生成方式的成本和可扩展性仍是需要考虑的问题。 - 对活性位点注释的依赖: 模型在构建
3D复合物时依赖于UniProt中已知的活性位点信息。对于那些缺乏此类注释的酶,模型的性能可能会受到影响。这在处理未充分研究的酶时可能构成挑战,也凸显了需要开发更精确的活性位点预测方法的重要性。 - 负样本生成的潜在偏差: 负样本是根据
EC编号的共同数字数量生成的。虽然这种策略旨在覆盖不同分辨率,但其随机性可能导致生成的负样本并非总是“有意义的负样本”(即理论上可能与酶结合但不会发生反应的底物),这可能影响模型的泛化能力。 ESM-2的局限性:ESM-2作为蛋白质语言模型,虽然强大,但其本质是序列模型。在处理蛋白质功能时,仅依赖序列嵌入可能无法完全捕捉所有与特异性相关的结构和动力学信息。EZSpecificity结合GNN弥补了这一部分,但序列模型本身的局限性仍需关注。
相似论文推荐
基于向量语义检索推荐的相关论文。