Robust deep learning–based protein sequence design using ProteinMPNN
TL;DR 精炼摘要
本文提出了一种名为 ProteinMPNN 的基于深度学习的蛋白质序列设计方法,表现出卓越的性能,其序列恢复率为 52.4%,显著高于传统方法 Rosetta 的 32.9%。该方法能够处理单链和多链的氨基酸耦合问题,成功挽救了多种先前设计失败的蛋白,展示了其广泛的应用潜力和高精确度。
摘要
Although deep learning has revolutionized protein structure prediction, almost all experimentally characterized de novo protein designs have been generated using physically based approaches such as Rosetta. Here, we describe a deep learning – based protein sequence design method, ProteinMPNN, that has outstanding performance in both in silico and experimental tests. On native protein backbones, ProteinMPNN has a sequence recovery of 52.4% compared with 32.9% for Rosetta. The amino acid sequence at different positions can be coupled between single or multiple chains, enabling application to a wide range of current protein design challenges. We demonstrate the broad utility and high accuracy of ProteinMPNN using x-ray crystallography, cryo – electron microscopy, and functional studies by rescuing previously failed designs, which were made using Rosetta or AlphaFold, of protein monomers, cyclic homo-oligomers, tetrahedral nanoparticles, and target-binding proteins.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
使用 ProteinMPNN 进行鲁棒的深度学习蛋白质序列设计 (Robust deep learning–based protein sequence design using ProteinMPNN)
1.2. 作者
Daup IAko, Beett, H. B JRott, F. Mll B I. W ACurtRJ.e HaasN.BeteJY. Leun1,T.FHu SPellockTi FChan, B. Koepnick², H. Nguye, A. Kang1 B. Sankaran, A . Bera N. P. King1 D. Baker12
1.3. 发表期刊/会议
Science。Science 是全球最具声望的科学期刊之一,与 Nature 齐名,发表在 Science 上的论文通常代表着相关领域的重大突破和前沿发现,具有极高的学术影响力。
1.4. 发表年份
2022年
1.5. 摘要
尽管深度学习已经彻底改变了蛋白质结构预测,但几乎所有经过实验表征的从头设计 (de novo design)蛋白质都是使用基于物理的方法(如 Rosetta)生成的。本文描述了一种基于深度学习的蛋白质序列设计方法 ProteinMPNN,该方法在计算模拟 (in silico)和实验测试中都表现出卓越的性能。在天然蛋白质骨架上,ProteinMPNN 的序列恢复率 (sequence recovery)为 52.4%,而 Rosetta 为 32.9%。不同位置的氨基酸序列可以在单链或多链之间耦合,从而能够应用于广泛的当前蛋白质设计挑战。通过 X 射线晶体学、冷冻电子显微镜 (cryo-electron microscopy, cryo-EM) 和功能研究,ProteinMPNN 成功挽救了先前使用 Rosetta 或 AlphaFold 失败的蛋白质单体、环状同寡聚体、四面体纳米颗粒和靶标结合蛋白的设计,充分展示了其广泛的实用性和高准确性。
1.6. 原文链接
/files/papers/69144b9031c24d12df06ec94/paper.pdf (发布状态:已正式发表)
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题
论文试图解决的核心问题是蛋白质序列设计 (protein sequence design),即在给定一个目标蛋白质骨架结构的情况下,找到一个能够稳定折叠成该结构的氨基酸序列。
2.1.2. 现有研究挑战与空白
- 深度学习在结构预测上的革命性进展与设计实践的脱节: 尽管深度学习在蛋白质结构预测(如 AlphaFold)方面取得了巨大成功,但绝大多数经过实验验证的
从头设计 (de novo design)蛋白质仍然依赖于基于物理的方法,例如 Rosetta。这表明在将深度学习的强大能力应用于实际的蛋白质设计(生成新序列)方面存在差距。 - 现有深度学习方法的局限性: 迄今为止描述的深度学习方法,通常只能应用于单体蛋白质骨架,并且尚未广泛应用于当前蛋白质设计面临的各种复杂挑战(如多链相互作用、对称性、蛋白质-蛋白质界面设计)。
- 缺乏充分的实验验证: 许多新兴的深度学习蛋白质设计方法缺乏充分的实验验证,其在实际生物环境中的表现仍然未知。
2.1.3. 本文的切入点与创新思路
本文的切入点是开发一种鲁棒 (robust)、高效且功能全面的深度学习蛋白质序列设计方法,旨在弥补深度学习在蛋白质结构预测和实际蛋白质设计之间的鸿沟。其创新思路在于:
- 扩展
消息传递神经网络 (Message-Passing Neural Network, MPNN): 在现有MPNN架构的基础上进行多项关键改进,使其能处理更复杂的骨架信息。 - 引入顺序无关的
自回归 (autoregressive)解码: 允许模型在推理时灵活地选择解码顺序,以支持更多样的设计场景,如固定区域设计、多链耦合等。 - 支持多链和对称性设计: 通过在训练和推理过程中引入链间和链内残基耦合的机制,使其能够应对同寡聚体、异寡聚体、重复蛋白和纳米颗粒等复杂结构的设计。
- 强化模型的鲁棒性: 通过在训练数据中引入骨架坐标噪声,提高模型对真实世界中不精确骨架结构的泛化能力,使其设计的序列能更好地折叠到目标结构。
- 广泛的实验验证: 不仅进行
计算模拟 (in silico)测试,更通过X射线晶体学 (x-ray crystallography)、冷冻电子显微镜 (cryo-EM)和功能研究 (functional studies)等多种实验方法,对多种复杂蛋白质设计任务进行全面验证,并成功“拯救”了先前失败的设计。
2.2. 核心贡献/主要发现
-
提出
ProteinMPNN方法: 开发了一种基于深度学习的蛋白质序列设计方法ProteinMPNN,其核心是一个改进的消息传递神经网络 (MPNN),能够从蛋白质骨架结构快速准确地生成氨基酸序列。 -
卓越的
序列恢复率 (sequence recovery): 在天然蛋白质骨架上,ProteinMPNN的序列恢复率达到 52.4%,显著优于基于物理的 Rosetta 方法(32.9%),并且计算效率极高(速度快约 200 倍)。 -
广泛的应用范围:
ProteinMPNN能够灵活地处理单体、环状寡聚体、重复蛋白、蛋白质纳米颗粒和蛋白质-蛋白质界面等多种设计挑战,并支持链内和链间的残基耦合,实现对称性设计。 -
实验验证的成功率高: 通过广泛的实验验证,
ProteinMPNN成功“拯救”了许多先前使用 Rosetta 或 AlphaFold 失败的设计。这包括:- 提高了 AlphaFold
幻觉 (hallucination)单体和同寡聚体设计的可溶性表达和正确折叠率。 - 成功设计出与设计模型高度一致的单体、环状寡聚体和纳米颗粒的晶体结构。
- 设计出具有特定功能(如 SH3 结构域结合)的蛋白质,表现出高亲和力和特异性。
- 提高了 AlphaFold
-
鲁棒性提升: 在训练时向骨架坐标添加噪声,可以提高模型对 AlphaFold 预测结构或真实设计应用中骨架微小扰动的鲁棒性,从而生成更稳定、更容易通过结构预测工具验证的序列。
-
优化了设计流程:
ProteinMPNN实现了蛋白质序列设计的自动化和高效化,大大缩短了设计周期,无需专家进行大量定制。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 蛋白质序列设计 (Protein Sequence Design)
概念定义: 蛋白质序列设计是指在给定一个目标蛋白质的三维骨架结构(或期望的拓扑结构)后,寻找一个能够稳定折叠成该目标结构,并可能具备特定功能的氨基酸序列的过程。这与蛋白质结构预测 (protein structure prediction)正好相反,结构预测是从已知序列推导结构,而序列设计是从已知结构推导序列。
3.1.2. 深度学习 (Deep Learning)
概念定义: 深度学习是机器学习 (machine learning)的一个子领域,其核心是人工神经网络 (artificial neural networks),特别是包含多层隐藏层(“深度”)的网络。这些网络通过从大量数据中学习复杂的模式来完成任务,如图像识别、自然语言处理和本文中的蛋白质序列设计。
3.1.3. 蛋白质结构预测 (Protein Structure Prediction)
概念定义: 蛋白质结构预测是指从蛋白质的氨基酸序列出发,推断其三维结构的过程。这是计算生物学中的一个长期挑战,因为序列与结构之间存在复杂的非线性关系。AlphaFold 等工具的出现极大推动了这一领域的发展。
3.1.4. Rosetta
概念定义: Rosetta 是一个广泛使用的、基于物理(或物理启发式 (physics-inspired))的计算蛋白质设计和建模软件包。它将蛋白质设计视为一个能量优化 (energy optimization)问题,通过搜索氨基酸类型和侧链旋转异构体 (rotameric states)的最佳组合,以期在给定骨架下找到能量最低的序列。其计算通常非常密集,需要显式考虑原子间相互作用。
3.1.5. 消息传递神经网络 (Message-Passing Neural Network, MPNN)
概念定义: 消息传递神经网络 (MPNN)是一种专门用于处理图结构数据的图神经网络 (Graph Neural Network, GNN)。在MPNN中,节点(例如,蛋白质中的氨基酸残基)通过在图中传递消息 (passing messages)来更新其特征表示。每个节点会从其邻居节点接收信息,并结合自身信息进行更新,这个过程会迭代多次,从而使节点能够聚合其局部邻域的信息。
工作原理:
- 消息函数 (Message Function): 对于图中的每条边
(u, v),节点 向节点 发送一个消息 。这个消息通常是节点 的特征、节点 的特征以及边(u, v)的特征的函数。 - 聚合函数 (Aggregation Function): 节点 聚合其所有邻居节点发送来的消息。聚合函数通常是求和、平均或最大值等操作。
- 更新函数 (Update Function): 节点 使用聚合后的消息和其自身的当前特征来更新其特征表示。
3.1.6. de novo 蛋白质设计 (De novo Protein Design)
概念定义: 从头设计,指从零开始设计蛋白质,而不是基于现有天然蛋白质的骨架或序列进行修改。目标是创造自然界中可能不存在的全新蛋白质结构和功能。
3.1.7. 序列恢复率 (Sequence Recovery)
概念定义: 序列恢复率是评估蛋白质序列设计方法性能的一个重要指标。它衡量的是在给定蛋白质骨架结构的情况下,模型预测(或设计)的氨基酸序列与目标序列(通常是天然序列)在相同位置上匹配的百分比。
计算方式: (详见 5.2 评估指标)
3.1.8. 原子 (Cα Atom)
概念定义: (Alpha Carbon)原子是氨基酸骨架中的一个关键原子。在除甘氨酸 (Glycine)以外的所有氨基酸中,原子都连接着氨基、羧基、侧链和氢原子。蛋白质的骨架结构通常通过其原子的坐标来简化表示。
3.1.9. 二面角 (Dihedral Angles)
概念定义: 二面角是描述分子中四个原子相对空间取向的一种角度。在蛋白质中,骨架二面角(如 , , )描述了相邻肽键之间的旋转自由度,是决定蛋白质三维结构的关键参数。
3.1.10. AlphaFold/RoseTTAFold
概念定义: AlphaFold 和 RoseTTAFold 是基于深度学习的蛋白质结构预测工具,它们在给定氨基酸序列的情况下,能够高精度地预测蛋白质的三维结构。
- AlphaFold: 由 DeepMind 开发,利用
注意力机制 (attention mechanism)和进化信息 (evolutionary information)(多序列比对,MSA)实现了前所未有的预测精度。 - RoseTTAFold: 由 Baker 实验室开发,结合了
端到端 (end-to-end)深度学习与物理建模 (physical modeling),也取得了非常高的精度。 与本文关联: 论文使用 AlphaFold 来评估ProteinMPNN生成序列的结构映射强度和准确性,尤其是在单序列输入条件下的预测能力。
3.1.11. lDDT (local-distance difference test)
概念定义: lDDT是一种评估蛋白质模型结构质量的度量,通过比较模型中所有原子对距离的相似性与参考结构中的距离相似性。它对局部结构扰动敏感,值越高表示结构越准确。
3.1.12. SEC (Size Exclusion Chromatography)
概念定义: 尺寸排阻色谱 (SEC)是一种层析技术 (chromatography technique),用于根据分子大小分离和分析蛋白质。蛋白质样品通过一个填充有微孔珠的柱子,小分子会进入珠子内部并被延迟,而大分子则直接通过柱子,因此大分子先被洗脱出来。SEC常用于确定蛋白质的寡聚状态 (oligomeric state)(例如,是单体、二聚体还是多聚体),以及评估蛋白质的纯度。
3.1.13. CD (Circular Dichroism)
概念定义: 圆二色性 (CD)光谱法是一种光学技术,用于测量蛋白质对手性偏振光的吸收差异。它对蛋白质的二级结构 (secondary structure)(如 α-螺旋 (α-helices)、β-折叠 (β-sheets) 和无规卷曲 (random coils))非常敏感。通过监测CD谱随温度的变化,可以评估蛋白质的热稳定性 (thermostability)。
3.1.14. RMSD (Root Mean Square Deviation)
概念定义: 均方根偏差 (RMSD)是衡量两个叠合的蛋白质结构之间原子位置平均差异的指标。通常用于比较设计结构与目标结构或实验结构。值越低表示结构越相似。
3.1.15. TM-score (Template Modeling Score)
概念定义: TM-score是一种衡量两个蛋白质结构拓扑相似性的指标,对局部结构差异不敏感,更关注整体折叠模式。值接近1表示结构非常相似,0.5通常被认为是相同折叠。
3.1.16. 生物层干涉法 (Biolayer Interferometry)
概念定义: 生物层干涉法 (Biolayer Interferometry, BLI)是一种光学技术 (optical technique),用于实时、无标记地测量分子间的相互作用,例如蛋白质与蛋白质、蛋白质与小分子之间的结合。它通过监测生物传感器探针表面光学干涉模式的变化来检测分子结合和解离。
3.2. 前人工作
3.2.1. 基于物理的方法:Rosetta
在 ProteinMPNN 之前,Rosetta 及其家族工具是从头设计和序列设计的事实标准 (de facto standard)。Rosetta 的核心思想是将序列设计问题建模为能量优化问题。它会搜索各种氨基酸身份和侧链旋转异构体 (rotameric states)的组合,以找到在给定骨架下具有最低能量的序列。
- 优点: 具有物理直观性,可以模拟原子间的相互作用。
- 缺点: 计算量大,需要显式枚举和评估大量的侧链构象;需要领域专家进行大量的定制和调优(例如,限制疏水残基在表面、处理边界区域的模糊性);通常难以处理多链和复杂对称性设计。在实际应用中,其序列恢复率相对较低。
3.2.2. 早期深度学习方法
近年来,深度学习方法开始应用于蛋白质序列设计。其中,ProteinMPNN 基于 Ingraham et al. (2019) 提出的消息传递神经网络 (MPNN)方法。
Ingraham et al. (2019)的MPNN: 这项工作首次描述了使用MPNN从蛋白质骨架结构预测氨基酸序列的自回归 (autoregressive)模型。它利用Cα-Cα距离、相对Cα-Cα-Cα帧方向和旋转以及骨架二面角作为输入特征。- 局限性: 早期深度学习方法主要集中于
单体设计 (monomer design)问题,并且通常具有较低的序列恢复率。此外,除了少数例外(如Anand et al., 2022关于三磷酸异构酶 (TIM) 桶 (TIM barrel)设计的案例),这些方法缺乏广泛的实验验证,特别是在晶体学和冷冻电镜 (cryo-EM)等结构生物学方法上的验证。 - 其他新兴方法: 还有一些其他基于深度学习的方法 (例如 Zhang et al., 2020; Jing et al., 2021) 也在探索蛋白质序列设计,但同样面临应用范围和实验验证的挑战。
3.3. 技术演进
蛋白质序列设计领域的技术演进经历了从经验规则、启发式方法到基于物理的力场 (force fields)优化,再到近年来由深度学习驱动的数据驱动 (data-driven)模型的转变。
- 早期方法 (经验和启发式): 最初的设计尝试依赖于对天然蛋白质序列和结构关系的经验观察和规则。
- 基于物理的方法 (Rosetta 等): 这是一个重要的里程碑。
Rosetta等工具将序列设计问题转化为复杂的能量最小化 (energy minimization)问题。通过构象搜索 (conformational search)和评分函数 (scoring functions),模拟原子间相互作用来预测最稳定的序列。这种方法提供了物理可解释性,但在计算效率和从头设计复杂性方面存在局限。 - 深度学习的兴起: 随着深度学习在
自然语言处理 (Natural Language Processing, NLP)和计算机视觉 (Computer Vision, CV)领域的成功,研究人员开始将其应用于生物学领域。- 结构预测的革命:
AlphaFold和RoseTTAFold等工具证明了深度学习在从序列预测结构方面的巨大潜力。 - 序列设计的初步探索: 像
Ingraham et al. (2019)这样的工作,将图神经网络 (Graph Neural Networks, GNNs)引入序列设计,展示了数据驱动模型直接学习结构-序列映射的可行性。
- 结构预测的革命:
ProteinMPNN的位置:ProteinMPNN代表了深度学习在蛋白质序列设计领域的一次重要飞跃。它在早期MPNN的基础上进行了关键改进,使其不仅在序列恢复率上显著超越传统方法,更重要的是,通过引入随机解码 (random decoding)、多链耦合 (multichain coupling)和噪声训练 (noise training)等策略,极大地扩展了深度学习方法在复杂蛋白质设计任务中的应用范围、鲁棒性和实验成功率。它将深度学习在结构预测上的优势,有效地转化为了在从头序列设计上的强大能力,并提供全面的实验验证,为该领域树立了新的最先进 (state-of-the-art)基准。
3.4. 差异化分析
| 特征/方法 | Rosetta (基于物理) | 早期深度学习方法 (如 Ingraham MPNN) | ProteinMPNN (本文) |
|---|
4. 方法论
4.1. 方法原理
ProteinMPNN 的核心思想是利用消息传递神经网络 (MPNN),直接学习从蛋白质骨架结构到氨基酸序列的映射 (mapping)。与基于物理的方法(如 Rosetta)通过显式计算能量来优化序列不同,ProteinMPNN 采用数据驱动 (data-driven)的方式,从大量的已知蛋白质结构-序列对中学习统计规律。
其基本原理可以概括为:
-
图表示: 将蛋白质骨架表示为一个图,其中每个氨基酸残基是一个
节点 (node),残基之间的空间关系被编码为边 (edge)。 -
特征提取: 从骨架中提取丰富的几何特征,包括原子距离、相对方向和二面角等,作为
节点和边的初始特征。 -
消息传递: 利用
MPNN进行迭代的消息传递,使得每个残基节点能够聚合其局部环境的几何信息,形成上下文敏感的特征表示。 -
顺序无关的
自回归 (autoregressive)解码: 通过一个解码器 (decoder),根据编码后的骨架特征和部分已生成的序列,预测下一个待设计位置的氨基酸。关键之处在于,ProteinMPNN采用顺序无关 (order-agnostic)的策略,即解码顺序是随机采样的,这大大增加了模型的灵活性和适用性。 -
耦合与对称性: 引入机制来耦合
单链 (single-chain)或多链 (multiple-chain)中相应位置的氨基酸身份,从而能够设计具有特定对称性 (symmetry)(如环状寡聚体、重复蛋白)的蛋白质。 -
鲁棒性训练: 在训练过程中向骨架坐标添加微小的
高斯噪声 (Gaussian noise),以提高模型对真实世界中骨架微扰的鲁棒性和泛化能力 (generalization capability)。通过这些改进,
ProteinMPNN能够高效、准确且鲁棒地解决各种蛋白质序列设计问题,超越了传统方法和早期深度学习方法的局限。
4.2. 核心方法详解 (逐层深入)
ProteinMPNN 的架构如下图 Fig. 1 所示,它是一个基于消息传递神经网络 (MPNN)的编码器-解码器 (encoder-decoder)模型,用于从蛋白质骨架结构生成氨基酸序列。
该图像是ProteinMPNN的架构示意图。图中展示了用于蛋白质序列设计的背骨编码器和序列解码器。本模型通过消息传递神经网络处理氨基酸间的距离信息,并实现随机解码以生成蛋白质序列,支持多链与对称设计。
Fig. 1. ProteinMPNN architecture. (A) Distances between N, Cα, C, O, and virtual are encoded and processed using a message-passing neural network (Encoder) to obtain graph node and edge features. The encoded features, together with a partial sequence, are used to generate amino acids iteratively in a random decoding order. (B) A fixed left-to-right decoding cannot use sequence context (green) for preceding positions (yellow), whereas a model trained with random decoding orders can be used with an arbitrary decoding order during the inference. The decoding order can be chosen such that the fixed context is decoded first. (c) Residue positions within and between chains can be tied together, enabling symmetric, repeat protein, and multistate design. In this example, a homotrimer is designed with the coupling of positions in different chains. Predicted unnormalized probabilities for tied positions are averaged to get a single probability distribution from which amino acids are sampled.
4.2.1. 输入特征编码 (Input Feature Encoding)
模型的输入是蛋白质的骨架结构。ProteinMPNN 首先从这些骨架中提取几何特征。
-
Baseline Model 的输入特征: 最初的
消息传递神经网络 (MPNN)模型(本文称之为Baseline model)使用以下特征作为输入:Cα-Cα原子间的距离 ()。- 相对的
Cα-Cα-Cα帧方向和旋转 ()。 - 骨架
二面角 (backbone dihedral angles)。
-
Experiment 1 (新增输入特征): 为了提高模型性能,
ProteinMPNN额外引入了更丰富的骨架原子间距离信息。除了 原子,还包括了 、、 原子以及一个虚拟 Cβ (virtual Cβ)原子。- (氮原子): 肽键中的氨基氮。
- (Alpha 碳原子): 连接氨基、羧基、侧链和氢原子的关键骨架原子。
- (碳原子): 肽键中的羧基碳。
- (氧原子): 肽键中的羰基氧。
虚拟 Cβ (virtual Cβ): 是连接在上的第一个侧链原子。在甘氨酸 (Glycine)中没有。虚拟 Cβ是通过、和原子的位置几何计算得出的,用于为甘氨酸之外的氨基酸提供侧链方向的粗略信息。 目的: 作者发现,引入这些额外的原子距离特征 () 可以将序列恢复率从基线模型的 41.2% 提高到 49.0% (见Table 1)。这表明这些原子间的距离为捕获残基间相互作用提供了更好的归纳偏置 (inductive bias),比单独使用二面角或N-Cα-C帧方向更有效。
4.2.2. 编码器 (Encoder)
ProteinMPNN 的编码器是一个消息传递神经网络 (MPNN),用于处理输入的骨架特征,提取出上下文敏感的图节点 (graph node)和图边缘 (graph edge)特征。
-
网络结构: 模型包含三个
编码器层 (encoder layers)和三个解码器层 (decoder layers),以及 128 个隐藏维度 (hidden dimensions)。 -
消息传递过程:
MPNN的工作原理是迭代地更新节点和边缘的特征表示。 假设在 时刻,节点 的特征为 ,边(i, j)的特征为 。- 消息计算: 节点 向其邻居 发送消息 。 其中 是一个消息函数(通常是一个神经网络层)。
- 消息聚合: 节点 聚合所有来自其邻居 的消息 。
- 节点更新: 节点 根据聚合的消息和其自身的当前特征来更新其特征 。
其中 是一个更新函数(通常是一个
门控循环单元 (Gated Recurrent Unit, GRU)或长短期记忆网络 (Long Short-Term Memory, LSTM))。
-
Experiment 2 (编码器边缘更新): 除了
节点更新 (node updates),ProteinMPNN还引入了边缘更新 (edge updates)机制。这意味着在消息传递过程中,图的边缘特征 (edge features)也会根据连接节点的特征进行更新。 目的: 引入边缘更新可以将序列恢复率从基线模型的 41.2% 提高到 43.1% (见Table 1)。这有助于模型更好地捕捉和区分不同类型或强度的残基间相互作用。 -
Experiment 3 (结合特征和边缘更新): 将
Experiment 1中新增的输入特征与Experiment 2中的边缘更新结合,序列恢复率进一步提高到 50.5% (见Table 1)。 -
邻居数量的优化: 作者测试了不同数量的最近邻居(16, 24, 32, 48, 64)对模型性能的影响,发现性能在 32 到 48 个邻居时达到饱和。这意味着
局部连接图神经网络 (locally connected graph neural networks)足以准确地建模结构到序列映射 (structure-to-sequence mapping)问题,因为一个氨基酸在特定位置的最优性主要由其直接蛋白质环境 (immediate protein environment)决定。
4.2.3. 解码器 (Decoder)
解码器利用编码器输出的骨架特征以及部分已生成的序列信息,迭代地生成氨基酸序列。
- Experiment 4 (顺序无关的随机解码):
传统的
自回归模型通常采用固定的解码顺序(例如,从 端到 端)。ProteinMPNN将这种固定顺序替换为顺序无关的自回归模型,其中解码顺序 (decoding order)是从所有可能的排列 (permutations)中随机采样 (randomly sampled)的。 优点 (见Fig. 1B和Table 1):- 性能提升:
随机解码带来了适度的序列恢复率提升,从 50.5% (Experiment 3) 提高到 50.8% (Experiment 4)。 - 灵活性: 允许在推理时使用
任意解码顺序 (arbitrary decoding order)。这对于以下场景至关重要:- 固定区域设计: 例如,当蛋白质序列的中间部分是固定的(如
蛋白质结合子 (protein binder)设计中已知的靶标序列 (target sequence)),而其余部分需要设计时,模型可以跳过固定区域的解码,但仍将它们作为序列上下文 (sequence context)纳入考虑。 - 多链设计中的等变性: 确保模型对于蛋白质链的顺序具有
等变性 (equivariant)。为此,模型保留了每链相对位置编码 (per chain relative positional encoding)(限制在 残基),并添加了一个二进制特征 (binary feature),指示相互作用的残基是否来自同一条链。
- 固定区域设计: 例如,当蛋白质序列的中间部分是固定的(如
- 性能提升:
4.2.4. 对称性与耦合 (Symmetry and Coupling)
ProteinMPNN 引入了强大的机制,允许在设计过程中耦合 (tie together)相应位置的残基身份,从而支持对称性设计。
-
实现方式 (见
Fig. 1C): 对于需要耦合的残基位置(例如,同源二聚体中两个链的对应位置 和 ),ProteinMPNN首先分别预测这些位置的非归一化概率 (unnormalized probabilities)。然后,它将这些预测平均,以构建一个单一的归一化概率分布 (single normalized probability distribution),从中采样 (sample)一个氨基酸作为这些耦合位置的共同氨基酸。 其中 是耦合位置的数量, 是第 个耦合位置预测的氨基酸 的logit值(非归一化概率的对数)。 -
应用场景:
- 同源寡聚体设计 (Homooligomer Design): 确保同源寡聚体中每个亚基的对应位置具有相同的氨基酸序列。
- 假对称序列设计 (Pseudosymmetric Sequence Design): 允许链内或链间残基在特定模式下被约束。
- 重复蛋白设计 (Repeat Protein Design): 确保每个重复单元的序列一致。
- 多状态设计 (Multistate Design): 设计单个序列以编码两种或更多所需状态。这可以通过预测每个状态的
非归一化概率并进行平均来实现。更一般地,可以使用带有正负系数的非归一化概率的线性组合来加权 (upweight)或减权 (downweight)特定的骨架状态,从而实现明确的正向 (positive)或负向 (negative)序列设计。
4.2.5. 训练策略 (Training Strategy)
-
训练数据集:
- 单链模型训练: 使用
蛋白质数据银行 (Protein Data Bank, PDB)中 19,700 个高分辨率的单链结构 (single-chain structures)。这些结构根据CATH (8)蛋白质分类数据库被划分为训练、验证和测试集 (80/10/10)。 - 多链和对称性感知模型训练: 为了更好地处理多链和
蛋白质组件 (protein assemblies),ProteinMPNN在 PDB 中(截至 2021 年 8 月 2 日)通过X射线晶体学 (x-ray crystallography)或冷冻电子显微镜 (cryo-EM)确定且分辨率优于 3.5 Å、残基数少于 10,000 的蛋白质组件上进行训练。
- 单链模型训练: 使用
-
训练噪声 (Training with Backbone Noise):
ProteinMPNN探索了一种创新的训练策略:在训练时向骨架坐标添加高斯噪声 (Gaussian noise)(标准差 )。 目的与影响 (见Table 1和Fig. 2C):-
提高鲁棒性: 虽然在未扰动的 PDB 结构上,添加噪声会略微降低
序列恢复率,但它显著提高了模型在由AlphaFold生成的置信度高 (confident)的蛋白质结构模型上的序列恢复率。 -
泛化到不精确骨架: 这种策略使模型更加鲁棒,能够应对真实世界应用中骨架几何结构不完全精确的情况。通过模糊局部细节,模型更关注整体
拓扑特征 (topological features),例如极性-非极性 (polar-nonpolar)序列模式,从而生成更稳定且更能被结构预测工具(如AlphaFold)准确解码的序列。 -
对于
AlphaFold预测的结构模型,训练时引入较大噪声的模型通常能生成更高成功率的序列。 例如,用 0.3 Å 噪声训练的模型,在 和 的准确率下,生成的序列能获得两到三倍的AlphaFold预测成功率。这对于在蛋白质设计中通过预测过滤 (prediction-based filters)选择设计非常有利。
-
5. 实验设置
5.1. 数据集
5.1.1. 训练数据集
- 单链模型训练: 使用来自
蛋白质数据银行 (PDB)的 19,700 个高分辨率单链结构。这些结构基于CATH (8)蛋白质分类数据库,按 80/10/10 的比例划分为训练集、验证集和测试集。 - 多链和对称性感知模型训练: 在 PDB 中(截至 2021 年 8 月 2 日)通过
X射线晶体学 (x-ray crystallography)或冷冻电子显微镜 (cryo-EM)确定且分辨率优于 3.5 Å、残基数少于 10,000 的蛋白质组件上进行训练。
5.1.2. 测试数据集
计算模拟 (in silico)模型性能评估:- 单体骨架: 402 个单体骨架。
- 各种构型: 690 个单体、732 个同聚体(残基数少于 2000)、98 个异聚体。
- AlphaFold 预测骨架: 从
UniRef50数据库中随机选择的 5000 个AlphaFold蛋白质骨架模型,这些模型的平均预测局部距离差异测试 (predicted local-distance difference test, lDDT)> 80.0。
实验验证 (experimental evaluation):- AlphaFold 幻觉蛋白骨架: 一组由
AlphaFold幻觉生成的单体和同寡聚体骨架 ()。 - Rosetta 亚优化重复蛋白结构: 之前使用
Rosetta设计的重复蛋白 (repeat protein)结构中表现不佳的设计。 - Rosetta 生成的环状寡聚体骨架: 一组
C5和C6环状寡聚体骨架。 - Rosetta 设计的四面体纳米颗粒骨架: 一组此前已描述的两组分四面体设计 (
T33-27),涉及 27 种纳米颗粒骨架,共设计了 76 个序列。 - Rosetta 设计的靶标结合蛋白骨架: 为
SH3 结构域 (SH3 domain)结合聚脯氨酸 II 螺旋 (polyproline II helix)基序而生成的骨架。
- AlphaFold 幻觉蛋白骨架: 一组由
5.2. 评估指标
论文中使用了多种评估指标来衡量 ProteinMPNN 的性能,包括计算模拟和实验指标。
5.2.1. 序列恢复率 (Sequence Recovery)
- 概念定义:
序列恢复率是衡量蛋白质序列设计方法准确性的主要计算模拟指标。它表示在给定蛋白质骨架结构的情况下,模型预测(或设计)的氨基酸序列与天然(或目标)序列在相应位置上匹配的百分比。 - 数学公式:
- 符号解释:
Number of Correctly Predicted Amino Acids: 模型预测的氨基酸与参考序列(如天然蛋白质序列)在同一位置上完全匹配的氨基酸数量。Total Number of Amino Acids in Sequence: 蛋白质序列中的总氨基酸数量。
5.2.2. 困惑度 (Perplexity)
- 概念定义: 在
自然语言处理 (NLP)中,困惑度通常用于衡量语言模型对序列的预测能力。在蛋白质序列设计中,它表示每残基分类交叉熵损失 (exponentiated categorical cross-entropy loss per residue)。困惑度值越低,表示模型对下一个氨基酸的预测越自信和准确。 - 数学公式:
- 符号解释:
- : 蛋白质序列中的氨基酸总数。
- : 可能的氨基酸种类数(通常为 20 种天然氨基酸)。
- : 一个
指示变量 (indicator variable)。如果第 个位置的真实(目标)氨基酸是第 种氨基酸,则 ,否则 。 - : 模型预测的第 个位置是第 种氨基酸的概率。
5.2.3. lDDT (local-distance difference test)
- 概念定义:
lDDT是一种衡量蛋白质三维结构模型质量的度量。它通过比较模型中所有原子对距离的相似性与参考(真实)结构中的距离相似性来评估。lDDT对局部结构差异非常敏感,取值范围通常在 0 到 1 之间,值越高表示结构越准确。 - 数学公式 (补充自权威资料):
- 符号解释:
- : 蛋白质中的残基总数(通常只考虑 原子)。
- : 残基 的所有邻居残基的数量。
- : 残基 的所有邻居残基集合(通常基于距离阈值定义)。
- : 模型结构中残基 和 的 原子之间的距离。
- : 参考结构(真值)中残基 和 的 原子之间的距离。
- :
指示函数 (indicator function)。如果括号内的条件为真,则为 1,否则为 0。 - : 距离差异的
截止值 (cutoff),通常取 0.5 Å, 1 Å, 2 Å, 4 Å。lDDT统计在这些不同截止值下满足距离差异条件的邻居对的比例。
5.2.4. RMSD (Root Mean Square Deviation)
- 概念定义:
均方根偏差 (RMSD)是衡量两个叠合(对齐)的蛋白质结构之间原子位置平均差异的常用指标。它量化了两个结构在空间上的相似程度。RMSD值越低,表示两个结构越相似。 - 数学公式:
- 符号解释:
- : 用于比较的原子对数量(例如,所有 原子)。
- : 模型结构中第 个原子的三维坐标向量。
- : 参考结构中第 个原子的三维坐标向量。
- : 欧几里得距离的平方。
5.2.5. TM-score (Template Modeling Score)
- 概念定义:
TM-score是一种衡量两个蛋白质结构整体拓扑相似性 (topological similarity)的指标。它对局部结构差异不敏感,更关注蛋白质的整体折叠模式。TM-score取值范围在 0 到 1 之间,1 表示两个结构完全相同,通常 被认为是具有相似折叠 (fold)。 - 数学公式 (补充自权威资料):
- 符号解释:
- : 目标(参考)蛋白质的残基数。
- : 两个结构中共同比对上的残基数。
- : 在最佳叠合后,第 对共同残基(通常是 原子)之间的距离。
- : 一个
距离尺度参数 (distance scale parameter),用于归一化距离差异。它通常根据目标蛋白质的长度计算,例如 。
5.2.6. 可溶性产量 (Soluble Yield)
- 概念定义:
可溶性产量是实验指标,用于评估在大肠杆菌 (E. coli) 中表达的蛋白质能够以可溶形式获得的量。它是衡量蛋白质表达 (expression)和溶解度 (solubility)成功率的关键指标。 - 测量方式: 通过
镍-NTA (nickel-NTA)纯化蛋白质后,使用尺寸排阻色谱 (SEC)的迹线 (traces)下的积分面积来计算总可溶性蛋白产量 (total soluble protein yield)。通常以每升培养物当量多少毫克 (mg/L) 来表示。
5.3. 对比基线
论文主要将 ProteinMPNN 的性能与以下基线模型进行了比较:
-
Rosetta: 作为
基于物理的 (physically based)蛋白质序列设计的行业标准 (industry standard)。具体地,在序列恢复率比较中,作者使用了Rosetta的固定骨架组合序列设计 (fixed backbone combinatorial sequence design)方法,进行一轮PackRotamersMover (11, 12)(默认选项)并结合beta_nov16评分函数 (score function)。 -
AlphaFold (用于幻觉和验证): 尽管
AlphaFold主要是结构预测工具,但论文在两个方面将其用作基线或参考:- 幻觉骨架的生成: 使用
AlphaFold幻觉生成初始的蛋白质骨架和序列,这些初始设计通常可溶性 (solubility)差,ProteinMPNN的任务是“拯救”这些失败的设计。 - 序列到结构映射的验证:
AlphaFold被用作一个独立的工具来评估ProteinMPNN生成的序列是否能够准确地折叠回目标骨架。论文比较了ProteinMPNN序列与原始天然序列在AlphaFold预测准确性上的差异。
- 幻觉骨架的生成: 使用
-
早期深度学习方法: 论文虽然没有直接与具体的早期深度学习模型进行详细的定量比较,但明确指出其工作是基于
Ingraham et al. (2019)提出的消息传递方法,并通过一系列改进(如增加输入特征、边缘更新、随机解码)超越了这些早期方法的性能和应用范围。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. ProteinMPNN 与 Rosetta 的计算模拟性能对比
-
序列恢复率: 在 402 个单体骨架的测试集上,
ProteinMPNN的序列恢复率达到 52.4%,远高于 Rosetta 的 32.9%。 -
计算效率:
ProteinMPNN仅需 Rosetta 计算时间的一小部分 (a small fraction)(每 100 个残基,ProteinMPNN在单个 CPU 上需 1.2 秒,而 Rosetta 需 258.8 秒)。 -
残基埋藏程度的影响: 如
Fig. 2A所示,ProteinMPNN在从蛋白质核心到表面的所有残基埋藏程度 (residue burial)上均优于 Rosetta。这意味着ProteinMPNN无论在内部高度紧密的区域还是在外部暴露的区域,都能更准确地预测氨基酸。
该图像是图表,展示了 ProteinMPNN 设计的结构特征。图 (A) 比较了使用 AlphaFold 和 ProteinMPNN 设计的蛋白质在大肠杆菌中的可溶性蛋白产量。图 (B) 显示了不同温度下的圆二色性谱 (MRE);图 (C) 则呈现了原始设计与 ProteinMPNN 设计的尺寸排阻色谱 (SEC) 比较。图 (D) 显示了设计模型与晶体结构的对比,在 (E) 和 (G) 中展示了链内和链间的结合结构。图 (F) 和 (H) 进一步分析了各种设计的 SEC 数据。
Fig. 2. In silico evaluation of ProteinMPNN. ProteinMPNN has higher native sequence recovery than Rosetta. The average distance of the eight closest neighbors (x axis) reports on burial, with the most-buried positions on the left and the more-exposed positions on the riht; ProteinMPNN outperforms Rosetta at all levels f burial. Average sequence reovery for ProteinMPNN was compared with for Rosetta. () ProteinMPNN has high sequence recovery for monomers and for both homo-oligomer and hetero-oligomer interfaces violin plots are for 690 monomers, 732 homomers, and 98 heteromers. Sequence recovery (black) and relative AlphaFold success rates (blue) as a function of training noise level. For higher accuracy predictions (circles), smaller amounts of noise are optimal (1.0 corresponds to a success rate), whereas to maximize prediction success at a lower accuracy cutoff (squares), models trained with more noise are better (1.0 corresponds to a success rate). D) Sequence rveryaiversitction temperature. Redesign of native protein backbones with ProteinMPNN considerably increases AphaFold prediction accuracy compared with the original native sequence using no multiple sequence information. Single sequences (designed or native) were input in both cases. Dark orange indicates overlap. ProteinMPNN redesign of previous Rosettadesigned NTF2 fold proteins (3000 backbones in total) results in considerably improved AlphaFold single-sequence prediction accuracy. Dark orange indicates overlap.
6.1.2. ProteinMPNN 在不同构型上的性能
- 在包含 690 个单体、732 个同聚体和 98 个异聚体的测试集上,
ProteinMPNN的中位序列恢复率分别为单体 52%、同聚体 55% 和异聚体 51% (见Fig. 2B)。 - 在
界面残基 (interface residues)上,同聚体的中位序列恢复率为 53%,异聚体为 51%。 序列恢复率与残基埋藏程度密切相关,从深度核心区域的 90-95% 到表面的 35% 不等。这表明局部几何上下文信息量越大,残基的预测就越准确 (fig. S1B)。
6.1.3. 训练时骨架噪声的影响
- 对
序列恢复率的影响: 如Table 1所示,在训练时向骨架添加高斯噪声 (SD=0.02 Å),会降低在未扰动 PDB 结构上的序列恢复率(例如,基线模型从 41.2% 降至 40.1%),但却提高了在AlphaFold生成的高置信度模型上的序列恢复率(例如,基线模型从 41.4% 升至 41.4% (此处无变化,但对其他模型有提升),Experiment 1从 45.7% 升至 47.4%)。 - 对
AlphaFold预测准确性的影响: 如Fig. 2C所示,在训练时加入噪声可以提高AlphaFold对ProteinMPNN生成序列的 3D 坐标解码鲁棒性 (robustness)。用更高噪声训练的模型(例如 0.3 Å 噪声)生成的序列,在 和 的截止值 (cutoffs)下,能获得 2-3 倍的AlphaFold预测成功率。这表明噪声训练使模型更关注整体拓扑特征 (topological features)而非局部结构细节,从而增强了设计的泛化能力 (generalization)。
6.1.4. ProteinMPNN 序列与天然序列的AlphaFold预测准确性对比
ProteinMPNN为天然骨架设计的序列,能被AlphaFold更自信、更准确地预测回这些结构,优于原始天然序列 (见Fig. 2E)。这表明ProteinMPNN生成的序列对目标结构的编码 (encode)更强,因为进化 (evolution)通常不以稳定性为优化目标。- 在
从头设计的配体结合口袋 (ligand binding pocket)支架上,原始设计序列仅有 2.7% 能被AlphaFold预测折叠到目标结构,而经过ProteinMPNN重新设计后,这一比例提高到 54.1% (见Fig. 2F)。这极大地提升了这些支架在小分子结合和酶功能设计中的实用性 (utility)。
6.1.5. 序列多样性与质量控制
- 提高
推理温度 (inference temperature)可以显著增加ProteinMPNN生成序列的多样性 (diversity),同时仅导致序列恢复率的微小下降 (见Fig. 2D)。 ProteinMPNN派生出的序列质量衡量指标(给定结构的序列平均对数概率 (averaged log probability))与天然序列恢复率在不同温度下表现出强相关性 (fig. S3A),这可用于快速排序和选择进行实验表征 (experimental characterization)的序列。
6.1.6. ProteinMPNN 设计的实验验证(挽救失败的设计)
ProteinMPNN 在多种复杂蛋白质设计任务中成功挽救了先前失败的设计。
-
AlphaFold
幻觉单体和同寡聚体的拯救:- 问题:
AlphaFold幻觉生成的蛋白质序列,在大肠杆菌中表达时大多不可溶(中位可溶性产量 (soluble yield)仅 9 mg/L)。 - 拯救结果 (见
Fig. 3A, C):ProteinMPNN对这些骨架重新设计的序列,大大提高了表达成功率:在 96 个尝试表达的设计中,73 个可溶(中位可溶性产量达 247 mg/L),50 个具有目标单体或寡聚体状态。许多蛋白质具有高热稳定性 (thermostability)(见Fig. 3B)。 - 晶体结构验证 (见
Fig. 3D): 一个ProteinMPNN设计的单体晶体结构(PDB ID 8CYK)与设计模型高度一致(130 个残基的RMSD为 2.35 Å),证明了其准确性。
- 问题:
-
重复蛋白设计:
ProteinMPNN利用其灵活的解码顺序和残基耦合能力,成功挽救了许多先前Rosetta亚优化设计的重复蛋白结构。一个例子展示了ProteinMPNN重设计的序列在AlphaFold预测下与设计模型高度匹配 (见Fig. 3E),并且尺寸排阻色谱 (SEC)显示出正确的组装状态 (见Fig. 3F)。
-
结合环状和内部重复对称性设计:
- 问题:
Rosetta设计的C5和C6环状寡聚体,只有 4/10 可溶,且无一具有正确的寡聚态。 - 拯救结果 (见
Fig. 3G, H, I, J):ProteinMPNN通过在链内和链间耦合残基来强制执行重复蛋白和环状对称性。结果,18 个设计中有 16 个可溶,5 个具有正确的寡聚态。一个设计的负染电子显微镜 (negative-stain EM)图像与设计模型高度吻合。
- 问题:
-
蛋白质纳米颗粒设计:
- 问题: 之前
Rosetta设计的两组分四面体纳米颗粒 (two-component tetrahedral nanoparticle)(T33-27)需要大量计算和手动优化才能成功。 - 拯救结果 (见
Fig. 3K):ProteinMPNN为 27 个这些骨架设计了 76 个序列,无需进一步干预。其中 13 个设计成功组装成预期分子量(约 1 MDa)的纳米颗粒。一个设计的晶体结构与设计模型高度一致(两个不对称单元的骨架 为 1.2 Å)。
- 问题: 之前
-
功能蛋白设计(SH3 结构域结合蛋白):
-
问题:
Rosetta设计的聚脯氨酸 II 螺旋 (PPPRPPK)基序支架蛋白,旨在结合Grb2 SH3结构域,但表达后未能折叠成结合结构。 -
拯救结果 (见
Fig. 4):ProteinMPNN在固定核心SH3结合基序 (PPPRPPK) 的情况下,为相同骨架生成新序列。生物层干涉法 (Biolayer interferometry)实验显示,ProteinMPNN设计的蛋白与Grb2 SH3结构域有强结合,信号远高于游离富脯氨酸肽 (proline-rich peptide)。点突变可完全消除结合信号,证明了设计的特异性。
该图像是图示,展示了使用ProteinMPNN设计蛋白质功能的过程,包括原生肽与SH3结构域的结合,使用Rosetta进行重建与优化,以及ProteinMPNN的重设计成果。实验部分用生物层干涉法测定不同浓度肽的结合信号,并比较了不同设计的效果。
-
Fig. 4. Design of protein function with ProteinMPNN. (A) Design scheme. The first panel shows the structure (PDB ID 2W0Z) of a fragment of Gab2 peptide bound to the human Grb2 C-term SH3 domain (core SH3-binding motif PPPRPPK is in green; the target is rendered with surface and colored blue). In the second panel,helical bundle scaffolds were docked to the exposed face f the peptideusing RIFDOCK , and Rosetta remodel was used to build loops connecting the peptide to the scaffolds. Rosetta sequence design with layer design task operations was used to optimize the sequence of the fusion (cyan) for stability, rigidity of the peptide-helical bundle interface, and binding affinity for the Grb2 SH3 domain. The third panel shows the ProteinMPNN redesign (orange) of the designed binder sequence; hydrogen bonds involving asparagine side chains between the peptide and base scaffold are shown in green and in the inset. In the fourth panel, mutation of the twoasparaginesaspartates disupts he scaffolding the et peptide. B) Experimental characterization of bindingusing biolayer interferometry. Biotinylated C-terminal SH3 domain from human Grb2 was loaded onto Streptavidin (SA) Biosensors, which were then immersed in solutions containing varying concentrations of SH3-binding peptide AIAPPPRPPKPSQ (first panel; A, alanine; I, isoleucine; S, serine; Q, glutamine) or of the designs (second to fourth panels) and then transferred to buffer lacking added protein for dissociation measurements. The ProteinMPNN design (third panel) has much greater binding signal than the original Rosetta design (second panel); this is greatly reduced by the asparagine-toaspartate mutations (fourth panel).
6.2. 数据呈现 (表格)
以下是原文 Table 1 的结果:
| Noise level when training: 0.00 Å/0.02 Å | Modification | Number of parameters in millions | PDB test accuracy (%) | PDB test perplexity | AlphaFold model accuracy (%) | |||
| 0.00 Å | 0.02 Å | 0.00 Å | 0.02 Å | 0.00 Å | 0.02 Å | |||
| Baseline model | None | 1.381 | 41.2 | 40.1 | 6.51 | 6.77 | 41.4 | 41.4 |
| Experiment 1 | Add N, Cα, C, Cβ, O distances | 1.430 | 49.0 | 46.1 | 5.03 | 5.54 | 45.7 | 47.4 |
| Experiment 2 | Update encoder edges | 1.629 | 43.1 | 42.0 | 6.12 | 6.37 | 43.3 | 43.0 |
| Experiment 3 | Combine 1 and 2 | 1.678 | 50.5 | 47.3 | 4.82 | 5.36 | 46.3 | 47.9 |
| Experiment 4 | Experiment 3 with random decoding | 1.678 | 50.8 | 47.9 | 4.74 | 5.25 | 46.9 | 48.5 |
6.2.1. 表格分析 (Table 1)
Table 1 展示了 ProteinMPNN 模型在天然蛋白质序列恢复方面的性能改进。表格中比较了在无噪声训练 (0.00 Å) 和有噪声训练 (0.02 Å) 两种条件下,不同模型修改对 PDB 测试准确性 (%)、PDB 测试困惑度和 AlphaFold 模型准确性 (%) 的影响。
-
基线模型 (Baseline model):
- 在无噪声训练下,
序列恢复率为 41.2%,困惑度为 6.51。 - 在有 0.02 Å 噪声训练下,
序列恢复率略微下降至 40.1%,困惑度上升至 6.77。 - 对
AlphaFold模型预测的骨架,两种训练条件下的序列恢复率均为 41.4%。
- 在无噪声训练下,
-
Experiment 1 (添加 N, Cα, C, Cβ, O 原子间距离):
- 引入更多骨架几何特征后,
PDB 序列恢复率显著提高到 49.0% (无噪声) 和 46.1% (有噪声),困惑度也大幅降低。 - 在
AlphaFold模型上的序列恢复率也分别提高到 45.7% 和 47.4%。这表明更精细的骨架几何信息能有效提升模型对结构-序列映射的学习能力。
- 引入更多骨架几何特征后,
-
Experiment 2 (更新编码器边缘):
- 仅引入
编码器边缘更新,PDB 序列恢复率提高到 43.1% (无噪声) 和 42.0% (有噪声)。相较于Experiment 1,提升幅度较小,但仍然是正向贡献。这说明边缘特征的动态更新有助于捕捉更复杂的残基间相互作用。
- 仅引入
-
Experiment 3 (结合 Experiment 1 和 Experiment 2):
- 结合这两项改进后,模型性能进一步提升。
PDB 序列恢复率达到 50.5% (无噪声) 和 47.3% (有噪声),困惑度降至 4.82 和 5.36。 AlphaFold模型上的序列恢复率也达到 46.3% 和 47.9%。这表明这些改进是互补 (complementary)的,共同作用能带来更强的性能。
- 结合这两项改进后,模型性能进一步提升。
-
Experiment 4 (Experiment 3 结合随机解码):
- 在
Experiment 3的基础上引入随机解码机制后,PDB 序列恢复率再次微幅提升至 50.8% (无噪声) 和 47.9% (有噪声),困惑度进一步降低。 AlphaFold模型上的序列恢复率也达到 46.9% 和 48.5%,是所有模型中最高的。这不仅提高了性能,还赋予了模型更大的设计灵活性 (design flexibility)。
- 在
-
训练噪声的影响总结:
- 从表格中可以清晰看出,无论哪种模型配置,在
PDB 测试集上,无噪声训练的序列恢复率(例如 50.8%)总是略高于有 0.02 Å 噪声训练的序列恢复率(例如 47.9%)。这说明晶体结构本身可能包含一些氨基酸身份 (amino acid identity)的“记忆”,而噪声会模糊这些细节。 - 然而,在
AlphaFold 模型测试集上,有 0.02 Å 噪声训练的模型(例如 48.5%)通常能达到与无噪声训练模型(例如 46.9%)相当甚至更高的序列恢复率。这证实了论文的观点,即噪声训练提高了模型对真实世界中不完美骨架的鲁棒性和泛化能力,使其生成的序列更能被AlphaFold准确预测。
- 从表格中可以清晰看出,无论哪种模型配置,在
6.3. 消融实验/参数分析
论文通过Table 1进行了消融实验 (ablation studies),系统地评估了 ProteinMPNN 各个组件对模型性能的贡献:
-
输入特征的影响:
Experiment 1证明了增加 原子间距离作为输入特征,能够显著提高序列恢复率和降低困惑度。 -
编码器边缘更新的影响:
Experiment 2表明在编码器中引入边缘更新机制也能带来性能提升,尽管幅度小于Experiment 1。 -
组合效应:
Experiment 3证明了这两项改进的组合具有叠加效应 (synergistic effect),进一步提升了模型性能。 -
随机解码的影响:
Experiment 4突出了随机解码策略的重要性,它不仅微幅提升了序列恢复率和降低了困惑度,更重要的是增强了模型的设计灵活性和对AlphaFold预测结构的鲁棒性。除了
Table 1所示的消融实验,论文还进行了其他参数分析: -
邻居数量的分析 (fig. S1A): 作者测试了 16、24、32、48 和 64 个最近 邻居对模型性能的影响,发现性能在 32 到 48 个邻居时达到饱和。这表明对于
结构到序列映射问题,局部几何上下文是最重要的。 -
训练噪声水平对
AlphaFold预测成功率的影响 (Fig. 2C): 该图分析了不同训练噪声水平(从 0.0 Å 到 1.0 Å)下,ProteinMPNN设计的序列在AlphaFold预测中达到特定lDDT-Cα阈值(>95 或 >90)的成功率 (success rates)。结果显示,对于高精度预测(,圆形标记),少量噪声是最佳的(例如 0.02 Å);而对于较低精度截止值 (cutoff)(,方形标记),训练时加入更多的噪声反而能提高成功率。这提供了关于如何根据具体应用场景调整训练噪声水平的指导。 -
推理温度对序列多样性与质量的影响 (Fig. 2D): 该图展示了
序列恢复率和AlphaFold成功率如何随推理温度 (temperature)的变化而变化。随着温度升高,序列恢复率略有下降,但序列多样性会显著增加,这在需要生成大量候选序列进行实验筛选时非常有用。 -
序列对数概率与序列质量的相关性 (fig. S3A): 论文发现,由
ProteinMPNN导出的序列平均对数概率 (averaged log probability)可以作为衡量序列质量的指标,它与天然序列恢复率在不同温度下具有很强的相关性,这使得可以快速地对生成的设计序列进行排名。这些分析共同揭示了
ProteinMPNN各个组件和训练策略的有效性,并为实际应用中的参数选择提供了经验指导。
7. 总结与思考
7.1. 结论总结
ProteinMPNN 代表了蛋白质序列设计领域的一个重大突破。它成功地将深度学习的强大能力应用于从头设计蛋白质序列,并解决了传统基于物理方法 (physically based methods)(如 Rosetta)在效率、准确性和鲁棒性 (robustness)方面的局限性。
具体而言,ProteinMPNN 的核心贡献和关键结论包括:
-
卓越的性能与效率:
ProteinMPNN在计算模拟测试中,其序列恢复率(52.4%)远超 Rosetta(32.9%),同时将计算时间缩短了数百倍,使得蛋白质序列设计变得前所未有的高效。 -
广泛的适用性: 通过引入
随机解码、链内/链间残基耦合等机制,ProteinMPNN能够灵活地应用于各种复杂的设计挑战,包括单体、环状同寡聚体、重复蛋白、四面体纳米颗粒和靶标结合蛋白等。 -
实验验证的高成功率:
ProteinMPNN成功地“拯救”了许多先前使用 Rosetta 或 AlphaFold 失败的设计,并通过X射线晶体学 (x-ray crystallography)、冷冻电子显微镜 (cryo-EM)和生物层干涉法 (biolayer interferometry)等多种实验手段,证实了其设计序列能够稳定折叠成目标结构并具备预期功能。 -
鲁棒性强化: 训练时在骨架坐标中引入
高斯噪声,显著提高了模型对不完美骨架结构的泛化能力 (generalization capability),使得生成的序列能被AlphaFold等结构预测工具更准确、更自信地预测,从而增加了设计在真实世界中的成功率。 -
降低设计门槛:
ProteinMPNN的自动化特性和无需专家定制的优势,使得蛋白质序列设计对于更广泛的研究人员和应用场景变得更加可及 (accessible)。综上,
ProteinMPNN不仅提升了蛋白质序列设计的技术水平,也为蛋白质工程、疫苗开发和功能性生物材料设计等领域开辟了新的可能性。
7.2. 局限性与未来工作
7.2.1. 局限性
论文虽然没有明确列出 ProteinMPNN 的具体局限性,但从其与基于物理方法的对比中可以推断出一些潜在的限制:
- 缺乏物理透明性: 深度学习模型通常是
黑箱模型 (black-box models),ProteinMPNN也不例外。它通过数据学习统计规律,但缺乏像 Rosetta 那样显式的物理力场 (force field)和能量项,因此难以提供关于为何某个序列能折叠、为何发生特定相互作用的物理可解释性 (physical interpretability)。这可能限制其在需要深入机制理解的应用中的使用。 - 依赖训练数据:
ProteinMPNN的性能高度依赖于其训练数据(PDB 中的已知结构-序列对)。如果 PDB 数据存在偏差或某个结构空间在 PDB 中代表性不足,模型可能难以在这些区域进行有效的从头设计。 - 静态设计: 模型主要关注
静态 (static)的蛋白质骨架。对于涉及动态过程(如构象变化、变构调节)或需要柔性 (flexibility)的设计挑战,其能力可能有限。 - 功能预测的间接性: 尽管模型在功能蛋白设计中取得了成功,但它仍然是基于结构来推导序列,功能是结果而不是直接优化的目标。对于需要精细调控催化活性或特定
结合亲和力 (binding affinity)的设计,可能仍需结合其他功能预测或筛选方法。 - 序列恢复率与实际折叠的差距: 论文也指出,
序列恢复率虽然是重要的计算模拟指标,但即使很高也可能无法保证蛋白质能正确折叠(“even a single residue substitution...can block folding”)。最终的实验验证仍然不可或缺。
7.2.2. 未来工作
论文展望了 ProteinMPNN 在未来研究中的潜在应用和扩展方向:
- 提高天然蛋白质的表达和稳定性:
ProteinMPNN生成的序列被预测能比原始天然序列更自信、更准确地折叠到天然骨架。这暗示了ProteinMPNN可以广泛用于改善重组表达 (recombinantly expressed)天然蛋白质的表达 (expression)和稳定性 (stability),同时保持功能所需的关键残基不变。 - 探索更复杂的蛋白质组装和功能: 鉴于其在
寡聚体 (oligomers)、纳米颗粒 (nanoparticles)和界面设计 (interface design)方面的成功,ProteinMPNN可以进一步应用于设计更复杂的蛋白质组装体 (protein assemblies)和多功能蛋白 (multifunctional proteins)。 - 结合更多信息: 未来可以考虑将更多的生物物理约束、进化信息或
分子动力学 (molecular dynamics)模拟结果整合到模型中,以进一步提高设计的准确性和功能性。 - 提高可解释性: 尽管深度学习模型本质上是黑箱,但未来研究可以探索
可解释人工智能 (explainable AI)技术,以提供对ProteinMPNN设计决策的更深入理解。
7.3. 个人启发与批判
7.3.1. 个人启发
- 深度学习在复杂生物问题中的范式转变:
ProteinMPNN的成功再次证明了深度学习在解决传统方法难以企及的复杂生物学问题上的巨大潜力。它将蛋白质设计从计算密集型的物理模拟转向高效的数据驱动模式,预示着整个蛋白质工程领域的加速发展。 - 训练策略的巧妙性:
训练噪声、随机解码以及残基耦合等训练和解码策略,不仅提升了模型性能,更重要的是提高了模型的鲁棒性和实用性。这启发我们,在深度学习模型设计中,精巧的训练策略有时比简单的模型架构堆叠更能带来实质性的突破。噪声训练尤其具有启发性,它模拟了真实世界中结构的不确定性,使得模型能更好地泛化 (generalize)。 - 实验验证的不可或缺: 论文强调
计算模拟指标(如序列恢复率)虽然有用,但最终的成功必须通过实验表征来验证。这对于生物领域的研究尤其重要,提醒我们始终要将模型性能与实际生物功能和稳定性联系起来。 - 跨领域应用的潜力:
ProteinMPNN的通用性和高效性,使其有望成为从疫苗设计、酶工程到生物材料开发等广泛领域的通用工具 (general-purpose tool),极大地加速这些领域的创新。
7.3.2. 批判与潜在改进
- 黑箱模型的局限与机制理解的缺失: 尽管
ProteinMPNN效果卓越,但作为黑箱模型,它无法直接解释为什么某个序列能稳定折叠或实现特定功能。这种机制层面的理解 (mechanistic understanding)对于某些需要精细调控和深入原理探索的生物学研究至关重要。未来的工作可以探索如何将可解释性 (interpretability)技术(如注意力权重可视化 (attention weight visualization)、特征归因 (feature attribution))整合到设计流程中,以提供更多洞察。 - 训练数据偏差的潜在影响:
ProteinMPNN是从 PDB 中的现有蛋白质结构学习的。PDB 中可能存在偏差 (biases),例如某些折叠类型 (fold types)、相互作用模式 (interaction motifs)或序列空间 (sequence space)可能代表性不足 (underrepresented)。这可能限制了ProteinMPNN在探索全新的、非规范性蛋白质结构和功能方面的能力。未来的研究可以考虑如何通过生成模型 (generative models)或主动学习 (active learning)等方法来缓解这些偏差。 - 动态性和柔性设计的挑战:
ProteinMPNN主要基于静态的蛋白质骨架进行设计。然而,许多生物功能涉及蛋白质的构象变化 (conformational changes)或内在的柔性 (intrinsic flexibility)。如何设计具有特定动态特性 (dynamic properties)或在不同构象状态之间切换 (switch)的蛋白质,仍是一个开放且具有挑战性的问题。将分子动力学 (molecular dynamics)模拟或构象系综 (conformational ensembles)的概念整合到设计流程中,可能会是未来的方向。 - 对非标准氨基酸或翻译后修饰的支持:
ProteinMPNN目前主要针对 20 种天然氨基酸进行设计。然而,自然界和工程应用中存在许多非标准氨基酸 (non-canonical amino acids)和翻译后修饰 (post-translational modifications)。扩展模型以支持这些化学多样性,将进一步拓宽其应用范围。 - 实验验证的成本: 尽管
ProteinMPNN大大提高了设计成功率,但最终的实验验证仍然是耗时且昂贵的。如何进一步优化计算模拟预测的准确性,以最大限度地减少所需的实验验证轮次,是持续需要关注的问题。
相似论文推荐
基于向量语义检索推荐的相关论文。