摘要

The ability to predict how amino acid changes affect proteins has a wide range of applications including in disease variant classification and protein engineering. Here, we present SSEmb (Sequence Structure Embedding), a method that integrates sequence and structure information in a single model. By combining a graph representation of protein structure with a transformer model for processing multiple sequence alignments, we demonstrate that SSEmb provides robust variant effect predictions, especially in cases where sequence information is limited, and is additionally useful for other tasks such as predicting protein-protein binding sites.

1. 论文基本信息

1.1. 标题

SSEmb: A joint embedding of protein sequence and structure enables robust variant effect predictions (SSEmb：一种蛋白质序列与结构的联合嵌入，可实现鲁棒的变异效应预测)

1.2. 作者

Lasse M. Blaabjerg, Nicolas Jonsson, Wouter Boomsma, Amelie Stein, Kresten Lindorff-Larsen

作者们隶属于丹麦哥本哈根大学 (University of Copenhagen) 的诺和诺德基金会蛋白质研究中心 (Novo Nordisk Foundation Center for Protein Research) 和计算机科学系 (Department of Computer Science)。

1.3. 发表期刊/会议

该论文发表于 Nature Communications。 Nature Communications 是一本多学科的开放获取期刊，由 Springer Nature 出版，涵盖生物学、物理学、化学和地球科学等多个领域。它以发表高质量、具有重要意义且广泛感兴趣的研究而闻名，是各自领域内极具声誉和影响力的期刊。

1.4. 发表年份

2024年

1.5. 摘要

预测氨基酸变化如何影响蛋白质的能力在疾病变异分类和蛋白质工程等领域具有广泛应用。本文提出了 SSEmb (Sequence Structure Embedding)，一种将序列和结构信息集成到单一模型中的方法。通过结合蛋白质结构的图表示和用于处理多序列比对 (Multiple Sequence Alignments, MSA) 的 Transformer 模型，我们证明了 SSEmb 能够提供鲁棒的变异效应预测，尤其是在序列信息有限的情况下。此外，SSEmb 对其他任务（例如预测蛋白质-蛋白质结合位点）也很有用。

1.6. 原文链接

/files/papers/6915b3cc4d6b2ff314a02eab/paper.pdf 发布状态：已在线发表 (Published online: 07 November 2024)。

2. 整体概括

2.1. 研究背景与动机

核心问题： 预测氨基酸变化对蛋白质功能、结构和稳定性的影响是生物学和医学领域的关键挑战。这种预测能力对于理解进化机制、人类疾病以及进行蛋白质工程设计至关重要。
问题的重要性：
- 疾病变异分类： 识别导致疾病的蛋白质变异。
- 蛋白质工程： 精准操纵蛋白质序列以优化或改变其功能。
- 高通量实验的挑战： 尽管 Multiplexed Assays of Variant Effects (MAVE) 或 Deep Mutational Scanning (DMS) 等高通量实验能够大规模生成蛋白质序列-功能关系数据，但它们成本高昂、耗时，并且无法穷尽所有可能的变异组合，也难以设计涵盖所有相关功能的实验。
- 现有计算方法的局限性：
  - 大多数现有的自监督变异效应预测方法通常只依赖单一类型的蛋白质数据（例如，只基于序列的 MSA 或只基于结构）。
  - 基于序列的方法（如 MSA Transformer）的准确性往往受限于 MSA 的深度，在序列信息稀疏（shallow MSA）时表现不佳。
  - 监督学习方法受实验差异影响，难以标准化和比较结果。
现有研究的空白： 尽管一些研究开始尝试结合多种数据类型，但往往是事后组合不同模型的预测结果，而非在模型输入层面进行深度融合和端到端训练。
本文的切入点/创新思路： 提出 SSEmb 模型，旨在通过将蛋白质的序列（MSA）和三维结构信息映射到一个单一的、学习到的嵌入空间中，实现更鲁棒的变异效应预测。其核心在于，通过在输入层面深度融合多源信息，使模型在单一输入（例如 MSA 深度不足）受限时仍能保持高性能。

2.2. 核心贡献/主要发现

提出了 SSEmb 模型： SSEmb 是一个端到端的联合嵌入模型，通过结合蛋白质结构的图表示和结构约束的 MSA Transformer 来整合序列和结构信息。
鲁棒的变异效应预测： 证明 SSEmb 在序列信息稀疏（shallow MSA）的情况下，能够显著提高变异效应预测的准确性和鲁棒性，优于仅基于序列或结构的基线方法。在 ProteinGym 基准测试中，尤其在低 MSA 深度类别中表现最佳。
信息丰富的嵌入： 证明 SSEmb 学习到的嵌入是信息丰富的，可用于多种下游任务。
多任务应用能力：
- 作为蛋白质稳定性（protein stability）的零样本（zero-shot）预测器，表现出与专门方法相当的性能。
- 在疾病致病性变异（disease-causing variants）分类任务中表现良好。
- 其嵌入能够有效预测蛋白质-蛋白质结合位点（protein-protein binding sites），结果可与专门的最先进方法相媲美。
结构质量的鲁棒性： 发现 SSEmb 对输入蛋白质结构的质量具有鲁棒性，即使使用 AlphaFold 预测的结构也能保持良好性能。
消融研究揭示关键组件： 消融研究表明，MSA Transformer 的结构化掩蔽和 column masking 微调是降低模型对 MSA 深度敏感性的关键因素。

3. 预备知识与相关工作

3.1. 基础概念

氨基酸 (Amino Acid): 蛋白质的基本组成单位。蛋白质序列就是由不同氨基酸按特定顺序排列形成的。
蛋白质序列 (Protein Sequence): 氨基酸在线性链上的排列顺序。
蛋白质结构 (Protein Structure): 蛋白质在三维空间中的特定折叠方式。通常指其三级结构（tertiary structure），决定了蛋白质的功能。
蛋白质功能 (Protein Function): 蛋白质在生物体内执行的特定任务，如酶催化、信号传导、结构支持等。
变异效应 (Variant Effect): 蛋白质序列中一个或几个氨基酸发生变化（突变）后，对蛋白质结构、稳定性或功能产生的影响。
多序列比对 (Multiple Sequence Alignment, MSA): 将一组相关的蛋白质序列进行排列，使得同源位置的氨基酸对齐。MSA 揭示了序列的保守性（conservation）和共同演化（co-evolution）模式，这些模式是预测变异效应的重要信息来源。
自监督学习 (Self-supervised Learning): 一种机器学习范式，模型通过从数据本身生成监督信号来学习数据的表示。例如，通过预测 masked（被遮蔽的）氨基酸来学习蛋白质序列的特征。
监督学习 (Supervised Learning): 一种机器学习范式，模型通过学习输入数据和对应 label 之间的映射关系来进行训练。
Transformer 模型: 一种基于注意力机制（attention mechanism）的神经网络架构，最初用于自然语言处理，后广泛应用于序列数据处理，包括蛋白质序列。它能够捕捉序列中长距离依赖关系。
图神经网络 (Graph Neural Network, GNN): 一种专门处理图结构数据的神经网络。蛋白质结构可以自然地表示为图，其中氨基酸残基是节点，它们之间的空间关系是边。GNN 能够学习图结构中的特征。
嵌入 (Embedding): 将高维、离散的数据（如氨基酸序列或结构）映射到低维、连续的向量空间中。这些向量能够捕捉数据的语义和结构信息，并且可以作为其他机器学习任务的输入。
Multiplexed Assays of Variant Effects (MAVE) / Deep Mutational Scanning (DMS): 高通量实验技术，用于系统性地测量数千到数十万个蛋白质变异对蛋白质功能、稳定性或活性的影响。它们提供了大规模的实验数据来验证计算预测。
ProteinGym: 一个大型的 MAVE 数据集集合，用于评估和基准测试变异效应预测模型。

3.2. 前人工作

基于序列的方法：
- 进化模型 (Evolutionary Models)： 如 GEMME，通过分析 MSA 中的序列共进化模式来预测突变效应。这些方法通常假设功能相关的氨基酸在进化过程中会共同变化。
- 蛋白质语言模型 (Protein Language Models, PLMs)： 如 MSA Transformer、EVE、ESM-1b、Tranception 等。这些模型通过大规模的蛋白质序列数据进行自监督训练，学习蛋白质序列的深层表示。它们能够捕捉序列中的统计规律和进化信息，并利用这些信息进行零样本（zero-shot）变异效应预测。
  - MSA Transformer: 作为 SSEmb 的一个核心组件，它利用 MSA 中序列之间的注意力来学习氨基酸残基的上下文表示。其性能与 MSA 的深度（MSA depth）高度相关。
  - 注意力机制 (Attention Mechanism): Transformer 模型的核心。它允许模型在处理序列时，对输入序列的不同部分赋予不同的权重，从而捕捉长距离依赖关系。其核心计算公式如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中：
    - $Q$ (Query), $K$ (Key), $V$ (Value) 是输入经过线性变换得到的矩阵。它们分别代表查询、键和值，用于计算注意力权重并加权求和。
    - $Q K^T$ 计算查询和键之间的点积相似度，表示查询对各个键的关注程度。
    - $\sqrt{d_k}$ 是缩放因子，用于防止点积结果过大导致 softmax 函数进入梯度饱和区。 $d_k$ 是 Key 向量的维度。
    - $\mathrm{softmax}$ 函数将相似度分数转换为概率分布，确保所有注意力权重之和为1。
    - $V$ 矩阵与注意力权重相乘，得到加权后的值向量，表示注意力机制的输出。
基于结构的方法：
- 物理模型 (Physical Models)： 如 Rosetta，通过物理能量函数或分子力学模拟来预测突变对蛋白质稳定性或相互作用的影响。这些方法通常需要详细的蛋白质三维结构信息。
- 结构特异性模型 (Structure-specific Models)： 如 GVP (Geometric Vector Perceptrons)、ScanNet。这些模型利用 GNN 或其他几何深度学习方法，直接从蛋白质三维结构中学习特征，用于预测结构相关的性质（如稳定性、结合位点）。
结合多种数据类型的方法：
- 早期方法：通常是简单地组合来自不同模型的预测结果（例如，对不同模型的得分进行加权平均）。
- 近期方法：如 AlphaMissense、ELASPIC、LM-GVP、Prostage 等，开始探索在模型输入或中间层集成序列和结构信息。然而，许多方法并非完全端到端训练，或对单一输入信息缺失（如 shallow MSA）的鲁棒性不足。

3.3. 技术演进

蛋白质变异效应预测的技术演进经历了从早期基于保守性分析的简单统计模型，到基于物理模拟的结构模型，再到近年来以 Transformer 为代表的蛋白质语言模型，以及 GNN 在结构分析中的应用。当前的趋势是认识到单一数据源的局限性，转而探索如何有效地整合多源信息（序列、结构、进化信息等），以期在不同场景下（例如 MSA 深度不足）都能提供更准确和鲁棒的预测。SSEmb 正是这一趋势的代表，旨在通过端到端的方式，在模型的核心架构中融合序列和结构信息，而不是简单地在输出层面组合预测。

3.4. 差异化分析

SSEmb 与现有方法的主要区别和创新点在于：

端到端融合 (End-to-End Integration): 许多结合序列和结构信息的方法是在后期组合预测结果，或者分阶段训练不同组件。SSEmb 旨在将 MSA Transformer 和 GNN 模块进行完全端到端（fully end-to-end）的训练，实现信息在整个模型中的深度整合和对齐。
结构约束的 MSA Transformer (Structure-constrained MSA Transformer): SSEmb 通过蛋白质结构信息来约束 MSA Transformer 的行注意力（row attention），只允许空间上接近的残基之间进行注意力计算。这使得序列模型能更好地感知三维结构上下文，从而在序列信息不足时也能获得结构上的补充。
对稀疏 MSA 的鲁棒性 (Robustness to Shallow MSAs): 这是 SSEmb 的一个关键优势。通过结构信息的引入，模型在 MSA 深度不足时（shallow MSA）仍能保持较高的预测准确性，解决了纯序列模型在此类情况下的性能瓶颈。
联合嵌入 (Joint Embedding): SSEmb 的目标是学习一个单一的、信息丰富的联合嵌入，这个嵌入包含了序列和结构两方面的信息，并被证明对多种下游任务有效。

4. 方法论

4.1. 方法原理

SSEmb 的核心思想是将蛋白质的序列信息（通过多序列比对 MSA 捕获）和三维结构信息（通过图表示捕获）整合到一个单一的、学习到的嵌入空间中。该模型采用 Transformer 架构处理 MSA，并结合 GNN 处理蛋白质结构图。为了实现信息融合，SSEmb 在 MSA Transformer 中引入结构约束，并将其学习到的序列嵌入与 GNN 的节点特征相结合，最终通过预测 masked（被遮蔽的）氨基酸来学习蛋白质的通用表示，进而应用于变异效应预测及其他下游任务。这种联合嵌入旨在提高预测的鲁棒性，尤其是在序列信息稀缺时。

4.2. 核心方法详解 (逐层深入)

4.2.1. 多序列比对 (`MSA`) 的生成与子采样

MSA 生成： 为了获取丰富的进化信息，SSEmb 首先需要为每个蛋白质生成 MSA。
- 使用 MMSeqs2 工具结合 ColabFold 的过滤策略进行 MSA 生成。
- 目的： 这种组合旨在最大化最终比对序列的多样性，同时确保序列质量。
- 参数设置： 采用 ColabFold Search 协议的默认参数，包括 $diff=512$ 和 $filter-min-enable=64$ ，并设定 $max-seq-id=0.90$ 以控制序列冗余度。
- 高覆盖率序列： 额外添加参数 $cov=0.75$ 到每个序列身份桶（sequence identity bucket），以确保检索到的 MSA 序列具有较高的覆盖率，即与查询序列有足够长的比对区域。
MSA 子采样： 为了适应 GPU 内存限制并探索不同 MSA 深度下的性能，在输入 SSEmb 之前对完整的 MSA 进行随机子采样。
- 训练阶段： 子采样的 MSA 序列数量设置为16。
- 推理阶段： 基于实验结果（发现浅层 MSA 的集成表现优于单次使用或更深 MSA 的集成），使用16个子采样 MSA 序列，并进行5次集成（ensemble）。这意味着模型会进行5次独立的预测，每次使用不同的子采样 MSA，然后将结果取平均。

4.2.2. 结构约束的 `MSA Transformer`

SSEmb 的一个核心组件是修改后的 MSA Transformer，它集成了结构信息。

基础架构： 基于原始的 MSA Transformer 模型。
初始化： 使用预训练的 MSA Transformer 模型权重进行初始化，这些权重通常在大规模蛋白质序列数据集上学习，包含了丰富的进化和序列模式信息。
结构约束： 这是关键的修改点，通过引入蛋白质三维结构来指导 MSA Transformer 的注意力机制。
- 目标： 解决传统 MSA Transformer 在 MSA 信息稀疏时性能下降的问题，使其能利用结构上的邻近信息。
- 实现方式： 在 MSA Transformer 计算行注意力（row attention，即 MSA 列之间的注意力，对应蛋白质序列中的位置）之前，应用一个二元接触掩码（binary contact mask）。
- 接触掩码： 这个掩码定义了蛋白质三维结构中空间上相互接近的残基对。具体来说，它对应于 SSEmb GNN 模块中使用的20个最近邻（nearest neighbor）图结构。
- 作用： 只有在三维蛋白质结构中空间上接近的位置之间才允许传播注意力值。这强制 MSA Transformer 在计算残基间的相互作用时，优先考虑物理上相邻的残基，从而将结构信息直接注入到序列表示的学习过程中。
训练策略： 在训练过程中，只微调（fine-tune）结构约束的 MSA Transformer 中的行注意力层。
- 原因： 这样做是为了保留在列注意力层（column attention layers）中编码的系统发育信息（phylogenetic information），这些信息对于捕捉蛋白质家族的进化关系至关重要。

4.2.3. `GNN` 模块

SSEmb 的另一个核心组件是 GNN 模块，用于处理蛋白质的图表示。

基础架构： 基于 GVP (Geometric Vector Perceptrons) 模型架构。GVP 是一种能够处理蛋白质这种具有旋转不变性（rotation-invariant）特征的几何数据的 GNN。
关键调整：
- 图边定义： 将图边定义为20个最近的节点邻居，而非原始 GVP 实现中的30个。
- 节点嵌入维度： 增加了节点嵌入的维度。标量通道（scalar channels）维度增加到256，向量通道（vector channels）维度增加到64。边缘嵌入维度保持为32和1。
- 编解码器层数： 编码器和解码器层数增加到四层。
- Vector Gating： 引入了 vector gating 机制，这是一种在 GNN 中用于控制信息流和增强特征表达能力的技术。
- 信息融合： 将 结构约束的 MSA Transformer 中学习到的 MSA query sequence 嵌入（来自最后一层）连接到 GNN 解码器的节点嵌入，并通过一个 dense layer 降低维度。这实现了序列和结构信息的直接融合。
- 预测任务： GNN 模块的预测任务从原始 GVP 的自回归序列预测（auto-regressive sequence prediction）改为 masked token prediction（遮蔽词元预测），与 MSA Transformer 的训练目标保持一致。

4.2.4. 模型训练

SSEmb 模型采用自监督方式进行训练，目标是预测被遮蔽的氨基酸类型。

掩蔽策略： 遵循改进的 BERT 掩蔽方案。
- 在每次前向传播（forward pass）之前，随机选择 $15\%$ 的野生型（wild-type）序列残基进行优化。
- 在这个被选中的 $15\%$ $15%$ 残基中：
  - $60\%$ 的残基被 mask 标记替换。
  - $20\%$ 的残基被 mask 标记替换，并且其对应的 MSA 列也被 mask。
  - $10\%$ 的残基被随机的氨基酸类型替换。
  - $10\%$ 的残基保持不变。
预测任务： SSEmb 模型需要预测被遮蔽残基的氨基酸类型，同时接收蛋白质结构和子采样 MSA 作为输入。
损失函数： 使用交叉熵损失（cross-entropy loss）优化模型。它计算被选中的 $15\%$ 野生型氨基酸类型与模型预测的对应氨基酸类型之间的差异。
分阶段训练（Gradual Unfreezing）： 采用两步法进行训练。
1. 第一阶段： 训练 GNN 模块，同时冻结 结构约束的 MSA Transformer 的参数，直到模型根据训练损失接近收敛。
2. 第二阶段： 解冻 结构约束的 MSA Transformer 中的行注意力参数，并同时微调 GNN 模块和 结构约束的 MSA Transformer。使用平均相关性性能在 MAVE 验证集上评估，通过早停（early stopping）机制来防止过拟合。
优化器： 使用 Adam 优化器。
学习率： GNN 模块的学习率为 $10^{-3}$ ，结构约束的 MSA Transformer 的学习率为 $10^{-6}$ 。
批次大小： 两个训练阶段的批次大小分别为128和2048个蛋白质。

4.2.5. 变异效应预测

在推理（inference）阶段，SSEmb 通过集成多个预测来提高准确性。

集成策略： 从完整的 MSA 中随机子采样16个序列5次（有放回），生成5个模型预测的集成。最终的 SSEmb 分数是这5个集成预测的平均值。
变异得分计算： 蛋白质变异得分根据 masked marginal method 计算： $\sum _ { i \in M } \log p ( x _ { i } = x _ { i } ^ { \mathrm { { var } } } | x _ { - \mathrm { { M } } } ) - \log p ( x _ { i } = x _ { i } ^ { \mathrm { { w t } } } | x _ { - \mathrm { { M } } } )$ 其中：
- $x _ { i } ^ { \mathrm { { var } } }$ 代表在位置 $i$ 上的变异（突变）氨基酸类型。
- $x _ { i } ^ { \mathrm { { wt } } }$ 代表在位置 $i$ 上的野生型（wild-type）氨基酸类型。
- $x _ { - \mathrm { { M } } }$ 代表一个序列，其中被替换（突变）的位置集合 $M$ 已被填充为 mask 词元。
- $p(x_i = X | x_{-M})$ 表示在给定其他被 mask 的位置时，模型预测位置 $i$ 为氨基酸类型 $X$ 的概率。
- 该公式计算的是变异序列中所有突变位置的预测概率对数之和与野生型序列中相同位置的预测概率对数之和的差值。这个差值反映了模型对变异序列的“意外程度”或“适应性”，正值通常表示变异更有可能，负值表示变异更不可能。
- 这种模型是一个加性（additive）变异效应模型。

5. 实验设置

5.1. 数据集

训练数据集：
- 来源： CATH 4.2 数据集。
- 规模与特点： 包含18,204个训练蛋白质，具有 $40\%$ 的非冗余度（non-redundancy），并按 CATH 类别进行划分。
- MSA 生成： 为每个蛋白质结构生成了 MSA。
- 过滤： 在训练前移除了在 MAVE 验证集或 ProteinGym 测试集中存在的蛋白质（使用 $95\%$ 序列同一性（sequence identity）截止值），以避免数据泄露。
验证数据集（MAVE 验证集）：
- 组成： 选自10个 MAVE 实验结果，用于评估单点突变效应。
- 选择标准：
  1. 包含蛋白质活性（activity）和丰度（abundance）测定的混合，以获取模型学习到的不同机制洞察。
  2. 包含对基于蛋白质结构或序列比对的方法而言，预测难度不同（易或难）的实验，以考察模型是否捕捉到现有方法未捕捉到的相关性。
  3. 尽可能小，同时能提供信息反馈。
- 具体实验： 大部分数据来自 ProteinGym，LDLRAP1 来自 Jiang and Roth，MAPK 来自 Brenan et al.。
基准测试数据集（ProteinGym 基准）：
- 来源： ProteinGym substitution benchmark。
- 规模与特点： 包含87个数据集，涵盖72个不同的蛋白质。其中76个数据集仅包含单点突变效应，11个包含多点突变效应。
- 过滤： 排除了在 SSEmb 验证集中使用的9个 MAVE 数据集。当一个 UniProt ID 有多个实验时，报告其平均相关性以消除潜在偏差。
- 细分： 根据 MSA 深度进行细分：
  - 低深度 (Low)： $N _ { \mathrm { e f f } } / L < 1$
  - 中深度 (Medium)： $N _ { \mathrm { e f f } } / L < 100$
  - 高深度 (High)： $N _ { \mathrm { e f f } } / L > 100$
  - 其中 $N _ { \mathrm { e f f } }$ 是有效序列的数量， $L$ 是蛋白质序列的长度。
蛋白质稳定性预测数据集：
- 来源： 参考论文59中的大规模蛋白质稳定性测量数据（数据集3）。
- 规模： 包含607,839个蛋白质序列的实验定义 $ΔΔG$ 测量值。
- 过滤： 移除了同义突变、插入和删除突变，以及没有相应 AlphaFold 模型的75个蛋白质结构域。
疾病致病性变异分类数据集：
- 来源： 包含临床注释的大量变异集（参考论文67）。
蛋白质-蛋白质结合位点预测数据集：
- 来源： PPBS 数据集（参考论文74）。
- 规模： 原始数据集包含20,025条具有二元残基级别结合位点标签的蛋白质链。
- 过滤： 移除了 RCSB Protein Data Bank 中已废弃的蛋白质链、缺少结合位点标签的链、结构中氨基酸序列与标签数据不匹配的链，以及长度超过 MSA Transformer 1024氨基酸限制的链。修改后的 PPBS 数据集包含19,264条蛋白质链。

5.2. 评估指标

Spearman 相关系数 (Spearman's Rank Correlation Coefficient, $\rho_s$ )
1. 概念定义： Spearman 相关系数是一种非参数的统计量，用于衡量两个变量之间排序相关性（rank correlation）的强度和方向。它评估的是变量的单调关系，而不是线性关系。在变异效应预测中，它用于比较模型预测的变异效应排名与实验观测到的变异效应排名之间的一致性。
2. 数学公式： $\rho_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}$
3. 符号解释：
  - $n$ ：样本数量（即变异数量）。
  - $d_i$ ：第 $i$ 个数据对（模型预测排名和实验观测排名）之间的秩次（rank）差。
ROC 曲线下面积 (Area Under the Receiver Operating Characteristic Curve, AUC)
1. 概念定义： AUC 是衡量分类模型性能的常用指标，尤其是在二分类问题中。它表示随机选择一个正样本（positive sample）的得分高于随机选择一个负样本（negative sample）的得分的概率。AUC 值越高，模型的分类性能越好。
2. 数学公式： AUC 通常不直接通过一个简单的代数公式计算，而是通过绘制 ROC 曲线（以假阳性率 FPR 为横轴，真阳性率 TPR 为纵轴）并计算该曲线与坐标轴围成的面积来得到。
  - $TPR = \frac{TP}{TP + FN}$ (真阳性率，True Positive Rate，也称为召回率 Recall 或敏感度 Sensitivity)
  - $FPR = \frac{FP}{FP + TN}$ (假阳性率，False Positive Rate)
  - 其中 TP (真阳性), FN (假阴性), FP (假阳性), TN (真阴性) 是混淆矩阵（confusion matrix）中的元素。
3. 符号解释：
  - TP: 真正例，实际为正且预测为正的样本数。
  - FN: 假反例，实际为正但预测为负的样本数。
  - FP: 假正例，实际为负但预测为正的样本数。
  - TN: 真反例，实际为负且预测为负的样本数。
PR 曲线下面积 (Area Under the Precision-Recall Curve, PR-AUC)
1. 概念定义： PR-AUC 也是衡量分类模型性能的指标，特别适用于类别不平衡（imbalanced classes）的数据集。它通过绘制 Precision (精确率) 为纵轴，Recall (召回率) 为横轴的曲线，并计算曲线下方的面积来得到。PR-AUC 值越高，模型在识别正类别方面的性能越好。
2. 数学公式： PR-AUC 同样不通过简单代数公式计算，而是通过绘制 Precision-Recall 曲线获得。
  - $Precision = \frac{TP}{TP + FP}$ (精确率)
  - $Recall = \frac{TP}{TP + FN}$ (召回率，即 TPR)
3. 符号解释：
  - TP: 真正例。
  - FP: 假正例。
  - FN: 假反例。

5.3. 对比基线

MAVE 验证集对比：
- GEMME： 一种基于 MSA 的全局流行病学模型（Global Epistatic Model），能够预测突变效应。它被认为在蛋白质活性预测方面具有最先进的性能，且采用相对简单的进化模型。
- Rosetta： 一种广泛使用的计算蛋白质设计和结构预测软件包。在本文中，其 $ΔΔG$ 协议用于预测蛋白质稳定性变化，被认为是结构基线。
ProteinGym 基准对比：
- TranceptEVE L： 结合了家族特异性（family-specific）和家族无关（family-agnostic）模型的蛋白质序列模型，用于改进适应度预测。
- Tranception L： 采用自回归 Transformer 和推理时间检索的蛋白质适应度预测模型。
- EVE (Ensemble/Single)： 基于进化数据的深度生成模型，用于预测突变效应。
- VESPA： 可能是某种变异效应预测工具。
- MSA Transformer (Ensemble)： 原始的 MSA Transformer 模型，使用集成方法。
- $ESM2 (15B)$ ： Meta 公司开发的大规模蛋白质语言模型 ESM-2，具有15亿参数。
- ProteinMPNN： 一个用于蛋白质设计任务的图神经网络模型。
临床变异基准对比：
- TranceptEVE L、GEMME、EVE、ESM-1b： 其他流行的变异效应预测模型。
蛋白质-蛋白质结合位点预测对比：
- ScanNet： 一种专门为基于结构的蛋白质结合位点预测而开发的几何深度学习模型。
- Handcrafted features baseline： 包含手工制作的结构和序列特征的 xgboost 基线模型。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. `MAVE` 验证集性能

以下是原文 Table 1 的结果：

Protein	MAVE reference	MAVE type	Spearman ρs (↑)
Protein	MAVE reference	MAVE type	SSEmb	GEMME	Rosetta
NUD15	Suiter et al. 2020	Abundance	0.584	0.543	0.437
TPMT	Matreyek et al. 2018	Abundance	0.523	0.529	0.489
CP2C9	Amorosi et al. 2021	Abundance	0.609	0.423	0.519
P53	Kotler et al. 2018	Competitive growth	0.577	0.655	0.488
PABP	Melamed et al. 2013	Competitive growth	0.595	0.569	0.384
SUMO1	Weile et al. 2017	Competitive growth	0.481	0.406	0.433
RL401	Roscoe & Bolon 2014	E1 reactivity	0.438	0.390	0.366
PTEN	Mighell et al. 2018	Competitive growth	0.422	0.532	0.423
MAPK	Brenan et al. 2016	Competitive growth	0.395	0.445	0.307
LDLRAP1	Jiang et al. 2019	Two-hybrid assay	0.411	0.348	0.377
Mean	-	-	0.503	0.484	0.422

分析：

在 MAVE 验证集上，SSEmb 模型平均 Spearman 相关系数为0.503，高于 GEMME（0.484）和 Rosetta（0.422）。这表明 SSEmb 能够有效地整合序列和结构信息，在变异效应预测方面取得更好的整体性能。
具体来看，SSEmb 在丰度（Abundance）测定的 MAVE（如 NUD15 和 CP2C9）上表现出显著优势，相关性分别为0.584和0.609，明显优于 GEMME 和 Rosetta。这暗示了模型中加入的结构信息有助于更好地预测蛋白质丰度变化。
在活性（Activity）相关的 MAVE（如 Competitive growth、E1 reactivity 等）上，SSEmb 的性能与 GEMME 相当，有时略好（如 PABP、SUMO1、RL401），有时略逊（如 P53、PTEN、MAPK）。这表明 SSEmb 在这些任务上仍能保持竞争力，并且结构信息与序列进化信息协同作用。

6.1.2. `ProteinGym` 基准性能

以下是原文 Table 2 的结果：

Model	Spearman ρs by MSA depth (↑)
Model	Low	Medium	High	All
TranceptEVE L	0.451	0.462	0.502	0.468
GEMME	0.429	0.448	0.495	0.453
SSEmb (ours)	0.449	0.439	0.501	0.453
Tranception L	0.438	0.438	0.467	0.444
EVE (ensemble)	0.412	0.438	0.493	0.443
VESPA	0.411	0.422	0.514	0.438
EVE (single)	0.405	0.431	0.488	0.437
MSA Transformer (ensemble)	0.385	0.426	0.470	0.426
ESM2 (15B)	0.342	0.368	0.433	0.375
ProteinMPNN	0.189	0.151	0.237	0.175

分析：

在 ProteinGym 基准测试中，SSEmb 的整体平均 Spearman 相关系数为0.453，与 GEMME 持平，但略低于 TranceptEVE L（0.468）。
低 MSA 深度优势： SSEmb 在低 MSA 深度（ $N _ { \mathrm { e f f } } / L < 1$ ）类别中表现出色，相关系数为0.449，接近最佳模型 TranceptEVE L (0.451)，并且显著优于 MSA Transformer (0.385)。这有力地支持了 SSEmb 的设计目标：在序列信息稀疏时，结构信息的整合能够提供更鲁棒的预测。
与其他模型比较： SSEmb 的性能通常优于或与大多数其他高性能变异效应预测方法（如 Tranception L、EVE、VESPA、ESM2）相媲美，尤其是在低 MSA 深度条件下。ProteinMPNN 作为设计模型，在此任务上表现较差。

下图（原文 Fig. 2）展示了 SSEmb 和 MSA Transformer 在 ProteinGym 低 MSA 替代基准子集上的 Spearman 相关系数比较：

$Fig. 2 | Overview of SSEmb results on the ProteinGym low-MSA $( N _ { \\mathrm { e f f } } / \\pmb { L } < 1 )$ substitution benchmark subset grouped by UniProt ID. Spearman correlations are plotted fo…$ 分析：
该图直观地展示了 SSEmb（蓝色）在低 MSA 深度情况下相较于 MSA Transformer 集成版（橙色）的性能优势。SSEmb 的平均 Spearman 相关系数 ( $\langle \rho _ { s } \rangle$ ) 为0.45 ± 0.05，而 MSA Transformer 为0.39 ± 0.05。
这证实了 SSEmb 的一个关键设计目标：通过整合结构信息，提高模型在 MSA 信息有限时的鲁棒性。

6.1.3. 蛋白质结构质量的鲁棒性

研究表明，SSEmb 对输入蛋白质结构的质量（无论是实验结构还是 AlphaFold 预测结构）具有鲁棒性，性能与 TM-score（一种衡量结构相似性的指标）之间的相关性很弱（Supplementary Fig. 4）。
原因： 这种鲁棒性可能归因于模型中基于主链（backbone-based）的蛋白质结构表示，以及 MSA 中包含的互补信息。

6.1.4. 蛋白质稳定性预测

SSEmb 在大规模蛋白质稳定性测量数据集上进行了零样本（zero-shot）预测。
结果： 实现了0.61的绝对 Spearman 相关系数（Supplementary Fig. 2），这与专门用于蛋白质稳定性预测的方法（如参考论文60）相当。
结论： 这表明 SSEmb 可以作为蛋白质稳定性的有效零样本预测器。

6.1.5. 疾病致病性变异分类

以下是原文 Table 3 的结果：

Model	Avg. AuC (↑)
TranceptEVE L	0.920
GEMME	0.919
EVE	0.917
SSEmb	0.893
ESM-1b	0.892

分析：

在临床变异基准测试中，SSEmb 的平均 AUC 为0.893，表现相对较好，但略低于 TranceptEVE L、GEMME 和 EVE。
任务差异： MAVE（Table 2）和致病性（Table 3）评估结果的排名存在细微差异，这暗示了这两个任务之间可能存在不同的潜在机制。

6.1.6. 蛋白质-蛋白质结合位点预测

以下是原文 Table 4 的结果：

Model	PR-AUC (↑)
Model	Test set (7%)	Test set homology)	Test set (topology)	Test set	Test set (all)
SSEmb downstream	0.684	0.651	0.672	(none) 0.571	0.642
Handcrafted features baseline	0.596	0.567	0.568	0.432	0.537
ScanNet	0.732	0.712	0.735	0.605	0.694

分析：

使用 SSEmb 嵌入训练的下游模型在蛋白质-蛋白质结合位点预测任务中，其 PR-AUC 介于专门的 ScanNet 模型和基于手工特征的基线模型之间。
例如，在 Test set (all) 上，SSEmb downstream 达到0.642，优于 Handcrafted features baseline（0.537），但低于 ScanNet（0.694）。
结论： 这“原则性地证明”（proof of the principle）了 SSEmb 嵌入包含丰富的结构和序列信息混合，可以作为结合位点预测及其他下游任务的有用特征。

6.2. 消融实验/参数分析

消融研究旨在探究 SSEmb 模型中不同组件的重要性，特别是结构信息注入 MSA Transformer 的方式。研究在 ProteinGym MAVE 替代基准上进行。
考察组件：
1. GVP-GNN 模块（在 MSA Transformer 之后）。
2. MSA Transformer 中的结构化行注意力掩蔽（structure-based row attention masking）。
3. 使用 column masking 对 MSA Transformer 进行微调（减少对基于保守性信号的依赖）。
关键发现：
- 结构化掩蔽和 column masking 微调是关键： 结构化掩蔽 MSA Transformer 和使用 column masking 进行微调显著降低了最终模型对 MSA 深度（MSA depth）的敏感性。这意味着这些组件对于提高模型在 MSA 稀疏情况下的鲁棒性至关重要。
- 微调 MSA Transformer 的权衡： 独立进行微调的 MSA Transformer（不含结构组件）在整体性能上可能表现最佳，但代价是在低 MSA 深度蛋白质上的准确性较低。这再次强调了结构信息在 MSA 稀疏场景下的重要补充作用。
完全消融的 SSEmb 仍优于原始 MSA Transformer： 即使是完全消融后的 SSEmb 模型，其性能也优于 ProteinGym 基准中实现的原始 MSA Transformer。
原因推测： 这种性能提升可能归因于 SSEmb 中使用的 MSA 生成协议，以及在推理过程中对 MSA 子样本进行集成（ensembling over MSA subsamples），这与一些高性能变异效应预测模型中使用的子采样策略类似。

7. 总结与思考

7.1. 结论总结

本研究提出了 SSEmb (Sequence Structure Embedding)，一种创新性的计算模型，旨在将蛋白质的序列（通过 MSA）和三维结构信息（通过图表示）深度整合到一个统一的嵌入空间中。通过在 MSA Transformer 中引入结构约束，并将其学习到的序列嵌入与 GNN 模块的结构特征结合，SSEmb 显著提高了变异效应预测的鲁棒性，尤其是在 MSA 深度不足（序列信息稀疏）的情况下。实验结果表明，SSEmb 在 MAVE 和 ProteinGym 基准测试中表现优异，并且其学习到的信息丰富的嵌入可以有效应用于其他下游任务，如蛋白质稳定性预测、疾病致病性变异分类以及蛋白质-蛋白质结合位点预测。消融研究进一步证实了结构化注意力掩蔽和 column masking 微调是提升模型对 MSA 深度不敏感性的关键因素。

7.2. 局限性与未来工作

绝对相关性值有限： 尽管 SSEmb 相较于同类方法表现出优异性能，但获得的绝对相关性值仍相对适中。作者认为未来结合监督学习和自监督学习的方法可能会进一步提高性能。
对输入数据的依赖： SSEmb 依赖于 MSA 和蛋白质结构作为输入。虽然模型对浅层 MSA 和预测结构具有鲁棒性，但在这些输入不可靠的情况下（例如，内源性无序蛋白 intrinsically disordered proteins 或没有实验解析结构的蛋白质复合物 protein complexes without experimentally resolved structures），模型能力可能会受限。
训练数据覆盖度： 模型虽然在相对较大的蛋白质序列和结构数据集上训练，但这些数据仅代表序列-结构空间的很小一部分。对于与训练数据差异很大的蛋白质（例如某些从头设计的蛋白质 de-novo-designed proteins），模型性能可能会下降。
通用性与特异性的权衡： SSEmb 是一个通用模型，适用于多种任务，但可能无法在所有特定任务上达到专门为该任务开发的最先进模型的精度。

7.3. 个人启发与批判

启发：
- 多模态融合的强大潜力： SSEmb 再次强调了在生物学领域，整合多源信息（如序列和结构）对于解决复杂预测问题的必要性和有效性。尤其是在单一信息源存在局限性时，多模态融合能够提供互补信息，显著增强模型的鲁棒性和泛化能力。
- 结构信息对 PLM 的增强： 将蛋白质结构信息作为约束引入到 Transformer 的注意力机制中，是提升蛋白质语言模型性能的一个优雅且有效的方式。这使得 PLM 不仅能学习序列的统计规律，还能感知其三维空间上下文，为缺乏深层进化信息的蛋白质提供更强的结构语境。
- 端到端训练的重要性： SSEmb 的端到端训练方式，而非简单地组合独立模型的输出，可能更好地实现了序列和结构特征的深层对齐和协同作用，从而学习到更富有语义的联合嵌入。
- 零样本预测的应用前景： 蛋白质工程和药物设计领域对零样本预测能力有巨大需求，SSEmb 在稳定性、致病性等方面的零样本性能展示了其在实际应用中的巨大潜力。
批判与思考：
- “黑箱”解释性挑战：尽管 SSEmb 性能优异，但其内部如何精确地权衡序列和结构信息、哪些特定特征组合驱动了最终预测，仍然是一个“黑箱”问题。未来的工作可以探索可解释性 AI 技术，以深入理解模型决策过程，这对于生物学发现和蛋白质设计至关重要。
- 泛化能力与新颖蛋白质： 论文提及模型对训练数据范围之外的蛋白质（如从头设计蛋白质）性能可能下降。这提出了一个普遍性挑战：如何构建能够真正泛化到未知蛋白质空间的模型，而不是仅仅擅长插值（interpolation）已知空间。可能需要更强大的生成模型或结合物理模拟进行数据增强。
- 计算资源的消耗： Transformer 和 GNN 模型的训练通常需要大量计算资源，特别是对于大规模数据集和复杂的模型架构。虽然 MSA 子采样和分阶段训练有助于缓解，但 SSEmb 的部署和大规模应用仍需考虑计算成本。
- 对无序蛋白和蛋白质复合物的挑战： 对于无序蛋白，其缺乏稳定的三维结构，而蛋白质复合物则涉及多个相互作用的链。SSEmb 目前依赖明确的单体结构作为输入，其在这些复杂系统中的应用仍是未来的研究方向。如何为这些场景设计有效的结构表示和融合策略，是一个值得探索的问题。
- 评估指标的局限性： Spearman 相关系数衡量的是排名的一致性，而非绝对值的精确预测。对于某些应用（如定量蛋白质工程），可能需要更高精度的绝对值预测。未来可以探索结合其他损失函数和评估指标来满足不同任务的需求。

SSEmb: A joint embedding of protein sequence and structure enables robust variant effect predictions

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 23 分钟读完 · 12,602 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解 (逐层深入)

4.2.1. 多序列比对 (MSA) 的生成与子采样

4.2.2. 结构约束的 MSA Transformer

4.2.3. GNN 模块

4.2.4. 模型训练

4.2.5. 变异效应预测

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.3. 对比基线

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. MAVE 验证集性能

6.1.2. ProteinGym 基准性能

6.1.3. 蛋白质结构质量的鲁棒性

6.1.4. 蛋白质稳定性预测

6.1.5. 疾病致病性变异分类

6.1.6. 蛋白质-蛋白质结合位点预测

6.2. 消融实验/参数分析

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐

4.2.1. 多序列比对 (`MSA`) 的生成与子采样

4.2.2. 结构约束的 `MSA Transformer`

4.2.3. `GNN` 模块

6.1.1. `MAVE` 验证集性能

6.1.2. `ProteinGym` 基准性能