AiPaper
论文状态:已完成

Hotspot-Driven Peptide Design via Multi-Fragment Autoregressive Extension

发表:2024/11/26
原文链接PDF 下载
价格:0.10
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了PepHAR,一个热点驱动的自回归生成模型,用于设计针对特定蛋白质的肽。通过聚焦具有更高相互作用潜力的热点残基,并结合片段扩展与优化,PepHAR可以有效生成具有正确几何结构的肽,从而推动肽类药物开发。

摘要

Peptides, short chains of amino acids, interact with target proteins, making them a unique class of protein-based therapeutics for treating human diseases. Recently, deep generative models have shown great promise in peptide generation. However, several challenges remain in designing effective peptide binders. First, not all residues contribute equally to peptide-target interactions. Second, the generated peptides must adopt valid geometries due to the constraints of peptide bonds. Third, realistic tasks for peptide drug development are still lacking. To address these challenges, we introduce PepHAR, a hot-spot-driven autoregressive generative model for designing peptides targeting specific proteins. Building on the observation that certain hot spot residues have higher interaction potentials, we first use an energy-based density model to fit and sample these key residues. Next, to ensure proper peptide geometry, we autoregressively extend peptide fragments by estimating dihedral angles between residue frames. Finally, we apply an optimization process to iteratively refine fragment assembly, ensuring correct peptide structures. By combining hot spot sampling with fragment-based extension, our approach enables de novo peptide design tailored to a target protein and allows the incorporation of key hot spot residues into peptide scaffolds. Extensive experiments, including peptide design and peptide scaffold generation, demonstrate the strong potential of PepHAR in computational peptide binder design. Source code will be available at https://github.com/Ced3-han/PepHAR.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Hotspot-Driven Peptide Design via Multi-Fragment Autoregressive Extension (通过多片段自回归扩展实现热点驱动的肽设计)

1.2. 作者

Jiahan Li, Tong Chen, Shitong Luo, Chaoran Cheng, Jiaqi Guan, Ruihan Guo, Sheng Wang, Ge Liu, Jian Peng, Jianzhu Ma

1.3. 发表期刊/会议

该论文作为预印本发表在 arXiv 上,尚未在正式期刊或会议上发表。arXiv 是一个开放获取的预印本服务器,允许研究人员在同行评审之前分享他们的研究成果。

1.4. 发表年份

2024年(具体发布时间为 2024-11-26T15:13:17.000Z

1.5. 摘要

肽作为短链氨基酸,能够与目标蛋白质相互作用,使其成为治疗人类疾病的独特蛋白质基疗法。近年来,深度生成模型在肽生成方面展现出巨大潜力。然而,设计有效的肽结合物仍面临多项挑战:首先,并非所有残基都对肽-靶点相互作用做出同等贡献;其次,生成的肽必须由于肽键的限制而采取有效的几何形状;第三,肽药物开发中仍缺乏真实的任务。为解决这些挑战,本文引入了 PepHAR,一个热点驱动的自回归生成模型,用于设计靶向特定蛋白质的肽。基于某些热点残基具有更高相互作用潜力的观察,本文首先使用一个基于能量的密度模型来拟合和采样这些关键残基。接着,为确保正确的肽几何结构,本文通过估计残基骨架之间的二面角 (dihedral angles) 来自回归地扩展肽片段。最后,本文应用优化过程迭代地细化片段组装,确保正确的肽结构。通过将热点采样与基于片段的扩展相结合,PepHAR 能够在针对目标蛋白质进行从头 (de novo) 肽设计的同时,将关键热点残基整合到肽支架中。广泛的实验,包括肽设计和肽支架生成,都证明了 PepHAR 在计算肽结合物设计方面的强大潜力。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2411.18463v3 PDF 链接: https://arxiv.org/pdf/2411.18463v3.pdf

2. 整体概括

2.1. 研究背景与动机

肽 (Peptides),作为短链氨基酸,在生物学过程中扮演着重要角色,并且在新兴的药物开发中显示出巨大潜力,尤其是在治疗复杂疾病方面。传统的肽发现方法,如噬菌体/酵母展示或基于能量的计算工具,都面临着巨大的组合设计空间带来的挑战,效率和成本均是瓶颈。

近年来,深度生成模型 (deep generative models),特别是扩散 (diffusion) 和流 (flow-based) 模型,在 从头蛋白质设计 (de novo protein design) 中取得了显著进展。尽管这些模型在生成具有天然结构和高亲和力的肽结合物方面取得了初步成功,但仍存在以下几个关键挑战:

  1. 残基贡献不均 (Unequal Residue Contribution): 并非所有肽残基对结合的贡献都相同。一些残基是关键的 热点 (hotspot),负责主要的相互作用,而其他残基则作为 支架 (scaffold),用于定位热点和稳定肽结构。现有模型通常将所有残基同等对待,可能导致效率低下。
  2. 几何约束 (Geometric Constraints): 生成的肽必须遵守肽键 (peptide bonds) 施加的非旋转约束,这要求固定的键长和平面结构。独立地表示肽骨架结构可能忽略这些关键的几何约束。
  3. 缺乏真实任务 (Lack of Realistic Tasks): 在实际药物发现中,肽设计通常不是完全从零开始。往往需要优化现有候选肽,或连接已知的关键热点残基。因此,需要更真实的计算机模拟 (in-silico) 基准来模拟这些场景。

2.2. 核心贡献/主要发现

为了解决上述挑战,本文提出了 PepHAR (Hotspot-Driven Autoregressive Generative Model for Peptide Design),一个热点驱动的自回归生成模型。其核心贡献和主要发现包括:

  1. 引入 PepHAR 模型: 提出了一个新颖的 自回归生成模型 (autoregressive generative model),专门用于基于热点残基的肽结合物设计。
  2. 解决现有挑战的综合方法:
    • 热点识别: 使用 基于能量的密度模型 (energy-based density model) 来识别和采样具有高相互作用潜力的热点残基,区分了热点与支架残基的不同作用。
    • 几何结构维护: 采用 自回归片段扩展 (autoregressive fragment extension),通过建模 二面角 (dihedral angles) 的分布来逐步构建肽链,从而确保肽键的正确几何形状和连接性。
    • 结构校正: 引入 优化过程 (optimization process) 作为后处理步骤,迭代地完善片段组装,以确保生成的肽具有有效的几何结构和有意义的序列。
  3. 提出新实验设置: 引入了 支架生成 (scaffold generation) 的新实验场景,以模拟实际药物发现中利用先验知识(如已知热点残基)的情况,并在此任务中展示了模型卓越的性能。
  4. 实验验证:从头肽设计 (de novo peptide design)支架生成 (scaffold generation) 任务中进行了广泛实验,结果表明 PepHAR 在生成具有有效几何结构、天然样结构、更高稳定性和亲和力以及更高新颖性和多样性的肽方面表现出色,展现了其在计算肽结合物设计中的强大潜力。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 PepHAR 模型,以下是一些关键的基础概念:

  • 肽 (Peptides):由少量氨基酸(通常3到20个)通过肽键连接形成的短链。它们在生物体中扮演多种角色,也因其能够与目标蛋白结合而被视为一类有前景的治疗药物。
  • 热点残基 (Hotspot Residues):在蛋白质-蛋白质相互作用界面中,少数对结合亲和力和稳定性贡献最大的氨基酸残基。它们通常具有高度保守的结构和能量贡献。PepHAR 的核心思想之一就是首先识别和定位这些关键的 热点 (hotspot)
  • 支架残基 (Scaffold Residues):除了 热点残基 (hotspot residues) 之外,肽中其他主要用于提供结构支撑、将 热点 (hotspot) 定位在结合区域并稳定肽链的残基。它们通常对结合亲和力的直接贡献较小,但对于维持 热点 (hotspot) 的正确构象至关重要。
  • 肽键 (Peptide Bonds):连接氨基酸的酰胺键 (CO-NH)。由于共振效应,肽键具有部分双键特性,这限制了其旋转自由度,导致肽键周围的六个原子(N、H、C、O以及两个 α-碳 (Cα))形成一个刚性、平面的结构。这种平面性是蛋白质二级结构(如 α-螺旋 (α-helix)β-折叠 (β-sheet))形成的基础。
  • 二面角 (Dihedral Angles):描述蛋白质骨架中相邻平面之间空间关系的旋转角度。理解这些角度对于描述和预测蛋白质的三维结构至关重要。
    • ϕ\phi 角:绕 N-Cα 键的旋转角。
    • ψ\psi 角:绕 Cα-C 键的旋转角。
    • ω\omega 角:绕肽键 C-N 的旋转角。由于肽键的部分双键特性,ω\omega 角通常接近 00^\circ(顺式)或 180180^\circ(反式),反式构象更常见。 PepHAR 模型利用对这些二面角的预测和采样来逐步构建肽链。
  • 基于能量的模型 (Energy-Based Models):一类概率模型,通过一个能量函数来定义概率分布。能量值越低,对应事件的概率越高。在 PepHAR 中,用于学习残基在目标蛋白周围的分布,并从中采样 热点 (hotspot)
  • 朗之万动力学 (Langevin Dynamics):一种模拟物理系统随时间演化的随机过程,常用于从复杂概率分布中采样。在 PepHAR建立阶段 (Founding Stage) 中,用于从学习到的能量分布中迭代更新并采样 热点 (hotspot) 残基的位置和方向。
  • 自回归模型 (Autoregressive Models):一类序列生成模型,其中当前元素的生成依赖于其先前已生成的元素。PepHAR扩展阶段 (Extension Stage) 采用自回归方式,逐步向肽链中添加新残基。
  • 冯·米塞斯分布 (von Mises Distribution):一种定义在圆上的连续概率分布,类似于环形正态分布。它特别适用于建模角度或方向数据,例如蛋白质骨架中的 二面角 (dihedral angles)
  • SE(3)SE(3) 流形 (SE(3) Manifold)SE(3)SE(3) 代表三维欧几里得空间中的特殊欧几里得群,即刚体变换(包括旋转 SO(3)SO(3) 和平移 R3R^3)。蛋白质的残基骨架(位置和方向)可以被视为 SE(3)SE(3) 元素。
  • 噪声对比估计 (Noise Contrastive Estimation, NCE):一种训练无归一化统计模型的方法。它通过区分真实数据分布中的样本和噪声分布中的样本来训练模型,避免了计算复杂的归一化常数。PepHAR 使用 NCE 来训练 基于能量的密度模型 (energy-based density model)
  • 最大似然估计 (Maximum Likelihood Estimation, MLE):一种统计推断方法,用于估计模型参数,使得观测到的数据出现的概率最大化。PepHAR 使用 MLE 来训练预测 二面角 (dihedral angles) 分布的网络。
  • 不变点注意力骨干网络 (Invariant Point Attention backbone network, IPA backbone):一种 SE(3) 等变 (SE(3) equivariant) 的神经网络架构,能够处理三维空间中的点集,并在旋转和平移下保持其输出的几何性质不变。AlphaFold 等模型中使用了类似结构,PepHAR 用它来参数化其密度模型和预测网络。
  • 从头肽设计 (De Novo Peptide Design):指在没有现有模板或特定限制的情况下,完全从零开始设计肽序列和结构的过程。
  • 肽支架生成 (Peptide Scaffold Generation):一种更实际的肽设计任务,其中一些关键的 热点残基 (hotspot residues) 是预先固定或已知的,模型需要生成其余的 支架残基 (scaffold residues) 来连接这些 热点 (hotspot),形成完整的肽。

3.2. 前人工作

肽设计领域经历了从传统方法到深度学习方法的演变。

  • 传统肽发现方法:

    • 噬菌体/酵母展示 (phage/yeast display):通过筛选突变文库来发现肽结合物,劳动密集型且成本高昂。
    • 基于能量的计算工具 (energy-based computational tools):如 Rosetta 系列工具,通过优化手工或统计能量函数来评分候选肽,计算成本高且容易陷入局部最优。
  • 深度生成模型在蛋白质设计中的应用:

    • 早期的工作主要集中在蛋白质序列生成(如 蛋白质语言模型 (protein language models))和基于骨架结构的序列设计。
    • 扩散模型 (diffusion models)流匹配模型 (flow-matching models) 已成功应用于蛋白质三维结构的无条件和条件生成。这些模型通常将残基表示为 SE(3)SE(3) 流形中的刚性骨架、环形流形中的角度或统计流形中的类型。
    • 局限性: 大多数这些生成模型往往将所有残基同等对待,同时生成所有残基,并且忽略了 热点 (hotspot)支架 (scaffold) 残基的不同作用。
  • 计算肽设计中的深度生成模型:

    • 一些工作已尝试使用 GANs扩散模型 (diffusion models)流匹配模型 (flow-matching models) 来设计基于目标蛋白信息的肽结构和序列。
    • 代表性工作:
      • RFDiffusion:利用预训练的 RoseTTAFold 权重,通过去噪扩散过程生成蛋白质骨架结构,然后使用 ProteinMPNN 恢复序列。
      • ProteinGenerator:在 RFDiffusion 的基础上增强了序列-结构联合生成能力。
      • PepFlow:基于 流匹配框架 (flow-matching framework) 在黎曼流形 (Riemannian manifold) 上建模全原子肽并进行采样。
      • PepGLAD:采用 等变潜在扩散网络 (equivariant latent diffusion networks) 生成全原子肽结构。
    • 这些方法的不足:
      • 通常在一步中同时生成所有残基,未能区分 热点 (hotspot)支架 (scaffold) 的作用,可能导致 热点 (hotspot) 区域的低效设计。
      • 可能忽略肽键的几何约束(固定键长、平面结构),导致生成的肽结构不完全符合物理真实性。
      • 缺乏针对实际药物发现场景(如基于已知 热点 (hotspot) 进行优化)的基准测试。

3.3. 技术演进

肽设计领域的技术演进可以概括为以下几个阶段:

  1. 早期基于模板和启发式规则的方法: 依赖于已知的蛋白质或肽模板,通过启发式规则在蛋白质数据库 PDB 中搜索相似序列或结构作为设计起点。这种方法受到现有数据和模板的限制。
  2. 基于能量函数优化的方法: 侧重于优化手工设计或统计学衍生的能量函数,以评估和设计肽。这些方法虽然有效,但计算成本高昂,且易受局部最小值问题影响。
  3. 深度学习驱动的序列生成: 利用 蛋白质语言模型 (protein language models) 直接从序列信息生成蛋白质序列,或在给定骨架结构的情况下生成序列。
  4. 深度学习驱动的结构生成(骨架和全原子): 随着 AlphaFold 等结构的突破,扩散模型和流匹配模型开始被用于生成蛋白质和肽的骨架结构甚至全原子结构。这些模型能够处理复杂的几何信息,并能进行条件生成(例如,根据目标蛋白生成结合肽)。
  5. 针对特定生物分子特性的精细化设计: 在这一阶段,研究开始关注蛋白质和肽的更深层生物学特性,例如本论文所关注的 热点 (hotspot) 概念、几何约束以及更贴近实际应用场景的设计任务。PepHAR 正是这一趋势的代表,它试图将结构生成能力与生物学洞察(热点)和物理约束(肽键几何)相结合。

3.4. 差异化分析

PepHAR 的核心创新在于其三阶段方法,它显著区别于现有工作:

  • 热点驱动 (Hotspot-Driven): 多数现有深度生成模型(如 RFDiffusionProteinGeneratorPepFlowPepGLAD)在生成肽时,通常将所有残基同等对待,或在一步中生成所有残基。PepHAR 则明确区分了 热点 (hotspot)支架 (scaffold) 残基,并通过 基于能量的密度模型 (energy-based density model) 优先采样 热点 (hotspot),这使得设计过程更聚焦于关键相互作用区域,提高了效率和结合质量。
  • 自回归片段扩展与几何约束 (Autoregressive Fragment Extension with Geometric Constraints): 现有模型可能将肽骨架表示为独立局部框架,可能忽视肽键的非旋转约束。PepHAR 通过自回归地估计相邻残基骨架之间的 二面角 (dihedral angles),并使用 冯·米塞斯分布 (von Mises distribution) 进行建模,确保了生成的肽片段在几何上是有效的,并尊重了肽键的平面性。这直接解决了传统模型在生成 有效几何 (valid geometries) 方面的挑战。
  • 分阶段优化与校正 (Staged Optimization and Correction): PepHAR建立阶段 (Founding Stage) 生成 热点 (hotspot),在 扩展阶段 (Extension Stage) 构建片段后,还引入了 校正阶段 (Correction Stage)。这一后处理优化步骤通过结合骨架目标和二面角目标,利用梯度迭代细化整个肽的结构和序列,以确保其最终的有效性和稳定性。这弥补了纯生成模型可能在局部细节上产生的偏差。
  • 引入 支架生成 (Scaffold Generation) 任务 (New Task Setting): 针对实际药物开发中并非完全 从头设计 (de novo design) 的场景,PepHAR 引入了 支架生成 (scaffold generation) 这一更具实用性的任务设置。这使得模型能够利用先验知识,如固定 热点 (hotspot) 残基,从而更贴合真实世界的应用需求,并在这类任务中展示出优越性能。

4. 方法论

PepHAR 提出了一种三阶段方法来生成肽 DD,使其能够结合目标蛋白质 TT。这三个阶段包括 建立阶段 (Founding Stage)扩展阶段 (Extension Stage)校正阶段 (Correction Stage)

4.1. 方法原理

PepHAR 的核心思想是模拟肽设计中 热点 (hotspot)支架 (scaffold) 的不同作用。它首先识别并定位肽与目标蛋白质结合的关键 热点残基 (hotspot residues),这些 热点 (hotspot) 具有更高的相互作用潜力。然后,以这些 热点 (hotspot) 为起点,逐步、自回归地构建肽链,同时严格遵守肽键的几何约束。最后,对生成的肽进行全局优化和校正,以确保结构的有效性和稳定性。

整个过程可以概括为以下三个阶段:

  1. 建立阶段 (Founding Stage): 识别和采样少量的 热点残基 (hotspot residues)

  2. 扩展阶段 (Extension Stage):热点残基 (hotspot residues) 为起点,自回归地向左或向右扩展肽片段,直到达到目标长度。

  3. 校正阶段 (Correction Stage): 对组装好的肽进行优化,以纠正潜在的几何不一致和原子冲突,确保最终肽结构的有效性。

    以下是 PepHAR 肽采样算法的总体概述:

    数据: 目标蛋白 T, 肽长度 N, 热点残基数量 k, 热点索引 [i1, .., ik]
    建立阶段 (Founding Stage)
    for j ← 1 to k do
    3根据 Eq. 6, 7, 8 采样热点残基 Rij ∼ Pθ(c, x, O | T );
    4初始化片段 F(j,ij,j=1) ← [Rij];
    扩展阶段 (Extension Stage) while l1 + . + lk < N do
    随机选择片段索引 i 1, ., k 和方向 d {L, R};
    8设置起始残基为 N 端 Rior C 端 Rij+;
    9根据 Eq. 1 和 1 采样左侧或右侧的新残基;
    10将新残基添加到片段 Fj;
    将片段合并为肽 D ← F1 + . + Fk
    校正阶段 (Correction Stage) 2
    13for t ← 1, ... do 根据 Eq.22 计算当前肽的目标函数 J;
    14根据 Eq.23 和 24 的梯度更新肽;
    15 6返回 D = [R1, .., RN ]

4.2. 建立阶段 (Founding Stage)

建立阶段 (Founding Stage) 的目标是生成 kk热点残基 (hotspot residues)。这些 热点 (hotspot) 被认为是具有更高概率(即更低能量)出现在结合口袋附近的残基,相比于其他骨架结构和残基类型。

4.2.1. 能量模型参数化

通过引入残基分布 P(RT)P(R \mid T)热点残基 (hotspot residues) 代表那些在结合口袋附近出现的概率更高(即能量更低)的残基。本文使用一个 基于能量的密度模型 (energy-based density model) 来参数化 P(RT)P(R \mid T),这是一个条件联合分布,包括骨架位置 x\pmb{x}、方向 OO 和残基类型 cc

Pθ(c,x,OT)=1Zexp(gθ,c(x,OT)) P _ { \theta } ( c , \mathbf { x } , O \mid T ) = \frac { 1 } { Z } \exp \left( g _ { \theta , c } ( \mathbf { x } , \mathbf { O } \mid T ) \right)

其中:

  • gθg _ { \boldsymbol { \theta } } 是一个由 等变网络 (equivariant network) 参数化的 评分函数 (scoring function),它量化了在给定骨架结构(位置 x\pmb{x} 和方向 OO)和目标蛋白 TT 的条件下,残基类型 cc 出现的得分。换句话说,gθ,cg _ { \boldsymbol { \theta } , c } 是类型 cc 的非归一化概率。
  • ZZ 是与序列和结构信息相关的 归一化常数 (normalizing constant),本文不显式估计它。

4.2.2. 网络实现

密度模型 gθg _ { \theta }不变点注意力骨干网络 (Invariant Point Attention backbone network, IPA backbone) 参数化,该网络是 SE(3) 不变 (SE(3) invariant) 的。它接收正样本残基(肽残基)和负样本残基(扰动残基)以及目标蛋白作为输入,将它们编码成隐藏表示。随后,一个浅层的 多层感知机 (Multi-Layer Perceptron, MLP) 用于分类残基类型以进行 似然评估 (likelihood evaluation)

4.2.3. 训练

本文使用 噪声对比估计 (Noise Contrastive Estimation, NCE) 来训练这个参数化的 基于能量的模型 (energy-based model)NCE 的目标是区分来自真实数据分布的样本(正点)和来自噪声分布的样本(负点)。

  • 正样本分布: 对应于肽在目标蛋白上的真实残基分布 (c,x,O)p(RT)( c , \mathbf { x } , O ) \sim p ( R \mid T )

  • 负样本: 通过对真实位置和方向添加大的空间噪声,从扰动分布 (cneg,x,O)p(R~T)( c _ { \mathrm { n e g } } , \pmb { x } ^ { - } , \pmb { O } ^ { - } ) \sim p ( \tilde { R } \mid T ) 中抽取,并标记为类型 cnegc _ { \mathrm { n { e g } } }

    由于正负数据是等量采样的,单个正数据点的 NCE 目标函数为:

l(c,x,O,T)=logexpgθ,c(x,OT)cexpgθ,c(x,OT)+p(cneg,x,OT) l ( c , \mathbf { x } , O , | T ) = \log { \frac { \exp { g _ { \theta , c } ( \mathbf { x } , O \mid T ) } } { \sum _ { c ^ { \prime } } \exp { g _ { \theta , c ^ { \prime } } ( \mathbf { x } , \mathbf { O } \mid T ) } + p ( c _ { n e g } , \mathbf { x } , O \mid T ) } }

其中:

  • gθ,c(x,OT)g _ { \theta , c } ( \mathbf { x } , O \mid T ) 是对于残基类型 cc 在位置 x\mathbf { x } 和方向 OO 下的得分。

  • cexpgθ,c(x,OT)\sum _ { c ^ { \prime } } \exp { g _ { \theta , c ^ { \prime } } ( \mathbf { x } , \mathbf { O } \mid T ) } 是所有可能残基类型的归一化项。

  • p(cneg,x,O T)p ( c _ { \mathrm { n e g } } , \pmb { x } , \pmb { O } \ | T ) 是负样本的概率,通常被固定为一个常数,以简化负样本对数似然 (log-likelihoods) 的评估。

    最终的 NCE 损失函数为:

LNCE=E+[l(c,x,OT)]E[l(cneg,x,OT)] \mathcal { L } ^ { N C E } = - \mathbb { E } _ { + } \left[ l ( c , \pmb { x } , O \mid T ) \right] - \mathbb { E } _ { - } \left[ l ( c _ { \mathrm { n e g } } , \pmb { x } ^ { - } , \pmb { O } ^ { - } \mid T ) \right]

其中:

  • E+[]\mathbb { E } _ { + } [ \cdot ] 表示对真实数据分布中的正样本的期望。
  • E[]\mathbb { E } _ { - } [ \cdot ] 表示对噪声分布中的负样本的期望。

4.2.4. 采样

建立阶段 (Founding Stage),本文从学习到的 基于能量的分布 (energy-based distribution) 中采样 kk热点残基 (hotspot residues)。由于 热点 (hotspot) 被假定为在肽链上稀疏分布,本文近似地独立采样它们。对于每个 热点残基 (hotspot residue),本文采用 朗之万马尔可夫链蒙特卡洛采样 (Langevin MCMC Sampling) 算法,从一个初始猜测的位置 x\mathbf { x } ^ { \mho } 和方向 O0O ^ { 0 } 开始,并使用以下梯度迭代更新它们:

xt+1xt+ϵ22cxgθ,c(xt,OtT)+ϵzxt,zxtN(0,I3)Ot+1expOt(ϵ22cOgθ,c(xt,OtT)+ϵZOt),ZOtTNOt(0,I3)ct+1softmaxgθ(xt,OtT) \begin{array} { r l } & { \displaystyle \boldsymbol { x } ^ { t + 1 } \gets \boldsymbol { x } ^ { t } + \frac { \epsilon ^ { 2 } } { 2 } \sum _ { c ^ { \prime } } \nabla _ { \boldsymbol { x } } g _ { \theta , c ^ { \prime } } ( \boldsymbol { x } ^ { t } , { O } ^ { t } \mid T ) + \epsilon z _ { x } ^ { t } , z _ { x } ^ { t } \sim \mathcal { N } ( 0 , \mathrm { I } _ { 3 } ) } \\ & { } \\ & { \displaystyle O ^ { t + 1 } \gets \exp _ { O ^ { t } } ( \frac { \epsilon ^ { 2 } } { 2 } \sum _ { c ^ { \prime } } \nabla _ { O } g _ { \theta , c ^ { \prime } } ( \boldsymbol { x } ^ { t } , O ^ { t } \mid T ) + \epsilon \boldsymbol { Z } _ { O } ^ { t } ) , \boldsymbol { Z } _ { O } ^ { t } \sim \mathcal { T N } _ { O ^ { t } } ( 0 , \mathrm { I } _ { 3 } ) } \\ & { \displaystyle c ^ { t + 1 } \sim \mathrm { s o f t m a x } g _ { \theta } ( \boldsymbol { x } ^ { t } , O ^ { t } \mid T ) } \end{array}

其中:

  • xt\boldsymbol { x } ^ { t }OtO ^ { t } 是在时间步 tt 的位置和方向。

  • ϵ\epsilon 是步长大小。

  • xgθ,c\nabla _ { \boldsymbol { x } } g _ { \theta , c ^ { \prime } }Ogθ,c\nabla _ { O } g _ { \theta , c ^ { \prime } } 是评分函数 gθ,cg _ { \theta , c ^ { \prime } } 对位置和方向的梯度。

  • zxtN(0,I3)z _ { x } ^ { t } \sim \mathcal { N } ( 0 , \mathrm { I } _ { 3 } ) 是一个标准三维正态分布的噪声向量,用于位置更新。

  • expOt()\exp _ { O ^ { t } } ( \cdot ) 是在 SO(3)SO(3) 空间中的 指数映射 (exponential map)

  • ZOtTNOt(0,I3)\boldsymbol { Z } _ { O } ^ { t } \sim \mathcal { T N } _ { O ^ { t } } ( 0 , \mathrm { I } _ { 3 } ) 是在 SO(3)SO(3) 空间切空间 (tangent space) 上的 黎曼随机游走 (Riemannian random walk) 噪声,用于方向更新。

  • softmaxgθ(xt,OtT)\mathrm { softmax } g _ { \theta } ( \boldsymbol { x } ^ { t } , O ^ { t } \mid T ) 表示基于当前位置和方向,对所有可能的残基类型进行 softmax 操作,从而采样出新的残基类型 ct+1c ^ { t + 1 }

    所有可能残基类型的求和确保了从低发生概率区域向高发生概率区域的过渡。每次迭代后,残基类型 cc 根据更新后的位置和方向进行采样。

4.3. 扩展阶段 (Extension Stage)

扩展阶段 (Extension Stage) 从采样的 热点残基 (hotspot residues) 开始,将片段扩展为更长的序列。在每个扩展步骤中,本文会向片段的左侧或右侧添加一个新的残基。根据相邻残基之间的关系,新残基的骨架结构是从其 二面角 (dihedral angles) 和相邻残基的结构推断出来的。

4.3.1. 二面角分布建模

当连接新残基到片段 FjF_j 中的残基 RijR_{i_j} 时,本文对 二面角 (dihedral angles) 分布 P(ψ,ˉϕd,Rij,E)P ( \bar { \psi , } \phi \mid d , R _ { i _ { j } } , E ) 进行建模,其中 d{L,R}d \in \{ \mathbf { L } , \mathbf { R } \} 表示扩展方向,而 EE 表示周围环境,包括目标 TT 和当前已生成的其他片段中的残基。

P(ψ,ϕd,Rij,E)={P(ψij1,ϕij), d=L P ( \psi , \phi \mid d , R _ { i _ { j } } , E ) = { \Big \{ } P ( \psi _ { i _ { j } - 1 } , \phi _ { i _ { j } } ) , ~ d = \mathbf { L } { \Big . }

由于涉及多个角度,二面角 (dihedral angles) 分布被建模为参数化 冯·米塞斯分布 (von Mises distributions) 的乘积。 冯·米塞斯分布 (von Mises distributions) 使用 余弦距离 (cosine distance) 而非 L2 距离 (L2 distance) 来衡量角度之间的差异,表现类似于 环形正态分布 (circular normal distributions)

例如,当方向 d=Ld = \mathrm { L } 时(向左扩展,即添加 Rij1R_{i_j-1}),分布可以表示为:

P(ψij1,ϕij)=fVM(ψ;μψij1,κψij1)fVM(ϕij;μϕij,κϕij)fVM(ψij1;μψij1,κψij1)=12πI0(κψij1)exp(κψij1cos(μψij1ψij1))fVM(ϕij;μϕij,κϕij)=12πI0(κϕij)exp(κϕijcos(μϕijϕij)) \begin{array} { c } { { P ( \psi _ { i _ { j } - 1 } , \phi _ { i _ { j } } ) = f _ { \mathrm { V M } } ( \psi ; \mu _ { \psi _ { i _ { j } - 1 } } , \kappa _ { \psi _ { i _ { j } - 1 } } ) f _ { \mathrm { V M } } ( \phi _ { i _ { j } } ; \mu _ { \phi _ { i _ { j } } } , \kappa _ { \phi _ { i _ { j } } } ) } } \\ { { { } } } \\ { { f _ { \mathrm { V M } } ( \psi _ { i _ { j } - 1 } ; \mu _ { \psi _ { i _ { j } - 1 } } , \kappa _ { \psi _ { i _ { j } - 1 } } ) = \displaystyle \frac { 1 } { 2 \pi I _ { 0 } ( \kappa _ { \psi _ { i _ { j } - 1 } } ) } \exp \left( \kappa _ { \psi _ { i _ { j } - 1 } } \cdot c o s ( \mu _ { \psi _ { i _ { j } - 1 } } - \psi _ { i _ { j } - 1 } ) \right) } } \\ { { { } } } \\ { { f _ { \mathrm { V M } } ( \phi _ { i _ { j } } ; \mu _ { \phi _ { i _ { j } } } , \kappa _ { \phi _ { i _ { j } } } ) = \displaystyle \frac { 1 } { 2 \pi I _ { 0 } ( \kappa _ { \phi _ { i _ { j } } } ) } \exp \left( \kappa _ { \phi _ { i _ { j } } } \cdot c o s ( \mu _ { \phi _ { i _ { j } } } - \phi _ { i _ { j } } ) \right) } } \end{array}

其中:

  • fVM(θ;μ,κ)f _ { \mathrm { V M } } ( \theta ; \mu , \kappa )冯·米塞斯分布 (von Mises distribution) 的概率密度函数。

  • μ\mu 是平均方向(中心角度)。

  • κ0\kappa \geq 0集中度参数 (concentration parameter),类似于正态分布中的方差倒数。κ=0\kappa = 0 时分布均匀,κ\kappa 越大则数据越集中在 μ\mu 附近。

  • I0(κ)I _ { 0 } ( \kappa )零阶修正贝塞尔函数 (modified Bessel function of the first kind of order zero),作为归一化常数。

    这四个分布参数 (μψij1,κψij1,μϕij,κϕij\mu _ { \psi _ { i _ { j } - 1 } } , \kappa _ { \psi _ { i _ { j } - 1 } } , \mu _ { \phi _ { i _ { j } } } , \kappa _ { \phi _ { i _ { j } } } ) 由一个称为 预测网络 (prediction network) 的神经网络 hθh _ { \theta } 预测。同样,当方向 d=Rd = \mathbf { R } 时,网络预测另一组四个参数 (μψij,κψij,μϕij+1,κϕij+1\mu _ { \psi _ { i _ { j } } } , \kappa _ { \psi _ { i _ { j } } } , \mu _ { \phi _ { i _ { j } + 1 } } , \kappa _ { \phi _ { i _ { j } + 1 } }):

hθ(d,Rij,E)={(μψij1,κψij1,μϕij,κϕij),d=L,(μψij,κψij,μϕij+1,κϕij+1),d=R. h _ { \theta } ( d , R _ { i _ { j } } , E ) = \left\{ \begin{array} { l l } { ( \mu _ { \psi _ { i _ { j } - 1 } } , \kappa _ { \psi _ { i _ { j } - 1 } } , \mu _ { \phi _ { i _ { j } } } , \kappa _ { \phi _ { i _ { j } } } ) , } & { d = \mathbf { L } , } \\ { ( \mu _ { \psi _ { i _ { j } } } , \kappa _ { \psi _ { i _ { j } } } , \mu _ { \phi _ { i _ { j } + 1 } } , \kappa _ { \phi _ { i _ { j } + 1 } } ) , } & { d = \mathbf { R } . } \end{array} \right.

4.3.2. 网络实现

预测网络 (prediction network) hθh _ { \theta } 使用与 建立阶段 (Founding Stage) 相同的 IPA 骨干网络 (IPA backbone) 来提取特征。为了避免训练期间的 数据泄露 (data leakage),本文在注意力模块中使用了 定向掩码 (directional masks)。例如,如果方向是 Left,则残基在注意力更新期间只能关注其右侧的邻居,反之亦然。

4.3.3. 训练

本文使用 最大似然估计 (Maximum Likelihood Estimation, MLE) 来优化网络参数,目标是最大化在肽-靶点复合物数据集上,给定方向 d{L,R}d \sim \{ \mathbf { L } , \mathbf { R } \} 和肽的 对数似然 (log-likelihood)MLE 目标函数为:

LMLE=E[logP(ψ,ϕd,Rij,E)] \mathcal { L } ^ { M L E } = - \mathbb { E } \left[ \log P ( \psi , \phi \mid d , R _ { i _ { j } } , E ) \right]

4.3.4. 采样

扩展阶段 (Extension Stage),本文为 建立阶段 (Founding Stage) 中采样的 kk热点残基 (hotspot residues) 生成 kk 个片段。扩展过程是迭代的,片段自回归地扩展,直到总肽长度(所有片段长度之和)达到预设值。 考虑片段 FF 在方向 dd 上的单步扩展。起始残基 RijR_{i_j} 取决于方向:d=Ld = \mathrm { L } 意味着向片段左侧添加残基(作为 NN 端),d=Rd = \mathbf { R } 意味着向右侧添加残基(作为 CC 端)。片段中其他残基和目标蛋白构成了环境 EE。 然后,本文从 预测网络 (prediction network) hθh _ { \theta } 预测的分布中采样新残基的 二面角 (dihedral angles)。例如,当方向 d=Ld = \mathbf { L } 时:

ψij1fVM(ψij1;hθ(d=L,Rij,E))ϕijfVM(ϕij;hθ(d=R,Rij,E)) \begin{array} { r l } & { \psi _ { i _ { j } - 1 } \sim f _ { \mathrm { V M } } ( \psi _ { i _ { j } - 1 } ; h _ { \theta } ( d = \mathrm { L } , R _ { i _ { j } } , E ) ) } \\ & { \quad \phi _ { i _ { j } } \sim f _ { \mathrm { V M } } ( \phi _ { i _ { j } } ; h _ { \theta } ( d = \mathrm { R } , R _ { i _ { j } } , E ) ) } \end{array}

接下来,使用 Eq. 1 的变换重建新添加残基 R _ { i _ { j } - 1 } 的骨架结构:

(xij1,Oij1)=Left(xij,Oij,ψij1,ϕij) ( { \pmb x } _ { i _ { j } - 1 } , { \pmb O } _ { i _ { j } - 1 } ) = { \bf L e f t } ( { \pmb x } _ { i _ { j } } , { \pmb O } _ { i _ { j } } , \psi _ { i _ { j } - 1 } , \phi _ { i _ { j } } )

新残基的类型则通过 建立阶段 (Founding Stage) 中使用的 密度模型 (density model) gθg _ { \theta } 进行估计:

cij1softmaxgθ(xij1,Oij1E) c _ { i _ { j } - 1 } \sim \mathrm { s o f t m a x } g _ { \theta } ( { \pmb x } _ { i _ { j } - 1 } , { \pmb O } _ { i _ { j } - 1 } \mid E )

最后,对另一个随机选择的片段和方向重复此过程。

4.4. 校正阶段 (Correction Stage)

尽管每个片段都经过自回归扩展,但最终组装而成的片段可能无法形成具有精确几何结构的有效肽。例如,片段之间可能未能保持适当的距离,导致肽键断裂;或者 二面角 (dihedral angles) 或残基类型与整个肽和目标蛋白的关系不正确;一些片段还可能与目标蛋白发生原子冲突。

受传统使用 手工能量函数 (hand-crafted energy functions) 方法的启发,本文引入了一个 校正阶段 (Correction Stage) 作为后处理步骤来精炼生成的肽。与依赖经验函数不同,本文利用前两个阶段学习到的、由网络参数化的分布来 正则化 (regularize) 肽。

对于生成的肽 D=[(c1,x1,O1),...,(cN,xN,ON)]D = [ ( c _ { 1 } , { \pmb x } _ { 1 } , { \pmb O } _ { 1 } ) , . . . , ( c _ { N } , { \pmb x } _ { N } , { \pmb O } _ { N } ) ],每个残基的 二面角 (dihedral angles) 都是根据相邻残基的骨架结构导出的。为确保 二面角 (dihedral angles) 与骨架结构之间的一致性,本文使用它们来估计新的骨架结构,并与原始结构进行比较。这些骨架结构之间的距离反映了生成肽在肽键特性和平面性方面的有效性。

本文为两个残基骨架结构之间的距离定义了位置和方向的度量,并推导了骨架目标函数,考虑了两个方向:

d((xi,Oi),(xj,Oj))=xixj2+log(Oi)log(Oj)2 d ( ( { \bf x } _ { i } , { \cal O } _ { i } ) , ( { \bf x } _ { j } , { \cal O } _ { j } ) ) = \| { \bf x } _ { i } - { \bf x } _ { j } \| ^ { 2 } + \| \log ( { \cal O } _ { i } ) - \log ( { \cal O } _ { j } ) \| ^ { 2 }

其中:

  • d(,)d ( \cdot , \cdot ) 是两个残基骨架结构之间的距离度量。

  • (xi,Oi)({ \bf x } _ { i } , { \cal O } _ { i } ) 是残基 ii 的位置和方向。

  • xixj2\| { \bf x } _ { i } - { \bf x } _ { j } \| ^ { 2 } 是位置的欧几里得距离平方。

  • log(Oi)log(Oj)2\| \log ( { \cal O } _ { i } ) - \log ( { \cal O } _ { j } ) \| ^ { 2 } 是在 SO(3)SO(3) 空间中方向的距离平方,log 函数将旋转矩阵映射到其对应的李代数。

    骨架目标函数 Tbb\mathcal { T } _ { b b } 旨在最小化通过 LeftRight 操作从相邻残基推导出的骨架结构与实际骨架结构之间的偏差:

Tbb=i=2Nd(Left(xi,Oi,ψi1,ϕi)(xi1,Oi1))i=1N1d(Right(xi,Oi,ψi,ϕi+1)(xi+1,Oi,ψi,ϕi)) \mathcal { T } _ { b b } = - \displaystyle \sum _ { i = 2 } ^ { N } d ( { \bf L e f t } ( { \bf x } _ { i } , { \cal O } _ { i } , \psi _ { i - 1 } , \phi _ { i } ) - ( { \bf x } _ { i - 1 } , { \cal O } _ { i - 1 } ) ) - \displaystyle \sum _ { i = 1 } ^ { N - 1 } d ( { \bf R i g h t } ( { \bf x } _ { i } , { \cal O } _ { i } , \psi _ { i } , \phi _ { i + 1 } ) - ( { \bf x } _ { i + 1 } , { \cal O } _ { i } , \psi _ { i } , \phi _ { i } ) )

其中:

  • Tbb\mathcal { T } _ { b b } 是骨架目标函数。

  • LeftRight 是根据相邻残基的 二面角 (dihedral angles) 重建骨架结构的操作。

  • d(,)d ( \cdot, \cdot ) 是上述定义的骨架结构距离。

  • 求和项考虑了从 N 端到 C 端和从 C 端到 N 端两个方向的几何一致性。

    此外,二面角 (dihedral angles) 必须符合学习到的分布 P(ψ,ϕ)P ( \psi , \phi ),以确保相邻残基之间正确的几何关系。这导致了 二面角目标函数 (dihedral objective),类似于 Eq. 14。然而,在 Eq. 14 中,本文优化网络参数以拟合角度分布,而在此处,本文保持学习到的网络固定,并更新 二面角 (dihedral angles)

Tang=i=2NlogP(ψi1,ϕi)i=1N1logP(ψi,ϕi+1) \mathcal { T } _ { a n g } = - \sum _ { i = 2 } ^ { N } \log P ( \psi _ { i - 1 } , \phi _ { i } ) - \sum _ { i = 1 } ^ { N - 1 } \log P ( \psi _ { i } , \phi _ { i + 1 } )

其中:

  • Tang\mathcal { T } _ { a n g }二面角目标函数 (dihedral objective)

  • logP(ψ,ϕ)\log P ( \psi , \phi ) 是根据学习到的 冯·米塞斯分布 (von Mises distribution) 评估的 二面角 (dihedral angles) 的对数概率。

    最终的优化目标是骨架目标和 二面角目标 (dihedral objective) 的加权和:

Icorr=λbbIbb+λangIang \mathcal { I } _ { c o r r } = \lambda _ { b b } \mathcal { I } _ { b b } + \lambda _ { a n g } \mathcal { I } _ { a n g }

其中:

  • Icorr\mathcal { I } _ { c o r r } 是最终的校正优化目标。

  • λbb\lambda _ { b b }λang\lambda _ { a n g } 是权重参数。

    本文通过 梯度 (gradients) 迭代更新肽的骨架结构,类似于 建立阶段 (Founding Stage),但在每个时间步优化整个肽。密度模型 (density model) gθg _ { \theta } 在每个更新步骤结束时预测残基类型。与 建立阶段 (Founding Stage) 从随机结构开始不同,校正阶段 (Correction Stage) 从完整的肽开始。

(xit+1,Oit+1)update(xit,Oit,xiI,OiI,) : :ct+1softmax(xt,OtE) \begin{array} { r l } & { ( \pmb { x } _ { i } ^ { t + 1 } , \pmb { O } _ { i } ^ { t + 1 } ) \mathrm { u p d a t e } ( \pmb { x } _ { i } ^ { t } , \pmb { O } _ { i } ^ { t } , \nabla _ { \pmb { x } _ { i } } \mathcal { I } , \nabla _ { \pmb { O } _ { i } } \mathcal { I } , ) } \\ & { \qquad \quad \ : \ : c ^ { t + 1 } \sim \mathrm { s o f t m a x } ( \pmb { x } ^ { t } , \pmb { O } ^ { t } \mid E ) } \end{array}

4.5. 辅助结构重建与二面角计算

4.5.1. 肽键和平面性 (Peptide Bond and Planar)

肽键是氨基酸之间通过一个氨基的羧基与另一个氨基的氨基形成酰胺键而产生的共价键。这种键具有部分双键性质,这限制了其旋转自由度,导致肽键周围的六个原子(N、H、C、O以及两个 α-碳 (Cα))形成一个刚性、平面的结构。这种平面性对于维持蛋白质骨架的结构和稳定性至关重要,并直接影响了 二面角 (dihedral angles) 的计算和相邻残基的重建。

4.5.2. 二面角计算 (Dihedral Angles Calculation)

二面角 (dihedral angles) ϕ\phiψ\psi 定义了蛋白质骨架的构象。 对于四个连续原子 (A, B, C, D)二面角 (dihedral angle) 计算步骤如下:

  1. 计算键向量 (Compute bond vectors): AB=BA,BC=CB,CD=DC \vec { A B } = B - A , \quad \vec { B C } = C - B , \quad \vec { C D } = D - C

  2. 计算由原子形成的两平面的法向量 (Calculate the normal vectors of the two planes formed by the atoms): n1=AB×BC,n2=BC×CD \vec { n } _ { 1 } = \vec { A B } \times \vec { B C } , \quad \vec { n } _ { 2 } = \vec { B C } \times \vec { C D }

  3. 使用点积计算两平面之间的角度 (Use the dot product to find the angle between the two planes): angle=arctan2(BC(n1×n2),n1n2) { \mathrm { a n g l e } } = \arctan 2 \left( { \vec { B C } } \cdot ( { \vec { n } } _ { 1 } \times { \vec { n } } _ { 2 } ) , { \vec { n } } _ { 1 } \cdot { \vec { n } } _ { 2 } \right)

    这个通用方法可以用于计算蛋白质骨架中的 ϕ\phiψ\psi 二面角 (dihedral angles)

  • ϕi\phi_i 角: 绕残基 iiN-Cα 键的 二面角 (dihedral angle)。由以下四个原子定义:

    • Ci1C _ { i - 1 }: 前一个残基的羰基碳 (Carbonyl carbon)。

    • N _ { i }: 当前残基的酰胺氮 (Amide nitrogen)。

    • Cα,iC _ { \alpha , i }: 当前残基的 α-碳 (Alpha carbon)

    • C _ { i }: 当前残基的羰基碳。

      计算为平面 (Ci1,Ni,Cα,i)( C _ { i - 1 } , N _ { i } , C _ { \alpha , i } )(Ni,Cα,i,Ci)( N _ { i } , C _ { \alpha , i } , C _ { i } ) 之间的角度: ϕi=angle between planes(Ci1,Ni,Cα,i)and(Ni,Cα,i,Ci) \phi _ { i } = \mathrm { a n g l e ~ b e t w e e n ~ p l a n e s } \left( C _ { i - 1 } , N _ { i } , C _ { \alpha , i } \right) \mathrm { a n d } \left( N _ { i } , C _ { \alpha , i } , C _ { i } \right)

  • ψi\psi_i 角: 绕残基 iiCα-C 键的 二面角 (dihedral angle)。由以下四个原子定义:

    • N _ { i }: 当前残基的酰胺氮。

    • Cα,iC _ { \alpha , i }: 当前残基的 α-碳 (Alpha carbon)

    • C _ { i }: 当前残基的羰基碳。

    • Ni+1N _ { i + 1 }: 下一个残基的酰胺氮。

      计算为平面 (Ni,Cα,i,Ci)( N _ { i } , C _ { \alpha , i } , C _ { i } )(Cα,i,Ci,Ni+1)( C _ { \alpha , i } , C _ { i } , N _ { i + 1 } ) 之间的角度: ψi=angle between planes(Ni,Cα,i,Ci)and(Cα,i,Ci,Ni+1) \psi _ { i } = \mathrm { a n g l e ~ b e t w e e n ~ p l a n e s } \left( N _ { i } , C _ { \alpha , i } , C _ { i } \right) \mathrm { a n d } \left( C _ { \alpha , i } , C _ { i } , N _ { i + 1 } \right)

  • 前一个残基的 ψi1\psi_{i-1} 角: 类似于 ψi\psi_i,但针对前一个残基。涉及以下四个原子:

    • Ni1N _ { i - 1 }: 前一个残基的酰胺氮。

    • Cα,i1C _ { \alpha , i - 1 }: 前一个残基的 α-碳 (Alpha carbon)

    • Ci1C _ { i - 1 }: 当前残基的羰基碳。

    • N _ { i }: 当前残基的酰胺氮。

      计算为: ψi1=angle between planes(Ni1,Cα,i1,Ci1)and(Cα,i1,Ci1,Ni) \boldsymbol { \psi } _ { i - 1 } = \mathrm { a n g l e ~ b e t w e e n ~ p l a n e s } \left( N _ { i - 1 } , C _ { \alpha , i - 1 } , C _ { i - 1 } \right) \mathrm { a n d } \left( C _ { \alpha , i - 1 } , C _ { i - 1 } , N _ { i } \right)

  • 下一个残基的 ϕi+1\phi_{i+1} 角: 类似于 ϕi\phi_i,但针对下一个残基。涉及以下四个原子:

    • C _ { i }: 当前残基的羰基碳。

    • Ni+1N _ { i + 1 }: 下一个残基的酰胺氮。

    • Cα,i+1C _ { \alpha , i + 1 }: 下一个残基的 α-碳 (Alpha carbon)

    • Ci+1C _ { i + 1 }: 下一个残基的羰基碳。

      计算为: ϕi+1=angle between planes(Ci,Ni+1,Cα,i+1)and(Ni+1,Cα,i+1,Ci+1) \boldsymbol { \phi } _ { i + 1 } = \mathrm { a n g l e ~ b e t w e e n ~ p l a n e s } \left( C _ { i } , N _ { i + 1 } , C _ { \alpha , i + 1 } \right) \mathrm { a n d } \left( N _ { i + 1 } , C _ { \alpha , i + 1 } , C _ { i + 1 } \right)

4.5.3. 相邻结构重建 (Adjacent Structure Reconstruction)

重建相邻残基 Ri1R_{i-1}Ri+1R_{i+1} 的骨架结构涉及两个主要步骤:首先,使用 二面角 (dihedral angles) 旋转局部坐标系中的标准残基坐标;然后,根据给定残基的位置和方向将局部坐标系转换回全局坐标系。

4.5.3.1. 计算 xi\mathbf{x}_iOi\mathbf{O}_i

为了将局部坐标转换为全局坐标,首先需要计算残基 RiR_i 的平移向量 xi\mathbf{x}_i 和方向矩阵 Oi\mathbf{O}_i

  • 平移向量 xi\mathbf{x}_i 通常选择残基 RiR_i 内关键原子(如 α-碳 (Cα))的位置作为 xi\mathbf{x}_ixi=CAi \mathbf { x } _ { i } = \mathbf { C } \mathbf { A } _ { i }
  • 方向矩阵 Oi\mathbf{O}_i 定义残基 RiR_i 的局部坐标系,并用于将局部坐标旋转到全局坐标系。通过 CC (羰基碳)、CA (α-碳) 和 NN (酰胺氮) 三个关键原子的位置来构建。
    1. 计算从 CCCA 的向量,并归一化得到第一个基向量 e1\mathbf{e}_1v1=CiCAie1=v1v1 \begin{array} { c } { { \displaystyle { \bf v } _ { 1 } = { \bf C } _ { i } - { \bf C } { \bf A } _ { i } } } \\ { { \displaystyle { \bf e } _ { 1 } = \frac { { \bf v } _ { 1 } } { \| { \bf v } _ { 1 } \| } } } \end{array}
    2. 计算从 NNCA 的向量,并减去其在 e1\mathbf{e}_1 上的投影,得到与 e1\mathbf{e}_1 正交的分量。归一化得到第二个基向量 e2\mathbf{e}_2v2=NiCAiu2=v2(v2e1e12)e1e2=u2u2 \begin{array} { c } { \displaystyle \mathbf { v } _ { 2 } = \mathbf { N } _ { i } - \mathbf { C A } _ { i } } \\ { \displaystyle } \\ { \displaystyle \mathbf { u } _ { 2 } = \mathbf { v } _ { 2 } - \left( \frac { \mathbf { v } _ { 2 } \cdot \mathbf { e } _ { 1 } } { | | \mathbf { e } _ { 1 } | | ^ { 2 } } \right) \mathbf { e } _ { 1 } } \\ { \displaystyle \mathbf { e } _ { 2 } = \frac { \mathbf { u } _ { 2 } } { | | \mathbf { u } _ { 2 } | | } } \end{array}
    3. 第三个正交向量 e3\mathbf{e}_3e1\mathbf{e}_1e2\mathbf{e}_2 的叉积得到: e3=e1×e2 { \bf e } _ { 3 } = { \bf e } _ { 1 } \times { \bf e } _ { 2 }
    4. 方向矩阵 Oi\mathbf{O}_i 由这三个正交基向量组成: Oi=[e1,e2,e3] \mathbf O _ { i } = [ { \bf e } _ { 1 } , { \bf e } _ { 2 } , { \bf e } _ { 3 } ]

4.5.3.2. 局部坐标重建 (Local Coordinate Reconstruction)

给定参考肽结构,应用 二面角 (dihedral angle) 变换来计算基于角度 ψi\psi_iϕi+1\phi_{i+1} 的新坐标。

  • 旋转矩阵定义 (Rotation Matrix Definition): 对于任意轴 d=(dx,dy,dz)\mathbf{d} = (d_x, d_y, d_z) 和角度 θ\theta 的旋转矩阵由罗德里格斯旋转公式 (Rodrigues' rotation formula) 给出: R(d,θ)=I+sin(θ)K+(1cos(θ))K2 R ( \mathbf { d } , \theta ) = I + \sin ( \theta ) \mathbf { K } + ( 1 - \cos ( \theta ) ) \mathbf { K } ^ { 2 } 其中 K\mathbf{K}d\mathbf{d} 的斜对称矩阵: K=[0dzdydz0dxdydx0] \mathbf { K } = \left[ { \begin{array} { c c c } { 0 } & { - d _ { z } } & { d _ { y } } \\ { d _ { z } } & { 0 } & { - d _ { x } } \\ { - d _ { y } } & { d _ { x } } & { 0 } \end{array} } \right]

  • 初始参考坐标 (Initial Reference Coordinates): 使用 甘氨酸 (GLY) 的标准结构作为参考,因为其缺乏侧链。肽键在 C1N2 之间被假定为平面,ψ1=ψ2=0\psi_1 = \psi_2 = 0^\circN1=(0.572,1.337,0.000),CA=(0.000,0.000,0.000),C1=(1.517,0.000,0.000) \mathbf { N1 } = ( - 0 . 5 7 2 , 1 . 3 3 7 , 0 . 0 0 0 ) , \quad \mathbf { C A } = ( 0 . 0 0 0 , 0 . 0 0 0 , 0 . 0 0 0 ) , \quad \mathbf { C1 } = ( 1 . 5 1 7 , 0 . 0 0 0 , 0 . 0 0 0 ) N2=(2.1114,1.1887,0.0000),CA2=(3.5606,1.3099,0.0000),C2=(4.0913,0.1112,0.0000) \mathbf { N2 } = ( 2 . 1 1 1 4 , 1 . 1 8 8 7 , 0 . 0 0 0 0 ) , \quad \mathbf { C A2 } = ( 3 . 5 6 0 6 , 1 . 3 0 9 9 , 0 . 0 0 0 0 ) , \quad \mathbf { C2 } = ( 4 . 0 9 1 3 , - 0 . 1 1 1 2 , 0 . 0 0 0 0 )

  • CA2N2\mathbf{CA2}-\mathbf{N2} 轴旋转 C2\mathbf{C2} (旋转 ϕi+1\phi_{i+1}): dN2CA2=N2CA2N2CA2 { \bf d } _ { N 2 - C A 2 } = \frac { \bf N 2 - C A 2 } { | | N 2 - C A 2 | | } C2=CA2+R(dN2CA2,ϕi+1)(C2CA2) \mathbf { C2 } ^ { \prime } = \mathbf { C A2 } + R ( \mathbf { d } _ { N 2 - C A 2 } , \phi _ { i + 1 } ) \cdot ( \mathbf { C2 } - \mathbf { C A2 } )

  • CA1C1\mathbf{CA1}-\mathbf{C1} 轴旋转 C2\mathbf{C2} (旋转 ψi\psi_i): dC1CA1=C1CA1C1CA1 \mathbf { d } _ { C 1 - C A 1 } = { \frac { \mathbf { C 1 } - \mathbf { C A 1 } } { | | \mathbf { C 1 } - \mathbf { C A1 } | | } } C2rel=CA1+R(dC1CA1,ψi)(C2CA1)CA2rel=CA1+R(dC1CA1,ψi)(CA2CA1)N2rel=CA1+R(dC1CA1,ψi)(N2CA1) \begin{array} { r l } & { \mathbf { C2 } _ { \mathrm { r e l } } = \mathbf { C A1 } + R ( \mathbf { d } _ { C 1 - C A 1 } , \psi _ { i } ) \cdot ( \mathbf { C2 } ^ { \prime } - \mathbf { C A1 } ) } \\ & { \mathbf { C A2 } _ { \mathrm { r e l } } = \mathbf { C A1 } + R ( \mathbf { d } _ { C 1 - C A 1 } , \psi _ { i } ) \cdot ( \mathbf { C A2 } - \mathbf { C A1 } ) } \\ & { \mathbf { N2 } _ { \mathrm { r e l } } = \mathbf { C A1 } + R ( \mathbf { d } _ { C 1 - C A 1 } , \psi _ { i } ) \cdot ( \mathbf { N2 } - \mathbf { C A1 } ) } \end{array}

4.5.3.3. 转换为全局坐标 (Converting Relative Coordinates to Global Coordinates)

将相对坐标通过旋转 Oi\mathbf{O}_i 和平移 xi\mathbf{x}_i 转换为全局坐标:

CAi+1=CA2global=xi+OiCA2rel \mathbf { C A _ { i + 1 } } = \mathbf { C A2 _ { \mathrm { g l o b a l } } } = \mathbf { x } _ { i } + O _ { i } \cdot \mathbf { C A2 _ { \mathrm { r e l } } } Ci+1=C2global=xi+OiC2relNi+1=N2global=xi+OiN2rel \begin{array} { r } { \mathbf { C _ { i + 1 } } = \mathbf { C2 } _ { \mathrm { g l o b a l } } = \pmb { x } _ { i } + \pmb { O } _ { i } \cdot \mathbf { C2 } _ { \mathrm { r e l } } } \\ { \mathbf { N _ { i + 1 } } = \mathbf { N2 } _ { \mathrm { g l o b a l } } = \pmb { x } _ { i } + \pmb { O } _ { i } \cdot \mathbf { N2 } _ { \mathrm { r e l } } } \end{array} 在获得骨架原子后,通过 侧链堆积算法 (side-chain packing algorithms)(例如 Pyrosetta 中的 PackRotamersMover)重建侧链原子。

4.5.4. 冯·米塞斯分布 (Von Mises Distribution)

冯·米塞斯分布 (von Mises distribution) 是一种定义在圆上的连续概率分布,常用于建模角度或方向数据。它因与平面上的正态分布相似而被称为“环形正态分布”。

4.5.4.1. 概率密度函数 (Probability Density Function, PDF)

冯·米塞斯分布 (von Mises distribution)PDF 为: f(θμ,κ)=12πI0(κ)exp(κcos(θμ)) f ( \theta \mid \mu , \kappa ) = { \frac { 1 } { 2 \pi I _ { 0 } ( \kappa ) } } \exp { ( \kappa \cos ( \theta - \mu ) ) } 其中:

  • θ[0,2π)\theta \in [ 0 , 2 \pi ) 是随机变量(角度,以弧度测量)。
  • μ\mu 是分布的平均方向,或数据围绕的中心角度。
  • κ0\kappa \geq 0集中度参数 (concentration parameter),类似于正态分布中方差的倒数。当 κ=0\kappa = 0 时,分布在圆上是均匀的;κ\kappa 值越大表示数据越紧密地集中在 μ\mu 附近。
  • I0(κ)I _ { 0 } ( \kappa )零阶修正贝塞尔函数 (modified Bessel function of the first kind of order O),作为归一化常数,定义为: I0(κ)=1π0πeκcos(ϕ)dϕ I _ { 0 } ( \kappa ) = \frac { 1 } { \pi } \int _ { 0 } ^ { \pi } e ^ { \kappa \cos ( \phi ) } d \phi

4.5.4.2. 累积分布函数 (Cumulative Distribution Function, CDF)

冯·米塞斯分布 (von Mises distribution)CDF 没有简单的闭合形式,但可以数值计算为: F(θμ,κ)=12πI0(κ)πθexp(κcos(tμ))dt F ( \theta \mid \mu , \kappa ) = { \frac { 1 } { 2 \pi I _ { 0 } ( \kappa ) } } \int _ { - \pi } ^ { \theta } \exp \left( \kappa \cos ( t - \mu ) \right) d t

4.5.4.3. 均值和方差 (Mean and Variance)

平均方向 (mean direction) μ\mu冯·米塞斯分布 (von Mises distribution) 的中心趋势,集中度参数 (concentration parameter) κ\kappa 影响数据围绕 μ\mu 的聚集程度。分布的方差与 κ\kappa 的关系如下: Var(θ)=1I1(κ)I0(κ) \mathrm { V a r } ( \theta ) = 1 - \frac { I _ { 1 } ( \kappa ) } { I _ { 0 } ( \kappa ) } 其中 I1(κ)I _ { 1 } ( \kappa )一阶修正贝塞尔函数 (modified Bessel function of the first kind of order 1)

5. 实验设置

5.1. 数据集

实验所用的训练和测试数据集是根据 Lietal.(2024a)Li et al. (2024a) 构建的,来源于 PepBDB (Wen et al., 2019)Q-BioLip (Wei et al., 2024)。经过去除重复和低质量条目后,形成了中等规模的基准数据集。

  • 测试集: 包含 158 个复合物,分布在 mmseqs2 (Steinegger & Söding, 2017)10 个聚类中。
  • 训练和验证集: 额外包含 8,207 个非同源示例。
  • 结合口袋 (Binding Pocket) 定义: 目标蛋白中,任何重原子位于肽中任何重原子 10Å 半径范围内的残基都被定义为 结合口袋 (binding pocket)

5.2. 评估指标

为了全面评估 PepHAR 和基线模型的性能,本文采用了以下 9 个指标,涵盖了生成肽的几何有效性、结构相似性、结合特性、新颖性和多样性。

  1. 有效性 (Valid % ↑)

    • 概念定义: 衡量生成肽的相邻残基间距是否符合肽键形成的几何约束。
    • 数学公式: 未直接提供公式,但定义为:如果相邻残基的 Cα 原子间距在 3.8Å 范围内,则认为该肽键有效。Valid % 是有效肽键占总肽键的百分比。
    • 符号解释:
      • Cαα-碳 原子。
      • 3.8Å:一个经验阈值,用于判断相邻残基是否通过肽键正确连接。
      • :表示该指标值越高越好。
  2. 均方根偏差 (Root-Mean-Square Deviation, RMSD A ↓)

    • 概念定义: 评估生成肽结构与天然肽结构之间的相似性。值越低表示结构越接近天然结构。
    • 数学公式: RMSD=1Ni=1Nriri2 \mathrm{RMSD} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} \|\mathbf{r}_i - \mathbf{r}'_i\|^2} 在计算前,生成的肽通过 Kabsch 算法与天然肽进行对齐。
    • 符号解释:
      • NN:肽中的原子数量(通常是 Cα 原子)。
      • ri\mathbf{r}_i:天然肽中第 ii 个原子的坐标。
      • ri\mathbf{r}'_i:生成肽中第 ii 个原子的坐标(对齐后)。
      • \| \cdot \|:欧几里得范数。
      • AA:表示单位为 埃 (Angstrom)
      • :表示该指标值越低越好。
  3. 二级结构比率 (Secondary Structure Ratio, SSR % ↑)

    • 概念定义: 衡量生成肽与天然肽的 二级结构 (secondary structures) 相似性。
    • 数学公式: 未直接提供公式,但描述为:通过 DSSP 软件 (Kabsch & Sander, 1983) 标记生成肽和天然肽的 二级结构 (secondary structures)SSR 是生成肽和天然肽之间匹配的 二级结构 (secondary structures) 分配的比例。
    • 符号解释:
      • DSSP:一种用于分配蛋白质 二级结构 (secondary structures) 的算法。
      • :表示该指标值越高越好。
  4. 结合位点率 (Binding Site Rate, BSR % ↑)

    • 概念定义: 评估生成肽与目标蛋白的结合方式与天然肽的相似程度,通过衡量结合位点重叠度来实现。
    • 数学公式: 未直接提供公式,但描述为:如果残基的 Cβ 原子位于肽中任何原子 半径范围内,则该残基被认为是 结合位点 (binding site) 的一部分。BSR 是生成肽和天然肽的 结合位点 (binding site) 残基重叠的比例。
    • 符号解释:
      • Cββ-碳 原子(除了甘氨酸,其他氨基酸的侧链起始原子)。
      • :用于定义 结合位点 (binding site) 的半径阈值。
      • :表示该指标值越高越好。
  5. 稳定性 (Stability % ↑)

    • 概念定义: 衡量生成复合物(肽-蛋白)的结构稳定性,即其能量是否低于天然复合物。
    • 数学公式: 未直接提供公式,但描述为:使用 PyRosettaFastRelax 协议松弛每个复合物,并使用 REF2015 评分函数评估能量。Stability 是设计肽导致的总能量低于天然复合物总能量的复合物百分比。
    • 符号解释:
      • FastRelaxRosetta 中的一种协议,用于通过能量最小化来松弛蛋白质结构。
      • REF2015Rosetta 的一种能量评分函数。
      • :表示该指标值越高越好。
  6. 亲和力 (Affinity % ↑)

    • 概念定义: 评估设计肽与目标蛋白的结合强度是否高于天然肽。
    • 数学公式: 未直接提供公式,但描述为:使用 PyRosettaInterfaceAnalyzerMover 计算复合物松弛后的结合能。Affinity 是显示比天然肽更低结合能(即更高亲和力)的肽的百分比。
    • 符号解释:
      • InterfaceAnalyzerMoverRosetta 中的一个工具,用于分析蛋白质界面的结合能。
      • :表示该指标值越高越好。
  7. 新颖性 (Novelty % ↑)

    • 概念定义: 衡量生成肽在结构和序列上与天然肽的差异程度。
    • 数学公式: 未直接提供公式,但定义为:如果满足以下两个条件,则肽被认为是新颖的:
      • TM-score (拓扑匹配分数) 0.5\leq 0.5
      • 序列一致性 (sequence identity) 0.5\leq 0.5Novelty 是新颖肽占总生成肽的比例。
    • 符号解释:
      • TM-score:衡量蛋白质结构相似性的分数,0.5 通常被认为是相似和不相似之间的分界线。
      • 序列一致性 (sequence identity):衡量两个序列之间相同氨基酸的比例。
      • :表示该指标值越高越好。
  8. 多样性 (Diversity % ↑)

    • 概念定义: 评估生成肽在结构和序列上的变异性。
    • 数学公式: 未直接提供公式,但描述为:计算给定目标蛋白的所有生成肽之间,成对的 (1 - TM-score)(1 - 序列一致性) 的乘积。
    • 符号解释:
      • 成对 (pairwise):指对所有生成的肽对进行计算。
      • (1 - TM-score):表示结构差异。
      • (1 - 序列一致性):表示序列差异。
      • :表示该指标值越高越好。
  9. 成功率 (Success % ↑)

    • 概念定义: 评估预测复合物结构的质量,使用 AlphaFold2 Multimer 的置信度分数。
    • 数学公式: 未直接提供公式,但描述为:计算 AlphaFold2 Multimer 预测的复合物结构中,ipTM 值高于 0.6 的比例。
    • 符号解释:
      • AlphaFold2 MultimerAlphaFold2 的一个版本,用于预测多聚体(如肽-蛋白复合物)结构。
      • ipTM界面预测拓扑匹配分数 (interface predicted TM-score),是 AlphaFold2 对蛋白质界面预测质量的置信度分数。
      • 0.6:用于判断预测成功的 ipTM 阈值。
      • :表示该指标值越高越好。

5.3. 对比基线

本文将 PepHAR 与以下几种最先进的肽设计模型进行了比较:

  • RFDiffusion (Watson et al., 2022)

    • 核心思想: 使用 RoseTTAFold (Baek et al., 2021) 的预训练权重,通过 去噪扩散过程 (denoising diffusion process) 生成蛋白质骨架结构。
    • 序列恢复: 生成骨架后,使用 ProteinMPNN (Dauparas et al., 2022) 恢复肽序列。
    • 代表性: 是一种通用的蛋白质骨架生成方法,被用于肽设计任务。
  • ProteinGenerator (Lisanza et al., 2023)

    • 核心思想:RFDiffusion 的基础上进行增强,实现了序列和结构的联合生成。
    • 代表性: 结合了骨架生成和序列设计的最新进展。
  • PepFlow (Li et al., 2024a)

    • 核心思想: 一种基于 多模态流匹配 (multi-modal flow matching) 框架的全原子肽设计模型,在 黎曼流形 (Riemannian manifold) 上进行肽采样。
    • 代表性: 专门为肽设计定制的深度生成模型。
  • PepGLAD (Kong et al., 2024)

    • 核心思想: 利用 等变潜在扩散网络 (equivariant latent diffusion networks) 来生成全原子肽结构。

    • 代表性: 另一种专注于全原子肽结构生成的扩散模型。

      这些基线模型代表了当前深度学习在蛋白质和肽设计领域最先进的方法,涵盖了扩散模型和流模型,以及从骨架生成到全原子生成的不同粒度。通过与这些基线的比较,可以全面评估 PepHAR 在各项指标上的表现。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 肽结合物设计 (Peptide Binder Design)

肽结合物设计 (Peptide Binder Design) 任务中,模型需要在给定目标蛋白的 结合口袋 (binding pocket) 的条件下,共同生成肽的序列和结构。

以下是原文 Table 1 的结果:

Valid % ↑ RMSD A ↓ SSR % ↑ BSR % ↑ Stability % ↑ Affinity % ↑ Novelty % ↑ Diversity % ↑ Success % ↑
RFDiffusion 66.04 4.17 63.86 26.71 26.82 16.53 53.74 25.39 25.38
ProteinGenerator 65.88 4.35 29.15 24.62 23.84 13.47 52.39 22.57 24.43
PepFlow 40.27 2.07 83.46 86.89 18.15 21.37 50.26 20.23 27.96
PepGLAD 55.20 3.83 80.24 19.34 20.39 10.47 75.07 32.10 14.05
PepHAR (K = 1) 57.99 3.73 79.93 84.17 15.69 18.56 81.21 32.69 23.00
PepHAR (K = 2) 55.67 3.19 80.12 84.57 15.91 19.82 79.07 31.57 22.85
PepHAR (K = 3) 59.31 2.68 84.91 86.74 16.62 20.53 79.11 29.58 25.54

分析:

  • 几何有效性 (Valid % 和 RMSD): PepHAR 在生成有效肽方面表现出色,尤其在 RMSD 方面,随着 热点 (hotspot) 数量 KK 的增加,RMSD 显著降低。PepHAR(K=3)PepHAR (K=3) 取得了最低的 RMSD (2.68Å),表明其生成的肽结构最接近天然结构。RFDiffusionProteinGenerator 也能生成较高比例的有效肽,但 PepFlowValid % 上表现不佳 (40.27%40.27\%),说明其在处理几何约束方面存在困难。这突出了 PepHAR 基于 二面角 (dihedral angles) 的自回归生成方法在确保几何有效性方面的优势。

  • 结构和结合相似性 (SSR % 和 BSR %): PepHARSSR %BSR % 上表现卓越,尤其是 PepHAR(K=3)PepHAR (K=3)SSR % (84.91%84.91\%) 和 BSR % (86.74%86.74\%) 方面均取得了最佳成绩。这表明 PepHAR 生成的肽不仅在 二级结构 (secondary structures) 上与天然肽高度相似,而且在与目标蛋白的 结合位点 (binding site) 相互作用方面也表现出高度一致性。PepFlow 在这些指标上也表现良好,但 RFDiffusionProteinGeneratorBSR % 较低,表明它们在精确捕捉结合模式方面存在不足。

  • 能量特性 (Stability % 和 Affinity %): PepHARAffinity % 方面表现出竞争力,PepHAR(K=3)PepHAR (K=3) 达到 20.53%20.53\%RFDiffusionStability % 上表现最佳 (26.82%26.82\%),这可能得益于其在大型 PDB 数据集上的预训练。PepHAR 的性能与 PepFlow 相当。

  • 新颖性和多样性 (Novelty % 和 Diversity %): PepHARNovelty % 上表现突出,PepHAR(K=1)PepHAR (K=1) 达到 81.21%81.21\%,表明它能够生成大量与天然肽结构和序列高度不同的新颖肽。PepHAR(K=3)PepHAR (K=3)Novelty % 略有下降,但仍保持较高水平。在 Diversity % 上,PepHAR(K=1)PepHAR (K=1) 达到了最高值 (32.69%32.69\%)。这表明 PepHAR 具有强大的探索肽设计空间的能力,对于发现新型治疗分子至关重要。

  • 成功率 (Success %): PepHAR(K=3)PepHAR (K=3)Success % 方面表现良好 (25.54%25.54\%),与 RFDiffusionPepFlow 处于同一水平。

    下图(原文 Figure 3)展示了生成肽的 RMSD,考虑了不同的任务和 热点 (hotspot) 数量。

    Figure 3: RMSD of generated peptides, considering different tasks and numbers of hotspots. More hotspot residues lead to better results. 该图像是图表,展示了不同数量热点(Hot Nums)下生成肽的均方根偏差(RMSD)。当热点数量增加时,设计和骨架的RMSD值分别显示了更好的结果,K=1、K=2和K=3的比较显示,更多的热点残基能显著改善生成肽的质量。

    分析: 从上图可以看出,无论是在 设计 (Design) 任务还是 支架 (Scaffold) 任务中,增加 热点 (hotspot) 数量通常能导致更低的 RMSD 值。这与表格数据相符,即更多的 热点 (hotspot) 信息有助于生成与天然结构更接近的肽。

下图(原文 Figure 4)展示了两个 PepHAR 生成肽的示例,以及它们的 RMSD结合能 (binding energy)

Figure 4: Two examples of generated peptides, along with RMSD and binding energy. PepHAR can generate native-like peptides with better binding affinities. 该图像是生成的肽的示意图,展示了与目标蛋白的结合能力。图中包含四个肽样本及其相应的 RMSD 和结合能,验证了 PepHAR 模型在生成具有更好结合亲和力的天然样肽方面的有效性。

分析: PepHAR 能够生成与天然肽结构和 结合位点 (binding site) 高度相似的肽,同时具有较低的 结合能 (binding energy),这表明它们可能具有更高的亲和力。

6.1.2. 肽支架生成 (Peptide Scaffold Generation)

肽支架生成 (Peptide Scaffold Generation) 任务中,模型需要连接一些预先固定或已知的 热点残基 (hotspot residues),生成完整的肽。这模拟了实际药物发现中利用先验知识的场景。

以下是原文 Table 2 的结果:

Valid % ↑ RMSD A ↓ SSR % ↑ BSR % ↑ Stability % ↑ Affinity % ↑ Novelty % ↑ Diversity % ↑ Success % ↑
RFDiffusion (K = 3) 69.88 4.09 63.66 26.83 20.07 21.26 55.03 26.67 23.15
ProteinGenerator (K = 3) 68.52 3.95 65.86 24.17 20.40 22.80 50.73 20.82 20.42
PepFlow (K = 3) 42.68 2.45 81.00 82.76 11.17 18.27 50.93 16.97 24.54
PepGLAD (K = 3) 53.51 3.84 76.26 19.61 12.22 18.27 50.93 30.99 14.85
PepHAR (K = 1) 56.01 3.72 80.61 78.18 17.89 19.94 80.61 29.79 20.43
PepHAR (K = 2) 55.36 2.85 82.79 85.80 19.18 19.17 74.76 25.32 22.09
PepHAR (K = 3) 55.41 2.15 83.02 88.02 20.50 20.65 72.56 19.68 21.45

分析:

  • 几何有效性 (Valid % 和 RMSD):支架生成 (Scaffold Generation) 任务中,PepHAR 再次表现出卓越的 RMSD 性能。PepHAR(K=3)PepHAR (K=3) 取得了最低的 RMSD (2.15Å),甚至低于 肽设计 (Peptide Design) 任务中的 RMSD。这表明给定 热点 (hotspot) 信息,PepHAR 能够更精确地构建肽结构。基线模型在 Valid % 方面有所提升,但 RMSD 表现不如 PepHAR

  • 结构和结合相似性 (SSR % 和 BSR %): PepHARSSR %BSR % 方面持续领先,PepHAR(K=3)PepHAR (K=3) 分别达到 83.02%83.02\%88.02%88.02\%。这表明 PepHAR 能够有效地将 热点 (hotspot) 残基整合到完整的肽中,同时保持与天然肽高度相似的 二级结构 (secondary structures)结合模式 (binding patterns)

  • 能量特性 (Stability % 和 Affinity %): PepHARStability %Affinity % 方面也表现出竞争力,PepHAR(K=3)PepHAR (K=3) 达到 20.50%20.50\%20.65%20.65\%。这与 RFDiffusion 的性能相当,甚至在 Affinity % 上超越了 RFDiffusion

  • 新颖性和多样性 (Novelty % 和 Diversity %): 即使在给定 热点 (hotspot) 的约束下,PepHAR 仍然能够生成相对新颖和多样的支架,PepHAR(K=1)PepHAR (K=1)Novelty % 上达到 80.61%80.61\%。随着 热点 (hotspot) 数量的增加,Novelty %Diversity % 略有下降,这符合预期,因为更多的约束会限制设计空间。

  • 总结: PepHAR支架生成 (Scaffold Generation) 任务中展现了卓越的性能,特别是在生成具有有效、天然样结构,并能保持 热点 (hotspot) 相互作用的肽方面。这证实了其在实际药物发现场景中的潜力。

    下图(原文 Figure 5)展示了 PepHAR 生成的支架肽示例。

    Figure 5: Examples of generated scaffolded peptides by PepHAR. PepHAR can scaffold hotspot residues, leading to more stable complexes with native-like valid geometries 该图像是插图,展示了由PepHAR生成的几种支架肽示例。图中比较了关键热位点(Hot Spots)和生成的肽链与参考肽链的结构。每个示例旁边标注了PDB编号、能量值、均方根偏差(RMSD)和氨基酸比率(AAR),显示出生成肽的性能与参考肽的对比。生成的肽采用了热位点残基,有助于形成更稳定的复合物。

    分析: PepHAR 能够成功地将 热点 (hotspot) 残基 支架 (scaffold) 到完整的肽中。生成的支架结构与天然结构相似,并且通常具有更低的 总能量 (total energy),表明 复合物 (complex) 具有更高的稳定性。图中也显示了在肽中点和末端的几何和方向上的变异,这表明了 支架区域 (scaffolding regions) 的灵活性。

6.1.3. 热点数量的影响 (Effect of Hot Spots)

通过比较 Table 1 和 Table 2,以及 Figure 3,可以观察到:

  • PepHAR 的显著提升:热点 (hotspot) 作为先验知识引入,显著提升了 PepHAR 的性能,尤其是在 RMSDSSRBSR 等几何和结合相关指标上。这验证了 热点驱动 (hotspot-driven) 方法的有效性。
  • 对基线模型的影响有限: 对于 RFDiffusionPepFlow 等基线模型,引入 热点 (hotspot) 知识带来的性能提升有限,甚至可能没有。这表明 PepHAR 的架构本身就设计为能够有效利用 热点 (hotspot) 信息。
  • 热点数量 KK 的影响: 增加 热点 (hotspot) 数量(从 K=1K=1K=3K=3)通常能改善几何结构和能量指标 (RMSDSSRBSR),无论是 热点 (hotspot) 由密度模型估计还是作为 真值 (ground truth) 提供。然而,这会负面影响 新颖性 (Novelty)多样性 (Diversity)。这揭示了一个 权衡 (trade-off):设计低多样性但高质量的肽(与天然肽相比)与设计高多样性但结构可能变化更大的肽之间存在平衡。

6.1.4. 消融研究 (Ablation Study)

以下是原文 Table 3 的结果,展示了 PepHAR肽设计 (peptide design) 任务中的 消融研究 (ablation study) 结果:

Valid % ↑ RMSD A↓ SSR % ↑ BSR % ↑ Stability % ↑ Affinity % ↑ Novelty % ↑ Diversity % ↑
PepHAR (K = 3) 59.31 2.68 84.91 86.74 16.62 20.53 79.11 29.58
PepHAR w/o Von Mosies 56.21 3.10 80.86 82.21 17.24 15.68 79.44 29.65
PepHAR w/o Hot Spot 557 3.99 79.93 74.17 11.23 12.21 81.51 37.03
PepHAR w/o Correction 53.66 3.41 80.46 81.43 15.72 14.85 82.75 37.87

分析:

  • 移除 热点采样 (Hot Spot) (PepHAR w/o Hot Spot): 影响最大,Valid %RMSDSSRBSR 均显著下降。这强调了 热点 (hotspot) 对于实现有效几何和正确相互作用的决定性作用。没有 热点 (hotspot),模型生成肽的质量大幅降低。有趣的是,NoveltyDiversity 反而更高,这可能是因为没有 热点 (hotspot) 的约束,模型可以更自由地生成各种结构,但质量可能不高。
  • 移除 冯·米塞斯分布 (Von Mises) (PepHAR w/o Von Mises): RMSDSSRBSRAffinity 均有下降,尤其是 RMSD2.68Å 上升到 3.10ÅAffinity %20.53%20.53\% 下降到 15.68%15.68\%。这表明建模 二面角 (dihedral angles) 分布对于准确捕捉角度的灵活性以及生成高质量肽是重要的。
  • 移除 校正阶段 (Correction) (PepHAR w/o Correction): Valid %RMSDBSRAffinity 等指标均有下降,尤其是 RMSD2.68Å 上升到 3.41ÅAffinity %20.53%20.53\% 下降到 14.85%14.85\%。这表明 校正阶段 (Correction Stage) 对于增强片段组装、提高亲和力和稳定性至关重要。

6.1.5. 累积误差 (Cumulative Errors)

下图(原文 Figure 6)展示了肽长度与 RMSD 值之间的散点图。

Figure 6: Scatter Plot of peptide length and RMSD value. 该图像是一个散点图,展示了肽长度与RMSD值之间的关系。数据点以蓝色叉表示,红色线为回归线,显示了肽长度与RMSD值的正相关趋势。

分析: 该图显示肽长度与 RMSD 值之间存在显著的正相关关系。这意味着随着肽长度的增加,自回归生成 (autoregressive generation) 过程中积累的误差也越大。

  • 误差来源:扩展阶段 (Extension Stage) 中,二面角 (dihedral angle) 的预测并非总是完美的。即使是很小的偏差也会导致重建残基骨架的不准确性。
  • 误差传播: 一旦残基以结构偏差的形式添加,这个误差就会传播到后续的扩展步骤。下一个预测步骤将使用这个有偏结构作为输入,可能导致进一步的 二面角 (dihedral angle) 预测偏差,从而引入更多的失真。
  • 累积效应: 经过多次迭代,这些小的误差会累积,导致与天然构象的结构偏差越来越大。这解释了随着肽序列变长,RMSD 观察到的增加。自回归过程 (autoregressive process) 对先前生成片段的固有依赖性使其特别容易在逐残基扩展过程中出现误差传播。

6.1.6. 基线模型不同 K 值的结果 (Different K Values of Baselines)

以下是原文 Table 7 的结果,展示了 支架生成 (scaffold generation) 任务中基线模型在不同 热点 (hotspot) 数量 KK 下的性能。

Valid % ↑ RMSD A↓ SSR % ↑ BSR % ↑ Stability % ↑ Affinity % ↑ Novelty % ↑ Diversity % ↑ Success % ↑
RFDiffusion (K = 1) 66.80 3.51 63.19 23.56 17.73 20.58 66.17 22.46 19.19
RFDiffusion (K = 2) 68.68 2.85 665.68 31.14 18.69 22.34 45.53 24.14 21.59
RFDiffusion (K = 3) 69.88 4.09 63.66 26.83 20.07 21.26 55.03 26.67 23.15
ProteinGenerator (K = 1) 68.00 3.79 64.53 25.52 18.59 20.55 60.39 21.28 20.04
ProteinGenerator (K = 2) 69.20 3.92 66.79 30.61 19.08 21.54 55.24 23.29 20.42
ProteinGenerator (K = 3) 68.52 3.95 65.86 24.17 20.40 22.80 50.73 20.82 24.90
PepFlow (K = 1) 40.35 2.51 79.58 86.40 10.55 18.13 50.46 16.29 26.46
PepFlow (K = 2) 49.29 2.82 79.23 85.05 10.19 18.20 54.74 19.52 24.03
PepFlow (K = 3) 42.68 2.45 81.00 82.76 11.17 13.64 50.93 16.97 24.54
PepGLAD (K = 1) 53.45 3.87 76.59 20.15 14.54 12.03 50.46 30.84 13.56
PepGLAD (K = 2) 52.96 3.93 75.06 20.02 10.29 15.72 54.74 30.36 14.03
PepGLAD (K = 3) 53.51 3.84 76.26 19.61 12.22 18.27 50.93 30.99 14.85
PepHAR (K = 1) 56.01 3.72 80.61 78.18 17.89 19.94 80.61 29.79 20.43
PepHAR (K = 2) 55.36 2.85 82.79 85.80 19.18 19.17 74.76 25.32 22.09
PepHAR (K = 3) 55.41 2.15 83.02 88.02 20.50 20.65 72.56 19.68 21.45

分析:

  • PepHAR 不同,基线模型(RFDiffusionProteinGeneratorPepFlowPepGLAD)即使增加 热点 (hotspot) 数量 KK,在几何和能量指标方面也仅有微小改进或甚至性能下降。
  • 这可能是因为基线模型的训练方案并未明确地以已知 热点 (hotspot) 为条件进行设计。它们的架构可能不适合直接利用这些约束。
  • 优化基线模型的训练和推理过程以适应 支架生成 (scaffold setting) 任务,可能会提升其性能。

6.1.7. GPCR-肽相互作用 (GPCR-Peptide Interaction) 案例研究

下图(原文 Figure 7)展示了一个 G蛋白偶联受体 (G Protein-Coupled Receptor, GPCR) -肽相互作用的案例研究。

Figure 7: Upper Left: Human Endothelin type B receptor in complex with the ET1 peptide binder. Upper Right: Receptor in complex with PepHAR-generated peptide binder. Lower Left: HIS16 in the ET1 pept…

分析:

  • 示例:人类内皮素B型受体 (human Endothelin type B receptor) (PDB: 5GLH) 的肽结合物生成进行了案例研究。
  • 结构相似性: PepHAR 设计的肽展现出与天然肽结合物 (ET1肽) 相似的 二级结构 (secondary structures) (螺旋),并与受体顶部和内部的残基相互作用。
  • 热点恢复: 通过 残基能量计算 (per-residue energy calculations) 和人工检查,ET1 肽中的 HIS16 残基被识别为 热点残基 (hotspot residue),在与受体的 细胞外环区域 (extracellular loop regions) 接触中扮演关键角色。PepHAR 成功地在生成的肽中恢复了 HIS16 残基,并且生成的 HIS16 官能团的方向与天然 热点残基 (hotspot residue) 非常相似。这证明了 PepHAR 在设计过程中能够有效地恢复 热点相互作用 (hotspot interactions)

6.1.8. 二级结构分析 (Secondary Structure Analysis)

以下是原文 Table 8 的结果,展示了 二级结构组成 (secondary structure composition) 的评估。

Method Coil % Helix % Strand %
Native 75.20 11.47 13.15
PepHAR (K = 3) 89.42 10.36 0.21
Hotspots 90.13 9.48 0.22

分析:

  • 卷曲区域 (Coil %)螺旋区域 (Helix %) 与天然肽相比,PepHAR 生成的肽和 热点残基 (hotspot residues) 倾向于显示更高比例的 卷曲区域 (coil regions)(包括连接转角、弯曲或环),同时保持相似比例的 螺旋区域 (helix regions)
  • 片层区域 (Strand %) 片层区域 (strand regions) 的比例显著低于天然肽,这表明天然结构中的 片层区域 (strand regions) 在生成的肽中经常被 卷曲区域 (coil regions) 取代。这可能归因于形成 片层 (strands) 所需的结构参数的微小差异。
  • 热点位置: 热点 (hotspot) 主要位于 卷曲区域 (coil regions)螺旋区域 (helix regions),几乎没有出现在 片层区域 (strand regions)。这与相互作用原理一致,即 片层区域 (strand regions) 可能代表结构转变,而 不规则卷曲区域 (irregular coil regions) 或相对稳定的 螺旋区域 (stable helix regions) 更可能作为 功能性相互作用位点 (functional interaction sites)
  • 未来改进: 作者认为,进一步通过 RosettaOpenMMFoldX 等工具进行 能量弛豫 (energy relaxation) 可以帮助优化肽结构,以形成更准确的 二级结构 (secondary structures)

6.2. 额外结果

6.2.1. TM-SCOREAAR

以下是原文 Table 4 的结果,总结了 TM-Score序列恢复率 (Sequence Recovery Rate) 在肽设计和支架生成任务中的表现。

以下是原文 Table 5 的结果,展示了 肽设计 (Peptide Design) 任务中 TM-Score序列恢复率 (AAR)

Method TM AAR
RFDiffusion 0.44 40.14
ProteinGenerator 0.43 45.82
PepFlow 0.38 51.25
PepGLAD 0.29 20.59
PepHAR (K=1) 0.33 32.32
PepHAR (K=2) 0.32 39.91
PepHAR (K=3) 0.34 34.36

以下是原文 Table 6 的结果,展示了 支架生成 (Scaffold Generation) 任务中 TM-Score序列恢复率 (AAR)

Method TM AAR
RFDiffusion (K=3) 0.46 31.14
ProteinGenerator (K=3) 0.48 32.05
PepFlow (K=3) 0.37 51.90
PepGLAD 0.30 21.48
PepHAR (K=1) 0.33 32.90
PepHAR (K=2) 0.35 35.06
PepHAR (K=3) 0.38 35.34

分析:

  • TM-score RFDiffusionProteinGenerator 通常在 TM-score 上表现较好,表明它们生成的结构与天然结构在拓扑上更相似。PepHARTM-score 处于中等水平,但通过增加 热点 (hotspot) 数量,在 支架生成 (scaffold generation) 任务中 TM-score 有所提升。
  • 序列恢复率 (AAR) PepFlowAAR 上表现最佳,表明其在序列生成方面更接近天然序列。PepHARAAR 相对较低,这可能与它强调结构生成和 热点 (hotspot) 驱动设计,而不是直接模仿天然序列有关,也可能反映了其在生成新颖序列方面的能力。

7. 总结与思考

7.1. 结论总结

本文提出了 PepHAR,一个 热点驱动 (hotspot-driven)自回归生成模型 (autoregressive generative model),用于高效而精确地设计靶向特定蛋白质的肽。PepHAR 通过以下三阶段方法解决了肽设计中的关键挑战:

  1. 建立阶段 (Founding Stage): 利用 基于能量的密度模型 (energy-based density model) 识别并采样具有高相互作用潜力的 热点残基 (hotspot residues)

  2. 扩展阶段 (Extension Stage): 通过对 二面角 (dihedral angles) 分布的建模,自回归地扩展肽片段,以确保生成的肽具有有效的几何结构。

  3. 校正阶段 (Correction Stage): 引入一个优化过程,迭代地细化片段组装,从而确保最终肽结构的正确性和稳定性。

    PepHAR从头肽设计 (de novo peptide design)肽支架生成 (peptide scaffold generation) 这两项任务上都展现了强大的潜力。实验结果表明,PepHAR 能够生成具有有效几何结构、天然样结构、高稳定性和亲和力,以及显著新颖性和多样性的肽。尤其是在 支架生成 (scaffold generation) 任务中,PepHAR 能够有效地利用先验的 热点 (hotspot) 知识来构建高质量的肽,这对于实际的药物发现场景具有重要意义。

7.2. 局限性与未来工作

尽管 PepHAR 取得了显著的成果,但也存在一些局限性,作者在 G.2 累积误差 (Cumulative Errors) 部分进行了讨论,并提出了一些未来工作方向:

  1. 累积误差问题: 自回归模型 (autoregressive model) 在扩展肽序列时存在误差累积问题,导致随着肽长度增加,RMSD 随之增大。

    • 未来改进方向:
      • 提高预测精度: 采用更精确的 二面角预测模型 (dihedral prediction models),例如利用在更大数据集上预训练的模型,或在每个扩展步骤中引入传统的 能量弛豫方法 (energy relaxation methods) 来纠正骨架偏差。
      • 改进自回归语言建模技术: 探索同时预测多个 二面角 (dihedral angles) 的方法,或者在训练过程中注入噪声,以及使用 扩散模型 (diffusion models) 细化预测的后验分布。
      • 非自回归方法: 考虑采用 非自回归 (non-autoregressive) 方法,如 生成模型 (generative modeling)扩散模型 (diffusion models),同时生成所有 二面角 (dihedral angles) 并迭代细化预测。
  2. 二级结构准确性: 尽管 PepHARSSR 上表现出色,但在 二级结构分析 (Secondary Structure Analysis) 中显示,生成的肽在 片层区域 (strand regions) 比例上远低于天然肽,而 卷曲区域 (coil regions) 比例较高。这表明模型在精确形成所有类型的 二级结构 (secondary structures) 方面仍有提升空间。

    • 未来改进方向: 结合更强大的 能量弛豫工具 (energy relaxation tools),如 RosettaOpenMMFoldX,来进一步优化和细化肽结构,以更好地匹配天然 二级结构 (secondary structures)
  3. 基线模型在 热点 (hotspot) 任务中的表现: 基线模型在引入 热点 (hotspot) 约束时性能提升不明显,这表明它们可能没有被有效训练来利用这类信息。

    • 未来改进方向: 针对 支架生成 (scaffold setting) 优化基线模型的训练和推理过程,使其能够更好地利用 热点 (hotspot) 信息。

7.3. 个人启发与批判

7.3.1. 个人启发

  • 生物学洞察与深度学习结合: PepHAR 最重要的启发是将生物学中 热点 (hotspot) 概念与深度学习的强大生成能力相结合。这种结合使得模型在设计肽时更有目标性,而非盲目探索巨大的化学空间,从而提高了设计的效率和有效性。这提示我们,在许多科学领域,将领域专家知识(如热点、几何约束)融入到通用深度学习框架中,可以带来更强大的模型和更具解释性的结果。
  • 分阶段生成策略: 建立-扩展-校正 (Founding-Extension-Correction) 的三阶段策略,特别是 校正阶段 (Correction Stage),提供了一种鲁棒的机制来处理生成模型固有的误差和不完美性。这种“生成-评估-优化”的循环思想在许多复杂生成任务中都具有借鉴意义,例如 3D 分子生成 (3D molecule generation)材料设计 (material design) 等。
  • 几何约束的重要性: 强调 二面角 (dihedral angles)冯·米塞斯分布 (von Mises distribution) 在维持肽几何有效性中的作用,提醒研究人员在设计生物分子时,必须将物理和化学约束纳入模型,而不仅仅是学习统计分布。这对于生成真实、可合成的分子至关重要。
  • 新任务设置的价值: 引入 支架生成 (scaffold generation) 任务,展现了模型在实际药物研发流程中的潜在价值。这鼓励研究人员不仅要关注 从头设计 (de novo design),还要探索如何利用现有知识和数据来优化和改进设计,使 计算设计 (computational design) 更贴近工业应用。

7.3.2. 批判

  • 误差累积的根本性挑战: 尽管作者承认并讨论了 自回归模型 (autoregressive model) 的误差累积问题,但目前的 校正阶段 (Correction Stage) 仍是基于梯度的局部优化,可能无法完全解决长期依赖和全局结构一致性的问题。对于长肽的设计,这种累积误差可能会变得难以控制,这可能会限制 PepHAR 在设计更长肽链上的应用。
  • 热点 (hotspot) 识别的依赖性: 建立阶段 (Founding Stage)热点 (hotspot) 的采样依赖于 基于能量的密度模型 (energy-based density model)。虽然该模型被训练以识别统计学上有利的区域,但其与真实生物学 热点 (hotspot) 的契合度仍可能存在偏差。如果 热点 (hotspot) 识别不准确,后续的 支架 (scaffold) 生成可能会受到影响。在 支架生成 (scaffold generation) 任务中,热点 (hotspot) 是手动选择或通过 Rosetta 能量函数计算的,这增加了人工干预和领域知识的依赖性,而非完全的端到端自动化。
  • 计算效率和可扩展性: 朗之万马尔可夫链蒙特卡洛采样 (Langevin MCMC Sampling)校正阶段 (Correction Stage) 中的梯度优化过程可能需要大量的迭代,这可能在计算上比较昂贵,尤其是在处理大规模设计任务时。此外,IPA 骨干网络 (IPA backbone) 虽然强大,但也具有较高的计算复杂度。
  • 泛化能力: PepHAR 在中等规模的数据集上进行了训练和评估。其在结构多样性更大、拓扑更复杂的蛋白质-肽相互作用上的泛化能力仍需进一步验证。
  • 序列多样性: 尽管 PepHAR新颖性 (Novelty)多样性 (Diversity) 指标上表现良好,但 AAR 相对较低,这可能意味着其生成的序列与天然序列的匹配度不高。对于某些应用场景,例如寻找与天然肽功能高度相似的优化变体,AAR 也是一个需要关注的指标。
  • 全原子 (full-atom) 建模的细节: 论文提及在 辅助结构重建 (Adjacent Structure Reconstruction) 中使用 PackRotamersMover 来重建侧链,这是一个相对经典的工具。深度学习在 侧链预测 (side-chain prediction) 方面也取得了进展,未来可以探索将更先进的 全原子建模 (full-atom modeling) 技术集成到 PepHAR 的生成和校正流程中,以提高精度。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。