Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties
TL;DR 精炼摘要
本研究提出了`Multi-Peptide`方法,结合基于`Transformer`的语言模型与图神经网络,提升肽属性预测能力。通过对比损失框架对两种模态嵌入对齐,增强了预测准确性。在溶血性预测中达到88.057%的最先进准确率,展示了多模态学习在生物信息学中的潜力。
摘要
Peptides are crucial in biological processes and therapeutic applications. Given their importance, advancing our ability to predict peptide properties is essential. In this study, we introduce Multi-Peptide, an innovative approach that combines transformer-based language models with graph neural networks (GNNs) to predict peptide properties. We integrate PeptideBERT, a transformer model specifically designed for peptide property prediction, with a GNN encoder to capture both sequence-based and structural features. By employing a contrastive loss framework, Multi-Peptide aligns embeddings from both modalities into a shared latent space, thereby enhancing the transformer model’s predictive accuracy. Evaluations on hemolysis and nonfouling data sets demonstrate Multi-Peptide’s robustness, achieving state-of-the-art 88.057% accuracy in hemolysis prediction. This study highlights the potential of multimodal learning in bioinformatics, paving the way for accurate and reliable predictions in peptide-based research and applications.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties
1.2. 作者
Srivathsan Badrinarayanan, Chakradhar Guntuboina, Parisa Mollaei, and Amir Barati Farimani*
- Srivathsan Badrinarayanan: 卡内基梅隆大学化学工程系(Department of Chemical Engineering, Carnegie Mellon University)。
- Chakradhar Guntuboina: 卡内基梅隆大学电气与计算机工程系(Department of Electrical and Computer Engineering, Carnegie Mellon University)。
- Parisa Mollaei: 卡内基梅隆大学机械工程系(Department of Mechanical Engineering, Carnegie Mellon University)。
- Amir Barati Farimani: 卡内基梅隆大学机械工程系、生物医学工程系、机器学习系以及化学工程系(Department of Mechanical Engineering, Department of Biomedical Engineering, and Machine Learning Department, Carnegie Mellon University; Department of Chemical Engineering, Carnegie Mellon University)。他也是本文的通讯作者。
1.3. 发表期刊/会议
J. Chem. Inf. Model. 2025, 65, 8391。本文发表于《化学信息学与建模杂志》(Journal of Chemical Information and Modeling)的特刊“利用大型语言模型驱动的聊天机器人促进科学发现”(Harnessing the Power of Large Language Model-Based Chatbots for Scientific Discovery)。该期刊在计算化学、化学信息学和分子建模领域具有良好声誉和影响力。
1.4. 发表年份
2025年
1.5. 摘要
肽在生物过程和治疗应用中至关重要。鉴于其重要性,提高我们预测肽属性的能力是必不可少的。本研究引入了 Multi-Peptide,这是一种创新的方法,它结合了基于 Transformer 的语言模型与图神经网络(GNNs)来预测肽属性。我们将专门为肽属性预测设计的 Transformer 模型 PeptideBERT 与一个 GNN 编码器集成,以同时捕获基于序列和结构的特征。通过采用对比损失框架,Multi-Peptide 将两种模态的嵌入对齐到一个共享的潜在空间中,从而增强了 Transformer 模型的预测准确性。在溶血性和非污垢性数据集上的评估表明了 Multi-Peptide 的鲁棒性,在溶血性预测中达到了 88.057% 的最先进(state-of-the-art)准确率。这项研究突出了多模态学习在生物信息学中的潜力,为肽相关研究和应用中的准确可靠预测铺平了道路。
1.6. 原文链接
/files/papers/6921cd82d8097f0bc1d013f0/paper.pdf。论文已在 J. Chem. Inf. Model. 正式发表。
2. 整体概括
2.1. 研究背景与动机
- 论文试图解决的核心问题: 准确预测肽的特定属性(如溶血性和非污垢性),这对于肽在生物和治疗应用中的设计至关重要。
- 为什么这个问题在当前领域是重要的: 肽在生物系统中扮演着关键角色,并且是药物开发和生物材料设计的重要组成部分。预测其属性(例如,评估药物安全性时溶血性的影响,或生物材料设计中非污垢性的需求)能显著加速和优化研发过程。
- 现有研究存在的具体挑战或空白:
- 传统方法局限性: 传统的定量构效关系(
QSAR)模型在处理大规模序列数据时存在可扩展性和计算效率的挑战。 - 序列模型的不足: 近年来兴起的
Transformer和大型语言模型(LLMs)虽然在基于序列的蛋白质属性预测方面表现出色,但它们可能缺乏直接整合氨基酸空间排列和相互作用的能力,即未能充分利用蛋白质的结构信息。 - 多模态整合空白: 尽管结构信息对理解蛋白质功能至关重要,但如何有效地将序列信息与结构信息(作为不同模态)结合起来,以提高肽属性预测的准确性,仍是一个有待深入探索的领域。
- 传统方法局限性: 传统的定量构效关系(
- 这篇论文的切入点或创新思路: 论文通过引入
Multi-Peptide方法,旨在弥补现有研究的空白。其核心创新在于:将基于序列的Transformer模型(PeptideBERT)与基于结构的图神经网络(GNN)结合起来,并利用对比学习框架(受CLIP启发),将两种模态的嵌入对齐到共享的潜在空间,从而实现更全面、更准确的肽属性预测。这使得模型能够同时从肽的氨基酸序列和其三维结构中学习关键特征。
2.2. 核心贡献/主要发现
- 提出了
Multi-Peptide方法: 这是一种创新的多模态学习方法,结合了Transformer模型(PeptideBERT)和图神经网络(GNN),用于肽属性预测。它能够同时捕获肽的序列特征和结构特征。 - 引入了基于对比损失的集成框架: 该方法使用类似于
CLIP的对比损失框架,将PeptideBERT生成的序列嵌入和GNN生成的结构嵌入对齐到一个共享的潜在空间中,从而增强了Transformer模型的预测能力。 - 在溶血性预测中达到最先进(
state-of-the-art)性能: 在溶血性数据集上,Multi-Peptide实现了 88.057% 的准确率,超越了现有方法,证明了其在特定任务上的有效性和鲁棒性。 - 验证了多模态学习在生物信息学中的潜力: 研究结果突出了将不同模态数据(序列和结构)相结合进行深度学习,在提高生物分子属性预测准确性和可靠性方面的巨大前景。
- 为肽研究提供了新的工具: 通过整合序列和结构信息,
Multi-Peptide为肽基研究和应用中的精确和可靠预测提供了新途径。
3. 预备知识与相关工作
本章旨在为读者提供理解 Multi-Peptide 方法所需的基础技术背景。
3.1. 基础概念
3.1.1. 肽(Peptides)
概念定义: 肽是由少量(通常少于50个)氨基酸通过肽键连接形成的化合物。它们在生物体内扮演着从激素、酶到抗菌剂等多种生理功能。
3.1.2. 溶血性(Hemolysis)
概念定义: 溶血性是指红细胞膜受损破裂,导致其内部血红蛋白释放到血浆中的现象。在药物开发中,尤其是肽类药物,其溶血性是一个重要的安全性指标,高溶血性可能导致毒副作用。
3.1.3. 非污垢性(Nonfouling Behavior)
概念定义: 非污垢性是指材料(在此研究中指肽)抵抗非特异性吸附其他生物分子(如蛋白质、细胞等)的能力。在生物医学应用中,如生物传感器、植入物和药物载体,具有非污垢性的肽可以减少生物体对材料的排斥反应和非特异性相互作用。
3.1.4. Transformer 模型
概念定义: Transformer 是一种基于自注意力(self-attention)机制的深度学习模型架构,最初为处理自然语言序列而设计。它通过并行处理整个输入序列来捕捉长距离依赖关系,而不是像循环神经网络(RNN)那样顺序处理。
核心机制: Transformer 的核心是多头自注意力(Multi-Head Self-Attention)机制,它允许模型在处理序列中的每个词元(token)时,同时关注序列中的其他词元,并根据它们的重要性进行加权。
自注意力(Self-Attention)机制:
自注意力机制允许模型对输入序列中的每个元素赋予不同的权重,以捕捉元素之间的依赖关系。其计算公式如下:
符号解释:
- (Query): 查询矩阵,由输入序列通过线性变换得到,表示当前词元的信息。
- (Key): 键矩阵,由输入序列通过线性变换得到,表示序列中所有词元的信息。
- (Value): 值矩阵,由输入序列通过线性变换得到,表示序列中所有词元的实际内容。
- : 查询和键的点积,计算每个查询与其他所有键之间的相似度。
- : 缩放因子,其中 是键向量的维度,用于防止点积结果过大,导致
softmax函数梯度过小。 - : 归一化指数函数,将相似度分数转换为权重分布。
- : 经过加权后的值矩阵,聚合了序列中所有词元的信息。
3.1.5. BERT(Bidirectional Encoder Representations from Transformers)
概念定义: BERT 是一种预训练的 Transformer 模型,通过在大量无标签文本数据上进行双向学习来捕捉语言的深层语义。它通过两个主要的预训练任务(遮蔽语言模型 Masked Language Model 和下一句预测 Next Sentence Prediction)学习通用的语言表示,然后可以针对特定任务进行微调(fine-tuning)。
3.1.6. 图神经网络(GNNs)
概念定义: GNNs 是一类专门设计用于处理图结构数据的神经网络。它们通过在图的节点及其邻居之间传递和聚合信息来学习节点、边或整个图的表示。GNNs 能够捕捉图中的局部结构和全局模式。
3.1.7. 对比学习(Contrastive Learning)
概念定义: 对比学习是一种自监督学习范式,其核心思想是学习一个嵌入空间,使得相似的样本(正例对)之间的距离尽可能小,而不相似的样本(负例对)之间的距离尽可能大。通过这种方式,模型能够学习到对下游任务有用的、具有判别性的表示。
3.1.8. CLIP(Contrastive Language-Image Pretraining)
概念定义: CLIP 是 OpenAI 提出的一种多模态模型,通过在大规模图像-文本对数据集上进行对比学习预训练。它学习图像和文本的联合嵌入空间,使得匹配的图像-文本对的嵌入彼此接近,而不匹配的则彼此远离。这使得 CLIP 能够执行零样本分类等任务。
3.1.9. AlphaFold2
概念定义: AlphaFold2 是 Google DeepMind 开发的一种深度学习系统,能够根据蛋白质的氨基酸序列高精度地预测其三维(3D)结构。它的出现极大地推动了结构生物学和蛋白质工程领域的发展,使得研究人员能够获得大量以前难以通过实验获得的蛋白质结构信息。
3.1.10. 蛋白质数据银行(Protein Data Bank, PDB)文件
概念定义: PDB 文件是一种标准的文件格式,用于存储生物大分子(如蛋白质、核酸)的三维原子坐标信息以及其他相关数据。这些文件是结构生物学研究中共享和分析分子结构的核心介质。
3.2. 前人工作
- 传统
QSAR模型: 早期用于连接肽序列与结构特征,但随着序列数据规模的扩大,其可扩展性和计算效率面临挑战。 - 蛋白质序列数据库和高通量测序技术: 推动了生物数据量的爆炸式增长,为机器学习模型提供了丰富的数据基础。
AlphaFold系列:Google DeepMind的AlphaFold及其后续版本AlphaFold2,通过深度学习实现了高精度的蛋白质结构预测,极大地弥补了序列与结构之间的知识鸿沟。这使得研究人员能够将结构信息整合到预测模型中。ProtBERT: 一种基于Transformer的预训练蛋白质语言模型,在大量蛋白质序列数据上进行自监督学习,能够生成蛋白质序列的上下文嵌入。PeptideBERT: 在ProtBERT的基础上,通过添加一个可训练的分类头并进行微调,专门用于预测肽的特定属性。它在序列层面捕捉肽的特性,是本研究中Multi-Peptide的核心语言模型组件。- 多模态图模型: 在其他领域(如热传导、学生参与预测等)已被证明能有效提升预测精度。这为本研究结合语言和图模态提供了启发。
CLIP: 作为多模态对比学习的开创性工作,为本研究中如何对齐不同模态(语言和图)的嵌入提供了关键的框架和灵感。
3.3. 技术演进
蛋白质属性预测的技术演进大致经历了以下阶段:
- 传统统计和物理模型: 早期的定量构效关系(
QSAR)模型,依赖于手动提取的特征和统计方法,受限于特征工程的难度和模型的泛化能力。 - 机器学习的兴起: 随着生物数据量的增加,支持向量机(
SVM)、随机森林(Random Forest)等机器学习方法被引入,能够处理更复杂的模式。 - 深度学习的崛起:
- 序列模型: 循环神经网络(
RNN)、长短期记忆网络(LSTM)和卷积神经网络(CNN)开始应用于蛋白质序列,捕捉局部和长距离依赖。 - 预训练语言模型:
Transformer架构的引入,特别是BERT及其蛋白质领域的变体(如ProtBERT,PeptideBERT),通过大规模预训练实现了对蛋白质序列更深层次的语义理解,在多种任务中取得了突破。 - 结构预测模型:
AlphaFold的出现彻底改变了蛋白质结构预测领域,使得研究人员可以大规模地获取蛋白质的三维结构信息。
- 序列模型: 循环神经网络(
- 多模态学习的融合: 认识到单一模态(序列或结构)的局限性,研究开始探索如何将不同模态的信息有效结合。本研究的
Multi-Peptide正是这一趋势的体现,通过对比学习将序列语言模型和结构图神经网络相结合,以期达到更全面的理解和更高的预测精度。
3.4. 差异化分析
Multi-Peptide 与相关工作的主要区别和创新点在于:
- 超越单一模态:
PeptideBERT等现有Transformer模型主要依赖于肽的氨基酸序列进行预测,虽然强大,但未能直接整合关键的结构信息。Multi-Peptide通过引入GNN编码器来处理肽的三维结构,克服了这一局限。 - 结构与序列的协同作用: 不同于简单地将序列特征和结构特征拼接,
Multi-Peptide采用了对比学习框架。这种框架旨在将两种模态的嵌入对齐到一个共享的潜在空间,从而让PeptideBERT在学习过程中“感知”并整合来自GNN的结构知识,实现更深层次的协同学习,而不是仅仅进行特征融合。 - 知识迁移机制: 通过对预训练的
GNN模型进行知识迁移,并在训练过程中冻结GNN权重,Multi-Peptide有效地将结构信息编码到PeptideBERT的权重更新中,使其在推理时即使没有GNN也能利用结构相关的知识,提高了模型的效率和实用性。 - 性能提升: 在溶血性预测任务中,
Multi-Peptide实现了最先进的准确率,证明了其多模态集成方法的有效性。
4. 方法论
4.1. 方法原理
Multi-Peptide 的核心思想是通过多模态学习来提升肽属性预测的准确性。它认识到肽的序列和三维结构都对其生物学功能至关重要,但单一模态的模型(如仅基于序列的 Transformer)无法全面捕捉所有相关信息。因此,该方法提出将一个擅长处理序列数据的 Transformer 模型(PeptideBERT)与一个擅长处理结构图数据的图神经网络(GNN)结合起来。
其背后的直觉是:
PeptideBERT可以很好地理解氨基酸序列的全局上下文和长距离依赖关系。GNN可以有效地捕捉肽三维结构中的局部相互作用和空间排列。- 通过一个对比学习框架,将这两种不同模态的表示(嵌入)对齐到一个共享的潜在空间中。这种对齐迫使
PeptideBERT不仅从序列中学习,还要“学习”如何将序列特征映射到与其结构特征一致的表示上。 - 最终目标是让经过这种多模态“辅助”训练的
PeptideBERT具备更强的预测能力,因为它隐式地整合了结构信息,即使在推理时只输入序列数据,也能做出更准确的预测。
4.2. 核心方法详解
Multi-Peptide 的整体框架如原文 Figure 1 和 Figure 2 所示,它由三个关键组件构成:预训练的语言模型(PeptideBERT)、图神经网络(GNN)以及用于对比损失计算的共享潜在空间。
4.2.1. 数据集准备与预处理
肽序列数据: 论文使用了溶血性和非污垢性两种数据集。每个数据集包含肽的氨基酸序列及其对应的属性标签(阳性或阴性)。
肽结构数据生成: 针对每个肽序列,使用 AlphaFold2 系统生成其三维结构信息,并以蛋白质数据银行(PDB)文件的形式存储。为了降低 AlphaFold2 预测结构可能存在的噪声,对于每个序列,生成了5个 PDB 文件,并选择了具有最高 pLDDT (predicted Local Distance Difference Test)置信分数的文件作为代表结构。
特征提取:
PeptideBERT输入: 肽序列以文本形式表示,并使用ProtBERT的编码方案转换为模型可处理的输入。GNN输入: 从AlphaFold2生成的PDB文件中提取特征。GNN的节点(nodes)是肽中的每个原子,每个原子有11个特征,包括:- 原子坐标
- 原子序数(
atomic number) - 原子质量(
atomic mass) - 原子半径(
atomic radius) - 原子是否是侧链或主链的一部分(
indication of whether the atom is part of a side chain or backbone) - 残基索引(
residue index) - 残基中原子数量(
number of atoms in the residue) - 残基序列编号(
residue sequence number) 图的边(edges)表示原子间的关系(例如化学键或空间邻近关系)。 数据平衡: 由于数据集存在类别不平衡(负例远多于正例),采用了过采样(oversampling)技术,通过复制正例来平衡数据,以防止模型偏向多数类。 数据划分: 每个数据集被划分为80%的训练集和20%的测试集。
以下是原文 Figure 3 的数据分布图,展示了肽序列长度和原子数量的分布:
该图像是四个频率分布图,展示了肽序列长度和原子数量的统计特征。图a和c分别为肽序列长度的分布,图b和d显示了肽中原子数量的分布。各图标注了最小值和最大值。
图示:该图像是四个频率分布图,展示了肽序列长度和原子数量的统计特征。图a和c分别为肽序列长度的分布,图b和d显示了肽中原子数量的分布。各图标注了最小值和最大值。
4.2.2. 模型架构
论文的 Multi-Peptide 方法将 PeptideBERT 和 GNN 进行结合,通过对比学习将它们的输出嵌入到一个共享的潜在空间。整个框架图如下:
该图像是一个示意图,展示了Multi-Peptide方法的工作流程,包括肽的序列表示、图表示以及结合了PeptideBERT的图神经网络(GNN)以预测蛋白质属性(如溶血性和非污垢性)。
图示:该图像是一个示意图,展示了Multi-Peptide方法的工作流程,包括肽的序列表示、图表示以及结合了PeptideBERT的图神经网络(GNN)以预测蛋白质属性(如溶血性和非污垢性)。
该图像是一个示意图,展示了Multi-Peptide方法如何结合PeptideBERT与GNN编码器进行肽属性预测的过程。通过使用Clip矩阵,模型获取序列和结构特征,从而预测肽的非粘附性和溶血性属性。
图示:该图像是一个示意图,展示了Multi-Peptide方法如何结合PeptideBERT与GNN编码器进行肽属性预测的过程。通过使用Clip矩阵,模型获取序列和结构特征,从而预测肽的非粘附性和溶血性属性。
-
PeptideBERT
Transformer模块:- 基础模型: 采用
PeptideBERT,它是在ProtBERT基础上为肽属性预测任务进行微调(fine-tuned)的Transformer模型。 - 输入: 肽的氨基酸序列(文本形式)和对应的注意力掩码(
attention masks)。 - 输出: 上下文相关的文本嵌入(
contextual text embeddings)。 - 特点: 擅长捕捉长距离依赖和全局上下文信息。
- 基础模型: 采用
-
GNN模块:- 输入:
AlphaFold2生成的PDB文件中的原子特征(作为节点)和原子间关系(作为边)构建的图数据。 - 架构: 使用
PyTorch Geometric的SAGEConv层进行图卷积(graph convolution),迭代地聚合来自邻居节点的信息。 - 输出: 肽的结构嵌入(
graph embeddings)。 - 特点: 旨在捕捉局部相互作用、空间排列和其他结构特征。
- 输入:
-
共享潜在空间和投影头(
Projection Heads):- 目的: 将
PeptideBERT生成的文本嵌入和GNN生成的图嵌入映射到一个统一的潜在空间,以便进行对比学习。 - 构成: 投影头由线性投影层(
linear projection layers)、高斯误差线性单元(GELU)激活函数、dropout层和层归一化(layer normalization)组成。
- 目的: 将
4.2.3. 预训练与对比学习
整个训练过程分为两个主要阶段:个体模型预训练和多模态对比学习。
-
个体模型预训练:
PeptideBERT模型和GNN模型首先在各自的模态数据上进行单独预训练(例如,PeptideBERT在序列数据上,GNN在结构图数据上)。- 预训练的目的是使每个模型在结合之前,先学习到各自模态的特定表示能力。
- 这一阶段的训练使得模型能够对特定任务进行预测。
-
多模态对比学习(
Contrastive Learning):-
框架: 采用受
CLIP启发的对比损失框架,在个体模型预训练后进行。 -
目标: 通过将图嵌入和文本嵌入对齐到共享潜在空间,增强
PeptideBERT的学习能力。模型被训练以识别匹配的序列-结构对,同时区分不匹配的对。 -
嵌入生成: 对于一个特定的肽 ,
GNN和PeptideBERT编码器分别生成图嵌入 和文本嵌入 :- 符号解释:
- : 特定的肽实例。
- : 肽 的结构表示(
PDB文件解析后的图数据)。 - : 肽 的氨基酸序列表示(文本数据)。
- : 图神经网络编码器,将结构表示编码为图嵌入。
- :
PeptideBERT语言模型编码器,将序列表示编码为文本嵌入。 - : 肽 的图嵌入。
- : 肽 的文本嵌入。
- 符号解释:
-
相似度度量: 两个向量 和 之间的相似度通过函数 来衡量,这里使用归一化嵌入的点积(即余弦相似度)。
-
损失函数: 整体对称损失 定义如下: 其中,单向损失 如下:
- 符号解释:
- : 图模态 和文本模态 之间的总对称损失。
- : 从图模态到文本模态的单向损失。
- : 从文本模态到图模态的单向损失。
- : 批次(
batch)中的样本数量。 - : 批次中的第 个样本。
- : 第 个样本的图嵌入。
- : 第 个样本的文本嵌入。
- : 第 个样本的图嵌入 和其对应的正样本文本嵌入 之间的相似度。
- : 第 个样本的图嵌入 和批次中所有文本嵌入 之间的相似度。
- : 温度参数(
temperature parameter),控制softmax分布的锐度。 - : 自然对数。
- 损失计算目的: 这种交叉熵损失鼓励模型使匹配的图-文本对的相似度最大化,同时最小化不匹配对的相似度,从而在潜在空间中对齐两种模态的表示。
- 符号解释:
-
4.2.4. 权重更新与推理
- 权重更新: 在对比学习阶段,损失函数通过反向传播(
backpropagation)更新模型的权重。在此过程中,GNN模型的预训练权重被冻结(frozen),只允许更新PeptideBERT模型的权重。这意味着GNN扮演了一个“知识提供者”的角色,它的结构知识被用来指导PeptideBERT学习更好的、结构感知的序列表示。 - 推理: 训练完成后,
GNN模型在推理阶段被丢弃。Multi-Peptide模型仅使用更新后的PeptideBERT权重对未见的肽序列进行属性预测。这使得推理过程只依赖于序列输入,效率更高,同时PeptideBERT已经通过多模态训练获得了对结构信息的隐式理解。
5. 实验设置
5.1. 数据集
实验使用了两个主要的肽属性预测数据集:溶血性(hemolysis)和非污垢性(nonfouling)。
5.1.1. 溶血性数据集
-
来源: 数据库
DBAASPv3(Database of Antimicrobial Activity and Structure of Peptides)。 -
特点: 包含肽序列及其溶血性标签。由于实验变异性,部分序列可能以不同标签多次出现。
-
处理: 移除具有冲突标签的重复序列后,数据集包含:
- 阳性样本: 845条序列(占15.065%),表示具有溶血性。
- 阴性样本: 4764条序列(占84.935%),表示不具有溶血性。
-
数据样本特征可视化: 溶血性肽的序列长度和原子数量分布如下图所示(原文 Figure 2a 和 2b)。
该图像是四个频率分布图,展示了肽序列长度和原子数量的统计特征。图a和c分别为肽序列长度的分布,图b和d显示了肽中原子数量的分布。各图标注了最小值和最大值。图示:该图像是四个频率分布图,展示了肽序列长度和原子数量的统计特征。图a和c分别为肽序列长度的分布,图b和d显示了肽中原子数量的分布。各图标注了最小值和最大值。其中a图和b图展示了溶血性数据集的序列长度分布和原子数量分布。
5.1.2. 非污垢性数据集
-
来源: 参考了
Ansari等人的一项研究。 -
特点: 包含肽序列及其非污垢性标签。
-
处理: 移除具有相同标签的7条重复序列,以及3条
AlphaFold2未能生成PDB结构文件的序列后,数据集包含:- 阳性样本: 3596条序列(占20.937%),表示具有非污垢性。
- 阴性样本: 13579条序列(占79.063%),表示不具有非污垢性。
-
阴性样本来源: 负例来自不溶性肽、溶血性肽以及与阳性序列长度相似的随机(
scrambled)阴性序列。 -
数据样本特征可视化: 非污垢性肽的序列长度和原子数量分布如下图所示(原文 Figure 2c 和 2d)。
该图像是四个频率分布图,展示了肽序列长度和原子数量的统计特征。图a和c分别为肽序列长度的分布,图b和d显示了肽中原子数量的分布。各图标注了最小值和最大值。图示:该图像是四个频率分布图,展示了肽序列长度和原子数量的统计特征。图a和c分别为肽序列长度的分布,图b和d显示了肽中原子数量的分布。各图标注了最小值和最大值。其中c图和d图展示了非污垢性数据集的序列长度分布和原子数量分布。
5.1.3. 统一预处理
- 氨基酸编码: 20种氨基酸通过自定义编码方法转换为对应的索引。
PeptideBERT兼容性: 数据集将整数索引反向映射回字母字符,然后使用ProtBERT的编码方案进行重新编码。GNN兼容性:AlphaFold2生成的PDB文件用于提取图数据特征,包括原子坐标、原子序数、原子质量、原子半径、原子是否属于侧链或主链、残基索引、残基中原子数量和残基序列编号。- 结构置信度: 为缓解
AlphaFold2结构预测可能存在的噪声,对每个序列生成5个PDB文件,并选择pLDDT置信度最高的结构作为代表。 - 数据不平衡处理: 两个数据集都存在显著的类别不平衡(负例多于正例)。采用过采样(
oversampling)技术,通过复制正例来平衡训练集,以防止模型对多数类产生偏差。 - 数据集划分: 每个数据集被划分为训练集(占总数据的80%)和测试集(占总数据的20%),确保测试集是模型未见过的数据。
5.2. 评估指标
论文主要使用了准确率(Accuracy) 作为模型的评估指标。
5.2.1. 准确率(Accuracy)
- 概念定义: 准确率衡量的是模型正确预测的样本数量占总样本数量的比例。它直观地反映了模型在分类任务中表现的整体正确性,即模型在所有判断中做出正确决策的频率。
- 数学公式:
- 符号解释:
TP(True Positive): 真阳性,模型正确地将正类别样本预测为正类别的数量。TN(True Negative): 真阴性,模型正确地将负类别样本预测为负类别的数量。FP(False Positive): 假阳性,模型错误地将负类别样本预测为正类别的数量(误报)。FN(False Negative): 假阴性,模型错误地将正类别样本预测为负类别的数量(漏报)。
5.3. 对比基线
论文将 Multi-Peptide 的性能与以下模型进行了比较:
-
Pretrained PeptideBERT: 作为Multi-Peptide的语言模型组件,其单独预训练后的性能。 -
Pretrained GNN: 作为Multi-Peptide的图神经网络组件,其单独预训练后的性能。 -
Fine-tuned PeptideBERT: 这是此前研究中已有的、在特定数据集上经过微调的PeptideBERT模型。 -
HAPPENN: 一个用于溶血活性预测的神经网络工具。 -
Embedding + LSTM: 一种结合词嵌入(embedding)和长短期记忆网络(LSTM)的模型。 -
One-hots + RNN: 一种结合独热编码(one-hot encoding)和循环神经网络(RNN)的模型。这些基线模型涵盖了从传统的基于序列的深度学习方法到专门的肽属性预测工具,为评估
Multi-Peptide的性能提供了全面的参考。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. Multi-Peptide 与个体组件的准确率比较
以下是原文 Table 1 的结果:
| Data set | Model | Accuracy (%) |
| Hemolysis | Multi-Peptide's BERT (this study) | 88.057 |
| Pretrained PeptideBERT | 85.981 | |
| Pretrained GNN | 83.24 | |
| Nonfouling | Multi-Peptide's BERT (this study) | 83.847 |
| Pretrained PeptideBERT | 88.150 | |
| Pretrained GNN | 79.42 |
- 溶血性数据集(
Hemolysis):Multi-Peptide的BERT模型达到了 88.057% 的准确率,显著高于单独预训练的PeptideBERT(85.981%)和GNN(83.24%)。- 这表明,对于溶血性预测,对比损失框架有效地整合了来自
GNN的结构信息,增强了PeptideBERT的预测能力。多模态学习的优势在此任务上得到了充分体现。
- 非污垢性数据集(
Nonfouling):Multi-Peptide的BERT模型准确率为 83.847%,这低于单独预训练的PeptideBERT(88.150%)。- 然而,它仍然高于单独预训练的
GNN(79.42%)。 - 这种下降可能归因于:
- GNN 学习效果不佳: 对于非污垢性任务,
GNN的单独准确率(79.42%)显著低于PeptideBERT(88.150%),这表明结构表示与非污垢性属性的关联性可能不如与序列的关联性强,或者GNN未能有效捕捉到这种关联。 - 结构数据噪声:
AlphaFold2生成的蛋白质结构数据可能存在噪声,特别是对于某些区域。如果这些噪声与非污垢性属性预测相关,则引入噪声数据可能降低模型整体性能。 - 模态对齐挑战: 序列和结构特征的有效对齐是一个复杂问题。如果特征对齐不充分或互补性不强,集成模型可能难以学习到有用的表示。
- GNN 学习效果不佳: 对于非污垢性任务,
6.1.2. Multi-Peptide 与其他模型的准确率比较
以下是原文 Table 2 的结果:
| Data set | Model | Accuracy (%) |
| Hemolysis | Multi-Peptide's BERT (this study) | 88.057 |
| Fine-tuned PeptideBERT26 | 86.051 | |
| HAPPENN43 | 85.7 | |
| Nonfouling | Multi-Peptide's BERT (this study) | 83.847 |
| Fine-tuned PeptideBERT26 | 88.365 | |
| Embedding + LSTM26 | 82.0 | |
| One-hots + RNN44 | 76.0 |
- 溶血性数据集:
Multi-Peptide的BERT模型以 88.057% 的准确率取得了最先进(state-of-the-art)的结果,超过了Fine-tuned PeptideBERT(86.051%) 和HAPPENN(85.7%)。这再次强调了其在溶血性预测上的优势。 - 非污垢性数据集:
Multi-Peptide的BERT模型(83.847%)虽然略低于Fine-tuned PeptideBERT(88.365%),但仍优于Embedding + LSTM(82.0%) 和One-hots + RNN(76.0%)。这说明即使在未达到最佳性能的任务上,Multi-Peptide仍能提供有竞争力的预测。
6.1.3. 嵌入空间分析(Embedding Space Analysis)
为了更深入地理解模型性能,论文使用 t-distributed stochastic neighbor encoding (t-SNE) 技术对非污垢性数据集的嵌入空间进行了可视化(原文 Figure 4)。t-SNE 是一种降维技术,可以将高维数据投影到低维空间,以帮助理解数据结构和类别分离情况。
以下是原文 Figure 4 的结果:
该图像是四幅示意图,展示了Multi-Peptide模型在不同维度下对肽类属性的分类结果。图a、b和c为2D投影,显示了两个类别(0和1)的分布情况;图d为3D投影,提供了更全面的视角。这些图反映了模型在对肽类属性进行预测时的表现。
图示:该图像是四幅示意图,展示了Multi-Peptide模型在不同维度下对肽类属性的分类结果。图a、b和c为2D投影,显示了两个类别(0和1)的分布情况;图d为3D投影,提供了更全面的视角。这些图反映了模型在对肽类属性进行预测时的表现。
PeptideBERT嵌入: 2Dt-SNE图(images/4.jpg中的图a)显示,负例序列(主导类别)形成了一个中心簇,而正负例混合的小而分散的群组环绕其周围。这表明PeptideBERT捕捉到了语义相似性,但在类别分离方面仍有重叠。GNN嵌入: 2Dt-SNE图(images/4.jpg中的图b)显示,负例占据了大部分区域,而正例则呈现出相似的模式,类别之间存在显著重叠,分离度很小。这与GNN在非污垢性任务中较低的准确率(79.42%)一致,表明GNN在此任务上未能形成清晰的类簇。这可能意味着结构特征与非污垢性属性之间的关联性不强,或者GNN捕捉这种关联的能力有限。- 对比损失后的嵌入: 经过多模态对比学习后的嵌入(
images/4.jpg中的图c为2D,图d为3D)显示,负例形成了一个突出的中心簇,周围是更小、更集中的混合类群。与PeptideBERT嵌入相比,这些混合群组的范围更小,表明多模态预训练在减少维度空间中对比类别方面是有效的。3Dt-SNE图进一步揭示了这些较小混合簇内的一些分离。 - 分析结论:
t-SNE可视化表明,PeptideBERT具有语义理解能力,而GNN尝试捕捉结构关系但对非污垢性数据集的效果不佳。对比学习框架试图促进类别区分,但由于GNN初始分离能力较弱,导致最终Multi-Peptide在非污垢性任务上的提升有限,甚至略低于单独的PeptideBERT。如果GNN能够提供更好的类别分离,对比框架会进一步鼓励这种分离。
6.2. 数据呈现 (表格)
见上文的 “6.1.1. Multi-Peptide 与个体组件的准确率比较” 和 “6.1.2. Multi-Peptide 与其他模型的准确率比较” 小节中嵌入的表格。
6.3. 消融实验/参数分析
论文没有明确提及“消融实验”一词,但通过比较 Multi-Peptide (BERT 部分) 的性能与单独的 Pretrained PeptideBERT 和 Pretrained GNN 的性能,实际上展示了多模态集成带来的影响,这可以被视为一种评估各组件贡献的方式。
- 个体模型预训练参数:
PeptideBERT和GNN各自进行预训练,每个阶段进行50个周期(epochs)。- 具体的模型架构参数和超参数在支持信息(
Supporting Information)中提供(论文正文未直接给出,但指出是“为获得最佳性能而选择的”)。
- 对比学习(
CLIP)阶段参数:- 周期(
Epochs): 100个周期。比个体预训练阶段更长,旨在确保模型在面对复杂性和多模态数据依赖时能有效学习。 - 学习率(
Learning Rate): 6.0e-5,高于Transformer个体预训练阶段。较高的学习率旨在让模型在对比学习中快速捕捉可区分的特征。 - 学习率调度器(
Learning Rate Scheduler):Learning Rate on Plateau,当验证损失停止改善时,学习率会以0.4的因子减少,并持续5个周期。 - 优化器(
Optimizer):AdamW优化器。 - 损失函数: 在更大的对比损失框架内使用二元交叉熵损失函数(
binary cross-entropy loss function)。 - 批次大小(
Batch Size): 20。 - 硬件: 在四块
NVDIA GeForce RTX 2080Ti GPU上进行训练,每块GPU具有11GB内存。
- 周期(
- 权重提取与推理:
-
对比学习训练结束后,从对比损失矩阵中提取与
BERT Transformer模型相关的权重。 -
这些更新后的
BERT权重用于对未见肽序列的推理,此时GNN模型被丢弃。这确保了在推理阶段只使用序列输入,但模型已通过训练获得了结构信息的隐式理解。这些参数设置是通过迭代实验和对训练损失曲线的观察进行微调的,以最大化模型在目标预测任务上的学习效果。
-
7. 总结与思考
7.1. 结论总结
本研究介绍了 Multi-Peptide,一种新颖的多模态学习方法,旨在提升肽属性预测的准确性。该方法将基于 Transformer 的语言模型 PeptideBERT 与图神经网络(GNN)集成,以同时捕捉肽的序列和结构特征。通过一个受 CLIP 启发的对比损失框架,Multi-Peptide 将两种模态的嵌入对齐到一个共享的潜在空间,从而增强了 PeptideBERT 的预测能力。
实验结果表明,Multi-Peptide 在溶血性预测任务上表现出色,达到了 88.057% 的最先进准确率,超越了单独的 PeptideBERT 和其他基线模型。尽管在非污垢性预测任务上未能完全超越单独的 PeptideBERT,但其性能仍具有竞争力,并且通过嵌入空间分析揭示了多模态训练在促进类别区分方面的潜力。研究强调了多模态学习在生物信息学领域,特别是在整合序列和结构信息以实现更准确、更鲁棒的肽属性预测方面的巨大前景。
7.2. 局限性与未来工作
- 非污垢性预测性能的局限: 对于非污垢性数据集,
Multi-Peptide的准确率未能超越单独微调的PeptideBERT。论文将此归因于:GNN模型在该任务上的学习效果相对较差,表明结构表示与非污垢性属性的关联性可能不如与序列的关联性强。AlphaFold生成的蛋白质结构数据可能存在噪声,特别是在某些不确定区域(pLDDT分数低于70的区域),这些噪声可能对模型性能产生负面影响。- 不同模态特征的有效对齐仍存在挑战,如果特征不完全对齐或互补性不足,集成模型可能难以学习到有用的表示。
- 模型复杂性增加: 引入
GNN模型显著增加了整体复杂性,需要更广泛和精确的数据进行有效训练。 - 未来工作:
- 细化模态集成: 进一步优化两种模态的集成方式,可能探索更复杂的特征融合或对齐机制。
- 优化模型架构: 持续改进模型架构,以充分利用序列特征和结构特征的互补优势。这可能包括探索不同的
GNN架构、更先进的对比学习策略或动态调整模态权重的方法。
7.3. 个人启发与批判
7.3.1. 个人启发
- 多模态学习的强大潜力: 这项工作再次证明了将不同模态的信息(如序列和结构)结合起来,可以比单一模态模型取得更好的性能。在生物信息学领域,这种集成尤其有价值,因为生物分子功能往往同时受其组成(序列)和空间构象(结构)的影响。
- 对比学习在知识迁移中的应用:
CLIP启发下的对比损失框架是实现不同模态之间知识迁移的有效手段。通过迫使模型学习共享的、对齐的潜在表示,可以间接将一种模态的丰富信息(如GNN捕捉的结构细节)融入到另一种模态的模型(如PeptideBERT)中,即使在推理时只使用单一模态输入。 - 解决数据局限的新思路:
AlphaFold2等工具大大扩展了结构数据的可用性,使得这种序列-结构结合的多模态学习成为可能,为过去受限于结构数据获取的研究打开了新的大门。 - 对下游任务的泛化能力: 在溶血性预测上取得
state-of-the-art性能,显示了Multi-Peptide框架在特定肽属性预测任务上的强大泛化能力。
7.3.2. 批判与潜在改进
- 非污垢性任务的性能下降: 论文坦诚
Multi-Peptide在非污垢性数据集上未能超越Fine-tuned PeptideBERT。这提出了几个值得深思的问题:- 结构信息与属性的相关性: 论文提到“这可能与目前蛋白质属性预测的理解相悖”,即结构信息对于非污垢性预测可能不如序列信息重要,或者
GNN无法有效捕捉这种关联。未来可以更深入地探究非污垢性与结构特征之间是否存在更复杂的非线性关系,或者需要更专门的结构表示方法。 GNN模型的优化: 如果GNN在非污垢性任务上表现不佳,可能需要对GNN架构、特征工程或预训练策略进行更细致的优化,使其能更好地从结构数据中学习该特定属性。- AlphaFold2 预测的局限性: 尽管使用了高置信度
PDB文件,但AlphaFold2预测的结构并非完美,尤其对于柔性区域。这些不准确性可能引入噪声,对非污垢性这种可能对精细结构敏感的属性预测造成干扰。未来可以考虑结构预测的不确定性建模,或开发对结构噪声更鲁棒的多模态融合方法。
- 结构信息与属性的相关性: 论文提到“这可能与目前蛋白质属性预测的理解相悖”,即结构信息对于非污垢性预测可能不如序列信息重要,或者
- 模态融合策略: 论文中
GNN权重在对比学习阶段被冻结,意味着PeptideBERT学习适应GNN提供的固定结构信息。这是一种知识蒸馏的形式。更高级的融合策略可能包括:- 联合微调(
Joint Fine-tuning): 允许GNN和PeptideBERT的权重在对比学习阶段都进行更新,使两种模态能够相互适应和共同进化。 - 动态权重调整: 根据任务或数据特性,动态调整
GNN和PeptideBERT贡献的比重。 - 多级融合: 在模型的不同层级进行信息融合,而不仅仅是在最终嵌入层面。
- 联合微调(
- 评估指标的全面性: 尽管准确率是一个常用且直观的指标,但对于类别不平衡的数据集,仅使用准确率可能无法全面反映模型的性能,尤其是在少数类上的表现。未来研究可以补充使用 F1-score、精确率(
Precision)、召回率(Recall)、AUC-ROC等指标,以提供更全面的评估。 - 可解释性: 虽然模型取得了高准确率,但
Transformer和GNN的黑箱性质使得理解模型为何做出特定预测变得困难。未来工作可以探索模型的可解释性,例如,通过注意力机制分析PeptideBERT关注序列的哪些部分,或通过图注意力分析GNN关注结构的哪些区域。
相似论文推荐
基于向量语义检索推荐的相关论文。