M2oE: Multimodal Collaborative Expert Peptide Model
TL;DR 精炼摘要
本研究提出了M2oE多模态协同专家肽模型,通过整合肽的序列和空间结构信息,并引入专家模型及交叉注意力机制,显著提升了在复杂任务中的预测性能。实验结果验证了该模型在功能性肽预测中的有效性。
摘要
Peptides are biomolecules comprised of amino acids that play an important role in our body. In recent years, peptides have received extensive attention in drug design and synthesis, and peptide prediction tasks help us better search for functional peptides. Typically, we use the primary sequence and structural information of peptides for model encoding. However, recent studies have focused more on single-modal information (structure or sequence) for prediction without multi-modal approaches. We found that single-modal models are not good at handling datasets with less information in that particular modality. Therefore, this paper proposes the M2oE multi-modal collaborative expert peptide model. Based on previous work, by integrating sequence and spatial structural information, employing expert model and Cross-Attention Mechanism, the model’s capabilities are balanced and improved. Experimental results indicate that the M2oE model performs excellently in complex task predictions. Code is available at: https://github.com/goldzzmj/M2oE
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
M2oE: 多模态协同专家肽模型 (M2oE: Multimodal Collaborative Expert Peptide Model)
1.2. 作者
- Zengzhu Guo (曾竹 郭): 广东财经大学信息科学学院 (School of Information Sciences Guangdong University of Finance and Economics),中国广州。
- Zhiqi Ma (马志祺): 香港中文大学(深圳)医学院 (School of Medicine The Chinese University of Hong Kong ShenZhen)。
1.3. 发表期刊/会议
论文未明确指出具体的期刊或会议。根据提供的 Published at (UTC) 信息,推测这可能是一篇预印本 (preprint)。
1.4. 发表年份
2024年
1.5. 摘要
肽 (Peptides) 是由氨基酸 (amino acids) 组成的生物分子 (biomolecules),在我们的身体中扮演着重要角色。近年来,肽在药物设计 (drug design) 和合成 (synthesis) 领域受到了广泛关注,而肽预测 (peptide prediction) 任务有助于我们更好地寻找功能性肽。通常,我们使用肽的初级序列 (primary sequence) 信息和结构信息 (structural information) 进行模型编码。然而,最近的研究更多关注单一模态 (single-modal) 信息(结构或序列)进行预测,而缺乏多模态 (multi-modal) 方法。本文发现,单一模态模型在处理特定模态信息较少的数据集时表现不佳。因此,本文提出了 M2oE 多模态协同专家肽模型。在现有工作的基础上,通过整合序列和空间结构信息,并采用专家模型 (expert model) 和交叉注意力机制 (Cross-Attention Mechanism),模型的性能得到了平衡和提升。实验结果表明 M2oE 模型在复杂任务预测中表现出色。
1.6. 原文链接
- 论文PDF链接:
/files/papers/6921c121d8097f0bc1d013e4/paper.pdf - 代码链接:
https://github.com/goldzzmj/M2oE
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 肽在药物设计、抗菌剂和抗癌剂开发中具有重要潜力,但功能肽的发现依赖于准确的肽属性预测。当前肽预测模型主要依赖于单一模态(序列或结构)信息,导致在特定模态信息不足的数据集上表现不佳。
- 问题重要性: 随着抗生素耐药性的日益普遍,开发新型抗菌和抗癌药物的需求日益增长,肽作为候选药物受到广泛关注。有效的计算方法可以加速功能肽的筛选和设计。然而,单一模态模型的局限性限制了其在真实世界复杂场景中的应用,因为生物信息往往是多模态且相互补充的。
- 现有挑战或空白:
- 单一模态局限性: 大多数现有研究侧重于单一模态数据(序列或结构),即使是对比学习 (contrastive learning) 方法也往往未能真正整合这些模态。当数据集的某一特定模态信息稀疏时,依赖该模态的模型性能会下降。
- 多模态融合挑战: 尽管多模态模型在
AI4Science领域取得进展(如GITFormer、MoE模型如GMoE和SwitchTransformer),但如何更有效地融合不同模态的信息仍是一个挑战,特别是如何精炼融合方法以增强集成度。
- 本文切入点/创新思路: 针对单一模态模型的局限性和多模态融合的挑战,本文提出
M2oE模型,通过深度整合序列和空间结构信息,并利用稀疏交叉专家混合系统 (SCMoE)和交叉注意力机制 (CRA)来平衡和提升模型能力,从而克服单一模态模型的缺陷,并在不同数据分布场景下自适应地评估模态的重要性。
2.2. 核心贡献/主要发现
本文提出了 M2oE 多模态协同专家肽模型,其主要贡献包括:
-
提出序列-结构混合专家模型 (Sequence-Structure Mixing Expert Model):
M2oE采用了一个混合专家框架 (MoE) 来整合序列和空间结构信息,有效解决了单一模态模型在特定模态信息不足数据集上的性能下降问题。该模型还通过解决专家分配 (expert allocation) 问题,确保了专家系统的有效性。 -
通过交互注意力网络改进混合专家表示 (Improved Mixed Expert Representation via Interactive Attention Networks): 模型利用
交叉注意力机制 (Cross-Attention Mechanism)来促进不同模态间的交互,使得混合专家能够聚焦于模态间的互补特征,并通过这种多模态对齐 (multimodal alignment) 方法增强了专家系统的表示能力。 -
利用可学习权重评估模态重要性 (Learnable Weights for Modality Significance): 引入了可学习权重 来动态评估序列和空间信息在不同数据分布场景下的重要性,使得模型能够根据任务需求自适应地调整各模态的贡献,提高了模型的灵活性和适应性。
主要发现是
M2oE模型在复杂肽任务预测中表现出色。具体来说,在聚合倾向性 (AP) 预测任务(回归)和抗菌肽 (AMP) 预测任务(分类)上,M2oE均超越了单一模态模型和多种混合基线模型,证明了其在整合多模态信息和处理不同数据分布方面的有效性。
3. 预备知识与相关工作
3.1. 基础概念
为了理解 M2oE 模型,我们需要了解以下核心概念:
-
肽 (Peptides): 由少量氨基酸 (amino acids) 通过肽键连接形成的一类生物分子。它们比蛋白质 (proteins) 短,但具有广泛的生物活性,如激素、神经递质或抗菌剂。
- 初级序列 (Primary Sequence): 肽的氨基酸排列顺序,是肽最基本的信息。
- 空间结构 (Spatial Structure): 肽在三维空间中的折叠形态,决定了其生物功能,包括二级结构(如 -螺旋、-折叠)和三级结构。
-
深度学习 (Deep Learning): 机器学习的一个子领域,使用多层神经网络 (neural networks) 从数据中学习复杂的模式。
- 循环神经网络 (Recurrent Neural Network, RNN): 一种能够处理序列数据的神经网络,通过内部循环机制使信息在时间步之间传递。
- 长短期记忆网络 (Long Short-Term Memory, LSTM):
RNN的一种变体,通过引入门控机制(输入门、遗忘门、输出门)来解决传统RNN的梯度消失和梯度爆炸问题,能有效捕捉长距离依赖。 - 双向长短期记忆网络 (Bidirectional LSTM, BiLSTM):
LSTM的扩展,同时处理正向和反向序列信息,从而捕获更全面的上下文依赖。 - 注意力机制 (Attention Mechanism): 一种允许模型在处理序列数据时,动态地为输入序列的不同部分分配不同权重(“注意力”)的机制,从而聚焦于最相关的信息。
- 自注意力机制 (Self-Attention Mechanism):
注意力机制的一种特殊形式,允许模型在处理序列中的一个元素时,同时考虑序列中所有其他元素的信息。它通过计算查询(Query)、键(Key)和值(Value)之间的相似度来加权求和,从而捕获序列内部的依赖关系。 - 多头自注意力机制 (Multihead Self-Attention, MSA):
自注意力机制的扩展,通过并行运行多个自注意力头,并在最后将它们的输出拼接起来,从而允许模型在不同的表示子空间中学习不同的注意力模式。 - Transformer: 一种完全基于
自注意力机制的神经网络架构,彻底摒弃了传统的循环和卷积层,在自然语言处理 (NLP) 等序列任务中取得了巨大成功。 - 前馈网络 (Feed Forward Network, FFN): 深度学习模型中的一个基本组件,通常由两个线性变换和一个非线性激活函数组成,用于对自注意力层的输出进行进一步的非线性转换和特征提取。
-
图神经网络 (Graph Neural Networks, GNNs): 一类专门处理图结构数据的神经网络,能够学习节点和边的表示,从而捕获图中的结构信息。
- 图卷积网络 (Graph Convolutional Network, GCN): 一种流行的
GNN,通过聚合邻居节点的信息来更新节点表示,类似于卷积操作在图像数据上的应用。它能够捕获图的局部和全局结构特征。 - 图注意力网络 (Graph Attention Network, GAT): 类似于
GCN,但引入了注意力机制,允许模型为不同邻居节点分配不同的权重,从而更灵活地捕获图结构信息。 - GraphSAGE: 另一种
GNN框架,通过采样和聚合邻居节点特征来生成节点嵌入,适用于大规模图数据。
- 图卷积网络 (Graph Convolutional Network, GCN): 一种流行的
-
多模态学习 (Multimodal Learning): 结合来自不同模态(如文本、图像、结构、序列等)的信息,以期获得比单一模态更丰富、更全面的理解和预测能力。
-
专家混合模型 (Mixture of Experts, MoE): 一种机器学习范式,其中一个门控网络 (
gating network) 负责将输入路由到一个或多个专家网络 (expert networks),每个专家网络负责处理输入的不同部分或不同类型的任务。它通过选择性地激活专家来提高模型的容量和效率。- 稀疏专家混合模型 (Sparsely-gated Mixture of Experts):
MoE的一种形式,其中门控网络仅激活一小部分专家(通常是Top-k专家),而不是所有专家。这使得模型在拥有巨大容量的同时,计算成本相对较低。 - Switch Transformer: 一种大规模的
Transformer模型,利用稀疏专家混合模型来提高模型效率和参数规模,其中每个token只被路由到一个专家。 - GMoE (Graph Mixture of Experts): 将
MoE思想应用于图神经网络,通过专家网络处理图的不同部分或不同类型的图数据。
- 稀疏专家混合模型 (Sparsely-gated Mixture of Experts):
-
交叉注意力机制 (Cross-Attention Mechanism, CRA): 在多模态学习中,它允许一个模态的查询 (
Query) 去关注另一个模态的键 (Key) 和值 (Value),从而实现模态间的交互和信息融合。例如,图像特征可以查询文本特征,以找到图像中最相关的文本描述。
3.2. 前人工作
论文提及并构建在其基础上的前人工作主要包括:
-
肽编码与预测: 早期和现有工作使用
RNN[8]、LSTM[9]、BiLSTM[10] 和Transformer[11] 等模型处理肽序列。其中Transformer架构在序列处理方面显示出特别的有效性。肽也可以表示为图结构,GNN[12](如GCN)在捕获分子空间信息方面发挥作用。- 补充
Transformer的Attention机制:Transformer的核心是自注意力机制,它通过计算查询 (Query)、键 (Key) 和值 (Value) 来实现。 其中,- (Query): 查询矩阵,由输入序列的嵌入向量通过线性变换得到。
- (Key): 键矩阵,由输入序列的嵌入向量通过线性变换得到。
- (Value): 值矩阵,由输入序列的嵌入向量通过线性变换得到。
- : 键向量的维度,用于缩放点积结果,防止在维度较高时点积结果过大,导致
softmax函数的梯度过小。 - : 归一化指数函数,将注意力权重转换为概率分布。
- : 矩阵转置。
- : 计算查询和键的点积,表示查询对每个键的相似度。
softmax(...)V: 将相似度经过softmax归一化后,作为权重加权求和值矩阵 中的信息,得到注意力输出。
- 补充
-
单一模态模型局限性: 文中指出,大多数研究主要侧重于单一模态数据(序列或结构),即使是对比学习技术 [13] 也往往缺乏真正的模态整合。这导致了模型在处理特定模态信息较少的数据集时表现不佳。
-
多模态与专家混合模型:
GITFormer[14]: 整合了图形、图像和文本信息,以提高分子科学中的预测准确性。这表明了多模态融合在AI4Science领域的潜力。GMoE[15] 和SwitchTransformer[16]: 这类专家混合模型 (MoE)通过优化token分配来提高模型的适应性。它们展示了通过稀疏激活专家来扩展模型容量和效率的潜力。
3.3. 技术演进
从传统的基于序列的 RNN、LSTM、Transformer 模型,到处理结构化数据的 GNN(如 GCN、GAT、GraphSAGE),再到结合多模态信息(如 GITFormer)和利用专家混合架构(如 SwitchTransformer、GMoE)来提高模型容量和效率。本文的工作处于这一技术演进的前沿,它不仅结合了序列和图模态,还通过 MoE 架构和 交叉注意力 机制,旨在实现更深层次的模态融合和自适应学习。
3.4. 差异化分析
本文 M2oE 模型与相关工作的主要区别和创新点在于:
- 真正的多模态整合: 与大多数仅专注于单一模态或通过简单对比学习进行弱融合的方法不同,
M2oE明确地整合了肽的序列和空间结构信息。 - 稀疏交叉专家混合系统 (SCMoE): 引入
SCMoE框架,不仅利用了MoE的优势来提高模型容量和适应性,还通过交叉注意力机制使得专家能够从多模态交互中学习。这克服了传统MoE可能只在单个模态内增强,而忽略模态间协同的问题。 - 自适应模态权重 (Learnable Weights ): 创新性地引入了可学习权重 来动态评估序列和空间信息在不同数据分布场景下的相对重要性。这使得模型能够根据具体的任务和数据特性进行自适应调整,而不是依赖于固定权重或简单的拼接。
- 解决专家分配问题: 针对
MoE中Top-k分配可能导致部分token无法被分配的问题,SCMoE通过增加随机变量来确保所有token都有机会被分配给专家,从而增强了专家系统的表达能力。 - 平衡和鲁棒性:
M2oE的设计目标是平衡和改进模型能力,尤其是在单一模态模型在特定模态信息不足时遇到的挑战。通过多模态协同和动态权重分配,提升了模型在复杂任务预测中的鲁棒性。
4. 方法论
4.1. 方法原理
M2oE 模型的核心思想是有效地整合肽的序列信息和空间结构信息,以克服单一模态模型在特定模态数据不足时的局限性。它通过一个包含序列编码器、图编码器、稀疏交叉专家混合系统 (SCMoE) 以及一个融合模块来协同工作。SCMoE 模块通过 专家网络 (expert networks) 和 交叉注意力机制 (Cross-Attention Mechanism) 促进模态间的深度交互和信息融合,而融合模块则利用可学习的权重 来动态平衡不同模态的贡献,最终实现对肽属性的精确预测。
4.2. 核心方法详解
下图(原文 Figure 1.jpg)展示了M2oE模型的结构,包括序列编码器、图编码器和解码器,以及稀疏交叉专家机制。图中采用了多头自注意力和聚合机制,旨在整合氨基酸序列与分子图的信息,进行复杂任务的预测。
该图像是示意图,展示了M2oE模型的结构,包括序列编码器、图编码器和解码器,以及稀疏交叉专家机制。图中采用了多头自注意力和聚合机制,旨在整合氨基酸序列与分子图的信息,进行复杂任务的预测。
M2oE 模型主要由以下几个关键组件构成:
4.2.1. 序列编码 (Sequence Encoding)
肽序列 作为输入,类似于自然语言中的句子,需要进行词嵌入 (word-base embedding) 和位置识别 (positional identification) 的组合。与自然语言不同,肽序列的划分基于氨基酸,无需复杂的 tokenizer。
- 编码器架构: 模型采用
Transformer架构,其核心是多头自注意力 (Multihead Self Attention, MSA)和前馈网络 (Feed Forward Network, FFN)。- MSA: 计算上下文得分并捕获序列内部的各种依赖关系。
- FFN: 结合非线性激活函数 (nonlinear activate function) 和额外的可训练参数 (trainable parameters),进一步捕获氨基酸之间的非线性关系,并映射到更高维度。
- 输出: 序列编码器输出的氨基酸特征表示为 。
- : 输入序列的集合。
- : 序列长度(氨基酸数量)。
- : 特征隐藏维度 (feature hidden dimension)。
4.2.2. 图编码 (Graph Encoding)
肽分子可以被定义为一个图 。
- : 表示图中的节点集合,通常是肽中的原子或氨基酸残基。
- : 表示节点之间存在的化学键 (chemical bonds) 作为边。
- 邻接矩阵 (Adjacent matrix): 描述了节点间的关系。如果存在连接 ,则 ,否则 。
- 编码器架构: 模型使用
GCN(图卷积网络) 来学习节点的潜在表示。GCN层公式: 其中,- :
GCN编码器函数。 - : 第 层的节点特征矩阵。
- : 将单位矩阵 加到邻接矩阵 上,以保留和传递节点自身的信息(即考虑自连接)。
- : 对扩展后的邻接矩阵进行归一化,其中 是 的度矩阵 (degree matrix),即 。这种对称归一化有助于防止特征在图上传播时尺度过大或过小,并保持特征的稳定性。
- : 第 层模型的可学习权重矩阵。
- : 非线性激活函数,本文使用
LeakyRelu。
- :
- 初始化和输出: 初始值 使用正态分布随机初始化。
GCN的最终输出表示为 。- : 节点数量。
- : 每个节点嵌入的维度 (node embedding dimension)。
4.2.3. 稀疏交叉专家混合系统 (Sparse Cross Mixture of Experts, SCMoE)
SCMoE 是模型的融合模块,旨在将序列编码器和图编码器捕获的初级肽序列信息和次级分子结构信息进行有效整合。
-
专家网络 (Expert Networks):
SCMoE包含 个序列混合专家 (sequence mixing experts) 和图混合专家 (graph mixing experts)。这些专家能够通过路由网络 (routing network) 学习不同类型数据(token)的表示。 -
路由网络 (Routing Network): 控制
token的分配。它通过一个可学习矩阵 计算每个token与混合专家之间的相似度,并将token分配给topk个最相似的专家。- 路由分配方法公式:
其中,
- : 第 个
token的特征表示。 - : 第 个
token与第 个专家之间的关系(通常是点积或线性变换后的结果)。 - (): 可学习的路由权重矩阵,用于计算
token与专家间的原始相似度。 - : 从标准正态分布中采样的随机变量,用于引入随机性。
- : 可学习的噪声权重参数。
- : 非线性激活函数,定义为 ,可以防止梯度消失问题。
Topk: 选择得分最高的 个专家。
- : 第 个
- 处理
Topk局限性: 仅使用Topk分配可能导致某些token永远不会被分配到专家,从而降低专家系统的表达能力。通过添加从标准正态分布中采样的随机变量 ,即使是Topk之后排名较低的token也有机会被分配,增加了专家利用的广度。
- 路由分配方法公式:
其中,
-
交叉注意力 (Cross-Attention, CRA): 鉴于单一模态信息难以直接学习肽的隐含特征,引入
CRA来增强MoE。它能够对齐不同模态间的相似特性,同时区分不同特性。- 首先,通过线性变换将序列编码器输出特征 和图编码器输出特征 转换为查询 、键 和值 。
- 然后,进行交叉注意力计算:
其中,
- : 分别表示来自序列编码器和图编码器的特征。
- : 分别是基于 生成的查询、键、值。
- : 分别是基于 生成的查询、键、值。
- : 缩放因子 (scaling factor),通常是键向量维度的平方根。
Softmax: 归一化函数。- : 序列查询 对图键 进行关注后,从图值 中提取的融合特征。
- : 图查询 对序列键 进行关注后,从序列值 中提取的融合特征。
- 特征更新: 交叉注意力矩阵被转换并更新。新的序列特征 () 由图节点特征及其相应的注意力系数组成。具体地,更新后的序列特征可以表示为 。这些更新后的交互特征随后也会像公式 2 一样被分配到不同的专家中。
4.2.4. 融合模块和损失函数 (Fusion Module And Loss)
融合模块旨在将 SCMoE 处理后的模态特征映射到最终的预测空间。
-
融合策略: 传统方法常使用固定权重组合多个输出,但这种方法难以评估序列和空间信息在不同数据分布场景下的重要性。本文采用可学习权重 来度量这种重要性。
- 预测输出公式:
其中,
- : 模型的最终预测输出。
- :
Sigmoid激活函数,将预测数据映射到概率空间(对于分类任务)。 - : 可学习权重 (learnable weight),用于平衡序列模态和图模态的贡献。其值介于 0 到 1 之间。
- , : 两个独立的多层感知机 (Multi-Layer Perceptron),分别处理序列和图的嵌入。
- : 分别是序列编码器和图编码器输出的嵌入特征。
- 预测输出公式:
其中,
-
损失函数 (Loss Function): 模型的总优化目标由二元交叉熵 (
BCE) 和MoE的负载平衡损失 (Load Loss) 及重要性损失 (Importance Loss) 组成。- 负载损失 (Load Loss): 路由网络将
token分配给专家,可能导致负载不平衡,即少数专家接收了大部分token。为解决此问题,设计了负载损失以确保每个专家被选中的概率均等。 其中,- : 专家总数。
- : 分配给第 个专家的
token数量。 - : 分配给所有专家的
token总数。 - : 第 个专家接收
token的比例。 - : 理想情况下每个专家应接收的
token比例。 - : 最小化这个损失可以促使
token更均匀地分配给所有专家。
- 重要性损失 (Importance Loss): 专家能力不同,路由网络可能倾向于将
token分配给能力更强的少数专家,导致其余专家闲置。为解决这个问题,重要性损失旨在鼓励专家能力相似。 其中,- : 固定超参数 (hyperparameter),用于控制不同专家能力相似的程度。
CV(X): 变异系数 (Coefficient of Variation),衡量数据 的离散程度。- : 表示所有
token在路由后对专家选择情况的聚合统计。 - : 数据 的标准差 (standard deviation)。
- : 数据 的均值 (mean)。
- : 最小化此损失有助于平衡专家能力,防止某些专家因能力过强而垄断任务,从而提升整个专家系统的鲁棒性。
- 总损失 (Total Loss):
其中,
- : 二元交叉熵损失,用于衡量预测值 和真实标签 之间的误差。
- : 负载损失。
- : 重要性损失。
- 总损失 通过结合预测误差和
MoE相关的平衡损失,优化整个模型的性能和专家系统的健康运行。
- 负载损失 (Load Loss): 路由网络将
5. 实验设置
5.1. 数据集
本研究采用的基准数据集来源于 Liu 等人 [21] 的工作。根据任务类型,数据集分为分类任务和回归任务。
-
分类任务: 抗菌肽 (Antimicrobial Peptides,
AMP) [22]- 目标: 预测肽是否具有抗菌活性(二分类任务)。
- 标签: 1 表示抗菌肽,0 表示非抗菌肽。
-
回归任务: 聚合倾向性 (Aggregation Propensity,
AP) [13]- 目标: 预测肽的聚合倾向性(回归任务)。
-
数据划分: 两种数据集均按照训练集 (training set)、验证集 (validation set) 和测试集 (test set) 8:1:1 的比例进行划分,与 [21] 的处理方式一致。
以下是原文 Table I 的结果:
Dataset Property Classification Regression AMPs AP Train AMP 5437 54159 non-AMP 2019 Validation AMP 679 4000 non-AMP 252 Test AMP 681 4000 non-AMP 253 Total 9321 62159
数据集特点:
AMPs数据集规模相对较小,总计 9321 条样本。AP数据集规模较大,总计 62159 条样本。 选择这些数据集可以验证模型在不同规模和不同任务类型(分类与回归)上的性能和泛化能力。
5.2. 评估指标
论文使用了针对分类任务和回归任务的标准评估指标。
5.2.1. 分类任务 (Classification Task) - AMP
- 准确率 (Accuracy, ACC)
- 概念定义: 准确率是分类模型中一个最直观的指标,它衡量了模型正确预测的样本数量占总样本数量的比例。它提供了模型整体预测性能的概览。
- 数学公式: 或
- 符号解释:
- : 真阳性 (True Positive),实际为正类且被预测为正类的样本数。
- : 真阴性 (True Negative),实际为负类且被预测为负类的样本数。
- : 假阳性 (False Positive),实际为负类但被预测为正类的样本数。
- : 假阴性 (False Negative),实际为正类但被预测为负类的样本数。
5.2.2. 回归任务 (Regression Task) - AP
-
平均绝对误差 (Mean Absolute Error, MAE)
- 概念定义: 平均绝对误差衡量了预测值与真实值之间绝对误差的平均大小。它对误差的量级进行线性惩罚,因此对于异常值 (outliers) 的敏感度低于
MSE。 - 数学公式:
- 符号解释:
- : 样本总数。
- : 第 个样本的真实值。
- : 第 个样本的预测值。
- : 第 个样本的绝对误差。
- 概念定义: 平均绝对误差衡量了预测值与真实值之间绝对误差的平均大小。它对误差的量级进行线性惩罚,因此对于异常值 (outliers) 的敏感度低于
-
均方误差 (Mean Squared Error, MSE)
- 概念定义: 均方误差衡量了预测值与真实值之间差值平方的平均值。由于误差被平方,
MSE对较大的误差给予更大的惩罚,因此对异常值非常敏感。它在数学上更易于求导,常用于模型优化。 - 数学公式:
- 符号解释:
- : 样本总数。
- : 第 个样本的真实值。
- : 第 个样本的预测值。
- : 第 个样本的平方误差。
- 概念定义: 均方误差衡量了预测值与真实值之间差值平方的平均值。由于误差被平方,
-
R平方 (R-squared, )
- 概念定义: 衡量了模型对因变量 (dependent variable) 变异的解释比例。其值介于 0 到 1 之间(有时可能为负),1 表示模型完美拟合数据,0 表示模型无法解释任何变异,负值表示模型比简单地预测因变量的平均值还要差。它通常用于评估回归模型的拟合优度。
- 数学公式:
- 符号解释:
- : 样本总数。
- : 第 个样本的真实值。
- : 第 个样本的预测值。
- : 所有真实值的平均值,即 。
- : 残差平方和 (Sum of Squares of Residuals, SSR),表示模型未解释的变异。
- : 总平方和 (Total Sum of Squares, SST),表示因变量的总变异。
5.3. 对比基线
论文将 M2oE 模型与以下三类代表性模型进行了比较:
5.3.1. 序列模型 (Sequence Models)
这些模型主要利用肽的氨基酸序列信息进行预测。
Transformer: 一种基于自注意力机制的强大序列模型。SwitchTransformer[16]:Transformer的稀疏专家混合 (MoE) 变体,以其大规模和高效率著称。
5.3.2. 图模型 (Graph Models)
这些模型主要利用肽分子的空间结构信息(表示为图)进行预测。
GCN(Graph Convolutional Network): 捕获图结构信息的经典图神经网络。GAT(Graph Attention Network): 引入注意力机制的图神经网络,能够对邻居节点分配不同权重。GraphSAGE: 通过采样和聚合邻居节点特征来生成节点嵌入的图神经网络。
5.3.3. 混合模型 (Mixture Models)
这些模型尝试结合不同模态的信息或采用 MoE 架构。
-
GMoE[15]: 图专家混合模型,将MoE思想应用于图数据。 -
Repcon(Avg): 一种未在文中详细描述但作为混合基线出现的模型,推测可能是一种基于表征学习和平均融合的方法。 -
M2oE(WS):M2oE模型的一种变体,使用加权求和 (Weighted Sum) 的融合方式,而非本文提出的可学习权重 。 -
M2oE(Concat):M2oE模型的一种变体,使用简单拼接 (Concatenation) 的融合方式。 -
M2oE(Parallel): 论文中指代的是最终提出的完整M2oE模型,即图结构中所示的并行多模态专家模型。这些基线模型涵盖了单一模态的先进方法、已有的
MoE架构以及不同的多模态融合策略,从而全面评估了M2oE的性能优势。
6. 实验结果与分析
6.1. 核心结果分析
本文提出的 M2oE 模型旨在整合序列和结构特征,并在下游任务中实现性能平衡和提升。实验结果通过对比单一模态模型、混合模型以及消融实验来验证 M2oE 的有效性。
以下是原文 Table III 的结果:
| Type | Model | AP | AMP | ||
| MAE | MSE R^{ | ACC | |||
| Sequence | Transformer SwitchTransformer[16] | 3.81E-2 3.65E-2 | 2.33E-3 2.15E-3 | 0.947 0.951 | [1] 0.813 0.808 |
| Graph | GCN | 4.27E-2 | 3.02E-3 | 0.932 | 0.834 [17] |
| GAT | 4.40E-2 | 3.22E-3 | 0.928 | 0.843 | |
| GraphSAGE | 3.84E-2 | 2.36E-3 | 0.947 | 0.847 | |
| Mixture | GMoE [15] | 3.82E-2 | 2.35E-3 | 0.947 | 0.837 |
| Repcon(Avg) | 3.83E-2 | 2.24E-3 | 0.947 | 0.831 | |
| M2oE(WS) | 3.74E-2 | 2.29E-3 | 0.949 | [18] 0.820 | |
| M2oE(Concat) M2oE(Parallel) | 3.73E-2 3.68E-2 | 2.26E-3 2.21E-3 | 0.949 0.951 | 0.824 0.862 | |
分析总结:
-
单一模态模型的表现特点:
- 在
AP数据集(回归任务)上,序列模型表现出优势,其中SwitchTransformer取得了最高的 。这表明AP任务可能更依赖于肽的序列信息。 - 在
AMP数据集(分类任务)上,图模型表现更优,其中GraphSAGE达到了最高的准确率84.7%。这暗示AMP任务可能更依赖于肽的空间结构信息。 - 这一现象验证了论文的动机:单一模态模型在数据集偏向于特定模态时表现出色,但在另一种模态信息不足时会遇到挑战。
- 在
-
M2oE模型的整体性能:M2oE(Parallel)(即本文提出的完整模型)在两个任务上均表现出卓越性能。- 对于
AP回归任务,M2oE(Parallel)取得了 ,与表现最好的SwitchTransformer持平,同时MAE和MSE也非常低(3.68E-2 和 2.21E-3)。 - 对于
AMP分类任务,M2oE(Parallel)取得了最高的准确率86.2%,显著超越了所有基线模型(包括表现最好的GraphSAGE的84.7%)。 - 这证明
M2oE成功地结合了序列和图模型的优势,在两种不同类型、不同模态偏向的任务上都实现了领先的性能。
-
混合模型的比较:
- 其他混合模型(如
GMoE、Repcon(Avg)、M2oE(WS)、M2oE(Concat)) 在AMP任务上的表现均不如M2oE(Parallel)。例如,简单的加权求和M2oE(WS)准确率为0.820,而拼接M2oE(Concat)准确率为0.824,都远低于M2oE(Parallel)的0.862。这突显了SCMoE中交叉注意力和可学习权重的重要性。
- 其他混合模型(如
6.2. 消融实验/参数分析
消融实验用于验证 M2oE 模型中各个关键组件(MoE 和 CRA)的有效性。实验在 AP 数据集上进行,评估指标为 MAE、MSE 和 。
以下是原文 Table II 的结果:
| Variants | MAE | MSE | \$R2 |
| M2oE without CRA nor MoE | 3.96E-2 | 2.57E-3 | 0.942 |
| M2oE without CRA | 3.74E-2 | 2.27E-3 | 0.949 |
| M2oE without MoE | 3.79E-2 | 2.38E-3 | 0.947 |
| M2oE | 3.68E-2 | 2.21E-3 | 0.951 |
分析总结:
-
M2oE without CRA nor MoE(无交叉注意力也无专家混合):- 该变体性能最差 (),表明
CRA和MoE对模型性能的提升至关重要。这可以看作是一个基础的多模态融合模型,仅通过简单的编码器和融合层进行预测。
- 该变体性能最差 (),表明
-
M2oE without CRA(无交叉注意力):- 性能略有提升 (),但仍低于完整模型。这表明
MoE结构本身对性能有贡献,但缺少CRA会限制模态间的深度交互。在MAE和MSE上也略高于完整模型。
- 性能略有提升 (),但仍低于完整模型。这表明
-
M2oE without MoE(无专家混合):- 性能也低于完整模型 ()。这表明
MoE作为一个核心组件,通过其专家分配机制和增强的模型容量,对提高预测准确性是不可或缺的。缺少MoE使得模型无法有效处理不同token的复杂性,也限制了CRA的发挥。
- 性能也低于完整模型 ()。这表明
-
M2oE(完整模型):- 完整
M2oE模型取得了最佳性能 (,MAE3.68E-2,MSE2.21E-3)。 - 与
M2oE without CRA nor MoE相比,性能提升了0.9%(从0.942到0.951)。 - 这清晰地证明了
稀疏交叉专家混合系统 (SCMoE)和交叉注意力机制 (CRA)在M2oE中的协同作用,它们共同增强了模型在多模态数据处理和复杂任务预测中的能力。MoE提高了模型的容量和适应性,而CRA确保了不同模态之间能够进行有效的、有意义的信息交换和对齐。
- 完整
7. 总结与思考
7.1. 结论总结
本文提出了 M2oE (Multimodal Collaborative Expert Peptide Model),一个旨在解决单一模态肽预测模型局限性的多模态深度学习框架。M2oE 模型通过以下关键创新实现了性能的显著提升:
-
多模态整合: 深度整合了肽的序列信息和空间结构信息,有效弥补了单一模态模型在特定模态信息不足时表现不佳的问题。
-
稀疏交叉专家混合系统 (SCMoE): 引入
SCMoE框架,利用专家模型提高模型容量和处理复杂性的能力,并通过创新的路由网络确保了token的有效分配。 -
交叉注意力机制 (CRA): 采用
CRA促进不同模态间的深度交互和信息融合,使得专家能够从模态对齐中学习更丰富的表示。 -
自适应模态权重: 引入可学习权重 ,使模型能够根据不同数据分布场景动态评估和调整序列与结构信息的重要性。
实验结果表明,
M2oE在聚合倾向性 (AP) 回归任务和抗菌肽 (AMP) 分类任务上均取得了最先进的性能,特别是在AMP任务上显著超越了所有基线模型。消融实验也明确验证了SCMoE和CRA这两个核心组件对模型整体性能的贡献。
7.2. 局限性与未来工作
论文在结论部分简要提及了未来的工作方向,但未明确指出当前模型的局限性。然而,我们可以根据其研究背景和方法推断一些潜在的局限性:
- 计算复杂性: 专家混合模型 (
MoE) 虽然在理论上可以通过稀疏激活来降低计算成本,但其整体参数量通常较大,并且路由机制、多个专家网络以及交叉注意力机制的引入,可能会增加模型的训练和推理时间,尤其对于超长序列或大规模图数据。 - 专家数量与配置: 专家数量 和
Topk专家的选择是超参数,其优化可能对性能有显著影响。如何自适应地确定这些参数,或者设计更鲁棒的专家配置策略,仍是一个挑战。 - 可解释性: 尽管
MoE提供了某种程度的模块化,但路由机制和交叉注意力如何在内部动态地平衡和融合模态信息,其决策过程可能仍然是复杂的黑箱,尤其是在生物应用中,对模型决策的可解释性需求较高。 - 数据依赖性: 尽管模型旨在处理模态信息不足的场景,但其性能仍高度依赖于训练数据的质量和多样性。如果训练数据中某些模态存在系统性偏差或缺失,模型可能无法完全学到鲁棒的特征表示。
未来工作方向:
- 将多模态专家模型连接到更复杂的任务,例如肽生成任务 (peptide generation tasks)。这意味着可以利用
M2oE学习到的丰富肽表示,作为生成具有特定功能和属性的肽序列或结构的条件。
7.3. 个人启发与批判
7.3.1. 个人启发
- 多模态融合的必要性: 这篇论文再次强调了在生物信息学领域中,简单依赖单一模态的局限性。生物分子(如肽)的序列和结构信息天然互补,将它们深度融合能够提供更全面的理解。对于其他生物分子(如蛋白质、RNA)的预测任务,也应积极探索多模态融合方案。
- MoE 与注意力机制的有效结合:
MoE提供了强大的模型容量和处理异构信息的能力,而交叉注意力机制则为不同模态间的精细交互提供了有效途径。这种结合在处理复杂的多模态数据时具有很高的借鉴价值,尤其是在需要动态调整模态贡献的场景。 - 自适应权重的重要性: 引入可学习权重 来动态评估模态重要性是一个非常实用的设计。它避免了手动调整权重或简单平均的局限性,使得模型能够根据数据特性和任务需求自动优化模态间的平衡,提升了模型的泛化能力。
- 处理
MoE负载不平衡的思路: 论文中通过添加随机噪声和设计负载损失来解决MoE中token分配不均和专家利用率不高的问题,这为MoE模型的稳定训练和有效应用提供了宝贵的经验。
7.3.2. 批判与潜在改进
- 可学习权重 的进一步分析: 论文中提出了可学习权重 ,但并未深入分析其在训练过程中的演变或在不同任务上的最终取值。例如,在
AP任务上 是否倾向于接近 1(更看重序列),而在AMP任务上是否倾向于接近 0(更看重结构)?深入分析 的行为可以提供模型内部决策的更强可解释性。 - 特征交互的粒度: 交叉注意力机制在特征层面进行交互。是否可以在更细粒度(例如,氨基酸残基间的特定相互作用)或更高抽象层级(例如,二级结构元素间)进行模态交互,可能会捕获更深层次的生物学含义。
- 模型复杂度与计算效率: 尽管
MoE旨在提高效率,但其引入了额外的门控网络和多个专家。对于大规模肽数据集或需要快速推理的应用,详细的计算效率分析(包括参数数量、FLOPs、训练/推理时间)以及与传统非MoE多模态模型的对比,将更具说服力。 - 对稀疏模态的鲁棒性: 论文的动机之一是解决单一模态在特定模态信息较少时的问题。虽然结果表明
M2oE表现优异,但如果能设计专门的实验,在有意“稀疏化”某一模态信息的数据集上进行测试,将更能凸显其在这方面的鲁棒性。 - 生物学解释性: 尽管模型性能优越,但其从序列和结构中学习到的具体特征,以及这些特征如何协同贡献于最终预测的生物学解释性仍有待深入探讨。这对于药物设计等应用至关重要,因为研究人员不仅需要预测,还需要理解“为什么”。
相似论文推荐
基于向量语义检索推荐的相关论文。