论文状态：已完成

M2oE: Multimodal Collaborative Expert Peptide Model

发表：2024/12/03

多模态肽预测模型 (1)专家模型与交叉注意力机制 (1)肽结构与序列信息结合 (1)复杂任务预测 (1)

原文链接

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究提出了M2oE多模态协同专家肽模型，通过整合肽的序列和空间结构信息，并引入专家模型及交叉注意力机制，显著提升了在复杂任务中的预测性能。实验结果验证了该模型在功能性肽预测中的有效性。

摘要

Peptides are biomolecules comprised of amino acids that play an important role in our body. In recent years, peptides have received extensive attention in drug design and synthesis, and peptide prediction tasks help us better search for functional peptides. Typically, we use the primary sequence and structural information of peptides for model encoding. However, recent studies have focused more on single-modal information (structure or sequence) for prediction without multi-modal approaches. We found that single-modal models are not good at handling datasets with less information in that particular modality. Therefore, this paper proposes the M2oE multi-modal collaborative expert peptide model. Based on previous work, by integrating sequence and spatial structural information, employing expert model and Cross-Attention Mechanism, the model’s capabilities are balanced and improved. Experimental results indicate that the M2oE model performs excellently in complex task predictions. Code is available at: https://github.com/goldzzmj/M2oE

思维导图

论文精读

中文精读约 27 分钟读完 · 15,886 字

1. 论文基本信息

1.1. 标题

M2oE: 多模态协同专家肽模型 (M2oE: Multimodal Collaborative Expert Peptide Model)

1.2. 作者

Zengzhu Guo (曾竹郭): 广东财经大学信息科学学院 (School of Information Sciences Guangdong University of Finance and Economics)，中国广州。
Zhiqi Ma (马志祺): 香港中文大学（深圳）医学院 (School of Medicine The Chinese University of Hong Kong ShenZhen)。

1.3. 发表期刊/会议

论文未明确指出具体的期刊或会议。根据提供的 Published at (UTC) 信息，推测这可能是一篇预印本 (preprint)。

1.4. 发表年份

2024年

1.5. 摘要

肽 (Peptides) 是由氨基酸 (amino acids) 组成的生物分子 (biomolecules)，在我们的身体中扮演着重要角色。近年来，肽在药物设计 (drug design) 和合成 (synthesis) 领域受到了广泛关注，而肽预测 (peptide prediction) 任务有助于我们更好地寻找功能性肽。通常，我们使用肽的初级序列 (primary sequence) 信息和结构信息 (structural information) 进行模型编码。然而，最近的研究更多关注单一模态 (single-modal) 信息（结构或序列）进行预测，而缺乏多模态 (multi-modal) 方法。本文发现，单一模态模型在处理特定模态信息较少的数据集时表现不佳。因此，本文提出了 M2oE 多模态协同专家肽模型。在现有工作的基础上，通过整合序列和空间结构信息，并采用专家模型 (expert model) 和交叉注意力机制 (Cross-Attention Mechanism)，模型的性能得到了平衡和提升。实验结果表明 M2oE 模型在复杂任务预测中表现出色。

1.6. 原文链接

论文PDF链接: /files/papers/6921c121d8097f0bc1d013e4/paper.pdf
代码链接: https://github.com/goldzzmj/M2oE

2. 整体概括

2.1. 研究背景与动机

核心问题: 肽在药物设计、抗菌剂和抗癌剂开发中具有重要潜力，但功能肽的发现依赖于准确的肽属性预测。当前肽预测模型主要依赖于单一模态（序列或结构）信息，导致在特定模态信息不足的数据集上表现不佳。
问题重要性: 随着抗生素耐药性的日益普遍，开发新型抗菌和抗癌药物的需求日益增长，肽作为候选药物受到广泛关注。有效的计算方法可以加速功能肽的筛选和设计。然而，单一模态模型的局限性限制了其在真实世界复杂场景中的应用，因为生物信息往往是多模态且相互补充的。
现有挑战或空白:
1. 单一模态局限性: 大多数现有研究侧重于单一模态数据（序列或结构），即使是对比学习 (contrastive learning) 方法也往往未能真正整合这些模态。当数据集的某一特定模态信息稀疏时，依赖该模态的模型性能会下降。
2. 多模态融合挑战: 尽管多模态模型在 AI4Science 领域取得进展（如 GITFormer、MoE 模型如 GMoE 和 SwitchTransformer），但如何更有效地融合不同模态的信息仍是一个挑战，特别是如何精炼融合方法以增强集成度。
本文切入点/创新思路: 针对单一模态模型的局限性和多模态融合的挑战，本文提出 M2oE 模型，通过深度整合序列和空间结构信息，并利用 稀疏交叉专家混合系统 (SCMoE) 和 交叉注意力机制 (CRA) 来平衡和提升模型能力，从而克服单一模态模型的缺陷，并在不同数据分布场景下自适应地评估模态的重要性。

2.2. 核心贡献/主要发现

本文提出了 M2oE 多模态协同专家肽模型，其主要贡献包括：

提出序列-结构混合专家模型 (Sequence-Structure Mixing Expert Model): M2oE 采用了一个混合专家框架 (MoE) 来整合序列和空间结构信息，有效解决了单一模态模型在特定模态信息不足数据集上的性能下降问题。该模型还通过解决专家分配 (expert allocation) 问题，确保了专家系统的有效性。
通过交互注意力网络改进混合专家表示 (Improved Mixed Expert Representation via Interactive Attention Networks): 模型利用 交叉注意力机制 (Cross-Attention Mechanism) 来促进不同模态间的交互，使得混合专家能够聚焦于模态间的互补特征，并通过这种多模态对齐 (multimodal alignment) 方法增强了专家系统的表示能力。
利用可学习权重评估模态重要性 (Learnable Weights for Modality Significance): 引入了可学习权重 $α$ 来动态评估序列和空间信息在不同数据分布场景下的重要性，使得模型能够根据任务需求自适应地调整各模态的贡献，提高了模型的灵活性和适应性。

主要发现是 M2oE 模型在复杂肽任务预测中表现出色。具体来说，在聚合倾向性 (AP) 预测任务（回归）和抗菌肽 (AMP) 预测任务（分类）上，M2oE 均超越了单一模态模型和多种混合基线模型，证明了其在整合多模态信息和处理不同数据分布方面的有效性。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 M2oE 模型，我们需要了解以下核心概念：

肽 (Peptides): 由少量氨基酸 (amino acids) 通过肽键连接形成的一类生物分子。它们比蛋白质 (proteins) 短，但具有广泛的生物活性，如激素、神经递质或抗菌剂。
- 初级序列 (Primary Sequence): 肽的氨基酸排列顺序，是肽最基本的信息。
- 空间结构 (Spatial Structure): 肽在三维空间中的折叠形态，决定了其生物功能，包括二级结构（如 $\alpha$ -螺旋、 $\beta$ -折叠）和三级结构。
深度学习 (Deep Learning): 机器学习的一个子领域，使用多层神经网络 (neural networks) 从数据中学习复杂的模式。
- 循环神经网络 (Recurrent Neural Network, RNN): 一种能够处理序列数据的神经网络，通过内部循环机制使信息在时间步之间传递。
- 长短期记忆网络 (Long Short-Term Memory, LSTM): RNN 的一种变体，通过引入门控机制（输入门、遗忘门、输出门）来解决传统 RNN 的梯度消失和梯度爆炸问题，能有效捕捉长距离依赖。
- 双向长短期记忆网络 (Bidirectional LSTM, BiLSTM): LSTM 的扩展，同时处理正向和反向序列信息，从而捕获更全面的上下文依赖。
- 注意力机制 (Attention Mechanism): 一种允许模型在处理序列数据时，动态地为输入序列的不同部分分配不同权重（“注意力”）的机制，从而聚焦于最相关的信息。
- 自注意力机制 (Self-Attention Mechanism): 注意力机制 的一种特殊形式，允许模型在处理序列中的一个元素时，同时考虑序列中所有其他元素的信息。它通过计算查询（Query）、键（Key）和值（Value）之间的相似度来加权求和，从而捕获序列内部的依赖关系。
- 多头自注意力机制 (Multihead Self-Attention, MSA): 自注意力机制 的扩展，通过并行运行多个自注意力头，并在最后将它们的输出拼接起来，从而允许模型在不同的表示子空间中学习不同的注意力模式。
- Transformer: 一种完全基于自注意力机制的神经网络架构，彻底摒弃了传统的循环和卷积层，在自然语言处理 (NLP) 等序列任务中取得了巨大成功。
- 前馈网络 (Feed Forward Network, FFN): 深度学习模型中的一个基本组件，通常由两个线性变换和一个非线性激活函数组成，用于对自注意力层的输出进行进一步的非线性转换和特征提取。
图神经网络 (Graph Neural Networks, GNNs): 一类专门处理图结构数据的神经网络，能够学习节点和边的表示，从而捕获图中的结构信息。
- 图卷积网络 (Graph Convolutional Network, GCN): 一种流行的 GNN，通过聚合邻居节点的信息来更新节点表示，类似于卷积操作在图像数据上的应用。它能够捕获图的局部和全局结构特征。
- 图注意力网络 (Graph Attention Network, GAT): 类似于 GCN，但引入了注意力机制，允许模型为不同邻居节点分配不同的权重，从而更灵活地捕获图结构信息。
- GraphSAGE: 另一种 GNN 框架，通过采样和聚合邻居节点特征来生成节点嵌入，适用于大规模图数据。
多模态学习 (Multimodal Learning): 结合来自不同模态（如文本、图像、结构、序列等）的信息，以期获得比单一模态更丰富、更全面的理解和预测能力。
专家混合模型 (Mixture of Experts, MoE): 一种机器学习范式，其中一个门控网络 (gating network) 负责将输入路由到一个或多个专家网络 (expert networks)，每个专家网络负责处理输入的不同部分或不同类型的任务。它通过选择性地激活专家来提高模型的容量和效率。
- 稀疏专家混合模型 (Sparsely-gated Mixture of Experts): MoE 的一种形式，其中门控网络仅激活一小部分专家（通常是 Top-k 专家），而不是所有专家。这使得模型在拥有巨大容量的同时，计算成本相对较低。
- Switch Transformer: 一种大规模的 Transformer 模型，利用 稀疏专家混合模型 来提高模型效率和参数规模，其中每个 token 只被路由到一个专家。
- GMoE (Graph Mixture of Experts): 将 MoE 思想应用于图神经网络，通过专家网络处理图的不同部分或不同类型的图数据。
交叉注意力机制 (Cross-Attention Mechanism, CRA): 在多模态学习中，它允许一个模态的查询 (Query) 去关注另一个模态的键 (Key) 和值 (Value)，从而实现模态间的交互和信息融合。例如，图像特征可以查询文本特征，以找到图像中最相关的文本描述。

3.2. 前人工作

论文提及并构建在其基础上的前人工作主要包括：

肽编码与预测: 早期和现有工作使用 RNN [8]、LSTM [9]、BiLSTM [10] 和 Transformer [11] 等模型处理肽序列。其中 Transformer 架构在序列处理方面显示出特别的有效性。肽也可以表示为图结构，GNN [12]（如 GCN）在捕获分子空间信息方面发挥作用。
- 补充 Transformer 的 Attention 机制: Transformer 的核心是 自注意力机制，它通过计算查询 (Query)、键 (Key) 和值 (Value) 来实现。 $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中，
  - $Q$ (Query): 查询矩阵，由输入序列的嵌入向量通过线性变换得到。
  - $K$ (Key): 键矩阵，由输入序列的嵌入向量通过线性变换得到。
  - $V$ (Value): 值矩阵，由输入序列的嵌入向量通过线性变换得到。
  - $d_k$ : 键向量的维度，用于缩放点积结果，防止在维度较高时点积结果过大，导致 softmax 函数的梯度过小。
  - $\mathrm{softmax}(\cdot)$ : 归一化指数函数，将注意力权重转换为概率分布。
  - $\cdot^T$ : 矩阵转置。
  - $QK^T$ : 计算查询和键的点积，表示查询对每个键的相似度。
  - softmax(...)V: 将相似度经过 softmax 归一化后，作为权重加权求和值矩阵 $V$ 中的信息，得到注意力输出。
单一模态模型局限性: 文中指出，大多数研究主要侧重于单一模态数据（序列或结构），即使是对比学习技术 [13] 也往往缺乏真正的模态整合。这导致了模型在处理特定模态信息较少的数据集时表现不佳。
多模态与专家混合模型:
- GITFormer [14]: 整合了图形、图像和文本信息，以提高分子科学中的预测准确性。这表明了多模态融合在 AI4Science 领域的潜力。
- GMoE [15] 和 SwitchTransformer [16]: 这类 专家混合模型 (MoE) 通过优化 token 分配来提高模型的适应性。它们展示了通过稀疏激活专家来扩展模型容量和效率的潜力。

3.3. 技术演进

从传统的基于序列的 RNN、LSTM、Transformer 模型，到处理结构化数据的 GNN（如 GCN、GAT、GraphSAGE），再到结合多模态信息（如 GITFormer）和利用专家混合架构（如 SwitchTransformer、GMoE）来提高模型容量和效率。本文的工作处于这一技术演进的前沿，它不仅结合了序列和图模态，还通过 MoE 架构和 交叉注意力 机制，旨在实现更深层次的模态融合和自适应学习。

3.4. 差异化分析

本文 M2oE 模型与相关工作的主要区别和创新点在于：

真正的多模态整合: 与大多数仅专注于单一模态或通过简单对比学习进行弱融合的方法不同，M2oE 明确地整合了肽的序列和空间结构信息。
稀疏交叉专家混合系统 (SCMoE): 引入 SCMoE 框架，不仅利用了 MoE 的优势来提高模型容量和适应性，还通过 交叉注意力机制 使得专家能够从多模态交互中学习。这克服了传统 MoE 可能只在单个模态内增强，而忽略模态间协同的问题。
自适应模态权重 (Learnable Weights $α$ ): 创新性地引入了可学习权重 $α$ 来动态评估序列和空间信息在不同数据分布场景下的相对重要性。这使得模型能够根据具体的任务和数据特性进行自适应调整，而不是依赖于固定权重或简单的拼接。
解决专家分配问题: 针对 MoE 中 Top-k 分配可能导致部分 token 无法被分配的问题，SCMoE 通过增加随机变量来确保所有 token 都有机会被分配给专家，从而增强了专家系统的表达能力。
平衡和鲁棒性: M2oE 的设计目标是平衡和改进模型能力，尤其是在单一模态模型在特定模态信息不足时遇到的挑战。通过多模态协同和动态权重分配，提升了模型在复杂任务预测中的鲁棒性。

4. 方法论

4.1. 方法原理

M2oE 模型的核心思想是有效地整合肽的序列信息和空间结构信息，以克服单一模态模型在特定模态数据不足时的局限性。它通过一个包含序列编码器、图编码器、稀疏交叉专家混合系统 (SCMoE) 以及一个融合模块来协同工作。SCMoE 模块通过 专家网络 (expert networks) 和 交叉注意力机制 (Cross-Attention Mechanism) 促进模态间的深度交互和信息融合，而融合模块则利用可学习的权重 $α$ 来动态平衡不同模态的贡献，最终实现对肽属性的精确预测。

4.2. 核心方法详解

下图（原文 Figure 1.jpg）展示了M2oE模型的结构，包括序列编码器、图编码器和解码器，以及稀疏交叉专家机制。图中采用了多头自注意力和聚合机制，旨在整合氨基酸序列与分子图的信息，进行复杂任务的预测。

该图像是示意图，展示了M2oE模型的结构，包括序列编码器、图编码器和解码器，以及稀疏交叉专家机制。图中采用了多头自注意力和聚合机制，旨在整合氨基酸序列与分子图的信息，进行复杂任务的预测。

M2oE 模型主要由以下几个关键组件构成：

4.2.1. 序列编码 (Sequence Encoding)

肽序列 $S$ 作为输入，类似于自然语言中的句子，需要进行词嵌入 (word-base embedding) 和位置识别 (positional identification) 的组合。与自然语言不同，肽序列的划分基于氨基酸，无需复杂的 tokenizer。

编码器架构: 模型采用 Transformer 架构，其核心是 多头自注意力 (Multihead Self Attention, MSA) 和 前馈网络 (Feed Forward Network, FFN)。
- MSA: 计算上下文得分并捕获序列内部的各种依赖关系。
- FFN: 结合非线性激活函数 (nonlinear activate function) 和额外的可训练参数 (trainable parameters)，进一步捕获氨基酸之间的非线性关系，并映射到更高维度。
输出: 序列编码器输出的氨基酸特征表示为 $s \in S^{M \times d}$ $s \in S^{M \times d}$ 。
- $S$ : 输入序列的集合。
- $M$ : 序列长度（氨基酸数量）。
- $d$ : 特征隐藏维度 (feature hidden dimension)。

4.2.2. 图编码 (Graph Encoding)

肽分子可以被定义为一个图 $\mathcal{G} = (\nu, \varepsilon)$ 。

$\nu = \{\nu_i\}_{i=1}^N$ : 表示图中的节点集合，通常是肽中的原子或氨基酸残基。
$\varepsilon \subseteq \nu \times \nu$ : 表示节点之间存在的化学键 (chemical bonds) 作为边。
邻接矩阵 (Adjacent matrix): $A \in \{0, 1\}^{N \times N}$ 描述了节点间的关系。如果存在连接 $(i, j) \in \varepsilon$ ，则 $A_{ij} = 1$ ，否则 $A_{ij} = 0$ 。
编码器架构: 模型使用 GCN (图卷积网络) 来学习节点的潜在表示。
- GCN 层公式: $X^{(l+1)} = f_{GCN}(A, X^{(l)}; W^{(l)}) = \sigma(\hat{A}X^{(l)}W^{(l)})$ 其中，
  - $f_{GCN}$ : GCN 编码器函数。
  - $X^{(l)}$ : 第 $l$ 层的节点特征矩阵。
  - $\widetilde{A} = A + I$ : 将单位矩阵 $I$ 加到邻接矩阵 $A$ 上，以保留和传递节点自身的信息（即考虑自连接）。
  - $\hat{A} = D^{-\frac{1}{2}}\widetilde{A}D^{-\frac{1}{2}}$ : 对扩展后的邻接矩阵进行归一化，其中 $D$ 是 $\widetilde{A}$ 的度矩阵 (degree matrix)，即 $D_{ii} = \sum_j \widetilde{A}_{ij}$ 。这种对称归一化有助于防止特征在图上传播时尺度过大或过小，并保持特征的稳定性。
  - $W^{(l)}$ : 第 $l$ 层模型的可学习权重矩阵。
  - $\sigma$ : 非线性激活函数，本文使用 LeakyRelu。
初始化和输出: 初始值 $X^{(0)}$ $X^{(0)}$ 使用正态分布随机初始化。GCN 的最终输出表示为 $X \in \mathbb{R}^{N \times D}$ $X \in R^{N \times D}$ 。
- $N$ : 节点数量。
- $D$ : 每个节点嵌入的维度 (node embedding dimension)。

4.2.3. 稀疏交叉专家混合系统 (Sparse Cross Mixture of Experts, SCMoE)

SCMoE 是模型的融合模块，旨在将序列编码器和图编码器捕获的初级肽序列信息和次级分子结构信息进行有效整合。

专家网络 (Expert Networks): SCMoE 包含 $C$ 个序列混合专家 (sequence mixing experts) 和图混合专家 (graph mixing experts)。这些专家能够通过路由网络 (routing network) 学习不同类型数据（token）的表示。
路由网络 (Routing Network): 控制 token 的分配。它通过一个可学习矩阵 $W^{\bar{r}} \in \mathbb{R}^{d \times C}$ 计算每个 token 与混合专家之间的相似度，并将 token 分配给 topk 个最相似的专家。
- 路由分配方法公式： $\begin{array} { r } { Router ( X _ { i } ) = Topk ( \alpha _ { j } X _ { i j } + N ( 0 , 1 ) \cdot Softplus ( X _ { i j } W _ { n o i s e } ) ) } \\ { \alpha _ { j } = \frac { X _ { i j } W ^ { r } } { \sum _ { j = 0 } ^ { topk } X _ { i j } W ^ { r } } } \end{array}$ 其中，
  - $X_i$ : 第 $i$ 个 token 的特征表示。
  - $X_{ij}$ : 第 $i$ 个 token 与第 $j$ 个专家之间的关系（通常是点积或线性变换后的结果）。
  - $W^{\bar{r}}$ ( $W^r$ ): 可学习的路由权重矩阵，用于计算 token 与专家间的原始相似度。
  - $N(0, 1)$ : 从标准正态分布中采样的随机变量，用于引入随机性。
  - $W_{noise} \in \mathbb{R}^{d \times C}$ : 可学习的噪声权重参数。
  - $Softplus(\cdot)$ : 非线性激活函数，定义为 $\ln(1+e^x)$ ，可以防止梯度消失问题。
  - Topk: 选择得分最高的 $k$ 个专家。
- 处理 Topk 局限性: 仅使用 Topk 分配可能导致某些 token 永远不会被分配到专家，从而降低专家系统的表达能力。通过添加从标准正态分布中采样的随机变量 $N(0, 1) \cdot Softplus(X_{ij}W_{noise})$ ，即使是 Topk 之后排名较低的 token 也有机会被分配，增加了专家利用的广度。
交叉注意力 (Cross-Attention, CRA): 鉴于单一模态信息难以直接学习肽的隐含特征，引入 CRA 来增强 MoE。它能够对齐不同模态间的相似特性，同时区分不同特性。
- 首先，通过线性变换将序列编码器输出特征 $F_{seq}$ 和图编码器输出特征 $F_{gra}$ 转换为查询 $Q$ 、键 $K$ 和值 $V$ 。
- 然后，进行交叉注意力计算： $\begin{array} { r } { F _ { f g r a } = \mathrm { Softmax } \left( \frac { Q _ { s e q } K _ { g r a } ^ { \top } } { d _ { k } } \right) V _ { g r a } } \\ { F _ { f s e q } = \mathrm { Softmax } \left( \frac { Q _ { g r a } K _ { s e q } ^ { \top } } { d _ { k } } \right) V _ { s e q } } \end{array}$ 其中，
  - $F_{seq}, F_{gra}$ : 分别表示来自序列编码器和图编码器的特征。
  - $Q_{seq}, K_{seq}, V_{seq}$ : 分别是基于 $F_{seq}$ 生成的查询、键、值。
  - $Q_{gra}, K_{gra}, V_{gra}$ : 分别是基于 $F_{gra}$ 生成的查询、键、值。
  - $d_k$ : 缩放因子 (scaling factor)，通常是键向量维度的平方根。
  - Softmax: 归一化函数。
  - $F_{fgra}$ : 序列查询 $Q_{seq}$ 对图键 $K_{gra}$ 进行关注后，从图值 $V_{gra}$ 中提取的融合特征。
  - $F_{fseq}$ : 图查询 $Q_{gra}$ 对序列键 $K_{seq}$ 进行关注后，从序列值 $V_{seq}$ 中提取的融合特征。
- 特征更新: 交叉注意力矩阵被转换并更新。新的序列特征 ( $F_seq^new$ ) 由图节点特征及其相应的注意力系数组成。具体地，更新后的序列特征可以表示为 $F_{seq}^{new} = \mathrm{Concat}(F_{seq}, F_{fseq})$ 。这些更新后的交互特征随后也会像公式 2 一样被分配到不同的专家中。

4.2.4. 融合模块和损失函数 (Fusion Module And Loss)

融合模块旨在将 SCMoE 处理后的模态特征映射到最终的预测空间。

融合策略: 传统方法常使用固定权重组合多个输出，但这种方法难以评估序列和空间信息在不同数据分布场景下的重要性。本文采用可学习权重 $α$ 来度量这种重要性。
- 预测输出公式： $\hat { y } = \sigma ( \alpha MLP _ { 1 } ( Z _ { s e q } ) + ( 1 - \alpha ) MLP _ { 2 } ( Z _ { g r a } ) )$ 其中，
  - $\hat{y}$ : 模型的最终预测输出。
  - $\sigma$ : Sigmoid 激活函数，将预测数据映射到概率空间（对于分类任务）。
  - $\alpha$ : 可学习权重 (learnable weight)，用于平衡序列模态和图模态的贡献。其值介于 0 到 1 之间。
  - $MLP_1(\cdot)$ , $MLP_2(\cdot)$ : 两个独立的多层感知机 (Multi-Layer Perceptron)，分别处理序列和图的嵌入。
  - $Z_{seq}, Z_{gra}$ : 分别是序列编码器和图编码器输出的嵌入特征。
损失函数 (Loss Function): 模型的总优化目标由二元交叉熵 (BCE) 和 MoE 的负载平衡损失 (Load Loss) 及重要性损失 (Importance Loss) 组成。
- 负载损失 (Load Loss): 路由网络将 token 分配给专家，可能导致负载不平衡，即少数专家接收了大部分 token。为解决此问题，设计了负载损失以确保每个专家被选中的概率均等。 $L _ { l o a d } = \sum _ { i = 1 } ^ { C } \left( \frac { n _ { i } } { \sum _ { j = 1 } ^ { C } n _ { j } } - \frac { 1 } { C } \right) ^ { 2 }$ 其中，
  - $C$ : 专家总数。
  - $n_i$ : 分配给第 $i$ 个专家的 token 数量。
  - $\sum_{j=1}^C n_j$ : 分配给所有专家的 token 总数。
  - $\frac{n_i}{\sum_{j=1}^C n_j}$ : 第 $i$ 个专家接收 token 的比例。
  - $\frac{1}{C}$ : 理想情况下每个专家应接收的 token 比例。
  - $L_{load}$ : 最小化这个损失可以促使 token 更均匀地分配给所有专家。
- 重要性损失 (Importance Loss): 专家能力不同，路由网络可能倾向于将 token 分配给能力更强的少数专家，导致其余专家闲置。为解决这个问题，重要性损失旨在鼓励专家能力相似。 $\begin{array} { c } { { L _ { i m p o r t a n c e } = { \omega } _ { i m p } \cdot C V ( \sum _ { x \in X } R o u t e r ( x ) ) } } \\ { { C V ( X ) = \displaystyle \frac { \sigma _ { x } } { \mu _ { x } } } } \end{array}$ 其中，
  - $\omega_{imp}$ : 固定超参数 (hyperparameter)，用于控制不同专家能力相似的程度。
  - CV(X): 变异系数 (Coefficient of Variation)，衡量数据 $X$ 的离散程度。
  - $\sum_{x \in X} Router(x)$ : 表示所有 token 在路由后对专家选择情况的聚合统计。
  - $\sigma_x$ : 数据 $X$ 的标准差 (standard deviation)。
  - $\mu_x$ : 数据 $X$ 的均值 (mean)。
  - $L_{importance}$ : 最小化此损失有助于平衡专家能力，防止某些专家因能力过强而垄断任务，从而提升整个专家系统的鲁棒性。
- 总损失 (Total Loss): $L = BCE ( y , \hat { y } ) + L _ { L o a d } + L _ { i m p o r t a n c e }$ 其中，
  - $BCE(y, \hat{y})$ : 二元交叉熵损失，用于衡量预测值 $\hat{y}$ 和真实标签 $y$ 之间的误差。
  - $L_{Load}$ : 负载损失。
  - $L_{importance}$ : 重要性损失。
  - 总损失 $L$ 通过结合预测误差和 MoE 相关的平衡损失，优化整个模型的性能和专家系统的健康运行。

5. 实验设置

5.1. 数据集

本研究采用的基准数据集来源于 Liu 等人 [21] 的工作。根据任务类型，数据集分为分类任务和回归任务。

分类任务: 抗菌肽 (Antimicrobial Peptides, AMP) [22]
- 目标: 预测肽是否具有抗菌活性（二分类任务）。
- 标签: 1 表示抗菌肽，0 表示非抗菌肽。
回归任务: 聚合倾向性 (Aggregation Propensity, AP) [13]
- 目标: 预测肽的聚合倾向性（回归任务）。
数据划分: 两种数据集均按照训练集 (training set)、验证集 (validation set) 和测试集 (test set) 8:1:1 的比例进行划分，与 [21] 的处理方式一致。

以下是原文 Table I 的结果：

Dataset Property Classification Regression

AMPs AP

Train AMP 5437 54159

non-AMP 2019

Validation AMP 679 4000

non-AMP 252

Test AMP 681 4000

non-AMP 253

Total 9321 62159

Dataset	Property	Classification	Regression
Train	AMP	5437	54159
non-AMP	2019
Validation	AMP	679	4000
non-AMP	252
Test	AMP	681	4000
non-AMP	253
Total	9321	62159

数据集特点:

AMPs 数据集规模相对较小，总计 9321 条样本。
AP 数据集规模较大，总计 62159 条样本。选择这些数据集可以验证模型在不同规模和不同任务类型（分类与回归）上的性能和泛化能力。

5.2. 评估指标

论文使用了针对分类任务和回归任务的标准评估指标。

5.2.1. 分类任务 (Classification Task) - `AMP`

准确率 (Accuracy, ACC)
- 概念定义: 准确率是分类模型中一个最直观的指标，它衡量了模型正确预测的样本数量占总样本数量的比例。它提供了模型整体预测性能的概览。
- 数学公式: $\text{ACC} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}}$ 或 $\text{ACC} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$
- 符号解释:
  - $\text{TP}$ : 真阳性 (True Positive)，实际为正类且被预测为正类的样本数。
  - $\text{TN}$ : 真阴性 (True Negative)，实际为负类且被预测为负类的样本数。
  - $\text{FP}$ : 假阳性 (False Positive)，实际为负类但被预测为正类的样本数。
  - $\text{FN}$ : 假阴性 (False Negative)，实际为正类但被预测为负类的样本数。

5.2.2. 回归任务 (Regression Task) - `AP`

平均绝对误差 (Mean Absolute Error, MAE)
- 概念定义: 平均绝对误差衡量了预测值与真实值之间绝对误差的平均大小。它对误差的量级进行线性惩罚，因此对于异常值 (outliers) 的敏感度低于 MSE。
- 数学公式: $\text{MAE} = \frac{1}{N} \sum_{i=1}^N |y_i - \hat{y}_i|$
- 符号解释:
  - $N$ : 样本总数。
  - $y_i$ : 第 $i$ 个样本的真实值。
  - $\hat{y}_i$ : 第 $i$ 个样本的预测值。
  - $|y_i - \hat{y}_i|$ : 第 $i$ 个样本的绝对误差。
均方误差 (Mean Squared Error, MSE)
- 概念定义: 均方误差衡量了预测值与真实值之间差值平方的平均值。由于误差被平方，MSE 对较大的误差给予更大的惩罚，因此对异常值非常敏感。它在数学上更易于求导，常用于模型优化。
- 数学公式: $\text{MSE} = \frac{1}{N} \sum_{i=1}^N (y_i - \hat{y}_i)^2$
- 符号解释:
  - $N$ : 样本总数。
  - $y_i$ : 第 $i$ 个样本的真实值。
  - $\hat{y}_i$ : 第 $i$ 个样本的预测值。
  - $(y_i - \hat{y}_i)^2$ : 第 $i$ 个样本的平方误差。
R平方 (R-squared, $R^2$ )
- 概念定义: $R^2$ 衡量了模型对因变量 (dependent variable) 变异的解释比例。其值介于 0 到 1 之间（有时可能为负），1 表示模型完美拟合数据，0 表示模型无法解释任何变异，负值表示模型比简单地预测因变量的平均值还要差。它通常用于评估回归模型的拟合优度。
- 数学公式: $R^2 = 1 - \frac{\sum_{i=1}^N (y_i - \hat{y}_i)^2}{\sum_{i=1}^N (y_i - \bar{y})^2}$
- 符号解释:
  - $N$ : 样本总数。
  - $y_i$ : 第 $i$ 个样本的真实值。
  - $\hat{y}_i$ : 第 $i$ 个样本的预测值。
  - $\bar{y}$ : 所有真实值的平均值，即 $\bar{y} = \frac{1}{N} \sum_{i=1}^N y_i$ 。
  - $\sum_{i=1}^N (y_i - \hat{y}_i)^2$ : 残差平方和 (Sum of Squares of Residuals, SSR)，表示模型未解释的变异。
  - $\sum_{i=1}^N (y_i - \bar{y})^2$ : 总平方和 (Total Sum of Squares, SST)，表示因变量的总变异。

5.3. 对比基线

论文将 M2oE 模型与以下三类代表性模型进行了比较：

5.3.1. 序列模型 (Sequence Models)

这些模型主要利用肽的氨基酸序列信息进行预测。

Transformer: 一种基于自注意力机制的强大序列模型。
SwitchTransformer [16]: Transformer 的稀疏专家混合 (MoE) 变体，以其大规模和高效率著称。

5.3.2. 图模型 (Graph Models)

这些模型主要利用肽分子的空间结构信息（表示为图）进行预测。

GCN (Graph Convolutional Network): 捕获图结构信息的经典图神经网络。
GAT (Graph Attention Network): 引入注意力机制的图神经网络，能够对邻居节点分配不同权重。
GraphSAGE: 通过采样和聚合邻居节点特征来生成节点嵌入的图神经网络。

5.3.3. 混合模型 (Mixture Models)

这些模型尝试结合不同模态的信息或采用 MoE 架构。

GMoE [15]: 图专家混合模型，将 MoE 思想应用于图数据。
Repcon(Avg): 一种未在文中详细描述但作为混合基线出现的模型，推测可能是一种基于表征学习和平均融合的方法。
M2oE(WS): M2oE 模型的一种变体，使用加权求和 (Weighted Sum) 的融合方式，而非本文提出的可学习权重 $α$ 。
M2oE(Concat): M2oE 模型的一种变体，使用简单拼接 (Concatenation) 的融合方式。
M2oE(Parallel): 论文中指代的是最终提出的完整 M2oE 模型，即图结构中所示的并行多模态专家模型。

这些基线模型涵盖了单一模态的先进方法、已有的 MoE 架构以及不同的多模态融合策略，从而全面评估了 M2oE 的性能优势。

6. 实验结果与分析

6.1. 核心结果分析

本文提出的 M2oE 模型旨在整合序列和结构特征，并在下游任务中实现性能平衡和提升。实验结果通过对比单一模态模型、混合模型以及消融实验来验证 M2oE 的有效性。

以下是原文 Table III 的结果：

Type	Model	AP			AMP
Type	Model	MAE	MSE $R^{$	ACC	AMP
Sequence	Transformer SwitchTransformer[16]	3.81E-2 3.65E-2	2.33E-3 2.15E-3	0.947 0.951	[1] 0.813 0.808
Graph	GCN	4.27E-2	3.02E-3	0.932	0.834 [17]
	GAT	4.40E-2	3.22E-3	0.928	0.843
	GraphSAGE	3.84E-2	2.36E-3	0.947	0.847
Mixture	GMoE [15]	3.82E-2	2.35E-3	0.947	0.837
	Repcon(Avg)	3.83E-2	2.24E-3	0.947	0.831
	M2oE(WS)	3.74E-2	2.29E-3	0.949	[18] 0.820
	M2oE(Concat) M2oE(Parallel)	3.73E-2 3.68E-2	2.26E-3 2.21E-3	0.949 0.951	0.824 0.862

分析总结:

单一模态模型的表现特点:
- 在 AP 数据集（回归任务）上，序列模型表现出优势，其中 SwitchTransformer 取得了最高的 $R^2 = 0.951$ 。这表明 AP 任务可能更依赖于肽的序列信息。
- 在 AMP 数据集（分类任务）上，图模型表现更优，其中 GraphSAGE 达到了最高的准确率 84.7%。这暗示 AMP 任务可能更依赖于肽的空间结构信息。
- 这一现象验证了论文的动机：单一模态模型在数据集偏向于特定模态时表现出色，但在另一种模态信息不足时会遇到挑战。
M2oE 模型的整体性能:
- M2oE(Parallel)（即本文提出的完整模型）在两个任务上均表现出卓越性能。
- 对于 AP 回归任务，M2oE(Parallel) 取得了 $R^2 = 0.951$ ，与表现最好的 SwitchTransformer 持平，同时 MAE 和 MSE 也非常低（3.68E-2 和 2.21E-3）。
- 对于 AMP 分类任务，M2oE(Parallel) 取得了最高的准确率 86.2%，显著超越了所有基线模型（包括表现最好的 GraphSAGE 的 84.7%）。
- 这证明 M2oE 成功地结合了序列和图模型的优势，在两种不同类型、不同模态偏向的任务上都实现了领先的性能。
混合模型的比较:
- 其他混合模型（如 GMoE、Repcon(Avg)、M2oE(WS)、M2oE(Concat)) 在 AMP 任务上的表现均不如 M2oE(Parallel)。例如，简单的加权求和 M2oE(WS) 准确率为 0.820，而拼接 M2oE(Concat) 准确率为 0.824，都远低于 M2oE(Parallel) 的 0.862。这突显了 SCMoE 中 交叉注意力 和 可学习权重 的重要性。

6.2. 消融实验/参数分析

消融实验用于验证 M2oE 模型中各个关键组件（MoE 和 CRA）的有效性。实验在 AP 数据集上进行，评估指标为 MAE、MSE 和 $R^2$ 。

以下是原文 Table II 的结果：

Variants	MAE	MSE	\$R2
M2oE without CRA nor MoE	3.96E-2	2.57E-3	0.942
M2oE without CRA	3.74E-2	2.27E-3	0.949
M2oE without MoE	3.79E-2	2.38E-3	0.947
M2oE	3.68E-2	2.21E-3	0.951