论文状态:已完成

Highly Accurate Disease Diagnosis and Highly Reproducible Biomarker Identification with PathFormer

发表:2024/02/12
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究提出了PathFormer模型,旨在提高生物标志物识别的准确性及其在多个数据集上的可重现性。与现有图神经网络相比,PathFormer能够在阿尔茨海默病和癌症转录组数据集中实现约30%的疾病诊断准确率提升,显示出其在组学数据分析中的潜力。

摘要

Biomarker identification is critical for precise disease diagnosis and understanding disease pathogenesis in omics data analysis, like using fold change and regression analysis. Graph neural networks (GNNs) have been the dominant deep learning model for analyzing graph-structured data. However, we found two major limitations of existing GNNs in omics data analysis, i.e., limited-prediction (diagnosis) accuracy and limited-reproducible biomarker identification capacity across multiple datasets. The root of the challenges is the unique graph structure of biological signaling pathways, which consists of a large number of targets and intensive and complex signaling interactions among these targets. To resolve these two challenges, in this study, we presented a novel GNN model architecture, named PathFormer, which systematically integrate signaling network, priori knowledge and omics data to rank biomarkers and predict disease diagnosis. In the comparison results, PathFormer outperformed existing GNN models significantly in terms of highly accurate prediction capability ( 30% accuracy improvement in disease diagnosis compared with existing GNN models) and high reproducibility of biomarker ranking across different datasets. The improvement was confirmed using two independent Alzheimer's Disease (AD) and cancer transcriptomic datasets. The PathFormer model can be directly applied to other omics data analysis studies.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

PathFormer:基于 PathFormer 的高精度疾病诊断和高重现性生物标志物识别 (Highly Accurate Disease Diagnosis and Highly Reproducible Biomarker Identification with PathFormer)

1.2. 作者

Zehao Dong, Qihang Zhao, Philip R.O. Payne, Michael A Province, Carlos Cruchaga, Muhan Zhang, Tianyu Zhao, Yixin Chen, Fuhai Li

主要通讯作者为 Fuhai Li,隶属于圣路易斯华盛顿大学计算机科学与工程系、信息学研究所、儿科学系、遗传学系、精神病学系、放射肿瘤学系,以及香港理工大学健康技术与信息学系。

1.3. 发表期刊/会议

该论文以预印本形式发表在 arXiv 上,尚未经过同行评审。

1.4. 发表年份

2024年

1.5. 摘要

生物标志物识别对于组学数据分析中的精确疾病诊断和理解疾病发病机制至关重要,传统方法如倍数变化 (fold change) 和回归分析常被使用。图神经网络 (GNN) 已成为分析图结构数据的主流深度学习模型。然而,现有 GNN 在组学数据分析中存在两个主要限制:有限的预测(诊断)准确性和在多个数据集之间生物标志物识别能力的可重现性 (reproducibility) 差。这些挑战的根源在于生物信号通路独特的图结构,其包含大量靶点以及这些靶点之间密集而复杂的信号相互作用。为了解决这两个挑战,本研究提出了一种新颖的 GNN 模型架构,命名为 PathFormer,它系统地整合了信号网络、先验知识和组学数据来对生物标志物进行排序并预测疾病诊断。比较结果显示,PathFormer 在高精度预测能力(疾病诊断准确率比现有 GNN 模型提高约 30%)和跨不同数据集生物标志物排序的高重现性方面,显著优于现有 GNN 模型。该改进通过两个独立的阿尔茨海默病 (AD) 和癌症转录组数据集得到了证实。PathFormer 模型可以直接应用于其他组学数据分析研究。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2402.07268v1 PDF 链接: https://arxiv.org/pdf/2402.07268v1.pdf

2. 整体概括

2.1. 研究背景与动机

随着下一代测序 (NGS) 和高通量技术的发展,大规模个性化组学数据 (omics data) 正在被生成。对这些组学数据集的分析已经揭示了许多新的疾病相关靶点。然而,对于大多数疾病,复杂而神秘的疾病发病机制 (disease pathogenesis) 仍然不清楚。在组学数据分析中,生物标志物 (biomarker) 或靶点 (target) 识别对于精确的疾病诊断和理解疾病发病机制至关重要。

现有研究存在以下挑战和空白:

  1. 传统方法局限性: 传统的生物标志物识别方法,如倍数变化 (fold change) 和回归分析,无法建模这些个体靶点/蛋白质之间的信号相互作用。
  2. 图神经网络 (GNN) 的潜力与缺陷: 信号网络(如信号通路和蛋白质-蛋白质相互作用 (PPIs))在生物信息学应用中无处不在,并能识别稳定的网络模块生物标志物或枢纽基因。图神经网络 (GNNs) 是处理图结构数据的主流深度学习模型,它们能同时编码基因表达谱和遗传相互作用。然而,作者发现现有 GNN 在组学数据分析中存在两个主要限制:
    • 预测/诊断准确性有限: 现有 GNN 在疾病表型预测方面表现不佳,例如在阿尔茨海默病 (AD) 分类任务中,分类准确率接近 0.6,仅略优于随机猜测。
    • 生物标志物识别可重现性有限: 现有 GNN 无法提供具有生物学意义的可解释结果,其用于排序节点贡献以选择基因子集的技术(如 SortPool 和 GAT)不具有鲁棒性,也不是疾病特异性的。
  3. 挑战的根源: 作者认为这些挑战的根源在于生物信号通路独特的图结构——它包含大量靶点以及这些靶点之间密集而复杂的信号相互作用。具体来说,基因网络通常包含数千个基因/节点,其中许多具有极高的节点中心性 (node centrality)。
    • 过平滑/过压缩问题 (Over-squashing problem): 具有大平均节点度/中心性的图会导致 GNN 出现过压缩问题,即接收域 (receptive field) 随 GNN 层数呈指数增长,导致信息瓶颈。

    • 计算复杂性问题: 现有表达力更强的 GNN(如基于子图的 GNN 和高阶 GNN)在应用于大型基因网络时存在空间/时间复杂性问题。

    • 缺乏低通特性 (Low-path nature): 基因网络不具备流行图数据集中的“低通特性”,这意味着高频和低频信息都同样重要,而许多 GNN 作为低通滤波器会滤除高频信息,导致性能下降。

      因此,本文的切入点是开发一种强大的 GNN 模型,专门用于处理生物信号网络的独特属性,以实现精确的疾病诊断和鲁棒的基因子集检测。

2.2. 核心贡献/主要发现

本文的核心贡献和主要发现包括:

  1. 提出 PathFormer 模型架构: 提出了一种新颖的图神经网络模型 PathFormer,它系统地整合了信号网络、先验知识和组学数据。
  2. 引入 PathFormer 编码器层: 该层基于 Transformer 架构 (Transformer architecture),利用自注意力机制 (self-attention mechanism) 来聚合信息,有效解决了过压缩问题 (over-squashing problem)。同时,通过将基因的通用顺序作为位置编码 (positional encoding) 来最大化表达能力,并引入可学习的注意力偏差矩阵来注入基因-通路信息 (gene-pathway information),以捕获基因网络中任意基因对之间的通路关系。
  3. 开发知识引导的疾病特异性排序池化层 (KD-Sortpool): 提出了 KD-Sortpool 层,结合了排序池化策略 (sort-and-pool strategy) 和先验生物学知识(如 DisGeNET 的基因-疾病关联 (GDA) 分数),以实现可重现且疾病特异性的生物标志物识别。它通过基因子集一致性损失 (Gene Subset Consistency, GSC loss) 确保选定的基因子集与疾病先验知识一致。
  4. 在真实世界任务中验证性能: 在两个具有挑战性的生物信息学任务中(阿尔茨海默病 (AD) 分类和癌症分类),使用两个 AD 数据集(Mayo 和 Rosmap)和一个癌症数据集,对 PathFormer 进行了测试。
  5. 显著提高诊断准确率: 实验结果表明,PathFormer 在所有数据集上的预测准确率显著优于现有 AI 模型,AD 数据集上的平均准确率提高至少 38%,癌症数据集上提高 23%。在 AD 分类任务中,准确率从约 0.6 提高到约 0.8。
  6. 高重现性生物标志物检测: PathFormer 能够识别出疾病特异性的稳定基因集,并且在不同数据集之间具有高重现性。检测到的基因子集随着 KK 值(选择基因的数量)的增加而扩展,且对于相同疾病/表型的数据集,检测到的基因子集模式非常相似。
  7. 可解释性: 模型提供了一种内置的解释机制,通过注意力矩阵来揭示基因间的相互作用强度,并结合基因集富集分析 (Gene Set Enrichment Analysis, GSEA) 进一步验证了识别出的生物标志物的生物学意义。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 组学数据 (Omics Data)

概念定义: 组学数据是指生物学中大规模研究生物分子(如基因、RNA、蛋白质、代谢物等)的全面数据集合。这些数据通常通过高通量技术生成,用于研究生物系统的整体动态和相互作用。 在本文中的关注点: 本文主要关注转录组数据 (transcriptomic data),即通过 RNA 测序获得的基因表达谱数据。

3.1.2. 生物标志物 (Biomarker)

概念定义: 生物标志物是指可以客观测量和评估的生物学特征,用于指示正常的生物过程、病理过程或对治疗干预的药理学反应。它们可以是基因、蛋白质、代谢物等。 在本文中的关注点: 在疾病诊断和发病机制理解中,识别出与疾病强相关的基因或基因集合作为生物标志物至关重要。

3.1.3. 信号网络/信号通路 (Signaling Network/Pathway)

概念定义: 信号网络或信号通路描述了细胞内部或细胞之间如何通过一系列分子事件(如蛋白质相互作用、基因调控)来传递信息、响应刺激并执行特定功能。它们通常可以被建模为图结构,其中节点是分子(如基因、蛋白质),边代表它们之间的相互作用。 在本文中的关注点: 基因网络是信号网络的一种,作者强调其独特的图结构(大量节点、复杂相互作用)是现有 GNN 表现不佳的根源。

3.1.4. 图神经网络 (Graph Neural Networks, GNNs)

概念定义: 图神经网络是一类专门处理图结构数据的深度学习模型。它们通过聚合节点邻居的信息来更新节点的特征表示,从而学习图的结构和节点特征。 在本文中的关注点: GNNs 在图结构数据分析中表现出色,但在生物信息学应用中面临准确性和可解释性挑战。

3.1.5. Transformer 架构 (Transformer Architecture)

概念定义: Transformer 是一种深度学习模型架构,最初为自然语言处理任务设计,其核心是自注意力机制 (self-attention mechanism)。它能够捕捉输入序列中任意位置之间的依赖关系,并且可以并行处理输入,克服了循环神经网络 (RNN) 的顺序处理限制。 在本文中的关注点: 作者将 Transformer 架构引入 GNN 设计中,利用其自注意力机制来解决 GNN 在基因网络中的过压缩问题。

3.1.6. 位置编码 (Positional Encoding)

概念定义: 在 Transformer 模型中,由于自注意力机制本身不包含序列的顺序信息,位置编码被用来注入序列中元素的相对或绝对位置信息。 在本文中的关注点: PathFormer 使用基因的通用顺序作为位置编码,以提高模型的表达能力。

3.1.7. 自注意力机制 (Self-Attention Mechanism)

概念定义: 自注意力机制允许模型在处理序列中的某个元素时,能够“关注”到序列中所有其他元素,并根据它们的重要性分配不同的权重。它通过计算查询 (Query, QQ)、键 (Key, KK) 和值 (Value, VV) 矩阵来实现。 数学公式: Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V 符号解释:

  • QQ: 查询矩阵 (Query matrix),由输入特征与权重矩阵 WQW_Q 相乘得到,Q=XWQQ = XW_Q
  • KK: 键矩阵 (Key matrix),由输入特征与权重矩阵 WKW_K 相乘得到,K=XWKK = XW_K
  • VV: 值矩阵 (Value matrix),由输入特征与权重矩阵 WVW_V 相乘得到,V=XWVV = XW_V
  • XX: 输入特征矩阵。
  • dkd_k: 键向量的维度 (dimension of key vectors),用于缩放点积结果,防止在 dkd_k 较大时 softmax 函数的梯度过小。
  • softmax()\mathrm{softmax}(\cdot): 归一化指数函数,将注意力分数转换为权重分布。
  • Attention(Q,K,V)\mathrm{Attention}(Q, K, V): 输出的注意力加权值矩阵。

3.1.8. 过压缩问题 (Over-squashing Problem)

概念定义: 在图神经网络中,当图的直径较大或平均节点度很高时,节点接收域 (receptive field) 会随层数呈指数增长。这意味着每个节点需要聚合的信息量呈指数级增加,但这些信息被压缩到固定大小的向量中,导致信息瓶颈和丢失,即为过压缩问题。 在本文中的关注点: 作者认为生物信号网络中的高节点度导致了 GNN 的过压缩问题,并提出 PathFormer 的 Transformer 结构可以有效解决此问题。

3.1.9. 基因集富集分析 (Gene Set Enrichment Analysis, GSEA)

概念定义: GSEA 是一种计算方法,用于评估一个预先定义的基因集(例如,某个生物通路的基因)在一个排序的基因表达谱中是否富集,即这些基因是否倾向于在表达谱的顶部或底部出现。它可以帮助研究者理解基因表达变化的生物学意义。 在本文中的关注点: 用于对 PathFormer 识别出的生物标志物进行功能解释和验证。

3.2. 前人工作

  1. 传统生物标志物识别方法:
    • 倍数变化 (Fold Change) 和回归分析 (Regression Analysis): 广泛用于排名靶点,然后进行功能分析。
    • 局限性: 无法建模个体靶点/蛋白质之间的信号相互作用。
  2. 基于网络的生物信息学应用:
    • 信号网络(如信号通路、蛋白质-蛋白质相互作用 (PPIs))在药物协同预测、AD 检测、癌症分类等任务中得到应用。
    • 网络分析可以识别稳定的网络模块生物标志物或枢纽基因。
  3. 深度学习模型在基因表达分析中的应用:
    • 早期模型(如 Yang et al. [2014], Horvath and Dong [2008], Song and Zhang [2015])可以从基因表达中预测疾病表型,但未考虑基因间的相互作用。
  4. 图神经网络 (GNNs):
    • GNNs (Gilmer et al. [2017], Kipf and Welling [2016], Scarselli et al. [2008], Velickovic et al. [2018], Dong et al. [2022]) 是处理图结构数据的主流架构,在社交网络、分子、电路等领域表现出色。
    • GNNs 同时编码基因表达谱和遗传相互作用。
    • 局限性:
      • 预测准确性不足: 在 AD 分类任务中,现有 GNN 模型的分类准确率接近 0.6,仅略高于随机猜测。
      • 可解释性不足: 难以提供具有生物学意义的解释结果。虽然 SortPool (Zhang et al. [2018]) 和 GAT (Velickovic et al. [2018]) 等架构可以排名节点贡献,但这些技术不够鲁棒且缺乏疾病特异性。
      • 过压缩问题 (Over-squashing problem): 对于高平均节点度/中心性的图,GNN 会受到过压缩问题的影响 (Xu et al. [2018], Alon and Yahav [2020])。
      • 计算复杂性问题: 表达力更强的 GNN(如基于子图的 GNN 和高阶 GNN (Morris et al. [2019], Grohe [2021]))在处理大型基因网络时存在空间/时间复杂性问题。
      • 低通特性缺失: 基因网络不具备流行图数据集的“低通特性”,即高频和低频信息都重要,而许多 GNN 作为低通滤波器会滤除高频信息 (Hoang et al. [2021], Zhu et al. [2021], Pan et al. [2020])。
  5. 图池化模型 (Graph Pooling Models):
    • SortPool (Zhang et al. [2018])、SAGpool (Lee et al. [2019])、Diffpool (Ying et al. [2018]) 等,用于提取“核心子图”进行预测。
  6. 图 Transformer 模型 (Graph Transformer Models):
    • Graphormer (Ying et al. [2021])、graphTrans (Wu et al. [2021]) 等,旨在将 Transformer 架构应用于图数据,解决 GNN 的局限性。
  7. 基因网络分析中的专用深度学习模型:
    • MLA-GNN (Xing et al. [2022])、SANEpool (Dong et al. [2023b]) 等,用于药物协同预测等生物信息学任务。

3.3. 技术演进

从最早的统计学方法(如倍数变化、回归分析)到基于网络的分析,再到深度学习模型(如 MLP、RNN),以及专门处理图结构数据的图神经网络 (GNN)。GNN 在处理图数据方面取得了显著进展,但其在生物医学领域特别是基因网络分析中的局限性(准确性、可解释性、过压缩、计算效率)促使研究者探索更强大的模型,如将 Transformer 架构引入图数据领域。PathFormer 正是这一演进过程中的产物,它试图通过结合 Transformer 的自注意力机制和对生物学先验知识的整合来解决现有 GNN 的核心挑战。

3.4. 差异化分析

PathFormer 与现有工作的主要区别和创新点在于:

  1. 系统整合信号网络、先验知识和组学数据: PathFormer 不仅仅依赖于基因表达数据和网络结构,还通过 KD-Sortpool 层将外部生物学先验知识(如 DisGeNET 的 GDA 分数)整合到模型中,引导生物标志物识别过程,使其更具疾病特异性。
  2. 基于 Transformer 解决 GNN 固有问题: 针对基因网络中存在的“过压缩”和“缺乏低通特性”等问题,PathFormer 引入了 PathFormer 编码器层,该层基于 Transformer 的自注意力机制,能够有效捕捉长距离依赖,并避免信息压缩,从而显著提高预测准确性。
  3. Pathway-enhanced Attention Mechanism (PAM): 通过 SNPMF (Signaling Network Pathway Modeling Framework) 为每个基因生成路径向量,并将其与基因特征拼接,来增强注意力机制。这使得注意力权重在计算时能纳入通路信息,解决了标准注意力机制在图上无法编码连接信息的问题。
  4. 知识引导的疾病特异性排序池化 (KD-Sortpool): 传统的排序池化方法 (如 SortPool, SAGpool) 依赖于学习到的节点表示进行排序,可能导致跨数据集结果不稳定。KD-Sortpool 则利用可学习的、独立于基因表达的基因选择分布和基因-疾病关联的先验知识来选择基因,这使得选择过程更鲁棒、更具疾病特异性,并能提供高度可重现的生物标志物。
  5. 损失函数设计: 引入了基因子集一致性损失 (GSC loss),进一步强制模型选择的基因子集与疾病的先验生物学知识保持一致,增强了模型的解释性和生物学合理性。

4. 方法论

本文提出的 PathFormer 模型旨在解决现有图神经网络 (GNNs) 在组学数据分析中面临的预测准确性有限和生物标志物识别可重现性差的问题。其核心思想是系统地整合信号网络、先验知识和组学数据,并通过创新的图 Transformer 架构来处理基因网络的独特属性。

4.1. 方法原理

PathFormer 的核心思想在于通过以下三个主要组件来提升性能和可解释性:

  1. 知识引导的疾病特异性排序池化 (KD-Sortpool): 针对传统排序池化方法在生物标志物识别中缺乏鲁棒性和疾病特异性的问题,KD-Sortpool 层利用可学习的基因选择分布和外部生物学知识(如基因-疾病关联 GDA 分数)来选择最重要的基因子集。这种方法使得基因选择过程独立于个体基因表达,从而提高了跨数据集的重现性。
  2. PathFormer 编码器层: 借鉴 Transformer 的自注意力机制,PathFormer 编码器层旨在解决基因网络中 GNN 的“过压缩”问题和“缺乏低通特性”的挑战。它通过 Pathway-enhanced Attention Mechanism (PAM) 将基因的通路信息整合到注意力计算中,使得模型能够更有效地捕捉基因间的复杂相互作用,并保留高频信息。
  3. 损失函数: 除了标准的交叉熵损失 (Cross Entropy Loss),还引入了基因子集一致性损失 (Gene Subset Consistency, GSC loss),以强制选定的基因子集与疾病的先验生物学知识保持一致,进一步增强了模型的可解释性和生物学合理性。

4.2. 核心方法详解

4.2.1. PathFormer 模型概述

Figure 2-b 描绘了 PathFormer 模型的整体架构。模型首先通过一个知识引导的疾病特异性排序池化层 (KD-Sortpool layer) 根据特定疾病的先验知识选择出最重要的 KK 个基因作为基因子集,用于结果解释。然后,堆叠的 PathFormer encoder layers 迭代地更新每个基因的特征,通过聚合其邻居基因的特征。最后,PathFormer 使用一个多层感知机 (MLP) 汇总所有基因特征,生成输入基因网络的向量嵌入 (vector embedding),该嵌入用于预测疾病或特定表型。

4.2.2. 知识引导的疾病特异性排序池化 (Knowledge-guided Disease-specific Sortpool, KD-Sortpool)

传统的排序池化策略 (sort-and-pool strategy)(如 SortpoolSAGpool)根据学习到的节点表示来排序节点,这意味着不同节点特征和拓扑的图可能会选择完全不同的节点。然而,在组学数据分析中,生物标志物排序通常基于 AD 或癌症亚型与对照组等样本组。为了实现这一目标,KD-Sortpool 被设计出来。

基因信号网络具有一些独特属性:每个基因在一个信号网络中最多出现一次,并且任意一对基因的连接在不同信号网络中是共享的。 设 G={Gn=(Vn,En)n=1,2,...,N}\mathbb{G} = \{ \mathcal{G}_n = (\mathcal{V}_n, \mathcal{E}_n) | n = 1, 2, ..., N \} 表示所有患者(或样本)的信号网络组,其中 Vn\mathcal{V}_n 包含样本 nn 的基因,En\mathcal{E}_n 包含这些基因的报告连接。 然后,所有信号网络中可能出现的基因集合可以定义为 S=GnG{vvVn}\mathbb{S} = \bigcup_{\mathcal{G}_n \in \mathbb{G}} \{v | v \in \mathcal{V}_n\}

定义一个在整体基因集合 S\mathbb{S} 上的排序函数 hh,例如基因名称的字典序排序,它为 S\mathbb{S} 中的基因提供一个唯一的排序方式。 接着,定义一个大小为 S|\mathbb{S}| 的可学习向量 λ\lambda,用于表示基因选择的分布。在该向量 λ\lambda 中,每个元素 λp\lambda_p 为基因 pSp \in \mathbb{S} 分配一个可训练的重要性分数。 因此,对于每个样本/患者特异性信号网络 Gn=(Vn,En)G\mathcal{G}_n = (\mathcal{V}_n, \mathcal{E}_n) \in \mathbb{G},选择节点/基因 vv 的概率计算如下: ϵ(v)=λh(v)uSλh(u) \epsilon(v) = \frac{\lambda_{h(v)}}{\sum_{u \in \mathbb{S}} \lambda_{h(u)}} 其中,ϵ(v)\epsilon(v) 表示选择基因 vv 的概率,λh(v)\lambda_{h(v)} 是基因 vv 在可学习向量 λ\lambda 中对应的值,h(v) 是基因 vv 在全局基因集 S\mathbb{S} 中的唯一序。 这个函数表明基因选择过程独立于初始基因特征(即基因表达)。作者指出,基于组的基因表达分析在不同数据集中可能提供矛盾的结果(例如,AD 样本和对照样本之间平均基因表达的差异在 Mayo 和 Rosmap 数据集中可能方向相反,如 Appendix F 所示)。如果基因排序函数依赖于基因表达值,它可能会在不同数据集中检测到不同的重要基因模式,从而导致矛盾的结论。

为了在不使用基因表达的情况下,将疾病特异性信息纳入基因选择过程,KD-Sortpool 建议通过先验生物学知识来量化基因集合 S\mathbb{S} 中基因的基因-疾病关联 (gene-disease association)。 本研究使用开源数据库 DisGeNET (Piñero et al. [2021], Kanehisa and Goto [2000]) 来简化每个基因-疾病关联的定量估计。DisGeNET 提供了多种分数,如 GDA 分数 (Gene-Disease Association score) 和 VDA 分数 (Variant-Disease Association score)。 KD-Sortpool 将基因 vv 的 GDA 分数作为其基因-疾病关联的定量估计 e(v)

结合基因选择分布 ϵ(v)\epsilon(v) 和基因-疾病关联估计 e(v)KD-Sortpool 将确定性地排序输入基因网络 Gn=(Vn,En)\mathcal{G}_n = (\mathcal{V}_n, \mathcal{E}_n) 中所有基因的概率 {ϵ(v)vVn}\{ \epsilon(v) | v \in \mathcal{V}_n \},然后保留前 KK 个基因作为感兴趣的基因子集。 设 SnVn\mathcal{S}_n \subseteq \mathcal{V}_n 为选定的基因子集。由于基因是独立选择的,KD-Sortpool 忽略了多个基因与疾病的关联。 因此,选定基因子集 Sn\mathcal{S}_n 与疾病关联的期望可以估计为: A(Sn)=vSnϵ(v)e(v) A(\mathcal{S}_n) = \sum_{v \in \mathcal{S}_n} \epsilon(v) e(v) 其中 A(Sn)A(\mathcal{S}_n) 表示基因子集 Sn\mathcal{S}_n 与疾病的关联强度期望。

4.2.3. PathFormer 编码器层 (PathFormer Encoder Layer)

由于 KD-Sortpool 忽略了基因功能协同效应,后续的图卷积层(即 PathFormer 编码器层)旨在生成关注输入信号网络中不同基因的输出/预测。为了提高诊断准确性,PathFormer 编码器层采用了注意力机制,因为注意力机制有助于识别输入中最重要项,并在解决过压缩问题方面已被证明是有效的。

在 Transformer 模型中,注意力机制通过计算每个项的查询 (query)、键 (key) 和值 (value) 向量来为输入的不同项分配不同的权重。查询向量和键向量通过点积等相似性函数计算相似度分数,然后 softmax 函数将这些分数转换为注意力权重,用于计算对应值向量的加权和。 当注意力机制应用于信号网络等图时,节点(基因)的键和查询仅取决于其特征(表达谱)。因此,注意力机制分配给一对节点(基因)的权重总是相同的,无论这两个节点在图中如何连接。 然而,在生物信息学和系统生物学领域,基因是在生物通路中进行研究的,以解释它们与特定表型和疾病的关系。为此,作者在 PathFormer 编码器层中提出了一个通路增强注意力机制 (Pathway-enhanced Attention Mechanism, PAM),以将基因的通路信息纳入其连接强度的计算中。

枚举信号网络中每个基因对之间的所有通路是计算复杂且不切实际的。相比之下,PAM 引入了一个信号网络通路建模框架 (Signaling Network Pathway Modeling Framework, SNPMF),为信号网络中的每个基因提供一个向量,该向量可以内射地表示包含该基因的、上界大小的通路。

信号网络的一个有趣特性是,任意一对基因的连接/边在不同信号网络中是共享的。回想一下,G={Gn=(Vn,En)n=1,2,...,N}\mathbb{G} = \{ \mathcal{G}_n = (\mathcal{V}_n, \mathcal{E}_n) | n = 1, 2, ..., N \} 是所有可能的基因集合 S=GnG{vvVn}\mathbb{S} = \bigcup_{\mathcal{G}_n \in \mathbb{G}} \{v | v \in \mathcal{V}_n \} 的组。 因此,对于任意两个基因 u,vSu, v \in \mathbb{S},如果它们在一个信号网络中是连接的(即 i\exists i 使得 (u,v)Ei(u,v) \in \mathcal{E}_i),那么当它们出现在任何其他信号网络中时,它们也是连接的(即对于 j\forall j,如果 u,vVju,v \in \mathcal{V}_j,则 (u,v)Ej(u,v) \in \mathcal{E}_j)。这一属性表明,编码多个通路等同于编码这些通路中的基因,而与基因连接无关。 目标是找到一种编码基因的方法,该方法可以在信号网络之间共享。在整体基因集 S\mathbb{S} 上的排序函数 hh 提供了一个理想的解决方案,因为它为不同信号网络中的相同基因生成相同的特征。 基于以上分析,作者提出了 SNPMF。Figure 2-a-a1 描绘了该框架。SNPMF 为信号网络 Gn\mathcal{G}_n 中每个基因 vv 生成一个大小为 B×SB \times |\mathbb{S}| 的向量 p(v),其中 BB 是决定通路有界大小的超参数。p(v) 最初被初始化为零向量。然后,对于信号网络 Gn\mathcal{G}_n 中在包含基因 vv 的通路上且距离基因 vvd<Bd < B 的任何基因 uuSNPMF 将向量 p(u) 中索引为 (d1)×S+h(u)(d-1) \times |\mathbb{S}| + h(u) 的元素设置为 1。

接下来,介绍通路增强注意力机制 (PAM) 和相应的 PathFormer 编码器层。Figure 2-a-a2, a3 描绘了它们的架构。 与标准注意力机制相比,PAM 将由 SNPMF 生成的向量 p(v) 和基因特征进行拼接,然后利用 MLP 计算基因的键和查询。因此,PAM 中的注意力权重通过整合信号网络中的通路信息而得到增强。另一方面,一个线性投影层用于根据初始基因特征学习值(基因的)。 类似于标准 Transformer 编码器层,PathFormer 编码器层由一个 PAM 和一个后续的前馈网络 (FFN) 组成。FFN 包含一个标准 Dropout 层、FC (全连接) 层、激活层、Dropout 层、FC 层,并在第一个 FC 层之前和第二个 FC 层之后的 dropout 之后提供残差连接。

最后,给出 PathFormer 编码器层的整体数学公式。 在 KD-Sortpool 层之后,将从输入基因网络中提取基因子集 Sn\mathcal{S}_nKK 个基因。 设 Zl=[z1l,z2l,...,zKl]TRK×dl\mathbf{Z}^l = [z_1^l, z_2^l, ..., z_K^l]^T \in \mathbb{R}^{K \times d_l} 为第 llPathFormer 编码器层中基因的特征矩阵,其中 dld_l 是该层基因特征的维度。 设 Pl=[p(v1),p(v2),...,p(vK)]TRK×BS\mathbf{P}^l = [p(v_1), p(v_2), ..., p(v_K)]^T \in \mathbb{R}^{K \times B|\mathbb{S}|}SNPMF 为子集 Sn\mathcal{S}_n 中的基因生成的通路向量。 那么,PAM 中的键矩阵 KlK^l、查询矩阵 QlQ^l 和值矩阵 VlV^l 计算如下: Ql=MLPQl(concat(Zl,Pl))Kl=MLPKl(concat(Zl,Pl))Vl=MLPVl(Zl) \begin{align*} Q^l &= \mathrm{MLP}_Q^l(\mathrm{concat}(\mathbf{Z}^l, \mathbf{P}^l)) \\ K^l &= \mathrm{MLP}_K^l(\mathrm{concat}(\mathbf{Z}^l, \mathbf{P}^l)) \\ V^l &= \mathrm{MLP}_V^l(\mathbf{Z}^l) \end{align*} 其中,concat(,)\mathrm{concat}(\cdot, \cdot) 表示向量拼接操作,MLPQl,MLPKl,MLPVl\mathrm{MLP}_Q^l, \mathrm{MLP}_K^l, \mathrm{MLP}_V^l 是用于学习查询、键和值矩阵的多层感知机。 注意,值矩阵 VlV^l 仅由基因特征 Zl\mathbf{Z}^l 计算,而不包含通路信息 Pl\mathbf{P}^l

然后,注意力矩阵 AttlAtt^l 计算为键矩阵 KlK^l 和查询矩阵 QlQ^l 的点积的 softmax 结果。注意力矩阵 AttlAtt^l 中的注意力权重用于计算 VlV^l 中对应值的加权和,以捕获基于注意力权重指示的重要性从基因中提取相关信息。 Attl=Ql(Kl)TdlV^l=softmax(expAttl)Vl \begin{align*} Att^l &= \frac{Q^l (K^l)^T}{\sqrt{d_l}} \\ \hat{V}^l &= \mathrm{softmax}(\exp Att^l) V^l \end{align*} 其中 dld_l 是特征维度,用于缩放点积。

之后,当前 PathFormer 编码器层 ll 的输出通过前馈网络计算: Ol=FFN(V^l)O^l = \mathrm{FFN}(\hat{V}^l) 输出基因特征矩阵 OlO^l 将作为下一个 PathFormer 编码器层 l+1l+1 的输入,即 Zl+1=Ol\mathbf{Z}^{l+1} = O^l。 基因的输入特征是其表达值与 p(v) 的独热编码 (one-hot encoding) 的拼接,其中 p(v) 的独热编码充当标准 Transformer 模型中的位置编码 (positional encoding),根据基因在集合 S\mathbb{S} 中的顺序来识别其位置。

4.2.4. 读取机制 (Readout Mechanism)

最后一个 PathFormer 编码器层(即第 LL 层)输出矩阵 OLO^L(或 ZL+1\mathbf{Z}^{L+1}),其中包含由 KD-Sortpool 生成的基因子集 Sn\mathcal{S}_n 中基因的学习嵌入(即基因特征向量)。需要一个读取机制从 OLO^L 生成向量 zz 作为输入基因信号网络的表示。为了避免信息丢失,读取机制需要编码通用基因集 S\mathbb{S} 中基因的顺序,并包含基因子集 Sn\mathcal{S}_n 中的所有基因。 因此,使用以下方式: z=k=1KWh(vk)OkL z = \sum_{k=1}^K W_{h(v_k)} O_k^L 其中 Wh(vk)W_{h(v_k)} 是与基因 vkv_k 在集合 S\mathbb{S} 中的顺序 h(vk)h(v_k) 相关的可训练权重矩阵。 最后,zz 被送入一个 MLP 以获得最终预测 y^\hat{y},该预测可以通过 softmax 操作提供分类的估计概率向量。

4.2.5. 损失函数 (Loss Function)

PathFormer 使用两种损失函数的组合:交叉熵损失和基因子集一致性损失。

4.2.5.1. 交叉熵损失 (Cross Entropy, CE Loss)

本文研究阿尔茨海默病 (AD) 分类和癌症亚型分类,因此分类损失采用交叉熵损失: Lce=1Nn=1Nc=1Cyn,clogy^n,c L_{ce} = \frac{1}{N} \sum_{n=1}^N \sum_{c=1}^C - y_{n,c} \log \hat{y}_{n,c} 符号解释:

  • NN: 样本/患者的数量。
  • CC: 问题中的类别数量。
  • yn,cy_{n,c}: 患者/样本 nn 的真实标签 (ground truth label);如果样本属于类别 cc,则 yn,c=1y_{n,c} = 1,否则为 0。
  • y^n,c\hat{y}_{n,c}: 患者/样本 nn 经 softmax 操作后估计的概率向量 softmax(y^)\mathrm{softmax}(\hat{y}) 的第 cc 个分量。

4.2.5.2. 基因子集一致性损失 (Gene Subset Consistency, GSC loss)

KD-Sortpool 引入了一种方法来估计基因子集 Sn\mathcal{S}_n 与特定疾病之间的关联强度 A(Sn)A(\mathcal{S}_n),该方法基于可训练分布 ϵ(v)\epsilon(v) 和基因-疾病关联值 e(v)。为了强制基因选择过程具有疾病特异性并与感兴趣疾病相关的先验生物学知识一致,提出了基于 A(Sn)A(\mathcal{S}_n) 形式的基因子集一致性 (GSC) 损失。 由于 e(v) 取基因的 GDA 分数,范围从 0 到 1,A(Sn)A(\mathcal{S}_n) 的上限为 vSnϵ(v)1=vSnϵ(v)\sum_{v \in \mathcal{S}_n} \epsilon(v) \cdot 1 = \sum_{v \in \mathcal{S}_n} \epsilon(v)。 GSC 损失采用以下形式: Lgsc=1Nn=1NvSnϵ(v)(1e(v)) L_{gsc} = \frac{1}{N} \sum_{n=1}^N \sum_{v \in \mathcal{S}_n} \epsilon(v) (1 - e(v)) 符号解释:

  • NN: 样本/患者的数量。
  • Sn\mathcal{S}_n: 样本 nn 选定的基因子集。
  • ϵ(v)\epsilon(v): 基因 vv 被选中的概率。
  • e(v): 基因 vv 的基因-疾病关联 (GDA) 分数。 一个较小的 GSC 损失表明所选基因子集 Sn\mathcal{S}_n 与目标疾病之间存在更强的关联。

4.2.5.3. 总体损失函数

最后,总体损失函数形式如下: Loss=Lce+σLgscLoss = L_{ce} + \sigma L_{gsc} 符号解释:

  • LceL_{ce}: 交叉熵损失。
  • LgscL_{gsc}: 基因子集一致性损失。
  • σ\sigma: 一个可调的超参数,用于平衡两种损失的重要性。 目标是最小化总损失。当样本来自具有显著不同先验生物学知识的疾病时,LgscL_{gsc} 作为正则化项,如果 KD-Sortpool 为这些完全不同的疾病选择非常相似的基因子集,则会对其进行惩罚。

4.2.6. PathFormer 的解释性 (Interpretation from PathFormer)

4.2.6.1. 靶点识别和靶点-靶点协同效应估计

在最后一个图层中剩余的基因是已识别的靶点。剩余基因的数量(例如 50 或 100 个靶点)是由用户设置的模型参数。 与自注意力机制类似,PathFormer 编码器层中的通路增强注意力机制 (PAM) 提供了一种即时方法来解释基因协同效应。通过注意力矩阵 {Attl,nl=1,2,...,L;n=1,2,...,N}\{Att^{l,n} | l = 1, 2, ..., L; n = 1, 2, ..., N \} 可以计算任何基因对 (i, j) 之间基于人群的连接强度,如下所示: αi,j=1NLn=1Nl=1LAttl,n \alpha_{i,j} = \frac{1}{NL} \sum_{n=1}^N \sum_{l=1}^L Att^{l,n} 符号解释:

  • αi,j\alpha_{i,j}: 基因 ii 和基因 jj 之间的平均连接强度。
  • NN: 患者/样本的数量。
  • LL: PathFormer 编码器层的数量。
  • Attl,nAtt^{l,n}: 样本 nn 在第 llPathFormer 编码器层中的注意力矩阵。 这种方法使得模型能够提供基因之间相互作用的定量解释,有助于理解疾病机制。

4.3. 理论结果

本节提供了图机器学习问题的数学公式,阐明了设计 GNN 架构以解决过压缩问题和低通特性缺失的理论解决方案。

符号:G={Gn=(Vn,En)n=1,2,...,N}\mathbb{G} = \{ \mathcal{G}_n = (\mathcal{V}_n, \mathcal{E}_n) | n = 1, 2, ..., N \} 是一组图,其中 Vn\mathcal{V}_nEn\mathcal{E}_n 包含图 Gn\mathcal{G}_n 中的节点和边信息。对于图 Gn\mathcal{G}_n,每个节点/基因 iVni \in \mathcal{V}_n 具有一个 dd 维特征 xix_i,而图 Gn\mathcal{G}_n 具有一个标签 yny_n 待预测。 使用 AA 表示邻接矩阵, DD 表示对角矩阵,使得 Dii=jAi,jD_{ii} = \sum_j A_{i,j}。 然后设置 D~=D+I\tilde{D} = D + I(作者在文中写为 D~=Dˉ+Iˉ\tilde{D} = \bar{D} + \bar{I},但从上下文来看应为 D+ID+I)。

定义 4.1(优化公式):X^\hat{X} 是 GNN 模型/层 ff 的输出,使得 X^=f(X,A)\hat{X} = f(X, A),其中 XRn×dX \in \mathbb{R}^{n \times d} 是输入特征矩阵。 设 N(i)={jVn(i,j)En}\mathcal{N}(i) = \{j \in \mathcal{V}_n | (i,j) \in \mathcal{E}_n\} 是节点/基因 ii 的邻居集合。 那么,无约束优化问题表述如下: minX^iVX^iXiD~+ijN(i)X^iX^j22 \min_{\hat{X}} \sum_{i \in V} ||\hat{X}_i - X_i||_{\tilde{D}} + \sum_i \sum_{j \in \mathcal{N}(i)} ||\hat{X}_i - \hat{X}_j||_2^2 符号解释:

  • X^\hat{X}: GNN 模型输出的节点特征矩阵。
  • XX: 输入节点特征矩阵。
  • D~\tilde{D}: 对角矩阵 DD 加上单位矩阵 II
  • D~||\cdot||_{\tilde{D}}: D~\tilde{D}-范数,定义为 xD~=(x,x)D~1/2||x||_{\tilde{D}} = (x, x)_{\tilde{D}}^{1/2}
  • 22||\cdot||_2^2: 欧几里得范数的平方。 这个优化公式约束了 GNN 的输出不应偏离输入太远(第一项),而第二项表明该公式本质上是一种对整个图的拉普拉斯平滑 (Laplacian smoothing),其中 pi,jp_{i,j} 表征了节点/基因对 (i,j) 之间的相似性。

定理 4.2: 优化公式的最优解 X^\hat{X}^* 解决了低通特性缺失的挑战。 设 MM 表示掩码矩阵,使得如果 jN(i)j \in \mathcal{N}(i)Mi,j=1M_{i,j} = 1,否则 Mi,j=0M_{i,j} = 0。 那么 MPXX^\hat{X}^* 的一阶近似。

作者在附录 D 中证明了定理 4.2。这个定理提供了设计 GNN 的见解,该 GNN 生成最优解的一阶近似,关键问题是如何生成可训练的参数矩阵 PP。直接的解决方案是使用全局(自)注意力机制,使得 Pi,j=g(Xi,Xj)jg(Xi,Xj)P_{i,j} = \frac{g(X_i, X_j)}{\sum_j g(X_i, X_j)},同时解决过压缩问题。因此,定理 1 可以用于设计解决过压缩问题和缺乏低通特性挑战的 GNN 层。在 PathFormer 编码器层中,MP 通过函数 (3), (4), (5), (6), (7) 进行估计,从而显著提高了预测结果。

5. 实验设置

5.1. 数据集

实验使用了两个独立的阿尔茨海默病 (AD) 数据集和一个癌症转录组数据集。

5.1.1. 阿尔茨海默病数据集 (Alzheimer's Disease, AD) - Mayo 和 Rosmap

来源与特点:

  • Mayo 数据集: 包含对照组织样本和 AD 病理老化样本 (AD pathological aging samples)。
  • Rosmap 数据集: 包含对照样本和 AD 背外侧前额叶皮层样本 (AD dorsolateral prefrontal cortex samples)。
  • 目标: 区分阿尔茨海默病 (AD) 样本与正常老年对照 (normal elderly controls)。
  • 基因特征处理: 基因特征首先使用 STAR (v.2.7.1a) 映射到参考基因组,然后使用 Salmon 定量工具从基于比对的 RNA-seq 数据中获得 16,132 个共同蛋白编码基因的转录组 (TPM) 值。
  • 规模:
    • Mayo 数据集:158 个图,每个图包含 3000 个基因。
    • Rosmap 数据集:357 个图,每个图包含 3000 个基因。
  • 边构建: 基因之间的边从 KEGG (Kyoto Encyclopedia of Genes and Genomes) 数据库中收集,基于已记录的医学实验中的物理信号相互作用。根据生物一般交互数据集存储库 (BioGRID),任何两个相互关联的基因都是无向的。

5.1.2. 癌症数据集 (Cancer)

来源与特点:

  • 目标: 根据基因网络结构和基因特征预测癌症样本的类型,以理解癌症亚型之间的生物学机制差异。
  • 基因特征和标签: 从 Xena 服务器 (https://xenabrowser.net/) 提取。
  • 边构建: 基因之间的边也从 KEGG 数据库收集。
  • 样本: 患者样本从长寿数据集 (longevity dataset) 收集。
  • 规模与类型: 包含 18 种不同典型癌症类型,包括子宫癌肉瘤 (uterine carcinosarcoma)、甲状腺癌 (thyroid carcinoma)、急性髓性白血病 (acute myeloid leukemia)、皮肤黑色素瘤 (skin cutaneous melanoma)、胸腺瘤 (thymoma)、睾丸生殖细胞瘤 (testicular germ cell tumor)、胃腺癌 (stomach adenocarcinoma)、肉瘤 (sarcoma)、直肠腺癌 (rectum adenocarcinoma)、前列腺腺癌 (prostate adenocarcinoma)、胰腺腺癌 (pancreatic adenocarcinoma)、卵巢浆液性囊腺癌 (ovarian serous cystadenocarcinoma)、肺腺癌 (lung adenocarcinoma)、肝细胞癌 (liver hepatocellular carcinoma)、间皮瘤 (mesothelioma)、肾透明细胞癌 (kidney clear cell carcinoma)、头颈部鳞状细胞癌 (head & neck squamous cell carcinoma)、子宫内膜样腺癌 (uterine corpus endometrioid carcinoma)。

5.2. 评估指标

本文使用了两种评估指标来衡量模型的性能:分类准确率 (Accuracy) 和 F1 分数 (F1 Score)。

5.2.1. 分类准确率 (Accuracy)

概念定义: 分类准确率是指分类器正确预测的样本数量占总样本数量的比例。它衡量了模型在所有类别上正确预测的总体能力。 数学公式: Accuracy=TP+TNTP+TN+FP+FN \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} 符号解释:

  • TP (True Positives):真阳性,模型正确预测为正类的样本数。
  • TN (True Negatives):真阴性,模型正确预测为负类的样本数。
  • FP (False Positives):假阳性,模型错误预测为正类的样本数(实际为负类)。
  • FN (False Negatives):假阴性,模型错误预测为负类的样本数(实际为正类)。

5.2.2. F1 分数 (F1 Score)

概念定义: F1 分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值。它是一个综合性的指标,特别适用于类别不平衡的数据集,因为它同时考虑了假阳性和假阴性,避免了只关注某一方面的偏颇。 数学公式: F1 Score=2×Precision×RecallPrecision+Recall \text{F1 Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} 其中,精确率 (Precision) 和召回率 (Recall) 定义如下: Precision=TPTP+FP \text{Precision} = \frac{TP}{TP + FP} Recall=TPTP+FN \text{Recall} = \frac{TP}{TP + FN} 符号解释:

  • TP (True Positives):真阳性,模型正确预测为正类的样本数。
  • FP (False Positives):假阳性,模型错误预测为正类的样本数(实际为负类)。
  • FN (False Negatives):假阴性,模型错误预测为负类的样本数(实际为正类)。

5.3. 对比基线

为了评估 PathFormer 模型的有效性,作者将其与四种类型的现有最先进 (state-of-the-art) 深度学习 (DL) 模型和流行 DL 模型进行了比较,用于基因表达分析:

  1. 流行 GNNs (Popular GNNs): 在各种排行榜上表现突出的 GNN 模型。
    • GIN (Xu et al. [2019]):Graph Isomorphism Network,一种强大的 GNN,理论上可以区分不同的图结构。
    • GAT (Velickovic et al. [2018]):Graph Attention Network,引入了注意力机制来聚合邻居信息。
    • GCN (Kipf and Welling [2016]):Graph Convolutional Network,一种半监督学习的 GNN。
  2. 主导图池化模型 (Dominant Graph Pooling Models): 能够提取“核心子图”进行预测的模型。
    • Sortpool (Zhang et al. [2018]):通过学习到的节点表示进行排序并选择顶部节点。
    • SAGpool (Lee et al. [2019]):Self-Attention Graph Pooling,利用自注意力机制进行图池化。
    • Diffpool (Ying et al. [2018]):Differentiable Pooling,一种可微分的层次图池化方法。
  3. 最先进图 Transformers (State-of-the-art Graph Transformers):
    • Graphormer (Ying et al. [2021]):一种强大的图 Transformer,通常结合了位置编码和结构编码。
    • graphTrans (Wu et al. [2021]):另一种图 Transformer 模型,旨在捕获长距离依赖。
  4. 用于其他生物信息学任务的现有强大 DL 模型 (Powerful DL Models for other Bioinformatical Tasks): 用于分析基因网络的其他生物信息学任务(如药物协同预测)的模型。
    • MLA-GNN (Xing et al. [2022]):Multi-Level Attention Graph Neural Network,一种多层注意力 GNN。
    • SANEpool (Dong et al. [2023b]):一种基于自适应噪声估计的图池化方法。

5.4. 实验环境与超参数设置

  • 硬件: 使用 NVIDIA Tesla GTX 1080Ti GPU 进行训练/测试。
  • 软件: Python 环境,模型架构基于 Pytorch 和 Pytorch Geometric 库构建。
  • 评估方法: 采用 5 折交叉验证 (5-fold cross validation) 来评估每个模型的预测性能,并报告平均预测准确率及其标准差。
  • PathFormer 模型具体设置:
    • 一个 KD-Sortpool 层和两个后续的 PathFormer 编码器层。
    • KD-Sortpool 层中的 KK (选择基因的数量) 在 {100,500,1000} \{100, 500, 1000\} 中进行测试。
    • 每个 PathFormer 编码器层中基因特征的维度 dld_l 设置为 32。
    • 计算查询矩阵和键矩阵的 GNNs 采用两个 GIN (Xu et al. [2019]) 图卷积层,其中隐藏层和输出层的特征维度都设置为 32。
    • PathFormer 中其他 MLP 采用 2 层,隐藏层特征维度设置为 64。
  • 优化器: 使用 Adam 优化器,初始学习率为 0.001。
  • 学习率调度: 学习率每 30 个 epoch 衰减一半。
  • 早停: 当验证指标在 5 个 epoch 的耐心期内没有进一步改善时,训练过程停止。
  • 基线模型具体设置:
    • GNN 基线: 所有图卷积层特征维度为 128;图卷积层数量从 {2,3,4} \{2, 3, 4\} 中选择;图级读取函数从 {mean, sum, average} \{\text{mean, sum, average}\} 中选择。
    • 图池化模型: SAGpoolDiffpool 采用两个池化层,第一层保留 500 个基因,第二层保留 100 个基因。SortPool 包含一个池化层,根据学习到的嵌入排序基因,然后保留前 100 个基因嵌入作为 CNN 模型的输入。其他参数设置遵循其原始论文。
    • 图 Transformer: 编码器层数量为 3;dkd_k 维度设置为 16;头 (head) 的数量设置为 4。Graphormer 不执行预训练(由于生物信息学数据集的特性)。graphTrans 使用 2 层 GIN 提取节点嵌入。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 高精度预测能力

表 1 报告了 PathFormer 模型与所有基线 DL 模型在 Mayo、RosMap 和 Cancer 三个数据集上的预测结果,使用分类准确率 (Accuracy) 和 F1 分数 (F1 Score) 进行评估。 以下是原文 Table 1 的结果:

MethodsMayoRosMapCancer
Accuracy ↑F1 score ↑Accuracy ↑F1 score ↑Accuracy ↑F1 score ↑
GIN0.496 ± 0.0420.484 ± 0.0360.471 ± 0.0390.482 ± 0.0410.537 ± 0.0450.512 ± 0.047
GCN0.561 ± 0.0490.535 ± 0.0210.520 ± 0.0360.571 ± 0.0320.593 ± 0.0390.561 ± 0.042
GAT0.515 ± 0.0340.547 ± 0.0270.491 ± 0.0370.508 ± 0.0420.461 ± 0.0390.532 ± 0.031
Sortpool0.521 ± 0.0340.501 ± 0.0210.522 ± 0.0370.508 ± 0.0420.661 ± 0.0320.642 ± 0.037
SAGpool0.506 ± 0.0470.491 ± 0.0400.491 ± 0.0460.488 ± 0.0360.522 ± 0.0400.507 ± 0.037
Diffpool0.529 ± 0.0310.522 ± 0.0210.517 ± 0.0380.492 ± 0.0260.578 ± 0.0480.601 ± 0.051
Graphformer0.594 ± 0.0410.601 ± 0.0380.602 ± 0.0500.613 ± 0.0460.739 ± 0.0440.722 ± 0.058
graphTrans0.513 ± 0.0270.526 ± 0.0330.553 ± 0.0410.527 ± 0.0370.689 ± 0.0410.656 ± 0.059
SANEpool0.517 ± 0.0330.504 ± 0.0310.509 ± 0.0300.481 ± 0.0430.516 ± 0.0490.532 ± 0.056
MAL-GNN0.551 ± 0.0370.579 ± 0.0460.560 ± 0.0350.584 ± 0.0410.620 ± 0.0290.691 ± 0.033
PathFormer0.835± 0.0360.825 ± 0.0220.791± 0.0250.893± 0.0190.834± 0.0110.892± 0.032

分析:

  • 显著提升: PathFormer 在所有数据集上均显著优于所有基线模型。在 Mayo 数据集上,准确率从 Graphformer 的 0.594 提升到 0.835;在 RosMap 数据集上,从 Graphformer 的 0.602 提升到 0.791;在 Cancer 数据集上,从 Graphformer 的 0.739 提升到 0.834。

  • AD 分类大幅改进: 在 AD 分类任务(Mayo 和 RosMap 数据集)中,现有 DL 模型仅能达到略好于随机猜测的预测准确率(约 0.5-0.6)。PathFormer 将 AD 分类的准确率提高到 0.8 左右,这是一个更适合实际应用的水平。平均预测准确率在 AD 数据集上至少提高了 38%,在癌症数据集上提高了 23%。

  • Transformer 基线表现: GraphformergraphTrans 作为图 Transformer 模型,在部分数据集上表现优于传统 GNN 和图池化模型,但仍远低于 PathFormer。这表明 PathFormer 对 Transformer 架构的改进(例如通路增强注意力机制和知识引导的池化)是至关重要的。

  • F1 分数一致性: F1 分数的结果与准确率结果保持一致,进一步证实了 PathFormer 的优越性能。

  • KD-Sortpool 的作用: 在此实验中,PathFormer 中的 KD-Sortpool 层保留了所有基因。这表明即使不进行基因子集选择,PathFormer 架构本身(尤其是其编码器层)也带来了显著的性能提升。

    下图(原文 Figure 3-c)比较了 PathFormer 和表现最好的现有 DL 模型:

    该图像是多个图表的组合,展示了不同基因网络和流行图数据集的平均节点度和图大小的比较,以及PathFormer模型在疾病诊断中的预测准确率和F1分数的提升。结果显示,PathFormer显著提高了准确性,尤其是在阿尔茨海默病和癌症任务上。 该图像是多个图表的组合,展示了不同基因网络和流行图数据集的平均节点度和图大小的比较,以及PathFormer模型在疾病诊断中的预测准确率和F1分数的提升。结果显示,PathFormer显著提高了准确性,尤其是在阿尔茨海默病和癌症任务上。 分析: Figure 3-c 直观地展示了 PathFormer 相对于最佳基线模型在 Mayo、RosMap 和 Cancer 数据集上的性能提升。无论是准确率还是 F1 分数,PathFormer 都明显优于其他模型,这印证了表格数据中的结论。

6.1.2. 高重现性生物标志物检测

为了评估生物标志物检测在不同数据集间的可重现性,作者在 KD-Sortpool 中测试了三个不同的超参数 KK(即选择基因的数量):K=100K=100, K=500K=500, K=1000K=1000

下图(原文 Figure 4-a)可视化了两个 AD 数据集(Mayo 和 RosMap)和一个癌症数据集检测到的基因子集:

该图像是一个示意图,展示了PathFormer模型在不同任务(如AD和癌症)中检测核心基因的能力。左侧部分显示在不同K值下(K=100, K=500, K=1000)检测的核心基因数量的比较,右侧图表提供了相应数据集的预测准确率统计,强调了PathFormer模型的任务特异性和高准确性。通过公式上表示,检测的核心基因数与模型性能显著相关:`K o G`。
分析:

  • 基因子集扩展性: 检测到的基因子集随着 KK 值的增加而扩展。这意味着,如果一个基因在 K=100K=100 时属于基因子集,那么在 K=500K=500K=1000K=1000 时,该基因也会出现在检测到的基因子集中。这种属性是可取的,因为它避免了在使用不同 KK 值时产生矛盾的结果。

  • 疾病特异性模式: Figure 4-a 显示,无论使用哪个 KK 值,来自 AD 数据集(Mayo 和 RosMap)的检测基因子集模式非常相似,但与来自癌症数据集的检测基因子集模式不同。这表明 PathFormer 能够识别出疾病特异性的基因模式。

  • 定量重现性: Figure 4-c 进一步量化了这一观察结果,通过计算相同/不同疾病检测基因子集的重叠大小。结果显示,当检测到的基因子集与相同疾病/表型相关时,重叠大小显著更大,这定量地证明了 PathFormer 在生物标志物检测方面的高重现性。

    下图(原文 Figure 4-b)展示了 PathFormer 模型在 AD 分类数据集上不同 KK 值下的 F1 分数和分类准确率:

    该图像是一个示意图,展示了PathFormer模型在不同任务(如AD和癌症)中检测核心基因的能力。左侧部分显示在不同K值下(K=100, K=500, K=1000)检测的核心基因数量的比较,右侧图表提供了相应数据集的预测准确率统计,强调了PathFormer模型的任务特异性和高准确性。通过公式上表示,检测的核心基因数与模型性能显著相关:`K o G`。 分析:

  • K 值对性能的影响: 尽管在 Rosmap 数据集上,KK 从 100 增加到 500 时分类准确率有所下降,但在其他情况下,预测结果的改善是显而易见的。这表明保留更多基因(即更大的 KK 值)有助于减少信息损失,从而通常能提高预测性能。

6.2. 讨论:信号网络特性对 GNN 的影响

6.2.1. 基因网络与流行图数据集的对比

下图(原文 Figure 3-a)比较了基因网络和其他图的图属性:

该图像是多个图表的组合,展示了不同基因网络和流行图数据集的平均节点度和图大小的比较,以及PathFormer模型在疾病诊断中的预测准确率和F1分数的提升。结果显示,PathFormer显著提高了准确性,尤其是在阿尔茨海默病和癌症任务上。
分析:

  • 节点度 (Node Degree) 和图大小 (Graph Size):
    • Figure 3-a 表明,基因网络(Mayo, Rosmap, Cancer)与流行的基准图数据集(NANA, BN, molhiv, ZINC, D&D, MUTAG)相比,通常具有显著更大的平均节点度(基因网络通常大于 25,流行图数据集通常小于 10)和更大的图大小(基因网络通常包含超过 3000 个基因,而流行基准通常是小规模图)。
  • 由此带来的两个严重后果:
    1. 过压缩问题 (Over-squashing Problem): 极大的节点度会导致 GNN 出现过压缩问题。节点的感受野 (receptive field) 会随着 GNN 层数的增加而呈指数级增长,这意味着需要聚合的信息量指数级增加,但这些信息被压缩到固定大小的向量中,导致信息瓶颈。
    2. 空间/时间复杂性问题: 现有表达力更强的 GNN(如基于子图的 GNN 和高阶 GNN)的复杂度至少为 O(n2)O(n^2)(其中 nn 是图大小)。因此,这些先进模型在应用于基因网络等大规模图时,会面临空间/时间复杂性问题。

6.2.2. 低通特性缺失 (Absence of Low-path Nature)

下图(原文 Figure 3-b)展示了基因网络缺乏低通特性的现象:

该图像是多个图表的组合,展示了不同基因网络和流行图数据集的平均节点度和图大小的比较,以及PathFormer模型在疾病诊断中的预测准确率和F1分数的提升。结果显示,PathFormer显著提高了准确性,尤其是在阿尔茨海默病和癌症任务上。
分析:

  • 低通特性定义: 在图机器学习中,节点特征通常被视为节点上的信号。许多先前的研究观察到,流行图数据集中的节点特征包含低频的真实特征和高频的噪声。这种特性被称为低通特性。

  • 流行 GNN 的作用: 流行 GNN 的强大之处在于其能够过滤掉节点特征中的高频分量,本质上充当图上的低通滤波器。

  • 基因网络的情况: Figure 3-b 的左侧橙色曲线表明,基因网络不具备低通特性。这意味着无论是低频分量还是高频分量都同样重要。

  • 对 GNN 的影响: 因此,那些旨在过滤掉节点特征中高频分量的流行 GNN 不适合基因网络,因为它们会因信息丢失而降低性能。

    PathFormer 通过其创新架构(尤其是基于 Transformer 的自注意力机制和通路增强注意力机制)有效地解决了这些挑战,从而显著提高了预测结果。

6.3. 解释性结果

6.3.1. 基因集富集分析 (Gene Set Enrichment Analysis)

作者对 AD 检测到的基因子集进行了 GO (Gene Ontology) 和 KEGG (Kyoto Encyclopedia of Genes and Genomes) 富集分析。

下图(原文 Figure 5-c)显示了 KEGG 通路的富集分析结果,前 20 个显著通路(p 值最小)被呈现:

该图像是多个图表的组合,包括核心基因的检测、基因之间的相关性/注意力分析及GO术语分析。核心基因检测图显示了100个核心基因及其相互关系,相关性热图展现了选定基因之间的注意力强度,而GO术语分析则总结了100个检测基因在生物过程和细胞组分中的功能。
分析:

  • 最显著通路: 检测到的最显著生物通路是“(阿尔茨海默病)智人 hsa 05010 (Alzheimer's disease homo sapiens hsa 05010)”,它属于神经退行性疾病通路,并与阿尔茨海默病直接相关。这强烈支持了 PathFormer 识别出的基因子集的生物学相关性。

    下图(原文 Figure 5-d)显示了 GO 富集分析结果,仅报告 p 值小于 0.05 的 GO 术语:

    该图像是多个图表的组合,包括核心基因的检测、基因之间的相关性/注意力分析及GO术语分析。核心基因检测图显示了100个核心基因及其相互关系,相关性热图展现了选定基因之间的注意力强度,而GO术语分析则总结了100个检测基因在生物过程和细胞组分中的功能。 分析:

  • 生物过程 (Biological Process, BP) 结果: 许多报告的生物过程与 AD 相关,包括 淀粉样-β 形成负调控 (negative regulation of amyloid-beta formation)衰老 (aging)星形胶质细胞活化 (astrocyte activation)神经元死亡正调控 (positive regulation of neuron death)细胞对淀粉样-β 的响应 (cellular response to amyloid-beta)细胞对铜离子的响应 (cellular response to copper ion)学习或记忆 (learning or memory)。这些过程都与 AD 的已知病理生理机制高度吻合。

  • 细胞组分 (Cellular Component, CC) 结果: 许多报告的细胞组分已被证明与 AD 相关,包括 细胞外囊泡 (extracellular exosome)神经原纤维缠结 (neurofibrillary tangle)突触 (synapse)膜筏 (membrane raft)回收内体 (recycling endosome)树突 (dendrite)。其中,神经原纤维缠结 与检测到的基因子集中约 0.6% 的基因相关,这是一种 AD 的标志性病理特征。

  • 分子功能 (Molecular Function, MF) 结果: 在报告的分子功能中,淀粉样-β 结合 (amyloid-beta binding)tau 蛋白结合 (tau-protein binding) 都与 AD 相关,并覆盖了检测基因集中超过 0.1% 的基因。淀粉样-β 和 tau 蛋白的异常聚集是 AD 的两大核心病理特征。

6.3.2. 揭示基因间的关系/注意力强度

PathFormer 编码器层中的注意力机制提供了一种内置方法,通过公式 (14) 解释检测到的基因子集中基因间的关系/注意力强度。

下图(原文 Figure 5-b)可视化了每个基因对的归一化注意力强度矩阵:

该图像是多个图表的组合,包括核心基因的检测、基因之间的相关性/注意力分析及GO术语分析。核心基因检测图显示了100个核心基因及其相互关系,相关性热图展现了选定基因之间的注意力强度,而GO术语分析则总结了100个检测基因在生物过程和细胞组分中的功能。
分析:

  • 高注意力基因: 在热图 (heatmap) 中,一些目标基因从源基因接收到更多的注意力。例如,CLU, TPP1, PSEN1, PICALM, APP 等基因。这些基因通常具有相对较高的 GDA 分数(量化基因与 AD 的关联),例如 GDA(APP)=0.9GDA(APP) = 0.9, GDA(PSEN1)=0.7GDA(PSEN1) = 0.7, GDA(CLU)=0.5GDA(CLU) = 0.5, GDA(TPP1)=0.3GDA(TPP1) = 0.3
  • 协同作用: 这表明这些基因在预测过程中与其他基因具有强烈的相互作用趋势。这种可视化结果有助于研究者识别疾病的核心基因及其相互作用网络。

6.4. 不同数据集 AD 和对照组基因表达的比较

下图(原文 Figure 6)展示了 Mayo 和 Rosmap 数据集中每个基因的 t 统计量比较:

Figure 6: Comparison of t statistics of each gene in dataset MAYO and ROSMAP.
分析:

  • 不一致的基因表达模式: 图中显示,Mayo 和 Rosmap 数据集的 t 值模式存在差异。对于许多基因,在 Mayo 数据集中 t 值显著大于 0 时,在 Rosmap 数据集中 t 值显著小于 0,反之亦然。
  • KD-Sortpool 设计的必要性: 这一观察结果解释了为什么 KD-Sortpool 的基因选择过程独立于基因表达值。如果使用依赖于基因表达的疾病特异性分组排名函数来选择重要基因,它将会在 Mayo 和 Rosmap 数据集中检测到不同的基因模式,这可能导致矛盾的结论,因为这两个数据集都用于研究阿尔茨海默病。KD-Sortpool 通过利用可学习的基因选择分布和基因-疾病关联的先验知识来避免这种不一致性,从而提高了生物标志物识别的重现性。

7. 总结与思考

7.1. 结论总结

本文提出了一种可解释的图 Transformer 模型 PathFormer,用于高精度疾病诊断和高重现性生物标志物识别。PathFormer 通过以下创新点显著超越了现有的强大基线模型:

  1. 整合信号网络、先验知识和组学数据: 模型系统地利用了多源信息。
  2. PathFormer 编码器层: 采用 Transformer 架构的自注意力机制,并结合通路增强注意力机制 (PAM),有效解决了 GNN 在基因网络中的过压缩问题和缺乏低通特性,极大地提高了预测准确性。
  3. 知识引导的疾病特异性排序池化 (KD-Sortpool): 引入外部生物学先验知识(如 GDA 分数)和基因子集一致性损失,确保了识别出的生物标志物的疾病特异性和跨数据集的高重现性。 实验结果证实,PathFormer 在阿尔茨海默病和癌症分类任务中的预测准确率远超现有最先进的 GNN 模型和图 Transformer 模型,在 AD 分类上实现了从约 0.6 到约 0.8 的显著提升。同时,模型能够识别出稳定且具有生物学意义的疾病特异性基因子集,并通过基因集富集分析和基因间注意力强度可视化进一步验证了其可解释性。

7.2. 局限性与未来工作

论文中未明确指出模型的局限性和未来工作方向,但基于其内容可以进行以下推断和思考:

潜在局限性:

  1. 超参数敏感性: 模型中的一些超参数,如 KD-Sortpool 中选择基因的数量 KKPathFormer 编码器层的数量 LL、特征维度 dld_l 以及损失函数中的 σ\sigma 等,可能对模型性能有较大影响。这些超参数的优化可能需要大量的计算资源和专业的领域知识。
  2. 先验知识的依赖性: KD-Sortpool 的有效性在一定程度上依赖于外部基因-疾病关联数据库(如 DisGeNET)的质量和完整性。如果这些先验知识不准确或不全面,可能会影响生物标志物识别的准确性。
  3. 通路信息表示的局限: SNPMF 通过一个有界大小 BB 的通路来表示基因周围的通路信息。这种表示可能无法捕捉非常长距离或更复杂的通路模式。
  4. 计算复杂度: 尽管 Transformer 解决了 GNN 的一些问题,但其自注意力机制本身在处理大规模图时仍可能面临 O(N2)O(N^2) 的时间复杂度(其中 NN 是节点数),尽管通过选择 KK 个基因来缓解了问题,但对于超大规模的生物网络,这仍是一个挑战。
  5. 特定疾病验证: 虽然在 AD 和癌症两种疾病上表现出色,但其泛化能力在其他复杂疾病或不同类型的组学数据(如蛋白质组学、代谢组学)上仍需进一步验证。

未来工作方向:

  1. 更高效的通路信息编码: 探索更复杂或动态的通路信息编码方式,以更好地捕捉基因在生物学通路中的多尺度和上下文依赖关系,同时控制计算成本。
  2. 自适应的基因选择: 研究更智能的、自适应的基因子集选择机制,而不是固定数量的 KK,使其能够根据疾病和数据的特性动态调整所选基因的数量。
  3. 多模态数据整合:PathFormer 扩展到整合多模态组学数据(如基因组学、转录组学、蛋白质组学、表观遗传学等),以获得更全面的疾病理解和更精确的诊断。
  4. 可解释性深化: 进一步开发和完善模型的解释性工具,例如,不仅提供注意力权重,还能生成更直观的、生物学家易于理解的决策路径或子图结构。
  5. 对抗鲁棒性研究: 评估 PathFormer 在面对对抗性扰动或噪声数据时的鲁棒性,并探索提高其鲁棒性的方法。
  6. 临床应用转化: 进一步与临床实践结合,在更大规模、更复杂的真实世界临床数据上验证模型的有效性,并探索其作为辅助诊断工具的潜力。

7.3. 个人启发与批判

PathFormer 的工作为图神经网络在生物医学领域的应用提供了重要的启发。它证明了针对领域特有数据结构(如生物信号网络)的挑战(过压缩、低通特性缺失)进行模型架构创新是至关重要的。将 Transformer 的注意力机制与生物学先验知识相结合,是解决 GNN 固有局限性的一个有效途径。

个人启发:

  1. 领域知识的重要性: 本文强调了领域知识(如基因-疾病关联数据库)在深度学习模型中的重要性。纯粹的数据驱动方法可能在特定领域受限,而将先验知识有机地融入模型设计(如 KD-Sortpool 和 GSC 损失),可以显著提高模型的性能和可解释性。
  2. Transformer 在图数据中的潜力: PathFormer 再次验证了 Transformer 架构超越序列数据,在图数据特别是复杂网络(如生物网络)中捕捉长距离依赖和复杂相互作用的强大能力。其自注意力机制能够更好地处理高连接度节点带来的信息过载问题。
  3. 可解释性与性能并重: 在生物医学等关键应用领域,模型的可解释性与预测性能同等重要。PathFormer 通过设计内在可解释的模块(KD-Sortpool 选基因,PAM 算注意力)并在损失函数中引入生物学约束,实现了高精度预测和生物学意义解释的双赢。
  4. 批判性地看待现有方法: 论文对现有 GNN 在基因网络上的局限性进行了深入分析(过压缩、低通特性缺失),这提醒研究者在应用通用深度学习模型到特定领域时,需要批判性地审视其假设和适用性,并针对性地进行改进。

潜在问题、未经验证的假设或可以改进的地方:

  1. GDA 分数的质量和覆盖范围: KD-Sortpool 依赖于 DisGeNET 的 GDA 分数。这些分数是基于文献挖掘等方法获得的,其质量和覆盖范围可能不尽完美。对于一些罕见疾病或研究不足的基因,GDA 分数可能缺失或不准确,这会影响 KD-Sortpool 的表现。如何处理缺失的 GDA 分数或整合多种先验知识源可能是一个挑战。
  2. “通路信息”的定义与表示: SNPMF 定义通路信息为“包含该基因的、上界大小的通路”。这种基于距离和节点顺序的简单编码是否能全面捕捉复杂的生物学通路信息仍有待商榷。生物通路往往是动态的、环境依赖的,且存在层级结构,未来可以探索更精细、更具生物学意义的通路表示方法。
  3. 计算资源需求: 尽管 PathFormer 性能优异,但其基于 Transformer 的架构通常意味着更高的计算资源需求(内存和计算时间),尤其是在处理更大规模的基因网络或更深的层数时。这可能限制其在资源受限环境中的部署。
  4. 多分类任务的挑战: 癌症数据集涉及 18 种癌症亚型,这是一个多分类任务。F1 分数在此类任务中通常以宏平均 (macro-average) 或微平均 (micro-average) 形式计算。论文中未明确指出 F1 分数的计算方式,这可能影响对类别不平衡的判断。
  5. 模型鲁棒性: 生物数据往往存在批次效应、测量噪声等问题。论文未深入探讨 PathFormer 对这些生物学噪声的鲁棒性。
  6. 泛化能力验证: 尽管在 AD 和癌症上表现良好,但这些疾病在生物医学领域具有广泛研究基础和相对丰富的先验知识。PathFormer 在面对较少研究、先验知识匮乏的疾病时的表现,以及在不同物种数据上的泛化能力,仍是重要的验证方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。