Fault detection of complicated processes based on an enhanced transformer network with graph attention mechanism

Environmental Protection 186 (2024) 783–797

论文状态：已完成

Fault detection of complicated processes based on an enhanced transformer network with graph attention mechanism

发表：2024/04/05

图注意力机制 (2)增强型 transformer 网络 (1)工业过程故障检测 (1)时空特征学习 (1)田纳西东曼化工过程 (1)

原文链接

价格：0.10

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种增强型图注意力机制 Transformer 网络（GA-Tran），用于复杂工业过程的故障检测。GA-Tran 整合自注意力机制和多尺度卷积，实现了对时空特征的联合学习，并利用图注意力网络分析变量间的空间关系。研究证明其在田纳西—伊士曼化学过程中的有效性，克服了现有方法不足之处。

摘要

Process Safety and Environmental Protection 186 (2024) 783–797 Available online 5 April 2024 0957-5820/© 2024 Institution of Chemical Engineers. Published by Elsevier Ltd. All rights reserved. Fault detection of complicated processes based on an enhanced transformer network with graph attention mechanism Yuping Cao * , Xiaoguang Tang , Xiaogang Deng * , Ping Wang College of Control Science and Engineering, China University of Petroleum (East China), Qingdao 266580, China A R T I C L E I N F O Keywords: Fault detection Spatial-temporal characteristic Transformer network Graph attention network Spectral clustering A B S T R A C T Recently, deep learning becomes increasingly popular in the industrial data analysis field due to its distinguished feature representation capability. As an emerging deep learning technology, transformer network has attracted extensive attention, but its application in industrial fault detection is still not sufficiently exploited. Furthermore, the traditional transformer network mainly focuses on the time series information of the data, while ignoring the spatial characteristic of the data. For this problem, an improved transformer network mod

思维导图

论文精读

中文精读约 40 分钟读完 · 22,918 字

1. 论文基本信息

1.1. 标题

基于增强型图注意力机制 Transformer 网络处理复杂过程故障检测 (Fault detection of complicated processes based on an enhanced transformer network with graph attention mechanism)

1.2. 作者

Yuping Cao, Xiaoguang Tang, Xiaogang Deng, Ping Wang

隶属机构: 中国石油大学（华东）控制科学与工程学院，青岛 266580，中国 (College of Control Science and Engineering, China University of Petroleum (East China), Qingdao 266580, China)

1.3. 发表期刊/会议

未在原文中明确指出具体期刊或会议名称，但从内容和格式来看，这是一篇经过同行评审的学术论文。

1.4. 发表年份

参考文献中有多篇论文的发表年份为 2021-2024，但本文自身的发表年份未明确给出。根据上下文，应为近期工作。

1.5. 摘要

本文提出了一种增强型图注意力机制 Transformer 网络 (GA-Tran)，用于复杂工业过程的故障检测。现有 Transformer 网络在工业故障检测中应用不足，且主要关注时间序列信息而忽略了数据的空间特征。针对复杂过程中变量的强耦合特性，GA-Tran 模型通过在时间维度和变量维度上挖掘数据信息，实现了联合时空学习。具体而言，一个配备自注意力机制 (self-attention mechanism) 的 Transformer 编码器模块用于捕捉长期时间依赖性，同时集成了多尺度卷积 (multi-scale convolution) 来抽象短期时间依赖性。此外，引入图注意力网络 (graph attention network, GAT) 到 Transformer 网络中，以精细分析变量间的空间关系。考虑到工业过程变量的拓扑结构，作者利用谱聚类 (spectral clustering) 推断先验拓扑信息，并智能地移除不相关的空间信息。与现有 Transformer 模型以异常分数作为监测指标不同，本文基于编码器特征和重构误差构建了两种监测统计量，即 $T^2$ 和 SPE 统计量，用于过程状态监测。在田纳西—伊士曼 (Tennessee Eastman, TE) 化学过程上的研究证明了所提出的 GA-Tran 方法的有效性。

1.6. 原文链接

/files/papers/69114ce3f9411b717895a524/paper.pdf (该链接指向 PDF 文件，表明其已公开发布)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

论文主要解决复杂工业过程中故障检测的挑战，特别是如何有效处理多变量时间序列数据中同时存在的长期时间依赖、短期时间依赖和空间相关性。

2.1.2. 为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白（Gap）？

现代工业过程日益复杂，自动化和数字化技术的发展产生了大量过程测量数据。在高温、高压和有毒物质等恶劣操作条件下，过程安全至关重要。早期故障检测对于防止小故障演变为严重事故具有决定性意义。

现有研究面临的挑战和空白包括：

传统统计方法（如 PCA、SFA、ICA）属于浅层机器学习领域，特征提取能力有限，难以处理复杂过程的非线性和动态特性。
早期深度学习方法（如 AE、RNN、LSTM）虽然提高了特征提取能力，但仍存在局限性：
- AE 及其变种通常是静态的，未充分考虑工业过程数据的动态性和时间相关性。
- RNN 和 LSTM 在处理长序列时存在困难，且难以并行化。
Transformer 网络作为新兴的深度学习技术，以其强大的长程依赖捕获能力受到关注，但在工业故障检测领域的应用尚不充分。
现有 Transformer 模型主要关注数据的时间序列信息，而忽略了多变量工业过程数据固有的空间特征（即变量之间的相关性或拓扑关系）。例如，TranAD 模型虽然在时间序列异常检测上表现优秀，但其异常分数通常针对单个变量维度，忽略了变量间的联动效应，本质上仍是单变量异常检测。
缺乏对短时依赖的有效建模：虽然 Transformer 擅长捕捉长期依赖，但工业过程数据也存在重要的短时依赖，现有 Transformer 模型未能充分设计网络结构来捕获。
监测指标的局限性：许多现有方法仅依赖重构误差作为监测指标，可能无法全面反映过程状态的变化，特别是潜在特征空间的变化。

2.1.3. 这篇论文的切入点或创新思路是什么？

本文的切入点是在 Transformer 框架内，通过集成图注意力网络和多尺度卷积，实现对多变量工业过程数据中长期时间依赖、短期时间依赖和变量间空间相关性的联合建模。同时，利用谱聚类优化图结构，并通过对抗训练提升模型的鲁棒性。此外，本文提出基于编码器特征和重构误差构建更全面的监测统计量。

2.2. 核心贡献/主要发现

论文的主要贡献体现在以下几个方面：

提出了新型 GA-Tran 网络: 引入了多尺度卷积 (multi-scale convolution) 来捕捉时间序列的短期依赖，并集成了图注意力机制 (graph attention mechanism) 来分析变量间的空间相关性，从而实现了长期和短期时间依赖以及空间相关性的联合建模。
设计了两阶段拓扑学习和对抗训练策略:
- 利用谱聚类 (spectral clustering) 和动态时间规整 (Dynamic Time Warping, DTW) 距离来推断先验拓扑信息，并优化图注意力网络的邻接矩阵，有效去除冗余空间信息，提高计算效率和模型性能。
- 引入对抗训练 (adversarial training) 过程，通过生成对抗网络 (GAN) 风格的训练，增强模型对正常数据特征的学习能力和对噪声、异常值的鲁棒性与泛化能力。
构建了基于编码器特征和重构误差的监测统计量: 针对传统方法仅依赖重构误差的局限性，本文提出了基于 GA-Tran 网络编码器特征的 $T^2$ 统计量，以及基于重构误差的 SPE 统计量，以更全面地监测过程状态。
在 Tennessee Eastman 过程上验证了有效性: 通过在标准工业基准数据集 TE 过程上的仿真实验，证明了所提出的 GA-Tran 方法在故障检测性能上优于多种传统和先进方法。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 深度学习 (Deep Learning)

深度学习是机器学习的一个子领域，它使用具有多层结构的神经网络（称为深度神经网络）从数据中学习复杂的模式和表示。其核心优势在于强大的特征表示能力和学习能力，尤其擅长处理非结构化数据。

3.1.2. Transformer 网络 (Transformer Network)

Transformer 是由 Vaswani 等人于 2017 年提出的一种深度学习模型，最初设计用于自然语言处理 (NLP) 任务。它完全放弃了循环和卷积结构，转而完全依赖自注意力机制 (self-attention mechanism) 来捕捉序列中的长程依赖。

编码器-解码器架构 (Encoder-Decoder Architecture): Transformer 包含一个编码器堆栈和一个解码器堆栈。编码器负责将输入序列映射为高级表示，解码器则根据这些表示生成输出序列。
自注意力机制 (Self-Attention Mechanism): 允许模型在处理序列的某个位置时，关注输入序列中所有其他位置的信息，并根据相关性进行加权。这是 Transformer 能够捕捉长程依赖的关键。
位置编码 (Positional Encoding): 由于自注意力机制本身不包含序列的顺序信息，Transformer 通过引入位置编码来为输入序列中的每个元素添加其在序列中的相对或绝对位置信息。
多头注意力 (Multi-Head Attention): 允许模型在不同的表示子空间中并行地执行多次注意力计算，然后将结果拼接起来，从而从不同角度捕捉信息。
前馈网络 (Feed-Forward Network, FFN): 每个编码器和解码器层中，在注意力机制之后都包含一个位置共享的前馈网络，用于进一步处理注意力机制的输出。
残差连接 (Residual Connections) 和层归一化 (Layer Normalization): 用于帮助训练更深层的网络，解决梯度消失问题，并加速训练。

3.1.3. 图注意力网络 (Graph Attention Network, GAT)

GAT 是一种用于处理图结构数据的神经网络。它通过在图的每个节点上使用注意力机制，计算其邻居节点对该节点的重要性权重，从而聚合邻居信息来更新节点的表示。

注意力机制在图中的应用: GAT 允许每个节点根据其特征及其邻居节点的特征，动态地学习其邻居节点的重要性权重，而不是依赖预定义的固定图结构或权重。
处理非结构化数据: GAT 特别适用于捕捉非欧几里得空间数据（如社交网络、分子结构）中的复杂关系。

3.1.4. 多尺度卷积 (Multi-scale Convolution)

多尺度卷积通过使用不同大小的卷积核来提取输入数据在不同感受野下的特征。对于时间序列数据，这意味着可以同时捕捉短时、中时和长时的时间模式，例如，一个小卷积核可能捕捉局部趋势，而一个大卷积核可能捕捉更长的周期性模式。

3.1.5. 谱聚类 (Spectral Clustering)

谱聚类是一种基于图论的聚类算法。它将数据点看作图中的节点，点之间的相似度看作边的权重。其核心思想是将高维数据映射到低维空间，然后在这个低维空间中使用传统的聚类算法（如 k-means）。

步骤: 通常包括构建相似度矩阵、构建度矩阵和拉普拉斯矩阵、计算拉普拉斯矩阵的特征向量、然后对选定的特征向量进行 k-means 聚类。
优点: 能够发现非凸形状的簇，对数据分布没有太多假设。

3.1.6. 动态时间规整 (Dynamic Time Warping, DTW)

DTW 是一种测量两个时间序列之间相似性的算法，即使这些时间序列在时间轴上存在偏移、拉伸或压缩。它通过“弯曲”时间轴来寻找两个序列之间的最佳匹配路径，从而计算出它们之间的最小距离。这对于比较具有不同速度或相位的序列特别有用。

3.1.7. 对抗训练 (Adversarial Training)

对抗训练最初源于生成对抗网络 (Generative Adversarial Networks, GANs)。在 GANs 中，一个生成器网络试图生成逼真的数据，而一个判别器网络则试图区分真实数据和生成数据。两者通过对抗性博弈共同进步。在异常检测中，对抗训练可以用于增强模型的鲁棒性和泛化能力，例如通过最大化重构误差来使模型对正常数据学习得更精确，从而更敏感地检测异常。

3.1.8. $T^2$ 统计量和 SPE 统计量

$T^2$ 统计量 (Hotelling's $T^2$ statistic): 霍特林 $T^2$ 统计量是一种多变量统计量，用于监测过程的均值变化。在故障检测中，它常用于检测潜在特征空间中的异常波动，即数据偏离正常操作条件下的均值。
SPE 统计量 (Squared Prediction Error, 或 Q 统计量): 预测平方误差统计量用于监测模型重构（或预测）残差的变化。它衡量的是数据点偏离模型所建立的子空间程度，反映了数据点在模型无法解释方向上的变异。

3.2. 前人工作

3.2.1. 传统数据驱动方法

多变量统计分析工具:
- 主成分分析 (Principal Component Analysis, PCA): 一种线性降维技术，通过正交变换将数据投影到方差最大的几个方向上。
- 慢特征分析 (Slow Feature Analysis, SFA): 旨在提取输入信号中最慢变化的特征，适用于处理非稳态和动态过程。
- 独立成分分析 (Independent Component Analysis, ICA): 旨在将混合信号分离成统计独立的源信号。
- Fisher 判别分析 (Fisher Discriminant Analysis, FDA): 一种监督学习方法，旨在找到最佳投影方向，使得不同类别之间的散度最大化，同时类内散度最小化。
非线性扩展:
- 核 PCA (Kernel PCA, KPCA): 引入核技巧处理非线性过程特性，将数据映射到高维特征空间进行 PCA。
混合方法: 结合多种统计工具，如 PCA 和贝叶斯网络，以提高故障检测和诊断能力。
局限性: 这些方法属于浅层机器学习，特征提取能力有限，难以应对复杂过程的内在数据特性。

3.2.2. 深度学习方法

自动编码器 (Autoencoder, AE) 及其变种:
- AE: 通过最小化重构误差来学习数据的编码表示。常用于无监督故障检测，通过从正常数据中学习特征来区分异常。
- 变分自动编码器 (Variational AEs): 用于生成和建模数据分布。
- 去噪自编码器 (Denoising Autoencoders) 和压缩自编码器 (Compressing Autoencoders): 增强模型的鲁棒性和特征提取能力。
循环神经网络 (Recurrent Neural Networks, RNN) 和长短期记忆网络 (Long Short-Term Memory, LSTM):
- 专门设计用于处理时间序列数据，捕捉时间相关性。
- LSTM-LAE (Ladder Autoencoder): 结合 LSTM 和阶梯自动编码器，利用未标记数据提高故障诊断性能。
- 注意力机制增强 LSTM: 引入时间注意力机制，使模型关注局部时间信息。
- CNN-LSTM: 结合卷积神经网络和 LSTM，用于早期潜在故障检测。
Transformer 网络在过程工业中的应用:
- 故障预测: 预测过程变量的多步变化。
- 故障诊断: 例如 target transformer 模型，结合自注意力和目标注意力机制。
时间序列异常检测的 Transformer 模型:
- TranAD: 使用 Transformer 进行时间序列异常检测，但主要关注时间维度，并对每个变量维度给出异常分数，可能忽略全局异常和变量相关性。
局限性:
- AE 基础模型通常是静态的，未考虑数据动态性。
- RNN/LSTM 在处理长输入序列时存在困难，且并行性差。
- 现有 Transformer 应用在工业故障检测中仍处于初步探索阶段，且普遍忽略了多变量时间序列数据的空间特征（变量间相关性）和短期时间依赖。

3.3. 技术演进

故障检测技术从早期的知识型方法（如第一性原理模型）发展到数据驱动方法。数据驱动方法又从简单的多元统计分析（如 PCA）演进到能够处理非线性的核方法（如 KPCA），再到利用深度神经网络强大特征提取能力的模型（如 AE、RNN、LSTM）。随着 Transformer 在 NLP 和 CV 领域的成功，其在时间序列分析（包括故障检测）中的应用也逐渐兴起。然而，现有 Transformer 模型在处理工业过程数据时，普遍存在对空间相关性和短期时间依赖考虑不足的问题。本文提出的 GA-Tran 正是在此基础上，通过集成 GAT 和多尺度卷积，弥补了这些空白，实现了更全面的时空特征学习。

3.4. 差异化分析

本文提出的 GA-Tran 方法与相关工作的核心区别和创新点在于：

联合时空特征学习: 传统的 Transformer 模型主要关注长期时间依赖，GA-Tran 通过引入多尺度卷积捕捉短期时间依赖，并结合图注意力网络 (GAT) 捕捉变量间的空间相关性，实现了对数据的时空特征的全面建模，解决了现有方法在工业过程故障检测中忽略空间特性和短期依赖的不足。
优化图结构与对抗训练:
- 通过谱聚类和 DTW 距离推断变量间的先验拓扑信息，用于优化 GAT 的邻接矩阵，而非简单采用全连接或端到端学习，有效去除了冗余连接，增强了模型的解释性和效率。
- 引入两阶段对抗训练策略，显著提高了模型的鲁棒性、泛化能力以及对细微异常的检测敏感性。
多维度监测统计量: 区别于多数 Transformer 异常检测模型仅依赖异常分数或重构误差，GA-Tran 同时构建了基于编码器特征的 $T^2$ 统计量和基于重构误差的 SPE 统计量，提供了更全面的过程状态监测能力。

4. 方法论

4.1. 方法原理

GA-Tran 网络的核心思想是通过一个统一的深度学习框架，联合学习复杂工业过程数据中的长期时间依赖、短期时间依赖和变量间的空间相关性，并通过对抗训练和优化的图结构来提高故障检测的鲁棒性和准确性。它采用编码器-解码器结构，其中编码器融合了多头自注意力和图注意力网络来提取时空特征，解码器则进一步利用多尺度卷积和图注意力来捕捉短期时间依赖和空间特征，并采用对抗训练策略进行优化。最终，通过构建 $T^2$ 和 SPE 统计量来监测过程状态。

4.2. 核心方法详解

所提出的 GA-Tran 网络由一个编码器和两个解码器组成，并采用对抗训练方法来增强信息学习能力和泛化能力。图 2 展示了对抗训练两个阶段的数据处理过程。

该图像是示意图，展示了改进的变压器网络模型（GA-Tran）的结构。图中包括输入窗口、窗口编码器、两条解码器以及多头注意力机制和图注意力网络（GAT）的组合。左侧为输入数据的处理流程，右侧展示了解码器如何生成对应的输出。通过结合自注意力和图结构分析，该模型用于复杂过程的故障检测。

图 2. GA-Tran 网络的示意图。

4.2.1. 数据预处理和位置编码

在多维时间序列问题中，数据通常以二维矩阵的形式存在，即变量维度和时间维度。与仅关注时间维度的 TranAD 方法不同，GA-Tran 旨在同时建模时间和变量维度。

工业过程变量通常具有不同的物理意义、单位和数值范围。为了避免数值差异导致的信息淹没问题，需要进行数据预处理（归一化）。

假设 $x_i^{(k)}$ 是在第 $i$ 个样本时间第 $k$ 个变量的测量值，其归一化值 $x_i^{'(k)}$ 计算如下： $x _ { i } ^ { \prime ( k ) } = \frac { x _ { i } ^ { ( k ) } - x _ { k } ^ { \mathrm { m i n } } } { x _ { k } ^ { \mathrm { m a x } } - x _ { k } ^ { \mathrm { m i n } } + \epsilon } \quad (2)$ 其中， $x _ { k } ^ { \mathrm { m a x } }$ 和 $x _ { k } ^ { \mathrm { m i n } }$ 分别是第 $k$ 个变量的最大值和最小值。 $\epsilon$ 是一个小的正常量，用于防止分母为 0。该公式确保每个测量值被归一化到 [0,1) 范围内，避免了原始小值变量信息被淹没的问题。

归一化后的数据由 $M$ 个变量和每个变量的 $T$ 个观测值组成，用于构建一个数据矩阵 $X \in \mathbb{R}^{T \times M}$ : $X = { \left[ \begin{array} { l l l l l l } { x _ { 1 } ^ { \prime ( 1 ) } } & { \cdots } & { x _ { 1 } ^ { \prime ( k ) } } & { \cdots } & { x _ { 1 } ^ { \prime ( M ) } } \\ { \vdots } & { \ddots } & { \vdots } & { \ddots } & { \vdots } \\ { x _ { i } ^ { \prime ( 1 ) } } & { \cdots } & { x _ { i } ^ { \prime ( k ) } } & { \cdots } & { x _ { i } ^ { \prime ( M ) } } \\ { \vdots } & { \ddots } & { \vdots } & { \ddots } & { \vdots } \\ { x _ { T } ^ { \prime ( 1 ) } } & { \cdots } & { x _ { T } ^ { \prime ( k ) } } & { \cdots } & { x _ { T } ^ { \prime ( M ) } } \end{array} \right] } \quad (3)$ 为了捕捉时间依赖性，对于第 $i$ 个样本时间，构建一个时间移动窗口矩阵 $X' \in \mathbb{R}^{L \times M}$ ： $X _ { i } ^ { ' } = \left[ \begin{array} { l l l } { x _ { i - L + 1 } ^ { ' ( 1 ) } } & { \cdots } & { x _ { i - L + 1 } ^ { ' ( M ) } } \\ { \vdots } & { \ddots } & { \vdots } \\ { x _ { i } ^ { ' ( 1 ) } } & { \cdots } & { x _ { i } ^ { ' ( M ) } } \end{array} \right] \quad (4)$ 其中 $L$ 是窗口长度。这个矩阵作为所提出的 GA-Tran 网络的输入。通过构建多个时间移动窗口矩阵，形成网络训练数据，如图 3 所示。

Fig. 3. Construction of input matrix. 该图像是示意图，展示了输入矩阵的构建过程。在图中，样本时间与变量之间通过时间移动窗口进行关联，形成 $b_i ext{ }(L imes M)$ 的训练数据，呈现了测量数据的时间序列信息与变量关系。

图 3. 输入矩阵的构建。

为了区分不同位置的时间点，首先对时间移动窗口矩阵 $X'$ 进行时间维度位置编码，将位置信息嵌入到每个时间点。对于矩阵 $X'$ 的第 $i$ 个样本时间和第 $k$ 个变量，位置编码 PE(i, k) 定义为： $P E ( i , k ) = \left\{ \begin{array} { c } { \sin \left( \frac { i } { 1 0 0 0 0 ^ { 2 k ^ { \prime } / M } } \right) , \mathrm { i f } \ k = 2 k ^ { \prime } } \\ { \cos \left( \frac { i } { 1 0 0 0 0 ^ { 2 k ^ { \prime } / M } } \right) , \mathrm { i f } \ k = 2 k ^ { \prime } + 1 } \end{array} \right. \quad (5)$ 其中，10,000 是一个比例因子，用于方便学习位置信息。然后，通过将位置编码添加到 $X'$ 中，得到位置编码后的时间移动窗口矩阵 $X_{PE}$ ： $\boldsymbol { X _ { P E } } = \boldsymbol { X } ^ { ' } + \boldsymbol { P E } \quad (6)$ 位置编码提供了整个时间移动窗口中每个时刻位置的额外信息，有助于捕捉序列关系。

4.2.2. 窗口编码器 (Window Encoder)

位置编码后的时间移动窗口矩阵 $X_{PE}$ 被输入到窗口编码器中。窗口编码器包含一个用于提取长期时间依赖的多头注意力机制模块 (multi-head attention mechanism) 和一个用于提取空间依赖的图注意力网络 (GAT)。

4.2.2.1. 长期时间依赖特征提取

多头注意力机制是 Transformer 的核心机制，能够捕捉时间序列中不同时间点之间的复杂依赖关系。通过该机制，模型不仅理解每个时间点的特征，还学习不同时间点之间的长期依赖。

对于数据 $X_{PE}$ ，多头注意力机制首先通过线性变换将其映射到三个向量：查询 (Queries) $Q_i$ 、键 (Keys) $K_i$ 和值 (Values) $V_i$ 。这些变换通过可训练的权重矩阵 $W_{Qi}, W_{Ki}, W_{Vi}$ 实现，每个矩阵的维度为 $M \times d_k$ ，其中 $d_k$ 是每个头的维度。对于第 $i$ 个注意力头 $head_i$ ，计算如下： $\begin{array} { l } { Q _ { i } = X _ { P E } W _ { Q _ { i } } } \\ { \ } \\ { K _ { i } = X _ { P E } W _ { K _ { i } } } \\ { \ } \\ { V _ { i } = X _ { P E } W _ { V _ { i } } } \\ { \ } \\ { h e a d _ { i } = \mathrm { A t t e n t i o n } ( Q _ { i } , K _ { i } , V _ { i } ) = \mathrm { s o f t m a x } \left( \frac { Q _ { i } K _ { i } ^ { \operatorname { T } } } { \sqrt { d _ { k } } } \right) V _ { i } } \end{array} \quad (7)-(10)$ 接着，计算每个头的注意力分数。 $\sqrt{d_k}$ 的缩放是为了确保在计算过程中注意力权重保持在正确的范围内，使模型更容易训练和优化。应用 softmax 函数得到概率分布。这个计算允许模型评估不同时间点之间的相互作用，并捕捉时间序列中的依赖关系。

在计算完每个头的注意力后，沿变量维度拼接它们，并通过另一个线性变换 $W_O \in \mathbb{R}^{(h \times d_k) \times M}$ 整合不同头的信息： $\mathrm { MultiHeadAtt } \left( \mathcal { Q } , K , V \right) = { \mathrm { Concat } } ( h e a d _ { 1 } , h e a d _ { 2 } , . . . , h e a d _ { h } ) W _ { O } \quad (11)$ 其中 $h$ 是注意力头的数量。通过这种方式，多头注意力机制能够综合数据中不同的特征和关系，增强模型的表示能力。

在多头注意力机制之后引入残差连接。具体来说，将多头注意力的输出直接添加到原始输入 $X_{PE}$ ，形成长期时间依赖特征提取组件的最终输出： $P _ { 1 } = \mathrm { LayerNorm } \left( X _ { P E } + \mathrm { MultiHeadAtt } ( Q , K , V ) \right) \quad (12)$ 通过这种方式使用残差，模型能够在提取深层特征的同时保留关键的原始信息。这使得模型能够更有效地捕捉时间序列数据中的复杂依赖关系。

4.2.2.2. 空间相关性特征提取

在编码器和解码器的后半部分，引入 GAT 来建模变量之间的相关性。GAT 是图神经网络的一个显著发展，在社会网络分析和医学信息学等多个领域显示出巨大潜力。邻接矩阵用于表示图中节点之间的连接。节点的每条边表示两个变量之间的拓扑连接关系。图 4 展示了 GAT 的数据处理过程。

Fig. 4. The data processing process of the GAT. 该图像是一个示意图，展示了输出特征的计算过程。图中表示了输入特征 p^{(1)}, p^{(k)}, ext{和} p^{(M)} 通过权重 $\alpha_{j,i}, \alpha_{j,k}, \alpha_{j,M}$ 加权求和后，经过激活函数 $\sigma$ 得到最终输出特征 $h^{(j)}$ 。

图 4. GAT 的数据处理过程。

以 9 个节点为例，图 4a 展示了其 GAT 图。注意力分数 $\alpha_{j,k}$ 描述了节点 $j$ 和节点 $k$ 之间的连接。与前序模块中的时间维度建模不同，GAT 将每个变量视为一个节点。对于一个有 $M$ 个节点的图，窗口编码器中 GAT 的输入可以表示为 $P_1 = [p^{(1)}, ..., p^{(k)}, ..., p^{(M)}]^T$ ，其中 $p^{(k)} \in \mathbb{R}^{L \times 1}$ 是节点 $k$ 的初始特征。如图 4b 所示（原文图注有误，应指图 4a 和图 4b 共同说明注意力分数计算），注意力分数 $\alpha_{j,k}$ 可以计算如下： $\begin{array} { l } { { e _ { j , k } = \mathrm { LeakyReLU } ( w _ { G A T } ^ { \top } \cdot ( p ^ { ( j ) } \oplus p ^ ^ { ( k ) } ) ) } } \\ { { \ } } \\ { { \alpha _ { j , k } = { \frac { \exp ( e _ { j , k } ) } { \sum _ { k = 1 } ^ { M } \exp ( e _ { j , k } ) } } } } \end{array} \quad (13)-(14)$ 其中， $\oplus$ 表示拼接操作， $w_{GAT} \in \mathbb{R}^{2L \times 1}$ 是一个可学习的列向量。LeakyReLU 是一种非线性激活函数。然后，通过使用注意力分数 $\alpha_{j,k}$ 作为其第 $j$ 行第 $k$ 列的元素，构建一个初始邻接矩阵 $A^{\alpha} \in \mathbb{R}^{M \times M}$ 。在 GAT 中，注意力机制可以看作是邻接矩阵的动态计算。在这种情况下，邻接矩阵不是预定义的，而是由网络根据节点特征动态计算的。

图 4c 将节点信息聚合过程可视化。对于节点 $j$ ，其输出特征 $h^{(j)}$ 计算如下： $h ^ { ( j ) } = \sigma \left( \sum _ { k = 1 } ^ { M } \alpha _ { j , k } p ^ { ( k ) } \right) \quad (15)$ 其中， $\sigma(\cdot)$ 表示 sigmoid 激活函数。可以看出，节点 $j$ 的 GAT 输出特征 $h^{(j)}$ 聚合了来自其邻居节点的相关信息。然后，通过使用输出特征 $h^{(j)}$ 作为其第 $j$ 列向量，可以构建一个特征矩阵 $H'_1$ 。特征矩阵 $H'_1$ 是传统 GAT 的输出。公式 (15) 的矩阵运算形式可以表示为： ${ \cal H } _ { 1 } ^ { ' } = \sigma ( A ^ { \alpha } P _ { 1 } ) \quad (16) #### 4.2.2.3. \text{谱聚类与优化的邻接矩阵} \text{在} GAT \text{中，变量被视为节点以探索变量间的依赖关系。本节探讨在没有先验邻接矩阵的情况下，如何利用现有数据学习其拓扑结构，从而获得拓扑先验知识。在传统的} GAT \text{中，如果邻接矩阵未知，通常假设每个节点都与所有其他节点连接，首先生成一个默认的全连接邻接矩阵，然后计算节点的相似性并更新连接。传统的} GAT \text{是一个全连接邻接矩阵图注意力网络，未能充分考虑实际变量的拓扑结构。这通常导致较高的计算复杂性和对噪声干扰的敏感性。} \text{为了解决这些问题，本文结合}<strong>\text{动态时间规整} (DTW) \text{距离}</strong>\text{和}<strong>\text{谱聚类} (spectral clustering)</strong> \text{算法来构建先验邻接矩阵。首先计算两个变量时间序列之间的} DTW \text{距离。}DTW \text{距离越接近，两个变量的相似度越高。这些距离用于构建相似度矩阵。然后将此相似度矩阵用于谱聚类算法。高相似度的节点被聚类成} $N$ \text{个类别。同一类别中的节点默认双向连接。不同类别节点之间的连接被移除。} \text{对于第} $z$ \text{个和第} $y$ \text{个变量，构建两个向量} $Z = [x_1^{(z)}, x_2^{(z)}, ..., x_T^{(z)}]^T$ \text{和} $Y = [x_1^{(y)}, x_2^{(y)}, ..., x_T^{(y)}]^T$\text{。}DTW \text{方法首先构建一个} $T \times T$ \text{矩阵} $D'$ \text{来存储两个序列中任意两点之间的距离。在矩阵} $D'$ \text{中，元素} `D'_{i,j}` \text{定义为序列} $Z$ \text{中的} $x_i^{(z)}$ \text{和序列} $Y$ \text{中的} $x_j^{(y)}$ \text{之间的欧氏距离，计算如下：}$ D _ { i , j } ^ { ' } = \sqrt { { ( x _ { i } ^ { ( z ) } - x _ { j } ^ { ( y ) } ) } ^ { 2 } } \quad (17)

接下来，为了考虑时间序列中时间轴的位移，使用累积距离。矩阵  $D$  的每个元素  $D_{i,j}$  根据当前距离及其三个相邻元素（左、上和左上）的最小累积距离进行更新：

D _ { i , j } = D _ { i , j } ^ { ' } + \operatorname* { m i n } ( D _ { i - 1 , j } ^ { ' } , D _ { i , j - 1 } ^ { ' } , D _ { i - 1 , j - 1 } ^ { ' } ) \quad (18)

DTW 距离  $Dd_{z,y}$  最终定义为矩阵  $D$  的右下角元素，它量化了整个时间序列  $Z$  和  $Y$  之间的相似性。这种方法有效处理时间序列中的时间偏移和速率变化，并提供了衡量两个时间序列相似性的全面指标。

然后，将谱聚类算法应用于 DTW 距离。首先使用这些距离值构建一个相似度矩阵  $W$ ，其中元素  $W_{i,j}$  计算如下：

W _ { i , j } = \exp ( - \frac { D d _ { i , j } ^ { 2 } } { 2 \sigma ^ { 2 } } ) \quad (19) $\text{其中} $\sigma$ \text{是一个尺度参数。随后，构建度矩阵} $U$\text{，其中元素} $U_{i,i}$ \text{是相似度矩阵} $W$ \text{第} $i$ \text{行的和，以及拉普拉斯矩阵} $L'$\text{：}$ \begin{array} { r l } & { U _ { i , i } = \sum _ { j = 1 } ^ { M } W _ { i , j } } \ & { } \ & { L ^ { ' } = U ^ { - \frac { 1 } { 2 } } W U ^ { - \frac { 1 } { 2 } } } \end{array} \quad (20)-(21)

在选择并归一化拉普拉斯矩阵  $L'$  的前  $N$  个最小非零特征向量后，将  $k$ -均值聚类算法应用于归一化的  $N$  个特征向量集。 $k$ -均值聚类旨在最小化第  $i$  个数据点  $o_i$  到第  $j$  个聚类中心  $w_j$  的平方距离之和：

\operatorname* { m i n } \sum _ { j = 1 } ^ { N } \sum _ { i = 1 } ^ { N _ { j } } \big | \big | o _ { i } - w _ { j } \big | \big | _ { 2 } ^ { 2 } \quad (22) $\text{其中} $N_j$ \text{是第} $j$ \text{个聚类中的数据点数量。} \text{经过谱聚类后，每个聚类包含相似的变量。基于这些聚类结果，进一步定义一个} $M \times M$ \text{的先验邻接矩阵} $A^{prior}$\text{。其元素} $A^{prior}_{i,j}$ \text{定义如下：}$ A _ { i , j } ^ { \mathrm { p r i o r } } = \left{ { 1 , \atop 0 } \right. \text{if the } i \text{th variable and the } j \text{th variable belong to the same cluster} \ \text{if the } i \text{th variable and the } j \text{th variable belong to different clusters} \quad (23)

如果第  $i$  个变量和第  $j$  个变量被聚类到同一个簇中，则它们之间存在双向连接，对应的矩阵元素设置为 1。相反，如果两个变量属于不同的簇，则它们之间没有连接，对应的矩阵元素设置为 0。

图 5 展示了 GAT 图的优化过程。由于邻接矩阵由图中的注意力分数组成，因此可以从该图看出谱聚类对邻接矩阵的影响。基于谱聚类的改进 GAT 可以有效去除全连接邻接矩阵中的冗余信息，提高计算效率。矩阵  $A^{prior}$  提供了变量间的拓扑连接关系，有助于模型更有效地捕捉空间域中的关键特征。

![Fig. 5. The optimization process of the GAT graph.](/files/papers/69114ce3f9411b717895a524/images/8.jpg)
*该图像是示意图，展示了节点的谱聚类过程及图的优化。左侧为初始图，包含不同节点及其注意力分数，右侧为改进后的图，突出了相关节点及其关系。通过优化，图的结构得到了改善。*

图 5. GAT 图的优化过程。

然后，引入拓扑先验邻接矩阵  $A^{prior}$  来计算改进的邻接矩阵：

\widetilde { A } ^ { \alpha } = A ^ { p r i o r } \odot A ^ { \alpha } \quad (24) $\text{其中} $\odot$ \text{表示哈达玛积（逐元素乘积）。}GAT \text{的输出可以重写为：}$ H _ { 1 } = G A T ( P _ { 1 } ) = \sigma ( \widetilde { A } ^ { \alpha } P _ { 1 } ) \quad (25)

### 4.2.3. 两个解码器 (Two Decoders)
在通过窗口编码器提取时空特征后，解码器利用多尺度卷积和 GAT 进一步提取短期时间依赖和空间特征。

#### 4.2.3.1. 短期时间依赖特征提取
窗口编码器的注意力机制可以捕捉长期时间依赖。为了同时适应数据中的短期和长期时间依赖，解码器部分应用了**多尺度卷积算法 (multi-scale convolution algorithm)**。该算法擅长通过识别不同时间尺度上的模式和依赖关系来处理时间序列数据。在解码器中，多尺度卷积通过使用一系列具有不同尺度的卷积核来实现，这使得网络能够学习短期和中长期时间依赖。对于尺度  $s \in \{s_1, s_2, ..., s_n\}$ ，多尺度卷积操作由  $n$  个卷积核组成，每个卷积核具有不同的尺度。所有卷积核具有相同的输出特征维度，表示为  $L$ 。以图 2a 中的 `decoder1` 为例，卷积的输出可以计算如下：

C _ { s 1 1 } = \sum _ { i = 1 } ^ { n } \mathrm { ReLU } ( W _ { s _ { i } } * H _ { 1 } + b _ { s _ { i } } ) \quad (26)

其中，选择 `ReLU` 作为线性激活函数。  $W_{s_i}$  是尺度  $s_i$  下的卷积核权重，其维度为  $k \times M \times N$ ，其中  $k$  是时间维度上卷积核的大小（对于在不同时间尺度上提取特征至关重要）， $N$  是卷积操作输出的维度。 $b_{s_i}$  是偏置项。通过设置一组具有不同尺度的卷积核，可以捕捉不同时间尺度上的模式和相关性。卷积操作 `*` 将这些权重应用于解码器输入  $H_1$ 。通过将步长设置为 1 并对每个卷积核应用适当的填充，确保卷积操作  $C_{s11}$  后的输出维度与输入  $H_1$  的维度一致，这有助于在后续网络层中更好地利用这些特征。

#### 4.2.3.2. 空间相关性特征提取
与窗口编码器中的 GAT 类似，两个解码器中的 GAT 将每个变量视为一个节点。以图 2a 中的 `decoder1` 为例，该操作表示为：

Y _ { 1 1 } = G A T ( C _ { s 1 1 } ) \quad (27)

上述操作利用图注意力机制提取输入时间序列的空间特征，并捕捉空间特征之间的相互依赖关系。

#### 4.2.3.3. 基于对抗学习的模型优化
GA-Tran 网络使用编码器-解码器结构。为了提高模型的鲁棒性和泛化能力，设计了一种 **GAN 风格的对抗训练策略 (GAN-style adversarial training strategy)**。对抗训练最初在生成对抗网络 (GAN) 中引入。众所周知，`USAD` (无监督异常检测) 的对抗训练可以提高模型的泛化能力，使模型对噪声和异常值具有鲁棒性。通过在训练中最大化重构误差，模型能够放大小的重构偏差，从而更灵敏地检测过程故障。对于每个移动窗口数据，GA-Tran 网络的对抗学习分为两个阶段。为了更好地区分两个阶段生成的数据，第一阶段解码器 1 对输入  $X'$  的重构输出定义为  $Y_{11}$ ，它也是第二阶段窗口编码器的输入。第一阶段解码器 2 的重构输出定义为  $Y_{21}$ 。 $Y_{22}$  是第二阶段解码器 2 对输入  $Y_{11}$  的重构输出。

**阶段 1:** 如图 2a 所示，对于输入数据  $X'$ ，对其进行编码处理并获得编码器特征  $H_1$ 。然后，分别基于 `decoder1` 和 `decoder2` 对  $H_1$  进行解码处理，并获得预测  $Y_{11}$  和  $Y_{21}$ 。第一阶段的重构损失定义为：

\begin{array} { r } { L _ { 1 1 } = | Y _ { 1 1 } - X ^ { ' } | _ { 2 } } \ { L _ { 2 1 } = | Y _ { 2 1 } - X ^ { ' } | _ { 2 } } \end{array} \quad (28)-(29)

**阶段 2:** 如图 2b 所示，将输入数据  $X'$  替换为 `decoder1` 生成的预测  $Y_{11}$ ，并进行编码处理以获得编码器特征  $H_2$ 。然后，基于 `decoder2` 对  $H_2$  进行解码处理，并获得预测  $Y_{22}$ 。`decoder2` 旨在通过最大化预测误差  $\|Y_{22} - X'\|_2$  来区分输入数据  $X'$  和 `decoder1` 在阶段 1 中生成的预测  $Y_{11}$ 。另一方面，`decoder1` 旨在通过完美重构输入（即  $Y_{11} = X'$ ）来欺骗 `decoder2`。这使得 `decoder2` 在第二阶段生成与第一阶段相同的输出（即  $Y_{22} = Y_{21}$ ）。因此，目标函数定义为：

\underset { \mathrm { d e c o d e r } 1 \mathrm { d e c o d e r } 2 } { \operatorname* { m i n } } | \boldsymbol { Y } _ { 2 2 } - \boldsymbol { X } ^ { * } | _ { 2 } . \quad (30)

因此，`decoder1` 旨在最小化这个自调整输出的重构误差，而 `decoder2` 旨在最大化这个误差。第二阶段的损失定义为：

L _ { 1 2 } = - L _ { 2 2 } = | Y _ { 2 2 } - X ^ { ' } | _ { 2 } . \quad (31)

在定义了两个阶段的损失函数后，需要确定每个解码器的累积损失。因此，使用一个演化损失函数，它结合了来自两个阶段的重构和对抗损失函数：

\begin{array} { r c l } { { { \cal L } _ { 1 } } } & { { = } } & { { \displaystyle \frac { 1 } { n _ { 1 } } | { \cal Y } _ { 1 1 } - { \cal X } ^ { ' } | _ { 2 } + \left( 1 - \frac { 1 } { n _ { 1 } } \right) | { \cal Y } _ { 2 2 } - { \cal X } ^ { ' } | _ { 2 } , } } \ { { } } & { { } } & { { } } \ { { { \cal L } _ { 2 } } } & { { = } } & { { \displaystyle \frac { 1 } { n _ { 1 } } | { \cal Y } _ { 2 1 } - { \cal X } ^ { ' } | _ { 2 } - \left( 1 - \frac { 1 } { n _ { 1 } } \right) | { \cal Y } _ { 2 2 } - { \cal X } ^ { ' } | _ { 2 } , } } \end{array} \quad (32)-(33) $\text{其中} $n_1$ \text{是训练周期} (epoch)\text{。在训练初期，解码器的输出可能对输入数据重构较差。为确保训练稳定性，训练目标在开始时是提高第一阶段的重构能力。因此，较大的权重} $\frac{1}{n_1}$ \text{最初分配给重构损失} $||Y_{11} - X'||_2$ \text{和} $||Y_{21} - X'||_2$\text{。第二阶段使用的对抗损失} $||Y_{22} - X'||_2$ \text{由于重构质量差而不可靠。因此，最初为对抗损失} $||Y_{22} - X'||_2$ \text{分配较小的权重，以避免模型训练不稳定。随着重构} $Y_{11}$ \text{和} $Y_{22}$ \text{越来越接近输入数据} $X'$\text{，重构损失} $||Y_{11} - X'||_2$ \text{和} $||Y_{21} - X'||_2$ \text{变得更准确，对抗损失} $||Y_{22} - X'||_2$ \text{的权重增加。此时，更多的注意力放在第二阶段的对抗训练上。} \text{总而言之，将对抗训练整合到} GA-Tran \text{网络中增强了模型的鲁棒性和泛化能力，这对于准确的数据特征表示很有用。} ### 4.2.4. \text{监测统计量构建} \text{传统的基于深度学习的异常检测方法大多使用重构误差或预测误差来构建过程监测统计量。重构误差是模型输出与输入之间的差异。预测误差是模型输出与测量值之间的差异。它们都反映了残差空间的变化。为了监测特征空间的变化，}GA-Tran \text{网络的编码器特征被用于构建} $T^2$ \text{统计量。} \text{对于一个新的测量向量} $x_{news}$\text{，} $T^2$ \text{统计量和} SPE \text{统计量定义如下：}$ \begin{array} { l } { { T ^ { 2 } = h _ { n e w } ^ { \mathrm { T } } \Phi ^ { - 1 } h _ { n e w } } } \ { { \ } } \ { { S P E = \parallel y _ { n e w } - x _ { n e w } \parallel ^ { 2 } } } \end{array} \quad (34)-(35)

其中， $h_{new}$  是窗口编码器输出的特征矩阵  $H_1$  的最后一行。 $y_{new}$  是第二个解码器输出的重构矩阵的最后一行。 $\Phi$  是编码器特征的协方差矩阵。统计量阈值的设置在一定程度上直接影响故障检测的性能。在本研究中，使用**核密度估计 (Kernel Density Estimation, KDE)** 方法计算统计量阈值。

### 4.2.5. GA-Tran 基于故障检测的流程
如图 6 所示，所提出的 GA-Tran 基于故障检测的方法包括两个阶段：离线建模和在线监测。

![Fig. 6. The GA-Tran based fault detection procedure.](/files/papers/69114ce3f9411b717895a524/images/9.jpg)
*该图像是GA-Tran基于故障检测的流程示意图。左侧为离线建模阶段，包括数据预处理、谱聚类和特征提取；右侧为在线监测阶段，展示了对在线数据的相同处理过程及故障报警的判断。各步骤之间有明确的连接，强调了完整的检测流程。*

图 6. GA-Tran 基于故障检测的流程。

#### 4.2.5.1. 离线建模阶段
1.  从正常操作条件下选择历史数据并进行归一化。构建多变量时间移动窗口矩阵。
2.  使用谱聚类算法对过程变量进行分组。根据变量的类别信息建立先验邻接矩阵。
3.  将时间移动窗口矩阵  $X'$  输入到基于多头注意力机制和 GAT 的窗口编码器中。窗口编码器的输出是时空特征矩阵  $H_1$ 。
4.  应用基于多尺度卷积和 GAT 的两个解码器分别产生重构矩阵  $Y_{21}$  和  $Y_{11}$ 。
5.  使用对抗学习训练 GA-Tran 网络。
6.  使用训练好的 GA-Tran 网络产生特征和重构。计算  $T^2$  和 SPE 统计量。给定适当的置信水平，执行核密度估计以确定其阈值。

#### 4.2.5.2. 在线监测阶段
1.  对实时测量样本进行归一化，并用于构建时间移动窗口矩阵。
2.  将时间移动窗口矩阵发送到训练好的 GA-Tran 网络以获得时空特征矩阵。将对应于实时样本的实时特征向量从特征矩阵中分离出来。
3.  将时空特征矩阵输入到 `decoder2` 以生成重构矩阵。将实时样本的重构向量从重构矩阵中分离出来。
4.  使用实时特征向量和实时样本的重构向量，根据公式 (34) 和 (35) 计算  $T^2$  和 SPE 统计量。
5.  将  $T^2$  和 SPE 统计量与它们的阈值进行比较。如果其中任何一个违反了阈值，则发出故障警报。否则，继续收集实时数据并执行故障检测程序。

# 5. 实验设置
## 5.1. 数据集
实验使用了**田纳西—伊士曼 (Tennessee Eastman, TE) 化学过程**。

![Fig. 7. Flowchart of Tennessee Eastman process.](/files/papers/69114ce3f9411b717895a524/images/10.jpg)
*该图像是田纳西东曼过程的流程图，展示了反应器、分离器和分析仪之间的连接及其控制阀、传感器和流量计等组件的布局。该流程图用于理解复杂工业过程的运作。*

图 7. 田纳西—伊士曼过程流程图。

*   **描述:** TE 过程是一个广泛用于验证过程监测方法的基准过程，由反应器、冷凝器、压缩机、分离器和汽提塔五个主要单元组成。
*   **故障类型:** 实验中设置了 21 种过程故障（16 种已知故障和 5 种未知故障）。
*   **变量数量:** 使用了 52 个过程变量进行故障检测。
*   **样本数量:**
    *   **离线阶段:** 使用 500 个来自正常操作条件下的样本进行建模。
    *   **在线阶段:** 对于每种故障操作条件，使用 960 个样本进行过程监测。每个故障在第 160 个样本之后引入。

## 5.2. 评估指标
论文中使用了两种核心评估指标来衡量故障检测方法的性能：**故障检测率 (Fault Detection Rate, FDR)** 和 **虚假报警率 (False Alarm Rate, FAR)**。

### 5.2.1. 故障检测率 (FDR)
*   **概念定义:** 故障检测率衡量的是模型成功检测到实际发生故障的样本占所有发生故障样本的比例。高 FDR 意味着模型能够有效地识别出系统中的异常情况，减少漏报。
*   **数学公式:**

\mathrm{FDR} = \frac{\text{检测到的故障样本数}}{\text{实际故障样本总数}} \times 100\%

*   **符号解释:**
    *   `检测到的故障样本数`: 模型正确地识别为故障状态的样本数量。
    *   `实际故障样本总数`: 在实验或数据集中真实发生故障的样本总数量。

### 5.2.2. 虚假报警率 (FAR)
*   **概念定义:** 虚假报警率衡量的是模型在实际正常操作条件下错误地发出故障警报的样本占所有正常样本的比例。低 FAR 表明模型能够避免误报，减少不必要的干预和资源浪费。
*   **数学公式:**

\mathrm{FAR} = \frac{\text{错误报警的正常样本数}}{\text{实际正常样本总数}} \times 100\%
\$\$

符号解释:
- 错误报警的正常样本数: 模型错误地识别为故障状态的正常样本数量。
- 实际正常样本总数: 在实验或数据集中真实处于正常操作条件的样本总数量。

5.2.3. 综合监测 (Combined Monitoring)

论文中提到，为了综合考虑 $T^2$ 和 SPE 统计量，只要任一统计量超过其阈值，就发出故障警报。基于此，引入了综合故障检测率 $FDR_{all}$ 和综合虚假报警率 $FAR_{all}$ 。这意味着如果一个样本被 $T^2$ 或 SPE 任一指标判定为异常，则被视为检测到故障。

5.3. 对比基线

论文将 GA-Tran 方法与以下 8 种方法进行了性能比较：

PCA (Principal Component Analysis): 传统线性统计方法。
KPCA (Kernel Principal Component Analysis): 非线性统计方法。
AE (Autoencoder): 基础深度学习无监督方法。
USAD (Unsupervised Anomaly Detection): 一种基于对抗训练的无监督异常检测方法。
LSTM (Long Short-Term Memory): 循环神经网络，擅长处理时间序列。
Transformer: 基础 Transformer 网络。
TranAD (Deep Transformer Networks for Anomaly Detection in Multivariate Time Series Data): 专门用于多变量时间序列异常检测的 Transformer 模型。
TS-GAT (Temporal and Spatial Graph Attention Network): 同时考虑时空信息的图注意力网络。

这些基线方法涵盖了从传统统计方法到各种深度学习方法的演进，包括专门针对时间序列和异常检测的先进模型，因此具有很强的代表性。

5.4. 超参数设置

PCA: 选择了 2 个主成分。
KPCA: 使用高斯核，选择了 42 个主成分。
AE, USAD, LSTM, Transformer, TranAD, TS-GAT, GA-Tran:
- 移动窗口宽度: 50 个样本。
- AE 潜在维度: 10。
- 解码器结构: 使用编码器的逆结构。
- 激活函数: ReLU。
- 优化器: Adam。
- 初始学习率: 0.01。
- 步长: 0.5。
GA-Tran 特有参数:
- Transformer 编码器: 52 维层，4 个注意力头，前馈网络大小为 16。
- Dropout 率: 位置编码层和编码器层均为 0.6。
- GAT: 特征注意力层具有 52 个特征，Dropout 率为 0.2。
- 多尺度卷积层: 使用 Conv1d 层，包含三个不同核大小：2, 4, 6。每个层步长为 1，并进行适当的填充以保持维度一致。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. GA-Tran 自身性能分析

以下是原文 Table 1 的结果，展示了所提出的 GA-Tran 方法在 Tennessee Eastman 过程上对 21 种故障的故障检测率 (FDR) 和虚假报警率 (FAR)：

Fault No.	FDR_SPE	FAR_SPE	FDR_T2	FAR_T2	FDR_all	FAR_all
1	99.6	0.6	99.9	5.6	99.9	5.6
2	98.7	2.5	98.6	4.4	98.7	4.4
3	6.9	3.1	13.6	1.9	16.6	3.1
4	97.6	4.4	100.0	1.9	100.0	5.0
5	87.0	3.1	89.1	1.9	97.2	3.8
6	100.0	1.3	100.0	1.3	100.0	1.3
7	100.0	1.3	100.0	0.6	100.0	0.6
8	97.5	1.9	98.4	4.4	98.4	4.4
9	6.4	10.0	9.9	15.0	13.1	20.6
10	59.8	2.5	88.9	0.6	89.0	2.5
11	68.5	1.9	94.1	4.4	94.4	4.4
12	99.6	2.5	99.7	3.8	99.9	5.0
13	95.4	1.3	95.6	2.5	95.7	2.5
14	100.0	3.1	100.0	3.1	100.0	3.8
15	10.3	1.9	17.3	3.1	20.8	3.1
16	38.9	12.5	90.5	18.8	90.9	23.8
17	89.9	1.9	97.6	2.5	97.6	3.1
18	90.1	1.9	91.7	1.9	91.9	2.5
19	24.7	1.3	79.0	0.0	79.6	0.6
20	68.6	0.0	90.7	1.3	90.9	1.3
21	41.8	1.3	62.3	6.3	62.3	6.3
Average	70.5	2.9	81.8	4.0	82.7	5.1

表 1. 所提出的 GA-Tran 方法的故障检测率 (FDR, %) 和虚假报警率 (FAR, %)。

从表 1 可以看出，GA-Tran 在多个故障上表现出优秀的检测性能。特别是对于故障 6 (进料损失的阶跃型故障)、故障 7 (C 压力损失的阶跃型故障) 和故障 14 (反应器冷却水阀门的粘性型故障)，其故障检测率均达到 100%。平均而言，GA-Tran 的综合故障检测率 ( $FDR_{all}$ ) 达到了 82.7%，综合虚假报警率 ( $FAR_{all}$ ) 为 5.1%。值得注意的是， $T^2$ 统计量通常比 SPE 统计量具有更高的检测率（平均 $81.8\%$ 对 $70.5\%$ ）。这表明监测编码器特征空间的变化对于故障检测是有效的。

6.1.2. 故障 5 的检测结果可视化分析

为了直观展示 GA-Tran 的检测性能，论文选择了故障 5 (冷凝器冷却水进口温度的阶跃型故障) 的检测结果，并与其他方法进行比较。

Fig. 8. The SPE detection results under the Fault 5 condition. 该图像是图表，展示了在故障 5 条件下不同方法的 SPE 检测结果。行中分别为 PCA、KPCA、AE、USAD、LSTM、Transformer、TranAD、TS-GAT 和 GA-Tran 的结果。各图的横轴为样本数，纵轴为 SPE 值，红线表示阈值。

图 8. 故障 5 条件下 SPE 检测结果。

图 8 展示了故障 5 条件下不同方法的 SPE 检测结果。可以看出，除了 GA-Tran 之外，所有其他方法都存在将正常状态与故障状态混淆的问题，即在故障发生后未能稳定且明显地超过阈值。GA-Tran 模型成功且准确地实现了检测，其 SPE 值在故障发生后显著且持续地超过了阈值。

$Fig. 9. The $T ^ { 2 }$ detection results under the Fault 5 condition.$ 该图像是图表，展示了在故障5条件下不同方法的 $T^2$ 检测结果，包含PCA、KPCA、AE、USAD、LSTM、Transformer、TranAD、TS-GAT 和 GA-Tran。每个子图显示了样本数与 $T^2$ 值的关系，红线标识阈值。

图 9. 故障 5 条件下 $T^2$ 检测结果。

图 9 展示了故障 5 条件下不同方法的 $T^2$ 检测结果。大多数 $T^2$ 检测模型都能够很好地区分正常和故障状态，但 GA-Tran 的 $T^2$ 统计量在故障发生后能更快、更清晰地突破阈值并保持高位。这进一步验证了 GA-Tran 模型同时考虑时空信息的优势，并证明了构建考虑模型中间生成部分的 $T^2$ 统计量的必要性。

6.1.3. 与其他方法的综合性能比较

以下是原文 Table 2 的结果，展示了 9 种方法的平均故障检测率 (FDR, %) 和平均虚假报警率 (FAR, %)。

Method	FDR_SPE	FAR_SPE	FDR_T2	FAR_T2	FDR_all	FAR_all
PCA	62.7	0.8	57.9	0.4	66.6	1.2
KPCA	68.2	0.8	64.7	0.5	75.5	1.2
AE	55.1	0.6	67.4	1.1	71.4	1.3
USAD	67.9	3.2	67.4	1.1	72.4	3.9
LSTM	47.3	1.3	72.2	5.1	72.9	6.6
Transformer	68.9	3.2	76.3	1.70	78.5	4.5
TranAD	65.4	3.7	78.2	2.8	80.5	5.8
TS-GAT	70.4	3.6	77.6	2.5	79.5	4.6
GA-Tran	70.5	2.9	81.8	4.0	82.7	5.1

表 2. 9 种方法的平均故障检测率 (FDR, %) 和平均虚假报警率 (FAR, %)。

从表 2 可以观察到：

非线性方法优于线性方法: 与 PCA 相比，KPCA 表现出更高的平均故障检测率，这表明非线性模型在处理复杂过程时更有效。
动态方法优于静态方法: 考虑时间依赖性的方法（如 LSTM, Transformer）通常优于静态模型（如 AE）。
深度学习方法优于传统方法: 深度学习方法通常比传统统计方法更敏感。

GA-Tran 性能最佳: 在所有 9 种方法中，GA-Tran 在 $FDR_{T2}$ 方面表现最佳，达到 81.8%。在 SPE 检测率方面，考虑到空间相关性的 TS-GAT 和 GA-Tran 都超过了 70%。GA-Tran 的平均 $T^2$ 和 SPE 统计量检测率分别提高到 81.8% 和 70.5%，其综合检测率达到 82.7%，是所有方法中最高的。这强调了同时考虑空间和时间特性对故障检测性能的提升作用。

以下是原文 Table 3 的结果，展示了 9 种方法对 21 种故障的综合检测率 (%)。

Fault No.	PCA	KPCA	AE	USAD	LSTM	Transformer	TranAD	TS-GAT	GA-Tran
1	99.8	99.8	99.7	99.7	99.9	99.9	98.7	99.6	99.9
2	98.6	98.8	98.6	98.6	98.7	98.7	98.9	98.7	98.7
3	2.3	2.8	13.5	12.3	5	9.5	13.5	10.4	16.6
4	99.6	100	95.5	87.2	100	100	97.2	92.4	100
5	26.5	60.3	39.4	39.8	47.1	79.7	94.5	96.7	97.2
6	100	100	100	100	100	100	94.5	97.7	100
7	100	100	100	100	100	100	97.7	92.4	100
8	97.6	98.3	98.4	98.6	98	98	98.7	97.7	98.4
9	3.6	3.9	11.4	13.9	5.6	10.4	10.4	10.1	13.1
10	53.6	83.6	66	73.8	80.4	82.7	85.6	92.1	89.0
11	69.5	71.1	67.1	72.2	85.9	85.1	93.5	78.2	94.4
12	98.9	99.4	99.5	99.6	100	99.7	99.7	99.0	99.9
13	95.5	95.6	95.5	95.5	95.6	95.6	95.6	99.0	95.7
14	100	100	100	100	100	100	94.5	94.1	100
15	4.1	8.5	19.1	19.3	11.9	17.4	16.9	13.1	20.8
16	45.0	84.9	63.3	68.1	73	85.2	89.7	96.2	90.9
17	94.0	95.5	94	94.2	97.4	97.4	97.4	91.5	97.6
18	90.5	90.3	91.1	91.7	90.4	91.6	91.9	89.4	91.9
19	14.5	75.4	31.3	36.3	18.4	48.9	56.3	69.4	79.6
20	56.3	69.4	67.8	71.1	73.7	81.2	83.6	90.5	90.9
21	48.9	48.1	44.9	48.9	50.4	50.6	54.2	62.8	62.3
Average	66.6	75.5	71.4	72.4	72.9	78.5	80.5	79.5	82.7

表 3. 9 种方法对 21 种故障的综合检测率 (%)。

从表 3 可以看出，所提出的 GA-Tran 方法在 21 种过程故障中的 13 种故障条件下实现了最佳或并列最佳的故障检测性能。

Fig. 10. The bar graph of average combined detection rate for 9 methods. 该图像是一个条形图，展示了9种方法的平均综合检测率。不同模型的检测率从66.6%到82.7%不等，其中GA-Tran表现最佳，达到了82.7%。

图 10. 9 种方法的平均综合检测率条形图。

图 10 的条形图直观地显示了 9 种方法的平均综合检测率。GA-Tran 以 82.7% 的平均综合检测率位居榜首，这进一步证明了其优越性。

6.2. 消融实验结果与参数讨论

为了评估 GA-Tran 网络中关键组件对网络性能的贡献，论文进行了消融实验。通过逐一移除或调整网络的特定部分，旨在揭示每个组件对整体性能的影响，并验证其有效性，从而更深入地理解网络的工作机制。消融实验的主题包括自注意力机制、时空组件 (Conv1d 和 GAT)、邻接矩阵优化和对抗训练。

以下是原文 Table 4 的结果，展示了消融实验的结果 (%)。

Ablation	FDR_SPE	FAR_SPE	FDR_T2	FAR_T2	FDR_all	FAR_all
w/o Self-attention	69.5	3.2	79.2	1.9	80.1	3.6
w/o Covn1d	60.5	2.0	81.7	4.1	81.9	4.9
w/o GAT	62.7	4.9	81.7	4.0	82.0	5.6
w/o Optimized Adj. Matrix	69.5	2.9	81.7	4.1	82.1	5.2
w/o Adversarial	69.6	3.4	79.5	2.1	80.3	3.8
GA-Tran	70.5	2.9	81.8	4.0	82.7	5.1

表 4. 消融实验结果 (%)。

自注意力机制 (Self-attention mechanism): 移除自注意力机制后，综合故障检测率从 82.7% 下降到 80.1%。这强调了自注意力机制在处理时间序列数据中的重要性，它有效捕捉了长期依赖。
时空组件 (Conv1d 和 GAT): 排除分别负责时空相关性分析的 Conv1d 和 GAT 会导致检测性能显著下降。
- 没有 Conv1d 时，SPE 故障检测率下降到 60.5%，这表明多尺度卷积对于捕捉短期时间依赖至关重要。
- 没有 GAT 时，SPE 故障检测率下降到 62.7%，这强调了 GAT 在分析变量间空间相关性方面的不可或缺性。这两个组件对于全面的数据分析都至关重要。
邻接矩阵优化 (Optimized Adj. Matrix): 当从 GA-Tran 模型中移除邻接矩阵优化时，SPE 故障检测率从 70.5% 下降 1.0% 至 69.5%。这一变化突显了邻接矩阵优化在增强模型故障检测能力方面的有效性。
对抗训练 (Adversarial Training): 对抗训练的整合将 SPE 故障检测率提高到 70.5%。这证实了对抗训练通过学习正常操作条件的详细特征，增强了模型在正常和异常条件之间进行区分的能力。

该图像是图表，展示了不同方法在故障检测率和虚假报警率上的结果。上半部分(a)显示了SPE、T²和综合故障检测率的百分比，比较了GA-Tran与其他方法的效果。下半部分(b)则展示了SPE、T²和综合虚假报警率的百分比，同样比较了GA-Tran与其他方法。各组条形图通过不同的颜色区分，清晰展示了各方法的性能差异。

图 11. 消融实验的故障检测结果。

图 11a 和 11b 中的条形图展示了消融实验结果。可以看出，当所有组件整合在一起时，GA-Tran 模型表现出最高的故障检测率和平衡的虚假报警率，这证明了其组合设计的有效性。自注意力机制、时空相关性分析和对抗训练，每个都在增强模型性能方面发挥着至关重要的作用。

6.2.1. 窗口宽度对性能的影响

窗口宽度是 GA-Tran 应用中的一个关键参数。

$Fig. 12. The influence of window width on fault detection rate $( \\% )$$ 该图像是图表，展示了窗口宽度对故障检测率的影响。图中以不同颜色表示了三种故障检测率 (FDR)，分别为SPE FDR（蓝色）、 $T^2$ FDR（绿色）和Combined FDR（橙色），X轴为窗口大小，Y轴为检测率（%）。

图 12. 窗口宽度对故障检测率 (%) 的影响。

图 12 展示了窗口宽度对故障检测率的影响。可以看出，综合检测率在窗口宽度为 50 时达到峰值。这表明选择合适的窗口宽度对于捕捉时间序列的动态特征至关重要。

$Fig. 13. The influence of window width on false alarm rate $( \\% )$ .$ 该图像是一个图表，展示了窗口宽度对假警报率（%）的影响。横轴表示窗口大小，纵轴表示假警报率。图中分别用不同颜色标记了三条曲线，蓝色表示SPE FAR，紫色表示T² FAR，红色表示联合FAR。可以观察到，随着窗口大小的变化，假警报率在不同检测方法中表现出不同的趋势。

图 13. 窗口宽度对虚假报警率 (%) 的影响。

图 13 展示了窗口宽度对虚假报警率的影响。随着窗口宽度的增加，虚假报警率首先增加然后下降。这可能与窗口过小导致信息不足而增加误报，以及窗口过大引入冗余信息或噪声从而影响判断有关。

Fig. 14. The influence of window width on an epoch training time(s). 该图像是一个图表，展示了窗口大小对每个训练周期时间（单位：秒）的影响。可以看出，随着窗口大小的增加，训练时间逐渐上升，反映了更大窗口需要更多的计算时间。

图 14. 窗口宽度对每个周期训练时间 (s) 的影响。

图 14 展示了窗口宽度对每个周期训练时间的影响。训练时间随着窗口宽度的增加而延长。这是因为更大的窗口宽度需要更多的计算资源。在实际应用中，需要平衡检测性能和计算成本来选择最佳窗口宽度。

总结: 所提出的 GA-Tran 方法是一种数据驱动的故障检测方法，不需要过程机理和知识。它能够提取长短期时间特征和空间特征，因此可以应用于具有长短期时间依赖、变量相关性和非线性特征的工业过程。GA-Tran 方法能够及时检测过程故障，并向操作员发出故障警报，从而有助于提高过程安全性和防止严重事故。

7. 总结与思考

7.1. 结论总结

本文提出了一种新颖的 GA-Tran 网络，用于非线性动态过程的故障检测。该网络利用 Transformer 的编码器模块提取长期时间信息，并通过引入基于谱聚类的图注意力网络 (GAT) 来提取空间信息。在解码器部分，引入多尺度卷积来捕捉过程数据中的短期时间依赖性。为了提高模型的鲁棒性和泛化能力，设计了两阶段对抗训练策略。此外，本文构建了基于编码器特征的 $T^2$ 统计量和基于重构误差的 SPE 统计量，用于多变量过程故障检测。在 Tennessee Eastman 化学过程上的仿真结果证实了所提出的 GA-Tran 故障检测方法具有卓越的性能，在综合故障检测率上优于多种现有方法。

7.2. 局限性与未来工作

论文作者指出了所提出网络的一个主要局限性：

黑盒模型缺乏可解释性: GA-Tran 作为一种深度学习模型，本质上是一个黑盒模型，其内部决策过程不透明，缺乏可解释性。这意味着虽然模型能够有效检测故障，但难以直接解释“为什么”会发生故障，或者具体是哪些变量相关性导致了故障。

针对这一局限性，作者提出了未来的研究方向：
分析变量相关性变化并提供更多故障信息: 如何分析变量相关性的动态变化，并提供更具解释性的故障信息，是未来值得深入研究的方向。这将有助于操作员更好地理解故障根源，从而采取更有效的干预措施。

7.3. 个人启发与批判

7.3.1. 个人启发

时空联合学习的必要性: 这篇论文的成功再次强调了在处理复杂工业过程数据时，同时考虑时间序列的动态性（长期和短期）以及变量间的空间相关性的重要性。很多现实世界问题都具有这种多维度特性，单纯关注单一维度往往会丢失关键信息。
Transformer 架构的灵活性: Transformer 及其自注意力机制的强大之处在于其不仅限于 NLP 领域，通过适当的修改和增强，可以有效地应用于各种时间序列和图结构数据。GA-Tran 成功地将 GAT 和多尺度卷积融入其中，展示了其强大的泛化能力。
领域知识引导模型优化: 谱聚类在构建先验邻接矩阵中的应用是一个很好的启发。它利用了过程变量可能存在的物理相关性（通过 DTW 距离衡量），将领域知识以结构化的方式融入到深度学习模型中，而非完全依赖数据驱动的端到端学习，这有助于提高模型的效率和合理性。
对抗训练的鲁棒性增益: 对抗训练不仅可以提高模型的泛化能力，使其对噪声和未见过的异常更加鲁棒，还能通过强制模型区分细微差异来增强其对正常模式的精细学习，从而提高异常检测的敏感性。
多指标监测的全面性: 同时使用基于特征空间 ( $T^2$ ) 和残差空间 (SPE) 的监测统计量，比单一指标能够提供更全面的过程状态视图，降低漏报和误报的风险。

7.3.2. 批判性思考与潜在改进

可解释性问题仍是核心挑战: 尽管作者指出了可解释性是未来的工作，但对于工业故障诊断而言，理解故障原因和定位故障源与检测故障本身同样重要，甚至更重要。目前的黑盒模型难以满足工业现场对可解释性的严格要求。未来的研究应探索如何将 GAT 的注意力权重可视化，或者结合 LIME/SHAP 等可解释性工具，为工程师提供更直观的洞察。
谱聚类和 DTW 的计算成本: 虽然谱聚类可以优化邻接矩阵，但 DTW 距离计算对于非常长的时间序列和大量变量而言，计算成本可能很高。在大规模工业应用中，这可能成为一个瓶颈。探索更高效的相似性度量或图学习方法，可能是一个方向。
超参数敏感性: 深度学习模型通常对超参数（如窗口宽度、学习率、dropout 率、卷积核大小、谱聚类中的簇数量 $N$ ）高度敏感。论文中对窗口宽度的分析表明了这一点，但对于其他超参数的敏感性分析较少。在实际部署前，需要大量的调优工作。
实时性要求: 工业过程的在线监测对实时性有较高要求。虽然 Transformer 相比 RNN/LSTM 更具并行性，但 GA-Tran 结合了多个复杂组件（多头注意力、GAT、多尺度卷积、对抗训练），其在线推理速度仍需仔细评估和优化，以确保能够满足工业实时性需求。
未知故障的泛化能力: 虽然 TE 过程包含未知故障，但模型在实际工业环境中对全新、未见过的故障模式的泛化能力，仍需要更广泛的验证。模型的性能可能受限于训练数据中正常模式的完整性和多样性。
阈值设定方法的鲁棒性: 核密度估计 (KDE) 用于阈值设定，其性能可能受到数据量、数据分布、核函数选择等因素的影响。在非稳态或存在轻微波动但非故障的工况下，KDE 确定的阈值是否足够鲁棒，需要进一步验证。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Fault detection of complicated processes based on an enhanced transformer network with graph attention mechanism

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 40 分钟读完 · 22,918 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

2.1.2. 为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白（Gap）？

2.1.3. 这篇论文的切入点或创新思路是什么？

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 深度学习 (Deep Learning)

3.1.2. Transformer 网络 (Transformer Network)

3.1.3. 图注意力网络 (Graph Attention Network, GAT)

3.1.4. 多尺度卷积 (Multi-scale Convolution)

3.1.5. 谱聚类 (Spectral Clustering)

3.1.6. 动态时间规整 (Dynamic Time Warping, DTW)

3.1.7. 对抗训练 (Adversarial Training)

3.1.8. T2T^2T2 统计量和 SPE 统计量

3.2. 前人工作

3.2.1. 传统数据驱动方法

3.2.2. 深度学习方法

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 数据预处理和位置编码

4.2.2. 窗口编码器 (Window Encoder)

4.2.2.1. 长期时间依赖特征提取

4.2.2.2. 空间相关性特征提取

5.2.3. 综合监测 (Combined Monitoring)

5.3. 对比基线

5.4. 超参数设置

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. GA-Tran 自身性能分析

6.1.2. 故障 5 的检测结果可视化分析

6.1.3. 与其他方法的综合性能比较

6.2. 消融实验结果与参数讨论

6.2.1. 窗口宽度对性能的影响

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判性思考与潜在改进

相似论文推荐

3.1.8. $T^2$ 统计量和 SPE 统计量