论文状态：已完成

ASTNet: Asynchronous Spatio-Temporal Network for Large-Scale Chemical Sensor Forecasting

发表：2025/08/03

大规模化学传感器预测 (1)时空依赖建模 (1)异步时空网络 (1)图融合机制 (1)化学工程应用 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为ASTNet的异步时空网络，旨在解决化工行业中大规模传感器数据预测的高延迟和复杂性问题。该方法结合时间和空间编码器，实现并发学习，同时引入门控图融合机制，适应性融合静态和动态传感器图。实验表明，ASTNet在预测准确性和计算效率上超越最先进的方法，成功应用于化工场景。

摘要

The chemical industry is faced with the urgent challenge of effectively harnessing the vast amounts of time-series data generated by thousands of sensors, which is essential for forecasting chemical states, achieving accurate real-time control of production processes. Traditional forecasting methods suffer from high computational latency and struggle with the complexity of spatiotemporal dependencies. As a result, modeling this data becomes challenging. This paper introduces a novel approach, referred to as ASTNet, designed to address these challenges. ASTNet integrates an asynchronous spatiotemporal modeling framework that combines temporal and spatial encoders, enabling concurrent learning of temporal and spatial dependencies while reducing computational latency. Additionally, it introduces a gated graph fusion mechanism that adaptively combines static (meta) and evolving (dynamic) sensor graphs, enhancing the handling of heterogeneous sensor data and spatial correlations. Extensive experiments on three real-world chemical sensor datasets demonstrate that ASTNet outperforms SOTA methods in terms of both prediction accuracy and computational efficiency, making ASTNet successfully deployed in chemical engineering industrial scenarios.

思维导图

论文精读

中文精读约 32 分钟读完 · 22,205 字

1. 论文基本信息

1.1. 标题

ASTNet: Asynchronous Spatio-Temporal Network for Large-Scale Chemical Sensor Forecasting (ASTNet：用于大规模化学传感器预测的异步时空网络)

1.2. 作者

Shihao Tu (涂士豪), Zhejiang University (浙江大学)
Yang Yang (杨阳)*, Zhejiang University (浙江大学)
Wenyue Ding (丁文月), SUPCON Technology Co., Ltd. (中控技术股份有限公司)
Yicheng Lu (陆一诚), Zhejiang University (浙江大学)
Qingkai Ren (任清楷), Zhejiang University (浙江大学)
Yupeng Zhang (张宇鹏), Zhejiang University (浙江大学)
Yin Zhang (张寅), Zhejiang University (浙江大学)

1.3. 发表期刊/会议

发表于 KDD '25 (The 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining V.2)，一个在数据挖掘和知识发现领域享有盛誉和影响力的国际顶级会议。

1.4. 发表年份

2025年

1.5. 摘要

化学工业面临着有效利用数千个传感器生成的大量时间序列数据以预测化学状态和实现生产过程的精确实时控制的紧迫挑战。传统的预测方法存在计算延迟高、难以处理时空依赖复杂性等问题，使得数据建模变得困难。本文提出了一种新颖的方法，称为 ASTNet，旨在解决这些挑战。ASTNet 集成了一个异步时空建模框架，该框架结合了时间编码器和空间编码器，能够并发学习时间依赖和空间依赖，同时减少计算延迟。此外，它引入了一种门控图融合机制，自适应地结合静态（元）和演变（动态）传感器图，增强了异构传感器数据和空间相关性的处理能力。在三个真实世界的化学传感器数据集上进行的广泛实验表明，ASTNet 在预测准确性和计算效率方面均优于最先进 (SOTA) 方法，使得 ASTNet 成功部署在化工行业场景中。

1.6. 原文链接

/files/papers/69368d6a325b5ce79291fc93/paper.pdf 发布状态：计划于2025-08-03T00:00:00.000Z在KDD '25会议上发表。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题： 如何在化工行业大规模、异构传感器网络产生的复杂时间序列数据中，实现低延迟、高精度的化学状态预测和实时过程控制。

为什么这个问题在当前领域是重要的：

生产安全与质量： 准确预测化学状态对于确保生产安全、提高产品质量至关重要。
能源与环境： 有助于实现节能减排。
实时决策： 传统方法的高计算延迟使得大规模传感器数据的实时预测不切实际，无法为生产过程提供及时反馈。
数据挑战： 化工生产过程具有漫长、动态的特点，传感器数据展现出复杂的空间依赖（传感器之间的关联）和长期时间依赖（时间序列的滞后效应和累积效应），这些时空依赖 (spatiotemporal dependency) 对传统建模方法构成了巨大挑战。此外，数千个传感器带来的数据异构性（如pH值、温度等不同物理量）也增加了建模难度。

现有研究存在哪些具体的挑战或空白 (Gap)：

计算延迟 (Computational latency)： 传统的时空建模 (spatiotemporal modeling) 方法通常采用顺序范式（先建模时间依赖，再建模空间依赖），这在面对大规模传感器时会导致显著的计算延迟，阻碍了实时预测。这种延迟源于顺序执行效率低下以及时间建模产生的高维表示增加了后续空间建模的复杂度。
长期时间依赖 (Long-term temporal dependency)： 化工过程存在固有的滞后效应 (time-lag effects) 和累积控制反馈 (cumulative control feedback)，需要长的回溯窗口 (lookback window) 来捕获，这会显著增加注意力机制 (attention-based models) 等模型的计算成本。
复杂空间依赖 (Complex spatial dependency)：
- 图拓扑的建模： 化工管道系统存在时间不变元图 (time-invariant meta graph)（如物理位置、因果关系）和时间可变动态图 (time-varying dynamic graph)（如生产任务、设备变化、维护）。手动构建元图不切实际且可能不准确，而动态图的变化增加了建模的复杂性。如何自动建模并有效融合这两种图结构是一个挑战。
- 数据异构性 (Heterogeneity)： 不同传感器记录的数据（如电流、温度、pH值、流量）具有不同的测量尺度和物理含义，模型需要能够识别并处理这些传感器特定属性 (sensor-specific properties)。

这篇论文的切入点或创新思路是什么： 本文通过引入异步时空建模框架 (asynchronous spatiotemporal modeling framework)，使时间依赖和空间依赖的学习能够并发进行，从而显著降低计算延迟。同时，设计门控图融合机制 (gated graph fusion mechanism)，自适应地结合静态元图 (meta graph)和动态传感器图 (dynamic sensor graphs)，并利用传感器特定指标 (sensor-specific indicators)来处理数据异构性，从而在预测精度和效率上取得突破。

2.2. 核心贡献/主要发现

首次提出异步时空建模策略： 针对大规模化学传感器预测，解决了传统顺序框架中的计算延迟问题，通过并行学习时间依赖和空间依赖，满足了化工生产中实时决策的需求。
设计新颖的动态图融合框架： 引入门控机制，自适应地整合时间不变元图 (time-invariant meta graphs)和时间可变动态图 (time-varying dynamic graphs)。这种方法平衡了异构传感器相关性，减少了错误的空间依赖 (spatial dependencies)，显著增强了模型在复杂工业环境中的鲁棒性。
在真实世界数据集上进行广泛实验并成功部署： 在三个包含数千个异构传感器的真实世界化学传感器数据集上进行了大量实验。定量结果表明，ASTNet 在预测准确性和效率方面均优于最先进 (SOTA) 的基线方法，平均平均绝对误差 (MAE) 提高了 7.4%，平均绝对百分比误差 (MAPE) 提高了 7.0%。ASTNet 已成功部署于化工厂的传感器数据预测与管理中。

3. 预备知识与相关工作

3.1. 基础概念

时间序列数据 (Time-series data)： 按照时间顺序排列的一系列数据点。在本文中，指的是化工传感器在固定时间间隔内（例如每5秒）记录的pH值、温度、电流等数据。
时空依赖 (Spatiotemporal dependency)： 指数据在时间和空间维度上都存在的相互关联性。
- 时间依赖 (Temporal dependency)： 时间序列中当前值与过去值之间的关系，例如电解电流的增加会在一段时间后导致氢气压力的增加（滞后效应），以及长期累积的控制反馈。
- 空间依赖 (Spatial dependency)： 不同传感器之间由于物理位置、工艺流程或因果关系而存在的关联性，例如处于同一生产线上的相邻传感器或互相影响的传感器。
计算延迟 (Computational latency)： 模型从接收输入到产生预测结果所需的时间。在化工实时控制场景中，低延迟是至关重要的。
图神经网络 (Graph Neural Networks - GNNs)： 一类专门处理图结构数据的深度学习模型。它们通过聚合节点邻居信息来学习节点的表示，从而捕获图中的结构依赖。在本文中，用于建模传感器之间的空间关系。
Transformer (Transformer)： 一种基于自注意力机制 (self-attention mechanism) 的深度学习模型，最初用于自然语言处理，后被广泛应用于时间序列预测。它能够有效地捕捉序列中的长距离依赖，并支持并行计算，解决了传统循环神经网络 (RNN) 的顺序计算效率问题。
- 自注意力机制 (Self-attention mechanism)： Transformer 的核心。它允许模型在处理序列中的一个元素时，同时关注序列中的所有其他元素，并根据它们的关联性分配不同的权重。其基本计算涉及查询 (Query, $Q$ )、键 (Key, $K$ ) 和值 (Value, $V$ ) 矩阵： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中， $Q$ , $K$ , $V$ 分别由输入序列通过线性变换得到， $d_k$ 是键向量的维度，用于缩放点积以防止梯度过大。 $\mathrm{softmax}$ 函数将注意力权重归一化。
补丁化词元化 (Patch-wise tokenization)： 一种将长序列分解为固定长度的“补丁”或“片段”的策略。每个补丁被视为一个词元 (token)。相较于点对点词元化 (point-wise tokenization)（每个时间步的数据作为一个词元），补丁化可以减少序列长度，降低计算复杂度，并更好地捕获局部时间模式。
非平稳性 (Non-stationarity) 与分布偏移 (Distribution shift)：
- 非平稳性： 指时间序列的统计特性（如均值、方差）随时间变化。化工数据常受设备磨损、工艺调整等影响，表现出非平稳性。
- 分布偏移： 训练数据和测试数据（或实际应用数据）的分布不一致。在时间序列预测中，这通常是由于数据随着时间推移发生变化而导致的，使得模型在未来数据上表现不佳。再归一化 (Re-Normalization) 是一种常见的处理策略。
元图 (Meta Graph)： 指的是静态 (static)、时间不变 (time-invariant) 的图结构，通常反映传感器之间固有的、长期稳定的物理位置或因果关系。
动态图 (Dynamic Graph)： 指的是时间可变 (time-varying) 的图结构，反映传感器之间因生产任务调整、设备状态变化或维护等因素而随时间演变的空间依赖 (spatial dependencies)。
传感器特定指标 (Sensor-specific indicators)： 为每个传感器分配的可学习参数，用于捕获其独特的属性和异构性，例如不同测量尺度的传感器。

3.2. 前人工作

论文将时空预测 (spatiotemporal forecasting) 的现有方法分为几类：

通用时间序列建模方法 (General Time Series Modeling)：
- 统计模型： ARIMA [22] 和 ETS [13]，能力有限。
- 深度学习模型（仅时间依赖）：
  - RNN [17] 和 LSTM [16]：能捕获长短期时间依赖，但计算延迟 (computational latency) 高，效率低。
  - Transformer-based models (如 Informer [45], Autoformer [37], PatchTST [30], iTransformer [28]): 通过注意力机制 (attention mechanisms) 提高了效率，尤其 PatchTST 通过补丁化词元化 (patch-wise tokenization) 降低了计算延迟，但这些模型通常忽略空间关联 (overlook spatial correlations)。
  - TSMixer [6], Crossformer [44], CCM [5], DUET [31]: Crossformer 使用交叉注意力 (cross-attention) 机制同时建模时空依赖 (spatiotemporal dependencies)，DUET 使用双编码器框架 (dual-encoder framework) 分别捕获时空依赖。这些模型试图解决时间序列 (time series) 之间的交互问题，但通常未针对大规模传感器数据和化工场景的特定挑战（如异构性、复杂动态图）进行优化。
时空建模方法 (Spatiotemporal Modeling)：
- 预定义图结构 + 顺序建模： DCRNN [25], GWNet [39], DGCRN [23]。这些方法依赖先验图 (prior graph) 来建立静态空间依赖 (static spatial dependencies)。
- 自动学习时间不变图： MTGNN [38], AGCRN [41], StemGNN [3]。这些模型从数据中自动推断时间不变图 (time-invariant graph)。
- 建模时间可变图： HimNet [8], MegaCRN [19], DMSTGCN [26]。这些模型处理动态空间依赖 (dynamic spatial dependency)。
- 效率导向方法： STID [33], SimST [27] (线性/低秩近似)，PatchSTG [10] (不规则空间分块)。这些方法旨在降低计算成本，但可能牺牲空间表达能力或引入额外开销。

这些方法的局限性：

不适用于化学传感器数据： 多数方法主要为交通、天气、电力预测设计，在化工领域表现不佳。
计算效率问题： 在大规模传感器和长期依赖场景下，存在高计算延迟问题。
短回溯窗口： 普遍使用短回溯窗口 (lookback windows) 进行短期预测，难以捕获化工数据中的长期时间依赖 (long-term temporal dependencies)。
图结构复杂性： 无法有效处理化工传感器高度异构性以及比公开数据集更复杂的传感器图 (sensor graphs)。

3.3. 技术演进

时空预测 (spatiotemporal forecasting) 领域经历了从早期统计模型 (statistical models)（如 ARIMA）到数据驱动方法 (data-driven approaches) 的演变。深度学习的引入带来了 RNN 和 LSTM 来捕获时间依赖 (temporal dependencies)，但其顺序计算限制了效率。Transformer 模型的出现，通过注意力机制 (attention mechanism) 和补丁化词元化 (patch-wise tokenization) 显著提升了处理长序列的效率。

在空间依赖 (spatial dependency) 建模方面，图神经网络 (GNNs) 成为关键技术。最初，GNNs 结合预定义图结构 (predefined graph structures)。随后，研究者们转向自动学习时间不变图 (automatically learning time-invariant graphs)，以减少人工干预和先验图 (prior graph) 的偏差。最近的进展是建模时间可变图 (time-varying graphs)，以适应动态空间依赖 (dynamic spatial dependency)。然而，这些方法在效率和处理化工数据特有复杂性方面仍有不足。ASTNet 正是在此背景下，结合了异步处理、门控图融合和异构性处理，进一步推动了大规模化学传感器 (chemical sensor) 时空预测 (spatiotemporal forecasting) 的发展。

3.4. 差异化分析

ASTNet 与现有方法的核心区别和创新点在于：

异步时空建模范式： 多数现有时空模型 (spatiotemporal models) 遵循顺序范式（先时间后空间或反之），导致计算延迟 (computational latency) 高。ASTNet 首次提出异步时空建模策略 (asynchronous spatiotemporal modeling strategy)，使时间编码器和空间编码器能够并行工作，显著降低了大规模传感器场景下的延迟，这对于化工生产的实时决策 (real-time decision-making) 至关重要。
门控图融合机制： 现有方法要么只考虑时间不变图 (time-invariant graphs)（如 MTGNN, AGCRN），要么只关注时间可变图 (time-varying graphs)（如 MegaCRN, HimNet），或缺乏有效的融合机制。ASTNet 通过门控图融合机制 (gated graph fusion mechanism)，自适应地结合时间不变元图 (time-invariant meta graph) 和时间可变动态图 (time-varying dynamic graph)。这种机制允许模型根据传感器状态自适应 (adaptively) 调整图结构的重要性，有效抑制不相关的空间依赖 (spatial dependencies)，增强了在化工复杂多变环境中的鲁棒性。
异构性处理和长时依赖捕获： ASTNet 通过引入传感器特定指标 (sensor-specific indicators) 来丰富时空表示 (spatiotemporal representations)，有效处理不同传感器数据的异构性。同时，采用补丁化词元化 (patch-wise tokenization) 且针对时间 ( $P_t$ ) 和空间 ( $P_s$ ) 建模使用不同补丁长度 (patch lengths) 的策略， $P_t$ 较短用于捕获时间序列的细微变化， $P_s$ 较长用于捕获粗粒度趋势，从而在捕获长期时间依赖 (long-term temporal dependencies) 的同时，平衡了模型容量和计算延迟。
实际工业部署验证： ASTNet 不仅在学术数据集上表现优越，更在三个真实世界的化工生产线中成功部署，并在实际场景中验证了其预测精度和效率，这证明了其强大的实用性和工业价值。

4. 方法论

4.1. 方法原理

ASTNet 的核心思想是克服传统时空预测 (spatiotemporal forecasting) 方法在处理大规模化学传感器 (chemical sensor) 数据时面临的高计算延迟 (high computational latency) 和复杂时空依赖 (complex spatiotemporal dependencies) 问题。它通过以下三个主要创新点实现这一目标：

异步时空建模范式： 传统方法按顺序处理时间依赖和空间依赖，效率低下。ASTNet 采用异步 (asynchronous) 方式，使时间编码器和空间编码器能够并行学习各自的依赖关系，从而显著缩短计算延迟 (computational latency)，满足实时预测 (real-time prediction) 的需求。
门控图融合机制： 化工传感器网络既有静态 (static) 的物理连接 (physical connections) 和因果关系 (causal relationships)（元图 (meta graph)），也有因生产条件变化而动态演变 (dynamically evolving) 的关联（动态图 (dynamic graph)）。ASTNet 融合这两种图，并通过门控机制 (gating mechanism) 自适应地 (adaptively) 调整它们的权重，以捕获复杂且不断变化的空间依赖 (spatial dependencies)，同时过滤掉可能引入错误相关性 (erroneous correlations) 的不重要连接。
异构性感知与高效时间依赖捕获： 考虑到化工传感器数据的显著异构性，ASTNet 引入传感器特定指标 (sensor-specific indicators) 来增强表示学习。同时，利用补丁化词元化 (patch-wise tokenization) 策略，并为时间建模和空间建模选择不同的补丁长度 (patch lengths)，以在捕获细粒度时间变化 (fine-grained temporal changes) 和粗粒度时间趋势 (coarser-grained temporal trends) 之间取得平衡，从而高效捕获长期时间依赖 (long-term temporal dependencies)。

这些设计共同使得 ASTNet 能够在保持高预测精度的同时，显著提高在大规模工业场景中的计算效率 (computational efficiency) 和鲁棒性 (robustness)。

4.2. 核心方法详解 (逐层深入)

ASTNet 框架（如原文 Figure 2 所示）旨在高效、全面地建模大规模化学传感器 (chemical sensor) 数据中复杂的时空依赖 (spatiotemporal dependencies)。

问题定义 (Problem Formulation)：

时空数据表示 (Representation of Spatiotemporal Data)： 时空数据 (spatiotemporal data) 可以表示为一个张量 $\mathbf{X}\in \mathbb{R}^{C\times T}$ ，其中 $C$ 代表传感器数量， $T$ 代表时间戳。张量 $\mathbf{X}$ 的每个条目 $\mathbf{X}_{c,t}$ 对应于第 $c$ 个传感器在第 $t$ 个时间戳的数据。例如，在化学传感器预测中，张量 $\mathbf{X}$ 可能存储以固定时间间隔（如每5秒）记录的pH值、温度、电流强度等数据。
时空预测 (Spatiotemporal Forecasting)： 时空预测 (spatiotemporal prediction) 的目标是根据历史观测数据 $\mathbf{X}_{t_{K - L + 1}:t_{K}}$ 来估计未来的状态 $\mathbf{X}_{t_{K + 1}:t_{K} + H}$ 。为简化表示，我们将预测的未来状态称为 $\mathbf{y}_{horizon}$ ，历史输入数据称为 $\mathbf{x}_{lookback}$ ，两者都是时间片。在此背景下，目标是通过分析 $L$ 个过去时间戳的序列来预测 $H$ 个未来时间戳。因此，这个过程可以形式化表示为 $\mathbf{y}_{horizon} = z(\mathbf{x}_{lookback})$ ，其中 $z(\cdot)$ 代表预测函数。

ASTNet 框架总览 (Overview)： 为了简化流程，我们定义一对回溯窗口 (lookback window) 和预测范围 (horizon window)（两个时间片）： $\mathbf{x}\in \mathbb{R}^{C\times L}$ 和 $\mathbf{y}\in \mathbb{R}^{C\times H}$ 。其中 $L$ 和 $H$ 分别表示回溯窗口和预测范围中的时间戳数量， $C$ 表示传感器数量。对这一对窗口进行的操作将一致地应用于数据集中所有其他窗口对。

ASTNet 首先进行时空嵌入 (spatiotemporal embedding) 过程，其中时间序列数据 $\mathbf{x}$ 经过再归一化 (re-normalization)、词元化 (tokenization) 和上下文融合 (context enrichment)，并使用两种不同的补丁长度 (patch lengths) ( $P_t < P_s$ )。这一步生成两个潜在表示 (latent representations)：细粒度时间嵌入 (fine-grained temporal embedding) $\mathbf{h}_t \in \mathbb{R}^{C\times N_t\times d}$ 和粗粒度空间嵌入 (coarse-grained spatial embedding) $\mathbf{h}_s \in \mathbb{R}^{C\times N_s\times d}$ 。接下来，空间嵌入 $\mathbf{h}_s$ 通过一个轻量级时间编码器 (lightweight temporal encoder) 生成一个改进的空间表示 (spatial representation) $\tilde{\mathbf{h}}_s$ 。 $\mathbf{h}_t$ 和 $\tilde{\mathbf{h}}_s$ 随后被异步地送入时间编码器 (temporal encoder) 和空间编码器 (spatial encoder)。重要的是，这些编码器可以并行运行。同步后，空间编码器生成一个动态图 (dynamic graph) $\mathbf{A}_{dynamic}$ 和一个精炼的空间表示 (spatial representation) $\tilde{\mathbf{h}}_s^{l+1}$ 。该动态图 $\mathbf{A}_{dynamic}$ 随后通过门控机制 (gating mechanism) 与元图 (meta graph) $\mathbf{A}_{meta}$ (使用传感器特定指标 (sensor-specific indicator)) 进行融合，生成一个统一图 (unified graph) $\mathbf{A}^l$ 。同时，时间编码器输出一个更新的时间表示 (temporal representation) $\tilde{\mathbf{h}}_t^l$ ，该表示通过统一图 $\mathbf{A}^l$ 进一步由空间依赖 (spatial dependencies) 进行精炼。最终得到的嵌入 $\mathbf{h}_t^{l+1}$ 和 $\tilde{\mathbf{h}}_s^{l+1}$ 随后传递给下一层的异步编码器 (asynchronous encoder)。最后，一个投影头 (projection head) 将最后一层的输出 $\mathbf{h}_t^{L_{layer}}$ 映射到 $\mathbf{y}_{horizon}$ ，并使用目标函数 $|\mathbf{y}_{horizon} - \hat{\mathbf{y}}_{horizon}|$ 来优化模型。

4.2.1. 时空嵌入 (Spatiotemporal Embedding)

再归一化 (Re-Normalization)： 为了解决传感器异构性 (sensor heterogeneity) 和时间序列非平稳性 (time series nonstationarity) 导致的分布偏移 (distribution shift) 问题，每个时间序列实例 $\mathbf{x}\in \mathbb{R}^{C\times L}$ 被归一化为 $\mathbf{x}_{norm}$ [20]。在生成预测后，一个再归一化 (re-normalization) 步骤会重新引入原始的均值和标准差，以恢复非平稳分量。
词元化 (Tokenization)： 点对点词元化 (point-wise tokenizing) 时间序列不仅无法有效捕获有意义的模式 [34]，还会显著增加计算复杂性 (computational complexity) [30]。为此，本文采用补丁化词元化 (patch-wise tokenization) 策略。具体来说，我们将 $\mathbf{x}_{norm}$ 分割成多个长度为 $P$ 、步长为 $S$ （相邻补丁之间的间隔）的补丁。得到的补丁序列为 $\mathbf{x}_{norm}^P \in \mathbb{R}^{C\times N\times P}$ ，其中 $N = \left\lfloor \frac{L - P}{S}\right\rfloor + 2$ 。为了确保序列完整性，原始序列在分割前会进行填充（最后一个值重复 $S$ 次）。随后，一个线性投影 (linear projection) 将每个补丁映射到其潜在表示 (latent representation)： $\mathbf{z} = \mathrm{Projection}(\mathbf{x}_{norm}^P)\in \mathbb{R}^{C\times N\times d} \quad (1)$
- 符号解释：
  - $\mathbf{z}$ : 经过线性投影后的潜在表示 (latent representation)，维度为 $C \times N \times d$ 。
  - $\mathrm{Projection}(\cdot)$ : 一个线性投影函数 (linear projection function)，将每个补丁映射到嵌入空间 (embedding space)。
  - $\mathbf{x}_{norm}^P$ : 归一化后的补丁序列，维度为 $C \times N \times P$ 。
  - $C$ : 传感器数量。
  - $N$ : 补丁数量。
  - $P$ : 补丁长度。
  - $d$ : 词元嵌入 (token embedding) 的维度。
上下文融合 (Context Incorporation)： 化工生产中，异构大规模传感器 (heterogeneous large-scale sensors)（如 pH 值传感器和电流传感器）很常见。通过将传感器特定指标 (sensor-specific indicators)（可学习参数）嵌入到时空表示 (spatiotemporal representation) 中，可以有效捕获它们的异构性。具体来说，为每个传感器分配一个可学习参数 $\mathbf{E}_{tag} \in \mathbb{R}^{C\times d}$ ，并结合位置编码 (positional encodings) $\mathbf{E}_{pos} \in \mathbb{R}^{N\times d}$ 。最终，增强的潜在表示 (latent representation) 如下： $\mathbf{h} = \mathrm{Concatenate}(\mathbf{E}_{tag},\mathbf{z} + \mathbf{E}_{pos})\in \mathbb{R}^{C\times (N + 1)\times d} \quad (2)$
- 符号解释：
  - $\mathbf{h}$ : 增强后的潜在表示 (latent representation)，维度为 $C \times (N+1) \times d$ 。
  - $\mathrm{Concatenate}(\cdot)$ : 拼接操作，将传感器特定指标 (sensor-specific indicator) 和位置编码 (positional encoding) 后的词元嵌入 (token embedding) 在序列长度维度上进行拼接。
  - $\mathbf{E}_{tag} \in \mathbb{R}^{C\times d}$ : 为每个传感器分配的可学习参数，作为传感器特定指标 (sensor-specific indicators)。
  - $\mathbf{z} \in \mathbb{R}^{C\times N\times d}$ : 词元嵌入 (token embedding)。
  - $\mathbf{E}_{pos} \in \mathbb{R}^{N\times d}$ : 位置编码 (positional encodings)，捕获序列中词元的位置信息。

4.2.2. Transformer 主干网络 (Transformer Backbone)

给定词元嵌入 (token embeddings) $\mathbf{h}\in \mathbb{R}^{C\times N\times d}$ ，我们采用标准的Transformer 编码器 (Transformer Encoder) 来获取从所有词元聚合而来的每个词元表示 (per-token representations)。在注意力层 (attention) 和前馈层 (feedforward layers) 之后应用层归一化 (LayerNorm [1]) 以提高训练稳定性。自注意力机制 (self-attention mechanism) 定义如下： $\begin{array}{r} \boldsymbol {\mathcal{A}}_{ij} = \mathbf{h}_i^\top \mathbf{W}_q\mathbf{W}_k^\top \mathbf{h}_j\\ \mathrm{Attention}(\mathbf{h}) = \mathrm{Softmax}\left(\frac{\boldsymbol{\mathcal{A}}}{\sqrt{d}}\right)\mathbf{h}\mathbf{W}_o \end{array} \quad (4)$

符号解释：
- $\boldsymbol{\mathcal{A}}_{ij}$ : 词元 $i$ 和词元 $j$ 之间的注意力分数 (attention score)。
- $\mathbf{h}_i^\top$ : 词元 $i$ 的转置嵌入向量。
- $\mathbf{W}_q, \mathbf{W}_k, \mathbf{W}_o \in \mathbb{R}^{d\times d}$ : 分别是将词元嵌入 (token embeddings) $\mathbf{h}$ 投影到 $d$ 维查询 (queries)、键 (keys) 和值 (values) 的权重矩阵 (weight matrices)。
- $\mathrm{Attention}(\mathbf{h})$ : 注意力机制 (attention mechanism) 的输出。
- $\mathrm{Softmax}(\cdot)$ : Softmax 函数 (Softmax function)，将注意力分数归一化为概率分布。
- $d$ : 词元嵌入的维度，也用于缩放注意力分数 (attention scores)。 Transformer 主干网络 (Transformer backbone) 由多层这种注意力机制 (attention mechanism) 组成，后面跟着一个前馈网络 (Feedforward Network - FFN)，在将词元表示 (token-wise representations) 传递到下一层之前对其进行增强。通过排列 $\mathbf{h}$ ，注意力机制 (attention mechanism) 可以分别应用于时间维度 (temporal) 和空间维度 (spatial)。

4.2.3. 时间建模 (Temporal Modeling)

化工过程中的时间序列数据具有长期依赖 (long-term dependencies) 和非线性动力学 (nonlinear dynamics) 的特点。长期依赖源于滞后效应 (lag effects) 和控制反馈循环 (control feedback loops) 的累积影响，而非线性动力学则体现在周期性波动、非平稳行为和复杂趋势中。为了建模这些特性，采用了Transformer。具体来说，在时空嵌入 (spatiotemporal embedding) 过程中使用较小的 $P_t$ 来获得细粒度嵌入 (fine-grained embedding) $\mathbf{h}_t^l \in \mathbb{R}^{C\times N_t\times d}$ 。然后，应用Transformer 编码器 (Transformer encoder) 来生成信息更丰富的嵌入。第 $l$ 层的操作形式化定义如下： $\tilde{\mathbf{h}}_t^l = \mathrm{TransformerEncorder}(\mathbf{h}_t^l) \quad (5)$

符号解释：
- $\tilde{\mathbf{h}}_t^l$ : 经过时间编码器 (temporal encoder) 处理后，在第 $l$ 层更新的时间表示 (temporal representation)。
- $\mathrm{TransformerEncoder}(\cdot)$ : Transformer 编码器 (Transformer encoder)，用于捕获时间依赖 (temporal dependencies)。
- $\mathbf{h}_t^l$ : 第 $l$ 层的输入细粒度时间嵌入 (fine-grained temporal embedding)。

4.2.4. 空间建模 (Spatial Modeling)

在化工领域，管道系统 (pipeline systems) 可以使用基于静态 (static)、时间不变 (time-invariant) 的物理设备 (physical equipment) 和传感器关系 (sensor relationships) 的传感器网络 (sensor network) 进行建模。然而，对于每个工厂来说，由于传感器数量庞大，手动构建先验图 (prior graph) 是不切实际的，而且预定义图 (predefined graphs) 可能存在偏差或不准确。生产任务 (production tasks)、设备 (equipment) 或维护 (maintenance) 的动态变化会引入拓扑变化 (topological variations)，因此自动建模 (automatically modeling) 时间不变拓扑 (time-invariant topologies) 和时间可变拓扑 (time-varying topologies) 都至关重要。

为了解决这个问题，ASTNet 提出了一种结合时间不变 (time-invariant) 和时间可变 (time-varying) 传感器图 (sensor graphs) 的空间建模 (spatial modeling) 方法。具体来说，时间不变传感器图 (time-invariant sensor graph)，称为元图 (meta graph)，是从 $\mathbf{E}_{tag}$ 中导出的。传感器 (sensors) 之间的动态图 (dynamic graph) 通过跨空间维度 (spatial dimension) 的注意力机制 (attention mechanism) 进行建模。最后，通过对元图 (meta graph) 和动态图 (dynamic graph) 应用门控图融合 (gated graph fusion) 来获得潜在传感器图 (latent sensor graph)。详细组件如下：

轻量级时间编码器 (Lightweight Temporal Encoder)： 为了降低计算开销 (computational overhead)，ASTNet 引入了一个轻量级时间编码器 (lightweight temporal encoder)，以高效地建模传感器的时间数据 (temporal data)。具体来说，在时空嵌入 (spatiotemporal embedding) 过程中使用更大的 $P_S$ 来获得粗粒度时间嵌入 (coarse-grained temporal embedding) $\mathbf{h}_s \in \mathbb{R}^{C\times N_s\times d}$ ，我们使用另一个Transformer 来建模此输入： $\tilde{\mathbf{h}}_s = \mathrm{TransformerEncoder}(\mathbf{h}_s) \quad (6)$
- 符号解释：
  - $\tilde{\mathbf{h}}_s$ : 经过轻量级时间编码器 (lightweight temporal encoder) 处理后的粗粒度时间嵌入 (coarse-grained temporal embedding)。
  - $\mathrm{TransformerEncoder}(\cdot)$ : Transformer 编码器 (Transformer encoder)，在此处用于对粗粒度时间序列 (coarse-grained time series) 进行建模。
  - $\mathbf{h}_s$ : 粗粒度时间嵌入 (coarse-grained temporal embedding) 的输入。
元图 (Meta Graph)： 元图 (meta graph) 由传感器嵌入 (sensor embeddings) $\mathbf{E}_{tag}$ 构建。这个元图 (meta graph) 是通过以下公式推导的： $\mathbf{A}_{meta} = \mathrm{Softmax}(\mathrm{ReLU}(\mathbf{E}_{tag}\mathbf{E}_{tag}^\mathrm{T})) \quad (7)$
- 符号解释：
  - $\mathbf{A}_{meta}$ : 元图 (meta graph)，一个时间不变 (time-invariant) 的邻接矩阵 (adjacency matrix)，表示传感器之间的静态相关性 (static correlations)。
  - $\mathrm{Softmax}(\cdot)$ : Softmax 函数 (Softmax function)，用于归一化相关性强度，使其成为概率分布。
  - $\mathrm{ReLU}(\cdot)$ : ReLU 激活函数 (ReLU activation function)，引入非线性并确保相关性非负。
  - $\mathbf{E}_{tag}$ : 传感器特定指标 (sensor-specific indicators) 组成的嵌入矩阵。 元图 (meta graph) $\mathbf{A}_{meta}$ 通过计算 $\mathbf{E}_{tag}$ 的点积 (dot product)，应用 ReLU(\cdot) 函数，然后用 Softmax(\cdot) 操作进行归一化来计算。 $\mathbf{A}_{meta}$ 中的每个元素 (i,j) 表示第 $i$ 个传感器嵌入和第 $j$ 个传感器嵌入之间的相关强度 (correlation strength)。
动态图 (Dynamic Graph)： 传感器 (sensors) 之间的时空依赖 (spatiotemporal dependencies) 会因过程条件调整 (process condition adjustments)、设备状态波动 (equipment state fluctuations) 和控制策略干预 (control strategy interventions) 而演变。为了建模这种动态性，Transformer 自适应地 (adaptively) 学习跨空间维度 (spatial dimension) 的相关强度 (correlation strengths)，将 $\tilde{\mathbf{h}}_s^l$ 转换为 $\tilde{\mathbf{h}}_s^{l+1}$ ，作为下一层的输入。这个过程通过聚合注意力权重 (attention weights) 构建一个动态邻接矩阵 (dynamic adjacency matrix) $\mathbf{A}_{dynamic}^l$ 。该机制形式化定义为： $\mathbf{A}_{\text{dynamic}}^{l},\tilde{\mathbf{h}}_{s}^{l + 1} = \mathrm{TransformerEncoder}(\mathbf{\tilde{h}}_{s}^{l}) \quad (8)$
- 符号解释：
  - $\mathbf{A}_{\text{dynamic}}^{l}$ : 第 $l$ 层学习到的动态图 (dynamic graph) 邻接矩阵 (adjacency matrix)，表示传感器之间随时间变化的空间依赖 (spatial dependencies)。
  - $\tilde{\mathbf{h}}_{s}^{l + 1}$ : 经过Transformer 编码器 (TransformerEncoder) 处理后，在第 $l+1$ 层更新的粗粒度空间嵌入 (coarse-grained spatial embedding)。
  - $\mathrm{TransformerEncoder}(\cdot)$ : Transformer 编码器 (Transformer encoder)，用于学习动态空间相关性 (dynamic spatial correlations)。
  - $\mathbf{\tilde{h}}_{s}^{l}$ : 第 $l$ 层的输入粗粒度空间嵌入 (coarse-grained spatial embedding)。
门控图融合 (Gated Graph Fusion)： 在化工管道 (chemical engineering pipelines) 运行中，在某些时刻，某些传感器可能不表现出显著的相关性。然而，在现有建模方法 (modeling approaches) 中，静态相关矩阵 (static correlation matrix) $\mathbf{A}_{meta}$ 和动态相关矩阵 (dynamic correlation matrix) $\mathbf{A}_{dynamic}$ 都包含非零值，这可能在捕获空间依赖 (spatial dependencies) 时引入错误相关性 (erroneous correlations)，从而降低预测准确性 (prediction accuracy)。

为了解决这个问题，本文提出了一种基于门控机制 (gating-mechanism-based) 的方法来校正空间依赖 (spatial dependencies)。具体来说，我们首先利用 $\mathbf{A}_{dynamic}^l$ 来确定每个传感器的状态，并生成一个门控矩阵 (gating matrix) $\omega$ 来自适应地 (adaptively) 调整最终的空间依赖矩阵 (spatial dependency matrix) $\mathbf{A}^l$ 。该方法通过以下公式实现： $\omega = \mathrm{Sigmoid}(p(\mathbf{A}_{\text{dynamic}}^l))\in \mathbb{R}^C \quad (9)$ $\mathbf{A}^{l} = \omega \cdot (\mathbf{A}_{meta} + \mathbf{A}_{\mathrm{dynamic}}^{l}) \quad (10)$
- 符号解释：
  - $\omega \in \mathbb{R}^C$ : 门控向量 (gating vector)，每个元素代表一个传感器的门控权重 (gating weight)。
  - $\mathrm{Sigmoid}(\cdot)$ : Sigmoid 函数 (Sigmoid function)，将传感器状态信息 (sensor state information) 映射到 $(0,1)$ 区间，生成门控权重 (gating weights)。
  - $p(\cdot)$ : 一个可学习的线性映射函数 (learnable linear mapping function)，从 $\mathbf{A}_{dynamic}^l$ 中提取传感器状态信息 (sensor state information)。
  - $\mathbf{A}^{l}$ : 最终的统一图 (unified graph) 邻接矩阵 (adjacency matrix)，用于第 $l$ 层的空间依赖 (spatial dependencies)。
  - $\mathbf{A}_{meta}$ : 元图 (meta graph) 邻接矩阵 (adjacency matrix)。
  - $\mathbf{A}_{\mathrm{dynamic}}^{l}$ : 第 $l$ 层学习到的动态图 (dynamic graph) 邻接矩阵 (adjacency matrix)。
  - $\cdot$ : 元素级乘法 (element-wise multiplication)。这里， $p(\cdot)$ 是一个可学习的线性映射函数 (learnable linear mapping function)，从 $\mathbf{A}_{dynamic}^l$ 中提取传感器状态信息 (sensor state information)，Sigmoid(\cdot) 函数将此状态信息 (state information) 映射到 $(0,1)$ 区间，生成门控权重 (gating weights)。 $\omega$ 与 $(\mathbf{A}_{meta} + \mathbf{A}_{dynamic}^l)$ 的元素级乘法 (element-wise multiplication) 有效地抑制了不相关的传感器相关性 (sensor correlations)，从而提高了空间依赖建模 (spatial dependency modeling) 的准确性。

4.2.5. 异步融合 (Asynchronous Fusion)

传统的融合技术 (fusion techniques) 通常采用顺序范式 (sequential paradigm)，优先处理时间依赖建模 (temporal dependency modeling)，然后是空间依赖建模 (spatial dependency modeling) [10, 41, 44]。这种范式效率低下，尤其是在传感器数量众多或实时预测 (real-time forecasting) 需求严格的情况下，无法与应用场景 (application scenario) 相符。

为了解决这个问题，本文提出了一种异步融合范式 (asynchronous fusion paradigm)，以并发地 (concurrently) 整合时间特征 (temporal features) 和空间特征 (spatial features)，从而实现并行计算 (parallel computation) 并降低计算延迟 (computational latency)，使其适用于大规模化学传感器 (chemical sensors) 的实时预测 (real-time forecasting)。

具体来说，我们设计了一个多层复合编码器 (composite encoder) $z(\cdot)$ ，它包含一个时间编码器 (temporal encoder) $f(\cdot)$ 和一个空间编码器 (spatial encoder) $g(\cdot)$ 。模型异步但协作地提取时间特征 (temporal features) 和空间特征 (spatial features)，平衡了准确性和效率。在每一层 $l$ ， $f(\cdot)$ 和 $g(\cdot)$ 在并行计算 (parallel computation) 过程中相互同步。之后，它们生成更新的表示 (representations) 供下一层使用。总层数用 $L_{layer}$ 表示。操作定义如下： $\begin{array}{rl} & {\mathsf{h}_t^{l + 1},\tilde{\mathsf{h}}_s^{l + 1} = z(f(\mathbf{h}_t^l),g(\tilde{\mathbf{h}}_s^l))}\\ & {\qquad \tilde{\mathsf{h}}_t^l = f(\mathbf{h}_t^l)}\\ & {\qquad \tilde{\mathsf{h}}_s^{l + 1},A^l = g(\tilde{\mathbf{h}}_s^l)}\\ & {\qquad \mathsf{h}_t^{l + 1} = \mathrm{Norm}(\mathrm{FFN}(A^l\tilde{\mathsf{h}}_t^l) + \tilde{\mathsf{h}}_t^l)} \end{array} \quad (14)$

符号解释：
- $z(\cdot)$ : 多层复合编码器 (composite encoder)，协调时间编码器 (temporal encoder) 和空间编码器 (spatial encoder) 的输出。
- $f(\cdot)$ : 时间编码器 (temporal encoder)。
- $g(\cdot)$ : 空间编码器 (spatial encoder)。
- $\mathbf{h}_t^l$ : 第 $l$ 层的输入时间表示 (temporal representation)。
- $\tilde{\mathbf{h}}_s^l$ : 第 $l$ 层的输入空间表示 (spatial representation)。
- $\tilde{\mathsf{h}}_t^l$ : 经过时间编码器 (temporal encoder) $f(\cdot)$ 处理后的时间表示 (temporal representation)。
- $\tilde{\mathsf{h}}_s^{l + 1}$ : 经过空间编码器 (spatial encoder) $g(\cdot)$ 处理后的空间表示 (spatial representation)，同时输出统一图 (unified graph) $A^l$ 。
- $A^l$ : 第 $l$ 层的统一图 (unified graph)（经过门控图融合 (gated graph fusion)），用于增强时间表示 (temporal representation)。
- $\mathsf{h}_t^{l + 1}$ : 经过空间依赖 (spatial dependencies) 增强后的，在第 $l+1$ 层更新的时间表示 (temporal representation)。
- $\mathrm{Norm}(\cdot)$ : 归一化操作 (normalization operation)。
- $\mathrm{FFN}(\cdot)$ : 前馈网络 (Feedforward Network)。
- $+ \tilde{\mathsf{h}}_t^l$ : 残差连接 (residual connection)。各层输出的 $\mathsf{h}_t^{l + 1}$ 和 $\mathsf{h}_s^{l + 1}$ （在公式中第一个等式左侧，表示作为下一层输入）作为下一层的输入，逐步精炼时空表示 (spatiotemporal representations)。这里的 $\mathsf{v}_l^l$ 和 $\tilde{\mathsf{v}}_s^l$ 在原文中与前面描述的 $\mathbf{h}_t^l$ 和 $\tilde{\mathbf{h}}_s^l$ 对应，代表相应编码器的输入。特别地，公式的最后一行展示了异步融合 (asynchronous fusion) 的关键步骤：统一图 (unified graph) $A^l$ 被用来修改时间表示 (temporal representation) $\tilde{\mathsf{h}}_t^l$ ，从而实现了空间依赖 (spatial dependencies) 对时间依赖 (temporal dependencies) 的增强。

5. 实验设置

5.1. 数据集

为了验证 ASTNet 的有效性，研究在三个真实世界的大规模化工生产线 (chemical engineering production lines) 传感器数据上进行了广泛实验。这些数据集由中控技术股份有限公司 (SUPCON Technology Co., Ltd.) 提供，该公司是中国领先的工业自动化和控制技术公司，并获得了合作方的使用许可。这三个数据集代表了化工行业的典型场景，包括氯碱工业 (chlor-alkali)、石油工业 (petroleum) 和煤化工工业 (coal chemical industries)。每个化工厂都拥有超过1000个传感器，数据采样频率为5秒，这确保了能够充分捕获化工过程 (chemical processes) 中的动态变化 (dynamic changes)。

以下是原文 Table 1 的结果：

Datasets	#Sensors	#Timestamps	#TimeSlices	Timespan
A	1113	7102078	284083	20230601-20240715
B	1557	20165630	161325	20230114-20240103
C	2377	19178805	153430	20240107-20240822

数据集特点和选择理由：
- 大规模： 每个数据集都包含超过1000个传感器，这符合论文解决大规模传感器预测问题的目标。
- 真实世界来源： 数据来自实际工业生产环境，确保了研究的实用性 (practicality) 和相关性 (relevance)。
- 领域多样性： 涵盖氯碱、石油、煤化工等典型化工场景，验证了模型在不同工业环境下的泛化能力 (generalization ability)。
- 高采样频率： 5秒的采样频率保证了能够捕获化工过程 (chemical processes) 的动态变化 (dynamic changes) 和细微波动 (subtle fluctuations)。

数据预处理 (Preprocessing)： 数据预处理 (data preprocessing) 涉及处理缺失值 (missing values) 和异常值 (anomalous values)。

缺失值处理：
- 对于由子生产线停机 (sub-production line suspensions) 或设备维护 (equipment maintenance) 引起的缺失值，采用零填充 (zero-filling)。专家评估认为这符合物理意义，并有效避免了对模型训练的负面影响。
- 对于因传感器故障 (sensor failures) 或数据传输中断 (data transmission interruptions) 引起的缺失值，采用线性插值 (linear interpolation) 进行填充。
异常值处理： 中控技术 (SUPCON) 的专业数据团队基于统计方法 (statistical methods) 和领域知识 (domain knowledge) 筛选数据中的异常序列 (anomalous sequences)，排除了由设备故障 (equipment failures) 或测量误差 (measurement errors) 引起的离群值 (outliers)，从而确保了数据质量 (data quality) 和有效性 (validity)。
数据标准化： 化工过程 (chemical processes) 中的传感器数据 (sensor data) 通常具有不同的单位和范围（例如，温度单位是 $^\circ \mathrm{C}$ ，压力单位是 MPa），因此对数据进行了标准化 (standardization)，以防止某些参数过度影响模型训练。

数据集划分 (Dataset Split)： 为确保实验的严谨性 (rigor)，每个数据集都严格按照时间顺序划分，训练集、验证集和测试集的比例为6:2:2。具体来说，前60%的数据用于训练，接下来的20%用于验证，最后20%用于测试。这种划分有效防止了因数据泄露 (data leakage) 导致的模型评估偏差 (model evaluation bias)。考虑到化工过程 (chemical processes) 涉及稀疏序列数据 (sparse sequential data) 且模型训练成本高昂，采用滑动窗口方法 (sliding window method)，窗口大小为25步，从每个时间片 (time slice) 获取样本，使模型能够处理一定长度的历史数据 (historical data)。每个时间片 (time slice) 的回溯窗口长度 (lookback window length) 设置为256，这有助于模型捕获长期依赖 (long-term dependencies)。

5.2. 评估指标

为了全面评估模型的性能，我们使用了三个常见的预测评估指标 (forecasting evaluation metrics)：平均绝对误差 (Mean Absolute Error, MAE)、均方根误差 (Root Mean Squared Error, RMSE) 和平均绝对百分比误差 (Mean Absolute Percentage Error, MAPE)。这些指标有助于评估模型的准确性，同时考虑到传感器噪声 (sensor noise) 和化工传感器数据 (chemical sensor data) 中可能出现的突发波动 (abrupt fluctuations)。

平均绝对误差 (Mean Absolute Error, MAE)：
- 概念定义： MAE 衡量预测值 (predicted values) 和实际值 (actual values) 之间的平均绝对差。它对异常波动和噪声具有鲁棒性 (robustness)，能有效匹配真实传感器数据。MAE 不对误差进行平方，从而降低了传感器数据 (sensor data) 中因测量精度问题 (measurement accuracy issues) 引起的异常值 (anomalous values) 的影响，增强了评估参考 (evaluative reference)。
- 数学公式： $\mathrm{MAE} = \frac{1}{H}\sum_{i = 1}^{H}\Big|\hat{\mathbf{y}} _{horizon}^{(i)} - \mathbf{y}_{horizon}^{(i)}\Big| \quad (15)$
- 符号解释：
  - $\hat{\mathbf{y}}_{horizon}^{(i)}$ : 第 $i$ 个预测值 (predicted value)。
  - $\mathbf{y}_{horizon}^{(i)}$ : 第 $i$ 个实际值 (actual value)。
  - $H$ : 预测范围 (horizon) 中的未来时间戳数量。
均方根误差 (Root Mean Squared Error, RMSE)：
- 概念定义： RMSE 量化预测值 (predicted values) 和实际值 (actual values) 之间平方差 (squared differences) 的平均值的平方根。它对大误差 (large errors) 敏感，有助于评估模型的准确性。通过对均方误差 (Mean Squared Error, MSE) 取平方根，RMSE 解决了 MSE 单位不一致的问题，提供了一个与原始数据单位相同的误差度量，更好地描述损失 (losses)。
- 数学公式： $\mathrm{RMSE} = \sqrt{\frac{1}{H}\sum_{i = 1}^{H}(\hat{\mathbf{y}} _{horizon}^{(i)} - \mathbf{y}_{horizon}^{(i)})^2} \quad (16)$
- 符号解释：
  - $\hat{\mathbf{y}}_{horizon}^{(i)}$ : 第 $i$ 个预测值 (predicted value)。
  - $\mathbf{y}_{horizon}^{(i)}$ : 第 $i$ 个实际值 (actual value)。
  - $H$ : 预测范围 (horizon) 中的未来时间戳数量。
平均绝对百分比误差 (Mean Absolute Percentage Error, MAPE)：
- 概念定义： MAPE 反映预测误差 (prediction errors) 相对于实际值 (actual values) 的百分比，提供了相对误差 (relative errors) 的视角。以百分比形式表示的 MAPE 能够跨不同数据量级 (data magnitudes) 进行比较，为不同尺度和单位的数据提供一致的误差评估 (error assessments)，有助于比较模型在不同数据集和传感器节点 (sensor nodes) 上的性能。
- 数学公式： $\mathrm {MAPE}=\frac {100\%}{H}\sum _{i=1}^{H}\left|\frac {\mathbf{y}_{horizon}^{(i)}-\hat {\mathbf{y}}_{horizon}^{(i)}}{\mathbf{y}_{horizon}^{(i)}}\right|\tag{17}$
- 符号解释：
  - $\hat{\mathbf{y}}_{horizon}^{(i)}$ : 第 $i$ 个预测值 (predicted value)。
  - $\mathbf{y}_{horizon}^{(i)}$ : 第 $i$ 个实际值 (actual value)。
  - $H$ : 预测范围 (horizon) 中的未来时间戳数量。
    
    这些指标从多个角度评估模型性能，全面考虑它们可以对模型在真实传感器数据 (sensor data) 上的表现进行彻底评估。

5.3. 对比基线

本文对11个最先进 (SOTA) 的基线模型与提出的 ASTNet 进行了全面比较。这些基线根据其底层建模方法 (underlying modeling approaches) 系统地分为三类：

非空间建模方法 (Non-spatial modeling-based methods)： 仅关注时间依赖 (temporal dependencies) 建模的预测模型。
- PatchTST [30]: Transformer 模型，将输入序列分割成固定长度的补丁 (patches) 作为词元 (tokens)，通过补丁注意力机制 (patch-based attention mechanism) 有效建模时间依赖。
- PDF [7]: 周期性解耦框架 (periodicity decoupling framework)，通过独立建模序列的周期性 (periodic) 和非周期性 (non-periodic) 分量来提高预测精度。
时间不变空间建模方法 (Time-invariant spatial-based methods)： 自动学习时间不变传感器图 (time-invariant sensor graphs) 并结合时间建模 (temporal modeling) 来解决时空预测任务 (spatiotemporal forecasting tasks)。
- STID [33]: 时空身份框架 (spatial-temporal identity framework)，利用简单但有效的嵌入来捕获时空依赖 (spatiotemporal dependencies)，无需复杂架构。
- AGCRN [41]: 自适应图卷积循环网络 (adaptive graph convolutional recurrent network)，结合图卷积网络 (GCN) 和循环神经网络 (RNN) 动态捕获交通数据 (traffic data) 中的空间依赖 (spatial dependencies) 和时间模式 (temporal patterns)。
- MTGNN [38]: 多元时间序列预测框架 (multivariate time series forecasting framework)，利用图神经网络 (GNN) 联合建模序列间依赖 (inter-series dependencies) 和时间模式 (temporal patterns)。
- StemGNN [42]: 谱时空图神经网络 (spectral temporal graph neural network)，结合图傅里叶变换 (GFT) 和时间卷积 (temporal convolution) 在谱域 (spectral domain) 捕获空间依赖 (spatial dependencies) 和时间动态 (temporal dynamics)。
时间可变空间建模方法 (Time-varying spatial-based methods)： 动态捕获不同时间段的空间依赖 (spatial dependencies)，用于时空预测 (spatiotemporal forecasting)。
- MegaCRN [19]: 时空元图学习框架 (spatio-temporal meta-graph learning framework)，采用元图 (meta-graphs) 和图卷积循环网络 (GCRN) 自适应地 (adaptively) 建模交通数据 (traffic data) 中复杂的时空依赖 (spatiotemporal dependencies)。
- HimNet [8]: 异构性感知元参数学习框架 (heterogeneity-informed meta-parameter learning framework)，通过元学习 (meta-learning) 自适应地 (adaptively) 学习任务特定参数 (task-specific parameters)，以解决跨空间 (spatial) 和时间维度 (temporal dimensions) 的异构模式 (heterogeneous patterns)。
- PatchSTG [10]: 基于Transformer (Transformer-based) 的大规模交通预测框架 (large-scale traffic forecasting framework)，引入补丁化方法 (patch-based approach) 高效管理空间数据 (spatial data)，实现可扩展 (scalable) 的时空依赖建模 (spatiotemporal dependency modeling)，降低计算复杂性 (computational complexity)。
- Crossformer [44]: 基于Transformer (Transformer-based) 的多元时间序列预测模型 (multivariate time series forecasting model)，通过新颖的注意力机制 (attention mechanism) 整合序列间 (inter-series) 和序列内 (intra-series) 关系，明确利用跨维度依赖 (cross-dimension dependencies)。
- DUET [31]: 双聚类增强多元时间序列预测框架 (dual clustering-enhanced framework for multivariate time series forecasting)，整合聚类机制 (clustering mechanisms) 以捕获全局 (global) 和局部模式 (local patterns)，改进多元时间序列 (multiple time series) 复杂依赖的建模。

5.4. 实现细节

在训练过程中，ASTNet 使用 Adam 优化器 (Adam optimizer) 进行优化，学习率设置为0.0003，所有数据集的训练周期 (epochs) 均设置为40，早停 (early stopping) 耐心 (patience) 设置为5。采用余弦学习率调度器 (cosine learning rate scheduler)。由于传感器规模庞大，数据集A的批量大小 (batch size) 设置为8，数据集B和C设置为4。每个实验重复5次，报告平均结果。ASTNet 在数据集A、B、C上的默认超参数 (hyper-parameters) 如下：回溯窗口长度 (lookback window length) 256，嵌入维度 (embedding dimension) $d=128$ ，注意力头数量 (number of heads) 4，前馈网络 (feedforward network) 维度 512。此外，所有数据集都使用 $P_t=16$ 和 $P_s=64$ ，时空层 (spatiotemporal layers) 的数量设置为2。所有实验均在 PyTorch 中使用8块 NVIDIA RTX 3090 24GB GPU 实现。

6. 实验结果与分析

6.1. 核心结果分析 (RQ1)

以下是原文 Table 2 的结果：

Datasets	Methods	Horizon 60				Horizon 120				Horizon 360				Average
Datasets	Methods	MAE	RMSE	MAPE (%)	MAE	RMSE	MAPE (%)	MAE	RMSE	MAPE (%)	MAE	RMSE	MAPE (%)
A	PatchTST	0.243	9.143	47.903	0.271	11.092	51.277	0.322	12.639	65.049	0.281	11.090	57.847
	PDF	0.215	9.111	41.730	0.247	8.971	45.290	0.331	11.346	54.650	0.264	9.869	47.223
	STID	0.232	8.295	44.910	0.260	9.499	49.130	0.313	11.962	56.770	0.268	9.919	50.270
	AGCRN	0.237	8.564	47.490	0.261	9.467	50.740	0.319	12.106	59.210	0.272	10.046	52.480
	MTGNN	0.203	4.092	41.350	0.230	4.913	46.100	0.311	10.731	55.540	0.248	6.578	47.663
	StemGNN	0.182	6.960	38.380	0.218	8.249	43.910	0.315	11.958	56.500	0.238	9.056	46.263
	MegaCRN	0.202	8.046	38.790	0.220	8.372	40.250	0.294	11.748	56.728	0.238	9.389	45.256
	HimNet	0.162	7.678	31.460	0.191	8.683	35.500	0.276	11.189	48.290	0.210	9.184	38.417
	Crossformer	0.191	7.462	38.710	0.222	8.138	42.000	0.287	10.853	50.690	0.233	8.817	43.800
	DUET	0.184	7.762	33.170	0.217	8.307	37.920	0.297	11.092	49.220	0.233	9.053	40.103
	PatchSTG	0.150	6.603	30.260	0.181	8.003	34.710	0.257	11.175	46.010	0.196	8.594	36.993
ASTNet	0.182	2.446	78.886	0.274	13.771	115.773	0.342	19.905	92.995	0.266	12.041	95.885
B	PatchTST	0.197	2.125	73.159	0.227	10.750	90.045	0.315	16.539	92.054	0.245	9.805	85.086
	PDF	0.197	5.767	105.430	0.216	11.401	108.910	0.245	13.891	84.270	0.212	8.531	76.833
	STID	0.192	9.472	81.770	0.210	13.753	85.350	OOM	OOM	OOM	-	-	-
	AGCRN	0.169	8.659	67.900	0.194	13.241	74.100	OOM	OOM	OOM	-	-	-
	MTGNN	0.161	11.883	38.350	0.194	9.600	74.330	OOM	OOM	OOM	-	-	-
	StemGNN	0.172	9.048	67.640	0.191	11.638	71.850	0.229	14.404	81.430	0.197	11.697	73.640
	MegaCRN	0.160	6.979	64.070	0.179	9.699	68.280	0.221	13.144	75.050	0.187	9.941	69.133
	HimNet	0.174	7.739	68.830	0.187	11.202	82.110	0.227	13.485	80.210	0.194	10.809	73.717
	Crossformer	0.175	7.599	68.720	0.198	10.814	72.990	0.236	14.399	80.790	0.203	10.937	74.167
	DUET	0.153	7.446	57.810	0.176	10.068	62.850	0.221	13.690	72.460	0.183	10.401	64.373
	ASTNet	0.095	4.622	32.039	0.141	5.536	42.203	0.284	32.390	50.638	0.173	14.183	41.627
C	PatchTST	0.095	4.535	28.940	0.119	5.465	36.822	0.268	31.708	60.702	0.174	14.181	42.729
	PDF	0.095	4.675	30.662	0.119	5.536	39.141	0.254	31.810	54.004	0.156	14.007	41.269
	STID	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM
	AGCRN	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM
	MTGNN	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM
	StemGNN	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM
	MegaCRN	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM	OOM
	HimNet	0.090	4.509	28.660	0.112	5.409	35.790	0.245	31.428	54.490	0.149	13.782	39.647
	Crossformer	0.094	4.444	28.310	0.118	5.321	36.000	0.252	31.439	55.330	0.155	13.735	39.880
	DUET	0.092	4.394	28.170	0.117	5.308	35.560	0.250	31.547	54.990	0.153	13.750	39.573
	ASTNet	0.088	4.340	27.910	0.111	5.195	34.610	0.242	31.291	53.690	0.147	13.609	38.770

Table 2 展示了在三个真实世界大规模化学传感器数据集 (large-scale chemical sensor datasets) 上，所有方法在预测范围 (horizons) 为60（5分钟）、120（10分钟）和360（30分钟）以及所有预测范围 (horizons) 的平均性能的平均绝对误差 (MAE)、均方根误差 (RMSE) 和平均绝对百分比误差 (MAPE)。粗体文本表示最佳指标，带下划线的文本表示次佳指标。“OOM”表示方法内存不足 (ran out of memory)，相应的空平均结果表示为“-”。

核心结果分析： 从 Table 2 的结果可以看出，ASTNet 框架在所有数据集和不同预测范围 (horizons) 下均优于所有基线方法 (baseline methods)，与最佳竞争方法 (competing methods) 相比，平均 MAE 提高了 7.4%，MAPE 提高了 7.0%，这表明了 ASTNet 的优越性。

性能提升的主要原因归结为以下几点：

异构性处理能力： STID 和 HimNet 已经能够有效利用传感器特定指标 (sensor-specific indicators) 来处理传感器异构性 (sensor heterogeneity)，其表现优于 PatchTST 和 PDF 等未采用此策略的模型。ASTNet 通过引入传感器特定指标 (sensor indicators) 来处理传感器异构性 (sensor heterogeneity)，旨在同时增强时间依赖 (temporal dependencies) 和空间依赖 (spatial dependencies) 的建模。
全面图建模能力： MTGNN 和 AGCRN 仅考虑时间不变图 (time-invariant graph)，而 MegaCRN 和 HimNet 则整合了时间可变图 (time-varying graph)，并取得了更好的结果。ASTNet 通过建模元图 (meta graph) 和动态图 (dynamic graph)，同时处理时间不变图 (time-invariant) 和动态图 (dynamic)，有效捕获了化工过程 (chemical engineering processes) 中传感器之间的动态关系 (dynamic relationships)，并展现出更好的泛化能力 (generalization ability) 来捕获不变关系 (invariant relationships)。
门控图融合机制的优势： 化工管道 (chemical engineering pipelines) 大多处于稳定运行状态 (stable operation state)，通常不存在传感器干扰 (sensor interference)。ASTNet 利用传感器特定指标 (sensor-specific indicators) 学习元图 (meta graph)，通过注意力机制 (attention mechanisms) 建模动态图 (dynamic graphs)，最后使用门控机制 (gating mechanism) 整合图结构。这使得模型能够自适应地 (adaptively) 选择是否考虑传感器图结构 (sensor graph structure)，这是其他模型无法实现的。例如，当传感器间没有显著关联时，门控机制可以抑制这些连接，减少错误相关性 (erroneous correlations)。

观察到的其他趋势：

非空间建模方法 (PatchTST, PDF)： 通常表现较差，尤其是在预测范围 (horizons) 较长时，这凸显了空间依赖 (spatial dependencies) 在大规模传感器预测 (large-scale sensor forecasting) 中的重要性。
时间不变空间建模方法 (STID, AGCRN, MTGNN, StemGNN)： 在一定程度上改善了性能，但由于未能捕获动态空间依赖 (dynamic spatial dependencies)，其表现仍受限，并且 AGCRN 和 MTGNN 在数据集B和C上出现了内存不足 (OOM)。
时间可变空间建模方法 (MegaCRN, HimNet, Crossformer, DUET, PatchSTG)： 普遍优于时间不变 (time-invariant) 方法，这印证了动态图 (dynamic graph) 建模的重要性。然而，ASTNet 仍然表现出更好的性能，这归因于其独特的异步融合 (asynchronous fusion) 和门控图融合 (gated graph fusion) 机制。
大规模数据集的挑战： 对于数据集B和C，许多基线方法 (baseline methods) 出现了内存不足 (OOM)，表明了在大规模传感器场景下计算效率 (computational efficiency) 的严峻挑战。ASTNet 在这些数据集上能够稳定运行并表现优异，进一步验证了其设计优势。

6.2. 消融实验/参数分析 (RQ2)

以下是原文 Table 3 的结果：

Model	A ↓	B ↓	C ↓
w/o A^l	0.2382	0.2582	0.1334
w/o ω	0.2228	0.2138	0.1204
w/o A_meta	0.2089	0.2094	0.1174
w/o A_dynamic	0.2306	0.2345	0.1353
w/o E_tag	0.2134	0.1956	0.1282
ASTNet	0.1957	0.1833	0.1101

本节通过分析五个模型变体，展示了消融研究 (ablation studies)，以验证所提出方法的关键组件：

w/o A^l: 移除空间依赖建模 (spatial dependency modeling)，以评估其影响。
w/o ω: 用静态向量 (static vector) 替换门控机制 (gated mechanism)，以测试自适应图整合 (adaptive graph integration)。
w/o A_meta: 移除元图 (meta graph)，以评估时间不变空间依赖 (time-invariant spatial dependencies)。
w/o A_dynamic: 移除动态图 (dynamic graph) 和门控融合 (gated fusion)，以测试时间可变空间依赖 (time-varying spatial dependencies)。
w/o E_tag: 移除可学习的传感器特定指标 (learnable sensor-specific indicator)，限制模型捕获传感器异构性 (sensor heterogeneity) 的能力。

消融实验结果分析： 如 Table 3 所示，所有变体都导致了性能下降，这验证了 ASTNet 各个组件的有效性：

移除空间建模 (w/o A^l)： 导致预测准确性显著下降（在数据集A上从0.1957上升到0.2382），突出了捕获空间依赖 (spatial dependencies) 的重要性。这表明仅依靠时间建模不足以处理大规模化学传感器 (chemical sensor) 数据。
移除门控机制 (w/o ω)： 显示出中等程度的性能下降（在数据集A上从0.1957上升到0.2228），表明静态图整合 (static graph integration) 无法有效地适应动态传感器条件 (dynamic sensor conditions)。门控机制 (gating mechanism) 对于自适应地 (adaptively) 调整图结构 (graph structure) 的重要性至关重要，它能有效抑制不相关的相关性 (irrelevant correlations)。
移除元图 (w/o A_meta)： 导致性能进一步下降（在数据集A上从0.1957上升到0.2089），表明时间不变空间关系 (time-invariant spatial relationships) 在保持鲁棒性 (robustness) 方面发挥着关键作用。这意味着即使有动态图 (dynamic graph)，静态 (static) 的基础连接仍然是不可或缺的。
移除动态图 (w/o A_dynamic)： 变体表现最差（在数据集A上从0.1957上升到0.2306），证实了时间可变空间依赖 (time-varying spatial dependencies) 在动态演变 (dynamically evolving) 的化工生产过程 (chemical production processes) 中是必不可少的。这说明化工传感器 (chemical sensors) 之间的关系并非一成不变，模型必须能够捕获这些变化。
移除传感器特定指标 (w/o E_tag)： 降低了模型性能（在数据集A上从0.1957上升到0.2134），强调了它们在处理传感器异构性 (sensor heterogeneity) 方面的必要性。没有这些指标，模型难以区分不同类型传感器（如pH和温度）的独特属性，从而影响预测精度。

综上所述，所有ASTNet 的关键组件，包括空间依赖建模 (spatial dependency modeling)、门控图融合 (gated graph fusion)、元图 (meta graph)、动态图 (dynamic graph) 和传感器特定指标 (sensor-specific indicators)，都对模型的优越性能至关重要。

6.3. 效率比较 (RQ3)

以下是原文 Table 4 的结果：

Model	#Params	Cost Time	Mem Usage
STID	72.98K	6.92ms	1209.84MB
AGCRN	762.76K	-	OOM
MegaCRN	420.48K	3261.41ms	1211.17MB
HimNet	1232.90K	1951.72ms	1502.26MB
StemGNN	482870.90K	274.24ms	3054.38MB
MTGNN	49008.04K	624.83ms	1398.85MB
Crossformer	16127.52K	104.16ms	1286.50MB
PatchSTG	4506.27K	153.85ms	1402.52MB
DUET	7571.80K	121.49ms	1270.95MB
ASTNet w/o Async	1604.55K	37.59ms	1248.43MB
ASTNet	1604.55K	26.49ms	1248.43MB

ASTNet 的计算延迟 (computational latency) 在包含1000个传感器和256长度回溯窗口 (lookback window) 的大规模传感器场景中，与九个时空基线模型 (spatiotemporal baseline models) 进行了评估。为确保测量准确性，GPU 在运行每个模型前都通过复杂的预计算任务（例如大规模矩阵乘法）进行预热 (pre-warmed)，并且每个测试重复5次，报告平均结果。Table 4 提供了关于参数数量 (#Params)、 $\text{每时间片运行时间} (per-timeslice runtime,$ t_\text{cost}) 和每时间片 GPU 内存使用量 (GPU memory usage, Mem usage) 的全面分析。

效率比较分析：

STID 的优势： STID 由于其线性投影机制 (linear projection mechanism) 的高计算效率 (computational efficiency) 而表现良好。
GCRU 架构模型的劣势： 相比之下，依赖 GCRU 架构 (GCRU architecture) 的模型（如 AGCRN, MegaCRN, HimNet）由于 RNN 的迭代性质 (iterative nature)，面临显著的效率差距，导致高延迟。值得注意的是，AGCRN 在此设置下出现了内存不足 (out-of-memory, OOM) 问题。
复杂架构和点对点词元化的挑战： 类似地，具有复杂架构和点对点词元化 (point-wise tokenization) 的模型（如 StemGNN, MTGNN）由于其庞大的可学习参数数量而导致高 GPU 内存使用量 (high GPU memory usage) 和延迟 (latency)。
补丁化词元化和并行计算的优势： 采用补丁化词元化 (patch-wise tokenization) 和并行计算 (parallel computation) 的模型（如 Crossformer, PatchSTG, DUET）取得了具有竞争力的性能，且计算延迟 (computational latency) 和内存使用量 (memory usage) 较低。然而，PatchSTG 由于其复杂的不规则空间分区 (irregular spatial partitioning) 产生额外开销，而 DUET 因其双聚类机制 (dual clustering mechanism) 产生额外成本。这两个模型也都依赖顺序范式 (sequential paradigm) 进行时空依赖建模 (spatiotemporal dependency modeling)。
ASTNet 的卓越效率： 相比之下，ASTNet 采用异步时空建模范式 (asynchronous spatiotemporal modeling paradigm)，并为时间建模 (temporal modeling) 和空间建模 (spatial modeling) 使用不同的补丁长度 (patch lengths)，提供了卓越的计算效率 (computational efficiency)。其 $\text{每时间片运行时间} ($ t_\text{cost}) 仅为 26.49ms，是所有模型中最快的。
异步计算的贡献： ASTNet w/o Async 变体（移除了异步计算 (asynchronous computation)）虽然仍在延迟 (latency) 和GPU 内存使用量 (GPU memory usage) 方面保持了竞争力（37.59ms），但与完整的 ASTNet 相比，其运行时间 (runtime) 增加了约 42% ( $(37.59 - 26.49) / 26.49 \approx 0.42$ ) ，这明确证明了异步计算 (asynchronous computation) 对于降低计算延迟 (computational latency) 的关键贡献。

6.4. 超参数研究 (RQ4)

下图（原文 Figure 3）绘制了超参数 (hyper-parameters) 对代表性数据集A的影响。

fig 4 该图像是一个图表，展示了不同参数设置对预测模型性能的影响，包括时间嵌入值 $P_t$ 、空间嵌入值 $P_s$ 、回溯窗口长度 $L$ 以及嵌入维度 $d$ 。每个子图中均显示了MAE（蓝色线条）和MAPE（红色线条）的变化趋势，反映了这些参数在不同范围内对预测精度的影响。

Figure 3: Hyperparameter Study of ASTNet

本节研究了关键超参数 (hyperparameters) 对模型性能的影响，评估指标为平均绝对误差 (MAE) 和平均绝对百分比误差 (MAPE)。讨论了四个关键超参数 (hyperparameters)： $P_t$ (时间嵌入补丁长度 (Temporal Embedding Patch Length))、 $P_s$ (空间嵌入补丁长度 (Spatial Embedding Patch Length))、 $L$ (回溯窗口长度 (Length of Lookback Window)) 和 $d$ (嵌入维度 (Embedding Dimension))。

时间嵌入补丁长度 $P_t$ (Temporal Embedding Patch Length $P_t$ )： 左上角的图显示了不同时间嵌入补丁长度 (temporal embedding patch length) $P_t$ 的影响。结果表明，模型的 MAE 随着 $P_t$ 的增加而持续改善，在 $P_t = 32$ 时达到最小值，之后性能略有下降。MAPE 指标也呈现类似趋势，在 $P_t = 32$ 时观察到最佳性能。这表明适度的补丁长度 (patch length) 能够有效地捕获时间依赖 (temporal dependencies)，而不会引入过多的复杂性。过短的补丁无法捕获足够的信息，过长的补丁可能引入不必要的噪声或模糊细节。
空间嵌入补丁长度 $P_s$ (Spatial Embedding Patch Length $P_s$ )： 右上角的图显示了空间嵌入补丁长度 (spatial embedding patch length) $P_s$ 对模型性能的影响。与时间补丁长度 (temporal patch length) 不同，模型在 $P_s = 8$ 时在 MAE 和 MAPE 方面表现最佳，随着 $P_s$ 的增加，性能略有下降。这表明空间依赖建模 (modeling spatial dependencies) 不需要非常细粒度的特征 (fine-grained features)，与时间依赖建模 (modeling temporal dependencies) 相反。对于空间信息，更粗粒度的补丁可能更能有效地捕获传感器之间的整体趋势和关联，而过细的粒度可能引入局部噪声并增加无关细节。
回溯窗口长度 $L$ (Length of Lookback Window $L$ )： 左下角的图显示了回溯窗口长度 (lookback window length) $L$ 的影响。MAE 随着 $L$ 从64增加到128而下降，但对于更长的回溯窗口 (lookback windows)（例如在 $L = 1024$ 时），性能趋于平稳甚至略微恶化。MAPE 呈现类似趋势。这表明模型受益于适度的回溯窗口大小 (lookback window size)，它在捕获足够的历史上下文 (historical context) 和避免因过多数据而过拟合 (overfitting) 之间取得了良好平衡，过多的数据可能会引入更多噪声和冗余信息，对预测准确性产生负面影响。
嵌入维度 $d$ (Embedding Dimension $d$ )： 右下角的图评估了嵌入维度 (embedding dimension) $d$ 。MAE 和 MAPE 随着 $d$ 从32增加到128而显著改善。然而， $d$ 的进一步增加导致收益递减 (diminishing returns)，性能开始稳定。这表明大约128的嵌入维度 (embedding dimension) 在表示能力 (representational capacity) 和模型复杂性 (model complexity) 之间取得了平衡，避免了欠拟合 (underfitting) 和过拟合 (overfitting)。

7. 总结与思考

7.1. 结论总结

ASTNet 提出了一种用于化学传感器网络 (chemical sensor networks) 实时时空预测 (real-time spatiotemporal forecasting) 的新颖方法，成功解决了计算延迟 (computational latency) 和复杂空间依赖 (complex spatial dependencies) 的挑战。其核心创新在于：

异步建模框架： 通过使时间编码器 (temporal encoder) 和空间编码器 (spatial encoder) 并行工作，显著降低了大规模传感器数据处理的计算延迟 (computational latency)。
门控图融合机制： 自适应地 (adaptively) 结合了时间不变元图 (time-invariant meta graphs) 和时间可变动态图 (time-varying dynamic graphs)，有效处理了异构传感器数据 (heterogeneous sensor data) 和空间相关性 (spatial correlations)，增强了模型在复杂工业环境中的鲁棒性 (robustness)。
卓越的性能与效率： 在三个真实的大规模化学传感器数据集 (large-scale chemical sensor datasets) 上进行的广泛实验表明，ASTNet 在预测准确性（MAE 提高 7.4%，MAPE 提高 7.0%）和计算效率方面均优于最先进 (SOTA) 方法。
成功工业部署： ASTNet 已成功部署于化工工程工业场景 (chemical engineering industrial scenarios)，为实时决策和生产过程管理提供了有力支持，验证了其巨大的实际应用价值。

7.2. 局限性与未来工作

原文在结论部分并未明确指出 ASTNet 自身的局限性 (limitations) 或未来工作 (future work)。然而，从论文的讨论中可以推断出一些潜在的考虑点：

潜在局限性：

对传感器特定指标的依赖： ASTNet 依赖于传感器特定指标 (sensor-specific indicators) ( $\mathbf{E}_{tag}$ ) 来捕获异构性。虽然这在现有数据集上有效，但这些可学习参数 (learnable parameters) 的泛化能力 (generalization) 可能在面对全新的、与训练数据分布差异很大的传感器类型或化学过程时受到限制。
图融合机制的解释性： 门控图融合机制 (gated graph fusion mechanism) 虽然有效，但其内部如何自适应地 (adaptively) 调整权重以及哪些传感器之间的连接被抑制，可能缺乏直观解释性 (interpretability)。在化工领域，工程师可能需要更透明地理解模型为何做出某种预测，尤其是在异常预警 (early warning) 场景中。
超参数敏感性： 尽管进行了超参数研究 (hyperparameter study)，但模型在不同数据集和场景下对补丁长度 (patch lengths) ( $P_t, P_s$ )、回溯窗口 (lookback window) ( $L$ ) 和嵌入维度 (embedding dimension) ( $d$ ) 的敏感性 (sensitivity) 仍需仔细调整，这在实际部署中可能增加调优成本 (tuning cost)。
数据缺失模式： 论文提到了对缺失值 (missing values) 的处理策略（零填充和线性插值），但并未深入探讨不同缺失模式 (missing patterns)（例如，随机缺失、非随机缺失）对模型性能的潜在影响，以及 ASTNet 在极端数据稀疏 (data sparsity) 情况下的表现。

可能的未来工作方向（基于上述局限性）：

增强模型的可解释性 (Interpretability)： 开发更具解释性 (interpretable) 的图融合机制 (graph fusion mechanisms)，例如通过可视化门控权重 (gating weights) 或识别关键空间依赖 (spatial dependencies)，帮助工程师理解模型决策。
更强的泛化能力 (Generalization)： 探索领域自适应 (domain adaptation) 或元学习 (meta-learning) 技术，使模型能够更好地泛化 (generalize) 到新的化学过程 (chemical processes) 或传感器配置 (sensor configurations)，减少对特定传感器指标 (sensor indicators) 的依赖。
鲁棒的缺失值处理： 研究更先进的缺失值插补 (missing value imputation) 方法，特别是在数据稀疏 (data sparsity) 较高或存在复杂缺失模式 (missing patterns) 的情况下，以进一步提高模型的鲁棒性 (robustness)。
多任务学习 (Multi-task learning)： 考虑到化工过程的复杂性，未来的工作可以探索将预测任务 (forecasting task) 与其他相关任务（如异常检测 (anomaly detection)、故障诊断 (fault diagnosis)）相结合的多任务学习 (multi-task learning) 框架，以实现更全面的智能管理 (intelligent management)。

7.3. 个人启发与批判

个人启发：

异步范式的重要性： ASTNet 提出的异步时空建模范式 (asynchronous spatiotemporal modeling paradigm) 是一个非常重要的启发。在许多实时系统 (real-time systems) 中，计算延迟 (computational latency) 是瓶颈。将通常顺序执行的两个主要组件（如时间建模和空间建模）解耦并使其并行化 (parallelize)，是提升效率的通用策略。这不仅适用于时空预测 (spatiotemporal forecasting)，也可能适用于其他需要同时处理多维度信息的任务。
动态图建模的精细化： 门控图融合机制 (gated graph fusion mechanism) 结合静态元图 (static meta graph) 和动态图 (dynamic graph)，并用门控机制 (gating mechanism) 自适应 (adaptively) 调整其贡献，提供了一个处理复杂、演变关系的优雅解决方案。这启发我们，在建模复杂系统时，不应简单地选择静态 (static) 或动态 (dynamic) 关系，而应寻求一种自适应融合 (adaptive fusion) 两者的方式，以兼顾稳定不变性 (stable invariance) 和实时变化 (real-time variations)。
异构性处理的实践价值： 传感器特定指标 (sensor-specific indicators) 的引入强调了在处理多变量数据 (multivariate data) 时，对不同变量之间固有属性 (inherent properties) 差异的明确建模至关重要。这对于像化工这样变量异构性 (variable heterogeneity) 极高的领域尤其有价值，能让模型更好地理解数据背后的物理含义。
工业部署验证的价值： ASTNet 不仅在学术指标上取得了优异成绩，更成功地在真实工业场景中部署，这极大地验证了其实用性 (practicality) 和鲁棒性 (robustness)。这提醒我们，学术研究不仅要追求理论创新，更要关注实际问题和可部署性 (deployability)。

批判：

公式 (14) 的清晰度： 在方法论部分，公式 (14) 的第一行 $\mathsf{h}_t^{l + 1},\tilde{\mathsf{h}}_s^{l + 1} = z(f(\mathbf{h}_t^l),g(\tilde{\mathbf{h}}_s^l))$ 与随后的展开式 \tilde{\mathsf{h}}_t^l = f(\mathbf{h}_t^l) 和 \tilde{\mathsf{h}}_s^{l + 1},A^l = g(\tilde{\mathbf{h}}_s^l) 之间，以及 $\mathsf{h}_t^{l + 1}$ 的最终计算，存在一些符号和逻辑上的微小跳跃。例如， $z$ 函数的内部结构并没有直接在公式中完全展开，需要读者根据上下文理解。对于初学者来说，如果 $z$ 也能有更直观的分解，或者对输入 $\mathbf{h}_t^l, \tilde{\mathbf{h}}_s^l$ 和输出 $\mathsf{h}_t^{l + 1}, \tilde{\mathsf{h}}_s^{l + 1}$ 的命名和流向能更严格地保持一致，会更有助于理解异步融合 (asynchronous fusion) 的具体机制。
评估指标符号的混淆： 在评估指标 (Evaluation Metrics) 部分，MAE、RMSE 和 MAPE 的公式中，实际值 (actual value) 和预测值 (predicted value) 都使用了相同的符号 $\hat{\mathbf{y}}_{horizon}^{(i)}$ 。这是一个明显的符号错误，通常实际值 (actual value) 用 $\mathbf{y}$ 或 $\mathbf{y}_{true}$ 表示，而预测值 (predicted value) 用 $\hat{\mathbf{y}}$ 或 $\mathbf{y}_{pred}$ 表示。我在解析中已将其修正为 $\mathbf{y}_{horizon}^{(i)}$ 为实际值，以符合普遍约定和上下文含义，但原文应避免此类混淆。
对化工领域特定知识的依赖程度： 论文强调了化工领域 (chemical engineering domain) 的复杂性 (complexity) 和异构性 (heterogeneity)，但模型本身在架构层面 (architectural level) 并没有引入化工领域 (chemical domain) 的特定归纳偏置 (specific inductive biases)，而是采用了通用的Transformer 和GNN 结构。虽然传感器特定指标 (sensor-specific indicators) 和门控机制 (gating mechanism) 能够自适应 (adaptively) 学习，但如果能结合一些领域物理模型 (domain physical models) 或专家知识 (expert knowledge) 作为硬约束 (hard constraints)，可能会在某些极端情况下进一步提升鲁棒性 (robustness) 和可解释性 (interpretability)。
更广泛的对比实验： 论文主要关注预测精度 (prediction accuracy) 和计算效率 (computational efficiency)。虽然已经非常全面，但可以考虑增加对模型可解释性 (model interpretability)、鲁棒性 (robustness)（例如在传感器故障 (sensor failures) 模拟下的表现）、或领域泛化能力 (domain generalization)（例如，用一个工厂的数据训练，在另一个新工厂上测试）的专门对比实验，以提供更全面的评估。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。