论文状态：已完成

AICHRONO L ENS: Advancing Explainability for Time Series AI Forecasting in Mobile Networks

时间序列AI预测可解释性 (1)移动网络流量预测 (1)长短期记忆网络应用 (1)时间特征关联解释方法 (1)移动通信资源管理 (1)

原文链接

价格：0.100000

已有 6 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出AICHRONO L ENS工具，将传统XAI方法与时间序列输入特性结合，实现对移动网络中LSTM预测模型的深度可解释性。该方法不仅揭示模型行为及错误原因，还提升了32%的预测性能，推动了时间序列AI预测的实用部署。

摘要

AIC HRONO L ENS : Advancing Explainability for Time Series AI Forecasting in Mobile Networks Claudio Fiandrino, Eloy Pérez Gómez, Pablo Fernández Pérez, Hossein Mohammadalizadeh, Marco Fiore and Joerg Widmer IMDEA Networks Institute, Madrid, Spain Email: {name.surname}@imdea.org Abstract —Next-generation mobile networks will increasingly rely on the ability to forecast traffic patterns for resource management. Usually, this translates into forecasting diverse objectives like traffic load, bandwidth, or channel spectrum utilization, measured over time. Among the other techniques, Long-Short Term Memory ( LSTM ) proved very successful for this task. Unfortunately, the inherent complexity of these models makes them hard to interpret and, thus, hampers their deployment in production networks. To make the problem worsen, EXplainable Artificial Intelligence ( XAI ) techniques, which are primarily conceived for computer vision and natural language processing, fail to provide useful insights: they are blind to the temporal characteristics of the input and only work well with highly rich semantic data like images or text. In this paper, we take the research on XAI fo

思维导图

论文精读

中文精读约 39 分钟读完 · 22,355 字

1. 论文基本信息

1.1. 标题

AICHRONO L ENS: Advancing Explainability for Time Series AI Forecasting in Mobile Networks （AICHRONO L ENS：在移动网络中推进时间序列 AI 预测的可解释性）

1.2. 作者

Claudio Fiandrino, Eloy Pérez Gómez, Pablo Fernández Pérez, Hossein Mohammadalizadeh, Marco Fiore and Joerg Widmer。所有作者均来自西班牙马德里的 IMDEA Networks Institute。

1.3. 发表期刊/会议

论文的格式和内容结构表明其为一篇会议论文。通常这类论文会发表在 IEEE 或 ACM 的顶级会议上，但在提供的摘要和正文中并未明确指出具体的期刊或会议名称。

1.4. 发表年份

根据参考文献的最新年份（如 2023 年），以及论文提及的“下一代移动网络将越来越依赖预测能力”等描述，该论文很可能发表于 2023 年。

1.5. 摘要

下一代移动网络将日益依赖流量模式预测来进行资源管理。这通常涉及预测流量负载、带宽或信道频谱利用率等随时间变化的多个目标。长短期记忆网络 (Long-Short Term Memory, LSTM) 在此任务中表现出色。然而，这些模型固有的复杂性使其难以解释，从而阻碍了它们在生产网络中的部署。更糟糕的是，主要为计算机视觉 (Computer Vision) 和自然语言处理 (Natural Language Processing, NLP) 设计的可解释人工智能 (EXplainable Artificial Intelligence, XAI) 技术，在时间序列数据上无法提供有用的洞察：它们对输入的时序特性不敏感，并且只适用于图像或文本等具有高度语义的数据。本文通过提出 AICHRONO L ENS，一种将传统 XAI 解释与输入时序特性相结合的新工具，将时间序列 AI 预测的可解释性研究向前推进了一步。通过这种方式，AICHRONO L ENS 能够深入探究模型行为，并发现（除其他方面外）错误的隐藏原因。对真实世界移动流量轨迹的广泛评估揭示了其他方法无法发现的模型行为，并能将模型性能提高 32%。

1.6. 原文链接

/files/papers/690c5fc10de225812bf932a3/paper.pdf 这是一个相对路径，表明论文的 PDF 文件位于某个服务器的指定目录下。根据上下文，其发布状态为已发表的学术论文。

2. 整体概括

2.1. 研究背景与动机

移动网络对预测的需求: 5G/6G 等下一代移动网络需要精确预测流量模式（如流量负载、带宽、频谱利用率）以进行有效的资源管理。
LSTM 模型的成功与挑战: 长短期记忆网络 (LSTM) 在时间序列预测任务中表现出色。然而，作为深度学习模型，LSTM 具有固有的“黑箱”特性，其内部逻辑难以被人类理解和解释。这种缺乏可解释性导致网络管理者不信任模型的输出，从而阻碍了 LSTM 模型在生产环境中的部署，例如在故障排查和抵御对抗性攻击时面临挑战。
现有 XAI 技术的局限性: 当前的可解释人工智能 (XAI) 技术主要针对计算机视觉和自然语言处理领域设计，它们在处理时间序列数据时存在根本性缺陷：
- 对输入的时序特性（temporal characteristics）不敏感，无法捕捉时间依赖性。
- 在面对缺乏丰富语义信息的原始时间序列数据时，难以提供有意义的解释。例如，它们可能为高度多样化的输入序列分配相同的相关性分数，导致解释的模糊性。
研究切入点: 论文旨在解决现有 XAI 技术在时间序列预测中解释质量不足的问题，特别是针对移动网络环境中的 LSTM 模型。其目标是降低 LSTM 模型在生产网络中部署的障碍，通过提供更深入、更具洞察力的模型行为解释。

2.2. 核心贡献/主要发现

该论文的核心贡献在于提出了一种名为 AICHRONOLENS 的新工具，并通过对真实世界数据的评估，验证了其在增强时间序列 AI 预测可解释性方面的有效性。

核心贡献 (Contributions, "C"):

C1. AICHRONOLENS 的设计: 提出 AICHRONOLENS，一个通过利用 XAI 工具的相关性得分 (relevance scores) 与输入序列时序特性之间的线性关系，来解决传统 XAI 工具在时间序列预测中固有缺陷的新工具。
C2. 广泛评估: 对 AICHRONOLENS 进行了广泛评估，使用了真实世界的移动流量数据集和多个 LSTM 模型，证明其能够提供关于模型行为的高度详细解释，这些解释对于验证模型鲁棒性 (robustness) 和进行监控非常有用。
C3. 研究成果的可复现性: 为了促进该领域的研究，作者发布了研究成果（训练好的 LSTM 模型和 AICHRONOLENS 的代码）。

主要发现 (Findings, "F"):
F1. 超参数设置的识别能力: 发现 AICHRONOLENS 与传统 XAI 工具不同，能够识别出相同测试数据上不同模型在训练时超参数设置（如学习率）的差异。例如，较高的学习率会导致相关性得分与时间序列输入之间出现更强的相关性，而较低的学习率则表现出较弱或非线性的相关性。
F2. 误差根因的识别能力: 发现 AICHRONOLENS 输出的相关系数 (correlation coefficients) 具有几何特性，这些特性可以与模型误差相关联。此外，论文揭示了导致这些问题的根本原因，即糟糕的模型设计或数据本身固有的难以预测性。
F3. 模型性能优化潜力: AICHRONOLENS 可以用于优化模型训练过程，从而提高模型性能。通过识别模型在特定情况下的缺陷，可以有针对性地进行改进（例如数据增强），从而显著提升预测准确性。

3. 预备知识与相关工作

本节旨在为读者提供理解 AICHRONOLENS 所需的基础概念，并将其与现有的可解释人工智能 (XAI) 和时间序列预测工作进行对比。

3.1. 基础概念

3.1.1. 时间序列预测 (Time Series Forecasting)

时间序列预测是机器学习 (Machine Learning, ML) 中的一个任务，旨在根据过去观测到的序列值来预测未来值。

问题形式化: 假设 $\mathcal { X } _ { T } = \{ x _ { 1 } , x _ { 2 } , \ldots , x _ { T } \}$ 是在时间 $t = \{ 1 , 2 , \dots , T \}$ 处的一系列值（例如，流量、用户数）。
输入序列 (History / Input Sequence): 在时间 $t$ 处，历史的 $n$ 个过去值表示为 $X _ { t } = \{ x _ { t - n + 1 } , x _ { t - n + 2 } , \ldots , x _ { t } \}$ ，其中 $n \ll T$ 。
预测目标: 预测下一个时间步 $t+1$ 的值 $\hat { x } _ { t + 1 }$ 。
预测函数: $F$ 是一个通用的预测函数，ML 模型的目标是定义一个合适的 $F$ 。
模型训练: $F$ 通过评估损失函数 $Z _ { \theta } ( x _ { t + 1 } , \hat { x } _ { t + 1 } )$ 并更新模型参数 $\theta$ （如权重）来训练，以实现特定目标，例如最小化平均绝对误差 (Mean Absolute Error, MAE) 或均方误差 (Mean Squared Error, MSE)。

3.1.2. 可解释人工智能 (Explainable Artificial Intelligence, XAI)

目标: 促进人工智能 (AI) 的信任度，提供人类可理解的解释来描述模型如何以及为何得出特定输出。
可解释性 (Interpretability) vs. 解释性 (Explainability):
- 可解释性 (Interpretability): 关注模型输出与其设计之间的上下文关联，即模型本身是否透明、易于理解。
- 解释性 (Explainability): 更进一步，提供定制化的知识，描述模型如何以及为何达到给定输出。
XAI 技术分类:
- 内在 XAI (Intrinsic XAI) 或 透明 XAI (Transparent XAI): 模型本身具有可解释性，例如决策树 (Decision Tree)。
- 事后 XAI (Post-hoc XAI): 在模型训练完成后应用，通过分析模型的输入-输出关系来提供解释，例如本文研究的 LRP 和 SHAP。AICHRONOLENS 就属于合成事后解释的工具。

3.1.3. 长短期记忆网络 (Long-Short Term Memory, LSTM)

LSTM 是一种特殊的循环神经网络 (Recurrent Neural Network, RNN)，旨在解决传统 RNN 中梯度消失和梯度爆炸问题，能够学习和记忆长期依赖关系。它通过门控机制（遗忘门、输入门、输出门）来控制信息在单元状态 (cell state) 中的流动，使其在时间序列预测等任务中表现出色。然而，这种复杂的内部结构也使其成为难以解释的“黑箱”模型。

3.1.4. 事后 XAI 技术

论文中提及并使用的两种主要事后 XAI 技术是 LRP 和 SHAP。

逐层相关性传播 (LayeR-wise backPropagation, LRP):
- 定义: LRP 为预测器的所有输入分配一个分数，该分数表示它们对预测的贡献程度。
- 原理: LRP 通过从输出层反向传播（backpropagation）计算每个神经元的激活及其在后续层中的权重，来跟踪其相关性。
- 守恒原则: LRP 遵循一个守恒原则，即在层 $p$ 中分布的总相关性在层 $q$ 中保持不变。当反向传播到达输入层时，总相关性被分配到输入序列。
Shapley 加性解释 (SHapley Additive exPlanations, SHAP):
- 定义: SHAP 通过近似预测的 Shapley 值来提供基于特征的解释。
- 原理: Shapley 值通过检查在所有其他特征存在/不存在的组合下，一次移除一个特征所产生的影响来获得。SHAP 生成全局和局部解释，形式为对数几率 (log-odds)，可以通过 softmax 运算转换为概率分布。

3.1.5. 时间序列图像编码技术

这些技术将一维时间序列转换为二维图像，以便利用计算机视觉领域的强大工具进行分析。

循环图 (Recurrence Plots, RP): 通过计算时间序列中每个值 $j$ 的欧几里得距离来创建图像。缺点是无法处理可变长度的时间序列，对不同尺度不敏感，并且不能有效表示上升和下降趋势。
格拉姆角场 (Gramian Angular Field, GAF):
- 原理: 使用极坐标而不是笛卡尔坐标来表示时间序列。将时间序列值编码为角度的余弦，时间步作为半径。
- 特性: 具有双射性 (bijective)，可以从图像重建原始时间序列。保留绝对时间关系。
- Gram 矩阵 (Gram Matrix): 将时间序列转换为一个格拉姆矩阵，其中每个元素是两个角度之和的余弦。
马尔可夫转移场 (Markov Transition Field, MTF):
- 原理: 在时间序列值上构建分位数箱的马尔可夫矩阵，并将每个元素 $j$ 的动态转移概率编码成一个准格拉姆矩阵。
- 特性: 保留时间依赖性，但与 GAF 不同，它不能重建原始时间序列，因为它操作的是过渡概率而不是直接的时间序列值。
- 本文选择 GAF 的原因: GAF 能够重建原始时间序列，并直接操作时间序列值，而 MTF 操作的是分位数转换概率。

3.1.6. 皮尔逊相关系数 (Pearson's Correlation Coefficient)

皮尔逊相关系数衡量两个变量之间线性相关性的强度和方向。

公式: 对于两个变量 $X$ 和 $Y$ ，其皮尔逊相关系数 $\rho_{X,Y}$ 定义为： $\rho_{X,Y} = \frac{\operatorname{cov}(X, Y)}{\sigma_X \sigma_Y}$ 其中， $\operatorname{cov}(X, Y)$ 是 $X$ 和 $Y$ 的协方差， $\sigma_X$ 和 $\sigma_Y$ 分别是 $X$ 和 $Y$ 的标准差。
值域: $\rho_{X,Y}$ $ρ_{X, Y}$ 的值在 -1 到 +1 之间。
- +1 表示完全正线性相关。
- -1 表示完全负线性相关。
- 0 表示没有线性相关性。

3.1.7. 聚类分析相关概念

动态时间规整 (Dynamic Time Warping, DTW): 一种衡量两个时间序列之间相似性的算法，即使它们在时间轴上存在偏移或变形，也能找到最佳匹配。
DTW 质心平均 (DTW Barycenter Averaging, DBA): 一种用于计算时间序列数据集的平均序列的方法，通过迭代优化，找到一个能够最小化与所有序列 DTW 距离的序列。
软 DTW K均值 (Soft-DTW K-means): 结合了软 DTW 距离度量和 K 均值聚类算法，用于对时间序列数据进行聚类。软 DTW 距离是 DTW 距离的一个可微分版本，有利于优化。
轮廓系数 (Silhouette Score): 一种用于评估聚类效果好坏的指标。它的值介于 -1 到 +1 之间，越高表示聚类效果越好，即簇内紧密、簇间分离。

3.2. 前人工作

XAI 的起源: XAI 技术最初是为计算机视觉和自然语言处理 (NLP) 领域构思和定制的，这主要归因于这些领域数据（图像、文本）的丰富语义和应用（如医学成像、目标检测）的普及性。
XAI 在时间序列中的应用: 尽管如此，XAI 仍有一些应用于时间序列的尝试，特别是在时间序列分类 (time series classification) 中。然而，这些技术往往为多变量时间序列 (multi-variate time series) 定制。
现有 XAI 工具的局限性: 像 LRP、SHAP、LIME、DeepLIFT 等流行的 XAI 技术已被改编用于时间序列。然而，本文指出这些方法未能提供有用的解释，因为它们无法从根本上超越简单的输入相关性理解。例如，它们无法揭示特定于模型内部逻辑和当前观测输入的模型错误的隐藏原因。在面对单变量时间序列时，同一 XAI 方法可能会提供模糊的解释，与输入序列没有明确的关系（例如，为不同的输入序列分配相似的相关性得分）。

3.3. 技术演进

移动网络领域正迅速从传统的启发式管理转向基于人工智能/机器学习 (AI/ML) 的自动化管理，以应对 5G/6G 网络中日益增长的流量需求和复杂性。这种演进推动了对预测能力的需求，但同时也凸显了 AI 模型“黑箱”特性带来的信任和部署挑战。可解释人工智能 (XAI) 正是应对这一挑战的关键技术。早期的 XAI 主要关注计算机视觉和 NLP，随着 AI 在更多领域（如时间序列）的渗透，XAI 也需要适应这些新领域的特性。本文的工作正是在这种背景下，将 XAI 的研究推向时间序列领域，并考虑其独特的时序依赖性。

3.4. 差异化分析

本文提出的 AICHRONOLENS 与现有工作的主要区别和创新点在于：

解决时间序列 XAI 的模糊性: 现有 XAI 技术在时间序列（尤其是单变量时间序列）上解释的模糊性是其核心痛点。AICHRONOLENS 通过将 XAI 解释与输入的时间特性（通过 GAF 转换获得）进行关联，明确解决了这一问题。
深层次的解释洞察: 传统 XAI 仅停留在提供输入相关性得分，而 AICHRONOLENS 能够通过分析相关系数的几何模式（如“三角形”形状及其变化），深入揭示模型内部的逻辑、误差的根本原因（模型设计缺陷或数据特性），甚至指导模型优化。
通用性和特定性结合: AICHRONOLENS 允许插入任何现有的 XAI 工具（DP1），同时又针对 LSTM 模型在时间序列预测中的特性进行设计（DP2），使其既具有通用性又具有针对性。
实用性提升: 通过提供更深层次的解释，AICHRONOLENS 旨在增强网络管理者对 LSTM 模型的信任，促进其在生产网络中的实际部署，并能指导模型性能优化。

4. 方法论

本节详细阐述 AICHRONOLENS 的设计理念、架构及其核心组件。AICHRONOLENS 的目标是增强传统 XAI 工具在时间序列预测中解释的深度和质量，特别是通过将 XAI 解释与输入序列的时间特性相结合。

4.1. 方法原理

AICHRONOLENS 的核心思想是，传统 XAI 工具（如 LRP 或 SHAP）在时间序列数据上可能给出模糊或不具洞察力的解释，因为它们未充分考虑时间序列的内在时序结构。为了解决这一问题，AICHRONOLENS 引入了一个中间步骤：使用图像化技术 Gramian Angular Field (GAF) 将一维时间序列输入 $X_t$ 转换为二维表示 $G_{n \times n}$ 。GAF 图像能够捕捉输入序列内部的模式、局部最大值/最小值及其空间距离。随后，AICHRONOLENS 计算由传统 XAI 工具得出的相关性得分 $L_n$ 与 GAF 图像的每一行（代表输入序列内部关系）之间的皮尔逊相关系数 (Pearson's correlation coefficient)。通过分析这些相关系数随时间演化的模式，AICHRONOLENS 能够揭示模型行为、识别误差原因，并提供更深层次的解释。

以下是 AICHRONOLENS 的高层设计图，展示了其主要组件和数据流：

Fig. 3. AICHRONOLENS architecture 该图像是图3，AICHRONOLENS架构的示意图，展示了时间序列输入 $X_t$ 经过GAF转换、XAI处理及LSTM模型预测的过程，最后由Analyzer分析反馈，整合了时间特性与解释性方法。

图 3. AICHRONOLENS 架构。图中 XAI 模块对应文字描述中的 $(\pmb { \mathbb { 0 } })$ ，GAF 模块对应 $(\pmb { \theta })$ ，Pearson's Correlation 模块对应 $(\pmb { \otimes })$ ，Analyzer 模块对应 $(\pmb { \bigcirc })$ 。

4.2. 核心方法详解 (逐层深入)

4.2.1. 概述和设计原则 (Overview and Design Principles)

AICHRONOLENS 的设计遵循以下两个主要原则：

$DP_1$ : XAI 通用性 (XAI Generality): AICHRONOLENS 被设计成一个通用的框架，可以插入任何现有的 XAI 工具，如 SHAP 或 LRP。这使得 AICHRONOLENS 具有高度的灵活性，并允许比较不同 XAI 工具在相同模型和数据集上的解释效果。
$DP_2$ : LSTM 特异性 (LSTM Specificity): 尽管在 XAI 工具选择上具有通用性，本文将 AICHRONOLENS 的应用范围限制在长短期记忆网络 (LSTM) 模型。未来工作可能会将其扩展到处理时空输入 (spatio-temporal inputs) 的模型。

4.2.2. XAI 相关性得分 (Relevance Scores from XAI $(\pmb { \mathbb { 0 } })$ )

此模块负责从训练好的 LSTM 模型中提取每个输入元素对预测结果的相关性得分。根据 $DP_1$ 原则，AICHRONOLENS 可以使用多种 XAI 技术。本文主要关注 LRP (基于反向传播) 和 SHAP (基于扰动)。

LRP (LayeR-wise backPropagation) 相关性得分计算 LRP 通过从模型的输出层向输入层反向传播相关性来计算每个输入元素的分数 $L_n$ 。这表示了每个输入 $x_i \in X_t$ 对最终预测 $\hat{x}_{t+1}$ 的贡献程度。其形式化定义如下：

$L _ { i j } ^ { ( q ) } = L _ { j } ^ { ( p ) } \sum _ { i , j } { \frac { a _ { i } \cdot w _ { i , j } } { \sum _ { k } a _ { k } \cdot w _ { k , j } } }$

符号解释:
- $L _ { i j } ^ { ( q ) }$ : 在层 $q$ 中，神经元 $i$ 对神经元 $j$ 的相关性贡献。
- $L _ { j } ^ { ( p ) }$ : 在层 $p$ 中，神经元 $j$ 的总相关性。
- $a_i$ : 神经元 $i$ 的激活值。
- $w_{i,j}$ : 从神经元 $i$ 到神经元 $j$ 的权重。
- $\sum _ { k } a _ { k } \cdot w _ { k , j }$ : 所有连接到神经元 $j$ 的神经元 $k$ 的激活值乘以其对应权重的总和。
目的分析: 这个公式描述了相关性从层 $p$ 的神经元 $j$ 反向传播到层 $q$ 的神经元 $i$ 的过程。它遵循一个守恒原则：层 $p$ 中的总相关性在层 $q$ 中保持不变。当反向传播到达输入层时，这些相关性分数最终分配给输入序列 $X_t$ 中的每个元素 $x_i$ ，形成相关性得分向量 $L_n$ 。

SHAP (SHapley Additive exPlanations) 相关性得分计算 SHAP 通过计算 Shapley 值来量化每个输入特征对预测的贡献。对于输入序列 $X_t$ 中的每个元素 $x_i$ ，其 SHAP 值 $l_i \in L_n$ 计算如下：

$l _ { i } ( f ) = \frac { 1 } { ( n - 1 ) ! } \sum _ { k = 1 } ^ { n - 1 } \sum _ { X _ { s } \subseteq X _ { t } \atop | s | = k } \left[ { \binom { n - 1 } { k } } \right] ^ { - 1 } \left[ f ( X _ { s } \cup \{ x _ { i } \} ) - f ( X _ { s } ) \right]$

符号解释:
- l _ { i } ( f ): 函数 $f$ 下，特征 $x_i$ 的 Shapley 值。
- $n$ : 输入序列 $X_t$ 中特征的数量。
- $k$ : 子集 $X_s$ 中特征的数量。
- $X _ { s } \subseteq X _ { t } \atop | s | = k$ : 表示从 $X_t$ 中选择包含 $k$ 个特征的子集 $X_s$ ，且不包含 $x_i$ 。
- $\binom { n - 1 } { k }$ : 从 n-1 个特征中选择 $k$ 个特征的组合数。
- $f ( X _ { s } \cup \{ x _ { i } \} )$ : 包含特征 $x_i$ 的子集 $X_s \cup \{ x _ { i } \}$ 的模型预测。
- $f ( X _ { s } )$ : 不包含特征 $x_i$ 的子集 $X_s$ 的模型预测。
目的分析: 该公式计算了特征 $x_i$ 在所有可能的特征组合（子集 $X_s$ ）中，加入或移除时对模型预测的平均边际贡献。这个过程确保了每个特征的重要性得分是公平且基于其在不同情境下的实际影响。

4.2.3. GAF 图像化 (Imaging via GAF $(\pmb { \theta })$ )

此模块将一维时间序列 $X_t$ 转换为二维图像 $G_{n \times n}$ ，以捕捉时间序列内部的结构和模式。AICHRONOLENS 选用 Gramian Angular Field (GAF) 技术，因为它具有双射性（可重建原始时间序列）和保留绝对时间关系的优点。

步骤 1: 时间序列归一化 (Rescaling) 首先，将原始时间序列 $x_i \in X_t$ (其中 $i = 1, \ldots, n$ ) 的值重新缩放到 $[-1, 1]$ 范围：

$\widetilde { x } _ { i } = \frac { ( x _ { i } - \operatorname* { m a x } ( X _ { t } ) ) + ( x _ { i } - \operatorname* { m i n } ( X _ { t } ) ) } { ( \operatorname* { m a x } ( X _ { t } ) - \operatorname* { m i n } ( X _ { t } ) ) }$

符号解释:
- $\widetilde { x } _ { i }$ : 归一化后的时间序列值。
- $x_i$ : 原始时间序列值。
- $\operatorname* { m a x } ( X _ { t } )$ : 时间序列 $X_t$ 中的最大值。
- $\operatorname* { m i n } ( X _ { t } )$ : 时间序列 $X_t$ 中的最小值。
目的分析: 归一化步骤确保所有时间序列值都在统一的范围内，这对于后续的极坐标转换至关重要，因为 arccos 函数的输入范围是 $[-1, 1]$ 。

步骤 2: 极坐标表示 (Polar Coordinates Representation) 接下来，将归一化后的时间序列 $\widetilde { X } _ { n }$ 表示为极坐标形式，其中值 $\widetilde { x } _ { i }$ 编码为角度的余弦，时间步 $i$ 编码为半径：

$\left\{ \begin{array} { l l } { \displaystyle \phi _ { i } = \operatorname { a r c c o s } ( \widetilde { x } _ { i } ) , } & { - 1 \leq \widetilde { x } _ { i } \leq 1 , \widetilde { x } _ { i } \in \widetilde { X } ; } \\ { \displaystyle r _ { i } = \frac { i } { Y } , } & { i \in \mathbb { N } . } \end{array} \right.$

符号解释:
- $\phi _ { i }$ : 对应于 $\widetilde { x } _ { i }$ 的角度。
- $\operatorname { a r c c o s } ( \cdot )$ : 反余弦函数，将 $[-1, 1]$ 范围内的值映射到 $[0, \pi]$ 范围内的角度。
- r _ { i }: 对应于时间步 $i$ 的半径。
- $Y$ : 一个正则化因子，用于调整极坐标系统的跨度。
目的分析: 这种转换方式具有两个重要特性：
1. 双射性 (Bijective): 由于 $\cos(\phi)$ 在 $\phi \in [0, \pi]$ 范围内是单调的，因此可以从极坐标表示中恢复原始时间序列。
2. 保留绝对时间关系 (Preserves Absolute Temporal Relations): 与笛卡尔坐标不同，从时间步 $i$ 到 $j$ 的相应区域不仅取决于 $|i-j|$ ，还取决于时间步 $i$ 和 $j$ 中时间序列的绝对值。这使得 GAF 能够更有效地捕捉时间序列的动态特征。

步骤 3: 构建 GAF 矩阵 (Gramian Angular Field Matrix) 在极坐标表示的基础上，GAF 矩阵 $\mathbf { G } _ { n \times n }$ (对于每个时间 $t$ ) 被定义为：

$\mathbf { G } _ { n \times n } = \left[ \begin{array} { c c c c } { \cos ( \phi _ { 1 } + \phi _ { 1 } ) } & { \cdot \cdot \cdot } & { \cos ( \phi _ { 1 } + \phi _ { n } ) } \\ { \cos ( \phi _ { 2 } + \phi _ { 1 } ) } & { \cdot \cdot } & { \cos ( \phi _ { 2 } + \phi _ { n } ) } \\ { \vdots } & { \cdot } & { \vdots } \\ { \cos ( \phi _ { n } + \phi _ { 1 } ) } & { \cdot \cdot } & { \cos ( \phi _ { n } + \phi _ { n } ) } \end{array} \right]$

符号解释:
- $\mathbf { G } _ { n \times n }$ : $n \times n$ 的 GAF 矩阵。
- $\phi_i$ : 对应于时间序列值 $\widetilde{x}_i$ 的角度。
- 矩阵中的每个元素表示两个时间点 $i$ 和 $j$ 对应角度之和的余弦。

步骤 4: Gram 矩阵的内积表示 (Inner Product Representation of Gram Matrix) 通过定义内积操作， $\mathbf { G } _ { n \times n }$ 可以被重写为一个 Gram 矩阵：

$\langle v , z \rangle = v \cdot z - { \sqrt { 1 - v ^ { 2 } } } \cdot { \sqrt { 1 - z ^ { 2 } } }$

符号解释:
- $\langle v , z \rangle$ : 向量 $v$ 和 $z$ 之间的内积。
- v, z: 两个归一化后的时间序列值。
目的分析: 这个内积定义与 $\cos(\phi_i + \phi_j)$ 具有数学上的等价性，其中 $v = \cos(\phi_i)$ 且 $z = \cos(\phi_j)$ 。

利用这个内积定义，GAF 矩阵 $\mathbf { G } _ { n \times n }$ 可以表示为：

$\mathbf { G } _ { n \times n } = \left[ \begin{array} { c c c } { \langle \widetilde { x } _ { 1 } , \widetilde { x } _ { 1 } \rangle } & { \cdots } & { \langle \widetilde { x } _ { 1 } , \widetilde { x } _ { n } \rangle } \\ { \langle \widetilde { x } _ { 2 } , \widetilde { x } _ { 1 } \rangle } & { \cdots } & { \langle \widetilde { x } _ { 2 } , \widetilde { x } _ { n } \rangle } \\ { \vdots } & { \ddots } & { \vdots } \\ { \langle \widetilde { x } _ { n } , \widetilde { x } _ { 1 } \rangle } & { \cdots } & { \langle \widetilde { x } _ { n } , \widetilde { x } _ { n } \rangle } \end{array} \right]$

Gram 矩阵特性:
- 时间依赖性 (Temporal Dependency): 矩阵从左上角到右下角，时间不断增加，因此保留了时间依赖性。
- 时间相关性 (Temporal Correlations): $\mathbf { G } _ { (i, j | |i-j|=t)}$ 对应于时间步 $t$ 方向上的相对相关性。
- 主对角线 (Main Diagonal): 矩阵的主对角线包含原始时间序列的值，因为 $\langle \widetilde { x } _ { i } , \widetilde { x } _ { i } \rangle = \cos(2\phi_i)$ .
- 值解释:
  - 接近 1 的高值: 表示原始时间序列中的局部最大值或最小值与它们自身或其他局部最大值或最小值相关联。
  - 接近 0 的值: 表示局部最大值或最小值与原始时间序列中的中间值点相关联。
  - 接近 -1 的负值: 表示局部最大值或最小值与另一个局部最小值或最大值相关联。

4.2.4. 定义相关性 (Defining Correlations $(\pmb { \otimes })$ )

此模块旨在量化 XAI 相关性得分 $L_n$ 与 GAF 图像 $G_{n \times n}$ 之间每一行（代表输入序列内部关系）的线性关系。

输入:
- $L_n$ : 从 XAI 模块获得的 $1 \times n$ 维相关性得分向量。
- $G_{n \times n}$ : 从 GAF 模块获得的 $n \times n$ 维 GAF 矩阵。矩阵的每一行 $G_i$ 是一个 $1 \times n$ 维向量，表征了输入时间序列中第 $i$ 个样本与所有其他样本的内部关系。
计算: 对于 GAF 矩阵的每一行 $G_i$ 和 XAI 相关性得分向量 $L_n$ ，计算它们之间的皮尔逊相关系数。这将产生一个 $n$ 维的相关向量 $R_n$ 。

$R _ { n } = { \frac { \operatorname { c o v } ( G , L ) } { \sigma _ { G } \sigma _ { L } } } = { \left[ \begin{array} { l } { \rho _ { 0 } } \\ { \rho _ { 1 } } \\ { \vdots } \\ { \rho _ { n } } \end{array} \right] }$
符号解释:
- $R_n$ : $n$ 维相关向量，其中每个元素 $\rho_i$ 是 GAF 矩阵的第 $i$ 行 $G_i$ 与 XAI 相关性得分向量 $L_n$ 之间的皮尔逊相关系数。
- $\operatorname { c o v } ( G , L )$ : $G_i$ 与 $L_n$ 的协方差。
- $\sigma _ { G }$ : $G_i$ 的标准差。
- $\sigma _ { L }$ : $L_n$ 的标准差。
目的分析: 这个步骤量化了 XAI 解释的“注意力”与时间序列内部模式之间的对齐程度。通过计算每一行 $G_i$ 的相关性，可以深入了解模型对输入序列中不同时间点的内部关系的敏感度。

构建相关矩阵 $\mathbf{C}$ (Correlation Matrix $\mathbf{C}$ ) 通过对每个时间步 $t = 1, \ldots, T$ 重复上述过程，可以构建一个维度为 $n \times T$ 的相关矩阵 $\mathbf{C}$ ，其中每一列是对应时间步的 $R_n$ 相关向量：

$\mathbf { C } = \left[ \begin{array} { c c c c } { \rho _ { 1 , 1 } } & { \rho _ { 1 , 2 } } & { \ldots } & { \rho _ { 1 , T } } \\ { \rho _ { 2 , 1 } } & { \rho _ { 2 , 2 } } & { \ldots } & { \rho _ { 2 , T } } \\ { \vdots } & { \vdots } & { \ddots } & { \vdots } \\ { \rho _ { n , 1 } } & { \rho _ { n , 2 } } & { \ldots } & { \rho _ { n , T } } \end{array} \right] _ { n \times T }$

符号解释:
- $\mathbf{C}$ : $n \times T$ 维相关矩阵。
- $\rho_{i,t}$ : 在时间步 $t$ 时，GAF 矩阵的第 $i$ 行与 XAI 相关性得分向量之间的皮尔逊相关系数。
目的分析: 相关矩阵 $\mathbf{C}$ 提供了模型在不同时间点上对输入序列内部关系响应的全局视图，是后续分析和解释的基础。

4.2.5. 分析相关性 (Analyzing Correlations $(\pmb { \bigcirc })$ )

Analyzer 模块是 AICHRONOLENS 的核心，它利用相关矩阵 $\mathbf{C}$ （或其转置 $\mathbf{S}^T$ ）来合成解释。它通过分析相关系数随时间演化形成的模式来揭示模型行为。

相关系数的演化: 随着时间推移，相关系数会“老化”，一旦对生成它的时间序列样本在历史窗口中的存在期结束，它就会消失。为了观察每个样本的皮尔逊相关系数随时间的演变，Analyzer 创建了一个新的矩阵 $\mathbf{S}$ ，通过将 $\mathbf{C}$ 的所有次对角线（secondary diagonals）按长度 $T$ 存储为行。原文中给出了一个矩阵变换示例，以说明如何从 $\mathbf{C}$ 获得 $\mathbf{S}^T$ ：

假设一个简化的相关矩阵 $\mathbf{C}_{6 \times 3}$ (即历史长度 $n=6$ ，观察 3 个时间步 $T=3$ )： $\mathbf { C } _ { 6 \times 3 } = \left[ \begin{array} { c c c } { \rho _ { 1 , 1 } } & { \rho _ { 1 , 2 } } & { \rho _ { 1 , 3 } } \\ { \rho _ { 2 , 1 } } & { \rho _ { 2 , 2 } } & { \rho _ { 2 , 3 } } \\ { \rho _ { 3 , 1 } } & { \rho _ { 3 , 2 } } & { \rho _ { 3 , 3 } } \\ { \rho _ { 4 , 1 } } & { \rho _ { 4 , 2 } } & { \rho _ { 4 , 3 } } \\ { \rho _ { 5 , 1 } } & { \rho _ { 5 , 2 } } & { \rho _ { 5 , 3 } } \\ { \rho _ { 6 , 1 } } & { \rho _ { 6 , 2 } } & { \rho _ { 6 , 3 } } \end{array} \right]$ 那么，通过收集次对角线，可以构建矩阵 $\mathbf{S}$ ，其转置 $\mathbf{S}^T$ 更便于使用。例如，如果考虑所有次对角线（从 $\rho_{6,1}$ 到 $\rho_{1,3}$ ），并将其转换为行，则 $\mathbf{S}^T$ 将包含这些随时间变化的序列。原文中的图示简化表示为： $\mathbf { S } _ { 4 \times 3 } = \left[ \begin{array} { c c c } { \rho _ { 3 , 1 } } & { \rho _ { 2 , 2 } } & { \rho _ { 1 , 3 } } \\ { \rho _ { 4 , 1 } } & { \rho _ { 3 , 2 } } & { \rho _ { 2 , 3 } } \\ { \rho _ { 5 , 1 } } & { \rho _ { 4 , 2 } } & { \rho _ { 3 , 3 } } \\ { \rho _ { 6 , 1 } } & { \rho _ { 5 , 2 } } & { \rho _ { 4 , 3 } } \end{array} \right]$
- 目的分析: 这种转换允许观察特定时间点（或时间段）的相关性如何随时间“移动”或“演变”，这对于识别时间模式至关重要。
三角形模式 (Triangle Shapes): 在一个观察窗口 $w \leq T$ 内，相关系数值（正或负）会形成“三角形”形状。
- 例如，如果 $\rho_{6,1}, \rho_{6,2}, \rho_{6,3}, \rho_{5,2}, \rho_{5,3}, \rho_{4,3}$ 都落在 $[-1, 0]$ 范围内，它们将形成一个负相关三角形。
- 解释: 一个三角形代表给定时间序列输入下的预测趋势。
趋势转换 (Transitions): AICHRONOLENS 关注这些三角形模式之间的转换：
- 平滑转换 (Smooth transitions): 表明模型能够很好地捕捉趋势变化。
- 非平滑转换 (Non-smooth transitions): 通常预示着模型错误的发生。
  
  通过上述分析，AICHRONOLENS 将 XAI 相关性得分与输入序列的时间特性以独特的方式联系起来。工具的输出是相关系数，这些系数随时间观察时会生成模式（由正或负值组成的三角形序列），这些模式可以进行几何解释，并识别不同原因的错误。

5. 实验设置

本节详细介绍论文用于验证 AICHRONOLENS 有效性的数据集、训练的 LSTM 模型配置以及使用的评估指标。

5.1. 数据集

论文使用了两个不同的真实世界数据集来全面评估 AICHRONOLENS 的能力。

5.1.1. $D_1$ : 4G 网络流量负载数据

来源: 生产中的 4G 移动网络，服务欧洲一个主要大都市区。
内容: 包含基站 (Base Station, BS) 级别的流量负载 (traffic volumes) 测量数据。
粒度: 数据以 3 分钟的粒度记录。
时间跨度: 覆盖 3 个月的数据。
用途: 用于预测流量负载 (traffic load)。
训练/测试集划分: 训练集包含 28,541 个样本，测试集包含 7,121 个样本。

5.1.2. $D_2$ : 生产基站连接用户数数据

来源: 生产中的基站 (BS)，通过 LTE 被动监测工具收集。该工具能够解码基站与相关用户交换的未加密信息。
内容: 包含毫秒级 (millisecond level) 的临时用户 ID（即无线网络临时标识符, Radio Network Temporary Identifier, RNTI）和调度信息。
粒度: 原始数据为毫秒级，但通过 [45] 提出的方法，每 6 分钟估计一次活跃用户数。
用途: 用于预测连接到基站的活跃用户数量 (number of connected users)。

5.2. 评估指标

论文使用平均绝对误差 (Mean Absolute Error, MAE) 和均方误差 (Mean Squared Error, MSE) 作为损失函数进行模型训练，并使用 MAE 来评估模型性能。

5.2.1. 平均绝对误差 (Mean Absolute Error, MAE)

概念定义: 平均绝对误差 (MAE) 衡量模型预测值与真实值之间绝对误差的平均值。它提供了预测误差的平均大小，所有单个误差的权重相等。MAE 的优点是它对异常值 (outliers) 的敏感度低于均方误差 (MSE)，因为它不涉及误差的平方。
数学公式: $\text{MAE} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|$
符号解释:
- $N$ : 数据点的总数。
- $y_i$ : 第 $i$ 个数据点的真实值。
- $\hat{y}_i$ : 第 $i$ 个数据点的模型预测值。
- $|y_i - \hat{y}_i|$ : 第 $i$ 个数据点的绝对误差。

5.2.2. 均方误差 (Mean Squared Error, MSE)

概念定义: 均方误差 (MSE) 衡量模型预测值与真实值之间误差的平方的平均值。它对较大的误差给予更高的权重，因为误差被平方了。MSE 在统计学中是一个常用的指标，因为它对误差进行惩罚，使其在数学上更易于处理（可微）。
数学公式: $\text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2$
符号解释:
- $N$ : 数据点的总数。
- $y_i$ : 第 $i$ 个数据点的真实值。
- $\hat{y}_i$ : 第 $i$ 个数据点的模型预测值。
- $(y_i - \hat{y}_i)^2$ : 第 $i$ 个数据点的平方误差。

5.3. LSTM 模型配置

论文为两个数据集训练了不同的 LSTM 模型，以展示 AICHRONOLENS 在不同模型配置下的普适性。

5.3.1. 通用模型设计

架构: 所有模型都采用相同的基本架构，即一个单向 LSTM 层 (unidirectional LSTM layer)，后接一个输出层 (output layer)。
输出层: 输出层配置为单个神经元 (one neuron)，并使用线性激活函数 (linear activation function) 进行一步预测。
输入序列: 模型使用过去 20 个样本 (past 20 samples) 作为输入序列来预测下一个时间步的值。
优化器: 使用 Adam 优化器进行训练。
损失函数: 使用 MAE 作为损失函数。
训练/测试划分: 标准的 80:20 训练-测试集划分比例。

5.3.2. $D_1$ 数据集模型 ( $D_1$ Models)

为了分析 AICHRONOLENS 如何捕捉超参数变化，作者为 $D_1$ 数据集训练了 6 个不同配置的模型。这些模型通过改变 LSTM 层的神经元数量和学习率来区分，并引入了 dropout layer 进行正则化。

以下是原文 TABLE I 的结果：

MODEL ID	Neurons	LEARNING RATE	MAE
A	200	0.0001	0.96
B	100	0.0001	0.99
C	50	0.0001	1.09
A_A	200	0.001	0.67
B_B	100	0.001	0.68
C_C	50	0.001	0.95

配置:
- 模型 A, B, C 使用较低的学习率 (0.0001)，神经元数量从 200 递减到 50。
- 模型 A_A, B_B, C_C 使用较高的学习率 (0.001)，神经元数量也从 200 递减到 50。
目的: 通过比较这些模型的表现，分析 AICHRONOLENS 如何揭示不同超参数设置下的模型行为差异。

5.3.3. $D_2$ 数据集模型 ( $D_2$ Model)

配置: 针对 $D_2$ $D_{2}$ 数据集，作者训练了一个经过广泛前期测试优化的单一模型。
- LSTM 层包含 25 个神经元。
- 激活函数使用 tanh。
目的: 用于分析 AICHRONOLENS 如何识别与数据本身特性相关的模型误差。

5.4. 对比基线

论文并未将 AICHRONOLENS 与其他可解释性工具或预测模型进行直接的性能对比。其主要目的是展示 AICHRONOLENS 在提供深层解释方面的独特能力，特别是如何利用其洞察力来理解模型行为、诊断误差和优化现有模型。因此，实验的重点在于 AICHRONOLENS 本身的功能性和实用性，而非与其他预测或 XAI 方法的性能竞赛。

6. 实验结果与分析

本节详细分析了 AICHRONOLENS 在真实世界移动流量数据上的实验结果，展示了其提供深层解释、识别误差原因和优化模型性能的能力。实验结果被概括为三个主要发现 ( $R_1, R_2, R_3$ )。

6.1. 核心结果分析

6.1.1. 发现 $R_1$ : `AICHRONOLENS` 揭示刺激模型的时间特性

问题: 传统的 XAI 工具（如 LRP 和 SHAP）在时间序列数据上，其相关性得分在时间上可能非常相似，从而无法提供有用的信息。例如，它们可能始终将最高的注意力分配给最近的输入样本，而忽略这些样本在时序上的实际重要性（是否为局部峰值或谷值）。
AICHRONOLENS 的解决方案: AICHRONOLENS 的核心输出——相关向量 (correlation vectors)——能够清楚地指出哪些时序特性刺激了模型。这些特性主要是在输入序列中进入或离开的局部最大值 (local maxima) 和局部最小值 (local minima)，或者非常接近这些极值点的样本。
结果观察:
- 当输入序列中出现这些相关的局部极值点时，AICHRONOLENS 的相关向量会显示出显著的变化。
- 如果输入序列中缺乏此类极值点进入或离开，强正或负相关值会转变为弱相关值。
图示说明: 下图（原文 Figure 4）展示了 AICHRONOLENS 如何提供详细的洞察。

该图像是论文中图4的多子图复合图，展示了窗口19到22的负载时间序列、对应的SHAP得分、GASF矩阵和相关向量。负载曲线的局部最大值和最小值用红色方块和蓝色圆点标注，揭示了时间序列的关键特征及其对模型预测的影响。

图 4. AICHRONOLENS 的详细视图。红色方块和蓝色圆点分别代表局部最大值和局部最小值。
- 顶层图: 显示了从时间步 19 到 22 的流量负载输入序列。
- 第二层图: 显示了对应的 SHAP 相关性得分。可以看到，SHAP 倾向于为离预测时间点最近的样本（如历史窗口中的 15-19 样本）分配高相关性得分。
- 第三层图: 显示了输入序列的 GAF 图像。深色区域表示低相关性或中间值点。
- 底层图: 显示了 AICHRONOLENS 的相关向量。
- 分析:
  - 在预测时间步 21 的窗口（window 20）中，底层相关向量显示几乎没有相关性。这是因为 SHAP 给出的高相关性样本（历史窗口中的 15-19 样本）从输入序列的角度来看并不是特别相关的（GAF 图像中用深色突出显示）。
  - 然而，在时间步 22，一个新的局部最小值进入输入序列。AICHRONOLENS 捕捉到了 SHAP 和 GAF 之间的对齐，从而触发了相关向量的显著修改，与之前时间步的相关向量形成对比。
  - 结论: 如果没有 AICHRONOLENS，仅凭 SHAP 无法捕捉到这种重要的时序变化。这种对变化的盲目性对模型性能是有害的。这一行为在两个数据集的测试集中普遍存在。

6.1.2. 发现 $R_2$ : `AICHRONOLENS` 识别不同类别的误差

AICHRONOLENS 能够区分两种主要类型的模型误差，即 $E_1$ (模型设计缺陷) 和 $E_2$ (数据固有难预测)。

6.1.2.1. $E_1$ : 归因于糟糕的模型设计 (Poor Model Design)

问题: 粗粒度的评估指标（如 MAE 或 MSE）可能无法捕捉到模型设计中的深层弱点。
AICHRONOLENS 的洞察:
- 当时间序列趋势发生变化时，相关向量会呈现出“三角形”模式，通常是负相关三角形后接正相关三角形。
- 锐利三角形 (Sharp triangles): 如下图 5(a) 所示，形状良好、轮廓清晰的三角形表示模型在该时间序列部分没有出现显著错误。
- 非锐利三角形 (Non-sharp triangles): 如下图 5(b) 所示，嘈杂、非锐利的三角形则会导致高误差，特别是在数据急剧下降时模型无法准确预测下降何时停止。这种行为在所有下降斜坡中系统性地观察到。
识别锐利和非锐利三角形的技术:
1. 数值识别: 通过计算两个连续相关向量 $G_t$ 和 $G_{t+1}$ 之间中位数相关性得分的差值，来识别三角形之间的转换点。
2. 窗口观察: 在中断三角形的列周围设置一个观察窗口 $W$ (例如 $W=6$ 表示观察 3 个前向和 3 个后向列)，形成一个矩阵 $C_{n \times w}$ 。
3. 二值化: 对矩阵中的每个元素 $c_{i,j}$ $c_{i, j}$ 进行二值化处理，得到 $\overline{c}_{i,j}$ $\overline{c}_{i, j}$ ： $\overline { { c } } _ { i , j } = \left\{ \begin{array} { l l } { - 1 } & { \mathrm { i f ~ } - 0 . 9 \leq c _ { i , j } \leq 0 } \\ { 1 } & { \mathrm { i f ~ } 0 \leq c _ { i , j } \leq 0 . 9 . } \end{array} \right.$
  - 符号解释:
    - $\overline{c}_{i,j}$ : 二值化后的相关系数。
    - $c_{i,j}$ : 原始相关系数。
    - 目的**: 将相关系数简化为正或负，以便于模式识别。
4. 计算 $h$ : 在得到的 $\overline{C}_{n \times w}$ 矩阵中，计算每个长度为 $w$ 的次对角线中正值和负值的数量 $h$ ，并存储在一个数组中。 $h$ 的值范围在 [-w:w]。
5. 锐度得分 $\sigma$ (Sharpness Score $\sigma$ ): 计算如下： $\sigma = 1 - \frac { \sum _ { i = 1 } ^ { n - ( w - 1 ) } h _ { i } } { \left| h _ { i } \right| \cdot \left( w + 1 \right) }$
  - 符号解释:
    - $\sigma$ : 锐度得分。
    - $h_i$ : 数组中第 $i$ 个元素的 $h$ 值。
    - $n$ : 历史长度。
    - $w$ : 观察窗口大小。
  - 目的分析:
    - 对于 $0 < \sigma < 1$ ， $\sigma$ 值越高，非锐利程度越高。
    - 对于 $-1 < \sigma < 0$ ， $\sigma$ 值越低，锐利程度越高。
    - 这个得分量化了三角形形状的清晰程度，从而与模型误差关联起来。
误差根因分析: 下图（原文 Figure 5）展示了锐利和非锐利三角形的示例，以及模型误差。

该图像是图表，展示了图6中模型误差根因分析的四个子图。包括误差与锐度评分、负载、负载变化差异的关系，以及训练集流量值分布，帮助理解误差产生的因素。

图 5. (a) 锐利三角形。顶部是矩阵 $\mathbf{C}$ ，底部是模型误差。(b) 非锐利三角形。顶部是矩阵 $\mathbf{C}$ ，底部是模型误差。
- 通过将锐度得分与误差相关联，发现当锐度得分增加时，误差也会增加（见图 6(a)）。
- 对整个测试集中的误差进行深入分析（见图 6(b)），发现最高的绝对误差（5-8 GB/min）发生在急剧下降的中低负载情况下。
- 图 6(c) 显示，在负载急剧下降的情况下，模型显著低估了真实值（图中左下方）。
- 进一步分析训练集（见图 6(d)），发现训练集中恰好缺乏在模型经常出错的流量范围内的急剧下降样本。下图（原文 Figure 6）展示了模型误差的根因分析。
  
  该图像是图表，展示了AICHRoNoLENS诊断后基线模型和优化模型的误差分布对比，横轴为误差（GB/min），纵轴为出现频率，优化模型误差集中度更高，表现更优。
图 6. 模型误差的根因分析。
模型优化:
- 诊断: AICHRONOLENS 揭示模型在负载急剧下降时泛化能力不足，因为训练集中缺乏此类趋势。
- 解决方案:
  1. 数据增强 (Data Augmentation): 从训练集中复制代表 3 天的样本（原训练集约 8 周），并添加到训练集末尾。
  2. 样本调整: 在负载下降的情况下，仔细移除样本，以包含那些缺失的急剧负载下降模式。
  3. 模型重新训练: 基于模型 A_A 的设置，使用增强后的数据集训练新模型。新模型与 A_A 的唯一区别是在输出层之前添加了 sigmoid 激活函数。
- 性能提升: 下图（原文 Figure 7）比较了基线模型和优化模型的误差分布。
  
  该图像是包含三部分的图表，展示了时间步长区间内移动网络用户活跃数变化、历史数据的热力图及预测误差。红框突出显示了误差异常区间，体现了模型在该处表现波动，方便进一步深入分析时间序列模型行为。
  
  图 7. AICHRONOLENS 诊断后的基线模型和优化模型的误差。
  - 优化后的模型显著优于基线模型 A_A，不仅减少了高幅度误差（图中右侧的低估误差尤其明显），还降低了小幅度误差的频率，并且误差分布更集中于零。
  - 在负载急剧下降的窗口中，模型 A_A 的 MAE 为 0.921，而优化模型的 MAE 为 0.619，性能提升了 32%。
  - 在整个测试集上，优化模型的 MAE 为 0.69，相对于模型 A_A (MAE 0.67) 仅下降了 2% 的准确性（原文这里描述为“2% decrease in accuracy”，但通常 MAE 降低是性能提升，这里可能是笔误或上下文理解差异）。这个结果表明，通过有针对性的数据增强和微调，模型在特定困难场景下的性能得到了显著改善，同时在整体性能上保持了竞争力。

6.1.2.2. $E_2$ : 归因于数据固有难预测 (Data Inherently Hard to Predict)

问题: 即使在解决了模型设计缺陷后，模型的误差可能仍源于数据本身的特性。
AICHRONOLENS 的洞察:
- AICHRONOLENS 可以识别出连续误差具有高幅度且符号改变（例如先正后负）的情况。
- 这种行为在 AICHRONOLENS 的输出 $\mathbf{S}$ 中表现为：正或负相关三角形在时间上被一个充满弱相关性的列打断。
量化分析:
- 通过计算测试集中每两个连续相关向量 $G_t$ $G_{t}$ 和 $G_{t+1}$ $G_{t + 1}$ 之间的欧几里得距离 $d(G_t, G_{t+1})$ $d (G_{t}, G_{t + 1})$ 。 $d ( G _ { t } , G _ { t + 1 } ) = \sqrt { \textstyle \sum _ { i = 1 } ^ { n } ( G _ { t } ^ { i } - G _ { t + 1 } ^ { i } ) ^ { 2 } }$
  - 符号解释:
    - d ( G _ { t } , G _ { t + 1 } ): 两个连续相关向量之间的欧几里得距离。
    - $G_t^i$ : 在时间步 $t$ 时，相关向量的第 $i$ 个元素。
    - $n$ : 历史长度。
  - 目的分析: 归一化后的距离 $d$ 量化了相关向量随时间变化的剧烈程度。
- 当 $d > 0.6$ 时，有 65% 的情况下会发现误差符号发生改变，并且对应的 MAE 达到 0.46，远高于整个数据集的平均 MAE (0.13)。
图示说明: 下图（原文 Figure 8）展示了连续高幅度误差符号变化的分析。

该图像是两组热力图组成的图表，展示了不同时间步（Timestep）与历史长度（History）之间的相关性对比，分别对应模型A、B、C的结果，体现了模型随时间推移的关联变化。

图 8. 分析连续高幅度误差符号变化。
- 图中左侧的误差曲线显示了预测误差在正负之间剧烈波动的情况。
- 右侧的热力图可能对应于相关矩阵 $\mathbf{C}$ 或 $\mathbf{S}^T$ ，其中某些区域可能被高亮，指示了导致这种误差的特定时间段或模式。
- 结论: 即使模型经过优化，数据中固有的高度不确定性或复杂模式仍可能导致模型难以预测，AICHRONOLENS 能够识别出这种数据层面的困难。

6.1.3. 发现 $R_3$ : 学习率对模型行为的影响

观察: 学习率 (learning rate) 对相关向量的模式有显著影响。
- 低学习率 (0.0001): 对应模型（A, B, C）倾向于表现出强烈的正或负相关性，相关值接近 1 或 -1。
- 高学习率 (0.001): 对应模型（A_A, B_B, C_C）的相关性得分则倾向于聚集在零附近，表明相关性较弱或可以忽略不计。
图示说明: 下图（原文 Figure 9）展示了不同学习率下模型的相关向量示例。

图 9. 学习率不同的模型的相关向量：顶部 0.0001，底部 0.001。
- 顶部图: 模型 A, B, C 的相关向量图（学习率为 0.0001），颜色鲜明，接近极端值。
- 底部图: 模型 A_A, B_B, C_C 的相关向量图（学习率为 0.001），颜色较浅，更趋近于零。
解释: 较高的学习率通常意味着模型更快地适应新的或未见过的情况，但也可能以牺牲特定时间模式的捕捉能力为代价，导致相关性得分更“平坦”或更弱。相反，较低的学习率可能使得模型更深入地学习现有模式，从而产生更强的相关性。
LSTM 深度影响: 对比图 9 中的模型（A vs B vs C 或 A_A vs B_B vs C_C），可以看出 LSTM 架构的深度（即神经元数量）对这个特定数据集的相关向量模式影响不大，这表明学习率是一个更关键的超参数。
结论: AICHRONOLENS 能够精确地洞察不同学习率训练的模型所表现出的异构准确性，这对于理解和选择合适的模型超参数具有指导意义。

6.2. 数据呈现 (表格)

以下是原文 Table I 的结果，总结了为数据集 $D_1$ 训练的模型配置。

MODEL ID	Neurons	LEARNING RATE	MAE
A	200	0.0001	0.96
B	100	0.0001	0.99
C	50	0.0001	1.09
A_A	200	0.001	0.67
B_B	100	0.001	0.68
C_C	50	0.001	0.95

分析: 表格 I 展示了六个模型的配置和它们在 $D_1$ $D_{1}$ 数据集上的平均绝对误差 (MAE)。可以观察到：
- 在相同的学习率下（例如 0.0001），增加神经元数量（从 C 到 A）通常会导致 MAE 降低，表明模型容量可能对性能有影响。
- 在较高的学习率 (0.001) 下，模型的 MAE 普遍低于较低的学习率 (0.0001) 的模型，这说明较高的学习率在此任务中可能更有效。
- 模型 A_A 具有 200 个神经元和 0.001 的学习率，达到了最低的 MAE (0.67)，是基线模型中表现最好的。这些模型的性能差异是 AICHRONOLENS 进行分析的基础。

7. 总结与思考

7.1. 结论总结

本论文深入探讨了提高时间序列预测中人工智能模型（尤其是 LSTM）可解释性的紧迫且具有挑战性的问题。作者通过定量和定性研究，揭示了现有可解释人工智能 (XAI) 技术在处理时间序列数据时的不足。为了解决这些局限性，论文提出了一种名为 AICHRONOLENS 的新型工具。

AICHRONOLENS 的核心创新在于它能够将传统的 XAI 解释与输入的时间特性相结合。通过利用格拉姆角场 (Gramian Angular Field, GAF) 将时间序列转化为二维图像，并计算 XAI 相关性得分与 GAF 图像特征之间的皮尔逊相关系数，AICHRONOLENS 能够深入分析模型的行为。

通过对真实世界移动流量轨迹的广泛评估，AICHRONOLENS 展现出以下关键能力：

揭示深层模型行为: 它能够识别传统 XAI 工具无法捕捉到的、刺激模型预测的特定时间特性（如局部最大值和最小值）。
诊断误差根源: AICHRONOLENS 能够区分不同类别的模型误差，包括由糟糕模型设计（例如训练数据不足以覆盖所有模式）引起的误差，以及由数据本身固有难以预测（例如高度波动和快速符号变化的误差）引起的误差。
指导模型优化: 基于 AICHRONOLENS 提供的洞察，可以通过有针对性的数据增强和微调超参数（如添加 sigmoid 激活函数），显著改善模型性能。实验结果表明，在特定困难场景下，模型性能可以提高高达 32%。

总而言之，AICHRONOLENS 为时间序列 AI 预测提供了一种前所未有的解释深度，有助于增强对“黑箱”模型的信任，并为模型开发和部署提供了实用的诊断和优化工具。

7.2. 局限性与未来工作

尽管 AICHRONOLENS 取得了显著的成就，论文也间接指出了其潜在的局限性并提出了未来的研究方向：

模型范围限制: 目前 AICHRONOLENS 的设计和评估主要集中在 LSTM 模型和单变量时间序列预测上。未来的工作需要探索其对处理时空输入 (spatio-temporal inputs) 的模型（例如图神经网络）的适应性。
XAI 工具的通用性与性能: 尽管 AICHRONOLENS 允许插入任何 XAI 工具，但其解释质量仍可能依赖于所选 XAI 工具本身在时间序列上的有效性。论文虽展示了 LRP 和 SHAP 的局限，但未深入探讨不同 XAI 工具在 AICHRONOLENS 框架下的表现差异。
计算效率与可伸缩性: GAF 转换将长度为 $n$ 的时间序列转换为 $n \times n$ 的矩阵，这在处理非常长的时间序列时可能带来较高的计算和存储开销。同时，SHAP 值的计算本身也计算密集。虽然论文未明确提及，但在生产环境中，这些因素可能成为实际部署的考虑点。
解释的自动化与直观性: 尽管 AICHRONOLENS 生成了相关矩阵和三角形模式，但从这些模式中自动提取人类可理解的、因果性解释仍需要进一步的分析和可视化工具支持。sharpness score 是一个很好的尝试，但可能需要更多高级模式识别技术。

7.3. 个人启发与批判

7.3.1. 个人启发

时间序列 XAI 的独特挑战: 这篇论文深刻地揭示了时间序列数据在 XAI 领域的独特性和挑战。简单地将为图像或文本设计的 XAI 工具移植到时间序列上是不足够的，因为时间序列的核心是其时序依赖性和动态模式。AICHRONOLENS 强调了 XAI 解决方案必须深入理解并整合目标数据的内在结构，而非仅仅停留在表面特征。
多模态解释的潜力: 将一维时间序列通过 GAF 转换为二维“图像”，然后利用 XAI 工具和相关性分析，这种跨模态（时间序列到图像）的解释思路非常新颖且富有成效。它为其他复杂数据类型的 XAI 提供了新的视角，即如何通过数据转换来桥接现有 XAI 技术的优势。
解释性驱动的模型改进: 最令人印象深刻的是，AICHRONOLENS 不仅仅停留在“解释”，而是将其解释能力转化为指导模型改进的实际行动。通过诊断模型在特定场景下的泛化不足（如缺乏急剧下降的流量样本），并据此进行有针对性的数据增强和模型调整，最终实现了显著的性能提升。这证明了好的 XAI 不仅能建立信任，还能直接提升模型能力，这在实际应用中具有巨大价值。
超参数对解释性的影响: 发现学习率等超参数不仅影响模型性能，还影响 XAI 解释中的相关性模式，这提醒我们在模型开发过程中，超参数的选择也应考虑其对模型可解释性的潜在影响。

7.3.2. 批判

“XAI 工具盲目性”的证明强度: 论文在动机部分（Section II-B）指出传统 XAI 工具的“盲目性”和“模糊性”，并通过聚类分析（DBA 和 Soft-DTW K-means）来支持这一点。虽然聚类结果显示不同输入序列可能导致相似的 LRP 评分，但其论证过程中的复杂性（例如，需要 16 小时计算，且依赖于聚类算法的选择和超参数）可能未能对“盲目性”给出最直观和普适的证明。一个更简单的、基于特定时序模式对比的案例分析或许能更直接地证明这一点。
GAF 转换的解释性成本: GAF 将时间序列转换为一个 Gram 矩阵，虽然它保留了时间依赖性，但其本身的物理或直观含义对于非专家而言可能仍然抽象。例如， $cos(phi_i + phi_j)$ 的具体含义是什么？其与原始时间序列的哪些“语义”特征直接对应？这可能需要进一步的解释或更直观的可视化来帮助初学者理解 GAF 图像本身。
sharpness score 的通用性: sharpness score 及其与误差的关联，虽然在负载急剧下降的场景下表现出良好效果，但其在其他时间序列模式（如周期性变化、突发尖峰）下的普适性如何？是否需要针对不同类型的误差模式设计不同的量化指标？
性能提升的普适性: 论文强调了在特定困难场景（负载急剧下降）下模型性能提升了 32%，但在整个测试集上的 MAE 仅有 2% 的微小下降。这表明 AICHRONOLENS 在解决特定“边缘情况”的误差方面非常有效，但对于提高整体性能可能还需要结合其他优化策略。这种权衡在实际应用中值得深思。
缺少与其他时间序列 XAI 的直接对比: 尽管论文提到了现有时间序列 XAI 的局限性，但并未直接将 AICHRONOLENS 与其他已有的时间序列 XAI 工具（例如，直接应用于时间序列的 LRP/SHAP 的变体，或基于注意力的模型解释）进行详细的定性或定量对比。这种对比可以更清晰地展示 AICHRONOLENS 的优越性。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。