iTransformer: Inverted Transformers Are Effective for Time Series Forecasting
TL;DR 精炼摘要
iTransformer提出将Transformer的注意力和前馈网络作用于倒置维度,将时间点嵌入变量令牌,提升多变量相关性建模与非线性表示学习能力。该方法有效解决大回溯窗口下的性能和计算问题,实现时间序列预测的最新性能和更强泛化。
摘要
The recent boom of linear forecasting models questions the ongoing passion for architectural modifications of Transformer-based forecasters. These forecasters leverage Transformers to model the global dependencies over temporal tokens of time series, with each token formed by multiple variates of the same timestamp. However, Transformers are challenged in forecasting series with larger lookback windows due to performance degradation and computation explosion. Besides, the embedding for each temporal token fuses multiple variates that represent potential delayed events and distinct physical measurements, which may fail in learning variate-centric representations and result in meaningless attention maps. In this work, we reflect on the competent duties of Transformer components and repurpose the Transformer architecture without any modification to the basic components. We propose iTransformer that simply applies the attention and feed-forward network on the inverted dimensions. Specifically, the time points of individual series are embedded into variate tokens which are utilized by the attention mechanism to capture multivariate correlations; meanwhile, the feed-forward network is applied for each variate token to learn nonlinear representations. The iTransformer model achieves state-of-the-art on challenging real-world datasets, which further empowers the Transformer family with promoted performance, generalization ability across different variates, and better utilization of arbitrary lookback windows, making it a nice alternative as the fundamental backbone of time series forecasting. Code is available at this repository: https://github.com/thuml/iTransformer.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
iTransformer:倒置Transformer在时间序列预测中表现出色 (iTransformer: Inverted Transformers Are Effective for Time Series Forecasting)
1.2. 作者
Yong Liu, Tengge Hu, Haoran Zhang, Haixu Wu, Shiyu Wang, Lintao Ma, Mingsheng Long。 作者主要来自清华大学软件学院和BNRist,部分作者来自蚂蚁集团。
1.3. 发表期刊/会议
该论文发布在 arXiv 预印本平台。
1.4. 发表年份
2023年。
1.5. 摘要
最近线性预测模型 (linear forecasting models) 的兴起,对基于Transformer的预测器在架构修改上的持续热情提出了质疑。传统的基于Transformer的预测器利用Transformer来建模时间序列中时间令牌 (temporal tokens) 的全局依赖关系,其中每个令牌由同一时间戳的多个变量 (variates) 组成。然而,当预测具有更大回溯窗口 (lookback windows) 的时间序列时,Transformer面临性能下降和计算爆炸的挑战。此外,每个时间令牌的嵌入融合了多个变量,这些变量可能代表潜在的延迟事件和不同的物理测量,这可能导致无法学习以变量为中心的表示 (variate-centric representations) 并产生无意义的注意力图 (attention maps)。
在这项工作中,我们反思了Transformer组件的胜任职责,并在不修改基本组件的情况下重新设计了Transformer架构。我们提出了iTransformer,它简单地将注意力 (attention) 和前馈网络 (feed-forward network) 应用于倒置维度 (inverted dimensions)。具体来说,将单个序列的时间点嵌入到变量令牌中,这些令牌被注意力机制用于捕获多变量相关性 (multivariate correlations);同时,前馈网络应用于每个变量令牌以学习非线性表示。iTransformer模型在具有挑战性的真实世界数据集上取得了最先进的 (state-of-the-art) 性能,进一步增强了Transformer家族的性能、跨不同变量的泛化能力 (generalization ability) 以及对任意回溯窗口的更好利用,使其成为时间序列预测基本骨干的一个良好替代方案。
1.6. 原文链接
https://arxiv.org/abs/2310.06625 PDF 链接: https://arxiv.org/pdf/2310.06625v4.pdf 发布状态: 预印本 (Preprint)
2. 整体概括
2.1. 研究背景与动机
2.1.1. 研究背景
Transformer模型 (Transformer model) 在自然语言处理 (Natural Language Processing, NLP) 和计算机视觉 (Computer Vision, CV) 领域取得了巨大成功,并成为遵循规模法则 (scaling law) 的基础模型 (foundation model)。受此启发,Transformer也被引入时间序列预测 (time series forecasting) 领域,期望其强大的建模成对依赖 (pairwise dependencies) 和提取多层次表示 (multi-level representations) 的能力能解决时间序列问题。
2.1.2. 动机与现有挑战
尽管Transformer在其他领域取得了成功,但最近一些研究,尤其是线性预测模型 (linear forecasting models) 的兴起,对基于Transformer的时间序列预测器的有效性提出了质疑。论文指出了当前基于Transformer的时间序列预测器存在的核心问题和挑战:
- 不恰当的令牌化 (Improper Tokenization): 传统的Transformer模型通常将同一时间戳的多个变量嵌入到一个时间令牌 (temporal token) 中,并在这些时间令牌上应用注意力机制来捕获时间依赖。这种做法的问题在于:
- 语义缺失与噪音引入: 同一时间戳的变量可能代表完全不同的物理含义、测量单位或潜在的延迟事件。将它们融合到一个令牌中,可能会抹去变量间的固有相关性,导致难以学习以变量为中心的表示,甚至在非因果或延迟过程中引入交互噪音。
- 局部感受野 (Local Receptive Field): 单个时间步形成的令牌可能由于其过度局限的感受野,难以揭示有益的信息。
- 置换不变性问题 (Permutation Invariance Issue): Transformer的注意力机制本质上是置换不变的。将其不恰当地应用于时间维度,会削弱模型捕获序列顺序对时间序列变化影响的能力。
- 性能瓶颈与计算爆炸: 在预测具有更大回溯窗口的时间序列时,传统的Transformer面临性能下降和计算复杂度呈平方级增长 (computation explosion) 的问题。
- 线性模型表现优异: 简单线性模型在性能和效率上超越了复杂的Transformer,进一步加剧了对Transformer在时间序列领域应用的质疑。
2.1.3. 论文切入点与创新思路
论文认为,Transformer模型本身并非无效,而是其架构在时间序列预测中被不恰当地使用了。作者反思了Transformer组件(如自注意力层和前馈网络)的“胜任职责”,提出了一种“倒置”的视角,重新配置这些未经修改的组件。核心思路是:
- 倒置维度: 不再将时间步作为令牌,而是将每个变量的完整时间序列作为一个变量令牌 (variate token)。
- 重新分配组件职责:
- 自注意力机制 (Self-attention) 用于捕获变量之间的多变量相关性 (multivariate correlations)。
- 前馈网络 (Feed-forward network, FFN) 用于学习每个变量令牌的非线性表示 (nonlinear representations)。
- 层归一化 (Layer Normalization) 用于减少变量间差异。
2.2. 核心贡献/主要发现
- 提出了 iTransformer 模型: iTransformer在不修改Transformer基本组件的前提下,颠覆性地将Transformer架构的维度倒置,将每个独立的时间序列视为一个变量令牌,从而利用自注意力机制捕获多变量相关性,并利用层归一化和前馈网络学习更好的序列全局表示。
- 实现了最先进的性能 (State-of-the-Art Performance): iTransformer在多个具有挑战性的真实世界数据集上取得了全面的最先进性能,超越了包括线性模型和现有Transformer变体在内的众多基线模型。
- 增强了泛化能力 (Enhanced Generalization Ability):
- 跨变量泛化: iTransformer在未见过的变量上表现出强大的泛化能力,这得益于其前馈网络学习可迁移的时间序列表示。
- 任意回溯窗口利用: 模型能够更好地利用任意长度的回溯窗口,解决了传统Transformer在长回溯窗口下性能下降的问题。
- 提升了模型可解释性 (Improved Interpretability): 倒置的注意力机制能够生成更具解释性的注意力图,直观地揭示变量之间的相关性。
- 框架通用性 (Framework Generality): 倒置的框架可以一致地提升各种Transformer变体的性能,且能够有效利用高效注意力机制来处理大规模变量。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 时间序列 (Time Series)
时间序列是按时间顺序排列的一系列数据点。例如,股票价格、气温、电力消耗等。在多元时间序列 (multivariate time series) 中,会有多个相关的变量在同一时间段内被观测。
3.1.2. 时间序列预测 (Time Series Forecasting)
时间序列预测是利用历史数据来预测未来时间点或时间段的值。给定过去 个时间步的观测值,目标是预测未来 个时间步的值。
3.1.3. 回溯窗口 (Lookback Window) 与 预测长度 (Prediction Length)
- 回溯窗口 (Lookback Window): 指用于预测的过去时间点的数量,即模型观察的历史数据长度。通常用 表示。
- 预测长度 (Prediction Length): 指模型需要预测的未来时间点的数量。通常用 表示。
3.1.4. Transformer 模型 (Transformer Model)
Transformer是一种由Google在2017年提出的深度学习模型架构,最初用于自然语言处理,以其强大的序列建模能力而闻名。其核心组成部分是自注意力机制 (self-attention mechanism) 和前馈网络 (feed-forward network)。
3.1.5. 自注意力机制 (Self-Attention Mechanism)
自注意力机制是Transformer的核心,它允许模型在处理序列的某个元素时,能够同时考虑到序列中所有其他元素的重要性。它通过计算查询(Query, )、键(Key, )和值(Value, )之间的相似度来加权求和,从而获得每个元素的上下文表示。 其中:
- (Query): 查询矩阵,由输入序列的嵌入向量通过线性变换得到。
- (Key): 键矩阵,由输入序列的嵌入向量通过线性变换得到。
- (Value): 值矩阵,由输入序列的嵌入向量通过线性变换得到。
- : 键向量的维度,用于缩放点积,防止梯度过大。
- : 归一化指数函数,将注意力权重归一化到 (0, 1) 之间,且和为1。
- : 计算查询和键的点积相似度。
3.1.6. 前馈网络 (Feed-Forward Network, FFN)
在Transformer中,每个自注意力层之后都跟着一个位置感知 (position-wise) 的前馈网络。它通常由两个线性变换和一个激活函数(如 ReLU)组成,对每个位置的表示独立地进行非线性变换。 其中:
- : 输入到前馈网络的向量。
- : 权重矩阵。
- : 偏置向量。
- : ReLU激活函数。
3.1.7. 层归一化 (Layer Normalization)
层归一化 (Layer Normalization) 是一种归一化技术,应用于神经网络的每一层输入,旨在稳定学习过程并加速训练。它独立地计算每个样本的特征的均值和方差,并进行归一化。 其中:
- : 输入到层归一化的向量。
- : 输入 的均值。
- : 输入 的方差。
- : 可学习的缩放和偏移参数。
- : 一个小常数,用于避免除以零。
3.1.8. 均方误差 (Mean Squared Error, MSE)
MSE是衡量预测值与真实值之间差异的常用指标。 其中:
- : 数据点的数量。
- : 第 个真实值。
- : 第 个预测值。
3.1.9. 平均绝对误差 (Mean Absolute Error, MAE)
MAE是另一种衡量预测值与真实值之间差异的指标,对异常值不如MSE敏感。 其中:
- : 数据点的数量。
- : 第 个真实值。
- : 第 个预测值。
3.2. 前人工作
- 传统基于Transformer的预测器: 如Autoformer (Wu et al., 2021)、FEDformer (Zhou et al., 2022) 等,它们通常将同一时间戳的多个变量作为单个时间令牌,通过自注意力机制在时间维度上建模依赖。
- 线性模型 (Linear Models): 如DLinear (Zeng et al., 2023)、TiDE (Das et al., 2023)、RLinear (Li et al., 2023) 等,这些模型近期在时间序列预测中表现出色,甚至超越了一些复杂的Transformer模型,这引发了对Transformer在时间序列领域应用的反思。
- Patching (补丁化): 如PatchTST (Nie et al., 2023) 和Crossformer (Zhang & Yan, 2023),这些方法尝试通过将时间序列切分成更长的“补丁”来作为令牌,以扩大感受野,而非单个时间点。
- 通道独立性 (Channel Independence, CI): 这种策略是将多变量时间序列中的每个变量独立处理,使用共享的骨干网络进行预测,从而避免变量间不恰当的交互。
- Stationarization (平稳化): 如Stationary (Liu et al., 2022b) 和RevIN (Kim et al., 2021),通过对时间序列进行去趋势、去周期等操作来处理非平稳性,以提高模型的预测能力。
3.3. 技术演进
时间序列预测领域从传统的统计方法(如ARIMA、指数平滑)发展到基于深度学习的模型,如循环神经网络 (Recurrent Neural Networks, RNNs) 和时间卷积网络 (Temporal Convolutional Networks, TCNs)。随着Transformer在NLP和CV领域的巨大成功,其“注意力机制就是你所需要的一切” (Attention is all you need) 的理念迅速被引入时间序列领域。早期研究直接将Transformer应用于时间序列,通常将每个时间步的多变量数据作为令牌。然而,这种直接应用面临上述挑战,包括计算复杂度、对长序列的性能下降以及对多变量特性的不适应。随后,研究者开始对Transformer进行各种修改,如优化注意力机制(Informer, Flowformer)、引入分解思想 (Autoformer, FEDformer) 或采用补丁化策略 (PatchTST, Crossformer)。
iTransformer的工作正是在这种背景下产生的反思。它没有去修改Transformer的内部组件,而是从根本上改变了Transformer处理时间序列的“视角”——将令牌的维度从时间倒置为变量,从而更好地利用Transformer的固有能力来解决多变量时间序列预测的独特挑战。
3.4. 差异化分析
iTransformer与现有方法的主要区别和创新点在于其独特的“倒置”架构和对Transformer组件职责的重新分配:
-
与传统Transformer-based预测器的区别:
- 令牌定义: 传统方法将同一时间戳的多个变量聚合为一个时间令牌,注意力机制在时间维度上作用。iTransformer将每个变量的完整时间序列定义为一个变量令牌,注意力机制在变量维度上作用,捕获多变量相关性。
- 关注点: 传统方法侧重于时间依赖性建模。iTransformer则更侧重于多变量间的相关性建模,并将时间序列自身的表示学习交由前馈网络。
- 挑战应对: iTransformer通过倒置维度,解决了传统Transformer在长回溯窗口下的性能下降和计算爆炸问题,以及因融合不相关变量导致注意力图无意义的问题。
-
与线性模型的区别:
- 线性模型简单高效,但其表达能力有限,难以捕获复杂的非线性关系和多变量交互。
- iTransformer虽然在变量的序列表示学习上借鉴了线性模型的“同维度共享前馈网络”思想,但通过引入注意力机制在变量维度上建模复杂的多变量相关性,使其具备了远超纯线性模型的非线性建模能力和泛化能力。
-
与Patching方法的区别 (如PatchTST):
- Patching方法将时间序列切分成时间段(补丁)作为令牌。虽然扩大了感受野,但令牌仍然是时间维度的。
- iTransformer的令牌是整个变量的时间序列,更加“变量中心化” (variate-centric)。并且,Patching可能引入时间未对齐补丁间的交互噪音,而iTransformer的变量令牌自然地避免了这一点。
-
与Channel Independence (CI) 方法的区别:
-
CI方法通过独立处理每个变量来避免不当交互,但通常不能显式地利用多变量之间的相关性。
-
iTransformer在保持变量独立嵌入的同时,通过自注意力机制显式地建模和利用多变量相关性,实现了CI的优点(避免噪音)和通道依赖性(Channel Dependence, CD)的优点(捕获交互)的结合。
下图(原文 Figure 2)清晰地展示了传统Transformer与iTransformer在处理时间序列时的不同策略:
该图像是论文中展示的示意图,比较了传统Transformer与所提iTransformer的时间序列编码方式差异。传统Transformer以时间步为token嵌入多变量,关注时间依赖;iTransformer则反转维度,以变量为token进行嵌入,关注多变量间的关联。
-
图示:Vanilla Transformer(上)将同一时间步的多变量嵌入为时间令牌,注意力作用于时间维度。iTransformer(下)将每个变量的整个时间序列独立嵌入为变量令牌,注意力作用于变量维度,FFN处理序列表示。
下图(原文 Figure 3)则将iTransformer在基于Transformer的时间序列预测器中的定位展现出来:
该图像是图表,展示了基于Transformer的时间序列预测模型按组件和架构修改的分类。图中以二维坐标区分修改组件与修改架构,突出显示了iTransformer在架构和组件双重修改中的位置。
图示:基于Transformer的时间序列预测器按组件和架构修改的分类,iTransformer属于同时修改组件和架构的第四类。
4. 方法论
4.1. 方法原理
iTransformer的核心思想是“倒置”Transformer对时间序列的处理维度。传统的Transformer通常将多变量时间序列 ( 个时间步, 个变量)中的每个时间步 视为一个令牌,并对这 个时间令牌进行注意力操作。iTransformer则反其道而行之,将每个变量的完整时间序列 视为一个令牌,即“变量令牌” (variate token)。这样,原本应用于时间维度上的自注意力机制,现在被应用于变量维度,用于捕获不同变量之间的多变量相关性。同时,原本用于处理令牌间交互后的位置感知前馈网络,现在则独立地应用于每个变量令牌,用于学习该变量时间序列的非线性表示。这种维度倒置的设计,使得Transformer的各个组件能够更好地发挥其在时间序列预测中的“胜任职责”。
4.2. 核心方法详解
iTransformer采用Transformer的编码器 (encoder-only) 架构,包括嵌入层 (embedding)、投影层 (projection) 和多个Transformer块 (Transformer blocks)。其整体结构如下面的图4所示。
该图像是图4的结构示意图,展示了iTransformer的整体架构。图中包含(a)原始多变量时间序列嵌入为变异变量令牌,(b)多变量自注意力机制及相关矩阵计算过程,(c)共享前馈网络提取序列表示,以及(d)采用时间层归一化降低变量间差异。
图示:iTransformer的整体架构,与Transformer编码器的模块排列相同。(a) 不同变量的原始序列被独立嵌入为令牌。(b) 自注意力应用于嵌入的变量令牌,具有增强的可解释性,揭示多变量相关性。(c) 每个令牌的序列表示由共享的前馈网络提取。(d) 采用层归一化减少变量间的差异。
在多变量时间序列预测中,给定历史观测值 ,其中 是时间步数, 是变量数。我们旨在预测未来 个时间步 。为方便起见,我们用 表示第 个变量的完整时间序列。
iTransformer预测未来序列 的过程可以概括为以下步骤:
4.2.1. 输入数据转置与嵌入 (Input Transposition and Embedding)
首先,原始输入 需要转置为 ,以便每个变量的整个时间序列作为一个输入项。 然后,每个变量的完整时间序列 被独立地嵌入为一个变量令牌 ,其中 是令牌的维度。这个嵌入过程由多层感知机 (Multi-Layer Perceptron, MLP) 实现。 其中:
-
: 第 个变量的完整时间序列,维度为 。
-
: 由多层感知机 (MLP) 实现的嵌入函数,将 维的序列映射到 维的令牌表示。
-
: 第 个变量的初始嵌入令牌,维度为 。
这样,我们就得到了 个维度为 的嵌入令牌集合 。
4.2.2. iTransformer 块 (iTransformer Blocks)
嵌入后的变量令牌 接着通过 个 iTransformer 块进行处理。每个 iTransformer 块 (TrmBlock) 的结构与Transformer编码器中的块类似,包含层归一化、自注意力机制和前馈网络。 其中 是第 层 iTransformer 块的输出。
4.2.2.1. 层归一化 (Layer Normalization)
在每个 iTransformer 块内部,层归一化被应用于每个单个变量令牌的表示。这与传统Transformer在时间维度上对多变量融合表示进行归一化不同。iTransformer中,归一化应用于个体变量序列的表示,有助于减少由于测量单位或统计分布不一致而引起的变量间差异。它已经被证明在处理非平稳问题时有效。 其中:
- : 第 个变量的嵌入令牌。
- : 令牌 的均值。
- : 令牌 的方差。
- : 一个小的常数,防止除以零。
4.2.2.2. 自注意力机制 (Self-attention)
在 iTransformer 中,自注意力机制的核心职责是捕获多变量相关性。由于每个令牌代表一个完整的变量时间序列,注意力机制不再是捕捉时间依赖,而是捕捉不同变量令牌之间的相似性和依赖关系。 具体来说,输入是 个维度为 的变量令牌 。通过线性变换生成查询 (Query)、键 (Key) 和值 (Value) 矩阵 ,其中 是投影维度。 预 Softmax 的得分矩阵 中的每个条目 表示第 个变量令牌与第 个变量令牌之间的相关性。 其中:
- : 第 个变量令牌的查询向量。
- : 第 个变量令牌的键向量。 注意力机制会根据这些相关性,对值矩阵 进行加权求和,从而为每个变量令牌生成一个包含其与其他所有变量令牌交互信息的新表示。高度相关的变量会得到更高的权重。
4.2.2.3. 前馈网络 (Feed-Forward Network, FFN)
前馈网络在 iTransformer 中被赋予学习序列表示的职责。它独立地应用于每个变量令牌的输出。由于每个变量令牌已经聚合了其对应的整个时间序列信息,FFN能够提取复杂且可泛化的特征来描述该时间序列的内在属性,如幅度、周期性、频率谱等。这类似于最近纯MLP模型在时间序列领域表现出色的原因。 更重要的是,这里的前馈网络是共享的,即所有变量令牌都通过同一个FFN进行处理。这使得模型能够学习到适用于所有时间序列的通用表示。由于序列的顺序隐含地存储在FFN的神经元排列中,因此不再需要传统Transformer中的位置编码 (position embedding)。
4.2.3. 投影层 (Projection)
经过 个 iTransformer 块处理后,我们得到最终的变量令牌表示 。最后,一个多层感知机 (MLP) 作为投影层,将每个变量令牌 投影回其未来 个时间步的预测值 。 其中:
-
: 第 个变量的最终嵌入令牌。
-
: 由多层感知机 (MLP) 实现的投影函数,将 维的令牌表示映射到 维的预测序列。
-
: 第 个变量的未来 个时间步的预测序列。
最终,所有变量的预测序列 被组合起来,并转置回 作为模型的总输出。
4.2.4. 算法伪代码 (Algorithm 1)
以下是 iTransformer 的整体架构伪代码:
<div class="table-wrapper"><table>
<tr><td>Algorithm 1 iTransformer - Overall Architecture.</td><td></td></tr>
<tr><td colspan="2">Require: Input lookback time series X RT ×N ; input Length T; predicted length S; variates</td></tr>
<tr><td></td><td>number N; token dimension D; iTransformer block number L.</td></tr>
<tr><td>1: X=X.transpose</td><td>>X RN×T 2: Multi-layer Perceptron works on the last dimension to embed series into variate tokens.</td></tr>
<tr><td>3: H0 = MLP(X)</td><td>H0 RN×D</td></tr>
<tr><td>4: for l in {1, . . . , L}:</td><td> Run through iTransformer blocks.</td></tr>
<tr><td>5:</td><td> Self-attention layer is applied on variate tokens.</td></tr>
<tr><td>6:</td><td>Hl−1 = LayerNorm(Hl−1 + Self−Attn(Hl−1))</td></tr>
<tr><td>7:</td><td>Feed-forward network is utilized for series representations, broadcasting to each token. H RN×D</td></tr>
<tr><td>8:</td><td>Hl = LayerNorm(Hl−1 + Feed-Forward(Hl−1))</td></tr>
<tr><td>9:</td><td> LayerNorm is adopted on series representations to reduce variates discrepancies.</td></tr>
<tr><td colspan="2">10: End for</td></tr>
<tr><td></td><td>11: = MLP(HL) Project tokens back to predicted series, RN×S</td></tr>
<tr><td></td><td>12: =.transpose</td></tr>
<tr><td>13: Return </td><td> Return the prediction result </td></tr>
</table></div>
算法 1: iTransformer - 整体架构
输入:
- 回溯时间序列
- 输入长度
- 预测长度
- 变量数量
- 令牌维度
- iTransformer 块数量
步骤:
- // 将输入转置为 ,使每个行代表一个变量的完整序列。
- // 多层感知机作用于最后一个维度,将序列嵌入为变量令牌。
- // ,得到 个 维的变量令牌。
- for in : // 遍历 iTransformer 块。
- // 自注意力层应用于变量令牌。
- // 前馈网络用于序列表示,广播到每个令牌。
- // 层归一化应用于序列表示,以减少变量差异。
- End for
- // ,将令牌投影回预测序列。
- // 将预测结果转置为 。
- Return // 返回预测结果。
5. 实验设置
5.1. 数据集
实验使用了7个真实世界数据集,并额外在一个内部数据集上进行了评估。
- ECL (Electricity Consuming Load): 包含321个客户的每小时电力消耗数据。
Dim: 321Frequency: HourlyInformation: Electricity
- ETT (Electricity Transformer Temperature): 包含2016年7月至2018年7月电力变压器的7个因素数据。分为4个子集:
ETTh1, ETTh2: 每小时记录。ETTm1, ETTm2: 每15分钟记录。Dim: 7Frequency: Hourly (ETTh1, ETTh2), 15min (ETTm1, ETTm2)Information: Electricity
- Exchange (Exchange Rates): 收集了1990年至2016年8个国家的每日汇率面板数据。
Dim: 8Frequency: DailyInformation: Economy
- Traffic (Road Occupancy): 收集了2015年1月至2016年12月旧金山湾区高速公路862个传感器测量的每小时道路占用率。
Dim: 862Frequency: HourlyInformation: Transportation
- Weather (Meteorological Factors): 包含2020年Max Planck生物地球化学研究所气象站每10分钟收集的21个气象因素。
Dim: 21Frequency: 10minInformation: Weather
- Solar-Energy (Solar Power Production): 记录了2006年137个光伏电站的太阳能发电量,每10分钟采样一次。
Dim: 137Frequency: 10minInformation: Energy
- PEMS (Public Traffic Network Data): 包含加州公共交通网络的5分钟窗口数据,使用了SCINet中采用的4个子集 (PEMS03, PEMS04, PEMS07, PEMS08)。
Dim: 358 (PEMS03), 307 (PEMS04), 883 (PEMS07), 170 (PEMS08)Frequency: 5minInformation: Transportation
- Market (Alipay Server Load): 论文额外收集的支付宝在线交易应用的分钟级服务器负载数据,时间范围为2023年1月30日至2023年4月9日,变量数量从285到759不等,包含6个子数据集。
Dim: 285-759Frequency: 10min (原文Market dataset描述中提到的是10min,但表4中Market-Merchant等是10min,同时描述为“minute-sampled”,这里以Table 4为准,显示10min)Information: Transaction
数据处理和划分:
-
遵循TimesNet (Wu et al., 2023) 使用的数据处理和训练-验证-测试集划分协议,严格按时间顺序划分,确保没有数据泄漏。
-
回溯长度 (lookback length): 对于ETT, Weather, ECL, Solar-Energy, PEMS和Traffic数据集,固定为96。对于Market数据集,回溯长度为144(过去一天的数据)。
-
预测长度 (prediction length): 对于ETT, Weather, ECL, Solar-Energy, Traffic数据集,预测长度变化范围为 。对于PEMS数据集,预测长度为 。对于Market数据集,预测长度为 。
以下是原文 Table 4 的数据集详细描述:
Dataset Dim Prediction Length Dataset Size Frequency Information ETTh1, ETTh2 7 {96, 192, 336, 720} (8545, 2881, 2881) Hourly Electricity ETTm1, ETTm2 7 {96, 192, 336, 720} (34465, 11521, 11521) 15min Electricity Exchange 8 {96, 192, 336, 720} (5120, 665, 1422) Daily Economy Weather 21 {96, 192, 336, 720} (36792, 5271, 10540) 10min Weather ECL 321 {96, 192, 336, 720} (18317, 2633, 5261) Hourly Electricity Traffic 862 {96, 192, 336, 720} (12185, 1757, 3509) Hourly Transportation Solar-Energy 137 {96, 192, 336, 720} (36601, 5161, 10417) 10min Energy PEMS03 358 {12, 24, 48, 96} (15617, 5135, 5135) 5min Transportation PEMS04 307 {12, 24, 48, 96} (10172, 3375, 3375) 5min Transportation PEMS07 883 {12, 24, 48, 96} (16911, 5622, 5622) 5min Transportation PEMS08 170 {12, 24, 48, 96} (10690, 3548, 3548) 5min Transportation Market-Merchant 285 {12, 24, 72, 144} (7045, 1429, 1429) 10min Transaction Market-Wealth 485 {12, 24, 72, 144} (7045, 1429, 1429) 10min Transaction Market-Finance 405 {12, 24, 72, 144} (7045, 1429, 1429) 10min Transaction Market-Terminal 307 {12, 24, 72, 144} (7045, 1429, 1429) 10min Transaction Market-Payment 759 {12, 24, 72, 144} (7045, 1429, 1429) 10min Transaction Market-Customer 395 {12, 24, 72, 144} (7045, 1429, 1429) 10min Transaction
5.2. 评估指标
论文主要使用两个常用指标来评估预测性能:均方误差 (Mean Squared Error, MSE) 和平均绝对误差 (Mean Absolute Error, MAE)。
5.2.1. 均方误差 (Mean Squared Error, MSE)
- 概念定义 (Conceptual Definition): MSE 衡量预测值与真实值之间差异的平方的平均值。它对预测误差的惩罚是二次的,因此对于较大的误差会给予更高的惩罚。这使得MSE对异常值 (outliers) 比较敏感,常用于评估模型预测的精确度。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 样本点的总数量。
- : 第 个样本的真实值。
- : 第 个样本的预测值。
5.2.2. 平均绝对误差 (Mean Absolute Error, MAE)
- 概念定义 (Conceptual Definition): MAE 衡量预测值与真实值之间绝对差值的平均值。它对误差的惩罚是线性的,因此相对于MSE而言,对异常值不那么敏感。MAE直观地表示了平均预测误差的大小。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 样本点的总数量。
- : 第 个样本的真实值。
- : 第 个样本的预测值。
5.3. 对比基线
论文将 iTransformer 与 10 个广受认可的先进预测模型进行了比较,这些模型可以分为三类:
- 基于Transformer的模型 (Transformer-based methods):
- Autoformer (Wu et al., 2021): 带有自相关分解的Transformer。
- FEDformer (Zhou et al., 2022): 频率增强分解Transformer。
- Stationary (Liu et al., 2022b): 处理时间序列非平稳性的Transformer。
- Crossformer (Zhang & Yan, 2023): 利用跨维度依赖的Transformer。
- PatchTST (Nie et al., 2023): 通过补丁化处理长序列的Transformer。
- 基于线性模型的方法 (Linear-based methods):
- DLinear (Zeng et al., 2023): 线性分解模型。
- TiDE (Das et al., 2023): 时间序列密集编码器。
- RLinear (Li et al., 2023): 重新审视长期时间序列预测中的线性映射。
- 基于TCN的模型 (TCN-based methods):
-
SCINet (Liu et al., 2022a): 带有样本卷积和交互的时间序列模型。
-
TimesNet (Wu et al., 2023): 时间2D变分建模,用于通用时间序列分析。
这些基线模型涵盖了当前时间序列预测领域的多种主流和先进技术,具有代表性,能够全面评估 iTransformer 的性能。
-
6. 实验结果与分析
6.1. 核心结果分析
iTransformer 在多个真实世界数据集上取得了最先进的预测性能,尤其在处理高维时间序列时表现突出。
以下是原文 Table 1 的主要结果,展示了 iTransformer 在 ECL、Exchange、Traffic 和 Weather 数据集上的表现,以及与其他基线模型的对比。
| Models | iTransformer (Ours) | RLinear (2023) | PatchTST Crossformer (2023) | TiDE (2023) | TimesNet (2023) | DLinear (2023) | SCINet (2022a) | (2022) | FEDformer Stationary (2022b) | Autoformer (2021) | |
| Metric | | MSE MAE | | |MSE MAE MSE MAE| MSE MAE MSE MAE MSE MAE MSE MAE MSE MAE MSE MAE MSE MAE MSE MAE | |||||||||
| ECL | |0009000000 | ||||||||||
| 000000 | |||||||||||
| Exchange | |00100900010100060990.0 | ||||||||||
| Traffic | |000.576000.900060.00 | ||||||||||
| Weather | |0000000010010 | ||||||||||
| o00600000006 | |||||||||||
| 10000 |
注意: 原文 Table 1 存在排版问题,数据未能完全对齐,无法直接解读。但从摘要和正文描述可知,iTransformer 实现了最先进的性能。根据论文描述,iTransformer 尤其擅长预测高维时间序列。
以下是原文 Table 7 的完整性能提升结果,对比了 Transformer 和 iTransformer 在所有数据集上的平均性能:
| Datasets Metric | ETT | ECL | PEMS | Solar-Energy | Traffic | Weather | ||||||
| MSE | MAE | MSE | MAE | MSE | MAE | | MSE | MAE | MSE | MAE | MSE | MAE | |
| Transformer | 2.750 | 1.375 | 0.277 | 0.372 | 0.157 | 0.263 | | 0.256 | 0.276 | 0.665 | 0.363 | 0.657 | 0.572 |
| iTransformer | 0.383 | 0.407 | 0.178 | 0.270 | 0.113 | 0.221 | 0.233 | 0.262 | 0.428 | 0.282 | 0.258 | 0.279 |
| Promotion | | 86.1% | 70.4% | | | 35.6% | 27.4% | 28.0% | 16.0% | | 9.0% | 5.1% | | 35.6% | 22.3% | 60.2% | 50.8% |
分析: 从 Table 7 可以看出,iTransformer 相较于原始的 Transformer 在所有数据集上都带来了显著的性能提升(Promotion 指 MSE/MAE 的相对减少)。例如,在 ETT 数据集上,MSE 减少了 86.1%,MAE 减少了 70.4%。这有力地证明了“倒置”架构对于 Transformer 在时间序列预测中的有效性。
对高维时间序列的优势: 对于 Traffic(862个变量)和 ECL(321个变量)这类高维数据集,iTransformer 显著优于之前的最先进模型。例如,PatchTST 在 PEMS 数据集的一些情况下表现不佳,这可能源于其补丁机制在处理极度波动的序列时失去焦点。相比之下,iTransformer 聚合了整个序列的变动来学习序列表示,能更好地应对这种情况。
与 Crossformer 的对比: 尽管 Crossformer 显式捕获了跨时间和跨变量的依赖关系,但其性能仍不如 iTransformer。这表明,对时间未对齐的补丁进行交互可能会引入不必要的预测噪音。iTransformer 通过倒置架构,使 Transformer 的原生组件能够胜任时间建模和多变量关联的任务。
6.2. 消融实验与参数分析
6.2.1. 消融实验 (Ablation Study)
为了验证 iTransformer 中 Transformer 组件职责分配的合理性,论文进行了详细的消融实验,包括替换组件和移除组件的实验。
以下是原文 Table 3 的消融实验结果摘要:
| Design | Variate | Temporal | ECL | Traffic | Weather | Solar-Energy | ||||
| MSE | MAE | MSE | MAE | MSE | MAE | MSE | MAE | |||
| iTransformer | Attention | FFN | 0.178 | 0.270 | 0.428 | 0.282 | 0.258 | 0.278 | 0.233 | 0.262 |
| Replace | Attention | Attention | 0.193 | 0.293 | 0.913 | 0.500 | 0.255 | 0.280 | 0.261 | 0.291 |
| FFN | Attention | 0.202 | 0.300 | 0.863 | 0.499 | 0.258 | 0.283 | 0.285 | 0.317 | |
| FFN | FFN | 0.182 | 0.287 | 0.599 | 0.348 | 0.248 | 0.274 | 0.269 | 0.287 | |
| w/o | Attention | 0.189 | 0.278 | 0.456 | 0.306 | 0.261 | 0.281 | 0.258 | 0.289 | |
| FFN | 0.193 | 0.276 | 0.461 | 0.294 | 0.265 | 0.283 | 0.261 | 0.283 | ||
分析:
- iTransformer (Variate: Attention, Temporal: FFN): 取得了最佳性能,这验证了将自注意力用于多变量相关性建模,将前馈网络用于序列表示学习的合理性。
- 替换组件 (Replace):
- 将两个维度都使用
Attention(即传统Transformer的配置) 导致性能显著下降,尤其在 Traffic 数据集上 MSE 从 0.428 飙升到 0.913。这表明传统 Transformer 架构的潜在风险。 - 将
Variate维度使用FFN而Temporal维度使用Attention的配置(可以理解为一种线性模型与注意力结合的方式),性能也远不如 iTransformer。 - 将两个维度都使用
FFN(即一个纯 MLP 模型),性能介于传统 Transformer 和 iTransformer 之间。这证实了 MLP 在处理时间序列表示方面的有效性,但无法显式建模多变量相关性,因此不如 iTransformer。
- 将两个维度都使用
- 移除组件 (w/o):
-
移除
Attention(即只保留 FFN 的作用)和移除FFN(即只保留 Attention 的作用)都会导致性能下降,这说明两个组件在 iTransformer 的架构中都发挥了不可或缺的作用。完整消融实验结果见原文 Table 6,这里只展示摘要。
-
6.2.2. 序列表示分析 (Analysis of Series Representations)
论文通过中心核对齐 (Centered Kernel Alignment, CKA) 相似度来分析模型学习到的序列表示。CKA 值越高表示表示越相似。之前的研究表明,时间序列预测作为一种低级生成任务,更倾向于更高的 CKA 相似度以获得更好的性能。 如下图(原文 Figure 7 左侧)所示,iTransformer 学习到的表示具有更高的 CKA 相似度,这表明其学习到了更适合准确预测的序列表示。
该图像是图表,展示了Traffic数据集中部分传感器的路段占用率随时间变化的曲线图。图中可以观察到部分序列(如传感器2和4)表现出较强的同步性,同时也存在明显的时间延迟和提前现象(如传感器1与传感器2,传感器859与传感器861)。
图示:左图:Transformer 和 iTransformer 之间表示的 MSE 和 CKA 相似度比较。更高的 CKA 相似度表示更受青睐的表示,可用于准确预测。
6.2.3. 多变量相关性分析 (Analysis of Multivariate Correlations)
iTransformer 将多变量相关性建模的任务分配给注意力机制,使得学习到的注意力图具有更强的可解释性。 如下图(原文 Figure 7 右侧)和 Figure 11 所示,在 Solar-Energy 数据集上,注意力机制在浅层学到的注意力图与原始输入序列的相关性高度相似。随着模型深入,深层学到的注意力图逐渐与未来序列的相关性相似。这表明 iTransformer 能够学习到可解释的变量间相关性,并在编码历史和解码未来过程中利用这些相关性。
该图像是图表,展示了论文中案例1到案例3的回顾期和未来时间序列的多变量相关性及不同层的反转自注意力得分图,数据来自Solar-Energy数据集。
图示:回溯序列和未来序列的多变量相关性,以及不同层倒置自注意力学习到的得分图的可视化。案例均来自 Solar-Energy 数据集。
进一步,在 Market 数据集上,如下图(原文 Figure 12)所示,iTransformer 的注意力图能清晰地识别出属于同一应用组的变量之间的强相关性,这体现了其在识别语义相关变量方面的能力。
该图像是图表,展示了Market数据集中两个案例中若干变参的时间序列曲线及其学习到的多变量相关性热力图。左侧为时间序列走势,右侧为对应的相关性矩阵,图中标注了注意力机制关注的特定变参对。
图示:Market 数据集中变量和学习到的多变量相关性可视化。每个变量代表一个应用程序的监测接口值,应用程序可以进一步分组为更精细的类别。
6.2.4. iTransformers 的通用性 (iTransformers Generality)
6.2.4.1. 性能提升 (Performance Promotion)
iTransformer 框架能够一致地提升各种 Transformer 变体的性能,包括 Reformer、Informer、Flowformer 和 FlashAttention。 以下是原文 Table 2 的性能提升概览:
| Models | Transformer (2017) | Reformer (2020) | Informer (2021) | Flowformer (2022) | Flashformer (2022) | ||||||
| MSE | MAE | MSE | MAE | MSE | MAE | MSE | MAE | MSE | MAE | ||
| ECL | Original +Inverted | 0.277 0.178 | 0.372 0.270 | 0.338 0.208 | 0.422 0.301 | 0.311 0.216 | 0.397 0.311 | 0.267 0.210 | 0.359 0.293 | 0.285 0.206 | 0.377 0.291 |
| Promotion | 35.6% | 27.4% | 38.4% | 28.7% | 30.5% | 21.6% | 21.3% | 18.6% | 27.8% | 22.9% | |
| Traffic | Original +Inverted | 0.665 0.428 | 0.363 0.282 | 0.741 0.647 | 0.422 0..370 | 0.764 0.662 | 0.416 0.380 | 0.750 0.524 | 0.421 0.355 | 0.658 0.492 | 0.356 0.333 |
| Promotion | 35.6% | 22.3% | 12.7% | 12.3% | 13.3% | 8.6% | 30.1% | 15.6% | | 25.2% | 6.4% | |
| Weather | Original +Inverted | 0.657 0.258 | 0.572 0.279 | 0.803 0.248 | 0.656 0.292 | 0.634 0.271 | 0.548 0.330 | 0.286 0.266 | 0.308 0.285 | 0.659 0.262 | 0.574 0.282 |
| Promotion | 60.2% | 50.8% | 69.2% | 55.5% | | 57.3% | 39.8% | 7.2% | 7.7% | 60.2% | 50.8% | |
分析: iTransformer 框架对各种 Transformer 变体的性能提升是普遍且显著的。平均而言,在 Transformer 上实现了 38.9% 的性能提升,Reformer 上 36.1%,Informer 上 28.5%,Flowformer 上 16.8%,Flashformer 上 32.2%。这表明,之前 Transformer 架构在时间序列预测中的不当使用才是问题所在。
6.2.4.2. 变量泛化能力 (Variate Generalization)
iTransformer 赋予了模型在未见变量上进行泛化的能力。由于输入令牌数量的灵活性,变量通道的数量不再受限,可以在训练和推理时灵活变化。此外,iTransformer 中的前馈网络对独立的变量令牌进行相同的处理,其神经元学习的是任何时间序列的内在模式(如振幅、周期性),这些模式倾向于在不同变量之间共享和可迁移。 如下图(原文 Figure 5)所示,iTransformer 在仅用 20% 变量训练的情况下,能有效地预测所有变量,且泛化性能良好。相比之下,Channel Independence (CI) 策略虽然也能泛化,但在推理时需要逐一预测每个变量,效率较低。
该图像是图表,展示了图5中iTransformer模型在不同数据集(ECL、Traffic、Solar-Energy)上对未见变量的泛化能力。图中比较了Transformer、Informer、Reformer和Flowformer模型,在所有变量(100%)和部分变量(20%)条件下的均方误差(MSE)表现。
图示:在未见变量上泛化能力的性能。我们将每个数据集的变量分成五个文件夹,用 20% 的变量训练模型,并使用部分训练的模型预测所有变量。iTransformer 可以高效训练并具有良好的泛化能力进行预测。
6.2.4.3. 增加回溯长度 (Increasing Lookback Length)
传统 Transformer 往往无法从增加的回溯长度中获益,甚至性能下降。然而,线性预测模型通常能从更多历史信息中受益。iTransformer 通过将 MLPs 应用于时间维度(每个变量令牌的序列表示),使得模型能够更好地利用扩展的回溯窗口来获得更精确的预测。 如下图(原文 Figure 6)所示,随着回溯长度的增加,iTransformer 及其变体的性能持续提升,而原始 Transformer 的性能则趋于饱和甚至下降。
该图像是图表,展示了不同模型在ECL和Traffic两个数据集上,随回望长度变化的预测性能,纵轴为均方误差(MSE)。结果显示iTransformer在扩大回望窗口时性能明显优于其他Transformer及其变体。
图示:在回溯长度 和固定预测长度 下的预测性能。基于 Transformer 的预测器性能不一定受益于增加的回溯长度,而倒置框架赋予了普通 Transformer 及其变体在扩大回溯窗口下改进的性能。
6.2.5. 高效训练策略 (Efficient Training Strategy)
针对多变量场景中自注意力机制的二次复杂度问题,iTransformer 提出了一种高效训练策略:在每个批次中随机选择部分变量进行训练。由于其变量通道的灵活性,模型在推理时仍能预测所有变量。 如下图(原文 Figure 8)所示,这种策略在性能保持可比的同时,显著降低了内存占用。
该图像是图表,展示了图8中不同采样比例下部分训练变量的性能(左图,MSE)和内存占用(右图,GB)变化。结果显示性能保持稳定,而内存占用显著下降,右图中交通数据的内存下降趋势在插图中放大展示。
图示:高效训练策略的分析。在不同采样比例下,部分训练变量的性能(左)保持稳定,而内存占用(右)可以大幅削减。
6.2.6. 超参数敏感性 (Hyperparameter Sensitivity)
如下图(原文 Figure 9)所示,论文对学习率 lr、Transformer 块数 和变量令牌隐藏维度 进行了超参数敏感性分析。
-
学习率 (learning rate): 对于变量数量较多的数据集(如 ECL 和 Traffic),学习率的选择需要更谨慎。
-
块数 (number of Transformer blocks) 和隐藏维度 (hidden dimension): 并非越大越好,iTransformer 在适度的块数和隐藏维度下就能取得良好性能。
该图像是图表,展示了图9中iTransformer模型针对学习率、Transformer块数和变元隐藏维度的超参数敏感性分析,采用了回溯窗口长度和预测窗口长度。横轴分别为不同超参数,纵轴为MSE误差,包含ETT、ECL、Traffic和Weather四个数据集的对比结果。
图示:关于学习率、Transformer 块数和变量令牌隐藏维度的超参数敏感性。结果记录在回溯窗口长度 和预测窗口长度 的情况下。
6.3. 模型效率 (Model Efficiency)
如下图(原文 Figure 10)所示,iTransformer 在效率上表现出色。
该图像是图表,展示了在输入-96预测-96任务中,Weather(21种变量)和Traffic(862种变量)数据集上多种模型的效率对比,包括训练时间、MSE和显存占用,iTransformer在多个维度表现优异。
图示:在 Weather 和 Traffic 数据集上,输入-96-预测-96 的模型效率比较。
分析:
- 变量数量较少的数据集 (如 Weather, 21个变量): iTransformer 的效率优于其他 Transformer 模型。
- 变量数量较多的数据集 (如 Traffic, 862个变量): iTransformer 的内存占用与 Transformer 变体基本相同,但训练速度更快。尽管自注意力机制的复杂度为 (N为令牌数量),在 Traffic 数据集中,原始 Transformer 的时间令牌数量 远小于 iTransformer 的变量令牌数量 ,但 iTransformer 仍能更快,这说明其在处理高维变量时,通过有效利用多变量相关性,虽然单次注意力计算可能更复杂,但整体效率依然出色。
- 结合高效注意力机制或高效训练策略: iTransformer 可以通过结合线性复杂度的注意力机制 (如 Flowformer) 或其提出的高效训练策略,达到与线性模型相当的速度和内存占用。
6.4. 预测结果可视化 (Visualization of Prediction Results)
如下图 Figures 13-16 所示,iTransformer 在各种数据集上的预测结果,与真实值相比,能够更精确地捕捉序列的波动和趋势,预测的未来序列变动最接近真实情况,展现出卓越的性能。
该图像是多模型预测效果的折线图对比,展示了iTransformer、PatchTST、DLinear、Crossformer、Autoformer和Transformer在Traffic数据集上的input-96-predict-96预测结果。
图示:Traffic 数据集上输入-96-预测-96 结果的可视化。
该图像是对比6种时间序列预测模型在ECL数据集上输入96步预测96步结果的折线图。图中展示了iTransformer、PatchTST、DLinear、Crossformer、Autoformer及Transformer的预测曲线与真实曲线的对比,反映各模型预测的准确性。
图示:ECL 数据集上输入-96-预测-96 结果的可视化。
该图像是论文中展示的多个时间序列预测模型预测结果对比的折线图,显示在不同模型下预测值与真实值的匹配情况。图中包含iTransformer、PatchTST、DLinear、Crossformer、Autoformer和Transformer六种模型的结果对比。
图示:Weather 数据集上输入-96-预测-96 结果的可视化。
该图像是多个时间序列预测模型的预测曲线和真实值曲线对比图,展示了iTransformer及其他五种模型(PatchTST、DLinear、Crossformer、Autoformer、Transformer)在PEMS数据集上input-96-predict-96任务的表现。
图示:PEMS 数据集上输入-96-预测-96 结果的可视化。
6.5. 嵌入时间戳多变量点的风险 (Risks of Embedding Multivariate Points of A Timestamp)
论文在附录 E.3 中通过 Traffic 数据集案例进一步说明了传统 Transformer 架构中将同一时间戳的多变量点嵌入为单个令牌的风险。 如下图(原文 Figure 17)所示,Traffic 数据集中的传感器数据存在明显的相位偏移(例如传感器1和传感器2,传感器859和传感器861之间存在延迟或提前)。
该图像是图表,展示了图9中iTransformer模型针对学习率、Transformer块数和变元隐藏维度的超参数敏感性分析,采用了回溯窗口长度和预测窗口长度。横轴分别为不同超参数,纵轴为MSE误差,包含ETT、ECL、Traffic和Weather四个数据集的对比结果。
图示:Traffic 部分变量的可视化。我们可以观察到几个序列表现出强同步性(如传感器2和传感器4),并且序列之间也存在明显的延迟和提前(如传感器1和传感器2,传感器859和传感器861)。
分析: 在这种情况下,如果将同一时间戳的多个变量融合到一个令牌中,由于这些变量代表着系统性时间滞后或不同物理含义的事件,那么传统的注意力机制(旨在捕获时间依赖)将可能生成“无意义”的注意力图,导致模型性能下降。iTransformer 通过将整个序列作为一个变量令牌,能够更鲁棒地应对这些真实世界场景中的复杂性,如延迟事件、不一致测量、不规则时间序列、系统性监测延迟以及生成和记录时间序列的时间间隔等。
6.6. 完整实验结果
6.6.1. 完整框架通用性结果
以下是原文 Table 8 的完整框架通用性结果,展示了 iTransformer 对各种 Transformer 变体的提升效果:
| Models Metric | Transformer (2017) | Reformer (2020) | Informer (2021) | Flowformer (2022) | Flashformer (2022) | |||||||
| MSE | MAE | MSE | MAE | MSE | MAE | MSE | MAE | MSE | MAE | |||
| ECL | Original | 96 192 | 0.260 0.266 | 0.358 0.367 | 0.312 0.348 | 0.402 0.433 | 0.274 0.296 | 0.368 0.386 | 0.215 0.259 | 0.320 0.355 | 0.259 0.274 | 0.357 0..374 |
| 336 | 0.280 | 0.375 | 0.350 | 0.433 | 0.300 | 0.394 | 0.296 | 0.383 | 0.310 | 0.396 | ||
| 720 Avg | 0.302 |0.277 | 0.386 0.372 | 0.340 0.338 | 0.420 0.422 | 0.373 |0.311 | 0.439 0.397 | 0.296 0.267 | 0.380 | 0.298 | 0.383 | ||
| 96 192 | 0.148 0.162 | 0.240 0.253 | 0.182 0.192 | 0.275 0.286 | 0.190 | 0.286 | 0.183 | 0.359 0.267 | | 0.285 0.178 | 0.377 0.265 | ||
| +Inverted | 336 720 | 0.178 0.225 | 0.269 | 0.210 | 0.304 | 0.201 0.218 | 0.297 0.315 | 0.192 0.210 | 0.277 0.295 | 0.189 0.207 | 0.276 0.294 | |
| 0.178 | 0.317 0.270 | 0.249 0.208 | 0.339 | 0.255 | 0.347 | 0.255 | 0.332 | 0.251 | 0.329 | |||
| Avg 96 | 0.647 0.357 | 0.732 | 0.301 0.423 | 0.216 0.719 | 0.311 | 0.210 | 0.293 | 0.206 | 0.291 | |||
| Traffic | Original | 192 336 720 | 0.649 0.667 | 0.356 0.364 | 0.733 0.742 | 0.420 0.420 | 0.696 0.777 | 0.391 0.379 0.420 | 0.691 0.729 0.756 | 0.393 0.419 0.423 | 0.641 0.648 0.670 | 0.348 0.358 0.364 |
| Avg | 0.697 0.665 | 0.376 0.363 | 0.755 |0.741 | 0.432 | 0.864 | 0.472 | 0.825 | 0.449 | 0.673 | 0.354 | ||
| 96 | 0.395 | 0.268 | 0.617 | 0.422 0.356 | 0.764 0.632 | 0.416 0.367 | 0.750 0.493 | 0.421 0.339 | 0.658 0.464 | 0.356 0.320 | ||
| +Inverted | 192 336 720 | 0.417 0.433 0.467 | 0.276 0.283 | 0.629 0.648 | 0.361 0.370 | 0.641 0.663 | 0.370 0.379 | 0.506 0.526 | 0.345 0.355 | 0.479 0.501 | 0.326 0.337 | |
| Avg | 0.428 | 0.302 0.282 | 0.694 0.647 | 0.394 0.370 | 0.713 0.662 | 0.405 0.380 | 0.572 0.524 | 0.381 0.355 | 0.524 0.492 | 0.350 0.333 | ||
| Weather | Original | 96 192 336 | 0.395 0.619 0.689 | 0.427 0.560 0.594 | 0.689 0.752 | 0.596 0.638 | 0.300 0.598 | 0.384 0.544 | 0.182 0.250 | 0.233 0.288 | 0.388 0.619 | 0.425 0.560 |
| 720 | 0.926 | 0.710 | 0.639 1.130 | 0.596 0.792 | 0.578 1.059 | 0.523 0.741 | 0.309 0.404 | 0.329 0.385 | 0.698 0.930 | 0.600 0.711 | ||
| +Inverted | Avg 96 | 0.657 | 0.572 | 0.803 | 0.656 | 0.634 | 0.548 | 0.286 | 0.308 | 0.659 | 0.574 | |
| 192 | 0.174 0.221 | 0.214 0.254 | 0.169 0.213 | 0.225 0.265 | 0.180 0.244 | 0.251 0.318 | 0.183 0.231 | 0.223 0.262 | 0.177 0.229 | 0.218 0.261 | ||
| 336 720 | Avg | 0.278 0.358 0.258 | 0.296 0.349 0.279 | 0.268 0.340 0.248 | 0.317 0.361 0.292 | 0.282 0.377 | 0.343 0.409 | 0.286 0.363 | 0.301 0.352 | 0.283 0.359 | 0.300 0.251 | ||
6.6.2. 完整变量泛化结果
以下是原文 Figure 18 的完整变量泛化结果,比较了 iTransformers 和 CI-Transformers:
该图像是多个子图组成的条形图,展示了 iTransformers 与 CI-Transformers 在 ECL、Traffic、Solar-Energy、PEMS03、PEMS04 和 PEMS08 数据集上对未见变元的泛化能力对比,误差用 MSE 衡量,x 轴为不同模型。图中通过 20% 和 100% 变元训练模型,并以不同颜色区分结果。
图示:未见变量泛化的完整性能,比较了 iTransformers 和 CI-Transfomers。我们将每个数据集的变量分成五个文件夹,用 20% 的变量训练,并使用训练好的模型预测所有变量。我们绘制了所有五个文件夹的平均结果。
6.6.3. 完整预测结果
以下是原文 Table 9 的 PEMS 预测任务完整结果:
| ModelsiTransformerRLinearPatchTST Crossformer TiDE TimesNetDLinear SCINetFEDformer Stationary Autoformer(Ours) (2023) (2023) (2023) (2023) (2023) (2023) (2022a) (2022) (2022b) (2021)Metric MSE MAE|MSE MAE| MSE MAE MSE MAE|E| MSE MAE[MSE MAE[MSE MAE|MSE MAE|MSE MAE[MSE MAE [MSE MAE | ||||||||||||||
| MSE MAE | |MSE MAE| MSE MAE MSE MAE| | MSE MAE | MSE MAE | MSE MAE | MSE MAE | MSE MAE | MSE MAB | MSE MAE | ||||||
| PESSS | 12244896 | |0.0710.174 | 0.126 0.236 | |0.126 0.236|0.099 0.216|0.090 0.203 | | 0.178 0.305 | 0.085 0.192 | 0.118 0.2230.201 0.3170.333 0.425 | |0.066 0.172|0.085 0.1980.127 0.238 | 0.227 0.348 0.154 0.257 | 0.272 0.385 | ||||
| 0.0930.201 | 0.246 0.3340.551 0.5291.057 0.787 | 0.142 0.2590.211 0.3190.269 0.3700.262 0.367 | 0.1210.2400.2020.317 | 0.257 0.3710.379 0.463 | [0.155 0.260 | 0.227 0.348 0.154 0.257 | 1.032 0.782 | |||||||
| 00.1250.2360.1640.275 | ||||||||||||||
| 0.262 0.367 | 0.490 0.539 | 0.228 0.317 | 0.457 0.515 | 0.178 0.287 | 0.3480.434 | 1.031 0.796 | ||||||||
| Avg | |0.1130.221 | 0.180 0.291|0.169 0.281 | 0.326 0.419|0.147 0.248|0.278 0.375 | 0.114 0.224 | 0.213 0.327|0.147 0.249|0.667 0.601 | |||||||||
| 1224 | 0.0780.1830.0950.205 | 0.258 0.348 | 0.153 0.275 0.131 0.256 | 0.292 0.398 | 0.087 0.195 | 0.148 0.272 | |0.073 0.177|0.084 0.193 | 0.270 0.3680.341 0.427 | 0.137 0.2510.1860.297 | 0.4254 0.491 | ||||
| 0.103 0.2 | 215 | 0.224 0.340 | ||||||||||||
| 4896 | 0.1200.2330.1500.262 | [0.572 0.5441.137 0.820|0.291 0.389 | [0.229 0.3391.137 0.820|0.291 0.389 | 0.205 0.3260.402 0.457 | 0.409 0.478 | 0.136 0.250 | ).250 | 0.355 0.437 | 0.099 0.2110.114 0.227 | 0.646 0.610 | ||||
| 0.4920.532 | 0.190 0.303 | 0.452 0.504 | 70.912 0.748 | |||||||||||
| Avg | |0.1110.221 | 0.526 0.491 | 0.1950.307 | 0.209 0.314 | 0.353 0.437 | 0.129 0.241 | 0.295 0.388 | 0.092 0.202 | 0.231 0.337 | 0.127 0.240 | 0.610 0.590 | |||
| 1224 | |0.0670.165 | 0.118 0 235 | 0.094 0.200 | 0.173 0 304 | 0.0820181 | 0.115 0 242 | 0.068 0 171 | 0.109 0225 | 0.083 0 185 | 0.199 0 336 | ||||
| 0.088 0.190 | 0.242 0.341 | 0.150 0.262 | 0.1390.247 | 0.271 0.383 | 0.101.0.204 | 0.210.0.329 | 0.119 0.225 | 0.125 0.244 | 0.102 0.207 | 0.323 0.420 | ||||
| 48 | 0.11000.215 | 0.562 0.541 | 0.253 0.340 | 0.3110.369 | 0.446 0.495 | 0.134 0.238 | 0.398 0.458 | 0.149 0.237 | 0.165 0.288 | 0.136 0.240 | 0.390 0.470 | |||
| 96 | 0.1390.245 | 1.096 0.795 | 0.346 0.404 | 0.396 0.442 | 0.628 0.577 | 0.181 0.279 | 0.594 0.553 | 0.1410.234 | 0.262 0.376 | 0.187 0.287 | 0.554 0.578 | |||
| Avg | |0.101 0.204 | 0.504 0.478 | 0.211 0.303 | 0.235 0.315 | |0.00.4780.2103|0.0.1000.10.250.9090.1190.0.10.20.0.00..1 | |||||||||
| 1224 | |0.0670.165 | 0.118 0 235 | 0.094 0.200 | 0.173 0 304 | 0.0820181 | 0.115 0 242 | 0.068 0 171 | 0.109 0225 | 0.083 0 185 | 0.199 0 336 | ||||
| 0.088 0.190 | 0.242 0.341 | 0.150 0.262 | 0.1390.247 | 0.271 0.383 | 0.101.0.204 | 0.210.0.329 | 0.119 0.225 | 0.125 0.244 | 0.102 0.207 | 0.323 0.420 | ||||
| 48 | 0.11000.215 | 0.562 0.541 | 0.253 0.340 | 0.3110.369 | 0.446 0.495 | 0.134 0.238 | 0.398 0.458 | 0.149 0.237 | 0.165 0.288 | 0.136 0.240 | 0.390 0.470 | |||
| 96 | 0.1390.245 | 1.096 0.795 | 0.346 0.404 | 0.396 0.442 | 0.628 0.577 | 0.181 0.279 | 0.594 0.553 | 0.1410.234 | 0.262 0.376 | 0.187 0.287 | 0.554 0.578 | |||
| Avg | |0.101 0.204 | 0.504 0.478 | 0.211 0.303 | 0.235 0.315 | |0.00.4780.2103|0.0.1000.10.250.9090.1190.0.10.20.0.00..1 | |||||||||
| 1224 | 0.079 0.1820.1150.219 | 0.249 0.343 | 0.1680.232 | 0.165 0.214 | 0.227 0.343 | 0.112 0212 | 0.087 0.184 | 0.109 0.207 | 0.436 0.485 | |||||
| 30.224 0.281 | 0.2150.260 | 0.3180.409 | 0.141 0.238 | 0.248 0.353 | 0.1220.221 | 0.210.0.301 | 0.140 0.236 | 0.467 0.502 | ||||||
| 48 | 0.186 0.235 | 0.569 0.544 | 0.321 0.354 | 0.315 0.355 | 0.4970.510 | 0.198.0.283 | 0.440 0470 | 0.189 0.270 | 0.3200.394 | 0.211.0.294 | 0.966 0.733 | |||
| 96 | 0.2210.267 | 1.166 0.814 | 0.408 0.417 | 0.377 0.397 | 0.721 0.592 | 0.320 0.351 | 0.674 0.565 | 0.2360.300 | 0.442 0.465 | 0.345 0.367 | 1.385 0.915 | |||
| Avg | |0.150 0.226|0.90.4870.20.3210.260.307|0.4410.464|0.1930.2103790.4160.1580.2440.280.3580.201.276|0.81 | |||||||||||||
| 1st Count| | 13 13 0 0 0 0 0 0 | 0 0 0 0 0 7 7 0 0 0 0 0 | ||||||||||||
以下是原文 Table 10 的长期预测任务完整结果:
| ModelsiTransformerRLinearPatchTST Crossformer TiDE TimesNetDLinear SCINetFEDformer Stationary Autoformer(Ours) (2023) (2023) (2023) (2023) (2023) (2023) (2022a) (2022) (2022b) (2021)Metric MSE MAE|MSE MAE MSE MAE[ MSE MAE |MSE MAE[MSE MAE[MSE MAE MSE MAE[ MSE MAE[MSE MAE[MSE MAE | ||||||||||||||
| |MSE MAE MSE MAE[ MSE MAE |MSE MAE[MSE MAE[MSE MAE MSE MAE[ MSE MAE[MSE MAE[MSE MAE | ||||||||||||||
| 96 | 0.3340.368 | 0.355 0.37 | 0.329 0.367|0.404 0.426 | 7|0.404 0.426 |0.364 0.387|0.338 0.375|0.345 0.372|0.418 0.438|0.379 0.419|0.386 0.398|0.505 0.4750.398 0.4040.374 0.3870.380 0.389 0.439 0.4500.426 0.441 0.459 0.444 0.553 0.496 | ||||||||||
| 192 | 0.3770.391 | 0.391 0.392 | 0.367 0.385 | 0.450 0.451 | ||||||||||
| 336 | 0.426 0.420 | 0.424 0.415 | 0.399 0.410 | 0.532 0.515 | 0.428 0.4250.410 0.411[0.413 0.413 | 0.490 0.485 0.445 0.4590.495 0.4640.621 0.537 | ||||||||
| E | 720 | 0.491 0.459 | 0.454 0.439 | 0.6660.589 | 0.4870.461 0.4780.4500.4740.45 | 0.4780.4500.4740.4530.595 0.5500.543 0.4900.585 0.5160.671 0.561 | ||||||||
| Avg | |0.407 0.410 | 0.414 0.407 | 0.387 0.400|0.513 0.496 | |0.140.4070.80.4000.510.496|0.190.10.000.400.4030.4070.480.4810.80.452|0.4810.4560.50. | ||||||||||
| ZImE | 96 | |0.1800.264 | 0.182 0.265 | 0.175 0.259 | 0.287 0.366 | 0.207 0.305|0.187 0.267 | [0.193 0.29 | 0.399 0.445 0.269 0.3280.280 0.339 0.281 0.3400.637 0.591 0.325 0.366 0.334 0.361 0.339 0.372[0.960 0.735 [0.421 0.415[0.417 0.413 [0.433 0.432 | ||||||
| 192 | 0.250 0.309 | 0.246 0.304 | 0.241 0.302 | 0.414 0.492 | [0.290 0.364 [0.249 0.3090.284 0.362 | |0.284 0.36 | 280 0.339|0.28 | |||||||
| 336 | 0.311 0.348 | 0.307 0.342 | 0.305 0.343 | 0.597 0.542 | 0.377 0.4220.321 0.351 | 0.369 0.427 | 0.637 0.591 0.325 0.3 | |||||||
| E | 720 | 0.412 0.407 | 0.407 0.398 | 0.402 0.400 | 1.730 1.042 | [0.558 0.524[0.408 0.403[0.554 0.522] | ||||||||
| Avg | Avg |0.288 0.332 | 0.286 0.327 | 0.281 0.326 | 0.757 0.610 | [0.358 0.404|0.291 0.333|0.350 0.40 | |0.571 0.537|0.305 0.349|0.306 0.347|0.327 0.37 | ||||||||
| BLLLI | 96 | |0.386 0.405 | 0.3860.395 | 0.414 0.419 | 0.423 0.448 | 0.479 0.4640.3840.4020.3860.40 | 0.525 0.4920.436 0.4290.437 0.4320.719 0.6310.420 0.448 0.534 0.5040.500 0.482 | |||||||
| 192336 | 0.441 0.436 | 0.4379 0.424 | 0.460 0.445 | 0.471 0.474 | ||||||||||
| 0.4870.458 | 0.570 0.546 | 0.565 0.5150.491 0.4690.481 0.45 | 0.7780.6590.4590 | |||||||||||
| E | 720 | 0.503 0.491 | 0.481 0.470 | 0.500 0.488 | 0.653 0.621 | |||||||||
| Avg | 0.447 | 0.446 0.434 | 0.469 0.454|0.529 0.522 | 0.490.450.9.0.1.5070.5004560.0.40.60.05700.30.490. | ||||||||||
| 96 | 0.2970.349 | 0.288 0.338 | 0.3020.348 | 0.745 0.584 | 0.20.3380.3020.3480.70.50004003400.3740.3330.3870.7070.6210.580.390.4760.4580.3460.80.528 0.5090.402 0.414[0.477 0.476[0.860 0.6890.429 0.439 0.512 0.493 0.456 0.4520.643 0.571 0.452 0.452 0.594 0.5411.000 0.7440.496 0.4870.552 0.5510.482 0.486 | |||||||||
| 192 | 0.3800.400 | 0.374 0.390 | 0.388 0.400 | 0.877 0.656 | |0.528 0.50 | |0.402 0.414|0.477 | 0.477 0.47 | 0.528 0.5090.402 0.414[0.477 0.476[0.860 0.6890.429 0.439 0.512 0.493 0.456 0.4521.000 0.7440.496 0.4870.552 0.5510.482 0.4861.249 0.8380.463 0.4740.562 0.5600.515 0.511 | ||||||
| 336 | 0.4280.432 | 0.415 0. | 5 0.426 | 0.4260.433 | 1.043 0.731 | 0.643 0.57 | [0.452 0.45 | |||||||
| E | 720 | 0.4270.445 | 0.420 0.440 | 0.431 0.44 | 1.104 0.763 | 0.831 0.65 | ||||||||
| Avg | | Avg 0.383 0.407 | 0.374 0.398 | 0.387 0.407 | 0.942 0.684 | |0.611 0.550|0.414 0.427|0.559 0.51 | |0.954 0.723|0.437 0.449|0.526 0.516|0.450 0.45 | ||||||||
| B | 96192336720 | |0.148 0.2400.162 0.2530.178 0.269 | 0.010.28 | 0.181 0.270 | 0.219 0.314 | 0.237 0.32 | 0.168 0.2720.197 0.28 | 0.236 0.3300.184 0.2890.196 0.2850.257 0.3550.201 0.3150.1820.2860.222 0.3340.249 0.3440.198 0.3000.209 0.301 0.269 0.369 0.214 0.3290.200 0.304[0.231 0.338[0.284 0.373[0.220 0.320[0.245 0.333[0.299 0.390|0.246 0.355[0.222 0.321 0.254 0.361 | ||||||
| 0.231 0.322 | 0.236 0.33 | 0.1840 | ||||||||||||
| 0.2040.293 | 0.246 0.337 | |0.249 0.34 | 0.1980.300|0.209 0.30 | |||||||||||
| 0.2250.317 | 0.257 0.331 | 0.246 0.324 | 0.280 0.363 | 0.284 0.37 | ||||||||||
| Avg | |0.178 0.270 | 0.219 0.298 | 0.2050.290|0.244 0.334 | 0.251 0.34 | |0.290.980.200.900.240.33410.440.190.2950.21000.26.3650.2140.20.190.2960.20. | |||||||||
| rhn | 96192336 | |0.0860.206 | 0.093 0.217 | 0.088 0.205 | 0.256 0.367 | |0.107 0.234|0.0880.21 | 0.184 0.3070.226 0.3440.176 0.3150.351 0.4590.271 0.3150.219 0.3350.300 0.369[1.324 0.853 0.460 0.427[0.421 0.476 [0.509 0.524[0.852 0.698[0.964 0.7460.8390.6951.058 0.7971.1950.6951.092 0.769 1.447 0.941 | |||||||
| |0.1770.299 | 0.184 0.307 | 0.184 0.3070.351 0.432 | 0.176 0.2990.3010.3971.2680.883 | 0.470 0.5090.3010.3971.2680.883 | 0.184 0.30 | 0.349 0.4310.3670.4480.3130.427 | ||||||||
| 0.3310.417 | ||||||||||||||
| 720 | 0.8470.691 | 0.8860.714 | 0.901 0.714 | 1.767 1.068 | 0.964 0.7460.8390.69 | |||||||||
| Avg | |0.360 0.403 | 0.378 0.417 | 0.3670.404 | 0.940 0.707 | |0.780.4170.370.00.900.07|3700.1|0.160.440.3540.4140.70.2605190.290.4610.454|0.610. | |||||||||
| TrfeL | 96 | | |0.395 0.2681920.417 0.276 | 0.649 0.389 | 0.4620.295 | 0.522 0.290 | |0.90.390.462.2950.520.2900.00.4930.5930.310.6500.3960.780.4990.580.3660.6120.3380.610.880.756 0.474 0.617 0.336 0.598 0.3700.789 0.505 0.604 0.373 0.613 0.3400.616 0.3820.762 0.4770.629 0.336 0.605 0.3730.797 0.508 0.621 0.3830.618 0.328 0.622 0.3370.719 0.449[0.640 0.350[0.645 0.394[0.841 0.523[0.626 0.382[0.653 0.355[0.660 0.408 | ||||||||
| 0.762 0.477 | ||||||||||||||
| 336720 | 0.433 0.283 | 0.609 0.369 | 0.482 0.304 | 0.558 0.305 | ||||||||||
| 0.467 0.302 | 0.647 0.387 | 0.514 0.322 | 0.5890.328 | 0.719 0.4490.6400.3500.645 0.39 | ||||||||||
| Avg | | Avg |0.428 0.282 | 0.626 0.378 | 0.481 0.304 | 0.5500.304 | |0.260.3780.4810.040.5500.047600.470.200.3360.650.0.804.50906100.3760.6240.400.620.79 | |||||||||
| Meerr | 96 | 96 0.174 0.214 | 0.192 0.232 | 0.1770.218 | 0.158 0.230 | |0.202 0.261|0.1720.220|0.196 0.25; | |0.221 0.306|0.217 0.296|0.173 0.223|0.266 0.33 | |||||||
| 192336720 | 0.221 0.254 | 0.240 0.271 | 0.225 0.25 | 0.206 0.27 | 0.242 0.2980.219 0.2610.237 0.2960.261 0.340 0.276 0.3360.245 0.285 0.307 0.3670.287 0.3350.280 0.3060.283 0.335 0.309 0.378 0.339 0.3800.321 0.338 0.359 0.3950.3510.3860.365 0.3590.345 0.381 [0.377 0.427|0.403 0.428[0.414 0.410|0.419 0.428 | |||||||||
| 0.2780.296 | 0.292 | |||||||||||||
| 0.3580.347 | 0.364 0.353 | [0.364 0.3530.3540.3480.398 0.418 | ||||||||||||
| Avg | Avg |0.258 0.278 | 0.272 0.2910.259 0.281|0.259 0.315 | |0.20.2910.290.20.0.150.210.200.2590.280.260.170.292.36300903600.280.140.330. | |||||||||||
| 96 192336 | |0.203 0.2370.233 0.261 | 0.359 0.3560.2670.3100.7340.725 | 00.90.230.280.100.11990500.90.900.780.3440240.340.20.290.80.10.339 0.4160.296 0.318 0.320 0.3980.280 0.3800.285 0.3800.254 0.2720.834 0.6920.368 0.430[0.319 0.3300.353 0.415[0.304 0.3890.282 0.376[0.290 0.296 0.941 0.723[0.370 0.425 [0.338 0.337[0.356 0.413 0.308 0.3880.357 0.4270.285 0.295 0.882 0.717 | |||||||||||
| 0.248 0.273 | 0.3970.369 | 0.2900.3150.750 0.735 | ||||||||||||
| 720 | 0.249 0.275 | 0.397 0.356g | 0.2890.3170.7690.765 | |||||||||||
| Avg | Avg |0.233 0.262 | |090.50.2700.3070.6410.6390.3470.41703010.190.3300.010.220.350.2910.3810.2610.3810.80.1 | ||||||||||||
| 1st Count|1622 6 12 | 12113 0 0 0 1 0 3 0 0 0 4 0 0 000 | ||||||||||||||
以下是原文 Table 11 的 Market 数据集结果:
| iTransformer RLinearPatchTST Crossformer TiDE TimesNetDLinear SCINetFEDformer Stationary AutoformerModels(Ours) (2023) (2023) (2023) (2023) (2023) (2023) (2022a) (2022) (2022b) (2021)Metric MSE MAE|MSE MAE SE AE|MS AEMSE MAEE MS MAE [MSE MAE [MSE MAE [MSE MAE [MSE MAE MSE MAE | |||||||||||||||
| (2023) | (2023) | (2023) | (2023) | (2022a) | (2022) | (2022b) | |||||||||
| MSE MAE | |MS AE | MSE MAE | MSE MAE | MSE MAE | MSE MAE | MSE MAB | MSE MAE | MSE MAE | |||||||
| 12 | |0.058 0.126|0.066 0.138 | 0.90.2320.020.1550.155 0.250 | 0.072 0.155 | 0.0680.141 | 0.173 0.273 | 0.088 0.177 | 0.093 0.183 | 0.202 0.310 | 0.277 0.384 | 0.143 0.243 | 0.365 0.444 | ||||
| 24 | 0.066 0.138 | 0.0790.164 | 0.0910.161 | 0.170 0.274 | 0.103 0.195 | 0.105 0.200 | 0.215 0.323 | 0.2680.378 | 0.669 0.636 | ||||||
| Wure | 72144 | 0.079 0.1570.086 0.167 | 0.157 | 0.156 0.252 | 0.090 0.180 | 0.1230.202 | 0.197 0.298 | 0.089 0.180 | 0.116 0.215 | 0.388 0.431 | 0.281 0.390 | 0.193 0.300 | |||
| 0.157 0.253 | 0.093 0.185 | 0.185 0.218 | 0.208 0.311 | 0.091 0.183 | 0.124 0.225 | 0.459 0.477 | 0.359 0.453 | 0.183 0.294 | 0.536 0.566 | ||||||
| Avg | |0.072 0.147| | [0.152 0.247 | 0.084 0.171 | 0.117 0.181 | 0.187 0.289 | 0.093 0.184 | 0.110 0.206 | 0.316 0.385 | 0.296 0.401 | 0.172 0.277 | 0.494 0.531 | ||||
| Weec | 12 | 0.189 0.2050.254 0.244 | |0.479 0.4110.543 0.446 | 0.2550.250 | 0.2700.208 | 0.486 0.427 | 0.275 0.277 | 0.380 0.355 | 0.525 0.451 | 0.553 0.508 | 0.355 0.332 | 0.653 0.555 | |||
| 2472 | 0.320 0.291 | 0.3290.233 | 0.545 0.463 | |0.3000.285 | 0.456 0.397 | 0.583 0.479 | 0.567 0.514 | 0.430 0.377 | 0.761 0.611 | ||||||
| 0.4210.327 | 0.634 0.481 | 0.459 0.360 | 0.4840.324 | 0.651 0.510 | 0.384 0.326 | 0.555 0.438 | 0.761 0.558 | 0.636 0.548 | 0.573 0.454 | 0.857 0.658 | |||||
| 144 | 0.5170.379 | 0.683 0.504 | 0.541 0.404 | 0.633 0.388 | 0.698 0.526 | 0.481 0.383 | 0.611 0.459 | 0.770 0.568 | 0.744 0.604 | 0.637 0.498 | 0.817 0.627 | ||||
| Avg | 0.3450.289 | 0.585 0.461 | 0.3940.26 | 0.4290.288 | 0.595 0.481 | 0.360 0.318 | 0.501 0.412 | 0.660 0.514 | 0.625 0.543 | 0.499 0.415 | 0.772 0.612 | ||||
| Jnd | 1224 | |0.123 0.1700.158 0.197 | 0.329 0.304 | 0.164 0.206 | |4.630 0.520| | 0.512 0.350 | 0.465 0.291 | 0.321 0.271 | 1.865 0.602 | 1.537 0.538 | 0.537 0.384 | 1.651 0.593 | |||
| 0.386 0.332 | 0.198 0.228 | |4.9870.568 | 0.635 0.388 | 0.503 0.297 | 0.464 0.318 | 2.228 0.664 | 1.553 0.547 | 0.551 0.386 | 1.671 0.594 | ||||||
| 72144 | 0.212 0.2400.245 0.257 | 0.436 0.353g | 0.268 0.273 | 5.6310.675 | 1.239 0.490 | 0.534 0.310 | 0.986 0.423 | 3.084 0.793 | 1.612 0.554 | 2.004 0.853 | 2.054 0.758 | ||||
| 0.429 0.355 | 0.293 0.286 | 6.083 0.708 | 1.562 0.538 | 0.564 0.333 | 1.287 0.473 | 4.089 0.875 | 1.784 0.636 | 2.379 0.947 | 2.114 0.778 | ||||||
| Avg | |0.184 0.216 | 0.3950.3360.210.248 | 0.3950.3360.210.248 | 5.333 0.618 | 0.987 0.442 | 0.516 0.308 | 0.765 0.372 | 2.817 0.734 | 1.621 0.569 | 1.368 0.643 | 1.872 0.681 | ||||
| 12 | 0.051 0.1270.059 0.139 | 0.18 0.272 | 0.068 0.164 | 0.055 0.140 | 0.212 0.304 | 0.0740.169 | 0.096 0.198 | 0.199 0.301 | 0.2680.39 | 0.140 0.252 | 0.386 0.461 | ||||
| Trn | 24 | 0.074 0.173 | 0.0650.155 | 0.201 0.301 | 0.081 0.178 | 0.105 0.209 | 0.225 0.325 | 0.256 0.370 | 0.174 0.289 | 0.708 0.644 | |||||
| 72144 | 0.071 0.1600.079 0.171 | 0.1830.2910.081 0.187g0.184 0.2920.085 0.193 | 0.081 0.187 | 0.077 0.170 | 0.222 0.316 | 0.077 0.178 | 0.109 0.215 | 0.317 0.338 | 0.2850.396 | 0.202 0.321 | 0.510 0.552 | ||||
| 0.184 0.2920.085 0.193 | |0.085 0.181 | 0.229 0.322 | 0.088 0.192 | 0.113 0.220 | 0.378 0.425 | 0.372 0.468 | 0.204 0.322 | 0.468 0.528 | |||||||
| Avg | |0.065 0.150 | 0.180 0.286 | 0.077 0.179 | 0.071 0.162 | 0.216 0.311 | 0.0800.179 | 0.106 0.210 | 0.280 0.360 | 0.295 0.403 | 0.180 0.296 | 0.518 0.547 | ||||
| Pewmnn | 1224 | |0.050 0.121|0.062 0.135 | 0.144 0.249 | 0.0650.156 | 0.1520.145 | 0.184 0.265 | 0.164 0.249 | 0 | 0.382 0.437 | ||||||
| 0.0770.167 | 0.1780.165 | 0.183 0.266 | 0.099 0.178 | 0.108 0.196 | 0.216 0.280 | 0.265 0.343 | 0. | 0.345 0.412 | |||||||
| 72144 | 0.082 0.1550.093 0.166 | 0.151 0.2510.154 0.251 | 0.094 0.184 | 0.236 0.193 | 0.226 0.287 | 0.111 0.189 | 0.129 0.209 | 0.360 0.370 | 0.284 0.360 | 0.1830.291 | 330.291 | ||||
| 0.1010.190 | 0.260 0.214 | 0.240 0.294 | 0.1150.189 | 0.138 0.215 | 0.410 0.391 | 0.379 0.441 | 0.501 0.518 | ||||||||
| Avg | 0.072 0.144 | 0.143 0.245 | 0.084 0.174 | 0.207 0.179 | 0.208 0.278 | 0.105 0.182 | 0.116 0.200 | 0.288 0.322 | 0.300 0.33 | 0.166 0.271 | 0.417 0.460 | ||||
| csor | 122472144 | |0.065 0.1290.078 0.1410.108 0.1610.126 0.172 | 0.214 0.2640.2220.2660.1310.1900.2270.2680.141 0.195 | 0.1070.173 | 0.2430.156 | 0.267 0.289 | 0.309 0.366 | 0.175 0.243 | 0.640 0.580 | ||||||
| 0.2930.177 | 0.267 0.291 | 0.130 0.183 | 0.170 0.212 | 0.3380.344 | 0.313 0.369 | 0.763 0.642 | |||||||||
| 0.2270.2680.141 0.195 | 0.331 0.215 | 0.334 0.317 | 0.149 0.196 | 0.202 0.228 | 0.511 0.408 | 0.3300.374 | 0.336 0.324 | 0.616 0.564 | |||||||
| 0.368 0.226 | 0.363 0.332 | 0.1660.206 | 0.222 0.239 | 0.687 0.461 | 0.450 0.45 | 0.658 0.586 | |||||||||
| Avg | 0.094 0.150 | 0.214 0.261 | 0.118 0.180 | 0.309 0.194 | 0.308 0.307 | 0.142 0.191 | 0.184 0.219 | 0.461 0.385 | 0.350 0.391 | 0.242 0.301 | 0.669 0.593 | ||||
| 1st Count | 28 27 | | 0 0 | 0 0 | | 0 0 | 0 0 | | 0 3 | 0 0 20 | | 0 0 | 0 0 | 0 0 | 0 0 | 0 0 | |||||
7. 总结与思考
7.1. 结论总结
本研究提出了 iTransformer,一个通过“倒置”Transformer架构来有效解决时间序列预测问题的新模型。iTransformer 的核心创新在于重新定义了 Transformer 在时间序列中的作用维度:它将每个独立的变量时间序列视为一个变量令牌,并利用自注意力机制在变量维度上捕获多变量相关性,同时将前馈网络应用于每个变量令牌以学习非线性序列表示。这种设计不仅解决了传统 Transformer 在长回溯窗口下性能下降和计算复杂度爆炸的问题,还克服了因不当融合多变量信息导致注意力图无意义的挑战。实验结果表明,iTransformer 在多个真实世界数据集上取得了最先进的性能,并展现出卓越的泛化能力(包括对未见变量的泛化和对任意回溯窗口的有效利用)和增强的可解释性。此外,该“倒置”框架具有通用性,可以提升现有各种 Transformer 变体的性能。
7.2. 局限性与未来工作
论文指出了现有工作的一些讨论和未来的研究方向:
- 非平稳性处理: 尽管 iTransformer 中的层归一化在一定程度上处理了非平稳问题,但仍有进一步改进的空间来更好地处理分布偏移 (distribution shift) 问题。
- 单变量场景下的局限: 在单变量时间序列预测中,iTransformer 实际上会退化为堆叠的线性预测器(因为注意力机制无法作用),这时其对时间依赖性的利用可能还有待增强。
- 更精细的变量令牌化和嵌入机制: 尽管 iTransformer 提出了变量令牌化的新范式,但未来的工作可以探索更精细的变量令牌化方式,并设计更具归纳偏置 (inductive bias) 的嵌入机制(例如结合 TCN),以处理更复杂的场景,如不规则时间序列等。
- 大规模预训练: iTransformer 展现出的变量泛化能力为其在大规模时间序列数据上进行预训练 (large-scale pre-training) 奠定了基础,这是一个值得探索的未来方向。
- 更多时间序列分析任务: iTransformer 可以作为时间序列分析的基础骨干模型,未来可以将其应用于更多的时间序列分析任务。
7.3. 个人启发与批判
7.3.1. 个人启发
- “维度倒置”的颠覆性思维: iTransformer 最具启发性的一点是其“维度倒置”的思维。在深度学习领域,我们常常习惯于在某个既定维度(如NLP中的token序列,CV中的图像patch序列)上应用SOTA模型。iTransformer告诉我们,重新审视数据的基本结构和模型组件的“职责”,可能比单纯地改进模型内部机制更能带来突破。它提醒研究者,有时问题的症结不在于模型不够强大,而在于模型的应用方式不恰当。
- 组件职责的清晰化: 论文清晰地定义了注意力机制和前馈网络在“倒置”架构中的新职责(注意力捕获变量间相关性,FFN学习序列表示),这使得模型设计更加有针对性和可解释。这种分工思想对于理解和优化复杂模型非常有价值。
- 泛化能力的潜力: iTransformer在未见变量和长回溯窗口上的卓越泛化能力,预示着其作为时间序列基础模型 (foundation model) 的巨大潜力。这对于构建可迁移、可扩展的时间序列预测系统至关重要。
7.3.2. 批判与潜在改进
- “维度倒置”的普适性边界: 虽然 iTransformer 在多变量时间序列上取得了成功,但其在单变量时间序列或变量数量非常少(N值很小,导致注意力机制效果不明显)的场景下,性能可能退化。在这种情况下,模型本质上更接近于一个堆叠的 MLP 线性预测器,其捕获复杂时间依赖的能力是否足够,值得进一步探讨和优化。
- 计算复杂度的细致考量: 尽管 iTransformer 在许多数据集上表现出高效率,但当变量数量 变得极其庞大时,注意力机制的 复杂度仍然是一个潜在瓶颈。虽然论文提到了高效注意力机制和高效训练策略,但其在超大规模变量场景下的实际效率和可扩展性仍需严格验证。
- 可解释性的进一步量化: 论文通过可视化注意力图展示了多变量相关性,提供了很好的直观解释。未来工作可以尝试更量化、更严格的方法来评估和验证这种可解释性,例如通过因果推断 (causal inference) 或其他统计方法来确认注意力权重是否真正对应于实际的变量间影响。
- 非平稳性处理的深度: 论文提到层归一化有助于处理非平稳性,但时间序列的非平稳性是复杂多样的。更深层次的非平稳性处理技术(如趋势分解、季节性分解或更复杂的自适应归一化方法)是否能与 iTransformer 结合,进一步提升其鲁棒性,是一个有前景的方向。
- “变量令牌”的内部结构探索: 当前的变量令牌是通过 MLP 将整个时间序列嵌入得到的。如果时间序列本身具有复杂的内部结构(如多尺度特征、长程依赖),单一 MLP 嵌入可能无法完全捕捉。可以探索更复杂的编码器(如 TCN、RNN 或更专门设计的 Transformer 变体)来生成更丰富的变量令牌表示,但这可能会增加模型的复杂性。
相似论文推荐
基于向量语义检索推荐的相关论文。