论文状态：已完成

TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables

发表：2024/02/29

时间序列带外生变量预测 (1)Transformer时序模型 (1)Patch-wise自注意力机制 (1)变元间交叉注意力 (1)因果信息融合 (1)

价格：0.100000

已有 9 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

TimeXer针对含外生变量的时间序列预测，通过精巧嵌入层，赋能Transformer融合内生与外生信息。模型创新性地结合分块自注意力与变量级交叉注意力，并利用全局内生令牌将外生因果信息桥接到内生序列。实验证实，TimeXer在12个基准上实现了持续SOTA性能，通用性和可扩展性俱佳。

摘要

Deep models have demonstrated remarkable performance in time series forecasting. However, due to the partially-observed nature of real-world applications, solely focusing on the target of interest, so-called endogenous variables, is usually insufficient to guarantee accurate forecasting. Notably, a system is often recorded into multiple variables, where the exogenous variables can provide valuable external information for endogenous variables. Thus, unlike well-established multivariate or univariate forecasting paradigms that either treat all the variables equally or ignore exogenous information, this paper focuses on a more practical setting: time series forecasting with exogenous variables. We propose a novel approach, TimeXer, to ingest external information to enhance the forecasting of endogenous variables. With deftly designed embedding layers, TimeXer empowers the canonical Transformer with the ability to reconcile endogenous and exogenous information, where patch-wise self-attention and variate-wise cross-attention are used simultaneously. Moreover, global endogenous tokens are learned to effectively bridge the causal information underlying exogenous series into endogenous temporal patches. Experimentally, TimeXer achieves consistent state-of-the-art performance on twelve real-world forecasting benchmarks and exhibits notable generality and scalability. Code is available at this repository: https://github.com/thuml/TimeXer.

思维导图

论文精读

中文精读约 18 分钟读完 · 12,919 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (TimeXer：利用外生变量赋能 Transformer 进行时间序列预测)
作者 (Authors): Yuxuan Wang, Haixu Wu, Jiaxiang Dong, Guo Qin, Haoran Zhang, Yong Liu, Yunzhong Qiu, Jianmin Wang, Mingsheng Long
- 研究背景与隶属机构: 作者均来自清华大学软件学院及智能技术与系统国家重点实验室 (School of Software, BNRist, Tsinghua University)，这是一个在机器学习和数据挖掘领域享有盛誉的研究团队，尤其在时间序列分析方面产出了 iTransformer, PatchTST, Autoformer 等一系列有影响力的工作。
发表期刊/会议 (Journal/Conference): 本文为 arXiv 预印本，尚未在顶级会议或期刊上正式发表。arXiv 是一个开放获取的学术论文预印本平台，通常用于在同行评审前快速分享研究成果。
发表年份 (Publication Year): 2024
摘要 (Abstract): 深度学习模型在时间序列预测中表现出色，但现实应用中仅依赖目标序列（内生变量）往往不足以保证预测的准确性。外生变量可以为内生变量提供宝贵的外部信息。本文聚焦于一个更实际的场景：利用外生变量进行时间序列预测。作者提出了一个名为 TimeXer 的新方法，旨在利用外部信息来增强对内生变量的预测。通过精心设计的嵌入层，TimeXer 使标准的 Transformer 能够同时处理内生和外生信息。具体来说，模型同时使用分块自注意力 (patch-wise self-attention) 和变量级交叉注意力 (variate-wise cross-attention)。此外，模型学习了全局内生令牌 (global endogenous tokens)，以有效地将外生序列中的因果信息桥接到内生序列的时间分块上。实验表明，TimeXer 在 12 个真实世界预测基准上取得了一致的 SOTA (State-of-the-Art) 性能，并展现了良好的通用性和可扩展性。
原文链接 (Source Link):
- 原文链接: http://arxiv.org/abs/2402.19072
- PDF 链接: http://arxiv.org/pdf/2402.19072v4
- 发布状态: 预印本 (Preprint)

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题: 如何在时间序列预测任务中，有效且高效地利用外生变量 (exogenous variables) 提供的外部信息，来提升对目标序列（内生变量, endogenous variables）的预测精度。
- 问题重要性: 在许多现实场景中，如电力价格预测、天气预报等，目标序列的变化不仅受其自身历史数据的影响，还强烈地受到外部因素的驱动。例如，电价会受市场供需、天气状况等因素影响。忽略这些外生信息会严重限制模型的预测能力。
- 现有挑战 (Gap):
  1. 信息处理不当: 现有的多元预测模型要么将所有变量（包括内生和外生）一视同仁，导致计算复杂度高，并引入了从内生到外生的不必要交互；要么简单地将外生特征拼接到内生特征上，未能精确地建模它们之间的复杂关系。
  2. 数据不规则性: 真实世界的外生变量数据常常存在各种不规则性，如数据缺失、时间戳不对齐、采样频率不匹配、序列长度不一致等（如图1所示），这对模型的鲁棒性提出了巨大挑战。
  3. 依赖建模不均衡: 现有模型难以同时捕捉内生序列内部的精细时间依赖和外生序列对内生序列的宏观影响。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出新范式: 强调并系统性地研究了“带外生变量的时间序列预测”这一实用范式，并提出了一个专门为此设计的模型 TimeXer。
- 模型创新 (TimeXer):
  1. 赋能标准 Transformer: 创造性地在不修改标准 Transformer 架构的前提下，通过设计新的嵌入和注意力策略，使其能够高效处理内生和外生变量。
  2. 分层表示与注意力机制: 对内生变量使用分块 (patch-level) 表示以捕捉精细的时间模式，而对外生变量使用变量级 (variate-level) 表示以适应其不规则性并降低计算复杂度。
  3. 引入全局令牌桥梁: 引入一个可学习的全局内生令牌 (global endogenous token)，它作为一个信息枢纽，一方面通过自注意力 (self-attention) 聚合内生序列的全局信息，另一方面通过交叉注意力 (cross-attention) 从外生变量中选择性地吸收相关信息，再将这些整合后的信息传递给内生序列的各个时间分块。
- 卓越的实验性能: 在12个真实世界数据集上，TimeXer 取得了持续的SOTA性能，证明了其方法的有效性、通用性和可扩展性。
  
  该图像是图1，展示了以外生变量进行时间序列预测的范式。左侧描述了问题制定，其中预报器利用内生变量 $X^{(1)}$ 和外生变量 $Z^{(1)}, ..., Z^{(C)}$ 预测 $\hat{X}^{(1)}$ ，并列举了外生变量在实际应用中遇到的挑战，如缺失值、频率不匹配、时间错位和长度不匹配。右侧的雷达图比较了TimeXer与其他模型在多个电力价格预测基准上的性能，TimeXer在这些基准上表现出领先的性能。

上图（图1）左侧直观展示了带外生变量的预测范式，并列举了现实中外生数据常见的四种不规则情况。右侧的雷达图显示，TimeXer（红色线）在五个电力价格预测（EPF）基准上的性能全面优于其他主流模型。

基础概念 (Foundational Concepts):
- 时间序列预测 (Time Series Forecasting): 基于历史观测数据来预测未来的数值。
- 内生变量 (Endogenous Variable): 在预测任务中，我们关心并需要预测其未来值的目标序列。例如，预测未来24小时的电价，那么“电价”就是内生变量。
- 外生变量 (Exogenous Variable): 对内生变量有影响，但其自身未来值不需要被模型预测的外部序列。它们被用作辅助信息来提升预测精度。例如，在预测电价时，“天气预报”、“节假日信息”就是外生变量。
- Transformer: 一种基于自注意力机制 (self-attention mechanism) 的深度学习模型，最初用于自然语言处理。其核心优势在于能捕捉序列中任意两个位置之间的长距离依赖关系，非常适合处理时间序列数据。
- 分块 (Patching): 一种将连续的时间序列分割成多个小段（即 patch）的技术。这样做的好处是，模型可以像处理句子中的单词一样处理这些 patch，从而更好地捕捉局部语义信息和时间模式，同时降低点对点注意力机制带来的计算复杂度。
前人工作 (Previous Works):
- 传统统计方法: 如 ARIMAX 和 SARIMAX，它们是经典 ARIMA 模型的扩展，能够将外生变量纳入模型。但这些模型通常难以捕捉复杂的非线性关系。
- 早期深度学习模型: 如 TFT (Temporal Fusion Transformer), NBEATSx, TiDE 等模型虽然专门设计了处理协变量（外生变量）的模块，但它们通常要求内生和外生序列在时间上严格对齐，这在处理不规则数据时存在局限。
- Transformer-based 模型:
  - 点级 (Point-wise) 模型: 如 Informer, Autoformer，它们在每个时间点上计算注意力，计算复杂度高 ( $O(T^2)$ )，且容易忽略局部的时间模式。
  - 块级 (Patch-wise) 模型: 如 PatchTST，它将单个时间序列分块，并在块之间计算注意力，有效捕捉了单个序列内的时间依赖，但其通道独立 (channel independence) 的假设使其难以直接建模不同变量间的相关性。
  - 变量级 (Variate-wise) 模型: 如 iTransformer，它将整个时间序列视为一个令牌 (token)，并在不同变量的令牌之间计算注意力，从而出色地捕捉了变量间的相关性，但代价是牺牲了对序列内部精细时间变化的建模能力。
技术演进 (Technological Evolution): 时间序列预测领域的 Transformer 模型经历了从处理时间点 (point)，到处理时间块 (patch)，再到处理整个变量 (variate) 的演进。这反映了研究者在如何更有效地表示和建模时间序列数据上的不断探索。TimeXer 的工作正是在这个脉络上，试图结合 patch 和 variate 两种表示的优点。
差异化分析 (Differentiation):
- 与 PatchTST 等模型相比，TimeXer 不仅仅关注内生序列自身的时间依赖，还通过交叉注意力 (cross-attention) 机制显式地引入了外生变量的影响。
- 与 iTransformer 等模型相比，TimeXer 没有将所有变量同等对待。它对内生变量进行精细的分块建模，同时对外生变量进行粗粒度的变量级建模，并通过全局令牌 (global token) 作为桥梁，实现了两种不同粒度信息的有效融合，这既保证了预测精度又兼顾了计算效率。
- 与 TFT、TiDE 等模型相比，TimeXer 的变量级外生变量嵌入方式使其能够自然地处理长度、频率不匹配或数据缺失等不规则数据，具有更强的现实应用价值。

4. 方法论 (Methodology - Core Technology & Implementation Details)

TimeXer 的核心思想是区别对待、分层建模、有效融合。它巧妙地利用了标准 Transformer 架构，通过设计独特的嵌入策略来同时捕获内生序列的时间动态和外生序列的关联影响。

Figure 2: The schematic of TimeXer, which empowers time series forecasting with exogenous variables. (a) The endogenous embedding module yields multiple temporal token embeddings and one global token… 该图像是TimeXer的模型示意图，展示了其利用外生变量进行时间序列预测的架构。它包含 (a) 内生序列嵌入模块，用于生成时间标记和全局标记；(b) 外生序列嵌入模块，将多个外生变量转换为变体标记。核心Transformer块中，(c) 自注意力机制捕获内生变量的局部依赖，而 (d) 交叉注意力机制整合外生信息以增强内生变量的预测。

上图（图2）展示了 TimeXer 的整体架构。左侧是输入和嵌入模块，中间是核心的 Transformer 编码器，右侧详细解释了编码器内部的自注意力和交叉注意力机制。

方法原理 (Methodology Principles):
- 核心直觉: 内生序列的预测既需要挖掘其自身详细的历史模式（需要精细的时间表示），也需要借鉴外部因素的宏观影响（需要对外部因素进行概括性表示）。因此，对内生和外生变量采用不同粒度的表示 (patch-level vs. variate-level) 是一个合理且高效的选择。
方法步骤与流程 (Steps & Procedures):
1. 问题定义 (Problem Settings):
  - 输入：历史内生序列 $\mathbf{x}_{1:T} \in \mathbb{R}^{T \times 1}$ 和 $C$ 个外生序列 $\mathbf{z}_{1:T_{\mathrm{ex}}} \in \mathbb{R}^{T_{\mathrm{ex}} \times C}$ 。注意，内外生序列的长度 $T$ 和 $T_{\mathrm{ex}}$ 可以不同。
  - 输出：未来 $S$ 个时间步的内生序列预测值 $\widehat{\mathbf{x}}_{T+1:T+S}$ 。
  - 目标：学习一个函数 $\mathcal{F}_\theta$ ，使得 $\widehat{\mathbf{x}}_{T+1:T+S} = \mathcal{F}_\theta(\mathbf{x}_{1:T}, \mathbf{z}_{1:T_{\mathrm{ex}}})$ 。
2. 内生变量嵌入 (Endogenous Embedding): (图2(a))
  - 分块: 将长度为 $T$ 的内生序列 $\mathbf{x}$ 分割成 $N = \lfloor T/P \rfloor$ 个不重叠的块 (patch)，每个块的长度为 $P$ 。
  - 块嵌入: 每个块通过一个线性投影层 (PatchEmbed) 映射成一个 $D$ 维的块令牌 (patch token)。这组令牌记为 $\mathbf{P}_{\mathrm{en}}$ 。
  - 全局令牌: 额外引入一个可学习的、随机初始化的全局令牌 (global token) $\mathbf{G}_{\mathrm{en}}$ ，它代表整个内生序列的宏观信息。
3. 外生变量嵌入 (Exogenous Embedding): (图2(b))
  - 变量级嵌入: 对于 $C$ 个外生序列中的每一个，将其整个序列通过一个线性投影层 (VariateEmbed) 映射成一个 $D$ 维的变量令牌 (variate token)。这组令牌记为 $\mathbf{V}_{\mathrm{ex}}$ 。这种方式天然地解决了外生序列长度、频率不一的问题。
4. Transformer 编码器 (Transformer Encoder): 模型堆叠 $L$ 个相同的编码器块。每个块包含两个核心注意力层和一个前馈网络层。
  - 内生自注意力 (Endogenous Self-Attention): (图2(c))
    - 将内生序列的块令牌 $\mathbf{P}_{\mathrm{en}}$ 和全局令牌 $\mathbf{G}_{\mathrm{en}}$ 拼接在一起，形成一个序列 $[\mathbf{P}_{\mathrm{en}}, \mathbf{G}_{\mathrm{en}}]$ 。
    - 对这个拼接后的序列应用标准的多头自注意力 (Self-Attention)。这使得：
      - 块令牌之间可以交互，捕捉时间依赖关系 (Patch-to-Patch)。
      - 全局令牌可以从所有块令牌中聚合信息 (Patch-to-Global)。
      - 每个块令牌可以从全局令牌中获取全局上下文 (Global-to-Patch)。
  - 外生-内生交叉注意力 (Exogenous-to-Endogenous Cross-Attention): (图2(d))
    - 使用交叉注意力 (Cross-Attention) 机制来融合外生信息。
    - 查询 (Query): 来自上一层的内生全局令牌 $\widehat{\mathbf{G}}_{\mathrm{en}}$ 。
    - 键 (Key) 和 值 (Value): 所有的外生变量令牌 $\mathbf{V}_{\mathrm{ex}}$ 。
    - 这个过程可以理解为：内生序列的全局令牌主动去“查询”哪些外生变量是重要的，并从中提取有用的信息来更新自己。
  - 前馈网络 (Feed-Forward Network): 经过注意力层处理后的所有令牌（内生块令牌和全局令牌）都会通过一个标准的前馈网络。
5. 预测头与损失函数 (Forecasting Head & Loss):
  - 将最后一个编码器层输出的内生令牌（包括块令牌和全局令牌） $[\mathbf{P}_{\mathrm{en}}^L, \mathbf{G}_{\mathrm{en}}^L]$ 通过一个线性层 (Projection) 映射到所需的预测长度 $S$ 。
  - 使用均方误差 (Mean Squared Error, L2 loss) 作为损失函数来优化模型。
数学公式与关键细节 (Mathematical Formulas & Key Details):
- 预测模型: $\widehat { \mathbf { x } } _ { T + 1 : T + S } = \mathcal { F } _ { \theta } \left( \mathbf { x } _ { 1 : T } , \mathbf { z } _ { 1 : T _ { \mathrm { e x } } } \right) .$ 符号解释:
  - $\widehat{\mathbf{x}}_{T+1:T+S}$ : 预测的未来 $S$ 步的内生序列。
  - $\mathcal{F}_\theta$ : 由参数 $\theta$ 参数化的预测模型 (TimeXer)。
  - $\mathbf{x}_{1:T}$ : 历史 $T$ 步的内生序列。
  - $\mathbf{z}_{1:T_{\mathrm{ex}}}$ : 历史 $T_{\mathrm{ex}}$ 步的外生序列集合。
- 内生自注意力 (简化形式): $\widehat { \mathbf { P } } _ { \mathrm { en } } ^ { l } , \widehat { \mathbf { G } } _ { \mathrm { en } } ^ { l } = \mathrm { LayerNorm } \left( \left[ \mathbf { P } _ { \mathrm { en } } ^ { l } , \mathbf { G } _ { \mathrm { en } } ^ { l } \right] + \mathrm { Self-Attention } \left( \left[ \mathbf { P } _ { \mathrm { en } } ^ { l } , \mathbf { G } _ { \mathrm { en } } ^ { l } \right] \right) \right) .$ 符号解释:
  - $l$ : 表示第 $l$ 个 Transformer 块。
  - $\mathbf{P}_{\mathrm{en}}^l, \mathbf{G}_{\mathrm{en}}^l$ : 第 $l$ 块输入的内生块令牌和全局令牌。
  - $\widehat{\mathbf{P}}_{\mathrm{en}}^l, \widehat{\mathbf{G}}_{\mathrm{en}}^l$ : 经过自注意力和层归一化 (LayerNorm) 后的输出令牌。
  - $[\cdot, \cdot]$ : 表示沿序列长度维度进行拼接。
- 外生-内生交叉注意力: $\widehat { \mathbf { G } } _ { \mathrm { en } } ^ { l } = \mathrm { LayerNorm } \left( \widehat { \mathbf { G } } _ { \mathrm { en } } ^ { l } + \mathrm { Cross-Attention } \left( \widehat { \mathbf { G } } _ { \mathrm { en } } ^ { l } , \mathbf { V } _ { \mathrm { ex } } \right) \right) .$ 符号解释:
  - $\widehat{\mathbf{G}}_{\mathrm{en}}^l$ : 自注意力层输出的全局令牌，在此作为查询。
  - $\mathbf{V}_{\mathrm{ex}}$ : 外生变量令牌集合，在此作为键和值。
  - 这个公式表示用交叉注意力更新全局令牌。
- 损失函数 (Loss Function): $\mathrm { Loss } = \sum _ { i = 1 } ^ { S } \left\| \mathbf { x } _ { i } - \widehat { \mathbf { x } } _ { i } \right\| _ { 2 } ^ { 2 } , \quad \mathrm { where } \ \widehat { \mathbf { x } } = \mathrm { Projection } \big ( [ \mathbf { P } _ { \mathrm { en } } ^ { L } , \mathbf { G } _ { \mathrm { en } } ^ { L } ] \big ) .$ 符号解释:
  - $\|\cdot\|_2^2$ : 表示 L2 范数的平方，即均方误差。
  - $\mathbf{x}_i, \widehat{\mathbf{x}}_i$ : 分别是未来第 $i$ 步的真实值和预测值。
  - $\mathbf{P}_{\mathrm{en}}^L, \mathbf{G}_{\mathrm{en}}^L$ : 最后一个 Transformer 块（第 $L$ 块）输出的令牌。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):
- 短时预测 (Short-term Forecasting): 使用了5个电力价格预测数据集 (EPF)，这些数据集是真实世界的基准，包含电价作为内生变量，以及两个强相关的外生变量（如电网负荷、风力发电预测）。
- 长时预测 (Long-term Forecasting): 使用了7个公开的多元时间序列数据集，包括 ECL (电力消耗), Weather (天气), ETT (电力变压器温度), 和 Traffic (交通流量)。在这些实验中，TimeXer 被用于两种设置：
  1. 多元预测: 将每个变量依次作为内生变量，其余作为外生变量，并行预测所有变量。
  2. 带外生变量的预测: 将数据集的最后一个维度作为内生变量，其余所有维度作为外生变量。
评估指标 (Evaluation Metrics):
- 均方误差 (Mean Squared Error, MSE):
  1. 概念定义 (Conceptual Definition): MSE 计算的是预测值与真实值之差的平方的平均值。它对较大的预测误差给予更高的权重，因此对异常值非常敏感。MSE 值越小，表示模型的预测越准确。
  2. 数学公式 (Mathematical Formula): $\mathrm{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$
  3. 符号解释 (Symbol Explanation):
    - $n$ : 样本数量（或预测序列的长度）。
    - $y_i$ : 第 $i$ 个样本的真实值。
    - $\hat{y}_i$ : 第 $i$ 个样本的预测值。
- 平均绝对误差 (Mean Absolute Error, MAE):
  1. 概念定义 (Conceptual Definition): MAE 计算的是预测值与真实值之差的绝对值的平均值。它衡量的是预测误差的平均大小，对所有误差给予相同的权重，因此比 MSE 对异常值的鲁棒性更好。MAE 值越小，表示模型的预测越准确。
  2. 数学公式 (Mathematical Formula): $\mathrm{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$
  3. 符号解释 (Symbol Explanation):
    - $n$ : 样本数量（或预测序列的长度）。
    - $y_i$ : 第 $i$ 个样本的真实值。
    - $\hat{y}_i$ : 第 $i$ 个样本的预测值。
对比基线 (Baselines):
- 论文选取了多个具有代表性的 SOTA 模型进行比较，覆盖了不同架构类型：
  - Transformer-based: iTransformer, PatchTST, Crossformer, Autoformer。
  - CNN-based: TimesNet, SCINet。
  - Linear-based: RLinear, DLinear。
  - 专为外生变量设计: TiDE，这是一个重要的对比基线。

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis):

短时预测 (EPF 数据集):

如下表 (Table 2) 所示，TimeXer 在所有五个 EPF 数据集上均取得了最低的 MSE 和 MAE，证明了其在处理带外生变量的真实场景中的优越性。
分析：该任务中内外生变量关联性强，TimeXer 的交叉注意力机制能有效捕捉这种关联。相比之下，iTransformer 忽略了精细的时间模式，而 Crossformer 将所有变量同等对待引入了噪声，DLinear 等线性模型则难以捕捉复杂的非线性关系。

Table 2 (转录): 短时预测任务在 EPF 数据集上的完整结果

	Model\| TimeXer	iTransformer	RLinear	PatchTST	Crossformer	TiDE	TimesNet	DLinear	SCINet	Autoformer
	Metric	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE
NP		0.236	0.268	0.268	0.290	0.300	0.320	0.267	0.290	0.280	0.300	0.290	0.300	0.297	0.313	0.368	0.408	0.307	0.320	0.337	0.368
PJM		0.093	0.192	0.101	0.201	0.109	0.210	0.101	0.201	0.109	0.212	0.100	0.201	0.101	0.205	0.109	0.211	0.126	0.224	0.119	0.221
BE		0.379	0.243	0.380	0.270	0.393	0.260	0.386	0.252	0.406	0.290	0.390	0.260	0.396	0.260	0.419	0.288	0.460	0.310	0.471	0.320
FR		0.385	0.208	0.390	0.210	0.400	0.230	0.390	0.210	0.400	0.230	0.401	0.219	0.394	0.216	0.420	0.234	0.429	0.236	0.450	0.244
DE		0.440	0.415	0.450	0.420	0.500	0.450	0.490	0.440	0.500	0.460	0.470	0.430	0.484	0.440	0.519	0.470	0.550	0.490	0.538	0.484
AVG		0.307	0.265	0.318	0.278	0.340	0.294	0.324	0.279	0.339	0.298	0.330	0.284	0.334	0.287	0.367	0.322	0.386	0.316	0.383	0.327

长时多元预测:

如下表 (Table 3) 所示，TimeXer 在大多数数据集上同样取得了 SOTA 性能，展现了其方法的通用性。通过通道独立 (channel independence) 机制，TimeXer 可以被灵活地应用于多元预测任务。

Table 3 (转录): 多元预测结果 (所有预测长度的平均值)

Model		TimeXer	iTransformer	RLinear	PatchTST	Crossformer	TiDE	TimesNet	DLinear	SCINet	Autoformer
	Metric	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE
ECL		0.171	0.270	0.178	0.270	0.219	0.308	0.216	0.304	0.244	0.335	0.251	0.344	0.192	0.294	0.216	0.307	0.268	0.360	0.226	0.327
Weather		0.241	0.271	0.258	0.279	0.272	0.291	0.259	0.281	0.259	0.310	0.271	0.320	0.259	0.282	0.265	0.310	0.292	0.360	0.338	0.380
ETTh1		0.437	0.437	0.454	0.447	0.446	0.434	0.469	0.454	0.529	0.522	0.541	0.507	0.458	0.450	0.456	0.452	0.747	0.640	0.496	0.487
ETTh2		0.367	0.396	0.383	0.407	0.374	0.398	0.387	0.407	0.942	0.684	0.611	0.550	0.414	0.421	0.559	0.515	0.954	0.720	0.450	0.459
ETTm1		0.382	0.397	0.407	0.410	0.414	0.408	0.387	0.400	0.513	0.491	0.419	0.419	0.400	0.405	0.403	0.407	0.485	0.480	0.588	0.517
ETTm2		0.274	0.322	0.288	0.332	0.286	0.328	0.281	0.326	0.757	0.618	0.358	0.404	0.291	0.332	0.350	0.401	0.571	0.530	0.327	0.371
Traffic		0.466	0.287	0.428	0.282	0.626	0.377	0.481	0.304	0.550	0.304	0.760	0.473	0.620	0.334	0.625	0.383	0.804	0.500	0.628	0.379

鲁棒性与通用性分析:
- 处理不规则数据: 如图3所示，实验表明，即使内外生序列的回溯长度不一致，TimeXer 依然能有效工作，并且增加任一方或双方的历史信息长度通常都能带来性能提升。
  
  $Figure 3: Performance with the enlarged look-back length varying from $\\{ 9 6 , 1 9 2 , 3 3 6 , 5 1 2 , 7 2 0 \\}$ . Different styles of lines represent different prediction lengths. In most cases, th…$ 该图像是图3，展示了在内生和/或外生变量的回溯长度（96至720）变化时，预测性能（MSE）的变化趋势。图中包含三个子图，分别考察固定内生变量增加外生变量、固定外生变量增加内生变量，以及同时增加内外生变量的回溯长度对不同预测长度（96, 192, 336, 720）下模型性能的影响。结果表明，在大多数情况下，扩大回溯长度有助于提高预测性能。
上图（图3）展示了模型在不同回溯长度下的性能。无论只增加外生、只增加内生还是同时增加，模型的MSE（越低越好）整体呈下降趋势，证明模型能从更长的历史信息中获益。
- 处理缺失值: 如 Table 5 所示，当外生变量被替换为无意义的噪声（0 或随机数）时，模型性能虽有下降但没有崩溃，说明模型是鲁棒的，不会被无效的外部信息严重干扰。而当内生变量信息缺失时，性能急剧下降，这符合预期。

消融实验/参数分析 (Ablation Studies / Parameter Analysis):

如下表 (Table 4) 所示的消融实验结果，验证了 TimeXer 各个设计组件的必要性：
1. Remove G: 移除内生变量的全局令牌，性能下降。这证明了全局令牌作为信息桥梁的关键作用。
2. Replace Ex. V with P: 将外生变量的变量级 ( $V$ ) 嵌入替换为分块级 ( $P$ ) 嵌入，性能下降。这说明对不规则的外生变量进行粗粒度建模是更有效且高效的选择。
3. Cross-Attention Variants (Add/Concatenate): 将交叉注意力替换为简单的相加或拼接操作，性能均有下降。这证明了交叉注意力在选择性融合信息方面的优越性。

Table 4 (转录): 消融实验结果

Design	En.	Ex.	NP		PJM		BE		FR		DE		AVG
Design	En.	Ex.	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE
Ours	P+G	V	0.236	0.268	0.093	0.192	0.379	0.243	0.385	0.208	0.440	0.415	0.307	0.265
Replace Ex. V with P	P+G	P	0.237	0.269	0.101	0.196	0.376	0.246	0.390	0.206	0.457	0.422	0.312	0.268
Remove G	P	V	0.239	0.273	0.106	0.200	0.381	0.260	0.393	0.208	0.468	0.425	0.316	0.273
Add	P+G	V	0.247	0.272	0.125	0.206	0.387	0.247	0.404	0.209	0.483	0.430	0.329	0.273
Concatenate	P+G	V	0.237	0.266	0.098	0.196	0.383	0.255	0.390	0.209	0.450	0.423	0.312	0.270

7. 总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary):
- 本文成功地论证了在时间序列预测中专门处理外生变量的重要性，并提出了一个简单而强大的模型 TimeXer。
- TimeXer 在不修改标准 Transformer 架构的基础上，通过创新的分层嵌入策略（内生-分块 vs. 外生-变量）和全局令牌桥梁，实现了对内生序列时间依赖和内外生变量间相关性的高效协同建模。
- 大量的实验证明，TimeXer 不仅在多个基准上达到了 SOTA 性能，还展现了出色的通用性、鲁棒性和可扩展性，特别是在处理真实世界中常见的不规则数据方面具有显著优势。
局限性与未来工作 (Limitations & Future Work):
- 作者指出的局限性 (Appendix G): 论文在附录中坦诚地指出，在 Traffic 数据集的多元预测任务中，尽管 TimeXer 的 MAE 与 SOTA 模型 iTransformer 接近，但 MSE 差距较大。通过可视化分析（如图10），作者发现 TimeXer 能很好地预测序列的整体趋势，但在预测尖峰（spike）的精确数值方面存在不足。作者推测，这可能是由于大量块令牌和一个全局令牌之间的不平衡，导致模型更关注宏观趋势而忽略了局部突变点的精确值。
- 未来工作:
  1. 解决上述令牌不平衡问题，例如通过调整块长度或引入更多可学习的全局性令牌。
  2. 探索将 TimeXer 的思想应用于更大规模的时间序列预训练模型中。
  3. 进一步研究如何更显式地建模内外生变量之间的因果滞后关系。
    
    该图像是图10，展示了在Traffic数据集上的多元时间序列预测结果，对比了TimeXer、PatchTST和iTransformer三种模型。图像由六个子图组成，每个子图均以橙色线表示模型预测值，蓝色线表示真实值（GroundTruth），横轴为时间步，纵轴为序列值。该对比旨在视觉化评估各模型的预测准确性，其中TimeXer的预测曲线与真实值吻合度较高，表明其在该数据集上具有较好的预测性能。

上图（图10）直观展示了 Traffic 数据集上的预测结果。可以看出，TimeXer 和 PatchTST（两者都基于 patch）预测的曲线整体形态与真实值（GroundTruth）非常吻合，但峰值高度有所欠缺。而 iTransformer 在峰值预测上表现更好一些。

个人启发与批判 (Personal Insights & Critique):
- 启发:
  1. “旧瓶装新酒”的智慧: TimeXer 最大的亮点在于其思想的简洁与优雅。它没有设计一个全新的、复杂的网络结构，而是通过对输入数据进行巧妙的表征 (representation)，就成功地“解锁”了标准 Transformer 在一个新问题上的巨大潜力。这启示我们，在解决问题时，有时改变数据的“看法”比改变模型本身更重要。
  2. 非对称建模思想: 对不同性质的数据（内生 vs. 外生）采用非对称的处理方式（精细 vs. 粗糙），是一种非常实用且高效的工程思想。这不仅符合问题的内在逻辑，也带来了计算效率上的优势。
  3. 全局令牌的妙用: 全局令牌在模型中扮演了类似信息路由器的角色，其设计非常巧妙，有效地解决了不同粒度信息融合的难题，值得在其他多模态或多源信息融合任务中借鉴。
- 批判性思考:
  1. 可解释性仍有提升空间: 尽管论文通过可视化注意力图（如图5）展示了模型关注了相关的外生变量，但这种注意力 (attention) 是否等同于因果关系 (causality) 仍是一个开放性问题。模型是如何处理外生变量对内生变量的时间滞后效应的，其内在机制还不够清晰。
  2. 全局令牌的泛化性: 全局令牌是一个可学习的参数，它是否可能在某些数据集上过拟合，或者在面对与训练数据分布差异很大的新序列时，其表征能力是否会下降，这需要进一步的实验验证。
  3. 对强周期性数据的依赖: 从 Traffic 数据集的表现来看，基于分块的方法可能对具有强周期性、趋势明显的序列表现优异，但在处理包含大量随机、高频突变的序列时可能会“平滑”掉关键的峰值信息。这可能是该类方法的一个共同挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。