论文状态：已完成

LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics

发表：2025/03/12

大语言模型时间序列预测 (1)时间序列数据的模式与语义学习 (1)多尺度卷积神经网络 (1)时序依赖建模 (1)短期与长期预测 (1)

价格：0.100000

已有 12 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为LLM-PS的新框架，旨在增强大语言模型在时间序列预测中的能力。LLM-PS通过多尺度卷积神经网络学习时间序列数据中的基本模式与有意义的语义，并采用时间到文本模块提取价值，从而提高短期与长期预测的准确性，展现了领先的性能。

摘要

Time Series Forecasting (TSF) is critical in many real-world domains like financial planning and health monitoring. Recent studies have revealed that Large Language Models (LLMs), with their powerful in-contextual modeling capabilities, hold significant potential for TSF. However, existing LLM-based methods usually perform suboptimally because they neglect the inherent characteristics of time series data. Unlike the textual data used in LLM pre-training, the time series data is semantically sparse and comprises distinctive temporal patterns. To address this problem, we propose LLM-PS to empower the LLM for TSF by learning the fundamental \textit{Patterns} and meaningful \textit{Semantics} from time series data. Our LLM-PS incorporates a new multi-scale convolutional neural network adept at capturing both short-term fluctuations and long-term trends within the time series. Meanwhile, we introduce a time-to-text module for extracting valuable semantics across continuous time intervals rather than isolated time points. By integrating these patterns and semantics, LLM-PS effectively models temporal dependencies, enabling a deep comprehension of time series and delivering accurate forecasts. Intensive experimental results demonstrate that LLM-PS achieves state-of-the-art performance in both short- and long-term forecasting tasks, as well as in few- and zero-shot settings.

思维导图

论文精读

中文精读约 30 分钟读完 · 30,732 字

1. 论文基本信息

1.1. 标题

LLM-PS: 赋能大语言模型进行时间序列预测，融合时序模式与语义 (LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics)

1.2. 作者

Jialiang Tang (1, 2)
Shuo Chen (3)
Chen Gong (4)
Jing Zhang (5)
Dacheng Tao (2)

隶属机构：

澳大利亚悉尼大学 (University of Sydney, Australia)
悉尼AI中心 (Sydney AI Centre)
墨尔本大学 (University of Melbourne)
南京农业大学 (Nanjing Agricultural University)
悉尼大学 (University of Sydney)

1.3. 发表期刊/会议

该论文作为预印本 (arXiv preprint) 发布。

发布状态: 预印本 (Preprint)
相关领域声誉: arXiv 是计算机科学和相关领域研究论文的主要预印本存储库，论文在此发布以供社区审查和讨论。它在学术交流中扮演着重要角色，但尚未经过正式的同行评审 (peer review) 流程。

1.4. 发表年份

2025年

1.5. 摘要

时间序列预测 (TSF) 在金融规划和健康监测等众多现实世界领域至关重要。最近的研究表明，大语言模型 (LLMs) 凭借其强大的上下文建模能力，在 TSF 方面具有巨大潜力。然而，现有基于 LLM 的方法通常表现不佳，因为它们忽略了时间序列数据的固有特性。与 LLM 预训练中使用的文本数据不同，时间序列数据语义稀疏，并包含独特的时序模式。为解决此问题，本文提出了 LLM-PS，通过学习时间序列数据中的基本模式 (Patterns) 和有意义的语义 (Semantics) 来增强 LLM 的 TSF 能力。LLM-PS 包含一个新型的多尺度卷积神经网络 (MSCNN)，擅长捕捉时间序列中的短期波动和长期趋势。同时，我们引入了一个时间到文本 (time-to-text, T2T) 模块，用于从连续时间间隔而非孤立时间点提取有价值的语义。通过整合这些模式和语义，LLM-PS 有效地建模了时间依赖性，实现了对时间序列的深入理解，并提供了准确的预测。大量的实验结果表明，LLM-PS 在短期和长期预测任务，以及少样本 (few-shot) 和零样本 (zero-shot) 设置中均取得了最先进的 (state-of-the-art, SOTA) 性能。

1.6. 原文链接

https://arxiv.org/abs/2503.09656v1

1.7. PDF 链接

https://arxiv.org/pdf/2503.09656v1.pdf

2. 整体概括

2.1. 研究背景与动机

时间序列预测 (Time Series Forecasting, TSF) 是一个在金融、能源、交通、医疗等多个关键领域都具有广泛应用的重要任务。传统的深度学习方法通常依赖于为特定任务定制的模型设计，这导致它们在面对不同领域或具有不同时序特性的数据时，泛化能力较差。此外，这些模型往往从头开始训练，在数据有限的实际场景中容易过拟合 (overfitting)。

近年来，大语言模型 (Large Language Models, LLMs) 在自然语言处理 (Natural Language Processing, NLP) 领域取得了巨大成功，展现出强大的上下文建模和泛化能力。由于时间序列数据和文本数据都具有序列性 (sequentiality) 和上下文依赖性 (contextual dependency) 的相似之处，研究者们开始探索将 LLM 应用于 TSF。然而，现有基于 LLM 的 TSF 方法主要关注于对齐时间序列数据与文本数据，却普遍忽略了时间序列数据本身的固有特性，导致其性能 suboptimal (次优)。

论文指出，时间序列数据存在两个核心特性是 LLM 预训练文本数据所不具备的，且现有 LLM 方法未充分解决：

多样化的时序模式 (Diverse Temporal Patterns): 时间序列数据包含周期性的短期波动 (short-term periodic fluctuations) 和持续的长期趋势 (persistent long-term trends)。这些模式在文本数据中很少出现，是时间序列预测的关键。
语义稀疏性 (Semantic Sparsity): 时间序列数据通常语义稀疏，需要一个完整的序列才能表达特定的含义（例如“快速增长”或“突然下降”），而文本数据中的词汇通常具有明确的语义。LLM 预训练在语义丰富的文本数据上，难以直接从稀疏的时间序列中精确提取语义。

因此，该论文的动机在于，要实现可靠的时间序列预测，关键在于识别时间序列数据中固有的基本时序模式和特定的语义信息，并以此指导 LLM 进行预测。

2.2. 核心贡献/主要发现

该论文提出了 LLM-PS 框架，旨在通过充分利用时间序列数据中的时序模式和语义信息，赋能大语言模型进行更准确的时间序列预测。其核心贡献和主要发现包括：

识别并解决时间序列数据固有特性： LLM-PS 首次明确指出并着手解决 LLM 应用于 TSF 时，现有方法忽略了时间序列数据语义稀疏和多样化时序模式的固有特性，并提出了一种新颖的 TSF 框架来利用这些特性。
多尺度卷积神经网络 (MSCNN) 的设计： 提出了一个新颖的 MSCNN 模块，能够有效地捕获时间序列中的短期波动 (short-term fluctuations) 和长期趋势 (long-term trends)。该模块通过并行分支和递归结构实现多尺度特征提取，并通过基于小波变换 (wavelet transform) 的模式解耦与组装 (decoupling and assembling) 机制进一步细化和增强这些时序模式。
时间到文本 (T2T) 语义提取模块的引入： 设计了一个 T2T 模块，通过自监督学习 (self-supervised learning) 的方式，从时间序列数据中提取有价值的语义信息。该模块通过重建掩码 (masked) 时间序列片段并预测其语义标签来学习，从而将时间序列的稀疏语义转化为 LLM 更易理解的形式。
整合模式与语义的 LLM 赋能框架： LLM-PS 将 MSCNN 提取的丰富时序模式和 T2T 提取的语义信息通过特征融合 (feature transfer) 输入到 LLM 中，从而使 LLM 对时间序列数据有更全面的理解和建模能力。
卓越的性能表现： LLM-PS 在多个主流时间序列预测基准数据集上，包括长期预测 (long-term forecasting)、短期预测 (short-term forecasting) 以及更具挑战性的少样本 (few-shot) 和零样本 (zero-shot) 场景下，均持续取得了最先进的 (SOTA) 性能。
高效率与鲁棒性： 实验结果表明，LLM-PS 相较于其他 LLM 微调方法具有显著的训练效率，并且对噪声数据展现出更强的鲁棒性 (robustness)。

3. 预备知识与相关工作

3.1. 基础概念

时间序列预测 (Time Series Forecasting, TSF): TSF 是一种利用历史数据预测未来时间点数值的技术。它在金融、气象、医疗等领域有广泛应用。核心挑战在于捕捉数据中的趋势、季节性、周期性以及不规则波动等复杂模式。
大语言模型 (Large Language Models, LLMs): LLM 是一种基于 Transformer 架构的深度学习模型，通过在海量文本数据上进行预训练，学习语言的统计规律和语义信息。它们具有强大的上下文理解、生成和泛化能力。典型的 LLM 包括 GPT 系列和 Llama 系列。
Transformer (变换器): Transformer 是一种主要用于处理序列数据的神经网络架构，其核心是自注意力机制 (self-attention mechanism)。Transformer 摒弃了传统的循环神经网络 (Recurrent Neural Network, RNN) 或卷积神经网络 (Convolutional Neural Network, CNN) 结构，能够并行处理序列中的所有元素，从而有效捕捉长距离依赖关系。 Transformer 中的 Attention (注意力) 机制允许模型在处理序列中的某个元素时，能够“关注”到序列中所有其他相关元素，并根据其相关性赋予不同的权重。其核心计算公式如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释：
- $Q$ (Query): 查询矩阵，由当前词的嵌入向量经过线性变换得到。
- $K$ (Key): 键矩阵，由序列中所有词的嵌入向量经过线性变换得到。
- $V$ (Value): 值矩阵，由序列中所有词的嵌入向量经过线性变换得到。
- $Q K^T$ : Query 和 Key 的点积，衡量 Query 与序列中每个 Key 的相似度或相关性。
- $\sqrt{d_k}$ : 缩放因子，用于防止点积结果过大导致 softmax 函数梯度过小。 $d_k$ 是 Key 向量的维度。
- $\mathrm{softmax}(\cdot)$ : 归一化函数，将相似度分数转换为权重分布，确保所有权重之和为1。
- $V$ : 值矩阵，加权求和后得到的信息表示。
卷积神经网络 (Convolutional Neural Network, CNN): CNN 是一种专门处理具有网格状拓扑数据（如图像、时间序列）的神经网络。其核心是卷积层 (convolutional layer)，通过滑动滤波器 (filter) 在输入数据上提取局部特征。在时间序列中，CNN 可以通过一维卷积核捕捉不同时间窗口内的局部模式。
多尺度特征 (Multi-Scale Features): 指在不同时间尺度或空间粒度上提取的特征。在时间序列中，多尺度特征可以同时捕捉短期的局部波动和长期的全局趋势。
小波变换 (Wavelet Transform, WT): WT 是一种时频分析 (time-frequency analysis) 工具，可以将信号分解成不同频率分量，从而在时间和频率域同时分析信号。与傅里叶变换 (Fourier Transform) 只能给出信号的总体频率信息不同，小波变换能够提供信号在不同时间点上的频率信息，使其特别适用于分析非平稳信号，如时间序列中的突变或瞬态现象。它能将信号分解为低频（近似）分量和高频（细节）分量，分别对应长期趋势和短期波动。
参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT): 指在微调大型预训练模型时，只更新模型参数的一个小子集，而不是更新所有参数。这大大减少了计算资源和存储需求，并能有效缓解灾难性遗忘。LoRA (Low-Rank Adaptation) 是其中一种流行的 PEFT 技术。
自监督学习 (Self-Supervised Learning, SSL): 一种机器学习范式，模型通过从数据本身生成监督信号来学习有用的数据表示，而无需人工标注。常见的任务包括掩码语言建模 (Masked Language Modeling, MLM) 或重建掩码输入。

3.2. 前人工作

传统 TSF 方法:
- 统计模型: 如 ARIMA (Autoregressive Integrated Moving Average) 和 ETS (Error, Trend, Seasonality)，它们基于历史数据的统计特性进行预测。
- 深度学习模型: 随着计算能力的提升，RNN (如 LSTM 和 GRU)、CNN、Transformer 和 MLP (Multi-Layer Perceptron) 等深度学习模型被广泛应用于 TSF。例如，TimesNet (Wu et al., 2023a), TCN (Bai et al., 2018), MICN (Wang et al., 2022) 是 CNN-based 方法；PatchTST (Nie et al., 2023), iTransformer (Liu et al., 2024b), Crossformer (Zhang & Yan, 2023a), FEDformer (Zhou et al., 2022), Autoformer (Wu et al., 2021) 是 Transformer-based 方法；DLinear (Zeng et al., 2023), TiDE (Das et al., 2023), TimeMixer (Wang et al., 2024) 是 MLP-based 方法。
基于 LLM 的 TSF 方法:
- PromptCast (Xue & Salim, 2023): 将时间序列和文本数据编码成 prompts (提示)，以指导 LLM 预测。prompts 包含上下文信息、任务要求和所需输出格式。
- TimeLLM (Jin et al., 2024): 通过 text prototypes (文本原型) 对时间序列数据进行重编程 (reprogramming)，以弥合时间序列和文本模态之间的鸿沟，从而释放 LLM 的 TSF 性能。它通过 prompts 进一步增强 LLM 的指导，其中包含领域信息、指令和数据统计。
- CALF (Liu et al., 2024a): 为时间序列和文本数据训练独立的 LLM 分支，并在中间层和输出层对齐它们的特征。
- GPT4TS (Zhou et al., 2023b): 将连续时间序列数据分段为与 LLM 兼容的离散词元 (tokens)。
- LLM-TS (Chen et al., 2024): 使用 CNN 作为时间序列分支，并通过最小化互信息 (mutual information) 来指导 LLM。
- LLMMixer (Kowsher et al., 2024): 学习多尺度特征。

3.3. 技术演进

时间序列预测从最初的统计模型（如 ARIMA），发展到基于 RNN、CNN 等特定深度学习模型，再到 Transformer 架构的广泛应用。近年来，预训练大模型的兴起，特别是 LLM 在 NLP 领域的成功，促使研究者们探索将 LLM 的强大序列建模能力迁移到时间序列领域。早期的 LLM-based TSF 方法主要关注如何将时间序列数据转化为 LLM 可以理解的格式（如 PromptCast, GPT4TS），或如何对齐不同模态的特征（如 TimeLLM, CALF）。这些方法虽然取得了进展，但往往未能深入挖掘时间序列数据特有的时序模式和语义稀疏性带来的挑战。

3.4. 差异化分析

LLM-PS 与现有 LLM-based TSF 方法的核心区别在于，它不仅试图对齐文本和时间序列模态，更重要的是，它积极地、有针对性地解决了时间序列数据固有的“多样化时序模式”和“语义稀疏性”这两个特性。

处理时序模式： 现有方法如 LLMMixer 也尝试学习多尺度特征，但 LLM-PS 引入了专门设计的 MSCNN 模块，通过结合并行卷积分支和递归结构，以及基于小波变换的解耦和组装机制，更有效地捕捉和细化短期波动和长期趋势。这使得 LLM-PS 能够在一个统一的框架内高效处理不同尺度的时序信息，而无需像某些方法那样通过多个不同窗口大小的池化操作来生成多尺度信号，从而避免了巨大的计算开销。
解决语义稀疏性： 针对时间序列数据语义稀疏的问题，LLM-PS 提出了独特的 T2T 模块。该模块通过自监督学习的掩码重建和语义标签预测任务，迫使模型从连续的时间间隔中提取有意义的语义信息，并将其转化为 LLM 更易理解的文本嵌入形式。这与直接将时间序列离散化为 tokens 或简单对齐特征的方法不同，它专注于提升时间序列数据本身的语义表达能力，从而更好地引导 LLM 进行预测。
系统性整合： LLM-PS 将 MSCNN 提取的模式和 T2T 提取的语义进行有效整合，通过特征转移 (feature transfer) 共同输入到 LLM 中，实现了对时间序列数据的全面理解，从而在各种预测任务中取得更优的性能。

4. 方法论

本节将详细阐述 LLM-PS (Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics) 的方法论。LLM-PS 旨在通过学习时间序列数据中固有的时序模式 (Patterns) 和有意义的语义 (Semantics) 来增强大语言模型 (LLM) 的时间序列预测 (TSF) 能力。整个框架由三个主要组成部分构成：多尺度卷积神经网络 (MSCNN)、时间到文本语义提取模块 (T2T) 和 LLM 的高效训练机制。

下图（原文 Figure 2）展示了我们提出的 LLM-PS 的总览：

$该图像是一个示意图，展示了 LLM-PS 方法的架构，包括多尺度卷积神经网络 (MSCNN) 和时间到文本提取器 (T2T Extractor)。该方法通过捕获短期波动和长期趋势来转移多尺度特征，并提取语义特征，从而预测时间序列数据。公式 $L_{TIME} = rac{1}{T} imes ext{∑}_{i=1}^{T} orm{Y_{i} - ar{Y}_{i}}_{2}$ 表示目标函数。$ 该图像是一个示意图，展示了 LLM-PS 方法的架构，包括多尺度卷积神经网络 (MSCNN) 和时间到文本提取器 (T2T Extractor)。该方法通过捕获短期波动和长期趋势来转移多尺度特征，并提取语义特征，从而预测时间序列数据。公式 $L_{TIME} = rac{1}{T} imes ext{∑}_{i=1}^{T} orm{Y_{i} - ar{Y}_{i}}_{2}$ 表示目标函数。

我们的 LLM-PS 包含一个多尺度卷积神经网络 (MSCNN)，用于从输入时间序列中提取具有不同感受野（即不同时序模式，颜色越深表示感受野越大）的特征 $\mathbf{F}_{\mathrm{MS}}$ ，从而捕获局部短期波动和更广泛的长期趋势。同时，T2T 模块通过特征转移 (feature transferring) 提取具有有意义语义的特征 $\mathbf{F}_{\mathrm{T2T}}$ ，并将其输入到 LLM 中，以生成精确的时间序列预测 $\hat{\mathbf{Y}}$ 。

4.1. 方法原理

LLM-PS 的核心思想是，为了让 LLM 能够准确预测时间序列，必须为其提供时间序列数据中特有的结构性信息。这些信息包括：

多尺度的时序模式： 时间序列数据通常同时包含快速变化的短期波动（如日内周期性）和缓慢演变的长期趋势（如季节性或年度趋势）。LLM 预训练于文本，可能难以有效捕捉这些模式。
丰富的语义信息： 尽管时间序列数据本身语义稀疏，但连续的时间间隔可以传达“快速上升”、“缓慢下降”等有意义的语义。这些语义对于理解时间序列的行为至关重要。

LLM-PS 通过专门设计的 MSCNN 模块来捕捉多尺度时序模式，并通过 T2T 模块从时间序列中提取语义信息。这些模式和语义随后被整合并输入到 LLM 中，以指导其进行精确的预测。

4.2. 多尺度卷积神经网络 (MSCNN)

真实世界的时间序列数据是复杂且多变的，同时包含短期波动和长期趋势，这两者对于准确预测都至关重要。传统的卷积神经网络 (CNN) 由于其固定感受野 (receptive field) 的卷积层，在捕捉这些多样化时序模式时存在局限性。LLM-PS 引入了一个新型的 MSCNN，旨在有效捕捉不同尺度的时序模式。

下图（原文 Figure 3）展示了 MSCNN 块的示意图：

$Figure 3: The diagram of our MSCNN block. The divided features are initially fed into their related $3 \\times 3$ convolutional layers to obtain features (e.g., \$\\bar { \\mathbf { F } } _ { 1 } \\mathrm…$ 该图像是示意图，展示了MSCNN块的结构和数据流。输入特征首先通过 $1 \times 1$ 卷积层进行通道分离，随后通过 $3 \times 3$ 卷积层提取不同频率模式。使用小波变换（WT）和逆小波变换（IWT）将特征解耦为长短期模式 $(\mathbf{P}_L, \mathbf{P}_S)$ 。接着，通过局部与全局组装增强模式，最终合并改进后的模式，通过 $1 \times 1$ 卷积层生成多尺度特征。

4.2.1. MSCNN 块的结构

MSCNN 块借鉴了经典 CNN 结构（如 ResNet 的 bottleneck 块），通过并行分支来学习多尺度特征。每个 MSCNN 块的输入特征 $\mathbf{F}_{\mathrm{in}} \in \mathbb{R}^{C \times V}$ 首先经过一个 $1 \times 1$ 卷积层进行通道处理，然后被分成 $B$ 个分支 $\{\mathbf{F}_1, \dots, \mathbf{F}_B\}$ ，其中 $\mathbf{F}_i \in \mathbb{R}^{C/B \times V}$ (为简化描述，此处省略批量维度)。接着， $B$ 个分支的特征递归地输入到各自的 $3 \times 3$ 卷积层，并与前一个分支的输出（除了 $\mathbf{F}_1$ ）相加，如下所示：

$\begin{array}{r} \bar{\mathbf{F}}_{i} = \left\{ \begin{array}{ll} \mathbf{Conv}_{i}(\mathbf{F}_{i}), & i = 1, \\ \mathbf{Conv}_{i}(\mathbf{F}_{i} + \bar{\mathbf{F}}_{i-1}), & 1 < i \leq B. \end{array} \right. \end{array}$ 符号解释：

$\mathbf{F}_{\mathrm{in}}$ : 输入特征，形状为 $C \times V$ ，其中 $C$ 是通道数， $V$ 是变量数。
$C$ : 通道数。
$V$ : 时间序列的变量数（例如，多元时间序列的维度）。
$B$ : MSCNN 块中的分支数量。
$\mathbf{F}_i$ : 第 $i$ 个分支的输入特征，形状为 $C/B \times V$ 。
$\mathbf{Conv}_i(\cdot)$ : 第 $i$ 个分支中的 $3 \times 3$ 卷积层。
$\bar{\mathbf{F}}_i$ : 第 $i$ 个分支的输出特征。

通过这种递归结构，各个分支特征的感受野 (receptive field) 呈序列式增长。具体来说，具有较小感受野的特征 ( $\bar{\mathbf{F}}_1$ ) 主要捕捉局部周期性波动，而具有较大感受野的特征 ( $\bar{\mathbf{F}}_B$ ) 则能关注更广泛的全局趋势。

最后，这些分支的输出特征 $\{\bar{\mathbf{F}}_1, \dots, \bar{\mathbf{F}}_B\}$ 被拼接 (concatenate) 起来，并通过一个 $1 \times 1$ 卷积层进行融合，再与原始输入特征 $\mathbf{F}_{\mathrm{in}}$ 进行残差连接 (shortcut)，得到输出特征 $\mathbf{F}_{\mathrm{out}}$ ：

$\mathbf{F}_{\mathrm{out}} = \mathbf{Conv}_{1 \times 1}(\mathrm{Concate}(\{\bar{\mathbf{F}}_1, \dots, \bar{\mathbf{F}}_B\}) + \mathbf{F}_{\mathrm{in}}$ 符号解释：

$\mathrm{Concate}(\{\bar{\mathbf{F}}_1, \dots, \bar{\mathbf{F}}_B\})$ : 将所有分支的输出特征沿通道维度拼接起来。
$\mathbf{Conv}_{1 \times 1}(\cdot)$ : 一个 $1 \times 1$ 卷积层，用于融合拼接后的特征。
$\mathbf{F}_{\mathrm{out}}$ : MSCNN 块的最终输出特征。
$\mathbf{F}_{\mathrm{in}}$ : 原始输入特征，通过残差连接加到输出特征中，有助于训练更深的网络并缓解梯度消失问题。

MSCNN 块的输出 $\mathbf{F}_{\mathrm{out}}$ 将作为后续 MSCNN 块的输入，最终生成用于 LLM 的多尺度特征 $\mathbf{F}_{\mathrm{MS}}$ 。

4.2.2. 时序模式解耦与组装 (Temporal Patterns Decoupling and Assembling)

为了进一步精炼多尺度特征中的时序模式，LLM-PS 引入了一种基于小波变换 (wavelet transform) 的模式解耦与组装机制。这种机制利用了时间序列的高频和低频分量分别对应短期和长期模式的特性。

首先，MSCNN 块中 $B$ 个分支的输出特征 $\{\bar{\mathbf{F}}_1, \dots, \bar{\mathbf{F}}_B\}$ 使用小波变换 $\mathrm{WT}(\cdot)$ 被解耦为低频分量 $\mathbf{W}_{\mathrm{low}}$ 和高频分量 $\{\mathbf{W}_{\mathrm{high},i}\}_{i=1}^w$ ：

$\mathbf{W}_{\mathrm{low}}^b, \{\mathbf{W}_{\mathrm{high}\_i}^b\}_{i=1}^w = \mathrm{WT}(\bar{\mathbf{F}}_b, w), \quad b \in \{1, \dots, B\}$ 符号解释：

$\bar{\mathbf{F}}_b$ : 第 $b$ 个分支的输出特征。
$\mathrm{WT}(\cdot, w)$ : 小波变换函数，将输入特征分解为 $w$ 个分解级别。
$\mathbf{W}_{\mathrm{low}}^b$ : 第 $b$ 个分支对应的低频分量，代表长期趋势。
$\{\mathbf{W}_{\mathrm{high}\_i}^b\}_{i=1}^w$ : 第 $b$ 个分支对应的 $w$ 个高频分量，代表短期波动。
$w$ : 小波分解的层级数。

接着，短期模式 $\mathbf{P}_{\mathrm{S}}$ 和长期模式 $\mathbf{P}_{\mathrm{L}}$ 通过逆小波变换 $\mathrm{IWT}(\cdot)$ 构建：

$\begin{array}{r} \left\{ \begin{array}{l} \mathbf{P}_{\mathrm{S}}^b = \mathrm{IWT}(\mathrm{Zero}(\mathbf{W}_{\mathrm{low}}^b), \{\mathbf{W}_{\mathrm{high}\_i}^b\}_{i=1}^w), \\ \mathbf{P}_{\mathrm{L}}^b = \mathrm{IWT}(\mathbf{W}_{\mathrm{low}}^b, \{\mathrm{Zero}(\mathbf{W}_{\mathrm{high}\_i}^b)\}_{i=1}^w), \end{array} \right. \end{array}$ 符号解释：

$\mathrm{IWT}(\cdot, \cdot)$ : 逆小波变换函数，用于从分解分量中重构信号。
$\mathrm{Zero}(\cdot)$ : 一个操作，生成与输入维度匹配但填充为零的特征。
$\mathbf{P}_{\mathrm{S}}^b$ : 第 $b$ 个分支重构的短期模式。通过将低频分量置零，仅用高频分量重构。
$\mathbf{P}_{\mathrm{L}}^b$ : 第 $b$ 个分支重构的长期模式。通过将高频分量置零，仅用低频分量重构。

为了进一步增强短长期模式的表示，LLM-PS 采用了局部到全局 (local-to-global) 和全局到局部 (global-to-local) 的组装策略：

$\left\{ \begin{array}{ll} \mathrm{For} \ b: 2 \to B \ \mathrm{do}: & \quad \mathbf{P}_{\mathrm{S}}^b = \mathbf{P}_{\mathrm{S}}^b + \mathbf{P}_{\mathrm{S}}^{b-1}, \\ \mathrm{For} \ b: (B-1) \to 1 \ \mathrm{do}: & \quad \mathbf{P}_{\mathrm{L}}^b = \mathbf{P}_{\mathrm{L}}^b + \mathbf{P}_{\mathrm{L}}^{b+1}. \end{array} \right.$ 符号解释：

$\mathbf{P}_{\mathrm{S}}^b = \mathbf{P}_{\mathrm{S}}^b + \mathbf{P}_{\mathrm{S}}^{b-1}$ : 短期模式从局部（小感受野分支）向全局（大感受野分支）累积。
$\mathbf{P}_{\mathrm{L}}^b = \mathbf{P}_{\mathrm{L}}^b + \mathbf{P}_{\mathrm{L}}^{b+1}$ : 长期模式从全局（大感受野分支）向局部（小感受野分支）累积。

这种组装方式利用了不同分支感受野的特性：小感受野分支更擅长捕获局部周期性波动，其短期模式通过局部到全局的方式传播；大感受野分支更关注全局趋势，其长期模式通过全局到局部的方式影响较小感受野的分支。

组装完成后，每个分支的特征 $\{\bar{\mathbf{F}}_1, \dots, \bar{\mathbf{F}}_B\}$ 通过结合其增强后的短期模式和长期模式进行重构：

$\bar{\mathbf{F}}_b = \mathbf{P}_{\mathrm{S}}^b + \mathbf{P}_{\mathrm{L}}^b, \quad b \in \{1, \dots, B\}.$ 符号解释：

$\bar{\mathbf{F}}_b$ : 重构后的第 $b$ 个分支的输出特征。

4.3. 时间到文本语义提取 (Time-to-Text Semantics Extraction, T2T)

LLM 在大量语义丰富的文本数据上进行预训练，而时间序列数据则具有语义稀疏的特点。这意味着单个时间点通常不具备明确的语义，而只有连续的时间间隔才能表达“快速增长”或“突然下降”等特定含义。为解决 LLM 难以精确解释时间序列语义的问题，LLM-PS 提出了 T2T 模块。T2T 模块采用编码器-解码器结构，通过自监督学习提取时间序列数据中的语义信息。

下图（原文 Figure 7）展示了 Time-to-Text (T2T) 模块的示意图：

$Figure 7: The diagram of our proposed Time-to-Text (T2T) module. The input time series is first divided into $P$ patches, anskh at uca ua ae e semantic labels of the time patches.$ 该图像是示意图，展示了提出的时间到文本（T2T）模块的架构。图中分为两部分：左侧为T2T编码器和解码器的工作流程，包含输入时间序列的处理、隐藏状态的生成及标签预测；右侧为语义过滤过程，通过相似性基础的语义过滤提升嵌入效果。图例中的符号说明了不同的输入、输出、层次结构和注意力机制，强调了如何有效捕获时间序列数据中的模式和语义信息。

4.3.1. T2T 模块的结构与训练

T2T 模块的灵感来源于音频处理领域的自监督学习方法，其设计包括一个编码器 (encoder) 和一个解码器 (decoder)，两者都由 Transformer 层堆叠而成。

数据预处理： 首先，输入时间序列 $\mathbf{X} \in \mathbb{R}^{H \times V}$ (其中 $H$ 是历史时间步长， $V$ 是变量数) 被分割成 $P$ 个连续的片段 (patches) $\{\mathbf{X}_i\}_{i=1}^P$ ，其中每个片段 $\mathbf{X}_i \in \mathbb{R}^{L \times V}$ ， $L$ 是片段长度。然后，约 $75\%$ 的片段会被随机掩码 (masked)。

自监督学习任务： T2T 模块在训练过程中执行两个任务以学习精确的语义信息：

重建掩码片段： 模型需要重建被掩码的片段。
预测片段标签： 模型需要预测这些片段的语义标签。

T2T 模块的损失函数定义如下：

$\mathcal{L}_{\mathrm{T2T}} = \frac{1}{P} \sum_{i=1}^P \left( \mathbb{1}_{[\mathbf{M}(i)=1]} \|\mathbf{X}_i - \hat{\mathbf{X}}_i\|_2 + l_i \log \frac{l_i}{\hat{l_i}} \right).$ 符号解释：

$P$ : 时间序列被分割成的片段总数。
$\mathbb{1}_{[\mathbf{M}(i)=1]}$ : 指示函数，如果第 $i$ 个片段被掩码（即 $\mathbf{M}(i)=1$ ），则为 1，否则为 0。
$\mathbf{X}_i$ : 原始的第 $i$ 个片段。
$\hat{\mathbf{X}}_i$ : T2T 模块重建的第 $i$ 个片段。
$\|\cdot\|_2$ : 欧几里得范数 (L2 范数)，用于计算重建误差。
$l_i$ : 原始第 $i$ 个片段的语义标签 (作为独热编码或概率分布)。
$\hat{l_i}$ : T2T 模块预测的第 $i$ 个片段的语义标签 (作为概率分布)。
$l_i \log \frac{l_i}{\hat{l_i}}$ : 这部分是 Kullback-Leibler (KL) 散度的一种形式，用于衡量预测标签分布 $\hat{l_i}$ 与真实标签分布 $l_i$ 之间的差异。

语义标签分配： 对于每个片段 $\mathbf{X}_i$ (或其重建版本 $\hat{\mathbf{X}}_i$ )，其语义标签 $l_i$ (或 $\hat{l_i}$ ) 通过计算其与 LLM 文本嵌入 (text embeddings) 词汇中最相似的词来分配。相似度 $\mathbf{S}_i$ 计算如下：

$\mathbf{S}_i = \mathrm{Proj}(\mathbf{X}_i) \cdot \mathbf{E}^\top.$ 符号解释：

$\mathrm{Proj}(\cdot)$ : 一个线性变换函数，将输入片段 $\mathbf{X}_i$ 投影到与 LLM 文本嵌入 $\mathbf{E}$ 相同的维度。
$\mathbf{E}$ : 预定义的 LLM 文本嵌入词汇表（或其中一部分）。
$\top$ : 转置操作。
$\mathbf{S}_i$ : 第 $i$ 个片段与 LLM 词汇表中所有词嵌入的相似度向量。

具体来说，作者首先从 GPT2 模型中筛选出与 TSF 相关的文本索引 $\{t_j\}_{j=1}^I$ ，构建一个子词汇表 $\hat{\mathbf{E}} = \{\mathbf{E}_{\mathrm{ori}}[t_j]\}_{j=1}^I$ 。然后，计算 $\hat{\mathbf{E}}$ 与原始 LLM 词嵌入 $\mathbf{E}_{\mathrm{ori}}$ 之间的相似度：

$\mathbf{s} = \frac{\hat{\mathbf{E}} \cdot \mathbf{E}_{\mathrm{ori}}}{\|\hat{\mathbf{E}}\|_2 \|\mathbf{E}_{\mathrm{ori}}\|_2}.$ 符号解释：

$\mathbf{E}_{\mathrm{ori}}$ : GPT2 模型原始的完整词嵌入矩阵，形状为 $W \times D$ ，其中 $W$ 是词汇表大小， $D$ 是嵌入维度。
$t_j$ : 与 TSF 相关的文本词元的索引。
$\hat{\mathbf{E}}$ : 从 $\mathbf{E}_{\mathrm{ori}}$ 中提取的与 TSF 相关的词嵌入子集。
$\mathbf{s}$ : 相似度矩阵，衡量 $\hat{\mathbf{E}}$ 中每个嵌入与 $\mathbf{E}_{\mathrm{ori}}$ 中所有嵌入的相似度。
$\|\cdot\|_2$ : L2 范数。

最终，选择相似度最高的 100 个词作为 T2T 训练的语义词汇表 $\mathbf{E}$ 。

4.4. LLM-PS 的高效训练 (Efficient Training of LLM-PS)

为了高效地训练具有大量参数的 LLM，LLM-PS 采用了参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 技术，具体是 Low-Rank Adaptation (LoRA)。

LLM-PS 的总目标函数 $\mathcal{L}_{\mathrm{OBJ}}$ 结合了时间序列预测损失 $\mathcal{L}_{\mathrm{TIME}}$ 和特征对齐损失 $\mathcal{L}_{\mathrm{FEAT}}$ ：

$\mathcal{L}_{\mathrm{OBJ}} = \mathcal{L}_{\mathrm{TIME}} + \lambda \mathcal{L}_{\mathrm{FEAT}},$ 其中，

$\left\{ \begin{array}{ll} \displaystyle \mathcal{L}_{\mathrm{TIME}} = \frac{1}{T} \sum_{i=1}^T \|\mathbf{Y}_i - \hat{\mathbf{Y}}_i\|_2, \\ \displaystyle \mathcal{L}_{\mathrm{FEAT}} = \frac{1}{C} \sum_{j=1}^C \|\mathbf{F}_{\mathrm{MS}}^j - \mathbf{F}_{\mathrm{T2T}}^j\|_2. \end{array} \right.$ 符号解释：

$\mathcal{L}_{\mathrm{OBJ}}$ : LLM-PS 的总目标函数，旨在优化模型以实现准确预测并有效融合模式和语义。
$\mathcal{L}_{\mathrm{TIME}}$ $L_{TIME}$ : 时间序列预测损失。它鼓励 LLM 生成的预测 $\hat{\mathbf{Y}}$ $\hat{Y}$ 与真实值 $\mathbf{Y}$ $Y$ 尽可能接近。
- $T$ : 预测时间步长。
- $\mathbf{Y}_i$ : 第 $i$ 个时间步的真实时间序列值。
- $\hat{\mathbf{Y}}_i$ : 第 $i$ 个时间步的预测时间序列值。
- $\|\cdot\|_2$ : 欧几里得范数 (L2 范数)，通常计算预测值与真实值之间的平方差，这里表示均方误差 (MSE) 的一种形式。
$\mathcal{L}_{\mathrm{FEAT}}$ $L_{FEAT}$ : 特征对齐损失。它通过语义对齐来丰富 MSCNN 提取的多尺度特征 $\mathbf{F}_{\mathrm{MS}}$ $F_{MS}$ 。
- $\lambda$ : 一个权衡参数，用于平衡 $\mathcal{L}_{\mathrm{TIME}}$ 和 $\mathcal{L}_{\mathrm{FEAT}}$ 的贡献。
- $C$ : 特征通道数。
- $\mathbf{F}_{\mathrm{MS}}^j$ : MSCNN 提取的特征的第 $j$ 个通道。
- $\mathbf{F}_{\mathrm{T2T}}^j$ : T2T 模块生成的特征的第 $j$ 个通道。
- $\|\cdot\|_2$ : 欧几里得范数 (L2 范数)，用于衡量两种特征之间的相似度。
  
  LoRA (Low-Rank Adaptation) 是一种 PEFT 方法，它通过在 Transformer 模型的特定层中注入小的、可训练的低秩矩阵来微调 LLM。这使得在训练过程中只更新这些小矩阵的参数，而保持大部分预训练 LLM 参数冻结，从而显著减少了可训练参数的数量。

5. 实验设置

本节将详细介绍 LLM-PS 的实验设置，包括使用的数据集、评估指标、对比基线以及具体的实现细节。

5.1. 数据集

实验在多个广泛使用的时间序列数据集上进行，涵盖了不同的领域和特性，以全面评估 LLM-PS 的性能。

下图（原文 Figure 5）展示了金融数据和天气数据的可视化，可以观察到不同类型时间序列的特点：

该图像是一个示意图，展示了金融（红色曲线）和天气（蓝色曲线）的实时数据波动情况。横轴为时间（秒），纵轴为数据值，图中可以观察到金融数据的明显波动而天气数据相对平稳。

从图中可以看出，金融数据 (Financial Data) 波动频繁且剧烈，而天气数据 (Weather Data) 变化相对平稳，这体现了时间序列数据的多样性。

具体的实验数据集包括：

ETT (Electricity Transformer Temperature, 电力变压器温度): 包含四个子集：ETTh1, ETTh2, ETTm1, ETTm2。这些数据集记录了中国两座变压器站点的负载和油温等指标。其中，ETTh1 和 ETTh2 的数据采样粒度为小时，ETTm1 和 ETTm2 的采样粒度为15分钟。它们用于评估长期预测任务。
Weather (天气): 记录了2020年全年每10分钟一次的空气温度、湿度等气象指标。
Electricity (电力): 包含2017年美国2000多个电力公司的电力消耗数据。
Traffic (交通): 记录了2016年7月1日至2018年7月2日期间，两条主要高速公路上862个传感器位置每15分钟的交通流量数据。
ILI (Influenza-Like Illness, 流行性感冒样疾病): 记录了美国疾病控制与预防中心 (CDC) 每周报告的流感样疾病患者比例。
ECG (Electrocardiography, 心电图): 包含来自47个受试者的48份半小时双通道动态心电图记录，采样率为360Hz。
M4 Dataset: 这是一个综合性的预测竞赛数据集，包含月度、季度、年度和其他类型的营销数据，用于评估短期预测任务。

5.2. 评估指标

论文使用了多种广泛采用的指标来评估模型的预测性能，这些指标根据预测任务类型（长期预测或短期预测）有所不同。

5.2.1. 长期预测指标

均方误差 (Mean Squared Error, MSE):
1. 概念定义: MSE 衡量预测值与真实值之间差异的平方的平均值。由于误差被平方，它对较大的误差给予更高的惩罚，因此对异常值 (outliers) 敏感。MSE 的目标是越小越好。
2. 数学公式: $\mathrm{MSE} = \frac{1}{T} \sum_{i=1}^{T} \left( \mathbf{x}_{H+i} - \hat{\mathbf{x}}_{H+i} \right)^2.$
3. 符号解释:
  - $T$ : 预测时间步长（prediction length）。
  - $\mathbf{x}_{H+i}$ : 在历史数据长度 $H$ 之后，第 $i$ 个时间步的真实时间序列值。
  - $\hat{\mathbf{x}}_{H+i}$ : 在历史数据长度 $H$ 之后，第 $i$ 个时间步的预测时间序列值。
平均绝对误差 (Mean Absolute Error, MAE):
1. 概念定义: MAE 衡量预测值与真实值之间绝对差异的平均值。与 MSE 不同，它不对误差进行平方，因此对所有误差的处理是线性的，对异常值相对不那么敏感。MAE 的目标是越小越好。
2. 数学公式: $\mathrm{MAE} = \frac{1}{T} \sum_{i=1}^{T} \left| \mathbf{x}_{H+i} - \hat{\mathbf{x}}_{H+i} \right|.$
3. 符号解释:
  - $T$ : 预测时间步长。
  - $\mathbf{x}_{H+i}$ : 在历史数据长度 $H$ 之后，第 $i$ 个时间步的真实时间序列值。
  - $\hat{\mathbf{x}}_{H+i}$ : 在历史数据长度 $H$ 之后，第 $i$ 个时间步的预测时间序列值。
  - $|\cdot|$ : 绝对值函数。

5.2.2. 短期预测指标

平均绝对比例误差 (Mean Absolute Scaled Error, MASE):
1. 概念定义: MASE 是一种对不同尺度时间序列具有可比性的评估指标。它通过将预测误差与一个简单的基准（通常是朴素预测，即当前值等于上一期值）的平均绝对误差进行缩放来计算。MASE 的值小于1表示预测模型比基准模型表现更好。MASE 的目标是越小越好。
2. 数学公式: $\mathrm{MASE} = \frac{\frac{1}{T} \sum_{i=1}^{T} |\mathbf{x}_{H+i} - \hat{\mathbf{x}}_{H+i}|}{\frac{1}{H-1} \sum_{j=2}^{H} |\mathbf{x}_j - \mathbf{x}_{j-1}|}.$
3. 符号解释:
  - $T$ : 预测时间步长。
  - $H$ : 历史数据长度。
  - $\mathbf{x}_{H+i}$ : 在历史数据长度 $H$ 之后，第 $i$ 个时间步的真实时间序列值。
  - $\hat{\mathbf{x}}_{H+i}$ : 在历史数据长度 $H$ 之后，第 $i$ 个时间步的预测时间序列值。
  - $\mathbf{x}_j$ : 历史数据中第 $j$ 个时间步的真实时间序列值。
  - $\frac{1}{H-1} \sum_{j=2}^{H} |\mathbf{x}_j - \mathbf{x}_{j-1}|$ : 朴素预测（naive forecast）的 MAE，用作缩放因子。
对称平均绝对百分比误差 (Symmetric Mean Absolute Percentage Error, SMAPE):
1. 概念定义: SMAPE 是 MAPE (Mean Absolute Percentage Error) 的一种变体，旨在解决 MAPE 在真实值接近零时可能变得无限大的问题。它通过将预测误差除以真实值和预测值的平均值来对称化误差。SMAPE 的目标是越小越好。
2. 数学公式: $\mathrm{SMAPE} = \frac{1}{T} \sum_{i=1}^{T} \frac{2 |\mathbf{x}_{H+i} - \hat{\mathbf{x}}_{H+i}|}{\mathbf{x}_{H+i} + |\hat{\mathbf{x}}_{H+i}|}.$
3. 符号解释:
  - $T$ : 预测时间步长。
  - $\mathbf{x}_{H+i}$ : 在历史数据长度 $H$ 之后，第 $i$ 个时间步的真实时间序列值。
  - $\hat{\mathbf{x}}_{H+i}$ : 在历史数据长度 $H$ 之后，第 $i$ 个时间步的预测时间序列值。
  - $|\cdot|$ : 绝对值函数。
总体加权平均 (Overall Weighted Average, OWA):
1. 概念定义: OWA 是一种综合指标，用于结合多个任务或指标的性能，通常通过加权平均得到。在 M4 竞赛中，OWA 被定义为 MASE 和 SMAPE 的加权平均，它提供了一个单一的度量来评估整体预测准确性。OWA 的目标是越小越好。
2. 数学公式: $\mathrm{OWA} = \sum_{k=1}^K w_k \cdot v_k,$
3. 符号解释:
  - $K$ : 组合的指标数量 (例如，在 M4 竞赛中，通常是 MASE 和 SMAPE)。
  - $w_k$ : 分配给第 $k$ 个指标的权重，且所有权重之和为1 ( $\sum_{k=1}^K w_k = 1$ )。
  - $v_k$ : 第 $k$ 个指标的评估结果（例如，MASE 值或 SMAPE 值）。

5.3. 对比基线

LLM-PS 与以下几类最先进 (SOTA) 方法进行了广泛比较：

LLM-based 方法:
- CALF (Liu et al., 2024a)
- GPT4TS (Zhou et al., 2023b)
- TimeLLM (Jin et al., 2024)
- LLMMixer (Kowsher et al., 2024)
Transformer-based 方法:
- Crossformer (Zhang & Yan, 2023a)
- FEDformer (Zhou et al., 2022)
- PatchTST (Nie et al., 2023)
- iTransformer (Liu et al., 2024b)
- ETSformer (Woo et al., 2022)
- Autoformer (Wu et al., 2021)
- Informer (Zhou et al., 2021b)
CNN-based 方法:
- TimesNet (Wu et al., 2023a)
- TCN (Bai et al., 2018)
- MICN (Wang et al., 2022)
MLP-based 方法:
- DLinear (Zeng et al., 2023)
- TiDE (Das et al., 2023)
- TimeMixer (Wang et al., 2024)
经典方法 (用于短期预测):
- N-HiTS (Challu et al., 2022)
- N-BEATS (Oreshkin et al., 2019b)
- LSSL (Gu et al., 2022)
- LSTM (Hochreiter & Schmidhuber, 1997)

5.4. 实现细节

LLM 骨干网络: 遵循 Zhou et al., 2023b 和 Liu et al., 2024a，使用预训练的 GPT2 模型 (Radford et al., 2019) 的前六层作为默认的 LLM 骨干网络。
优化器: 使用 Adam 优化器。
学习率: 初始学习率为 0.0005。
LoRA 参数: 秩 (rank) 设置为 8，缩放因子 (scale factor) 设置为 32，丢失率 (dropout ratio) 设置为 0.1。
损失函数权衡参数: 总目标函数 $\mathcal{L}_{\mathrm{OBJ}}$ 中的权衡参数 $\lambda$ 设置为 0.01。
硬件: 所有实验在单张 NVIDIA RTX 4090 GPU 上进行。
输入/预测长度: 对于长期预测，输入长度 $H$ 设置为 96，预测长度 $T$ 分别为 $\{96, 192, 336, 720\}$ 。对于短期预测 (M4 数据集)，预测范围相对较小，在 [6, 48] 之间，输入长度是对应预测范围的两倍。
T2T 模块配置:
- 编码器和解码器分别包含 4 层和 1 层 Transformer 层。
- 每层 Transformer 包含多头注意力层、前馈网络和层归一化。
- 片段大小 (patch size) 为 24，隐藏维度 (hidden dimension) 为 96，前馈隐藏层大小 (feedforward hidden size) 为 384，输出大小 (output size) 为 24。
- T2T 训练时学习率为 0.001。
- 输入时间序列片段的掩码比例 (masking ratio) 设置为 0.75。

6. 实验结果与分析

本节将详细分析 LLM-PS 在各种时间序列预测任务中的实验结果，包括长期预测、短期预测、少样本 (few-shot) 预测和零样本 (zero-shot) 预测，并进行模型分析，如多尺度特征提取、时序模式解耦、语义信息利用、模型效率和对噪声的鲁棒性。

6.1. 长期预测

设置: 实验在 ETT (ETTh1, ETTh2, ETTm1, ETTm2), Weather, Electricity, Traffic, ILI, ECG 等数据集上进行。输入历史数据长度 $H$ 设为 96，预测长度 $T$ 设为 $\{96, 192, 336, 720\}$ 。评估指标为 MSE (均方误差) 和 MAE (平均绝对误差)，数值越低表示性能越好。

结果: 以下是原文 Table 1 报告的多元长期预测的平均结果：

Models	LLM-PS Ours	CALF* (2024a)	TimeLLM* (2024)	GPT4TS* (2023b)	PatchTST (2023)	iTransformer (2024b)	Crossformer (2023a)	FEDformer (2022)	TimesNet (2023a)	MICN (2022)	DLinear (2023)	TIDE (2023)
Metric	MSE MAE	MSE MAE	MSE MAE	MSE MAE	MSE MAE	MSE MAE	MSE MAE	MSE MAE	MSE MAE	MSE MAE	MSE MAE	MSE MAE
ETTml	0.354 0.376	0.395 0.390	0.410 0.409	0.389 0.397	0.381 0.395	0.407 0.411	0.502 0.502	0.448 0.452	0.400 0.406	0.392 0.413	0.403 0.407	0.412 0.406
ETTm2	0.262 0.314	0.281 0.321	0.296 0.340	0.285 0.331	0.285 0.327	0.291 0.335	1.216 0.707	0.305 0.349	0.291 0.333	0.328 0.382	0.350 0.401	0.289 0.326
ETTh1	0.418 0.420	0.432 0.428	0.460 0.449	0.447 0.436	0.450 0.441	0.455 0.448	0.620 0.572	0.440 0.460	0.458 0.450	0.558 0.535	0.456 0.452	0.445 0.432
ETTh2	0.350 0.390	0.349 0.382	0.389 0.408	0.381 0.408	0.366 0.394	0.381 0.405	0.942 0.684	0.437 0.449	0.414 0.427	0.587 0.525	0.559 0.515	0.611 0.550
Weather	0.238 0.269	0.250 0.274	0.274 0.290	0.264 0.284	0.258 0.280	0.257 0.279	0.259 0.315	0.309 0.360	0.259 0.287	0.242 0.299	0.265 0.317	0.271 0.320
Electricity	0.161 0.254	0.175 0.265	0.223 0.309	0.205 0.290	0.216 0.304	0.178 0.270	0.244 0.334	0.214 0.327	0.192 0.295	0.186 0.294	0.212 0.300	0.251 0.344
Traffic	0.427 0.279	0.439 0.281	0.541 0.358	0.488 0.317	0.555 0.361	0.428 0.282	0.550 0.304	0.610 0.376	0.620 0.336	0.541 0.315	0.625 0.383	0.760 0.473
ILI	1.735 0.854	1.861 0.924	1.829 0.924	1.871 0.852	2.145 0.897	2.258 0.957	3.749 1.284	2.705 1.097	2.267 0.927	2.985 1.186	4.453 1.553	5.216 1.614
ECG	0.225 0.250	0.258 0.260	0.250 0.264	0.262 0.260	0.253 0.277	0.257 0.271	0.244 0.269	0.255 0.279	0.291 0.305	0.305 0.314	0.291 0.307	0.291 0.307
1st Count	15		0		1		0		0		0

以下是原文 Table 7 报告的长期预测完整结果，考虑预测范围 $H$ 在 $\{96, 192, 336, 720\}$ 内，其中 "Avg." 表示所有四个预测长度的平均结果。

Models		LLM-PS Ours		CALF (2024a)		TimeLLM (2024)		GPT4TS (2023b)		PatchTST (2023)		iTransformer (2024b)		Crossformer (2023a)		FEDformer (2022)		Autoformer (2021)		Informer (2021b)		TimesNet (2023a)		MICN (2022)		DLinear (2023)		TiDE (2023)
Models		MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE
ETTm1	96	0.288	0.334	0.323	0.349	0.359	0.381	0.329	0.364	0.321	0.360	0.341	0.376	0.360	0.401	0.379	0.419	0.505	0.475	0.672	0.571	0.338	0.375	0.316	0.362	0.345	0.372	0.352	0.373
	192	0.333	0.361	0.374	0.375	0.416	0.414	0.362	0.384	0.382	0.395	0.402	0.440	0.426	0.441	0.553	0.496	0.795	0.669	0.374	0.387	0.363	0.390	0.380	0.389	0.389	0.391
	336	0.367	0.386	0.418	0.418	0.483	0.449	0.460	0.439	0.450	0.435	0.487	0.456	0.704	0.642	0.543	0.490	0.671	0.561	1.166	0.823	0.478	0.450	0.481	0.476	0.474	0.453	0.485	0.448
	720	0.409	0.399	0.477	0.438	0.502	0.502	0.488	0.476	0.514	0.496	0.543	0.528	0.799	0.685	0.620	0.572	0.942	0.684	1.104	0.763	0.450	0.441	0.587	0.525	0.559	0.515	0.611	0.550
	Avg.	0.354	0.376	0.395	0.390	0.410	0.409	0.389	0.397	0.381	0.395	0.407	0.411	0.502	0.502	0.448	0.452	0.588	0.517	0.961	0.734	0.400	0.406	0.392	0.413	0.403	0.407	0.412	0.406
ETTm2	96	0.170	0.254	0.178	0.256	0.193	0.280	0.178	0.263	0.178	0.260	0.185	0.272	0.273	0.356	0.203	0.287	0.255	0.339	0.365	0.453	0.187	0.267	0.179	0.275	0.193	0.292	0.181	0.264
	192	0.224	0.289	0.242	0.297	0.257	0.318	0.245	0.306	0.249	0.307	0.253	0.313	0.426	0.487	0.269	0.328	0.249	0.309	0.281	0.340	0.284	0.362	0.246	0.304	0.284	0.362	0.246	0.304
	336	0.280	0.327	0.307	0.339	0.317	0.353	0.309	0.347	0.313	0.346	0.315	0.350	1.013	0.714	0.325	0.366	0.339	0.372	1.363	0.887	0.321	0.351	0.325	0.388	0.369	0.427	0.307	0.341
	720	0.374	0.384	0.397	0.393	0.419	0.411	0.409	0.408	0.400	0.398	0.413	0.406	3.154	1.274	0.421	0.415	0.433	0.432	3.379	1.338	0.408	0.403	0.502	0.490	0.554	0.522	0.407	0.397
	Avg.	0.262	0.314	0.281	0.321	0.296	0.340	0.285	0.331	0.285	0.327	0.291	0.335	1.216	0.707	0.305	0.349	0.327	0.371	1.410	0.810	0.291	0.333	0.328	0.382	0.350	0.401	0.289	0.326
ETTh1	96	0.369	0.388	0.369	0.389	0.398	0.410	0.376	0.397	0.393	0.408	0.386	0.404	0.420	0.439	0.376	0.419	0.449	0.459	0.865	0.713	0.384	0.402	0.421	0.431	0.386	0.400	0.384	0.393
	192	0.418	0.415	0.427	0.423	0.451	0.440	0.438	0.426	0.445	0.434	0.441	0.436	0.540	0.519	0.420	0.448	0.436	0.429	0.500	0.482	0.458	0.450	0.558	0.535	0.456	0.452	0.445	0.432
	336	0.432	0.426	0.456	0.436	0.508	0.471	0.479	0.446	0.484	0.451	0.489	0.461	0.722	0.648	0.459	0.465	0.521	0.496	1.107	0.809	0.491	0.469	0.569	0.551	0.481	0.459	0.480	0.445
	720	0.452	0.451	0.479	0.467	0.483	0.478	0.495	0.476	0.480	0.471	0.508	0.493	0.799	0.685	0.506	0.507	0.514	0.512	1.181	0.865	0.521	0.500	0.770	0.672	0.519	0.516	0.481	0.469
	Avg.	0.418	0.420	0.432	0.428	0.460	0.449	0.447	0.436	0.450	0.441	0.455	0.448	0.620	0.572	0.440	0.460	0.496	0.487	1.040	0.795	0.458	0.450	0.558	0.535	0.456	0.452	0.445	0.432
ETTh2	96	0.279	0.341	0.279	0.331	0.295	0.346	0.295	0.348	0.294	0.343	0.300	0.349	0.745	0.584	0.358	0.397	0.346	0.388	3.755	1.525	0.340	0.374	0.299	0.364	0.333	0.387	0.400	0.440
	192	0.356	0.387	0.353	0.380	0.386	0.399	0.386	0.404	0.377	0.393	0.379	0.398	0.877	0.656	0.429	0.439	0.456	0.452	5.602	1.931	0.402	0.414	0.441	0.454	0.477	0.476	0.528	0.509
	336	0.413	0.362	0.404	0.426	0.428	0.444	0.422	0.445	0.412	0.433	0.428	0.445	1.043	0.731	0.496	0.487	0.482	0.486	4.721	1.835	0.452	0.452	0.654	0.567	0.594	0.541	0.643	0.571
	720	0.413	0.404	0.447	0.443	0.458	0.452	0.463	0.474	0.452	0.468	0.477	0.467	1.104	0.763	0.515	0.511	0.515	0.511	3.647	1.625	0.462	0.468	0.956	0.716	0.831	0.657	0.874	0.679
	Avg.	0.350	0.390	0.349	0.382	0.389	0.408	0.381	0.408	0.366	0.394	0.381	0.405	0.942	0.684	0.437	0.449	0.450	0.459	4.431	1.729	0.414	0.427	0.587	0.525	0.559	0.515	0.611	0.550
Weather	96	0.157	0.205	0.164	0.204	0.195	0.233	0.182	0.223	0.177	0.218	0.174	0.214	0.158	0.230	0.217	0.296	0.266	0.336	0.300	0.384	0.172	0.220	0.161	0.229	0.196	0.255	0.202	0.261
	192	0.255	0.286	0.214	0.250	0.240	0.269	0.231	0.263	0.225	0.259	0.221	0.254	0.206	0.277	0.276	0.336	0.307	0.367	0.598	0.544	0.219	0.261	0.220	0.281	0.237	0.296	0.242	0.298
	336	0.269	0.291	0.269	0.291	0.293	0.306	0.283	0.300	0.278	0.297	0.278	0.296	0.272	0.335	0.339	0.380	0.359	0.395	0.578	0.523	0.280	0.306	0.278	0.331	0.283	0.335	0.287	0.335
	720	0.336	0.338	0.355	0.352	0.368	0.354	0.360	0.350	0.354	0.348	0.358	0.349	0.398	0.418	0.403	0.428	0.419	0.428	1.059	0.741	0.365	0.359	0.311	0.356	0.345	0.381	0.351	0.386
	Avg.	0.238	0.269	0.250	0.274	0.274	0.290	0.264	0.284	0.258	0.280	0.257	0.279	0.259	0.315	0.309	0.360	0.338	0.382	0.634	0.548	0.259	0.287	0.242	0.299	0.265	0.317	0.271	0.320
Electricity	96	0.131	0.220	0.145	0.238	0.204	0.293	0.185	0.272	0.195	0.285	0.148	0.240	0.219	0.314	0.193	0.308	0.201	0.317	0.274	0.368	0.168	0.272	0.164	0.269	0.197	0.282	0.237	0.329
	192	0.162	0.252	0.161	0.252	0.207	0.295	0.189	0.276	0.199	0.289	0.162	0.253	0.231	0.322	0.201	0.315	0.222	0.334	0.296	0.386	0.184	0.289	0.177	0.285	0.196	0.285	0.236	0.330
	336	0.162	0.256	0.175	0.267	0.219	0.308	0.204	0.291	0.215	0.305	0.178	0.269	0.246	0.337	0.214	0.329	0.231	0.338	0.300	0.394	0.198	0.300	0.193	0.304	0.209	0.301	0.249	0.344
	720	0.213	0.297	0.222	0.303	0.263	0.341	0.245	0.324	0.256	0.337	0.225	0.317	0.280	0.363	0.246	0.355	0.254	0.361	0.373	0.439	0.220	0.320	0.212	0.321	0.245	0.333	0.284	0.373
	Avg.	0.164	0.254	0.175	0.265	0.223	0.309	0.205	0.290	0.216	0.304	0.178	0.270	0.244	0.334	0.214	0.327	0.227	0.338	0.311	0.397	0.192	0.295	0.186	0.294	0.212	0.300	0.251	0.344
Traffic	96	0.392	0.267	0.407	0.268	0.536	0.359	0.468	0.307	0.544	0.359	0.395	0.268	0.522	0.290	0.587	0.366	0.613	0.388	0.719	0.391	0.593	0.321	0.519	0.309	0.650	0.396	0.805	0.493
	192	0.413	0.265	0.430	0.278	0.530	0.354	0.476	0.311	0.540	0.354	0.417	0.276	0.530	0.293	0.604	0.373	0.616	0.382	0.696	0.379	0.617	0.336	0.537	0.315	0.598	0.370	0.756	0.474
	336	0.440	0.282	0.444	0.281	0.530	0.349	0.488	0.317	0.551	0.358	0.433	0.283	0.558	0.305	0.621	0.383	0.622	0.337	0.777	0.420	0.629	0.336	0.534	0.313	0.605	0.373	0.762	0.477
	720	0.464	0.300	0.477	0.300	0.569	0.371	0.521	0.333	0.586	0.375	0.467	0.302	0.589	0.328	0.626	0.382	0.660	0.408	0.864	0.472	0.640	0.350	0.577	0.325	0.645	0.394	0.719	0.449
	Avg.	0.427	0.279	0.439	0.281	0.541	0.358	0.488	0.317	0.555	0.361	0.428	0.282	0.550	0.304	0.610	0.376	0.628	0.379	0.764	0.416	0.620	0.336	0.541	0.315	0.625	0.383	0.760	0.473
ILI	24	1.630	0.798	1.672	0.841	1.651	0.841	1.869	0.823	2.221	0.883	2.321	0.937	3.449	1.238	2.721	1.133	3.280	1.265	5.280	1.578	1.826	0.893	2.715	1.125	5.060	1.709	5.855	1.633
	36	1.650	0.821	1.725	0.872	1.701	0.861	1.853	0.854	2.313	0.904	2.188	0.945	3.743	1.271	2.768	1.118	3.424	1.271	5.094	1.565	2.678	0.986	2.817	1.154	4.413	1.549	5.598	1.715
	48	1.810	0.921	1.937	0.937	2.153	1.041	1.886	0.855	2.048	0.886	2.231	0.956	3.853	1.306	2.637	1.088	3.009	1.520	4.884	1.530	2.584	0.937	3.038	1.199	4.109	1.473	4.795	1.568
	60	1.850	0.874	2.128	0.999	2.064	0.953	1.877	0.877	2.008	0.915	2.292	0.991	3.951	1.323	2.696	1.050	2.803	1.133	5.326	1.571	1.980	0.894	3.372	1.269	4.233	1.481	4.616	1.543
	Avg.	1.735	0.854	1.861	0.924	1.829	0.924	1.871	0.852	2.145	0.897	2.258	0.957	3.749	1.284	2.705	1.097	3.129	1.297	5.123	1.561	2.267	0.927	2.985	1.186	4.453	1.553	5.216	1.614
ECG	96	0.196	0.223	0.185	0.175	0.143	0.179	0.212	0.198	0.159	0.195	0.210	0.212	0.143	0.194	0.214	0.223	0.163	0.183	0.201	0.238	0.261	0.270	0.276	0.264	0.264	0.270	0.255	0.256
	192	0.235	0.234	0.235	0.234	0.241	0.236	0.246	0.243	0.237	0.259	0.244	0.255	0.214	0.246	0.237	0.263	0.217	0.237	0.246	0.243	0.283	0.293	0.292	0.306	0.279	0.295	0.273	0.291
	336	0.261	0.277	0.286	0.290	0.288	0.287	0.267	0.270	0.278	0.301	0.267	0.286	0.284	0.286	0.261	0.289	0.284	0.295	0.305	0.310	0.295	0.318	0.300	0.325	0.296	0.317	0.305	0.322
	720	0.314	0.327	0.326	0.341	0.335	0.347	0.329	0.338	0.339	0.356	0.308	0.332	0.338	0.350	0.311	0.342	0.334	0.341	0.359	0.348	0.325	0.342	0.354	0.363	0.328	0.348	0.334	0.359
	Avg.	0.225	0.250	0.258	0.260	0.250	0.264	0.262	0.260	0.253	0.277	0.257	0.271	0.244	0.269	0.255	0.279	0.291	0.305	0.305	0.314	0.291	0.307	0.291	0.307	0.291	0.307	0.291	0.307
1st Count		73	12		0		2		0		2		0		0		0		0		2		0		0		0

分析:

整体优势: LLM-PS 在长期预测任务中表现出显著的优势，在 9 个数据集的 18 种评估指标 (MSE/MAE) 中，有 15 项取得了最佳结果，这表明其能够对长期的时序数据进行精确预测。
对比 LLM-based 方法: 相较于其他 LLM-based 最先进方法（如 CALF、TimeLLM 和 GPT4TS），LLM-PS 在 MSE/MAE 上分别平均实现了 $6\%/3\%$ 、 $11\%/9\%$ 和 $9\%/5\%$ 的性能提升。这强调了 LLM-PS 在处理时间序列固有特性方面的有效性，使其在 LLM 家族中脱颖而出。
对比传统深度学习方法: LLM-PS 也显著优于基于 Transformer、CNN 和 MLP 的传统深度学习方法，尤其是在 Traffic、ILI 和 ECG 等数据集上。这可能是因为这些数据集包含更复杂的时序模式或更稀疏的语义，而 LLM-PS 的 MSCNN 和 T2T 模块能够更好地捕捉这些特性。
对长序列的理解: 实验结果表明，LLM-PS 能够通过有效利用输入序列中的时序模式和语义，精确预测长期的未来时间序列，即使输入长度有限。

6.2. 短期预测

设置: 在 M4 数据集上进行短期预测评估，该数据集包含月度、季度、年度等多种类型的时间序列。预测范围 (prediction horizons) 相对较小，在 [6, 48] 之间，输入长度为对应预测范围的两倍。评估指标为 SMAPE (对称平均绝对百分比误差)、MASE (平均绝对比例误差) 和 OWA (总体加权平均)。

结果: 以下是原文 Table 2 报告的短期预测结果，其中 "1st Count" 表示在各子集及其对应指标上获得最佳结果的次数：

	Models	LLM-PS (Ours)	CALF (2024a)	TimeLLM (2024)	GPT4TS (2023b)	PatchTST (2023)	iTransformer (2024b)	ETSformer (2022)	FEDformer (2022)	Autoformer (2021)	TimesNet (2023a)	TCN (2018)	N-HiTS (2022)	N-BEATS (2019b)	DLinear (2023)	LSSL (2022)	LSTM (1997)
	SMAPE	13.277	13.314	13.419	13.531	13.477	14.252	18.009	13.728	13.974	13.387	14.920	13.418	13.436	16.965	16.675	176.040
	MASE	2.973	3.009	3.005	3.015	3.019	3.208	4.487	3.048	3.134	2.996	3.364	3.045	3.043	4.283	19.953	31.033
	OWA	0.780	0.786	0.789	0.793	0.792	0.840	1.115	0.803	0.822	0.786	0.880	0.793	0.794	1.058	4.397	9.290
	SMAPE	9.995	10.049	10.110	10.177	10.380	10.755	13.376	10.792	11.338	10.100	11.122	10.202	10.124	12.145	65.999	172.808
	MASE	1.164	1.166	1.178	1.194	1.233	1.284	1.906	1.283	1.365	1.182	1.360	1.194	1.169	1.520	17.662	19.753
	OWA	0.878	0.871	0.8889	0.898	0.921	0.957	1.302	0.958	1.012	0.890	1.001	0.899	0.886	1.106	9.436	15.049
	SMAPE	12.585	12.624	12.980	12.894	12.959	13.721	14.588	14.260	13.958	12.679	15.626	12.791	12.677	13.514	64.664	143.237
	MASE	0.924	0.920	0.963	0.956	0.970	1.074	1.368	1.102	1.103	0.933	1.274	0.969	0.937	1.037	16.245	16.551
	OWA	0.871	0.871	0.903	0.897	0.905	0.981	1.149	1.012	1.002	0.878	1.141	0.899	0.880	0.956	9.879	12.747
	SMAPE	4.550	4.773	4.795	4.940	4.952	5.615	7.267	4.954	5.485	4.891	7.186	5.061	4.925	6.709	121.844	186.282
	MASE	3.089	3.119	3.178	3.228	3.347	3.977	5.240	3.264	3.865	3.302	4.677	3.216	3.391	4.953	91.650	119.294
	OWA	0.966	0.990	1.006	1.029	1.049	1.218	1.591	1.036	1.187	1.035	1.494	1.040	1.053	1.487	27.273	38.411
	SMAPE	11.721	11.770	11.983	11.991	12.059	12.726	14.718	12.840	12.909	11.829	13.961	11.927	11.851	13.639	67.156	160.031
Aaeee	MASE	1.561	1.570	1.595	1.600	1.623	1.5336	2.408	1.701	1.771	1.585	1.945	1.613	1.599	2.095	21.208	25.788
	OWA	0.840	0.8845	0.859	0.861	0.869	0.929	1.172	0.918	0.939	0.850	1.023	0.861	0.855	1.051	8.021	12.642
	1st Count	14	2	0	0	0	0	0	0	0	0	0	0	0	0	0	0

分析:

LLM-PS 在 M4 数据集的短期预测任务中也表现出色，在所有评估指标 (SMAPE、MASE 和 OWA) 上均取得了最佳结果。总计在 15 项指标中有 14 项排名第一。
这表明 LLM-PS 不仅在长期预测中具有优势，在短期预测中也能够有效捕捉时序模式和语义，实现精确预测。

6.3. 少样本/零样本预测 (Few/Zero-Shot Forecasting)

设置:

少样本 (Few-shot) 预测: 仅使用 ETT 数据集 $10\%$ 的训练数据，预测长度 $T \in \{96, 192, 336, 720\}$ 。
零样本 (Zero-shot) 预测: 在一个数据集上训练 LLM，然后在另一个数据集上直接进行测试，例如在 ETTh1 上训练的模型在 ETTm1 上进行评估。

结果: 以下是原文 Table 3 报告的少样本预测平均结果：

Models		LLM-PS Ours		CALF (2024a)		TimeLLM (2024)		GPT4TS (2023b)		PatchTST (2023)		Crossformer (2023a)		FEDformer (2022)		TimesNet (2023a)		MICN (2022)		DLinear (2023)		TiDE (2023)
Models		MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE
ETTm1	96	0.409	0.411	0.468	0.445	0.587	0.491	0.615	0.497	0.558	0.478	1.037	0.705	0.604	0.530	0.583	0.503	0.677	0.585	0.552	0.488	0.501	0.458
	192	0.468	0.440	0.479	0.446	0.606	0.490	0.597	0.492	0.539	0.471	1.170	0.778	0.641	0.546	0.608	0.515	0.784	0.627	0.546	0.487	0.493	0.456
	336	0.527	0.475	0.499	0.463	0.719	0.555	0.597	0.501	0.558	0.488	1.463	0.913	0.768	0.606	0.733	0.572	0.972	0.684	0.567	0.501	0.516	0.477
	720	0.584	0.491	0.572	0.496	0.632	0.514	0.623	0.513	0.574	0.498	1.693	0.997	0.771	0.606	0.768	0.548	1.449	0.800	0.606	0.522	0.553	0.488
	Avg.	0.497	0.454	0.504	0.462	0.636	0.512	0.608	0.500	0.557	0.483	1.340	0.848	0.696	0.572	0.673	0.534	0.970	0.674	0.567	0.499	0.515	0.469
ETTm2	96	0.186	0.263	0.190	0.268	0.189	0.270	0.187	0.266	0.189	0.268	1.397	0.866	0.222	0.314	0.214	0.288	0.389	0.448	0.225	0.320	0.191	0.269
	192	0.239	0.297	0.257	0.311	0.264	0.319	0.253	0.308	0.248	0.307	1.757	0.987	0.284	0.351	0.271	0.325	0.622	0.575	0.291	0.362	0.256	0.310
	336	0.308	0.344	0.323	0.334	0.327	0.358	0.332	0.353	0.311	0.346	2.075	1.086	0.392	0.419	0.329	0.356	1.055	0.755	0.354	0.402	0.321	0.349
	720	0.389	0.390	0.441	0.410	0.454	0.428	0.438	0.417	0.435	0.418	2.712	1.253	0.527	0.485	0.473	0.448	2.226	1.087	0.446	0.447	0.446	0.421
	Avg.	0.281	0.324	0.302	0.330	0.308	0.343	0.303	0.336	0.295	0.334	1.985	1.048	0.356	0.392	0.321	0.354	1.073	0.716	0.329	0.382	0.303	0.337
ETTh1	96	0.586	0.529	0.468	0.457	0.500	0.464	0.462	0.449	0.433	0.428	1.129	0.775	0.651	0.563	0.855	0.625	0.689	0.592	0.590	0.515	0.642	0.545
	192	0.620	0.537	0.550	0.501	0.590	0.516	0.551	0.495	0.509	0.474	1.832	0.922	0.666	0.562	0.791	0.589	0.634	0.541	0.634	0.541	0.761	0.595
	336	0.658	0.553	0.581	0.521	0.666	0.562	0.638	0.542	0.572	0.509	2.022	0.973	0.767	0.602	0.939	0.648	0.659	0.554	0.659	0.554	0.789	0.610
	720	0.664	0.563	0.978	0.685	0.767	0.602	1.334	0.816	1.113	0.738	1.903	0.986	0.918	0.703	0.876	0.641	0.708	0.598	0.708	0.598	0.927	0.667
	Avg.	0.632	0.546	0.644	0.541	0.765	0.584	0.689	0.555	0.683	0.645	1.744	0.914	0.750	0.607	0.865	0.625	1.405	0.814	0.647	0.552	0.779	0.604
ETTh2	96	0.332	0.372	0.314	0.360	0.329	0.365	0.327	0.359	0.314	0.354	2.482	1.206	0.359	0.404	0.372	0.405	0.510	0.502	0.361	0.407	0.337	0.379
	192	0.398	0.412	0.404	0.411	0.414	0.413	0.403	0.405	0.420	0.415	3.136	1.372	0.460	0.461	0.483	0.463	1.809	1.036	0.444	0.453	0.424	0.427
	336	0.430	0.431	0.458	0.452	0.579	0.506	0.568	0.499	0.543	0.489	2.925	1.331	0.569	0.530	0.541	0.496	3.250	1.419	0.509	0.501	0.435	0.426
	720	0.476	0.463	0.502	0.487	1.034	0.711	1.020	0.725	0.926	0.691	4.014	1.603	0.827	0.707	0.510	0.491	4.564	1.676	0.453	0.471	0.489	0.480
	Avg.	0.409	0.420	0.419	0.427	0.589	0.498	0.579	0.497	0.550	0.487	3.139	1.378	0.553	0.525	0.476	0.463	2.533	1.158	0.441	0.458	0.421	0.428
1st Count		7	1		0		0		0		0		0		0		0		1		3

以下是原文 Table 4 报告的零样本预测平均结果：

Models		LLM-PS Ours		CALF (2024a)		TimeLLM (2024)		GPT4TS (2023b)		PatchTST (2023)		Crossformer (2023a)		FEDformer (2022)		TimesNet (2023a)		MICN (2022)		DLinear (2023)		TiDE (2023)
Models		MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE
ETTh1 → ETTm1	96	0.719	0.575	0.767	0.564	0.804	0.565	0.809	0.563	0.908	0.596	0.856	0.649	0.731	0.561	0.764	0.563	0.832	0.621	0.735	0.554	0.748	0.551
	192	0.724	0.528	0.753	0.570	0.827	0.593	0.799	0.567	0.927	0.616	0.906	0.684	0.746	0.573	0.798	0.562	1.288	0.854	0.752	0.570	0.779	0.571
	336	0.725	0.543	0.745	0.575	0.835	0.600	0.803	0.577	0.920	0.621	1.104	0.796	0.775	0.596	0.790	0.584	1.721	0.972	0.749	0.579	0.775	0.580
	720	0.730	0.564	0.758	0.590	0.922	0.644	0.783	0.589	0.822	0.608	1.131	0.816	0.808	0.625	0.827	0.594	1.915	1.036	0.805	0.606	0.795	0.595
	Avg.	0.721	0.541	0.755	0.574	0.847	0.600	0.798	0.574	0.894	0.610	0.999	0.736	0.765	0.588	0.794	0.575	1.439	0.870	0.760	0.577	0.774	0.574
ETTh1 → ETTm2	96	0.217	0.327	0.218	0.301	0.212	0.298	0.218	0.304	0.219	0.305	0.611	0.588	0.257	0.345	0.245	0.322	0.496	0.556	0.239	0.343	0.215	0.299
	192	0.289	0.340	0.278	0.334	0.277	0.338	0.279	0.338	0.280	0.341	0.789	0.685	0.318	0.380	0.293	0.346	1.798	1.137	0.320	0.397	0.256	0.310
	336	0.330	0.364	0.338	0.369	0.336	0.371	0.342	0.376	0.341	0.376	1.469	0.927	0.375	0.417	0.361	0.382	2.929	1.472	0.409	0.453	0.277	0.335
	720	0.429	0.411	0.431	0.418	0.435	0.424	0.431	0.419	0.432	0.426	1.612	0.957	0.480	0.472	0.460	0.432	4.489	1.782	0.629	0.565	0.429	0.418
	Avg.	0.316	0.361	0.316	0.355	0.315	0.357	0.317	0.359	0.318	0.362	1.120	0.789	0.357	0.403	0.339	0.370	2.428	1.236	0.399	0.439	0.314	0.355
ETTh2 → ETTh1	96	0.684	0.538	0.897	0.589	0.891	0.587	0.985	0.604	0.815	0.560	1.032	0.620	0.734	0.578	1.205	0.678	0.743	0.577	0.762	0.567	0.819	0.566
	192	0.702	0.541	0.864	0.584	0.850	0.583	0.872	0.600	0.900	0.606	1.176	0.676	0.723	0.594	1.159	0.670	0.750	0.588	0.785	0.588	0.845	0.586
	336	0.738	0.569	0.816	0.585	0.768	0.589	0.853	0.594	0.879	0.616	1.199	0.718	0.750	0.590	1.197	0.689	0.764	0.606	0.767	0.594	0.834	0.595
	720	0.735	0.558	0.866	0.619	0.906	0.602	0.926	0.614	0.899	0.624	1.373	0.832	0.760	0.592	1.583	0.784	0.801	0.634	0.800	0.627	0.867	0.616
	Avg.	0.714	0.552	0.836	0.586	0.868	0.595	0.920	0.610	0.871	0.596	1.195	0.711	0.741	0.588	1.286	0.705	0.764	0.601	0.778	0.594	0.841	0.590
ETTh2 → ETTm2	96	0.231	0.315	0.225	0.310	0.228	0.311	0.235	0.316	0.288	0.345	0.821	0.634	0.261	0.347	0.244	0.324	0.327	0.414	0.264	0.366	0.226	0.315
	192	0.284	0.338	0.283	0.340	0.342	0.341	0.341	0.343	0.361	0.391	1.732	1.018	0.313	0.370	0.331	0.374	0.450	0.485	0.394	0.452	0.289	0.348
	336	0.338	0.369	0.373	0.418	0.373	0.418	0.373	0.418	0.401	0.431	2.587	1.393	0.487	0.472	0.386	0.405	0.526	0.526	0.506	0.513	0.339	0.372
	720	0.433	0.419	0.429	0.422	0.437	0.424	0.444	0.433	0.438	0.425	3.034	1.452	0.611	0.588	0.485	0.458	0.806	0.652	0.822	0.655	0.433	0.422
	Avg.	0.322	0.359	0.319	0.360	0.322	0.363	0.331	0.371	0.420	0.433	2.043	1.124	0.365	0.405	0.361	0.390	0.527	0.519	0.496	0.496	0.321	0.364
1st Count		5	2		0		0		0		0		0		0		0		2		0

分析:

少样本优势: 在数据量仅为 $10\%$ 的少样本预测任务中，LLM-PS 在 8 个案例中的 7 个取得了最佳结果，这展示了其在数据稀缺场景下的强大学习能力。相较于 CALF、TimeLLM 和 GPT4TS 等 LLM-based 方法，LLM-PS 分别实现了 $3\%$ 、 $17\%$ 和 $13\%$ 的性能提升。这归因于其能够高效地从有限数据中学习到有价值的时序模式和语义。
零样本优势: 在更具挑战性的零样本预测任务中，LLM-PS 在 8 个案例中的 5 个取得了最佳结果。相较于其他微调 LLM 的方法，LLM-PS 的性能提升分别为 CALF 的 $5\%$ 、TimeLLM 的 $8\%$ 和 GPT4TS 的 $9\%$ 。这表明 LLM-PS 提取的模式和语义具有更好的泛化性，使其能够将在一个数据集上学到的知识有效地迁移到未见过的数据集上。

6.4. 模型分析

6.4.1. 多尺度特征提取

比较: LLM-PS 的 MSCNN 与现有通过不同窗口大小的池化操作 (pooling operations) 来生成多尺度特征的方法 (Kowsher et al., 2024) 进行比较。

下图（原文 Figure 4a）展示了 MSCNN 和池化操作在不同预测长度下的性能对比：

该图像是一个示意图，展示了 LLM-PS（我们的方法）与其他模型在不同预测范围（a、b）和噪声因子（c、d）下的平均均方误差（MSE）和平均绝对误差（MAE）表现。 图4a：不同多尺度特征提取方法在ETTh1数据集上的MSE/MAE性能，预测长度从96到720。

分析:

从图中可以看出，LLM-PS 的 MSCNN 模块在所有预测长度下均优于使用池化操作的方法。
这表明 MSCNN 通过其独特的并行卷积分支和递归结构，能更有效地捕捉时间序列中的短期和长期模式，而不是简单地通过聚合操作。

6.4.2. 时序模式解耦

比较: LLM-PS 基于小波变换 (wavelet transform) 的解耦机制与基于傅里叶变换 (Fourier transform) 和平均池化 (average pooling) 的解耦技术 (Wu et al., 2021; Wang et al., 2024) 进行比较。

下图（原文 Figure 4b）展示了不同解耦技术在ETTh1数据集上的MSE/MAE性能：

该图像是一个示意图，展示了 LLM-PS（我们的方法）与其他模型在不同预测范围（a、b）和噪声因子（c、d）下的平均均方误差（MSE）和平均绝对误差（MAE）表现。 图4b：不同时序模式解耦方法在ETTh1数据集上的MSE/MAE性能，预测长度从96到720。

下图（原文 Figure 6）展示了时序模式解耦的可视化结果：

该图像是图表，展示了时间序列信号及其短期和长期特征的分解情况。包含原始信号与通过傅里叶变换、平均池化和小波变换分解得到的短期和长期模式。 图6：时序模式解耦的可视化结果，比较了原始信号与傅里叶变换、平均池化和小波变换分解得到的短期和长期模式。

分析:

性能优越性: LLM-PS 基于小波变换的解耦操作优于基于傅里叶变换和平均池化的方法。
可视化验证: 图 6 进一步直观地展示了小波变换在分离短期波动和长期趋势方面的精确性。相比于傅里叶变换和平均池化，小波变换能够更准确地捕捉信号的局部性和非平稳性，从而提供更精细的模式解耦。
同时利用时域和频域信息: 论文强调，小波变换能够同时从时域和频域学习，这使得它能够更准确地分解短期和长期分量，优于仅依赖时域平均池化或频域傅里叶变换的方法。

6.4.3. 语义信息利用

消融实验: 通过移除 LLM-PS 中的 T2T 模块 (即 w/o T2T) 来评估其对语义信息学习的贡献。

以下是原文 Table 5 报告的在 ETTh1 数据集上 T2T 模块的长期预测消融结果：

Type	192	MSE/MAE 336	720	Mean
w/o T2T	0.373 / 0.395	0.416 / 0.425	0.439 / 0.432	0.464 / 0.470	0.426 / 0.431
LLM-PS	0.369 / 0.388	0.418 / 0.415	0.432 / 0.426	0.452 / 0.451	0.418 / 0.420

分析:

从表中可以看出，在 10 个评估指标 (MSE/MAE) 中，移除 T2T 模块后，有 9 个案例的 LLM 性能下降。
这有力地证明了 T2T 模块提取的语义信息对于增强 LLM 的时间序列预测性能是至关重要的。它弥补了时间序列数据语义稀疏的问题，为 LLM 提供了更丰富的上下文语义。

6.4.4. 模型效率

比较: LLM-PS 与其他 LLM 微调方法在训练成本 (时间) 和性能上的比较。实验在 ETTh1, ETTm1, Weather, Traffic 四个数据集上进行，使用相同的 GPT2 骨干网络，输入长度和预测长度均为 96。

以下是原文 Table 6 报告的 LLM-PS 和其他 LLM-based 方法的微调成本和平均 MSE/MAE：

Model	Time (s)				Mean MSE	Mean MAE
	ETTh1	ETTm1	Weather	Traffic
GPT4TS (2023b)	421	1140	4565	59164	0.339	0.323
Time-LLM (2024)	2780	11929	36188	465136	0.372	0.346
LLMMixer (2024)	635	2493	9640	10464	0.372	0.346
CALF (2024a)	354	1394	1259	4929	0.315	0.302
LLM-PS (Ours)	192	481	260	1092	0.301	0.298

分析:

LLM-PS 在所有四个数据集上都展现出最低的训练时间，显著优于其他 LLM-based 方法。这表明 LLM-PS 在保持高性能的同时，也具有出色的计算效率。
例如，与 LLMMixer 相比，LLM-PS 在性能上取得了 $17\%$ 的提升，但训练时间仅为 LLMMixer 的 $9\%$ 。
这表明 LLM-PS 能够高效且有效地从时间序列数据中学习时序模式和语义信息，从而实现可靠的 TSF 性能。

6.4.5. 噪声数据鲁棒性 (Robustness to Noisy Data)

设置: 在 ETTh1 数据集上添加高斯噪声 (Gaussian noise)，噪声因子 (noise factors) 分别为 [0.0, 0.1, 0.3, 0.5]。输入和预测长度均设置为 96。

下图（原文 Figure 4c & 4d）展示了不同方法在带噪声的 ETTh1 数据集上的 MSE/MAE 性能：

该图像是一个示意图，展示了 LLM-PS（我们的方法）与其他模型在不同预测范围（a、b）和噪声因子（c、d）下的平均均方误差（MSE）和平均绝对误差（MAE）表现。 图4c (MSE) & 4d (MAE)：不同方法在带噪声的 ETTh1 数据集上的 MSE/MAE 性能。

分析:

LLM-PS 在各种噪声因子下均持续保持卓越性能。
随着噪声因子的增加，LLM-PS 相较于其他方法的性能优势变得更加显著。
这表明 LLM-PS 对噪声具有很强的鲁棒性，使其在实际应用中更具可靠性，因为现实世界的时间序列数据往往不可避免地包含测量误差和缺失值。

6.5. 参数敏感性分析

设置: 分析总目标函数 $\mathcal{L}_{\mathrm{OBJ}}$ (公式 9) 中权衡参数 $\lambda$ 的敏感性。通过在 $\{0.0001, 0.001, 0.01, 0.1, 1\}$ 范围内变化 $\lambda$ 值，在 ETTh1 数据集上观察平均 MSE/MAE 随预测长度 $\{96, 192, 336, 720\}$ 的变化。

下图（原文 Figure 8）展示了 $\lambda$ 参数的敏感性：

$Figure 8: Parametric sensitivities of $\\lambda$ in Eq. 9.$

分析:

尽管 $\lambda$ 值变化较大，但 MSE/MAE 曲线相对稳定，表明 LLM-PS 对该参数并不极端敏感。
当 $\lambda = 0.01$ 时，LLM-PS 取得了最佳性能。因此，在所有实验中都采用了这一参数配置。

7. 总结与思考

7.1. 结论总结

本论文提出了 LLM-PS 框架，旨在解决现有基于大语言模型 (LLM-based) 的时间序列预测 (TSF) 方法忽略时间序列数据固有特性（即多样化的时序模式和语义稀疏性）的问题。LLM-PS 通过引入两个核心模块来应对这些挑战：

多尺度卷积神经网络 (MSCNN): 专门设计用于捕获时间序列中的短期波动和长期趋势。它通过并行卷积分支、递归结构和基于小波变换的模式解耦与组装机制，有效地提取和精炼多尺度时序模式。
时间到文本 (T2T) 语义提取模块: 采用编码器-解码器架构和自监督学习任务，从语义稀疏的时间序列数据中提取有价值的语义信息，并将其转化为 LLM 易于理解的形式。

LLM-PS 将 MSCNN 提取的时序模式和 T2T 提取的语义信息进行有效整合，并通过参数高效微调 (LoRA) 赋能 LLM 进行准确预测。大量的实验结果表明，LLM-PS 在长期和短期预测任务，以及少样本 (few-shot) 和零样本 (zero-shot) 场景下均取得了最先进的 (SOTA) 性能。此外，模型还表现出高效率和对噪声数据的强大鲁棒性。

7.2. 局限性与未来工作

论文中未明确指出自身的局限性，但在 Impact Statement 中提到了对 LLM 预测技术潜在滥用的伦理考虑。尽管如此，从技术角度来看，可以推断出一些潜在的局限性和未来工作方向：

模型复杂性与可解释性： 尽管 LLM-PS 提升了性能，但其结合了 MSCNN、T2T 和 LLM，模型整体结构较为复杂。尤其是在 LLM 内部，其决策过程本身就具有一定的黑箱性质。未来的工作可以探索如何提高 LLM-PS 整体的可解释性，例如通过注意力可视化或归因方法来理解 LLM 在预测时对时序模式和语义信息的依赖程度。
计算资源需求： 尽管采用了 LoRA 进行参数高效微调，但作为基于 LLM 的方法，其预训练 LLM 本身仍然是巨大的，对推理和部署的计算资源仍有较高要求。未来可以探索更轻量级的 LLM 骨干网络，或进一步优化微调策略，以适应资源受限的环境。
语义词汇表的泛化性： T2T 模块依赖于从 GPT2 中筛选出的与 TSF 相关的文本词汇表。这个词汇表可能针对特定领域（如金融、天气）效果良好，但在跨领域或全新领域的时间序列数据上，其提取的语义是否仍然具有普适性，可能需要进一步验证。未来的工作可以探索更自适应或领域无关的语义提取方法。
对非数值型时间序列的扩展： 本文主要关注数值型时间序列预测。然而，一些时间序列数据可能包含事件、类别等非数值信息。未来的工作可以研究如何将 LLM-PS 扩展到处理这些更复杂、多模态的时间序列数据。
长尾分布和稀有事件预测： 现实世界的时间序列中常存在长尾分布和稀有但重要的事件（如金融危机、疾病爆发）。LLM-PS 在少样本和零样本设置下表现良好，但对于极度稀有的事件，其捕捉和预测能力仍有待深入研究和优化。

7.3. 个人启发与批判

这篇论文的创新点在于其对时间序列数据固有特性（时序模式和语义稀疏性）的深刻洞察，并为此设计了有针对性的模块。这种“对症下药”的策略，而非仅仅将 LLM 视为通用序列建模器，是其成功的关键。

个人启发：

模态转换的深度思考： 论文通过 T2T 模块将时间序列的稀疏语义“翻译”成 LLM 熟悉的文本嵌入空间，这提供了一种有力的模态转换范式。这启发我们，在将 LLM 应用于其他非文本模态时，可能不仅需要进行简单的特征对齐，更需要设计专门的机制来提取该模态特有的、且能被 LLM 深度理解的“语义”表示。
多尺度建模的重要性： MSCNN 模块通过结合不同感受野和时频域解耦的方式，强调了在处理时间序列时，同时考虑短期局部变化和长期全局趋势的必要性。这种思想可以推广到其他序列建模任务中，例如自然语言处理中的短语级和文档级上下文建模，或基因序列分析中的局部基序和全局结构分析。
LLM 的潜力再挖掘： LLM-PS 证明了 LLM 在特定领域经过精心设计和微调后，其能力远超简单应用。它打开了 LLM 在更广泛的科学计算和工程领域应用的想象空间，不仅仅局限于语言任务。

批判：

语义标签的“真实性”： T2T 模块中语义标签的分配是通过与 LLM 文本嵌入中最相似的词汇来确定的。这种“最相似”的语义是否真正捕捉了时间序列的内在含义？例如，一个“快速增长”的时间序列片段，其最相似的文本词汇可能只是“上升”，但“快速”这种程度信息是否能被充分捕捉？这种语义标签的客观性和精细度可能会影响 T2T 模块的上限。未来的工作可以探索更高级的语义提取方法，例如通过弱监督或对比学习从时间序列中直接学习语义概念，而不仅仅是匹配现有文本词汇。
MSCNN 与 Transformer 的冗余性： MSCNN 旨在捕捉多尺度时序模式，而 Transformer 内部的注意力机制本身也具有捕捉长短程依赖的能力。虽然论文通过实验证明 MSCNN 的有效性，但其与 LLM 内部 Transformer 结构在时序建模能力上可能存在一定程度的冗余。进一步的分析可以探讨这两种结构如何协同工作，或者是否可以设计一种更统一的架构，以更优雅的方式实现多尺度时序建模。
计算成本与可扩展性： 尽管 LoRA 降低了微调成本，但 MSCNN 和 T2T 模块的引入增加了模型的复杂性和计算量。特别是 T2T 模块的掩码重建和标签预测任务，以及小波变换等操作，都增加了额外的计算负担。对于超大规模、超长序列的时间序列数据，这种方法的计算效率和可扩展性仍需进一步考量和优化。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。