AiPaper
论文状态:已完成

Robust regression for electricity demand forecasting against cyberattacks

发表:2022/12/10
原文链接
价格:0.10
已有 6 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文针对电力需求预测中因网络攻击产生的数据异常,提出基于数据驱动参数调节的鲁棒回归方法,特别是自适应截尾回归,显著提升异常值检测能力和预测准确性,优于传统固定参数方案,保障预测的可靠性和系统稳定。

摘要

International Journal of Forecasting 39 (2023) 1573–1592 Contents lists available at ScienceDirect International Journal of Forecasting journal homepage: www.elsevier.com/locate/ijforecast Robust regression for electricity demand forecasting against cyberattacks Daniel VandenHeuvel a , Jinran Wu b , a , You-Gan Wang b , a , ∗ a Queensland University of Technology, Brisbane, Queensland 4001, Australia b Australian Catholic University, Brisbane 4000, Australia a r t i c l e i n f o Keywords: Robust estimate Data-driven Outliers Regression Cyberattack Data integrity a b s t r a c t Standard methods for forecasting electricity loads are not robust to cyberattacks on electricity demand data, potentially leading to severe consequences such as major economic loss or a system blackout. Methods are required that can handle forecasting under these conditions and detect outliers that would otherwise go unnoticed. The key challenge is to remove as many outliers as possible while maintaining enough clean data to use in the regression. In this paper we investigate robust approaches with data- driven tuning parameters, and in particular present an adapt

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

鲁棒回归在抵御网络攻击的电力需求预测中的应用 (Robust regression for electricity demand forecasting against cyberattacks)

1.2. 作者

Daniel VandenHeuvel, Jinran Wu, You-Gan Wang

隶属机构:

  • Daniel VandenHeuvel, Jinran Wu, You-Gan Wang 均隶属于昆士兰科技大学 (Queensland University of Technology, Brisbane, Queensland 4001, Australia)。
  • Jinran Wu, You-Gan Wang 同时也隶属于澳大利亚天主教大学 (Australian Catholic University, Brisbane 4000, Australia)。

1.3. 发表期刊/会议

未明确提及具体期刊或会议名称,但从版权信息“© 2022 International Institute of Forecasters. Published by Elsevier B.V. All rights reserved”判断,该论文可能发表在与国际预测者协会 (International Institute of Forecasters) 相关的 Elsevier 期刊上,如《International Journal of Forecasting》。

1.4. 发表年份

2022年

1.5. 摘要

电力负荷预测的标准方法对于电力需求数据中的网络攻击缺乏鲁棒性 (robustness),这可能导致严重的后果,例如重大的经济损失或系统停电。因此,需要能够在这些条件下进行预测并检测否则可能被忽视的异常值 (outliers) 的方法。关键挑战在于尽可能多地移除异常值,同时保留足够的干净数据用于回归。本文研究了带有数据驱动 (data-driven) 调节参数的鲁棒方法,并特别提出了一种自适应截尾回归 (adaptive trimmed regression) 方法,该方法能够更好地检测异常值并提供改进的预测。总的来说,数据驱动方法比其固定调节参数的对应方法表现得更好。论文还提出了未来的工作建议。

1.6. 原文链接

/files/papers/690ffe55f205bb3597edd086/paper.pdf (本地文件链接)

2. 整体概括

2.1. 研究背景与动机

电力负荷预测是能源领域一个至关重要的问题。由于电力难以大量有效存储,准确预测需求并相应地供应电力对于避免经济损失和维持系统稳定至关重要。然而,现代电力系统日益复杂,也更容易受到网络攻击。这些攻击可能通过篡改电力需求数据,导致预测模型失效,进而引发严重的后果,如大范围停电(例如2015年乌克兰停电事件)或经济损失。

现有的一些电力负荷预测方法,如广义可加模型 (Generalized Additive Models, GAMs)、支持向量回归 (Support Vector Regression, SVR)、人工神经网络 (Artificial Neural Networks, ANN) 等,虽然在正常数据条件下表现良好,但面对网络攻击导致的数据异常值时,其鲁棒性不足。尽管一些鲁棒回归方法,如 M-估计 (M-estimation) 和最小截尾二乘法 (Least Trimmed Squares, LTS) 已经存在,但它们往往依赖于预先设定的调节参数,或者在处理大规模攻击时效果不佳。特别地,Jiao 等人(2022)的工作虽然引入了 Bacher 的自适应最小截尾二乘法 (Adaptive Least Trimmed Squares, ALTS) 来处理网络攻击数据,但该方法存在低估异常值比例、对干净数据标准差估计不鲁棒以及估计结果偏小等问题,可能导致过度估计电力供应需求,造成经济损失。

因此,论文试图解决的核心问题是如何在电力需求数据遭受网络攻击(引入大量异常值)的情况下,开发出更鲁棒、更准确的预测方法,并有效检测和处理这些异常值。现有研究的挑战在于,鲁棒方法需要有效地识别和移除异常值,同时保留足够的干净数据以进行准确的回归,并且其调节参数应能自适应地从数据中学习,而非固定不变。

2.2. 核心贡献/主要发现

本文的主要贡献在于提出了一种改进的自适应截尾回归方法,旨在更有效地应对网络攻击下的电力需求预测问题。具体贡献和关键结论包括:

  • 改进的自适应截尾回归方法 (Improved Adaptive Trimmed Regression): 针对 Bacher 的 ALTS 方法存在的低估异常值比例 1-p、对干净数据标准差估计不鲁棒、以及估计值偏小等问题,本文提出了一系列改进。
    • 鲁棒的方差估计器 (Robust Variance Estimator): 引入了一种新的、更鲁棒的干净数据方差 σ^2\hat{\sigma}^2 估计器,该估计器在计算时仅使用数据中约 25%25\% 的最“干净”部分,以确保其不受异常值影响。
    • 数据驱动的异常值比例估计 (Data-Driven Outlier Proportion Estimation): 提出了一种新的异常值比例 pp 估计方法,该方法直接考虑了干净数据的分布,并通过比较残差平方和与其渐近均值的关系来确定异常值的起始点。这使得 pp 的估计更加准确和保守,倾向于高估异常值比例(即低估 pp),从而更有效地剔除攻击数据。
  • 优越的预测性能 (Superior Forecasting Performance):
    • 模拟研究 (Simulation Study): 在合成数据上的模拟研究表明,与 Bacher 的 ALTS 相比,本文提出的方法能够更准确地估计 ppσσ,并显著降低了平均绝对百分比误差 (Mean Absolute Percentage Error, MAPE),特别是在异常值比例较高的情况下。
    • 电力需求预测案例研究 (Electricity Demand Forecasting Case Study): 在 GEFCom2012 实际电力负荷数据集上,针对随机攻击 (random attacks) 和渐进攻击 (ramp attacks) 两种网络攻击模板进行了广泛评估。
      • 随机攻击下表现最佳: 本文方法在随机攻击场景下,预测精度优于 Bacher 的 ALTS 以及其他固定或数据驱动的 M-估计方法和 L1L_1 回归,尤其是在攻击规模较大(异常值比例更高)时。
      • 渐进攻击下表现优异,特定场景与 bisquare 竞争: 在渐进攻击场景下,本文方法同样优于 Bacher 的 ALTS。对于大规模攻击,本文方法表现最佳;而对于小规模渐进攻击,数据驱动的 bisquare (data-driven bisquare) 方法可能表现更优。
  • 数据驱动方法的普遍优势 (General Advantage of Data-Driven Methods): 论文强调,总体而言,数据驱动的方法在应对网络攻击时,比那些使用固定调节参数的方法表现出更好的性能。
  • qq 超参数的分析 (Analysis of Hyperparameter qq): 讨论了新方法中超参数 qq 的选择对结果的敏感性,并通过网格搜索 (grid search) 进行了初步选择,并指出未来工作可进一步改进其自适应选择机制。
  • 即使在无攻击情况下表现依然良好 (Good Performance Even Without Attacks): 在没有异常值(p=1p=1)的情况下,本文提出的方法也能提供与最佳方法相当甚至更优的预测结果,这意味着它可以在不确定是否有攻击的环境中作为一种可靠的通用预测工具。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 鲁棒回归 (Robust Regression)

鲁棒回归是一种统计分析方法,旨在减少模型估计对数据中异常值(或称离群值,outliers)的敏感性。在标准最小二乘回归 (Least Squares Regression, LS) 中,一个或几个极端异常值可能对回归系数的估计产生巨大影响,导致模型失效。鲁棒回归通过修改损失函数或权重机制,使得异常值对最终模型参数的影响力减弱,从而得到更可靠的估计。这在数据可能受到网络攻击、传感器故障或人为错误污染的场景中尤为重要。

3.1.2. M-估计 (M-estimation)

M-估计是鲁棒回归中的一类重要方法,由 Huber (1964) 引入,是对最大似然估计器 (Maximum Likelihood Estimator) 的推广。其核心思想是最小化一个残差的某个函数(而非最小二乘法中的残差平方和)。它通过一个权重函数 ψ\psi 或损失函数 ρ\rho 来降低大残差数据点的权重,从而减少异常值的影响。常用的 M-估计包括 Huber 估计和 bisquare 估计。 其一般形式是寻找回归系数 β\boldsymbol{\beta} 的估计 β^\hat{\boldsymbol{\beta}},使得以下方程的解为零: i=1nxiψ(yixiβσ^)=0 \sum _ { i = 1 } ^ { n } { \bf x } _ { i } \psi \left( \frac { y _ { i } - { \bf x } _ { i } ^ { \top } { \pmb \beta } } { \hat { \sigma } } \right) = { \bf 0 } 其中,yiy_i 是响应变量,xi\mathbf{x}_i 是特征向量,σ^\hat{\sigma} 是残差标准差的估计值,ψ\psi 是权重函数。

3.1.3. 最小截尾二乘法 (Least Trimmed Squares, LTS)

最小截尾二乘法是另一种鲁棒回归方法,由 Rousseeuw (1991) 提出。它的基本思想是:在计算回归系数时,只考虑数据集中一部分“最干净”的(即残差最小的)数据点。具体来说,如果假设数据中有一定比例的异常值,LTS 会选择一个子集的数据点(通常是残差平方和最小的 hh 个数据点),然后基于这些数据点来拟合回归模型,从而完全排除残差最大的那些异常值。 LTS 估计器的定义如下: β^=argminβi=1npe(i)2 \hat { \pmb { \beta } } = \underset { \pmb { \beta } } { \operatorname { a r g m i n } } \sum _ { i = 1 } ^ { \lfloor n p \rfloor } | e | _ { ( i ) } ^ { 2 } 其中 np\lfloor np \rfloor 表示 nn 个数据点中,比例为 pp 的干净数据点数量向下取整,e(i)|e|_{(i)} 表示第 ii 个有序绝对残差。

3.1.4. 数据驱动方法 (Data-Driven Methods)

许多鲁棒回归方法(如 M-估计和 LTS)都包含调节参数(tuning parameters),这些参数的设定会显著影响方法的鲁棒性和效率。传统上,这些参数是根据经验或固定值设定的(例如 Huber 估计中的 k=1.345k=1.345,bisquare 估计中的 c=4.685c=4.685)。数据驱动方法则旨在根据当前数据的特性,自适应地估计和调整这些参数,从而获得更好的性能。

3.1.5. 平均绝对百分比误差 (Mean Absolute Percentage Error, MAPE)

MAPE 是一种常用的预测准确性评估指标,尤其在时间序列预测中常见。它衡量了预测值与实际值之间的平均百分比差异,对比例误差敏感。 其定义为: MAPE=100ni=1nμiy^iμi \mathrm { M A P E } = \frac { 1 0 0 } { n } \sum _ { i = 1 } ^ { n } \frac { | \mu _ { i } - \hat { y } _ { i } | } { | \mu _ { i } | } 其中,nn 是数据点的数量,μi\mu_i 是第 ii 个数据点的真实值或期望值,y^i\hat{y}_i 是第 ii 个数据点的预测值。

3.2. 前人工作

本文建立在大量前人工作的基础上,主要集中在鲁棒回归、电力负荷预测以及网络攻击下的鲁棒预测。

  • 传统电力负荷预测方法:

    • 混合方法 (Hybrid methods): Cho et al. (2013), Lu et al. (2021), Motamedi et al. (2012), Wan et al. (2013) 结合不同尺度的预测问题(短/长期)。
    • 广义可加模型 (Generalized Additive Models, GAMs): Gaillard et al. (2016), Goude et al. (2013), Kanda & Veguillas (2019) 用于分解非线性负荷。但 GAMs 对异常值不鲁棒,尽管存在鲁棒扩展 (Correia & Abebe, 2021)。
    • 人工智能与神经网络 (AI and Neural Networks): Bedi & Toshniwal (2019) 使用深度学习,Jiang et al. (2020), Lu et al. (2021) 使用支持向量机 (Support Vector Machines, SVM),Bianchi et al. (2017), Charytoniuk & Chen (2000), Dudek (2016) 使用神经网络。
  • 网络攻击下的鲁棒预测:

    • Luo et al. (2018a): 比较了多元线性回归 (Multiple Linear Regression, MLR)、支持向量回归 (Support Vector Regression, SVR)、人工神经网络 (ANN) 和模糊交互回归 (Fuzzy Interaction Regression) 在数据受攻击时的性能。发现 SVR 最佳,MLR 次之且可解释,但这些方法均无法处理大规模攻击。
    • Luo et al. (2022): 开发了针对 SVR 的鲁棒方法,在处理大规模网络攻击时优于 L1L_1 回归 (Luo et al., 2019) 和迭代重加权最小二乘法 (Iteratively Re-weighted Least Squares, IRLS)。
    • Jiao et al. (2022): 采用了 Bacher 等人(2016)开发的自适应最小截尾二乘法 (ALTS) 来鲁棒估计攻击数据的比例和多元线性回归模型的系数。这是本文工作的直接前身和主要对比对象。
    • 鲁棒时间序列和状态空间方法: Chakhchoukh et al. (2010), Wang et al. (2019b), Zeng & Li (2021) 使用了这些方法,但未专门考虑网络攻击数据。
    • 实时异常检测: Luo et al. (2018b) 提出了一种用于超短期负荷预测的鲁棒方法,结合了实时异常检测。
  • 数据驱动的鲁棒回归:

    • Wang et al. (2007), Jiang et al. (2019): 提出了 M-估计的数据驱动扩展,通过最大化估计效率来自动选择 Huber 和 bisquare 权重函数中的调节参数 kkcc。这些方法在 rlmDataDriven R 包 (Wang et al., 2019a) 中实现。
    • Bacher et al. (2016): 提出了自适应最小截尾二乘法 (ALTS),通过迭代地估计异常值比例 pp,解决了 LTS 需要预先估计 pp 的缺点。这是本文改进的起点。

3.3. 技术演进

电力负荷预测领域从早期的统计模型(如多元线性回归、时间序列模型)发展到后来的机器学习模型(如 SVM、神经网络),再到近年来的深度学习模型。随着系统复杂性和数据量的增加,对模型鲁棒性的需求也日益增长,尤其是在网络安全威胁日益凸显的背景下。鲁棒统计方法,如 M-估计和 LTS,被引入以应对异常值问题。这些方法最初依赖于固定的调节参数,但随着研究的深入,数据驱动的自适应参数选择机制逐渐成为主流,以提高方法的灵活性和性能。本文的工作正是这一演进的体现,它改进了 Bacher 的 ALTS 方法,使其在网络攻击场景下对异常值比例和方差的估计更加准确和鲁棒,进一步提升了预测性能。

3.4. 差异化分析

本文提出的改进方法与主要对比的 Bacher 的 ALTS 方法以及其他现有鲁棒方法的核心区别和创新点在于:

  1. 针对 Bacher ALTS 局限性的改进:

    • Bacher ALTS 的缺点: Jiao 等人 (2022) 的研究发现 Bacher 的 ALTS 倾向于低估被攻击数据的比例 1-p,导致过度估计干净数据比例 pp,这可能使得模型包含更多异常值,从而影响预测精度,甚至导致电力供应过剩造成经济损失。此外,Bacher 的 ALTS 中用于计算 σ^2\hat{\sigma}^2 的估计器在 p^\hat{p} 超过真实 pp 时不够鲁棒,并且该估计器本身存在偏小(biased to be too small)且不一致的问题。
    • 本文的改进:
      • 更鲁棒的 σ\sigma 估计器: 本文引入了一个新的、更鲁棒的干净数据标准差 σ^\hat{\sigma} 估计器。这个估计器在每次迭代中只使用数据中约 25%25\% 的“最干净”部分(即残差最小的 n/4\lfloor n/4 \rfloor 个点)来计算 σ^2\hat{\sigma}^2,这显著提高了其对异常值的抵抗能力。
      • 更精确和保守的 pp 估计: 本文提出的算法通过研究有序残差 e(i)|e|_{(i)} 的分布,并利用其渐近均值 E[si2]\mathbb{E}[s_i^2],来更准确地识别异常值分布开始偏离正常分布的点,从而估计 pp。这种方法使得 pp 的估计更加保守(more conservative),倾向于略微低估真实 pp 值(即略微高估异常值比例 1-p),从而确保更彻底地移除异常值。
      • pp 估计条件进行调整: 调整了计算 pp 的条件,使其不那么依赖于 σ^2\hat{\sigma}^2 估计的精确性,进一步增强了鲁棒性。
  2. 与其他数据驱动和固定参数方法的对比:

    • 数据驱动 M-估计: Jiao 等人(2022)的工作主要关注 Bacher 的 ALTS,而没有充分考虑 M-估计的数据驱动扩展。本文则将数据驱动的 Huber 和 bisquare 方法纳入比较,并发现它们在某些情况下,尤其是在小规模攻击下,也具有竞争力。

    • 综合性能优势: 在随机攻击场景下,本文方法在几乎所有情况下都表现优异,尤其是在大规模攻击下。在渐进攻击场景下,虽然在小规模攻击时数据驱动的 bisquare 方法可能表现更优,但本文方法在大规模攻击时仍保持最佳性能,并且在所有情况下都优于 Bacher 的 ALTS。

    • 无攻击情况下的鲁棒性: 即使在没有网络攻击(p=1p=1)的情况下,本文方法也能提供与最佳方法相当甚至更优的预测结果,使其成为一个更通用的鲁棒预测工具。

      简而言之,本文的关键创新在于通过改进异常值比例和干净数据方差的估计机制,解决了 Bacher ALTS 的固有缺陷,从而在面临网络攻击的电力需求预测任务中,提供了更准确、更鲁棒且更保守的预测结果。

4. 方法论

4.1. 方法原理

本文的核心思想是改进自适应最小截尾二乘法 (ALTS),以更鲁棒地估计回归模型中的参数,从而在电力需求数据遭受网络攻击时提供更准确的预测。其主要原理建立在对残差 (residuals) 行为的深入分析之上,特别是利用有序绝对残差 (ordered absolute residuals) 的统计特性来区分干净数据和异常值。

Bacher 的 ALTS 方法虽然能够自适应地估计干净数据比例 pp,但存在几个缺陷:它倾向于低估异常值比例 1-p,导致模型可能仍然包含部分攻击数据;用于估计残差方差的估计器对异常值不鲁棒且存在偏小的问题。

本文的改进主要集中在三个方面:

  1. 鲁棒的方差估计 (Robust Variance Estimation): 引入一个对异常值更不敏感的方差估计器,确保在迭代过程中,标准差的估计是可靠的。这通过仅使用最“干净”的 25%25\% 数据(即残差最小的部分)来计算方差实现。

  2. 基于残差渐近分布的异常值检测 (Outlier Detection based on Asymptotic Residual Distribution): 核心原理是,如果数据是干净的,那么其有序绝对残差的平方和 si2=j=1ie(j)2/is_i^2 = \sum_{j=1}^i |e|_{(j)}^2 / i 应该遵循一个特定的渐近分布。异常值会导致 si2s_i^2 显著偏离这个理论分布。通过比较观测到的 si2s_i^2 与其在干净数据假设下的期望值 E[si2]\mathbb{E}[s_i^2],可以识别出异常值开始出现的位置,从而估计干净数据的比例 pp

  3. 迭代优化 (Iterative Optimization): 像 Bacher 的 ALTS 一样,本文方法也采用迭代过程。在每次迭代中,首先使用当前估计的 ppσ\sigma 来计算数据点的权重,然后通过加权最小二乘回归 (Weighted Least Squares Regression, WLS) 更新回归系数和残差,接着再更新 ppσ\sigma 的估计,直至收敛。

    通过这些改进,新方法能够更准确、更保守地识别和移除异常值,从而获得更鲁棒的回归模型和更精确的预测。

4.2. 核心方法详解

4.2.1. M-估计 (M-estimation)

M-估计方法通过最小化一个关于残差的损失函数 ρ\rho 来估计回归系数 β\boldsymbol{\beta}。通常,损失函数 ρ\rho 的导数被称为权重函数 ψ\psi。 对于线性回归模型 yi=xiβ+σεiy _ { i } = \mathbf { x } _ { i } ^ { \top } { \pmb \beta } + \sigma \varepsilon _ { i },M-估计器 β^\hat { \pmb { \beta } } 是以下方程的解: i=1nxiψ(yixiβσ^)=0 \sum _ { i = 1 } ^ { n } { \bf x } _ { i } \psi \left( \frac { y _ { i } - { \bf x } _ { i } ^ { \top } { \pmb \beta } } { \hat { \sigma } } \right) = { \bf 0 } 这个方程对应于优化问题 argminβi=1nρˉ[(yixiβ)/σ^]\operatorname { argmin } _ { \boldsymbol{\beta} } \sum _ { i = 1 } ^ { n } \bar { \rho } [ ( y _ { i } - { \bf x } _ { i } ^ { \top } { \pmb \beta } ) / \hat { \sigma } ]。其中 σ^\hat{\sigma} 是残差标准差的估计值。

文中列举了两种常用的权重函数 ψ\psi

  • Huber 权重函数 (Huber's weight function): ψH(u)={uuk,ςgn(u)ku>k, \psi _ { H } ( u ) = \left\{ \begin{array} { l l } { u } & { | u | \leq k , } \\ { \varsigma \mathrm { g n } ( u ) k } & { | u | > k , } \end{array} \right. 其中 u=(yixiβ)/σ^u = (y_i - \mathbf{x}_i^\top \boldsymbol{\beta}) / \hat{\sigma} 是标准化残差,sgn(u)uu 的符号函数,kk 是一个调节参数。Huber 函数对小于 kk 的标准化残差采用线性惩罚(与最小二乘类似),对大于 kk 的残差采用常数惩罚,从而限制了异常值的影响。

  • Bisquare 权重函数 (Bisquare weight function): ψB(u)={u[1(uc)2]2uc,0u>c, \psi _ { B } ( u ) = \left\{ \begin{array} { l l } { u \left[ 1 - \left( \frac { u } { c } \right) ^ { 2 } \right] ^ { 2 } } & { | u | \leq c , } \\ { 0 } & { | u | > c , } \end{array} \right. 其中 cc 是一个调节参数。Bisquare 函数对小于 cc 的标准化残差赋予权重,而对大于 cc 的残差直接赋予零权重,完全忽略这些极端异常值。

M-估计的解通常通过迭代重加权最小二乘法 (IRLS) 获得。

4.2.2. 最小截尾二乘法 (Least Trimmed Squares, LTS)

LTS 估计器旨在通过选择残差最小的子集数据来抵抗异常值。假设数据中存在比例为 1-p 的异常值,LTS 估计器 β^\hat{\boldsymbol{\beta}} 被定义为最小化 np\lfloor np \rfloor 个最小残差平方和的回归系数: β^=argminβi=1npe(i)2 \hat { \pmb { \beta } } = \underset { \pmb { \beta } } { \operatorname { a r g m i n } } \sum _ { i = 1 } ^ { \lfloor n p \rfloor } | e | _ { ( i ) } ^ { 2 } 其中 e(i)|e|_{(i)} 表示绝对残差 {e1,,en}\{ |e_1|, \ldots, |e_n| \} 的第 ii 个序统计量 (order statistic),即 e(1)e(2)e(n)|e|_{(1)} \leq |e|_{(2)} \leq \cdots \leq |e|_{(n)}x\lfloor x \rfloor 表示对 xx 向下取整。 这个优化问题可以通过定义一个特殊的权重函数来转化为 IRLS 问题: ψ(ei)={1,eie(np),0,ei>e(np). \psi ( e _ { i } ) = \left\{ \begin{array} { l l } { 1 , } & { | e _ { i } | \leq | e | _ { ( \lfloor n p \rfloor ) } , } \\ { 0 , } & { | e _ { i } | > | e | _ { ( \lfloor n p \rfloor \rfloor ) } . } \end{array} \right. 这意味着只有残差小于第 np\lfloor np \rfloor 个序统计量的点才被赋予权重 1,其余点权重为 0。

4.2.3. 数据驱动方法 (Data-Driven Methods)

数据驱动 M-估计 (Data-driven M-estimation): 传统的 M-估计需要预先设定调节参数 kkcc。数据驱动 M-估计的目标是根据数据本身来估计这些参数。Wang et al. (2007) 提出了一种迭代过程来估计 Huber 估计中的 kk,其基于最大化估计量 β^\hat{\boldsymbol{\beta}} 的效率 τ=b2/σψ2\tau = b^2 / \sigma_\psi^2

  1. 初始化: 使用中位数回归 (median regression) 获得 β^\hat{\boldsymbol{\beta}} 的初始估计。
  2. 估计 σ\sigma: 基于初始残差,使用中位数绝对离差 (Median Absolute Deviation, MAD) 估计 σ\sigma: σ^=1.4826median{yixiβ^} \hat { \sigma } = 1 . 4 8 2 6 \mathrm { m e d i a n } \left\{ | y _ { i } - \mathbf { x } _ { i } ^ { \top } \hat { \pmb { \beta } } | \right\}
  3. 标准化残差: 计算标准化残差 e^i=(yixiβ^)/σ^\hat{e}_i = (y_i - \mathbf{x}_i^\top \hat{\boldsymbol{\beta}}) / \hat{\sigma}
  4. 优化效率: 在一定范围的 kk 值上评估效率估计量 τ^(k)\hat{\tau}(k)τ^(k)={i=1nI(e^ik)}2/{ni=1n[I(e^ik)ψH2(e^i)+k2I(e^i>k)]} \hat { \tau } ( k ) = \left\{ \sum _ { i = 1 } ^ { n } \mathbb { I } \left( \lvert \hat { e } _ { i } \rvert \leq k \right) \right\} ^ { 2 } \Biggl / \left\{ n \sum _ { i = 1 } ^ { n } \left[ \mathbb { I } \left( \lvert \hat { e } _ { i } \rvert \leq k \right) \psi _ { H } ^ { 2 } ( \hat { e } _ { i } ) + k ^ { 2 } \mathbb { I } \left( \lvert \hat { e } _ { i } \rvert > k \right) \right] \right\} 其中 I(A)\mathbb{I}(A) 是事件 AA 的指示函数,ψH\psi_H 是 Huber 权重函数。选择使 τ^(k)\hat{\tau}(k) 最大的 kk 值。 对于 bisquare 估计,可以使用更一般的非参数效率估计量 τ^(c)\hat{\tau}(c) (Jiang et al., 2019; Wang et al., 2007): τ^(c)={i=1nψB(e^i)}2/{ni=1nψB2(e^i)} \hat { \tau } ( c ) = \left\{ \sum _ { i = 1 } ^ { n } \psi _ { B } ^ { \prime } ( \hat { e } _ { i } ) \right\} ^ { 2 } \Bigg / \left\{ n \sum _ { i = 1 } ^ { n } \psi _ { B } ^ { 2 } ( \hat { e } _ { i } ) \right\} 其中 ψB\psi_B^\prime 是 bisquare 权重函数 ψB\psi_B 的导数。

自适应最小截尾二乘法 (Adaptive Least Trimmed Squares, ALTS): Bacher et al. (2016) 提出了 ALTS,解决了 LTS 需要预先估计 pp 的问题。它通过迭代过程自适应地估计 pp

  1. 初始化: 设定初始的干净数据比例估计 p^0=0.5\hat{p}_0 = 0.5
  2. LTS 估计: 使用 p^0\hat{p}_0 和初始的 β^0\hat{\boldsymbol{\beta}}_0 计算 LTS 估计量 β^1\hat{\boldsymbol{\beta}}_1,并得到残差 e1,,ene_1, \ldots, e_n
  3. 初始 σ\sigma 估计: 使用第 p^0n\lfloor \hat{p}_0 n \rfloor 个有序绝对残差估计干净数据的标准差 σ^0\hat{\sigma}_0: σ^0=1Φ1(3/4)e(p^0n) \hat { \sigma } _ { 0 } = \frac { 1 } { \varPhi ^ { - 1 } ( 3 / 4 ) } | e | _ { ( \lfloor \hat { p } _ { 0 } n \rfloor ) } 其中 Φ1\varPhi^{-1} 是标准正态分布的分位数函数。注意 (1/Φ1(3/4))1.4826(1 / \varPhi^{-1}(3/4)) \approx 1.4826
  4. 更新 pp: 计算一个新的 pp 估计 p^1\hat{p}_1: p^1=1nmax{i{1,,n}:si2σ^02} \hat { p } _ { 1 } = \frac { 1 } { n } \operatorname* { m a x } \left\{ i \in \{ 1 , \dots , n \} : s _ { i } ^ { 2 } \leq \hat { \sigma } _ { 0 } ^ { 2 } \right\} 其中 si2=j=1ie(j)2/is_i^2 = \sum_{j=1}^i |e|_{(j)}^2 / i
  5. 迭代: 迭代地计算 p^j\hat{p}_jσ^j2\hat{\sigma}_j^2σ^j2=1np^ji=1np^je(i)2 \hat { \sigma } _ { j } ^ { 2 } = \frac { 1 } { \lfloor n \hat { p } _ { j } \rfloor } \sum _ { i = 1 } ^ { \lfloor n \hat { p } _ { j } \rfloor } | e | _ { ( i ) } ^ { 2 } p^j+1=1nmax{i{1,,n}:si2σ^j2} \hat { p } _ { j + 1 } = \frac { 1 } { n } \operatorname* { m a x } \{ i \in \{ 1 , \dots , n \} : s _ { i } ^ { 2 } \leq \hat { \sigma } _ { j } ^ { 2 } \} 迭代直到 np^j=np^j+1\lfloor n \hat{p}_j \rfloor = \lfloor n \hat{p}_{j+1} \rfloorp^jp^j+1/p^j+1<τ| \hat{p}_j - \hat{p}_{j+1} | / \hat{p}_{j+1} < \tau (通常 τ=104\tau=10^{-4})。

4.2.4. 本文对 Bacher 的 ALTS 的改进 (Extensions to Bacher's ALTS)

本文针对 Bacher ALTS 的局限性提出了改进,主要解决了以下四个问题:

  1. Bacher 的 ALTS 倾向于低估被攻击数据的比例 1-p

  2. 用于计算 σ^2\hat{\sigma}^2 的估计器 (10) 在 p^\hat{p} 超过真实 pp 时对异常值不鲁棒。

  3. 计算 p^\hat{p} 的条件 (11) 依赖于不鲁棒的 σ^2\hat{\sigma}^2 估计器。

  4. σ^2\hat{\sigma}^2 的估计器 (10) 存在偏小且不一致的问题。

    为了解决这些问题,本文提出了一个改进的 ALTS 算法(Algorithm 1),主要通过:

  • 新的 σ\sigma 估计器: 本文引入了一个新的、更鲁棒的 σ2\sigma^2 估计器。这个估计器基于有序残差平方和的渐近分布,并且为了更保守地排除异常值,只使用残差最小的 25%25\% 数据(即 n/4\lfloor n/4 \rfloor 个点)来估计 σ2\sigma^2

    在附录 B 中,作者推导了如下的修改版 σ2\sigma^2 估计器: \hat { \sigma } ^ { 2 } = \sum _ { i = 1 } ^ { \lfloor n p \rfloor } | e | _ { ( i ) } ^ { 2 } \middle / \sum _ { i = 1 } ^ { \lfloor n p \rfloor } [ \phi ^ { - 1 } ( \frac { 1 + \tilde { p } _ { i } } { 2 } ) ] ^ { 2 } 其中 e(i)|e|_{(i)} 是第 ii 个有序绝对残差,p~i=i/(n+1)\tilde{p}_i = i / (n+1)Φ1\varPhi^{-1} 是标准正态分布的分位数函数。 为了在实际算法中更加保守地排除异常值,上述求和的上限被设置为 n/4\lfloor n/4 \rfloor,即只使用 25%25\% 的数据来估计 σ2\sigma^2

  • 基于渐近分布的 pp 估计器: 本文的改进方法基于对有序绝对残差平方和 si2=j=1ie(j)2/is_i^2 = \sum_{j=1}^i |e|_{(j)}^2 / i 渐近分布的分析。在附录 A 中,作者推导了 si2s_i^2 的渐近正态分布。 假设模型误差服从 N(0,σ2)N(0, \sigma^2) 分布,则绝对残差服从折叠正态分布 (Folded Normal distribution, FN(0,σ2)\mathcal{FN}(0, \sigma^2))。 作者证明了: n(si21ij=1iξj2)/(2iξiΣ(i)ξi)dN(0,1),i=1,2,,n \sqrt { n } \left( s _ { i } ^ { 2 } - \frac { 1 } { i } \displaystyle \sum _ { j = 1 } ^ { i } \xi _ { j } ^ { 2 } \right) \bigg / \left( \frac { 2 } { i } \sqrt { \xi _ { i } ^ { \top } \Sigma _ { ( i ) } \xi _ { i } } \right) \overset { \mathrm { d } } { \longrightarrow } \mathcal { N } ( 0 , 1 ) , \quad i = 1 , 2 , \ldots , n 其中 nn \to \inftyp~j=j/(n+1)\tilde{p}_j = j/(n+1)ξj=F1(p~j)\xi_j = F^{-1}(\tilde{p}_j)F1(r)=σΦ1((1+r)/2)F^{-1}(r) = \sigma \varPhi^{-1}((1+r)/2)FN(0,σ2)\mathcal{FN}(0, \sigma^2) 的分位数函数。Σ(i)\boldsymbol{\Sigma}_{(i)} 是协方差矩阵。 核心思想是,当数据是干净时,si2s_i^2 应该与其渐近均值 E[si2]1ij=1iξj2\mathbb{E}[s_i^2] \approx \frac{1}{i} \sum_{j=1}^i \xi_j^2 保持一致。当 si2s_i^2 开始显著大于其期望值时,表明异常值已经开始出现。

    因此,新的 pp 估计器通过寻找 si2s_i^2 偏离其渐近均值的位置来确定干净数据点的数量。为了引入灵活性并避免因微小波动而过早停止,引入了一个超参数 qq

    算法 1: 自适应截尾最小二乘法 (Adaptive trimmed least squares)

    输入 (Inputs):

    • 数据 XRn×k\mathbf{X} \in \mathbb{R}^{n \times k} 和响应 yRn\mathbf{y} \in \mathbb{R}^{n}
    • 回归系数的初始估计 β^\hat{\boldsymbol{\beta}} 和对应的残差 ε^=yXβ^=(e1,,en)\hat{\boldsymbol{\varepsilon}} = \mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}} = (e_1, \ldots, e_n)^\top
    • 调节参数 qq (默认 q=1.2q = 1.2)。
    • 收敛容差 τ\tau (默认 τ=104\tau = 10^{-4})。

    输出 (Outputs):

    • 异常值比例 1-p 的估计。
    • 无异常值残差方差 σ^2\hat{\sigma}^2 的估计。
    • 鲁棒的回归系数估计 β^\hat{\boldsymbol{\beta}}

    步骤 (Procedure):

    1. ALTS 过程:

    2. 计算 σ^2\hat{\sigma}^2: 使用修改后的估计器 (15) 计算 σ^2\hat{\sigma}^2 \hat { \sigma } ^ { 2 } = \sum _ { i = 1 } ^ { \lfloor n / 4 \rfloor } | e | _ { ( i ) } ^ { 2 } \middle / \sum _ { i = 1 } ^ { \lfloor n / 4 \rfloor } \left[ \phi ^ { - 1 } \left( \frac { 1 + \tilde { p } _ { i } } { 2 } \right) \right] ^ { 2 } 其中,e(i)|e|_{(i)} 是有序绝对残差的第 ii 个值,p~i=i/(n+1)\tilde{p}_i = i / (n+1)Φ1\varPhi^{-1} 是标准正态分布的分位数函数。注意这里求和上限是 n/4\lfloor n/4 \rfloor

    3. 计算权重: 使用权重函数 wˉi=ψ(ei)\bar{w}_i = \psi(e_i) (如 (4) 式所示的 LTS 权重函数) 计算 i=1,,ni=1, \ldots, n 的权重。

    4. 拟合模型: 使用这些权重 w1,,wnw_1, \ldots, w_n 通过加权最小二乘回归拟合模型 y=Xβ\mathbf{y} = \mathbf{X}\boldsymbol{\beta},并获得更新后的回归系数 β^\hat{\boldsymbol{\beta}} 和残差 e1,,ene_1, \ldots, e_n

    5. 进入迭代循环: 对于 i=2,3,i = 2, 3, \ldots

    6. 更新 σ^2\hat{\sigma}^2: 再次使用上述修改后的估计器 (15) 更新 σ^2\hat{\sigma}^2,同样使用 n/4\lfloor n/4 \rfloor 作为求和上限。

    7. 计算 si2s_i^2E[si2]\mathbb{E}[s_i^2]: 计算 si2=j=1ie(j)2/is_i^2 = \sum_{j=1}^i |e|_{(j)}^2 / i 和对应的渐近均值 E[si2]\mathbb{E}[s_i^2] (根据 (12) 式,即附录 A 的推导结果),对于 i=1,,ni=1, \ldots, n

    8. 定义 SS 集合和更新 p^i\hat{p}_i: 定义集合 S={i{1,,n}:si2/E[si2]q}S = \{ i \in \{1, \ldots, n\} : s_i^2 / \mathbb{E}[s_i^2] \leq q \}。设置 hatpiS/nhat{p}_i \leftarrow |S| / n,其中 S|S| 是集合 SS 中索引的数量。

    9. 检查 p^i\hat{p}_i: 如果 p^i<0.5\hat{p}_i < 0.5,则:

    10. p^i\hat{p}_i 设置为 0.5

    11. 跳出循环。

    12. 结束 if 语句。

    13. 重新计算权重和拟合模型: 使用更新后的 p^i\hat{p}_i 重新计算权重 w1,,wnw_1, \ldots, w_n,并通过加权最小二乘回归拟合模型,获得更新后的 β^\hat{\boldsymbol{\beta}} 和残差 e1,,ene_1, \ldots, e_n

    14. 检查收敛: 如果 p^ip^i1/p^i<τ| \hat{p}_i - \hat{p}_{i-1} | / \hat{p}_i < \tau (其中 p^i1\hat{p}_{i-1} 是上一次迭代的 pp 估计),则:

    15. 跳出循环。

    16. 结束 if 语句。

    17. 结束 for 循环。

    18. 结束过程。

      初始估计: 对于回归系数的初始估计 β^\hat{\boldsymbol{\beta}},建议使用鲁棒方法,例如最小绝对离差估计器 (Least Absolute Deviations estimator) 或分位数回归 (Quantile Regression)。

4.2.5. 超参数 qq 的选择 (Hyperparameter qq Selection)

算法中的超参数 qq 决定了对异常值的敏感程度。qq 值越大,允许 si2s_i^2 偏离其期望值越多,即认为更多的数据点是干净的(pp 越大),反之亦然。论文指出,qq 的选择可能依赖于数据结构,但与异常值比例关系不大。在本文中,qq 通过网格搜索 (grid search) 在预定范围内选择,以最小化模型误差 (MAPE)。未来的工作可以考虑使用 kk-折交叉验证 (k-fold cross-validation) 等数据驱动方法来选择 qq

附录 A: si2s_i^2 的渐近分布 (Asymptotic distribution of si2s_i^2) 该附录详细推导了有序绝对残差平方和 si2s_i^2 的渐近分布。 假设残差 e1,,ene_1, \ldots, e_n 独立同分布,服从 N(0,σ2)N(0, \sigma^2)。那么每个绝对残差 ei|e_i| 服从折叠正态分布 FN(0,σ2)\mathcal{FN}(0, \sigma^2)。 定义 p~j=j/(n+1)\tilde{p}_j = j/(n+1)ξj=F1(p~j)\xi_j = F^{-1}(\tilde{p}_j),其中 F1F^{-1}FN(0,σ2)\mathcal{FN}(0, \sigma^2) 的分位数函数。 通过应用 David and Nagaraja (2003, Theorem 10.3) 关于序统计量渐近联合分布的定理,作者证明了 e(1),,e(i)|e|_{(1)}, \ldots, |e|_{(i)} 的渐近联合分布是 ii 维正态分布。 然后,使用 Delta 方法,推导出了 si2s_i^2 的渐近正态分布: \sqrt { n } \left( s _ { i } ^ { 2 } - \frac { 1 } { i } \sum _ { j = 1 } ^ { i } \xi _ { j } ^ { 2 } \right) \bigg / \left( \frac { 2 } { i } \sqrt { \xi _ { i } ^ { \top } \Sigma _ { ( i ) } \xi _ _ { i } } \right) \overset { \mathrm { d } } { \longrightarrow } \mathcal { N } ( 0 , 1 ) 其中 ξi=(ξ1,,ξi)\boldsymbol{\xi}_i = (\xi_1, \ldots, \xi_i)^\topΣ(i)\boldsymbol{\Sigma}_{(i)} 是协方差矩阵,其元素 σ(i),jj\sigma_{(i),jj'}p~j(1p~j)f(ξj)f(ξj)\frac{\tilde{p}_j(1-\tilde{p}_{j'})}{f(\xi_j)f(\xi_{j'})} 给出。 f(r)FN(0,σ2)\mathcal{FN}(0, \sigma^2) 的密度函数。 这个渐近结果是算法中判断 si2s_i^2 何时偏离期望以检测异常值的理论基础。

附录 B: 修改版 MAD 估计器的推导 (Derivation of the modified MAD estimator) 该附录推导了本文中使用的修改版 σ^2\hat{\sigma}^2 估计器。 基于附录 A 的渐近结果,我们知道 si2s_i^2 的期望值 E[si2]\mathbb{E}[s_i^2] 近似于 1ij=1iξj2\frac{1}{i} \sum_{j=1}^i \xi_j^2。 其中 ξj2=σ2[Φ1((1+p~j)/2)]2\xi_j^2 = \sigma^2 [\varPhi^{-1}((1+\tilde{p}_j)/2)]^2。 如果假设 np\lfloor np \rfloor 是干净数据点的真实数量,那么我们可以用实际观测到的 snp2s_{\lfloor np \rfloor}^2 来替代 E[snp2]\mathbb{E}[s_{\lfloor np \rfloor}^2],并重新排列得到 σ2\sigma^2 的估计器: \hat { \sigma } ^ { 2 } = \sum _ { i = 1 } ^ { \lfloor n p \rfloor } | e | _ { ( i ) } ^ { 2 } \middle / \sum _ { i = 1 } ^ { \lfloor n p \rfloor } [ \phi ^ { - 1 } ( \frac { 1 + \tilde { p } _ { i } } { 2 } ) ] ^ { 2 } 这个估计器在 nn \to \infty 且数据独立同分布服从 N(0,σ2)N(0, \sigma^2) 时,根据大数定律具有一致性。在算法中,为了鲁棒性,求和上限被保守地设置为 n/4\lfloor n/4 \rfloor

5. 实验设置

5.1. 数据集

本文的实验使用了 GEFCom2012 (Global Energy Forecasting Competition 2012) 数据集 (Hong et al., 2014) 进行案例研究,并使用了合成数据进行模拟研究。

5.1.1. 合成数据 (Simulation Study)

  • 模型: yi=β0+β1x1i+β2x2i+β3x3i+ϵi,i=1,2,,n y _ { i } = \beta _ { 0 } + \beta _ { 1 } x _ { 1 i } + \beta _ { 2 } x _ { 2 i } + \beta _ { 3 } x _ { 3 i } + \epsilon _ { i } , \quad i = 1 , 2 , \ldots , n 其中回归系数设定为:β0=1.3\beta_0 = -1.3, β1=2\beta_1 = 2, β2=1.7\beta_2 = 1.7, β3=3\beta_3 = -3
  • 特征变量:
    • x1iU(1,1)x_{1i} \sim \mathcal{U}(-1, 1) (均匀分布)
    • x2iN(0,1)x_{2i} \sim \mathcal{N}(0, 1) (标准正态分布)
    • x3iU(0,1)x_{3i} \sim \mathcal{U}(0, 1) (均匀分布)
  • 残差 (Errors):
    • 总数据点数 n=2000n = 2000
    • 设定异常值比例 1-p,因此干净数据点数为 h=nph = \lfloor np \rfloor
    • 干净残差: ϵiN(0,σ1)\epsilon_i \sim \mathcal{N}(0, \sigma_1),对于 i=1,,hi = 1, \ldots, h,其中 σ1=0.1\sigma_1 = 0.1
    • 异常值残差: ϵiN(0,σ2)\epsilon_i \sim \mathcal{N}(0, \sigma_2),对于 i=h+1,,ni = h+1, \ldots, n,其中 σ2=1.3\sigma_2 = 1.3
  • 目的: 评估不同 pp 值(从 0.5 到 1.0)下,本文方法与 Bacher ALTS 对 ppσσ 的估计准确性以及预测误差 (MAPE)。

5.1.2. GEFCom2012 数据 (Case Study: Electricity Demand Forecasting)

  • 来源: GEFCom2012 竞赛数据 (Hong et al., 2014)。
  • 内容: 包含来自 20 个区域的每小时负荷历史数据和温度历史数据。
  • 时间范围: 从 2004 年 1 月 1 日到 2008 年 6 月 30 日。
  • 数据预处理: 移除了缺失值的行。
  • 模型: 采用 Hong (2010) 提出的多元线性回归模型,该模型也是 GEFCom2012 的基准模型 (Hong, 2014) 和 Jiao et al. (2022) 使用的模型。
    • 响应变量: 电力负荷 (以 MW 测量)。
    • 特征变量:
      • LL: 数据趋势 (第 L 行)。
      • TT: 当前小时的温度。
      • MM: 月份 (12 个水平的分类变量)。
      • WW: 星期几 (7 个水平的分类变量)。
      • HH: 小时 (24 个水平的分类变量)。
    • 主效应: L,M,W,H,T,T2,T3L, M, W, H, T, T^2, T^3
    • 交互效应: HW,TM,T2M,T3M,TH,T2H,T3HHW, TM, T^2M, T^3M, TH, T^2H, T^3H
    • 总参数数量: 模型共包含 285 个回归参数。
  • 训练/验证集:
    • 训练集: 2005 年和 2006 年的数据。
    • 验证集: 2007 年的数据。

5.1.2.1. 网络攻击模板 (Cyberattack Templates)

遵循 Jiao et al. (2022) 的设定,考虑两种类型的网络攻击:随机攻击 (random attacks) 和渐进攻击 (ramp attacks)。攻击以比例 1-p 随机选择数据点进行。

  • 随机攻击 (Random Attack): 随机选择 (1p)n\lfloor (1-p)n \rfloor 个数据点进行攻击。 yt,a=(1+s100)yt y _ { t , a } = \left( 1 + \frac { s } { 1 0 0 } \right) y _ { t } 其中 yt,ay_{t,a} 是受攻击数据,yty_t 是未受攻击数据,sN(μ,σ2)s \sim \mathcal{N}(\mu, \sigma^2) 是为每个被攻击点抽取的缩放因子。

    • μ>0\mu > 0 对应经济损失 (Economic Loss),导致供应浪费。
    • μ<0\mu < 0 对应系统停电 (System Blackout),导致供应不足。
    • 攻击参数化为 μ\mu 和变异系数 cv=μ/σ\mathrm{cv} = \mu/\sigma
  • 渐进攻击 (Ramp Attack): 将数据分成等长的 n/(tets) \lfloor n / (t_e - t_s) \rfloor 个时间间隔,然后选择 (1p)n/(tets) \lfloor (1-p)n / (t_e - t_s) \rfloor 个间隔进行攻击。 yt,a={(1+λ(tts))yt,ts<t12(ts+te), y _ { t , a } = \left\{ { ( 1 + \lambda \left( t - t _ { s } \right) ) y _ { t } , } \quad t _ { s } < t \leq \frac { 1 } { 2 } ( t _ { s } + t _ { e } ) , \right. 攻击在区间 (ts,te)(t_s, t_e) 内进行。λ\lambda 是缩放参数。攻击在前半段增加负荷(λ>0\lambda > 0)或减少负荷(λ<0\lambda < 0),后半段反之。这种攻击更难检测,因为它可能模仿正常的负荷波动。

    • 第一种参数化: (,λ)(\ell, \lambda),其中 =tets\ell = t_e - t_s 是攻击窗口长度。
    • 第二种参数化: (,γ)(\ell, \gamma)\text{,其中}$\gamma = 1 + \ell \lambda / 2\text{。} \text{以下是原文} Figure 1 \text{展示的} GEFCom2012 \text{数据子集及其攻击示例:} ![\text{该图像是一个图表,展示了电力负荷数据在不同情况下的变化趋势,包含}(a)\text{干净数据,}(b)\text{随机攻击下数据,以及}(c)\text{渐进攻击下的数据负荷变化情况。}](/files/papers/690ffe55f205bb3597edd086/images/1.jpg) *\text{该图像是一个图表,展示了电力负荷数据在不同情况下的变化趋势,包含}(a)\text{干净数据,}(b)\text{随机攻击下数据,以及}(c)\text{渐进攻击下的数据负荷变化情况。}* *\text{图}1. GEFCom2012 \text{数据子集。} (a) \text{干净数据。} (b) \text{随机攻击数据,参数} $\mu = 40, \sigma = 7, p = 0.3$\text{。} (c) \text{渐进攻击数据,参数} $p = 0.3, \lambda = 0.03, t_e - t_s = 50$\text{。}* ## 5.2. \text{评估指标} \text{本文主要使用平均绝对百分比误差} (Mean Absolute Percentage Error, MAPE) \text{作为预测准确性的评估指标。} ### 5.2.1. \text{平均绝对百分比误差} (Mean Absolute Percentage Error, MAPE) 1. <strong>\text{概念定义} (Conceptual Definition):</strong> MAPE \text{衡量的是预测值与实际值之间差异的平均百分比。它是一种直观且易于理解的评估指标,能够反映预测误差相对于实际值的相对大小,因此在电力负荷预测等领域被广泛使用。}MAPE \text{的优点是其结果以百分比形式呈现,便于不同规模的数据集或不同业务场景之间的比较。然而,当实际值}\mu_i
接近或等于零时,MAPE 会变得不稳定或无限大,这是其一个已知局限性。

2.  **数学公式 (Mathematical Formula):**
\mathrm { M A P E } = \frac { 1 0 0 } { n } \sum _ { i = 1 } ^ { n } \frac { | \mu _ { i } - \hat { y } _ { i } | } { | \mu _ { i } | }
3.  **符号解释 (Symbol Explanation):**
    *   `MAPE`: 平均绝对百分比误差。
    *   nn: 数据点的总数量。
    *

\sum_{i=1}^n

: 对所有 nn 个数据点进行求和。
    *

|\cdot

: 绝对值运算符。
    *

\mu_i

: 第 ii 个数据点的真实值或期望值(在模拟研究中指无噪声的 yiy_i,在实际预测中指实际负荷)。
    *

\hat{y}_i

: 第 ii 个数据点的预测值。
    *

\frac{100}{n}

: 将平均绝对误差转换为百分比形式。

## 5.3. 对比基线
本文将提出的改进 ALTS 方法与多种现有鲁棒回归方法进行了比较:

*   **Bacher 的 ALTS (Bacher's ALTS):** Jiao et al. (2022) 采用的方法,也是本文改进的直接对象。
*   **固定参数 M-估计 (Fixed-parameter M-estimation):**
    *   **Huber 估计 (Huber):** 使用默认固定参数 k=1.345k=1.345 的 Huber M-估计。
    *   **Bisquare 估计 (Bisquare):** 使用默认固定参数 c=4.685c=4.685 的 Bisquare M-估计。
*   **数据驱动 M-估计 (Data-driven M-estimation):**
    *   **数据驱动 Huber (Huber DD):** Wang et al. (2007) 提出的数据驱动 Huber M-估计,自动选择参数 kk。
    *   **数据驱动 Bisquare (Bisquare DD):** Jiang et al. (2019) 和 Wang et al. (2007) 提出的数据驱动 Bisquare M-估计,自动选择参数 cc。
*   **L1L_1 回归 (L1L_1 Regression):** 对应于最小绝对离差估计器 (LAD estimator),在本文中用于初始化模型,也被作为一种鲁棒基线进行比较 (Luo et al., 2019)。
*   **最小二乘法 (Least Squares, LS):** 作为非鲁棒方法的基准。

    **所有模型的初始估计**(包括本文的新方法和 Bacher 的 ALTS)均使用 He et al. (2021) 提出的平滑分位数回归 (smoothed quantile regression) 方法,通过 `conquer` 和 `quantreg` R 包实现。这本质上是使用 `0.5` 分位数回归,可以视为 L1L_1 回归估计器。

**超参数 qq 的选择:**
对于本文提出的新 ALTS 方法,在电力负荷预测案例研究中,大多数结果使用 q=1.2q = 1.2。对于小

\mu

值的经济损失随机攻击场景(图 3 和表 D.4),则使用 q=1q = 1。这些 qq 值是通过在 `q ∈ {1, 1.07, ..., 1.49}` 范围内进行网格搜索,并选择在不同攻击模板下持续给出较低 MAPE 值的 qq 来确定的。

# 6. 实验结果与分析

## 6.1. 核心结果分析

### 6.1.1. 模拟研究结果 (Simulation Study Results)

本文首先通过一个合成数据集上的模拟研究来验证新方法的性能。该研究使用了模型 (16) 并在不同异常值比例 pp 下进行了 100 次模拟。

以下是原文 Table 2 展示的模拟研究结果:

pBacher's pNew pBacher's bNew bBacher's MAPENew MAPE
0.50.7120.5270.2390.1892.625%1.305%
0.550.7230.5640.2020.1742.185%1.265%
0.60.7450.6080.1780.1601.668%1.139%
0.650.7720.6530.1610.1491.468%1.114%
0.70.7990.7030.1450.1391.339%0.983%
0.750.8290.7490.1330.1301.045%0.908%
0.80.8610.8090.1230.1231.029%0.897%
0.850.8940.8570.1160.1160.938%0.905%
0.90.9270.9110.1080.1100.838%0.844%
0.950.9610.9600.1030.1050.672%0.722%
10.9940.9930.0980.1000.754%0.744%
*表2. 使用 q=1.35q=1.35 对模型 (16) 进行 100 次模拟研究的结果。 “Bacher's”指 Bacher 的 ALTS 方法的结果,“New”指算法 1 的结果。* **分析:** * **pp 估计 (pp estimates):** * Bacher 的 ALTS 方法在所有 pp 值下都倾向于**高估** pp 的真实值(即低估异常值比例 `1-p`)。例如,当真实 p=0.5p=0.5 时,Bacher 方法估计为 `0.712`。 * 本文提出的新方法 (New ALTS) 能够更准确地估计 pp 值,其估计值与真实 pp 值非常接近,且通常略微**低估**真实 pp 值(即略微高估异常值比例 `1-p`),这是一种更保守且有效移除异常值的策略。例如,当真实 p=0.5p=0.5 时,新方法估计为 `0.527`。 * **σ\sigma 估计 (σ\sigma estimates):** * Bacher 的 ALTS 方法显著**高估**了干净数据标准差 σ\sigma 的真实值(σ1=0.1\sigma_1 = 0.1)。例如,当真实 p=0.5p=0.5 时,Bacher 方法估计为 `0.239`。 * 新方法虽然仍然略微高估 σ\sigma,但其估计值更接近真实值,例如,当真实 p=0.5p=0.5 时,新方法估计为 `0.189`,显著优于 Bacher 方法。 * **MAPE 值 (MAPE values):** * 新方法的 MAPE 值在几乎所有 pp 值下都显著**低于** Bacher 的 ALTS 方法。 * 这种性能差异在异常值比例较高(pp 较小)时尤为明显。例如,当 p=0.55p=0.55 时,新方法的 MAPE 为 1.265%1.265\%,而 Bacher 方法为 2.185%2.185\%,新方法表现出约 72%72\% 的改进。 * 对于异常值数量较少(pp 较大)的情况,两种方法的 MAPE 差异减小,但新方法通常仍略优。 **结论:** 模拟研究有力地证明了本文提出的新方法在估计异常值比例 pp 和干净数据标准差 σ\sigma 方面的准确性,以及在预测精度(MAPE)方面的显著优势,特别是在数据受到严重污染时。 ### 6.1.2. 电力负荷预测案例研究结果 (Electricity Demand Forecasting Case Study Results) 本研究将新方法应用于 GEFCom2012 数据集,并与多种基线方法在随机攻击和渐进攻击下进行比较。 #### 6.1.2.1. 随机攻击数据 (Random-Attacked Data) **经济损失攻击 (μ>0\mu > 0):** 这种攻击旨在通过夸大负荷数据导致电力供应过剩,造成经济损失。 以下是原文 Figure 2 展示的经济损失攻击下的结果: ![该图像是包含九个子图的图表,展示了不同方法在不同参数条件下预测电力需求的MAPE随参数p变化的趋势。横轴为参数p,纵轴为MAPE,曲线颜色代表不同方法,图中表明新方法在多数情况下表现优于其他方法。](/files/papers/690ffe55f205bb3597edd086/images/2.jpg) *图2. 经济损失结果。MAPE 结果,新方法 (q=1.2) 与 Bacher 方法、Bisquare、数据驱动 Bisquare、Huber、数据驱动 Huber、L1 回归和最小二乘法在不同 μ 和 cv (σ/μ) 组合下,随干净数据比例 p 变化的对比。所有实验都使用 μ > 0。详见表 D.3。* **分析:** * **在所有参数组合下,本文提出的新方法 (New ALTS) 均表现出优于其他方法的预测精度。** 尤其是在攻击规模较大(pp 值较小,即异常值比例较大)时,新方法的优势更加明显。 * L1L_1 回归 (L1 regression) 是次优的竞争方法,其次是 Jiao et al. (2022) 使用的 Bacher 的 ALTS。 * 当平均攻击规模(

\mu

)增加时,新方法与 Bacher ALTS 之间的相对性能差距缩小,但新方法始终保持领先。变异系数 `cv` 对此影响不显著。
*   Bisquare 方法及其数据驱动版本 (Bisq. DD) 性能相似,但不如新方法或 L1L_1 回归。
*   所有方法的 MAPE 随着

\mu

的增加而增加,但与 `cv` 无关。
*   在没有异常值(p=1p=1)的情况下,所有方法性能相似,没有明显的最优模型。

    以下是原文 Table D.3 展示的详细结果:

    
Parameters MAPE (%)
1-p µ c = σ/μ Jiao New Bisq. Bisq. DD Hub. Hub. DD L1 LS
0.0 50 1/6 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 100 1/6 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 150 1/6 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 50 1/5 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 100 1/5 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 150 1/5 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 50 1/4 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 100 1/4 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 150 1/4 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.1 50 1/6 5.98 6.06 6.00 6.03 5.83 5.88 5.78 6.48
0.1 100 1/6 6.00 6.08 6.01 6.10 5.83 5.90 5.79 9.58
0.1 150 1/6 6.00 6.07 6.01 6.12 5.83 5.90 5.78 13.88
0.1 50 1/5 6.00 6.08 6.01 6.04 5.85 5.90 5.80 6.43
0.1 100 1/5 6.00 6.08 6.01 6.11 5.84 5.90 5.77 9.60
0.1 150 1/5 5.99 6.08 6.01 6.13 5.83 5.90 5.79 13.79
0.1 50 1/4 6.02 6.09 6.02 6.05 5.85 5.91 5.78 6.26
0.1 100 1/4 6.02 6.08 6.02 6.10 5.83 5.90 5.78 9.45
0.1 150 1/4 6.00 6.06 6.00 6.11 5.85 5.91 5.80 13.75
0.2 50 1/6 6.01 5.92 6.00 6.12 5.91 5.84 6.17 9.25
0.2 100 1/6 6.01 5.81 6.01 6.09 5.86 5.84 6.08 16.81
0.2 150 1/6 5.99 5.87 6.00 6.09 5.92 5.85 6.20 27.24
0.2 50 1/5 6.01 5.86 6.00 6.09 5.90 5.83 6.15 9.28
0.2 100 1/5 6.00 5.84 6.00 6.10 5.92 5.87 6.17 17.42
0.2 150 1/5 6.00 5.86 6.01 6.11 5.96 5.86 6.26 28.01
0.2 50 1/4 5.97 5.98 5.98 6.10 5.87 5.84 6.09 8.91
0.2 100 1/4 5.99 5.91 6.01 6.09 5.88 5.84 6.15 18.00
0.2 150 1/4 5.98 5.83 6.00 6.09 5.91 5.85 6.22 27.91
0.3 50 1/6 6.44 6.07 9.18 6.05 10.81 6.44 7.83 13.53
0.3 100 1/6 6.16 6.04 6.00 6.04 18.25 6.15 7.81 26.91
0.3 150 1/6 6.20 6.16 6.01 6.17 25.30 6.16 7.83 41.41
0.3 50 1/5 6.34 6.08 7.10 6.02 10.21 6.27 7.62 13.24
0.3 100 1/5 6.09 6.04 6.01 6.06 17.30 6.08 7.70 27.09
0.3 150 1/5 6.08 6.03 6.01 6.07 24.49 6.06 7.80 41.62
0.3 50 1/4 6.22 6.03 5.99 6.03 9.47 6.13 7.40 12.72
0.3 100 1/4 6.05 6.09 6.00 6.11 16.55 6.14 7.97 27.24
0.3 150 1/4 6.03 6.04 6.00 6.08 22.54 6.04 7.87 41.58
0.4 50 1/6 11.46 6.92 16.86 6.05 17.33 17.93 11.59 17.93
0.4 100 1/6 10.77 8.44 34.90
*表D.3. 经济损失案例研究结果。 "DD" 表示数据驱动版本。“Jiao”指 Jiao 等人(2022)的 Bacher ALTS,“New”指本文开发的 ALTS 扩展。本文方法中 q=1.2q=1.2。详见图 2。* **小

\mu

值经济损失攻击:**
这种攻击的特点是攻击强度较小,但标准差较大(`cv` 较小),使得攻击数据点与正常数据点差异不明显,更难以防范。

以下是原文 Figure 3 展示的小

\mu\text{值经济损失攻击下的结果:} ![Fig. 3. Economic loss results for small $\\mu$ . MAPE results for the new method compared to Bacher's method for a range of values of $\\mu$ and $\\mathtt { c v } = \\mu / \\sigma$ , as a function of the…](/files/papers/690ffe55f205bb3597edd086/images/3.jpg) *\text{图}3. \text{小}\mu

值的经济损失结果。MAPE 结果,新方法 (q=1) 与 Bacher 方法、Bisquare、数据驱动 Bisquare、Huber、数据驱动 Huber、L1 回归和最小二乘法在不同

\mu

cv(μ/σ)cv (μ/σ) 组合下,随干净数据比例 p 变化的对比。所有实验都使用

\mu > 0

。详见表 D.4。*

**分析:**
*   在 cv=2cv = 2 的情况下,所有方法的表现都相似,新方法和 L1L_1 回归最具竞争力。
*   随着 `cv` 增加,新方法保持最优性能,并且在所有

\mu

值下都一致。
*   对于大规模攻击(`1-p` 较大),新方法和 L1L_1 回归是理想选择。在没有异常值(p=1p=1)的情况下,表现也很好。
*   值得注意的是,在这种情况下,新方法使用了 q=1q = 1 而非 q=1.2q = 1.2,因为 q=1.2q = 1.2 的结果较差。这表明 qq 的选择对特定攻击模式敏感。

    以下是原文 Table D.4 展示的详细结果:

    
Parameters MAPE (%)
1 -p µ c = σ/μ Jiao New Bisq. Bisq. DD Hub. Hub. DD L1 LS
0.0 5 2 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 10 2 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 15 2 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 5 4 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 10 4 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 15 4 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 5 6 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 10 6 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 15 6 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.1 5 5.98 6.03 5.97 5.98 5.94 5.95 5.93 5.90
0.1 10 5.99 6.07 5.98 6.00 5.93 5.94 5.90 5.87
0.1 15 6.02 6.10 6.01 6.03 5.93 5.94 5.88 5.85
0.1 5 4 6.02 6.08 6.02 6.02 5.99 5.99 5.99 5.98
0.1 10 4 6.02 6.08 6.01 6.02 5.96 5.96 5.94 5.99
0.1 15 4 6.01 6.08 6.01 6.02 5.96 5.96 5.95 6.17
0.1 5 6 6.03 6.09 6.02 6.03 5.99 5.98 5.98 6.00
0.1 10 6 6.02 6.10 6.02 6.03 5.98 5.98 5.99 6.18
0.1 15 6 5.99 6.08 6.00 6.01 5.97 5.97 5.99 6.73
0.2 5 2 5.94 6.02 5.92 5.94 5.89 5.90 5.85 5.84
0.2 10 2 5.95 6.09 5.95 6.01 5.85 5.89 5.80 5.81
0.2 15 2 5.97 6.13 5.98 6.04 5.87 5.92 5.83 6.02
0.2 5 4 5.99 6.08 5.98 6.02 5.92 5.93 5.90 5.85
0.2 10 4 6.01 6.10 5.99 6.02 5.95 5.95 5.94 6.15
0.2 15 4 6.00 6.11 6.00 6.03 5.92 5.94 5.90 6.44
0.2 5 6 6.01 6.08 6.01 6.04 5.97 5.97 5.95 5.99
0.2 10 6 6.04 6.15 6.03 6.05 5.99 6.00 5.98 6.56
0.2 15 6 6.01 6.14 6.01 6.04 5.95 5.95 5.95 7.37
0.3 5 2 5.87 5.99 5.86 5.89 5.82 5.85 5.79 5.79
0.3 10 2 5.92 6.11 5.92 6.01 5.83 5.86 5.80 5.86
0.3 15 2 6.00 6.13 5.98 6.06 5.84 5.89 5.84 6.27
0.3 5 4 5.96 6.13 5.95 6.01 5.89 5.91 5.87 5.88
0.3 10 4 6.01 6.13 6.00 6.07 5.93 5.95 5.89 6.35
0.3 15 4 6.03 6.16 6.02 6.07 5.94 5.96 5.92 7.27
0.3 5 6 5.98 6.14 5.98 6.04 5.93 5.94 5.91 6.04
0.3 10 6 6.11 6.14 6.05 6.05 5.99 5.99 5.98 6.93
0.3 15 6 6.05 6.13 6.02 6.06 5.98 5.98 5.99 8.18
0.4 5 5.85 6.00 5.83 5.86 5.80 5.82 5.76 5.77
0.4 10 5.91 6.10 5.89 6.00 5.84 5.84 5.83 6.05
0.4 15 2 5.94 6.03 5.93 6.04 5.88 5.84 5.87 6.92
0.4 5 4 5.95 6.16 5.95 6.03 5.89 5.92 5.84 5.91
0.4 10 4 6.01 6.04 5.99 6.05 5.90 5.91 5.88 6.54
0.4 15 4 5.99 5.94 5.96 6.05 5.95 5.92 5.95 7.88
0.4 5 6 6.02 6.19 5.99 6.05 5.94 5.97 5.93 6.12
0.4 10 6 6.08 5.97 6.04 6.09 5.99 5.98 5.97 7.16
0.4 15 6 6.20 6.01 6.08 6.09 6.05 6.01 6.04 8.91
0.5 5 2 5.81 5.99 5.80 5.82 5.78 5.80 5.75 5.78
0.5 10 2 5.98 6.12 5.92 6.02 5.96 5.85 5.93 6.40
0.5 15 2 6.16 5.93 6.13 6.09 6.36 5.91 6.18 7.74
0.5 5 4 5.98 6.14 5.94 6.05 5.88 5.88 5.85 5.95
0.5 10 4 6.14 5.93 6.09 6.10 6.04 5.94 5.97 6.79
0.5 15 4 6.32 5.93 6.15 6.06 6.24 5.94 6.03 8.32
0.5 5 6 6.05 5.93 6.01 6.05 5.94 5.91 5.90 6.17
0.5 10 6 6.28 5.98 6.12 6.03 6.23 5.97 6.10 7.87
0.5 15 6 6.42 6.01 6.21 6.08 6.43 6.00 6.14 10.01
*表D.4. 小 μ\mu 值的经济损失案例研究结果。 "DD" 表示数据驱动版本。“Jiao”指 Jiao 等人(2022)的 Bacher ALTS,“New”指本文开发的 ALTS 扩展。本文方法中 q=1.0q=1.0。详见图 3。* **系统停电攻击 (μ<0\mu < 0):** 这种攻击旨在通过压低负荷数据导致电力供应不足,造成系统停电。 以下是原文 Figure 4 展示的系统停电攻击下的结果: ![该图像是论文中关于不同方法在不同参数条件下预测误差(MAPE)与比例参数p关系的多子图折线图,展示了各种鲁棒回归方法的性能比较。图中包含参数9\\mu和`cv`的不同组合,MAPE随p变化趋势清晰。](/files/papers/690ffe55f205bb3597edd086/images/4.jpg) *图4. 系统停电结果。MAPE 结果,新方法 (q=1.2) 与 Bacher 方法、Bisquare、数据驱动 Bisquare、Huber、数据驱动 Huber、L1 回归和最小二乘法在不同

\mu

cv(σ/μ)cv (σ/μ) 组合下,随干净数据比例 p 变化的对比。所有实验都使用

\mu < 0

。详见表 D.5。*

**分析:**
*   与经济损失攻击类似,本文提出的新方法在几乎所有情况下和所有 pp 值下,都**优于**其他所有方法。特别是在大规模攻击(`1-p` 较大)时,新方法的性能优势尤为显著。
*   Jiao et al. (2022) 的结果次优,其次是 Luo et al. (2019) 的 L1L_1 回归。
*   当

\mu

绝对值较小时,模型之间的差异更明显;当

\mu

绝对值增大时,结果趋于相似,但新方法仍保持可区分的优势。`cv` 的变化对这种趋势影响不大。
*   在没有异常值(p=1p=1)的情况下,所有方法都具有竞争力。
*   数据驱动的 Huber 方法在大多数情况下表现为第三佳,与 L1L_1 回归具有竞争力。

    以下是原文 Table D.5 展示的详细结果:

    
Parameters MAPE (%)
1-p µ cv = σ/ Jiao New Bisq. Bisq. DD Hub. Hub. DD L1 LS
0.0 -20 -1/4 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 -40 -1/4 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 -60 −1/4 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 -20 -1/5 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 -40 -1/5 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 -60 -1/5 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 -20 -1/6 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 -40 -1/6 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 -60 -1/6 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.1 -20 −1/4 6.22 6.09 6.20 6.07 6.31 6.20 6.51 6.69
0.1 -40 −1/4 6.03 6.09 6.01 6.03 6.29 6.16 6.64 7.75
0.1 -60 −1/4 6.01 6.09 6.01 6.04 6.35 6.19 6.75 9.47
0.1 -20 -1/5 6.20 6.07 6.18 6.05 6.32 6.19 6.56 6.77
0.1 -40 -1/5 6.02 6.10 6.01 6.03 6.33 6.19 6.73 7.98
0.1 -60 -1/5 6.02 6.09 6.01 6.03 6.32 6.17 6.72 9.29
0.1 -20 -1/6 6.20 6.11 6.18 6.08 6.30 6.20 6.51 6.68
0.1 -40 -1/6 6.04 6.10 6.02 6.03 6.33 6.18 6.70 7.94
0.1 -60 -1/6 6.01 6.09 6.00 6.03 6.33 6.18 6.73 9.41
0.2 -20 −1/4 6.78 6.36 6.95 6.44 7.09 6.61 7.40 7.79
0.2 -40 -1/4 6.23 6.72 6.07 6.09 7.23 6.50 7.97 10.65
0.2 -60 −1/4 6.13 6.39 6.01 6.09 7.32 6.50 8.10 14.27
0.2 -20 -1/5 6.77 6.14 6.94 6.34 7.11 6.64 7.42 7.85
0.2 -40 -1/5 6.29 6.86 6.10 6.11 7.29 6.53 8.05 10.81
0.2 -60 -1/5 6.14 6.84 6.00 6.10 7.30 6.47 8.12 14.46
0.2 -20 -1/6 6.72 6.24 6.83 6.23 7.02 6.60 7.34 7.78
0.2 -40 -1/6 6.33 6.72 6.14 6.09 7.32 6.55 8.05 10.84
0.2 -60 -1/6 6.14 6.88 6.03 6.12 7.30 6.49 8.12 14.09
0.3 -20 −1/4 8.73 6.94 8.77 8.99 8.84 9.26 8.81 9.26
0.3 -40 -1/4 7.16 6.05 12.29 13.24 12.68 12.23 10.37 14.10
0.3 -60 −1/4 6.78 6.02 14.61 17.27 16.10 8.18 10.32 19.20
0.3 -20 -1/5 8.56 7.00 8.69 8.92 8.77 9.14 8.72 9.20
0.3 -40 -1/5 7.36 6.05 12.25 13.41 12.72 9.52 10.49 14.37
0.3 -60 -1/5 6.84 6.11 13.94 9.96 16.64 8.53 10.92 20.29
0.3 -20 -1/6 8.42 6.71 8.55 8.83 8.61 8.96 8.63 9.17
-40 -1/6 7.38 6.07 11.41 10.77 12.10 8.78 10.28
0.3 -60 -1/6 6.70 6.05 6.13 6.03 15.41 8.04 10.58 14.27 19.87
0.3 0.4 -20 -1/4 10.84 10.15 10.62 10.71 10.70
*表D.5. 系统停电案例研究结果。 "DD" 表示数据驱动版本。“Jiao”指 Jiao 等人(2022)的 Bacher ALTS,“New”指本文开发的 ALTS 扩展。本文方法中 q=1.2q=1.2。详见图 4。* #### 6.1.2.2. 渐进攻击数据 (Ramp-Attacked Data) 渐进攻击比随机攻击更难检测,因为它模拟了负荷的自然波动。 **参数化 (,λ\ell, \lambda):** 以下是原文 Figure 5 展示的渐进攻击 (,λ\ell, \lambda) 下的结果: ![该图像是多子图的折线图,比较了不同方法在电力需求预测中针对不同参数L和λ下MAPE随p变化的表现。图中展示了Jiao、Bisquare、Huber、LS等方法的误差趋势,突出所提新方法的优越性。](/files/papers/690ffe55f205bb3597edd086/images/5.jpg) *图5. 渐进攻击结果。MAPE 结果,新方法 (q=1.2) 与 Bacher 方法、Bisquare、数据驱动 Bisquare、Huber、数据驱动 Huber、L1 回归和最小二乘法在不同 \ellλ\lambda 组合下,随干净数据比例 p 变化的对比。详见表 D.6。* **分析:** * 对于大规模攻击(`1-p` 较大),本文方法表现**优于**其他所有方法。 * 对于小规模攻击(`1-p` 较小),数据驱动的 bisquare 方法通常表现**更优**。非数据驱动的 bisquare 方法也表现良好,表明其默认参数 c=4.685c=4.685 在此场景下是合适的。 * 当攻击窗口长度 \ell 增加时,新方法的性能开始接近 bisquare 方法。 * 新方法始终优于 Jiao et al. (2022) 的结果(Bacher ALTS)。 * 攻击强度参数 λ\lambda 对这些趋势的影响不显著。 * 在没有异常值(p=1p=1)的情况下,所有方法性能相似。 以下是原文 Table D.6 展示的详细结果:
Parameters MAPE (%)
1-p l Y Jiao New Bisq. Bisq. DD Hub. Hub. DD L1 LS
0.0 40 0.05 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 60 0.05 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 80 0.05 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 40 0.1 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 60 0.1 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 80 0.1 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 40 0.15 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 60 0.15 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.0 80 0.15 6.03 6.03 6.01 6.01 5.99 6.00 6.01 5.99
0.1 40 0.05 5.95 6.05 5.98 6.03 5.86 5.89 5.86 6.90
0.1 60 0.05 5.99 6.08 6.00 6.07 5.94 5.97 5.94 8.01
0.1 80 0.05 5.95 6.05 5.97 6.10 6.00 6.01 6.02 12.03
0.1 40 0.1 6.00 6.10 6.01 6.12 5.93 5.95 5.98 11.98
0.1 60 0.1 5.99 6.08 6.01 6.11 5.94 5.97 6.01 16.66
0.1 80 0.1 5.97 6.07 5.98 7.94 6.16 6.14 6.18 21.14
0.1 40 0.15 5.96 6.05 5.98 6.18 5.79 5.84 5.76 17.73
0.1 60 0.15 6.05 6.13 6.06 7.79 6.01 6.01 6.01 20.29
0.1 80 0.15 5.97 6.07 5.98 7.27 6.04 6.04 6.13 29.34
0.2 40 0.05 5.93 6.02 5.96 6.07 5.96 5.90 6.11 9.10
0.2 60 0.05 5.93 6.20 5.92 6.08 6.39 6.02 6.98 17.34
0.2 80 0.05 5.97 6.13 6.01 6.88 6.47 6.26 6.77 19.73
0.2 40 0.1 5.94 6.03 5.98 6.09 6.13 5.96 6.41 17.66
0.2 60 0.1 6.02 6.09 6.00 6.50 6.20 6.05 6.57 28.20
0.2 80 0.1 5.99 6.15 5.97 7.17 7.97 6.95 8.66 55.45
0.2 40 0.15 5.94 6.10 6.00 6.41 6.13 5.99 6.48 30.33
0.2 60 0.15 6.03 6.26 6.05 7.91 6.44 6.14 6.91 46.72
0.2 80 0.15 6.03 6.32 6.02 10.67 7.37 7.05 7.28 63.10
0.3 40 0.05 6.14 6.34 5.97 6.11 7.53 6.26 7.52 13.74
0.3 60 0.05 6.42 6.07 5.95 6.20 10.28 6.99 9.68 26.13
0.3 80 0.05 6.53 6.62 6.11 6.78 9.49 7.33 8.32 25.58
0.3 40 0.1 6.38 6.34 6.01 6.29 9.31 6.92 8.17 24.06
0.3 60 0.1 6.57 6.63 6.04 7.38 10.93 7.90 8.86 38.80
0.3 80 0.1 6.84 6.16 5.89 9.04 18.55 8.94 12.05 69.38
0.3 40 0.15 6.11 6.01 5.92 6.93 11.21 6.76 8.90 42.19
0.3 60 0.15 6.71 6.77 5.99 9.69 16.09 9.14 11.02 70.98
0.3 80 0.15 7.33 7.27 6.12 10.34 18.14 10.72 11.29 93.28
0.4 40 0.05 7.57 6.03 6.61 6.08 11.45 8.02 9.31 17.53
0.4 60 0.05 9.13 6.29 6.52 6.37
*表D.6. 渐进攻击案例研究结果。 "DD" 表示数据驱动版本。“Jiao”指 Jiao 等人(2022)的 Bacher ALTS,“New”指本文开发的 ALTS 扩展。本文方法中 q=1.2q=1.2。详见图 5。* **参数化 (,γ\ell, \gamma):** 以下是原文 Figure 6 展示的渐进攻击 (,γ\ell, \gamma) 下的结果: ![该图像是论文中用于比较不同稳健回归方法在电力需求预测中表现的多子图折线图,展示了在不同参数LL\\gamma条件下,各方法的平均绝对百分比误差(MAPE)随pp变化的趋势,突出数据驱动方法的优越性。](/files/papers/690ffe55f205bb3597edd086/images/6.jpg) *图6. 渐进攻击结果。MAPE 结果,新方法 (q=1.2) 与 Bacher 方法、Bisquare、数据驱动 Bisquare、Huber、数据驱动 Huber、L1 回归和最小二乘法在不同 \ellγ=1+λ/2\gamma = 1 + \ell \lambda / 2 组合下,随干净数据比例 p 变化的对比。详见表 D.7。* **分析:** * 对于较短的攻击窗口 {100,200}\ell \in \{100, 200\},本文方法在**大规模攻击**时仍保持最优。 * 对于**小规模攻击**,数据驱动和非数据驱动的 bisquare 方法表现优于本文方法。 * 即使在这些情况下,本文方法也优于 Jiao et al. (2022) 的 Bacher ALTS。 * 当攻击窗口长度 =300\ell = 300 时,本文方法在所有 pp 值下均**劣于**数据驱动和非数据驱动的 bisquare 方法,但仍优于 Bacher ALTS。 * 当

\gamma$$ 增加时,新方法与 bisquare 方法的性能趋于相似。

以下是原文 Table D.7 展示的详细结果:

<div class="table-wrapper"><table>
<thead>
<tr>
<td colspan="3">Parameters</td>
<td colspan="9">MAPE (%)</td>
</tr>
<tr>
<td>1-p</td>
<td>l</td>
<td></td>
<td>Jiao</td>
<td>New</td>
<td>Bisq.</td>
<td>Bisq. DD</td>
<td>Hub.</td>
<td>Hub. DD</td>
<td>L1</td>
<td>LS</td>
</tr>
</thead>
<tbody>
<tr>
<td>0.0</td>
<td>100</td>
<td>2</td>
<td>6.03</td>
<td>6.03</td>
<td>6.01</td>
<td>6.01</td>
<td>5.99</td>
<td>6.00</td>
<td>6.01</td>
<td>5.99</td>
</tr>
<tr>
<td>0.0</td>
<td>200</td>
<td>2</td>
<td>6.03</td>
<td>6.03</td>
<td>6.01</td>
<td>6.01</td>
<td>5.99</td>
<td>6.00</td>
<td>6.01</td>
<td>5.99</td>
</tr>
<tr>
<td>0.0</td>
<td>300</td>
<td>2</td>
<td>6.03</td>
<td>6.03</td>
<td>6.01</td>
<td>6.01</td>
<td>5.99</td>
<td>6.00</td>
<td>6.01</td>
<td>5.99</td>
</tr>
<tr>
<td>0.0</td>
<td>100</td>
<td>3</td>
<td>6.03</td>
<td>6.03</td>
<td>6.01</td>
<td>6.01</td>
<td>5.99</td>
<td>6.00</td>
<td>6.01</td>
<td>5.99</td>
</tr>
<tr>
<td>0.0</td>
<td>200</td>
<td>3</td>
<td>6.03</td>
<td>6.03</td>
<td>6.01</td>
<td>6.01</td>
<td>5.99</td>
<td>6.00</td>
<td>6.01</td>
<td>5.99</td>
</tr>
<tr>
<td>0.0</td>
<td>300</td>
<td>3</td>
<td>6.03</td>
<td>6.03</td>
<td>6.01</td>
<td>6.01</td>
<td>5.99</td>
<td>6.00</td>
<td>6.01</td>
<td>5.99</td>
</tr>
<tr>
<td>0.0</td>
<td>100</td>
<td>4</td>
<td>6.03</td>
<td>6.03</td>
<td>6.01</td>
<td>6.01</td>
<td>5.99</td>
<td>6.00</td>
<td>6.01</td>
<td>5.99</td>
</tr>
<tr>
<td>0.0</td>
<td>200</td>
<td>4</td>
<td>6.03</td>
<td>6.03</td>
<td>6.01</td>
<td>6.01</td>
<td>5.99</td>
<td>6.00</td>
<td>6.01</td>
<td>5.99</td>
</tr>
<tr>
<td>0.0</td>
<td>300</td>
<td>4</td>
<td>6.03</td>
<td>6.03</td>
<td>6.01</td>
<td>6.01</td>
<td>5.99</td>
<td>6.00</td>
<td>6.01</td>
<td>5.99</td>
</tr>
<tr>
<td>0.1</td>
<td>100</td>
<td>2</td>
<td>5.94</td>
<td>6.08</td>
<td>5.97</td>
<td>6.04</td>
<td>5.82</td>
<td>5.83</td>
<td>5.95</td>
<td>9.06</td>
</tr>
<tr>
<td>0.1</td>
<td>200</td>
<td>2</td>
<td>5.97</td>
<td>6.09</td>
<td>6.00</td>
<td>6.05</td>
<td>6.14</td>
<td>6.08</td>
<td>6.43</td>
<td>9.34</td>
</tr>
<tr>
<td>0.1</td>
<td>300</td>
<td>2</td>
<td>6.24</td>
<td>6.26</td>
<td>6.15</td>
<td>6.58</td>
<td>6.56</td>
<td>6.44</td>
<td>6.80</td>
<td>9.36</td>
</tr>
<tr>
<td>0.1</td>
<td>100</td>
<td>3</td>
<td>6.00</td>
<td>6.09</td>
<td>6.00</td>
<td>6.09</td>
<td>6.04</td>
<td>6.04</td>
<td>6.20</td>
<td>12.19</td>
</tr>
<tr>
<td>0.1</td>
<td>200</td>
<td>3</td>
<td>5.93</td>
<td>6.08</td>
<td>5.99</td>
<td>6.15</td>
<td>5.99</td>
<td>5.96</td>
<td>6.28</td>
<td>17.34</td>
</tr>
<tr>
<td>0.1</td>
<td>300</td>
<td>3</td>
<td>6.00</td>
<td>6.15</td>
<td>6.02</td>
<td>7.47</td>
<td>6.57</td>
<td>6.32</td>
<td>7.18</td>
<td>17.95</td>
</tr>
<tr>
<td>0.1</td>
<td>100</td>
<td>4</td>
<td>6.02</td>
<td>6.07</td>
<td>6.03</td>
<td>6.98</td>
<td>6.15</td>
<td>6.12</td>
<td>6.18</td>
<td>15.73</td>
</tr>
<tr>
<td>0.1</td>
<td>200</td>
<td>4</td>
<td>6.32</td>
<td>6.52</td>
<td>5.99</td>
<td>9.47</td>
<td>6.83</td>
<td>6.75</td>
<td>7.14</td>
<td>24.84</td>
</tr>
<tr>
<td>0.1</td>
<td>300</td>
<td>4</td>
<td>6.13</td>
<td>6.13</td>
<td>6.13</td>
<td>9.52</td>
<td>6.71</td>
<td>6.54</td>
<td>6.99</td>
<td>22.61</td>
</tr>
<tr>
<td>0.2</td>
<td>100</td>
<td>2</td>
<td>6.08</td>
<td>6.17</td>
<td>6.02</td>
<td>6.53</td>
<td>6.85</td>
<td>6.41</td>
<td>7.50</td>
<td>13.80</td>
</tr>
<tr>
<td>0.2</td>
<td>200</td>
<td>2</td>
<td>6.11</td>
<td>6.20</td>
<td>6.01</td>
<td>6.31</td>
<td>6.87</td>
<td>6.49</td>
<td>7.23</td>
<td>12.65</td>
</tr>
<tr>
<td>0.2</td>
<td>300</td>
<td>2</td>
<td>6.99</td>
<td>7.02</td>
<td>7.00</td>
<td>7.71</td>
<td>7.62</td>
<td>7.33</td>
<td>7.97</td>
<td>11.21</td>
</tr>
<tr>
<td>0.2</td>
<td>100</td>
<td>3</td>
<td>6.09</td>
<td>6.55</td>
<td>6.02</td>
<td>9.16</td>
<td>6.82</td>
<td>6.64</td>
<td>7.21</td>
<td>21.18</td>
</tr>
<tr>
<td>0.2</td>
<td>200</td>
<td>3</td>
<td>6.78</td>
<td>6.87</td>
<td>6.29</td>
<td>9.71</td>
<td>8.67</td>
<td>7.64</td>
<td>9.75</td>
<td>33.42</td>
</tr>
<tr>
<td>0.2</td>
<td>300</td>
<td>3</td>
<td>7.80</td>
<td>8.00</td>
<td>6.67</td>
<td>10.03</td>
<td>9.28</td>
<td>8.87</td>
<td>9.81</td>
<td>20.55</td>
</tr>
<tr>
<td>0.2</td>
<td>100</td>
<td>4</td>
<td>6.06</td>
<td>6.22</td>
<td>6.07</td>
<td>7.71</td>
<td>6.98</td>
<td>6.59</td>
<td>7.35</td>
<td>30.24</td>
</tr>
<tr>
<td>0.2</td>
<td>200</td>
<td>4</td>
<td>8.16</td>
<td>8.87</td>
<td>7.07</td>
<td>13.72</td>
<td>9.83</td>
<td>9.31</td>
<td>10.34</td>
<td>34.50</td>
</tr>
<tr>
<td>0.2</td>
<td>300</td>
<td>4</td>
<td>8.12</td>
<td>8.80</td>
<td>7.23</td>
<td>16.64</td>
<td>11.19</td>
<td>10.57</td>
<td>11.49</td>
<td>33.77</td>
</tr>
<tr>
<td>0.3</td>
<td>100</td>
<td>2</td>
<td>6.71</td>
<td>7.36</td>
<td>6.55</td>
<td>6.62</td>
<td>8.49</td>
<td>7.18</td>
<td>8.49</td>
<td>15.61</td>
</tr>
<tr>
<td>0.3</td>
<td>200</td>
<td>2</td>
<td>7.04</td>
<td>7.51</td>
<td>6.29</td>
<td>6.83</td>
<td>8.43</td>
<td>7.35</td>
<td>8.32</td>
<td>14.64</td>
</tr>
<tr>
<td>0.3</td>
<td>300</td>
<td>2</td>
<td>8.55</td>
<td>8.24</td>
<td>6.94</td>
<td>8.97</td>
<td>11.38</td>
<td>9.33</td>
<td>11.28</td>
<td>19.41</td>
</tr>
<tr>
<td>0.3</td>
<td>100</td>
<td>3</td>
<td>6.97</td>
<td>7.64</td>
<td>6.29</td>
<td>7.34</td>
<td>11.18</td>
<td>8.40</td>
<td>9.81</td>
<td>27.60</td>
</tr>
<tr>
<td>0.3</td>
<td>200</td>
<td>3</td>
<td>9.07</td>
<td>10.86</td>
<td>7.63</td>
<td>12.08</td>
<td>13.12</td>
<td>11.08</td>
<td>12.34</td>
<td>30.89</td>
</tr>
<tr>
<td>0.3</td>
<td>300</td>
<td>3</td>
<td>9.87</td>
<td>10.76</td>
<td>6.51</td>
<td>13.69</td>
<td>18.16</td>
<td>12.03</td>
<td>15.35</td>
<td>36.73</td>
</tr>
<tr>
<td>0.3</td>
<td>100</td>
<td>4</td>
<td>8.41</td>
<td>8.35</td>
<td>7.27</td>
<td>10.43</td>
<td>13.61</td>
<td>10.15</td>
<td>11.24</td>
<td>41.03</td>
</tr>
<tr>
<td>0.3</td>
<td>200</td>
<td>4</td>
<td>10.44</td>
<td>12.68</td>
<td>8.53</td>
<td>16.50</td>
<td>18.84</td>
<td>15.00</td>
<td>15.74</td>
<td>49.36</td>
</tr>
<tr>
<td>0.3</td>
<td>300</td>
<td>4</td>
<td>14.09</td>
<td>17.14</td>
<td>10.66</td>
<td>20.24</td>
<td>21.65</td>
<td>17.74</td>
<td>19.47</td>
<td>42.58</td>
</tr>
<tr>
<td>0.4</td>
<td>100</td>
<td>2</td>
<td>8.56</td>
<td>7.93</td>
<td>7.25</td>
<td>6.37</td>
<td>11.45</td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td>0.4</td>
<td>100</td>
<td>2</td>
<td>10.90</td>
<td>11.71</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
</tbody>
</table></div>

表D.7. 渐进攻击案例研究结果,采用 γ=1+λ/2\gamma = 1 + \ell \lambda / 2 参数化。 "DD" 表示数据驱动版本。“Jiao”指 Jiao 等人(2022)的 Bacher ALTS,“New”指本文开发的 ALTS 扩展。本文方法中 q=1.2q=1.2。详见图 6。

6.1.3. 超参数 qq 的敏感性分析

附录 C 提供了新方法中超参数 qq 对结果影响的额外模拟研究。

以下是原文 Figure C.7 展示的额外的模拟研究结果:

\text{该图像是一个图表,展示了电力负荷数据在不同情况下的变化趋势,包含}(a)\text{干净数据,}(b)\text{随机攻击下数据,以及}(c)\text{渐进攻击下的数据负荷变化情况。} 图C.7. 额外的模拟研究结果。对模型 (16) 在 q{1,1.07,,1.49}q \in \{1, 1.07, \ldots, 1.49\} 范围内进行 100 次模拟的结果。(a) pp 的估计值 p^\hat{p}。(b) σ\sigma 的估计值 σ^\hat{\sigma}。(c) MAPE 值。

分析:

  • pp 估计:
    • qq 值过低(例如 q ∈ {1, 1.07, ..., 1.28})会导致低估 pp(即高估异常值比例)。
    • 本文选用的 q=1.35q = 1.35 几乎完美匹配真实 pp 值。
    • qq 值过高(例如 q ∈ {1.42, 1.49})会导致高估 pp
    • 与 Bacher ALTS 相比,q ∈ {1.28, 1.35, 1.42, 1.49} 的新方法曲线在估计 pp 方面明显更优。
  • σ\sigma 估计:
    • 新方法对 σ\sigma 的估计始终比 Bacher ALTS 更准确,并且这种准确性不依赖于 qq 的选择
  • MAPE 值:
    • 对于较小的 pp(异常值较多),新方法在所有 qq 值下都优于 Bacher ALTS。

    • 对于较大的 pp(异常值较少),结果开始依赖于 qq。其中 q ∈ {1.28, 1.35, 1.42, 1.49} 的值在所有 pp 值下都提供了比 Bacher ALTS 更好的 MAPE。

    • 最终选择 q=1.35q = 1.35 是因为它在所有场景中持续提供最准确的预测。

      结论: qq 是一个关键的调节参数,其选择显著影响新方法对 pp 和 MAPE 的表现。虽然需要调优,但选择合适的 qq 值可以使新方法在估计准确性和预测精度方面显著优于 Bacher 的 ALTS。

6.2. 数据呈现 (表格)

所有表格已在上述章节中完整转录。

6.3. 消融实验/参数分析

本文没有进行严格意义上的模型组件消融实验,但通过以下方式进行了参数分析:

  • 超参数 qq 的敏感性分析 (Appendix C): 详细探讨了新方法中超参数 qq 的选择对 ppσσ 估计和 MAPE 的影响。结果显示 qq 是一个重要参数,需要根据数据进行选择,但一旦选择得当,新方法表现出优异性能。

  • 攻击参数的广泛测试: 在 GEFCom2012 案例研究中,作者测试了随机攻击和渐进攻击下,不同攻击强度(μμ, λλ, γγ)、不同变异系数 (cv) 和不同异常值比例 (1-p) 的多种组合。这虽然不是对模型组件的消融,但有效地分析了模型在不同攻击场景下的鲁棒性和性能。

    这些分析表明,新方法的鲁棒性不是来自单一组件,而是通过更准确的方差估计和基于渐近分布的异常值比例估计的协同作用。参数 qq 作为控制异常值检测严格程度的关键,其选择对性能至关重要。

7. 总结与思考

7.1. 结论总结

本文提出了一种改进的自适应截尾回归 (ALTS) 方法,旨在解决电力需求数据在遭受网络攻击时预测模型鲁棒性不足的问题。新方法通过引入更鲁棒的干净数据方差估计器,并利用有序残差的渐近分布来更准确、更保守地估计异常值比例,从而克服了 Bacher 的 ALTS 方法的局限性。

通过合成数据模拟研究和 GEFCom2012 实际电力负荷数据的案例研究,本文证明了新方法在多种网络攻击场景下的优越性:

  • 在模拟研究中,新方法能够更准确地估计异常值比例和干净数据方差,并显著降低了 MAPE,尤其是在高异常值比例下。
  • 在随机攻击下,新方法在几乎所有情况下都优于其他所有对比方法,包括 Bacher 的 ALTS 和各种 M-估计方法,特别是在大规模攻击时性能提升显著。
  • 在渐进攻击下,新方法在大规模攻击时表现最佳,虽然在小规模攻击时数据驱动的 bisquare 方法可能更具竞争力,但新方法始终优于 Bacher 的 ALTS。
  • 即使在没有网络攻击的情况下(p=1p=1),新方法也能提供与最佳方法相当甚至更优的预测结果,使其成为一种可靠的通用预测工具。 总而言之,本文强调了数据驱动方法在电力需求预测中对抗网络攻击的显著优势,并提供了一种在鲁棒性和准确性方面均表现出色的新方法。

7.2. 局限性与未来工作

论文作者指出了以下局限性并提出了未来工作方向:

  • 攻击模板的局限性:

    • 仅考虑了随机攻击和渐进攻击。未来的工作可以研究其他攻击模板(如脉冲攻击 pulse attack、平滑曲线攻击 smooth-curve attack)或它们的组合。
    • 可以进一步研究方法性能与攻击长度、被攻击数据比例的关系,以及根据攻击规模在不同鲁棒方法之间切换的技术。
  • 模型类型的局限性:

    • 案例研究仅考虑了线性回归模型。未来的工作可以将本文的思想与时间序列方法(如状态空间模型 state-space model)结合,以提高预测精度并更好地捕捉数据中的时间相关性。
  • 异常值分类的局限性:

    • 本文主要关注预测精度,没有深入研究将单个数据点分类为异常值的问题。尽管新 ALTS 有潜力通过其内部机制(如 SS 集合的索引)进行分类,但这超出了本文的范围。
  • 数据集的局限性:

    • 仅使用了 GEFCom2012 数据集。未来的工作可以考虑在其他数据集上进行评估,以验证方法的通用性和发现其他特性。

      除了上述作者指出的局限性外,还有以下未来工作建议:

  • 超参数 qq 的自适应选择: 鉴于 qq 对结果的敏感性,可以开发数据驱动的方法来自动选择 qq,类似于 M-估计中调节参数的选择方式,或者研究 qq 在同一数据集上随时间变化的规律。

  • 混合分布的更可靠估计: 本文的异常值检测基于数据服从单一正态分布的假设,并通过偏离来识别异常值。未来的工作可以探索如何更可靠地估计由干净数据和异常值组成的混合分布,尤其是在干净数据本身可能包含多个分布的情况下。

  • 序统计量方法的推广: 可以将序统计量方法推广到残差不独立同分布的情况。

  • 在回归市场中的应用: 结合 Pinson et al. (2022) 的工作,将模型进一步推广到能源预测的回归市场中。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 数据驱动鲁棒性的重要性: 本文再次强调了在复杂和对抗性环境下,数据驱动方法相对于固定参数方法的巨大优势。它启发我们,在实际应用中,应尽可能设计能够自适应调整自身参数的模型,而非依赖于经验或假设的固定值。这对于应对不断变化的网络攻击模式或数据分布漂移至关重要。
  2. 残差分析的深度挖掘: 论文通过深入分析有序绝对残差的渐近分布,为异常值检测和干净数据比例估计提供了坚实的理论基础。这提醒我们,模型输出的中间结果(如残差)往往蕴含着丰富的信息,通过对其进行精细的统计分析,可以开发出更强大、更细致的诊断和处理机制。
  3. 保守策略的价值: 新方法在估计异常值比例时倾向于采取更“保守”的策略(略微高估异常值比例),这保证了异常值能够被更彻底地移除,即使这可能意味着牺牲少量干净数据。在电力系统这类高风险场景中,避免系统故障或经济损失的代价往往高于因少量数据损失而造成的轻微不精确性,这种思想具有很强的实践指导意义。
  4. 通用工具的潜力: 即使在没有网络攻击的情况下,新方法也能保持良好的预测性能,这意味着它可以在不确定数据是否受到污染的日常预测任务中作为一种可靠的默认工具使用。这大大拓宽了其应用范围,降低了实践者的决策成本。

7.3.2. 批判与潜在改进

  1. 超参数 qq 的依赖性: 尽管论文指出 qq 的选择与异常值比例无关,但它确实对数据结构和模型性能有显著影响(如图 C.7 所示,甚至在某些情况下需要手动调整)。仅仅依赖网格搜索虽然有效,但在实时或大规模部署中可能计算成本过高。开发一种完全数据驱动、无需人工干预的 qq 选择机制(例如,通过某种信息准则或贝叶斯优化)将是重要的改进方向。
  2. 计算复杂度考虑: LTS 方法本身就可能比标准最小二乘法计算更密集,尤其是在迭代过程中涉及排序和加权回归。在电力负荷预测这类通常需要快速响应的场景中,大规模数据下的计算效率是一个实际问题。论文并未详细讨论其新方法在计算复杂度上的影响,尤其是在与更轻量级的鲁棒方法(如简单的 L1L_1 回归)进行比较时。
  3. 特定攻击模式的优化: 论文中提到,在小规模渐进攻击下,数据驱动的 bisquare 方法可能优于新方法。这表明没有一种“放之四海而皆准”的鲁棒方法。未来工作可以探索一种集成或混合方法,能够根据检测到的攻击类型或强度(甚至可能通过一个辅助分类器来判断),自适应地选择最合适的鲁棒回归策略。
  4. 模型假设的进一步放宽: 论文假设干净数据残差服从正态分布,并利用这一假设推导了渐近分布。然而,实际电力负荷残差可能存在异方差性 (heteroscedasticity) 或非正态分布。未来的工作可以探索对这些假设更宽松的鲁棒方法,或在模型中显式地对这些特性进行建模。
  5. 解释性与可信赖性: 鲁棒方法,特别是那些涉及迭代权重调整的,其内部决策过程可能不如标准回归模型那么直观。在关键基础设施(如电力系统)中,决策者可能需要理解模型为何将某些数据点视为异常值。尽管本文关注预测精度,但提升模型的解释性和可信赖性对于实际应用也具有重要意义。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。