论文状态:已完成

Mean Aggregator is More Robust than Robust Aggregators under Label Poisoning Attacks on Distributed Heterogeneous Data

发表:2024/04/21
原文链接
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究探讨了在分布式异构数据中,均值聚合器在标签投毒攻击下的鲁棒性。尽管鲁棒聚合器通常被认为更优,但作者指出,在数据异构性较高的情况下,均值聚合器的学习误差是最优的,并在实验中验证了其优势。

摘要

Robustness to malicious attacks is of paramount importance for distributed learning. Existing works usually consider the classical Byzantine attacks model, which assumes that some workers can send arbitrarily malicious messages to the server and disturb the aggregation steps of the distributed learning process. To defend against such worst-case Byzantine attacks, various robust aggregators have been proposed. They are proven to be effective and much superior to the often-used mean aggregator. In this paper, however, we demonstrate that the robust aggregators are too conservative for a class of weak but practical malicious attacks, known as label poisoning attacks, where the sample labels of some workers are poisoned. Surprisingly, we are able to show that the mean aggregator is more robust than the state-of-the-art robust aggregators in theory, given that the distributed data are sufficiently heterogeneous. In fact, the learning error of the mean aggregator is proven to be order-optimal in this case. Experimental results corroborate our theoretical findings, showing the superiority of the mean aggregator under label poisoning attacks.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Mean Aggregator is More Robust than Robust Aggregators under Label Poisoning Attacks on Distributed Heterogeneous Data (均值聚合器在分布式异构数据上的标签投毒攻击下比鲁棒聚合器更鲁棒)

1.2. 作者

Jie Peng、Weiyu Li、Stefan Vlaski、Qing Ling

1.3. 发表期刊/会议

该论文是其在国际人工智能联合会议 (International Joint Conference on Artificial Intelligence, IJCAI) 2024 年发表的会议论文 (Peng et al., 2024) 的显著扩展版本。目前的文档形式未明确指出是哪本期刊或哪个会议的正式发表版本,但上下文表明它是一篇经过同行评审的学术论文。

1.4. 发表年份

2024

1.5. 摘要

分布式学习(Distributed Learning)对恶意攻击的鲁棒性(Robustness)至关重要。现有工作通常考虑经典的拜占庭攻击模型(Byzantine Attacks Model),该模型假设某些工作节点可以发送任意恶意消息,从而干扰分布式学习过程的聚合步骤。为了防御这种最坏情况的拜占庭攻击,研究人员提出了各种鲁棒聚合器(Robust Aggregators)。这些聚合器已被证明是有效的,并且比常用的均值聚合器(Mean Aggregator)优越得多。然而,本文指出,对于一类弱但实用的恶意攻击,即标签投毒攻击(Label Poisoning Attacks),其中一些工作节点的样本标签被投毒,鲁棒聚合器可能过于保守。令人惊讶的是,本文能够理论证明,在分布式数据足够异构(Distributed Data are Sufficiently Heterogeneous)的情况下,均值聚合器比最先进的鲁棒聚合器更鲁棒。事实上,在这种情况下,均值聚合器的学习误差(Learning Error)被证明是阶最优(Order-Optimal)的。实验结果也证实了理论发现,显示了均值聚合器在标签投毒攻击下的优越性。

1.6. 原文链接

/files/papers/694f4ea59c764da3f20e36d0/paper.pdf (该链接为本地文件路径,本文基于用户提供的完整内容进行分析。)

2. 整体概括

2.1. 研究背景与动机

随着大型机器学习模型的快速发展,分布式学习因其在解决大规模问题方面的显著效率而受到广泛关注。在典型的分布式学习架构中,一个参数服务器(parameter server)拥有全局模型(global model),而多个计算设备(工作节点,workers)拥有本地数据。训练过程中,服务器将全局模型发送给工作节点,工作节点利用本地数据计算局部随机梯度(stochastic gradients)或动量(momenta),并将其发送回服务器。服务器聚合这些消息并更新全局模型。联邦学习(Federated Learning)作为分布式学习的一种重要形式,在隐私保护方面尤为突出。

然而,这种服务器-工作节点架构的分布式特性也使其在学习过程中容易受到恶意攻击。由于数据损坏、设备故障或网络攻击,一些工作节点可能不遵循算法协议,而是向服务器发送不正确的消息。以往的工作通常将这些攻击建模为经典的拜占庭攻击,即恶意工作节点可以发送任意恶意消息,从而干扰学习过程中的聚合步骤。针对这种最坏情况的拜占庭攻击,研究人员提出了多种鲁棒聚合器,并被广泛认为比简单的均值聚合器更有效。

然而,作者指出,现实中遇到的恶意攻击往往不像最坏情况的拜占庭攻击那样具有破坏性。例如,分布式学习系统经常遭受标签投毒攻击,这种攻击虽然较弱,但具有实际意义。在标签投毒攻击中,攻击者并非发送任意数据或模型,而是通过篡改其本地数据样本的标签来制造错误消息。这是一种更结构化、限制性更强的攻击形式。

2.2. 核心贡献/主要发现

本文的核心贡献和主要发现如下:

  • C1) 首次研究均值聚合器的鲁棒性: 据作者所知,这是首次在分布式学习中系统性地研究均值聚合器(Mean Aggregator)的鲁棒性。研究揭示了一个重要事实:在特定类型的恶意攻击(即标签投毒攻击)下,均值聚合器可能比现有鲁棒聚合器更具鲁棒性,这促使人们重新思考在实际场景中不同聚合器的使用策略。

  • C2) 理论分析均值聚合器的阶最优性: 在标签投毒攻击下,本文理论分析了均值聚合器和最先进鲁棒聚合器的学习误差。结果表明,当分布式数据的异构性(heterogeneity)较大时,均值聚合器的学习误差是阶最优(order-optimal)的,并且对投毒工作节点(poisoned workers)的比例不敏感。

  • C3) 实验验证理论发现: 本文通过数值实验评估了均值聚合器和最先进鲁棒聚合器在标签投毒攻击下的性能。实验结果充分支持了理论发现,特别是在数据高度异构的场景下,均值聚合器的表现优于鲁棒聚合器。

    此外,本文显著扩展了作者之前的会议论文 (Peng et al., 2024):

  • 扩展算法框架: 从分布式梯度下降(distributed gradient descent)扩展到分布式随机动量(distributed stochastic momentum)算法,考虑了随机梯度噪声(stochastic gradient noise),并提供了新的理论分析,建立了更紧的上界和下界。

  • 全面实验结果: 提供了新的、全面的实验结果,比较了各种聚合器与分布式随机动量算法结合的性能。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解本文,需要掌握以下基础概念:

  • 分布式学习 (Distributed Learning): 一种将机器学习任务分解并在多个计算设备(工作节点)上并行执行的范式。通过这种方式,可以利用聚合后的计算结果来训练一个全局模型。它的优势包括处理大规模数据、提高训练速度和保护数据隐私。
  • 参数服务器 (Parameter Server, PS): 在中心化分布式学习系统中,参数服务器是一个或一组专门的节点,负责存储、管理和分发全局模型参数。它从工作节点收集更新(如梯度),聚合后更新全局模型,再将新模型分发给工作节点。
  • 工作节点 (Worker): 分布式学习中的计算单元,每个工作节点拥有本地数据集,并根据服务器下发的模型参数在本地进行计算(例如,计算梯度或损失),然后将计算结果发送回服务器。
  • 聚合器 (Aggregator): 部署在参数服务器端的一种算法或机制,用于接收来自多个工作节点的消息(例如,本地梯度、本地模型更新),并将其合并成一个单一的全局更新,用于更新全局模型。聚合器的选择对分布式学习的性能和鲁棒性至关重要。
  • 拜占庭攻击 (Byzantine Attacks): 一种在分布式系统中考虑的最坏情况的故障模型或恶意攻击模型。在这种模型下,一个或多个拜占庭工作节点(Byzantine workers)可以以任意方式偏离协议,发送任意恶意消息(例如,伪造的梯度、噪声数据、完全错误的模型更新),旨在破坏系统的一致性、正确性或收敛性。它比简单的故障(如掉线、延迟)更具挑战性。
  • 鲁棒聚合器 (Robust Aggregators): 针对拜占庭攻击设计的特殊聚合算法。它们的目标是在存在一定数量的恶意工作节点的情况下,仍然能够从大部分正常工作节点的消息中提取有效信息,从而使全局模型能够正确训练和收敛。常见的鲁棒聚合器通过裁剪、修剪、中位数或几何中位数等统计方法来过滤或减轻恶意消息的影响。
  • 均值聚合器 (Mean Aggregator): 最简单和最常用的聚合器。它仅仅计算所有工作节点发送消息的算术平均值。虽然计算效率高,但对恶意攻击非常脆弱,一个恶意的消息就可能完全破坏全局更新。
  • 标签投毒攻击 (Label Poisoning Attacks): 一种特定类型的恶意攻击,属于数据投毒攻击(Data Poisoning Attacks)范畴。在这种攻击中,恶意工作节点不会发送任意或伪造的模型更新,而是通过篡改其本地数据集中的样本标签(例如,将“垃圾邮件”标记为“非垃圾邮件”)来影响训练过程。这些被投毒的工作节点仍然会遵循正常的算法协议(例如,使用修改后的标签计算梯度并发送)。这种攻击相比拜占庭攻击更隐蔽、更实际,但其扰动通常是有界的。
  • 数据异构性 (Heterogeneity of Data / Non-I.I.D. Data): 在分布式学习中,指不同工作节点所拥有的本地数据集的统计特性或数据分布存在差异,即数据不是独立同分布 (Independent and Identically Distributed, I.I.D.) 的。例如,某些工作节点可能只拥有特定类别的数据,或者数据特征分布不同。高数据异构性会给分布式学习的收敛性和泛化性带来挑战。
  • 分布式随机动量 (Distributed Stochastic Momentum): 一种结合了动量(Momentum)机制的分布式随机梯度下降(Stochastic Gradient Descent, SGD)算法。在每次迭代中,工作节点会根据其本地随机梯度更新一个本地动量向量,这个动量向量是当前梯度和之前动量的加权平均。服务器聚合这些动量向量来更新全局模型。动量机制有助于加速收敛、平滑更新路径,并减少训练过程中的震荡。
  • 学习误差 (Learning Error): 在优化问题中,通常用来衡量模型收敛到最优解的程度。在非凸优化中,常表示为平均梯度范数平方的上界,即 \frac{1}{T} \sum_{t=1}^T \mathbb{E} \|\nabla f(\boldsymbol{x}^t)\|^2,它反映了算法最终收敛到的驻点(stationary point)的“质量”,期望该值尽可能小。
  • 阶最优 (Order-Optimal): 指一个算法的性能(例如,收敛速度或学习误差)在渐近意义上与理论上可能的最佳性能(即下界)具有相同的数量级。例如,如果理论下界是 O(1/T)O(1/\sqrt{T}),而算法达到了 O(1/T)O(1/\sqrt{T}),则称该算法是阶最优的。

3.2. 前人工作

本文在回顾相关工作时,将其分为模型投毒攻击(Model Poisoning Attacks)和数据投毒攻击(Data Poisoning Attacks)两大类,并重点讨论了标签投毒(Label Poisoning)作为一种特殊的数据投毒形式。

  • 模型投毒攻击下的鲁棒聚合器:

    • 大多数现有工作侧重于设计鲁棒聚合器来抵御模型投毒攻击。在这种攻击中,恶意工作节点可以直接发送任意篡改过的模型更新(例如,随机梯度)。
    • 代表性方法包括: Krum (Blanchard et al., 2017)、几何中位数 (Geometric Median) (Chen et al., 2017)、坐标中位数 (Coordinate-wise Median) (Yin et al., 2018)、坐标裁剪均值 (Coordinate-wise Trimmed-Mean) (Yin et al., 2018)、FABA (Xia et al., 2019)、中心裁剪 (Centered Clipping, CC) (Karimireddy et al., 2021)、VRMOM (Tu et al., 2021) 等。这些方法的核心思想是识别并过滤掉异常的梯度,以使聚合结果接近真实梯度。
    • 方差削减和动量技术: 为了应对随机梯度噪声并增强拜占庭鲁棒性,一些工作 (Khanduri et al., 2019; Wu et al., 2020; Karimireddy et al., 2021) 提出了结合方差削减(variance-reduction)和动量(momentum)的技术。然而,这些方法在数据分布异构(heterogeneous)时性能会下降。
    • 异构数据下的防御: Li et al. (2019) 建议在异构情况下使用模型聚合而非随机梯度聚合。Karimireddy et al. (2022) 和 Allouah et al. (2023) 提出了使用分桶/重采样(bucketing/resampling)和最近邻混合(nearest neighbor mixing)技术来减少消息的异构性。
    • 异步和去中心化学习: 其他工作还研究了异步学习 (Yang and Li, 2023) 或无服务器的去中心化学习 (Peng et al., 2021; He et al., 2022; Wu et al., 2023) 在模型投毒攻击下的鲁棒性。本文则专注于同步的、有服务器的分布式学习。
  • 数据投毒攻击:

    • 数据投毒攻击 (Sun et al., 2019; Bagdasaryan et al., 2020; Wang et al., 2020) 旨在通过在恶意工作节点端制造投毒数据来产生投毒消息。
    • 防御策略包括: 数据净化 (data sanitization) 以移除投毒数据 (Steinhardt et al., 2017),以及裁剪在干净数据上不活跃的激活单元 (Liu et al., 2018)。
  • 标签投毒攻击:

    • 标签投毒是数据投毒的一种,但其攻击行为比任意数据投毒更结构化、限制性更强(只修改标签)。
    • 现有鲁棒聚合器的适用性: 针对模型投毒攻击设计的鲁棒聚合器 (如 TriMean, CC, FABA) 已被证明可用于防御标签投毒攻击 (Fang et al., 2020; Karimireddy et al., 2022; Gorbunov et al., 2022)。
    • 专门防御: Tavallali et al. (2022) 提出了一种基于正则化(regularization-based)的防御方法,用于检测和排除带有翻转标签的样本,但需要干净的验证集,存在隐私问题。LFighter (Jebreel et al., 2024) 是联邦学习中标签投毒攻击的最先进防御方法之一,它通过聚类本地梯度来识别并丢弃潜在的投毒梯度。然而,LFighter 在数据分布异构时性能会下降。
  • 均值聚合器的鲁棒性:

    • Shejwalkar et al. (2022) 曾揭示了均值聚合器在生产联邦学习系统中在投毒攻击下的鲁棒性,但他们的研究受限于投毒比例(例如,小于0.1%的工作节点被投毒),并且缺乏理论分析。

3.3. 技术演进

分布式学习的鲁棒性研究经历了从简单故障容忍到复杂恶意攻击防御的演进。

  1. 早期阶段: 关注于解决网络通信问题(如延迟、带宽)和硬件故障。
  2. 拜占庭容错: 随着分布式系统安全性的提升,研究开始转向对抗恶意攻击。经典的拜占庭攻击模型成为主流,促使一系列鲁棒聚合器(如 Krum、中位数、裁剪等)的诞生。这些聚合器通过统计方法(如排序、修剪、投票)来抵御任意恶意消息,旨在保证即使有部分节点作恶,整体系统也能正常运行。
  3. 异构性挑战: 联邦学习等场景引入了数据异构性问题,使得基于统计假设(如梯度分布集中)的鲁棒聚合器性能下降。因此,研究开始探索如何平衡鲁棒性和在异构数据上的性能,例如通过模型聚合或数据预处理来减少异构性。
  4. 细粒度攻击模型: 认识到现实中的攻击往往不那么极端,更具结构化,例如标签投毒攻击。这类攻击虽然不如拜占庭攻击的扰动任意,但在大规模系统中仍能造成显著危害。本文正是在此背景下,对现有鲁棒聚合器在更实际的标签投毒场景下的有效性提出了质疑,并发现了均值聚合器在特定条件下的反直觉优势。

3.4. 差异化分析

本文的工作与现有研究的主要差异化体现在以下几个方面:

  1. 攻击模型聚焦: 现有鲁棒聚合器大多针对最坏情况的拜占庭攻击(攻击者可以发送任意恶意消息)设计和优化。而本文则专注于标签投毒攻击(攻击者只修改标签,但仍遵循算法协议),这是一种更弱但更具现实意义的攻击类型。
  2. 聚合器性能评估视角: 传统观点认为,鲁棒聚合器在任何攻击场景下都优于脆弱的均值聚合器。本文颠覆了这一认知,理论和实验证明在标签投毒攻击且数据高度异构的特定条件下,均值聚合器反而比最先进的鲁棒聚合器表现更好。
  3. 理论分析的深度与广度:
    • 本文首次为均值聚合器在标签投毒攻击下提供了严格的理论学习误差上界,并证明其在该场景下是阶最优的。这弥补了之前相关工作(如 Shejwalkar et al., 2022)缺乏理论分析的不足。
    • 本文将分析框架扩展到更通用的分布式随机动量算法,相比之前会议论文仅关注分布式梯度下降,覆盖了随机梯度噪声这一关键因素,使得理论结果更具普适性。
  4. 对异构性的强调: 本文明确指出“分布式数据足够异构”是均值聚合器超越鲁棒聚合器的关键前提。通过对异构性和投毒扰动之间关系的理论推导(A=O(\xi)),解释了这种现象。而多数鲁棒聚合器在设计时往往假设数据I.I.D.或仅能处理轻度异构。
  5. 对鲁棒聚合器“保守性”的批判: 本文认为,针对拜占庭攻击设计的鲁棒聚合器可能过于保守,其过滤机制在标签投毒这种有界扰动面前可能过度抑制了正常工作节点的消息,从而损害了性能。

4. 方法论

4.1. 方法原理

本文的核心方法原理在于,它重新审视了在分布式学习中面对不同类型的恶意攻击时,各种聚合器的实际效能。传统的鲁棒聚合器是为了防御“最坏情况”的拜占庭攻击而设计的,这种攻击假设恶意工作节点可以发送任意大小的恶意消息,因此鲁棒聚合器必须非常保守,通过裁剪、修剪等方式来严格限制或排除异常值。

然而,本文关注的是“标签投毒攻击”,这是一种“弱但实用”的攻击。在这种攻击中,恶意工作节点仅仅修改其本地数据的标签,但仍然忠实地遵循算法协议,例如计算基于这些修改后标签的梯度并发送。因此,与拜占庭攻击造成的“无界扰动”不同,标签投毒攻击造成的扰动是有界的

本文的关键洞察是:当分布式数据本身具有“足够高的异构性”时(即正常工作节点本地梯度与全局梯度之间存在显著差异),这种异构性所带来的“正常噪声”可能与标签投毒攻击造成的“有界扰动”处于同一数量级。在这种情况下,过于保守的鲁棒聚合器可能会将一部分由正常数据异构性引起的“偏差”错误地当作恶意行为来过滤,从而损失了有用的信息。相反,均值聚合器虽然对任意大的拜占庭攻击无能为力,但在这种“有界扰动”和“高异构性”并存的场景下,它能够更“温和”地处理所有工作节点的消息,包括那些弱投毒的,从而更好地捕捉到全局模型的真实更新方向。

通过理论分析,本文证明了在上述特定条件下,均值聚合器能够实现与理论下界相匹配的阶最优学习误差,而鲁棒聚合器由于其保守性,其学习误差可能更高,甚至在投毒比例接近其阈值时会急剧恶化。

4.2. 核心方法详解

本文主要分析了分布式随机动量(Distributed Stochastic Momentum)算法结合不同聚合器在标签投毒攻击下的收敛性。

算法流程:Algorithm 1

输入:

  • 初始全局模型 x0RD\boldsymbol{x}^0 \in \mathbb{R}^D
  • 初始本地动量:如果 wRw \in \mathcal{R}(正常工作节点),则 mw1=fw,iw0(x0)m_w^{-1} = \nabla f_{w,i_w^0}(\boldsymbol{x}^0);如果 wWRw \in \mathcal{W} \setminus \mathcal{R}(被投毒工作节点),则 m~w1=f~w,iw0(xw0)\tilde{m}_w^{-1} = \nabla \tilde{f}_{w,i_w^0}(\boldsymbol{x}_w^0)。其中 iw0i_w^0 是从 {1,,J}\{1, \dots, J\} 中均匀随机采样的样本索引。
  • 步长 γ\gamma
  • 动量系数 α\alpha
  • 总迭代次数 TT

步骤:

  1. 对于 t=0,1,,T1t = 0, 1, \dots, T-1 执行以下迭代:
    1. 服务器广播: 服务器将当前的全局模型 xt\boldsymbol{x}^t 广播给所有工作节点。
    2. 正常工作节点计算与发送:
      • 正常工作节点 wRw \in \mathcal{R} 从其本地样本中均匀随机采样一个索引 iwt{1,,J}i_w^t \in \{1, \dots, J\}
      • 计算在当前全局模型 xt\boldsymbol{x}^t 处的局部随机梯度 fw,iwt(xt)\nabla f_{w,i_w^t}(\boldsymbol{x}^t)
      • 更新其本地动量 mwtm_w^tmwt=(1α)mwt1+αfw,iwt(xt) m_w^t = (1 - \alpha) m_w^{t-1} + \alpha \nabla f_{w,i_w^t}(\boldsymbol{x}^t)
        • 符号解释:
          • mwtm_w^t: 工作节点 ww 在迭代 tt 的本地动量。
          • α\alpha: 动量系数,控制当前梯度对动量的影响程度,α[0,1]\alpha \in [0, 1]。当 α=1\alpha=1 时,退化为随机梯度下降。
          • fw,iwt(xt)\nabla f_{w,i_w^t}(\boldsymbol{x}^t): 工作节点 wwxt\boldsymbol{x}^t 处使用第 iwti_w^t 个样本计算的随机梯度。
      • 将本地动量 m^wt=mwt\hat{m}_w^t = m_w^t 发送给服务器。
    3. 被投毒工作节点计算与发送:
      • 被投毒工作节点 wWRw \in \mathcal{W} \setminus \mathcal{R} 从其本地样本中均匀随机采样一个索引 iwt{1,,J}i_w^t \in \{1, \dots, J\}
      • 计算在当前全局模型 xt\boldsymbol{x}^t 处的被投毒局部随机梯度 f~w,iwt(xt)\nabla \tilde{f}_{w,i_w^t}(\boldsymbol{x}^t)
      • 更新其被投毒本地动量 m~wt\tilde{m}_w^tm~wt=(1α)m~wt1+αf~w,iwt(xt) \tilde{m}_w^t = (1 - \alpha) \tilde{m}_w^{t-1} + \alpha \nabla \tilde{f}_{w,i_w^t}(\boldsymbol{x}^t)
        • 符号解释:
          • m~wt\tilde{m}_w^t: 被投毒工作节点 ww 在迭代 tt 的被投毒本地动量。
          • f~w,iwt(xt)\nabla \tilde{f}_{w,i_w^t}(\boldsymbol{x}^t): 被投毒工作节点 wwxt\boldsymbol{x}^t 处使用第 iwti_w^t 个样本计算的被投毒随机梯度。
      • 将本地动量 m^wt=m~wt\hat{m}_w^t = \tilde{m}_w^t 发送给服务器。
    4. 服务器聚合与更新: 服务器接收所有工作节点发送的动量消息 {m^wt}wW\{\hat{m}_w^t\}_{w \in \mathcal{W}},并根据所选的聚合器更新全局模型 xt+1\boldsymbol{x}^{t+1}
      • 使用鲁棒聚合器 RAgg()\mathrm{RAgg}(\cdot) xt+1=xtγRAgg({m^wt:wW}) \boldsymbol{x}^{t+1} = \boldsymbol{x}^t - \gamma \cdot \mathrm{RAgg}(\{\hat{m}_w^t : w \in \mathcal{W}\})
        • 符号解释:
          • γ\gamma: 步长,控制模型更新的幅度。
          • RAgg()\mathrm{RAgg}(\cdot): 鲁棒聚合器函数,如 TriMean, FABA, Centered Clipping (CC)。
      • 使用均值聚合器 Mean()\mathrm{Mean}(\cdot) xt+1=xtγMean({m^wt:wW}) \boldsymbol{x}^{t+1} = \boldsymbol{x}^t - \gamma \cdot \mathrm{Mean}(\{\hat{m}_w^t : w \in \mathcal{W}\}) 其中,均值聚合器定义为: Mean({m^wt:wW})1WwWm^wt \mathrm{Mean}(\{\hat{m}_w^t : w \in \mathcal{W}\}) \triangleq \frac{1}{W} \sum_{w \in \mathcal{W}} \hat{m}_w^t
        • 符号解释:
          • WW: 所有工作节点的总数。
  2. 循环结束。

算法退化情况:

  • 当动量系数 α=1\alpha = 1 时,算法退化为流行的分布式随机梯度下降(Distributed Stochastic Gradient Descent, DSGD)算法。
  • 如果每个工作节点在每次迭代中都访问所有 JJ 个样本来计算本地梯度(而不是随机梯度),则算法退化为分布式梯度下降(Distributed Gradient Descent, DGD)算法。

收敛性分析中的关键假设:

  • 假设 1 (Lower boundedness): 全局代价函数 f()f(\cdot) 有下界 ff^*,即 f(x)ff(\boldsymbol{x}) \geq f^*
  • 假设 2 (Lipschitz continuous gradients): 全局代价函数 f()f(\cdot) 具有 LL-Lipschitz 连续梯度。即对于任意 x,yRD\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^D,有: f(x)f(y)Lxy. \|\nabla f(\boldsymbol{x}) - \nabla f(\boldsymbol{y})\| \leq L\|\boldsymbol{x} - \boldsymbol{y}\|.
    • 符号解释:
      • LL: Lipschitz 常数。
  • 假设 3 (Bounded heterogeneity): 对于任意 xRD\boldsymbol{x} \in \mathbb{R}^D,任何正常工作节点 wRw \in \mathcal{R} 的本地梯度与全局梯度之间的最大距离由 ξ\xi 上界,即: maxwRfw(x)f(x)ξ. \max_{w \in \mathcal{R}} \|\nabla f_w(\boldsymbol{x}) - \nabla f(\boldsymbol{x})\| \leq \xi.
    • 符号解释:
      • ξ\xi: 衡量正常工作节点数据异构性的常数;ξ\xi 越大表示异构性越高。
  • 假设 4 (Bounded inner variance): 对于任意 xRD\boldsymbol{x} \in \mathbb{R}^D,任何工作节点 wWw \in \mathcal{W} 的本地随机梯度相对于本地梯度的方差由 σ2\sigma^2 上界,即: Eiwfw,iw(x)fw(x)2σ2,wR,Eiwf~w,iw(x)f~w(x)2σ2,wWR. \begin{aligned} \mathbb{E}_{i_w} \|\nabla f_{w,i_w}(\boldsymbol{x}) - \nabla f_w(\boldsymbol{x})\|^2 &\leq \sigma^2, \quad \forall w \in \mathcal{R}, \\ \mathbb{E}_{i_w} \|\nabla \tilde{f}_{w,i_w}(\boldsymbol{x}) - \nabla \tilde{f}_w(\boldsymbol{x})\|^2 &\leq \sigma^2, \quad \forall w \in \mathcal{W} \setminus \mathcal{R}. \end{aligned}
    • 符号解释:
      • σ2\sigma^2: 本地随机梯度方差的上界。
      • Eiw[]\mathbb{E}_{i_w}[\cdot]: 关于随机采样的样本索引 iwi_w 的期望。
  • 假设 5 (Bounded disturbances of poisoned local gradients): 对于任意 xRD\boldsymbol{x} \in \mathbb{R}^D,被投毒工作节点 wWRw \in \mathcal{W} \setminus \mathcal{R} 的被投毒本地梯度与全局梯度之间的最大距离由 AA 上界,即: maxwWRf~w(x)f(x)A. \max_{w \in \mathcal{W} \setminus \mathcal{R}} \|\nabla \tilde{f}_w(\boldsymbol{x}) - \nabla f(\boldsymbol{x})\| \leq A.
    • 符号解释:
      • AA: 被投毒工作节点引起的扰动的上界。

假设 5 的合理性论证(通过分布式 softmax 回归): 文章通过一个分布式 softmax 回归的例子来证明在标签投毒攻击下,假设 5 是成立的。

  • 局部代价函数:
    • 正常工作节点 wRw \in \mathcal{R} 的本地代价函数 fw(x)f_w(\boldsymbol{x}) 和样本代价函数 fw,j(x)f_{w,j}(\boldsymbol{x}) 为: fw(x)=1Jj=1Jfw,j(x),where fw,j(x)=k=1K1{b(w,j)=k}logexp(xkTa(w,j))l=1Kexp(xlTa(w,j)). f_w(\boldsymbol{x}) = \frac{1}{J} \sum_{j=1}^J f_{w,j}(\boldsymbol{x}), \quad \text{where } f_{w,j}(\boldsymbol{x}) = - \sum_{k=1}^K \mathbf{1}\{b^{(w,j)} = k\} \log \frac{\exp(\boldsymbol{x}_k^T \boldsymbol{a}^{(w,j)})}{\sum_{l=1}^K \exp(\boldsymbol{x}_l^T \boldsymbol{a}^{(w,j)})}.
    • 被投毒工作节点 wWRw \in \mathcal{W} \setminus \mathcal{R} 的本地代价函数 f~w(x)\tilde{f}_w(\boldsymbol{x}) 和样本代价函数 f~w,j(x)\tilde{f}_{w,j}(\boldsymbol{x}) 为(标签 b(w,j)b^{(w,j)} 被更改为 b~(w,j)\tilde{b}^{(w,j)}): f~w(x)=1Jj=1Jf~w,j(x),where f~w,j(x)=k=1K1{b~(w,j)=k}logexp(xkTa(w,j))l=1Kexp(xlTa(w,j)). \tilde{f}_w(\boldsymbol{x}) = \frac{1}{J} \sum_{j=1}^J \tilde{f}_{w,j}(\boldsymbol{x}), \quad \text{where } \tilde{f}_{w,j}(\boldsymbol{x}) = - \sum_{k=1}^K \mathbf{1}\{\tilde{b}^{(w,j)} = k\} \log \frac{\exp(\boldsymbol{x}_k^T \boldsymbol{a}^{(w,j)})}{\sum_{l=1}^K \exp(\boldsymbol{x}_l^T \boldsymbol{a}^{(w,j)})}.
    • 符号解释:
      • KK: 类别数量。
      • (a(w,j),b(w,j))(\boldsymbol{a}^{(w,j)}, b^{(w,j)}) : 工作节点 ww 的第 jj 个样本的特征和标签。
      • 1{}\mathbf{1}\{\cdot\}: 指示函数,当条件满足时为 1,否则为 0。
      • xk\boldsymbol{x}_k: 全局模型 x\boldsymbol{x} 的第 kk 个类别对应的参数块。
  • 引理 2: 如果特征 a(w,j)\boldsymbol{a}^{(w,j)} 是逐元素非负的,则假设 5 成立,且 AA 的上界为: A2KmaxwW1Jj=1Ja(w,j). A \leq 2\sqrt{K} \max_{w \in \mathcal{W}} \left\| \frac{1}{J} \sum_{j=1}^J \boldsymbol{a}^{(w,j)} \right\|.
    • 该引理表明,在标签投毒攻击下,被投毒本地梯度与全局梯度之间的距离是有界的。
  • 引理 3: 类似地,在相同条件下,假设 3 成立,且 ξ\xi 的上界为: ξ2KmaxwR1Jj=1Ja(w,j). \xi \leq 2\sqrt{K} \max_{w \in \mathcal{R}} \left\| \frac{1}{J} \sum_{j=1}^J \boldsymbol{a}^{(w,j)} \right\|.
    • 进一步,如果数据充分异构(即每个正常工作节点只拥有一种类别的样本,且同一种类别的样本只属于一个正常工作节点),则 ξ=Θ(maxwR1Jj=1Ja(w,j))\xi = \Theta \left( \max_{\boldsymbol{w} \in \mathcal{R}} \left\| \frac{1}{J} \sum_{j=1}^J \boldsymbol{a}^{(w,j)} \right\| \right)
  • 结论: 在实际情况下,如果正常和被投毒工作节点的特征范数具有相似的数量级,那么 AAξ\xi 将是同阶的(A = O(\xi)),这为后续理论分析提供了重要基础。

ρ\rho-鲁棒聚合器定义:

  • 定义 4 (ρ\boldsymbol{\rho}-robust aggregator): 如果一个聚合器 RAgg()\mathrm{RAgg}(\cdot) 能够将 WW 条消息聚合,其中 RR 条消息来自正常工作节点,并且其输出与正常工作节点消息的平均值 yˉ=1RwRyw\bar{y} = \frac{1}{R} \sum_{w \in \mathcal{R}} y_w 之间的距离,被一个收缩常数 ρ\rho 和正常工作节点消息异构性 maxwRywyˉ\max_{w \in \mathcal{R}} \|y_w - \bar{y}\| 的乘积所限制,即: RAgg({y1,,yW})yˉρmaxwRywyˉ, \|\mathrm{RAgg}(\{y_1, \dots, y_W\}) - \bar{y}\| \leq \rho \cdot \max_{w \in \mathcal{R}} \|y_w - \bar{y}\|, 则称其为 ρ\rho-鲁棒聚合器。
    • 符号解释:
      • ywy_w: 工作节点 ww 发送的消息。
      • yˉ\bar{y}: 正常工作节点消息的平均值。
      • ρ\rho: 收缩常数,ρ0\rho \geq 0
  • 引理 5: ρ\rho-鲁棒聚合器仅当投毒工作节点比例 δ=1RW<12\delta = 1 - \frac{R}{W} < \frac{1}{2}ρmin{δ12δ,1}\rho \geq \min\{\frac{\delta}{1-2\delta}, 1\} 时才存在。
  • 具体鲁棒聚合器及其 ρ\rho 值(在 Appendix B 中给出):
    • TriMean (裁剪均值): 如果 δ<12\delta < \frac{1}{2}ρ=3δ12δmin{D,R}\rho = \frac{3\delta}{1-2\delta} \min\{\sqrt{D}, \sqrt{R}\}
    • Centered Clipping (CC): 如果 δ<12\delta < \frac{1}{2},通过适当选择起始点和裁剪阈值,一步 CC 是一个 ρ\rho-鲁棒聚合器,ρ=24δ\rho = \sqrt{24\delta}
    • FABA (Fast Aggregation Against Byzantine Attacks): 如果 δ<13\delta < \frac{1}{3}ρ=2δ13δ\rho = \frac{2\delta}{1-3\delta}

主要理论结果:学习误差分析 本文主要通过定理 7 和定理 8 给出鲁棒聚合器和均值聚合器在标签投毒攻击下的学习误差上界。

  • 定理 7 (Theorem 17 完整版):鲁棒聚合器 (RAgg\mathrm{RAgg}) 的学习误差 考虑使用 ρ\rho-鲁棒聚合器 RAgg()\mathrm{RAgg}(\cdot) 解决问题 (1) 的 Algorithm 1。假设 1, 2, 3, 4 成立。在标签投毒攻击下,投毒工作节点比例为 δ[0,12)\delta \in [0, \frac{1}{2})。如果步长 \gamma = \min \Big \{ \sqrt { \frac { 4 ( f ( x ^ { 0 } ) - f ^ { * } ) + \frac { 15 \rho ^ { 2 } ( R + \frac { 1 } { R } ) \sigma ^ { 2 } } { 8 L } } { T ( 40 L \sigma ^ { 2 } ) ( 3 \rho ^ { 2 } ( R + \frac { 1 } { R } ) + \frac { 2 } { R } ) } } , \frac { 1 } { 8 L } \Big \},动量系数 α=8Lγ\alpha = 8L\gamma,则平均梯度范数平方的期望为: 1Tt=1TEf(xt)215ρ2ξ2+20Lσ2(2R+3ρ2(R+1R))T32(f(x0)f)+15Lρ2(R+1R)σ2+32L(f(x0)f)T+15ρ2(R+1R)σ2T+10σ2R+12ρ2((R+1R)σ2+ξ2)f(x0)2T. \begin{aligned} \frac{1}{T} \sum_{t=1}^T \mathbb{E} \|\nabla f(\boldsymbol{x}^t)\|^2 &\leq 15 \rho^2 \xi^2 + \sqrt{\frac{20 L \sigma^2 \big( \frac{2}{R} + 3 \rho^2 (R + \frac{1}{R}) \big)}{T}} \cdot \sqrt{32 (f(\boldsymbol{x}^0) - f^*) + \frac{15}{L} \rho^2 (R + \frac{1}{R}) \sigma^2} \\ & \quad + \frac{32 L (f(\boldsymbol{x}^0) - f^*)}{T} + \frac{15 \rho^2 (R + \frac{1}{R}) \sigma^2}{T} + \frac{\frac{10 \sigma^2}{R} + 12 \rho^2 ((R + \frac{1}{R}) \sigma^2 + \xi^2) - \|\nabla f(\boldsymbol{x}^0)\|^2}{T}. \end{aligned}

    • 符号解释:
      • f(x0)ff(\boldsymbol{x}^0) - f^*: 初始目标函数值与最优值之差,记为 F0F^0
      • E\mathbb{E}: 期望,取自算法的随机性。
      • TT: 总迭代次数。
    • 该结果表明,鲁棒聚合器的学习误差由一个非渐近项 O(ρ2ξ2)O(\rho^2 \xi^2) 和随着 TT 增加而趋近于零的项组成。
  • 定理 8 (Theorem 18 完整版):均值聚合器 (Mean\mathrm{Mean}) 的学习误差 考虑使用均值聚合器 Mean()\mathrm{Mean}(\cdot) 解决问题 (1) 的 Algorithm 1。假设 1, 2, 4, 5 成立。在标签投毒攻击下,投毒工作节点比例为 δ[0,1)\delta \in [0, 1)。如果步长 \gamma = \min \Big \{ \sqrt { \frac { 4 ( f ( x ^ { 0 } ) - f ^ { * } ) + \frac { 30 \delta ^ { 2 } \sigma ^ { 2 } } { 8 L } } { T ( 40 L \sigma ^ { 2 } ) ( 6 \delta ^ { 2 } + \frac { 2 } { R } ) } } , \frac { 1 } { 8 L } \Big \},动量系数 α=8Lγ\alpha = 8L\gamma,则平均梯度范数平方的期望为: 1Tt=1TEf(xt)215δ2A2+20Lσ2(2R+6δ2)T32(f(x0)f)+30Lδ2σ2+32L(f(x0)f)T+30δ2σ2T+10σ2R+24δ2(σ2+ξ2)f(x0)2T. \begin{aligned} \frac{1}{T} \sum_{t=1}^T \mathbb{E} \|\nabla f(\boldsymbol{x}^t)\|^2 &\leq 15 \delta^2 A^2 + \sqrt{\frac{20 L \sigma^2 (\frac{2}{R} + 6 \delta^2)}{T}} \cdot \sqrt{32 (f(\boldsymbol{x}^0) - f^*) + \frac{30}{L} \delta^2 \sigma^2} \\ & \quad + \frac{32 L (f(\boldsymbol{x}^0) - f^*)}{T} + \frac{30 \delta^2 \sigma^2}{T} + \frac{\frac{10 \sigma^2}{R} + 24 \delta^2 (\sigma^2 + \xi^2) - \|\nabla f(\boldsymbol{x}^0)\|^2}{T}. \end{aligned}

    • 该结果表明,均值聚合器的学习误差由一个非渐近项 O(δ2A2)O(\delta^2 A^2) 和随着 TT 增加而趋近于零的项组成。

学习误差下界:

  • 定理 9: 在标签投毒攻击下,投毒工作节点比例为 δ=1RW\delta = 1 - \frac{R}{W}。对于任何在工作节点身份上不变(identity-invariant)的算法(即算法输出不依赖于哪个工作节点是正常或投毒),如果运行 TT 次迭代,则存在满足假设 1-5 的局部函数,使得: 1Tt=1TEf(xt)2=Ω(δ2min{A2,ξ2}). \frac{1}{T} \sum_{t=1}^T \mathbb{E} \|\nabla f(\boldsymbol{x}^t)\|^2 = \Omega (\delta^2 \min\{A^2, \xi^2\}).
    • 符号解释:
      • Ω()\Omega(\cdot): 渐近下界表示。
    • 这个下界表明,即使在最佳情况下,任何身份不变的算法(包括 Algorithm 1 及其聚合器)都无法完全消除恶意攻击的影响,其学习误差至少会有一个与投毒比例 δ\delta 和扰动/异构性相关的非零项。

理论结果比较(简化): 在分布式数据足够异构,且 AAξ\xi 同阶(即 A = O(\xi))的情况下,比较非渐近学习误差项:

  • 均值聚合器: 学习误差为 O(δ2A2)O(\delta^2 A^2)。由于 A=O(\xi),这与下界 Ω(δ2min{A2,ξ2})=Ω(δ2ξ2)\Omega(\delta^2 \min\{A^2, \xi^2\}) = \Omega(\delta^2 \xi^2) 匹配,表明均值聚合器是阶最优的。

  • TriMean: 学习误差为 O(δ2ξ2(12δ)2)O(\frac{\delta^2 \xi^2}{(1-2\delta)^2})。当 δ12\delta \to \frac{1}{2} 时,误差爆炸。

  • FABA: 学习误差为 O(δ2ξ2(13δ)2)O(\frac{\delta^2 \xi^2}{(1-3\delta)^2})。当 δ13\delta \to \frac{1}{3} 时,误差爆炸。

  • CC: 学习误差为 O(δξ2)O(\delta \xi^2)。这比均值聚合器(O(δ2ξ2)O(\delta^2 \xi^2))大一个 δ\delta 的因子。

    结论: 在标签投毒攻击且数据足够异构时,均值聚合器在所有投毒比例下都能保持阶最优的性能,而鲁棒聚合器的性能会随着投毒比例的增加而显著下降,甚至爆炸。

5. 实验设置

5.1. 数据集

实验使用了两个标准数据集来验证所提出方法的性能:

  • MNIST: 这是一个用于手写数字识别的经典数据集,包含 0 到 9 的手写数字图片。
    • 特点: 灰度图像,图像尺寸较小(28x28 像素),类别均衡,是评估分类算法的常用基准。
    • 应用: 用于凸问题(softmax 回归)和非凸问题(两层感知器)的训练。
  • CIFAR10: 这是一个包含 10 个类别(例如,飞机、汽车、鸟等)的彩色图像数据集。
    • 特点: 彩色图像(32x32 像素),类别均衡,相比 MNIST 复杂度更高。

    • 应用: 用于非凸问题(卷积神经网络)的训练。

      选择这些数据集是为了在不同类型(凸与非凸)、不同复杂度的任务上全面评估聚合器的性能。

5.2. 评估指标

论文主要使用分类准确率 (Classification Accuracy) 作为评估指标。

  1. 概念定义 (Conceptual Definition): 分类准确率是分类任务中最常见和直观的评估指标。它衡量的是模型在所有预测中,正确预测的样本数量占总样本数量的比例。高准确率通常表示模型具有良好的分类性能。

  2. 数学公式 (Mathematical Formula): 分类准确率的计算公式为: Accuracy=Number of Correct PredictionsTotal Number of Predictions=TP+TNTP+TN+FP+FN \text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}} = \frac{TP + TN}{TP + TN + FP + FN} 在多分类任务中,通常可以简化为所有类别中正确分类的样本总数与所有样本总数之比。

  3. 符号解释 (Symbol Explanation):

    • TP (True Positive): 真阳性,实际为正类且被模型正确预测为正类的样本数。
    • TN (True Negative): 真阴性,实际为负类且被模型正确预测为负类的样本数。
    • FP (False Positive): 假阳性,实际为负类但被模型错误预测为正类的样本数。
    • FN (False Negative): 假阴性,实际为正类但被模型错误预测为负类的样本数。

5.3. 对比基线

实验中对比了均值聚合器(在有攻击和无攻击两种情况下)与几种代表性的鲁棒聚合器,以及一个最先进的专门防御标签投毒攻击的方法。

  • Baseline (无攻击的均值聚合器): 作为理想情况下的性能基线,即分布式学习在没有标签投毒攻击时的均值聚合器性能。
  • Mean (均值聚合器): 在标签投毒攻击下的均值聚合器。这是本文的核心研究对象之一。
  • TriMean (裁剪均值): 一种鲁棒聚合器,通过丢弃每个维度中最小和最大的部分值来聚合。
  • FABA (Fast Aggregation Against Byzantine Attacks): 一种迭代地识别并丢弃离群值,然后对剩余消息取平均的鲁棒聚合器。
  • CC (Centered Clipping): 一种鲁棒聚合器,通过迭代地裁剪超出某个阈值的消息来聚合。
  • LFighter: 最先进的专门用于联邦学习中防御标签翻转攻击的方法 (Jebreel et al., 2024)。它通过聚类本地梯度来识别并丢弃潜在的投毒梯度。

实验环境配置:

  • 工作节点数量 (WW): 默认设置为 10 个工作节点。
  • 正常工作节点数量 (RR): 默认设置为 9 个正常工作节点,因此只有一个被投毒工作节点。在 Appendix H 中,也测试了 R=8R=8(2个投毒工作节点)和 R=7R=7(3个投毒工作节点)的情况,以分析不同投毒比例的影响。
  • 数据分布类型:
    • i.i.d. (独立同分布): 训练数据在所有工作节点之间均匀随机划分。
    • mild non-i.i.d. (轻度非独立同分布): 使用 Dirichlet 分布(默认超参数 β=1\beta = 1)来划分训练数据。较小的 β\beta 值会导致更高的数据异构性。
    • non-i.i.d. (非独立同分布): 将每个类别(例如,MNIST 的一个数字类别)的所有训练数据分配给一个特定的工作节点,从而造成高度异构的数据分布。
  • 标签投毒攻击类型:
    • 静态标签翻转 (Static Label Flipping): 被投毒工作节点将其标签 bb 翻转为 9-b(适用于 0-9 标签的分类任务)。这意味着标签是固定地、确定性地被修改。
    • 动态标签翻转 (Dynamic Label Flipping): 被投毒工作节点将其标签 bb 翻转为当前全局模型 xt\boldsymbol{x}^t 预测概率最低的标签。这种攻击更具适应性,会根据模型状态调整投毒策略。
  • 超参数:
    • 步长 (γ\gamma): 0.01。
    • 动量系数 (α\alpha): 0.1。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 凸问题:Softmax 回归在 MNIST 数据集上

  • i.i.d. 情况 (独立同分布):
    • 所有方法表现良好,分类准确率接近基线(无攻击)。
    • 观察: 均值聚合器在 i.i.d. 情况下表现出略低的分类准确率,这可能表明在这种数据分布下,其他鲁棒聚合器可能具有轻微的正则化效应,或者均值聚合器在无异构时的方差项相对较大。
  • mild non-i.i.d. 情况 (轻度非独立同分布):
    • FABALFighter 在所有聚合器中表现最好。其他聚合器性能相似。
  • non-i.i.d. 情况 (非独立同分布,即高异构性):
    • 由于异构性较大,所有聚合器都受到标签投毒攻击的显著影响,与基线存在性能差距。

    • 关键发现: 在这种高异构性场景下,均值聚合器表现最好,这有力地验证了本文的理论结果。

      下图(原文 Figure 1)展示了在静态标签翻转攻击下,Softmax 回归在 MNIST 数据集上的准确率。

      Figure 1: Accuracies of softmax regression on the MNIST dataset under static label fipping attacks. 该图像是一个图表,展示了在不同数据分布下(IID、Mild Noniid 和 Noniid)使用多种聚合器(Baseline、Mean、TriMean、FABA、CC 和 LFighter)进行软最大回归的准确率随迭代次数的变化情况。可以观察到,在IID条件下,Mean聚合器表现出优越的表现。

下图(原文 Figure 2)展示了在动态标签翻转攻击下,Softmax 回归在 MNIST 数据集上的准确率。

Figure 2: Accuracies of softmax regression on the MNIST dataset under dynamic label flipping attacks. 该图像是图表,展示了在不同数据分布下(IID、Mild Noniid、Noniid)软最大回归模型的准确率随迭代次数变化的情况。图中各条曲线代表不同的聚合方法,包括基线、均值、TriMean、FABA、CC与LFighter。

6.1.2. 异构性 (ξ)(\xi) 和扰动 (A) 分析

为了进一步验证假设 3 和 5 的合理性以及理论结果的正确性,作者计算了满足这两个假设的最小 ξ\xiAA 值。

  • 扰动 AA 的有界性: 在静态标签翻转和动态标签翻转攻击下,被投毒本地梯度的扰动 AA 均是有界的,这证实了引理 2 的理论结果。

  • 异构性 ξ\xi 的变化: 从 i.i.d. 到 mild non-i.i.d. 再到 non-i.i.d. 情况下,正常本地梯度的异构性 ξ\xi 逐渐增加。

  • AAξ\xi 的关系: 特别是在 non-i.i.d. 情况下,ξ\xi 的值接近 AA,这与理论分析中 A = O(\xi) 的讨论一致。当异构性与投毒扰动在同一数量级时,均值聚合器表现阶最优的理论预测得到了实验支持,解释了图 1 和图 2 中的结果。

    下图(原文 Figure 3)展示了在 Softmax 回归问题中,正常本地梯度的异构性(ξ\xi)和被投毒本地梯度的扰动(AA)在静态和动态标签翻转攻击下的变化。

    Figure 3: Heterogeneity of regular local gradients (the smallest \(\\xi\) satisfying Assumption 3) and disturbance of poisoned local gradients (the smallest \(A\) satisfying Assumption 5) in softmax regression on the MNIST dataset, under static label flipping and dynamic label flipping attacks. 该图像是一个图表,展示了在不同数据分布下,静态与动态标签翻转攻击对标签干扰的影响。图中有三部分,分别对应 IID、Mild Noniid 和 Noniid 情况,并显示了每种情况下的干扰程度和异质性。

6.1.3. 非凸问题:两层感知器在 MNIST 和卷积神经网络在 CIFAR10 上

  • i.i.d. 情况:
    • 所有方法性能良好,接近基线。
    • 观察: CC 在 CIFAR10 数据集上的动态标签翻转攻击下表现略差于其他聚合器。
  • mild non-i.i.d. 情况:
    • 在 MNIST 数据集上,所有方法表现良好,接近基线。
    • 在 CIFAR10 数据集上,MeanFABALFighter 表现最佳,接近基线;CCTriMean 较差,其中 TriMean 在动态标签翻转攻击下表现最差,差距明显。
  • non-i.i.d. 情况 (高异构性):
    • 所有方法均受到攻击影响,无法达到基线的分类准确率。

    • 关键发现: 在这种高异构性场景下,均值聚合器仍然表现最好CCFABALFighter 表现较差,而 TriMean 则完全失败。

      下图(原文 Figure 4)展示了两层感知器在 MNIST 数据集和卷积神经网络在 CIFAR10 数据集上,在静态标签翻转攻击下的准确率。

      Figure 4: Accuracies of two-layer perceptrons on the MNIST dataset and convolutional neural networks on the CIFAR10 dataset under static label flipping attacks. 该图像是一个图表,展示了在不同数据集(MNIST和CIFAR10)上,基础、平均、TriMean、FABA、CC和LFighter等多个算法在IID、轻度非IID和非IID条件下的准确度随迭代次数变化的情况。

下图(原文 Figure 5)展示了两层感知器在 MNIST 数据集和卷积神经网络在 CIFAR10 数据集上,在动态标签翻转攻击下的准确率。

Figure 5: Accuracies of two-layer perceptrons on the MNIST dataset and convolutional neural networks on the CIFAR10 dataset under dynamic label flipping attacks. 该图像是一个图表,展示了在动态标签翻转攻击下,两个层次的感知机在 MNIST 数据集以及卷积神经网络在 CIFAR10 数据集上的准确率。每个子图显示不同数据分布(IID、Mild Noniid、Noniid)下的模型表现,横轴是迭代次数,纵轴是准确率。

6.1.4. 非凸问题异构性 (ξ)(\xi) 和扰动 (A) 分析

  • 扰动 AA 的有界性: 在 MNIST 和 CIFAR10 数据集上,静态和动态标签翻转攻击下,被投毒本地梯度的扰动 AA 均是有界的,与凸问题情况一致。

  • 异构性 ξ\xi 的变化: 从 i.i.d. 到 mild non-i.i.d. 再到 non-i.i.d. 情况下,ξ\xi 逐渐增加。

  • AAξ\xi 的关系: 在 non-i.i.d. 情况下,ξ\xi 的值接近 AA,再次证实了 A=O(\xi) 的理论假设,这与在非凸问题中均值聚合器的优越性相吻合。

    下图(原文 Figure 6)展示了在训练两层感知器和卷积神经网络时,正常本地梯度的异构性(ξ\xi)和被投毒本地梯度的扰动(AA)在静态和动态标签翻转攻击下的变化。

    Figure 6: Heterogeneity of regular local gradients (the smallest \(\\xi\) satisfying Assumption 3) and disturbance of poisoned local gradients (the smallest \(A\) satisfying Assumption 5) in training two-layer perceptrons on the MNIST dataset and training convolutional neural networks on the CIFAR10 dataset, under static label flipping and dynamic label flipping attacks. 该图像是图表,展示了在训练两层感知机和卷积神经网络时,MNIST和CIFAR10数据集下,静态标签翻转和动态标签翻转攻击的干扰程度与梯度异质性之间的关系。图中用不同颜色和标记表示不同扰动类型。

6.1.5. 异构性和攻击强度影响

作者进一步探究了数据分布异构性(通过 Dirichlet 分布超参数 β\beta 控制,β\beta 越小异构性越大)和标签投毒攻击强度(通过静态标签翻转概率 pp 控制, pp 越大攻击越强)对性能的影响。在 MNIST 数据集上训练两层感知器,并呈现了所有聚合器中的最佳性能,并标记了对应的最佳聚合器。

  • 均值聚合器的优势区域: 当异构性较大时(即 β\beta 值较小),均值聚合器明显优于鲁棒聚合器。

    • 例如,当 β=0.01\beta = 0.01 时,无论翻转概率 p={0.0,0.2,0.4,0.6,0.8,1.0}p = \{0.0, 0.2, 0.4, 0.6, 0.8, 1.0\} 如何,均值聚合器都表现最佳。
    • β=0.03\beta = 0.03 时,在 p={0.0,0.2,0.4,0.6,0.8}p = \{0.0, 0.2, 0.4, 0.6, 0.8\} 的情况下,均值聚合器表现最佳。
  • 异构性变化趋势: 固定翻转概率 pp 不变,当超参数 β\beta 减小(即异构性增大)时,均值聚合器逐渐超越鲁棒聚合器。

  • 攻击强度变化趋势: 固定超参数 β\beta 不变,当翻转概率 pp 减小(即攻击强度减弱)时,均值聚合器也逐渐超越鲁棒聚合器。

  • 建议: 如果分布式数据足够异构,或者标签投毒攻击造成的扰动与正常本地梯度的异构性相当,推荐使用均值聚合器。

    下图(原文 Figure 7)展示了在静态标签翻转攻击下,所有聚合器在 MNIST 数据集上训练的两层感知器的最佳准确率。

    Figure7: Best accuracies of trained two-layer perceptrons by all aggregators on the MNIST dataset under static label flipping attacks. Each block is associated with a hyper-parameter \(\\beta\) that characterizes the heterogeneity and the flipping probability \(p\) that characterizes the attack strength. For each block, the best accuracy and the corresponding aggregator is marked. Orange means that the mean aggregator is the best. 该图像是图表,展示了在静态标签翻转攻击下,所有聚合器在MNIST数据集上训练的二层感知器的最佳准确率。图中每个块对应一个超参数β\beta,表示数据异质性,以及翻转概率pp,表示攻击强度。每块中标注了最佳准确率及相应聚合器,其中橙色表示均值聚合器为最佳。

6.2. 数据呈现 (表格)

以下是原文 Table 1 的结果:

Aggregator Learning error
TriMean O(δ2ξ2(12δ)2)O(\frac{\delta^2\xi^2}{(1-2\delta)^2})
CC O(δξ2)O(\delta\xi^2)
FABA O(δ2ξ2(13δ)2)O(\frac{\delta^2\xi^2}{(1-3\delta)^2})
Mean O(δ2ξ2)O(\delta^2\xi^2)
Lower bound Ω(δ2ξ2)\Omega(\delta^2\xi^2)

以下是原文 Table 3 的结果:

β p Accuracies of trained two-layer perceptrons
Mean CC FABA LFighter TriMean
5 0.0 0.9441 0.9385 0.9410 0.9420 0.9429
0.2 0.9426 0.9405 0.9439 0.9437 0.9425
0.4 0.9443 0.9421 0.9437 0.9456 0.9430
0.6 0.9427 0.9402 0.9431 0.9439 0.9397
0.8 0.9429 0.9408 0.9424 0.9443 0.9386
1.0 0.9415 0.9382 0.9423 0.9437 0.9371
1 0.0 0.9437 0.9362 0.9390 0.9361 0.9402
0.2 0.9448 0.9371 0.9417 0.9341 0.9373
0.4 0.9417 0.9404 0.9447 0.9404 0.9396
0.6 0.9386 0.9355 0.9409 0.9422 0.9365
0.8 0.9402 0.9323 0.9386 0.9431 0.9318
1.0 0.9424 0.9401 0.9414 0.9433 0.9273
0.1 0.0 0.9407 0.9251 0.9404 0.9170 0.9134
0.2 0.9423 0.9292 0.9271 0.9313 0.9076
0.4 0.9420 0.9270 0.9229 0.9201 0.8942
0.6 0.9372 0.9226 0.8996 0.9377 0.8891
0.8 0.9278 0.9135 0.9431 0.9433 0.8498
1.0 0.8327 0.8305 0.9426 0.9449 0.8054
0.05 0.0 0.9468 0.9317 0.8976 0.8617 0.8763
0.2 0.9467 0.9311 0.8603 0.8845 0.8529
0.4 0.9474 0.9279 0.8601 0.8860 0.8526
0.6 0.9418 0.9248 0.8571 0.9343 0.8492
0.8 0.9201 0.9155 0.9394 0.9385 0.8576
1.0 0.8573 0.8950 0.9384 0.9374 0.8106
0.03 0.0 0.9426 0.9299 0.8634 0.8517 0.8523
0.2 0.9413 0.9298 0.8507 0.8493 0.8427
0.4 0.9393 0.9268 0.8506 0.8502 0.8370
0.6 0.9374 0.9206 0.8481 0.8449 0.8246
0.8 0.9159 0.8679 0.8019 0.8313 0.7869
1.0 0.8312 0.8152 0.7437 0.9396 0.7514
0.01 0.0 0.9456 0.9164 0.8678 0.8681 0.8008
0.2 0.9441 0.9165 0.8657 0.8660 0.7788
0.4 0.9415 0.9135 0.8631 0.8632 0.7858
0.6 0.9356 0.9039 0.8601 0.8399 0.7708
0.8 0.8827 0.8750 0.8155 0.7864 0.7457
1.0 0.8505 0.8278 0.7731 0.8162 0.7258

6.3. 消融实验/参数分析

6.3.1. 异构性和攻击强度的影响 (W=10,R=9W=10, R=9)

通过改变 Dirichlet 分布的超参数 β\beta 来模拟不同的数据异构性(β\beta 越小异构性越大),并改变静态标签翻转概率 pp 来模拟不同的攻击强度。

  • 异构性越大(β\beta 越小),均值聚合器表现越好。
    • β=0.01\beta = 0.01(最高异构性)时,无论翻转概率 pp 如何,均值聚合器始终是表现最好的。
    • β=0.03\beta = 0.03 时,当 p{0.0,0.2,0.4,0.6,0.8}p \in \{0.0, 0.2, 0.4, 0.6, 0.8\} 时,均值聚合器表现最佳。
  • 攻击强度越弱(pp 越小),均值聚合器表现越好。
    • β\beta 固定时,随着 pp 减小,均值聚合器逐渐超越鲁棒聚合器。
  • 综合建议: 当分布式数据足够异构,或者标签投毒攻击造成的扰动与正常本地梯度的异构性相当时,推荐使用均值聚合器。

6.3.2. 随机梯度方差的验证

作者在附录 G 中验证了假设 4(有界内方差)的合理性。

  • 实验设置: 在 Softmax 回归问题(MNIST 数据集)中,设置 W=10,R=9W=10, R=9,采用静态标签翻转攻击。计算正常随机梯度和被投毒随机梯度的最大方差。

  • 结果: 如图 8 所示,无论是 i.i.d.、mild non-i.i.d. 还是 non-i.i.d. 情况,正常随机梯度和被投毒随机梯度的方差都保持有界,证实了假设 4 的有效性。

    下图(原文 Figure 8)展示了在 Softmax 回归中,正常随机梯度的最大方差和被投毒随机梯度的方差在静态标签翻转攻击下,随着迭代次数的变化。

    Figur 8: Maximum variance of regular stochastic gradients and variance o poisoned stochastic gradients in softmax regression on the MNIST dataset under static label flipping attacks. 该图像是图表,展示了在静态标签翻转攻击下,MNIST 数据集上常规随机梯度和被污染随机梯度的最大方差。从左至右分别为 IID、温和的 Non-IID 和 Non-IID 情况,横轴为迭代次数,纵轴为幅度。

6.3.3. 投毒工作节点比例的影响 (W=10,R=8W=10, R=8R=7R=7)

在附录 H 中,作者进一步探究了不同投毒工作节点比例的影响。

  • 实验设置: 设置 W=10W=10,正常工作节点数分别为 R=8R=8(2个投毒)和 R=7R=7(3个投毒)。
  • 结果:
    • 随着投毒工作节点比例的增加(从 R=9R=9R=8R=8 再到 R=7R=7),所有聚合器(包括均值聚合器和鲁棒聚合器)的性能普遍下降。这与定理 7 和 8 的理论预测(学习误差随 δ\delta 增加而增大)一致。

    • 尽管性能普遍下降,但在 non-i.i.d.(高异构)情况下,均值聚合器仍然普遍优于鲁棒聚合器,这与 R=9R=9 时的主要发现保持一致。

      下图(原文 Figure 9)展示了当 R=8R=8 时,两层感知器在 MNIST 和卷积神经网络在 CIFAR10 上,静态标签翻转攻击下的准确率。

      Figure 9: Accuracies of two-layer perceptrons on the MNIST dataset and convolutional neural networks on the CIFAR10 dataset under static label flipping attacks when \(R = 8\) . 该图像是一个图表,展示了在静态标签翻转攻击下,两个层感知器在 MNIST 数据集和卷积神经网络在 CIFAR10 数据集上的准确率表现。图表中分别表示了 IID、Mild Noniid 和 Noniid 情况下的学习过程,显示了不同聚合器算法的效果。

下图(原文 Figure 10)展示了当 R=8R=8 时,两层感知器在 MNIST 和卷积神经网络在 CIFAR10 上,动态标签翻转攻击下的准确率。

Figure 10: Accuracies of two-layer perceptrons on the MNIST dataset and convolutional neural networks on the CIFAR10 dataset under dynamic label flipping attacks when \(R = 8\) . 该图像是一个图表,展示了在不同数据分布(IID、Mild Noniid、Noniid)下,两个层感知器在MNIST数据集和卷积神经网络在CIFAR10数据集上,随着迭代次数增加而变化的准确率。不同的线条和标记代表了不同的算法。

下图(原文 Figure 11)展示了当 R=7R=7 时,两层感知器在 MNIST 和卷积神经网络在 CIFAR10 上,静态标签翻转攻击下的准确率。

Figure 11: Accuracies of two-layer perceptrons on the MNIST dataset and convolutional neural networks on the CIFAR10 dataset under static label flipping attacks when \(R = 7\) . 该图像是一个实验结果图,展示了在不同数据分布下(IID、Mild Noniid 和 Noniid)两层感知器和卷积神经网络在 MNIST 和 CIFAR10 数据集上的准确性。这些结果反映了在静态标签翻转攻击下模型表现的对比情况。

下图(原文 Figure 12)展示了当 R=7R=7 时,两层感知器在 MNIST 和卷积神经网络在 CIFAR10 上,动态标签翻转攻击下的准确率。

Figure 12: Accuracies of two-layer perceptrons on the MNIST dataset and convolutional neural networks on the CIFAR10 dataset under dynamic label flipping attacks when \(R = 7\) . 该图像是图表,展示了在动态标签翻转攻击下,两层感知机在MNIST数据集及卷积神经网络在CIFAR10数据集上的准确率。图中的数据由不同算法(Baseline、Mean、TriMean、FABA、CC和Lighter)呈现,横轴为迭代次数,纵轴为准确率。

7. 总结与思考

7.1. 结论总结

本文深入研究了分布式学习在标签投毒攻击下的鲁棒性问题。研究结果推翻了传统观点,即鲁棒聚合器在任何恶意攻击下都优于简单的均值聚合器。作者通过严谨的理论分析和全面的数值实验,证实了以下关键结论:

  1. 均值聚合器的优越性: 在标签投毒攻击下,当分布式数据具有足够高的异构性时,均值聚合器(Mean Aggregator)在性能上优于最先进的鲁棒聚合器(Robust Aggregators)。
  2. 阶最优性: 理论上证明了在这种特定场景下,均值聚合器的学习误差是阶最优的,即其性能达到了理论上的最佳可能水平。
  3. 鲁棒聚合器的局限: 现有鲁棒聚合器因其为最坏情况拜占庭攻击设计的保守性,在面对有界的标签投毒扰动时显得过于保守,反而可能损害性能。
  4. 实际指导意义: 本文的发现促使研究人员和实践者重新思考不同聚合器在不同攻击模型和数据特性下的适用性,强调了根据具体应用场景选择聚合策略的重要性。

7.2. 局限性与未来工作

论文作者指出了以下局限性及未来的研究方向:

  • 攻击模型限制: 本文主要关注标签投毒攻击,这种攻击模型相比于任意的拜占庭攻击而言,其恶意行为是有界的、结构化的。对于更复杂的、无界扰动的拜占庭攻击,鲁棒聚合器仍可能更优。
  • 未来工作方向: 作者计划将当前的分析扩展到更具挑战性的去中心化学习(decentralized learning)问题。在去中心化设置中,没有中央服务器进行聚合,工作节点之间直接通信,这会带来新的鲁棒性挑战。

7.3. 个人启发与批判

  • 个人启发:

    1. 情境依赖的鲁棒性: 这篇论文最重要的启发是“鲁棒性”不是一个绝对的概念,其有效性高度依赖于具体的攻击模型和数据特性。过度追求在最坏情况下的鲁棒性,可能会在更常见、更“温和”的攻击场景下导致性能下降。这提醒我们在系统设计时,需要对潜在的威胁模型进行细致入微的分析,并选择最匹配的防御策略,而不是盲目采用“最强”的防御。
    2. 简单方法的潜力: 均值聚合器是分布式学习中最简单、最基础的聚合方法。本文的发现说明,即使是最简单的方法,在特定、但现实的条件下,也能展现出卓越的性能,甚至超越复杂的先进方法。这鼓励研究者在追求模型复杂性时,也要重新审视基础方法在特定场景下的潜力。
    3. 理论与实践的结合: 论文通过理论推导(学习误差界和阶最优性)解释了实验现象,并通过大量实验验证了理论发现。这种理论与实践紧密结合的研究范式,是学术研究的典范。
  • 批判/潜在问题与改进:

    1. “足够异构”的量化与自适应: 论文强调了“足够异构”是均值聚合器优势发挥的关键。然而,如何准确量化“足够异构”的阈值?在实际部署中,数据的异构性往往是动态变化的,系统如何实时判断当前数据是否满足这一条件,并自适应地选择合适的聚合器?这可能需要开发一种能够动态评估数据异构性并智能切换聚合策略的元学习(meta-learning)或在线决策机制。
    2. 攻击模型的泛化性与复杂性: 标签投毒攻击确实是一种现实且相对“弱”的攻击,但攻击者可能采用更复杂的投毒策略,例如有目标性地修改少量关键样本的标签,以最大化对模型性能的影响,而非简单地随机或统一翻转。在这种“智能标签投毒”下,均值聚合器是否仍能保持优势?这有待进一步研究。
    3. 鲁棒聚合器的可调性: 现有的鲁棒聚合器设计时可能考虑不足,导致其在标签投毒攻击下过于保守。未来的研究可以探索如何为鲁棒聚合器引入可调参数,使其能够根据检测到的攻击类型和数据异构程度,自适应地调整其保守程度,从而在不同攻击场景和数据条件下都能保持良好性能。例如,动态调整裁剪阈值或修剪比例。
    4. 非凸性分析的深化: 尽管论文在非凸问题上进行了实验验证,但其理论分析仍主要基于凸函数或具有 Lipschitz 连续梯度的假设。实际深度学习模型普遍是非凸的,其优化行为更加复杂。未来可以在非凸优化理论框架下,进一步深化对均值聚合器和鲁棒聚合器在标签投毒攻击下的收敛性、泛化性以及局部最优解性质的理论分析。
    5. “身份不变”假设的探讨: 定理 9 的下界依赖于算法输出对工作节点身份不变的假设。虽然在实际中这很常见,但如果存在某种异常检测或对抗样本识别技术,能够以某种概率或通过某种特征推断出恶意工作节点的身份,那么该下界是否仍然成立?以及这种“身份识别”的成本和可行性如何?这可能为突破当前下界提供新的思路。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。