AiPaper
论文状态:已完成

Robust Fuzzy Neural Network With an Adaptive Inference Engine

发表:2023/02/23
原文链接
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种鲁棒模糊神经网络(RFNN),结合自适应推理引擎,能自学习发射强度并处理隶属度中的不确定性,提升对高维和高不确定性数据的建模能力。实验表明,该方法在多数据集上达成先进准确性。

摘要

IEEE TRANSACTIONS ON CYBERNETICS, VOL. 54, NO. 5, MAY 2024 3275 Robust Fuzzy Neural Network With an Adaptive Inference Engine Leijie Zhang , Ye Shi , Member, IEEE , Yu-Cheng Chang , and Chin-Teng Lin , Fellow, IEEE Abstract —Fuzzy neural networks (FNNs) have been very suc- cessful at handling uncertainty in data using fuzzy mappings and if-then rules. However, they suffer from generalization and dimensionality issues. Although deep neural networks (DNNs) represent a step toward processing high-dimensional data, their capacity to address data uncertainty is limited. Furthermore, deep learning algorithms designed to improve robustness are either time consuming or yield unsatisfactory performance. In this article, we propose a robust fuzzy neural network (RFNN) to overcome these problems. The network contains an adaptive inference engine that is capable of handling samples with high- level uncertainty and high dimensions. Unlike traditional FNNs that use a fuzzy AND operation to calculate the firing strength for each rule, our inference engine is able to learn the firing strength adaptively. It also further processes the uncertainty in membership function values. Taking

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

鲁棒模糊神经网络与自适应推理引擎 (Robust Fuzzy Neural Network With an Adaptive Inference Engine)

1.2. 作者

  • Leijie Zhang
  • Ye Shi
  • Yu-Cheng Chang
  • Chin-Teng Lin

1.3. 发表期刊/会议

IEEE Transactions on Cybernetics。该期刊是电气电子工程师学会 (IEEE) 旗下在控制论、系统、人机交互和智能系统领域具有高影响力的顶级期刊。

1.4. 发表年份

2023年(发布日期为2023年2月15日)。

1.5. 摘要

传统的模糊神经网络 (Fuzzy Neural Networks, FNNs) 在利用模糊映射和 if-then 规则处理数据不确定性方面取得了成功,但它们面临泛化能力和维度灾难 (dimensionality issues) 的挑战。尽管深度神经网络 (Deep Neural Networks, DNNs) 在处理高维数据方面有所进展,但其处理数据不确定性的能力有限。此外,旨在提高鲁棒性的深度学习算法往往耗时或性能不佳。

本文提出了一种鲁棒模糊神经网络 (Robust Fuzzy Neural Network, RFNN) 来克服这些问题。该网络包含一个自适应推理引擎 (Adaptive Inference Engine, AIE),能够处理高水平不确定性和高维度样本。与使用模糊 AND 操作计算每条规则发射强度 (firing strength) 的传统 FNN 不同,RFNN 的推理引擎能够自适应地学习发射强度,并进一步处理隶属度函数值中的不确定性。RFNN 利用神经网络的学习能力,可以自动从训练输入中学习模糊集,从而很好地覆盖输入空间。此外,后件层 (consequent layer) 采用神经网络结构,以增强模糊规则在处理复杂输入时的推理能力。在各种数据集上的实验表明,RFNN 即使在非常高的不确定性水平下也能提供最先进的 (state-of-the-art) 准确性。

1.6. 原文链接

/files/papers/690dc8fd7a8fb0eb524e6831/paper.pdf (PDF 链接) 代码可在线获取:https://github.com/leijiezhang/RFNN

2. 整体概括

2.1. 研究背景与动机

  • DNNs 的局限性: 近年来,深度神经网络 (Deep Neural Networks, DNNs) 在图像识别、自然语言处理等多个机器学习任务中取得了显著成功,特别是在处理高维数据集方面。然而,它们在处理带有高度不确定性(如噪声、损坏数据、对抗性攻击)的数据时,鲁棒性 (robustness) 较差,性能难以保证。例如,在低信噪比的控制系统中,DNNs 的应用受限。
  • 传统 FNNs 的局限性: 模糊神经网络 (Fuzzy Neural Networks, FNNs) 凭借其模糊映射和 if-then 规则,在处理数据不确定性方面表现出色,并且其结构具有可解释性。但它们存在两个主要问题:
    1. 泛化能力和维度灾难 (Generalization and Dimensionality Issues): 传统 FNNs 在输入维度较高时,其模糊 AND 操作(通常是乘积)会导致梯度消失问题 (vanishing gradient problem),从而限制了其处理高维数据的能力。
    2. 对模糊规则质量的依赖: 传统 FNNs 的性能严重依赖于所生成模糊规则的质量。
  • 现有鲁棒性方法的不足:
    • 正则化方法 (Regularization techniques)(如 DropoutNoise Injection)在 DNNs 中被用于提高鲁棒性,但它们往往需要在数据拟合和模型泛化之间进行权衡。此外,超参数(如注入噪声的量)的调整对不同的任务和不确定性水平非常敏感,需要为每个新任务重新寻找。

    • 深度统计模型 (Deep Statistical Models)(如 贝叶斯神经网络 (Bayesian Neural Networks, BNNs)深度高斯过程模型 (Deep Gaussian Process models, DGPs))通过概率推理为不确定性处理提供了理论基础和更强的鲁棒性。然而,这些模型通常涉及计算成本高昂的贝叶斯推断 (Bayesian inference),训练过程耗时。

      核心问题: 现有方法难以在处理高维数据不确定性方面实现高效、鲁棒且高性能的平衡。在实际应用中,数据维度和不确定性水平都在不断增加,这对机器学习算法提出了巨大挑战。

2.2. 核心贡献/主要发现

本文提出的 鲁棒模糊神经网络 (RFNN) 旨在解决上述问题,其主要贡献和发现包括:

  1. 提出新的端到端 (end-to-end) 鲁棒架构: 提出了一种新颖有效的 RFNN 架构,该架构对数据不确定性具有鲁棒性,并能够处理高维样本。
  2. 引入自适应推理引擎 (AIE):
    • AIE 能够自适应地生成具有代表性的发射强度 (firing strengths),特别是在高不确定性水平下。
    • 它采用 TSK-FNN (Takagi-Sugeno-Kang Fuzzy Neural Network) 作为推理引擎,学习一个非线性函数,进一步处理 FNNs 隶属度函数值中的不确定性。这有效避免了传统模糊 AND 操作在高维数据下导致的梯度消失问题 (vanishing gradient problem)
  3. 增强后件组件的推理能力: RFNN 的后件组件 (consequent component) 使用神经网络结构(具体为3层 MLP),作为输入样本的非线性估计器,从而增强了模糊规则的推理能力,使其能够处理更复杂的输入。
  4. 自动学习模糊集: RFNN 利用神经网络的学习能力,可以自动从训练输入中学习模糊集,从而更好地覆盖输入空间。
  5. 卓越的实验性能: 在八个不同数据集上进行的大量实验表明,即使在非常高的不确定性水平下,RFNN 也能达到最先进的 (state-of-the-art) 准确性。消融研究进一步证明了 AIE 在提高不确定性容忍度方面的优越性。

3. 预备知识与相关工作

本节将介绍理解 RFNN 所需的基础概念,回顾相关领域的前人工作,并分析本文与现有方法的区别。

3.1. 基础概念

3.1.1. 模糊逻辑 (Fuzzy Logic)

模糊逻辑 (Fuzzy Logic) 是对经典二值逻辑的扩展,它允许真值介于完全真(1)和完全假(0)之间,通常用一个连续的隶属度函数 (membership function) 来表示。

  • 模糊集 (Fuzzy Set): 一个模糊集是经典集合的推广,其中元素对集合的隶属程度不是二值的(属于或不属于),而是用一个介于 0 到 1 之间的实数表示。
  • 隶属度函数 (Membership Function): 定义了每个输入值属于某个模糊集的程度。例如,一个关于“高”这个模糊概念的隶属度函数,可以给身高1.70米的人一个0.6的隶属度值,给身高1.90米的人一个0.9的隶属度值。
  • 模糊规则 (Fuzzy Rules / If-Then Rules): 通常以“IF (条件) THEN (结论)”的形式表示。例如,“IF 温度高 THEN 风扇转速快”。条件和结论都涉及模糊概念。

3.1.2. 模糊神经网络 (Fuzzy Neural Networks, FNNs)

模糊神经网络 (FNNs) 是将模糊逻辑 (Fuzzy Logic)神经网络 (Neural Networks, NNs) 结合起来的模型。它利用神经网络的学习能力来优化模糊系统的参数(如隶属度函数参数和模糊规则),同时利用模糊逻辑的优势来处理不确定性和提供可解释性。传统 FNNs 通常包含以下几层:

  1. 模糊化层 (Fuzzification Layer): 将精确的输入值转换为模糊值,通常通过隶属度函数计算每个输入属于不同模糊集的程度。
  2. 规则层 (Rule Layer): 根据模糊规则计算每条规则的发射强度 (firing strength)。传统 FNNs 通常使用模糊 AND 操作(如乘积或最小值)来计算一个规则中所有模糊条件的组合隶属度。
  3. 去模糊化层 (Defuzzification Layer): 将模糊输出转换为精确的输出值。

3.1.3. 深度神经网络 (Deep Neural Networks, DNNs)

深度神经网络 (DNNs) 是指具有多层隐藏层的神经网络。它们通过堆叠多个处理层来学习数据的多层次抽象表示。DNNs 在处理大规模数据和复杂模式方面表现出强大的能力,并在图像识别、自然语言处理等领域取得了突破性进展。然而,它们通常被认为是“黑箱模型”,可解释性较差,并且在面对带有噪声或不确定性的输入时,其鲁棒性 (robustness) 可能不足。

3.1.4. 梯度消失问题 (Vanishing Gradient Problem)

梯度消失问题 (Vanishing Gradient Problem) 是在训练深度神经网络时常见的一个挑战。在反向传播 (backpropagation) 过程中,如果激活函数的导数很小,或者多层网络的梯度连乘导致梯度值变得非常小,那么靠近输入层的权重更新就会非常缓慢,甚至停滞,导致网络难以学习到深层特征。在传统 FNNs 中,模糊 AND 操作(特别是乘积)当输入维度很高且多个隶属度值都很小时,其乘积结果会非常接近零,这在反向传播时容易导致梯度消失。

3.1.5. 鲁棒性 (Robustness)

鲁棒性 (Robustness) 指的是一个系统或模型在面对输入数据中的噪声、错误、不确定性、干扰或轻微扰动时,仍能保持其性能稳定、准确和可靠的能力。对于机器学习模型而言,一个鲁棒的模型应该能够在存在各种非理想条件的情况下,仍然做出准确的预测或决策。

3.1.6. 自适应推理引擎 (Adaptive Inference Engine, AIE)

自适应推理引擎 (AIE) 是本文提出的 RFNN 的核心组件。它是一个可学习的神经网络模块,其作用是自适应地将前件组件 (antecedent component) 产生的隶属度函数值 (membership function values) 转换为发射强度 (firing strengths)。与传统 FNNs 中固定的模糊 AND 操作不同,AIE 能够学习这种转换关系,从而更好地处理高维和高不确定性的数据。

3.1.7. TSK-FNN (Takagi-Sugeno-Kang Fuzzy Neural Network)

TSK-FNN 是一种特殊类型的模糊系统,由 Takagi、Sugeno 和 Kang 于1985年提出。它的特点在于其模糊规则的后件 (consequent) 不是模糊集,而是输入变量的线性函数(或常数)。例如,一条 TSK 规则的形式为:“IF x1x_1 is A1A_1 AND x2x_2 is A2A_2 THEN y=ax1+bx2+cy = a x_1 + b x_2 + c”。这种结构使得 TSK-FNN 在建模和控制方面具有更强的能力和更广的应用范围,并且其参数可以通过神经网络方法进行训练。本文的 AIE 就是基于 TSK-FNN 的思想构建的。

3.2. 前人工作

3.2.1. 传统模糊神经网络 (FNNs)

[14], [15] 所述,模糊神经网络 (FNNs) 通过融合模糊逻辑 (Fuzzy Logic)神经网络 (Neural Networks) 的优点,在处理数据不确定性方面表现出色,并能提供一定程度的模型可解释性。例如,基于 T-S 模糊模型 (T-S fuzzy models) [22]FNNs 利用模糊规则和隶属度函数来构建非线性模型,能够处理不确定性。然而,这些模型在实际应用中面临两大挑战:

  1. 对模糊规则质量的深层依赖: 它们高度依赖于所生成的模糊规则的质量,这通常需要领域知识或启发式方法。
  2. 维度灾难 (Curse of Dimensionality): 当输入数据维度很高时,传统 FNNs 中的模糊 AND 操作(如乘积)容易导致梯度消失问题 (vanishing gradient problem),严重限制了其处理高维数据集的能力,从而阻碍了其更广泛的应用。

3.2.2. 鲁棒深度神经网络 (Robust Deep Neural Networks)

为了提高 深度神经网络 (DNNs) 在存在数据不确定性情况下的鲁棒性,研究人员探索了几种方法:

  • 基于正则化的 DNNs (Regularization-based DNNs):

    • 软权重共享 (Soft Weight-Sharing) [27]:通过对损失函数施加 1\ell_12\ell_2 正则化来惩罚模型复杂度,从而在处理模糊数据时获得良好性能。
    • Dropout [28], [29], [33]:在训练过程中随机丢弃神经元,以防止模型对特定输入过度依赖和过拟合。这有助于提高模型的泛化能力 (generalizability)。然而,Dropout 通常只在低不确定性水平下有效,难以应对对抗性攻击 (adversarial attacks) 等特殊情况。
    • 噪声注入 (Noise Injection) [30], [31], [32], [34]:向模型参数或激活函数中注入高斯噪声,以提高模型的鲁棒性。例如,Poole 等 [32] 提出了一种基于自编码器 (autoencoder)高斯噪声注入 (Gaussian Noise Injection, GNI) 方法。Camuto 等 [8] 证明,简单地向激活函数注入噪声也能取得类似效果。Lu 等 [34] 提出了一种额外的正则化技术,用于在卷积神经网络 (CNNs) 中自适应地在隐藏层生成噪声以增强鲁棒性。
  • 挑战: 这些正则化方法通常涉及数据拟合和模型泛化之间的权衡 (tradeoff) [9]。例如,增加噪声量会提高模型的泛化能力,但也会增加拟合数据分布的难度。为不同任务和场景寻找合适的超参数(如正则化项的惩罚系数或噪声水平)通常是一个挑战。

3.2.3. 深度概率模型 (Deep Probabilistic Models)

深度概率模型将统计推断与深度学习架构相结合,为不确定性建模提供了灵活工具:

  • 贝叶斯神经网络 (Bayesian Neural Networks, BNNs) [12], [35], [36], [37]:通过贝叶斯理论 (Bayesian theory) 学习 DNN 参数的后验分布 (posterior distribution),而不是单一的确定性权重。这使得 BNNs 能够提供预测的概率保证,并在处理不确定性和检测对抗性样本 (adversarial examples) 方面表现出潜力。
    • 挑战: 大多数现有 BNNs 严重依赖于蒙特卡洛近似 (Monte Carlo approximation) 进行后验推断 [38],这通常是一个非常耗时的过程。
  • 高斯过程 (Gaussian Processes, GPs) [10], [39], [40]:在处理不确定性方面表现出色,但其主要缺点是难以扩展到大规模数据集,且通常针对特定任务设计,难以泛化。
  • 深度高斯过程 (Deep Gaussian Processes, DGPs) [11]:旨在缓解 GP 的一些扩展性问题。
    • 挑战: DGPs 目前主要集中于回归任务 (regression tasks),很少用于分类问题 (classification problems)。与 BNNs 类似,DGPs 的训练过程也依赖于贝叶斯推断,时间效率较低 (less time efficient)

3.3. 技术演进

该领域的技术演进经历了从传统模糊系统 (fuzzy systems) 解决不确定性,到神经网络 (neural networks) 提供强大学习能力,再到深度学习 (deep learning) 处理高维数据和复杂模式的过程。FNNs 试图将模糊逻辑的优势与神经网络的学习能力相结合,但其在高维数据处理上的瓶颈限制了其发展。同时,DNNs 虽然在许多任务上达到最先进的 (state-of-the-art) 性能,但其内在缺乏处理数据不确定性的机制,导致其在噪声或不确定性高的环境中表现不佳。为了弥补这一不足,出现了两类主要改进方向:一类是正则化方法 (regularization methods),通过引入随机性来提高鲁棒性,但存在超参数调整和适用范围的局限性;另一类是深度统计模型 (deep statistical models),通过概率建模来量化和处理不确定性,但计算成本高昂。本文的工作正是在这样的技术背景下,试图融合 FNNs 处理不确定性的优势和 DNNs 处理高维数据的能力,同时规避传统 FNNs 的高维瓶颈和深度统计模型的高计算成本。

3.4. 差异化分析

本文提出的 RFNN 与上述相关工作的主要区别和创新点在于:

  • 与传统 FNNs 的区别:

    • 核心改进点:自适应推理引擎 (AIE)。 传统 FNNs 使用固定的模糊 AND 操作(如乘积)来计算发射强度 (firing strength),这在高维输入下容易导致梯度消失问题 (vanishing gradient problem)RFNNAIE 是一个可学习的神经网络模块,能够自适应地学习发射强度,并进一步处理隶属度函数值中的不确定性,有效解决了传统 FNNs 在处理高维数据时的瓶颈。
    • 后件层结构: 传统 FNNs 的后件通常是简单的线性组合或常数。RFNN 的后件层使用神经网络结构(如3层 MLP),这显著增强了模糊规则的推理能力 (reasoning ability),使其能处理更复杂的输入和学习更精细的非线性映射。
    • 模糊集学习: RFNN 利用神经网络的学习能力,可以自动从训练输入中学习和优化模糊集,而无需手动设计或依赖启发式方法。
  • 与深度神经网络 (DNNs) 及其鲁棒性方法 (Dropout, GNI) 的区别:

    • 内在结构: RFNN模糊逻辑 (fuzzy logic) 内置于其架构中,而不仅仅是通过正则化技术(如 DropoutGNI)在 DNN 外部增强鲁棒性。这意味着 RFNN 从根本上设计用于处理不确定性。
    • 不确定性处理机制: RFNN 通过其模糊集和 AIE 直接对数据不确定性进行建模和处理,而 DropoutGNI 主要是通过引入随机性来防止过拟合,提高模型的泛化能力,但在面对高水平不确定性时效果有限。
  • 与深度统计模型 (BNNs, DGPs) 的区别:

    • 计算效率: 深度统计模型通常依赖于计算成本高昂的贝叶斯推断 (Bayesian inference) 来学习模型参数的后验分布 (posterior distribution)RFNN 避免了这种对分布计算的需求,通过反向传播 (backpropagation) 进行端到端训练,大大降低了计算开销。

    • 结构透明度: RFNN 虽然包含神经网络组件,但其模糊逻辑的结构使其在一定程度上比完全的“黑箱”BNNsDGPs 更具可解释性,因为它基于 if-then 规则。

      综上,RFNN 的核心创新在于设计了一个自适应、可学习的推理引擎来桥接传统 FNNsDNNs 的优点,同时规避了两者的主要缺点,从而在处理高维和高不确定性数据方面提供了高效且鲁棒的解决方案。

4. 方法论

本文提出的 鲁棒模糊神经网络 (RFNN) 具有一个新颖的架构,旨在解决传统 模糊神经网络 (FNNs) 在高维不确定性数据处理中的局限性。RFNN 由三个主要组件构成:前件部分 (antecedent component)自适应推理引擎 (Adaptive Inference Engine, AIE)后件部分 (consequent component)。这些组件通过端到端的反向传播 (backpropagation) 算法进行训练,无需额外的超参数调整。

RFNN 的整体架构如下图 Figure 1 所示,不同颜色代表不同的数据处理规则:

Fig. 1. Architecture of the RFNN. Each color represents a different data processing rule. 该图像是论文中RFNN架构的示意图,展示了从先验层、适应性推理引擎到后件层的整体数据处理流程,突出自适应推理和神经网络结合的设计。

图 1. RFNN 的架构。每种颜色代表不同的数据处理规则。

RFNN 中的每条规则都包含一个前件部分 (antecedent component) 的单元和一个后件部分 (consequent component) 的单元,并通过推理单元 (inference unit) 连接。在 Figure 1 中,来自同一条规则的组件共享相同的颜色。推理单元 (inference unit) 位于前件和后件之间,并由所有规则共享。

形式上,假设我们有一个包含 NN 个标记样本的数据集 S={(x1,y1),,(xN,yN)}S = \{ ( x _ { 1 } , y _ { 1 } ) , \dots , ( x _ { N } , y _ { N } ) \}。其中,第 ii 个样本的输入 xiRDx _ { i } \in \mathbb { R } ^ { D },标签 yiRCy _ { i } \in \mathbb { R } ^ { C } 是一个 one-hot 向量 (one-hot vector)。第 KK 条规则的隶属度函数值、发射强度和输出分别表示为 φK\varphi _ { K }ϕK\phi _ { K }ψK\psi _ { K }。将第 kk 条规则的前件单元中心 (antecedent unit's center) 表示为 C _ { k },其后件单元 (consequent unit) 表示为 g(ω;)g ( \omega ; \cdot )RFNN 可以被普遍视为一个模糊过程,理解如下:

Rule k:IFxik : { \mathrm { I F } } x _ { i } is close to C _ { k } , then y _ { i } = g ( \omega ; x _ _ { i } )

其中,ω\omega 是后件单元的参数。 我们的任务是通过优化这些组件中的权重来学习最优的模糊规则,使模型对不确定性具有鲁棒性。

4.1. 前件部分 (Antecedent Component)

前件部分 (antecedent component) 负责将输入进行模糊化 (fuzzify)。它由一组网络单元组成,每个单元可以被视为一条模糊规则的前件 (antecedent) 部分。 对于每个前件单元,需要生成 DD模糊集 (fuzzy sets),每个模糊集描述一个输入特征,并使用高斯分布 (Gaussian distribution) 来建模。接着,应用相同数量的隶属度函数 (membership functions) 来衡量这些输入特征与其对应模糊集之间的相似性。

我们将单个规则的特征中心定义为前件单元中生成的 DD 个模糊集的聚类中心。因此,可以通过评估样本与这些中心之间的相似性来描述数据不确定性。所有前件单元协同工作,从多个角度描述不确定性,从而构建 RFNN

首先,收集 KK 个中心 C={c1,c2,,cK}C = \{ c _ { 1 } , c _ { 2 } , \ldots , c _ { K } \},其中 ckRDc _ { k } \in \mathbb { R } ^ { D } 表示第 kk 条规则的中心,KK 是规则的数量。基于这些中心,构建 KK 条模糊规则。每条规则都依赖于一个相异度向量 (dissimilarity vector) (xi,ck)\ell ( x _ { i } , c _ { k } ) 来表示样本 x _ { i } 的特征与规则中心 c _ { k } 的特征之间的距离。

相异度向量 (xi,ck)\ell ( x _ { i } , c _ { k } ) 可以通过以下公式计算:

(xi,ck)=((xi,1ck,1)2/ σk,1,,(xi,Dck,D)2/ σk,D)T \ell ( x _ { i } , c _ { k } ) = \left( \left( x _ { i , 1 } - c _ { k , 1 } \right) ^ { 2 } / \ \sigma _ { k , 1 } , \ldots , \left( x _ { i , D } - c _ { k , D } \right) ^ { 2 } / \ \sigma _ { k , D } \right) ^ { T }

  • (xi,ck)RD\ell ( x _ { i } , c _ { k } ) \in \mathbb{R}^D: 表示样本 xix_i 与规则中心 ckc_k 之间的相异度向量。
  • x _ { i , j }: 表示样本 xix_i 的第 jj 个特征值。
  • c _ { k , j }: 表示第 kk 条规则中心 ckc_k 的第 jj 个特征值。
  • σk,j\sigma _ { k , j }: 表示与第 kk 条规则和第 jj 个特征相关的协方差向量 (covariance vector) 的第 jj 个元素。它用于标准化特征间相异度的方差。
  • DD: 输入特征的维度。 这个度量可以被视为元素级马氏距离 (elementwise Mahalanobis distance)

有了相异度向量,对于第 kk 条规则和第 ii 个样本的第 jj 个特征,其隶属度函数值 φk(xi,j)\varphi _ { k } \big ( x _ { i , j } \big ) 的计算方式如下:

φk(xi,j)=exp([(xi,pk)]j). \varphi _ { k } \big ( x _ { i , j } \big ) = \mathrm { e x p } \Big ( { - \big [ \ell ( x _ { i } , p _ { k } ) \big ] _ { j } } \Big ) .

  • φk(xi,j)\varphi _ { k } \big ( x _ { i , j } \big ): 表示样本 xix_i 的第 jj 个特征对于第 kk 条规则的隶属度函数值。

  • exp()\mathrm{exp}(\cdot): 自然指数函数。

  • p _ { k }: 在此公式中,pkp_k 指代第 kk 条规则的中心,与前文的 ckc_k 含义相同。

  • [(xi,pk)]j\big [ \ell ( x _ { i } , p _ { k } ) \big ] _ { j } : 表示样本 xix_i 与规则中心 pkp_k 之间计算出的相异度向量 (xi,pk)\ell ( x _ { i } , p _ { k } ) 的第 jj 个元素。

    初始化和训练: 规则中心 ckc_k(或 pkp_k)首先通过 模糊 C 均值 (fuzzy c-means, FCM) 聚类算法 [41] 进行初始化,其中 KK 被设定为期望的聚类数量。这一初始化步骤对于固定模型架构和促进训练过程至关重要。所有与前件部分相关的权重,包括规则中心 ckc_k 和协方差向量 σk\sigma_k,都通过反向传播 (backpropagation) 进行调整,以赋予其强大的模糊化能力。

4.2. 自适应推理引擎 (Adaptive Inference Engine, AIE)

推理引擎 (inference engine) 的作用是将前件部分 (antecedent component) 单元输出的隶属度函数值 (membership function values) 转换为发射强度 (firing strengths)。这些发射强度反映了输入与相应规则的匹配程度。

  • 传统 FNNs 的模糊 AND 操作及其局限性: 通常,模糊神经网络 (FNNs) 使用模糊 AND 操作来计算发射强度,例如通过对所有特征的隶属度值进行乘积:

    ϕk(xi)=j=1Dφk(xi,j) \phi _ { k } ( x _ { i } ) = \prod _ { j = 1 } ^ { D } \varphi _ { k } \big ( x _ { i , j } \big )

    • ϕk(xi)\phi _ { k } ( x _ { i } ): 表示样本 xix_i 对于第 kk 条规则的发射强度。

    • \prod: 连乘操作符。

    • φk(xi,j)\varphi _ { k } \big ( x _ { i , j } \big ): 表示样本 xix_i 的第 jj 个特征对于第 kk 条规则的隶属度函数值。

    • DD: 输入特征的维度。

      然而,这种乘积操作在处理高维样本时存在局限性,特别是在反向传播 (backpropagation) 机制中,它可能直接导致梯度消失问题 (vanishing gradient problem)。当 DD 很大时,即使单个隶属度值 φk(xi,j)\varphi _ { k } \big ( x _ { i , j } \big ) 略小于1,其连乘结果也会迅速趋近于0,使得梯度变得非常小。

  • RFNN 的 AIE: 为了克服上述局限性,RFNN 的 自适应推理引擎 (AIE) f(θ;) : RD  Rf ( \theta ; \cdot ) ~ : ~ \mathbb { R } ^ { D } ~ \to ~ \mathbb { R } 学习 TSK-FNN [22], [23] 来进一步处理隶属度函数值 (membership function values) 中的不确定性,并生成相应的发射强度。如 Figure 1 所示,AIE 的构建基于一个由所有规则共享的 TSK-FNN。通过采用适当的规则数量,推理单元能够在高不确定性的复杂场景中生成更鲁棒的发射强度。 具体地,为了避免模糊 AND 操作在处理高维隶属度函数值时的局限性,AIE 使用 2\ell_2-范数 (L2-norm) 来计算发射强度。因此,与第 kk 个前件单元对应的发射强度 ϕk(xi)\phi _ { k } ( \boldsymbol { x } _ { i } ) 计算如下:

    ϕk(xi)=f(θ;(φk(xi,1),,φk(xi,D))T) \phi _ { k } ( \boldsymbol { x } _ { i } ) = f \Big ( \theta ; \big ( \varphi _ { k } \big ( x _ { i , 1 } \big ) , \ldots , \varphi _ { k } \big ( x _ { i , D } \big ) \big ) ^ { T } \Big )

    • ϕk(xi)\phi _ { k } ( \boldsymbol { x } _ { i } ): 样本 xix_i 对于第 kk 条规则的发射强度。

    • ff: 表示 AIE 的神经网络函数,它是一个可学习的非线性映射。

    • θ\theta: 表示 AIE 的神经网络权重参数。

    • (φk(xi,1),,φk(xi,D))T\big ( \varphi _ { k } \big ( x _ { i , 1 } \big ) , \ldots , \varphi _ { k } \big ( x _ { i , D } \big ) \big ) ^ { T } : 是一个向量,包含了样本 xix_i 的所有 DD 个特征对于第 kk 条规则的隶属度函数值。AIE 以这个向量作为输入。

      这意味着 AIE 将所有特征的隶属度值作为一个整体向量输入到一个神经网络 ff 中,由 ff 自适应地学习如何结合这些隶属度值来生成发射强度,而不是简单地进行乘积。

  • 发射强度归一化 (Normalized Firing Strength): 获得的发射强度 ϕk(xi)\phi _ { k } ( x _ { i } ) 随后通过以下公式进行归一化:

    ϕˉk(xi)=ϕk(xi)k=1Kϕk(xi). \bar { \phi } _ { k } ( x _ { i } ) = \frac { \phi _ { k } ( x _ { i } ) } { \sum _ { k = 1 } ^ { K } \phi _ { k } ( x _ { i } ) } .

    • ϕˉk(xi)\bar { \phi } _ { k } ( x _ { i } ): 归一化后的发射强度,表示第 kk 条规则对整体输出的相对贡献。
    • k=1Kϕk(xi)\sum _ { k = 1 } ^ { K } \phi _ { k } ( x _ { i } ): 所有 KK 条规则的发射强度之和。 通过归一化,确保所有规则的发射强度之和为1,便于后续的加权求和。

4.3. 后件部分 (Consequent Component)

在获得发射强度 (firing strengths) 后,下一步是去模糊化 (defuzzification) 过程,为模糊规则生成精确的输出。

  • 传统方法的局限性: 传统上,规则通过输入特征的加权线性组合进行去模糊化。然而,这种方法不适用于复杂数据集。

  • RFNN 的后件部分:RFNN 的架构中,后件部分中的去模糊化单元 (defuzzification units) g(ω;):RDRCg ( \omega ; \cdot ) : \mathbb { R } ^ { D } \to \mathbb { R } ^ { C } (如 Figure 1 所示) 用于此目的。这些单元可以是任何类型的参数化网络结构。在本文的 RFNN 中,作者使用了 3层多层感知器 (3-layer MLPs) 作为后件层。这些单元的输出会乘以其对应的发射强度。 因此,每条规则的输出 ψk(xi)\psi _ { k } ( x _ { i } ) 计算如下:

    ψk(xi)=ϕˉk(xi)gk(ω;xi) \psi _ { k } ( x _ { i } ) = \bar { \phi } _ { k } ( x _ { i } ) g _ { k } ( \omega ; x _ { i } )

    • ψk(xi)\psi _ { k } ( x _ { i } ): 样本 xix_i 经过第 kk 条规则处理后的最终输出。
    • ϕˉk(xi)\bar { \phi } _ { k } ( x _ { i } ): 第 kk 条规则的归一化发射强度。
    • gk(ω;xi)g _ { k } ( \omega ; x _ { i } ): 第 kk 条规则的去模糊化单元,它是一个神经网络(3层 MLP),以样本 xix_i 作为输入,并产生一个输出向量。
    • ω\omega: 表示去模糊化单元 gkg_k 的权重参数。 这种框架可以通过改变去模糊化单元中的网络结构来适应不同的任务。
  • 总输出 (Raw Output): 在将结果送入下一级处理之前,所有规则的输出会汇总为一个原始总输出 γ(xi)\gamma ( x _ { i } )

    γ(xi)=k=1Kψk(xi). \gamma ( x _ { i } ) = \sum _ { k = 1 } ^ { K } \psi _ { k } ( x _ { i } ) .

    • γ(xi)\gamma ( x _ { i } ): 样本 xix_i 的所有 KK 条规则输出的加权和,代表了 RFNN 在经过模糊推理后的综合结果。
  • 最终预测 (Final Prediction): 为了适用于分类任务 (classification tasks),总输出 γ(xi)\gamma ( \boldsymbol { x } _ { i } ) 会通过一个 Softmax 函数 (Softmax function) 进行处理,生成最终的预测 y^(xi)\hat { y } ( x _ { i } )

    y^(xi)=Softmax(γ(xi)). \hat { y } ( x _ { i } ) = \mathrm { S o f t m a x } ( \gamma ( x _ { i } ) ) .

    • y^(xi)\hat { y } ( x _ { i } ): 样本 xix_i 的最终预测结果,是一个概率分布向量,表示样本属于每个类别的概率。
    • Softmax()\mathrm{Softmax}(\cdot): Softmax 函数 将一个实数向量压缩到 (0,1)(0, 1) 区间,并且所有元素的和为 1,常用于多类别分类的输出层,将其解释为概率。

5. 实验设置

为了评估 鲁棒模糊神经网络 (RFNN) 架构的有效性,作者在八个不同类型的数据集上进行了广泛的实验,并在各种设置下进行了测试。

5.1. 数据集

实验使用了八个真实的、不同场景下的数据集,包括驾驶监控信号和航天飞机控制信号。这些数据集因其多样化的场景、特征数量、样本大小、类别数量和类别不平衡性而被选中,旨在从不同角度证明 RFNN 的有效性和泛化能力。所有特征在实验前都被归一化到 [1,1][-1, 1] 之间。

为了模拟数据中的不确定性,作者随机抽取一定比例的特征,并用服从正态高斯分布 (normal Gaussian distribution) 的噪声进行扰动。被污染特征的比例代表了不确定性水平。

下表 Table I 总结了每个数据集的描述性统计信息,包括样本数、特征数、类别数和类别不平衡因子 (category balance factor) ς\varsigma

Dataset Sample Feature Category S
GSAD [42] 14,061 128 6 0.0917
SDD [43] 58,590 48 11 0.0
FM [44] 180 43 4 0.1431
WD [45] 4,898 11 7 0.4367
MGT [46] 19,020 10 2 0.2098
SC [47] 58,000 9 7 0.7083
WIL [48] 2,000 7 4 0.0
WFRN [49] 5,456 24 4 0.2960

表 1. 数据集信息

类别不平衡因子 (category imbalance factor) ς(0,1)\varsigma \in ( 0 , 1 ) 用于衡量不同类别之间的样本不平衡程度。它的计算公式如下:

ς=i=1L(DiD1L)2 \varsigma = \sqrt { \sum _ { i = 1 } ^ { L } \left( \frac { | { \mathcal { D } } _ { i } | } { | { \mathcal { D } } | } - \frac { 1 } { L } \right) ^ { 2 } }

  • ς\varsigma: 类别不平衡因子。
  • D| \mathcal D |: 数据集的总大小(样本数)。
  • Di| \mathcal { D } _ { i } |: 第 ii 个类别的数据大小(样本数)。
  • LL: 类别的总数量。
  • DiD\frac { | { \mathcal { D } } _ { i } | } { | { \mathcal { D } } | }: 第 ii 个类别在数据集中的比例。
  • 1L\frac { 1 } { L }: 如果类别完全平衡,每个类别应占的理想比例。 直观上,ς\varsigma 越大,表示类别越不平衡。

以下是数据集的简要描述:

  1. Gas Sensor Array Drift (GSAD) 数据集 [42]:包含 13,910 个气体测量实例,每个实例有 128 个变量,来自 16 个化学传感器。分类任务是检测六种不同浓度水平的气体。
  2. Sensorless Drive Diagnosis (SDD) 数据集 [43]:由 58,509 个从电驱动信号中提取的样本组成。每个样本有 48 个特征,根据不同的驱动条件分类为 11 个类别。
  3. Flow Meter (FM) 数据集 [44]:一个超声波流量计诊断数据集。分为四个类别,包含 180 个从 4 通道液体超声波流量计中提取的诊断参数实例。每个实例由 44 个属性组成。
  4. Wine Quality (WQ) 数据集 [45]:由 4,898 个物理化学样本组成,用于评估七种不同葡萄酒的质量。每个测试样本有 12 个变体。
  5. MAGIC Gamma Telescope (MGT) 数据集 [46]:包含 10,920 个样本,由蒙特卡洛程序生成,用于模拟高能伽马粒子的记录。所有实例可分为两类,每个实例包含十个不同物理参数的属性。
  6. SC 数据集 [47]:一个 stat log 数据集,包含九个属性和 58,000 个实例,分布在七个不同类别中。
  7. Wireless Indoor Localization (WIL) 数据集 [48]:收集了 2,000 个智能手机上可见的七个 WiFi 信号的观测信号强度实例。任务是识别四个内部位置类别。
  8. Wall-Following Robot Navigation (WFRN) 数据集 [49]:由 5,456 个通过 24 个超声波传感器收集的样本组成。所有样本用于检测机器人决策。

5.2. 评估指标

实验结果使用 平均精度均值 (mean Average Precision, mAP)平均 F1 分数 (mean F1 score, mF1) [52] 在测试数据上进行评估。

在解释这些指标之前,需要先定义混淆矩阵 (Confusion Matrix) 中的基本概念,这些概念用于衡量分类模型的性能:

  • 真阳性 (True Positives, TP): 模型正确地预测为正类,且实际为正类。

  • 假阳性 (False Positives, FP): 模型错误地预测为正类,但实际为负类。

  • 真阴性 (True Negatives, TN): 模型正确地预测为负类,且实际为负类。

  • 假阴性 (False Negatives, FN): 模型错误地预测为负类,但实际为正类。

    对于多类别分类任务,每个类别 ll精度 (Precision, P)召回率 (Recall, R) 可以定义为:

  • Precisionl=TPlTPl+FPl\mathrm{Precision}_l = \frac{\mathrm{TP}_l}{\mathrm{TP}_l + \mathrm{FP}_l}

  • Recalll=TPlTPl+FNl\mathrm{Recall}_l = \frac{\mathrm{TP}_l}{\mathrm{TP}_l + \mathrm{FN}_l}

    然后,平均精度 (Average Precision, AP)平均召回率 (Average Recall, AR) 定义如下:

5.2.1. 平均精度 (Average Precision, AP)

概念定义 (Conceptual Definition): AP 衡量的是模型在所有类别上的平均精确度。精确度关注的是模型预测为正类的样本中,有多少比例是真正正类。AP 旨在提供一个单一数值,反映模型在所有类别上的分类准确性,尤其是在预测为某一类别时的可靠性。

数学公式 (Mathematical Formula): AP=l=1LTPlTPl+FPlL \mathrm { A P } = \frac { \sum _ { l = 1 } ^ { L } \frac { \mathrm { T P } _ { l } } { \mathrm { T P } _ { l } + \mathrm { F P } _ { l } } } { L }

符号解释 (Symbol Explanation):

  • AP\mathrm { A P }: 平均精度。
  • LL: 类别的总数量。
  • TPl\mathrm { T P } _ { l }: 第 ll 个类别中真阳性 (True Positives) 的数量。
  • FPl\mathrm { F P } _ { l }: 第 ll 个类别中假阳性 (False Positives) 的数量。
  • TPlTPl+FPl\frac { \mathrm { T P } _ { l } } { \mathrm { T P } _ { l } + \mathrm { F P } _ { l } }: 第 ll 个类别的精度。

5.2.2. 平均召回率 (Average Recall, AR)

概念定义 (Conceptual Definition): AR 衡量的是模型在所有类别上的平均召回率。召回率关注的是实际为正类的样本中,有多少比例被模型正确地识别出来。AR 反映了模型在捕获所有相关实例方面的能力,即它能“找回”多少实际为正的样本。

数学公式 (Mathematical Formula): AR=(l=1L[TPl/(TPl+FNl)])/L \mathrm { A R } = \left( \sum _ { l = 1 } ^ { L } { \left[ \mathrm { T P } _ { l } / ( \mathrm { T P } _ { l } + \mathrm { F N } _ { l } ) \right] } \right) / L

符号解释 (Symbol Explanation):

  • AR\mathrm { A R }: 平均召回率。
  • LL: 类别的总数量。
  • TPl\mathrm { T P } _ { l }: 第 ll 个类别中真阳性 (True Positives) 的数量。
  • FNl\mathrm { F N } _ { l }: 第 ll 个类别中假阴性 (False Negatives) 的数量。
  • TPl/(TPl+FNl)\mathrm { T P } _ { l } / ( \mathrm { T P } _ { l } + \mathrm { F N } _ { l } ): 第 ll 个类别的召回率。

5.2.3. F1 分数 (F1 Score)

概念定义 (Conceptual Definition): F1 分数精度 (Precision)召回率 (Recall)调和平均值 (harmonic mean)。它综合考虑了分类模型的精确性和完整性,对于类别不平衡的数据集,F1 分数 比单独的精度或召回率更能反映模型的综合性能。

数学公式 (Mathematical Formula): F1=2×(AP×ARAP+AR) F 1 = 2 \times \left( \frac { \mathrm { A P } \times \mathrm { A R } } { \mathrm { A P } + \mathrm { A R } } \right) 原文中使用的是 (AP1+AR1)1 (\mathrm { A P } ^ { - 1 } + \mathrm { A R } ^ { - 1 } )^{-1} ,等价于上述公式,即: F1=2×(AP×ARAP1+AR1)=2×(AP×AR1AP+1AR)=2×(AP×ARAR+APAP×AR)=2×(AP×AR)2AP+AR F 1 = 2 \times \left( \frac { \mathrm { A P } \times \mathrm { A R } } { \mathrm { A P } ^ { - 1 } + \mathrm { A R } ^ { - 1 } } \right) = 2 \times \left( \frac { \mathrm { A P } \times \mathrm { A R } } { \frac{1}{\mathrm{AP}} + \frac{1}{\mathrm{AR}} } \right) = 2 \times \left( \frac { \mathrm { A P } \times \mathrm { A R } } { \frac{\mathrm{AR} + \mathrm{AP}}{\mathrm{AP} \times \mathrm{AR}} } \right) = 2 \times \frac{(\mathrm{AP} \times \mathrm{AR})^2}{\mathrm{AP} + \mathrm{AR}} 注: 原文公式 2(APAR)/(AP1+AR1)2 * (AP * AR) / (AP^-1 + AR^-1) 存在排版错误,分母应为 (AP+AR)(AP + AR) 才能得到标准的 F1 分数定义。如果严格按照原文公式计算,将得到一个非标准且数值异常的结果。鉴于 F1 分数是一个广为人知的标准指标,这里使用其标准定义公式进行解释,并指出原文的可能排版问题。假设原文的意图是计算 2(APAR)/(AP+AR)2 * (AP * AR) / (AP + AR)

符号解释 (Symbol Explanation):

  • F 1: F1 分数。

  • AP\mathrm { A P }: 平均精度。

  • AR\mathrm { A R }: 平均召回率。

  • AP1\mathrm { A P } ^ { - 1 }: 平均精度的倒数,即 1/AP1/\mathrm{AP}

  • AR1\mathrm { A R } ^ { - 1 }: 平均召回率的倒数,即 1/AR1/\mathrm{AR}

    最终报告的结果是这些指标的均值 (mean),即 mAPmF1

5.3. 对比基线

为了公平比较,作者选择了多种不同类型的模型作为基线进行比较,包括传统的 模糊神经网络 (FNN)、统计模型和几种鲁棒性增强的 深度神经网络 (DNN)。所有基线模型都使用不同的参数设置进行了测试,并选择了最佳结果。

  1. Dropout: 一种防止 DNNs 过拟合的训练策略,通过在训练过程中随机丢弃单元来降低协方差 (covariance)
    • 架构: 测试了基于 MLPDropout (MLP-based Dropout) 和基于 CNNDropout (CNN-based Dropout)。
    • 参数: Dropout rate 选自 {0.05,0.1,0.2,0.3}\{0.05, 0.1, 0.2, 0.3\}
  2. 高斯噪声注入 (Gaussian Noise Injection, GNI): 一种正则化方法,通过随机向 DNNs 注入高斯噪声来提高鲁棒性。
    • 架构: 测试了基于 MLPGNI (MLP GNI) 和基于 CNNGNI (CNN GNI)。
    • 参数: 注入到激活层的高斯噪声水平选自 {0.001,0.005,0.01,0.05,0.1,0.3}\{0.001, 0.005, 0.01, 0.05, 0.1, 0.3\}
  3. 贝叶斯神经网络 (Bayesian Neural Network, BNN): 结合了贝叶斯和 DNN 方法,优化 DNN 权重的分布而不是训练特定的权重来处理噪声。
    • 架构: 测试了基于 MLPBNN (MLP BNN) 和基于 CNNBNN (CNN BNN)。
    • 参数: 使用 no-U-turn sampler [50](一种 Hamiltonian Monte Carlo [51] 的自适应变体)估计后验分布,所有数据集的样本数设为 100。
  4. 高斯过程 (Gaussian Process, GP): 一种单层随机过程,生成有限输入数据的高斯分布。
  5. 深度高斯过程 (Deep Gaussian Process, DGP): 基于 GP 算法的深度信念网络。
    • 参数: 测试了不同数量的网络层 (从 2 到 5),并展示了最佳性能。
  6. 模糊神经网络 (FNN): 一种传统的 FNN,其发射强度通过模糊 AND 操作计算。
    • 参数: 规则数量从 2 变化到 50,并报告了最佳性能。
  7. RFNN (本文架构):
    • 规则数量 KK 通过 模糊 C 均值 (FCM) [41] 算法在 [5:5:50] 范围内搜索最佳聚类数量来确定。
    • 推理引擎 (AIE): 构建为包含两个规则的 TSK-FNN
    • 后件部分: 使用 3 层 MLP 构建去模糊化单元。

5.4. 实验协议

所有实验均采用 五折交叉验证 (five-fold cross-validation) 进行,并且每个实验重复十次。报告的最终结果是这些运行在测试数据上的平均精度均值 (mAP)平均 F1 分数 (mF1)

6. 实验结果与分析

本节详细介绍了 RFNN 在不同不确定性水平下与各种基线模型的实验比较结果,并进行了消融研究和泛化能力分析。

6.1. 核心结果分析

为了测试 RFNN 对不确定性的鲁棒性,作者向每个数据集添加了 {0%,10%,30%,50%}\{0\%, 10\%, 30\%, 50\%\} 程度的噪声,并测试了所有方法。

6.1.1. 不确定性水平变化下的性能

下图 Figure 2 展示了不同不确定性水平下,RFNN 与其他比较方法的测试准确率表现。

该图像是多个数据集下不同模型在不同不确定性水平下的测试准确率折线图。图中比较了RFNN与多种CNN和MLP模型的性能,结果显示RFNN在各不确定性水平均表现出较高的准确率和更强的鲁棒性。 该图像是多个数据集下不同模型在不同不确定性水平下的测试准确率折线图。图中比较了RFNN与多种CNN和MLP模型的性能,结果显示RFNN在各不确定性水平均表现出较高的准确率和更强的鲁棒性。

图 2. RFNN 与所有比较方法在不同不确定性水平下的测试准确率,展示了 RFNN 在高不确定性下优于所有比较方法。

分析:

  • 在数据相对干净(0% 噪声)时,RFNN最先进的 (state-of-the-art) 方法表现相当。
  • 然而,随着不确定性水平的增加,RFNN 的优越性逐渐显现。所有算法的性能都会随不确定性增加而下降,但 RFNN 对不确定性的鲁棒性最强。
  • 例如,在 GSAD 数据集上,从干净数据到 50% 不确定性数据,基于 CNNBNNDGP 模型的准确率下降超过 50%,而 RFNN 的准确率仅下降约 6%。这表明 RFNN 在处理高水平不确定性方面具有显著优势。

6.1.2. 50% 不确定性水平下的详细性能

下表 Table II 展示了所有模型在 50% 噪声水平下八个数据集上的 平均精度均值 (mAP) 及其标准差,以及 平均 F1 分数 (mF1) 及其标准差。

Algorithm EvaluationMetric Dataset
GSAD SDD SC MGT WFRN FM WD WIL
MLP_dropout mAP 55.65/2.39 80.35/0.76 94.81/2.14 77.03/0.63 75.47/2.01 68.00/9.35 48.77/1.69 77.03/0.63
mF1 0.697/0.029 0.802/0.007 0.981/0.012 0.771/0.009 0.759/0.022 0.674/0.179 0.488/0.016 0.924/0.02
CNN dropout mAP 67.41/3.52 64.42/1.55 80.29/1.02 75.85/0.93 67.03/1.01 66.29/5.50 45.10/2.20 78.65/8.83
mF1 0.673/0.033 0.648/0.013 0.882/0.011 0.759/0.008 0.672/0.017 0.600/0.067 0.453/0.016 0.819/0.055
MLP GNI mAP 43.18/6.21 80.61/0.89 95.49/1.64 78.11/0.92 76.95/2.06 67.43/10.80 48.92/1.47 95.29/1.19
mF1 0.666/0.023 0.796/0.023 0.952/0.014 0.780/0.009 0.771/0.022 0.669/0.063 0.487/0.016 0.954/0.009
CNN GNI mAP 75.52/5.49 81.19/1.90 89.81/3.87 77.30/1.72 74.35/1.87 69.29/4.33 46.38/2.41 89.22/7.86
mF1 0.756/0.053 0.812/0.011 0.898/0.039 0.776/0.015 0.742/0.021 0.640/0.033 0.468/0.034 0.892/0.080
MLP BNN mAP 53.72/8.93 42.61/5.02 92.31/2.71 74.77/1.71 74.95/1.49 51.43/12.78 46.12/2.17 96.49/1.34
mF1 0.567/0.093 0.456/0.002 0.913/0.017 0.737/0.071 0.729/0.049 0.524/0.012 0.441/0.021 0.919/0.034
CNN BNN mAP 47.35/17.52 47.90/4.84 82.77/2.53 74.09/2.84 65.25/3.88 52.00/11.32 46.51/2.55 91.23/2.33
mF1 0.443/0.072 0.469/0.084 0.837/0.013 0.740/0.084 0.612/0.088 0.510/0.011 0.455/0.025 0.913/0.033
GP mAP -1.— -1-- --1.— --1-- --1-- 50.51/9.59 44.24/1.38 87.44/4.26
mF1 --1-.- --1-- --1-- -.-1-.- --1-- 0.515/0.090 0.452/0.018 0.844/0.026
DGP mAP 36.41/6.53 56.48/1.89 36.41/6.53 73.82/2.37 45.49/5.49 49.14/13.61 44.89/1.55 51.08/20.38
mF1 0.344/0.053 0.594/0.089 0.314/0.023 0.758/0.037 0.454/0.049 0.429/0.013 0.428/0.015 0.518/0.038
FNN mAP 31.80/2.10 12.04/0.86 62.30/2.17 77.31/0.73 54.02/2.01 38.86/8.23 44.81/1.79 64.71/6.17
mF1 0.348/0.021 0.130/0.086 0.633/0.012 0.713/0.073 0.510/0.001 0.338/0.023 0.418/0.019 0.671/0.017
RFNN mAP 93.13/0.87 92.28/7.15 98.60/0.22 78.93/1.49 87.01/2.16 74.93/6.17 50.86/2.95 96.69/1.02
mF1 0.932/0.012 0.945/0.015 0.992/0.003 0.783/0.013 0.866/0.012 0.709/0.106 0.490/0.013 0.930/0.009

表 2. 所有模型在 50% 不确定性水平下八个数据集上的平均精度均值 (%) /其标准差和平均 F1 分数/其标准差

分析:

  • RFNN 的显著优势: 结果显示,RFNN 在 50% 不确定性水平下显著超越了所有基线模型。
    • mAP 方面,RFNN 平均比 Dropout 高出 12.01%,比 GNI 高出 8.71%,比 BNN 高出 17.50%。
    • mF1 方面,RFNN 在多个数据集上也表现出最高的性能。例如,在 GSADSDDSCWFRN 等数据集上,RFNNmF1 远高于其他方法。
  • 传统 FNN 的劣势: 传统 FNN 的表现普遍较差,尤其是在 SDD 数据集上 mAP 仅为 12.04%,这验证了其在高维数据不确定性下的局限性。
  • 深度统计模型的挑战: BNNDGP 在一些数据集(如 GSADSDDFM)上表现不佳,这可能与其计算成本和对特定噪声模式的敏感性有关。GP 由于计算效率问题,未能在大规模数据集上进行测试。

6.1.3. 混合不确定性下的性能

下表 Table IV 展示了所有模型在八个数据集上,面对混合不确定性时的 平均 F1 分数 (mF1)。混合不确定性由三种不同噪声水平组成:

  1. 25% 的特征受到 N(0,1)\mathrm { N } ( 0 , 1 ) 分布噪声的污染。

  2. 5% 的特征被随机设置为 2,作为异常值 (outliers)

  3. 20% 的特征受到 N(0.5,1.2)\mathrm { N } ( 0.5 , 1.2 ) 分布噪声的污染。

    Algorithm Dataset
    GSAD SDD SC MGT WFRN FM WD WIL
    MLP_dropout 0.662/0.040 0.815/0.006 0.960/0.022 0.789/0.008 0.758/0.012 0.577/0.106 0.489/0.012 0.906/0.031
    CNN_dropout 0.706/0.046 0.659/0.004 0.833/0.013 0.767/0.009 0.686/0.012 0.611/0.052 0.449/0.018 0.816/0.057
    MLP_GNIs 0.666/0.038 0.807/0.003 0.976/0.009 0.791/0.009 0.775/0.018 0.606/0.145 0.497/0.014 0.927/0.011
    CNN_GNI 0.786/0.017 0.812/0.019 0.921/0.024 0.792/0.016 0.762/0.021 0.651/0.084 0.460/0.020 0.918/0.045
    MLP_BNN 0.756/0.053 0.792/0.005 0.892/0.027 0.794/0.041 0.749/0.014 0.591/0.078 0.461/0.021 0.914/0.013
    CNN_BNN 0.747/0.072 0.817/0.008 0.883/0.023 0.790/0.028 0.752/0.018 0.610/0.032 0.465/0.055 0.912/0.033
    GP -.—/-.— -.—/-.— -.—/-.— -.—/— -.—/-.— 0.595/0.019 0.454/0.038 0.897/0.026
    DGP 0.734/0.053 0.796/0.009 0.836/0.053 0.778/0.037 0.754/0.049 0.589/0.061 0.448/0.055 0.910/0.023
    FNN 0.641/0.021 0.732/0.006 0.832/0.017 0.773/0.043 0.740/0.021 0.588/0.029 0.414/0.017 0.871/0.017
    RFNN 0.942/0.008 0.960/0.005 0.994/0.002 0.796/0.008 0.855/0.022 0.749/0.106 0.491/0.008 0.929/0.001

表 4. 所有模型在八个数据集上处理混合不确定性时的平均 F1 分数和标准差

分析:

  • RFNN 的压倒性优势: 在处理高水平混合不确定性时,RFNN 仍然表现出卓越的性能。在所有八个数据集上,RFNNmF1 分数均显著高于所有其他方法。
    • 例如,RFNNGSADSDDSC 数据集上取得了接近甚至超过 0.9 的 mF1,而其他方法多数在 0.6-0.8 区间。
    • RFNNmF1 平均比 Dropout 高 0.165,比 GNI 高 0.128,比 BNN 高 0.166。
  • 稳定性: RFNN 的标准差在许多数据集上相对较小,表明其在处理混合不确定性时也具有较高的稳定性。

6.2. 消融研究

为了证明 自适应推理引擎 (AIE) 在处理高水平数据不确定性方面的有效性,作者将 AIE-based RFNN 与使用其他神经网络(包括 MLPCNN)作为推理引擎的 RFNN 变体进行了比较。

下表 Table III 展示了在 50% 不确定性水平下,基于 MLPAIE 和基于 FNNAIERFNN 在八个数据集上的 平均精度均值 (mAP) 和标准差的最佳性能。

Algorithm Dataset
GSAD SDD SC MGT WFRN FM WD WIL
MLP 85.58/2.4 88.30/0.86 99.05/3.14 79.57/0.50 80.37/1.14 72.86/6.39 49.78/2.67 96.49/0.64
FNN 93.13/0.87 92.28/7.15 98.60/0.22 78.93/1.49 87.01/2.16 74.93/6.17 50.86/2.95 96.69/1.02

表 3. 基于 MLPAIE 和基于 FNNAIERFNN 在 50% 不确定性水平下八个数据集上的平均精度均值 (%) 和标准差

分析:

  • FNN-based AIE 的优越性: 结果表明,本文提出的 FNN-based AIE 在六个数据集上优于使用其他神经网络(如 MLP)作为推理引擎的 RFNN
  • 量化优势: FNN-based AIE 平均测试准确率比其他比较方法高出 3.52%。这证明了 AIE 作为 TSK-FNN 结构在处理隶属度函数值中的不确定性并生成更具代表性的发射强度方面的有效性。

6.3. 泛化能力分析

RFNN 在处理不同水平的不确定性和应对不同学习任务方面,具有更宽松的约束和更强的泛化能力 (generalizability)

  • 超参数少: 模型中唯一的超参数是规则数量 KK,它通过 模糊 C 均值 (FCM) 算法自动选择。这意味着 RFNN 能够自动调整其结构以适应差异较大的数据集。
  • 与基线模型的对比: 大多数基线算法在训练过程中需要调整额外的超参数,并且当数据不确定性水平或学习场景发生变化时,需要手动重新调整这些超参数。
  • 图示支持: 尽管论文中未直接展示 Figure 3, Figure 4, Figure 5 的具体图片,但文字描述指出这些图(例如,Figure 3 展示了 DNNdropout rate 0.05 时的结果;Figure 4 展示了 GNI 在噪声水平 0.01 时的最佳性能;Figure 5 展示了 RFNN 与不同 BNN 架构的测试性能比较)表明 RFNN 表现出比比较方法更强的泛化能力,能够很好地处理不同水平的不确定性。
  • 真实世界数据集的泛化: Table IITable IV 的结果也进一步证明了 RFNN 在处理来自不同场景的真实世界数据集时表现出色,并且对不同任务和场景具有更强的泛化能力。

6.4. 收敛性分析

下图 Figure 6 展示了 RFNN 在不同数据集和不同噪声水平下的测试准确率随训练轮次(Epoch)变化的曲线。

该图像是一张黑白人脸照片,显示一位戴眼镜的年轻男性正面肖像,图中无其它文字或公式。 该图像是一张黑白人脸照片,显示一位戴眼镜的年轻男性正面肖像,图中无其它文字或公式。

图 6. 不同数据集和噪声水平下的测试准确率随训练轮次变化的曲线,展示了 RFNN 如何收敛到优化准确率。

分析:

  • 收敛性: 在所有八个数据集和不同噪声水平下,RFNN 都能够收敛到其优化准确率。
  • 不确定性对收敛的影响: 样本的不确定性越高,模型达到收敛所需的训练轮次越多。
  • 数据特性对训练过程的影响: 数据集的规模和维度在训练过程的平滑性中扮演着重要角色。
    • 拥有更大规模和更低维度的数据集,训练过程通常更平滑。这是因为更多的样本有助于模型学习,而更少的特征使得 RFNN 更容易学习有意义的规则来覆盖关键特征并消除不确定性。
  • 超参数调整的对比: 当应对不同不确定性水平时,基线比较方法需要调整/微调其超参数,而 RFNN 即使在非常高的不确定性水平下,也无需改变其结构即可完成任务。
  • 模型稳定性:Figure 6 中曲线的方差可以看出,RFNN 在数据噪声较小时表现出更高的模型稳定性。

7. 总结与思考

7.1. 结论总结

本文提出了一种新颖的鲁棒模糊神经网络 (RFNN) 架构,旨在解决传统 模糊神经网络 (FNNs) 在处理高维数据和高不确定性方面的局限性。RFNN 的核心创新在于其自适应推理引擎 (AIE),该引擎通过端到端反向传播 (end-to-end backpropagation) 学习算法进行训练,能够处理数据中的不确定性。

AIE 提供了一个非线性映射,进一步处理隶属度函数值 (membership function values) 中的不确定性,并生成具有代表性的发射强度 (firing strengths)。这使得 RFNN 不仅能够处理高水平的数据不确定性,还能直接处理非常高维度的数据,有效避免了传统 FNNs 模糊 AND 操作导致的梯度消失问题 (vanishing gradient problem)。此外,RFNN 的后件组件采用神经网络结构(例如3层 MLP)来增强学习规则的推理能力 (reasoning ability)

在八个不同数据集上进行的大量实验证明,RFNN 在处理高水平不确定性时,能够提供最先进的 (state-of-the-art) 准确性。消融研究进一步证实了 FNN-based AIE 在提高不确定性容忍度方面的优越性。RFNN 的设计使其成为处理数据不确定性的一种鲁棒且可扩展的解决方案。

7.2. 局限性与未来工作

作者在论文的结论部分指出了以下未来工作方向:

  • AIE 和后件组件的结构多样性: AIE 和后件组件可以采用特定的神经网络结构进行构建,以适应特定的应用场景。未来的工作将扩展 RFNN,探索不同网络结构的推理引擎,以适应更广泛的场景。

    论文中并未明确指出 RFNN 自身的局限性,但在实际应用中,一些潜在的挑战可能包括:

  • 模型复杂性: 尽管 RFNN 比深度统计模型计算效率更高,但其包含多个神经网络组件(前件的隶属度函数参数、AIE 内部的 TSK-FNN、后件的 MLP),可能导致模型参数量相对较大,训练时间和计算资源消耗仍需进一步评估。

  • 可解释性与黑箱: 尽管 FNN 的核心思想具有可解释性,但 AIE 和后件组件引入的神经网络模块在一定程度上可能降低模型的整体可解释性,使其不如传统简单 FNNs 那样直观透明。

  • 规则数量 KK 的自动选择: 虽然 FCM 算法用于初始化规则数量 KK,但其对最终性能的影响以及如何在更复杂或动态的数据集中进行优化选择,仍是值得深入研究的问题。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文在几个方面提供了重要的启发:

  1. 领域知识与深度学习的融合: RFNN 成功地将模糊逻辑 (Fuzzy Logic) 处理不确定性的固有优势与深度神经网络 (Deep Neural Networks) 强大的学习和特征提取能力相结合。这表明在面对复杂问题时,简单地采用纯深度学习模型可能并非最佳方案,将传统领域的成熟理论(如模糊系统)与现代深度学习技术进行有机融合,可以创造出更强大、更鲁棒的模型。
  2. 解决传统模型瓶颈的创新性: 传统 FNNs 在高维数据上的梯度消失问题 (vanishing gradient problem) 是一个长期存在的瓶颈。RFNN 通过设计自适应推理引擎 (AIE) 来替代固定的模糊 AND 操作,提供了一个优雅且有效的解决方案。这种“自适应学习”的思路是解决许多传统模型局限性的关键。
  3. 对不确定性的深度处理: AIE 不仅学习发射强度,还进一步处理了隶属度函数值 (membership function values) 中的不确定性。这超越了简单地将模糊逻辑作为一种“正则化”或“解释性”层,而是将其深度整合到模型对不确定性的理解和响应中。
  4. 端到端训练的优势: RFNN 的所有组件都可以通过反向传播 (backpropagation) 进行端到端训练,避免了复杂的多阶段优化,简化了模型开发和部署过程。

7.3.2. 批判与潜在改进

尽管 RFNN 取得了显著的性能提升,但仍有一些方面值得批判性思考和潜在改进:

  1. AIE 内部机制的透明度: 论文提到 AIE 是基于 TSK-FNN,并且使用 2\ell_2-范数来计算发射强度,但对 AIE 内部 TSK-FNN 的具体结构(例如有多少个规则、如何训练这些规则)描述较为抽象。公式 ϕk(xi)=f(θ;(φk(xi,1),,φk(xi,D))T)\phi _ { k } ( \boldsymbol { x } _ { i } ) = f \Big ( \theta ; \big ( \varphi _ { k } \big ( x _ { i , 1 } \big ) , \ldots , \varphi _ { k } \big ( x _ { i , D } \big ) \big ) ^ { T } \Big ) 只是一个抽象函数 ff,缺乏对其具体实现细节的说明。更详细地阐述 AIE 的具体网络结构、其如何利用 2\ell_2-范数以及其训练过程,将有助于读者更深入地理解 RFNN 的核心创新。
  2. 计算效率的比较: 论文强调了 RFNN 避免了深度统计模型(如 BNNDGP)的计算开销。然而,实验部分缺乏关于训练时间或推理时间的具体比较数据。这对于评估 RFNN 在大规模实际应用中的可行性至关重要。未来的研究可以量化 RFNN 相较于基线模型在计算效率上的优势。
  3. 规则数量 KK 的敏感性分析: 虽然 FCM 算法用于初始化规则数量 KK,但论文并未深入探讨 KK 的选择对模型性能和鲁棒性的影响。例如,是否可以对 KK 进行更精细的超参数调优,或者探索一种自适应确定 KK 的机制,以进一步优化模型。
  4. 不确定性类型的多样性: 论文主要通过向特征添加高斯噪声来模拟不确定性,并在混合噪声场景下进行了测试。然而,实际数据中的不确定性可能远不止于此,例如:
    • 概念漂移 (Concept Drift): 数据分布随时间变化。
    • 标签噪声 (Label Noise): 训练标签本身存在错误。
    • 缺失数据 (Missing Data): 某些特征值缺失。 RFNN 在这些更广泛的不确定性类型下的表现值得进一步探索。
  5. 可解释性评估: 尽管 FNNs 以其可解释性而闻名,但 RFNN 引入了复杂的神经网络组件,可能会影响其整体可解释性。未来的工作可以尝试量化和评估 RFNN 的可解释性,例如通过分析 AIE 学习到的映射或后件层中 MLP 的贡献。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。