Deep Fuzzy Clustering - A Representation Learning Approach
TL;DR 精炼摘要
本文提出GrDNFCS模型,通过自编码器结构结合判别性图正则化,实现高维数据的深度模糊聚类。该方法优化簇内紧凑性和簇间分离性,联合进行表示学习与软聚类,实验证明聚类性能和稳定性显著优于传统方法。
摘要
1063-6706 (c) 2019 IEEE. Personal use is permitted, but republication/redistribution requires IEEE permission. See http://www.ieee.org/publications_standards/publications/rights/index.html for more information. This article has been accepted for publication in a future issue of this journal, but has not been fully edited. Content may change prior to final publication. Citation information: DOI 10.1109/TFUZZ.2020.2966173, IEEE Transactions on Fuzzy Systems 1 Deep Fuzzy Clustering - A Representation Learning Approach Qiying Feng, Long Chen, Member, IEEE, C. L. Philip Chen, Fellow, IEEE and Li Guo Abstract —Fuzzy clustering is a classical approach to provide the soft partition of data. Although its enhancements have been intensively explored, fuzzy clustering still suffers from the difficulties in handling real high-dimensional data with complex latent distribution. To solve the problem, this paper proposes a deep fuzzy clustering method by representing the data in a feature space produced by the deep neural network. From the perspective of representation learning, three constraints or objectives are imposed to the neural network to enhance the clustering-
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): Deep Fuzzy Clustering - A Representation Learning Approach (深度模糊聚类 - 一种表示学习方法)
- 作者 (Authors): Qiying Feng, Long Chen (Member, IEEE), C. L. Philip Chen (Fellow, IEEE), and Li Guo.
- 隶属机构: 澳门大学 (University of Macau)、华南理工大学 (South China University of Technology)、大连海事大学 (Dalian Maritime University)、青岛大学 (Qingdao University)。作者团队在计算机科学、特别是模糊系统和机器学习领域有深厚的研究背景。
- 发表期刊/会议 (Journal/Conference): 论文格式遵循 IEEE Transcactions 期刊风格,但具体发表信息在所提供文本中未明确说明。
- 发表年份 (Publication Year): 未明确标注。但根据引用的基金项目时间(2016-2019),可推断论文发表于 2019 年或之后。
- 摘要 (Abstract): 传统模糊聚类在处理具有复杂潜在分布的高维数据时表现不佳。为解决此问题,本文提出了一种深度模糊聚类方法,通过深度神经网络学习有利于聚类的特征表示。该网络受到三个关键目标的约束:(1) 自编码器结构确保特征空间中的数据重构保真度;(2) 通过最小化簇内紧凑性和最大化簇间可分性来提升聚类质量;(3) 引入判别性图正则化,使表示的亲和度与类别的判别信息保持一致。最终模型被命名为
GrDNFCS(Graph Regularized Deep Normalized Fuzzy Compactness and Separation Clustering),它能同时进行表示学习和软聚类。论文为该模型开发了基于随机梯度下降的训练算法,并在真实数据集上进行了大量实验,结果表明该模型在聚类性能和鲁棒性上均优于基线方法。 - 原文链接 (Source Link):
/files/papers/68fa2f36eba087db331952ba/paper.pdf(该链接为本地文件路径,非公开网址)
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 经典的模糊聚类方法,如模糊C均值 (Fuzzy C-Means, FCM),在面对现实世界中常见的高维数据(如图像、文本)时效果不佳。这些数据通常具有复杂的内在结构,直接在原始空间上计算距离并不可靠,导致聚类性能下降。
- 现有挑战 (Gap):
- 核方法 (Kernel Methods): 虽然可以将数据映射到更高维的特征空间,但设计一个好的核函数本身就很困难,且在大规模数据上计算成本高。
- 显式变换方法 (Explicit Transformation): 如随机投影等方法,虽然能降低维度,但可能丢失重要信息。
- 深度聚类方法: 尽管已有的深度聚类模型(如
DEC,IDEC)结合了深度学习和聚类,但很少有研究专门针对深度模糊聚类进行优化,特别是如何通过深度学习来改善模糊聚类的特征质量。
- 创新思路: 本文的切入点是将深度表示学习 (Deep Representation Learning) 与模糊聚类 (Fuzzy Clustering) 进行端到端的联合优化。作者认为,一个好的特征表示应该同时满足数据保真度、聚类友好性和结构一致性。因此,他们设计了一个多目标优化的深度网络,在学习特征的同时完成模糊聚类。
-
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出新模型: 首次将深度神经网络的表示学习能力与模糊聚类相结合,提出了一个名为
GrDNFCS的深度模糊聚类模型。该模型可以同时学习数据的优质低维表示并进行软聚类,而不是分两步走。 - 提出新算法: 提出了一种新的归一化模糊紧凑性与分离度算法 (Normalized Fuzzy Compactness and Separation, DNFCS)。该算法被嵌入深度模型中,通过同时考虑簇内紧凑性和簇间分离度来提升聚类效果,并解决了传统
FCS算法中可能出现的负值问题。 - 引入新正则项: 创造性地使用基于伪标签 (pseudo-labels) 的判别性图正则化来约束隐藏特征空间。这种方法避免了传统图方法(如
k-NN)的巨大计算开销,并能动态地利用聚类过程中的中间信息来优化特征表示。 - 验证有效性: 设计了完整的优化算法,并在多个真实高维数据集上进行了实验。结果表明,
GrDNFCS在聚类准确率等指标上显著优于多种传统和先进的基线方法。
- 提出新模型: 首次将深度神经网络的表示学习能力与模糊聚类相结合,提出了一个名为
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
本部分旨在为初学者铺垫理解论文所需的前置知识。
-
基础概念 (Foundational Concepts):
- 模糊聚类 (Fuzzy Clustering): 一种软聚类方法。与硬聚类(如K-Means)将每个数据点严格划分到某一个簇不同,模糊聚类为每个数据点分配一个隶属度 (membership degree),表示该点属于各个簇的概率或程度。隶属度值在 [0, 1] 之间,且一个数据点对所有簇的隶属度之和为 1。这使得它在处理边界模糊的数据时更加灵活。
- 模糊C均值 (Fuzzy C-Means, FCM): 最经典的模糊聚类算法。其目标是最小化一个加权的簇内距离平方和,其中权重是隶属度的 次方。 被称为模糊系数 (fuzzifier),控制着聚类的模糊程度。
- 自动编码器 (Autoencoder, AE): 一种无监督的神经网络模型,由一个编码器 (Encoder) 和一个解码器 (Decoder) 组成。
- 编码器: 将输入数据(如高维图像)压缩成一个低维的隐藏表示 (hidden representation) 或潜在特征 (latent feature)。
- 解码器: 尝试从这个低维的隐藏表示中重构 (reconstruct) 出原始的输入数据。
- 目标: 通过训练使重构数据与原始数据尽可能接近(通常用均方误差损失),从而迫使网络学习到数据中最具代表性的特征。如下图 (a) 所示。
- KL散度 (Kullback-Leibler Divergence): 一种衡量两个概率分布之间差异的指标。在机器学习中,常用于最小化一个模型预测分布 与一个目标分布 之间的差距,即 。
-
前人工作 (Previous Works):
- 传统模糊聚类变体:
FCS(Fuzzy Compactness and Separation): 改进了FCM,不仅考虑簇内距离,还考虑了簇间距离,旨在让簇内更紧凑、簇间更分离。但存在计算隶属度时可能出现负值的缺陷。
- 处理高维数据的方法:
- 核方法 (Kernel Methods): 通过核函数将数据隐式映射到高维空间,但设计好的核函数很难。
- 深度聚类 (Deep Clustering): 近年来兴起的方法,通过深度学习来学习特征表示。
- 两步法: 先用
AE训练一个好的特征表示,然后在这个表示上运行传统聚类算法(如K-Means)。这种方法的缺点是表示学习和聚类过程是分离的,表示学习的目标并不直接服务于聚类。 - 端到端法: 将表示学习和聚类集成到一个统一的框架中进行联合优化。
DEC(Deep Embedding Clustering): 提出了一个深度嵌入聚类模型,它先用AE预训练,然后丢弃解码器,通过一个基于学生t分布 (Student's-t distribution) 的聚类损失来微调编码器和聚类中心。IDEC(Improved Deep Embedding Clustering):DEC的改进版,它在联合优化时保留了解码器和重构损失,认为这有助于保留数据的局部结构,从而获得更好的聚类效果。
- 两步法: 先用
- 传统模糊聚类变体:
-
技术演进 (Technological Evolution): 论文的工作处于深度聚类技术演进的前沿。其发展脉络可概括为: 传统聚类 (
FCM) → 针对高维数据的改进 (核方法,FCS) → 分离式深度聚类 (AE + K-Means) → 端到端深度聚类 (DEC,IDEC) → 本文工作:端到端的深度模糊聚类 (GrDNFCS)。 -
差异化分析 (Differentiation): 与最相关的
DEC和IDEC相比,本文的核心创新点在于:-
聚类目标不同:
DEC/IDEC使用基于学生t分布的聚类层,而本文提出了一个新的DNFCS模糊隶属度计算方式,该方式显式地优化簇内紧凑性与簇间分离度。 -
引入图正则化:
DEC/IDEC的表示学习只受重构损失和聚类损失的约束。本文额外增加了一个图正则化项,利用伪标签动态构建数据点在特征空间中的亲和关系,强制要求属于同一个预测簇的样本在特征空间中彼此靠近。这是一个全新的约束,旨在学习到结构更优的特征。
该图像是示意图,展示了论文中四种深度聚类模型的结构: (a) 自动编码器(AE),(b) DEC模型,(c) IDEC模型,(d) GrDNFCS模型。图中体现了各模型中约束条件及聚类层的设计差异。
-
图1解读:
- (a) AE 模型: 最基础的结构,由编码器和解码器组成,目标是让输出重构输入。
- (b) DEC 模型: 在 AE 的编码器之后增加一个聚类层,但训练后期会丢弃解码器。
- (c) IDEC 模型: DEC 的改进,保留了解码器和重构损失,与聚类损失共同优化。
- (d) GrDNFCS 模型 (本文模型): 结构最复杂。它不仅有 AE 的重构损失和聚类损失(基于新的
DNFCS),还额外引入了一个图正则化损失,共同作用于隐藏特征的学习。
4. 方法论 (Methodology - Core Technology & Implementation Details)
本节详细拆解 GrDNFCS 模型的技术方案。其核心思想是通过一个统一的损失函数,联合优化三个目标。
-
方法原理 (Methodology Principles): 构建一个深度神经网络,其总损失 由三部分加权组成:
- (重构损失): 保证编码器学到的特征 能够还原原始数据 。
- (聚类损失): 引导特征 在分布上变得“聚类友好”,即簇内紧凑、簇间分离。
- (图正则化损失): 保持数据在特征空间中的局部结构一致性,使同类样本的特征更接近。
-
方法步骤与流程 (Steps & Procedures): 整个模型如上图1(d)所示,包含一个自编码器、一个模糊聚类层和一个图正则化模块。
-
数学公式与关键细节 (Mathematical Formulas & Key Details):
1. 目标一:自编码器重构 (Autoencoder Reconstruction)
- 这是最直接的约束。给定输入 ,通过编码器得到隐藏表示 ,再通过解码器得到重构输出 。
- 损失函数 (MSE Loss):
- 符号解释:
- : 样本总数。
- : 第 个原始数据样本。
- : 对 的重构输出。
W, B: 网络的权重和偏置。- : 欧几里得距离的平方。
2. 目标二:归一化模糊紧凑性与分离度聚类 (DNFCS Clustering)
- 这是本文的核心创新之一。它改进自
FCS算法。 - 首先,定义
FCS的隶属度 是基于簇内距离 和簇间距离 的。但其原始公式存在分母项可能为负的问题。 - 本文提出归一化的模糊隶属度
DNFCS(Deep Normalized Fuzzy Compactness and Separation),在隐藏特征 上计算: - 符号解释:
- : 样本 对第 个簇的隶属度。
- : 样本 的隐藏特征表示。
- : 第 个聚类中心。
- : 所有聚类中心的均值。
- : 模糊系数 ()。
- : 一个超参数,用于平衡簇内距离和簇间距离的影响。
- 关键改进: 论文通过将簇间距离项进行归一化(除以所有中心到总中心的距离平方和),确保了括号内的表达式为正,从而解决了
FCS的技术缺陷。
- 为了驱动网络学习,论文借鉴
DEC的思想,构建一个目标分布 P 来指导 Q 的学习。 这个目标分布 的作用是“提纯”隶属度,让置信度高的分配获得更高的权重,从而使聚类边界更清晰。 - 聚类损失 (KL-Divergence Loss):
3. 目标三:基于伪标签的图正则化 (Pseudo-Labels based Graph Regularization)
- 此目标旨在让特征空间保持良好的局部结构。
- 伪标签 (Pseudo-Label): 对于每个样本 ,其伪标签 定义为当前隶属度最高的簇的索引:。
- 亲和度矩阵 (Affinity Matrix): 基于伪标签,定义任意两个样本 和 之间的亲和度 :
- 符号解释:
- : 样本 和 的伪标签。
- : 超参数,分别控制核宽度和亲和度缩放。
- 关键思想: 只有当两个样本被预测为同一簇时,它们之间才有非零的亲和度。这避免了计算全局
k-NN图的高昂成本,并且亲和度矩阵 可以在训练过程中根据更新的伪标签动态调整。
- 图正则化损失 (Graph Regularization Loss): 这个损失项的含义是:如果两个样本的亲和度 很高(即它们被预测为同一簇),那么它们在特征空间中的距离 就应该被惩罚,从而迫使它们互相靠近。
最终目标函数与训练
- 将上述三个损失函数加权求和,得到最终的联合优化目标:
- 训练算法 (Algorithm 1): 采用基于随机梯度下降 (Stochastic Gradient Descent, SGD) 的算法进行端到端训练。训练过程交替进行:
- 前向传播: 计算重构损失、聚类损失和图正则化损失。
- 反向传播: 根据总损失更新网络参数 (
W, B) 和聚类中心 ()。 - 更新亲和度矩阵: 在每个或每几个
epoch之后,重新计算所有样本的伪标签,并据此更新亲和度矩阵 。
5. 实验设置 (Experimental Setup)
-
数据集 (Datasets): 实验使用了 6 个高维基准数据集,覆盖了手写数字、文本、物体图像和时尚服饰等多种类型,以全面评估模型的性能和泛化能力。以下是根据原文 Table I 转录的数据:
MNIST USPS Reutersidf-10k COIL20 Fashion-MNIST STL-10 样本数 70000 9298 10000 1440 70000 13000 类别数 10 10 4 20 10 10 维度 784 256 2000 1024 784 4096 -
评估指标 (Evaluation Metrics): 论文使用了三个标准的聚类评估指标来衡量性能。
-
聚类准确率 (Accuracy, ACC)
- 概念定义: 该指标衡量聚类结果与真实标签的匹配程度。它首先通过匈牙利算法等方法找到聚类标签与真实标签之间的最佳映射关系,然后计算在该最佳映射下被正确分类的样本比例。ACC 值越高,表示聚类结果与真实类别结构越吻合。
- 数学公式:
- 符号解释:
- : 样本总数。
- : 样本 的真实标签。
- : 样本 的聚类标签。
- : 一个将聚类标签映射到真实标签的最佳置换函数。
- : 指示函数,当内部条件为真时取1,否则取0。
-
归一化互信息 (Normalized Mutual Information, NMI)
- 概念定义: NMI 是一个基于信息论的指标,用于衡量两个聚类结果(或一个聚类结果与真实标签)之间的相似度。它量化了知道一个聚类结果后,对另一个聚类结果不确定性减少的程度,并进行了归一化处理,使其值范围在 [0, 1] 之间。NMI 值越高,表示聚类结果与真实标签的一致性越好。
- 数学公式:
- 符号解释:
- : 真实标签的集合。
- : 聚类标签的集合。
I(Y, C): 和 之间的互信息。H(Y), H(C): 和 的熵。
-
调整兰德指数 (Adjusted Rand Index, ARI)
- 概念定义: ARI 用于衡量两个数据划分的相似性。它通过考虑所有样本对,计算在两个划分中被一致处理(即同属一簇或分属不同簇)的样本对比例,并对随机情况进行了调整。ARI 的取值范围通常为 [-1, 1],值越接近 1 表示聚类结果与真实标签越一致;接近 0 则表示随机划分水平。
- 数学公式:
- 符号解释:
- : 同时在真实类别 和聚类簇 中的样本数。
- : 真实类别 中的样本数。
- : 聚类簇 中的样本数。
- : 组合数,表示从 个元素中选 2 个的组合方式。
-
-
对比基线 (Baselines): 论文与多种有代表性的聚类方法进行了比较,包括:
- 传统方法:
K-means、FCM(模糊C均值)、MBKM(小批量K-means)。 - 谱方法:
SEC(谱嵌入聚类)。 - 深度聚类方法:
IDEC(改进的深度嵌入聚类),这是最关键的对比基线。
- 传统方法:
6. 实验结果与分析 (Results & Analysis)
-
核心结果分析 (Core Results Analysis):
-
性能对比: 尽管原文中的性能对比表格(Table III)内容缺失,但从摘要、结论以及图4中可以明确看出,
GrDNFCS在所有测试数据集上的ACC、NMI和ARI指标均显著优于所有基线方法,包括强大的深度聚类模型IDEC。
该图像是论文中的图表,展示了IDEC与GrDNFCS在USPS和Reutersidf-10k数据集上的聚类性能对比,包括ACC、NMI、ARI等指标以及KL和MSE损失随训练迭代的变化情况。
图4解读:
- 该图展示了在
USPS和Reutersidf-10k数据集上,GrDNFCS和IDEC随着训练迭代次数增加的性能变化。 - 性能指标 (ACC, NMI, ARI): 蓝色实线 (
GrDNFCS) 在两个数据集上的所有三个指标都显著高于橙色虚线 (IDEC),并且收敛到了更好的水平。这强有力地证明了GrDNFCS的优越性。 - 损失曲线 (KL, MSE):
GrDNFCS的损失曲线下降平稳,表明其训练过程稳定。
-
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
-
模糊系数 的选择: 论文对 进行了理论分析和实验验证。以下是根据原文 Table II 转录的数据:
MNIST USPS Reutersidf-10k COIL20 Fashion-MNIST STL-10 λ(Cx) <0.5 <0.5 <0.5 ≥0.5 ≥0.5 <0.5 理论范围 <3.38 <4.17 <3.6 [1.5-2.5] [1.5-2.5] [1.5-2.5] 最佳m值 1.8 1.6 1.8 1.6 1.6 1.6
Table II 解读: 论文首先根据理论(公式26)计算出 的合理范围,然后在该范围内通过实验寻找最佳值。结果显示,对于大多数数据集, 或 是一个不错的选择。这为该参数的设置提供了指导。
-
超参数敏感性分析:
该图像是图表,展示了GrDNFCS方法在USPS和Reutersidf-10k数据集上不同超参数对模型性能的敏感性分析,包括参数m、β、t、α1和α2对聚类指标的影响。
图2解读:
- 该图分析了五个关键超参数 (, , , , ) 在不同取值下对模型性能 (
ACC,NMI,ARI) 的影响。 - 结论: 模型性能在一定范围内对这些超参数的取值不敏感,表现出较好的鲁棒性 (robustness)。例如,在
USPS数据集上,当 在 [0.05, 0.2] 之间, 在 [10, 30] 之间时,性能都保持在较高水平。这表明模型并非极度依赖于精细的参数调优,降低了其在实际应用中的使用难度。
-
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary): 本文成功地提出了一种新颖的深度模糊聚类模型
GrDNFCS,它通过一个统一的框架,将自编码器的表示学习、改进的模糊聚类目标 (DNFCS) 以及创新的伪标签图正则化相结合。实验结果表明,这种多目标联合优化的策略能有效学习到既保留数据保真度又具备高度聚类友好性的特征表示,从而在多个高维数据集上取得了超越现有先进方法的聚类性能。 -
局限性与未来工作 (Limitations & Future Work):
- 论文提及: 原文在提供的文本片段中未包含结论章节,因此没有作者自己指出的局限性。
- 推测局限性:
- 超参数敏感性: 尽管实验表明模型具有一定鲁棒性,但模型引入了多个新的超参数(, , , , ),在新的数据集上可能需要繁琐的调优过程。
- 计算复杂度: 相比
IDEC,GrDNFCS额外增加了图正则化项的计算,尤其是在更新亲和度矩阵时,虽然比k-NN高效,但仍然会增加训练时间和计算开销。 - 对初始化的依赖: 与许多深度聚类方法一样,模型性能可能在一定程度上受聚类中心初始化的影响。
-
个人启发与批判 (Personal Insights & Critique):
- 启发:
- 多目标优化的力量: 这篇论文是多目标学习思想的一个绝佳范例。它没有孤立地看待表示学习和聚类,而是将它们视为一个协同任务,并通过设计多个互补的损失项来共同引导网络学习,这种思路值得借鉴。
- 伪标签的巧妙应用: 使用聚类过程中的中间结果(伪标签)来构建图正则化项,是一种非常聪明和高效的自监督学习策略。它避免了昂贵的外部标注或预计算,实现了“边聚类、边优化结构”的动态过程。这个思想可以被迁移到其他无监督或半监督学习任务中。
- 对经典算法的现代化改造: 本文对经典的
FCS算法进行了改进和“深度化”,解决了其原有缺陷并将其融入现代深度学习框架中。这提示我们,许多经典算法的思想在深度学习时代依然有价值,关键在于如何与新技术进行有机结合。
- 批判性思考:
- 可解释性: 模型变得更加复杂,其内部决策过程的可解释性也相应降低。为什么学习到的特定特征表示是“聚类友好”的,其内在机理仍是一个黑箱。
- 图构建方式: 虽然基于伪标签的图构建方式很高效,但它强依赖于当前聚类结果的质量。在训练早期,聚类结果不准确,伪标签噪声较大,这可能导致图正则化产生误导。也许可以设计一种逐步增加图正则化权重或过滤低置信度伪标签的机制来缓解此问题。
- 可扩展性: 亲和度矩阵 的大小是 。对于非常大的批次大小 ,计算和存储这个矩阵的开销仍然可能成为瓶颈。
- 启发:
相似论文推荐
基于向量语义检索推荐的相关论文。