Revisiting k-means: New Algorithms via Bayesian Nonparametrics
TL;DR 精炼摘要
本文从贝叶斯非参数视角重构k-means算法,提出DP-means新方法,自动确定聚类数目并优化类似k-means的目标函数。方法扩展到层次狄利克雷过程,实现多数据集共享聚类,进一步引入谱松弛和归一化割算法提升性能。
摘要
Bayesian models offer great flexibility for clustering applications---Bayesian nonparametrics can be used for modeling infinite mixtures, and hierarchical Bayesian models can be utilized for sharing clusters across multiple data sets. For the most part, such flexibility is lacking in classical clustering methods such as k-means. In this paper, we revisit the k-means clustering algorithm from a Bayesian nonparametric viewpoint. Inspired by the asymptotic connection between k-means and mixtures of Gaussians, we show that a Gibbs sampling algorithm for the Dirichlet process mixture approaches a hard clustering algorithm in the limit, and further that the resulting algorithm monotonically minimizes an elegant underlying k-means-like clustering objective that includes a penalty for the number of clusters. We generalize this analysis to the case of clustering multiple data sets through a similar asymptotic argument with the hierarchical Dirichlet process. We also discuss further extensions that highlight the benefits of our analysis: i) a spectral relaxation involving thresholded eigenvectors, and ii) a normalized cut graph clustering algorithm that does not fix the number of clusters in the graph.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): 重温 k-means:通过贝叶斯非参数化的新算法 (Revisiting k-means: New Algorithms via Bayesian Nonparametrics)
- 作者 (Authors): Brian Kulis (俄亥俄州立大学计算机科学与工程系) 和 Michael I. Jordan (加州大学伯克利分校电子工程与计算机科学系及统计系)。值得注意的是,Michael I. Jordan 是机器学习和人工智能领域的世界级顶尖学者,他的工作对整个领域产生了深远影响。
- 发表期刊/会议 (Journal/Conference): 本文发布于 arXiv,这是一个知名的预印本(Preprint)服务器,允许研究者在正式同行评审前分享他们的研究成果。
- 发表年份 (Publication Year): 2011年。
- 摘要 (Abstract): 贝叶斯模型,特别是贝叶斯非参数化方法,为聚类应用提供了极大的灵活性,例如可以对无限混合模型进行建模,或在多个数据集中共享聚类。然而,经典的聚类方法如
k-means普遍缺乏这种灵活性。本文从贝叶斯非参数化的视角重新审视了k-means算法。受k-means和高斯混合模型之间渐近联系的启发,论文证明了狄利克雷过程混合模型(Dirichlet process mixture)的吉布斯采样(Gibbs sampling)算法在某个极限条件下会趋近于一种硬聚类(hard clustering)算法。更进一步,这个新算法能够单调地最小化一个优雅的、类似k-means的聚类目标函数,该函数包含一个对聚类数量的惩罚项。论文将此分析推广到层次化狄利克雷过程(hierarchical Dirichlet process),用于聚类多个数据集。此外,论文还探讨了两个进一步的扩展:i) 一个涉及阈值化特征向量的谱松弛(spectral relaxation)方法,以及 ii) 一个无需预先固定图中聚类数量的归一化割图(normalized cut graph)聚类算法。 - 原文链接 (Source Link):
-
ArXiv 链接:
https://arxiv.org/abs/1111.0352v2 -
PDF 链接:
https://arxiv.org/pdf/1111.0352v2.pdf -
发布状态:预印本 (Preprint)。
-
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 经典的
k-means聚类算法虽然简单、高效且可扩展性强,但存在两个主要局限性:1) 必须预先指定聚类的数量 ;2) 缺乏一个自然的框架来处理更复杂的场景,如在多个相关数据集中共享聚类结构。 - 重要性与挑战: 与之相对,贝叶斯非参数模型(如狄利克雷过程混合模型)天然地具备推断聚类数量和构建层次化模型的能力,但其推理算法(如吉布斯采样)通常计算复杂、收敛慢,难以应用于大规模问题。这在简单高效的经典方法和灵活但复杂的贝叶斯方法之间形成了一个明显的鸿沟 (Gap)。
- 创新思路: 本文的切入点是试图“两全其美”。作者受到“
k-means是高斯混合模型在特定极限条件下的特例”这一经典联系的启发,猜想是否可以通过对更复杂的贝叶斯非参数模型进行类似的极限分析,来导出既保留贝叶斯模型灵活性(如自动确定 值),又具备k-means般简单、高效的硬聚类算法。
- 核心问题: 经典的
-
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出了 DP-means 算法: 通过对狄利克雷过程混合模型 (DP mixture model) 的吉布斯采样算法进行极限分析(将高斯分量的方差 趋近于0),推导出了一个名为
DP-means的新型硬聚类算法。该算法类似于k-means,但能够根据一个惩罚参数 自动确定聚类的数量。 - 找到了对应的目标函数: 证明了
DP-means算法实际上是在单调地优化一个带惩罚项的k-means目标函数:。这为算法的行为提供了清晰的理论解释,并将确定聚类数量的问题转化为对 的选择。 - 扩展到多数据集场景 (Hard Gaussian HDP): 将同样的极限分析方法应用于层次化狄利克雷过程 (HDP),导出了一个用于多数据集联合聚类的新算法。该算法可以在不同数据集中发现局部簇,并让这些局部簇共享全局簇,其优化的目标函数也相应地包含了对局部簇和全局簇数量的惩罚。
- 提出了新颖的扩展应用:
-
谱方法扩展: 提出了
DP-means目标函数的谱松弛版本,其解不再是取前 个特征向量,而是取所有特征值大于 的特征向量,这在谱聚类和贝叶斯非参数之间建立了有趣的联系。 -
图聚类扩展: 将此框架应用于图聚类,提出了一个带惩罚项的归一化割 (penalized normalized cut) 目标,并设计了相应的优化算法,从而实现了无需预设聚类数 的图聚类。
-
- 提出了 DP-means 算法: 通过对狄利克雷过程混合模型 (DP mixture model) 的吉布斯采样算法进行极限分析(将高斯分量的方差 趋近于0),推导出了一个名为
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- k-means 聚类 (k-means Clustering): 一种经典的无监督学习算法,旨在将数据集划分为 个簇。其目标是最小化每个数据点到其所属簇中心(均值)的平方欧氏距离之和。算法通常通过迭代执行两个步骤来求解:1) 分配步骤: 将每个点分配给距离其最近的簇中心;2) 更新步骤: 重新计算每个簇的中心(即簇内所有点的均值)。
k-means产生的是一种硬聚类 (hard clustering),即每个点只属于一个簇。 - 高斯混合模型 (Gaussian Mixture Model, GMM): 一种概率模型,假设数据点是由 个不同的高斯分布(正态分布)混合生成的。每个数据点以一定概率属于某个高斯分量。通常使用期望最大化 (Expectation-Maximization, EM) 算法来估计模型参数(各高斯分量的均值、协方差和混合权重)。GMM 产生的是软聚类 (soft clustering),即每个点以一定的概率属于每个簇。
- 狄利克雷过程 (Dirichlet Process, DP): 是一个随机过程 (stochastic process),其“样本”是概率分布。可以将其理解为“分布的分布”。DP 的一个关键特性是,从它抽出的样本分布几乎必然是离散的,这意味着它会重复使用一些“原子 (atoms)”,这使得它天然适合用于聚类,其中每个“原子”可以看作一个聚类中心。DP 由一个基础测度 (base measure) 和一个浓度参数 (concentration parameter) 控制。 越大,生成新“原子”的概率就越高,从而倾向于产生更多的簇。
- 狄利克雷过程混合模型 (DP Mixture Model): 一种混合模型,其混合分量的数量不是预先固定的,而是由一个狄利克雷过程先验决定的。这允许模型根据数据自动推断出合适的聚类数量,因此被称为无限混合模型 (infinite mixture model)。通常通过马尔可夫链蒙特卡洛 (MCMC) 方法,如吉布斯采样 (Gibbs sampling),进行后验推断。
- 层次化狄利克雷过程 (Hierarchical Dirichlet Process, HDP): DP 的一个扩展,用于对分组数据 (grouped data) 进行建模。假设有多个数据集(组),每个数据集都由一个 DP 混合模型生成。HDP 的核心思想是让这些 DP 共享同一个基础测度,而这个基础测度本身也服从一个 DP。这种层次结构使得不同数据集(组)之间可以共享聚类(即共享 DP 的“原子”)。
- k-means 聚类 (k-means Clustering): 一种经典的无监督学习算法,旨在将数据集划分为 个簇。其目标是最小化每个数据点到其所属簇中心(均值)的平方欧氏距离之和。算法通常通过迭代执行两个步骤来求解:1) 分配步骤: 将每个点分配给距离其最近的簇中心;2) 更新步骤: 重新计算每个簇的中心(即簇内所有点的均值)。
-
前人工作 (Previous Works):
- GMM 与 k-means 的联系: 论文的出发点是
k-means和 GMM 之间的著名联系。如果在一个 GMM 中,所有高斯分量的协方差矩阵都固定为 (其中 是单位矩阵),那么当方差 趋近于零时,EM 算法的 E-步(计算后验概率)会退化为k-means的分配步骤(硬分配),而 M-步则与k-means的均值更新步骤等价。 - 带惩罚项的 k-means: 论文指出,他们提出的
DP-means目标函数在形式上与基于赤池信息准则 (Akaike Information Criterion, AIC) 的聚类方法相似。例如,文献 [11] 就曾探讨过类似的目标函数。但本文的贡献在于,首次从一个生成式模型(DP 混合模型)出发,通过极限分析导出了一个能够单调收敛到该目标函数局部最优解的具体算法。
- GMM 与 k-means 的联系: 论文的出发点是
-
技术演进 (Technological Evolution): 本文的工作位于两条技术路线的交汇点:
- 经典聚类方法: 以
k-means为代表,追求简单、高效和可扩展性。 - 贝叶斯概率建模: 以 DP/HDP 为代表,追求模型灵活性和对不确定性的量化。 本文通过建立两者之间的桥梁,旨在创造出一种既有理论依据又在实践中高效的新型聚类算法。
- 经典聚类方法: 以
-
差异化分析 (Differentiation): 与直接使用
k-means或EM for GMM相比,本文提出的DP-means的核心创新在于自动确定聚类数量 ,这是通过一个优雅的惩罚项 实现的。与完全贝叶斯的 DP 混合模型推理(如 Gibbs 采样)相比,DP-means将复杂的概率采样过程简化为一个确定性的、快速收敛的迭代算法,极大地提升了计算效率和可扩展性。
4. 方法论 (Methodology - Core Technology & Implementation Details)
本部分是论文的核心技术贡献,下面将详细拆解其推导过程。
4.1 DP-means 算法的推导
-
方法原理 (Methodology Principles): 核心思想是分析DP 高斯混合模型的吉布斯采样 (Gibbs sampling) 算法在小方差极限 (small variance limit) 下的行为。通过巧妙地设置 DP 的浓度参数 ,使其与高斯分量的方差 关联,当 时,原本“软”的、概率性的聚类分配决策会“硬化”为一个确定性的规则。
-
方法步骤与流程 (Steps & Procedures):
- 模型设定: 考虑一个 DP 混合模型,其中数据点 由高斯分布 生成。参数 是从一个由 DP 生成的离散分布 中抽取的,而 。这里, 是聚类中心(均值)的先验分布,论文中设为 。
- 吉布斯采样更新规则: 在吉布斯采样中,为数据点 重新分配聚类的概率分为两种情况:
- 分配给一个已存在的簇 (该簇已有 个点,均值为 ):
- 创建一个新簇:
- 计算新簇的概率: 由于先验 是高斯分布 ,上述积分可以解析计算,得到新簇的概率正比于:
- 关键的极限分析: 作者没有直接让 ,因为这会导致平凡解。他们巧妙地将浓度参数 定义为 的函数: 将此 代入新簇的概率表达式并化简,新簇的“得分”变为: 而分配给旧簇 的“得分”为:
- 得出硬分配规则: 当 时,上述指数项中的 成为主导。数据点 将以趋近于 1 的概率被分配给使指数内负项最小的那个选项。比较各项的指数内部:
- 对于新簇:
- 对于旧簇 : 因此,分配规则变为:计算所有已有簇中心的平方距离 和一个常数 ,取其中的最小值。
- 如果 ,则将 分配给距离最近的簇。
- 如果 ,则创建一个新簇。
- 簇中心更新: 在吉布斯采样中,簇中心 是从后验分布中采样的。对于一个有 个点(均值为 )的簇,其后验是一个均值为 的高斯分布。当 时,后验均值 ,且方差趋于零。这意味着采样过程退化为确定性地将簇中心更新为簇内所有点的经验均值,这与
k-means的更新步骤完全相同。 - DP-means 算法伪代码:
输入: 数据点 ,惩罚参数
输出: 聚类结果 和簇数
- 初始化:,所有点属于一个簇, 为全局均值。
- 重复 直到收敛:
- 对于 每个数据点 : a. 计算 对于所有当前簇 。 b. 找到最小距离 。 c. 如果 : 创建一个新簇:,将 分配到这个新簇,新簇的中心初始化为 。 d. 否则: 将 分配给距离最近的那个簇。
- 对于 每个簇 : a. 重新计算其中心 。
4.2 底层目标函数
DP-means 算法实际上是在单调地最小化以下目标函数:
其中 是簇 的均值。
这个目标函数非常直观:第一项是标准的 k-means 损失(簇内平方和),第二项 是对簇数量的惩罚。参数 控制了在这两者之间的权衡。Theorem 3.1 指出,DP-means 算法的每一步都会使这个目标函数的值不增加,从而保证了算法的收敛性。
4.3 硬聚类 HDP (Hard Gaussian HDP)
通过将相同的极限分析应用于 HDP 模型,可以得到一个用于多数据集聚类的算法。
该图像是一个示意图,展示了多个数据集中局部簇与全局簇之间的层次关系。每个数据集包含若干局部簇,每个局部簇对应一个全局均值 μ_p,且该全局均值由所有相关簇的点的均值计算。当重新分配点到簇时,目标函数会对新建局部簇或全局簇进行惩罚。
图1展示了 HDP 聚类的层次结构。每个数据集(dataset)有自己的局部簇(local clusters),但这些局部簇的中心(用 表示)都关联到一个全局均值(global mean)。这种结构实现了跨数据集的簇共享。
该算法的目标函数为:
-
是所有隶属于第 个全局簇的数据点集合。
-
是第 个全局簇的中心。
-
是全局簇的总数。
-
是所有数据集中局部簇的总数。
-
是创建新局部簇的惩罚。
-
是创建新全局簇的惩罚。
算法(Algorithm 2)的流程更为复杂,但思想是类似的:迭代地为每个数据点、每个局部簇重新分配归属,决策规则中包含了对创建新局部簇(成本 )或新全局簇(成本 或 )的惩罚。
4.4 扩展:谱松弛与图聚类
- 谱松弛 (Spectral Relaxation):
DP-means目标函数可以等价地写成迹最大化问题:,其中 是核矩阵, 是归一化的簇指示矩阵。通过将 松弛为任意正交矩阵,该问题的最优解由核矩阵 中所有特征值大于 的特征向量构成。这与标准谱聚类取前 个特征向量形成了鲜明对比,提供了一种自动确定谱嵌入维数的方法。 - 图聚类 (Graph Clustering):
利用加权核
k-means与归一化割 (Normalized Cut) 之间的已知等价关系,作者证明了优化DP-means的目标函数等价于优化一个带惩罚的归一化割目标:。这使得DP-means算法框架可以直接应用于图聚类,且无需预先指定簇的数量 。
5. 实验设置 (Experimental Setup)
-
数据集 (Datasets):
- 合成数据集:
- 一个由3个高斯分布生成的二维数据集,用于直观展示
DP-means的性能和与 Gibbs 采样的对比。 - 为 HDP 实验生成了50个数据集。
- 一个由3个高斯分布生成的二维数据集,用于直观展示
- 真实数据集: 8个来自 UCI 机器学习库的公开数据集,包括
Wine,Iris,Pima,Soybean,Car,Balance Scale,Breast Cancer,Vehicle。这些数据集涵盖了不同的规模和特征,常用于聚类算法的评测。
- 合成数据集:
-
评估指标 (Evaluation Metrics):
- 归一化互信息 (Normalized Mutual Information, NMI):
- 概念定义 (Conceptual Definition): NMI 是一种用来衡量两个聚类结果之间相似度的指标。它源于信息论,度量的是一个聚类结果中包含了多少关于另一个聚类结果的信息。NMI 的值域在 0 到 1 之间,1 表示两个聚类结果完全相同,0 表示两个聚类结果之间没有信息关联(相当于随机猜测)。它相对于其他指标(如准确率)的优点是,不要求两个聚类结果的簇数量相同,并且对簇的标签不敏感。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- 和 分别代表两个聚类结果(例如,算法输出的聚类和真实标签)。,。
H(U)是聚类 的熵 (Entropy),衡量其不确定性:,其中 是随机选择一个数据点属于簇 的概率, 是总数据点数。H(V)是聚类 的熵,计算方式同上。I(U, V)是 和 之间的互信息 (Mutual Information),衡量它们共享的信息量:,其中 是随机选择一个数据点同时属于簇 和 的概率。
- 归一化互信息 (Normalized Mutual Information, NMI):
-
对比基线 (Baselines):
-
k-means: 经典的硬聚类算法,需要预先指定 值。
-
Gibbs 采样 (Gibbs): 完全贝叶斯的 DP 混合模型推理方法。这代表了灵活性强但计算成本高的一端。论文中考虑了两种变体:一种通过 Gamma 先验学习浓度参数 ,另一种通过验证集调整 。
-
6. 实验结果与分析 (Results & Analysis)
-
核心结果分析 (Core Results Analysis):
该图像是包含四个子图的图表,展示了文中方法在合成数据上的表现。a) 三个高斯分布的数据集示意图;b) Gibbs采样迭代中NMI分数变化曲线;c) DP-means算法中不同lambda值对应的簇数平均值;d) 硬性高斯HDP实验中的一个数据集示例。-
合成数据上的性能(图2 a-c):
- 收敛速度与稳定性: 图2(b) 展示了在图2(a) 的简单数据集上,
DP-means和 Gibbs 采样的性能对比。DP-means在100次运行中,平均仅需8次迭代即可收敛,并且总能找到正确的簇数(3个),获得了0.89的平均 NMI。相比之下,Gibbs 采样非常不稳定,需要数千次迭代才能收敛到较好的结果(如validation版本在约3000次迭代后),而自适应学习 的版本 (learning) 甚至在后期产生了过多的簇,导致性能下降。这有力地证明了DP-means在速度和稳定性上的巨大优势。 - 参数 的影响: 图2(c) 显示,随着惩罚参数 的增大,
DP-means找到的簇数量平滑地减少。这表明 提供了一个直观且有效的控制旋钮来调节模型的复杂度,符合其在目标函数中的作用。
- 收敛速度与稳定性: 图2(b) 展示了在图2(a) 的简单数据集上,
-
真实数据集上的性能(表1): 以下是论文中 Table 1 的转录结果:
Data set DP-means k-means Gibbs Wine .41 .43 .42 Iris .75 .76 .73 Pima .02 .03 .02 Soybean .72 .66 .73 Car .07 .05 .15 Balance Scale .17 .11 .14 Breast Cancer .04 .03 .04 Vehicle .18 .18 .17 - 从表格数据可以看出,在多个 UCI 数据集上,
DP-means的性能与k-means和更复杂的 Gibbs 采样方法相当,甚至在某些数据集上(如Soybean,Balance Scale)表现更优。这表明DP-means在获得自动确定 的灵活性的同时,并没有牺牲聚类质量,实现了“灵活性”与“性能”的兼得。
- 从表格数据可以看出,在多个 UCI 数据集上,
-
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
-
虽然没有传统的消融实验,但与 Gibbs 采样的对比本身就可以看作是一种“消融”:
DP-means可以被视为 Gibbs 采样在 极限下的简化版本,实验证明这种简化在性能损失很小的情况下,极大地提升了效率和稳定性。 -
论文为超参数 提供了一种实用的最远点优先 (farthest-first) 启发式设置方法。即给定一个期望的簇数 ,通过类似
k-means++的初始化方式找到 个互相远离的点,并将第 个点到已有中心集合的最小距离作为 的值。这为在实践中应用该算法提供了指导。
-
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary): 本文出色地完成了其核心目标:通过建立贝叶斯非参数模型与
k-means之间的理论桥梁,成功设计了一系列兼具贝叶斯模型灵活性(自动定 、层次化共享)和经典算法可扩展性(简单、快速)的新型硬聚类算法。DP-means及其扩展(HDP、谱方法、图聚类)不仅在理论上优雅,在实验中也表现出强大的竞争力。这项工作为整合概率模型和硬聚类方法提供了新的思路和范例。 -
局限性与未来工作 (Limitations & Future Work):
- 对数据点处理顺序的依赖:
DP-means是一种在线式(逐点更新)算法,其最终结果可能依赖于数据点的处理顺序。作者也指出,研究自适应的数据点排序策略是一个值得探索的未来方向。 - 的选择: 尽管论文提供了启发式方法,但 的选择仍然是关键。理想情况下, 应该能从数据中完全自适应地确定,而不是依赖于一个预设的目标簇数 。
- 非球形簇: 由于其推导自各向同性的高斯分布(协方差为 ),
DP-means和k-means一样,本质上更适合发现球形或凸形的簇。
- 对数据点处理顺序的依赖:
-
个人启发与批判 (Personal Insights & Critique):
- 启发: 这篇论文是理论与实践完美结合的典范。它展示了如何从一个复杂的概率模型出发,通过极限分析等数学工具,推导出简单、直观且高效的算法。这种“从复杂到简单”的推导思路极具启发性,表明许多经典算法背后可能隐藏着更深刻的概率模型根基。
- 批判性思考:
- 算法的可扩展性: 虽然
DP-means比 Gibbs 采样快得多,但其逐点更新的特性可能使其在面对海量数据时,不如k-means的小批量 (mini-batch) 或并行化版本高效。开发DP-means的并行或分布式版本将是其走向更大规模应用的关键。 - 的物理意义: 在目标函数中可以被理解为“创建一个新簇的成本”。这个值在几何上对应于一个数据点自成一派所需的最小“孤立”程度(以平方距离衡量)。如何将这个值与数据的内在尺度(如密度、方差等)联系起来,可能会提供更自动化的 设置方法。
- 与模型选择的关系: 确定聚类数 本质上是一个模型选择问题。
DP-means通过 将其转化为一个参数选择问题。虽然更简单,但也失去了完全贝叶斯方法中通过积分掉所有参数来自然惩罚模型复杂度的优雅性。可以说,DP-means是在贝叶斯纯粹性与计算实用性之间做出的一个非常成功的折中。
- 算法的可扩展性: 虽然
相似论文推荐
基于向量语义检索推荐的相关论文。