论文状态：已完成

Towards Calibrated Deep Clustering Network

发表：2024/03/04

深度聚类校准 (1)置信度校准机制 (1)双头深度聚类模型 (1)伪标签自训练 (1)网络初始化策略 (1)

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文针对深度聚类中过度自信问题，提出基于双头结构的可校准深度聚类框架。校准头调整聚类头的置信度，自适应选择伪标签样本进行自训练，并结合新的网络初始化策略，提升训练效率与模型鲁棒性，理论实验证明效果显著。

摘要

Deep clustering has exhibited remarkable performance; however, the over confidence problem, i.e., the estimated confidence for a sample belonging to a particular cluster greatly exceeds its actual prediction accuracy, has been over looked in prior research. To tackle this critical issue, we pioneer the development of a calibrated deep clustering framework. Specifically, we propose a novel dual head (calibration head and clustering head) deep clustering model that can effectively calibrate the estimated confidence and the actual accuracy. The calibration head adjusts the overconfident predictions of the clustering head, generating prediction confidence that matches the model learning status. Then, the clustering head dynamically selects reliable high-confidence samples estimated by the calibration head for pseudo-label self-training. Additionally, we introduce an effective network initialization strategy that enhances both training speed and network robustness. The effectiveness of the proposed calibration approach and initialization strategy are both endorsed with solid theoretical guarantees. Extensive experiments demonstrate the proposed calibrated deep clustering model not only surpasses the state-of-the-art deep clustering methods by 5x on average in terms of expected calibration error, but also significantly outperforms them in terms of clustering accuracy. The code is available at https://github.com/ChengJianH/CDC.

思维导图

论文精读

中文精读约 31 分钟读完 · 18,761 字

1. 论文基本信息

1.1. 标题

迈向可校准的深度聚类网络 (Towards Calibrated Deep Clustering Network)

论文标题直接点明了研究的核心目标：解决深度聚类（一种无监督学习方法）中的“校准”问题。所谓校准 (Calibration)，是指让模型预测的置信度分数能够真实地反映其预测的实际准确率。例如，如果模型对 100 个样本都给出了 80% 的置信度，那么我们期望其中大约有 80 个样本的预测是正确的。这篇论文旨在构建一个其预测置信度更可靠、更值得信赖的深度聚类模型。

1.2. 作者

Yuheng Jia, Jianhong Cheng: 东南大学计算机科学与工程学院。
Hui Liu: 圣方济各大学（白德奇慈善基金计算及信息科学院）。
Junhui Hou: 香港城市大学计算机科学系。

作者均来自知名高校的研究机构，具有计算机科学和人工智能领域的学术背景。其中，侯君辉教授（Junhui Hou）是通讯作者（用星号 * 标出），通常在研究中扮演指导角色。

1.3. 发表期刊/会议

论文在 arXiv 预印本服务器上发布。

arXiv 是一个存放科学论文预印本的在线平台，广泛应用于物理学、数学、计算机科学等领域。它允许研究者在同行评审之前或期间分享他们的研究成果。
声誉与影响： 在计算机科学，尤其是机器学习领域，将论文发布在 arXiv 上是标准的做法，可以快速传播最新的研究思想。这篇论文的状态是预印本 (Pre-print)，意味着它可能已经或将要投稿到顶级的学术会议（如 NeurIPS, ICML, CVPR 等）或期刊，但在此版本中尚未经过正式的同行评审流程。

1.4. 发表年份

2024年3月4日 (在 arXiv 上提交的版本)。

1.5. 摘要

论文摘要清晰地概括了研究的全貌：

研究目的: 深度聚类方法虽然性能优越，但普遍存在过度自信 (overconfidence) 的问题，即模型预测的置信度远高于其实际准确率。这一关键问题在以往的研究中被忽视了。
核心方法: 为了解决此问题，论文首创性地提出了一个可校准的深度聚类框架 (Calibrated Deep Clustering, CDC)。该框架的核心是一个新颖的双头 (dual-head) 结构，包含一个聚类头 (clustering head) 和一个校准头 (calibration head)。
- 校准头负责调整聚类头的过度自信预测，生成与模型真实学习状态相匹配的置信度。
- 聚类头则利用校准头提供的可靠置信度，动态地选择高置信度样本进行伪标签自训练 (pseudo-label self-training)。
其他贡献: 论文还提出了一种有效的网络初始化策略，以提升训练速度和鲁棒性，并为校准方法和初始化策略提供了坚实的理论保证。
主要结果: 实验表明，所提出的 CDC 模型在期望校准误差 (Expected Calibration Error, ECE) 指标上平均优于当前最先进的方法 5 倍，并且在聚类准确率 (clustering accuracy) 上也显著超越了它们。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2403.02998v3
PDF 链接: https://arxiv.org/pdf/2403.02998v3.pdf
发布状态: 预印本 (Pre-print)。

2. 整体概括

2.1. 研究背景与动机

核心问题: 现代深度聚类模型，特别是那些依赖伪标签进行自训练的模型，往往会产生不可靠的置信度。它们对自己的预测结果表现出极大的自信（例如，输出 99% 的置信度），但实际上这些预测的准确率可能要低得多。这种“过度自信”现象会带来严重后果。
问题的重要性与挑战 (Gap):
1. 信任危机: 在医疗诊断、自动驾驶等高风险领域，一个模型的“自知之明”（即知道自己何时可能出错）至关重要。过度自信的模型是不可信的。
2. 伪标签噪声: 主流的深度聚类方法依赖于伪标签进行训练。如果模型基于其过度自信的预测来挑选样本，就容易引入大量错误的伪标签，形成恶性循环，最终损害聚类性能。
3. 现有方法失效: 监督学习中的校准方法不适用于无监督的聚类场景。例如，温度缩放 (Temperature Scaling) 需要一个带标签的验证集来调整参数，而聚类任务中没有这样的数据集。而标签平滑 (Label Smoothing) 等正则化方法会无差别地惩罚所有样本的置信度，使得模型无法区分可靠和不可靠的预测，这对于挑选高质量伪标签是致命的。
4. 固定阈值问题: 现有方法通常使用一个固定的阈值（如 0.95）来筛选高置信度样本。这忽略了模型的动态学习过程：训练初期，高阈值导致样本过少，训练缓慢；训练后期，模型整体置信度上升，固定阈值又容易引入噪声。
切入点与创新思路: 本文的创新思路是：在完全无监督的情况下，设计一个内部机制来校准模型的置信度。作者不依赖外部标签，而是通过构建一个“校准头”来“监督”和“修正”“聚类头”的置信度输出。这个校准头通过分析特征空间中样本的邻近关系来判断预测的一致性，从而对置信度进行调整。这个经过校准的、更真实的置信度反过来又指导聚类头更智能地选择伪标签，从而打破了“过度自信”与“伪标签噪声”之间的恶性循环。

2.2. 核心贡献/主要发现

本文最主要的贡献可以总结为以下几点：

首创的可校准深度聚类框架 (CDC): 第一次将“置信度校准”这一概念系统性地引入深度聚类领域，并提出了一个完整的、端到端的解决方案。
新颖的双头协作机制: 设计了聚类头 (Clustering Head) 和校准头 (Calibration Head)。两者协同工作，校准头为聚类头提供可靠的置信度评估，聚类头利用这些评估来指导自身的伪标签学习，形成一个良性互补的循环。
无监督的区域感知校准方法: 提出了一种新颖的校准损失函数。它通过在特征空间中进行 K-means 划分小区域，并惩罚那些区域内预测不一致的样本的置信度，同时保留区域内预测一致的样本的高置信度。这是一种选择性惩罚 (selective penalty) 策略，避免了传统方法“一刀切”的弊端。
动态置信度感知伪标签选择: 抛弃了固定的阈值，利用校准头输出的、更可靠的置信度来为每个类别动态地决定伪标签的数量。这使得模型能够根据每个类别的学习难度和状态，自适应地选择训练样本。
有效的原型初始化策略: 提出了一种基于特征原型的初始化方法，将预训练模型学到的判别性信息有效传递给新添加的聚类头和校准头，显著提升了训练的稳定性和初始性能。
坚实的理论与实验支撑: 论文不仅通过大量实验证明了方法的有效性（在聚类精度和校准误差上均达到最先进水平），还为其核心的校准方法和初始化策略提供了数学上的理论证明。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文，需要先了解以下几个核心概念：

深度聚类 (Deep Clustering): 这是一种无监督学习技术，旨在将数据集中的样本划分成不同的簇（cluster），使得同一簇内的样本彼此相似，而不同簇的样本相异。与传统聚类方法（如 K-means）直接作用于原始数据不同，深度聚类利用深度神经网络 (Deep Neural Networks, DNNs) 先将高维、复杂的原始数据（如图像）映射到一个更具判别性的低维特征空间 (feature space)，然后再进行聚类。DNN 强大的表示学习能力使得深度聚类在处理复杂数据时表现出色。
伪标签 (Pseudo-Labeling): 在没有真实标签的无监督或半监督学习中，这是一种非常流行的自训练 (self-training) 技术。其基本思想是：
1. 用模型对无标签数据进行预测。
2. 挑选出模型“最有信心”的那些预测结果（例如，预测概率大于 95% 的样本）。
3. 将这些高置信度的预测结果当作“伪造的”真实标签。
4. 用这些伪标签来监督模型，进一步训练和优化网络。本文指出，如果模型的“信心”是虚高的（即过度自信），那么伪标签的质量就会很差，从而毒害整个训练过程。
置信度校准 (Confidence Calibration): 这是评估和提升模型可靠性的关键环节。一个完美校准 (perfectly calibrated) 的模型，其预测置信度应该等于其预测准确率。例如，对于模型给出的所有置信度为 70% 的预测，我们期望其中有 70% 是正确的。而现实中，现代神经网络常常过度自信 (overconfident)，即置信度系统性地高于准确率。可靠性图 (Reliability Diagram) 是可视化校准程度的常用工具，如下图所示，理想情况下，模型的准确率（蓝色柱子）应该和置信度（橙色虚线）完全对齐。

该图像是图表，展示了CIFAR-20上不同方法的可靠性图，包括监督学习、SCAN、SPICE、LS和CDC模型。图中橙色表示期望准确率，蓝色为模型输出准确率，理想情况下两者应接近以保证置信度校准。CDC模型在置信度和准确性匹配上表现最佳，右侧柱状图展示了不同训练过程的准确率对比。
期望校准误差 (Expected Calibration Error, ECE): 这是衡量模型校准程度的常用量化指标。它计算的是模型预测置信度与实际准确率之间的加权平均差距。ECE 值越低，说明模型校准得越好。

3.2. 前人工作

作者将相关工作分为深度聚类和置信度校准两大类。

深度聚类方法:
1. 基于表示学习的聚类: 这类方法分两步走。首先，使用自监督学习等方法学习数据的特征表示；然后，在学到的特征上应用传统聚类算法（如 K-means）。代表性工作有 MoCo, SimSiam, BYOL 等。本文也采用 MoCo-v2 进行特征预训练。
2. 迭代式自监督深度聚类: 这类方法将表示学习和聚类过程统一在一个框架内，通过自训练迭代优化。其中，基于伪标签 (self-labeling) 的方法是当前的主流，如 SCAN 和 SPICE。它们通过对模型的预测设置一个固定阈值来筛选高置信度样本作为伪标签，然后用这些伪标签来更新网络。本文正是在这类方法的基础上，指出了其“过度自信”和“固定阈值”两大缺陷。
置信度校准方法:
1. 后处理校准 (Post-calibration): 这类方法在模型训练完成后，对其输出进行校准。最著名的是温度缩放 (Temperature Scaling)。它通过在 softmax 函数的输入（logits）上除以一个可学习的温度参数 $T$ 来平滑输出概率。 $\hat{q}_i = \frac{\exp(z_i/T)}{\sum_j \exp(z_j/T)}$ 其中 $z_i$ 是第 $i$ 类的 logit。 $T$ 的值通过在一个带标签的验证集上最小化交叉熵损失来找到。本文指出，由于深度聚类是无监督的，不存在这样的验证集，因此该方法不适用。
2. 基于正则化的校准 (Regularization-based): 这类方法在训练过程中引入正则项来抑制过度自信。
  - 标签平滑 (Label Smoothing, LS): 将 one-hot 形式的硬标签（如 [0, 1, 0]）替换为软标签（如 [0.05, 0.9, 0.05]），从而阻止模型对正确类别产生过高的预测概率。本文指出，LS 会无差别地惩罚所有样本，包括那些本应高置信度的可靠样本，这会损害伪标签的筛选质量。
  - Focal Loss: 最初用于解决目标检测中的类别不平衡问题，它通过降低易分样本的权重，让模型更关注难分样本。它也能通过惩罚过度自信的预测来起到校准作用。但本文实验表明，Focal Loss 会严重损害聚类精度。

3.3. 技术演进

深度聚类的技术演进路线大致如下：

早期方法 (如 DEC): 将自编码器与聚类损失相结合，同时优化特征表示和聚类分配。
自监督预训练 + K-means: 随着 MoCo、SimCLR 等对比学习方法的兴起，研究者发现先通过自监督学习得到高质量的特征，再用 K-means 等简单聚类方法就能取得很好的效果。这证明了特征质量的关键性。
迭代式伪标签方法 (如 SCAN, SPICE): 在自监督预训练的基础上，进一步通过伪标签进行端到端的微调，取得了最先进的性能。这标志着深度聚类进入了“自训练”时代。
本文 (CDC): 处在迭代式伪标签方法的技术脉络之上，但它敏锐地抓住了前人忽略的“过度自信”这一核心痛点，并首次引入了“校准”机制。它不是提出一种全新的聚类范式，而是对现有最强范式的一次深刻修正和完善，解决了其内在的矛盾（依赖高置信度，但置信度本身不可靠），从而将技术推向了新的高度。

3.4. 差异化分析

与最相关的 SCAN 和 SPICE 等伪标签方法相比，本文的核心区别在于：

特性	SCAN / SPICE (先前工作)	CDC (本文)
置信度来源	直接使用模型自身过度自信的预测结果。	使用一个专门的校准头来提供更真实的置信度。
伪标签选择	使用全局固定的阈值 (e.g., > 0.95)。	使用基于校准置信度的动态、逐类别的阈值。
核心机制	信任模型自己的高置信度预测。	怀疑并校准模型的预测，然后基于校准后的结果进行信任。
初始化	随机初始化聚类头，可能破坏预训练特征。	提出原型初始化策略，保留预训练特征的判别性。
理论保证	缺乏对置信度和伪标签选择过程的理论分析。	为校准和初始化策略提供了理论证明。

4. 方法论

本论文提出的可校准深度聚类网络 (Calibrated Deep Clustering, CDC) 的核心是一个包含共享主干网络和两个不同功能头部的精巧架构。下面我们将详细拆解其工作原理。

4.1. 方法原理

CDC 的整体框架如下图所示。其核心思想是解耦 (decouple) 聚类任务的执行与置信度的评估。

Figure 2: Illustration of the proposed CDC framework. The calibration head (CalHead) penalizes the overconfident predictions from the clustering head (CluHead). The clustering head, in turn, uses the… 该图像是论文中所示的CDC框架示意图，展示了未标记样本经过不同增强后由共享特征模型处理，再分别输入聚类头和校准头的流程。校准头调节预测置信度，结合损失函数进行训练，同时使用校准置信度筛选高置信样本进行伪标签自训练。

整个流程可以概括为：

预训练与初始化: 首先，使用自监督学习方法 MoCo-v2 预训练一个特征提取器 (主干网络)。然后，使用本文提出的原型初始化策略来初始化聚类头和校准头，避免随机初始化带来的性能下降。
双头协作训练: 进入迭代训练阶段，两个头开始协同工作：
- 聚类头 (Clustering Head, CluHead): 它的主要任务是进行聚类预测。但它同时也是一个“过度自信的学生”，其输出的置信度虚高。
- 校准头 (Calibration Head, CalHead): 它的任务不是聚类，而是扮演一个“清醒的批评家”。它观察聚类头的预测，并通过一种新颖的校准损失进行学习，目的是产出与模型真实能力相匹配的、更可靠的置信度分数。
信息循环:
- 从校准头到聚类头: 校准头将其评估出的可靠置信度传递给聚类头。聚类头依据这份可靠的置信度，为每个类别动态地选择高质量的伪标签样本。
- 从聚类头到校准头: 聚类头的过度自信预测成为校准头学习的“原材料”。校准头通过分析这些预测在特征空间的局部一致性来进行自我修正。
联合优化: 聚类头和特征提取器通过伪标签损失进行优化，而校准头则通过校准损失进行优化。两者同时进行，互相促进，最终达到高聚类精度和高置信度校准的双重目标。

4.2. 核心方法详解 (逐层深入)

我们来逐步解析每个模块的细节。设有一个包含 $N$ 个无标签样本的数据集 $\mathcal{D}_u = \{\mathbf{x}_i\}_{i=1}^N$ 。特征提取器为 $f(\mathbf{\theta}; \cdot)$ ，聚类头为 $g(\mathbf{\theta}_{clu}; \cdot)$ ，校准头为 $g(\mathbf{\theta}_{cal}; \cdot)$ 。

4.2.1. 校准头 (Calibration Head) 的训练

校准头的目标是让模型的输出置信度与其实际准确率对齐。它通过一个新颖的校准损失 $\mathcal{L}_{cal}$ 和一个负熵损失 $\mathcal{L}_{en}$ 来实现。

步骤 1: 构造校准目标 校准过程在一个训练批次 (batch) 内进行。其核心直觉是：在特征空间中彼此靠近的样本，其预测的类别分布也应该相似。 如果一个区域内的样本预测结果混乱（例如，一半预测为A类，一半预测为B类），那么这个区域就是“不可靠”的，处于决策边界附近，该区域内样本的置信度应该被降低。

获取特征和初始预测: 对一个批次中的样本 $\mathbf{x}_i$ ，首先得到其特征 $z_i = f(\mathbf{\theta}; \mathbf{x}_i)$ 和聚类头的预测概率分布 $\mathbf{p}_i^{clu} = \sigma(g(\mathbf{\theta}_{clu}; z_i))$ 。
划分特征空间: 使用 K-means 算法将批次中所有样本的特征 $\mathbf{z}$ 划分为 $K$ 个小簇（mini-clusters），记为 $Q_k$ （其中 $k=1, \dots, K$ ）。
计算区域平均预测: 对于每个小簇 $Q_k$ $Q_{k}$ ，计算其中所有样本在聚类头下预测概率的平均值，作为这个小簇的“共识”或目标分布 $\hat{\mathbf{q}}_k$ $\hat{q}_{k}$ 。 $\hat{\mathbf{q}}_k = \frac{\sum_{\mathbf{x}_i \in Q_k} \mathbf{p}_i^{clu}}{|Q_k|}$
- 符号解释:
  - $Q_k$ : K-means 划分出的第 $k$ 个小簇中的样本集合。
  - $\mathbf{p}_i^{clu}$ : 聚类头对样本 $\mathbf{x}_i$ 的预测概率向量。
  - $|Q_k|$ : 小簇 $Q_k$ 中的样本数量。
  - $\hat{\mathbf{q}}_k$ : 第 $k$ 个小簇的目标概率分布向量。如果小簇 $Q_k$ 内的样本都属于同一个真实类别（可靠区域），那么 $\mathbf{p}_i^{clu}$ 会很相似， $\hat{\mathbf{q}}_k$ 也会是一个接近 one-hot 的尖锐分布。如果 $Q_k$ 横跨了决策边界（不可靠区域）， $\mathbf{p}_i^{clu}$ 会五花八门， $\hat{\mathbf{q}}_k$ 将会是一个比较平滑的分布。

步骤 2: 定义校准损失 $\mathcal{L}_{cal}$ 校准头的任务就是让它对每个样本的预测 $\mathbf{p}_i^{cal}$ 趋近于该样本所在小簇的目标分布 $\hat{\mathbf{q}}_k$ 。这通过一个交叉熵形式的损失函数实现： $\mathcal{L}_{cal} = - \frac{1}{B} \sum_{k=1}^K \sum_{\mathbf{x}_i \in Q_k} \hat{\mathbf{q}}_k \log(\mathbf{p}_i^{cal})$

符号解释:
- $B$ : 批次大小。
- $\mathbf{p}_i^{cal} = \sigma(g(\mathbf{\theta}_{cal}; z_i))$ : 校准头对样本 $\mathbf{x}_i$ 的预测概率。
目的分析: 这个损失函数迫使校准头的输出向其特征邻域的平均预测看齐。在不可靠区域，这个平均预测 $\hat{\mathbf{q}}_k$ 是平滑的，因此会惩罚校准头产生的高置信度预测，从而达到校准效果。在可靠区域，平均预测是尖锐的，校准头可以保持高置信度。这实现了论文所说的区域感知惩罚 (Region-aware Penalty)。

步骤 3: 负熵损失 $\mathcal{L}_{en}$ 为了防止所有样本都被聚类到同一个簇中（一种平凡解），论文额外增加了一个负熵损失，以鼓励预测的类别分布更加均匀。 $\mathcal{L}_{en} = \frac{1}{C} \sum_{j=1}^{C} \bar{p}_{:,j}^{cal} \log \bar{p}_{:,j}^{cal} \quad \text{, where } \bar{p}_{:,j}^{cal} = \frac{1}{B} \sum_{i=1}^B p_{i,j}^{cal}$

符号解释:
- $C$ : 聚类类别总数。
- $p_{i,j}^{cal}$ : 校准头对第 $i$ 个样本属于第 $j$ 类的预测概率。
- $\bar{p}_{:,j}^{cal}$ : 在整个批次上，对第 $j$ 类的平均预测概率。
目的分析: 该损失项在整个批次的平均类别分布上计算熵。最小化负熵（即最大化熵）会使得 $\bar{p}_{:,j}^{cal}$ 趋向于均匀分布（即每个类别被预测的概率大致相等），从而避免了聚类坍塌。

步骤 4: 总损失与优化 校准头的总损失为两者加权和： $\mathcal{L}_{\text{total\_cal}} = \mathcal{L}_{cal} + w_{en} \mathcal{L}_{en}$ 其中 $w_{en}$ 是权重超参数（论文中设为 1）。在优化时，一个关键细节是停止梯度 (stop gradient)。计算 $\mathcal{L}_{cal}$ 所需的 $\hat{\mathbf{q}}_k$ 来自于聚类头，而校准损失只用来更新校准头自身的参数 $\mathbf{\theta}_{cal}$ ，其梯度不会回传到特征提取器 $\mathbf{\theta}$ 和聚类头 $\mathbf{\theta}_{clu}$ 。这是因为校准损失包含了来自不可靠区域的信息，如果让这些信息污染主干网络，会损害特征质量。

4.2.2. 聚类头 (Clustering Head) 的训练

聚类头的训练依赖于高质量的伪标签。CDC 框架的巧妙之处在于，它使用校准头的输出来指导伪标签的选择。

步骤 1: 动态、逐类的样本选择 与使用固定全局阈值的传统方法不同，CDC 的策略是：对于每个类别 $c$ ，我们应该选择多少个样本作为伪标签，取决于校准头对这个类别的整体信心。

首先，对于批次中的每个类别 $c$ ，找出最可能属于该类别的 Top- $\lfloor B/C \rfloor$ 个候选样本，记为 TOP(c)。
然后，计算该类别应该被选为伪标签的样本数量 M(c)，计算方式为对这些候选样本的校准置信度求和并取整。 $M(c) = \left\lfloor \sum_{\mathbf{x}_i \in TOP(c)} p_{i,c}^{w\_cal} \right\rfloor, \quad \forall c = 1, 2, \dots, C$
- 符号解释:
  - $p_{i,c}^{w\_cal}$ : 校准头对弱增强 (weakly augmented) 样本 $\mathcal{W}(\mathbf{x}_i)$ 预测其属于类别 $c$ 的概率。
- 目的分析: 这个机制非常智能。如果校准头对类别 $c$ 的学习情况很好（即对 TOP(c) 中的样本普遍给出高置信度），那么 $\sum p_{i,c}^{w\_cal}$ 的值就会很大，从而为该类别选出更多的伪标签。反之，如果类别 $c$ 学习得不好（置信度普遍较低），则选出的伪标签就少。这实现了自适应的、逐类的动态阈值。

步骤 2: 定义聚类损失 $\mathcal{L}_{clu}$

对于每个类别 $c$ ，从所有样本中挑选出校准头预测置信度最高的 M(c) 个样本。
将这些被选中的样本构成伪标签集合 $\mathcal{S} = \{(\mathbf{x}_i, y_i)\}$ ，其中伪标签 $y_i$ 就是校准头给出的预测类别 $y_i = \operatorname{argmax}_c p_{i,c}^{w\_cal}$ 。
使用标准的交叉熵损失来训练聚类头和特征提取器。这里遵循了自监督学习中常用的弱增强-强增强 (weak-strong augmentation) 策略：用弱增强样本生成伪标签，用强增强样本进行学习。 $\mathcal{L}_{clu} = - \frac{1}{|\mathcal{S}|} \sum_{(\mathbf{x}_i, y_i) \in \mathcal{S}} \log p_{i, y_i}^{s\_clu}$
- 符号解释:
  - $|\mathcal{S}|$ : 伪标签集合的大小。
  - $p_{i, y_i}^{s\_clu}$ : 聚类头对强增强 (strongly augmented) 样本 $\mathcal{A}(\mathbf{x}_i)$ 预测其属于伪标签 $y_i$ 的概率。

4.2.3. 原型初始化策略

随机初始化新添加的 MLP 头会破坏预训练模型学到的特征结构。为此，论文提出了一种基于特征原型 (feature prototype) 的初始化方法。

假设一个 MLP 层是一个线性层 $\mathbf{h} = \text{ReLU}(\mathbf{W}\mathbf{z})$ ，其中输入为 $\mathbf{z} \in \mathbb{R}^D$ ，权重为 $\mathbf{W} \in \mathbb{R}^{H \times D}$ 。

对输入特征聚类: 对输入特征 $\mathbf{z}$ 使用 K-means 算法聚类，得到 $H$ 个簇中心（即原型）。
用原型初始化权重: 将这 $H$ 个原型向量直接作为权重矩阵 $\mathbf{W}$ 的 $H$ 行。 $\mathcal{W}^{(1)} = \mathrm{Kmeans}_H(\mathbf{z})$

理论依据 (Proposition 1): 这样做可以最大化权重向量与对应簇内样本特征的内积，从而将特征空间的判别结构直接传递到下一层。对于一个多层的 MLP 头，此过程可以逐层应用。这个简单的技巧使得模型在训练开始时就具有相当不错的聚类性能，避免了漫长且不稳定的“冷启动”阶段。

4.2.4. 算法流程总结

下面是论文 Algorithm 1 的简要流程：

初始化:
- 用 MoCo-v2 训练特征提取器 $\mathbf{\theta}$ 。
- 用提出的原型初始化方法初始化聚类头 $\mathbf{\theta}_{clu}$ 和校准头 $\mathbf{\theta}_{cal}$ 的参数。
迭代训练 (for each epoch):
- 外循环 (对整个数据集):
  - 在一个大批次 (batch) $\mathcal{D}_b$ 中： a. 用校准头对弱增强样本进行预测，得到 $p^{w\_cal}$ 。 b. 根据公式 (4) 动态计算每个类别的伪标签数量 M(c)，并确定伪标签集 $\mathcal{S}$ 。 c. 冻结梯度，获取样本特征 $\mathbf{z}$ 和聚类头预测 $p^{clu}$ 。 d. 对特征 $\mathbf{z}$ 运行 K-means，得到小簇 $Q_k$ 。 e. 计算每个小簇的目标分布 $\hat{\mathbf{q}}_k$ 。
- 内循环 (对大批次的子集):
  - 在一个子批次 (sub-batch) $\mathcal{D}_{sub}$ 中： a. 更新聚类头和主干网络: 使用伪标签集 $\mathcal{S}$ 和强增强样本，计算 $\mathcal{L}_{clu}$ ，并更新 $\mathbf{\theta}_{clu}$ 和 $\mathbf{\theta}$ 。 b. 更新校准头: 使用目标分布 $\hat{\mathbf{q}}_k$ ，计算 $\mathcal{L}_{cal}$ 和 $\mathcal{L}_{en}$ ，并只更新 $\mathbf{\theta}_{cal}$ 。
最终预测: 训练结束后，使用校准头 $g(\mathbf{\theta}_{cal}; \cdot)$ 的输出来进行最终的聚类划分，因为它提供了更可靠的置信度。

5. 实验设置

5.1. 数据集

实验在六个广泛使用的图像聚类基准数据集上进行，覆盖了不同的规模和复杂度。

数据集	样本数	类别数	图像尺寸	特点
CIFAR-10	60,000	10	32x32	经典的小尺寸彩色图像数据集。
CIFAR-20	60,000	20	32x32	由 CIFAR-100 的 20 个超类构成，比 CIFAR-10 更具挑战性。
STL-10	13,000	10	96x96	图像尺寸较大，但有标签的训练集很小，包含大量无标签图像。
ImageNet-10	13,000	10	224x224	ImageNet 的一个子集，包含 10 个类别。
ImageNet-Dogs	19,500	15	224x224	ImageNet 的一个子集，包含 15 个不同品种的狗。
Tiny-ImageNet	100,000	200	64x64	ImageNet 的一个微缩版，类别数多，更具挑战性。

选择这些数据集是为了在多样化的场景下全面验证 CDC 方法的性能和泛化能力。

5.2. 评估指标

论文使用了聚类和校准两方面的指标来评估模型。

5.2.1. 聚类性能指标

聚类准确率 (Clustering Accuracy, ACC)
- 概念定义: ACC 衡量的是聚类结果与真实标签的匹配程度。由于聚类算法产生的簇标签是任意的（例如，算法可能将“猫”的类别标记为“簇3”，而真实标签是“类别1”），因此需要先找到聚类标签和真实标签之间的最佳映射关系。ACC 计算的是在该最佳映射下，被正确分类的样本所占的比例。值越高越好。
- 数学公式: $\text{ACC} = \max_{m \in \mathcal{M}} \frac{\sum_{i=1}^N \mathbf{1}\{l_i = m(c_i)\}}{N}$
- 符号解释:
  - $N$ : 样本总数。
  - $l_i$ : 第 $i$ 个样本的真实标签。
  - $c_i$ : 第 $i$ 个样本被分配到的聚类标签。
  - $\mathcal{M}$ : 所有可能的从聚类标签到真实标签的一对一映射函数集合。
  - $m(\cdot)$ : 一种具体的映射函数。
  - $\mathbf{1}\{\cdot\}$ : 指示函数，当内部条件为真时取 1，否则取 0。
调整兰德指数 (Adjusted Rand Index, ARI)
- 概念定义: ARI 用于衡量两个数据划分（聚类结果和真实标签）的相似度。它考虑了所有样本对，根据它们在两个划分中是处于同一簇还是不同簇来进行打分。ARI 的取值范围通常在 [-1, 1] 之间，值越接近 1 表示聚类结果与真实标签越吻合。与兰德指数 (RI) 相比，ARI 对随机划分进行了惩罚，因此更可靠。
- 数学公式: $\text{ARI} = \frac{\text{RI} - E[\text{RI}]}{\max(\text{RI}) - E[\text{RI}]}$ 其中 RI (Rand Index) 定义为： $\text{RI} = \frac{TP + TN}{TP + FP + FN + TN} = \frac{TP + TN}{\binom{N}{2}}$
- 符号解释:
  - TP (True Positive): 在真实标签和聚类结果中都属于同一簇的样本对数量。
  - TN (True Negative): 在真实标签和聚类结果中都属于不同簇的样本对数量。
  - FP (False Positive): 在真实标签中属于不同簇，但在聚类结果中属于同一簇的样本对数量。
  - FN (False Negative): 在真实标签中属于同一簇，但在聚类结果中属于不同簇的样本对数量。
  - $E[\text{RI}]$ : 兰德指数的期望值。
标准化互信息 (Normalized Mutual Information, NMI)
- 概念定义: NMI 源于信息论，用于衡量两个标签分配之间的共享信息。它计算的是聚类标签和真实标签之间的互信息，并对其进行归一化处理，使其值介于 0 和 1 之间。值越接近 1，表示聚类结果与真实标签的一致性越高。
- 数学公式: $\text{NMI}(U, V) = \frac{I(U, V)}{\sqrt{H(U)H(V)}}$
- 符号解释:
  - $U$ : 真实标签的划分。
  - $V$ : 聚类结果的划分。
  - I(U, V): $U$ 和 $V$ 之间的互信息。
  - H(U), H(V): $U$ 和 $V$ 的熵。

5.2.2. 校准性能指标

期望校准误差 (Expected Calibration Error, ECE)
- 概念定义: ECE 是衡量模型置信度与准确率之间偏差的核心指标。它将预测置信度从 0 到 1 的区间划分为 $l$ 个等宽的箱子（bins），然后计算每个箱子内平均置信度与实际准确率之差的加权平均值。ECE 越低，表示模型的校准性能越好。
- 数学公式: $\text{ECE} = \sum_{i=1}^{l} \frac{|B_i|}{N} |\text{acc}(B_i) - \text{avg.conf}(B_i)|$
- 符号解释:
  - $l$ : 箱子的数量。
  - $B_i$ : 掉入第 $i$ 个箱子（其预测置信度在某个区间内）的样本集合。
  - $|B_i|$ : 第 $i$ 个箱子中的样本数量。
  - $N$ : 样本总数。
  - $\text{acc}(B_i)$ : 第 $i$ 个箱子中样本的实际准确率。
  - $\text{avg.conf}(B_i)$ : 第 $i$ 个箱子中样本的平均置信度。

5.3. 对比基线

论文将 CDC 与两类具有代表性的深度聚类方法进行了比较：

基于表示学习的聚类: 这类方法先用自监督模型学习特征，然后应用 K-means。
- MoCo-v2, SimSiam, BYOL: 经典的自监督学习方法。
- ProPos, CoNR: 近期在表示学习用于聚类方面取得优异性能的方法。
迭代式自监督深度聚类: 这类方法端到端地进行训练。
- SCAN, SPICE: 基于伪标签的 SOTA (最先进的) 方法，是本文最直接的比较对象。
- CC, TCC, TCL, SeCu: 其他有影响力的迭代式聚类方法。此外，论文还报告了一个监督学习 (Supervised) 的基线结果，以展示无监督聚类与有监督分类之间的性能差距。

6. 实验结果与分析

本节详细解读论文的核心实验结果，验证所提出方法 CDC 的有效性。

6.1. 核心结果分析

论文在六个基准数据集上将 CDC 与多种先进方法进行了全面对比，结果呈现在原文的 Table 1 中。该表格包含了聚类性能（ACC, ARI）和校准性能（ECE）三大指标。

以下是原文 Table 1 的完整结果：

Method	CIFAR-10			CIFAR-20			STL-10			ImageNet-10			ImageNet-Dogs			Tiny-ImageNet
Method	ACC↑	ARI↑	ECE↓	ACC↑	ARI↑	ECE↓	ACC↑	ARI↑	ECE↓	ACC↑	ARI↑	ECE↓	ACC↑	ARI↑	ECE↓	ACC↑	ARI↑	ECE↓
K-means	22.9	4.9	N/A	13.0	2.8	N/A	19.2	6.1	N/A	24.1	5.7	N/A	10.5	2.0	N/A	2.5	0.5	N/A
MoCo-v2	82.9	64.9	N/A	50.7	26.2	N/A	68.8	45.5	N/A	56.7	30.9	N/A	62.8	48.1	N/A	25.2	11.0	N/A
Simsiam	70.7	53.1	N/A	33.0	16.2	N/A	49.4	34.9	N/A	78.4	68.8	N/A	44.2	27.3	N/A	19.0	8.4	N/A
BYOL	57.0	47.6	N/A	34.7	21.2	N/A	56.3	38.6	N/A	71.5	54.1	N/A	58.2	44.2	N/A	11.2	4.6	N/A
DMICC	82.8	69.0	N/A	46.8	29.1	N/A	80.0	62.5	N/A	96.2	91.6	N/A	58.7	43.8	N/A	-	-	-
ProPos	94.3	88.4	N/A	61.4	45.1	N/A	86.7	73.7	N/A	96.2	91.8	N/A	77.5	67.5	N/A	29.4	17.9	N/A
CoNR	93.2	86.1	N/A	60.4	44.3	N/A	92.6	84.6	N/A	96.4	92.2	N/A	79.4	66.7	N/A	30.8	18.4	N/A
DivClust	81.9	68.1	-	43.7	28.3	-	-	-	-	93.6	87.8	-	52.9	37.6	-	-	-	-
CC	85.2	72.8	6.2	42.4	28.4	29.7	80.0	67.7	11.9	90.6	85.3	8.1	69.6	56.0	19.3	12.1	5.7	3.2
TCC	90.6	73.3	-	49.1	31.2	-	81.4	68.9	-	89.7	82.5	-	59.5	41.7	-	-	-	-
TCL	88.7	78.0	-	53.1	35.7	-	86.8	75.7	-	89.5	83.7	-	64.4	51.6	-	-	-	-
SeCu-Size	90.0	81.5	8.1	52.9	38.4	13.1	80.2	63.1	9.9	-	-	-	-	-	-	-	-	-
SeCu	92.6	85.4	4.9	52.7	39.7	41.8	83.6	69.3	6.5	-	-	-	-	-	-	-	-	-
SCAN-2	84.1	74.1	10.9	50.0	34.7	37.1	87.0	75.6	7.4	95.1	89.4	2.7	63.3	49.6	26.4	27.6	15.3	27.4
SCAN-3	90.3	80.8	6.7	51.2	35.6	39.0	91.4	82.5	6.6	97.0	93.6	1.5	72.2	58.7	19.5	25.8	13.4	48.8
SPICE-2	84.4	70.9	15.4	47.6	30.3	52.3	89.6	79.2	10.1	92.1	83.6	7.8	64.6	47.7	35.3	30.5	16.3	48.5
SPICE-3	91.5	83.4	7.8	58.4	42.2	40.6	93.0	85.5	6.3	95.9	91.2	4.1	67.5	52.6	32.5	29.1	14.7	N/A
CDC-Clu (Ours)	94.9	89.4	1.4	61.9	46.7	28.0	93.1	85.8	4.8	97.2	94.0	1.8	79.3	70.3	17.1	34.0	20.0	37.8
CDC-Cal (Ours)	94.9	89.5	1.1	61.7	46.6	4.9	93.0	85.6	0.9	97.3	94.1	0.8	79.2	70.0	7.7	33.9	19.9	11.0
Supervised	89.7	78.9	4.0	71.7	50.2	11.0	80.4	62.2	10.0	99.2	98.3	0.9	93.1	85.7	0.9	47.7	24.3	5.1
+MoCo-v2	94.1	87.5	2.4	83.2	68.4	6.7	90.5	80.7	3.5	99.9	99.8	0.4	99.5	99.0	0.9	53.8	30.9	8.4

分析点 1: 卓越的聚类能力 (Superior Clustering Ability)

在聚类性能指标 ACC 和 ARI 上，CDC 方法 (特别是 CDC-Cal) 在绝大多数数据集上都取得了最佳或次佳的成绩。
超越 SOTA: 相比于同样基于伪标签的 SCAN 和 SPICE，CDC 的性能提升是显著的。例如，在 CIFAR-20 数据集上，CDC-Cal 的 ACC 达到了 61.7%，而 SPICE-3 只有 58.4%。在 ImageNet-Dogs 上，CDC-Cal (79.2%) 更是远超 ProPos (77.5%) 和 CoNR (79.4%)。
超越监督基线: 惊人的是，在 CIFAR-10 和 STL-10 数据集上，CDC 作为一种无监督方法，其聚类准确率甚至超过了使用相同主干网络进行有监督训练的结果。这说明通过精心设计的自训练机制，无监督模型可以学习到比标准监督分类更适合聚类任务的特征表示。
结论: 这些结果有力地证明，通过校准置信度和动态选择伪标签，CDC 能够生成更高质量的训练信号，从而显著提升了聚类性能。

分析点 2: 杰出的校准性能 (Excellent Calibration Performance)

这是本文最核心的贡献。观察 ECE (越低越好) 这一列，CDC-Cal 的优势是压倒性的。
SOTA 方法的过度自信问题: SCAN 和 SPICE 等方法表现出极高的 ECE 值，证实了论文的动机。例如，在 CIFAR-20 上，SPICE-2 的 ECE 高达 52.3%，SCAN-3 为 39.0%，说明它们的置信度输出极不可靠。
CDC 的校准效果: 相比之下，CDC-Cal 在同一数据集上的 ECE 仅为 4.9%，实现了数量级的降低。在 CIFAR-10 上，SPICE-2 的 ECE 为 15.4%，而 CDC-Cal 仅为 1.1%。这直观地展示了校准头的强大作用。
可视化证据: Figure 1 的可靠性图生动地展示了这一点。SCAN 和 SPICE 的蓝色柱状（实际准确率）远低于橙色虚线（期望准确率），而 CDC 的两者几乎重合，达到了近乎完美的校准状态。
结论: CDC 成功地解决了深度聚类中的过度自信问题，其输出的置信度分数具有很高的参考价值。

分析点 3: 有竞争力的失败拒绝能力 (Competitive Failure Rejection Ability) Figure 3 比较了 CDC 与其他基于正则化的校准方法（如 Focal Loss, Label Smoothing）在区分正确预测和错误预测方面的能力。AUROC、AURC 和 FPR95 是衡量这种“失败拒绝”能力的关键指标。

Figure 3: The failure rejection ability comparison on CIFAR-20. The second row shows the confidence distribution of correct and misclassified samples, demonstrating that our method has a stronger abi… 该图像是图表，展示了不同方法在CIFAR-20数据集上的性能比较。前五个子图比较了ACC、AUROC、AURC、FPR95和ECE指标，后五个子图展示了各方法对正确预测和错误预测样本置信度的分布，体现了CDC方法在置信度校准和分类准确性上的优势。

结果: CDC 在所有三项指标上均显著优于其他方法。
置信度分布: 图中第二行的置信度分布图揭示了原因。对于 CDC，正确预测（蓝色分布）的置信度集中在高的区间，而错误预测（红色分布）的置信度集中在低的区间，两者分离得很好。而其他方法（如 LS）的红蓝分布重叠严重，意味着模型无法通过置信度来有效区分对错。
结论: CDC 不仅校准了整体置信度，还赋予了模型强大的“自知之明”，使其能够可靠地识别出自己可能出错的预测。这对于构建可信赖系统和筛选高质量伪标签至关重要。

6.2. 数据呈现 (表格)

本报告已在 6.1 节中完整转录了核心的 Table 1，并使用 HTML $<div class="table-wrapper"><table>$ 标签精确还原了其复杂的表头结构，遵循了指令要求。

6.3. 消融实验/参数分析

消融实验旨在通过移除或替换模型的某些组件来验证其各自的贡献。论文在 Table 2 中进行了详细的消融研究。

以下是原文 Table 2 的部分关键结果分析：

Type	Settings	CIFAR-10				CIFAR-20
Type	Settings	ACC↑	NMI↑	ARI↑	ECE↓	ACC↑	NMI↑	ARI↑	ECE↓
I	After Randomly Init.	19.1	7.6	3.1	8.5	10.4	5.7	1.0	4.9
I	After Proposed Init.	87.2	79.8	76.1	1.0	56.4	56.9	41.2	5.2
II	Fixed Thre. (0.95)	91.9	85.2	83.9	3.5	50.8	49.2	30.5	12.6
II	CDC-Cal (Ours)	94.9	89.3	89.5	1.1	61.7	60.9	46.6	4.9
III	Single-head (Clu)	93.9	88.0	87.5	2.3	59.7	61.3	45.3	31.6

初始化策略 (I. Initialization):
- 结果: 使用随机初始化后，模型性能急剧下降（例如，CIFAR-20 上 ACC 从 56.4% 降至 10.4%）。
- 分析: 这证明了随机初始化会严重破坏预训练模型学到的判别性特征。而本文提出的原型初始化策略能够有效地将预训练的知识迁移到聚类头，为后续训练提供了一个极佳的起点。
置信度感知选择 (II. Confidence-Aware Selection):
- 结果: 将 CDC 的动态样本选择策略替换为固定的阈值（如 0.95）后，性能明显下降（例如，CIFAR-20 上 ACC 从 61.7% 降至 50.8%）。
- 分析: 这证明了动态、逐类的样本选择机制远优于固定的全局阈值。它能更好地适应模型的学习状态和不同类别的难度。
双头设置 (III. Single-head Setting):
- 结果: 如果移除校准头，让聚类头用自己（过度自信）的预测来进行动态样本选择（Single-head (Clu)），聚类性能和校准性能都会下降，尤其是在更难的 CIFAR-20 上，ECE 从 4.9% 飙升至 31.6%。
- 分析: 这证明了双头解耦的必要性。让一个专门的、更“客观”的校准头来评估置信度，是整个框架成功的关键。
停止梯度 (V. Stop Gradient for the Calibrating Head):
- 结果: 如果不停止校准损失向主干网络回传梯度，性能会显著下降（例如，CIFAR-20 上 ACC 从 61.7% 降至 49.6%）。
- 分析: 这证实了作者的猜想：校准损失中包含了来自“不可靠区域”的负面信息，这些信息对于校准是必要的，但对于学习高质量的判别性特征是有害的。停止梯度保护了特征提取器免受污染。

7. 总结与思考

7.1. 结论总结

这篇论文成功地识别并解决了深度聚类领域一个长期被忽视但至关重要的问题：模型过度自信。作者提出了一种名为 CDC (Calibrated Deep Clustering) 的创新框架，其核心贡献和发现可以总结如下：

双头协同框架: 通过设计一个聚类头和一个校准头，巧妙地解耦了聚类预测和置信度评估，并通过两者之间的信息交换形成良性循环。
无监督校准: 提出了一种新颖的、无需标签的校准方法。该方法通过分析特征空间的局部一致性，实现了对不可靠预测的选择性惩罚，从而在不损害可靠预测的前提下，大幅降低了模型的校准误差。
智能伪标签选择: 抛弃了传统的固定阈值，利用校准后的置信度实现了动态、逐类的伪标签选择策略，显著提升了自训练的质量和效率。
性能双丰收: 大量实验证明，CDC 不仅在校准性能 (ECE) 上取得了数量级的提升（平均优于 SOTA 方法 5 倍），同时也在聚类精度 (ACC, ARI) 上达到了新的最先进水平。

总而言之，CDC 不仅是一个性能更强的聚类模型，更是一个更诚实、更可信赖的模型，为构建可靠的无监督学习系统迈出了重要一步。

7.2. 局限性与未来工作

尽管论文取得了显著成功，但仍存在一些潜在的局限性和值得探索的未来方向：

作者提及的未来工作:
- 在附录 C.1 中，作者探讨了融合半监督学习中的一些先进样本选择技术（如 GSF, PPF）的可能性，发现虽然有重叠，但仍有潜力进一步提升性能。
- 作者还比较了 SSL 中的动态阈值方法 FlexMatch 和 FreeMatch，分析了它们在无监督场景下的不足，并指出了 CDC 策略的优势，但这也暗示了在动态阈值设计上仍有探索空间。
潜在的局限性:
1. 计算开销: CDC 引入了额外的计算开销。虽然作者在附录 B.6 中分析了运行时间，并声称通过优化，总时间可能更短，但在每个训练批次中执行 K-means 算法仍然会增加计算复杂度，尤其是在批次大小或特征维度很大时。
2. 超参数敏感性: 模型引入了新的超参数，最关键的是 K-means 中的小簇数量 $K$ 。尽管 Figure 5 显示模型对 $K$ 的变化具有一定的鲁棒性，但选择一个合适的 $K$ 仍然需要根据数据集的复杂性进行经验性调整，缺乏自适应机制。
3. 对预训练的依赖: 整个框架的成功很大程度上建立在一个高质量的预训练特征提取器（MoCo-v2）之上。如果预训练效果不佳，后续的校准和聚类过程可能会受到影响。

7.3. 个人启发与批判

这篇论文给我带来了深刻的启发，其方法和思想具有很强的迁移价值：

“批判者”与“执行者”分离的思想: 双头架构的设计非常精妙。将任务的“执行”（聚类）与对执行质量的“元认知”（置信度评估）分离开来，让一个专门的模块来扮演“批判者”的角色，这种思想可以广泛应用于其他机器学习任务中。例如，在生成模型中，可以设计一个“真实性评估头”来校准生成样本的质量分数；在强化学习中，可以有一个“策略稳定性头”来评估当前策略的可靠性。
利用局部一致性进行无监督校准: 本文最核心的创新在于，它找到了一种在无监督设定下进行校准的有效代理（proxy）：特征空间的局部一致性。这个思想——“特征相似的样本，其预测也应相似”——是无监督和自监督学习的基石。本文将其巧妙地用于度量和修正置信度，为其他无监督任务的校准问题提供了全新的解决思路。
从“自信”到“自知”: 这篇论文的哲学意义在于，它强调了模型不仅要做出“好”的预测，更要“知道”自己预测得有多好。这是从追求单纯的高性能（自信）向量构建可信赖 AI（自知）迈出的关键一步。在 AI 应用日益广泛的今天，这种对模型可靠性的关注显得尤为重要。

批判性思考与可改进之处:

K-means 的局限性: K-means 是一种简单高效的聚类算法，但它依赖于欧氏距离，且对初始中心点敏感，可能无法很好地捕捉复杂的数据流形结构。未来可以探索使用更先进的聚类方法（如谱聚类或基于图的方法）来划分特征空间中的小区域，可能会得到更精确的局部一致性评估。
$K$ 值的自适应: 当前超参数 $K$ 需要手动调整。一个更有趣的方向是，能否让模型自动学习最佳的 $K$ 值？或者，能否设计一种不依赖离散聚类的、基于核密度估计等连续方法的局部一致性度量，从而完全避免 $K$ 这个超参数？
理论的深度: 论文为方法提供了理论保证，这是一个很大的优点。但定理的证明依赖于一些理想化的假设（如高斯混合模型）。探索在更一般化的条件下，该方法的理论性质，将使其更具说服力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。