论文状态：已完成

DIVA: A Dirichlet Process Mixtures Based Incremental Deep Clustering Algorithm via Variational Auto-Encoder

发表：2023/05/23

Dirichlet过程混合模型 (3)增量深度聚类算法 (1)变分自编码器 (1)动态适应聚类 (1)在线变分推理 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

DIVA是一个基于狄利克雷过程混合模型与变分自编码器的非参数增量式深度聚类框架，旨在解决传统方法要求预先定义聚类数量的问题。通过引入记忆化在线变分推断，DIVA能够动态地进行聚类的“诞生”和“合并”，从而在处理具有动态变化特征的数据时表现优于现有基线模型。

摘要

Generative model-based deep clustering frameworks excel in classifying complex data, but are limited in handling dynamic and complex features because they require prior knowledge of the number of clusters. In this paper, we propose a nonparametric deep clustering framework that employs an infinite mixture of Gaussians as a prior. Our framework utilizes a memoized online variational inference method that enables the "birth" and "merge" moves of clusters, allowing our framework to cluster data in a "dynamic-adaptive" manner, without requiring prior knowledge of the number of features. We name the framework as DIVA, a Dirichlet Process-based Incremental deep clustering framework via Variational Auto-Encoder. Our framework, which outperforms state-of-the-art baselines, exhibits superior performance in classifying complex data with dynamically changing features, particularly in the case of incremental features. We released our source code implementation at: https://github.com/Ghiara/diva

思维导图

论文精读

中文精读约 13 分钟读完 · 8,116 字

1. 论文基本信息

1.1. 标题

DIVA: A Dirichlet Process Mixtures Based Incremental Deep Clustering Algorithm via Variational Auto-Encoder
（DIVA：一种基于狄利克雷过程混合模型与变分自编码器的增量式深度聚类算法）

1.2. 作者

Zhenshan Bing, Yuan Meng, Yuqi Yun, Hang Su, Xiaojie Su, Kai Huang, Alois Knoll
隶属机构： 慕尼黑工业大学 (Technical University of Munich, TUM), 米兰理工大学, 重庆大学, 中山大学。

1.3. 发表期刊/会议

发表于 ArXiv (预印本)，时间戳显示为 2023年5月。

1.4. 摘要

研究目的： 解决现有的基于生成模型的深度聚类框架（如 GMVAE）严重依赖先验知识（即必须预先指定聚类数量 $K$ ）的问题，特别是当面对特征动态变化或数量未知的复杂数据时。 核心方法： 提出了一种非参数深度聚类框架 DIVA。它利用无限高斯混合模型（即狄利克雷过程混合模型，DPMM）作为先验，结合变分自编码器（VAE）。 关键技术： 引入了“记忆化在线变分推断”（Memoized Online Variational Inference），支持聚类的“诞生（birth）”和“合并（merge）”操作。 主要结论： DIVA 能够以“动态自适应”的方式进行聚类，无需预知特征数量，并在处理增量特征（Incremental Features）数据时表现优于最先进的基线模型。

1.5. 原文链接

https://arxiv.org/abs/2305.14067 (PDF: https://arxiv.org/pdf/2305.14067v3.pdf)

2. 整体概括

2.1. 研究背景与动机

核心问题： 深度聚类（Deep Clustering）结合了深度神经网络的表征能力和传统聚类算法。然而，主流的生成式深度聚类方法（通常结合 VAE 和高斯混合模型 GMM）存在一个致命缺陷：必须预先指定聚类簇的数量 $K$ 。 挑战：

未知性： 在许多现实场景中，我们无法预知数据包含多少类。
动态性： 数据流往往是动态的，新的类别可能会随时间出现（增量学习场景）。
模型限制： 传统的贝叶斯非参数方法虽然能处理无限聚类，但难以直接应用于高维复杂数据（如图像）。

创新思路： 将贝叶斯非参数统计中的 狄利克雷过程混合模型 (DPMM) 引入到 变分自编码器 (VAE) 的潜在空间（Latent Space）中，替代传统的各向同性高斯先验或固定数量的 GMM 先验。

2.2. 核心贡献

非参数深度聚类架构： 提出了 DIVA 框架，通过引入 DPMM 作为先验，消除了预定义聚类数量的需求，理论上支持无限数量的特征聚类。
动态自适应机制： 引入了记忆化在线变分贝叶斯推断（Memoized Online Variational Bayes），实现了聚类的动态调整（Birth & Merge），使模型能根据观测数据自动调整先验空间中的聚类数量、密度和形状。
增量学习能力验证： 实验证明 DIVA 在面对特征增量（Incremental Features）的数据集（即类别随训练逐渐增加）时，能够动态调整聚类结构，保持高水平的无监督聚类精度，优于现有的参数化和非参数化基线。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 DIVA，初学者需要掌握以下核心概念：

变分自编码器 (VAE, Variational Auto-Encoder):
- 一种生成模型，由编码器（Encoder）和解码器（Decoder）组成。
- Encoder: 将高维输入数据 $x$ 映射到低维潜在空间 $z$ 的分布 $q(z|x)$ 。
- Decoder: 从潜在变量 $z$ 重构原始数据 $x$ 。
- Latent Space (潜在空间): 通常假设服从高斯分布，数据被压缩在此处。
贝叶斯非参数模型 (Bayesian Nonparametrics):
- 这里的“非参数”不是指没有参数，而是指参数的数量不固定，随着数据量的增加而增长。这允许模型自动推断数据的复杂性（如聚类数量）。
狄利克雷过程 (DP, Dirichlet Process) 与折棍过程 (Stick-Breaking Process):
- 直观理解: 想象一根长度为 1 的棍子。我们随机折断一部分作为第 1 个聚类的权重，再从剩下的部分随机折断一部分作为第 2 个聚类的权重……这个过程无限进行下去。
- 作用: 它为“无限”个聚类提供了数学上的概率分布基础，使得模型可以根据数据“按需”使用聚类，前几个聚类通常占据主要权重。
  
  下图（原文 Figure 1）展示了折棍过程 (a) 和 DP 的采样分布 (b)：
  
  $Figure 1: (a) Stick-breaking process. (b) Histogram of $\\mathrm { D P } ( \\alpha =$ $5 , H = \\mathcal { N } ( 0 , 1 ) ,$ .$ 该图像是图表，展示了(a) Stick-breaking 过程和(b) DP的抽样结果。公式中， $H = ext{N}(0, 1)$ 且 eta为随机变量，ext{DP}表示Dirichlet过程。
DPMM (Dirichlet Process Mixture Model):
- 结合了 DP 和混合模型（如高斯混合）。数据的参数不是来自有限的 $K$ 个组件，而是来自一个由 DP 生成的无限离散分布。

3.2. 技术演进与差异化

参数化方法 (Parametric): 如 DEC, VaDE, GMVAE。它们使用 K-means 或 GMM，必须固定 $K$ 。如果 $K$ 设错，性能会大幅下降。
非参数化方法 (Nonparametric):
- SB-VAE: 使用折棍过程作为先验，但缺乏对聚类形状和密度的显式建模（仅提供成员归属信息）。
- DeepDPM: 使用基于采样的优化方法，计算开销大，且在处理增量数据时灵活性不足。
- DIVA (本文): 使用变分推断而非采样，且引入了显式的“诞生-合并”启发式算法，能更高效地处理增量变化。

4. 方法论

DIVA 的核心是将 VAE 的表示学习能力与 DPMM 的动态聚类能力相结合。模型通过交替优化 VAE 和 DPMM 来工作。

下图（原文 Figure 3）展示了 DIVA 的整体架构：

$Figure 3: Overview of the DIVA. The DPMM and the VAE are optimized alternately. When updating the DPMM, we use the current latent sample $z$ obtained from the VAE. When updating the VAE, we assign the outputs of the encoder to the clusters of DPMM and minimize the $\\mathcal { L } _ { K L }$ with respect to the assigned cluster.$ 该图像是示意图，展示了 DIVA 框架的结构。左侧为编码器、潜在空间和解码器的组成部分，而右侧则表示 DPMM 先验空间的多个高斯分布 $N(\mu_1, \Sigma_1), N(\mu_2, \Sigma_2), \ldots, N(\mu_k, \Sigma_k)$ ，其中 $k \to \infty$ 表示聚类数量不固定。

4.1. 狄利克雷过程混合模型 (DPMM) 模块

在 DIVA 中，潜在变量 $z$ 被假设是由一个 DPMM 生成的。

4.1.1. 生成过程 (Generative Process)

作者使用 Stick-Breaking (SB) 过程来构造 DP。

混合比例 (Mixing Proportions) $\pi$ : 通过 Beta 分布 $B(1, \alpha)$ 采样得到 $\beta_k$ ，并通过折棍过程计算 $\pi_k$ ： $\beta_k \sim B(1, \alpha), \quad \pi_k = \beta_k \prod_{i=1}^{k-1}(1-\beta_i)$ 这里 $\alpha$ 是浓度参数，决定了生成新聚类的倾向。
聚类参数: 每个聚类 $k$ 的均值 $\mu_k$ 和协方差 $\Sigma_k$ 从基分布 $H$ （通常是 Normal-Wishart 分布）中采样： $\Sigma_k \sim \mathcal{W}(\mathbf{W}, \nu), \quad \mu_k | \Sigma_k \sim \mathcal{N}(\mu_0, (\lambda \Sigma_k)^{-1})$
数据生成:
- 首先根据 $\pi$ 选择一个聚类分配变量 $v_n \sim \text{Cat}(\pi)$ 。
- 然后根据选定聚类的参数生成潜在变量 $z_n$ ： $z_n | v_n=k \sim \mathcal{N}(\mu_k, \Sigma_k)$ 。
- 最后，VAE 的解码器将 $z_n$ 映射回观察空间 $x_n = f_\theta(z_n)$ 。

4.1.2. 变分推断 (Variational Inference)

为了推断后验分布，作者最大化 证据下界 (ELBO)。变分分布 $q$ 假设满足平均场理论（Mean-field assumption），即各变量相互独立： $q(\boldsymbol{v}, \boldsymbol{\beta}, \boldsymbol{\mu}, \Sigma) = \prod_{n=1}^{N} \text{Cat}(v_n | \hat{r}_{n}) \prod_{k=1}^{K} \mathcal{B}(\beta_k | \hat{\alpha}_{k_1}, \hat{\alpha}_{k_0}) \prod_{k=1}^{K} \text{NW}(\mu_k, \Sigma_k | \hat{\Theta}_k)$ 其中 $K$ 是当前被截断的（Truncated）最大聚类数（但在算法中会动态调整）。

ELBO 的核心公式： $\text{ELBO}(q) = \mathbb{E}[\log p(\pmb{x}|\pmb{v}, \pmb{\theta}, \beta)] - \mathbb{KL}(q(\pmb{v}, \pmb{\theta}, \beta) || p(\pmb{v}, \pmb{\theta}, \beta))$ 该公式旨在找到一个分布 $q$ ，既能很好地解释数据（第一项，重构似然），又尽可能接近先验分布（第二项，KL 散度）。

4.2. 动态聚类调整 (Birth & Merge Moves)

这是 DIVA 处理未知 $K$ 的关键。作者采用了 memoized online Variational Bayes (memoVB) 算法。

诞生 (Birth):
- 在处理数据批次（Batch）时，收集那些当前聚类模型“解释得很差”的数据样本。
- 尝试用一个新的 DPMM 拟合这些样本。
- 如果引入新聚类能提高 ELBO，则接受新聚类（ $K \leftarrow K + K'$ ）。
合并 (Merge):
- 检查成对的聚类。
- 如果将两个聚类合并为一个能提高 ELBO，则执行合并操作（ $K \leftarrow K - 1$ ）。

4.3. 变分自编码器 (VAE) 的更新

在更新完 DPMM 后，固定 DPMM 的参数，更新 VAE 的编码器和解码器参数。

损失函数： VAE 的总损失由重构损失和 KL 散度组成。 $\mathcal{L} = \mathcal{L}_{recon} + \mathcal{L}_{KL}$

关键难点： 标准 VAE 的先验是 $N(0, I)$ ，而这里先验是 DPMM。对于第 $i$ 个样本，其潜在变量 $z_i$ 被分配到第 $k$ 个聚类的概率为 $p_{ik}$ （由 DPMM 计算得出）。作者定义加权的 KL 散度： $\mathcal{L}_{\mathrm{KL}_{i}} = \sum_{k=1}^{K} p_{ik} \mathcal{L}_{\mathrm{KL}_{ik}}$ 其中 $\mathcal{L}_{\mathrm{KL}_{ik}}$ 是编码器输出分布 $N(\mu(x_i), \Sigma(x_i))$ 与第 $k$ 个聚类分布 $N(\mu_k, \Sigma_k)$ 之间的 KL 散度。公式如下： $\mathcal{L}_{\mathrm{KL}_{ik}} = \frac{1}{2} \Bigg[ \log \frac{|\Sigma_k|}{|\Sigma(x_i)|} - D + \mathrm{tr}\{\Sigma_k^{-1}\Sigma(x_i)\} + (\mu_k - \mu(x_i))^T \Sigma_k^{-1} (\mu_k - \mu(x_i)) \Bigg]$ 这实际上是迫使 VAE 的编码器将数据映射到 DPMM 当前形成的聚类中心附近。

4.4. 算法流程 (Algorithm 1)

初始化 VAE 和一个简单的 DPMM ( $K=1$ )。
循环： 3. VAE 阶段： 采样数据，通过 VAE 得到潜在变量 $z$ 。利用当前 DPMM 计算软分配概率 $p_{ik}$ ，计算上述 $\mathcal{L}_{KL}$ 和重构误差，更新 VAE 参数。 4. DPMM 阶段： 累积一批 $z$ 。固定 VAE，对 DPMM 进行多步更新： * 更新变分参数 $\hat{r}, \hat{\alpha}, \hat{\Theta}$ 。 * 执行 Birth 和 Merge 移动，动态调整 $K$ 。
直到收敛。

5. 实验设置

5.1. 数据集

实验使用了 8 个广泛采用的数据集，涵盖图像和文本：

MNIST, Fashion-MNIST: 基础图像数据集。
STL-10, ImageNet-50, CIFAR-10, SVHN: 更复杂的真实世界图像数据集。对于 STL-10 和 ImageNet，使用了预训练模型（ResNet-50, MOCO）提取特征以减轻训练负担。
Reuters10k: 文本数据集。
HHAR: 传感器数据集。

5.2. 评估指标

为了量化无监督聚类性能，使用了以下指标：

聚类精度 (ACC, Clustering Accuracy):
- 概念定义: 通过寻找最佳的一对一映射（将聚类标签映射到真实标签），计算预测正确的样本比例。
- 数学公式: $ACC = \max_{f} \frac{\sum_{i=1}^{N} \mathbf{1}\{l_i = f(v_i)\}}{N}$
- 符号解释: $N$ 为样本总数， $l_i$ 为真实标签， $v_i$ 为聚类结果， $f$ 是从聚类索引到真实标签的最佳排列映射（通常使用匈牙利算法求解）。
归一化互信息 (NMI, Normalized Mutual Information): (见附录表格) 衡量聚类结果与真实标签共享信息的程度，归一化到 [0, 1]。
调整兰德指数 (ARI, Adjusted Rand Index): (见附录表格) 衡量聚类的一致性，考虑了随机猜测的基准。

5.3. 对比基线

参数化模型 (需预设 K): GMM, DEC (Deep Embedded Clustering), GMVAE.
非参数化模型 (自适应 K): memoVB (纯 DPMM), VSB-DVM, DDPM, DeepDPM, SB-VAE.

6. 实验结果与分析

6.1. 静态数据集上的聚类性能

在标准的静态数据集（类别数固定且全部可见）上，DIVA 展现了优越的性能。

下图（原文 Figure 4）展示了 MNIST 数据集的 t-SNE 投影。可以看到 DIVA (a) 形成了清晰分离的簇，而 GMVAE 如果 $K$ 设置不当 (f, g) 效果很差。

Figure 4: t-SNE projection on full static MNIST, colored by the ground truth. It is clearly to see that DIVA can learn a clustered latent representation with high distinction. GMVAE with improper defined cluster number (Fig. 4f, 4g) can not learn a distinct clustering representation. Notably, the advantages of our framework are more apparent when handling dynamic changing features.

核心数据分析： 以下是原文 Table 1 的结果，展示了各模型在静态数据集上的 ACC：

Frameworks	MNIST	Fashion-MNIST	Reuters10k(imb)	HHAR	STL-10	ImageNet-50
GMM	.60 ± .01	.49 ± .02	.73 ± .06	.43 ± .00	.58 ± .03	.60 ± .01
DEC	.84 ± .00	.60 ± .04	.72 ± .00	.79 ± .01	.80 ± .01	.63 ± .01
GMVAE	.82 ± .04	.61 ± .01	.73 ± .08	.65 ± .03	.79 ± .04	.62 ± .02
DPMM+memoVB	.63 ± .02	.57 ± .01	.56 ± .05	.68 ± .04	.64 ± .05	.57 ± .00
VSB-DVM	.86 ± .01	.64 ± .03	.60 ± .03	.66 ± .06	.52 ± .03	.49 ± .02
DDPM	.91 ± .01	.63 ± .02	.71 ± .02	.74 ± .01	.72 ± .01	.63 ± .02
DeepDPM	.93 ± .02	.63 ± .01	.83 ± .01	.79 ± .02	.81 ± .02	.66 ± .01
DIVA (Ours)	.94 ± .01	.72 ± .01	.83 ± .01	.83 ± .01	.88 ± .01	.69 ± .02

注：粗体表示最佳性能。DIVA 在所有数据集上均优于或持平于最先进的基线（SOTA），特别是在 STL-10 (.88 vs .81) 和 Fashion-MNIST (.72 vs .64) 上优势明显。

6.2. 增量特征学习 (Incremental Representation Learning)

这是本文的高光实验。作者模拟了类别数逐渐增加的场景。下图（原文 Figure 5）展示了当特征（类别）数量增加时，DIVA 与参数化模型（GMVAE, GMM）的对比：

$Figure 5: Clustering accuracy with incremental features for MNIST (left), Fashion-MNIST (middle) and STL-10 (right). mean $\\pm$ (std.dev.) of 5 runs. We evaluate our framework and parametric baselines on test dataset with incremental number of features, e.g., for MNIST the $\\mathbf { X }$ -axis with $^ { 6 6 } 3$ features" means the dataset contains 3 types of digit to be classified, which are $^ { 6 } 0 , 1 , 2 ^ { 5 }$ , respectively.$ 该图像是图表，展示了在 MNIST、Fashion-MNIST 和 STL-10 数据集上，使用增量特征时的聚类准确率。每个数据集的 $x$ 轴分别表示特征数（3、5、7和10个特征），并通过不同颜色区分了 DIVA 和其他基线模型的表现。

分析： 参数化模型（如 GMVAE K=3, 5, 10）一旦真实类别数超过预设的 $K$ ，性能就会发生灾难性下降（ACC 骤降）。
DIVA 的表现： 无论特征数量是 3, 5, 7 还是 10，DIVA 都能保持极高的准确率（蓝色柱状图），证明了其强大的自适应能力。

6.3. 动态自适应过程 (Dynamic Adaptation)

作者在 MNIST 上进行了 Zero-shot 适应实验：初始训练只有 3 个数字，然后在 Epoch 30, 60, 90 分别增加到 5, 7, 10 个数字。

下图（原文 Figure 6）详细记录了这一过程：

该图像是图表，展示了增量训练的测试准确性与聚类数量随训练轮数的变化。图中，DIVA（黄色线条）相较其他算法（如GMVAE和DPDM）在不同轮次中展现出持续上升的准确性，并显示出聚类数量的变化情况，从而反映出其动态适应能力。

图 6(a) 分析:
- 实线 (Test Accuracy): DIVA（黄线）在引入新类别时，准确率会短暂下降（模型在适应新数据），但随后迅速恢复并收敛到高位。相比之下，DeepDPM 和 GMVAE 无法有效适应，准确率呈阶梯式下降。
- 虚线 (Number of Clusters): DIVA 的聚类数量（Cluster Num）随着时间步（Epoch）呈现阶梯式上升，完美对应了新类别的引入时刻（30, 60, 90 epoch）。这直观地证明了“诞生（Birth）”机制的有效性。

6.4. 生成性能与子特征发现

DIVA 不仅能聚类，还能生成图像。DPMM 倾向于捕捉比粗糙标签（Coarse Labels）更细粒度的特征。下图（原文 Figure 7）展示了不同聚类中心重构出的图像：

Figure 7: Reconstruction images from DPMM learned clusters on MNIST (a)-(c), (j)-(1); FashionMNIST (d)-(f), (m)-(o); CIFAR-10 (g)-(i) and SVHN (p)-(r). Each subfigure with 16 plots stems from one cluster. It is noting that our proposed framework DIVA can efficiently extract informative sub-features from coarse labels. More results refer to appendix Sec. A.4.4. 该图像是图表，展示了 DIVA 框架在不同数据集上的重构图像，包括 MNIST、Fashion-MNIST、CIFAR-10 和 SVHN。每个子图包含来自一个集群的16个图像，展示了该框架在提取信息子特征方面的有效性。

发现： DIVA 经常会将一个真实类别拆分为多个子聚类。例如在 MNIST 中，它可能用 2-3 个聚类来表示数字 "0"，分别捕捉不同的书写风格（倾斜度、圆润度）。这表明 DIVA 具有解耦表示学习 (Disentangled Representation Learning) 的能力，能发现数据内部的子结构。

7. 总结与思考

7.1. 结论总结

DIVA 成功地将贝叶斯非参数模型（DPMM）的灵活性与深度生成模型（VAE）的表征能力融为一体。

无需预设 K: 彻底解决了深度聚类中 $K$ 值难定的痛点。
动态适应: 通过 memoVB 算法实现的 Birth/Merge 机制，使其能实时响应数据流中新类别的出现。
性能卓越: 在静态和动态增量场景下，均击败了现有的参数化和非参数化强基线。

7.2. 局限性与未来工作

作者未明确提及的潜在局限:
- 计算复杂度: 虽然使用了 memoVB 加速，但 DPMM 的更新（特别是涉及协方差矩阵求逆和大量的 Birth 尝试）在高维空间和海量数据下可能仍然比 K-means 慢。
- 对 VAE 的依赖: 聚类效果高度依赖于 VAE 提取的潜在特征质量。如果 VAE 发生坍塌或无法学习到有效特征，DPMM 也无法聚类。
未来方向: 作者建议将其扩展到 持续学习 (Continuous Learning)、机器人运动规划等领域，利用其抗遗忘和自适应特性。

7.3. 个人启发与批判

启发: 这篇论文为解决“灾难性遗忘”提供了一个非神经网络权重的视角——通过在先验空间动态扩展“槽位（Clusters）”来容纳新知识，而不是强行修改旧的神经网络权重。这种结构上的自适应比单纯的参数调整更具可解释性。
批判: 论文中提到的“DeepDPM 无法适应”可能是因为其实验设置中使用了预提取特征，限制了 DeepDPM 的端到端微调能力。此外，对于极其复杂的自然图像（如 ImageNet 全集），DPMM 的高斯假设可能仍然过于简单，限制了其上限。

本报告基于 DIVA 原文深度解析生成。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。