Deep Clustering for Unsupervised Learning of Visual Features

Matthijs Douze

论文状态：已完成

Deep Clustering for Unsupervised Learning of Visual Features

发表：2018/07/15

视觉特征无监督学习 (1)深度聚类方法 (1)端到端视觉表征学习 (1)大规模图像数据集训练 (1)基于 k-means 的特征学习 (1)

原文链接 PDF 下载

价格：0.10

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出DeepCluster方法，通过迭代的k-means聚类，将网络生成的特征簇分配作为伪标签，联合训练神经网络，实现大规模无监督视觉特征学习。该方法在ImageNet等数据集上显著优于同期无监督学习技术。

摘要

Clustering is a class of unsupervised learning methods that has been extensively applied and studied in computer vision. Little work has been done to adapt it to the end-to-end training of visual features on large scale datasets. In this work, we present DeepCluster, a clustering method that jointly learns the parameters of a neural network and the cluster assignments of the resulting features. DeepCluster iteratively groups the features with a standard clustering algorithm, k-means, and uses the subsequent assignments as supervision to update the weights of the network. We apply DeepCluster to the unsupervised training of convolutional neural networks on large datasets like ImageNet and YFCC100M. The resulting model outperforms the current state of the art by a significant margin on all the standard benchmarks.

思维导图

论文精读

中文精读约 24 分钟读完 · 14,875 字

1. 论文基本信息

1.1. 标题

深度聚类用于视觉特征的无监督学习 (Deep Clustering for Unsupervised Learning of Visual Features)

该标题直接点明了论文的核心内容：使用一种基于深度学习 (Deep Learning) 和聚类 (Clustering) 相结合的方法，在没有人工标注的情况下，自主学习图像中的视觉特征 (Visual Features)。

1.2. 作者

Mathilde Caron, Piotr Bojanowski, Armand Joulin, and Matthijs Douze.

所有作者均来自 Facebook AI Research (FAIR)，即现在的 Meta AI。FAIR 是全球顶尖的人工智能研究机构之一，尤其在计算机视觉和自然语言处理领域享有盛誉。该团队背景表明这篇论文具有很强的技术实力和资源支持。

1.3. 发表期刊/会议

本文发表于 2018 年的欧洲计算机视觉会议 (European Conference on Computer Vision, ECCV)。

ECCV 是计算机视觉领域三大顶级学术会议之一（另外两个是 CVPR 和 ICCV），具有极高的学术声誉和影响力。能够在 ECCV 发表，意味着该研究工作在创新性、有效性和影响力方面都得到了学术界的广泛认可。

1.4. 发表年份

2018年。

1.5. 摘要

论文提出了一种名为 DeepCluster 的新型聚类方法，旨在解决大规模数据集上视觉特征的端到端无监督学习问题。此前，虽然聚类方法在计算机视觉中应用广泛，但很少被用于端到端地训练深度神经网络。DeepCluster 的核心思想是联合学习 (jointly learns) 神经网络的参数和由这些网络产生的特征的簇分配。具体来说，它通过一个迭代过程实现：首先，使用标准的聚类算法（如 k-means）对网络提取的特征进行分组；然后，将这些分组的簇分配 (cluster assignments) 作为伪标签 (pseudo-labels)，来监督和更新网络的权重。作者将 DeepCluster 应用于 ImageNet 和 YFCC100M 等大规模数据集上的卷积神经网络无监督训练，实验结果表明，该方法在所有标准基准测试中都显著优于当时最先进的无监督方法。

1.6. 原文链接

官方ArXiv链接: https://arxiv.org/abs/1807.05520
PDF链接: https://arxiv.org/pdf/1807.05520v2.pdf
发布状态: 该论文为已在 ECCV 2018 正式发表的会议论文，ArXiv 上是其预印本。

2. 整体概括

2.1. 研究背景与动机

核心问题: 传统的深度学习模型，特别是卷积神经网络 (Convolutional Neural Networks, CNNs)，其巨大成功在很大程度上依赖于大规模、人工标注的数据集，如 ImageNet。然而，创建这样的数据集成本高昂、耗时巨大，并且难以扩展到更大规模（如数十亿张图片）或新的领域（如医学影像、卫星图像）。此外，ImageNet 这类数据集的性能已接近饱和，亟需新的突破口。
重要性与挑战: 无监督学习 (Unsupervised Learning) 提供了一条摆脱对人工标注依赖的路径，能够利用互联网上取之不尽的无标签数据。但在当时，如何将传统的无监督方法（如聚类）有效地应用于深度模型的端到端 (end-to-end) 训练是一个巨大挑战。直接将聚类损失和网络训练结合，很容易陷入平凡解 (trivial solution) 的困境。例如，模型可能会学到一个“捷径”：将所有输入图像都映射成同一个特征向量，这样所有数据点都完美地属于一个簇，聚类损失极小，但学到的特征毫无用处。
切入点与创新思路: 本文的作者们回归到一个非常经典且简单的思想——聚类，并思考如何将其与深度学习的强大特征提取能力结合起来，同时巧妙地规避平凡解。他们的创新思路是：不要将聚类过程作为一个可微分的损失函数直接嵌入到网络训练中，而是将其作为一个独立的步骤，交替进行。即，先用当前模型提取特征并聚类，生成固定的伪标签；然后，将问题转化为一个标准的有监督分类任务，用这些伪标签来训练模型。这种解耦的迭代方法简单、可扩展，并且直觉上是合理的：好的特征有助于更好的聚类，而更好的聚类（作为伪标签）则能引导模型学习更好的特征。

2.2. 核心贡献/主要发现

提出 DeepCluster 方法: 论文提出了一种新颖、简单且可扩展的无监督学习框架 DeepCluster。该框架通过交替执行特征聚类 (feature clustering) 和网络参数更新 (network update)，成功地将聚类思想应用于大规模深度模型的端到端训练，且无需复杂的领域知识或信号设计。
达到最先进性能: 在所有标准的无监督学习评估基准上，DeepCluster 均取得了显著优于当时所有其他方法的性能。例如，在 PASCAL VOC 等数据集的迁移学习任务（如分类、检测、分割）上，其效果大幅领先。
验证了方法的鲁棒性:
- 对数据集的鲁棒性: 论文不仅在精心整理的 ImageNet 上取得了成功，还在一个未经整理、分布更复杂的 Flickr 数据集 (YFCC100M) 上进行了训练，结果依然保持领先。这证明了 DeepCluster 对数据分布的改变不敏感。
- 对网络架构的鲁棒性: 论文将模型从 AlexNet 更换为更深的 VGG-16 网络，性能也相应地获得了巨大提升，表明该方法可以很好地扩展到更强大的网络架构上。
推动了无监督评估标准的讨论: 论文提出，除了传统的类别级 (class-level) 识别任务，还应使用实例级 (instance-level) 识别任务（如图像检索）来评估无监督学习到的特征质量，并证明了 DeepCluster 在此任务上的优越性。这为后续的无监督研究提供了更全面的评估视角。

3. 预备知识与相关工作

3.1. 基础概念

卷积神经网络 (Convolutional Neural Networks, CNNs): 一种专门用于处理具有网格状拓扑结构数据（如图像）的深度学习模型。CNN 通过卷积层 (convolutional layers) 学习和提取图像的局部特征（如边缘、纹理），通过池化层 (pooling layers) 降低特征维度并增加感受野，最终通过全连接层 (fully connected layers) 进行分类或回归。在本文中，CNN（表示为 $f_\theta$ ）被用作一个特征提取器，将原始图像 $x_n$ 映射为一个高维特征向量。
无监督学习 (Unsupervised Learning): 一类机器学习方法，其训练数据不包含任何人工标注的标签。算法需要自主地从数据中发现隐藏的结构、模式或关系。聚类是无监督学习中最经典的一类方法。
聚类 (Clustering): 将一个数据集中的样本划分为若干个组（称为“簇”），使得同一个簇内的样本彼此相似，而不同簇的样本彼此相异。
k-means 聚类 (k-means Clustering): 一种非常流行和简单的聚类算法。其目标是将 $N$ $N$ 个数据点划分到 $k$ $k$ 个簇中。算法流程如下：
1. 随机选择 $k$ 个数据点作为初始的簇中心（质心）。
2. 分配步骤 (Assignment Step): 将每个数据点分配到离它最近的质心所在的簇。
3. 更新步骤 (Update Step): 重新计算每个簇的质心，即该簇内所有数据点的平均值。
4. 重复步骤2和3，直到质心不再发生显著变化或达到最大迭代次数。
伪标签 (Pseudo-Labels): 在半监督或无监督学习中，使用模型自身的预测结果作为“虚拟”的标签来训练模型。在本文中，k-means 算法为每张图片分配的簇索引 (cluster index) 就是这张图片的伪标签。
端到端学习 (End-to-End Learning): 指将一个复杂的学习系统从原始输入到最终输出的所有模块作为一个整体进行联合训练，而不是分模块独立训练。这使得系统可以自动学习中间步骤，而无需人工设计。本文的 DeepCluster 实现了对 CNN 特征提取器的端到端训练。

3.2. 前人工作

作者将相关工作分为三类：

无监督特征学习 (Unsupervised learning of features):
- Coates and Ng (2012) 也使用 k-means 来预训练 CNN，但他们是逐层、自下而上 (bottom-up) 地训练，而非端到端。
- Yang et al. (2016) 和 $Xie et al. (2016)$ 提出了一些联合学习特征和聚类的方法，但在当时的技术条件下，这些方法难以扩展到 ImageNet 这样的大规模数据集上。
- Bojanowski and Joulin (2017) 提出了一种通过预测噪声来学习特征的方法，其本质上是在区分不同的图像实例，而本文的方法是直接将图像进行分组。
自监督学习 (Self-supervised learning): 这是当时非常流行的一类无监督方法，其核心思想是为数据创造一个代理任务 (pretext task)，并从数据本身中生成标签。
- 核心思想: 通过解决这个代理任务，模型被迫学习到对下游任务有用的通用视觉表示。
- 典型方法:
  - 空间结构预测: Doersch et al. (2015) 预测图像中两个图块的相对位置；Noroozi and Favaro (2016) 训练网络将打乱的九宫格图块恢复原状（解决“拼图游戏”）。
  - 图像修复: Pathak et al. (2016) 训练模型修复图像中被挖掉的区域（inpainting）。
  - 图像上色: Zhang et al. (2016) 预测灰度图像的颜色。
  - 利用视频信号: Wang and Gupta (2015) 利用视频中物体的时序一致性来学习特征。
- 与本文的差异: 这些方法通常需要针对特定领域（如图像、视频）精心设计代理任务，依赖于一定的领域知识 (domain knowledge)。而 DeepCluster 的聚类思想则更为通用，不依赖于输入的特定信号（如空间连续性或颜色）。
生成模型 (Generative models):
- 这类方法通过学习数据的内在分布来生成新的数据样本，如生成对抗网络 (Generative Adversarial Networks, GANs) 和变分自编码器 (Variational Autoencoders, VAEs)。
- GAN 中的判别器 (discriminator) 可以作为特征提取器，但早期的研究表明其提取的特征在迁移学习任务上表现不佳。
- Donahue et al. (2016) 和 Dumoulin et al. (2016) 通过为 GAN 增加一个编码器 (encoder)，显著提升了其学习到的视觉特征质量。

3.3. 技术演进

从这些相关工作中，我们可以看到一条清晰的技术演进脉络：

早期: 使用 k-means 等传统方法对人工设计的特征（如 SIFT）进行聚类，形成视觉词袋 (Bag of Features) 模型。
深度学习初期: 尝试用 k-means 等方法对 CNN 进行逐层无监督预训练。
自监督学习兴起: 设计各种巧妙的代理任务，实现对整个 CNN 的端到端无监督训练，并成为主流。
本文工作: 回归到聚类这一经典思想，但通过迭代解耦的巧妙设计，使其适应了大规模深度模型的端到端训练，提供了一条与自监督学习平行且同样有效的技术路径。

3.4. 差异化分析

与当时主流的自监督方法相比，DeepCluster 的核心差异和创新点在于：

通用性 vs. 特定性: DeepCluster 不依赖于任何特定的代理任务（如拼图、上色），其聚类思想具有很强的通用性，可以应用于任何类型的数据，只要能定义一个特征空间和距离度量。
简单性与可扩展性: 整个流程非常简单，仅包含 k-means 聚类和标准的分类训练两个交替的步骤。这使得它很容易实现，并且能够轻松扩展到数百万张图片和非常深的网络架构上，这在当时是许多其他联合聚类方法难以做到的。
全局性 vs. 局部性: 许多自监督任务（如预测图块相对位置）关注的是图像的局部信息。而 DeepCluster 通过对整个数据集的特征进行聚类，从一开始就引入了一种全局视角，迫使模型学习能够区分整个数据集中不同语义类别的特征。

4. 方法论

4.1. 方法原理

DeepCluster 的核心思想是通过迭代来互相促进：用当前模型提取的特征进行聚类，得到分组结果（伪标签）；再用这些伪标签作为监督信号，训练模型学习更好的特征。这个过程不断循环，理论上模型的特征表达能力和聚类的质量会同步提升。

4.2. 核心方法详解 (逐层深入)

整个方法可以看作一个在特征聚类和网络训练之间交替进行的两阶段过程。

4.2.1. 预备知识：标准监督学习

在深入无监督方法之前，论文首先回顾了标准的有监督学习流程。给定一个包含 $N$ 张图像的训练集 $X = \{x_1, x_2, ..., x_N\}$ ，每张图像 $x_n$ 都有一个对应的真实标签 $y_n$ 。学习的目标是找到一组最优的网络参数 $\theta^*$ 和分类器参数 $W^*$ 。

特征提取: 图像 $x_n$ 首先通过一个 CNN $f_\theta$ 映射为一个特征向量 $f_\theta(x_n)$ 。
分类: 该特征向量随后被送入一个分类器 $g_W$ （通常是一个全连接层），输出预测的类别概率。
优化目标: 通过最小化一个损失函数来联合优化 $\theta$ 和 $W$ 。这个损失函数通常是多项逻辑斯蒂回归损失 (multinomial logistic loss)，也称为负对数 Softmax 函数 (negative log-softmax function)。其数学形式如下：

$\min_{\theta, W} \frac{1}{N} \sum_{n=1}^{N} \ell(g_W(f_\theta(x_n)), y_n)$

符号解释:

$\theta$ : 卷积神经网络 $f_\theta$ 的参数。
$W$ : 分类器 $g_W$ 的参数。
$f_\theta(x_n)$ : 网络对图像 $x_n$ 提取的特征向量。
$g_W(\cdot)$ : 在特征之上进行分类的分类器。
$y_n$ : 图像 $x_n$ 的真实标签（通常是 one-hot 向量）。
$\ell(\cdot, \cdot)$ : 损失函数，用于衡量预测与真实标签之间的差距。
$N$ : 训练集中的图像总数。

这个优化问题通常使用小批量随机梯度下降 (mini-batch stochastic gradient descent) 和反向传播 (backpropagation) 算法来求解。

4.2.2. DeepCluster 的核心流程

DeepCluster 将上述监督学习框架巧妙地应用于无监督场景，其核心在于如何生成标签 $y_n$ 。它通过以下两个交替的步骤实现：

步骤 A: 特征聚类与伪标签生成

在每个训练周期 (epoch) 的开始，模型会利用当前的 CNN 参数 $\theta$ 对整个数据集的所有图像提取特征。然后，使用 k-means 算法对这些特征进行聚类，并将每个图像所属的簇的索引作为其伪标签。

这个聚类过程的目标是最小化簇内平方和，其数学表达式为： $\min_{C \in \mathbb{R}^{d \times k}} \frac{1}{N} \sum_{n=1}^{N} \min_{y_n \in \{0, 1\}^k} \|f_\theta(x_n) - Cy_n\|_2^2 \quad \text{such that} \quad y_n^\top 1_k = 1$

符号解释:

$C \in \mathbb{R}^{d \times k}$ : 一个 $d \times k$ 的矩阵，其中每一列代表一个簇的质心 (centroid)。
$d$ : 特征向量 $f_\theta(x_n)$ 的维度。
$k$ : 预先设定的簇的数量。
$y_n \in \{0, 1\}^k$ : 一个 one-hot 向量，表示图像 $x_n$ 的簇分配 (cluster assignment)。如果 $x_n$ 属于第 $j$ 个簇，则 $y_n$ 的第 $j$ 个元素为1，其余为0。
$y_n^\top 1_k = 1$ : 约束条件，表示每张图像只能属于一个簇。
$\|f_\theta(x_n) - Cy_n\|_2^2$ : 计算图像 $x_n$ 的特征与其所属簇的质心之间的欧氏距离 (Euclidean distance) 的平方。

通过求解这个优化问题，我们可以得到每个图像 $x_n$ 的最优簇分配，我们将其记为 $y_n^*$ 。这些 $y_n^*$ 就是我们需要的伪标签。

步骤 B: 利用伪标签训练网络

得到伪标签 $y_n^*$ 后，DeepCluster 就把问题转化为了一个标准监督学习任务。它使用这些伪标签来更新网络参数 $\theta$ 和分类器参数 $W$ ，其优化目标与监督学习非常相似： $\min_{\theta, W} \frac{1}{N} \sum_{n=1}^{N} \ell(g_W(f_\theta(x_n)), y_n^*)$

这个过程同样使用小批量随机梯度下降和反向传播进行优化。训练完一个 epoch 后，模型参数 $\theta$ 得到了更新，提取的特征质量也随之提升。然后，算法回到步骤 A，用更新后的模型重新进行聚类，生成新的、质量可能更高的伪标签。如此循环往复。

下图（原文 Figure 1）直观地展示了这个迭代过程：

Fig. 1: Illustration of the proposed method: we iteratively cluster deep features and use the cluster assignments as pseudo-labels to learn the parameters of the convnet. 该图像是本文Fig.1的示意图，展示了DeepCluster方法的整体流程。输入图像经过卷积神经网络提取特征，随后通过聚类算法生成伪标签，伪标签用于监督分类器训练，分类误差反向传播优化网络参数。

4.2.3. 避免平凡解

直接联合优化聚类和特征学习很容易陷入平凡解 (trivial solutions)。论文指出了两种主要的退化情况并给出了简单而有效的解决方案。

空簇问题 (Empty clusters): 在训练过程中，某些簇可能因为没有分配到任何数据点而变为空。如果一个分类模型的目标是区分不同的类别，那么将所有数据都判给同一个类别（簇）将是一个最优的决策边界，但这显然不是我们想要的。
- 解决方案: 在 k-means 的每次迭代中，如果一个簇变为空，算法会随机选择一个非空的簇，将其质心（加上一个微小的随机扰动）赋给这个空簇作为新的质心。然后，原非空簇中的数据点会被重新分配到这两个簇中。这个简单的技巧可以有效防止簇的消失。
平凡参数化问题 (Trivial parametrization): 如果绝大多数图像都被分配到少数几个簇中，会导致严重的簇不平衡问题。在这种情况下，网络训练将主要由这几个大簇主导，模型只会学习区分这几个大簇，而忽略其他小簇。在极端情况下，如果所有图像都属于一个簇，模型会学到一个无论输入是什么都输出相同结果的平凡解。
- 解决方案: 在训练网络时（步骤B），不从数据集中随机抽样，而是根据伪标签进行均衡抽样。具体来说，先随机选择一个簇，再从该簇中随机选择一个样本。这等价于在计算损失时，为每个样本的损失赋予一个权重，该权重与该样本所在簇的大小的倒数成正比。这样可以确保每个簇（无论大小）对模型的更新都有相等的贡献，避免了大簇主导训练的问题。

4.2.4. 实现细节

网络架构: 使用了标准的 AlexNet 和 VGG-16，并加入了批量归一化 (Batch Normalization)。
输入预处理: 论文发现直接在 RGB 图像上训练效果不佳，因为模型会倾向于学习颜色信息。因此，他们对输入图像应用了一个固定的Sobel 滤波器，这是一种经典的边缘检测算子，可以去除颜色信息并增强局部对比度。
聚类过程: 在聚类前，对提取的特征进行了 PCA 降维（降到256维）、白化 (whitening) 和 $L_2$ 归一化 (normalization)。这些预处理步骤可以使特征分布更适合 k-means 算法。
训练周期: 在 ImageNet 上的实验中，每个 epoch 都会重新进行一次聚类。整个模型训练了500个 epochs。

5. 实验设置

5.1. 数据集

训练数据集:
- ImageNet: 一个大规模、面向对象分类的数据集，包含约130万张训练图片，分为1000个类别。它是无监督学习研究中事实上的标准训练集，因为它足够大且多样。
- YFCC100M: 一个包含1亿张 Flickr 图片的巨型数据集。论文从中随机抽取了100万张图片，用于测试方法在未经整理的 (uncured)、类别分布极不均衡的真实世界数据上的表现。
评估/迁移任务数据集:
- PASCAL VOC 2007 & 2012: 计算机视觉领域的经典基准数据集，用于评估图像分类 (Image Classification)、目标检测 (Object Detection) 和语义分割 (Semantic Segmentation) 的迁移学习性能。
- Places Dataset: 一个大规模场景识别数据集，用于评估模型在与 ImageNet（面向对象）不同领域的泛化能力。
- Oxford5k & Paris6k: 两个常用于实例级图像检索 (instance-level image retrieval) 的数据集，用于评估模型区分特定物体实例（如特定建筑物）的能力。

5.2. 评估指标

论文中使用了多个指标来从不同角度评估模型性能。

准确率 (Accuracy, Acc@1):
1. 概念定义: 在分类任务中，模型对每个样本给出一个最可能的类别预测。准确率衡量的是模型预测正确的样本占总样本数的比例。Acc@1 特指 top-1 准确率。
2. 数学公式: $\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of samples}}$
3. 符号解释: “Correct predictions” 指模型预测的类别与真实标签一致的样本。
平均精度均值 (mean Average Precision, mAP):
1. 概念定义: mAP 是目标检测和图像检索任务中最核心的评估指标。它衡量的是模型在所有类别（或所有查询）上检测/检索结果的平均质量，综合考虑了精确率 (Precision) 和召回率 (Recall)。AP（平均精度）衡量单个类别的性能，mAP 则是对所有类别的 AP 取平均。
2. 数学公式: 首先定义精确率 P(k) 和召回率 R(k) 是在检索到前 $k$ 个结果时的值。一个类别的平均精度 (AP) 计算如下： $\text{AP} = \sum_{k=1}^{n} P(k) \Delta R(k)$ 其中 $n$ 是总的检索结果数量， $\Delta R(k) = R(k) - R(k-1)$ 是召回率的变化。mAP 则是对所有 $N_{class}$ 个类别的 AP 求平均： $\text{mAP} = \frac{1}{N_{class}} \sum_{i=1}^{N_{class}} \text{AP}_i$
3. 符号解释: P(k) 是前 $k$ 个结果中的精确率， $\Delta R(k)$ 是在第 $k$ 个结果处召回率的变化量。
交并比 (Intersection over Union, IoU):
1. 概念定义: IoU 是语义分割任务中的标准评估指标。它通过计算模型预测的分割区域与真实分割区域之间的重叠程度来衡量分割质量。
2. 数学公式: $\text{IoU} = \frac{\text{Area of Overlap}}{\text{Area of Union}} = \frac{|A \cap B|}{|A \cup B|}$
3. 符号解释: $A$ 代表预测的分割区域（像素集合）， $B$ 代表真实的分割区域（像素集合）。 $|A \cap B|$ 是它们的交集面积， $|A \cup B|$ 是它们的并集面积。在评估时，通常计算所有类别的 IoU 然后取平均，即 mIoU (mean IoU)。
归一化互信息 (Normalized Mutual Information, NMI):
1. 概念定义: NMI 是信息论中的一个度量，用于衡量两个聚类结果之间的一致性程度。其值域在0到1之间，1表示两个聚类结果完全一致，0表示完全独立。在本文中，它被用来衡量模型生成的簇与真实 ImageNet 类别之间的相关性。
2. 数学公式: $\text{NMI}(A; B) = \frac{\text{I}(A; B)}{\sqrt{\text{H}(A)\text{H}(B)}}$
3. 符号解释: $A$ 和 $B$ 是两个不同的簇分配。 $\text{I}(A; B)$ 是它们的互信息 (mutual information)， $\text{H}(A)$ 和 $\text{H}(B)$ 分别是它们的熵 (entropy)。

5.3. 对比基线

论文将 DeepCluster 与一系列当时最先进的无监督/自监督方法进行了广泛比较，主要包括：

Random: 使用随机初始化的 CNN 作为特征提取器。这是一个重要的下限基准。
Supervised: 使用 ImageNet 完整标签训练的 CNN。这是一个性能的上限参考。
Context Prediction (Doersch et al. [25]): 通过预测图块相对位置学习。
Jigsaw Puzzles (Noroozi and Favaro [26]): 通过解决拼图游戏学习。
Colorization (Zhang et al. [28]): 通过给灰度图上色学习。
Split-Brain Autoencoders (Zhang et al. [43]): 通过跨通道预测学习。
Adversarial Feature Learning (Donahue et al. [20]): 基于 GAN 的方法。
Noise As Labels (Bojanowski and Joulin [19]): 通过预测噪声学习。

6. 实验结果与分析

6.1. 核心结果分析

论文通过一系列详尽的实验，全面验证了 DeepCluster 的有效性。

6.1.1. 初步研究

下图（原文 Figure 2）展示了模型训练过程中的一些关键动态：

Fig. 2: Preliminary studies. (a): evolution of the clustering quality along training epochs; (b): evolution of cluster reassignments at each clustering step; (c): validation mAP classification perfor… 该图像是包含三个子图的图表，展示了DeepCluster算法的初步实验结果。(a)显示了训练过程中聚类质量的演变；(b)展示了每次聚类步骤中簇重新分配的趋势；(c)比较了不同聚类数量k对验证mAP分类性能的影响。

(a) 聚类质量演变: 随着训练的进行，模型生成的簇与 ImageNet 真实标签之间的 NMI 持续上升。这表明模型学习到的特征逐渐捕获了与物体类别相关的语义信息。
(b) 簇分配稳定性: 相邻两个 epoch 之间簇分配的 NMI 也在增加，说明聚类结果随着时间推移变得越来越稳定。但它并未达到1，意味着每轮仍有部分样本被重新分配到新的簇，这种动态调整可能有助于避免模型陷入局部最优。
(c) 簇数量 k 的影响: 实验发现，将簇的数量 $k$ 设置为 10,000 时，在下游任务（PASCAL VOC 分类）上的性能最好。这个数量远大于 ImageNet 的真实类别数（1,000）。这揭示了一个非常重要的现象：过分割 (over-segmentation)是有益的。让模型学习比真实类别更细粒度的伪标签，可以迫使它捕捉更细微的视觉差异，从而学到更具泛化能力的特征。

6.1.2. 线性分类器在不同卷积层的性能

该实验旨在探究无监督模型在 CNN 的不同层级学到了什么。方法是：冻结无监督预训练好的 CNN 的卷积层，只在其上训练一个线性分类器，然后在 ImageNet 和 Places 数据集上进行评估。

以下是原文 Table 1 的结果：

Method	ImageNet					Places
Method	conv1	conv2	conv3	conv4	conv5	conv1	conv2	conv3	conv4	conv5
Places labels	−	−	−	−	−	22.1	35.1	40.2	43.3	44.6
ImageNet labels	19.3	36.3	44.2	48.3	50.5	22.7	34.8	38.4	39.4	38.7
Random	11.6	17.1	16.9	16.3	14.1	15.7	20.3	19.8	19.1	17.5
Pathak et al. [38]	14.1	20.7	21.0	19.8	15.5	18.2	23.2	23.4	21.9	18.4
Doersch et al. [25]	16.2	23.3	30.2	31.7	29.6	19.7	26.7	31.9	32.7	30.9
Zhang et al. [28]	12.5	24.5	30.4	31.5	30.3	16.0	25.7	29.6	30.3	29.7
Donahue et al. [20]	17.7	24.5	31.0	29.9	28.0	21.4	26.2	27.1	26.1	24.0
Noroozi and Favaro [26]	18.2	28.8	34.0	33.9	27.1	23.0	32.1	35.5	34.8	31.3
Noroozi et al. [45]	18.0	30.6	34.3	32.5	25.7	23.3	33.9	36.3	34.7	29.6
Zhang et al. [43]	17.7	29.3	35.4	35.2	32.8	21.3	30.7	34.0	34.1	32.5
DeepCluster	12.9	29.2	38.2	39.8	36.1	18.6	30.8	37.0	37.5	33.1

分析:

在 ImageNet 上: 从 conv3 到 conv5 层，DeepCluster 的性能显著优于所有其他无监督方法（高出3-5%）。这表明 DeepCluster 学习到的中高层语义特征质量非常高。conv1 性能较差可能是因为 Sobel 预处理丢弃了颜色信息。
在 Places 上: 有趣的是，当迁移到场景识别任务时，DeepCluster 在 conv3-4 层上的特征质量甚至可以媲美使用 ImageNet 标签训练的监督模型。这说明，当目标任务与预训练任务（对象识别）差异较大时，人工标签带来的优势会减弱，而好的无监督方法学到的通用特征同样强大。

6.1.3. PASCAL VOC 迁移学习性能

这是评估无监督方法学到的特征泛化能力的核心实验。模型在 ImageNet 上无监督预训练后，在 PASCAL VOC 数据集上进行微调 (fine-tuning) 来完成分类、检测和分割任务。

以下是原文 Table 2 的结果：

Method	Classification		Detection		Segmentation
Method	FC6-8	ALL	FC6-8	ALL	FC6-8	ALL
ImageNet labels	78.9	79.9		56.8		48.0
Random-rgb	33.2	57.0	22.2	44.5	15.2	30.1
Random-sobel	29.0	61.9	18.9	47.9	13.0	32.0
Pathak et al. [38]	34.6	56.5		44.5		29.7
Donahue et al. [20]*	52.3	60.1		46.9		35.2
Pathak et al. [27]	−	61.0		52.2		−
Owens et al. [44]*	52.3	61.3		−
Wang and Gupta [29]*	55.6	63.1	32.8†	47.2	26.0†	35.4†
Doersch et al. [25]*	55.1	65.3		51.1
Bojanowski and Joulin [19]*	56.7	65.3	33.7†	49.4	26.7†	37.1†
Zhang et al. [28]*	61.5	65.9	43.4†	46.9	35.8†	35.6
Zhang et al. [43]*	63.0	67.1		46.7		36.0
Noroozi and Favaro [26]	−	67.6		53.2		37.6
Noroozi et al. [45]	—	67.7		51.4	—	36.6
DeepCluster	70.4	73.7	51.4	55.4	43.2	45.1

分析:

全面领先: 在所有三项任务（分类、检测、分割）和两种微调设置（只微调全连接层 FC6-8，或微调所有层 ALL）中，DeepCluster 的性能都大幅超越了所有先前的无监督方法。
巨大提升: 尤其在语义分割任务上，性能提升最为显著（在 ALL 设置下，mIoU 达到 45.1%，比之前最好的 37.6% 高出 7.5 个百分点）。这表明 DeepCluster 学到的像素级特征表示非常优秀。
与有监督的差距: DeepCluster 的性能已经非常接近有监督的上限（例如，在检测任务上，55.4% vs 56.8%），展现了无监督预训练的巨大潜力。

6.2. 消融实验/参数分析

论文还进行了一系列讨论和分析，以验证方法的鲁棒性和可扩展性。

6.2.1. 训练集的影响：ImageNet vs. YFCC100M

为了验证 DeepCluster 是否因为 ImageNet 的“干净”和“均衡”而占了便宜，作者在从 Flickr 随机抽取的、更“野生”的 YFCC100M 数据集上进行了训练。

以下是原文 Table 3 的结果：

Method	Training set	Classification		Detection		Segmentation
Method	Training set	FC6-8	ALL	FC6-8	ALL	FC6-8	ALL
Best competitor	ImageNet	63.0	67.7	43.4†	53.2	35.8†	37.7
DeepCluster	ImageNet	72.0	73.7	51.4	55.4	43.2	45.1
DeepCluster	YFCC100M	67.3	69.3	45.6	53.0	39.2	42.2

分析:

性能下降但依旧强大: 使用 YFCC100M 训练时，性能确实有所下降，这符合预期，因为该数据集并非以对象为中心。
仍然优于SOTA: 关键在于，即使在 YFCC100M 上训练，DeepCluster 的性能在大多数任务上仍然优于其他在 ImageNet 上训练的无监督方法。这强有力地证明了 DeepCluster 方法的鲁棒性，它不依赖于精心整理的数据分布，也能学到高质量的通用特征。

6.2.2. 网络架构的影响：AlexNet vs. VGG-16

该实验验证方法是否能从更强大的网络架构中受益。

以下是原文 Table 4 的结果：

Method	AlexNet	VGG-16
ImageNet labels	56.8	67.3
Random	47.8	39.7
Doersch et al. [25]	51.1	61.5
Wang and Gupta [29]	47.2	60.2
Wang et al. [46]	−	63.2
DeepCluster	55.4	65.9

分析:

架构红利: 无论是监督方法还是无监督方法，从 AlexNet 换到 VGG-16 后性能都有了显著提升。
差距缩小: DeepCluster 在 VGG-16 上的性能（65.9%）已经非常接近监督学习的上限（67.3%），差距仅为 1.4%。这说明 DeepCluster 能够有效地利用更深、更强大的网络架构来学习更好的特征。

6.2.3. 实例级检索任务评估

为了评估模型区分细粒度实例的能力，论文在图像检索任务上进行了测试。

以下是原文 Table 5 的结果：

Method	Oxford5K	Paris6K
ImageNet labels	72.4	81.5
Random	6.9	22.0
Doersch et al. [25]	35.4	53.1
Wang et al. [46]	42.3	58.0
DeepCluster	61.0	72.0

分析:

巨大优势: 在这项任务上，DeepCluster 的性能（61.0% / 72.0%）远超其他无监督方法（例如，比 Wang et al. 的 42.3% / 58.0% 高出近 19 和 14 个点）。
预训练的重要性: 随机网络在该任务上表现极差（6.9%），说明实例检索任务高度依赖于高质量的预训练特征。
新的评估维度: 这个实验成功地开辟了一个新的评估维度，证明了 DeepCluster 不仅善于学习类别级信息，也同样擅长学习区分具体实例的细粒度特征。

7. 总结与思考

7.1. 结论总结

这篇论文提出了一种简单、可扩展且高效的无监督视觉特征学习方法——DeepCluster。通过交替进行 k-means 特征聚类和利用簇分配作为伪标签来训练神经网络，DeepCluster 成功地解决了将聚类思想应用于大规模端到端深度学习的难题。实验结果表明，该方法在 ImageNet 和 YFCC100M 等数据集上学习到的特征，在各类迁移学习任务（分类、检测、分割、检索）上均取得了当时最先进的性能，并展现出对不同数据分布和网络架构的强大鲁棒性。

7.2. 局限性与未来工作

尽管论文本身未明确列出局限性，但我们可以从其方法中思考一些潜在问题和未来方向：

计算成本: 尽管作者称聚类只占 1/3 的时间，但在每个 epoch 开始时对整个百万级数据集运行 k-means 仍然是一个计算密集型且耗时的过程，特别是当数据集规模扩展到数十亿时。未来的工作可以探索更高效的在线聚类 (online clustering) 算法，或者减少聚类的频率。
超参数 k 的选择: 簇的数量 $k$ 是一个关键的超参数，需要手动调优。如何自动地、动态地确定最优的 $k$ 值是一个有待研究的问题。
对初始化的敏感性: k-means 算法本身对初始质心的选择较为敏感。虽然大规模数据可能缓解此问题，但这仍然是一个潜在的不稳定因素。
聚类算法的选择: 论文主要使用了 k-means，虽然也简单尝试了 PIC，但对其他更先进或适用于特定数据结构的聚类算法的探索还不够充分。

7.3. 个人启发与批判

大道至简 (Simplicity is the Ultimate Sophistication): 在自监督学习领域充斥着各种复杂精巧的代理任务时，DeepCluster 返璞归真，用一个非常经典、简单的聚类思想取得了突破。这提醒我们，优雅而简单的解决方案往往具有更强的生命力和泛化能力。
解耦与迭代的力量: 将一个困难的联合优化问题（同时学习特征和簇）解耦为两个交替进行的、更容易解决的子问题（固定特征做聚类，固定簇做分类），是一种非常强大和实用的工程思想。这种“期望-最大化”(EM) 式的迭代思路在机器学习中应用广泛。
“过分割”的价值: “最优簇数远大于真实类别数”这一发现极具启发性。它表明，在无监督学习的初期阶段，强迫模型去学习更细粒度的、甚至超出人类语义范畴的“微小类别”，可能是一种更有效的学习策略。这为后续的对比学习等方法中大量使用负样本提供了某种理论支持。
评估的全面性至关重要: 本文不仅在传统任务上刷榜，还主动开拓新的评估维度（如实例检索）、测试不同的数据分布和网络架构。这种严谨和全面的实验设计为无监督学习领域树立了一个良好的榜样，推动了整个领域评估标准的进步。
批判性视角: 尽管方法简单有效，但其“离线”聚类的本质使其在处理流式数据或需要快速更新模型的场景下存在局限。此外，该方法依然依赖于一些启发式技巧（如处理空簇、均衡采样）来避免退化，其理论上的收敛性和稳定性保障尚不明确。这些都为后续的研究留下了空间。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。