Leveraging BERT and TFIDF Features for Short Text Clustering via Alignment-Promoting Co-Training
TL;DR 精炼摘要
本文提出了一种协同训练聚类框架(COTC),结合BERT和TFIDF特征的优势,以增强短文本聚类效果。通过两个模块的相互学习,实现了对深度表示和聚类结果的有效对齐。实验表明,该方法在八个基准数据集上的性能显著优于现有最先进的算法。
摘要
BERT and TFIDF features excel in capturing rich semantics and important words, respectively. Since most existing clustering methods are solely based on the BERT model, they often fall short in utilizing keyword information, which, however, is very useful in clustering short texts. In this paper, we propose a CO-Training Clustering (COTC) framework to make use of the collective strengths of BERT and TFIDF features. Specifically, we develop two modules responsible for the clustering of BERT and TFIDF features, respectively. We use the deep representations and cluster assignments from the TFIDF module outputs to guide the learning of the BERT module, seeking to align them at both the representation and cluster levels. Reversely, we also use the BERT module outputs to train the TFIDF module, thus leading to the mutual promotion. We then show that the alternating co-training framework can be placed under a unified joint training objective, which allows the two modules to be connected tightly and the training signals to be propagated efficiently. Experiments on eight benchmark datasets show that our method outperforms current SOTA methods significantly.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
利用 BERT 和 TFIDF 特征进行短文本聚类的对齐促进型协同训练 (Leveraging BERT and TFIDF Features for Short Text Clustering via Alignment-Promoting Co-Training)
1.2. 作者
论文的作者包括:
-
Zetong Li (李泽彤)
-
Qinliang Su (苏秦亮) * (通讯作者)
-
Shijing Si (司世景)
-
Jianxing Yu (于建兴)
他们主要隶属于以下机构:
-
中山大学计算机科学与工程学院 (School of Computer Science and Engineering, Sun Yat-sen University, Guangzhou, China)
-
上海国际问题研究学院经济与金融学院 (School of Economics and Finance, Shanghai International Studies University, Shanghai, China)
-
中山大学人工智能学院 (School of Artificial Intelligence, Sun Yat-sen University, Guangdong, China)
1.3. 发表期刊/会议
该论文发表于 EMNLP 2024 主会 (EMNLP-main)。 EMNLP (Conference on Empirical Methods in Natural Language Processing) 是自然语言处理 (NLP) 领域的一个顶级国际会议,以其高质量的实证研究而闻名。在该会议上发表的论文通常代表了该领域的最新进展和重要贡献。
1.4. 发表年份
2024年
1.5. 摘要
BERT 和 TFIDF 特征分别擅长捕获丰富的语义信息和重要的关键词信息。鉴于大多数现有聚类方法仅基于 BERT 模型,它们往往未能充分利用对短文本聚类非常有用的关键词信息。本文提出了一种 协同训练聚类 (CO-Training Clustering, COTC) 框架,以利用 BERT 和 TFIDF 特征的共同优势。具体来说,我们开发了两个模块,分别负责 BERT 和 TFIDF 特征的聚类。我们使用来自 TFIDF 模块输出的深度表示和聚类分配来指导 BERT 模块的学习,旨在使它们在表示和聚类两个层面实现对齐。反之,我们也使用 BERT 模块的输出训练 TFIDF 模块,从而实现相互促进。我们进一步证明,这种交替协同训练框架可以置于一个统一的联合训练目标之下,这使得两个模块能够紧密连接,并有效传播训练信号。在八个基准数据集上的实验表明,我们的方法显著优于当前最先进 (state-of-the-art, SOTA) 的方法。
1.6. 原文链接
- 官方链接: https://aclanthology.org/2024.emnlp-main.828/
- PDF 链接: https://aclanthology.org/2024.emnlp-main.828.pdf
- 发布状态: 已正式发表于 EMNLP 2024。
2. 整体概括
2.1. 研究背景与动机
短文本聚类 (Short Text Clustering) 旨在不依赖外部标签信息的情况下,将语义相似的短文本段落分组到同一簇中。这项任务在主题发现、新闻推荐、垃圾邮件检测等现实应用中具有广泛用途。然而,短文本固有的稀疏性使得其聚类成为一个具有挑战性的任务。
现有研究的挑战与空白 (Gap):
- 传统 TFIDF 的局限性: 传统上,TFIDF (Term Frequency-Inverse Document Frequency) 特征被广泛用于文本聚类。TFIDF 通过词频加权来捕捉关键词信息,但它缺乏对文本深层语义信息的捕捉能力,导致这类方法在聚类效果上通常不具竞争力。
- BERT-based 方法的不足: 受 BERT (Bidirectional Encoder Representations from Transformers) 模型巨大成功的启发,近年来的方法开始在 BERT 特征上应用聚类头 (clustering head)。BERT 特征在捕获深层语义方面表现出色,显著提升了聚类性能。然而,BERT 模型主要在通用文本上进行训练,对某些专业领域中不常出现的关键词不敏感(例如,图1所示的
QT,XYZ,QMAKESPEC等专业词汇)。这意味着仅依赖 BERT 特征进行聚类,可能会忽视对于特定主题或簇判别至关重要的关键词信息。 - 融合方法的探索不足: 尽管 BERT 和 TFIDF 特征各具优势(深层语义与关键词信号),如何有效结合两者的优势以实现互补,仍是一个有待充分探索的问题。简单的特征融合(如拼接或相加)已被观察到无法带来显著的性能提升,因为这两种特征的内在性质差异巨大。
论文的切入点或创新思路: 鉴于 BERT 和 TFIDF 特征在捕获信息类型上的互补性,本文旨在开发一种机制,能够协同利用两者的优势。其核心思路是,不简单地融合特征,而是通过一个协同训练框架,让两个独立的模块(分别处理 BERT 和 TFIDF 特征)能够相互学习和促进,在表示层面和聚类层面进行对齐。
2.2. 核心贡献/主要发现
本文的主要贡献体现在以下几个方面:
- 提出 COTC 框架: 提出了一个名为 CO-Training Clustering (COTC) 的创新框架,有效地结合了 BERT 和 TFIDF 特征的优势,解决了短文本聚类中深层语义和关键词信息利用不足的问题。
- 双模块协同设计: 设计了两个独立的模块,一个专门处理 BERT 特征,另一个处理 TFIDF 特征。这两个模块通过相互指导和对齐,实现性能的共同提升。
- BERT 模块: 利用
对比学习 (contrastive learning)和伪标签 (pseudo-labelling)技术,并通过 TFIDF 模块的输出(深度表示和聚类分配)来指导其学习。 - TFIDF 模块: 引入
生成模型 (generative model)VAE (Variational Autoencoder) 来建模 TFIDF 特征,并通过 BERT 模块的输出进行对齐。
- BERT 模块: 利用
- 统一的联合训练目标: 证明了交替协同训练框架可以被整合到一个统一的联合训练目标中,这使得两个模块之间的连接更加紧密,训练信号的传播更加高效。
- SOTA 性能: 在八个基准数据集上进行了广泛的实验,结果表明 COTC 方法在聚类性能上显著优于当前所有最先进的方法。
- 对 TFIDF 价值的重新发现: 论文重新验证了看似“过时”的 TFIDF 特征在短文本聚类中的价值,尤其是在与 BERT 特征协同工作时。
2.3. 图像分析
Figure 1: T-SNE of BERT features of 5000 random samples from a domain-specific dataset StackOverflow with backbone distilbert-base-nli-stsb-mean-tokens. The three green-star texts are the top-3 nearest neighbors of the black-star one in TFIDF features, and they all come from the same topic. But we can see that their BERT features are far away from each other.

分析: 图1通过 t-SNE (t-Distributed Stochastic Neighbor Embedding) 可视化了从特定领域数据集 StackOverflow 中随机抽取的5000个样本的 BERT 特征分布。t-SNE 是一种常用的降维技术,可以将高维数据映射到二维或三维空间中进行可视化,同时尽可能保留数据点之间的局部结构。
图中:
- 黑星 (black-star) 文本: 代表一个选定的锚点文本。
- 绿星 (green-star) 文本: 代表在 TFIDF 特征空间中,与黑星文本最接近的三个邻居。根据论文描述,这三个绿星文本与黑星文本都属于同一个主题或类别。
- BERT 特征分布: 图中展示的是这些文本在 BERT 特征空间中的分布。
核心发现: 观察图中绿星文本相对于黑星文本的位置,可以发现它们在 BERT 特征空间中彼此之间以及与黑星文本的距离都相当遥远。这与它们在 TFIDF 特征空间中的接近程度形成了鲜明对比。
图示揭示的问题: 这张图直观地展示了 BERT 特征在处理特定领域关键词信息时的局限性。尽管 TFIDF 特征能够识别出属于同一主题的关键词,从而将这些文本视为邻居,但由于 BERT 模型主要在通用文本上训练,可能无法充分理解这些专业关键词的语义关联,导致在 BERT 特征空间中这些语义相关的文本未能很好地聚在一起。这正是论文提出结合 BERT 和 TFIDF 特征的根本动机:BERT 擅长捕获深层语义,但可能对关键词不敏感;TFIDF 擅长捕捉关键词信息,但缺乏深层语义。两者的互补性是解决短文本聚类挑战的关键。
3. 预备知识与相关工作
3.1. 基础概念
为了更好地理解这篇论文,我们需要了解以下核心概念:
3.1.1. 短文本聚类 (Short Text Clustering)
概念定义: 短文本聚类 是一种无监督学习任务,目标是将短文本段落(如推文、搜索片段、新闻标题等)根据其语义相似性进行分组,而无需任何预先标注的标签信息。由于短文本通常词汇量少、上下文信息有限,其聚类比长文本更具挑战性。
3.1.2. TFIDF 特征 (TFIDF Features)
概念定义: TFIDF (Term Frequency-Inverse Document Frequency,词频-逆文档频率) 是一种统计方法,用于评估一个词语对于一个文档集或一个语料库中的一份文档的重要程度。一个词语的 TFIDF 值越高,意味着它在当前文档中出现的频率较高,同时在整个文档集中出现的频率较低,从而被认为对区分该文档具有更强的代表性或“关键词”作用。
应用: 在文本聚类中,TFIDF 特征常被用来构建文本的向量表示,这些向量能够捕捉文档的关键信息词。
3.1.3. BERT 模型 (BERT Model)
概念定义: BERT (Bidirectional Encoder Representations from Transformers) 是 Google 在 2018 年推出的一种预训练语言模型,基于 Transformer 架构。它通过在大规模无标注文本语料上进行双向训练(例如,Masked Language Model 和 Next Sentence Prediction)来学习语言的深层语义表示。BERT 能够生成上下文相关的词嵌入 (contextualized word embeddings),从而捕捉词语在不同语境下的含义,并在各种下游 NLP 任务中取得了显著的成功。
应用: 在文本聚类中,BERT 模型生成的文本嵌入(通常是 [CLS] token 的最终隐藏状态或所有 token 隐藏状态的平均池化)被用作文本的深层语义特征。
3.1.4. K-Means 聚类 (K-Means Clustering)
概念定义: K-Means 是一种经典的、基于划分的聚类算法。其目标是将 个数据点分成 个簇,使得每个数据点都属于离其最近的簇中心,并使得簇内数据点到其簇中心的距离之和最小。
过程:
- 随机初始化 个簇中心。
- 重复迭代: a. 分配 (Assignment) 步骤: 将每个数据点分配到最近的簇中心所在的簇。 b. 更新 (Update) 步骤: 重新计算每个簇的中心(通常是簇内所有数据点的均值)。
- 直到簇中心不再发生显著变化或达到最大迭代次数。
3.1.5. 深度嵌入聚类 (Deep Embedded Clustering, DEC)
概念定义: DEC 是一种利用深度学习进行无监督聚类的方法。它通过一个深度神经网络(通常是 自编码器 (Autoencoder))学习数据点在低维空间中的嵌入表示,并同时优化聚类任务。DEC 旨在将数据点映射到嵌入空间,使得相似的数据点在嵌入空间中彼此靠近,从而更容易形成清晰的簇结构。
过程: DEC 通常包括两个阶段:
- 预训练 (Pre-training): 使用自编码器对数据进行预训练,学习一个初始的低维特征表示。
- 微调 (Fine-tuning) / 聚类 (Clustering): 在预训练好的编码器基础上,引入一个聚类层,并定义一个聚类损失函数。该损失函数同时优化编码器以学习更好的聚类友好表示,并优化聚类中心的更新。
3.1.6. 对比学习 (Contrastive Learning)
概念定义: 对比学习 是一种自监督学习范式,其核心思想是学习一个编码器,使得在潜在空间中,相似的样本(正例 (positive pairs))彼此靠近,而不相似的样本(负例 (negative pairs))彼此远离。通常,通过对原始样本进行不同方式的数据增强来生成 正例,而其他不相关的样本则被视为 负例。
应用: 在聚类任务中,对比学习 可以帮助模型学习到语义上更有意义的、对聚类友好的表示。
3.1.7. 伪标签 (Pseudo-labelling)
概念定义: 伪标签 是一种半监督学习技术,通常用于利用大量无标签数据。其基本思想是:首先使用一个在少量标注数据上训练过的模型(或在无监督任务中,通过某些启发式方法)对无标签数据进行预测,得到置信度较高的预测结果作为 伪标签。然后,将这些 伪标签 视为真实的标签,用于进一步训练或微调模型。
应用: 在无监督聚类中,当模型开始学习到一些簇结构时,可以利用当前的聚类结果生成 伪标签,然后将这些 伪标签 用于监督训练,以强化和细化聚类模型。
3.1.8. 变分自编码器 (Variational Autoencoder, VAE)
概念定义: VAE 是一种生成模型,它结合了 自编码器 (Autoencoder) 和 变分推断 (Variational Inference) 的思想。与传统自编码器只学习一个确定性的编码不同,VAE 学习数据潜在表示的概率分布(通常是高斯分布的均值和方差)。它通过优化 证据下界 (Evidence Lower Bound, ELBO) 来训练,目标是同时重建输入数据并使其潜在表示服从一个预设的先验分布(如标准正态分布)。
应用: 在本文中,VAE 用于建模 TFIDF 特征,以从 TFIDF 特征中学习低维的、具有聚类结构的表示,同时保留关键词信息。
3.1.9. 最优传输 (Optimal Transport, OT)
概念定义: 最优传输 是一个数学框架,旨在寻找将一个概率分布“传输”到另一个概率分布的最经济方式。在离散情况下,这通常涉及找到一个 传输矩阵 (transport matrix),使得从源分布到目标分布的“成本”最小。
应用: 在 伪标签 生成中,OT 可以用来将模型预测的概率分布(例如,每个样本属于每个簇的概率)对齐到一个平衡的、或具有某些期望特性的目标分布(例如,确保每个簇中的样本数量大致均衡,防止所有样本被分配到同一个簇的 退化 (collapse) 现象)。
3.1.10. KL 散度 (Kullback-Leibler Divergence, KL-Divergence)
概念定义: KL 散度,也称为相对熵,是衡量两个概率分布 和 之间差异的非对称度量。具体来说,它衡量了当我们使用一个近似分布 来表示真实分布 时所损失的信息量。KL 散度 越大,表示两个分布的差异越大。其公式为:
应用: 在本文中,KL 散度 用于衡量模型预测的概率分布与期望分布(如 伪标签 分布、或不同模块之间需要对齐的概率分布)之间的差异,并作为损失函数的一部分来最小化这种差异。
3.1.11. Gumbel-Softmax Trick
概念定义: Gumbel-Softmax Trick 是一种重参数化技巧,它允许通过离散的类别变量进行反向传播。在标准的 softmax 函数之后进行硬采样 (hard sampling) 是不可导的,无法进行梯度更新。Gumbel-Softmax 通过引入 Gumbel 分布的噪声,并使用一个可微分的 softmax 近似来模拟离散采样,从而使得梯度能够通过离散变量流动。这在处理需要从分类分布中采样的 生成模型 中非常有用。
应用: 在本文的 TFIDF 模块中,Gumbel-Softmax Trick 用于近似在 ELBO 损失中对类别变量 的期望,从而实现高效优化。
3.2. 前人工作
短文本聚类领域的发展轨迹可以追溯到早期的基于词袋模型 (Bag-of-Words, BoW) 和 TFIDF 特征的方法,然后逐渐演进到利用更高级的词嵌入和深度学习模型。
3.2.1. 早期方法
- 基于 BoW/TFIDF + 外部知识: 早期研究如 Banerjee et al. (2007) 和 Hu et al. (2009) 利用
Wikipedia等外部知识来丰富稀疏的文本表示,然后应用K-Means或层次聚类 (hierarchical agglomerative clustering)到BoW特征上。这些方法受限于BoW和TFIDF特征的稀疏性,难以捕获深层语义。
3.2.2. 基于词嵌入 (Word2Vec) 的方法
- 神经网络学习表示: Yang et al. (2017) 和 Guo et al. (2017) 使用神经网络学习更好的文本表示。
- Word2Vec + DEC: Xu et al. (2017) 和 Hadifar et al. (2019) 使用
Word2Vec嵌入 (Mikolov et al., 2013) 来获取密集表示,然后结合DEC损失 (Xie et al., 2016) 进行聚类。 - STC2-LPI (Xu et al., 2017): 结合
Word2Vec和LPI (Locality Preserving Projections)预训练的代码,通过CNN学习深度表示,然后用K-Means聚类。 - Self-Train (Hadifar et al., 2019): 利用
自编码器 (autoencoder)对SIF (Smooth Inverse Frequency)增强的Word2Vec嵌入进行建模,然后使用DEC损失微调编码器。 局限性:Word2Vec嵌入是浅层的,无法捕获深层上下文语义信息。
3.2.3. 基于 BERT 特征的方法
随着 BERT 模型 (Devlin et al., 2019) 的成功,研究者开始将其应用于短文本聚类,显著提升了性能。
- BERT + DEC: Huang et al. (2020) 是首批将
BERT模型与Masked Language Model损失和DEC损失结合进行微调以实现聚类的工作。 - BERT + 对比学习 + DEC (SCCL, Zhang et al., 2021): 结合
对比学习(Chen et al., 2020) 和DEC来学习更好的BERT表示,提升聚类效果。 - BERT + 主题建模 (Yin et al., 2022): 在
SCCL的基础上,进一步引入主题建模 (topic modeling)模块来增强表示的语义信息。 - BERT + 伪标签 (RSTC, Zheng et al., 2023): 指出
DEC可能导致所有样本分配到一个簇的退化 (degenerate)问题,转而采用伪标签(YM. et al., 2020) 技术,通过最优传输 (Optimal Transport, OT)解决伪标签问题,并将其作为分类器训练聚类模型。这是迄今为止表现最好的BERT-based方法之一。
3.3. 技术演进
该领域的技术演进路径清晰:从最初的基于词频统计(如 TFIDF)和浅层语义(如 Word2Vec)的表示,逐渐发展到利用深度预训练语言模型(如 BERT)捕获深层上下文语义。在聚类算法层面,也从传统的 K-Means 演变为深度学习驱动的 DEC,以及结合 对比学习、伪标签 等自监督技术以学习更优的聚类友好表示。
3.4. 差异化分析
本文提出的 COTC 方法与上述相关工作存在显著区别:
- 单一特征 vs. 协同多特征: 绝大多数现有方法(包括最先进的
RSTC)都主要依赖于单一类型的文本特征(TFIDF、Word2Vec或BERT),而未充分利用不同特征类型的互补优势。COTC 明确地将BERT特征和TFIDF特征结合起来。 - 简单融合 vs. 协同训练: 论文明确指出,简单地将
BERT和TFIDF特征进行融合(如拼接或线性组合)效果不佳(实验中作为基线RSTCBERT-TFIDF-Linear/Concat验证)。COTC 的创新之处在于提出了一个协同训练框架,让两个模块通过相互指导和对齐来共同学习,从而更好地利用两种特征的集体优势。 - 显式对齐机制: COTC 在
表示层面 (representation level)和聚类层面 (cluster level)都设计了显式的对齐机制。BERT 模块的学习受到 TFIDF 表示拓扑结构的指导,反之亦然;同时,两个模块输出的聚类概率分布也相互对齐。这种双向、多层次的对齐是其核心创新。 - 统一训练目标: COTC 进一步将交替协同训练整合到一个统一的联合训练目标中,提高了训练效率和信号传播的有效性。
4. 方法论
4.1. 方法原理
本文的核心思想是:BERT 特征和 TFIDF 特征在短文本聚类中具有互补优势,即 BERT 擅长捕捉深层语义,而 TFIDF 擅长识别关键词信息。为了充分利用这两种特征的集体优势,论文提出了 协同训练聚类 (CO-Training Clustering, COTC) 框架。
COTC 的基本原理是建立两个独立的模块:一个 BERT 模块 () 和一个 TFIDF 模块 ()。这两个模块并不是简单地将特征拼接或相加,而是通过以下两种方式实现相互促进的协同学习:
-
表示层对齐 (Representation-level Alignment): 两个模块的深度表示空间中的相似性结构相互指导。例如,TFIDF 模块学习到的表示可以帮助 BERT 模块在对比学习中识别语义上的“邻居”。
-
聚类层对齐 (Cluster-level Alignment): 两个模块输出的聚类概率分布相互对齐。例如,BERT 模块预测的聚类概率分布会影响 TFIDF 模块的训练,反之亦然。
通过这种方式,两个模块能够“弥补”彼此的不足,共同学习到更鲁棒、更准确的聚类友好表示。论文进一步将这种交替协同训练整合到一个统一的联合训练目标中,使得训练信号能够更高效地在两个模块之间传播。
4.2. 核心方法详解
COTC 框架的整体架构如 Figure 2 所示。给定一个短文本数据集 ,我们首先通过 BERT 转换 获得 BERT 特征 \mathbf{b}_i = B(\mathbf{x}_i),并通过 TFIDF 转换 获得 TFIDF 特征 。
Figure 2: The overall architecture of the co-training clustering framework COTC.

分析: 图2展示了 COTC 框架的整体架构。它由两个主要部分组成:BERT 模块(上方)和 TFIDF 模块(下方)。这两个模块都从原始文本输入开始,分别提取 BERT 特征和 TFIDF 特征,并通过各自的神经网络组件进行处理,最终生成深度表示 (, ) 和聚类概率 (, )。
关键的协同训练机制体现在以下几个方面:
- BERT 模块利用 TFIDF 信息:
- TFIDF 模块输出的深度表示 () 被用于构建一个相似图 (),这个图反过来指导 BERT 模块的
对比学习过程。具体来说, 的邻居被用作 BERT 模块的额外正例。 - TFIDF 模块输出的聚类概率 () 被用于指导 BERT 模块的
聚类头学习,通过KL 散度进行对齐。
- TFIDF 模块输出的深度表示 () 被用于构建一个相似图 (),这个图反过来指导 BERT 模块的
- TFIDF 模块利用 BERT 信息:
-
BERT 模块输出的深度表示 () 被用于构建一个相似图 (),这个图反过来指导 TFIDF 模块的
VAE训练过程,特别是作为其生成模型的一个组成部分。 -
BERT 模块输出的聚类概率 () 被用于指导 TFIDF 模块的
VAE训练过程,特别是作为其变分后验的一部分,从而实现聚类层面的对齐。这种双向的信息流和指导机制使得两个模块能够相互促进,共同提升短文本聚类的性能。
-
4.2.1. BERT 模块 () 的实现
BERT 模块旨在从 BERT 特征 中学习语义丰富的表示 和聚类概率 。它的学习过程由 TFIDF 模块的输出所指导。
A. 表示层对齐:基于 TFIDF 相似图的对比学习
BERT 模块通过 对比学习 (Contrastive Learning) 框架学习表示 。为了利用 TFIDF 模块的信息,我们首先构建一个基于 TFIDF 表示的相似图 :
- 是文本集合。
- 是边集,其中 是文本 在 TFIDF 表示空间中(基于 TFIDF 表示 )的
top-L最近邻居集合。 其中 表示余弦相似度。
然后,我们将这个 TFIDF 相似图融入到 对比学习 中:
- 对于每个文本 ,我们生成三个增强版本:
- 和 :通过
上下文增强器 (contextual augmenter)(Kobayashi, 2018; Ma, 2019) 生成。 - :从 中随机选择一个邻居样本作为增强。
- 和 :通过
- 我们将 视为
正例 (positives)。 对比损失定义为: 其中,- 表示第 个增强文本的 BERT 表示。
- :BERT 主干网络 (
BERT backbone),负责将文本转换为 BERT 特征。 - :一个
MLP(多层感知机) 神经网络,将 BERT 特征进一步映射到低维表示空间。
- :BERT 主干网络 (
- 衡量两个向量之间的相似度。
- :余弦相似度。
- :温度参数 (
temperature parameter),用于调整相似度分布的锐度。
- 表示第 个增强文本的 BERT 表示。
- 目标: 最小化 将促使 BERT 表示空间中的相似性结构与 TFIDF 表示空间中的相似性结构对齐,因为 TFIDF 邻居被视为 BERT 的正例。
B. 聚类头与伪标签
为了获得聚类概率,我们在 BERT 特征上应用一个 聚类头 (clustering head)。
- 聚类概率 计算如下:
- :
Softmax函数,将输出转换为概率分布。 - :一个
MLP神经网络,作为聚类头,将 BERT 特征映射到 个簇的概率。
- :
- 伪标签生成: 我们采用
伪标签 (pseudo-labelling)技术来训练模型。通过解决一个最优传输 (Optimal Transport, OT)问题 (YM. et al., 2020; Zheng et al., 2023) 来从预测的概率 中推断出伪标签(一个独热向量)。- OT 细节 (参阅附录 A.1): 假定预测概率矩阵为 。成本矩阵 。OT 问题旨在最小化
<r, C> - \epsilon_1 H(r) + \epsilon_2 U(b),其中\mathbf{r}是传输矩阵,\mathbf{a}是样本的均匀边缘分布,\mathbf{b}是自适应的类边缘分布。该问题通过迭代更新\mathbf{u}, \mathbf{v}, \mathbf{b}来解决。最终,伪标签\mathbf{q}_i取决于传输矩阵`\mathbf{r}$ 中每行最大值的索引。
- OT 细节 (参阅附录 A.1): 假定预测概率矩阵为 。成本矩阵 。OT 问题旨在最小化
- 交叉熵损失 (Cross-Entropy Loss): 使用推断出的
伪标签训练聚类头和主干网络。 这鼓励模型对原始文本及其三个增强版本预测相同的伪标签。 - 一致性损失 (Consistency Loss): 为确保
伪标签的鲁棒性 (Englesson and Azizpour, 2021),我们还鼓励原始文本及其增强版本输出一致的概率分布。 其中 是KL 散度。
C. 聚类层对齐:BERT 与 TFIDF 聚类概率的对齐 为了实现模块间的聚类层对齐,BERT 模块预测的概率分布应与 TFIDF 模块预测的概率分布对齐。
对齐损失 (Alignment Loss)定义为: 其中 是从 TFIDF 模块推断出的聚类概率。
D. BERT 模块总损失 BERT 模块的整体训练目标是最小化以下损失: 其中 ,而 是权重参数。
4.2.2. TFIDF 模块 () 的实现
TFIDF 模块旨在从 TFIDF 特征 中学习 TFIDF 表示 和聚类概率 。与 BERT 模块不同,它使用 变分自编码器 (VAE) 来建模 TFIDF 特征,以保留关键词信息。TFIDF 模块的学习也受到 BERT 模块输出的指导。
A. TFIDF 特征的生成模型 我们构建一个生成模型来描述 TFIDF 特征 和 BERT 相似图 的生成过程。为了实现表示层对齐,我们首先构建一个基于 BERT 表示的相似图 :
- 是边集,其中 是文本 在 BERT 表示空间中(基于 BERT 表示 )的
top-L最近邻居集合。 - 生成模型假设为:
- :簇分配 (
cluster assignment),从 中随机抽取。 - :类别先验分布, 是 维向量。
- :表示
TFIDF 表示遵循以 和 为参数的高斯混合先验分布 (latent Gaussian mixture prior distribution)。这鼓励 具有聚类结构。 - :解码器 (
decoder),负责从 生成 TFIDF 特征 。- TFIDF 解码器 细节 (参阅附录 A.2): 被视为词语集合 ,其中 是词汇表 中的独热表示。 \begin{array} { r l } & { p ( \pmb { t } _ { i } | \pmb { h } _ { i } ^ { t } ) } \\ & { = \prod _ { \pmb { w } _ { j } \in \pmb { t } _ { i } } p ( \pmb { w } _ { j } | \pmb { h } _ { i } ^ { t } ) = \prod _ { \pmb { w } _ { j } \in \pmb { t } _ { i } } \frac { \exp ( \pmb { h } _ { i } ^ { t ^ { T } } \pmb { E } \pmb { w } _ { j } ) } { \sum _ { k = 1 } ^ { | \mathscr { W } | } \exp ( \pmb { h } _ { i } ^ { t ^ { T } } \pmb { E } \pmb { w } _ { k } ) } \end{array} 其中 是词嵌入矩阵,即解码器网络。
- :解码器,负责生成 BERT 相似图,定义为: 其中 衡量 TFIDF 向量之间的相似度。
- :簇分配 (
B. 训练 VAE
该生成模型通过最小化 负证据下界 (negative Evidence Lower Bound, ELBO) 来训练:
其中,
- 表示对
变分后验 (variational posterior)的期望。 - 通过限制 ,得到:
- :由编码器 (
encoder) 输出的均值 和方差 定义。 - 是从联合先验 推导的后验概率。
- :由编码器 (
C. TFIDF 表示和聚类概率 在 VAE 训练完成后,我们可以使用其编码器输出 TFIDF 表示 和聚类概率 :
- 是 中定义的均值。
- 是 的第 个元素。在实践中,期望可以通过从 中采样来近似。
D. 聚类层对齐:TFIDF 与 BERT 聚类概率的对齐
与 BERT 模块类似,TFIDF 模块也通过 对齐损失 来鼓励其预测的概率分布与 BERT 模块的概率分布一致:
E. TFIDF 模块总损失 TFIDF 模块的整体训练目标是最小化以下损失: 其中 是权重参数。
4.2.3. 统一训练目标 (A Unified Training Objective)
最初,整个模型可以通过交替优化 和 进行训练。但论文进一步提出了一个统一的联合训练目标,以实现更紧密的连接和更高效的训练信号传播。
-
交替训练的联合损失形式: 其中 是权重参数。
-
关键不等式推导 (参阅附录 A.2): 论文证明了以下不等式: 其中 。 这个不等式意味着,当我们将 TFIDF 模块中的
变分后验替换为 BERT 模块的聚类概率 时,TFIDF 的 ELBO 损失会变大,但同时它也吸收了对齐损失。 将这个不等式推广到整个数据集,并设置 ,我们可以得到: 其中\mathcal{L}_{ELBO}' \triangleq \frac{1}{N} \sum_{i=1}^N \ell_i^{elbo}(q(h_i^t | \mathbf{t}_i) \mathbf{p}_i^b[c])。 -
新的统一联合训练损失: 通过利用上述不等式,可以得到一个更紧密的联合训练损失:
- 优势:
- 紧密连接与高效信号传播: 在 中,BERT 模块输出的聚类概率 被直接用作 TFIDF 模块的
变分后验来训练。这意味着 TFIDF 模块中的梯度可以直接通过 反向传播到 BERT 模块,从而实现更高效、更紧密的模块间训练信号传播。 - 避免 KL 散度引起的平滑问题: 直接优化
KL 散度形式的对齐项 往往会鼓励分布 将概率分配给所有 个簇,这可能导致预测的概率分布不够“尖锐”或“自信”。而 不显式包含这个对齐项,有助于产生更明确的聚类概率。 - 高效优化:
Gumbel-Softmax trick(Jang et al., 2017) 可用于近似 中对类别变量 的期望。结合高斯重参数化技巧 (Gaussian re-parameterization trick)(用于近似对连续变量 的期望),使得 可以高效优化。
- 紧密连接与高效信号传播: 在 中,BERT 模块输出的聚类概率 被直接用作 TFIDF 模块的
- 优势:
-
最终聚类结果: 模型训练完成后,使用 BERT 模块输出的聚类概率 来获得最终的聚类结果。
4.2.4. 附录 A.1: 最优传输 (Optimal Transport, OT)
为了推断 伪标签 ,论文遵循 (YM. et al., 2020; Zheng et al., 2023) 的方法,通过解决一个 最优传输 (Optimal Transport) 问题来从预测的概率 中获取 伪标签。
-
概率矩阵与成本矩阵:
- 设 是所有样本的预测概率矩阵。
- 将成本矩阵定义为 。
-
优化目标: 需要解决以下优化问题: 其中:
- 是
传输矩阵 (transport matrix),元素 表示将样本 传输到簇 的概率。 - 是全1向量。
- 是样本的
均匀边缘分布 (uniform marginal distribution)。 - 是
自适应类边缘分布 (adaptive class marginal distribution),用于处理类不平衡问题。 H(\mathbf{r}) = - \sum_{i=1}^N \sum_{j=1}^K r_{ij} (\log r_{ij} - 1)是熵正则化项,鼓励传输矩阵平滑。U(\mathbf{b}) = - \sum_{j=1}^K (\log b_j + \log(1-b_j))是惩罚函数,鼓励 均匀分布,避免退化。- 是权重参数。
- 是
-
拉格朗日乘子法: 通过
拉格朗日乘子法 (Lagrange Multiplier Method)求解上述问题,其等价于优化: 其中 是拉格朗日乘子。 -
迭代更新过程: 通过对 求偏导并设为零,可以得到迭代更新公式。
- 固定 ,对 求解: 结合约束 和 ,可以得到 和 的表达式 (公式 (26), (27))。
- 固定 ,对 求解:
可以推导出一个关于 的二次方程,并得到 的解 (公式 (28), (30))。其中 是通过
牛顿法 (Newton's Method)(公式 (31), (32)) 求解 得到的。 - 在实践中,定义 , ,
W = \exp(-C/\epsilon_1)。 初始化 。 迭代更新过程为 (公式 (33), (34), (35)): 其中 。
-
伪标签获取: 经过多次优化迭代后,得到传输矩阵 。 最终的
伪标签通过将每个样本分配给其在 中概率最大的簇获得:
4.2.5. 附录 A.2: 变分自编码器 (Variational Autoencoder)
本节详细阐述了 TFIDF 模块中 VAE 的构建和训练细节,特别是 ELBO 损失的近似计算。
-
TFIDF 特征的生成模型 (与主文 4.2.2. A 节一致) 对应的负 ELBO 损失 (与主文 4.2.2. B 节一致)。
-
对齐损失的推导 论文中 KL 散度形式的对齐损失为 。 其中,,而 。
对齐损失的单样本项为: 这个推导使用了詹森不等式 (Jensen's inequality)。 将这个结果与负 ELBO 中的项结合,并取期望,可以得到论文主文 3.4 节中的核心不等式: -
近似 为了计算统一联合训练损失中的 ,需要近似其包含的五个子项: \begin{array} { r l } & { \ell _ { i } ^ { e l b o } \left( q ( h _ { i } ^ { t } | t _ { i } ) p _ { i } ^ { b } [ c _ { i } ] \right) } \\ & { = - \mathbb { E } _ { q } \Bigg [ \log \frac { p \left( t _ { i } | h _ _ { i } ^ { t } \right) p ( \mathcal { G } _ { i } ^ { b } | \{ h _ { i } ^ { t } \} _ { i = 1 } ^ { N } ) p ( h _ { i } ^ { t } | c _ { i } ) p ( c _ { i } ) } { q ( h _ { i } ^ { t } | t _ { i } ) p _ { i } ^ { b } [ c _ _ { i } ] } \Bigg ] } \\ & { = - \mathbb { E } _ { q } [ \log p ( t _ { i } | h _ { i } ^ { t } ) ] - \mathbb { E } _ { q } [ \log p ( \mathcal { G } _ { i } ^ { b } | \{ h _ { i } ^ { t } \} _ { i = 1 } ^ { N } ) ] } \\ & { + \mathbb { E } _ { q } [ \log q ( h _ { i } ^ { t } | t _ { i } ) ] - \mathbb { E } _ { q } \Bigg [ \mathrm { l o g } \frac { p ( c _ { i } ) } { p _ { i } ^ { b } [ c _ { i } ] } \Bigg ] - \mathbb { E } _ { q } [ \log p ( h _ { i } ^ { t } | c _ { i } ) ] } \end{array}
- 第一项近似:
使用
高斯重参数化技巧 (Gaussian re-parameterization trick),其中 且 。 - 第二项近似:
- \mathbb{E}_{q(\pmb{h}_i^t | \pmb{t}_i)}[\log p(\mathcal{G}_i^b | \{\pmb{h}_i^t\}_{i=1}^N)]也使用采样 进行近似。 - 第三项解析计算: 由于 是高斯分布,该项可以解析计算。
- 第四项和第五项近似:
和
通过
Gumbel-Softmax trick,可以从 采样类别 。具体而言,。然后使用 来近似期望。
- 第一项近似:
使用
4.3. 数据流和网络架构
为了具体说明 BERT 模块和 TFIDF 模块的实现,论文在附录 D 中提供了数据流和网络架构的详细描述。
Table 10: The data flows and network architectures for BERT features. is the number of clusters, 768 is the dimension of BERT features and 128 is the dimension of BERT representations.
| Data Flow | - | Network Architecture |
| Raw Text x | - | |
| BERT Transformationb= B(x) | B(·) | BERT Backbone |
| Projection Head\$h b}= f(b) | f(·) | Linear(768, 768); ReLU(); Linear(768, 128); Normalize(). |
| Clustering Headpb = g(b) | g(·) | Dropout(); Linear(768, 768); ReLU();Dropout(); Linear(768, 768); ReLU(); Linear(768, K); Softmax(). |
分析 (Table 10):
- 原始文本 (Raw Text x): 模型的输入。
- BERT 转换 (BERT Transformation b=B(x)): 使用
BERT Backbone将原始文本转换为 BERT 特征 。默认使用distilbert-base-nli-stsb-mean-tokens,输出维度为 768。 - 投影头 (Projection Head
\mathbf{h}^b = f(\mathbf{b})):- 是一个
MLP。 - 网络结构:
Linear(768, 768)->ReLU()->Linear(768, 128)->Normalize()。 - 作用:将 768 维的 BERT 特征投影到一个 128 维的低维表示空间,并进行归一化,得到 BERT 表示 。这个投影头在
对比学习中用于生成 。
- 是一个
- 聚类头 (Clustering Head
\mathbf{p}^b = g(\mathbf{b})):- 是一个
MLP。 - 网络结构:
Dropout()->Linear(768, 768)->ReLU()->Dropout()->Linear(768, 768)->ReLU()->Linear(768, K)->Softmax()。 - 作用:将 768 维的 BERT 特征映射到 个簇的概率分布,得到聚类概率 。注意这里的输入仍然是原始的 768 维 BERT 特征 ,而不是投影后的 。
- 是一个
Table 11: The data flows and network architectures for TFIDF features. is the number of clusters, 2048 is th dimension of TFIDF features and 128 is the dimension of TFIDF representations.
| Data Flow | Network Architecture | |
| Raw Text x | ||
| TFIDF Transformationt= T(x) | T(·) | TFIDF Vectorizer |
| Encoder Network | Enc-μ() | Linear(2048, 2048); ReLU(); Linear(2048, 128); Tanh(). |
| µ=Enc-µ(t), σ=Enc-σ(t) | Enc-σ(·) | Linear(2048, 2048); ReLU(; Linear(2048, 128); Exp(). |
| Sample Process∼ (e; 0, 1), ht=µ+T σ | ||
| Decoder Networkt = Dec(ht) | Dec(·) | Linear(128, 2048); Softmax(). |
| Class Distribution | π [0, 1]K, ∑i=1 πi = 1 | |
| Gaussian Components | - | {µi, σi}k=1 |
分析 (Table 11):
- 原始文本 (Raw Text x): 模型的输入。
- TFIDF 转换 (TFIDF Transformation t=T(x)): 使用
TFIDF Vectorizer将原始文本转换为 TFIDF 特征 ,维度为 2048。 - 编码器网络 (Encoder Network): 负责将 TFIDF 特征编码为潜在空间的高斯分布参数(均值和方差)。
- 均值编码器 (Enc-µ()):
Linear(2048, 2048)->ReLU()->Linear(2048, 128)->Tanh()。输出潜在表示的均值 。Tanh()确保均值在一定范围内。 - 方差编码器 (Enc-σ()):
Linear(2048, 2048)->ReLU()->Linear(2048, 128)->Exp()。输出潜在表示的方差 。Exp()确保方差为正。
- 均值编码器 (Enc-µ()):
- 采样过程 (Sample Process ):
- ,遵循
高斯重参数化技巧,从潜在空间的高斯分布中采样得到 TFIDF 表示 。
- ,遵循
- 解码器网络 (Decoder Network ):
Dec(·)是一个MLP。- 网络结构:
Linear(128, 2048)->Softmax()。 - 作用:将 128 维的 TFIDF 表示 解码回原始 TFIDF 特征的维度(2048),并使用
Softmax()输出概率分布,用于重建原始 TFIDF 特征。
- 类别分布 (Class Distribution): ,表示 个簇的先验概率。
- 高斯分量 (Gaussian Components): ,表示
高斯混合模型 (Gaussian Mixture Model, GMM)中每个簇的均值和方差。这些参数是可学习的,共同定义了潜在空间中 TFIDF 表示的聚类结构。
5. 实验设置
5.1. 数据集
论文在八个基准数据集上评估了所提出的 COTC 方法,这些数据集覆盖了新闻、搜索片段、问答、生物医学等多个领域,具有不同的规模和特点。
Table 7: The statistics of the datasets. : the number of texts; Len: the average length of texts; : the number of classes; :the size ratio of the largest class versus the smallest one.
| Dataset | N | Len | K L/S |
| AgNews | 8000 | 23 | 4 1 |
| SearchSnippets | 12340 | 18 | 8 7 |
| StackOverflow | 20000 | 9 | 20 1 |
| Biomedical | 20000 | 13 | 20 1 |
| GoogleNews-TS | 11109 | 28 | 152 143 |
| GoogleNews-T | 11109 | 6 | 152 143 |
| GoogleNews-S | 11109 | 22 | 152 143 |
| Tweet | 2472 | 9 | 89 249 |
分析 (Table 7):
-
AgNews: 包含 8000 篇新闻文章标题,分为 4 个主题类别,平均长度 23 个词元。类别分布相对均衡 (L/S=1)。
-
SearchSnippets: 包含 12340 个搜索结果片段,来自 8 个领域,平均长度 18 个词元。类别分布略有不平衡 (L/S=7)。
-
StackOverflow: 包含 20000 个问答标题,来自 20 个标签,平均长度 9 个词元。类别分布均衡 (L/S=1)。
-
Biomedical: 包含 20000 个论文标题,来自 20 个类别,平均长度 13 个词元。类别分布均衡 (L/S=1)。
-
GoogleNews-TS, GoogleNews-T, GoogleNews-S: 均基于 GoogleNews 数据集,包含 11109 篇文章,对应 152 个事件。
- GoogleNews-TS: 包含标题和片段,平均长度 28 个词元。
- GoogleNews-T: 仅包含标题,平均长度 6 个词元。
- GoogleNews-S: 仅包含片段,平均长度 22 个词元。 这些数据集的类别数量(152)很大,且类别分布非常不平衡 (L/S=143),对聚类算法提出了更高的挑战。
-
Tweet: 包含 2472 条推文,来自 89 个查询,平均长度 9 个词元。类别数量也很大(89),且类别分布极度不平衡 (L/S=249)。
这些数据集的选择是合理的,它们涵盖了不同领域、文本长度、类别数量和类别平衡性,能够全面评估聚类方法的性能和鲁棒性。
5.2. 评估指标
论文使用 聚类准确率 (ACC) 和 归一化互信息 (NMI) 这两个标准指标来评估聚类性能。
5.2.1. 聚类准确率 (Clustering Accuracy, ACC)
概念定义: 聚类准确率 (ACC) 衡量聚类结果与真实标签(真实标注数据 (Ground Truth))的一致性。由于聚类是无监督的,预测的簇标签与真实的类别标签之间没有直接对应关系,因此需要一个映射函数将预测标签映射到真实标签,以最大化匹配度。ACC 值越高,表示聚类效果越好。
数学公式:
符号解释:
- : 数据集中文本样本的总数量。
- : 第 个文本样本的真实标签 (
真实标注数据 (Ground Truth)标签)。 - : 第 个文本样本的模型预测聚类标签。
- : 一个映射函数,通过
匈牙利算法 (Hungarian algorithm)计算得到。它的作用是找到一个最佳的置换,将预测的簇标签与真实的类别标签进行一对一的匹配,以使得匹配成功的样本数量最大化。 - : 示性函数,如果括号内的条件为真,则返回 1;否则返回 0。在这里,它计算映射后预测标签与真实标签一致的样本数量。
- : 对所有 个样本求和。
5.2.2. 归一化互信息 (Normalized Mutual Information, NMI)
概念定义: 归一化互信息 (NMI) 是一种衡量两个数据划分(这里是真实标签划分和聚类结果划分)之间共享信息量的指标。NMI 是 互信息 (Mutual Information) 的归一化版本,其值介于 0 和 1 之间。1 表示两个划分完全一致,0 表示它们是相互独立的。NMI 值越高,表示聚类结果与真实标签的匹配度越高。
数学公式:
符号解释:
- : 表示真实标签的集合或随机变量。
- : 表示模型预测聚类标签的集合或随机变量。
- :
互信息 (Mutual Information),它量化了知道一个变量(例如,真实标签 )对另一个变量(例如,预测标签 )的信息增益。互信息的计算公式为: 其中 是 和 同时发生的联合概率,P(y)和 分别是 和 的边缘概率。 H(Y): 真实标签分布的熵 (Entropy),衡量真实标签的不确定性。熵的计算公式为:- : 预测聚类标签分布的
熵,衡量预测标签的不确定性。
5.3. 对比基线
论文将 COTC 方法与以下几种具有代表性的基线模型进行比较:
5.3.1. 传统和浅层方法
- TFIDF-K-Means: 将
K-Means聚类算法直接应用于TFIDF特征。代表了最传统的文本聚类方法。 - BERT-K-Means: 将
K-Means聚类算法应用于BERT特征。一个简单的BERT特征利用方式。 - K-Means_IC (Rakib et al., 2020): 在
TFIDF特征上应用K-Means,并通过迭代分类算法 (iterative classification algorithm)进行增强。
5.3.2. 基于 Word2Vec 的深度聚类方法
- STC2-LPI (Xu et al., 2017): 使用
Word2Vec嵌入,通过LPI (Locality Preserving Projections)预训练代码,再通过CNN学习深度表示,最后用K-Means聚类。 - Self-Train (Hadifar et al., 2019): 使用
自编码器 (Autoencoder)建模SIF (Smooth Inverse Frequency)增强的Word2Vec嵌入,然后使用DEC损失微调编码器。
5.3.3. 基于 BERT 的深度聚类方法
- SCCL (Zhang et al., 2021): 在
BERT特征上执行对比学习 (contrastive learning),并结合DEC损失进行聚类。 - RSTC (Zheng et al., 2023): 在
BERT特征上执行伪标签 (pseudo-labelling),其中伪标签通过解决最优传输 (Optimal Transport, OT)问题获得。这是截至论文发表前,性能最佳的BERT-based聚类方法之一。
5.3.4. TFIDF 模块单独评估
- GMVAE: 作为 TFIDF 模块 的比较基线。它使用
VAE建模TFIDF特征,并结合高斯混合先验 (Gaussian mixture prior)(Jiang et al., 2017)。
5.3.5. 简单融合 BERT 和 TFIDF 的方法
为了进行全面的比较,论文还引入了一些直观融合 BERT 和 TFIDF 特征的简单方法作为额外基线:
- RSTCBERT-TFIDF-Linear: 使用
自编码器将TFIDF特征降维到与BERT特征相同的维度,然后通过线性组合(权重 )BERT特征和降维后的TFIDF特征,并将融合后的特征输入到RSTC中。- 融合方式:
- RSTCBERT-TFIDF-Concat-1: 将
BERT特征和降维后的TFIDF特征拼接 ([b;\hat{\mathbf{t}}]),然后输入到RSTC中。 - RSTCBERT-TFIDF-Concat-2: 将
BERT特征和原始的TFIDF特征拼接 ([b; t]),然后输入到RSTC中。 这些方法旨在验证简单的特征融合是否有效,并突出 COTC 复杂协同训练机制的优越性。
5.4. 训练细节 (来自附录 C)
- 实现框架: 使用
PyTorch(Paszke et al., 2019) 实现。 - 特征提取:
TFIDF特征: 2048 维,使用scikit-learn(Pedregosa et al., 2011) 中的TfidfVectorizer提取。BERT特征: 768 维,使用HuggingFace(Wolf et al., 2020) 提供的distilbert-base-nli-stsb-mean-tokens模型 (Reimers and Gurevych, 2019)。
- 数据增强: 使用
ContextualAugmenter(Kobayashi, 2018; Ma, 2019) 生成数据增强,以 10% 的词语替换率。 - 伪标签生成: 通过解决
最优传输问题 (YM. et al., 2020; Zheng et al., 2023) 生成伪标签。 - 优化器:
Adam优化器。 - 批大小 (Batch Size): 128。
- 学习率 (Learning Rate):
BERT主干网络: 5e-6。BERT投影头和聚类头: 5e-4。TFIDF高斯混合参数: 1e-5。TFIDF编码器-解码器参数: 1e-3。
- 超参数设置:
- 每个样本的邻居数量 : 固定为 10。
- 对比学习和
Gumbel-Softmax trick中的温度参数 : 固定为 0.5。 - 权重参数 : 固定为 0.1。
- 预训练过程:
- TFIDF VAE 预训练: 使用原始
TFIDF特征构建的静态图对 VAE 进行预训练 50 个epoch。 - 聚类头预训练: 对
AgNews,SearchSnippets,StackOverflow,Biomedical数据集,使用K-Means获得初始聚类分配;对GoogleNews-TS,GoogleNews-T,GoogleNews-S,Tweet数据集,使用层次聚类 (hierarchical agglomerative clustering)获得初始聚类分配。这些初始标签用于预训练聚类头 100 次迭代。
- TFIDF VAE 预训练: 使用原始
- 联合训练: 预训练完成后,两个模块使用最终的统一联合训练损失 进行训练。
- 更新策略: 遵循最近的工作 (YM. et al., 2020; Zheng et al., 2023),最近邻和
伪标签的更新过程在整个训练过程中以对数分布的方式展开。 - 停止条件: 训练在两次连续
epoch之间聚类分配变化率小于 0.01 或达到 25 个epoch时停止。
6. 实验结果与分析
6.1. 核心结果分析
Table 1 The clustering performance of the baselines and our method COTC on eight benchmark datasets. The re thebaseine e qo fromZhe al The bestesults ae bole and he ec ne underlined.
| Method | AgNews | SearchSnippets | StackOverflow | Biomedical | ||||
| ACC | NMI | ACC | NMI | ACC | NMI | ACC | NMI | |
| TFIDF-K-Means | 34.39 | 12.19 | 30.85 | 18.67 | 58.52 | 59.02 | 29.13 | 25.12 |
| BERT-K-Means | 65.95 | 31.55 | 55.83 | 32.07 | 60.55 | 51.79 | 39.50 | 32.63 |
| K-Means_IC | 66.30 | 42.03 | 63.84 | 42.77 | 74.96 | 70.27 | 40.44 | 32.16 |
| STC2-LPI | - | - | 76.98 | 62.56 | 51.14 | 49.10 | 43.37 | 38.02 |
| Self-Train | - | - | 72.69 | 56.74 | 59.38 | 52.81 | 40.06 | 34.46 |
| SCCL | 83.10 | 61.96 | 79.90 | 63.78 | 70.83 | 69.21 | 42.49 | 39.16 |
| RSTC | 84.24 | 62.45 | 80.10 | 69.74 | 83.30 | 74.11 | 48.40 | 40.12 |
| GMVAE | 82.62 | 55.76 | 80.11 | 58.96 | 82.90 | 71.44 | 48.17 | 40.57 |
| RSTCBERT-TFIDF-Linear | 84.45 | 60.86 | 83.21 | 71.17 | 78.79 | 76.14 | 50.17 | 45.18 |
| RSTCBERT-TFIDF-Concat-1 | 85.79 | 63.26 | 80.90 | 69.99 | 82.41 | 78.45 | 49.34 | 45.00 |
| RSTCBERT-TFIDF-Concat-2 | 85.80 | 63.11 | 82.54 | 70.74 | 78.55 | 73.95 | 49.24 | 43.15 |
| COTC | **87.56** | **67.09** | **90.32** | **77.09** | **87.78** | **79.19** | **53.20** | **46.09** |
| Method | GoogleNews-TS | GoogleNews-T | GoogleNews-S | Tweet | ||||
| ACC | NMI | ACC | NMI | ACC | NMI | ACC | NMI | |
| TFIDF-K-Means | 69.00 | 87.78 | 58.36 | 79.14 | 62.30 | 83.00 | 54.34 | 78.47 |
| BERT-K-Means | 65.71 | 86.60 | 55.53 | 78.38 | 56.62 | 80.50 | 53.44 | 78.99 |
| K-Means_IC | 79.81 | 92.91 | 68.88 | 83.55 | 74.48 | 88.53 | 66.54 | 84.84 |
| SCCL | 82.51 | 93.01 | 69.01 | 85.10 | 73.44 | 87.98 | 73.10 | 86.66 |
| RSTC | 83.27 | 93.15 | 72.27 | 87.39 | 79.32 | 89.40 | 75.20 | 87.35 |
| GMVAE | 83.37 | 93.48 | 79.98 | 90.25 | 80.65 | 90.04 | 73.23 | 88.86 |
| RSTCBERT-TFIDF-Linear | 83.72 | 93.26 | 74.29 | 88.67 | 81.57 | 91.17 | 78.20 | 89.42 |
| RSTCBERT-TFIDF-Concat-1 | 83.74 | 93.79 | 79.31 | 91.06 | 82.91 | 91.55 | 75.61 | 88.50 |
| RSTCBERT-TFIDF-Concat-2 | 84.03 | 93.55 | 74.46 | 87.70 | 81.23 | 90.60 | 83.62 | 90.30 |
| COTC | **90.50** | **96.33** | **83.53** | **92.07** | **86.10** | **93.49** | **91.33** | **95.09** |
分析 (Table 1):
该表展示了在八个基准数据集上,COTC 方法与各种基线方法的聚类性能比较(以 ACC 和 NMI 衡量)。最佳结果以粗体显示,次佳结果以下划线显示。
关键观察与分析:
-
传统方法的局限性:
TFIDF-K-Means和BERT-K-Means作为浅层聚类方法,在所有数据集上表现最差,特别是Biomedical数据集,ACC甚至低于 40%。这证实了直接应用K-Means到原始或初步嵌入特征的局限性。K-Means_IC略好于简单的TFIDF-K-Means,但在大多数数据集上仍远低于基于BERT的方法。
-
BERT 特征的强大:
SCCL和RSTC等基于BERT特征的方法显著优于所有传统方法和基于Word2Vec的方法(如STC2-LPI,Self-Train)。这验证了BERT特征在捕获深层语义信息方面的强大能力,对聚类任务至关重要。RSTC作为最先进的BERT-based方法,通常表现最佳。
-
TFIDF 特征的价值再发现:
GMVAE是一个仅基于TFIDF特征的方法,但它通过VAE建模TFIDF。在SearchSnippets,StackOverflow,GoogleNews-TS,GoogleNews-T,GoogleNews-S等数据集上,GMVAE的表现优于甚至持平SCCL和RSTC,这令人惊讶。这有力地证明了看似“过时”的TFIDF特征,在经过适当的深度建模后,仍然具有巨大的潜力,尤其是在其捕获关键词信息的能力方面。
-
简单特征融合的不足:
RSTCBERT-TFIDF-Linear,RSTCBERT-TFIDF-Concat-1,RSTCBERT-TFIDF-Concat-2是将BERT和TFIDF特征进行简单融合(线性组合或拼接)后,再输入到RSTC中。这些方法在某些数据集上(如SearchSnippets,Biomedical)比RSTC有所提升,但在另一些数据集上(如StackOverflow,GoogleNews-T)表现反而不如RSTC。这表明简单的特征融合无法充分利用两种特征的互补优势,因为它们具有本质上不同的性质,需要更复杂的机制来协调。
-
COTC 的显著优势:
COTC在所有八个数据集上的ACC和NMI指标上都取得了最佳性能,且通常以显著的优势超越所有基线方法,包括RSTC和所有简单融合方法。例如,在SearchSnippets上,COTC 的ACC达到 90.32%,远高于RSTC的 80.10%;在Tweet上,COTC 的ACC达到 91.33%,远超RSTC的 75.20%。- 这一结果强有力地验证了 COTC 框架的有效性,即通过协同训练,使
BERT模块和TFIDF模块能够相互学习、相互促进,从而真正发挥出深层语义和关键词信号的集体优势。它克服了单一特征方法的局限性,也超越了简单特征融合方法的瓶颈。
6.2. 消融实验/参数分析
6.2.1. 消融研究 (Ablation Study)
为了探究 COTC 方法中各个组件的有效性,论文进行了消融研究。这里主要关注 BERT 模块的变体,结果通过其输出的 来衡量。
Table 2: The ACC results of the basic variants for BERT features. vs Last means the average improvement comparing the current row with the last one.
| Variant | AN | SS | SO | Bio | GN-TS | GN-T | GN-S | Tw | vs Last | |
| Basis | (M) | 85.55 | 80.78 | 83.23 | 50.97 | 83.25 | 74.79 | 79.98 | 83.32 | - |
| w/ ht | (MGraph) | 86.06 | 88.30 | 86.35 | 52.16 | 87.08 | 81.76 | 82.13 | 87.27 | +3.66 |
| w/ pt | (MAlign) | 86.56 | 89.03 | 87.22 | 52.55 | 89.85 | 82.73 | 85.23 | 90.64 | +1.59 |
| COTC | (MJoint) | **87.56** | **90.32** | **87.78** | **53.20** | **90.50** | **83.53** | **86.10** | **91.33** | +0.81 |
分析 (Table 2):
-
Basis (): 这是 BERT 模块的基础版本,仅在
BERT特征上执行对比学习和伪标签,并包含一致性约束。其性能(例如AgNews85.55%ACC)已经不错,但仍有提升空间。 -
w/ (): 在 Basis 的基础上,引入了 TFIDF 模块的表示 来构建相似图 ,并将其邻居作为
对比学习的额外正例。与 Basis 相比,性能有了显著提升(平均提升 3.66%ACC)。这验证了 TFIDF 模块学习到的相似性结构对于指导 BERT 模块学习更有意义的表示具有重要价值。 -
w/ (): 在 的基础上,进一步引入了 TFIDF 模块的聚类概率 ,并通过
KL 散度损失 促使 BERT 模块的聚类概率 与其对齐。这带来了额外的性能提升(平均提升 1.59%ACC)。这表明在聚类层面进行模块间对齐可以进一步提升性能。 -
COTC (): 这是最终的 COTC 方法,采用统一的联合训练目标 ,将 BERT 模块和 TFIDF 模块更紧密地连接起来。它在所有数据集上都取得了最佳性能,比 进一步提升(平均提升 0.81%
ACC)。这证明了统一联合训练目标在促进模块间信息高效传播方面的优越性。结论: 消融研究清晰地表明,COTC 框架中引入 TFIDF 模块的表示层对齐 () 和聚类层对齐 (),以及最终的统一联合训练 (
COTC),都是逐步提升性能的关键因素,它们共同构成了 COTC 的强大能力。
Table 12: The NMI results of the basic variants for BERT features. vs Last means the average improvement comparing the current row with the last one.
| Variant | AN | SS | SO | Bio | GN-TS | GN-T | GN-S | Tw | vs Last | |
| Basis | (M) | 62.97 | 68.95 | 76.12 | 43.23 | 93.28 | 87.65 | 90.18 | 89.94 | |
| w/ ht | (MGraph) | 63.88 | 73.57 | 78.89 | 45.64 | 95.22 | 91.42 | 92.04 | 92.89 | +2.65 |
| w/ pt | (M Align) | 66.13 | 75.68 | 78.33 | 44.90 | 96.22 | 91.62 | 93.14 | 94.27 | +0.84 |
| COTC | (MJoint) | **67.09** | **77.09** | **79.19** | **46.09** | **96.33** | **92.07** | **93.49** | **95.09** | +0.77 |
分析 (Table 12):
这张表展示了与 Table 2 类似的趋势,但评估指标是 NMI。
-
Basis () 提供了基线性能。
-
w/ () 引入 TFIDF 表示层对齐,带来了显著的
NMI提升(平均 +2.65%)。这再次证明了 TFIDF 表示拓扑结构对 BERT 模块的重要性。 -
w/ () 引入 TFIDF 聚类层对齐,进一步提升了
NMI(平均 +0.84%),尤其是在AgNews和Tweet数据集上。 -
COTC () 最终的统一联合训练,在
NMI上也取得了最佳表现(平均 +0.77%)。ACC和NMI结果的一致性进一步强化了消融研究的结论,即 COTC 的各个组件,特别是多层次的对齐机制和统一训练目标,对于提升聚类性能至关重要。
Table 13 The ACC results of the basic variants for TFIDF features. vs Last means the average improvement comparing the current row with the last one.
| Variant | AN | SS | SO | Bio | GN-TS | GN-T | GN-S | Tw | vs Last | |
| Basis | (M) | 82.62 | 80.11 | 82.90 | 48.17 | 83.37 | 79.98 | 80.65 | 73.23 | - |
| w/hb | (MGraph) | 84.89 | 87.41 | 84.12 | 49.68 | 85.07 | 80.82 | 82.11 | 74.99 | +2.26 |
| w/ p | (MAlign) | 85.83 | 88.95 | 85.04 | 51.55 | 87.86 | 81.68 | 84.40 | 87.65 | +2.98 |
| COTC | (MJoint) | **87.26** | **90.00** | **86.87** | **52.41** | **90.35** | **83.36** | **86.03** | **91.05** | +1.80 |
分析 (Table 13):
这张表展示了 TFIDF 模块中不同变体的 ACC 结果。这里的 Basis (\mathcal{M}) 对应的是 GMVAE,即仅通过 VAE 和 高斯混合先验 对 TFIDF 特征进行建模。
-
Basis ():
GMVAE的性能。如前所述,即使是纯 TFIDF 建模,其表现也相当不错。 -
w/ (): 引入 BERT 模块的表示 来构建相似图 ,并指导 TFIDF 模块
VAE的训练。这带来了显著的性能提升(平均 +2.26%ACC),尤其在SearchSnippets上提升巨大。这强调了 BERT 模块学习到的语义结构对于 TFIDF 模块表示学习的重要性。 -
w/ (): 引入 BERT 模块的聚类概率 ,并促使 TFIDF 模块的聚类概率 与其对齐。这带来了更大的性能提升(平均 +2.98%
ACC),显示了在聚类层面进行跨模块对齐的强大效果。 -
COTC (): 最终的统一联合训练,在 TFIDF 模块的
ACC上也取得了最佳表现(平均 +1.80%ACC)。结论: 同样的,TFIDF 模块的消融研究也证实了 BERT 模块的表示和聚类概率对 TFIDF 模块性能的积极指导作用,并且统一联合训练能够进一步优化整体效果。两个模块之间的相互促进是 COTC 成功的关键。
Tale 14 The NMI results of the basic variants or TFIDF features.vs Last means the average improvement comparing the current row with the last one.
| Variant | AN | SS | SO | Bio | GN-TS | GN-T | GN-S | Tw | vs Last | |
| Basis | (M) | 55.76 | 58.96 | 71.44 | 40.57 | 93.48 | 90.25 | 90.04 | 88.86 | - |
| w/hb | (MGraph) | 60.57 | 71.91 | 78.77 | 44.25 | 94.44 | 91.13 | 91.17 | 89.70 | +4.07 |
| w/ pb | (MAlign) | 63.94 | 74.80 | 75.07 | 43.39 | 94.33 | 90.83 | 92.29 | 92.85 | +0.70 |
| COTC | (M Joint) | **66.16** | **76.53** | **78.97** | **45.69** | **96.19** | **91.91** | **93.41** | **94.72** | +2.01 |
分析 (Table 14):
TFIDF 模块变体在 NMI 上的表现也与 ACC 结果高度一致。引入 BERT 表示 (w/hb) 带来了显著的 NMI 提升(平均 +4.07%),尤其在 SearchSnippets 和 StackOverflow 上。引入 BERT 聚类概率 (w/pb) 也带来了进一步的提升。最终的 COTC 统一联合训练方法依然表现最佳(平均 +2.01% NMI)。这进一步验证了 COTC 中 BERT 和 TFIDF 模块之间协同训练的有效性。
6.2.2. 超参数敏感性 (Hyperparameter Sensitivity)
Figure 3: The sensitivity of the number of neighbors Pre. means precision, which is the ratio of the neighbors in the same class as the anchor.

分析 (Figure 3):
该图展示了在 Biomedical 和 GoogleNews-TS 数据集上,用于构建相似图的邻居数量 对聚类性能(ACC, NMI)和 Precision(邻居中与锚点同类的比例)的影响。
- (星号标记): 表示不使用邻居增强,即
对比学习中没有来自另一个模块的邻居作为正例。这种情况下性能较低。 - : 引入邻居后,性能通常会有提升。
- Precision 趋势: 随着 的增加,
Precision呈下降趋势。这意味着选择的邻居越多,其中包含的噪声(即非同类样本)就越多。 - 性能与 的关系:
- 对于
Biomedical数据集,随着 的增加,ACC和NMI在一定范围内(例如 左右)保持较好,但当 过大时,性能开始下降。 - 对于
GoogleNews-TS数据集,Precision下降得更快,ACC和NMI也表现出对过大 的敏感性,可能由于噪声的引入而损害性能。
- 对于
- 结论: 适当数量的邻居可以帮助
BERT模块在聚类性能上受益,但过多的邻居(导致Precision下降,引入过多噪声)反而会损害性能。为了平衡性能,论文将 设置为 10。
Figure 5: The sensitivity of the weighting parameter .

分析 (Figure 5):
该图展示了统一联合训练目标中 BERT 模块损失 () 和 TFIDF 模块损失 () 之间的权重参数 对 AgNews 和 GoogleNews-S 数据集上 ACC 和 NMI 的敏感性。
- 趋势: 随着 从 0 增加到 0.2,模型的
ACC和NMI呈现先上升后下降的趋势,并在 附近达到峰值或保持相对稳定。 - 解释: 决定了 TFIDF 模块对总损失的贡献程度。
- 当 过小(接近 0)时,TFIDF 模块的训练信号较弱,两个模块的协同作用不足。
- 当 过大时,TFIDF 模块的损失可能主导训练,导致 BERT 模块的学习受到负面影响,或者 TFIDF 模块本身过度优化,反而引入噪声。
- 结论: 尽管需要搜索合适的 ,但该参数在 0.04 到 0.16 的范围内变化时,性能波动不大。为了避免过度的调优工作,论文在所有数据集上将 固定为 0.1。
Figure 6: The sensitivity of the temperature parameter of Gumbel trick .

分析 (Figure 6):
该图展示了 Gumbel-Softmax trick 中的温度参数 对 AgNews 和 GoogleNews-S 数据集上 ACC 和 NMI 的敏感性。
- 趋势: 随着 从 0.1 增加到 1.0,模型的
ACC和NMI曲线显示,在 处于中等范围(例如 0.3 到 0.6 之间)时,性能通常较好。当 过小或过大时,性能可能会下降。 - 解释:
温度参数控制着Gumbel-Softmax逼近离散分布的平滑程度。- 当 趋近于 0 时,
Gumbel-Softmax会趋近于硬的one-hot采样,梯度可能不稳定。 - 当 较大时,输出分布变得非常平滑,可能无法很好地捕捉离散的类别信息。
- 当 趋近于 0 时,
- 结论: 适当的
温度参数可以增强聚类性能,这可能归因于Gumbel-Softmax trick的探索性。论文在所有数据集上将 固定为 0.5。
6.2.3. 案例研究 (Case Study)
Table 3: Different keywords revealed by the cluster centers in the TFIDF module on SearchSnippets.
| clusters | keywords | topics |
| #1 | business, market,services, financial, finance | Business |
| #2 | computer, software,programming, linux, web | Computers |
| #3 | movie, music,com, movies, film | Culture-Arts-Entertainment |
| #4 | edu, research,science, university, theory | Education-Science |
| #5 | electrical, car,motor, engine, products | Engineering |
| #6 | health, medical,information, disease, gov | Health |
| #7 | political, party,democracy, government, democratic | Politics-Society |
| #8 | sports, football,news, games, com | Sports |
分析 (Table 3):
该表展示了在 SearchSnippets 数据集上,TFIDF 模块中聚类中心所揭示的关键词。通过将 TFIDF 模块的聚类中心映射回词汇空间,可以识别出与每个簇最相关的关键词。
- 对应关系清晰: 每个簇(#1 到 #8)都对应着一组高度相关的关键词,这些关键词与该簇所代表的主题(例如
Business,Computers,Culture-Arts-Entertainment等)高度一致。 - TFIDF 的有效性: 这证明了 TFIDF 模块能够有效地捕捉到文本中的关键词信息,并且这些关键词能够很好地代表每个簇的主题。这再次强调了 TFIDF 特征在文本聚类中的固有价值,尤其是在区分主题方面。
Figure 4: The visualization on SearchSnippets.

分析 (Figure 4):
该图展示了在 SearchSnippets 数据集上的聚类可视化结果。
- 左图 (Before Training): 可能是原始特征(例如 BERT 或 TFIDF 原始特征)的可视化。数据点分布较为混杂,不同颜色的点(代表不同类别)之间界限不清,相互交叠,难以形成清晰的簇。
- 右图 (After Training): 经过 COTC 训练后的聚类结果可视化。不同颜色的数据点明显地聚集在一起,形成了清晰可辨的簇。不同簇之间距离较远,簇内数据点紧密,边界也更加明确。
- 结论: 这张图直观地展示了 COTC 方法在学习聚类友好表示方面的有效性,能够将原本混杂的数据点成功地组织成语义上连贯的簇。
Table 8: Different keywords revealed by the cluster centers in the TFIDF module on StackOverflow.
| clusters | keywords | topics |
| #1 | excel, vba, cell, macro, data | excel |
| #2 | haskell, type, function, scala, list | haskell |
| #3 | mac, os, osx, application, app | OSX |
| #4 | linq, sql, query, using, join | linq |
| #5 | ajax, jquery, javascript, request, php | ajax |
| #6 | visual, studio, 2008, 2005, project | visual-studio |
| #7 | cocoa, using, file, use, text | cocoa |
| #8 | hibernate, mapping, criteria, query, hql | hibernate |
| #9 | sharepoint, web, site, 2007, list | sharepoint |
| #10 | bash, script, command, shell, file | bash |
| #11 | apache, rewrite, mod, htaccess, redirect | apache |
| #12 | wordpress, posts, post, page, blog | wordpress |
| #13 | svn, subversion, repository, files, commit | svn |
| #14 | drupal, node, views, module, content | drupal |
| #15 | qt, widget, window, creator, application | qt |
| #16 | scala, java, class, type, actors | scala |
| #17 | magento, product, products, page, admin | magento |
| #18 | matlab, matrix, plot, array, function | matlab |
| #19 | oracle, sql, table, pl, database | oracle |
| #20 | spring, bean, hibernate, security, using | spring |
分析 (Table 8):
该表展示了在 StackOverflow 数据集(一个领域特定数据集)上,TFIDF 模块聚类中心所揭示的关键词。StackOverflow 包含 20 个类。
- 关键词的专业性: 每个簇的关键词都高度专业化,与对应的编程或软件开发主题(如
excel,haskell,OSX,linq,ajax,qt等)精确匹配。 - 验证 TFIDF 优势: 这再次强有力地验证了 TFIDF 特征在捕获特定领域关键词信息方面的优势。这些关键词对于区分
StackOverflow上的专业话题至关重要,而这正是通用BERT模型可能难以准确捕捉的。TFIDF 模块能够有效地识别和利用这些信息,从而辅助整体聚类。
Figure 7: The visualization on StackOverflow.

分析 (Figure 7):
该图展示了 StackOverflow 数据集上的聚类可视化结果。
- 左图 (Before Training): 类似于图4的左图,数据点分布混杂,不同类别(由颜色表示)之间界限模糊,重叠严重。图中标记的四个星形文本也可能散落在不同的区域,难以形成清晰的簇。
- 右图 (After Training): 经过 COTC 训练后的聚类结果可视化。与训练前相比,数据点被有效地组织成紧密的簇,不同颜色代表的类别之间分离明显,边界清晰。图中标记的四个星形文本现在被聚类到了一起,并且与它们所属的簇中心距离很近。
- 结论: 这张图进一步证明了 COTC 方法在处理复杂、领域特定短文本数据集
StackOverflow时的有效性。通过协同训练,模型能够学习到具有良好分离性的表示,使得聚类效果显著提升。特别值得注意的是,图1中 BERT 特征无法使这些点聚类在一起,而 COTC 成功地解决了这个问题,突出了结合 TFIDF 关键词信息的重要性。
6.2.4. 其他特征和基础模型 (Investigation of Other Features and Base Models)
Table 4: The ACC results using BoW or Word2Vec instead of TFIDF features. COTCBERT-TFIDF is our final method.
| dataset | AN | SO | Bio | GN-TS | Tw |
| RSTCBERT | 84.24 | 83.30 | 48.40 | 83.27 | 75.20 |
| COTCBERT-W2V | 34.24 | 28.06 | 27.50 | 74.06 | 14.36 |
| COTCBERT-BoW | 87.41 | 84.91 | 52.68 | 89.15 | 88.43 |
| COTCBERT-TFIDF | **87.56** | **87.78** | **53.20** | **90.50** | **91.33** |
分析 (Table 4):
该表比较了在 COTC 框架中,使用 BoW 或 Word2Vec 替代 TFIDF 特征时的 ACC 结果。RSTCBERT 代表了仅使用 BERT 的基线(即 RSTC)。
- COTCBERT-W2V 表现糟糕: 当使用
Word2Vec特征替代TFIDF时,COTCBERT-W2V的性能急剧下降,甚至远低于RSTCBERT。- 解释: 论文推测
Word2Vec特征在性质上更接近BERT特征(都侧重于语义),而不是像TFIDF或BoW那样侧重于词频和关键词。因此,Word2Vec无法提供与BERT互补的信息,导致协同训练无法发挥作用,甚至可能引入冗余或冲突信息。
- 解释: 论文推测
- COTCBERT-BoW 表现良好: 当使用
BoW(Bag-of-Words) 特征替代TFIDF时,COTCBERT-BoW表现出与COTCBERT-TFIDF相当的性能,并在大多数数据集上显著优于RSTCBERT。- 解释:
BoW特征与TFIDF类似,都属于词频统计特征,能够捕捉关键词信息。这表明在 COTC 框架中,能够反映关键词信息(而非深层语义)的特征类型都可以很好地与BERT协同工作。
- 解释:
- COTCBERT-TFIDF 仍然最佳: 尽管
BoW表现良好,COTCBERT-TFIDF在大多数数据集上仍然是性能最佳的。- 结论:
TFIDF仍然是捕捉关键词信息的最佳选择之一,其通过逆文档频率加权,能够更好地筛选出具有区分度的关键词。这项实验验证了 COTC 框架对于互补性特征的泛化能力,并强调了选择能够提供独特信息(如关键词)的特征类型的重要性。
- 结论:
Table 5: The ACC results using different base models instead of the default sentence-distilbert.
| dataset | AN | GN-TS | Tw |
| RSTCxLNet-base-uncased COTCXLNet-base-uncased | 71.75 84.60 | 34.47 80.21 | 10.07 71.97 |
| RSTCBERT-base-uncased COTCBERT-base-uncased | 82.23 87.83 | 77.45 89.10 | 73.87 89.81 |
| RSTCRoBERTa-base COTCRoBERTa-base | 85.76 87.44 | 75.63 88.32 | 71.08 90.45 |
分析 (Table 5):
该表比较了在 COTC 框架中,使用不同的预训练语言模型 (backbone) 替代默认的 sentence-distilbert 时的 ACC 结果。基线是 RSTC 使用相同的 backbone。
- RSTC 对
backbone质量敏感:- 当使用
XLNet-base-uncased时,RSTC的性能显著下降,尤其是在GoogleNews-TS(34.47%) 和Tweet(10.07%) 上表现非常差。这表明RSTC的性能强烈依赖于主干网络生成的初始表示质量。如果BERT特征本身不够好,RSTC难以发挥作用。
- 当使用
- COTC 更稳定和鲁棒:
- 与
RSTC相比,COTC 在所有不同的backbone下都表现出更优异的性能,并且这种提升在backbone初始质量较差时(如XLNet-base-uncased)更为显著。例如,在使用XLNet-base-uncased时,COTC 相较于RSTC在GoogleNews-TS上将ACC从 34.47% 提升到 80.21%,在Tweet上从 10.07% 提升到 71.97%。
- 与
- 解释: 即使
BERTbackbone生成的语义表示质量不高,TFIDF 模块提供的关键词信息仍然能够稳定地补充模型的聚类能力。这种互补性使得 COTC 框架对BERTbackbone的选择和初始表示质量具有更高的鲁棒性。 - 结论: COTC 框架的优势不仅仅体现在其能提升
state-of-the-art模型的性能,更在于它能够增强模型在不同基础模型下的稳定性和鲁棒性,使其在面对不同质量的语义表示时也能保持良好的聚类效果。
6.2.5. 噪声数据下的聚类 (Clustering with Noisy Data)
Table 6: The clustering results when our method performs clustering under noisy data condition, i.e., StackOverflow contaminated by Biomedical.
| percentage of noisy samples | 0% | 1% | 2% | 3% | 4% |
| ACC | 87.78 | 87.13 | 84.32 | 83.59 | 81.72 |
| NMI | 79.19 | 78.54 | 77.29 | 77.20 | 76.60 |
分析 (Table 6):
该表评估了 COTC 方法在噪声数据条件下的稳定性。实验以 StackOverflow 数据集为基础,并从 Biomedical 数据集中添加随机样本作为噪声。
- 性能随噪声增加而下降: 随着噪声样本比例的增加(从 0% 到 4%),
ACC和NMI指标均呈现逐渐下降的趋势。这是可预测且合理的,因为噪声数据会干扰聚类模型识别真实簇结构。 - 保持一定的稳定性: 尽管性能有所下降,但即使在 4% 的噪声比例下(即 20000 个
StackOverflow样本中加入了 800 个来自完全不同领域的Biomedical样本),COTC 仍然保持了相对较高的ACC(81.72%) 和NMI(76.60%)。 - 结论: 论文认为这项实验验证了 COTC 方法的鲁棒性,即使在被来自完全不同领域的噪声数据污染的情况下,模型仍能保持一定的聚类性能。这对于现实世界中数据往往不干净的场景非常重要。
6.2.6. 与大语言模型 (LLM) 零样本聚类比较 (Comparison with LLM Zero-Shot Clustering)
Table 9: The clustering results of LLM for zero-shot short text clustering on AgNews.
| ACC NMI | |
| Qwen2-7B-Instruct-zero-shot COTC | 75.28 48.27 87.56 67.09 |
分析 (Table 9):
该表比较了 Qwen2-7B-Instruct 在 零样本 (zero-shot) 条件下对 AgNews 数据集进行短文本聚类的结果与 COTC 的性能。Qwen2-7B-Instruct 通过一个精心设计的 prompt(其中明确提供了 4 个类别名称:World, Sports, Business, Sci/Tech)进行推理。
- LLM 零样本表现不俗:
Qwen2-7B-Instruct在零样本设置下取得了 75.28% 的ACC和 48.27% 的NMI。考虑到它没有经过任何特定任务的训练,这已经是一个非常强劲的性能。 - COTC 仍然具有竞争力: 尽管
LLM表现出色,COTC 在AgNews数据集上的ACC(87.56%) 和NMI(67.09%) 仍然显著高于Qwen2-7B-Instruct。 - 结论:
LLM在零样本聚类方面展现出巨大潜力,尤其是在类别信息已知的情况下。- 然而,对于特定任务,像 COTC 这样经过专门设计和训练的模型,仍然能够超越通用
LLM的零样本性能。这表明,在可预见的未来,特定任务的专业模型在性能上仍具有优势。同时,7B 规模的LLM对于大规模数据集的聚类而言,其计算成本和效率也是需要考虑的因素。
6.3. 计算预算 (Computation Budget)
- 模型参数量: 77M (77 百万)。
- 训练时间: 在
GeForce RTX 3090 GPU上,所有数据集的平均训练时间约为 30 分钟。- 分析: 相较于一些大型模型或更复杂的训练方案,这个训练时间相对合理。尽管引入了 TFIDF 模块,但通过高效的联合训练目标,总体的计算成本仍在可接受范围内。
7. 总结与思考
7.1. 结论总结
本文成功地解决了短文本聚类中 BERT 特征忽视关键词信息而 TFIDF 特征缺乏深层语义的挑战。核心贡献在于提出了 协同训练聚类 (COTC) 框架,它通过建立 BERT 和 TFIDF 两个独立的模块,并设计了在 表示层面 和 聚类层面 的显式对齐机制,实现了两者优势的协同利用。论文进一步将这种交替协同训练整合到一个统一的联合训练目标中,优化了训练效率和信号传播。广泛的实验结果表明,COTC 在八个基准数据集上显著优于当前的 state-of-the-art 方法。此外,研究还重新肯定了 TFIDF 特征在捕获关键词信息方面的独特价值,并在不同 BERT 主干网络 和噪声数据条件下展示了方法的鲁棒性。
7.2. 局限性与未来工作
论文作者指出了 COTC 存在的以下局限性,并提出了未来可能的研究方向:
- 簇数量已知: 像许多现有聚类方法一样,COTC 需要预先知道聚类的数量 。在实际应用中, 往往是未知的,这限制了其普适性。
- 超参数调优复杂: 由于 BERT 和 TFIDF 特征的巨大差异(BERT 特征是低维密集的,TFIDF 特征是高维稀疏的),导致相关模块的神经网络需要不同的学习率。这使得调优这些超参数需要一定的努力和经验。
- 计算成本增加: 相较于仅使用 BERT 特征的方法,引入 TFIDF 模块会增加额外的训练时间和空间开销。
- 未来工作: 作者计划探索一种更紧凑、更高效的方式来学习不同文本特征的集体优势,以减少额外的计算成本。这可能意味着寻找更智能的特征融合机制,或者设计更轻量级的 TFIDF 模块。
7.3. 个人启发与批判
7.3.1. 个人启发
- 旧技术的新价值: 这篇论文最令人启发的一点是,它“重新发现”了看似过时的
TFIDF特征的价值。在深度学习模型(尤其是BERT家族)大行其道的今天,我们很容易忽视传统特征的独特优势。COTC证明了,即使是像TFIDF这样简单的、基于统计的特征,在与强大的深度模型结合时,也能提供互补信息,从而显著提升性能。这提醒我们,在解决问题时,不应盲目追逐最新技术,而应深入理解不同技术的优劣势,并思考如何进行有效融合。 - 多模态/多视角协同训练的潜力:
COTC的协同训练框架可以被看作是一种广义的“多模态”学习,尽管这里是文本的两种不同“模态”特征。这种通过相互指导和对齐来促进不同信息源学习的思想,可以推广到其他领域,例如结合视觉和文本特征、结构化数据和非结构化数据等,以实现更全面的表示学习。 - 对齐机制的重要性: 论文不仅简单融合特征,更重要的是在
表示层面和聚类层面设计了显式的对齐损失和机制。这使得两个模块能够高效地传递知识,而非仅仅共享输入。这种精细化的对齐方法是其性能提升的关键。 - 统一训练目标的工程优雅性: 将交替训练集成到一个统一的联合优化目标中,不仅从理论上提供了更强的基础(如利用不等式),也从工程实践上简化了训练流程,提高了效率和信号传播的直接性。
7.3.2. 批判与潜在改进
- 对 值依赖的挑战: 论文指出的第一个局限性——需要已知簇的数量 ,是无监督聚类任务的普遍难题。未来的工作可以探索如何将
COTC扩展到能够自动发现簇数量的方法(例如,基于密度聚类、或结合非参数贝叶斯模型),或者引入用户反馈机制来辅助确定 。 - 超参数调优的复杂性: 学习率的调优问题,虽然在许多深度学习模型中都存在,但
COTC额外增加了不同模块间学习率差异化的挑战。可以考虑引入更智能的自动化超参数优化技术(如贝叶斯优化 (Bayesian Optimization)、遗传算法 (Genetic Algorithm)),或设计能够自适应调整模块间权重和学习率的训练策略。 - TFIDF 模块的计算开销: 尽管平均训练时间尚可,但在处理超大规模数据集时,2048 维的稀疏 TFIDF 特征以及其 VAE 模型的训练仍然可能带来较大的内存和计算压力。未来的工作可以探索更紧凑的 TFIDF 编码器(例如,使用稀疏神经网络)或更高效的关键词表示方法,以降低其计算成本。
- 可解释性提升: TFIDF 模块能够揭示关键词,这本身就具有一定的可解释性。未来可以进一步探索如何将
BERT 模块的语义表示与 TFIDF 的关键词信息更好地融合,例如通过注意力机制 (attention mechanisms)或可解释性模型 (explainable AI)技术,使得模型的聚类决策不仅准确,而且易于理解。 - 对领域关键词的泛化能力: 论文中
StackOverflow的案例研究强调了专业关键词的重要性。但TFIDF的效力依赖于词汇表和语料库。如果遇到全新的、未知的领域词汇,TFIDF可能也无法很好地捕捉。未来的工作可以探索结合领域知识图谱或外部本体论,以更鲁棒地处理新领域的关键词信息。 - 更复杂的对抗性/噪声场景: 论文虽然在噪声数据下进行了实验,但噪声样本是来自另一个领域的完整文本。更具挑战性的噪声可能包括:文本中的随机词语替换、拼写错误、语法错误等。进一步测试
COTC在这些更精细噪声下的鲁棒性,将有助于其在真实世界应用中的落地。
相似论文推荐
基于向量语义检索推荐的相关论文。