论文状态:已完成

TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision

发表:2024/03/01
原文链接PDF 下载
价格:0.100000
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

TELEClass 提出了一个结合大型语言模型(LLM)和未标注语料库特征的分层文本分类方法,利用类名作为唯一监督信号,自动丰富分类法并生成额外的类指示性特征。实验结果显示其性能显著优于传统方法,且推理成本极低。

摘要

Hierarchical text classification aims to categorize each document into a set of classes in a label taxonomy, which is a fundamental web text mining task with broad applications such as web content analysis and semantic indexing. Most earlier works focus on fully or semi-supervised methods that require a large amount of human annotated data which is costly and time-consuming to acquire. To alleviate human efforts, in this paper, we work on hierarchical text classification with a minimal amount of supervision: using the sole class name of each node as the only supervision. Recently, large language models (LLM) have shown competitive performance on various tasks through zero-shot prompting, but this method performs poorly in the hierarchical setting because it is ineffective to include the large and structured label space in a prompt. On the other hand, previous weakly-supervised hierarchical text classification methods only utilize the raw taxonomy skeleton and ignore the rich information hidden in the text corpus that can serve as additional class-indicative features. To tackle the above challenges, we propose TELEClass, Taxonomy Enrichment and LLM-Enhanced weakly-supervised hierarchical text Classification, which combines the general knowledge of LLMs and task-specific features mined from an unlabeled corpus. TELEClass automatically enriches the raw taxonomy with class-indicative features for better label space understanding and utilizes novel LLM-based data annotation and generation methods specifically tailored for the hierarchical setting. Experiments show that TELEClass can significantly outperform previous baselines while achieving comparable performance to zero-shot prompting of LLMs with drastically less inference cost.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

TELEClass: 基于分类法丰富和大型语言模型增强的少量监督分层文本分类 (TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision)

1.2. 作者

  • Yunyi Zhang (伊利诺伊大学厄巴纳-香槟分校)
  • Ruozhen Yang* (伊利诺伊大学厄巴纳-香槟分校)
  • Xueqiang Xu* (伊利诺伊大学厄巴纳-香槟分校)
  • Rui Li* (中国科学技术大学)
  • Jiaming Shen (Google Deepmind)
  • Jinfeng Xiao (伊利诺伊大学厄巴纳-香槟分校)
  • Jiawei Han (伊利诺伊大学厄巴纳-香槟分校)

1.3. 发表期刊/会议

ACM Web Conference 2025 (WWW '25),这是一个在万维网领域具有高声誉和影响力的国际顶级会议。

1.4. 发表年份

2025年(论文发布于2024年2月29日,但标注为WWW '25)

1.5. 摘要

分层文本分类 (Hierarchical Text Classification, HTC) 旨在将每个文档归类到标签分类法 (label taxonomy) 中的一组类别,这是网络文本挖掘领域的一项基础任务,在网络内容分析和语义索引等领域有广泛应用。大多数早期工作侧重于全监督 (fully-supervised) 或半监督 (semi-supervised) 方法,这些方法需要大量人工标注数据,而这获取成本高昂且耗时。为了减轻人工工作量,本文致力于解决少量监督 (minimal supervision) 下的分层文本分类问题,即仅使用每个节点的类名作为唯一的监督信号。

最近,大型语言模型 (Large Language Models, LLMs) 通过零样本提示 (zero-shot prompting) 在各种任务中展现出竞争性性能,但这种方法在分层设置中表现不佳,因为它无法有效地在提示中包含庞大且结构化的标签空间。另一方面,以前的弱监督 (weakly-supervised) 分层文本分类方法仅利用原始分类法骨架,而忽略了文本语料库 (text corpus) 中隐藏的丰富信息,这些信息可以作为额外的类指示性特征 (class-indicative features)。

为了解决上述挑战,本文提出了 TELEClass,一个结合了 LLMs 的通用知识和从未标注语料库中挖掘出的任务特定特征的分层文本分类方法。TELEClass 自动丰富原始分类法,加入类指示性特征以更好地理解标签空间,并利用专门为分层设置量身定制的新颖基于 LLM 的数据标注 (data annotation) 和生成 (generation) 方法。实验表明,TELEClass 能够显著优于先前的基线方法,同时以极低的推理成本实现与 LLMs 零样本提示相当的性能。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 如何在少量监督 (minimal supervision) 的情况下,实现准确的分层文本分类。这里的“少量监督”特指仅使用标签分类法中每个节点的类名 (class name) 作为唯一的监督信号。

为什么这个问题在当前领域是重要的:

  1. 分层文本分类的重要性: 它是网络文本挖掘和自然语言处理 (NLP) 中的一项基础任务,广泛应用于网络内容组织、语义索引和查询分类等领域。与标准文本分类相比,分层设置更具挑战性,因为它涉及到更大、更结构化的标签空间以及细粒度 (fine-grained) 和长尾 (long-tail) 类别。
  2. 传统方法的局限性: 大多数早期工作依赖于全监督或半监督方法,这些方法需要大量人工标注的数据。然而,获取高质量的人工标注数据成本高昂、耗时且难以扩展,这限制了分层文本分类在实际应用中的部署。
  3. LLMs 在分层任务中的挑战: 尽管大型语言模型 (LLMs) 在平面 (flat) 文本分类等许多任务中表现出色,但直接将其应用于分层分类时面临挑战。将数百个类别及其复杂的层级结构全部塞入提示 (prompt) 中是低效且低性能的,可能导致结构信息丢失、LLM 难以区分相似类别,并且推理成本极高。
  4. 现有弱监督方法的不足: 现有的弱监督分层文本分类方法(如 TaxoClass)虽然仅使用类名,但往往只利用原始分类法的骨架结构,而忽略了未标注文本语料库中隐藏的丰富信息。这些语料库中的信息可以作为额外的、任务特定的类指示性特征,对于理解细粒度类别至关重要。

这篇论文的切入点或创新思路: TELEClass 的创新点在于它结合了 LLMs 的强大文本理解能力和未标注文本语料库中蕴含的任务特定知识。它提出通过分类法丰富 (Taxonomy Enrichment) 来增强标签空间的理解,并利用LLM 增强的数据标注和生成来解决数据稀缺和类别覆盖不全的问题,从而在少量监督设置下实现高性能的分层文本分类。

2.2. 核心贡献/主要发现

论文最主要的贡献:

  1. 提出新方法 TELEClass: 提出了一个名为 TELEClass 的新型少量监督分层文本分类方法。它仅以标签分类法的类名作为监督信号,就能训练一个多标签 (multi-label) 文本分类器。
  2. 分类法丰富机制: 提出通过结合 LLM 生成的通用知识和从未标注语料库中挖掘的领域特定知识来丰富原始标签分类法,为每个类别添加类指示性术语 (class-indicative terms)。这有助于更好地理解标签空间并提高伪标签 (pseudo label) 的质量。
  3. LLM 在分层任务中的创新应用: 探讨了两种利用 LLMs 改进分层文本分类的方式:
    • LLM 增强的数据标注: 通过分类法引导的候选搜索 (taxonomy-guided candidate search) 和相似度差距 (similarity gap) 机制,更高效、更准确地标注文档的核心类别 (core classes)。
    • LLM 增强的数据生成: 利用基于路径 (path-based) 的文档生成,为稀疏和长尾类别生成高质量的伪文档,解决了细粒度类别数据稀缺的问题。
  4. 模型性能提升: 显著优于现有的零样本 (zero-shot) 和弱监督分层文本分类基线方法。

论文得出了哪些关键的结论或发现:

  1. TELEClass 在两个不同领域的公开数据集(Amazon-531 和 DBPedia-298)上,实现了比零样本和弱监督基线显著更好的性能。
  2. 与 LLMs 的零样本提示相比,TELEClass 能够达到可比甚至更好的性能,但推理成本却大幅降低。
  3. 消融实验 (ablation studies) 证明了 TELEClass 各个组件(LLM 增强的分类法丰富、语料库驱动的分类法丰富、以及基于路径的数据增强)的有效性。其中,LLM 增强在常见概念类别上更有效,而语料库增强在更微妙、难以区分的类别上贡献更大。
  4. 基于路径的 LLM 数据生成作为数据增强手段,即使单独使用也能达到与强基线相当的性能,这凸显了其在解决细粒度类别数据稀缺问题上的强大能力。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 分层文本分类 (Hierarchical Text Classification, HTC)

分层文本分类是一种特殊的文本分类任务,其目标是将文档分配到预定义标签分类法(通常是树状或有向无环图)中的一个或多个类别。与标准的平面 (flat) 文本分类不同,HTC 考虑了类别之间的父子关系。例如,一个文档可能被分类为“电子产品 (Electronics)”下的“手机 (Mobile Phones)”,其中“手机”是“电子产品”的子类。

  • 标签分类法 (Label Taxonomy): 类别标签以层级结构组织,形成一个树状或有向无环图 (Directed Acyclic Graph, DAG)。DAG 允许一个子类别有多个父类别,更灵活地表示现实世界中复杂的分类关系。
  • 多标签分类 (Multi-label Classification): 每个文档可以同时属于多个类别,这些类别可以位于分类法的不同层级或不同路径上。例如,一个关于“苹果手机维修”的文档可能被同时标记为“电子产品”、“手机”、“维修服务”等。

3.1.2. 弱监督学习 (Weakly-Supervised Learning)

弱监督学习是机器学习的一个分支,旨在利用比全监督学习更少、更嘈杂或更间接的监督信号来训练模型。其核心思想是减少对昂贵、耗时的人工标注的依赖。

  • 少量监督 (Minimal Supervision): 本文特指的一种极端弱监督设置,即仅提供最基础的监督信息,例如每个类别的名称,而不提供任何标注过的文档示例或关键词列表。
  • 伪标签 (Pseudo Labeling): 弱监督学习中常用的一种技术,通过一个初始模型(或启发式规则)对未标注数据进行预测,将高置信度的预测结果作为“伪标签”用于后续训练。

3.1.3. 大型语言模型 (Large Language Models, LLMs)

LLMs 是指具有数亿到数万亿参数的深度学习模型,通过在海量文本数据上进行预训练,学习到丰富的语言模式、世界知识和推理能力。

  • 零样本提示 (Zero-shot Prompting): LLMs 的一种使用方式,即在没有任何示例的情况下,通过精心设计的文本提示 (prompt) 直接引导模型完成任务。模型依靠其在预训练阶段学到的通用知识来理解任务并生成响应。
  • 指令遵循 (Instruction Following): LLMs 能够理解并执行用户在提示中给出的指令,例如“生成10个关键词”、“选择最合适的类别”等。

3.1.4. 文本嵌入 (Text Embeddings)

文本嵌入是将文本(单词、短语、句子或文档)转换为低维稠密向量的技术,这些向量能够捕捉文本的语义信息。语义相似的文本在嵌入空间中距离较近。

  • Sentence Transformer: 一种预训练的文本编码器模型,专门用于生成高质量的句子和段落嵌入。它通常基于 BERT 或其他 Transformer 架构,并通过对比学习进行训练,使得语义相似的句子嵌入距离更近。
  • BERT (Bidirectional Encoder Representations from Transformers): Google 提出的一种预训练深度双向 Transformer 模型,通过掩码语言模型 (Masked Language Model, MLM) 和下一句预测 (Next Sentence Prediction, NSP) 等任务在大规模文本语料上进行训练,能够捕捉丰富的上下文信息。

3.2. 前人工作

3.2.1. 弱监督分层文本分类 (Weakly-Supervised Hierarchical Text Classification)

  • WeSHClass [35]: 该方法在一个弱监督设置下进行分层文本分类,但它要求为每个类别提供少量关键词或示例文档。它首先生成伪文档来预训练文本分类器,然后进行自训练 (self-training) 以提升性能。
    • 与 TELEClass 的区别: WeSHClass 需要比 TELEClass 更多的监督信息(关键词或示例文档),而 TELEClass 仅依赖类名。TELEClass 通过 LLM 生成和语料库挖掘来丰富分类法,并利用 LLM 生成伪文档,而不是像 WeSHClass 那样依赖关键词生成伪文档。
  • TaxoClass [45]: 这是与 TELEClass 设定最接近的基线,同样仅使用每个类别的名称作为唯一的监督信号。它利用文本蕴涵 (textual entailment) 模型和自上而下 (top-down) 搜索以及语料库层面的比较来选择文档的核心类别 (core classes)。这些核心类别随后被用作伪训练数据来训练多标签分类器,并且可以选择性地进行自训练。
    • 与 TELEClass 的区别: TaxoClass 依赖文本蕴涵模型生成伪标签,这在比较多个类别相关性时可能不准确。它也忽略了语料库中除了类名和文档之外的额外类指示性特征。TELEClass 通过 LLM 增强的分类法丰富和基于嵌入的匹配来提高核心类别选择的准确性,并引入基于路径的 LLM 数据生成来解决细粒度类别的稀疏性问题。

3.2.2. 零样本文本分类 (Zero-shot Text Classification)

  • Hier-0Shot-TC [57]: 这是一种零样本方法,它利用预训练的文本蕴涵模型,迭代地在每个层级寻找与文档最相似的类别。
    • 与 TELEClass 的区别: 同样依赖文本蕴涵模型,且无法直接处理复杂的多标签输出,只能生成分类法中的一条路径。TELEClass 通过训练一个明确的分类器,能够输出多标签。
  • LLM 零样本提示 (GPT-3.5-turbo, GPT-4): 直接将所有类别包含在提示中,或进行层级式 (level-by-level) 提示,让 LLM 直接进行分类。
    • 与 TELEClass 的区别: LLM 直接提示在分层任务中效果不佳,因为它难以有效处理庞大且结构化的标签空间,导致结构信息丢失和高昂的推理成本。TELEClass 旨在训练一个更小、更高效的模型,通过结合 LLM 的通用知识和任务特定语料库知识,克服 LLM 直接提示的局限性。

3.2.3. 其他弱监督文本分类

  • Hier-doc2vec [27]: 一种弱监督方法,它首先在同一嵌入空间中训练文档和类别的表示,然后迭代地在每个层级选择最相似的类别。
  • WeSHClass [35]: 前面已提及,要求少量关键词或示例文档。
  • LOTClass [36], X-Class [53], WDDC [61], NPPrompt [68], PESCO [52], PIEClass [65], MEGClass [26], WOTClass [51], RulePrompt [30]: 这些都是平面弱监督文本分类方法,主要关注如何从类名或少量关键词中提取类指示性信息,或利用 LLM/PLM 的能力生成伪标签或数据。
    • 与 TELEClass 的关系: TELEClass 吸取了这些方法中利用 PLMs 知识(通过 LLM 生成)和语料库统计信息(通过语料库挖掘)的思想,并将其专门适配到更复杂的分层多标签设置中。

3.3. 技术演进

文本分类领域从早期的基于特征工程和传统机器学习方法,发展到基于深度学习(如循环神经网络 RNNs、卷积神经网络 CNNs),再到预训练语言模型 (PLMs) 的兴起,如 BERT、GPT 等。在监督级别上,也从全监督逐步探索半监督、弱监督,乃至零样本学习,以应对数据标注的挑战。

分层文本分类沿着两条主线演进:

  1. 局部方法 (Local Approaches): 为分类法中的每个节点或局部结构训练多个分类器。

  2. 全局方法 (Global Approaches): 通过递归正则化、图神经网络 (GNN) 或联合文档标签嵌入空间将层级结构学习到单个分类器中。

    LLMs 的出现为各种 NLP 任务带来了范式转变,其强大的零样本能力使得直接通过提示进行分类成为可能。然而,在分层文本分类中,LLMs 直接提示的挑战促使研究人员探索如何更好地将 LLMs 的能力与任务特定的结构信息和领域知识结合。

TELEClass 正是这种演进的体现。它超越了单纯依赖文本蕴涵模型或关键词的方法,通过整合 LLMs 的通用知识和未标注语料库的领域特定特征,以及精心设计的伪标签和数据生成策略,将弱监督分层文本分类推向了新的高度,尤其是在数据稀缺的细粒度类别上。

3.4. 差异化分析

TELEClass 与相关工作的主要区别和创新点体现在以下几个方面:

  1. 监督信号与任务设定:

    • 区别于全监督/半监督: TELEClass 仅使用类名作为唯一的监督信号,大大减少了对昂贵人工标注数据的依赖。
    • 区别于 WeSHClass: WeSHClass 需要关键词或示例文档,而 TELEClass 仅需类名,属于更严格的“少量监督”设定。
  2. 标签空间理解 (Taxonomy Understanding):

    • 区别于 TaxoClass 和其他弱监督方法: TaxoClass 主要依赖文本蕴涵模型和原始类名。TELEClass 引入了分类法丰富机制,结合了 LLM 生成的通用类指示性术语和从未标注语料库中挖掘的领域特定类指示性术语。这提供了更丰富、更准确的类别语义信息,尤其对区分细粒度类别至关重要。
  3. 伪标签生成 (Pseudo-Label Generation):

    • 区别于 TaxoClass: TaxoClass 使用文本蕴涵模型进行自上而下搜索和语料库级别比较来选择核心类别,其准确性可能受限于蕴涵模型的泛化能力和对类别之间细微差异的捕捉。TELEClass 采用 LLM 增强的核心类注释 (LLM-Enhanced Core Class Annotation),通过结构感知 (structure-aware) 的候选类别选择,并利用 LLM 自身的文本理解能力来精选初始核心类别。随后,通过基于丰富分类法的核心类细化 (Core Class Refinement with Enriched Taxonomy),结合文档和丰富后的类别嵌入进行更精确的匹配,利用“相似度差距”机制进一步提高伪标签的置信度。
  4. 数据稀缺问题解决 (Addressing Data Scarcity):

    • 区别于大多数弱监督方法: 传统的弱监督方法在处理长尾或细粒度类别时,由于这些类别在未标注语料库中出现频率低,难以生成高质量的伪标签。TELEClass 引入了基于路径的数据增强 (Path-Based Data Augmentation),通过 LLM 为分类法中的每条(或特定数量的)路径生成多样化的伪文档。这确保了分类法中的每个类别(尤其是细粒度类别)都有足够的正样本,有效地解决了数据稀缺问题。
  5. LLM 的集成方式:

    • 区别于直接零样本 LLM 提示: 直接将整个分类法放入 LLM 提示中效率低、成本高且效果不佳。TELEClass 将 LLM 作为智能辅助工具而非端到端分类器。LLM 用于:1) 生成类指示性术语以丰富分类法;2) 在受限候选空间内进行核心类别的精细标注;3) 生成高质量的伪训练数据。这种集成方式能够充分利用 LLM 的知识,同时避免其在处理大型结构化标签空间时的局限性,并最终训练出一个成本更低的轻量级分类器。

4. 方法论

TELEClass 方法论旨在通过结合大型语言模型 (LLMs) 的通用知识和从未标注语料库中挖掘的任务特定特征,解决少量监督分层文本分类的挑战。整个框架由四个主要模块组成:

  1. LLM 增强的核心类标注 (LLM-Enhanced Core Class Annotation):利用 LLM 识别文档最精确的“核心类别 (core classes)”。

  2. 基于语料库的分类法丰富 (Corpus-Based Taxonomy Enrichment):从语料库中提取额外的类指示性术语来丰富分类法。

  3. 基于丰富分类法的核心类细化 (Core Class Refinement with Enriched Taxonomy):使用丰富后的分类法进一步精炼核心类别。

  4. 基于路径的数据增强的文本分类器训练 (Text Classifier Training with Path-Based Data Augmentation):利用精炼的核心类别和 LLM 生成的增强数据训练最终的文本分类器。

    Figure 2 展示了 TELEClass 框架的概览。

    Figure 2: Overview of the TELEClass framework. 该图像是TELEClass框架的示意图,展示了三级文本分类的各个组成部分,包括LLM增强的核心类注释、增强分类法的核心类细化和基于路径的数据增强训练。图中提及了无标签语料库、标签分类法的丰富关键术语,以及多标签文本分类器的训练过程。

Figure 2: TELEClass 框架概览。

4.1. LLM 增强的核心类标注

方法原理: 核心类 (core classes) 被定义为最能准确描述文档的细粒度类别集合。这个过程模拟了人类进行分层文本分类的方式:首先识别文档最核心的几个类别,然后向上追溯其祖先类别以完成完整的标签集。本文提出使用 LLMs 来增强核心类标注过程,通过结构感知的候选核心类选择来降低 LLM 处理的标签空间复杂性,并利用 LLM 生成的关键词来更好地捕捉类别语义。

核心方法详解:

  1. LLM 增强的分类法关键词生成: 为了更好地捕捉类别的语义,作者利用 LLM 生成一系列与每个类别相关的关键词。这些关键词用于丰富原始的分类法结构,并巩固每个类别的含义。例如,shampoo (洗发水) 和 conditioner (护发素) 是两个相似的细粒度类别,通过识别像 flakes (头屑) 对应 shampoomoisture (滋润) 对应 conditioner 的类别特定术语,可以有效地将它们区分开来。 LLM 被提示为每个类别 cc 及其父类别生成一组能唯一标识 cc 的关键词,同时要求这些关键词与 cc 的同级类别不相关。这组由 LLM 生成的关键词记为 TcLLMT_c^{\mathrm{LLM}}

  2. 相似度度量: 基于这些 LLM 生成的关键词,文档 dd 和类别 cc 之间的相似度分数定义为该文档与类别 cc 的所有关键词中最大余弦相似度: sim(c,d)=maxtTcLLMcos(t,d) sim(c, d) = \max_{t \in T_c^{\mathrm{LLM}}} \cos(\vec{t}, \vec{d}) 其中:

    • sim(c, d) 表示类别 cc 和文档 dd 之间的相似度分数。
    • t\vec{t} 表示关键词 tt 的向量表示。
    • d\vec{d} 表示文档 dd 的向量表示。
    • cos(,)\cos(\cdot, \cdot) 是余弦相似度函数,用于衡量两个向量方向的接近程度。
    • TcLLMT_c^{\mathrm{LLM}} 是由 LLM 为类别 cc 生成的关键词集合。
    • t\vec{t}d\vec{d} 都是通过预训练的语义编码器(如 Sentence Transformer)获得的向量表示。
  3. 结构感知的候选核心类选择: 为了限制 LLM 处理的标签空间,从而提高其标注效率和准确性,采用了一种结构感知的候选核心类选择方法。 给定一个文档,该过程从分类法的根节点 (root node) 开始(层级 l=0l=0)。在每个层级 ll,它根据上述定义的相似度分数 sim(c, d),选择文档在当前层级 ll 最相似的 l+3l+3 个子类别 (children classes)。这个过程向下传递到下一个层级,只对被选中的类别进行进一步的子类别选择。这种逐渐增加选择节点数量的策略,是为了适应分类法深入时类别数量的增长。 最终,在这个过程中所有被选择过的类别构成了该文档的候选核心类别集合。这些候选类别被认为与文档在标签层级上具有最高的相似度。

  4. LLM 精选初始核心类别: 最后,将这些候选核心类别提供给 LLM,并指示 LLM 从中选择最能准确描述文档的核心类别。这个步骤产生了每个文档 did_i 的初始核心类别集合,记为 Ci0\mathbb{C}_i^0

4.2. 基于语料库的分类法丰富

方法原理: 上一步中 LLM 生成的关键词是基于其通用知识,可能无法完全捕捉语料库特定的细微语义。因此,这一阶段旨在通过分析未标注文本语料库,进一步为每个类别挖掘和添加类指示性术语。通过结合 LLM 的通用知识和语料库的特定知识,可以更好地增强弱监督信号,这对于区分那些难以辨别的细粒度类别至关重要。

核心方法详解:

  1. 收集初步相关文档: 首先,为每个类别 cc 收集一个初步相关的文档集合 Dc0DD_c^0 \subset \mathcal{D}。这个集合包含了所有那些其初始核心类别 Ci0\mathbb{C}_i^0 中包含 cccc 的任何后代类别的文档。

  2. 类指示性术语选择因子: 在分层设置下,结合以下三个因子来选择类指示性术语:

    • 流行度 (Popularity): 一个类别 cc 的类指示性术语 tt 应该频繁出现在其相关文档中。这通过术语的文档频率的对数归一化来量化: pop(t,c)=log(1+df(t,Dc0)) pop(t, c) = \log(1 + df(t, D_c^0)) 其中:

      • pop(t, c) 是术语 tt 在类别 cc 相关文档中的流行度。
      • df(t,Dc0)df(t, D_c^0) 表示在文档集合 Dc0D_c^0 中提及术语 tt 的文档数量。
    • 独特性 (Distinctiveness): 类别 cc 的类指示性术语 tt 应该在其同级类别 (siblings) 的文档中不常见。这通过 BM25 相关性函数 [42] 在同级类别集合上的 softmax 值来量化: dist(t,c,cp)=exp(BM25(t,Dc0))1+cSib(c,cp)exp(BM25(t,Dc0)) dist(t, c, c_p) = \frac{\exp(BM25(t, D_c^0))}{1 + \sum_{c' \in Sib(c, c_p)} \exp(BM25(t, D_{c'}^0))} 其中:

      • dist(t,c,cp)dist(t, c, c_p) 是术语 tt 对于类别 cc(相对于其父类别 cpc_p)的独特性。
      • Sib(c,cp)={cCcp,cR}Sib(c, c_p) = \{c' \in C | \langle c_p, c' \rangle \in \mathcal{R}\} 表示在父类别 cpc_p 下类别 cc 的同级类别集合。
      • Par(c) 表示类别 cc 的所有父类别集合。
      • BM25(t, D) 是一个常用的信息检索排名函数,衡量术语 tt 与文档集合 DD 的相关性。这里用于衡量术语 tt 在类别 cc 相关文档集中的重要性。
    • 语义相似度 (Semantic Similarity): 术语 tt 应该与类别 cc 的名称在语义上相似。这通过它们各自的嵌入(由预训练的编码器如 BERT [10] 派生)之间的余弦相似度来量化,记为 sem(c, t)

  3. 亲和力分数 (Affinity Score): 术语 tt 与类别 cc(对应于父类别 cpc_p)的亲和力分数定义为上述三个分数的几何平均值,记为 aff(t,c,cp)aff(t, c, c_p)

  4. 术语挖掘与选择: 首先,使用短语挖掘工具 AutoPhrase [44] 从语料库中挖掘高质量的单词和多词短语作为候选术语。 然后,对于每个类别 cc 及其每个父类别 cpPar(c)c_p \in Par(c),选择亲和力分数 aff(t,c,cp)aff(t, c, c_p) 最高的 top-k 个术语,记为 T(c,cp)T(c, c_p)。 最后,将这些基于语料库的术语与第一步中 LLM 生成的术语合并,得到类别 cc 的最终丰富类指示性术语集合 TcT_cTc=(cpPar(c)T(c,cp))TcLLM T_c = \left( \bigcup_{c_p \in Par(c)} T(c, c_p) \right) \bigcup T_c^{\mathrm{LLM}}

4.3. 基于丰富分类法的核心类细化

方法原理: 有了每个类别丰富的类指示性术语集合 TcT_c,这一阶段的目标是进一步利用这些信息来细化初始的核心类别 Ci0\mathbb{C}_i^0。本文采用了一种基于嵌入的文档-类别匹配方法。与之前在平面文本分类中依赖关键词级别嵌入不同,本文利用初步的核心类别分配,可以直接基于文档级别的嵌入来定义类别表示,从而实现更准确的匹配。

核心方法详解:

  1. 文档表示和类别表示:

    • 文档表示: 使用预训练的 Sentence Transformer 模型 [41] 对整个文档进行编码,得到文档的向量表示 d\vec{d}
    • 类别表示: 对于每个类别 cc,首先识别一个子集 DcD_c 的文档。这些文档明确提及了类别 cc 的至少一个类指示性关键词 wTcw \in T_c,因此被认为更自信地属于该类别。 Dc={dDc0wTc,wd} D_c = \{d \in D_c^0 | \exists w \in T_c, w \in d\} 其中 Dc0D_c^0 是前一步中收集的初步相关文档。 然后,将这些文档的平均嵌入作为类别 cc 的表示 c\vec{c}c=1DcdDcd \vec{c} = \frac{1}{|D_c|} \sum_{d \in D_c} \vec{d} 文档与类别之间的匹配分数被定义为它们表示之间的余弦相似度 cos(d,c)\cos(\vec{d}, \vec{c})
  2. 基于相似度差距的核心类识别: 观察发现,真正的核心类别与文档的匹配分数通常远高于其他类别。因此,本文利用每个文档的最大“相似度差距 (similarity gap)”来识别其核心类别。 具体来说,对于每个文档 diDd_i \in \mathcal{D}

    • 首先根据匹配分数 cos(di,cj)\cos(\vec{d}_i, \vec{c}_j) 对所有类别进行降序排序,得到一个有序列表 [c1i,c2i,,cCi][c_1^i, c_2^i, \dots, c_{|C|}^i]
    • 计算相邻类别之间的相似度差异:diffi(j):=cos(di,cji)cos(di,cj+1i)>0\mathrm{diff}^i(j) := \cos(\vec{d}_i, \vec{c}_j^i) - \cos(\vec{d}_i, \vec{c}_{j+1}^i) > 0,其中 j{1,,C1}j \in \{1, \dots, |C|-1\}
    • 找到差异最大的位置 mim_imi=argmaxj{1,,C1}diffi(j) m_i = \underset{j \in \{1, \dots, |C|-1\}}{\arg\max} \quad \mathrm{diff}^i(j)
    • 将排在位置 mim_i 及之前的类别视为该文档的精炼核心类别 Ci\mathbb{C}_i,并将对应的相似度差距作为置信度估计 conficonf_iconfi=diffi(mi),Ci={c1i,,cmii} conf_i = \mathrm{diff}^i(m_i), \quad \mathbb{C}_i = \{c_1^i, \dots, c_{m_i}^i\} 最后,选择置信度分数 conficonf_i 最高的 75%75\% 的文档 did_i 及其精炼核心类别,构成最终用于训练的伪标签数据集 Dcore\mathcal{D}^{\mathrm{core}}

4.4. 基于路径的数据增强的文本分类器训练

方法原理: 直接使用精炼的核心类别训练分类器存在一个问题:核心类别可能不够全面,无法覆盖分类法中的所有类别,尤其是细粒度 (fine-grained) 和长尾 (long-tail) 类别。这些类别由于频率较低,可能从未被选作核心类别,导致在训练过程中没有正样本。为了解决这个问题,本文提出了基于路径的文档生成方法,利用 LLM 为分类法中的每条独特路径生成少量增强文档。

核心方法详解:

  1. 基于路径的文档生成:

    • 问题: 细粒度、长尾类别在核心类别中可能缺乏代表。
    • 解决方案: 利用 LLM 生成少量增强文档(例如,每个从层级 1 节点到叶节点的独特路径生成 q=5q=5 个文档)。
    • 路径引导: 使用完整的分类法路径来指导 LLM 生成,因为下层类别的含义通常依赖于其父类别。例如,“hair care” -> “shampoo” 这条路径可以引导 LLM 生成关于头发洗发水而不是宠物洗发水或地毯洗发水(它们在不同路径上)的文本。
    • 多样性: 对每条路径只进行一次 LLM 查询,并要求它生成 qq 篇多样化的文档。
    • 这批生成的文档记为 Dgen\mathcal{D}^{\mathrm{gen}}。通过这种方式,可以确保分类法中的每个类别都至少是 qq 个文档的正类别。
  2. 分类器架构: 本文使用一个简单的文本匹配网络作为模型架构,类似于 TaxoClass [45]。它包含:

    • 一个文档编码器 (document encoder),用预训练的 BERT-base 模型 [10] 初始化。
    • 一个对数双线性匹配网络 (log-bilinear matching network)。
    • 类别表示 (class representations) 最初由类别名称嵌入(参见 3.2 节)初始化,并且在训练过程中与编码器模型分离,这意味着只有嵌入会被更新,而不会对骨干模型进行反向传播。 分类器预测文档 did_i 属于类别 cjc_j 的概率为: p(cjdi)=P(yj=1di)=σ(exp(cjTWdi)) p(c_j | d_i) = \mathcal{P}(y_j = 1 | d_i) = \sigma(\exp(\mathbf{c}_j^T \mathbf{W} \mathbf{d}_i)) 其中:
    • σ\sigma 是 sigmoid 函数,将任意实数值映射到 (0,1)(0, 1) 区间,表示概率。
    • cj\mathbf{c}_j 是类别 cjc_j 的编码表示。
    • di\mathbf{d}_i 是文档 did_i 的编码表示。
    • W\mathbf{W} 是一个可学习的交互矩阵 (learnable interaction matrix),用于捕捉类别和文档表示之间的复杂关系。
    • exp(cjTWdi)\exp(\mathbf{c}_j^T \mathbf{W} \mathbf{d}_i) 通过矩阵乘法和指数函数计算文档和类别之间的匹配得分。
  3. 训练过程: 使用二元交叉熵 (Binary Cross-Entropy, BCE) 损失对分类器进行多标签训练。

    • 对于核心类别文档 Dcore\mathcal{D}^{\mathrm{core}} 对于每个带有核心类别 Ci\mathbb{C}_i 的文档 did_i

      • 正类别集 Ci,+core\mathbb{C}_{i,+}^{\mathrm{core}} 定义为其核心类别 Ci\mathbb{C}_i 及其所有祖先 (ancestors) 的并集。这是因为如果一个文档属于某个核心类别,它也必然属于该类别的所有祖先。 Ci,+core=Ci(cCiAnc(c)) \mathbb{C}_{i,+}^{\mathrm{core}} = \mathbb{C}_i \cup \left( \bigcup_{c \in \mathbb{C}_i} Anc(c) \right)
      • 负类别集 Ci,core\mathbb{C}_{i,-}^{\mathrm{core}} 定义为除了正类别集和核心类别所有后代 (descendants) 之外的所有类别。后代不被视为负类别,因为自动生成的伪核心类别可能不完全准确,某些后代可能实际上是真实标签。 Ci,core=CCi,+corecCiDes(c) \mathbb{C}_{i,-}^{\mathrm{core}} = C - \mathbb{C}_{i,+}^{\mathrm{core}} - \bigcup_{c \in \mathbb{C}_i} Des(c) 其中 Anc(c)Des(c) 分别表示类别 cc 的祖先集合和后代集合。 对应的损失函数为 Lcore\mathcal{L}^{\mathrm{core}}
    • 对于 LLM 生成的文档 Dgen\mathcal{D}^{\mathrm{gen}} 对于 LLM 生成的文档,由于它们是根据特定路径生成的,对它们的伪标签有更高的置信度。因此:

      • 正类别集 Cp,+gen\mathbb{C}_{p,+}^{\mathrm{gen}} 简单地定义为该文档所对应的分类法路径上的所有类别 Cp\mathbb{C}_pCp,+gen=Cp \mathbb{C}_{p,+}^{\mathrm{gen}} = \mathbb{C}_p
      • 负类别集 Cp,gen\mathbb{C}_{p,-}^{\mathrm{gen}} 定义为除了路径上的所有类别之外的所有其他类别。 Cp,gen=CCp \mathbb{C}_{p,-}^{\mathrm{gen}} = C - \mathbb{C}_p 对应的损失函数为 Lgen\mathcal{L}^{\mathrm{gen}}
    • 总损失函数: 总损失 L\mathcal{L} 是两个数据集上损失的加权和,权重由它们各自的大小决定: L=Lcore+DcoreDgenLgen \mathcal{L} = \mathcal{L}^{\mathrm{core}} + \frac{|\mathcal{D}^{\mathrm{core}}|}{|\mathcal{D}^{\mathrm{gen}}|} \cdot \mathcal{L}^{\mathrm{gen}} 通过这种加权方式,确保了两个数据源对总损失的贡献得到适当平衡。 文章指出,不像之前的研究 [35, 45] 中常用的自训练 (self-training),本文没有继续使用自训练来提升模型性能,这留作未来的探索。

Algorithm 1 总结了 TELEClass 的整个方法流程。

# Algorithm 1: TELEClass

**输入:** 语料库 D\mathcal{D},标签分类法 T\mathcal{T},预训练文本编码器 SS,LLM G\mathcal{G}。
**输出:** 一个能够将每个文档分类到 T\mathcal{T} 中一组类别的文本分类器 FF。

1: // LLM 增强的核心类标注 (LLM-Enhanced Core Class Annotation);
2: **for** cCc \in C **do**
3:   TcLLMuse GT_c^{\mathrm{LLM}} \gets \mathrm{use}\ \mathcal{G} to enrich cc with key terms;  // 使用 LLM G\mathcal{G} 为类别 cc 丰富关键词
4: **for** diDd_i \in \mathcal{D} **do**
5:   Ci0\mathbb{C}_i^0 \gets use G\mathcal{G} to select initial core classes from candidates retrieved using SS and TcLLMT_c^{\mathrm{LLM}}; // 使用 LLM G\mathcal{G} 从通过文本编码器 SSTcLLMT_c^{\mathrm{LLM}} 检索到的候选类别中选择初始核心类别

6: // 基于语料库的分类法丰富 (Corpus-Based Taxonomy Enrichment);
7: **for** cCc \in C **do**
8:   Dc0D_c^0 \gets a set of roughly classified documents based on Ci0\mathbb{C}_i^0; // 基于 Ci0\mathbb{C}_i^0 收集一组初步分类的文档
9:   **for** cpPar(c)c_p \in Par(c) **do**
10:    T(c,cp)T(c, c_p) \gets top terms ranked by affinity based on Dc0D_c^0 and Sib(c,cp)Sib(c, c_p); // 基于 Dc0D_c^0Sib(c,cp)Sib(c, c_p) 提取并排名最高的亲和力术语
11:  TcT_c \gets aggregate corpus-based terms T(c,cp)T(c, c_p) and LLM-generated terms TcLLMT_c^{\mathrm{LLM}} using Eq. 4; // 根据公式 4 聚合基于语料库的术语和 LLM 生成的术语

12: // 基于丰富分类法的核心类细化 (Core Class Refinement with Enriched Taxonomy);
13: d\vec{d} \gets document representation `S(d)`; // 获取文档表示
14: **for** cCc \in C **do**
15:   DcD_c \gets confident documents by matching TcT_c; // 通过匹配 TcT_c 确定置信文档
16:   c\vec{c} \gets average document representation in DcD_c; // 计算 DcD_c 中文档的平均表示作为类别表示
17: **for** diDd_i \in \mathcal{D} **do**
18:   Ci,confi\mathbb{C}_i, conf_i \gets refined core classes and confidence score using cos(d,c)\cos(\vec{d}, \vec{c}) and Eq. 5; // 使用余弦相似度 cos(d,c)\cos(\vec{d}, \vec{c}) 和公式 5 精炼核心类别并计算置信度
19: Dcore\mathcal{D}^{\mathrm{core}} \gets top 75% confident refined core classes; // 选择置信度最高的 75% 精炼核心类别作为伪标签数据

20: // 基于路径的数据增强的文本分类器训练 (Text Classifier Training with Path-Based Data Augmentation);
21: Dgen\mathcal{D}^{\mathrm{gen}} \gets generate qq documents for each path using G\mathcal{G}; // 使用 LLM G\mathcal{G} 为每条路径生成 qq 个文档
22: FF \gets train classifier with Dcore\mathcal{D}^{\mathrm{core}} and Dgen\mathcal{D}^{\mathrm{gen}} using Eq. 6; // 使用 Dcore\mathcal{D}^{\mathrm{core}}Dgen\mathcal{D}^{\mathrm{gen}} 训练分类器 FF (根据公式 6 的损失函数)
23: **Return** FF;

5. 实验设置

5.1. 数据集

实验使用了两个公开数据集,涵盖不同领域,以评估 TELEClass 的性能。以下是数据集的概述:

Dataset# unlabeled train# test# labels
Amazon-53129,48719,685531
DBPedia-298196,66549,167298

以下是原文 Table 1 的结果:

  1. Amazon-531 [32]:

    • 来源与特点: 包含亚马逊产品评论和产品类型的三层标签分类法。类别数量为 531。
    • 规模: 29,487 份未标注训练文档,19,685 份测试文档。
    • 领域: 电子商务,产品评论。
    • 选择原因: 代表了电商领域常见的细粒度产品分类任务,且具有层级结构。
  2. DBPedia-298 [28]:

    • 来源与特点: 包含维基百科文章和其类别的三层标签分类法。类别数量为 298。

    • 规模: 196,665 份未标注训练文档,49,167 份测试文档。

    • 领域: 知识图谱,通用百科知识。

    • 选择原因: 代表了更广泛的知识领域分类任务,同样具有层级结构。

      选择这两个数据集的原因是它们具有不同的领域特性和标签规模,有助于全面评估 TELEClass 在不同场景下的泛化能力和有效性。

5.2. 评估指标

本文采用以下评估指标来衡量模型的性能,这些指标在多标签分层文本分类任务中是常见的:

5.2.1. Example-F1 (示例 F1 值)

  • 概念定义: Example-F1 (也称为微 Dice 系数 micro-Dice coefficient) 评估多标签分类结果,不考虑预测标签的排名顺序。它通过计算每个文档的 F1 值,然后取所有文档的平均值来衡量模型在每个文档上的整体分类准确性。高 Example-F1 值表示模型能够很好地识别文档的所有相关标签。
  • 数学公式: ExampleF1=1DdiD2CitrueCipredCitrue+Cipred \mathrm{Example-F1} = \frac{1}{|\mathcal{D}|} \sum_{d_i \in \mathcal{D}} \frac{2 \cdot |\mathbb{C}_i^{\mathrm{true}} \cap \mathbb{C}_i^{\mathrm{pred}}|}{|\mathbb{C}_i^{\mathrm{true}}| + |\mathbb{C}_i^{\mathrm{pred}}|}
  • 符号解释:
    • D|\mathcal{D}|:测试文档的总数量。
    • diDd_i \in \mathcal{D}:第 ii 个文档。
    • Citrue\mathbb{C}_i^{\mathrm{true}}:文档 did_i 的真实标签集合。
    • Cipred\mathbb{C}_i^{\mathrm{pred}}:文档 did_i 的预测标签集合。
    • CitrueCipred|\mathbb{C}_i^{\mathrm{true}} \cap \mathbb{C}_i^{\mathrm{pred}}|:真实标签和预测标签的交集大小(即正确预测的标签数量)。
    • Citrue|\mathbb{C}_i^{\mathrm{true}}|:真实标签集合的大小。
    • Cipred|\mathbb{C}_i^{\mathrm{pred}}|:预测标签集合的大小。

5.2.2. Precision@k (P@k, 前 k 个标签的精确率)

  • 概念定义: P@k 是一种基于排名的指标,用于评估模型在前 kk 个预测类别中的精确率。它关注模型预测出的最相关类别中有多少是正确的。例如,P@1 衡量最顶层预测标签的准确性,P@3 则衡量前三个预测标签的准确性。高 P@k 值表示模型能够准确地识别出文档的最主要或最相关的少数类别。
  • 数学公式: P@k=1kdiDCitrueCi,kpredmin(k,Citrue) \mathrm{P@k} = \frac{1}{k} \sum_{d_i \in \mathcal{D}} \frac{|\mathbb{C}_i^{\mathrm{true}} \cap \mathbb{C}_{i,k}^{\mathrm{pred}}|}{\min(k, |\mathbb{C}_i^{\mathrm{true}}|)}
  • 符号解释:
    • kk:要考虑的预测标签的数量(例如,1 或 3)。
    • Ci,kpred\mathbb{C}_{i,k}^{\mathrm{pred}}:文档 did_i 的前 kk 个预测标签集合。
    • min(k,Citrue)\min(k, |\mathbb{C}_i^{\mathrm{true}}|):为了避免分母为零或过大,取 kk 与真实标签数量中的最小值。这确保了在真实标签少于 kk 的情况下,分母不会超出实际可能被正确预测的标签数。

5 2 3 Mean Reciprocal Rank (MRR, 平均倒数排名)

  • 概念定义: MRR 是另一种基于排名的指标,它评估模型预测的真实标签的排名质量。对于每个文档,它计算其所有真实标签在预测列表中的倒数排名 (reciprocal rank) 的平均值,然后对所有文档求平均。如果真实标签排名靠前,MRR 值会更高。它特别关注第一个正确预测的标签的位置。
  • 数学公式: MRR=1DdiD1CitruecjCitrue1min{kcjCi,kpred} \mathrm{MRR} = \frac{1}{|\mathcal{D}|} \sum_{d_i \in \mathcal{D}} \frac{1}{|\mathbb{C}_i^{\mathrm{true}}|} \sum_{c_j \in \mathbb{C}_i^{\mathrm{true}}} \frac{1}{\min\{k | c_j \in \mathbb{C}_{i,k}^{\mathrm{pred}}\}}
  • 符号解释:
    • min{kcjCi,kpred}\min\{k | c_j \in \mathbb{C}_{i,k}^{\mathrm{pred}}\}:真实标签 cjc_j 在预测标签列表中的最小排名。例如,如果 cjc_j 是预测列表中的第 5 个,则其排名为 5。
    • 1min{kcjCi,kpred}\frac{1}{\min\{k | c_j \in \mathbb{C}_{i,k}^{\mathrm{pred}}\}}:真实标签 cjc_j 的倒数排名。如果排名是 1,倒数排名是 1;如果排名是 2,倒数排名是 0.5。

5.3. 对比基线

论文将 TELEClass 与以下方法进行了比较:

  1. 零样本 (Zero-Shot) 方法:

    • Hier-0Shot-TC [57]: 一种基于预训练文本蕴涵模型的零样本分层分类方法,它迭代地在每个层级寻找最相似的类别。
    • ChatGPT (GPT-3.5-turbo): 直接将所有类别包含在提示中,查询 GPT-3.5-turbo 模型,要求其为给定文档提供 3 个最合适的类别。
  2. 弱监督 (Weakly-Supervised) 方法:

    • Hier-doc2vec [27]: 一种弱监督方法,通过在同一嵌入空间中训练文档和类别表示,然后迭代地在每个层级选择最相似的类别。
    • WeSHClass [35]: 一种弱监督方法,要求为每个类别提供少量关键词或示例文档。它通过生成伪文档预训练分类器,然后进行自训练。
    • TaxoClass-NoST [45]: TaxoClass 的一个变体,它不使用自训练 (self-training) 步骤。这使得它与 TELEClass 在训练策略上更具可比性,因为 TELEClass 也没有使用自训练。
    • TaxoClass [45]: 原始的 TaxoClass 方法,仅使用类名作为监督信号,通过文本蕴涵模型选择核心类别,并进行自训练。
  3. 全监督 (Fully-Supervised) 方法:

    • Fully-Supervised: 这是一个理想化的基线,使用全部标注的训练数据来训练 TELEClass 中使用的相同文本匹配网络。它提供了该分类器在充足监督下的性能上限。

5.4. 实现细节

  • 语义编码器 (Semantic Encoder):LLM 增强的核心类标注 (Section 3.1) 和 基于丰富分类法的核心类细化 (Section 3.3) 中用于计算相似度度量时,使用了 Sentence Transformer 模型 all-mpnet-base-v2 作为文本编码器。
  • LLM 模型: 对于 LLM 增强的分类法丰富核心类标注基于路径的生成,查询了 GPT-3.5-turbo-0125 模型。
  • 语料库基于的分类法丰富 (Corpus-Based Taxonomy Enrichment):
    • 术语和类名嵌入使用预训练的 BERT-base-uncased 模型 [10] 获取。
    • 为每个类别选择了 topk=20top-k = 20 个丰富术语。
    • 短语挖掘工具 AutoPhrase [44] 用于从语料库中挖掘高质量的候选术语。
  • 基于路径的数据生成 (Path-Based Data Generation):
    • 为每个路径生成了 q=5q = 5 个文档。
  • 最终分类器 (Final Classifier):
    • 文档编码器初始化为 BERT-base-uncased,以与基线进行公平比较。
    • 训练使用 AdamW 优化器。
    • 学习率 (learning rate) 设置为 5e-5
    • 批处理大小 (batch size) 为 64
  • 硬件: 实验在单个 NVIDIA RTX A6000 GPU 上运行。

6. 实验结果与分析

6.1. 核心结果分析

以下是原文 Table 2 的结果:

Supervision Type −MethodsAmazon-531DBPedia-298
Example-F1P@1P@3MRRExample-F1P@1P@3MRR
Zero-ShotHier-0Shot-TC†0.47420.71440.46100.67650.78710.6765
ChatGPT0.51640.68070.47520.48160.53280.4547
Weakly-SupervisedHier-doc2vec†0.31570.58050.31150.14430.26350.1443
WeSHClass†0.24580.57730.25170.30470.53590.3048
TaxoClass-NoST†0.54310.79180.54140.59110.77120.86210.77120.8221
TaxoClass0.59340.81200.58940.63320.81560.89420.81560.8762
TELEClass0.64830.85050.64210.68650.86330.93510.86330.8864
Fully-Supervised0.88430.95240.87580.90850.97860.99450.97860.9826

从 Table 2 的实验结果中,可以得出以下关键观察和分析:

  1. TELEClass 显著优于所有零样本和弱监督基线:

    • 在两个数据集(Amazon-531 和 DBPedia-298)上,TELEClass 在所有评估指标(Example-F1, P@1, P@3, MRR)上都取得了最佳性能。
    • 例如,在 Amazon-531 上,TELEClass 的 Example-F1 达到 0.6483,远高于最强的弱监督基线 TaxoClass (0.5934) 和 TaxoClass-NoST (0.5431),也远超 ChatGPT (0.5164)。
    • 在 DBPedia-298 上,TELEClass 的 Example-F1 为 0.8633,同样显著高于 TaxoClass (0.8156) 和 TaxoClass-NoST (0.7712)。
    • 这强有力地证明了 TELEClass 在不依赖人工标注的情况下,处理分层文本分类任务的有效性。
  2. TELEClass 在弱监督方法中的领先地位:

    • TaxoClass-NoST (不进行自训练的 TaxoClass 版本) 相比,TELEClass 表现出显著优势。考虑到 TELEClass 使用了更简单的分类器模型,这表明 TELEClass 通过结合未标注语料库和 LLMs 获得的伪训练数据质量更高。
  3. LLMs 直接提示在分层任务中的局限性:

    • 尽管 LLMs (如 ChatGPT) 在许多任务中表现强大,但在此分层文本分类任务中,其性能(ChatGPT 在 Amazon-531 上的 Example-F1 为 0.5164,在 DBPedia-298 上为 0.4816)显著低于强大的弱监督文本分类器。
    • 这验证了论文的论点,即简单地将大型、结构化的标签空间直接包含在 LLM 提示中是无效且低效的。它突出了结合语料库特定知识以改进标签分类法理解在分层设置中的必要性。
  4. 与全监督基线的差距:

    • 尽管 TELEClass 取得了显著进步,但与 Fully-Supervised (全监督) 基线仍存在一定差距。例如,在 Amazon-531 上,Fully-Supervised 的 Example-F1 达到 0.8843,而 TELEClass 为 0.6483。这表明在无监督或弱监督设置下,仍有很大的提升空间,但 TELEClass 已在现有约束下达到了非常优秀的性能。

时间复杂度分析: 论文指出,在 Amazon-531 数据集上,TELEClass 和最强的基线 TaxoClass 的运行时间大致相同,都在 5 到 5.5 小时左右。这表明 TELEClass 并没有增加整体的时间复杂度。原因在于 TaxoClass 需要对每个文档和候选类别对运行文本蕴涵模型,而 TELEClass 的分类法丰富步骤使得可以通过嵌入相似度计算来简化这一过程,从而节省了大量时间,这些节省的时间被用于 LLM 提示操作。

6.2. 消融实验/参数分析

以下是原文 Table 3 的结果:

MethodsAmazon-531DBPedia-298
Example-F1P@1P@3MRRExample-F1P@1P@3MRR
Gen-Only0.51510.74770.50960.53570.79300.94210.79300.8209
TELEClass-NoLLMEnrich0.55200.73700.54630.59000.83190.91080.83190.8563
TELEClass-NoCorpusEnrich0.61430.83580.60820.65220.81850.89160.81850.8463
TELEClass-NoGen0.64490.83480.63870.67920.84940.91870.84940.8730
TELEClass0.64830.85050.64210.68650.86330.93510.86330.8864

消融实验旨在理解 TELEClass 各个组件对最终性能的贡献。

  1. Gen-Only (仅使用生成数据训练):

    • 该变体仅使用基于路径的 LLM 生成文档来训练最终的分类器,而没有利用从核心类别中提取的伪标签。
    • 结果: Gen-Only 在 Amazon-531 上的 Example-F1 为 0.5151,在 DBPedia-298 上为 0.7930。这已经与 Table 2 中一些强大的基线(如 TaxoClass-NoST,Amazon-531 为 0.5431,DBPedia-298 为 0.7712)相当甚至更好。
    • 分析: 这表明了基于路径的 LLM 数据增强策略的强大有效性,即使作为唯一的监督来源,它也能为模型提供足够高质量的训练信号,尤其对于覆盖细粒度类别至关重要。
  2. TELEClass-NoLLMEnrich (移除 LLM 基于的分类法丰富):

    • 此变体排除了 LLM 增强的分类法关键词生成 模块。这意味着分类法不会通过 LLM 生成的通用关键词进行丰富。
    • 结果: 性能有所下降(Amazon-531 Example-F1 从 0.6483 降至 0.5520,DBPedia-298 Example-F1 从 0.8633 降至 0.8319)。
    • 分析: LLM 基于的分类法丰富对于模型性能是重要的,它提供了 LLM 的通用世界知识,有助于更好地理解类别语义。在 Amazon-531 上,其贡献甚至大于语料库丰富,这可能是因为亚马逊的产品类别更符合 LLM 的通用知识。
  3. TELEClass-NoCorpusEnrich (移除基于语料库的分类法丰富):

    • 此变体排除了 基于语料库的分类法丰富 模块。这意味着分类法不会通过从未标注语料库中挖掘的领域特定术语进行丰富。
    • 结果: 性能也出现下降(Amazon-531 Example-F1 从 0.6483 降至 0.6143,DBPedia-298 Example-F1 从 0.8633 降至 0.8185)。
    • 分析: 基于语料库的丰富同样重要,它引入了领域特定的知识,这对于区分那些在通用知识中不那么明显但语料库中具有独特指示的细微类别非常有帮助。在 DBPedia-298 上,其贡献甚至大于 LLM 丰富,这表明 DBPedia 的类别可能更“微妙”,需要语料库特定知识来区分。
  4. TELEClass-NoGen (移除基于路径的数据增强):

    • 此变体排除了 基于路径的数据增强 模块。分类器仅使用精炼的核心类别 Dcore\mathcal{D}^{\mathrm{core}} 进行训练。
    • 结果: 性能略有下降(Amazon-531 Example-F1 从 0.6483 降至 0.6449,DBPedia-298 Example-F1 从 0.8633 降至 0.8494)。
    • 分析: 虽然下降幅度不如分类法丰富模块大,但基于路径的数据增强仍然带来了持续的性能提升。这证实了它在解决细粒度类别数据稀缺问题上的价值,通过确保每个类别都有足够的正样本,进一步提高了模型的鲁棒性和泛化能力。

总结: 所有消融实验结果都支持了 TELEClass 各个组件的有效性。LLM 增强和语料库增强的分类法丰富都对性能有积极影响,并且它们在不同数据集上的相对贡献有所不同,这表明了结合通用知识和领域特定知识的重要性。基于路径的 LLM 数据生成作为一种数据增强策略,能够有效弥补细粒度类别的稀缺性,并稳定提升模型性能。

6.3. 与零样本 LLM 提示的比较

以下是原文 Table 4 的结果:

MethodsAmazon-531DBPedia-298
Example-F1P@1P@3Est. CostEst. TimeExample-F1P@1P@3Est. CostEst. Time
GPT-3.5-turbo0.51640.68070.475260</td><td>240mins</td><td>0.4816</td><td>0.5328</td><td>0.4547</td><td>60</td><td>240 mins</td><td>0.4816</td><td>0.5328</td><td>0.4547</td><td>80400 mins
GPT-3.5-turbo (level)0.66210.85740.644420</td><td>800mins</td><td>0.6649</td><td>0.8301</td><td>0.6488</td><td>20</td><td>800 mins</td><td>0.6649</td><td>0.8301</td><td>0.6488</td><td>601,000 mins
GPT-40.69940.82200.6890800</td><td>400mins</td><td>0.6054</td><td>0.6520</td><td>0.5920</td><td>800</td><td>400 mins</td><td>0.6054</td><td>0.6520</td><td>0.5920</td><td>2,5001,000 mins
TELEClass0.64830.85050.6421<1</td><td>3 mins</td><td>0.8633</td><td>0.9351</td><td>0.8633</td><td>&lt;17 mins

该部分详细比较了 TELEClass 与零样本 LLM 提示的性能、成本和时间效率。由于 LLMs 难以直接提供排名预测,这里只报告 Example-F1 和 P@k 指标。

  1. 性能对比:

    • DBPedia-298: TELEClass 在 DBPedia-298 上表现出压倒性的优势,其 Example-F1 (0.8633) 远高于所有 LLM 零样本方法,包括 GPT-4 (0.6054) 和 GPT-3.5-turbo (level) (0.6649)。这表明在处理 DBPedia 这种可能包含更微妙、更复杂语义的分类法时,TELEClass 结合语料库特定知识和精细化伪标签生成的能力更为强大。
    • Amazon-531: 在 Amazon-531 上,TELEClass (Example-F1: 0.6483) 略低于 GPT-3.5-turbo (level) (0.6621) 和 GPT-4 (0.6994),但仍然保持了可比的性能。这可能因为 Amazon-531 的产品类别相对更常见、语义更清晰,更符合 LLM 的通用知识范畴,因此直接使用高级 LLM 也能获得不错的效果。
  2. 成本和时间效率:

    • TELEClass 的显著优势: TELEClass 在推理阶段的成本和时间效率上具有巨大优势。一旦训练完成,TELEClass 的推理成本低于 1 美元,推理时间仅为几分钟 (Amazon-531 3 分钟,DBPedia-298 7 分钟)。
    • LLMs 的高昂成本: 相比之下,LLM 零样本方法在推理上成本高昂且耗时。
      • GPT-3.5-turbo 的估计成本分别为 60 美元和 80 美元,时间为 240 分钟和 400 分钟。
      • GPT-3.5-turbo (level) 虽然成本有所降低,但由于需要进行更多次查询(每次查询只处理一个层级),其推理时间反而更长(800 分钟和 1000 分钟)。
      • GPT-4 的成本更是高得惊人(800 美元和 2500 美元),这使其在实际应用中难以承受,尤其对于大规模测试数据。
  3. 分类法结构的重要性:

    • GPT-3.5-turbo (level) 始终优于简单的 GPT-3.5-turbo 版本。这证明了在 LLM 提示中融入分类法结构的重要性,即使是通过层级式查询这种间接方式,也能帮助 LLM 更好地理解任务。

总结: TELEClass 在 DBPedia-298 上表现出卓越的性能,并在 Amazon-531 上与最强大的 LLM 零样本方法性能可比。更重要的是,它在推理成本和时间效率上具有压倒性优势。这使得 TELEClass 成为一个更实用、更可扩展的解决方案,适用于需要处理大量文档的实际应用场景。

6.4. 案例研究

以下是原文 Table 5 的结果:

DatasetDocumentCore Classes by...True LabelsCorr. Enrichment
DBPediaThe Lindenhurst Memorial Library (LML) islocated in Lindenhurst, New York, and is oneof the fifty six libraries that are part of theSuffolk Cooperative Library System ...TaxoClass: villageTELEClass initial: buildingTELEClass refined: librarylibrary©, agent,educational institutionClass: libraryTop Enrichment:national library,central library,collection, volumes...
AmazonSince mom (89 yrs young) isn't steady onher feet, we have placed these grab barsaround the room. It gives her the stabilityand security she needs.TaxoClass: personal care,health personal care, safetyTELEClass initial: daily living aids,medical supplies equipment, safety,TELEClass refined:bathroom aids safetyhealth personal care,medical supplies equipment,bathroom aids safety@Class:bathroom aids safetyTop Enrichment:seat, toilet, shower,safety, handles...

案例研究旨在通过具体文档来展示 TELEClass 框架中间步骤(如核心类别选择)的有效性。

案例 1:DBPedia 文档(关于图书馆)

  • 文档内容: “The Lindenhurst Memorial Library (LML) is located in Lindenhurst, New York, and is one of the fifty six libraries that are part of the Suffolk Cooperative Library System ...”(林登赫斯特纪念图书馆位于纽约林登赫斯特,是萨福克合作图书馆系统下属的五十六个图书馆之一...)
  • 真实标签: library (图书馆) Ⓞ, agent (机构), educational institution (教育机构)。其中 library 是最优核心类别。
  • TaxoClass 选择的核心类别: village (村庄)
    • 分析: TaxoClass 错误地将文档归类为“村庄”,这可能是因为它依赖于文本蕴涵模型,且缺乏对“library”更深层次的语义理解或语料库特定知识。它可能被文档中提及的“Lindenhurst, New York”等地理信息误导。
  • TELEClass 初始核心类别(LLM 选择): building (建筑)
    • 分析: TELEClass 初始阶段(利用 LLM)选择的“建筑”已经比“村庄”更接近真实含义。这得益于 LLM 强大的通用知识理解能力,它能够识别“library”作为一种建筑类型。
  • TELEClass 精炼核心类别: library (图书馆)
    • 分析: 经过 TELEClass 的精炼步骤,模型最终正确地识别出“library”作为核心类别。这得益于:
      1. LLM 增强的分类法丰富:LLM 为“library”类别生成了“national library, central library, collection, volumes...”等关键词。
      2. 基于语料库的分类法丰富:如果语料库中有大量提及“library”的文档,会进一步强化这些关键词。
      3. 核心类细化:基于这些丰富的类指示性特征,文档“Lindenhurst Memorial Library”与“library”类别嵌入的匹配分数会显著高于其他类别,从而通过“相似度差距”机制被精确选中。
  • 对应的分类法丰富结果(Class: library): national library, central library, collection, volumes... 这些关键词准确捕捉了“library”的本质特征。

案例 2:Amazon 文档(关于浴室扶手)

  • 文档内容: “Since mom (89 yrs young) isn't steady on her feet, we have placed these grab bars around the room. It gives her the stability and security she needs.” (因为妈妈(89 岁高龄)站不稳,我们在房间里安装了这些扶手。它给了她所需的稳定和安全。)
  • 真实标签: health personal care (健康个人护理), medical supplies equipment (医疗用品设备), bathroom aids safety (浴室辅助安全) Ⓞ。其中 bathroom aids safety 是最优核心类别。
  • TaxoClass 选择的核心类别: personal care, health personal care, safety
    • 分析: TaxoClass 识别出了一些通用但不够细致的类别,例如“个人护理”、“健康个人护理”和“安全”,但未能精确捕捉到“浴室辅助安全”这一最细粒度的核心类别。
  • TELEClass 初始核心类别(LLM 选择): daily living aids, medical supplies equipment, safety
    • 分析: 初始 LLM 标注比 TaxoClass 更进一步,识别出“日常生活辅助用品”和“医疗用品设备”,更加接近真实意图,但仍未达到最细粒度。
  • TELEClass 精炼核心类别: bathroom aids safety (浴室辅助安全)
    • 分析: 经过精炼,TELEClass 准确识别了最精确的细粒度核心类别“bathroom aids safety”。这同样归功于:
      1. LLM 增强的分类法丰富:LLM 可能为“bathroom aids safety”类别生成了相关关键词。
      2. 基于语料库的分类法丰富:从产品评论语料库中挖掘出“seat, toilet, shower, safety, handles...”等关键词,这些关键词与文档中描述的“grab bars”在功能和应用场景上高度匹配。
      3. 核心类细化:这些丰富特征使得文档与“bathroom aids safety”类别嵌入的匹配分数最高,从而被精确选中。
  • 对应的分类法丰富结果(Class: bathroom aids safety): seat, toilet, shower, safety, handles... 这些关键词非常精确地描绘了“bathroom aids safety”类别的产品特征和使用场景。

负面案例分析: 论文还提到了一个 TELEClass 表现不如零样本 LLM 提示的案例:

  • 文档内容: 关于“glycolic treatment pads”(果酸护理垫)的产品评论。
  • GPT 预测: beauty (美容) 和 skin care (护肤)。
  • TELEClass 预测: health care (保健)。
  • 分析: TELEClass 错误地预测为“health care”,作者怀疑这可能是由于评论中的词语“treatment”(治疗/护理)导致的词汇偏见。基于术语的伪标签方法可能过度依赖某些特定词汇,而忽略了整体上下文的细微差别。例如,“treatment”在“glycolic treatment pads”中更倾向于美容护肤而非医疗保健。这是关键词/术语匹配方法的已知局限性,也是未来需要改进的方向。

7. 总结与思考

7.1. 结论总结

本文提出了 TELEClass,一种用于少量监督分层文本分类的新方法。其核心贡献在于有效地结合了大型语言模型 (LLMs) 的通用知识和未标注文本语料库中的任务特定信息。TELEClass 通过以下关键模块实现了这一目标:

  1. 分类法丰富: 结合 LLM 生成的通用关键词和从语料库中挖掘的领域特定类指示性术语,增强对标签分类法语义的理解。

  2. LLM 增强的核心类标注: 利用 LLM 在结构感知候选空间内识别文档最准确的核心类别,提高伪标签的质量。

  3. 基于丰富分类法的核心类细化: 利用文档和丰富后的类别嵌入进行精确匹配,并通过相似度差距机制进一步优化核心类别选择。

  4. 基于路径的数据增强: 利用 LLM 为分类法中每条路径生成多样化的伪文档,有效解决了细粒度类别数据稀缺的问题。

    实验结果表明,TELEClass 在两个公开数据集(Amazon-531 和 DBPedia-298)上显著优于现有的零样本和弱监督基线方法。此外,与直接使用 LLM 进行零样本提示相比,TELEClass 在性能上具有可比性,但在推理成本和时间效率上优势巨大,使其成为一个更实用、更可扩展的解决方案。

7.2. 局限性与未来工作

论文作者指出了以下局限性并提出了未来研究方向:

  1. 通用化到其他低资源任务: 目前 TELEClass 专注于分层文本分类。未来计划将其思想(结合 LLM 和数据特定知识)推广到其他具有分层标签空间的低资源文本挖掘任务,例如细粒度实体类型识别 (fine-grained entity typing)。
  2. 更先进的模型架构和训练目标: 本文主要关注获取高质量的伪标签数据,而分类器本身采用了相对简单的文本匹配网络和目标函数。未来可以探索如何结合更先进的网络结构(如更复杂的 Transformer 架构)和对噪声鲁棒的训练目标 (noise-robust training objectives),以进一步提升模型性能。
  3. 更复杂的标签空间和资源场景: 探索将 TELEClass 扩展到更具挑战性的场景:
    • 私有领域知识: 当现有 LLMs 缺乏初始标注所需的领域知识时(例如,一个高度专业化的私有领域),如何进行有效的适应。
    • 低资源语料库: 在未标注语料库可用性有限的情况下,如何继续保持方法的有效性。
    • 超大规模分类法: 如何处理包含数百万个类别(或更复杂结构)的超大型分层标签空间。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. LLM 与领域知识结合的范式: TELEClass 为 LLM 在特定任务中的应用提供了一个非常好的范例。它没有盲目地将 LLM 作为“万能”的端到端解决方案,而是将其巧妙地用作“智能助手”和“数据生成器”。这种策略性地集成 LLM,使其发挥在通用知识上的优势,同时通过结合领域特定语料库信息和训练一个小型分类器,规避了 LLM 在处理复杂结构、高成本和低效率方面的劣势。这对于未来设计基于 LLM 的实际应用具有重要的指导意义。
  2. 分类法丰富的重要性: 论文强调了分类法丰富对于理解细粒度类别语义的重要性。无论是通过 LLM 带来的通用知识,还是通过语料库挖掘的领域特定知识,这些额外的类指示性术语都极大地增强了原始类名的弱监督信号,这在处理复杂层级分类任务时尤其关键。
  3. 数据稀缺解决方案: 基于路径的 LLM 数据生成是一个非常实用的创新点。它巧妙地解决了长尾和细粒度类别在弱监督设置下数据稀缺的固有难题。这种方法能够以可控的成本为每个类别路径生成高质量、多样化的伪文档,从而确保了所有类别都有足够的训练样本,提高了模型的泛化能力。
  4. “相似度差距”的直觉: 在核心类细化中利用“相似度差距”来确定核心类别并估计置信度,是一个简洁而有效的启发式方法。它反映了真实标注中,核心类别与文档的相关性往往与其他类别存在显著差异的直觉。

7.3.2. 批判与潜在改进

  1. 词汇偏见问题: 论文在案例研究中提到了 TELEClass 可能存在的词汇偏见问题(如“treatment”导致对“glycolic treatment pads”的错误分类)。这表明,尽管分类法丰富增强了语义理解,但如果关键词选择或匹配机制过于依赖表面词汇,仍可能导致误分类。
    • 改进方向:
      • 引入更鲁棒的语义匹配,例如利用上下文感知的词嵌入,或者在匹配时考虑词语在文档中的领域特定含义,而非仅仅是字面匹配。
      • 在生成关键词时,可以要求 LLM 考虑关键词的歧义性 (ambiguity)语境相关性 (contextual relevance),并生成更多上下文敏感的关键词集合。
      • 结合多模态信息(如果可用),例如产品图片,可以进一步减少文本带来的偏见。
  2. LLM 成本的初始投入: 尽管 TELEClass 在推理阶段成本低廉,但在训练前的 LLM 增强的分类法丰富和数据生成阶段仍需要 LLM 查询。虽然论文指出成本低于 1 美元,但对于极大规模的分类法或高度频繁的重训练需求,这部分成本仍需考虑。
    • 改进方向: 探索更高效的 LLM 提示策略,或者引入更小的、领域特化的生成模型替代通用 LLM,以进一步降低预处理阶段的成本。
  3. 对分类法质量的依赖: TELEClass 的有效性在很大程度上依赖于输入标签分类法本身的质量。如果分类法结构混乱、类别定义模糊或存在大量重叠,那么 LLM 的丰富和语料库的挖掘效果可能会受限。
    • 改进方向: 可以在 TELEClass 之前增加一个分类法质量评估或优化模块,例如通过自动化检测重叠类别或建议更清晰的定义。
  4. 模型鲁棒性: 论文提到未来工作可以探索噪声鲁棒的训练目标。伪标签的生成过程必然会引入噪声,如何设计更强大的训练策略来抵御这些噪声是关键。
    • 改进方向: 可以考虑自纠正 (self-correction) 机制,或者使用对比学习 (contrastive learning) 等方法,使模型在区分相似类别时更具鲁棒性。

      总而言之,TELEClass 是一项在少量监督分层文本分类领域的重要进展,它巧妙地平衡了 LLM 的通用能力和任务特定知识,为实际应用提供了高效且高性能的解决方案。其提出的框架和思路对于未来在低资源场景下利用 LLM 解决复杂 NLP 任务具有重要的参考价值。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。