论文状态：已完成

HierPrompt: Zero-Shot Hierarchical Text Classification with LLM-Enhanced Prototypes

发表：2025/01/01

零样本层次文本分类 (1)大语言模型原型增强 (1)层次原型精炼 (1)示例文本原型 (1)最大相似性传播技术 (1)

原文链接

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了HierPrompt，一种用于零样本分层文本分类的方法，旨在提升原型的代表性和信息量。通过引入示例文本原型和类别名称原型，并结合最大相似度传播技术，优化了原型构建过程。实验验证了其在多个基准数据集上的显著优越性。

摘要

Hierarchical Text Classification is a challenging task which classifies texts into categories arranged in a hierarchy. Zero-Shot Hierarchical Text Classification (ZS-HTC) further assumes only the availability of hierarchical taxonomy, without any training data. Existing works of ZS-HTC are typically built on the prototype-based framework by embedding the category names into prototypes, which, however, do not perform very well due to the ambiguity and impreciseness of category names. In this paper, we propose HierPrompt, a method that leverages hierarchy-aware prompts to instruct LLM to produce more representative and informative prototypes. Specifically, we first introduce Example Text Prototype (ETP), in conjunction with Category Name Prototype (CNP), to enrich the information contained in hierarchical prototypes. A Maximum Similarity Propagation (MSP) technique is also proposed to consider the hierarchy in similarity calculation. Then, the hierarchical prototype refinement module is utilized to (i) contextualize the category names for more accurate CNPs and (ii) produce detailed example texts for each leaf category to form ETPs. Experiments on three benchmark datasets demonstrate that HierPrompt substantially outperforms existing ZS-HTC methods.

思维导图

论文精读

中文精读约 32 分钟读完 · 19,658 字

1. 论文基本信息

1.1. 标题

HierPrompt: LLM-增强原型的零样本分层文本分类 (HierPrompt: Zero-Shot Hierarchical Text Classification with LLM-Enhanced Prototypes)

1.2. 作者

Qian Zhang, Qinliang Su, Wei Zhu, Yachun Pang

Qian Zhang, Qinliang Su: 中山大学计算机科学与工程学院，中国广州；广东省大数据分析与处理重点实验室。
Wei Zhu, Yachun Pang: 中国移动互联网有限公司。

1.3. 发表期刊/会议

Findings of EMNLP 2025

1.4. 发表年份

2025年

1.5. 摘要

分层文本分类 (Hierarchical Text Classification, HTC) 是一项将文本分类到按层级排列的类别的挑战性任务。零样本分层文本分类 (Zero-Shot Hierarchical Text Classification, ZS-HTC) 进一步假设仅提供分层分类体系，而没有任何训练数据。现有的 ZS-HTC 工作通常建立在原型 (prototype)-based 框架上，通过将类别名称嵌入为原型，然而由于类别名称的模糊性和不精确性，其表现不佳。本文提出了 HierPrompt，一种利用层级感知提示 (hierarchy-aware prompts) 指导大型语言模型 (Large Language Models, LLMs) 生成更具代表性和信息量的原型的方法。具体来说，我们首先引入了示例文本原型 (Example Text Prototype, ETP)，结合类别名称原型 (Category Name Prototype, CNP)，以丰富分层原型中包含的信息。还提出了一种最大相似度传播 (Maximum Similarity Propagation, MSP) 技术，用于在相似度计算中考虑层级结构。然后，利用分层原型精炼模块 (hierarchical prototype refinement module) 来 (i) 上下文化类别名称以获得更准确的 CNP，以及 (ii) 为每个叶子类别生成详细的示例文本以形成 ETP。在三个基准数据集上的实验表明，HierPrompt 显著优于现有的 ZS-HTC 方法。

1.6. 原文链接

https://aclanthology.org/2025.findings-emnlp.207.pdf 发布状态：已正式发表（根据ACL Anthology链接判断）

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 在没有标注数据的情况下，如何对文本进行分层分类（即零样本分层文本分类，ZS-HTC）。现有 ZS-HTC 方法在构建代表性原型方面存在困难。
为什么这个问题在当前领域是重要的:
- 分层文本分类 (HTC) 在电子商务产品分类、文档组织、网页内容分类等实际应用中至关重要。
- 大多数现有 HTC 方法依赖昂贵的标注数据。
- 分层分类体系可能频繁变化，每次重新标注数据不切实际。
- ZS-HTC 提供了一种无需训练数据即可进行分类的解决方案，极具应用价值。
现有研究存在的具体挑战或空白 (Gap):
- 现有 ZS-HTC 方法通常基于原型框架，将类别名称直接嵌入为原型。
- 然而，类别名称本身常过于通用、模糊和不精确（例如，“work”可指“工作”或“创作内容”）。这导致直接编码的类别名称原型 (CNP) 缺乏代表性。
- 类别名称通常是过于简化的短语，无法捕获文本细粒度的风格信息（例如，关于“电子游戏”的文本在不同数据集中可以是客观描述或主观评论）。这使得原型无法充分反映类别的真实含义。
- 这些问题导致现有方法在高质量原型构建方面表现不佳。
这篇论文的切入点或创新思路:
- 利用大型语言模型 (LLMs) 强大的语言理解和生成能力。
- 设计“层级感知提示 (hierarchy-aware prompts)”来指导 LLMs。
- 目标是让 LLMs 生成更具代表性和信息量的类别原型，以克服现有方法的局限性。

2.2. 核心贡献/主要发现

提出了 HierPrompt 方法: 一种用于零样本分层文本分类的新方法，通过 LLM 增强的原型来提高分类性能。
引入了 示例文本原型 (Example Text Prototype, ETP): 结合传统的 类别名称原型 (Category Name Prototype, CNP)，丰富了原型的信息量，弥补了 CNP 缺乏风格信息的不足。
提出了 最大相似度传播 (Maximum Similarity Propagation, MSP) 技术: 在相似度计算中融入分层结构信息，通过将文本与子孙类别的最大相似度传播到父类别，更好地利用层级关系。
设计了 分层原型精炼模块 (hierarchical prototype refinement module):
- 类别名称上下文化 (Category Name Contextualization): 利用层级感知提示（结合父类、兄弟类和子孙类信息）指导 LLM 对类别名称进行修订和描述，使其更准确、更具代表性。
- 示例文本生成 (Example Text Generation): 同样利用层级感知提示，并引入 链式生成 (Chain Of Generation, COG) 思维链，指导 LLM 为每个叶子类别生成具体的、具有代表性的示例文本，以形成 ETP。
实验结果验证: 在 NYT、DBpedia 和 Amazon 三个基准数据集上的实验表明，HierPrompt 显著优于现有的零样本分层文本分类方法，证明了其优越性。

3. 预备知识与相关工作

3.1. 基础概念

分层文本分类 (Hierarchical Text Classification, HTC):
- 概念定义: HTC 是一种特殊的文本分类任务，其目标是将文本数据分配到按树状或有向无环图 (DAG) 结构组织起来的分类体系中的一个或多个类别。与传统的扁平式分类不同，HTC 要求模型不仅识别文本的类别，还要遵循类别之间的父子关系。例如，一个新闻报道可能被分类到“体育”类别下，然后进一步细化到“篮球”类别。
- 重要性: 在许多实际场景中，如电商产品分类、图书馆文献管理、新闻内容组织等，类别天然具有层次结构，HTC 能提供更精细、更有组织性的分类结果。
零样本学习 (Zero-Shot Learning, ZSL):
- 概念定义: ZSL 是一种机器学习范式，旨在使模型能够识别或分类在训练阶段从未见过的类别。它通过利用已知类别和未知类别之间的共享信息（通常是语义信息，如类别描述、属性等）来实现这一目标。
- 零样本文本分类 (Zero-Shot Text Classification, ZSC): 在文本领域，ZSC 的严格定义是指在没有任何标注或未标注训练数据的情况下，将文本分配到预定义类别。这意味着模型只能访问类别名称或其语义描述，而不能看到任何实际的文本-类别对。
- 核心挑战: 如何从有限的类别名称中提取足够的语义信息来准确代表一个类别，并将其与输入文本进行匹配。
原型 (Prototype):
- 概念定义: 在 原型网络 (Prototypical Networks) 等基于原型的学习方法中，原型 指的是代表每个类别中心特征的向量。这些原型通常通过对该类别所有样本的特征向量进行平均或通过其他方式计算得到。在 ZS-HTC 中，由于没有训练样本，原型通常通过嵌入类别名称或类别描述来构建。
- 在 ZSC 中的作用: 将类别名称或描述嵌入到与文本相同的向量空间中，这些嵌入向量即作为类别的“原型”。然后，通过计算输入文本嵌入与所有类别原型之间的相似度，将文本分配给最相似的类别。
大型语言模型 (Large Language Models, LLMs):
- 概念定义: LLMs 是指具有数亿乃至数万亿参数的深度学习模型，它们通过在海量文本数据上进行自监督预训练而获得强大的语言理解、生成、推理和知识能力。
- 能力: 能够理解复杂的指令、生成连贯且有意义的文本、进行知识问答、完成文本摘要、翻译等多种自然语言处理任务。这些能力使其成为在零样本和少样本场景下，通过提示工程 (prompt engineering) 来完成特定任务的有力工具。
余弦相似度 (Cosine Similarity):
- 概念定义: 余弦相似度 是一种衡量两个非零向量之间方向的相似性的度量。它通过计算两个向量夹角的余弦值来判断它们的相似程度。余弦值越接近1，表示两个向量方向越接近，相似度越高；越接近-1，表示方向越相反，相似度越低；为0表示正交，不相关。
- 数学公式: 给定两个向量 $\mathbf{A}$ 和 $\mathbf{B}$ ，它们的余弦相似度定义为： $\text{similarity} = \cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \sqrt{\sum_{i=1}^{n} B_i^2}}$
- 符号解释:
  - $\mathbf{A}$ , $\mathbf{B}$ : 两个待比较的向量。
  - $\theta$ : 向量 $\mathbf{A}$ 和 $\mathbf{B}$ 之间的夹角。
  - $\mathbf{A} \cdot \mathbf{B}$ : 向量 $\mathbf{A}$ 和 $\mathbf{B}$ 的点积。
  - $\|\mathbf{A}\|$ , $\|\mathbf{B}\|$ : 向量 $\mathbf{A}$ 和 $\mathbf{B}$ 的欧几里得范数（长度）。
  - $A_i, B_i$ : 向量 $\mathbf{A}$ 和 $\mathbf{B}$ 的第 $i$ 个分量。
  - $n$ : 向量的维度。
- 在文本分类中的应用: 在 ZSC 中，通常将文本和类别原型嵌入到高维向量空间中，然后使用余弦相似度来衡量文本与各个类别原型之间的语义相似度。

3.2. 前人工作

零样本文本分类 (ZSC) 的通用方法:
- 1-近邻问题 (1-nearest neighbor problem): 一种常见方法是将类别名称嵌入为原型，然后将输入文本也投影到相同的嵌入空间。通过计算文本嵌入与所有原型之间的相似度，将文本分类到最近邻的原型所代表的类别。
- 上下文学习 (In-context learning): 利用 LLMs 的能力，通过在提示中提供少量示例来指导模型完成分类任务，而无需模型参数更新。
- 文本蕴含 (Textual entailment): 将分类任务转化为判断文本与类别描述之间是否存在蕴含关系的问题，利用 LLMs 来解决。
分层文本分类 (HTC) 的早期工作:
- 早期 HTC 方法通常高度依赖有监督信息，即需要大量的标注数据。
- 也有一些工作尝试弱化监督信息，例如使用少量标注文本和叶子类别的关键词来训练分层分类器。
- 然而，专注于严格零样本场景（即仅提供层级分类体系，无任何标注或未标注数据）的 ZS-HTC 工作相对较少。
严格零样本分层文本分类 (ZS-HTC) 的相关工作:
- Upward Score Propagation (USP) (Bongiovanni et al., 2023):
  - 核心思想: 在基线模型的基础上，USP 提出了一种相似度传播技术。它根据一定的规则，将更细粒度的子类别的相似度分数向上累积，从而计算父类别的相似度。相似度从层级结构中的叶子类别向根节点传播。
  - 局限性: 尽管性能良好，但 USP 未能为大多数叶子类别提供额外的层级信息，其原型构建仍基于原始类别名称。
- Hierarchical Label Augmentation (HiLA) (Paletto et al., 2024):
  - 核心思想: HiLA 在 USP 的基础上，利用 LLM（如 GPT-3.5-turbo）来增强叶子类别。它通过 LLM 为原始叶子类别生成新的子类，从而丰富了层级结构。然后，利用这些扩展后的层级结构，结合 USP 技术进行 ZS-HTC。
  - 局限性: HiLA 侧重于扩展层级本身，但与 USP 类似，它仍未充分解决原型质量低下（类别名称模糊、缺乏风格信息）的问题。
TELEClass (Zhang et al., 2025):
- 提及: 论文中提到 TELEClass 与 HierPrompt 类似，但任务不同（TELEClass 是弱监督任务），因此未作为基线进行比较。

3.3. 差异化分析

现有 ZS-HTC 方法，包括 USP 和 HiLA，尽管在利用层级结构方面有所探索，但它们共同的关键假设是能够获得高质量的类别原型。然而，论文指出现有方法在构建原型时面临以下挑战：

缺乏代表性 (Lack of representativeness): 类别名称通常过于通用和不精确，导致其语义模糊。例如，“work”可以指“工作”或“创作内容”。直接编码这些去上下文化 (decontextualized) 的不精确类别名称会导致原型无法准确代表类别的真实含义。
缺乏风格信息 (Lack of stylistic information): 类别名称通常是简化的短语，无法捕获文本细粒度的风格信息。例如，不同数据集中的“电子游戏”类别可能对应着客观描述或主观评论。缺乏这种风格信息使得原型不能很好地反映类别的真实文本特征。

针对这些局限性，HierPrompt 提出了以下核心创新点：

LLM 增强原型: HierPrompt 的核心在于利用 LLMs 的强大能力，通过精心设计的“层级感知提示 (hierarchy-aware prompts)”来解决原型质量问题。
示例文本原型 (ETP) 的引入: 明确地引入 ETP 与 类别名称原型 (CNP) 协同工作。ETP 通过生成具体的示例文本来补充 CNP 缺乏的风格和详细信息。
类别名称上下文化 (Category Name Contextualization): 针对类别名称的模糊性，HierPrompt 指导 LLM 结合层级结构信息（父类、兄弟类、子孙类）来“上下文化”类别名称，使其含义更清晰、更准确。这解决了 CNP 缺乏代表性的问题。
示例文本生成 (Example Text Generation): 针对缺乏风格信息的问题，HierPrompt 指导 LLM 为每个叶子类别生成具体的、具有代表性的示例文本。这些生成的文本构成了 ETP，在没有真实训练数据的情况下提供了宝贵的风格信息。
最大相似度传播 (Maximum Similarity Propagation, MSP): 在相似度计算中，HierPrompt 提出 MSP 以更有效地整合层级结构信息，通过传播最大相似度来利用子孙类别的信息。

简而言之，HierPrompt 的创新点在于不仅利用 LLM 扩展了层级信息（如 HiLA），更重要的是，它聚焦于提升原型本身的质量和信息量，通过 上下文化类别名称 和 生成示例文本，从根本上解决了现有方法原型模糊和缺乏风格信息的问题。

4. 方法论

4.1. 方法原理

HierPrompt 的核心思想是利用大型语言模型（LLM）强大的语言理解和生成能力，结合文本分类的层级结构信息，来生成更具代表性和信息量的类别原型。传统的零样本分层文本分类（ZS-HTC）方法通常只将类别名称嵌入为原型，但类别名称往往过于通用、模糊，且缺乏文本的风格信息。HierPrompt 旨在通过两个主要途径解决这些问题：

丰富原型信息: 除了传统的 类别名称原型 (CNP)，引入 示例文本原型 (ETP) 来捕获类别的详细信息和文本风格。
LLM 增强原型质量: 设计“层级感知提示 (hierarchy-aware prompts)”来指导 LLM 对类别名称进行上下文化 (contextualization)，使其语义更精确；并为每个叶子类别生成具体的示例文本，以形成 ETP。
层级结构利用: 提出 最大相似度传播 (MSP) 技术，在计算文本与类别相似度时有效利用层级关系。

整个框架可以概括为：首先，通过 LLM 和层级感知提示精炼类别名称和生成示例文本，形成更优质的 CNP 和 ETP。然后，将输入文本与这些精炼后的原型计算相似度，并通过 MSP 技术在层级中传播相似度，最终进行分层分类。

以下是原文 Figure 2 描述的 HierPrompt 框架的概览图。它展示了从层级感知提示设计到 LLM 生成上下文化类别名称和示例文本，再到最终使用精炼原型进行分类的整个流程。

$该图像是一个示意图，展示了HierPrompt框架的工作流程。图中介绍了如何通过大型语言模型（如GPT）生成类别名称原型（CNP）和示例文本原型（ETP）。它还展示了通过链式生成（COG）方法处理和生成与“篮球”相关的文章。具体公式为 $p = 'Articles about "athlete" are divided into "basketball, football".'$。$ 该图像是一个示意图，展示了HierPrompt框架的工作流程。图中介绍了如何通过大型语言模型（如GPT）生成类别名称原型（CNP）和示例文本原型（ETP）。它还展示了通过链式生成（COG）方法处理和生成与“篮球”相关的文章。具体公式为 $p = 'Articles about "athlete" are divided into "basketball, football".'$ 。

4.2. ZS-HTC 框架概述

论文首先介绍了 ZS-HTC 的通用方法，即将类别名称嵌入为原型，并将文本分类任务转化为 1-最近邻问题。给定一个层级分类体系 $\mathcal{T} = \{ (c_j^l)_{j=1}^{N_l} \}_{l=1}^L$ ，其中 $L$ 是层级深度， $c_j^l$ 表示第 $l$ 层中的第 $j$ 个类别， $N_l$ 是第 $l$ 层中的类别数量。对于一个输入文本 $x$ ，通过一个文本编码器 $E(\cdot)$ 获得其嵌入向量 E(x)。传统的 类别名称原型 (Category Name Prototype, CNP) 通过编码类别名称 $E(c_j^l)$ 得到。分类目标是找到最相似的类别： $\hat { c } _ { i } ^ { l } = \underset { c _ { j } ^ { l } } { \arg \operatorname* { m a x } } \left( S \left( x , c _ { j } ^ { l } \right) \right)$ 其中 $S \left( \boldsymbol { x } , \boldsymbol { c } _ { j } ^ { l } \right)$ 表示文本 $x$ 与类别 $c_j^l$ 之间的相似度，通常是 E(x) 与 $E(c_j^l)$ 的余弦相似度。

4.2.1. 示例文本原型 (Example Text Prototype, ETP)

由于类别名称可能只包含通用信息，缺乏详细内容和文本风格，导致嵌入空间中的混乱（如原文 Figure 1 所示）。为了弥补 CNP 的不足，论文引入了 示例文本原型 (ETP)。ETP 基于示例文本构建，这些文本属于特定类别并反映了数据集的典型写作风格和内容，提供了更丰富的上下文信息。

叶子类别 ETP 的构建: 对于叶子类别 $c_i^L$ （即第 $L$ 层），其 ETP 是通过编码该类别的示例文本 $text_i^L$ 获得的： $\mathrm { ETP } _ { i } ^ { L } = E \left( \mathrm { text } _ { i } ^ { L } \right)$
- 符号解释:
  - $\mathrm { ETP } _ { i } ^ { L }$ : 第 $L$ 层中第 $i$ 个叶子类别的示例文本原型。
  - $E(\cdot)$ : 文本编码器，将文本映射到嵌入空间。
  - $\mathrm { text } _ { i } ^ { L }$ : 属于第 $L$ 层中第 $i$ 个叶子类别的示例文本。
非叶子类别 ETP 的构建: 对于更高层级（ $l < L$ ）的类别 $c_i^l$ ，其 ETP 是通过平均其所有子孙（descendants）叶子类别的 ETP 来获得的： $\mathrm { ETP } _ { i } ^ { l } = \frac { \sum _ { j \in \downarrow c _ { i } ^ { l } } \mathrm { ETP } _ { j } } { \mid \downarrow c _ { i } ^ { l } \mid }$
- 符号解释:
  - $\mathrm { ETP } _ { i } ^ { l }$ : 第 $l$ 层中第 $i$ 个类别的示例文本原型。
  - $\downarrow c _ { i } ^ { l }$ : 类别 $c_i^l$ 的所有叶子子孙类别的集合。
  - $\mathrm { ETP } _ { j }$ : 集合 $\downarrow c _ { i } ^ { l }$ 中某个叶子类别 $j$ 的示例文本原型。
  - $\mid \downarrow c _ { i } ^ { l } \mid$ : 类别 $c_i^l$ 的叶子子孙类别的数量。

4.2.2. 组合相似度计算

结合 CNP 和 ETP，文本 $x$ 与类别 $c_j^l$ 之间更准确的相似度得分计算如下： $S \left( x , c _ { j } ^ { l } \right) = S _ { C N } \left( x , c _ { j } ^ { l } \right) + S _ { E T } \left( x , c _ { j } ^ { l } \right)$

符号解释:
- $S \left( x , c _ { j } ^ { l } \right)$ : 文本 $x$ 与类别 $c_j^l$ 的总相似度。
- $S _ { C N } \left( x , c _ { j } ^ { l } \right)$ : 文本 $x$ 与类别 $c_j^l$ 的 CNP 之间的余弦相似度。
- $S _ { E T } \left( x , c _ { j } ^ { l } \right)$ : 文本 $x$ 与类别 $c_j^l$ 的 ETP 之间的余弦相似度。

4.2.3. 最大相似度传播 (Maximum Similarity Propagation, MSP)

尽管上述相似度计算结合了 CNP 和 ETP，但它仍忽略了类别之间的层级关系。为了利用这种层级传递性（如果文本 $x$ 与一个下层类别相关，它很可能也与该类别的父类别相关），论文提出了 最大相似度传播 (MSP) 技术。 MSP 的计算方式如下： $S _ { M S P } \left( x , c _ { j } ^ { l } \right) = \left\{ \begin{array} { c c } { S \left( x , c _ { j } ^ { l } \right) } & { l = L } \\ { S \Big ( x , c _ { j } ^ { l } \Big ) + S ^ { \operatorname* { m a x } } \Big ( \downarrow c _ { j } ^ { l } \Big ) } & { l < L } \end{array} \right.$ 其中 $S ^ { \mathrm { m a x } } \left( \downarrow c _ { j } ^ { l } \right)$ 的计算方式为： $S ^ { \mathrm { m a x } } \left( \downarrow c _ { j } ^ { l } \right) = \operatorname* { m a x } _ { c \in \downarrow c _ { j } ^ { l } } \left( S _ { C N } \left( x , c \right) \right) + \operatorname* { m a x } _ { c \in \downarrow c _ { j } ^ { l } } \left( S _ { E T } \left( x , c \right) \right)$

符号解释:
- $S _ { M S P } \left( x , c _ { j } ^ { l } \right)$ : 文本 $x$ 与类别 $c_j^l$ 经过 MSP 传播后的相似度得分。
- $l=L$ : 表示类别 $c_j^l$ 是叶子类别。
- $l<L$ : 表示类别 $c_j^l$ 是非叶子类别。
- $S \left( x , c _ { j } ^ { l } \right)$ : 文本 $x$ 与类别 $c_j^l$ 的组合相似度（如前所述）。
- $S ^ { \operatorname* { m a x } } \Big ( \downarrow c _ { j } ^ { l } \Big )$ : 文本 $x$ 与类别 $c_j^l$ 的所有子孙类别（叶子类别）中的最大 CNP 相似度与最大 ETP 相似度之和。
- $\downarrow c _ { j } ^ { l }$ : 类别 $c_j^l$ 的所有叶子子孙类别的集合。
- $\operatorname* { m a x } _ { c \in \downarrow c _ { j } ^ { l } } (\dots)$ : 从集合 $\downarrow c _ { j } ^ { l }$ 中所有叶子类别 $c$ 中选取使括号内表达式最大的值。

在零样本场景下，没有真实的训练数据来获取示例文本，也无法直接修正模糊的类别名称。论文利用 LLMs 的强大理解和生成能力，通过设计“层级感知提示”来解决 CNP 的非代表性问题和 ETP 的不可访问性问题。

4.3.1. 类别名称上下文化 (Category Name Contextualization)

直接使用粗粒度类别名称可能导致模糊语义和不准确的原型（如原文 Figure 3 所示，DBpedia 数据集 L1 层的 Macro-F1 远低于 L3 层）。为了提高 CNP 的代表性，论文利用层级信息指导 LLM 对类别名称进行上下文化。

针对第一层级 (L1) 的粗粒度类别: LLM 通过考虑粗粒度类别 $c_i^1$ 的所有子孙类别 $\downarrow c_i^1$ 来总结和描述该类别。提示 $P _ { \mathrm { c o a r s e } } \left( c _ { i } ^ { 1 } \right)$ 的构造方式如下： $P _ { \mathrm { c o a r s e } } \left( c _ { i } ^ { 1 } \right) = \mathrm { f l l } { \mathrm { - } } \mathrm { Template } _ { \mathrm { c o a r s e } } \left( \downarrow c _ { i } ^ { 1 } \right)$ 其中模板 fill-Template_coarse 定义为： $"A [dataset] can be classified into [$\downarrow c_i^1$], please summarize them into one class, give the class name and its corresponding description sentence."$
- 符号解释:
  - $P _ { \mathrm { c o a r s e } } \left( c _ { i } ^ { 1 } \right)$ : 用于上下文化第一层级类别 $c_i^1$ 的提示。
  - [dataset]: 根据不同数据集（如 NYT、DBpedia、Amazon）填充的占位符。
  - [\downarrow c_i^1]: 类别 $c_i^1$ 的所有子孙类别列表。
针对其他层级 ( $l > 1$ ) 的细粒度类别: 对于其他层级的类别 $c_i^l$ ，LLM 通过考虑其父类别 $\uparrow c_j^l$ 和所有兄弟类别（即父类别的所有子类别 $\downarrow\{\uparrow c_j^l\}$ ）来提供解释性上下文。提示 $P _ { \mathrm { f i n e } } \left( c _ { i } ^ { l } \right)$ 的构造方式如下： $P _ { \mathrm { f i n e } } \left( c _ { i } ^ { l } \right) = \mathrm { f l l - T e m p l a t e } _ { \mathrm { t e x t } } \left( c _ { i } ^ { l } , \downarrow \left\{ \uparrow c _ { j } ^ { l } \right\} \right)$ 其中模板 fill-Template_text 定义为： $"[dataset] of [$\uparrow c_j^l$] can be classifed into clsses: [$\downarrow\{\uparrow c_j^l\}$] Write one sentence to summarize the features of [dataset] that is classified into the class $c_i^l$."$
- 符号解释:
  - $P _ { \mathrm { f i n e } } \left( c _ { i } ^ { l } \right)$ : 用于上下文化第 $l$ 层类别 $c_i^l$ 的提示。
  - [dataset]: 同上。
  - [\uparrow c_j^l]: 类别 $c_i^l$ 的父类别。
  - [\downarrow{\uparrow c_j^l $\}]$ : 类别 $c_i^l$ 的父类别的所有子类别（包括 $c_i^l$ 自身及其兄弟类别）。
LLM 输出与 CNP 编码: 通过上述提示，LLM 生成上下文化的类别名称和解释性上下文 $d_i^l$ ，然后将其编码为新的 CNP： $d _ { i } ^ { l } = \left\{ \begin{array} { c c } { L L M ( p _ { \mathrm { c o a r s e } } ( c _ { i } ^ { 1 } ) ) } & { l = 1 } \\ { L L M ( p _ { \mathrm { f i n e } } ( c _ { i } ^ { l } ) ) } & { l > 1 } \end{array} \right.$ $\mathrm { CNP } _ { i } ^ { l } = E ( d _ { i } ^ { l } )$
- 符号解释:
  - $d _ { i } ^ { l }$ : LLM 根据提示为类别 $c_i^l$ 生成的上下文化描述。
  - $LLM(\cdot)$ : LLM 的调用函数。

4.3.2. 示例文本生成 (Example Text Generation)

在零样本场景下，无法获取真实的示例文本。论文提出 示例文本生成模块，利用 LLM 生成用于构建 ETP 的示例文本。同样，层级信息被整合到提示中以提高生成质量。

初步提示: 为叶子类别 $c_i^L$ 生成示例文本的初步提示 $P _ { \mathrm { t e x t } } ( c _ { i } ^ { L } )$ 如下： $P _ { \mathrm { t e x t } } ( c _ { i } ^ { L } ) { = } \mathrm { f l l - T e m p l a t e } _ { \mathrm { t e x t } } ( c _ { i } ^ { L } \cup \uparrow ) c _ { i } ^ { L } \cup \downarrow \{ \uparrow c _ { i } ^ { L } \} )$ 其中模板 fill-Template_text 定义为： $"There are [dataset] about [$\uparrow c_i^L$], which can be divided into [$\downarrow\{\uparrow c_i^L\}$]. Please generate a [dataset], which can serve as a typical example of the class [$c_i^L$]."$
- 符号解释:
  - $P _ { \mathrm { t e x t } } ( c _ { i } ^ { L } )$ : 用于生成叶子类别 $c_i^L$ 示例文本的提示。
  - [dataset]: 同上。
  - [\uparrow c_i^L]: 叶子类别 $c_i^L$ 的父类别。
  - [\downarrow{\uparrow c_i^L}]: 叶子类别 $c_i^L$ 的父类别的所有子类别（包括 $c_i^L$ 自身及其兄弟类别）。
基于链式生成 (Chain Of Generation, COG) 的提示: 为避免 LLM 生成解释性文本而非具体示例，论文提出了集成 链式生成 (COG) 思想的提示。COG 明确指导 LLM 遵循理解类别语义、具体化实例、生成对应文本的逻辑链。 $P _ { \mathrm { t e x t } } ^ { \mathrm { C O G } } ( c _ { i } ^ { L } ) { = } \mathrm { f l l - T e m p l a t e } _ { \mathrm { C O G } } ( c _ { i } ^ { L } { \cup } \uparrow ) c _ { i } ^ { L } { \cup } \downarrow \{ \uparrow c _ { i } ^ { L } \} )$ 其中模板 fill-Template_COG 定义为： $"1. There are [dataset] about [$\uparrow c_i^L$], which can be divided into [$\downarrow\{\uparrow c_i^L\}$]. Please think of n specific examples of each fine-grained class. Then generate [dataset] for each fine-grained class."$
- 符号解释:
  - $P _ { \mathrm { t e x t } } ^ { \mathrm { C O G } } ( c _ { i } ^ { L } )$ : 用于生成叶子类别 $c_i^L$ 示例文本的基于 COG 的提示。
  - $n$ : 为每个细粒度类别生成的特定示例的数量。
ETP 编码: LLM 根据 COG 提示生成 $n$ 个示例文本 $text_j^{c_i^L}$ 。这些示例文本被单独编码，然后取平均值以获得最终的 ETP： $\mathrm { ETP } _ { i } ^ { L } = \frac { \sum _ { j = 1 } ^ { n } E \left( \mathrm { t e x t } _ { j } ^ { c _ { i } ^ { L } } \right) } { n }$
- 符号解释:
  - $\mathrm { ETP } _ { i } ^ { L }$ : 第 $L$ 层中第 $i$ 个叶子类别的示例文本原型。
  - $E(\cdot)$ : 文本编码器。
  - $\mathrm { text } _ { j } ^ { c _ { i } ^ { L } }$ : 为类别 $c_i^L$ 生成的第 $j$ 个示例文本。
  - $n$ : 生成的示例文本数量。

5. 实验设置

5.1. 数据集

实验使用了三个公开的分层标注数据集来评估 HierPrompt 的性能：

NYT (Tao et al., 2018):
- 来源与特点: 包含 13081 篇新闻文档。其分类体系有两层，分别包含 5 个一级类别和 26 个二级类别。
- 领域: 新闻领域，文本长度较长。
DBpedia (Lehmann et al., 2015):
- 来源与特点: 包含 50000 篇维基百科文章。根据 DBpedia 分类体系分为三层，分别包含 9 个一级类别、70 个二级类别和 219 个三级类别。
- 领域: 百科知识领域，文本内容通常客观、描述性强。
Amazon (Kashnitsky, 2020):
- 来源与特点: 包含 50000 条亚马逊评论。其分类体系有三层，分别包含 6 个一级类别、64 个二级类别和 522 个三级类别。
- 领域: 用户评论领域，文本语言通常休闲、非正式，包含主观情感。
  
  以下是原文 Table 2 提供的三个数据集的统计信息：
  
  Dataset L1 L2 L3 DocNum AvgLen
  
  NYT 5 26 nan 13081 648.13
  
  DBpedia 9 70 219 50000 103.37
  
  amazon 6 64 522 50000 90.29
DocNum: 文档数量。
AvgLen: 平均文档长度。

Dataset	L1	L2	L3	DocNum	AvgLen
NYT	5	26	nan	13081	648.13
DBpedia	9	70	219	50000	103.37
amazon	6	64	522	50000	90.29

为什么选择这些数据集进行实验？ 这些数据集涵盖了不同领域（新闻、百科、用户评论）、不同文本风格和不同层级深度（2层和3层）的文本分类任务，能够全面评估 HierPrompt 在不同场景下的性能表现。NYT 文档长度较长，DBpedia 文本客观，Amazon 文本口语化且主观，这些特点有助于验证 HierPrompt 在处理多样化文本和层级结构时的鲁棒性。

5.2. 评估指标

论文中报告了 Macro-F1 score 来评估模型的性能。

概念定义 (Conceptual Definition): Macro-F1 score 是一种用于评估分类模型性能的指标，尤其适用于类别不平衡的情况。它首先为每个类别独立计算 F1 score，然后取所有类别 F1 score 的简单算术平均值。这意味着每个类别的预测准确性都被同等对待，而不受该类别样本数量（即类别大小）的影响。高 Macro-F1 score 表明模型在所有类别上都表现良好，而不仅仅是在样本量大的常见类别上。它强调模型在所有类别上的“平均”表现，对于零样本分类这种可能面临类别稀疏性的任务尤其有意义。
数学公式 (Mathematical Formula): F1 score 的计算公式为： $\text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$ 其中，Precision 和 Recall 的计算公式为： $\text{Precision} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}}$ $\text{Recall} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}}$ 对于 Macro-F1 Score，计算公式为： $\text{Macro-F1} = \frac{1}{N} \sum_{k=1}^{N} \text{F1}_k$
符号解释 (Symbol Explanation):
- $\text{True Positives (TP)}$ : 真正例，指模型正确地将负类样本预测为正类的数量。
- $\text{False Positives (FP)}$ : 假正例，指模型错误地将负类样本预测为正类的数量。
- $\text{True Negatives (TN)}$ : 真负例，指模型正确地将负类样本预测为负类的数量。
- $\text{False Negatives (FN)}$ : 假负例，指模型错误地将正类样本预测为负类的数量。
- $\text{Precision}$ : 精确率，表示在所有被模型预测为正类的样本中，真正是正类的比例。
- $\text{Recall}$ : 召回率，表示在所有真实的正类样本中，被模型正确预测为正类的比例。
- $\text{F1}$ : F1 Score，是精确率和召回率的调和平均值，综合考虑了这两项指标，对那些偏向于精确率或召回率的系统提供了更平衡的评估。
- $N$ : 总类别数量。
- $\text{F1}_k$ : 第 $k$ 个类别的 F1 Score。

5.3. 对比基线

论文将 HierPrompt 与以下几种 ZS-HTC 方法进行了比较：

base-label:
- 描述: 这是零样本文本分类的基线方法。它直接使用原始类别名称作为原型，并通过文本编码器将其嵌入到向量空间中。然后，通过计算输入文本嵌入与这些类别名称原型之间的相似度来进行分类。
- 代表性: 代表了最简单直接的基于原型 (prototype-based) 的零样本分类方法。
base-text:
- 描述: 这个基线并非严格意义上的零样本分类。它从数据集中随机选择每个叶子类别的一个示例文本，并将其编码作为该类别的原型。然后，使用这些示例文本原型进行分类。
- 代表性: 作为参考，旨在衡量如果能够获取少量真实示例文本，性能会如何。它帮助评估 HierPrompt 生成的伪示例文本的质量。
USP (Upward Score Propagation) (Bongiovanni et al., 2023):
- 描述: USP 是在 base-label 模型基础上，引入了相似度向上传播技术。它根据一定的规则，将子类别的相似度分数累积到父类别，从而在层级结构中传递信息。
- 代表性: 代表了早期利用层级结构进行 ZS-HTC 的方法。

HiLA (Hierarchical Label Augmentation) (Paletto et al., 2024):

描述: HiLA 在 USP 的基础上，利用 LLM（具体是 gpt-3.5-turbo）来增强层级结构。它通过 LLM 为原始的叶子类别生成新的子类，从而扩展了分类体系。然后，在新扩展的层级结构上应用 USP 技术进行 ZS-HTC。

代表性: 代表了结合 LLM 增强层级信息进行 ZS-HTC 的最先进方法。

以下是原文 Table 3 提供的 HierPrompt 与其他类似模型的差异比较：

Model	Task	LLM usage	Hierarchy usage
TELEClass	weakly-supervised	generate keywords andpseudo texts	input of LLM
HiLA	zero-shot	expand hierarchy	input and output of LLM
HierPrompt	zero-shot	contextualiza label name andgenerate pseudo texts	input of LLM

5.4. 实现细节

大型语言模型 (LLM) 选择:
- 类别名称上下文化 (Category Name Contextualization) 任务：使用了阿里云百炼平台的 qwen-turbo 模型（参数量最少），因为该任务相对基础。
- 示例文本生成 (Example Text Generation) 任务：使用了 qwen-plus 模型（参数量适中），因为该任务需要更强的生成能力。
提示 (Prompt) 中的占位符替换:
- 提示中的 [dataset] 占位符会根据当前处理的数据集进行填充。
  - NYT 数据集：填充为 news report。
  - DBpedia 数据集：填充为 dbpedia article。
  - Amazon 数据集：填充为 amazon review。
示例文本生成数量 $n$ :
- 在 fill-Template_COG 提示中，为每个细粒度类别生成的示例文本数量 $n$ 设置为 4。
文本编码器 (Encoder):
- 遵循 USP 和 HiLA 的设置，所有文本（包括输入文本、类别名称、示例文本）都使用 mpnet-all 编码器进行嵌入。mpnet-all 是一种预训练的通用句子嵌入模型，能够将文本映射到高维向量空间。
评估指标: 实验结果以 Macro-F1 score 报告。

6. 实验结果与分析

6.1. 核心结果分析

为了全面评估 HierPrompt 在 ZS-HTC 任务上的性能，论文在 NYT、DBpedia 和 Amazon 三个公共基准数据集上进行了实验。

以下是原文 Table 4 提供的零样本分层分类在三个数据集上的实验结果：

method	NYT		DBpedia			Amazon
method	L1	L2	L1	L2	L3	L1	L2	L3
base-label	70.60	66.13	31.60	33.64	63.60	56.35	26.97	14.22
base-text	89.05	58.22	62.72	55.33	63.88	79.57	43.92	17.84
USP	N.A.	66.13	64.70	65.60	62.80	71.20	34.80	17.30
HILA	N.A.	N.A.	76.80	66.00	62.90	76.20	39.30	24.90
ours-label	85.78	68.71	76.95	66.47	66.20	82.44	43.39	19.45
ours-text	86.48	63.79	88.17	65.90	56.09	82.69	47.58	22.09
ours	87.00	69.98	83.56	71.32	65.78	82.56	48.67	22.69

备注: base-text 并非严格的零样本分类，仅供参考。N.A. 表示数据不可用。

关键发现与分析:

类别名称上下文化 (Category Name Contextualization) 的有效性 (ours-label vs. base-label):
- ours-label 这一行记录了在执行了类别名称扩展模块后的 F1 分数。
- 与直接使用原始类别名称的 base-label 相比，ours-label 的 F1 分数显著提高。
- 特别是在第一层级 (L1) 类别上，NYT、DBpedia 和 Amazon 数据集的 F1 分数分别提高了 15.18%、50.57% 和 18.59%。
- 分析: 这有力地验证了论文在“研究背景与动机”中指出的问题：粗粒度类别名称通常过于通用和模糊，会导致误导性原型。通过 LLM 结合层级感知提示对类别名称进行上下文化和扩展，能够大幅提高类别名称的准确性，从而提升分类性能。这与原文 Figure 3 中 DBpedia L1 性能远低于 L3 的现象相符，表明对粗粒度标签的精炼至关重要。
示例文本生成 (Example Text Generation) 的有效性 (ours-text vs. base-text):
- ours-text 这一行记录了在执行了示例文本生成模块（即使用基于 COG 提示生成的伪示例文本）后的 F1 分数。
- 除了 NYT 的 L1 层和 DBpedia 的 L3 层略低于 base-text（使用了真实数据集中的随机示例）外，大多数情况下，ours-text 的性能甚至优于或接近 base-text。
- 分析: 这表明 HierPrompt 通过 LLM 生成的伪示例文本质量非常高，能够有效捕获类别的详细信息和文本风格，甚至在没有真实训练数据的情况下，也能提供与真实示例相媲美或更好的原型。这解决了缺乏真实示例文本的问题。
HierPrompt 整体性能 ( ours vs. 基线):
- ours 这一行代表了结合了 类别名称上下文化、示例文本生成 和 最大相似度传播 (MSP) 三个模块的最终 HierPrompt 模型。
- HierPrompt (ours) 在几乎所有数据集的每个层级上都超越了现有的最先进方法 HiLA。
- 例如，在 DBpedia 数据集上，HierPrompt 相比 HiLA 在 L1、L2、L3 层分别提高了 5.41%、5.24% 和 4.99%。
- 在 Amazon 数据集上，HierPrompt 相比 HiLA 在 L1 和 L2 层分别提高了 6.36% 和 9.39%。
- 分析: 这充分证明了 HierPrompt 所提出的 LLM 增强原型方法（包括 CNP 上下文化和 ETP 生成）以及 MSP 技术在零样本分层文本分类任务中的卓越性能和有效性。

6.2. 消融实验

为了验证 HierPrompt 中各组件的有效性，论文进行了多组消融实验。

6.2.1. 最大相似度传播 (MSP) 的有效性

这组实验旨在探索所提出的 MSP 技术的实际效果。由于相似度传播仅影响非叶子层，实验在 DBpedia 和 Amazon 数据集（具有三个层级）的非叶子层（L1, L2）上进行。

以下是原文 Table 5 提供的相似度传播技术（USP 与 MSP）的比较结果：

method	DBpedia		Amazon
method	L1	L2	L1	L2
USP USP-label direct-label	64.70 68.60	65.60 69.80 35.37	71.20 72.94	34.80 36.00
MSP-label dirct-text	38.48 76.95	66.47 60.66	74.10 82.44	30.51 43.39
MSP-text	58.11 79.21	67.94	75.89 77.71	41.59 44.54

注: 表中粗体表示该列内（针对类别名称或示例文本）的最佳结果。

分析:

MSP 对 CNP 和 ETP 的提升: 无论是 MSP-label 还是 MSP-text，与对应的 direct-label 和 direct-text（不进行相似度传播直接分类）相比，F1 分数都有显著提高。例如，在 DBpedia 数据集上，MSP-label 在 L1 层比 direct-label 高出 38.47% (76.95 - 38.48)，MSP-text 在 L1 层比 direct-text 高出 21.1% (79.21 - 58.11)。这证明了 MSP 技术在利用层级结构进行相似度传播方面的显著有效性。
MSP 与 USP 的比较:
- 在 DBpedia 数据集上，当传播到 L2 层时，USP (65.60) 略优于 MSP-label (60.66)。然而，当进一步传播到 L1 层时，MSP-label (76.95) 明显超越 USP (64.70)，提高了约 12.25%。MSP-text 在 L1 层 (79.21) 更是远超 USP。
- 在 Amazon 数据集上，MSP-label 和 MSP-text 在 L1 和 L2 层均显著优于 USP。例如，MSP-label 在 L1 提高了 2.9% (74.10 vs 71.20)，在 L2 提高了 5.71% (40.51 vs 34.80)。
结论: MSP 技术，尤其是当与 LLM 增强的原型结合时，在利用层级结构进行相似度传播方面比传统的 USP 方法表现出更大的优势，尤其是在更高层级（更粗粒度）的分类中。

6.2.2. 类别名称上下文化中层级感知提示的有效性

这组实验旨在探索在 类别名称上下文化 模块中，集成层级信息到提示中的效果。实验在三个数据集的 L1 和 L2 层上进行，且不使用 MSP 技术以隔离其他模块的影响。

以下是原文 Figure 4（第一行）和 Table 7、8 提供的类别名称扩展的详细结果。

该图像是一个展示F1分数的柱状图，分为四个部分，分别展示了不同的数据集（NYT、DBpedia、Amazon）下类别名称的上下文化（L1和L2）以及示例文本生成（L1和L2）的结果。不同的颜色表示不同的方法，结果展示了HierPrompt方法在各个任务中的效果。

分析:

粗粒度类别 (L1):
- Table 7 (L1) 结果:
  - NYT: base-label (70.60) vs ours-hier (85.78)，提高 15.18%。
  - DBpedia: base-label (31.60) vs ours-hier (76.95)，提高 45.35%。
  - Amazon: base-label (56.35) vs ours-hier (82.44)，提高 26.09%。
- 结论: ours-hier（使用带有层级信息的 $P_{\mathrm{coarse}}$ 提示）相较于 base-label（直接使用类别名称）有巨大提升。这再次强调了对粗粒度类别名称进行上下文化的重要性。
细粒度类别 (L2):
- Table 8 (L2) 结果:
  - base-label: 直接使用类别名称的基线。
  - ours-w/hier: 使用不带层级信息的提示 $P_{\mathrm{fine}}^{\mathrm{direct}}$ 进行扩展。
  - ours-hier: 使用带有层级信息的提示 $P_{\mathrm{fine}}$ 进行扩展。
- NYT: ours-hier (68.71) 优于 base-label (66.13) 和 ours-w/hier (62.61)。
- DBpedia: ours-hier (66.47) 优于 base-label (33.64) 和 ours-w/hier (36.65)。
- Amazon: ours-hier (43.39) 优于 base-label (26.97) 和 ours-w/hier (30.63)。
- 结论: ours-hier 普遍优于 base-label 和 ours-w/hier。这证明了在类别名称上下文化过程中，将层级信息集成到提示中的重要性，它能帮助 LLM 更准确地理解类别语义。

6.2.3. 示例文本生成中层级感知提示的有效性

这组实验旨在探索在 示例文本生成 模块中，集成层级信息到提示中的效果。实验在三个数据集的 L1 和 L2 层进行。设计了五种变体：

(i) base-text: 从数据集中随机选择真实文档作为示例。
(ii) ours-w/hier: 使用不带层级信息的提示 $P_{\mathrm{text}}^{\mathrm{direct}}$ 生成示例文本。
(iii) ours-L1: 使用集成 L1 层粗粒度信息的提示 $P_{\mathrm{text}}^{L_1}(c_i^L)$ 生成示例文本。
(iv) ours-L2: 使用集成 L2 层细粒度信息的提示 $P_{\mathrm{text}}^{L_2}(c_i^L)$ 生成示例文本。
(v) ours-L1+L2: 使用集成所有层级信息的提示 $P_{\mathrm{text}}$ 生成示例文本。

以下是原文 Figure 4（第二行）和 Table 9、10 提供的示例文本生成的详细结果。

分析:

总体趋势: 从 Figure 4 的第二行和 Table 9、10 可以看出，在大多数情况下，集成了层级信息的提示（ours-L1、ours-L2、ours-L1+L2）生成的示例文本性能优于 ours-w/hier（不考虑层级信息）。
层级信息完整性: ours-L1+L2（结合所有层级信息）通常优于只结合部分层级信息（ours-L1 或 ours-L2）的变体。这表明层级信息的完整性对于生成高质量示例文本至关重要。
结论: 这种趋势验证了将层级结构信息融入提示中，对于指导 LLM 生成更符合类别语义和风格的示例文本是至关重要的。更完整的层级信息能带来更好的生成质量。

6.2.4. 示例文本生成中基于 COG 提示的有效性

这组实验旨在验证 链式生成 (COG) 提示在 示例文本生成 中的重要性。设计了三种变体：

(i) P_text: 使用层级感知提示 $P_{\mathrm{text}}$ 生成 1 个示例文本。
(ii) P_text': 使用层级感知提示 $P_{\mathrm{text}}'$ （不包含 COG，但生成 $n$ 个示例文本）。
$(iii) P_text^COG$ : 使用层级感知且基于 COG 的提示 $P_{\mathrm{text}}^{\mathrm{COG}}$ 生成 $n$ 个示例文本。

实验在 DBpedia 和 Amazon 这两个三层数据集上进行。

以下是原文 Table 6 提供的 COG 提示对示例文本生成效果的消融实验结果：

Prompt	DBpedia	Amazon
	L1 L2 L3	L1 L2 L3
PtextPtext-avgP! COPCt-avg	64.60 61.57 51.1959.06 58.06 57.2867.17 60.1356.09	76.87 43.13 21.91
		76.06 41.9521.8977.5843.43 22.69
PtexP!.Ptext-aPeot-avg†8	82.2965.22 51.1979.70 65.69 57.2888.1765.90 56.09	77.7345.4721.91
		76.70 46.03 21.8982.6947.58 22.69

注: 标有 * 的行表示应用了 MSP 进行相似度计算。

分析:

DBpedia 数据集:
- 在未应用 MSP 时， $P_text^COG$ (L1: 67.17, L2: 60.13, L3: 56.09) 在 L1 和 L3 层略优于 P_text (L1: 64.60, L3: 51.19)。与 P_text' (L1: 59.06, L3: 57.28) 相比，优势不明显。
- 应用 MSP 后， $P_text^COG$ (L1: 88.17, L2: 65.90, L3: 56.09) 在 L1 层有显著提升，优于 $P_text*$ (L1: 82.29) 和 $P_text'*$ (L1: 79.70)。
Amazon 数据集:
- 在未应用 MSP 时， $P_text^COG$ (L1: 77.58, L2: 43.43, L3: 22.69) 在所有层级都显著优于 P_text (L1: 76.87, L2: 43.13, L3: 21.91) 和 P_text' (L1: 76.06, L2: 41.95, L3: 21.89)。
- 应用 MSP 后， $P_text^COG$ (L1: 82.69, L2: 47.58, L3: 22.69) 同样在所有层级都显著优于 $P_text*$ (L1: 77.73, L2: 45.47, L3: 21.91) 和 $P_text'*$ (L1: 76.70, L2: 46.03, L3: 21.89)。
结论: 总体而言，基于 COG 的提示（ $P_text^COG$ ）在示例文本生成中表现出普遍优势，尤其是在 Amazon 数据集上，其性能提升非常显著。这证明了通过明确指导 LLM 的思维过程（链式生成）来生成具体示例文本的重要性，能够有效避免 LLM 生成解释性文本，从而提高 ETP 的质量。

6.3. 敏感性分析

为了探索不同 LLM 对 HierPrompt 性能的影响，论文对 LLM 的选择进行了敏感性分析。实验使用了阿里云百炼平台三种不同参数规模的 Qwen 模型：qwen-turbo（最小）、qwen-plus（中等）和 qwen-max（最大）。这些模型被用于 DBpedia 数据集上的 类别名称扩展 和 示例文本生成 任务（使用 $P_{\mathrm{coarse}}$ 、 $P_{\mathrm{fine}}$ 和 $P_{\mathrm{text}}$ 提示）。

以下是原文 Figure 5 提供的 HierPrompt 中不同 LLM 效果的敏感性分析：

Figure 5: Sensitivity Analysis: Effect of different LLM for the proposed HierPrompt

分析:

类别名称扩展 (CNP) 模块:
- 在 类别名称扩展 任务中，不同 LLM 的 F1 分数差异很小。
- 分析: 这表明 类别名称上下文化 任务相对简单，即使是参数量较小的 qwen-turbo 也能很好地完成，不需要依赖复杂的 LLM。这可能是因为该任务更多地依赖于从层级结构中提取上下文信息并进行总结的能力，而不是深度的文本生成或推理。
示例文本生成 (ETP) 模块:
- 在 示例文本生成 任务中，不同 LLM 之间的性能差异较大。
- qwen-turbo 和 qwen-max 的性能随着类别粒度的增加（从 L3 到 L1，即从细粒度到粗粒度）而下降。
- qwen-plus 的性能则相反，随着类别粒度的增加（从 L3 到 L1）而逐渐提高。
- 分析: 示例文本生成任务对 LLM 的生成能力和理解能力要求更高，因此不同模型表现出明显差异。qwen-plus 在生成示例文本方面显示出更稳定的性能，并且在粗粒度类别（L1）上表现最佳，这可能表明它在更抽象或需要更多综合能力的生成任务上具有优势。而 qwen-turbo 和 qwen-max 可能是因为在面对更粗粒度的类别时，其生成策略未能有效适应。
  
  结论: 敏感性分析表明，类别名称上下文化 模块对 LLM 的选择不敏感，而 示例文本生成 模块对 LLM 的选择相对敏感，中等规模的 qwen-plus 在此任务中表现出较好的性能。这为实际应用中 LLM 的选择提供了指导。

6.4. 计算预算

论文提供了 LLM 查询的计算成本分析。

LLM 查询成本: LLM 查询的成本与层级分类体系中的类别数量呈线性关系，即 $O(n)$ 。
具体时间:
- 对于最大的数据集 Amazon，在非批量查询模式下，类别名称上下文化 大约需要 120 秒。
- 示例文本生成 大约需要 6000 秒。
- 在推理阶段，所需的计算时间不到 5 秒。
硬件: 所有实验都在配备 GeForce RTX 2080 GPU 的机器上进行。

分析: 尽管 LLM 查询在原型精炼阶段需要一定的计算时间，但这个过程是离线进行的，只需执行一次。一旦原型被精炼和编码，推理阶段的计算成本则非常低（不到 5 秒），这对于实际应用是可接受的。

7. 总结与思考

7.1. 结论总结

本论文提出了 HierPrompt，一种用于零样本分层文本分类 (ZS-HTC) 的新方法。HierPrompt 旨在解决现有 ZS-HTC 方法中原型质量不高（类别名称模糊、缺乏文本风格信息）的问题。其核心创新点在于利用大型语言模型 (LLMs) 和精心设计的层级感知提示，生成更具代表性和信息量的类别原型。

具体贡献包括：

引入 示例文本原型 (ETP): 除了传统的 类别名称原型 (CNP)，ETP 通过捕获类别的详细信息和文本风格，极大地丰富了原型信息。
最大相似度传播 (MSP) 技术: 提出了一种新的相似度传播机制，在相似度计算中有效整合层级结构信息，提高了分类准确性。
基于 LLM 的原型精炼模块:
- 类别名称上下文化: 利用层级感知提示指导 LLM 对类别名称进行修订和描述，解决了粗粒度类别名称的模糊性问题，生成更准确的 CNP。
- 示例文本生成: 同样利用层级感知提示，并融入了 链式生成 (COG) 思维链，指导 LLM 为每个叶子类别生成具体的、高质量的示例文本，以构建 ETP。在 NYT、DBpedia 和 Amazon 三个基准数据集上的广泛实验表明，HierPrompt 在 ZS-HTC 任务上显著优于现有的 state-of-the-art 方法，证明了其优越性和有效性。

7.2. 局限性与未来工作

论文作者指出了 HierPrompt 存在的两个主要局限性，并提出了相应的未来研究方向：

LLM 对分类体系知识的依赖和幻觉问题 (LLM's reliance on taxonomy knowledge and hallucination):
- 局限性: HierPrompt 假设所使用的 LLM 对分类体系具有一定的知识。然而，当分类体系高度专业化时，LLM 可能不具备正确的领域知识，从而产生“幻觉 (hallucinations)”——生成不准确或不相关的类别描述和示例文本。这会损害精炼原型的质量，进而影响模型性能。
- 未来工作: 增加显式机制（例如，自洽性 (self-consistency)、自纠正 (self-correctness) 技术）来约束 LLM 的输出，从而抑制幻觉的发生。
原型精炼主要集中在文本层面，忽略了嵌入空间 (Prototype refinement primarily in text level, ignoring embedding space):
- 局限性: HierPrompt 主要通过上下文化类别名称和生成示例文本来改进文本表示，从而提高编码后原型的质量。它侧重于文本层面的精炼，但并未对嵌入空间中的原型本身进行额外的调整或优化。
- 未来工作: 探索在文本空间和嵌入空间两个层面同时改进分层原型的方法。这可能包括设计新的损失函数或后处理技术，以使原型在嵌入空间中更好地反映层级结构和类别语义。

7.3. 个人启发与批判

7.3.1. 个人启发

LLM 在零样本场景下的强大潜力: HierPrompt 再次印证了 LLM 作为“知识库”和“智能生成器”在零样本任务中的巨大价值。通过巧妙的提示工程，LLM 不仅能弥补数据稀缺的短板，甚至能生成超越原始标签信息的、更丰富的语义表示。这种通过“合成数据”或“合成知识”来增强传统机器学习模型的能力，是 LLM 时代的重要范式转变。
层级结构信息的深度挖掘: 论文不仅仅将层级结构作为分类的约束，更将其视为丰富类别语义的关键。通过将父类、兄弟类、子孙类信息融入提示，LLM 能够从更宏观和微观的角度理解类别，从而生成更精确的描述。这启发我们在设计任何分层任务的模型时，应更积极、更精细地利用层级拓扑结构。
原型方法的复兴与增强: 在深度学习时代，基于原型的方法因其简单和可解释性而受到关注。HierPrompt 展示了如何利用 LLM 克服原型方法在零样本设置下“原型质量”的瓶颈，使其在复杂任务中也能表现出色。这为其他依赖原型的方法提供了新的增强思路。
“思维链”提示的实际应用: 链式生成 (COG) 提示的应用，表明了在复杂生成任务中，显式地引导 LLM 的“思考过程”可以显著提高输出质量。这种将人类思维过程（理解-具体化-生成）编码到提示中的策略，对于获取更符合预期的 LLM 输出非常有效。

7.3.2. 批判性思考

LLM 知识依赖和幻觉的深层风险: 尽管作者指出了 LLM 幻觉的局限性，并提出了未来工作方向，但这一问题在专业领域尤其严峻。对于高度专业化的分类体系，LLM 的预训练知识可能不足或存在偏差，即使通过 自洽性 和 自纠正 机制，也难以完全确保生成内容的真实性和准确性。更根本的解决方案可能需要结合领域知识图谱 (Knowledge Graph) 或专家系统来辅助 LLM。
计算成本和效率: LLM 查询在原型精炼阶段的计算成本是显著的（例如，Amazon 数据集需要 6000 秒用于示例文本生成）。虽然这是离线过程，但对于拥有超大规模分类体系或需要频繁更新原型的场景，其成本仍可能成为一个实际瓶颈。探索更高效的 LLM 查询策略（如批量处理、蒸馏小模型）或知识蒸馏 (Knowledge Distillation) 可能是必要的。
ETP 和 CNP 相似度的加权问题: 论文简单地将 ETP 相似度和 CNP 相似度相加。这可能不是最优的组合方式。不同数据集或不同层级的类别，其名称和示例文本的重要性可能不同。例如，在某些场景下，示例文本的风格信息可能比名称的精确语义更重要。未来的工作可以探索自适应加权机制，甚至使用可学习的组合策略。
可解释性挑战: 尽管 HierPrompt 的原型方法本身具有一定的可解释性，但 LLM 生成的类别描述和示例文本是黑盒过程。当模型出现错误分类时，追溯错误原因（是 LLM 生成的伪原型有问题，还是编码器或相似度计算有问题）可能会变得复杂。
模型对编码器质量的依赖: HierPrompt 的性能高度依赖于文本编码器 mpnet-all 的质量。如果编码器无法有效捕获文本和原型之间的语义关系，LLM 生成的再好的文本也可能无法转化为有效的嵌入向量。探索更先进或针对特定领域优化的编码器可能进一步提升性能。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

HierPrompt: Zero-Shot Hierarchical Text Classification with LLM-Enhanced Prototypes

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 32 分钟读完 · 19,658 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.3. 差异化分析

4. 方法论

4.1. 方法原理

4.2. ZS-HTC 框架概述

4.2.1. 示例文本原型 (Example Text Prototype, ETP)

4.2.2. 组合相似度计算

4.2.3. 最大相似度传播 (Maximum Similarity Propagation, MSP)

4.3. 基于层级感知的提示进行原型精炼 (Hierarchical Prototype Refinement With Hierarchy-Aware Prompts)

4.3.1. 类别名称上下文化 (Category Name Contextualization)

4.3.2. 示例文本生成 (Example Text Generation)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.3. 对比基线

5.4. 实现细节

6. 实验结果与分析

6.1. 核心结果分析

6.2. 消融实验

6.2.1. 最大相似度传播 (MSP) 的有效性

6.2.2. 类别名称上下文化中层级感知提示的有效性

6.2.3. 示例文本生成中层级感知提示的有效性

6.2.4. 示例文本生成中基于 COG 提示的有效性

6.3. 敏感性分析

6.4. 计算预算

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判性思考

相似论文推荐