Hierarchical Text Classification Using Black Box Large Language Models
TL;DR 精炼摘要
本研究探讨了使用黑盒大语言模型进行层级文本分类(HTC)的可行性,评估了三种提示策略(DL、DH、TMH)在零样本和少样本设置下的准确性与成本。实验结果显示,少样本设置提升了分类准确性,尤其是在更深层级的标签中,DH策略表现优于传统模型,但API成本显著提高,强调了性能与成本之间的权衡。
摘要
Hierarchical Text Classification (HTC) aims to assign texts to structured label hierarchies; however, it faces challenges due to data scarcity and model complexity. This study explores the feasibility of using black box Large Language Models (LLMs) accessed via APIs for HTC, as an alternative to traditional machine learning methods that require extensive labeled data and computational resources. We evaluate three prompting strategies -- Direct Leaf Label Prediction (DL), Direct Hierarchical Label Prediction (DH), and Top-down Multi-step Hierarchical Label Prediction (TMH) -- in both zero-shot and few-shot settings, comparing the accuracy and cost-effectiveness of these strategies. Experiments on two datasets show that a few-shot setting consistently improves classification accuracy compared to a zero-shot setting. While a traditional machine learning model achieves high accuracy on a dataset with a shallow hierarchy, LLMs, especially DH strategy, tend to outperform the machine learning model on a dataset with a deeper hierarchy. API costs increase significantly due to the higher input tokens required for deeper label hierarchies on DH strategy. These results emphasize the trade-off between accuracy improvement and the computational cost of prompt strategy. These findings highlight the potential of black box LLMs for HTC while underscoring the need to carefully select a prompt strategy to balance performance and cost.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Hierarchical Text Classification Using Black Box Large Language Models (使用黑盒大语言模型进行层级文本分类)
1.2. 作者
Kosuke Yoshimura 和 Hisashi Kashima
1.3. 发表机构
京都大学 (Kyoto University),日本
1.4. 发表年份
2025年(根据 Published at (UTC):2025-08-06T08:53:50.000Z 判断,这篇论文在撰写时可能仍是预印本或即将发表。)
1.5. 摘要
层级文本分类 (Hierarchical Text Classification, HTC) 旨在将文本分配到具有结构化层级关系的标签体系中。然而,这项任务面临数据稀缺和模型复杂性等挑战。本研究探索了通过 API 访问的黑盒大语言模型 (Large Language Models, LLMs) 用于 HTC 的可行性,将其作为传统机器学习方法的替代方案。传统方法通常需要大量的标注数据和计算资源。本研究评估了三种提示策略:Direct Leaf Label Prediction (DL)(直接叶标签预测)、Direct Hierarchical Label Prediction (DH)(直接层级标签预测)和 Top-down Multi-step Hierarchical Label Prediction (TMH)(自上而下多步骤层级标签预测),并在零样本 (zero-shot) 和少样本 (few-shot) 设置下进行了评估,比较了这些策略的准确性和成本效益。在两个数据集上的实验结果表明,少样本设置始终比零样本设置能提高分类准确性。尽管传统机器学习模型在一个层级较浅的数据集上取得了高准确性,但 LLM,特别是 DH 策略,在层级更深的数据集上往往优于机器学习模型。由于 DH 策略对于更深层级的标签需要更高的输入词元 (token) 数量,API 成本显著增加。这些结果强调了准确性提升与提示策略计算成本之间的权衡。这些发现突出了黑盒 LLM 在 HTC 中的潜力,同时也强调了需要仔细选择提示策略以平衡性能和成本。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2508.04219 PDF 链接: https://arxiv.org/pdf/2508.04219v1.pdf 发布状态:预印本 (Preprint)
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题
论文试图解决的核心问题是层级文本分类 (Hierarchical Text Classification, HTC) 面临的挑战。HTC 是一种将文本分类到具有预定义层级结构的标签集中的任务。随着数字内容的爆炸式增长,需要高效地对海量文本信息进行分类和检索,而手动处理是不可行的。
2.1.2. 问题的重要性与现有挑战
HTC 在医疗文本、学术文章和电子商务评论等领域有广泛应用,但其本质上具有挑战性:
- 数据稀缺 (Data Scarcity): 标签数量通常多达数百甚至数千,导致每个类别的标注数据稀疏,难以训练出鲁棒的模型。
- 模型复杂性 (Model Complexity): 面对庞大的标签空间,传统的机器学习和深度学习模型可能因每个标签的数据不足而出现过拟合 (overfitting) 或欠拟合 (underfitting) 问题。此外,这些方法通常需要复杂的实现和大量的训练数据。
2.1.3. 论文的切入点与创新思路
近年来,大语言模型 (Large Language Models, LLMs) 在零样本 (zero-shot) 和少样本 (few-shot) 学习方面展现出强大能力。论文的切入点在于利用 LLM 的这些能力来解决 HTC 的挑战。具体而言,它关注通过 API 访问的黑盒 LLM,将其作为一种无需大量标注数据、无需从头训练复杂模型、且实现轻量化的替代方案。这与部署需要大量计算资源的白盒 LLM(可微调)形成对比。
2.2. 核心贡献/主要发现
2.2.1. 主要贡献
本研究的贡献主要体现在以下几个方面:
- 提出并应用了三种
LLM提示策略用于HTC: 将传统HTC方法(如直接预测叶节点、直接预测完整路径、自上而下逐步预测)改编为LLM的提示工程策略,即Direct Leaf Label Prediction (DL)、Direct Hierarchical Label Prediction (DH)和Top-down Multi-step Hierarchical Label Prediction (TMH)。 - 对提示策略进行综合评估: 在真实世界数据集上,对这些提示策略的准确性和成本进行了全面评估。
- 比较零样本和少样本性能: 深入分析了黑盒
LLM在HTC任务中零样本和少样本设置的有效性及局限性。
2.2.2. 关键结论与发现
论文得出了以下关键结论和发现:
- 少样本学习的显著效果: 相比于零样本设置,少样本设置能够持续提高分类准确性。这表明为
LLM提供少量示例(in-context learning)对于HTC任务是有效的。 LLM在深层级数据集上的优势: 尽管传统机器学习模型 (HPT) 在层级较浅的数据集Web of Science (WOS)上表现更优,但LLM(特别是DH策略)在层级更深、训练数据相对有限的Amazon Product Reviews (APR)数据集上,其性能能与传统机器学习模型相媲美,甚至在某些指标上超越。- 准确性与成本的权衡:
DH策略虽然在某些情况下能达到更高的准确性,但由于需要更多的输入词元 (prompt tokens) 来描述深层级的标签结构,导致API成本显著增加。这强调了在选择提示策略时,需要仔细权衡性能提升和计算成本。 - 黑盒
LLM的潜力: 研究结果表明,基于提示的HTC是一种可行的替代方案,尤其是在标注数据稀缺或计算资源受限的情况下。
3. 预备知识与相关工作
本章节旨在为读者提供理解本文所需的背景知识,并阐述本文工作与现有研究的联系及区别。
3.1. 基础概念
3.1.1. 层级文本分类 (Hierarchical Text Classification, HTC)
HTC 是一种特殊的文本分类任务,其标签 (labels) 具有预定义的层级结构,通常表示为树状结构或有向无环图 (Directed Acyclic Graph, DAG)。这意味着一个文本可能属于某个类别,而该类别又包含在更广泛的父类别之下,例如“计算机科学 > 人工智能 > 自然语言处理”。HTC 的目标是将给定文本分类到其层级结构中的一个或多个相应标签。
3.1.2. 大语言模型 (Large Language Models, LLMs)
LLM 是指具有数亿甚至数千亿参数的深度学习模型,它们通过在海量文本数据上进行预训练,学习了丰富的语言知识和模式。这些模型能够执行多种自然语言处理任务,如文本生成、问答、翻译和分类等。本文研究的 gpt-4o-mini 就是一种 LLM。
3.1.3. 零样本学习 (Zero-shot Learning)
零样本学习 是一种机器学习范式,模型在训练时没有见过任何属于某个特定类别的示例,但在推理时却能对该类别进行预测。对于 LLM 而言,通常是通过在提示 (prompt) 中提供任务描述和候选标签,而无需提供任何具体的示例文本及其对应标签,直接让模型进行分类。
3.1.4. 少样本学习 (Few-shot Learning)
少样本学习 是指模型在训练时只提供了极少量(例如1到20个)的示例,就能学习并泛化到新任务。对于 LLM 来说,少样本学习 通常通过 in-context learning(上下文学习)实现。即在提示中不仅包含任务描述和候选标签,还包含少量输入文本及其对应标签的示例,以此引导 LLM 理解任务模式并进行预测。
3.1.5. 黑盒 LLM (Black Box LLMs)
黑盒 LLM 是指那些通过 API 或图形用户界面 (GUI) 提供的 LLM,用户无法访问其内部模型参数、架构,也无法进行模型的训练或微调 (fine-tuning)。用户只能通过输入提示 (prompts) 来获取模型的输出。本文的研究主要围绕这类模型展开,例如 OpenAI 的 gpt-4o-mini。
3.1.6. 白盒 LLM (White Box LLMs)
白盒 LLM 是指用户可以完全访问其模型参数、架构,并能够在自己的计算资源上进行部署、训练或微调的 LLM。这类模型提供了更高的灵活性和控制力,但通常需要大量的计算资源。
3.1.7. 提示工程 (Prompting / Prompt Engineering)
提示工程 是指设计和优化输入给 LLM 的文本指令(即提示),以引导模型生成所需输出的艺术和科学。有效的提示可以显著提高 LLM 在特定任务上的性能。在本文中,三种不同的提示策略(DL, DH, TMH)被设计用于 HTC 任务。
3.1.8. 词元 (Token)
在自然语言处理中,词元 (token) 是文本处理的基本单位,可以是单词、子词(如英文单词的词根、前缀、后缀)或单个字符。LLM 在处理文本时,会将其分解为一系列词元。API 调用的成本通常与输入词元(prompt tokens)和输出词元(completion tokens)的数量相关。
3.2. 前人工作
3.2.1. 经典机器学习与深度学习 HTC
- 传统机器学习方法 (Classical Machine Learning): 早期方法通过从输入文本中提取特征,并应用专门的层级分类模型(如
SVM)来解决HTC问题 [9,10]。 - 深度学习方法 (Deep Learning):
Kowsari et al.提出了为每个层级使用不同深度学习架构的方法,以解决传统多类别分类方法在标签数量增加时准确性下降的问题 [1]。该方法通过在父标签条件下训练模型来估计子标签。然而,它仍需要大量训练数据。Gargiulo et al.针对PubMed数据集中专家标注不完整的问题,提出了Hierarchical Label Set Expansion (HLSE)来补充父子节点关系 [2]。
3.2.2. 基于预训练语言模型 (PLMs) 的 HTC
-
HPT (Hierarchy-aware Prompt Tuning):
Wang et al.提出了HPT[11],通过将标签层级信息整合到动态虚拟模板和层级感知标签词中,弥合了传统提示微调 (prompt tuning) 与预训练语言模型 (PLMs) 训练任务之间的差距。它还引入了零界多标签交叉熵损失 (zero-bounded multi-label cross-entropy loss) 来处理标签不平衡和低资源场景。 -
HierVerb:
Ji et al.提出了HierVerb[12],一个用于少样本HTC的多verbalizer框架,它将层级信息直接嵌入到层级特定的verbalizer中。通过整合层级感知约束链和胖层级对比损失 (fat hierarchical contrastive loss),HierVerb有效利用了预训练语言模型知识。注:
HPT和HierVerb都不是基于大型语言模型LLM的,而是利用BERT等预训练语言模型。它们通常需要对模型进行训练或微调,这与本文的黑盒LLM零/少样本方法有显著区别。
3.2.3. LLM 的应用
LLM作为零样本文本分类器:Wang et al.的研究 [7] 验证了LLM作为零样本文本分类器的能力。该研究与本文类似,但其主要区别在于未评估考虑层级结构的文本分类,且仅关注零样本场景。LLM在其他任务中的应用: 许多研究尝试利用LLM解决各种问题和任务,例如表格数据的少样本分类 [8]。
3.2.4. LLM 与 HTC
- 结合
LLM和推理预测器:Bhambhoria et al.[4] 提出了一个结合LLM和蕴含预测器 (Entailment Predictors) 的模型,将层级分类任务转换为长尾预测任务。他们的研究侧重于结合框架,而非像本文一样明确比较提示策略,且问题设置不同。 TELEClass:Zhang et al.[14] 提出了TELEClass,一个利用LLM进行标注和扩展分类体系以实现高性能分类模型训练的方法。他们的研究主要关注零样本设置下使用LLM微调预训练模型,与本文旨在阐明不同提示策略的准确性和成本差异的目标不同。- 基于检索的上下文学习:
Chen et al.[15] 提出了一种用于少样本HTC的基于检索的上下文学习 (In-context Learning, ICL) 方法,该方法需要任务特定的训练和数据库构建。本文则探索不依赖检索或微调,仅依赖提示策略的黑盒LLM。 - 单通道零样本
HTC:Schmidt et al.[16] 专注于零样本HTC,利用LLM和层级标签结构来提高分类性能。他们的研究探索了基于提示的分类,但未进行少样本实验。
3.3. 技术演进
HTC 的技术演进大致经历了以下阶段:
- 早期机器学习时代: 基于特征工程和
SVM等经典分类算法。 - 深度学习时代: 采用
RNN、CNN等网络结构处理文本,并设计针对层级结构的特定模型。这一阶段虽然提升了性能,但仍高度依赖大量标注数据和复杂的模型训练。 - 预训练语言模型时代 (PLMs):
BERT等PLM的出现,通过微调在下游任务上表现出色,也催生了HPT和HierVerb等将层级信息融入PLM的方法。这些方法减少了对大规模任务特定标注数据的依赖,但仍需要微调。 - 大语言模型时代 (LLMs):
ChatGPT等LLM的崛起,其强大的零样本和少样本学习能力,为HTC提供了一条无需训练、无需微调的“轻量级”解决方案。本文的工作正是这一趋势的体现,专注于黑盒LLM的提示策略。
3.4. 差异化分析
本文的工作与相关工作的核心区别在于:
- 聚焦黑盒
LLM: 本文主要关注通过API访问的黑盒LLM,无需用户进行模型训练或微调,实现轻量级部署。这与需要部署或微调白盒LLM/PLM的方法(如HPT、HierVerb、TELEClass、Chen et al.的方法)形成对比。 - 系统比较多种提示策略: 本文深入评估了三种不同的
LLM提示策略 (DL,DH,TMH),并比较了它们在准确性和成本效益方面的表现。这与Schmidt et al.仅探索提示分类但未进行少样本实验,或Bhambhoria et al.侧重于结合框架而非明确比较提示策略的研究不同。 - 兼顾零样本和少样本设置: 本文同时在零样本和少样本设置下进行实验,提供了更全面的分析,揭示了提供少量标注示例对性能和成本的影响。这弥补了许多
LLMHTC研究仅关注零样本设置的不足。 - 成本效益分析: 本文不仅关注准确性,还对不同提示策略的
API成本进行了详细分析,揭示了性能与成本之间的权衡,这对于实际应用具有重要指导意义。
4. 方法论
本研究旨在通过仅使用黑盒大语言模型进行推理,并采用零样本或少样本设置,实现低成本、高准确性的层级分类 (HTC) 及轻量级实现。论文通过设计和评估三种提示策略来解决 HTC 问题。
4.1. 方法原理
本文的核心思想是将传统的 HTC 策略适配为 LLM 的提示技术。由于使用的是黑盒 LLM,无法进行训练或微调,因此所有分类任务都通过精心构造的提示 (prompts) 来引导模型完成。目标是给定文本 和一个只能通过 API 调用的黑盒 LLM ,通过设计提示策略,从具有层级结构的候选标签集 中,为输入文本 分配更准确的标签。在少样本 (few-shot) 设置下,会提供少量训练数据 ,其中 。
4.2. 核心方法详解
论文评估了三种提示策略:Direct Leaf Label Prediction (DL)、Direct Hierarchical Label Prediction (DH) 和 Top-down Multi-step Hierarchical Label Prediction (TMH)。
4.2.1. 直接叶标签预测策略 (Direct Leaf Label Prediction, DL)
-
方法原理:
DL策略的核心思想是直接从候选标签集的叶节点中为每个输入文本选择相应的标签。这意味着LLM被指示直接预测层级结构中最底层的具体类别,而不需要显式地预测中间层级的父标签。 -
执行逻辑:
- 提示构建: 构建一个提示模板,其中包含:
- 明确的分类指令(例如:“从以下候选标签中选择一个最适合输入文本的标签”)。
- 所有层级结构中的所有叶节点作为候选标签列表。
- 一个占位符,用于插入实际的输入文本 。
LLM预测: 将构建好的提示发送给黑盒LLM。LLM会根据输入文本 和提供的叶节点候选标签,直接输出一个预测的叶标签。- 层级回溯 (适用于评估): 由于
DL策略只预测叶标签,为了在评估时计算上层层级的准确性,会通过追溯预测叶标签的父标签来推断其上层层级。
- 提示构建: 构建一个提示模板,其中包含:
-
图示说明: 原文 Figure 1 形象地展示了
DL策略。输入文本Abstract: ....被提供给LLM,同时给出叶节点列表[Medicine, Biology, ... , Artificial Intelligence, Web Technology]。LLM直接输出Web Technology,然后通过回溯其父节点Computer Science来得到完整的层级路径。 -
提示模板示例: 原文 Figure 4 展示了
DL策略在Web of Science数据集上的提示模板。
该图像是一个示意图,展示了 DL 策略的提示模板。图中包含了用于分类的指令、候选标签和输入文本占位符 {input data},示意如何选择一个相关领域标签。上图(原文 Figure 4)展示了
DL策略在Web of Science数据集上的提示模板。{input data}区域将被实际的输入文本替换。提示清晰地指示LLM根据提供的文本,从候选列表中选择一个最相关的标签。
4.2.2. 直接层级标签预测策略 (Direct Hierarchical Label Prediction, DH)
-
方法原理:
DH策略旨在让LLM直接输出一个完整的层级路径,该路径由从根节点到叶节点的连续标签组成。这使得LLM能够一次性地捕捉并表达文本在整个层级结构中的位置。 -
执行逻辑:
- 提示构建: 构建一个提示模板,其中包含:
- 明确的分类指令(例如:“从以下候选路径中选择一个最适合输入文本的层级路径”)。
- 将所有可能的层级路径(形式为 )作为候选标签提供给
LLM。 - 一个占位符,用于插入实际的输入文本 。
LLM预测: 将构建好的提示发送给黑盒LLM。LLM会直接输出一个符合指定格式的完整层级路径。
- 提示构建: 构建一个提示模板,其中包含:
-
图示说明: 原文 Figure 2 描绘了
DH策略。输入文本Abstract: ....被提供给LLM,同时提供完整的层级路径列表 。LLM直接输出 。 -
提示模板示例: 原文 Figure 5 展示了
DH策略在Web of Science数据集上的提示模板。
该图像是一个示意图,展示了用于层次文本分类的直接层级标签预测(DH)策略的提示模板。在图中,区域将被实际输入文本替换。上图(原文 Figure 5)展示了
DH策略在Web of Science数据集上的提示模板。{input data}区域将被实际的输入文本替换。提示要求LLM从提供的层级路径候选列表中选择一个最能描述输入文本的路径。
4.2.3. 自上而下多步骤层级标签预测策略 (Top-down Multi-step Hierarchical Label Prediction, TMH)
-
方法原理:
TMH策略模拟了人类自上而下逐层分类的思维过程。它分多步进行,在每一步中预测当前层级的标签,然后根据预测结果动态地确定下一层级的候选标签集。 -
执行逻辑:
- 逐层预测:
- 第一步 (第一层深度): 构建一个提示,提供所有第一层深度的标签作为候选标签。
LLM预测出最合适的第一层标签。 - 后续步骤 (后续层深度): 对于每一个后续深度 ,构建一个新的提示。这次的候选标签集只包含前一步(深度
d-1)预测出的标签的所有子标签。LLM预测出最合适的深度 标签。
- 第一步 (第一层深度): 构建一个提示,提供所有第一层深度的标签作为候选标签。
- 鲁棒性处理 (模糊匹配):
LLM不总是严格按照提供的候选标签输出。为了解决这个问题:- 如果在当前步骤中
LLM预测的标签不在提供的候选标签集中,系统会计算LLM输出与候选标签集中每个标签之间的Levenshtein 距离(Levenshtein distance)。 - 选择与
LLM输出Levenshtein 距离最小的候选标签作为实际的预测标签。 - 然后,将这个匹配到的标签的子标签作为下一层级的候选标签集。
- 如果在当前步骤中
- 逐层预测:
-
图示说明: 原文 Figure 3 阐释了
TMH策略。
该图像是一个示意图,展示了Top-down Multi-step Hierarchical Label Prediction策略。在第一层,LLM选择了"Computer Science",随后在第二层仅提供"Computer Science"的子节点作为候选标签进行预测。上图(原文 Figure 3)展示了
Top-down Multi-step Hierarchical Label Prediction策略。在该图中,由于LLM在第一层深度选择了Computer Science,因此在第二层深度,该方法只提供Computer Science的子节点作为候选标签来提示文本。 这展示了TMH如何根据上一层的预测动态调整下一层的候选集。
总结比较:
- DL: 最简单,只预测叶节点,再回溯父节点。
- DH: 最直接,一次性预测完整层级路径。
- TMH: 最细致,逐层预测,动态调整候选集,并带有模糊匹配机制。
5. 实验设置
5.1. 数据集
实验使用了两个真实世界的数据集:Web of Science (WOS) 和 Amazon Product Reviews (APR)。在进行实验前,为了确保评估的完整性,作者使用 ChatGPT-Cheat? [18] 和 TimeTravel-in-LLMs [19] 对数据集进行了数据污染 (data contamination) 检查。结果显示没有检测到污染或可疑情况,确认了数据集的有效性。
5.1.1. 数据集详情
以下是原文 Table 1 提供的两个数据集的详细信息:
| #(data) | #(candidate labels) | ||||
| dataset name | train | test | 1st | 2nd | 3rd |
| Web of Science | 1,250 | 1,800 | 7 | 136 | |
| Amazon Product Reviews | 1,250 | 1,800 | 6 | 62 | 309 |
上表(原文 Table 1)展示了 Web of Science 和 Amazon Product Reviews 数据集的详细信息。表中 #(candidate labels) 部分代表了层级分类中每个深度层级的标签数量。
-
Web of Science (WOS) 数据集 [1]:
- 来源: 包含 46,985 篇从
Web of Science收集的已发表论文。 - 构成: 每篇文章提取摘要、领域 (domains) 和关键词 (keywords)。摘要作为输入文本,领域作为第一层深度标签,关键词作为第二层深度标签。
- 规模: 训练集 1,250 条,测试集 1,800 条。
- 层级结构: 2层深度。第一层有 7 个候选标签,第二层有 136 个候选标签。
- 来源: 包含 46,985 篇从
-
Amazon Product Reviews (APR) 数据集 [17]:
- 来源: 从
amazon.com抓取的评论和产品类别数据,发布在kaggle.com上。原始训练数据有 40,000 条记录。 - 构成: 数据集包含三层标签。
- 规模: 训练集 1,250 条,测试集 1,800 条。
- 层级结构: 3层深度。第一层有 6 个候选标签,第二层有 62 个候选标签,第三层有 309 个候选标签。
- 来源: 从
5.1.2. 数据污染检查
-
工具: 使用
ChatGPT-Cheat?[18] 和TimeTravel-in-LLMs[19] 进行数据污染检查。 -
ChatGPT-Cheat?配置: 温度 (temperature) 设置为 0,最大完成词元 (max_completion_tokens) 为 500。 -
WOS检查:WOS原始格式为.xlsx,同时测试了.csv格式,以考虑LLM潜在的训练来源。由于WOS没有预定义拆分,使用了不引用特定数据集分区的提示(原文 Figure 6a)。 -
APR检查:APR有预定义的训练/验证集拆分,因此使用了明确提及这些拆分的提示(原文 Figure 6b)。同时,针对APR的另一个名称“Hierarchical Text Classification”也进行了测试。 -
结果: 均未检测到污染或可疑情况。
-
测试集构建: 通过
TimeTravel-in-LLMs的实例级分析,选择了 1,800 个未受污染的实例作为测试集。剩余数据中随机采样 1,250 个实例作为训练数据。以下是原文 Figure 6 展示的
ChatGPT-Cheat?用于验证数据污染的提示示例:
该图像是图示,展示了 ChatGPT-Cheat? 的提示示例,用于验证数据污染。左侧(a)为未包含拆分名称的提示,右侧(b)为包含拆分名称的提示。
上图(原文 Figure 6)展示了 ChatGPT-Cheat? 的提示示例,用于验证数据污染。{dataset_name} 被替换为目标数据集名称,{split} 被替换为目标拆分名称,{format} 被替换为目标数据格式类型。
5.2. 评估指标
由于 LLM 不一定会严格输出候选标签集中的标签,如果直接使用完美匹配的准确率会低估性能。因此,在评估前对 LLM 的输出和真实标注数据 (Ground Truth) 都进行了文本标准化处理(移除部分符号和去大写)。
本文使用以下指标进行性能评估:
5.2.1. 深度 的准确率 ()
- 概念定义: 衡量的是在给定深度 上,模型正确预测标签的实例数量占总实例数量的比例。它反映了模型在特定层级上的整体分类能力。
- 数学公式:
- 符号解释:
- : 在深度 上标签被正确预测的实例数量。
- : 总的实例数量。
5.2.2. 条件准确率 ()
- 概念定义: 衡量的是在父标签(深度 的标签)被正确预测的前提下,子标签(深度 的标签)也被正确预测的条件概率。这个指标对于评估层级分类模型在层级一致性方面的表现尤为重要,因为它只关注在正确路径上的进一步细化分类能力。
- 数学公式:
- 符号解释:
- : 实例中深度 和深度 的标签都被正确预测的数量。
- : 实例中深度 的标签被正确预测的数量。
5.3. 对比基线
为了评估黑盒 LLM 在 HTC 方面的性能,本研究将其与一种非 LLM 的机器学习方法 Hierarchy-aware Prompt Tuning for Hierarchical Text Classification (HPT) [11] 进行了比较。
- HPT 简介:
HPT是一种层级文本分类方法,它利用基于 Transformer 的架构,并融入了层级标签依赖信息以提高分类准确性。它通过将标签层级信息整合到动态虚拟模板和层级感知标签词中来实现。 - 参数设置:
batch_size设置为 16,其他参数均保持默认值。 - 实现: 实验使用
HPT的官方实现 (https://github.com/wzh9969/HPT)。
6. 实验结果与分析
本节展示了使用三种不同提示策略和黑盒 LLM 进行层级分类的实验结果,并在 Web of Science (WOS) 和 Amazon Product Reviews (APR) 两个数据集上进行了评估。结果与机器学习模型 HPT 进行了比较,以评估 LLM 基于提示的策略在零样本 (zero-shot) 和少样本 (few-shot) 设置下的有效性。
6.1. 核心结果分析
6.1.1. Web of Science (WOS) 数据集结果
以下是原文 Table 2 展示的 Web of Science 数据集的结果:
| Method | #(Few Shot) ACC1 | P(p2r True True) |p1 | ACC2 |
| Machine Learning Model | |||
| HPT | 0.826 | 0.655 | 0.571 |
| Prompt Strategies | |||
| DL | 0 0.677 | 0.581 | 0.393 |
| DL | 1 0.707 | 0.604 | 0.427 |
| DL | 3 0.708 | 0.620 | 0.439 |
| DL | 5 0.713 | 0.617 | 0.440 |
| DL | 10 0.712 | 0.605 | 0.431 |
| DL | 20 0.710 | 0.611 | 0.434 |
| DH | 0 0.627 | 0.601 | 0.401 |
| DH | 1 0.693 | 0.598 | 0.434 |
| DH | 3 0.688 | 0.579 | 0.417 |
| DH | 5 0.691 | 0.572 | 0.413 |
| DH | 10 0.688 | 0.567 | 0.407 |
| DH | 20 0.684 | 0.575 | 0.416 |
| TMH | 0 0.616 | 0.652 | 0.405 |
| TMH | 1 0.654 | 0.664 | 0.436 |
| TMH | 3 0.652 | 0.665 | 0.434 |
| TMH | 5 0.651 | 0.653 | 0.427 |
| TMH | 10 0.656 | 0.657 | 0.433 |
| TMH | 20 0.654 | 0.663 | 0.437 |
上表(原文 Table 2)展示了 Web of Science 数据集的结果。表格包含了零样本 (zero-shot) 和少样本 (few-shot) 设置下三种提示策略的性能结果,以及与机器学习模型 HPT 的比较。每个设置中表现最佳的提示策略已用粗体突出显示(注:原文图片中没有粗体,这里遵循了原文描述)。
- HPT 基线表现: 机器学习模型
HPT在WOS数据集上表现最佳,,,。它在所有指标上均优于所有基于LLM的提示策略。这表明在一个层级较浅(2层深度)且可能相对充足的数据集上,传统微调模型仍有优势。 LLM提示策略表现:- 少样本优势: 总体而言,所有
LLM提示策略的少样本 (few-shot) 设置都显著提升了性能,远超零样本 (zero-shot) 设置。这强调了上下文学习对于提高LLM分类结果的必要性。 - DL 策略: 在
LLM策略中,DL在 5 样本设置下实现了最高的 和 ,显示出在两个层级上都具有最强的分类性能。 - TMH 策略:
TMH在 3 样本设置下实现了最高的条件准确率 ,这表明在父标签正确预测的情况下,TMH在预测第二层子标签方面表现出色。这可能得益于其逐层预测的特性,能够更好地保持层级一致性。 - DH 策略:
DH策略的表现相对居中。
- 少样本优势: 总体而言,所有
6.1.2. Amazon Product Reviews (APR) 数据集结果
以下是原文 Table 3 展示的 Amazon Product Reviews 数据集的结果:
| Method #(Few Shot) ACC1 P(pTrue| |pTre) ACC2 P(pTrue| pTrue) ACC3 | |||||
| Machine Learning Model | |||||
| HPT | 0.823 | 0.657 | 0.556 | 0.641 | 0.377 |
| Prompt Strategies | |||||
| DL | 0 0.637 | 0.561 | 0.357 | 0.720 | 0.257 |
| DL | 1 0.667 | 0.629 | 0.419 | 0.768 | 0.322 |
| DL | 3 0.693 | 0.675 | 0.468 | 0.785 | 0.367 |
| DL | 5 0.690 | 0.688 | 0.474 | 0.783 | 0.372 |
| DL | 10 0.701 | 0.679 | 0.476 | 0.788 | 0.375 |
| DL | 20 | 0.709 0.707 | 0.502 | 0.781 | 0.392 |
| DH | 0 | 0.817 0.718 | 0.591 | 0.782 | 0.491 |
| DH | 1 | 0.854 0.718 | 0.616 | 0.784 | 0.510 |
| DH | 3 | 0.862 0.732 | 0.633 | 0.770 | 0.507 |
| DH | 5 | 0.868 | 0.733 | 0.640 0.769 | 0.517 |
| DH | 10 | 0.867 | 0.744 0.649 | 0.769 | 0.521 |
| DH | 20 | 0.854 | 0.744 | 0.646 0.796 | 0.532 |
| TMH | 0 | 0.847 | 0.68 | 0.576 0.754 | 0.436 |
| TMH | 1 | 0.824 | 0.679 | 0.560 0.783 | 0.440 |
| TMH | 3 | 0.828 | 0.673 | 0.558 0.793 | 0.442 |
| TMH | 5 | 0.825 | 0.678 | 0.560 0.811 | 0.455 |
| TMH | 10 | 0.836 | 0.681 | 0.570 | 0.842 0.481 |
| TMH | 20 | 0.828 | 0.691 | 0.573 | 0.853 0.490 |
上表(原文 Table 3)展示了 Amazon Product Reviews 数据集的结果。表格包含了零样本 (zero-shot) 和少样本 (few-shot) 设置下三种提示策略的性能结果,以及与机器学习模型 HPT 的比较。每个设置中表现最佳的提示策略已用粗体突出显示(注:原文图片中没有粗体,这里遵循了原文描述)。
- HPT 基线表现: 在
APR数据集上,HPT取得了 ,,。 LLM提示策略表现 (与HPT比较):- DH 策略的优异表现: 在
APR这个具有三层深层级的数据集上,DH策略表现出显著的优势。DH5 样本达到了最高的 和 ,甚至超越了HPT在这些层级上的表现。DH在 10 样本和 20 样本设置下实现了最高的 ,表明其在深层级提示的有效性。- 对于最终层级 ,
DH20 样本取得了最佳性能 。 - 在条件准确率 上,
DH20 样本也表现最佳 ,这表明DH在保持更深层级分类一致性方面的优势。
- TMH 策略:
TMH策略在APR数据集上也表现良好,尤其是在零样本和少样本设置下,其 普遍高于HPT。例如,TMH零样本的 为0.847,高于HPT的0.823。这表明TMH的逐层细化方法在面对复杂层级时具有一定优势。 - DL 策略:
DL策略的性能提升随着样本数增加而稳定,但总体上不如DH和TMH在APR上的表现。
- DH 策略的优异表现: 在
- 关键发现:
- 少样本始终优于零样本: 无论是
WOS还是APR,少样本提示都显著提高了所有策略的性能。 LLM在深层级数据集上的竞争力: 在APR数据集上,LLM提示策略,尤其是DH和TMH,其性能达到了与机器学习模型HPT相当甚至超越的水平。这与WOS数据集上HPT明显领先的情况形成对比,表明LLM在处理更复杂、训练数据相对有限的深层级结构时,具有强大的潜力。这可能是因为LLM自身的丰富语言知识弥补了特定任务训练数据的不足。
- 少样本始终优于零样本: 无论是
6.2. 成本分析
本节分析了在不同少样本设置下,各种提示策略的计算成本,主要以输入词元 (prompt tokens) 和输出词元 (completion tokens) 的数量来衡量。
以下是原文 Table 4 展示的平均词元数量:
| #(few shot examples) | ||||||||
| dataset | prompt | 0 | 1 | 3 | 5 | 10 | 20 | |
| prompt tokens | ||||||||
| WOS | DL | 833.33 | 1105.00 | 1662.39 | 2210.69 | 3594.35 | 6326.98 | |
| DH | 1249.33 | 1523.39 | 2080.72 | 2642.91 | 4034.88 | 6822.23 | ||
| TMH | 783.70 | 1305.11 | 2389.67 | 3491.28 | 6250.63 | 11755.44 | ||
| APR | DL | 1337.16 | 1440.54 | 1653.19 | 1866.96 | 2377.60 | 3424.61 | |
| DH | 3354.16 | 3465.7 | 3689.27 | 3912.13 | 4460.17 | 5574.73 | ||
| TMH | 511.23 | 828.81 | 1444.18 | 2057.71 | 3559.82 | 6472.83 | ||
| completion tokens | ||||||||
| WOS | DL | 4.47 | 3.90 | 3.64 | 3.67 | 3.47 | 3.83 | |
| DH | 6.30 | 6.23 | 6.21 | 6.22 | 6.23 | 6.33 | ||
| TMH | 7.51 | 6.81 | 7.07 | 6.78 | 6.95 | 7.03 | ||
| APR | DL | 4.49 | 3.83 | 3.92 | 4.03 | 4.08 | 4.11 | |
| DH | 9.99 | 10.06 | 10.10 | 10.08 | 10.10 | 10.07 | ||
| TMH | 12.58 | 11.32 | 11.45 | 11.25 | 11.51 | 11.33 | ||
上表(原文 Table 4)展示了平均提示词元(输入词元)和完成词元(输出词元)的数量,上半部分为提示词元,下半部分为完成词元。
- 输入词元 (Prompt Tokens) 是主要成本因素:
- 随着少样本示例数量的增加,提示词元的数量显著增加,直接影响计算成本。例如,在
WOS数据集上,DL策略的提示词元从零样本的833.33增长到 20 样本的6326.98。TMH策略甚至达到了11755.44。 - 在
APR数据集上,DH策略的提示词元从3354.16增加到5574.73。 - 这表明,提示词元是
API成本的主要驱动因素。
- 随着少样本示例数量的增加,提示词元的数量显著增加,直接影响计算成本。例如,在
- 输出词元 (Completion Tokens) 相对稳定:
- 与输入词元相比,完成词元的数量在不同设置下保持相对稳定,波动较小。这说明模型生成答案本身的词元量对总成本的影响较小。
- 不同提示策略的成本特性:
- DH 策略:
DH策略通常需要最高的提示词元数量。这可能是因为它需要将完整的层级路径作为候选标签或输出格式,导致提示内容更长,尤其是在层级较深的数据集(如APR)上,其零样本和少样本的提示词元量都显著高于其他策略。尽管DH在APR上表现优异,但其成本也最高。 - TMH 策略:
TMH策略的初始(零样本)提示词元较少,但随着少样本示例的增加,其词元数量呈急剧增长趋势。这表明TMH对少样本示例的数量非常敏感,需要仔细管理以避免过高的词元消耗。在 20 样本时,TMH在WOS和APR上都达到了最高的词元数。 - DL 策略:
DL策略的词元使用量增长相对温和。它在简洁性和信息量之间取得了较好的平衡,提供了更可预测的成本-性能权衡。
- DH 策略:
- 成本-性能权衡:
- 实验结果强调了准确性提升与计算成本之间的权衡。例如,
DH策略在APR数据集上取得了最高的准确性,但同时也是成本最高的策略。 - 为了实现成本效益高的提示选择,需要考虑每种提示类型的特点,并根据具体任务的需求(例如对准确性的容忍度、预算限制)来平衡模型效果和计算成本。对于
TMH策略,限制少样本示例的数量对于控制词元消耗至关重要。
- 实验结果强调了准确性提升与计算成本之间的权衡。例如,
6.3. 总结性分析
- 少样本学习是关键: 在两个数据集上,少样本提示都显著提高了
LLM的分类性能,这证明了in-context learning对于HTC任务的重要性。 - 数据集特性影响策略选择:
- 对于层级较浅的
WOS数据集,传统机器学习模型HPT仍具有优势,而LLM中DL表现最好。 - 对于层级更深、结构更复杂的
APR数据集,LLM(尤其是DH和TMH) 的性能显著提升,甚至可以超越HPT。这表明LLM强大的泛化能力和丰富的语言知识在处理复杂层级和有限标注数据时更具优势。
- 对于层级较浅的
- 成本考量不可忽视:
API成本与提示词元数量直接相关,而DH和TMH策略在深层级或多样本设置下会显著增加词元消耗。这促使在实际应用中需要对提示策略进行优化,以平衡性能和成本。
7. 总结与思考
7.1. 结论总结
本研究深入探讨了利用黑盒大语言模型 (LLMs) 进行层级文本分类 (HTC) 的可行性,旨在解决传统 HTC 方法面临的数据稀缺和模型复杂性问题。通过评估 Direct Leaf Label Prediction (DL)、Direct Hierarchical Label Prediction (DH) 和 Top-down Multi-step Hierarchical Label Prediction (TMH) 三种提示策略在零样本 (zero-shot) 和少样本 (few-shot) 设置下的表现,研究得出了以下关键结论:
-
LLM在HTC中的潜力:LLM驱动的提示策略能够达到与传统机器学习模型相当甚至超越的性能,尤其是在标签结构复杂且训练数据有限的数据集(如Amazon Product Reviews)上,这凸显了LLM作为HTC替代方案的巨大潜力。 -
少样本学习的有效性:
少样本学习显著提高了LLM的分类准确性,缩小了与传统机器学习方法之间的性能差距,证明了in-context learning对于HTC任务的重要性。 -
性能与成本的权衡: 尽管某些策略(如
DH)能够实现更高的分类准确性,但其API成本会随着层级深度的增加而显著提高,这强调了在实际应用中,必须仔细选择提示策略以平衡性能和计算开销。总体而言,本研究证实了基于提示的
HTC是一种可行的、轻量级的解决方案,尤其适用于低资源场景。
7.2. 局限性与未来工作
论文作者指出了以下局限性:
- 模型限制: 本研究仅限于
OpenAI的gpt-4o-mini模型。未来的工作应扩展到其他黑盒LLM,并对比分析它们的成本效益和性能权衡。 - 层级深度限制: 实验数据集的层级深度仅限于二层或三层。对于更深层级的复杂层级结构,
DH策略的潜在优势仍需通过更多实验来验证。 - 黑盒
LLM的限制: 本研究专注于黑盒LLM,这限制了对模型内部机制的探索和微调的可能性。未来的研究可以考虑包含白盒LLM的微调策略,以提供更全面的性能和成本分析。
7.3. 个人启发与批判
7.3.1. 个人启发
- 轻量级
HTC解决方案的希望: 这篇论文为在数据稀缺和计算资源有限的场景下,实现高效的HTC提供了一个非常有前景的轻量级解决方案。无需复杂的模型训练和部署,仅通过API调用即可利用LLM的强大能力,这对于许多小型团队或快速原型开发而言极具吸引力。 LLM知识迁移的价值:LLM在预训练阶段积累的丰富语言知识,使其能够在少样本甚至零样本设置下,对复杂层级结构进行有效分类,这弥补了特定任务数据不足的短板。尤其是在APR数据集上,LLM甚至超越了经过训练的HPT模型,这证明了LLM强大的泛化和推理能力。- 提示工程的重要性: 论文通过比较不同的提示策略,强调了提示工程在利用黑盒
LLM时的关键作用。不同的策略在性能和成本上表现出显著差异,这提示我们在实际应用中,投入精力优化提示设计是至关重要的。 - 成本意识的必要性: 论文对
API成本的分析非常实际。在选择LLM解决方案时,不能仅仅关注性能,还需要将token消耗带来的成本作为核心考量因素。这对于商业化部署或大规模应用具有直接的指导意义。
7.3.2. 批判与潜在改进
- 提示策略的鲁棒性: 尽管
TMH策略尝试通过Levenshtein 距离处理LLM输出不严格匹配候选标签的问题,但LLM的输出格式和内容有时会高度不稳定。如何进一步增强提示策略对LLM输出多样性的鲁棒性,减少解析错误,是一个值得深入研究的方向。例如,可以通过更严格的输出格式约束(如JSON)和更复杂的后处理逻辑来提高鲁棒性。 - 更深层级和更复杂的层级结构: 论文提到仅在二层或三层深度的数据集上进行了实验。在现实世界中,许多分类体系可能具有更深的层级(例如,商品分类或生物分类学)。对于这些场景,提示中包含所有路径或逐层提示的成本可能会呈指数级增长。如何设计更智能、更成本效益高的提示策略来处理超深层级
HTC是一个挑战。例如,可以探索基于语义相似性动态剪枝候选路径或结合检索增强生成 (Retrieval-Augmented Generation, RAG) 的方法。 - 不同
LLM的泛化性: 论文仅使用了gpt-4o-mini。不同LLM(例如Anthropic的Claude、Google的Gemini或开源模型)对不同提示策略的响应可能存在差异。未来的工作应进行更广泛的LLM评估,以确定结论的泛化能力和哪种LLM最适合特定的HTC场景。 Few-shot示例的选择: 论文提到少样本示例是随机采样的。如何选择“最佳”的少样本示例(例如,具有代表性、多样性或边缘案例的示例)以最大化性能并最小化成本,是一个重要的优化问题。这可以借鉴retrieval-augmented in-context learning的思想,但需适应黑盒LLM的限制。- 成本优化策略: 随着
LLM API成本成为关键因素,除了提示策略的选择外,还可以探索其他成本优化技术,例如:-
提示压缩 (Prompt Compression): 在不损失关键信息的前提下,压缩提示内容以减少
token数量。 -
批处理 (Batching): 将多个推理请求批处理发送给
LLM,以摊薄API调用的固定成本。 -
混合策略: 根据层级深度或置信度动态切换提示策略,例如在浅层级使用
DH,在深层级或低置信度时切换到TMH或更精简的DL。总之,本研究为黑盒
LLM在HTC领域的应用打开了新的视角,但同时也提出了许多有待解决的问题,为未来的研究指明了方向。
-
相似论文推荐
基于向量语义检索推荐的相关论文。