AiPaper
论文状态:已完成

Zero-Shot Document-Level Biomedical Relation Extraction via Scenario-based Prompt Design in Two-Stage with LLM

发表:2025/05/02
原文链接PDF 下载
价格:0.10
价格:0.10
已有 6 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出一种基于两阶段场景化提示设计的零样本文档级生物医学关系抽取方法,利用大语言模型实现命名实体识别和关系抽取。通过五部分提示模板和设计原则,有效提升抽取效果,在ChemDisGene和CDR数据集上表现媲美微调模型,显著降低标注和硬件成本。

摘要

With the advent of artificial intelligence (AI), many researchers are attempting to extract structured information from document-level biomedical literature by fine-tuning large language models (LLMs). However, they face significant challenges such as the need for expensive hardware, like high-performance GPUs and the high labor costs associated with annotating training datasets, especially in biomedical realm. Recent research on LLMs, such as GPT-4 and Llama3, has shown promising performance in zero-shot settings, inspiring us to explore a novel approach to achieve the same results from unannotated full documents using general LLMs with lower hardware and labor costs. Our approach combines two major stages: named entity recognition (NER) and relation extraction (RE). NER identifies chemical, disease and gene entities from the document with synonym and hypernym extraction using an LLM with a crafted prompt. RE extracts relations between entities based on predefined relation schemas and prompts. To enhance the effectiveness of prompt, we propose a five-part template structure and a scenario-based prompt design principles, along with evaluation method to systematically assess the prompts. Finally, we evaluated our approach against fine-tuning and pre-trained models on two biomedical datasets: ChemDisGene and CDR. The experimental results indicate that our proposed method can achieve comparable accuracy levels to fine-tuning and pre-trained models but with reduced human and hardware expenses.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): Zero-Shot Document-Level Biomedical Relation Extraction via Scenario-based Prompt Design in Two-Stage with LLM (通过两阶段场景化提示设计,利用大语言模型实现零样本的文档级生物医学关系抽取)
  • 作者 (Authors): Lei Zhao, Ling Kang, Quan Guo*。作者均来自大连东软信息学院尼山(Neusoft)研究院 (Neusoft Research Institution, Dalian Neusoft University of Information)。
  • 发表期刊/会议 (Journal/Conference): 本文目前发布在预印本服务器 arXiv 上,属于待同行评审的早期研究成果。arXiv 是物理学、数学、计算机科学等领域的常用预印本平台,其上的论文通常代表了最新的研究进展,但其结论的可靠性尚未经过正式的同行评审验证。
  • 发表年份 (Publication Year): 2024 (v2 版本提交于 2025 年 5 月,根据原文链接推断,但正文引用显示2024)
  • 摘要 (Abstract): 随着人工智能(AI)的发展,许多研究者尝试通过微调大语言模型(LLM)从文档级生物医学文献中提取结构化信息。然而,这面临着昂贵的硬件(如高性能GPU)和高昂的人工标注成本。近期,如 GPT-4 和 Llama3 等 LLM 在零样本(Zero-shot)设置下展现出巨大潜力。受此启发,本文探索了一种新方法,旨在利用通用 LLM,以更低的硬件和人力成本,从未标注的完整文档中实现同样的效果。该方法分为两个主要阶段:命名实体识别(NER)和关系抽取(RE)。NER 阶段使用精心设计的提示词,让 LLM 识别文档中的化学物、疾病和基因实体,并提取同义词和上下位词。RE 阶段则基于预定义的关系模式和提示词,抽取实体间的关系。为了提升提示词的效果,作者提出了一个五部分模板结构和一套基于场景的提示词设计原则,并给出了系统性评估提示词的方法。最后,本文在 ChemDisGene 和 CDR 这两个生物医学数据集上,将该方法与微调模型及预训练模型进行了对比。实验结果表明,该方法在准确率上可与传统方法媲美,同时显著降低了人力和硬件开销。
  • 原文链接 (Source Link):

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 从海量的、非结构化的生物医学文献中自动、准确地提取结构化知识(如“化学物A诱发疾病B”)是一项至关重要的任务。传统方法严重依赖于大规模、高质量的人工标注数据集进行模型训练或微调(fine-tuning),这个过程不仅需要耗费巨大的人力物力,还需要昂贵的计算资源(如高端 GPU)。
    • 重要性与挑战: 生物医学领域的知识更新速度极快,人工标注的速度远跟不上新文献的产生速度。因此,开发一种低成本、无需标注数据的自动化信息抽取方法具有巨大的应用价值。现有的零样本(Zero-shot)方法虽然有潜力,但大多是为通用场景设计的,直接应用于复杂的生物医学领域时,由于术语专业、句子结构复杂、关系隐晦等原因,效果往往不佳。这就是本文试图填补的空白(Gap)
    • 创新思路: 作者的切入点是,能否不进行任何模型微调,仅通过精心设计提示词 (Prompt Design),来引导一个通用的大语言模型 (LLM) 在零样本条件下完成高质量的文档级生物医学关系抽取任务。其核心思路是将复杂的任务分解,并为每一步设计出“像专家一样思考”的指令。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 主要贡献:
      1. 两阶段框架 (Two-stage Framework): 提出了一个将任务分解为 命名实体识别 (NER)关系抽取 (RE) 的两阶段框架,降低了单一任务的复杂性,提升了 LLM 处理的准确性。
      2. 五部分提示词模板 (Five-part Prompt Template): 设计了一种结构化的提示词模板,包含 上下文要求正向场景负向场景输出格式 五个部分,使 LLM 的行为更可控、更精确。
      3. 场景化提示词设计原则 (Scenario-based Prompt Design Principles): 总结了 9 条具体的、可操作的提示词设计原则。这些原则旨在通过丰富的正向和负向示例,教会 LLM 识别各种语言表达模式并避免常见错误,是本文方法论的核心。
    • 主要发现:
      1. 性能可比: 该零样本方法在 ChemDisGeneCDR 两个权威生物医学数据集上,取得了与需要大量标注数据和昂贵硬件进行微调的监督学习模型(如 MMR+BioBERTMMR+BioBERT)相当甚至在某些指标(如召回率)上更优的性能。

      2. 成本效益: 该方法显著降低了对昂贵硬件和人工标注的依赖,为资源有限的研究机构或需要快速部署的应用场景提供了可行的解决方案。

      3. 方法有效性: 通过消融实验证明,框架中的 同义词/上下位词提取两阶段设计 以及 全面的实体标签设置 等模块对于提升最终性能至关重要。


3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 命名实体识别 (Named Entity Recognition, NER): 一项自然语言处理(NLP)的基础任务,旨在从文本中识别并分类出预定义类别的实体,如人名、地名、组织名等。在本文中,实体类别主要是 化学物 (Chemical)疾病 (Disease)基因 (Gene)
    • 关系抽取 (Relation Extraction, RE): 在 NER 的基础上,进一步识别不同实体之间存在的语义关系。例如,在“Aspirin can treat headaches”中,RE 任务需要抽取出(Aspirin, treat, headaches)这样的关系三元组。
    • 文档级关系抽取 (Document-Level RE): 传统的 RE 任务通常在单个句子内进行。而文档级 RE 更具挑战性,它要求模型能够整合整个文档(跨越多个句子甚至段落)的信息来判断实体间的关系。
    • 大语言模型 (Large Language Model, LLM): 指参数量巨大(通常在十亿以上)的深度学习模型,如 GPT-3/4、Llama 等。它们通过在海量文本数据上进行预训练,学习到了丰富的语言知识和一定的推理能力。
    • 零样本学习 (Zero-Shot Learning): 指模型在没有看到任何特定任务的标注样本的情况下,直接去执行该任务的能力。在本文中,即不使用任何标注好的关系数据来训练或微调 LLM。
    • 微调 (Fine-tuning): 在一个已经在海量数据上预训练好的模型(如 BERT 或 Llama)的基础上,使用特定任务的、小规模的标注数据对其参数进行“微小调整”的过程,以使模型更好地适应新任务。
    • 提示词工程 (Prompt Engineering): 通过设计和优化输入给 LLM 的文本指令(即提示词),来引导模型产生期望输出的技术。这是在零样本或少样本场景下利用 LLM 的核心方法。
    • 同义词 (Synonym) 与上下位词 (Hypernym): 语言学概念。同义词指意义相同或相近的词(如 netilmicinnetilmicin sulfate)。上下位词描述了“is-a”的层级关系,Toxicityototoxicity 的上位词(Hypernym),反之,ototoxicityToxicity 的下位词(Hyponym)。
  • 前人工作 (Previous Works):

    • TTM-RE: 一个监督学习模型,通过一个可训练的内存模块来处理文档级 RE。其局限性在于,虽然它能利用有噪声的数据,但性能仍不如在干净数据上训练的监督模型,且仍然需要大量数据。
    • MMR (Multi-view Merge Representation model): 同样是一个基于 BioBERT监督学习模型,在文档级 RE 上表现优异。它融合了多种视图来表征实体和实体对。其局限性在于严重依赖外部知识库(如 CTD),面对新知识时可能表现不佳。
    • ChatIE: 一个基于 ChatGPT 的零样本信息抽取框架。它将 IE 任务转化为多轮问答。其局限性在于,面对复杂的文档结构,其设计的提示词可能会漏掉实体或做出错误判断,通用性强但对特定领域的优化不足。
  • 技术演进 (Technological Evolution): 本领域的技术演进路线大致如下:

    1. 早期基于规则和特征的方法: 依赖语言学专家手动构建规则库。
    2. 传统的监督学习方法: 使用机器学习模型(如 SVM)和人工设计的特征。
    3. 基于深度学习的监督方法: 使用神经网络(如 CNN, RNN, Transformer)在大量标注数据上进行训练,如 TTM-REMMR。这类方法性能好,但数据和硬件成本高。
    4. 基于 LLM 的零样本/少样本方法: 随着 GPT-3 等强大 LLM 的出现,研究者开始探索用提示词来直接完成任务,ChatIE 是一个代表。本文的工作正处于这一技术脉络中,但它专注于解决生物医学领域的特定挑战,并提出了一套更精细化、系统化的提示词设计与评估方法。
  • 差异化分析 (Differentiation):

    • TTM-REMMR 相比: 最大的区别在于学习范式TTM-REMMR 是监督学习模型,需要大量的标注数据进行训练/微调。而本文方法是零样本的,完全不依赖标注数据,从而节省了巨大的人力和时间成本。
    • ChatIE 相比: 两者都是零样本方法,但本文的方法更加领域化和系统化ChatIE 提供了一个通用的框架,而本文针对生物医学领域的复杂性,提出了更具针对性的解决方案:
      • 任务分解: 严格的两阶段设计,先做 NER 再做 RE,降低了任务耦合度。

      • 提示词结构: 设计了更规范的五部分模板,特别是引入了丰富的负向场景来约束模型,减少幻觉。

      • 设计原则: 提炼出了一套可复用的场景化设计原则,将提示词工程从“艺术”向“科学”推进了一步。


4. 方法论 (Methodology - Core Technology & Implementation Details)

本文的核心方法论是一个利用 LLM 进行零样本关系抽取的两阶段框架,其精髓在于通过一套系统化的提示词设计原则和模板来指导 LLM 完成任务。

Fig. 1 Two-stage framework with seven steps 图 1 展示了整个方法的流程,分为两大阶段共七个步骤。

  • 方法原理 (Methodology Principles):

    • 核心思想: 分而治之 (Divide and Conquer)。将复杂的端到端(End-to-End)文档级关系抽取任务分解为两个更简单、更明确的子任务:1. 命名实体识别 (NER)2. 关系抽取 (RE)。通过为每个子任务设计高度结构化和场景化的提示词,可以更精确地控制 LLM 的行为,从而在不进行任何模型参数更新(即零样本)的情况下,达到与微调模型相媲美的效果。
  • 方法步骤与流程 (Steps & Procedures):

    阶段 I: 命名实体识别 (Named Entity Recognition)

    1. 准备 NER 提示词模板 (PTNERPT_{NER}):

      • 作者设计了一种五部分提示词模板结构,如下图所示。

        Fig.2 NER prompt template structure: an example for disease entity recognition on CDR. Green onts denote chemical entities and red fonts denote disease entities. 该图像是论文中示意的NER提示模板结构示例,展示了针对CDR数据集中疾病实体识别的多场景正负向设计,包含上下文、需求及三类正向和一类负向场景,最后给出输出格式要求。

      • 该模板包含:

        • Context: 待处理的原始文档内容 D\pmb{D}
        • Requirement: 对 LLM 的明确指令,要求它识别特定类型的实体。
        • Positive Scenarios: 提供“应该是什么”的正面例子,帮助 LLM 理解目标实体的特征。
        • Negative Scenarios: 提供“不应该是什么”的反面例子,帮助 LLM 排除干扰项,减少误报。
        • Output Format: 指定输出的格式(如 JSON),便于后续程序解析。
    2. 预处理数据集 (Pre-process Dataset): 将原始数据集(如 XML 或其他格式)统一转换为纯文本格式,作为 LLM 的输入。

    3. 处理 NER 并提取同义词/上下位词:

      • 实体识别: 将文档 D\pmb{D}、实体标签 L\pmb{L}(如 Chemical, Disease)和提示词模板 PTNERPT_{NER} 输入 LLM,得到识别出的实体列表 NN

      • 同义词识别: 将所有识别出的实体两两配对,使用专门的同义词提示词模板 PTsynonymPT_{synonym},让 LLM 判断它们是否为同义词。为所有同义词分配一个相同的 global index。例如,netilmicinnetilmicin sulfate 共享同一个 global index

      • 上下位词识别: 同样地,将实体配对,使用上下位词提示词模板 PThypernymPT_{hypernym},让 LLM 判断是否存在上下位关系。如果实体 A 是实体 B 的上位词,则实体 B 的 hypernym index 记录为实体 A 的 global index。例如,Toxicityototoxicity 的上位词,则 ototoxicityhypernym index 记录为 Toxicityglobal index

      • 最终产出如 Table 1 所示的带详细属性的实体列表。

        Table 1 的转录数据如下: Table 1: NER 预测结果部分示例 (Partial Sample of NER Predicted Results)

      Entity Label Sent. Index Pos. Index Global Index Hypernym Index Document Index
      toxicity Disease 0 [3,4] 0 -1 3535719
      netilmicin Chemical 0 [5,6] 1 -1 3535719
      tobramycin Chemical 0 [7,8] 2 -1 3535719
      netilmicin sulfate Chemical 1 [8,10] 1 -1 3535719
      ototoxicity Disease 4 [0,1] 3 0 3535719
      ... ... ... ... ... ... ...

    阶段 II: 关系抽取 (Relation Extraction) 4. 准备 RE 提示词模板 (PTREPT_{RE}): * 同样采用五部分模板结构,但内容针对关系抽取任务设计。如下图所示,它包含关于特定关系(如 chemical-induce-disease)的正向和负向场景。

        ![Fig. 3 RE prompt template structure: an example of chemical-induce-disease](/files/papers/68f6ecc0995fba139c995a52/images/3.jpg)
        *该图像是图示,展示了化学物质诱导疾病关系抽取的提示模板结构,包含上下文、需求、正向和负向场景规则,及输出格式指引。*
    
    1. 定义 RE Schema:

      • 预先定义好所有目标关系的模式集合 RS,每个模式 rs 是一个三元组 rs={lhead,r,ltail}rs = \{ l_{head}, r, l_{tail} \},其中 lheadl_{head}ltaill_{tail} 是头实体和尾实体的标签(如 Chemical, Disease),rr 是关系类型(如 induced)。
    2. 处理 RE:

      • 此过程由 Algorithm 1 描述。对于每一种预定义的关系 rr: a. 实体过滤: 从 NER 结果中,根据 schema {lhead,ltail}\{ l_{head}, l_{tail} \} 筛选出候选的头实体集合 EheadE_{head} 和尾实体集合 EtailE_{tail}。一个重要的步骤是过滤掉本身是其他实体下位词的实体(即 hypernym index 不为 -1 的实体),这可以避免抽取到过于具体或冗余的关系。 b. 实体配对:EheadE_{head}EtailE_{tail} 中的实体两两组合,形成候选关系对 PP。 c. LLM 判断: 对于每一个实体对 (ehead,etail)(e_{head}, e_{tail}),连同文档内容 D\pmb{D} 和对应的 RE 提示词模板 PTREPT_{RE},一起输入 LLM。 d. 确认与添加: 如果 LLM 的回答是正向的(例如,返回 ``` 而不是 ~),则确认关系存在,将三元组(e_{head}, r, e_{tail})添加到最终结果集`RE_{predicted}$ 中。 e. 同义词扩展: 如果 (ehead,r,etail)(e_{head}, r, e_{tail}) 关系成立,那么 eheade_{head} 的所有同义词与 etaile_{tail} 的所有同义词之间也默认存在同样的关系。将这些扩展的关系也加入结果集。

      • 最终产出如 Table 2 所示的关系三元组列表。

        Table 2 的转录数据如下: Table 2: RE 预测结果部分示例 (Partial Sample of RE Predicted Result)

      Head Entity Label Global Index Relation Tail Entity Label Global Index
      netilmicin Chemical 1 induced ototoxicity Disease 3
      tobramycin Chemical 2 induced ototoxicity Disease 3
      netilmicin sulfate Chemical 1 induced ototoxicity Disease 3
      ... ... ... ... ... ... ...
    3. 评估 (Evaluate): 使用标准的 PrecisionRecallF1 指标,将模型预测的 NER 和 RE 结果与人工标注的黄金标准进行比较。

  • 场景化提示词设计原则 (Scenario-based Prompt Design Principles): 这是本文方法论的灵魂,旨在将经验性的提示词工程系统化。

    1. 单项选择原则: 使用单选题(如回答 1 或 0)而非多选题或开放式问答,以简化 LLM 的决策过程,使其输出更稳定。
    2. 数字/符号响应原则: 用数字(1/0)或特殊符号(`` / `~`)代替 "YES"/"NO",避免 LLM 生成多余的解释性文本。 3. **实体标签全面设置原则:** 在 NER 阶段,即使任务只关心少数几类实体,也应在提示词中列出文档中可能出现的所有实体类别。这有助于 LLM 的 `Softmax` 层更好地区分不同类别,避免将不相关的词错误地归类到目标类别中。 4. **正向场景 - 同义词扩展原则:** 扩展描述关系的核心词汇,包含其所有可能的同义表达。例如,对于“标记/机制”关系,关键词 `marker` 可以扩展为 `mutate correlate`, `mediate progression` 等。 5. **正向场景 - 动词形式变化原则:** 扩展关系中的核心动词,包括其被动语态、名词形式等。例如,`induce` 可以扩展为 `is induced by` 或 `induction of`。 6. **负向场景 - 错误实体替换原则:** 将正向场景中的实体占位符 `{head}` 或 `{tail}` 替换为其他类型的实体,构成反例。例如,为避免 LLM 将“化学物治疗疾病”误判为“基因治疗疾病”,可以加入“{chemical} is effective in treating {disease}”作为负向场景。 7. **负向场景 - 反义词替换原则:** 将关键词替换为其反义词构成反例。例如,如果正向是“{chemical} enhances {gene}”,则加入“{chemical} reduces {gene}”作为负向场景。 8. **负向场景 - 头尾实体交换原则:** 交换头尾实体的位置构成反例,因为 LLM 可能混淆 `A affects B` 和 `B affects A` 的方向性。 9. **负向场景 - 混淆术语替换原则:** 使用容易混淆的术语构成反例。例如,为区分 `gene expression`,可以加入 `gene activity`, `gene transport` 等作为负向场景。 * **数学公式与关键细节 (Mathematical Formulas & Key Details):** * **NER 过程:** N=LLM(S,L,PTNER) N = LLM ( S , L , P T _ { N E R } ) * **符号解释:** * N:识别出的实体集合。: 识别出的实体集合。 * LLM(\cdot):调用大语言模型进行处理的函数。: 调用大语言模型进行处理的函数。 * S:输入的文档内容(原文中为: 输入的文档内容 (原文中为 S,但根据上下文应为文档,但根据上下文应为文档 \pmb{D}))。 * L:预定义的实体标签集合。: 预定义的实体标签集合。 * PT_{NER}:用于命名实体识别的提示词模板。Softmax函数(用于解释原则3):::MATHBLOCK1::符号解释:: 用于命名实体识别的提示词模板。 * **Softmax 函数 (用于解释原则 3):** P(Ci)=ezijezj P ( C _ { i } ) = \frac { e ^ { z _ { i } } } { \sum _ { j } e ^ { z _ { j } } } * **符号解释:** * P(C_i):某个词被分类为标签: 某个词被分类为标签 C_i的概率。 的概率。 * z_i:模型对该词属于标签: 模型对该词属于标签 C_i的原始输出分数(logit) 的原始输出分数 (logit)。 * \sum_j e^{z_j}:对所有可能标签的logit指数化后求和,用于归一化。公式目的:这个公式解释了为什么需要提供全面的标签。如果只提供两个标签(如chemical,disease),那么一个不属于这两类的词(如gene)的概率也会被强制归一化到这两个标签上,导致被错误分类。提供更多标签选项(如gene)可以给模型一个更合适的“出口”,降低错分概率。场景评估函数:::MATHBLOCK2::符号解释:: 对所有可能标签的 logit 指数化后求和,用于归一化。 * **公式目的:** 这个公式解释了为什么需要提供全面的标签。如果只提供两个标签(如 `chemical`, `disease`),那么一个不属于这两类的词(如 `gene`)的概率也会被强制归一化到这两个标签上,导致被错误分类。提供更多标签选项(如 `gene`)可以给模型一个更合适的“出口”,降低错分概率。 * **场景评估函数:** fevaluation={ΔPrecision=PbaselinePn,ΔRecall=RbaselineRn,ΔF1=F1baselineF1n} f _ { e v a l u a t i o n } = \{ \Delta_{Precision} = P_{baseline} - P_n, \Delta_{Recall} = R_{baseline} - R_n, \Delta_{F1} = F1_{baseline} - F1_n \} * **符号解释:** * P_{baseline}, R_{baseline}, F1_{baseline}:使用完整场景集得到的基线精度、召回率和F1分数。: 使用完整场景集得到的基线精度、召回率和 F1 分数。 * P_n, R_n, F1_n:移除第: 移除第 n个场景后得到的对应指标。 个场景后得到的对应指标。 * \Delta:表示移除某个场景后,相应指标的变化量。公式目的:该函数用于量化每个场景对模型性能的影响。通过分析: 表示移除某个场景后,相应指标的变化量。 * **公式目的:** 该函数用于量化每个场景对模型性能的影响。通过分析 \Delta 值,可以判断一个场景是正向贡献(移除后 F1 下降)还是负向贡献(移除后 F1 上升),从而迭代优化提示词中的场景集合。 --- # 5. 实验设置 (Experimental Setup) * **数据集 (Datasets):** * **ChemDisGene:** 一个生物医学多标签文档级关系抽取数据集。它包含一个由**远程监督**(distantly supervised,一种自动生成标签的方法,标签质量有噪声)构建的 76942 篇文档的训练集,和一个由专家完全标注的 523 篇文档的测试集。**本文仅使用其高质量的测试集进行评估**,这使得与监督学习模型的比较更加公平。 * **CDR (Chemical-Disease Relations):** 一个经典的、高质量的生物医学关系抽取数据集,由 BioCreative-V 竞赛提出。它包含 1500 篇文档,全部由人工标注,用于预测化学物和疾病之间的诱导关系 (`induced`)。训练、验证、测试集各 500 篇。**本文同样只使用其测试集进行评估。** * **选择原因:** 这两个数据集是生物医学 RE 领域的标准 benchmark,被广泛用于评估各种方法的性能。`ChemDisGene` 关系类型多,`CDR` 数据质量高,能全面检验方法的有效性和泛化能力。 *`Table 3` 的转录数据如下:* **Table 3: 数据统计 (Data Statistics)** | Dataset Name | Annotation method | #Training set | # Test set | Relations | :--- | :--- | :--- | :--- | :--- | ChemDisGene | distantly supervised training set, human annotated test set | 76942 | 523 | 14 | CDR | human annotated | 1500 | 500 | 1 * **评估指标 (Evaluation Metrics):** * **精确率 (Precision):** 1. **概念定义:** 该指标衡量模型预测为“正例”的结果中有多少是真正的“正例”。它关注的是预测结果的**准确性**。高精确率意味着模型很少误报。 2. **数学公式:** Precision=TPTP+FP \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} 3. **符号解释:** * \text{TP}(TruePositives):真正例,即被模型正确预测为正的关系三元组数量。 (True Positives): 真正例,即被模型正确预测为正的关系三元组数量。 * \text{FP}(FalsePositives):假正例,即被模型错误预测为正的关系三元组数量(模型“幻觉”出的关系)。召回率(Recall):1.概念定义:该指标衡量数据集中所有真正的“正例”有多少被模型成功找了出来。它关注的是预测结果的全面性。高召回率意味着模型很少漏报。2.数学公式:::MATHBLOCK4::3.符号解释: (False Positives): 假正例,即被模型错误预测为正的关系三元组数量(模型“幻觉”出的关系)。 * **召回率 (Recall):** 1. **概念定义:** 该指标衡量数据集中所有真正的“正例”有多少被模型成功找了出来。它关注的是预测结果的**全面性**。高召回率意味着模型很少漏报。 2. **数学公式:** Recall=TPTP+FN \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} 3. **符号解释:** * \text{TP}(TruePositives):真正例,同上。 (True Positives): 真正例,同上。 * \text{FN}(FalseNegatives):假负例,即本应是正例但被模型错误判断为负或未识别出的关系三元组数量(模型“漏掉”的关系)。F1分数(F1Score):1.概念定义:该指标是精确率和召回率的调和平均数,旨在提供一个能够平衡这两者表现的综合性评估指标。当精确率和召उर्फ率都较高时,F1分数也会较高。2.数学公式:::MATHBLOCK5::3.符号解释:各符号含义同上。MicroF1vs.MacroF1:MicroF1(微平均F1):在多类别任务中,将所有类别的TP,FP,FN汇总后,计算一次全局的Precision,Recall,F1。它平等地对待每一个样本,因此更受样本数量多的类别影响。MacroF1(宏平均F1):分别计算每个类别的F1分数,然后取算术平均值。它平等地对待每一个类别,无论该类别的样本数多少。如果MacroF1远低于MicroF1,通常意味着模型在样本稀疏的类别上表现不佳。对比基线(Baselines):ChemDisGene数据集:BRAN,PubmedBert, (False Negatives): 假负例,即本应是正例但被模型错误判断为负或未识别出的关系三元组数量(模型“漏掉”的关系)。 * **F1 分数 (F1 Score):** 1. **概念定义:** 该指标是精确率和召回率的调和平均数,旨在提供一个能够平衡这两者表现的综合性评估指标。当精确率和召 उर्फ率都较高时,F1 分数也会较高。 2. **数学公式:** F1=2×Precision×RecallPrecision+Recall \text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} 3. **符号解释:** 各符号含义同上。 * **Micro-F1 vs. Macro-F1:** * **Micro-F1 (微平均 F1):** 在多类别任务中,将所有类别的 TP, FP, FN 汇总后,计算一次全局的 Precision, Recall, 和 F1。它平等地对待每一个样本,因此更受样本数量多的类别影响。 * **Macro-F1 (宏平均 F1):** 分别计算每个类别的 F1 分数,然后取算术平均值。它平等地对待每一个类别,无论该类别的样本数多少。如果 Macro-F1 远低于 Micro-F1,通常意味着模型在样本稀疏的类别上表现不佳。 * **对比基线 (Baselines):** * **ChemDisGene 数据集:** * `BRAN`, `PubmedBert`, PubmedBert+BRAN,ATLOP,SSRPU,TTMRE:这些都是监督学习模型,它们在ChemDisGene的大规模、有噪声的训练集上进行训练,然后在专家标注的测试集上评估。CDR数据集:Graphbased(基于图的方法):EoG,DHG,GLREKnowledgebased(基于知识的方法):RC,KCN,KGAGN(这类方法通常会引入外部知识库)Transformerbased(基于Transformer的方法):, `ATLOP`, `SSR-PU`, `TTM-RE`: 这些都是**监督学习模型**,它们在 `ChemDisGene` 的大规模、有噪声的训练集上进行训练,然后在专家标注的测试集上评估。 * **CDR 数据集:** * **Graph-based (基于图的方法):** `EoG`, `DHG`, `GLRE`。 * **Knowledge-based (基于知识的方法):** `RC`, `KCN`, `KGAGN` (这类方法通常会引入外部知识库)。 * **Transformer-based (基于 Transformer 的方法):** MGSN+SciBERT,, ATLOP+SciBERT,, DocuNet+SciBERT,, DocuNet+BioBERT,, MMR+SciBERT,, MMR+BioBERT。这些是目前主流的**监督学习模型**,代表了该任务上的 SOTA (State-of-the-Art) 水平。 --- # 6. 实验结果与分析 * **核心结果分析 (Core Results Analysis):** * **在 ChemDisGene 上的结果:** *`Table 4` 的转录数据如下:* **Table 4: ChemDisGene 测试集上的 RE F1 结果 (RE F1 Result on ChemDisGene Test Dataset)** | Model | Micro P (%) | Micro R (%) | Micro F1 (%) | Macro P (%) | Macro R (%) | Macro F1 (%) | :--- | :--- | :--- | :--- | :--- | :--- | :--- | BRAN* | 41.8 | 26.6 | 32.5 | 37.2 | 22.5 | 25.8 | PubmedBert* | 64.3 | 31.3 | 42.1 | 53.7 | 32.0 | 37.0 | PubmedBert+ BRAN* | 70.9 | 31.6 | 43.8 | 69.8 | 32.5 | 40.5 | ATLOP* | 76.17±0.54 | 29.7±0.36 | 42.73±0.36 | - | - | - | SSR-PU* | 54.27±0.40 | 43.93±0.32 | 48.56±0.23 | - | - | - | TTM-RE* | 53.83±0.85 | 53.34±0.15 | 53.59±0.27 | - | - | - | **Ours** | **53.12±0.07** | **62.48±0.19** | **57.42±0.07** | **50.25±0.15** | **56.41±0.23** | **52.18±0.13** * **主要发现:** 本文的零样本方法在 Micro-F1 和 Macro-F1 上均**超越了所有对比的监督学习模型**。最显著的优势在于**召回率 (Recall)**,比当时最好的 `TTM-RE` 高出约 9%。这说明本文方法能找出更多真实存在的关系。 * **原因分析:** 监督模型在远程监督的噪声训练集上学习,由于标签不完整,模型倾向于保守预测,导致大量漏报 (FN),召回率低。而本文的零样本方法不受此影响,通过精心设计的提示词引导 LLM 直接从文本理解,反而能发现更多监督模型学不到的关系。 * **对低频关系的处理:** 如下图 `Fig 4` 所示,监督模型(如 PubmedBert+BRAN)在数据频率低的关系上表现极差,而本文方法不受数据频率影响,表现稳定。这证明了零样本方法在处理长尾问题上的潜力。![Fig4demonstratesthatF1ofthisrelationinourapproachis)在数据频率低的关系上表现极差,而本文方法不受数据频率影响,表现稳定。这证明了零样本方法在处理长尾问题上的潜力。 ![Fig 4 demonstrates that F1 of this relation in our approach is 4 8 . 6 \%,indicatingthatperformancedoesnotcorrelatewithdatafrequencies.Fig.4F1comparisonwithPubmedBert+BRANoneachre](/files/papers/68f6ecc0995fba139c995a52/images/4.jpg)该图像是图表,展示了图4中不同生物医学关系类别下,本研究方法与PubmedBert+BRAN模型的F1值对比及对应关系频率。结果显示本方法在多数关系上的F1表现优于PubmedBert,且性能与数据频率无明显相关性。CDR上的结果:Table5的转录数据如下:Table5:CDR测试集上的REF1结果(REF1ResultsonCDRTestDataset)ModelP(::::Transformerbased............DocuNet+BioBERT81.7973.3677.34MMR+SciBERT82.7174.9578.64MMR+BioBERT81.5276.5578.95LLMbasedOurs75.0781.1978.01主要发现:在高质量的CDR数据集上,本文的零样本方法F1分数(78.01 ,indicating that performance does not correlate with data frequencies. Fig. 4 F1 comparison with PubmedBert+BRAN on each re…](/files/papers/68f6ecc0995fba139c995a52/images/4.jpg) *该图像是图表,展示了图4中不同生物医学关系类别下,本研究方法与PubmedBert+BRAN模型的F1值对比及对应关系频率。结果显示本方法在多数关系上的F1表现优于PubmedBert,且性能与数据频率无明显相关性。* * **在 CDR 上的结果:** *`Table 5` 的转录数据如下:* **Table 5: CDR 测试集上的 RE F1 结果 (RE F1 Results on CDR Test Dataset)** | Model | P (%) | R (%) | F1 (%) | :--- | :--- | :--- | :--- | **Transformer-based** | | | | ... | ... | ... | ... | DocuNet+BioBERT* | 81.79 | 73.36 | 77.34 | MMR+SciBERT* | 82.71 | 74.95 | 78.64 | MMR+BioBERT* | 81.52 | 76.55 | 78.95 | **LLM-based** | | | | **Ours** | **75.07** | **81.19** | **78.01** * **主要发现:** 在高质量的 CDR 数据集上,本文的零样本方法 F1 分数(78.01%)非常接近 SOTA 监督模型 MMR+BioBERT78.95意义解读:这意味着在实际应用中,该方法能识别出更多潜在的“化学物诱发疾病”关系,这在药物安全监控等场景下可能比高精确率更为重要。在几乎不牺牲综合性能(F1)的情况下,以零成本(无标注数据)实现了对SOTA监督模型在召回率上的超越,这是非常惊人的成果。消融实验/参数分析(AblationStudies/ParameterAnalysis):同义词与上下位词模块的重要性:Table6的转录数据如下:Table6:CDR数据集上同义词和上下位词的消融研究(AblationStudyforSynonymsandHypernymsonCDR)NERModelP(::::w/synonym+hypernym75.0781.1978.01w/osynonym54.6680.8965.23w/ohypernym57.1879.6966.58分析:去掉synonym(同义词)模块后,F1分数暴跌超过12个百分点,主要原因是精确率大幅下降。这说明同义词合并对于规范化实体、减少因实体名称不一致而产生的冗余判断至关重要。去掉hypernym(上下位词)模块后,F1也显著下降,说明通过上下位词过滤掉过于具体的实体,有助于模型聚焦于更核心的关系,从而同时提升了精确率和召回率。NER实体标签设置的影响:Table7的转录数据如下:Table7:CDR上不同NER实体标签设置的评估结果(EvaluationResultwithDifferentNEREntityLabelsSettingsonCDR)EntitylabelDiseaseP(:::::::disease,chemical,treat,physiology,immune,gene90.3977.6284.5291.5276.2483.18disease,chemical88.7376.9782.4388.2376.7082.06分析:实验证明,即使任务只关心diseasechemical,在提示词中加入treat,physiology等更多可能的实体标签,也能提升目标实体的识别性能(F1分数提升了约2两阶段vs.一阶段方法:Table8的转录数据如下:Table8:两阶段方法vs.一阶段方法的结果(ResultsofTwoStageMethodvsOneStageMethod)MethodsCDRP(::::TwoStagemethod75.0781.1978.01OneStagemethod46.1755.2350.29分析:NERRE合并到一个复杂的提示词中的“一阶段”方法,性能远低于“两阶段”方法,F1分数相差近28个百分点。这强有力地证明了分而治之的策略是成功的,将复杂任务分解为更小、更易于管理的步骤,能让LLM更好地理解和执行指令。场景评估分析:![Fig.7ImpactofRemovingScenariosonGeneDisease:therapeutic](/files/papers/68f6ecc0995fba139c995a52/images/5.jpg)该图像是图7,展示了移除不同场景对基因疾病关系中治疗关系的准确率和召回率的影响。图中气泡大小代表权重,颜色区分正负影响,横轴为精确率变化,纵轴为召回率变化。分析:Fig7(论文中标记为Fig.7,但根据内容应为场景评估图)直观地展示了不同场景对性能的影响。移除正向场景P1P2会导致召回率大幅下降((78.95%)。更重要的是,本文方法的**召回率 (81.19%) 显著高于所有监督模型**,包括 `MMR`(76.55%)。 * **意义解读:** 这意味着在实际应用中,该方法能识别出更多潜在的“化学物-诱发-疾病”关系,这在药物安全监控等场景下可能比高精确率更为重要。在几乎不牺牲综合性能(F1)的情况下,以零成本(无标注数据)实现了对 SOTA 监督模型在召回率上的超越,这是非常惊人的成果。 * **消融实验/参数分析 (Ablation Studies / Parameter Analysis):** * **同义词与上下位词模块的重要性:** *`Table 6` 的转录数据如下:* **Table 6: CDR 数据集上同义词和上下位词的消融研究 (Ablation Study for Synonyms and Hypernyms on CDR)** | NER Model | P (%) | R (%) | F1 (%) | :--- | :--- | :--- | :--- | w/ synonym + hypernym | 75.07 | 81.19 | 78.01 | w/o synonym | 54.66 | 80.89 | 65.23 | w/o hypernym | 57.18 | 79.69 | 66.58 * **分析:** 去掉 `synonym`(同义词)模块后,F1 分数暴跌超过 12 个百分点,主要原因是精确率大幅下降。这说明同义词合并对于规范化实体、减少因实体名称不一致而产生的冗余判断至关重要。去掉 `hypernym`(上下位词)模块后,F1 也显著下降,说明通过上下位词过滤掉过于具体的实体,有助于模型聚焦于更核心的关系,从而同时提升了精确率和召回率。 * **NER 实体标签设置的影响:** *`Table 7` 的转录数据如下:* **Table 7: CDR 上不同 NER 实体标签设置的评估结果 (Evaluation Result with Different NER Entity Labels Settings on CDR)** | Entity label | Disease P(%) | Disease R(%) | Disease F1(%) | Chemical P(%) | Chemical R(%) | Chemical F1(%) | :--- | :--- | :--- | :--- | :--- | :--- | :--- | disease, chemical, treat, physiology, immune, gene | 90.39 | 77.62 | 84.52 | 91.52 | 76.24 | 83.18 | disease, chemical | 88.73 | 76.97 | 82.43 | 88.23 | 76.70 | 82.06 * **分析:** 实验证明,即使任务只关心 `disease` 和 `chemical`,在提示词中加入 `treat`, `physiology` 等更多可能的实体标签,也能提升目标实体的识别性能(F1 分数提升了约 2%)。这验证了**设计原则 3** 的有效性,即提供更全面的标签集有助于 LLM 更好地区分和决策。 * **两阶段 vs. 一阶段方法:** *`Table 8` 的转录数据如下:* **Table 8: 两阶段方法 vs. 一阶段方法的结果 (Results of Two Stage Method vs One Stage Method)** | Methods | CDR P(%) | CDR R(%) | CDR F1(%) | :--- | :--- | :--- | :--- | Two Stage method | 75.07 | 81.19 | 78.01 | One Stage method | 46.17 | 55.23 | 50.29 * **分析:** 将 NER 和 RE 合并到一个复杂的提示词中的“一阶段”方法,性能远低于“两阶段”方法,F1 分数相差近 28 个百分点。这强有力地证明了**分而治之**的策略是成功的,将复杂任务分解为更小、更易于管理的步骤,能让 LLM 更好地理解和执行指令。 * **场景评估分析:** ![Fig. 7 Impact of Removing Scenarios on Gene-Disease: therapeutic](/files/papers/68f6ecc0995fba139c995a52/images/5.jpg) *该图像是图7,展示了移除不同场景对基因-疾病关系中治疗关系的准确率和召回率的影响。图中气泡大小代表权重,颜色区分正负影响,横轴为精确率变化,纵轴为召回率变化。* * **分析:** `Fig 7` (论文中标记为 `Fig. 7`,但根据内容应为场景评估图) 直观地展示了不同场景对性能的影响。移除正向场景 P1 和 P2 会导致**召回率**大幅下降(\Delta_{Recall}为负),说明它们对于识别出更多真实关系至关重要。而移除负向场景N1N12会导致精确率下降( 为负),说明它们对于识别出更多真实关系至关重要。而移除负向场景 N1-N12 会导致**精确率**下降(\Delta_{Precision}$ 为负),说明它们在帮助模型排除错误判断、减少误报方面起到了关键作用。气泡大小代表对 F1 的影响,可见 P1 和 P2 对整体性能贡献最大。
    • 不同 LLM 的表现: Table 9 的转录数据如下: Table 9: 不同参数规模 LLM 在 RE 任务上的结果 (RE Task Results with Different Parameter Size of LLMs)

      LLM Size ChemDisGene P(%) ChemDisGene R(%) ChemDisGene F1(%) CDR P(%) CDR R(%) CDR F1(%)
      Qwen 2.5 72b 47.49 54.43 50.72 76.74 77.36 77.05
      Llama 3.1 70b 53.12 62.48 57.42 75.07 81.19 78.01
      Qwen 2.5 32b 40.52 53.50 46.11 76.89 73.64 75.23
      Gemma2 27b 41.84 2.64 4.98 65.71 87.12 74.91
      Phi-4 14b 21.48 7.2 10.81 72.11 70.22 71.15
      • 分析: 总体而言,模型参数量越大,性能越好,尤其是在更复杂的 ChemDisGene 数据集上。Llama 3.1-70b 表现最佳。有趣的是,在相对简单的 CDR 数据集上,即使是较小的模型(如 32b 的 Qwen 2.5)也能取得不错的性能。这表明在实际应用中,可以根据任务复杂度和成本预算来选择合适的模型。该方法不局限于特定的 LLM,具有良好的可移植性。


7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary): 本文成功提出并验证了一种用于文档级生物医学关系抽取的零样本框架。其核心贡献是一个两阶段(NER + RE)流程、一个结构化的五部分提示词模板,以及一套系统化的场景化提示词设计原则。实验证明,该方法在不依赖任何标注数据和模型微调的情况下,使用本地化部署的开源 LLM (如 Llama 3.1-70b),在两个权威生物医学数据集上取得了与顶尖监督学习模型相当甚至更好的性能,特别是在召回率上优势明显。这为在资源受限条件下进行高效、低成本的生物医学知识发现提供了一条极具前景的技术路径。

  • 局限性与未来工作 (Limitations & Future Work):

    • 局限性: 作者坦诚,当前方法仍然依赖人工设计和迭代评估提示词,这个过程虽然比数据标注成本低,但仍然需要相当的专家知识和计算资源来进行反复试验和优化。
    • 未来工作: 未来的研究重点将是自动化整个流程。具体包括:
      1. 自动化提示词生成: 基于已建立的设计原则,开发能够自动生成高质量正向和负向场景的机制。
      2. 自动化场景评估与筛选: 建立更高效的评估框架,自动筛选出对 F1 分数贡献最大的场景组合,从而实现端到端的优化。 最终目标是最大限度地减少人工干预,使关系抽取过程更加高效和可扩展。
  • 个人启发与批判 (Personal Insights & Critique):

    • 启发:
      1. 范式转移的典范: 这篇论文清晰地展示了从“数据为王”的微调范式向“提示为王”的零样本范式的成功转移。它证明了只要引导得当,通用 LLM 的内在知识和推理能力足以胜任高度专业的任务。
      2. 方法论的价值: 本文最大的亮点不仅仅是结果,更是其系统化的方法论五部分模板九大设计原则具有很强的实践指导意义和可复用性,为其他领域的零样本信息抽取任务提供了宝贵的参考。它试图将“提示词工程”这门“玄学”变得更加科学化、工程化。
      3. 实用主义的胜利: 该方法解决了现实世界中的核心痛点——成本。通过避免昂贵的标注和硬件,它极大地降低了知识抽取的门槛,使得更多中小型研究团队或企业能够利用 LLM 从海量文本中挖掘价值。
    • 批判性思考:
      1. 成本与可复现性: 尽管声称低成本,但使用 70B 级别的模型进行反复的提示词迭代,其计算成本和时间成本依然不菲(需要两张 A6000 GPU)。对于没有此类硬件的研究者,复现和优化仍然存在障碍。
      2. 场景评估的泛化性: 论文提出的场景评估方法(逐一移除并测试)虽然有效,但可能存在场景之间相互作用的问题,且在新的关系类型或数据集上,可能需要重新进行一轮昂贵的评估。其泛化能力有待进一步验证。
      3. LLM 的“黑盒”问题: 该方法高度依赖特定 LLM 的行为模式。当更换 LLM (如从 Llama 换到 Qwen) 时,即使参数量相近,性能也存在差异,这说明最优的提示词可能不具备完全的跨模型通用性。方法的效果在一定程度上仍受制于 LLM 本身的“脾气”。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。