Leveraging LLMs for Collaborative Ontology Engineering in Parkinson Disease Monitoring and Alerting
TL;DR 精炼摘要
本文探讨了利用大型语言模型(LLMs)构建帕金森病监测与警报本体的四种方法,包括一次性提示和思维链提示。结果表明,尽管LLMs能自主生成本体,但效果不佳;采用X-HCOME与SimX-HCOME+的混合方法则通过人机协作显著提升本体的完整性与准确性,强调了人-LLM协作在复杂领域的应用潜力。
摘要
This paper explores the integration of Large Language Models (LLMs) in the engineering of a Parkinson's Disease (PD) monitoring and alerting ontology through four key methodologies: One Shot (OS) prompt techniques, Chain of Thought (CoT) prompts, X-HCOME, and SimX-HCOME+. The primary objective is to determine whether LLMs alone can create comprehensive ontologies and, if not, whether human-LLM collaboration can achieve this goal. Consequently, the paper assesses the effectiveness of LLMs in automated ontology development and the enhancement achieved through human-LLM collaboration. Initial ontology generation was performed using One Shot (OS) and Chain of Thought (CoT) prompts, demonstrating the capability of LLMs to autonomously construct ontologies for PD monitoring and alerting. However, these outputs were not comprehensive and required substantial human refinement to enhance their completeness and accuracy. X-HCOME, a hybrid ontology engineering approach that combines human expertise with LLM capabilities, showed significant improvements in ontology comprehensiveness. This methodology resulted in ontologies that are very similar to those constructed by experts. Further experimentation with SimX-HCOME+, another hybrid methodology emphasizing continuous human supervision and iterative refinement, highlighted the importance of ongoing human involvement. This approach led to the creation of more comprehensive and accurate ontologies. Overall, the paper underscores the potential of human-LLM collaboration in advancing ontology engineering, particularly in complex domains like PD. The results suggest promising directions for future research, including the development of specialized GPT models for ontology construction.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
利用大型语言模型在帕金森病监测与警报中进行协作式本体工程 (Leveraging LLMs for Collaborative Ontology Engineering in Parkinson Disease Monitoring and Alerting)
该标题清晰地指出了论文的核心研究内容:将大型语言模型 (Large Language Models, LLMs) 应用于一个特定的技术任务——本体工程 (Ontology Engineering),并限定在帕金森病 (Parkinson's Disease, PD) 监测与警报这一具体的医疗健康领域。标题中的“协作式 (Collaborative)”一词是关键,暗示了研究的重点在于人与 LLM 的协同工作,而不仅仅是自动化。
1.2. 作者
Georgios Bouchouras, Dimitrios Doumanas, Andreas Soularidis, Konstantinos Kotis, and George A. Vouros.
作者主要来自希腊的爱琴大学 (University of the Aegean) 智能系统实验室和比雷埃夫斯大学 (University of Piraeus) 人工智能实验室。这些机构的研究背景集中在智能系统、人工智能和知识工程领域,与论文主题高度相关。
1.3. 发表期刊/会议
论文提供了 ArXiv 链接,表明它是一篇预印本 (preprint)。ArXiv 是一个开放获取的学术论文预印本平台,研究人员可以在正式的同行评审和期刊发表之前,在此分享他们的研究成果。这通常意味着论文内容可能尚未经过严格的同行评审。
1.4. 发表年份
根据 ArXiv 链接和论文元数据,该版本于 2025 年 12 月 16 日提交。此日期为未来时间,可能是提交系统中的占位符或录入错误。论文中引用了 2024 年的研究,表明其工作是在此之后完成的。
1.5. 摘要
本文探讨了将大型语言模型 (LLMs) 用于构建帕金森病 (PD) 监测与警报本体的四种方法:一次性提示 (One Shot, OS)、思维链提示 (Chain of Thought, CoT)、X-HCOME 和 SimX-HCOME+。研究旨在探究 LLMs 能否独立构建完整的本体,以及人机协作是否能实现这一目标。
-
初步实验(OS 和 CoT)表明,LLMs 可以自主生成本体,但结果不够全面,需要大量人工修正。
-
X-HCOME,一种结合人类专家与 LLM 能力的混合方法,显著提升了本体的完整性,其结果与专家构建的本体非常相似。 -
SimX-HCOME+,另一种强调持续人工监督和迭代优化的混合方法,进一步证明了人类持续参与的重要性,并生成了更全面、更准确的本体。总而言之,论文强调了人-LLM 协作在推进本体工程方面的巨大潜力,特别是在像 PD 这样复杂的领域,并为未来研究(如开发专用于本体构建的 GPT 模型)指明了方向。
1.6. 原文链接
- 原文链接: https://arxiv.org/abs/2512.14288v1
- PDF 链接: https://arxiv.org/pdf/2512.14288v1.pdf
- 发布状态: 预印本 (Preprint)。
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 传统的本体工程 (Ontology Engineering) 是一项复杂、耗时且资源密集型的工作。它需要领域专家和知识工程师紧密合作,手工定义概念、属性和关系。在像医疗健康这样知识快速迭代的复杂领域(如帕金森病研究),维护和更新本体的成本极高。
- 问题重要性: 本体是实现知识表示 (Knowledge Representation, KR) 和数据互操作性的关键。在 PD 监测中,一个好的本体可以整合来自可穿戴设备、电子病历等异构数据源的信息,形成个人健康知识图谱 (Personal Health Knowledge Graph, PHKG),从而支持智能警报(如“病人摔倒”、“漏服药物”)等高级应用。因此,高效构建和维护高质量的 PD 本体具有重要的临床和研究价值。
- 现有研究的空白 (Gap): 尽管已有研究利用 LLMs 自动或半自动地执行本体构建的某些子任务(如概念提取、关系映射),但很少有工作系统性地研究人与 LLM 在整个本体工程生命周期中的协作模式。特别是,不同程度的人类参与如何影响最终本体的质量和完整性,这一问题尚未得到充分探讨。现有本体工程师在启动一个新项目时,仍然缺乏高效的自动化方法来创建“启动本体”并进行后续迭代。
- 本文切入点: 本文的创新之处在于,它没有将 LLM 视为取代人类的工具,而是将其定位为协作者。论文设计并比较了从“LLM 为主,人为辅”到“人为主导,LLM 辅助”等不同协作程度的方法论,旨在找到一种既能利用 LLM 的知识广度和生成速度,又能融入人类专家深度理解和批判性思维的最佳实践。
2.2. 核心贡献/主要发现
-
核心贡献:
- 提出了两种新颖的人-LLM 协作本体工程方法论:
X-HCOME: 对现有的人类中心协作本体工程方法 (HCOME) 的扩展,将 LLM 作为任务执行者正式纳入迭代流程。SimX-HCOME+: 一种模拟协作环境,让 LLM 在人类监督下主导开发过程,并强调持续生成和优化。
- 系统性地评估了不同协作水平的效果: 通过四个精心设计的实验,量化比较了从零人工干预到深度人机协作等不同模式下,LLM 构建本体的性能。
- 首次探索了 LLM 在本体工程中将自然语言规则转换为 SWRL 规则的能力。
- 提出了两种新颖的人-LLM 协作本体工程方法论:
-
主要发现:
- LLMs 无法独立胜任: 仅靠
One Shot或Chain of Thought等提示技术,LLMs 虽能生成语法正确的本体,但其内容在完整性和准确性方面远未达到实用标准。这证伪了“LLMs 能自主开发完整本体”的初步假设。 - 协作是关键: 结合了人类反馈和迭代优化的
X-HCOME和SimX-HCOME+方法,生成的本体在完整性和准确性上远超 LLM 单独生成的版本。 - 专家评审发现“超预期”知识: 经过专家对
X-HCOME结果中的假阳性 (False Positives) 进行复审,发现 LLMs 能够生成一些在黄金标准本体 (gold standard ontology) 中被忽略但领域内确实相关的概念(如“手术干预”、“认知障碍”)。这表明 LLMs 不仅能复现已知知识,还有潜力扩展现有知识库。 - 人类参与度与本体质量正相关: 实验结果清晰地表明,随着人类参与程度的加深,最终生成的本体质量(以 F-1 分数衡量)也越高。
- LLMs 无法独立胜任: 仅靠
3. 预备知识与相关工作
3.1. 基础概念
- 本体 (Ontology): 在信息科学和人工智能领域,本体是对某一特定领域知识的“形式化、显式化的规范说明”。通俗地说,它就像一个为机器编写的、极其严谨的“领域百科全书”,定义了该领域的核心概念(即类 (Classes),如
病人、传感器)、这些概念的属性(即数据属性 (Data Properties),如病人的姓名),以及概念之间的关系(即对象属性 (Object Properties),如病人“佩戴”传感器)。本体使得知识能够被计算机理解、处理和推理。 - 大型语言模型 (Large Language Models, LLMs): 指的是像 GPT-4、Gemini 这样在海量文本数据上训练过的深度学习模型。它们能够理解和生成自然语言,并内化了大量的世界知识。本文旨在利用 LLMs 的这些知识来辅助构建本体。
- 提示工程 (Prompt Engineering): 指设计和优化输入给 LLM 的文本(即提示 (prompt))以引导其产生期望输出的技术。
- 一次性提示 (One Shot, OS): 给 LLM 一个直接的指令,不提供任何示例,要求它一次性完成任务。这依赖于模型强大的预训练知识。
- 思维链提示 (Chain of Thought, CoT): 通过引导 LLM “一步一步地思考”来解决复杂问题。本文中,作者将一个复杂的 OS 提示分解为两个连续的提示,以模拟一个简单的思维链过程。
- 知识表示 (Knowledge Representation, KR): 人工智能的一个分支,研究如何将人类知识以符号化的形式表示出来,以便计算机能够进行存储、推理和利用。本体是 KR 的一种重要技术。
- 语义网规则语言 (Semantic Web Rule Language, SWRL): 一种用于在本体之上表达“如果-那么 (if-then)”逻辑规则的语言。例如,可以定义一条规则:“如果一个
病人的运动状态是摔倒,那么系统应生成一个紧急警报”。这为基于本体的知识推理提供了强大的能力。 - Turtle (TTL) 格式: 一种用于编写 RDF(资源描述框架)图谱和本体的文本序列化格式。它比 XML/RDF 格式更简洁、易读,是语义网领域常用的数据表示格式之一。
3.2. 前人工作
论文在第二节 Related Work 中回顾了利用 LLMs 进行知识工程的相关研究,主要可以归纳为以下几类:
- 从文本中自动提取本体:
Oksannen et al. (2021)使用BERT模型从产品评论中提取产品本体,在精度和召回率上优于传统方法。
- 本体对齐与映射 (Ontology Mapping):
- 开发的
BERTMap工具利用BERT模型在不同本体之间匹配实体,展示了 LLMs 在此任务上的高精度。 Lippolis et al. (2023)结合传统查询和 LLMs 来对齐艺术知识图谱ArtGraph和Wikidata中的实体。
- 开发的
- 知识库构建与填充 (Knowledge Base Construction):
Ning et al. (2022)通过设计提示模板从 LLMs 中提取事实信息。Biester et al. (2023)使用提示集成 (prompt ensembles) 技术来提升从 LLMs 构建知识库的性能。Caufield et al. (2023)提出的SPIRES方法使用零样本学习 (zero-shot learning) 从非结构化文本中提取信息填充知识库。
- 本体生成与转换:
Funk et al. (2023)研究了GPT-3.5在多个领域中创建概念层次结构的能力。Mateiu et al. (2023)展示了使用GPT-3将自然语言词汇转换为本体公理(axioms)的方法。
3.3. 技术演进
该领域的技术演进体现了从传统、人工密集型方法向自动化、智能化方法的转变。
- 纯手动阶段: 本体完全由领域专家和知识工程师通过访谈、分析文献等方式手工构建,周期长、成本高。
- 半自动工具辅助阶段: 出现了一些工具(如
Text2Onto)可以从文本中提取术语,辅助工程师构建本体,但仍需大量人工干预。 - 基于传统机器学习/NLP 的阶段: 利用
BERT等模型进行实体识别、关系提取,进一步自动化了部分流程,但通常需要针对特定任务进行模型微调和标注数据。 - 基于大型语言模型 (LLM) 的阶段: 利用
GPT等通用大模型强大的零样本/少样本能力,可以直接通过自然语言提示来生成、映射、对齐本体,极大地降低了技术门槛。本文正处于这一阶段,并向更高级的人机协作模式探索。
3.4. 差异化分析
与上述前人工作相比,本文的核心差异化和创新点在于:
- 焦点不同: 大多数相关工作关注 LLMs 在特定子任务(如实体提取、对齐)上的性能,或致力于实现完全自动化。而本文的焦点是整个本体工程的协作流程,探讨如何将 LLM 最有效地整合到人类专家的工作流中。
- 系统性的方法论比较: 本文不仅提出了一种方法,而是设计并实验了四种不同的人机协作模式,并系统地比较了它们的效果。这种对“人类参与度”作为变量进行研究的思路是新颖的。
- 强调迭代与反馈:
X-HCOME和SimX-HCOME+方法论的核心是迭代 (iteration) 和反馈 (feedback)。这与简单的一次性生成任务不同,更贴近真实世界中知识工程的复杂性。 - “超越”黄金标准: 通过专家对假阳性的审查,本文展示了人机协作不仅能复现人类知识,甚至有潜力发现并补充现有知识库的不足,这是对 LLM 价值的更深层次挖掘。
4. 方法论
本研究通过四个逐步深入的实验来评估不同的人-LLM 协作方法论,其核心是比较从完全依赖 LLM 到人机深度协作的性能差异。
4.1. 方法原理
研究的核心思想是,通过系统地改变人类参与的程度 (degree of human involvement),来探索构建高质量领域本体的最佳路径。整个研究设计了从“零参与”到“深度参与”的四个阶段,并将产出与一个由专家构建的黄金标准本体 (gold standard ontology) 进行比较,以量化评估效果。
下图(原文 Figure 1)展示了整个多阶段实验的流程。
该图像是一个示意图,展示了通过不同实验阶段评估模型构建和验证本体的方法。主要包括与LLMs合作的各项实验,以及相应的评估指标,如类数、真阳性、假阳性等。
4.2. 核心方法详解 (逐层深入)
4.2.1. 实验 1: LLM 自主构建本体 (假说 1)
该实验旨在验证假说1:LLMs 在给定领域特定查询时,能够自主开发出全面的本体。
-
步骤 1: 提示 LLM 生成本体 研究人员使用两种提示策略来引导 LLMs (
ChatGPT-3.5,ChatGPT-4,Bard/Gemini,Llama2) 生成本体。- 一次性提示 (One Shot, OS): 将所有要求整合在一个提示中,一次性发给 LLM。例如:
"Act as an Ontology Engineer, I need to generate an ontology about Parkinson disease monitoring and alerting patients. The aim of the ontology is to collect movement data of Parkinson disease patients through wearable sensors, analyze them in a way that enables the understanding (uncover) of their semantics, and use these semantics to semantically annotate the data for interoperability and interlinkage with other related data. You will reuse other related ontologies about neurodegenerative diseases. In the process, you should focus on modeling different aspects of PD, such as disease severity, movement patterns of activities of daily living, and gait. Give the output in TTL format."
- 思维链提示 (Chain of Thought, CoT): 将上述 OS 提示拆分为两个连续的提示,第一步设定目标和范围,第二步给出具体建模要求和输出格式。
- Prompt 1: "Act as an Ontology Engineer, I need to generate an ontology about Parkinson disease monitoring and alerting patients. The aim of the ontology is to collect movement data of Parkinson disease patients through wearable sensors, analyze them in a way that enables the understanding (uncover) of their semantics, and use these semantics to semantically annotate the data for interoperability and interlinkage with other related data."
- Prompt 2: "You will reuse other related ontologies about neurodegenerative diseases. In the process, you should focus on modeling different aspects of PD, such as disease severity, movement patterns of activities of daily living and gait. Give the output in TTL format."
- 一次性提示 (One Shot, OS): 将所有要求整合在一个提示中,一次性发给 LLM。例如:
-
步骤 2: 验证本体 生成的本体(
Turtle格式)会使用Protégé(一款流行的本体编辑工具)及其Pellet推理机进行加载和一致性检查,同时使用OOPS!工具检查潜在的设计缺陷。 -
步骤 3: 性能评估 将 LLM 生成的本体与黄金标准本体
Wear4PDmove进行比较,计算精确率 (Precision)、召回率 (Recall) 和 F-1 分数 (F-1 score) 来评估其完整性。
4.2.2. 实验 2: X-HCOME - 人机协作迭代 (假说 2)
该实验旨在验证假说2:人类专家与 LLM 能力的结合可以提升所开发本体的完整性。
X-HCOME 是对 HCOME (Human-Centered Collaborative Ontology Engineering) 方法论的扩展,其特点是人类专家和 LLM 在本体工程生命周期中交替执行任务,形成一个迭代循环。
X-HCOME流程 (融合讲解):-
(人): 定义初始输入。 人类专家首先明确本体的目标、范围、需求,并提供相关的 PD 病例数据和用自然语言描述的能力问题 (competency questions)(例如:“系统应如何识别患者漏服药物的事件?”)。这些构成了对 LLM 的初始高级指令。
-
(LLM): 构建初始本体。 LLM 根据人类提供的输入,生成一个初始版本的领域本体(例如,
Turtle格式)。 -
(人): 人工比对与评估。 人类专家将 LLM 生成的本体与黄金标准本体进行比较。这个过程可以手动进行,也可以借助
LogMap等本体对齐工具。 -
(LLM): 机器辅助比对。 LLM 也被要求执行一次机器层面的比对,即让 LLM 自行比较它生成的版本和黄金标准版本,并报告差异。
-
(人): 修正与合并。 基于前两步的比对结果,人类专家对 LLM 生成的本体进行修正、补充,并将其与现有本体的优点相结合,形成一个修订后的版本。
-
(LLM): 再次评估。 LLM 对人类修订后的版本进行新一轮的机器评估。
-
(人): 最终验证。 人类专家使用
Protégé等专业工具对最终修订的本体进行一致性和有效性检查。这个过程可以重复多次,直到本体质量达到满意标准。
-
4.2.3. 实验 3: X-HCOME 的专家评审 (假说 3)
该实验旨在验证假说3:通过分析假阳性并结合领域专家意见,LLMs 能够识别出黄金标准本体中未包含的相关领域知识。
- 方法原理: 这个实验是对实验 2 结果的进一步分析。在标准的评估中,如果 LLM 生成了一个类,但这个类不在黄金标准中,它会被计为假阳性 (False Positive, FP),从而降低精确率。然而,这可能不是因为 LLM 犯了错,而是因为黄金标准本身不完整。
- 核心步骤:
- 识别假阳性: 收集在实验 2 中被标记为 FP 的所有本体类。
- 专家审查: 作者扮演领域专家的角色,逐一审查这些 FP 类。
- 重新分类: 如果一个 FP 类在医学上对于 PD 监测与警报是合理且有价值的(例如,LLM 生成了
CognitiveImpairment类,而黄金标准中没有),那么这个类将被重新分类为真阳性 (True Positive, TP)。 - 重新计算指标: 基于新的 TP、FP 数量,重新计算精确率、召回率和 F-1 分数。
4.2.4. 实验 4: SimX-HCOME+ - 模拟协作环境 (假说 4)
该实验旨在验证假说4:通过一个模拟的协作方法论,让 LLM 在受控环境中主导本体开发任务,可以增强本体工程。
SimX-HCOME+ 创造了一个模拟的协作场景,人类更像是一个监督者和引导者,而 LLM 则扮演了多个开发角色。
- 方法原理: 模拟一个由知识工作者 (Knowledge Worker, KW)、领域专家 (Domain Expert, DE) 和知识工程师 (Knowledge Engineer, KE) 组成的团队会议。人类用户通过提示,引导 LLM 分别扮演这些角色进行对话和协作。
- 核心步骤:
- 模拟对话: 人类用户向 LLM 提供初始数据(如目标、范围、能力问题),然后引导 LLM 进行角色扮演式的迭代对话来构建本体。
- 持续生成: 与
X-HCOME不同,SimX-HCOME+强调在迭代过程的每一步都生成本体,从而实现更细粒度的持续改进。 - NL 到 SWRL 的转换: 此实验还增加了一项新任务:要求 LLM 将一条自然语言规则转换为语义网规则语言 (SWRL) 格式。给出的自然语言规则是:
"If an observation indicates that there is bradykinesia of the upper limb (indicating slow movement) and this observation pertains to the property and the observation is made after medication dosing, then a notification should be sent indicating a
and this observation should be marked as a ." - 评估: 评估生成的本体的质量(同样使用精确率、召回率、F-1 分数),并评估 SWRL 规则转换的正确性。
5. 实验设置
5.1. 数据集
该研究没有使用传统意义上的数据集(如文本语料库),而是使用了一个黄金标准本体 (gold standard ontology) 作为评估的基准。
- 黄金标准:
Wear4PDmove本体 [2, 22]。 - 来源与特点: 这是一个专为帕金森病 (PD) 患者健康监测而设计的本体。根据论文介绍,它的目标是整合来自可穿戴设备的异构传感器数据(如运动数据)和个人健康记录 (PHR),形成一个个人健康知识图谱 (PHKG)。
- 作用: 它被用来支持高级推理任务,例如识别“漏服药物”或“病人摔倒”等事件。
- 选择原因: 选择
Wear4PDmove是因为它与本研究的目标领域(PD 监测与警报)完全匹配,并且是由领域专家构建的,代表了该领域内一个高质量的知识模型,因此适合作为评判 LLM 生成结果好坏的“答案”。
5.2. 评估指标
论文主要使用三个指标来评估生成的本体与黄金标准本体在类 (classes) 层面的一致性。
-
精确率 (Precision)
- 概念定义: 该指标衡量 LLM 生成的类中有多少是正确的。一个高的精确率意味着 LLM 很少“捏造”不存在于黄金标准中的类。它关注的是预测结果的准确性。
- 数学公式:
- 符号解释:
TP(True Positives, 真阳性): LLM 生成的类在黄金标准本体中也存在。FP(False Positives, 假阳性): LLM 生成的类在黄金标准本体中不存在。
-
召回率 (Recall)
- 概念定义: 该指标衡量黄金标准本体中所有的类,有多少被 LLM 成功地生成了。一个高的召回率意味着 LLM 能够“找全”所有应该存在的类。它关注的是对真实结果的覆盖能力。
- 数学公式:
- 符号解释:
TP(True Positives, 真阳性): LLM 生成的类在黄金标准本体中也存在。FN(False Negatives, 假阴性): 黄金标准本体中存在的类,但 LLM 未能生成。
-
F-1 分数 (F-1 Score)
- 概念定义: F-1 分数是精确率和召回率的调和平均数 (harmonic mean)。它提供了一个综合考量精确率和召回率的单一指标。当精确率和召回率都很重要时,F-1 分数是一个很好的评估标准。
- 数学公式:
- 符号解释:
Precision: 精确率。Recall: 召回率。
5.3. 对比基线
本研究的对比基线(Baselines)主要是不同方法论和不同 LLM 模型之间的相互比较。
- 方法论基线:
- LLM 自主方法:
One Shot (OS)和Chain of Thought (CoT)。这代表了最低程度的人类干预,作为性能的底线。 - 人机协作方法:
X-HCOME、Expert Review of X-HCOME和SimX-HCOME+。这些是本文提出的核心方法,与基线进行对比以验证其有效性。
- LLM 自主方法:
- 模型基线:
- 实验中使用了四种不同的 LLMs:
ChatGPT-3.5,ChatGPT-4,Bard/Gemini(现在统一为 Gemini), 和Llama2。通过比较它们在相同方法下的表现,可以评估不同模型在该任务上的能力差异。
- 实验中使用了四种不同的 LLMs:
6. 实验结果与分析
6.1. 核心结果分析
实验结果清晰地展示了从 LLM 自主生成到人机深度协作的性能演进。
6.1.1. 实验 1 & 2: LLM 自主 vs. 人机初步协作 (X-HCOME)
以下是原文 Table 2 的结果,比较了 OS、CoT 和 X-HCOME 方法在生成本体类方面的表现。黄金标准本体包含 41 个类。
| Method | Number of Classes | True Positives | False Positives | False Negatives | Precision | Recall | F-1 score |
|---|---|---|---|---|---|---|---|
| Gold-ontology | 41 | ||||||
| ChatGPT3.5 CoT | 3 | 2 | 1 | 39 | 67% | 5% | 9% |
| ChatGPT3.5 OS | 5 | 2 | 3 | 39 | 40% | 5% | 9% |
| ChatGPT3.5 X-HCOME | 25 | 10 | 15 | 31 | 40% | 24% | 30% |
| ChatGPT4 CoT | 6 | 4 | 2 | 37 | 67% | 10% | 17% |
| ChatGPT4 OS | 9 | 5 | 4 | 36 | 56% | 12% | 20% |
| ChatGPT4 X-HCOME | 33 | 10 | 23 | 31 | 30% | 24% | 27% |
| Bard/Gemini CoT | 8 | 5 | 3 | 36 | 63% | 12% | 20% |
| Bard/Gemini OS | 13 | 1 | 12 | 40 | 8% | 2% | 4% |
| Bard/Gemini X-HCOME | 50 | 19 | 31 | 22 | 38% | 46% | 42% |
| Llama2 CoT | 3 | 3 | 0 | 38 | 100% | 7% | 14% |
| Llama2 OS | 2 | 2 | 0 | 39 | 100% | 5% | 9% |
| Llama2 X-HCOME | 32 | 4 | 28 | 37 | 13% | 10% | 11% |
- 分析:
- LLM 自主方法 (
OS,CoT) 性能极低: 所有模型的F-1 score都在 20% 以下,Recall更是低至个位数。这表明 LLMs 仅凭简单提示,完全无法构建一个全面的本体,从而证伪了假说 1。 X-HCOME显著提升性能: 对于ChatGPT-3.5和Bard/Gemini,X-HCOME方法的F-1 score相比OS/CoT提升了 2-3 倍。特别是Bard/Gemini X-HCOME,其Recall达到了 46%,F-1 score达到 42%,是所有方法中最高的。这初步验证了假说 2,即人机协作是有效的。Llama2表现不佳:Llama2在所有方法中表现都较差,并且在X-HCOME方法下 F-1 分数反而下降,论文提到其生成的内容存在语法错误,这可能是其性能不佳的主要原因。
- LLM 自主方法 (
6.1.2. 实验 3: 专家评审的效果
以下是原文 Table 3 的结果,展示了对 X-HCOME 结果中的假阳性进行专家评审后的新指标。
| Method | Number of Classes | True Positives | False Positives | False Negatives | Precision | Recall | F-1 score |
|---|---|---|---|---|---|---|---|
| Gold-ontology | 41 | ||||||
| ChatGPT3.5 CoT | 3 | 2 | 1 | 39 | 67% | 5% | 9% |
| ChatGPT3.5 OS | 5 | 2 | 3 | 39 | 40% | 5% | 9% |
| ChatGPT3.5 X-HCOME | 25 | 23 | 2 | 18 | 92% | 56% | 70% |
| ChatGPT4 CoT | 6 | 4 | 2 | 37 | 67% | 10% | 17% |
| ChatGPT4 OS | 9 | 5 | 4 | 36 | 56% | 12% | 20% |
| ChatGPT4 X-HCOME | 33 | 29 | 4 | 12 | 88% | 71% | 78% |
| Bard/Gemini CoT | 8 | 5 | 3 | 36 | 63% | 12% | 20% |
| Bard/Gemini OS | 13 | 1 | 12 | 40 | 8% | 2% | 4% |
| Bard/Gemini X-HCOME | 50 | 50 | 0 | -9 | 100% | 122% | 110% |
| Llama2 CoT | 3 | 3 | 0 | 38 | 100% | 7% | 14% |
| Llama2 OS | 2 | 2 | 0 | 39 | 100% | 5% | 9% |
| Llama2 X-HCOME | 32 | 26 | 6 | 15 | 81% | 63% | 71% |
- 分析:
- 性能大幅跃升: 经过专家评审,所有模型的
X-HCOME结果F-1 score都飙升至 70% 以上。这证明了 LLM 生成的许多“错误”类实际上是领域内有价值的补充。 Bard/Gemini的惊人表现:Bard/Gemini X-HCOME的F-1 score达到了 110%。这是因为其Recall达到了 122%,False Negatives为 -9。这意味着它不仅找到了黄金标准中全部 41 个类,还额外找到了 9 个被专家认可为有价值的新类(如“Surgical Intervention”、“Rigidity”),从而超越了黄金标准本身。- 有力支持假说 3: 这一结果强有力地证明了 LLMs 具备发现新知识、扩展现有知识边界的潜力,前提是与人类专家的判断相结合。
- 性能大幅跃升: 经过专家评审,所有模型的
6.1.3. 实验 4: SimX-HCOME+ 与 SWRL 规则生成
以下是原文 Table 4 的 SimX-HCOME+ 方法生成类的结果。
| Method | Number of Classes | True Positives | False Positives | False Negatives | Precision | Recall | F-1 Score |
|---|---|---|---|---|---|---|---|
| Gold ontology | 41 | ||||||
| ChatGPT-4 | 17 | 9 | 8 | 32 | 52% | 21% | 31% |
| ChatGPT-3.5 | 21 | 14 | 7 | 27 | 66% | 34% | 45% |
| Gemini | 22 | 15 | 7 | 26 | 68% | 36% | 48% |
| Claude | 24 | 12 | 12 | 29 | 50% | 29% | 37% |
- 分析:
-
SimX-HCOME+的 F-1 分数(最高为 Gemini 的 48%)优于OS/CoT方法,但不如经过专家评审的X-HCOME方法。这可能是因为SimX-HCOME+更强调 LLM 主导,人类监督的程度可能不如X-HCOME的深度参与和修正。以下是原文 Table 5 关于将自然语言转换为 SWRL 规则的结果(原始表格格式混乱,此处根据内容进行重构和解释)。
Model Syntactical Comparison (SC) Logical Comparison (LC) F1 (SC) F1 (LC) TP FP FN TP FP FN Gold ontology (Atoms) 8 8 ChatGPT-4 3 10 5 0 13 8 27% 0% ChatGPT-3.5 3 14 5 1 16 7 24% 11% Gemini 0 0 8 0 0 8 0% 0% Claude 5 7 3 0 12 8 42% 0%
-
(注: 原表数据混乱,此处根据可辨认的标题和数值逻辑重构。Atoms 指规则中的逻辑原子,是评估的基本单位。)
- 分析:
- SWRL 转换任务失败: 所有模型的表现都非常差。即使在语法层面(SC),F-1 分数也很低。在更严格的逻辑层面(LC),几乎所有模型的 F-1 分数都为 0%。
Gemini甚至未能生成任何有效的输出。这表明,将复杂的自然语言逻辑规则精确转换为形式化的 SWRL 语言,对当前的 LLMs 来说仍然是一个巨大的挑战。
- SWRL 转换任务失败: 所有模型的表现都非常差。即使在语法层面(SC),F-1 分数也很低。在更严格的逻辑层面(LC),几乎所有模型的 F-1 分数都为 0%。
6.1.4. 人类参与度的影响分析
下图(原文 Figure 2)直观地展示了人类参与度与模型性能之间的关系。作者将五种方法按人类参与度从低到高(1-5)进行了排序。
该图像是一个图表,比较了不同方法在帕金森病领域的最高F1得分与人类参与度。X轴显示方法,包括OS ChatGPT4、CoT Bard/Gemini、SimX-HCOME Gemini、X-HCOME Bard/Gemini和Expert Review X-HCOME Bard/Gemini,左Y轴表示F1得分,右Y轴则测量人类参与度,范围为1到5。
- 分析:
- 清晰的正相关关系: 图表显示了一条明显的上升趋势线。随着人类参与度从等级 1 (
OS) 提升到等级 5 (Expert Review X-HCOME),模型的最高F-1 score从 20% 左右飙升至 110%。 - 结论: 这个图表是本文核心论点的最有力证据:在本体工程这个需要高度精确性和领域知识的任务中,人类的深度参与和监督是提升质量的关键。人机协作并非简单的任务分配,而是一个价值倍增的过程。
- 清晰的正相关关系: 图表显示了一条明显的上升趋势线。随着人类参与度从等级 1 (
7. 总结与思考
7.1. 结论总结
本文通过一系列系统的实验,对利用 LLMs 进行协作式本体工程进行了深入探索,得出了以下关键结论:
- LLMs 无法独立完成任务: 单纯依赖 LLMs 自主生成本体,即使使用
CoT等高级提示技巧,其产出在完整性和准确性方面也远不达标。 - 人机协作是成功的关键: 结合了人类专家迭代反馈和修正的协作方法论(
X-HCOME和SimX-HCOME+)能够显著提升本体的质量。 - 专家评审能发掘 LLM 的潜在价值: LLMs 能够生成一些超越现有知识库的、有价值的领域概念。通过专家评审,这些“假阳性”可以被识别并采纳,从而丰富和完善领域知识。
- 人类参与度与本体质量成正比: 实验明确表明,更高程度的人类参与和监督能带来更高质量的本体产出。
7.2. 局限性与未来工作
论文作者也坦诚地指出了当前研究的局限性,并提出了未来工作的方向:
- 局限性:
- 偏见问题: 结果可能受到 LLMs 训练数据中固有的偏见以及参与实验的领域专家的个人偏见影响。
- 评估范围有限: 评估主要集中在类 (classes) 和对象属性 (object properties),而忽略了数据属性 (data properties) 和更复杂的公理 (axioms),这可能导致对本体的评估不够全面。
- 对人类评估的依赖: 协作方法的成功仍然高度依赖于人类专家的评估和黄金标准的质量。
- 未来工作:
- 开发专用模型: 提出一个富有吸引力的方向——开发一个专门为本体构建任务而优化的 GPT 模型。
- 扩展应用领域: 将这些协作方法论推广和应用到其他复杂的医疗健康领域进行验证。
7.3. 个人启发与批判
-
个人启发:
- AI 的正确定位: 这篇论文为如何正确定位 AI(特别是 LLMs)在复杂知识工作中的角色提供了一个绝佳范例。AI 不是要取代专家,而是要成为增强专家能力的“超级助理”或“灵感催化剂”。
- “人-在-环路”的重要性: 在要求高精度、高可靠性的领域(如医疗、工程),设计一个有效的“人在环路 (Human-in-the-Loop)” 机制,比追求全自动化更有现实意义。
X-HCOME的迭代流程就是一个很好的实践。 - 对“错误”的重新审视: 论文对假阳性的分析非常有启发。在人机协作中,机器的“错误”不应被简单地丢弃,而应被视为一种潜在的“非共识信息”,值得专家去审查,因为其中可能蕴含着创新的火花或知识的盲点。
-
批判性思考:
- 人类参与度的量化过于主观: 论文中将人类参与度量化为 1-5 的等级,这是一种主观的、任意的划分。虽然便于图示,但缺乏严格的定义。例如,“等级 3”和“等级 4”的参与度差异到底有多大,难以精确衡量。
- 实验设置的局限性: 整个研究基于单一的黄金标准本体,这可能存在偶然性。如果换一个不同风格或粒度的黄金标准,结果可能会有所不同。
- 对 SWRL 任务的分析不足: 论文指出了 LLMs 在 SWRL 规则生成上的失败,但没有深入分析失败的原因。是因为 LLMs 难以理解形式逻辑的严格语法,还是无法处理规则中复杂的条件嵌套?这部分本可以进行更深入的错误分析。
- 对模型差异的讨论不够:
Bard/Gemini在协作任务中表现突出,而ChatGPT-4相对逊色。论文只是呈现了结果,但没有探讨造成这种差异的可能原因(例如,是模型更强的遵循指令能力,还是更丰富的创造性?),这削弱了研究的深度。
相似论文推荐
基于向量语义检索推荐的相关论文。