Evaluating large language models and agents in healthcare: key challenges in clinical applications
TL;DR 精炼摘要
本文综述了医疗领域大语言模型(LLM)及智能体的评估方法,系统总结了数据来源,分析了封闭式、开放式、图像处理及多任务场景,并比较了自动化指标与专家评估,揭示了临床应用中面临的关键挑战,促进未来医学AI评价研究。
摘要
Intelligent Medicine 5 (2025) 151–163 Contents lists available at ScienceDirect Intelligent Medicine journal homepage: www.elsevier.com/locate/imed Review Evaluating large language models and agents in healthcare: key challenges in clinical applications Xiaolan Chen 1,# , Jiayang Xiang 2,# , Shanfu Lu 3,# , Yexin Liu 4 , Mingguang He 1,5,6, ∗ , Danli Shi 1,2, ∗ 1 School of Optometry, The Hong Kong Polytechnic University, Kowloon, Hong Kong, China 2 Department of Ophthalmology, Renji Hospital, School of Medicine, Shanghai Jiao Tong University, Shanghai 200127, China 3 Perception Vision Medical Technologies Co. Ltd., Guangzhou, Guangdong 510530, China 4 AI Thrust, The Hong Kong University of Science and Technology, Guangzhou, Guangdong 511453, China 5 Research Centre for SHARP Vision (RCSV), The Hong Kong Polytechnic University, Kowloon, Hong Kong, China 6 Centre for Eye and Vision Research (CEVR), 17W Hong Kong Science Park, Hong Kong, China a r t i c l e i n f o Keywords: Large language model Generative pre-trained transformer Evaluation Reasoning Hallucination Medical agent a b s t r a c t Large language models (LLMs) have emerged as transform
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Evaluating large language models and agents in healthcare: key challenges in clinical applications
1.2. 作者
- Xiaolan Chen
- Jiayang Xiang
- Shanfu Lu (Perception Vision Medical Technologies Co. Lt., Guangzhou, Guangdong 510530, China)
- Yexin Liu
- Mingguang He (The Hong Kong Polytechnic University, Kowloon, Hong Kong, China; Research Centre for SHARP Vision (RCSV), The Hong Kong Polytechnic University, Kowloon, Hong Kong, China; Centre for Eye and Vision Research (CEVR), 17W Hong Kong Science Park, Hong Kong, China)
- Danli Shi (The Hong Kong Polytechnic University, Kowloon, Hong Kong, China)
1.3. 发表期刊/会议
iMed (根据DOI推断),以 Review 形式发表。该期刊专注于医学领域,发表的审阅文章在该领域具有较高的参考价值和影响力。
1.4. 发表年份
2025年 (根据DOI和论文内容中“updated search was conducted on 25 February 2025”推断)
1.5. 摘要
大型语言模型 (Large Language Models, LLMs) 已成为医疗保健和医学领域具有巨大潜力的变革性工具。在临床环境中,它们有望用于从临床决策支持 (Clinical Decision Support) 到患者教育的各种任务。LLM 智能体 (LLM Agents) 的进步通过在复杂临床工作流程中实现多模态处理 (Multimodal Processing) 和多任务处理 (Multi-task Handling) 进一步拓宽了其效用。然而,由于医疗保健的高风险性质和医疗数据的复杂性,评估 LLM 在医学背景下的性能带来了独特的挑战。本文全面概述了当前医学领域中 LLM 和 LLM 智能体的评估实践。我们主要贡献了三个方面:
首先,我们总结了评估中使用的数据源,包括现有医疗资源和人工设计的临床问题,为 LLM 在医疗环境中的评估提供了基础。
其次,我们分析了关键的医疗任务场景:封闭式任务 (Closed-ended Tasks)、开放式任务 (Open-ended Tasks)、图像处理任务 (Image Processing Tasks),以及涉及 LLM 智能体的真实世界多任务场景 (Real-world Multitask Scenarios),从而为不同医疗应用领域的进一步研究提供了指导。
第三,我们比较了评估方法和维度,涵盖了自动化指标 (Automated Metrics) 和人类专家评估 (Human Expert Assessments),同时讨论了传统准确性指标 (Traditional Accuracy Measures) 以及智能体特有的维度,如工具使用 (Tool Usage) 和推理能力 (Reasoning Capabilities)。
最后,我们指出了这个不断发展的领域中的主要挑战和机遇,强调需要医疗专业人员和计算机科学家之间持续的研究和跨学科合作,以确保 LLM 在临床实践中安全、道德和有效地部署。
1.6. 原文链接
/files/papers/69086f591ccaadf40a4344bf/paper.pdf (PDF文档,发布状态为已发表的期刊论文)
2. 整体概括
2.1. 研究背景与动机
大型语言模型 (LLMs) 近年来在各个领域取得了显著进展,尤其在自然语言理解 (Natural Language Understanding) 和内容生成 (Content Generation) 方面。研究人员已开始探索它们在医疗领域的潜力,从辅助临床决策 (Clinical Decision-making) 到增强患者教育和参与 (Patient Education and Engagement)。然而,通用的 LLMs 在医疗应用中存在局限性,特别是在医学图像解读 (Interpreting Medical Images) 或理解临床语境 (Grasping Clinical Context) 方面。为了克服这些限制,一些研究开发了专门针对医疗应用的 LLMs,显著提高了其处理各种医疗任务的能力。
此外,为了应对真实世界医疗需求的多模态 (Multimodal) 和多任务 (Multitask) 特性,最新的研究开发了由 LLMs 驱动的人工智能智能体系统 (Artificial Intelligence Agent Systems),即 LLM 智能体 (LLM Agents)。这些系统以 LLMs 作为“大脑”,整合各种专家 AI 模型作为工具,使其能够自主理解用户指令、做出决策并选择适当工具来执行复杂的医疗任务。
然而,对这些快速发展的医疗 LLM 和 LLM 智能体进行评估,传统的基于单任务和单维度的人工智能评估方法已不足以满足需求。这主要体现在以下几个挑战:
-
数据偏差 (Data Bias): 一些数据集来自特定领域或人群,可能无法代表真实世界的性能。
-
评估广度与深度 (Breadth vs. Depth): 跨不同医疗应用的评估通常范围广但缺乏深度,未能区分
LLMs在实际场景中的优缺点。 -
评估维度不足 (Insufficient Evaluation Dimensions): 先前的评估方法主要关注准确性 (Accuracy),忽略了其他关键属性,如幻觉评估 (Hallucination Assessment)、逻辑推理 (Logical Reasoning) 和生成有害内容的可能性。
因此,论文的动机在于指出,随着
LLM和LLM智能体的发展,建立标准化评估标准和基准 (Standardized Evaluation Criteria and Benchmarks) 变得至关重要,以确保它们在临床实践中的安全、道德和有效部署。
2.2. 核心贡献/主要发现
本文作为一篇综述,提供了医疗 LLM 和 LLM 智能体评估领域的全面概述,并综合了现有研究的见解,解决了关键挑战和机遇。其核心贡献主要体现在三个方面:
-
数据源总结 (Summarized Data Sources): 论文归纳了评估中使用的主要数据源,包括现有的医疗资源(如医学考试、医学文献)和人工设计的临床问题(如从医疗论坛、社交媒体收集的问题,或由专家精心设计的问题),为医疗环境中
LLM的评估奠定了基础。 -
任务场景分析 (Analyzed Key Medical Task Scenarios): 论文分析了四类关键的医疗任务场景:封闭式任务、开放式任务(包括摘要、信息提取和医学问答)、图像处理任务(包括图像分类、报告生成、视觉问答等),以及涉及
LLM智能体的真实世界多任务场景。这为不同医疗应用领域的进一步研究提供了指导。 -
评估方法和维度比较 (Compared Evaluation Methods and Dimensions): 论文比较了自动评估指标和人类专家评估方法,并探讨了传统的准确性度量以及智能体特有的维度,例如工具使用和推理能力。这提供了一个全面的评估框架。
此外,论文还识别了该领域中的主要挑战和机遇,强调了医疗专业人员和计算机科学家之间持续研究和跨学科合作的必要性,以确保
LLM在临床实践中安全、道德和有效的部署。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文对 LLM 在医疗领域评估的讨论,需要对以下核心概念有基础的认识:
-
大型语言模型 (Large Language Models, LLMs): 这是一类基于神经网络 (Neural Networks) 的人工智能模型,通过在海量文本数据上进行训练,学习语言的模式、语法、语义和上下文。它们能够执行多种自然语言处理 (Natural Language Processing,
NLP) 任务,如文本生成 (Text Generation)、问答 (Question Answering)、翻译 (Translation) 和摘要 (Summarization)。GPT-3、GPT-4和LLaMA等是著名的LLM例子。 -
LLM 智能体 (LLM Agents):
LLM智能体是利用LLM作为其“大脑”的AI系统。它们不仅能理解和生成语言,还能通过与环境交互、调用外部工具(如搜索引擎、计算器、其他AI模型)和执行多步推理来解决复杂任务。在医疗领域,这意味着智能体可以根据用户指令,规划并执行一系列操作,如查询医学数据库、分析医学图像、生成诊断报告等。 -
多模态处理 (Multimodal Processing): 指系统能够处理和理解多种类型的数据模态 (Data Modalities),而不仅仅是文本。在医疗领域,这通常意味着能够同时处理文本信息(如病历、医学文献)和视觉信息(如医学图像 射线、
MRI、CT扫描、眼底照片),甚至其他模态(如声音、生理信号),并从中提取和整合信息。 -
临床决策支持 (Clinical Decision Support, CDS): 旨在通过提供基于证据的建议、警报和信息来辅助临床医生做出决策的系统。
LLMs在这方面可以帮助医生快速检索相关文献、评估治疗方案、预测疾病风险等。 -
患者教育 (Patient Education): 向患者提供关于其疾病、治疗、预防和健康管理的信息,以帮助他们更好地理解和参与自己的健康护理。
LLMs可以生成易于理解的健康信息,回答患者问题,改善医患沟通。 -
幻觉 (Hallucination):
LLMs在生成看似合理但事实上不准确、不真实或无意义的信息时,即产生“幻觉”。在医疗领域,这种现象尤其危险,因为它可能导致错误的诊断或治疗建议,对患者健康造成负面影响。 -
推理能力 (Reasoning Capabilities): 指
LLMs或LLM智能体在面对新问题时,能够根据已知知识和规则进行逻辑思考、分析和得出结论的能力。在医疗领域,这涉及从患者症状、检查结果和医学知识中推断出可能的诊断或最佳治疗方案。
3.2. 前人工作
本文作为一篇综述,主要梳理和引用了大量前人关于 LLM 在医疗领域应用和评估的工作。在 LLM 出现之前,传统的 AI 模型在特定医疗任务上已经有所应用,但通常是单模态、单任务的。
- 通用
LLM的局限性与改进: 论文指出,最初的通用LLM在医疗应用中存在局限性,例如难以准确解读医学图像或理解复杂的临床上下文。这促使研究人员开发专门针对医疗领域进行训练或微调的LLMs。例如,Singhal et al. [4]提出了MultiMedQA数据集用于评估其开发的医疗模型,这代表了早期将LLM知识编码到医疗领域的尝试。 - 医疗
LLM的发展: 多个研究致力于构建医疗领域的LLM,以提升其专业能力。例如,Chen et al. [9, 10]提出了EyeGPT和FFA-GPT,专门用于眼科领域,Zhang et al. [11]提出了HuatuoGPT作为中文医疗LLM,而Tu et al. [12]致力于构建通用生物医学AI模型。这些工作是提升LLM在医疗领域专业知识和任务表现的关键一步。 LLM智能体概念的提出: 随着LLM能力的增强,结合外部工具和规划能力,LLM智能体的概念应运而生,以应对医疗领域多模态、多任务的复杂工作流。LLM智能体被设计为能够利用LLM作为核心决策者,并集成其他专业AI模型(如图像分析模型、知识检索工具)来执行更复杂的任务。
3.3. 技术演进
医疗领域 LLM 的应用和评估技术演进大致可以分为几个阶段:
- 早期探索阶段 (通用
LLM性能测试): 最初,研究者尝试将通用LLM(如GPT系列)直接应用于医疗任务,通过标准医学考试(如USMLE)来测试其医学知识储备。结果显示通用LLM具备一定的医学常识,但仍有明显不足。 - 专业化
LLM发展阶段 (垂直领域微调): 针对通用LLM在医疗专业性上的不足,研究者开始收集和构建大规模医疗文本数据集,对LLM进行预训练或微调,以提升其在特定医疗领域(如放射科、眼科)的专业知识和理解能力。 - 多模态
LLM和LLM智能体阶段 (复杂任务处理): 认识到医疗实践中不仅涉及文本,还包含大量图像、视频等信息,多模态LLM应运而生,它们能够整合和理解不同模态的数据。同时,为了模拟更复杂的临床工作流程,LLM智能体被提出,它将LLM作为核心控制器,通过工具调用、规划和推理,实现多步骤、多功能的任务执行,例如病史采集、诊断推理、图像分析和报告生成。 - 标准化评估框架构建阶段 (本综述关注的重点): 随着
LLM和LLM智能体在医疗领域应用的日益深入,如何对其进行全面、可靠、安全、道德的评估成为了关键挑战。本综述正是在此背景下,系统梳理了当前的评估实践,并提出了构建标准化、多维度评估框架的必要性。
3.4. 差异化分析
本文与相关工作的核心区别和创新点在于其全面性和系统性。它不是提出一个新的 LLM 模型或评估方法,而是:
- 专注于评估本身: 多数前人工作侧重于开发新的医疗
LLM或展示其在特定任务上的应用潜力。本文则将焦点放在“如何评估”这些模型上,尤其是在医疗这种高风险、数据复杂的领域。 - 覆盖
LLM和LLM智能体: 论文不仅涵盖了传统的LLM,还特别关注了更为复杂和多功能的LLM智能体的评估。这是因为智能体引入了工具使用、多步推理等新维度,需要更全面的评估考量。 - 系统化的评估框架分解: 论文将评估问题分解为数据源、任务场景、评估方法和评估维度四个核心组成部分,提供了一个结构化的视角来理解和分析当前的评估实践,并识别了其中的挑战和机遇。
- 强调临床应用的特殊性: 论文多次强调医疗领域的“高风险性质”和“数据复杂性”,这使得通用的
LLM评估方法不足以满足要求,需要针对临床应用的特点进行定制化评估。例如,对幻觉、偏见、伦理和安全性的关注。 - 呼吁跨学科合作: 论文在总结部分强调了医疗专业人员和计算机科学家之间合作的重要性,这不仅是为了开发更强的模型,更是为了构建更可靠的评估体系,确保技术的安全落地。
4. 方法论
本文是一篇综述性研究 (Review Study),其“方法论”章节主要描述了如何系统性地收集、筛选和分析现有文献,从而构建对医疗领域 LLM 评估现状的全面概述。
4.1. 方法原理
本文旨在通过系统性文献回顾 (Systematic Review) 的方式,总结和分析当前医疗领域中 LLM 及 LLM 智能体的评估实践。其核心思想是遵循预设的严格流程,确保文献检索的全面性、筛选的客观性以及最终分析的严谨性。这种方法论有助于识别该领域的主流趋势、关键挑战和未来研究方向。
4.2. 核心方法详解
论文遵循了 系统性综述和元分析的首选报告项目 (Preferred Reporting Items for Systematic Reviews and Meta-Analyses, PRISMA) 指南。具体步骤如下:
4.2.1. 文献检索策略
- 数据库选择: 检索了三个主要的同行评审期刊文章和会议论文数据库:
PubMedGoogle ScholarWeb of Science
- 时间范围: 检索了在 2023年1月1日至2024年11月13日 期间发表的文献。
- 关键词组合 (Keywords): 采用了以下关键词及其组合进行检索:
"Large Language Model""ChatGPT""AI Agent""LLM Agent""Medical""Medicine""Evaluation""Assess"
- 更新检索: 为了最大限度地减少近期偏差 (Recency Bias) 并捕捉新兴研究,在 2025年2月25日 进行了更新检索,额外识别了5篇符合条件的同行评审文章和4篇相关的预印本 (Preprints)。
4.2.2. 文献筛选与纳入标准
- 纳入标准 (Inclusion Criteria):
- 研究必须在医疗领域应用了
LLMs。 - 研究必须对其性能进行了充分的评估 (
adequate assessment)。
- 研究必须在医疗领域应用了
- 排除标准 (Exclusion Criteria):
- 研究与医疗应用不相关。
- 研究表现出方法学局限性,特别是那些缺乏正式评估协议 (Formal Evaluation Protocols)、统计验证 (Statistical Validation) 或样本量小于20的研究。
- 最终纳入数量: 经过筛选后,总共纳入了 256项研究 进行文献回顾。
- 代表性选择: 论文从不同任务场景和评估方法中选择了代表性研究作为示例进行引用和讨论。
4.2.3. 文献分析与综合
在收集和筛选完文献后,研究团队对这些文献进行了系统性的分析,并从三个主要方面进行了综合,构成了本文的核心贡献:
-
数据来源总结: 分析了各类评估中使用的数据集。
-
任务场景分析: 归纳了
LLMs在医疗领域应用的主要任务类型。 -
评估方法和维度比较: 对不同评估指标和评价维度进行了梳理和对比。
通过上述严格的系统性综述方法,本文旨在提供一个全面、结构化的视角来理解医疗
LLM评估的现状、挑战和未来发展方向。
5. 实验设置
对于一篇综述性论文而言,其“实验设置”并非指作者进行自身实验的设置,而是指其所回顾的文献中,LLM 在医疗领域的评估所涉及的数据源、评估指标以及对比基线。本章节将根据原文内容,详细拆解这些评估要素。
5.1. 数据集
在医疗领域评估 LLM 时,构建合适的测试集是一个重大挑战,因为医疗数据具有复杂性和多样性。论文将当前用于评估的数据集大致分为两大类:
5.1.1. 现有医疗资源
这些资源通常是标准化的、经过验证的,并且包含了丰富的专业知识。
- 医学考试 (Medical Examinations):
- 特点: 设计用于评估医疗专业人员的能力,具有丰富的专业知识和标准化答案,提供了大量的已验证材料。
- 示例:
- 通用医学考试:
美国执业医师资格考试 (United States Medical Licensing Examination, USMLE)[13, 17]、中国国家执业医师资格考试 [18]、中国国家执业药师资格考试、中国国家护士执业资格考试 [19]、中国临床医学硕士研究生入学考试 [20]。 - 医学专科考试:
眼科知识评估项目考试 (Ophthalmic Knowledge Assessment Program examination) [21]、基础科学和临床科学自我评估项目 (Basic Science and Clinical Science Self-Assessment Program) [22]、美国神经外科委员会 (American Board of Neurological Surgery, ABNS) 口笔试 [23]、耳鼻咽喉头颈外科认证考试 (Otolaryngology-Head and Neck Surgery Certification Examinations) [24]、英国皇家全科医师学院应用知识测试 (Royal College of General Practitioners Applied Knowledge Test) [25]、欧洲放射学委员会考试 (European Board of Radiology exam) [26]。
- 通用医学考试:
- 医学文献 (Medical Literature):
- 特点: 包括同行评审期刊文章和会议论文
[27-29]。这些数据库提供了前沿的医学见解和研究发现,有助于评估LLM更新医学知识的能力。
- 特点: 包括同行评审期刊文章和会议论文
5.1.2. 人工策划问题 (Manually Curated Questions)
由于考试和学术材料可能无法完全反映真实世界互动所需的动态能力,一些研究转向使用真实世界数据或专家精心策划的问题。
- 真实世界互动数据:
- MultiMedQA:
Singhal et al. [4]提出的评估数据集,用于评估其开发的模型。 - 医疗论坛和社交媒体: 收集自这些平台上的真实世界互动和讨论
[30-32],用于评估LLM的对话和咨询技能。
- MultiMedQA:
- 医学图像 (Medical Images):
- 特点: 包括 射线、
MRI、CT(放射学[33]),以及眼底照片、眼底荧光血管造影 (FFA)、光学相干断层扫描 (OCT) 图像(眼科学[34])。这些图像数据通常附带专家医疗报告,是构建多模态数据集的关键资源,用于测试LLM处理复杂视觉和文本信息的能力。
- 特点: 包括 射线、
- 专家精心制作的问题 (Expert-crafted Questions):
-
特点: 由医疗专业人员基于临床专业知识精心制定
[35-37]。尽管数量有限,但它们提供了高度专业化和实用的见解。 -
示例:
Marshall et al. [38]构建了围绕葡萄膜炎 (Uveitis) 症状、检查和治疗的数据集;Zakka et al. [39]与8名委员会认证的临床医生和2名医疗从业者合作,生成了涵盖9个医学专业的314个临床问题。 -
优势: 确保了问题未包含在训练数据中,保证了评估的公正性。 以下是原文
Figure 2的结果,它展示了医疗领域中LLM评估的桑基图,展示了数据来源、任务场景与多种评估指标之间的流向关系。
该图像是关于医疗领域大语言模型评估流程的桑基图,展示了数据来源、任务场景与多种评估指标之间的流向关系,体现了闭环任务、开放任务、图像处理及真实场景中评估维度的交互。
-
5.2. 评估指标
评估医疗领域的 LLM 需要综合考虑模型性能及其对患者健康的潜在影响。评估方法包括自动化评估和人工评估,这些方法根据具体任务可以优先考虑不同的维度。
5.2.1. 自动评估 (Automatic Evaluation)
自动评估通过自动化算法客观地评估 LLM 的性能。
5.2.1.1. 分类任务指标
用于量化模型预测性能。
- 准确率 (Accuracy):
- 概念定义: 衡量模型正确预测的样本数量占总样本数量的比例。在分类任务中,它表示所有正确预测(包括真阳性
TP和真阴性TN)与总样本数之比。 - 数学公式:
- 符号解释:
TP(True Positives): 真阳性,实际为阳性且被模型预测为阳性的样本数。TN(True Negatives): 真阴性,实际为阴性且被模型预测为阴性的样本数。FP(False Positives): 假阳性,实际为阴性但被模型预测为阳性的样本数(第一类错误)。FN(False Negatives): 假阴性,实际为阳性但被模型预测为阴性的样本数(第二类错误)。
- 概念定义: 衡量模型正确预测的样本数量占总样本数量的比例。在分类任务中,它表示所有正确预测(包括真阳性
- 特异度 (Specificity):
- 概念定义: 衡量模型正确识别出所有实际为阴性样本的能力,即在所有实际阴性样本中,有多少被正确地预测为阴性。
- 数学公式:
- 符号解释:
TN: 真阴性。FP: 假阳性。
- 精确率 (Precision):
- 概念定义: 衡量模型预测为阳性的样本中,有多少是真正的阳性。它关注的是预测结果的纯度。
- 数学公式:
- 符号解释:
TP: 真阳性。FP: 假阳性。
- 召回率/灵敏度 (Recall / Sensitivity):
- 概念定义: 衡量模型正确识别出所有实际为阳性样本的能力,即在所有实际阳性样本中,有多少被正确地预测为阳性。它关注的是对正例的覆盖率。
- 数学公式:
- 符号解释:
TP: 真阳性。FN: 假阴性。
- F1-分数 (F1-score):
- 概念定义: 精确率和召回率的调和平均值。当精确率和召回率都很重要时,F1-分数是一个很好的综合指标。
- 数学公式:
- 符号解释:
- : 精确率。
- : 召回率。
5.2.1.2. 长文本生成任务指标
用于评估生成文本的质量。
- BLEU (Bilingual Evaluation Understudy):
- 概念定义: 一种用于评估机器翻译文本质量的指标,通过计算机器翻译结果与参考翻译之间
n-gram重叠的程度来衡量。重叠越多,得分越高。 - 数学公式:
其中, 是简短惩罚因子 (Brevity Penalty),用于惩罚生成文本过短的情况。
是
n-gram精确率 (precision), 是候选文本长度, 是参考文本长度。 - 符号解释:
- : 简短惩罚因子。
- : 考虑的最大
n-gram长度 (通常取4)。 - : 对应
n-gram精确率的权重 (通常取 )。 - :
n-gram精确率,表示候选文本中与参考文本匹配的n-gram数量占候选文本中所有n-gram数量的比例。 - : 候选文本(即生成文本)的词数。
- : 参考文本(即真实标注)的词数。
- 概念定义: 一种用于评估机器翻译文本质量的指标,通过计算机器翻译结果与参考翻译之间
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation):
- 概念定义: 一组用于评估文本摘要和机器翻译的指标,主要通过计算生成文本和参考文本之间
n-gram、词序列或最长公共子序列的召回率来衡量。 - 数学公式 (以 ROUGE-N 为例):
- 符号解释:
- :
n-gram序列。 - : 候选摘要和参考摘要中匹配的
n-gram的最大数量。 - : 参考摘要中
n-gram的数量。 - ROUGE-L: 基于最长公共子序列 (Longest Common Subsequence,
LCS) 的召回率。 - ROUGE-S: 基于跳跃
n-gram(Skip-bigram) 的召回率。
- :
- 概念定义: 一组用于评估文本摘要和机器翻译的指标,主要通过计算生成文本和参考文本之间
- CIDEr (Consensus-based Image Description Evaluation):
- 概念定义: 主要用于评估图像描述的质量,通过计算
n-gram的余弦相似度 (Cosine Similarity),并对更常见和更具描述性的n-gram给予更高权重来衡量。 - 数学公式:
更常见的公式基于
TF-IDF向量的余弦相似度: - 符号解释 (简化版):
- : 候选描述的
n-gram向量。 - : 一组参考描述的
n-gram向量。 - : 候选描述中
n-gram的TF-IDF向量。 - : 参考描述的
TF-IDF向量。 - : 权重,通常是 。
- : 最大
n-gram长度。 - : 向量点积。
- : 向量的欧几里得范数 (Euclidean Norm)。
- : 候选描述的
- 概念定义: 主要用于评估图像描述的质量,通过计算
- METEOR (Metric for Evaluation of Translation with Explicit Ordering):
- 概念定义: 一种机器翻译评估指标,基于单词对齐 (Word Alignment) 来计算生成文本和参考文本之间的相似度,考虑了同义词、词形变化和词序。
- 数学公式: 其中, 是精确率和召回率的调和平均值, 惩罚不连续的匹配。
- 符号解释:
- : 根据分块数量计算的惩罚项。
- : 基于精确率 和召回率 的加权调和平均值。
- : 精确率,匹配的单语块数量除以生成文本的单词总数。
- : 召回率,匹配的单语块数量除以参考文本的单词总数。
- BERTScore:
- 概念定义: 一种基于预训练
BERT模型计算文本相似度的指标。它通过计算生成文本和参考文本中每个词的上下文嵌入 (Contextual Embeddings) 之间的余弦相似度,然后进行软对齐 (Soft Alignment)。它比传统的n-gram指标更能捕捉语义相似性。 - 数学公式:
BERTScore没有一个简单的封闭形式数学公式,因为它依赖于BERT模型计算的词嵌入。其核心思想是: \text{Score} = \sum_{x_i \in \text{Candidate}} \max_{y_j \in \text{Reference}} \text{cos}(\mathbf{e}_x_i, \mathbf{e}_y_j) 然后对参考文本中的词进行类似计算,并结合起来。 - 符号解释:
- : 生成文本。
- : 参考文本。
- \mathbf{e}_x_i: 生成文本中词 的
BERT上下文嵌入向量。 - \mathbf{e}_y_j: 参考文本中词 的
BERT上下文嵌入向量。 - : 余弦相似度函数。
- 概念定义: 一种基于预训练
- MoverScore:
- 概念定义: 另一种基于词嵌入的评估指标,它使用 Wasserstein 距离 (Wasserstein Distance) 或 Earth Mover's Distance 来衡量两个文本(生成文本和参考文本)的语义距离。它将文本视为词嵌入的“堆”,并计算将一个堆转换为另一个堆所需的最小“工作量”。
- 数学公式:
MoverScore同样没有简单的封闭公式,它基于 Earth Mover's Distance (EMD),而EMD是一个线性规划问题。 其中, 表示从 中的词 到 中的词 的“流量”, 是两个词嵌入之间的距离(例如,余弦距离)。 - 符号解释:
- : 两个待比较的文本。
- : 文本 中的词。
- : 词 和 之间距离(通常通过词嵌入计算)。
- : 传输计划,即从 到 的“质量”份额。
- QAEval 和 QAFactEval:
- 概念定义: 这些是专门用于问答 (Question Answering,
QA) 任务的评估工具或框架[46]。它们通常通过生成关于生成文本的额外问题,然后评估这些问题答案的正确性来间接评估生成文本的事实一致性 (Factual Consistency)。 - 数学公式/符号解释: 它们不是单一的数学公式,而是评估流程或工具集,其内部可能使用上述的
NLP指标来评估答案的质量。
- 概念定义: 这些是专门用于问答 (Question Answering,
5.2.1.3. 可读性指标 (Readability Metrics)
用于评估文本的易读性。
- Flesch Reading Ease Score (Flesch可读性指数):
- 概念定义: 一个衡量英文文本可读性的指标。得分越高,文本越容易理解。
- 数学公式:
- 符号解释:
- : 文本中的总词数。
- : 文本中的总句子数。
- : 文本中的总音节数。
- Flesch-Kincaid Grade Level (Flesch-Kincaid年级水平):
- 概念定义: 估计阅读文本所需的美国学年水平。得分越低,文本越容易理解。
- 数学公式:
- 符号解释: 同Flesch Reading Ease Score。
- Gunning Fog Index (Gunning迷雾指数):
- 概念定义: 衡量英文文本可读性的指标,通常用于评估文本是否适合普通读者。得分越高,文本越难理解。
- 数学公式:
- 符号解释:
- : 文本中的总词数。
- : 文本中的总句子数。
- : 包含三个或更多音节的词数(不包括专有名词、复合词和三音节或更多音节的动词后缀)。
- Coleman-Liau Index (Coleman-Liau指数):
- 概念定义: 衡量英文文本可读性的指标,与Flesch-Kincaid类似,它也估计阅读文本所需的美国学年水平,但它基于字符而非音节计数。
- 数学公式: 其中, 是每100个单词的字母数, 是每100个单词的句子数。
- 符号解释:
- : 每100个单词的平均字母数 ()。
- : 每100个单词的平均句子数 ()。
- Simple Measure of Gobbledygook (SMOG) (SMOG可读性指数):
- 概念定义: 另一种评估英文文本可读性的指标,通常用于健康信息领域,以确保患者能够理解。它计算多音节词的数量。
- 数学公式:
- 符号解释:
- : 文本中三个或更多音节的词数。
- : 文本中的句子数。
5.2.2. 人工评估 (Human Evaluation)
自动化评估方法无法涵盖所有基本方面,特别是在医疗等敏感领域,这需要高级知识和伦理判断,因此人工评估至关重要。
- 定性方法 (Qualitative Methods):
- 案例研究 (Case Studies)
[112]: 允许人工评估者仔细比较LLM生成的内容与真值 (Ground Truth),从而揭示自动化评估方法无法识别的细微差异。
- 案例研究 (Case Studies)
- 评分协议 (Scoring Protocols):
- DISCERN 量表
[113]: 用于评估消费者健康信息质量的工具。 - JAMA 基准标准 (JAMA benchmark criteria)
[114]: 由美国医学会杂志 (JAMA) 提出的评估医疗信息质量的标准。 - 全球质量量表 (Global Quality scale)
[115]: 一个通用的质量评估量表。 - 错误分类: 识别并统计分析预定义错误类型(如事实错误、逻辑错误)的发生概率
[12, 109]。
- DISCERN 量表
- 自定义评分规则或 Likert 量表 (Custom Grading Rules or Likert-style Rules):
- Likert 量表
[116]: 广泛用于社会科学和心理学研究,评估人们对特定观点的看法或态度。在医学领域,可以将每个评估维度转化为一系列陈述,并提供相应的选项来调查受访者对模型性能各维度的认同程度。 - 示例:
Samaan et al. [31]招募了委员会认证的减重外科医生,使用4点量表评估ChatGPT的准确性和全面性(1分代表全面,2分代表正确但不足,3分代表部分正确部分错误,4分代表完全错误)。Chen et al. [91]使用5点Likert量表(从1分“强烈不同意”到5分“强烈同意”)评估模型生成报告的完整性和正确性。
- Likert 量表
- 评估者组成 (Evaluator Composition):
- 专业医生: 大多数研究的评估由专业医生进行 。
- 非专业人士: 考虑到以患者为中心的
LLM发展方向,一些研究也纳入了非专业人士(如患者和公众)参与评估LLMs[32, 35]。例如,Singhal et al. [4]雇佣了5名非医学背景的印度评估者来分析LLM对长篇问题的回答的有用性和实用性。这种方法有助于捕捉仅依赖专家视角可能忽视的细节。
5.3. 对比基线
作为一篇综述论文,本文本身不进行实验,因此没有“对比基线”的概念。然而,在论文回顾的各项研究中,LLMs 的性能通常会与以下基线进行比较:
- 人类水平性能 (Human-level Performance): 这是最常见的基线,特别是在医学考试、问答和临床决策支持等任务中,
LLM的表现会与医生、专家或患者的表现进行比较[16, 40]。 - 传统
AI模型 (Traditional AI Models): 在图像分类、报告生成等任务中,LLM有时会与传统的深度学习模型(如卷积神经网络CNN)进行比较[86]。 - 其他
LLM版本或模型: 不同的LLM(如GPT-3.5vs.GPT-4)之间会进行性能比较[20, 41]。 - 无
LLM的基线 (No-LLM Baselines): 在某些信息提取任务中,LLM的性能可能与没有使用LLM的传统NLP方法进行比较。
6. 实验结果与分析
本节将根据原文内容,对医疗领域 LLM 评估的任务场景、评估维度及其核心发现进行分析。由于本文是一篇综述,其“实验结果”并非指作者自身进行的实验数据,而是对现有文献中评估实践的总结和洞察。
6.1. 核心结果分析
论文从数据源、任务场景和评估维度三个主要方面,系统地总结了 LLM 在医疗领域的评估实践。
6.1.1. 数据源
- 概述: 评估数据源主要分为现有医疗资源和人工策划问题两类。
- 现有医疗资源:
- 医学考试: 广泛用于评估
LLM的医学知识。例如,USMLE、中国国家医学执业考试、以及各种专科考试 (Ophthalmic Knowledge Assessment Program、ABNS等)。GPT-4在许多考试中表现出色,甚至超过了及格线,但仍存在偏见(例如,ChatGPT-3.5在人文科目中准确率高达93.75%,但在病理学中仅为37.5%)和对特定专业知识的不足[20, 41]。 - 医学文献: 用于评估
LLM更新和整合前沿医学知识的能力。
- 医学考试: 广泛用于评估
- 人工策划问题:
- 真实世界数据:
MultiMedQA、医疗论坛和社交媒体上的互动数据,用于评估LLM的对话和咨询技能。 - 医学图像: 用于构建多模态数据集,评估
LLM处理复杂视觉和文本信息的能力。 - 专家制作问题: 弥补标准化数据无法反映的动态临床场景,提供高度专业化和实用的见解,并确保评估数据的独立性。
- 真实世界数据:
- 挑战: 数据集的复杂性和多样性、稀缺学科的数据收集困难、伦理考虑和数据隐私问题。
6.1.2. 任务场景
论文分析了 LLM 在医疗领域中的四种主要任务场景:
6.1.2.1. 封闭式任务 (Closed-ended Tasks)
-
特点: 通常是选择题 (
MCQ),答案明确,易于量化评估,适合大规模模型比较。 -
应用: 主要用于评估
LLM的医学知识广度。 -
发现:
MultiMedEval等工具被开发用于全面评估MCQ任务。GPT-4在某些中文医学考试数据集 (CMedExam) 上的准确率 (61.6%) 仍低于人类水平 (71.6%)[40]。ChatGPT-3.5和GPT-4在某些专科考试(如胃肠病学自我评估)中未能达到及格线[41]。ChatGPT在放射学板式考试中正确回答了69%的问题,通过了考试[42]。- 模型可能存在偏见,例如对答案位置的敏感性
[44]。
-
局限性: 侧重程序性知识,缺乏对复杂情况的深入评估,无法反映真实世界场景中的性能。 以下是原文
Figure 3的结果,它展示了封闭式任务和开放式任务的具体示例。
该图像是论文中展示的示意图,展示了封闭式任务和开放式任务的具体示例,包含闭合选择题和开放式的文本摘要、信息抽取以及医学问答任务。
6.1.2.2. 开放式任务 (Open-ended Tasks)
- 特点: 需要
LLM生成多样化答案,对自然语言处理 (NLP) 能力要求更高,评估维度更复杂。 - 主要类型:
- 摘要 (Summarization):
- 医学文献摘要:
LLMs可用于总结医学研究证据。Tang et al. [29]发现LLMs在生成摘要时可能产生不正确信息。Hake et al. [47]评估了ChatGPT总结临床研究摘要的能力,发现其在质量、准确性、偏见和相关性方面表现可接受。 - 电子健康记录 (EHR) 摘要:
LLMs有望减轻医生文档负担。研究显示ChatGPT在生成神经外科出院总结和手术报告时显著减少了时间,并保持了高程度的事实正确性[51]。Zaretsky et al. [52]评估了LLM将出院总结转换为患者友好语言的能力,发现其具有潜力,尽管仍有不完美之处。 - 放射学报告摘要:
LLMs可将复杂的放射学报告总结为通俗易懂的语言,Lyu et al. [53]和Chung et al. [54]均证实了其可行性。Van et al. [55]甚至发现LLM在多任务临床文本摘要中表现优于医学专家。
- 医学文献摘要:
- 信息提取 (Information Extraction):
- 命名实体识别 (Named Entity Recognition, NER):
LLMs能够从文本中识别基因、蛋白质、疾病等命名实体。例如,Gu et al. [58]训练的LLM在从EHR中提取卒中严重程度信息时达到了0.990的F1分数。Guevara et al. [59]使用LLM从临床笔记中提取社会健康决定因素 (Social Determinants of Health,SDoH)。 - 关系提取 (Relation Extraction): 从文本中提取实体之间的关系(如药物-药物相互作用、基因-疾病关联)。
Cinquin et al. [61]开发的ChIP-GPT模型在从生物医学数据库记录中提取数据时,准确率达到90%-94%。
- 命名实体识别 (Named Entity Recognition, NER):
- 医学问答 (Medical Question Answering, QA):
- 问题来源: 作者设计的问题
[62-64]、专业学会和机构的问题[65, 66]、社交媒体[67, 68],以及真实的或模拟的临床病例[69-71]。 - 可靠性关注: 主要关注
LLM回答的可靠性,因其可能影响医疗决策。 - 专科应用: 在眼科等专科领域,
ChatGPT在回答泪道疾病[72]和常见视网膜疾病[73]问题时表现出中等至较高的准确性,但在处理治疗选项问题时表现较差[73, 74]。 - 评估维度: 除了准确性 (
Accuracy) / 正确性 (Correctness),还包括完整性 (Completeness) 、可读性 (Readability) 。 - 新兴维度: 安全性 (
Safety)[84, 85]和人文关怀 (Humanistic Care) / 情感支持 (Emotional Support)[64, 68]也在被探索。例如,Cadamuro et al. [84]评估了回答的安全性,Menz et al. [85]发现LLM的安全防护在防止健康虚假信息生成方面存在不一致。Yeo et al. [68]和Zhu et al. [64]发现ChatGPT在回答癌症患者问题时表现出同情心。
- 问题来源: 作者设计的问题
- 摘要 (Summarization):
6.1.2.3. 图像处理任务 (Image Processing Tasks)
- 特点: 结合图像和文本信息,用于疾病诊断和报告生成。
- 主要类型:
- 图像分类 (Image Classification):
- 应用: 识别医学图像内容和疾病模式。
- 发现:
LLMs在MIMIC-CXR、Pad-UFES20等数据集上表现良好,但在识别细粒度视觉概念方面仍需改进[16]。视觉-语言模型 (VLM) 在零样本 (Zero-shot) 和少样本 (Few-shot) 场景下表现出潜力[86]。Med-UniC框架在多个数据集上表现出色,并能处理跨语言评估,减少社区偏见[87]。
- 报告生成 (Report Generation):
- 应用: 根据医学图像自动生成诊断报告。
- 发现:
GPT-4V可以生成描述性报告,但在生成特定医学术语的准确性方面仍有提升空间[88]。R2GenGPT和LLM-CXR模型在放射学报告生成中显示出潜力[89, 90]。ICGA-GPT模型在眼科报告生成中通过自动化和人工评估均获得满意分数,准确性和完整性高[91]。
- 视觉问答 (Visual Question Answering, VQA):
- 特点: 结合医学图像和相关问题,要求
LLM理解图像和问题上下文,并生成符合临床事实和逻辑的答案。对跨模态理解、语言表达和医学知识推理要求高。 - 数据集:
VQA-Med系列、VQA-RAD、PathVQA等数据集涵盖放射学和病理学[92]。 - 发现:
GPT-4V在区分问题类型方面表现出色,但在准确性方面未达到现有基准,对医学图像信息利用不足[93]。在眼科图像VQA任务中,ChatGPT-4在识别检查类型方面准确率为70%,但在病变识别方面仅为65%[15];GPT-4V在眼科检查类型识别方面达到95.6%,但病变识别准确率仅为25.6%[7]。 - 幻觉问题:
OmniMedVQA基准测试发现,高性能模型在需要详细观察和专业知识的问题上常产生听起来合理但不正确的幻觉回答[94]。MedVH框架[95]和专门基准数据集[96]用于评估幻觉,发现模型在处理否定性问题和多步推理任务时尤其容易产生幻觉。 - 推理能力:
Beler et al. [26]评估了GPT-4o在放射学考试中的表现,突出了LLMs在零样本场景下辅助放射科医生评估和管理病例的潜力。
- 特点: 结合医学图像和相关问题,要求
- 其他:
-
医学图像分割 (Medical Image Segmentation):
LLMs可以通过解释医疗报告或提示来指导图像分割算法,提高准确性和效率。LLMSeg模型在放射治疗中的靶区勾画 (Target Delineation) 任务中显著优于纯图像AI模型[97]。 -
跨模态检索 (Cross-modal Retrieval):
LLMs可作为桥梁,将自然语言指令转化为图像处理模型可执行的信号。GPT-CMR在中文医疗教学视频问答数据集上表现显著优于基线[98]。 以下是原文Figure 4的结果,它展示了医学大模型在图像分类(图A、B)、影像报告生成(图C)、视觉问答(图D)及图像分割(图E)任务中的应用示例和对应文本提示。
该图像是一幅多模块示意图,展示了医学大模型在图像分类(图A、B)、影像报告生成(图C)、视觉问答(图D)及图像分割(图E)任务中的应用示例和对应文本提示。
-
- 图像分类 (Image Classification):
6.1.2.4. 真实世界多任务场景涉及 LLM 智能体 (Real-world Multitask Scenarios Involving LLM Agents)
-
特点: 临床工作流需要多个相互依赖子任务的无缝集成(如诊断推理、图像病灶分割、报告生成、多模态问答)。传统的
LLM应用可能不足,而LLM智能体更适合。 -
智能体架构分级:
- 一级智能体 (Level 1): 生成器智能体 (Generator Agent),通过检索增强生成 (Retrieval-Augmented Generation,
RAG) 实现精确响应。 - 二级智能体 (Level 2): 集成专家模型工具包,通过工具调用扩展系统功能。
- 三级智能体 (Level 3): 规划智能体 (Planning Agent),能够使用工具,并运用推理和规划能力根据用户查询构建多步工作流,并根据结果调整执行。
- 四级智能体 (Level 4): 高度自主,整合工具调用、推理框架和工作流规划能力。
- 一级智能体 (Level 1): 生成器智能体 (Generator Agent),通过检索增强生成 (Retrieval-Augmented Generation,
-
评估框架需求: 鉴于
LLM智能体的多步、多功能性质,需要专门的评估框架。- AgentBench
[104]: 首个跨领域基准,评估LLM智能体在8个模拟环境中的表现,揭示了开放式决策中的显著性能差距。 - RadABench
[105]: 放射学专用智能体的评估基准,模拟工具丰富的放射学工作流,涵盖解剖结构、成像模态、工具类别和放射学任务。 - 模拟真实临床工作流:
Tu et al. [106]创新性地以远程客观结构化临床考试 (Objective Structured Clinical Examination,OSCE) 的方式评估LLM性能。Johri et al. [107]提出了CRAFT-MD评估框架,强调真实的医患互动、全面的病史采集和开放式提问,结合自动化和专家评估。
- AgentBench
-
未来展望: 需要进一步细化多维度评估,并进行随机对照试验 (
RCTs) 来比较LLM是否真正辅助患者和临床实践。 以下是原文Figure 5的结果,它展示基于医疗大语言模型(LLM)的智能体与患者之间的多轮对话与任务调用流程。
该图像是一个示意图,展示基于医疗大语言模型(LLM)的智能体与患者之间的多轮对话与任务调用流程,涵盖病史采集、症状分析、诊断推理、图像分析及报告生成等环节,体现了LLM在临床决策支持中的应用。
6.1.3. 评估维度
论文讨论了传统的评估维度以及针对 LLM 智能体的特定评估维度。
6.1.3.1. 传统评估维度 (Traditional Evaluation Dimensions)
- 准确性 (Accuracy): 最常用维度,通过
MCQ中的正确答案比例或人工评分衡量。自然语言指标 (BLEU、ROUGE等) 也用于评估语义一致性。 - 完整性 (Completeness): 评估生成内容的全面性。
- 安全性 (Safety): 评估模型输出是否会导致负面后果或有害影响。
- 沟通 (Communication): 评估模型的表达清晰度和互动有效性。
- 用户满意度 (User Satisfaction): 评估用户对模型输出的满意程度。
- 幻觉 (Hallucination): 评估
LLM生成不准确信息的倾向。目前缺乏标准化评估方法,但有研究通过错误分类[9]或验证引用真实性[27]来量化。 - 偏见 (Bias): 评估模型是否存在不公平或歧视性输出。
- 稳定性 (Stability): 评估模型在不同输入或重复查询下的输出一致性。
- 成本效益 (Cost-effectiveness): 评估模型部署和运行的经济效益。
- 多维评估框架:
Singhal et al. [4]创建了一个包含12个方面的综合评估框架,涵盖科学共识、潜在危害程度、正确理解/检索/推理的证据、不当/不正确内容、缺失内容和偏见可能性等,为未来研究提供了重要参考。
6.1.3.2. LLM 智能体评估维度 (LLM Agent Evaluation Dimensions)
- 概述: 传统
LLM评估维度仍然适用,但需要扩展以包含中间过程的额外方面。 - 特定维度:
-
工具使用能力 (Tool Usage Capability): 评估智能体调用工具的正确性、工具组合的最佳性(工具排序)以及工具使用的效率(冗余工具调用)。
-
推理能力 (Reasoning Capability): 评估智能体在多步工作流中连接各步骤所需的逻辑思考。
Griot et al. [123]提出了评估医学推理所需元认知 (Metacognition) 的系统。Xu et al. [124]将医学推理分为诊断相关和管理导向两类。 -
工作流管理 (Workflow Management): 评估复杂医疗查询的任务分解合理性以及计划行动的完成率。
-
自主评估 (Autonomous Assessment): 评估智能体在自主操作中的安全率,通过多轮响应提供持续反馈优化以评估学习效果,并确保智能体能够正确识别边界,避免对无法解决的病例进行猜测性回答。 以下是原文
Figure 6的结果,它展示了LLM智能体特定评估维度。
该图像是图表,展示了论文中图6所示的大型语言模型(LLM)智能体特定评估维度,内容涵盖四个智能体层级及其对应的传统指标、工具使用能力、推理能力、工作流管理和自治评估等方面。
-
6.2. 数据呈现 (表格)
本综述论文未包含作者自身的实验结果表格。其内容是对其他研究的总结和分析,因此不涉及特定实验结果表格的转录。
6.3. 消融实验/参数分析
本综述论文未进行自身的实验,因此不涉及消融实验或参数分析。这些分析通常存在于其所回顾的原创研究论文中。
7. 总结与思考
7.1. 结论总结
本文全面概述了医疗领域 LLM 和 LLM 智能体的评估实践,并深入分析了当前面临的关键挑战与未来的发展机遇。核心结论包括:
- 多源数据的重要性: 评估数据应来源于多方,包括标准化的医学考试、丰富的医学文献,以及由专家和真实世界互动(如医疗论坛、社交媒体)共同策划的专业问题和多模态医学图像。这保证了评估的全面性和真实性。
- 任务场景的多样性: 评估需要覆盖
LLM在医疗实践中的多种任务场景,包括答案明确的封闭式任务、需要复杂语言生成的开放式任务(如摘要、信息提取、医学问答)、处理视觉信息的图像处理任务(如图像分类、报告生成、视觉问答),以及模拟真实临床工作流程的多任务LLM智能体场景。 - 综合评估方法的必要性: 评估应结合自动化指标(如准确率、精确率、召回率、F1-分数、
BLEU、ROUGE、可读性指数等)和人类专家评估。人工评估在医疗这种高风险领域尤为关键,能够捕捉自动化指标难以量化的质量、准确性和适用性,并处理幻觉、偏见和伦理问题。 - 扩展评估维度以适应智能体: 传统的评估维度(如准确性、完整性、安全性)仍是基础,但对于
LLM智能体,需要引入新的维度,例如工具使用能力、推理能力、工作流管理和自主评估能力,以反映其复杂性和多功能性。 - 跨学科合作是关键: 确保
LLMs在临床实践中安全、道德和有效部署,需要医疗专业人员和计算机科学家之间持续的研究和深入的跨学科合作。
7.2. 局限性与未来工作
论文在第7节“讨论”中明确指出了当前医疗 LLM 评估面临的挑战和未来的发展方向,这些构成了其自身的局限性分析和对未来工作的展望:
-
数据集构建的挑战与机遇:
- 高难度数据集缺乏: 尽管分类和报告生成数据集相对丰富,但高质量的医学问答 (
QA) 数据集,特别是高质量的视觉问答 (VQA) 数据集严重不足,其构建需要专业的医学图像、多样化的问题类型和答案。 - 全面性欠缺: 评估数据集应包含对实践应用(如临床推理、偏见测试、拒答安全性测试)的全面测试,而不仅仅是专业医学知识。
- 医疗专业人员负担: 数据集构建需要大量医疗专业人员的参与,但他们时间和精力有限。
- 未来方向: 探索人类与
LLM协作构建和持续优化评估数据集,以提高可扩展性并减轻人工负担。
- 高难度数据集缺乏: 尽管分类和报告生成数据集相对丰富,但高质量的医学问答 (
-
评估维度和标准的完善:
- 现有维度不足: 传统维度(准确性、完整性、安全性)虽关键,但医疗领域需要更精细地关注其他方面,如幻觉、同理心 (
Empathy) 和可解释性 (Interpretability)[126-128]。 - 幻觉分类: 需要更精确和分层的幻觉分类系统,考虑幻觉的类型和严重程度进行评分。
- 智能体评估框架: 随着
LLM智能体的出现,需要将传统LLM评估维度与智能体特有维度(如工具使用能力、临床推理)结合,构建针对特定任务的评估框架。
- 现有维度不足: 传统维度(准确性、完整性、安全性)虽关键,但医疗领域需要更精细地关注其他方面,如幻觉、同理心 (
-
评估指标的局限性与发展:
- 自动化指标的局限: 当前主要依赖传统分类指标和
NLP指标。 - 高级
LLM作为评估者的潜力: 一些研究尝试利用GPT-4等高级LLM进行自动化评估[11, 129],例如MedLLaMA提出的自动评估模型用于评估开放临床场景中的正确性、专业性和完整性[130]。 - 可靠性验证: 这些自动化评估方法的稳定性和鲁棒性仍需进一步验证。
- 人工评估不可或缺: 短期内无法完全摒弃人工评估,因为模型响应的“适当性”不仅限于“正确性”,还包括在不同情境下的适用性,以及辨别误导性或与真值相似但有偏差的响应。
- 未来方向: 进一步开发和验证自动化评估系统,以平衡理性评估和减轻人力资源压力,同时促进大规模评估。
- 自动化指标的局限: 当前主要依赖传统分类指标和
-
临床验证与实践应用:
-
当前阶段: 大多数研究仍处于临床前验证阶段。
-
真实世界临床试验需求: 需要设计更多与真实世界临床实践对齐的临床试验,将
LLM与现有实践(包括其他医疗系统、传统AI工具和不同级别的医疗专业人员)进行比较,以评估其在实际应用中的价值[131]。 -
合适的终点指标: 试验需要设定合适的终点指标,例如降低发病率、提高工作效率和患者/医生满意度。
-
评估者多样性: 评估框架应确保评估者选择的多样性和个性化,不仅包括医生,还应根据具体应用场景和功能,纳入患者、医学生和其他真实用户的视角。
-
用户反馈的价值: 通用
LLMs已通过分析服务日志和直接/间接评估用户满意度来收集用户反馈进行在线评估[132]。这种方法也应推广到医疗LLMs,以实现连续的性能监控。 以下是原文Figure 7的结果,它展示了医疗领域中大语言模型(LLMs)评估的主要挑战与未来发展方向。
该图像是一个图表,展示了医学领域中大语言模型(LLMs)评估的主要挑战与未来发展方向。左侧列举了挑战如单一测试数据集和缺乏患者参与,右侧展望了包括推理、安全测试集及自动评估流程等方向。
-
7.3. 个人启发与批判
7.3.1. 个人启发
这篇综述为我提供了评估 LLM 在医疗领域应用的全面而深刻的视角。它强调了医疗领域的特殊性,即其高风险性对 AI 精确性、安全性和伦理性的极致要求。这启发我,在任何专业领域部署 AI 系统时,都不能仅仅关注技术指标,而必须将该领域的特定需求和风险置于评估框架的核心。
特别是 LLM 智能体概念的引入,以及对其工具使用、推理和工作流管理能力的评估,预示着未来 AI 将不仅仅是信息提供者,更是任务执行者和决策辅助者。这种多模态、多步骤的交互模式,要求我们从系统层面而非单一模型层面去思考 AI 的能力和局限。
此外,论文强调的跨学科合作也极具启发性。医疗 AI 的发展绝非单一技术团队能完成,它需要医学专家对临床需求的深刻理解、伦理专家对风险的审慎考量、以及 AI 专家对技术边界的不断探索。只有这种深度融合,才能确保 AI 技术的安全和有效落地。
7.3.2. 批判
尽管这篇综述非常全面和有价值,但我认为仍有一些方面可以进一步探讨或批判:
- 评估幻觉的标准化方法仍是挑战: 论文多次提及幻觉问题在医疗领域的危险性,并指出目前缺乏标准化评估方法。虽然提出了一些量化尝试,但如何系统地、跨领域地定义、识别和量化医疗领域的幻觉,仍然是一个开放性问题。这不仅仅是技术挑战,更是概念定义和医学共识的挑战。未来的研究可能需要一个更细致的幻觉分类学(例如,事实性幻觉、逻辑性幻觉、伦理性幻觉),并设计针对性的检测机制。
- 伦理和法律责任的深入探讨不足: 尽管论文提到了伦理考量和安全性,但在
LLM智能体做出决策甚至执行任务时,一旦出现错误,其法律责任归属问题并未深入探讨。是LLM开发者、部署者、还是最终使用者承担责任?这在医疗这种人命关天的领域尤为重要。评估框架应如何纳入对法律和伦理风险的评估,以指导监管和政策制定,这是一个需要更深入研究的空白。 - 偏见评估的实践操作性: 论文提到了偏见评估的重要性,但实际操作中,如何有效地检测
LLM在医疗数据中可能存在的偏见(例如,对特定人群、疾病或治疗方案的隐性偏见),并量化其影响,仍然是一个复杂的问题。医疗数据本身可能就带有历史偏见,LLM可能会放大或再现这些偏见。评估方法需要更具鲁棒性,以识别和缓解这些复杂偏见。 - 成本效益分析的缺乏细节: 论文将成本效益列为一个评估维度,但在其讨论中并未给出具体的评估框架或案例。医疗系统对成本非常敏感,
LLM的部署、维护和持续更新可能涉及高昂的费用。如何在评估中系统地权衡LLM带来的效益(如效率提升、错误减少)与其成本,是一个实际但未被充分展开的议题。 - 自动化评估和人类评估的融合范式: 论文指出自动化评估的局限性,并强调人工评估的不可或缺。未来的方向是发展平衡两者优点的自动化评估系统。但如何构建一个既能利用
LLM自身能力进行初步评估,又能有效引导和结合人类专家最终判断的“人机协作评估”范式,是需要进一步探索的。这可能涉及设计智能化的辅助工具来帮助专家更快、更一致地进行评估,而不是简单地用LLM替代专家。
相似论文推荐
基于向量语义检索推荐的相关论文。