AiPaper
论文状态:已完成

Evaluating large language models and agents in healthcare: key challenges in clinical applications

发表:2025/04/02
原文链接
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文综述了医疗领域大语言模型(LLM)及智能体的评估方法,系统总结了数据来源,分析了封闭式、开放式、图像处理及多任务场景,并比较了自动化指标与专家评估,揭示了临床应用中面临的关键挑战,促进未来医学AI评价研究。

摘要

Intelligent Medicine 5 (2025) 151–163 Contents lists available at ScienceDirect Intelligent Medicine journal homepage: www.elsevier.com/locate/imed Review Evaluating large language models and agents in healthcare: key challenges in clinical applications Xiaolan Chen 1,# , Jiayang Xiang 2,# , Shanfu Lu 3,# , Yexin Liu 4 , Mingguang He 1,5,6, ∗ , Danli Shi 1,2, ∗ 1 School of Optometry, The Hong Kong Polytechnic University, Kowloon, Hong Kong, China 2 Department of Ophthalmology, Renji Hospital, School of Medicine, Shanghai Jiao Tong University, Shanghai 200127, China 3 Perception Vision Medical Technologies Co. Ltd., Guangzhou, Guangdong 510530, China 4 AI Thrust, The Hong Kong University of Science and Technology, Guangzhou, Guangdong 511453, China 5 Research Centre for SHARP Vision (RCSV), The Hong Kong Polytechnic University, Kowloon, Hong Kong, China 6 Centre for Eye and Vision Research (CEVR), 17W Hong Kong Science Park, Hong Kong, China a r t i c l e i n f o Keywords: Large language model Generative pre-trained transformer Evaluation Reasoning Hallucination Medical agent a b s t r a c t Large language models (LLMs) have emerged as transform

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Evaluating large language models and agents in healthcare: key challenges in clinical applications

1.2. 作者

  • Xiaolan Chen
  • Jiayang Xiang
  • Shanfu Lu (Perception Vision Medical Technologies Co. Lt., Guangzhou, Guangdong 510530, China)
  • Yexin Liu
  • Mingguang He (The Hong Kong Polytechnic University, Kowloon, Hong Kong, China; Research Centre for SHARP Vision (RCSV), The Hong Kong Polytechnic University, Kowloon, Hong Kong, China; Centre for Eye and Vision Research (CEVR), 17W Hong Kong Science Park, Hong Kong, China)
  • Danli Shi (The Hong Kong Polytechnic University, Kowloon, Hong Kong, China)

1.3. 发表期刊/会议

iMed (根据DOI推断),以 Review 形式发表。该期刊专注于医学领域,发表的审阅文章在该领域具有较高的参考价值和影响力。

1.4. 发表年份

2025年 (根据DOI和论文内容中“updated search was conducted on 25 February 2025”推断)

1.5. 摘要

大型语言模型 (Large Language Models, LLMs) 已成为医疗保健和医学领域具有巨大潜力的变革性工具。在临床环境中,它们有望用于从临床决策支持 (Clinical Decision Support) 到患者教育的各种任务。LLM 智能体 (LLM Agents) 的进步通过在复杂临床工作流程中实现多模态处理 (Multimodal Processing) 和多任务处理 (Multi-task Handling) 进一步拓宽了其效用。然而,由于医疗保健的高风险性质和医疗数据的复杂性,评估 LLM 在医学背景下的性能带来了独特的挑战。本文全面概述了当前医学领域中 LLMLLM 智能体的评估实践。我们主要贡献了三个方面: 首先,我们总结了评估中使用的数据源,包括现有医疗资源和人工设计的临床问题,为 LLM 在医疗环境中的评估提供了基础。 其次,我们分析了关键的医疗任务场景:封闭式任务 (Closed-ended Tasks)、开放式任务 (Open-ended Tasks)、图像处理任务 (Image Processing Tasks),以及涉及 LLM 智能体的真实世界多任务场景 (Real-world Multitask Scenarios),从而为不同医疗应用领域的进一步研究提供了指导。 第三,我们比较了评估方法和维度,涵盖了自动化指标 (Automated Metrics) 和人类专家评估 (Human Expert Assessments),同时讨论了传统准确性指标 (Traditional Accuracy Measures) 以及智能体特有的维度,如工具使用 (Tool Usage) 和推理能力 (Reasoning Capabilities)。 最后,我们指出了这个不断发展的领域中的主要挑战和机遇,强调需要医疗专业人员和计算机科学家之间持续的研究和跨学科合作,以确保 LLM 在临床实践中安全、道德和有效地部署。

1.6. 原文链接

/files/papers/69086f591ccaadf40a4344bf/paper.pdf (PDF文档,发布状态为已发表的期刊论文)

2. 整体概括

2.1. 研究背景与动机

大型语言模型 (LLMs) 近年来在各个领域取得了显著进展,尤其在自然语言理解 (Natural Language Understanding) 和内容生成 (Content Generation) 方面。研究人员已开始探索它们在医疗领域的潜力,从辅助临床决策 (Clinical Decision-making) 到增强患者教育和参与 (Patient Education and Engagement)。然而,通用的 LLMs 在医疗应用中存在局限性,特别是在医学图像解读 (Interpreting Medical Images) 或理解临床语境 (Grasping Clinical Context) 方面。为了克服这些限制,一些研究开发了专门针对医疗应用的 LLMs,显著提高了其处理各种医疗任务的能力。

此外,为了应对真实世界医疗需求的多模态 (Multimodal) 和多任务 (Multitask) 特性,最新的研究开发了由 LLMs 驱动的人工智能智能体系统 (Artificial Intelligence Agent Systems),即 LLM 智能体 (LLM Agents)。这些系统以 LLMs 作为“大脑”,整合各种专家 AI 模型作为工具,使其能够自主理解用户指令、做出决策并选择适当工具来执行复杂的医疗任务。

然而,对这些快速发展的医疗 LLMLLM 智能体进行评估,传统的基于单任务和单维度的人工智能评估方法已不足以满足需求。这主要体现在以下几个挑战:

  • 数据偏差 (Data Bias): 一些数据集来自特定领域或人群,可能无法代表真实世界的性能。

  • 评估广度与深度 (Breadth vs. Depth): 跨不同医疗应用的评估通常范围广但缺乏深度,未能区分 LLMs 在实际场景中的优缺点。

  • 评估维度不足 (Insufficient Evaluation Dimensions): 先前的评估方法主要关注准确性 (Accuracy),忽略了其他关键属性,如幻觉评估 (Hallucination Assessment)、逻辑推理 (Logical Reasoning) 和生成有害内容的可能性。

    因此,论文的动机在于指出,随着 LLMLLM 智能体的发展,建立标准化评估标准和基准 (Standardized Evaluation Criteria and Benchmarks) 变得至关重要,以确保它们在临床实践中的安全、道德和有效部署。

2.2. 核心贡献/主要发现

本文作为一篇综述,提供了医疗 LLMLLM 智能体评估领域的全面概述,并综合了现有研究的见解,解决了关键挑战和机遇。其核心贡献主要体现在三个方面:

  1. 数据源总结 (Summarized Data Sources): 论文归纳了评估中使用的主要数据源,包括现有的医疗资源(如医学考试、医学文献)和人工设计的临床问题(如从医疗论坛、社交媒体收集的问题,或由专家精心设计的问题),为医疗环境中 LLM 的评估奠定了基础。

  2. 任务场景分析 (Analyzed Key Medical Task Scenarios): 论文分析了四类关键的医疗任务场景:封闭式任务、开放式任务(包括摘要、信息提取和医学问答)、图像处理任务(包括图像分类、报告生成、视觉问答等),以及涉及 LLM 智能体的真实世界多任务场景。这为不同医疗应用领域的进一步研究提供了指导。

  3. 评估方法和维度比较 (Compared Evaluation Methods and Dimensions): 论文比较了自动评估指标和人类专家评估方法,并探讨了传统的准确性度量以及智能体特有的维度,例如工具使用和推理能力。这提供了一个全面的评估框架。

    此外,论文还识别了该领域中的主要挑战和机遇,强调了医疗专业人员和计算机科学家之间持续研究和跨学科合作的必要性,以确保 LLM 在临床实践中安全、道德和有效的部署。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文对 LLM 在医疗领域评估的讨论,需要对以下核心概念有基础的认识:

  • 大型语言模型 (Large Language Models, LLMs): 这是一类基于神经网络 (Neural Networks) 的人工智能模型,通过在海量文本数据上进行训练,学习语言的模式、语法、语义和上下文。它们能够执行多种自然语言处理 (Natural Language Processing, NLP) 任务,如文本生成 (Text Generation)、问答 (Question Answering)、翻译 (Translation) 和摘要 (Summarization)。GPT-3GPT-4LLaMA 等是著名的 LLM 例子。

  • LLM 智能体 (LLM Agents): LLM 智能体是利用 LLM 作为其“大脑”的 AI 系统。它们不仅能理解和生成语言,还能通过与环境交互、调用外部工具(如搜索引擎、计算器、其他 AI 模型)和执行多步推理来解决复杂任务。在医疗领域,这意味着智能体可以根据用户指令,规划并执行一系列操作,如查询医学数据库、分析医学图像、生成诊断报告等。

  • 多模态处理 (Multimodal Processing): 指系统能够处理和理解多种类型的数据模态 (Data Modalities),而不仅仅是文本。在医疗领域,这通常意味着能够同时处理文本信息(如病历、医学文献)和视觉信息(如医学图像 XX 射线、MRICT 扫描、眼底照片),甚至其他模态(如声音、生理信号),并从中提取和整合信息。

  • 临床决策支持 (Clinical Decision Support, CDS): 旨在通过提供基于证据的建议、警报和信息来辅助临床医生做出决策的系统。LLMs 在这方面可以帮助医生快速检索相关文献、评估治疗方案、预测疾病风险等。

  • 患者教育 (Patient Education): 向患者提供关于其疾病、治疗、预防和健康管理的信息,以帮助他们更好地理解和参与自己的健康护理。LLMs 可以生成易于理解的健康信息,回答患者问题,改善医患沟通。

  • 幻觉 (Hallucination): LLMs 在生成看似合理但事实上不准确、不真实或无意义的信息时,即产生“幻觉”。在医疗领域,这种现象尤其危险,因为它可能导致错误的诊断或治疗建议,对患者健康造成负面影响。

  • 推理能力 (Reasoning Capabilities):LLMsLLM 智能体在面对新问题时,能够根据已知知识和规则进行逻辑思考、分析和得出结论的能力。在医疗领域,这涉及从患者症状、检查结果和医学知识中推断出可能的诊断或最佳治疗方案。

3.2. 前人工作

本文作为一篇综述,主要梳理和引用了大量前人关于 LLM 在医疗领域应用和评估的工作。在 LLM 出现之前,传统的 AI 模型在特定医疗任务上已经有所应用,但通常是单模态、单任务的。

  • 通用 LLM 的局限性与改进: 论文指出,最初的通用 LLM 在医疗应用中存在局限性,例如难以准确解读医学图像或理解复杂的临床上下文。这促使研究人员开发专门针对医疗领域进行训练或微调的 LLMs。例如,Singhal et al. [4] 提出了 MultiMedQA 数据集用于评估其开发的医疗模型,这代表了早期将 LLM 知识编码到医疗领域的尝试。
  • 医疗 LLM 的发展: 多个研究致力于构建医疗领域的 LLM,以提升其专业能力。例如,Chen et al. [9, 10] 提出了 EyeGPTFFA-GPT,专门用于眼科领域,Zhang et al. [11] 提出了 HuatuoGPT 作为中文医疗 LLM,而 Tu et al. [12] 致力于构建通用生物医学 AI 模型。这些工作是提升 LLM 在医疗领域专业知识和任务表现的关键一步。
  • LLM 智能体概念的提出: 随着 LLM 能力的增强,结合外部工具和规划能力,LLM 智能体的概念应运而生,以应对医疗领域多模态、多任务的复杂工作流。LLM 智能体被设计为能够利用 LLM 作为核心决策者,并集成其他专业 AI 模型(如图像分析模型、知识检索工具)来执行更复杂的任务。

3.3. 技术演进

医疗领域 LLM 的应用和评估技术演进大致可以分为几个阶段:

  1. 早期探索阶段 (通用 LLM 性能测试): 最初,研究者尝试将通用 LLM(如 GPT 系列)直接应用于医疗任务,通过标准医学考试(如 USMLE)来测试其医学知识储备。结果显示通用 LLM 具备一定的医学常识,但仍有明显不足。
  2. 专业化 LLM 发展阶段 (垂直领域微调): 针对通用 LLM 在医疗专业性上的不足,研究者开始收集和构建大规模医疗文本数据集,对 LLM 进行预训练或微调,以提升其在特定医疗领域(如放射科、眼科)的专业知识和理解能力。
  3. 多模态 LLMLLM 智能体阶段 (复杂任务处理): 认识到医疗实践中不仅涉及文本,还包含大量图像、视频等信息,多模态 LLM 应运而生,它们能够整合和理解不同模态的数据。同时,为了模拟更复杂的临床工作流程,LLM 智能体被提出,它将 LLM 作为核心控制器,通过工具调用、规划和推理,实现多步骤、多功能的任务执行,例如病史采集、诊断推理、图像分析和报告生成。
  4. 标准化评估框架构建阶段 (本综述关注的重点): 随着 LLMLLM 智能体在医疗领域应用的日益深入,如何对其进行全面、可靠、安全、道德的评估成为了关键挑战。本综述正是在此背景下,系统梳理了当前的评估实践,并提出了构建标准化、多维度评估框架的必要性。

3.4. 差异化分析

本文与相关工作的核心区别和创新点在于其全面性和系统性。它不是提出一个新的 LLM 模型或评估方法,而是:

  • 专注于评估本身: 多数前人工作侧重于开发新的医疗 LLM 或展示其在特定任务上的应用潜力。本文则将焦点放在“如何评估”这些模型上,尤其是在医疗这种高风险、数据复杂的领域。
  • 覆盖 LLMLLM 智能体: 论文不仅涵盖了传统的 LLM,还特别关注了更为复杂和多功能的 LLM 智能体的评估。这是因为智能体引入了工具使用、多步推理等新维度,需要更全面的评估考量。
  • 系统化的评估框架分解: 论文将评估问题分解为数据源、任务场景、评估方法和评估维度四个核心组成部分,提供了一个结构化的视角来理解和分析当前的评估实践,并识别了其中的挑战和机遇。
  • 强调临床应用的特殊性: 论文多次强调医疗领域的“高风险性质”和“数据复杂性”,这使得通用的 LLM 评估方法不足以满足要求,需要针对临床应用的特点进行定制化评估。例如,对幻觉、偏见、伦理和安全性的关注。
  • 呼吁跨学科合作: 论文在总结部分强调了医疗专业人员和计算机科学家之间合作的重要性,这不仅是为了开发更强的模型,更是为了构建更可靠的评估体系,确保技术的安全落地。

4. 方法论

本文是一篇综述性研究 (Review Study),其“方法论”章节主要描述了如何系统性地收集、筛选和分析现有文献,从而构建对医疗领域 LLM 评估现状的全面概述。

4.1. 方法原理

本文旨在通过系统性文献回顾 (Systematic Review) 的方式,总结和分析当前医疗领域中 LLMLLM 智能体的评估实践。其核心思想是遵循预设的严格流程,确保文献检索的全面性、筛选的客观性以及最终分析的严谨性。这种方法论有助于识别该领域的主流趋势、关键挑战和未来研究方向。

4.2. 核心方法详解

论文遵循了 系统性综述和元分析的首选报告项目 (Preferred Reporting Items for Systematic Reviews and Meta-Analyses, PRISMA) 指南。具体步骤如下:

4.2.1. 文献检索策略

  • 数据库选择: 检索了三个主要的同行评审期刊文章和会议论文数据库:
    • PubMed
    • Google Scholar
    • Web of Science
  • 时间范围: 检索了在 2023年1月1日至2024年11月13日 期间发表的文献。
  • 关键词组合 (Keywords): 采用了以下关键词及其组合进行检索:
    • "Large Language Model"
    • "ChatGPT"
    • "AI Agent"
    • "LLM Agent"
    • "Medical"
    • "Medicine"
    • "Evaluation"
    • "Assess"
  • 更新检索: 为了最大限度地减少近期偏差 (Recency Bias) 并捕捉新兴研究,在 2025年2月25日 进行了更新检索,额外识别了5篇符合条件的同行评审文章和4篇相关的预印本 (Preprints)。

4.2.2. 文献筛选与纳入标准

  • 纳入标准 (Inclusion Criteria):
    • 研究必须在医疗领域应用了 LLMs
    • 研究必须对其性能进行了充分的评估 (adequate assessment)。
  • 排除标准 (Exclusion Criteria):
    • 研究与医疗应用不相关。
    • 研究表现出方法学局限性,特别是那些缺乏正式评估协议 (Formal Evaluation Protocols)、统计验证 (Statistical Validation) 或样本量小于20的研究。
  • 最终纳入数量: 经过筛选后,总共纳入了 256项研究 进行文献回顾。
  • 代表性选择: 论文从不同任务场景和评估方法中选择了代表性研究作为示例进行引用和讨论。

4.2.3. 文献分析与综合

在收集和筛选完文献后,研究团队对这些文献进行了系统性的分析,并从三个主要方面进行了综合,构成了本文的核心贡献:

  1. 数据来源总结: 分析了各类评估中使用的数据集。

  2. 任务场景分析: 归纳了 LLMs 在医疗领域应用的主要任务类型。

  3. 评估方法和维度比较: 对不同评估指标和评价维度进行了梳理和对比。

    通过上述严格的系统性综述方法,本文旨在提供一个全面、结构化的视角来理解医疗 LLM 评估的现状、挑战和未来发展方向。

5. 实验设置

对于一篇综述性论文而言,其“实验设置”并非指作者进行自身实验的设置,而是指其所回顾的文献中,LLM 在医疗领域的评估所涉及的数据源、评估指标以及对比基线。本章节将根据原文内容,详细拆解这些评估要素。

5.1. 数据集

在医疗领域评估 LLM 时,构建合适的测试集是一个重大挑战,因为医疗数据具有复杂性和多样性。论文将当前用于评估的数据集大致分为两大类:

5.1.1. 现有医疗资源

这些资源通常是标准化的、经过验证的,并且包含了丰富的专业知识。

  • 医学考试 (Medical Examinations):
    • 特点: 设计用于评估医疗专业人员的能力,具有丰富的专业知识和标准化答案,提供了大量的已验证材料。
    • 示例:
      • 通用医学考试: 美国执业医师资格考试 (United States Medical Licensing Examination, USMLE) [13, 17]中国国家执业医师资格考试 [18]中国国家执业药师资格考试中国国家护士执业资格考试 [19]中国临床医学硕士研究生入学考试 [20]
      • 医学专科考试: 眼科知识评估项目考试 (Ophthalmic Knowledge Assessment Program examination) [21]基础科学和临床科学自我评估项目 (Basic Science and Clinical Science Self-Assessment Program) [22]美国神经外科委员会 (American Board of Neurological Surgery, ABNS) 口笔试 [23]耳鼻咽喉头颈外科认证考试 (Otolaryngology-Head and Neck Surgery Certification Examinations) [24]英国皇家全科医师学院应用知识测试 (Royal College of General Practitioners Applied Knowledge Test) [25]欧洲放射学委员会考试 (European Board of Radiology exam) [26]
  • 医学文献 (Medical Literature):
    • 特点: 包括同行评审期刊文章和会议论文 [27-29]。这些数据库提供了前沿的医学见解和研究发现,有助于评估 LLM 更新医学知识的能力。

5.1.2. 人工策划问题 (Manually Curated Questions)

由于考试和学术材料可能无法完全反映真实世界互动所需的动态能力,一些研究转向使用真实世界数据或专家精心策划的问题。

  • 真实世界互动数据:
    • MultiMedQA: Singhal et al. [4] 提出的评估数据集,用于评估其开发的模型。
    • 医疗论坛和社交媒体: 收集自这些平台上的真实世界互动和讨论 [30-32],用于评估 LLM 的对话和咨询技能。
  • 医学图像 (Medical Images):
    • 特点: 包括 XX 射线、MRICT(放射学 [33]),以及眼底照片、眼底荧光血管造影 (FFA)、光学相干断层扫描 (OCT) 图像(眼科学 [34])。这些图像数据通常附带专家医疗报告,是构建多模态数据集的关键资源,用于测试 LLM 处理复杂视觉和文本信息的能力。
  • 专家精心制作的问题 (Expert-crafted Questions):
    • 特点: 由医疗专业人员基于临床专业知识精心制定 [35-37]。尽管数量有限,但它们提供了高度专业化和实用的见解。

    • 示例: Marshall et al. [38] 构建了围绕葡萄膜炎 (Uveitis) 症状、检查和治疗的数据集;Zakka et al. [39] 与8名委员会认证的临床医生和2名医疗从业者合作,生成了涵盖9个医学专业的314个临床问题。

    • 优势: 确保了问题未包含在训练数据中,保证了评估的公正性。 以下是原文 Figure 2 的结果,它展示了医疗领域中 LLM 评估的桑基图,展示了数据来源、任务场景与多种评估指标之间的流向关系。

      该图像是关于医疗领域大语言模型评估流程的桑基图,展示了数据来源、任务场景与多种评估指标之间的流向关系,体现了闭环任务、开放任务、图像处理及真实场景中评估维度的交互。 该图像是关于医疗领域大语言模型评估流程的桑基图,展示了数据来源、任务场景与多种评估指标之间的流向关系,体现了闭环任务、开放任务、图像处理及真实场景中评估维度的交互。

5.2. 评估指标

评估医疗领域的 LLM 需要综合考虑模型性能及其对患者健康的潜在影响。评估方法包括自动化评估和人工评估,这些方法根据具体任务可以优先考虑不同的维度。

5.2.1. 自动评估 (Automatic Evaluation)

自动评估通过自动化算法客观地评估 LLM 的性能。

5.2.1.1. 分类任务指标

用于量化模型预测性能。

  • 准确率 (Accuracy):
    • 概念定义: 衡量模型正确预测的样本数量占总样本数量的比例。在分类任务中,它表示所有正确预测(包括真阳性 TP 和真阴性 TN)与总样本数之比。
    • 数学公式: Accuracy=TP+TNTP+TN+FP+FN \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
    • 符号解释:
      • TP (True Positives): 真阳性,实际为阳性且被模型预测为阳性的样本数。
      • TN (True Negatives): 真阴性,实际为阴性且被模型预测为阴性的样本数。
      • FP (False Positives): 假阳性,实际为阴性但被模型预测为阳性的样本数(第一类错误)。
      • FN (False Negatives): 假阴性,实际为阳性但被模型预测为阴性的样本数(第二类错误)。
  • 特异度 (Specificity):
    • 概念定义: 衡量模型正确识别出所有实际为阴性样本的能力,即在所有实际阴性样本中,有多少被正确地预测为阴性。
    • 数学公式: Specificity=TNTN+FP \text{Specificity} = \frac{TN}{TN + FP}
    • 符号解释:
      • TN: 真阴性。
      • FP: 假阳性。
  • 精确率 (Precision):
    • 概念定义: 衡量模型预测为阳性的样本中,有多少是真正的阳性。它关注的是预测结果的纯度。
    • 数学公式: Precision=TPTP+FP \text{Precision} = \frac{TP}{TP + FP}
    • 符号解释:
      • TP: 真阳性。
      • FP: 假阳性。
  • 召回率/灵敏度 (Recall / Sensitivity):
    • 概念定义: 衡量模型正确识别出所有实际为阳性样本的能力,即在所有实际阳性样本中,有多少被正确地预测为阳性。它关注的是对正例的覆盖率。
    • 数学公式: Recall=Sensitivity=TPTP+FN \text{Recall} = \text{Sensitivity} = \frac{TP}{TP + FN}
    • 符号解释:
      • TP: 真阳性。
      • FN: 假阴性。
  • F1-分数 (F1-score):
    • 概念定义: 精确率和召回率的调和平均值。当精确率和召回率都很重要时,F1-分数是一个很好的综合指标。
    • 数学公式: F1-score=2×Precision×RecallPrecision+Recall F1\text{-score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
    • 符号解释:
      • Precision\text{Precision}: 精确率。
      • Recall\text{Recall}: 召回率。

5.2.1.2. 长文本生成任务指标

用于评估生成文本的质量。

  • BLEU (Bilingual Evaluation Understudy):
    • 概念定义: 一种用于评估机器翻译文本质量的指标,通过计算机器翻译结果与参考翻译之间 n-gram 重叠的程度来衡量。重叠越多,得分越高。
    • 数学公式: BLEU=BPexp(n=1Nwnlogpn) \text{BLEU} = \text{BP} \cdot \exp\left(\sum_{n=1}^{N} w_n \log p_n\right) 其中,BP\text{BP} 是简短惩罚因子 (Brevity Penalty),用于惩罚生成文本过短的情况。 BP={1if c>re(1r/c)if cr \text{BP} = \begin{cases} 1 & \text{if } c > r \\ e^{(1-r/c)} & \text{if } c \le r \end{cases} pnp_nn-gram 精确率 (precision),cc 是候选文本长度,rr 是参考文本长度。
    • 符号解释:
      • BP\text{BP}: 简短惩罚因子。
      • NN: 考虑的最大 n-gram 长度 (通常取4)。
      • wnw_n: 对应 n-gram 精确率的权重 (通常取 1/N1/N)。
      • pnp_n: n-gram 精确率,表示候选文本中与参考文本匹配的 n-gram 数量占候选文本中所有 n-gram 数量的比例。
      • cc: 候选文本(即生成文本)的词数。
      • rr: 参考文本(即真实标注)的词数。
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation):
    • 概念定义: 一组用于评估文本摘要和机器翻译的指标,主要通过计算生成文本和参考文本之间 n-gram、词序列或最长公共子序列的召回率来衡量。
    • 数学公式 (以 ROUGE-N 为例): ROUGE-N=S{Reference Summaries}gramnSCountmatch(gramn)S{Reference Summaries}gramnSCount(gramn) \text{ROUGE-N} = \frac{\sum_{S \in \{\text{Reference Summaries}\}} \sum_{\text{gram}_n \in S} \text{Count}_{\text{match}}(\text{gram}_n)}{\sum_{S \in \{\text{Reference Summaries}\}} \sum_{\text{gram}_n \in S} \text{Count}(\text{gram}_n)}
    • 符号解释:
      • gramn\text{gram}_n: n-gram 序列。
      • Countmatch(gramn)\text{Count}_{\text{match}}(\text{gram}_n): 候选摘要和参考摘要中匹配的 n-gram 的最大数量。
      • Count(gramn)\text{Count}(\text{gram}_n): 参考摘要中 n-gram 的数量。
      • ROUGE-L: 基于最长公共子序列 (Longest Common Subsequence, LCS) 的召回率。
      • ROUGE-S: 基于跳跃 n-gram (Skip-bigram) 的召回率。
  • CIDEr (Consensus-based Image Description Evaluation):
    • 概念定义: 主要用于评估图像描述的质量,通过计算 n-gram 的余弦相似度 (Cosine Similarity),并对更常见和更具描述性的 n-gram 给予更高权重来衡量。
    • 数学公式: CIDErn(c,S)=1SsSwW(min(cw(w),sw(w))sw(w))1W×IDFn(w) \text{CIDEr}_n(c, S) = \frac{1}{|S|} \sum_{s \in S} \prod_{w \in W} \left( \frac{\min(c_w(w), s_w(w))}{s_w(w)} \right)^{\frac{1}{|W|}} \times \text{IDF}_n(w) 更常见的公式基于 TF-IDF 向量的余弦相似度: CIDEr(c,S)=n=1Nwngn(c)gn(S)gn(c)gn(S) \text{CIDEr}(c, S) = \sum_{n=1}^{N} w_n \cdot \frac{\mathbf{g}^n(c) \cdot \mathbf{g}^n(S)}{\|\mathbf{g}^n(c)\| \cdot \|\mathbf{g}^n(S)\|}
    • 符号解释 (简化版):
      • cc: 候选描述的 n-gram 向量。
      • SS: 一组参考描述的 n-gram 向量。
      • gn(c)\mathbf{g}^n(c): 候选描述中 n-gramTF-IDF 向量。
      • gn(S)\mathbf{g}^n(S): 参考描述的 TF-IDF 向量。
      • wnw_n: 权重,通常是 1/N1/N
      • NN: 最大 n-gram 长度。
      • \cdot: 向量点积。
      • \| \cdot \|: 向量的欧几里得范数 (Euclidean Norm)。
  • METEOR (Metric for Evaluation of Translation with Explicit Ordering):
    • 概念定义: 一种机器翻译评估指标,基于单词对齐 (Word Alignment) 来计算生成文本和参考文本之间的相似度,考虑了同义词、词形变化和词序。
    • 数学公式: METEOR=(1Penalty)Fmean \text{METEOR} = (1 - \text{Penalty}) \cdot F_{\text{mean}} 其中,FmeanF_{\text{mean}} 是精确率和召回率的调和平均值,Penalty\text{Penalty} 惩罚不连续的匹配。 Fmean=10×P×RP+9×R F_{\text{mean}} = \frac{10 \times P \times R}{P + 9 \times R}
    • 符号解释:
      • Penalty\text{Penalty}: 根据分块数量计算的惩罚项。
      • FmeanF_{\text{mean}}: 基于精确率 PP 和召回率 RR 的加权调和平均值。
      • PP: 精确率,匹配的单语块数量除以生成文本的单词总数。
      • RR: 召回率,匹配的单语块数量除以参考文本的单词总数。
  • BERTScore:
    • 概念定义: 一种基于预训练 BERT 模型计算文本相似度的指标。它通过计算生成文本和参考文本中每个词的上下文嵌入 (Contextual Embeddings) 之间的余弦相似度,然后进行软对齐 (Soft Alignment)。它比传统的 n-gram 指标更能捕捉语义相似性。
    • 数学公式: BERTScore 没有一个简单的封闭形式数学公式,因为它依赖于 BERT 模型计算的词嵌入。其核心思想是: \text{Score} = \sum_{x_i \in \text{Candidate}} \max_{y_j \in \text{Reference}} \text{cos}(\mathbf{e}_x_i, \mathbf{e}_y_j) 然后对参考文本中的词进行类似计算,并结合起来。
    • 符号解释:
      • Candidate\text{Candidate}: 生成文本。
      • Reference\text{Reference}: 参考文本。
      • \mathbf{e}_x_i: 生成文本中词 xix_iBERT 上下文嵌入向量。
      • \mathbf{e}_y_j: 参考文本中词 yjy_jBERT 上下文嵌入向量。
      • cos(,)\text{cos}(\cdot, \cdot): 余弦相似度函数。
  • MoverScore:
    • 概念定义: 另一种基于词嵌入的评估指标,它使用 Wasserstein 距离 (Wasserstein Distance) 或 Earth Mover's Distance 来衡量两个文本(生成文本和参考文本)的语义距离。它将文本视为词嵌入的“堆”,并计算将一个堆转换为另一个堆所需的最小“工作量”。
    • 数学公式: MoverScore 同样没有简单的封闭公式,它基于 Earth Mover's Distance (EMD),而 EMD 是一个线性规划问题。 MoverScore(S1,S2)=minγ0i=1mj=1nγijc(w1i,w2j) \text{MoverScore}(S_1, S_2) = \min_{\gamma \ge 0} \sum_{i=1}^{m} \sum_{j=1}^{n} \gamma_{ij} \cdot c(w_{1i}, w_{2j}) 其中,γij\gamma_{ij} 表示从 S1S_1 中的词 w1iw_{1i}S2S_2 中的词 w2jw_{2j} 的“流量”,c(w1i,w2j)c(w_{1i}, w_{2j}) 是两个词嵌入之间的距离(例如,余弦距离)。
    • 符号解释:
      • S1,S2S_1, S_2: 两个待比较的文本。
      • w1i,w2jw_{1i}, w_{2j}: 文本 S1,S2S_1, S_2 中的词。
      • c(w1i,w2j)c(w_{1i}, w_{2j}): 词 w1iw_{1i}w2jw_{2j} 之间距离(通常通过词嵌入计算)。
      • γij\gamma_{ij}: 传输计划,即从 w1iw_{1i}w2jw_{2j} 的“质量”份额。
  • QAEval 和 QAFactEval:
    • 概念定义: 这些是专门用于问答 (Question Answering, QA) 任务的评估工具或框架 [46]。它们通常通过生成关于生成文本的额外问题,然后评估这些问题答案的正确性来间接评估生成文本的事实一致性 (Factual Consistency)。
    • 数学公式/符号解释: 它们不是单一的数学公式,而是评估流程或工具集,其内部可能使用上述的 NLP 指标来评估答案的质量。

5.2.1.3. 可读性指标 (Readability Metrics)

用于评估文本的易读性。

  • Flesch Reading Ease Score (Flesch可读性指数):
    • 概念定义: 一个衡量英文文本可读性的指标。得分越高,文本越容易理解。
    • 数学公式: FRES=206.8351.015×(total wordstotal sentences)84.6×(total syllablestotal words) \text{FRES} = 206.835 - 1.015 \times \left(\frac{\text{total words}}{\text{total sentences}}\right) - 84.6 \times \left(\frac{\text{total syllables}}{\text{total words}}\right)
    • 符号解释:
      • total words\text{total words}: 文本中的总词数。
      • total sentences\text{total sentences}: 文本中的总句子数。
      • total syllables\text{total syllables}: 文本中的总音节数。
  • Flesch-Kincaid Grade Level (Flesch-Kincaid年级水平):
    • 概念定义: 估计阅读文本所需的美国学年水平。得分越低,文本越容易理解。
    • 数学公式: FKGL=0.39×(total wordstotal sentences)+11.8×(total syllablestotal words)15.59 \text{FKGL} = 0.39 \times \left(\frac{\text{total words}}{\text{total sentences}}\right) + 11.8 \times \left(\frac{\text{total syllables}}{\text{total words}}\right) - 15.59
    • 符号解释: 同Flesch Reading Ease Score。
  • Gunning Fog Index (Gunning迷雾指数):
    • 概念定义: 衡量英文文本可读性的指标,通常用于评估文本是否适合普通读者。得分越高,文本越难理解。
    • 数学公式: GFI=0.4×[(total wordstotal sentences)+100×(complex wordstotal words)] \text{GFI} = 0.4 \times \left[ \left(\frac{\text{total words}}{\text{total sentences}}\right) + 100 \times \left(\frac{\text{complex words}}{\text{total words}}\right) \right]
    • 符号解释:
      • total words\text{total words}: 文本中的总词数。
      • total sentences\text{total sentences}: 文本中的总句子数。
      • complex words\text{complex words}: 包含三个或更多音节的词数(不包括专有名词、复合词和三音节或更多音节的动词后缀)。
  • Coleman-Liau Index (Coleman-Liau指数):
    • 概念定义: 衡量英文文本可读性的指标,与Flesch-Kincaid类似,它也估计阅读文本所需的美国学年水平,但它基于字符而非音节计数。
    • 数学公式: CLI=0.0588×L0.296×S15.8 \text{CLI} = 0.0588 \times L - 0.296 \times S - 15.8 其中,LL 是每100个单词的字母数,SS 是每100个单词的句子数。
    • 符号解释:
      • LL: 每100个单词的平均字母数 (total characterstotal words×100\frac{\text{total characters}}{\text{total words}} \times 100)。
      • SS: 每100个单词的平均句子数 (total sentencestotal words×100\frac{\text{total sentences}}{\text{total words}} \times 100)。
  • Simple Measure of Gobbledygook (SMOG) (SMOG可读性指数):
    • 概念定义: 另一种评估英文文本可读性的指标,通常用于健康信息领域,以确保患者能够理解。它计算多音节词的数量。
    • 数学公式: SMOG=1.043×polysyllable word count×30sentence count+3.1291 \text{SMOG} = 1.043 \times \sqrt{\text{polysyllable word count} \times \frac{30}{\text{sentence count}}} + 3.1291
    • 符号解释:
      • polysyllable word count\text{polysyllable word count}: 文本中三个或更多音节的词数。
      • sentence count\text{sentence count}: 文本中的句子数。

5.2.2. 人工评估 (Human Evaluation)

自动化评估方法无法涵盖所有基本方面,特别是在医疗等敏感领域,这需要高级知识和伦理判断,因此人工评估至关重要。

  • 定性方法 (Qualitative Methods):
    • 案例研究 (Case Studies) [112]: 允许人工评估者仔细比较 LLM 生成的内容与真值 (Ground Truth),从而揭示自动化评估方法无法识别的细微差异。
  • 评分协议 (Scoring Protocols):
    • DISCERN 量表 [113]: 用于评估消费者健康信息质量的工具。
    • JAMA 基准标准 (JAMA benchmark criteria) [114]: 由美国医学会杂志 (JAMA) 提出的评估医疗信息质量的标准。
    • 全球质量量表 (Global Quality scale) [115]: 一个通用的质量评估量表。
    • 错误分类: 识别并统计分析预定义错误类型(如事实错误、逻辑错误)的发生概率 [12, 109]
  • 自定义评分规则或 Likert 量表 (Custom Grading Rules or Likert-style Rules):
    • Likert 量表 [116]: 广泛用于社会科学和心理学研究,评估人们对特定观点的看法或态度。在医学领域,可以将每个评估维度转化为一系列陈述,并提供相应的选项来调查受访者对模型性能各维度的认同程度。
    • 示例: Samaan et al. [31] 招募了委员会认证的减重外科医生,使用4点量表评估 ChatGPT 的准确性和全面性(1分代表全面,2分代表正确但不足,3分代表部分正确部分错误,4分代表完全错误)。Chen et al. [91] 使用5点Likert量表(从1分“强烈不同意”到5分“强烈同意”)评估模型生成报告的完整性和正确性。
  • 评估者组成 (Evaluator Composition):
    • 专业医生: 大多数研究的评估由专业医生进行 [53,117119][53, 117-119]
    • 非专业人士: 考虑到以患者为中心的 LLM 发展方向,一些研究也纳入了非专业人士(如患者和公众)参与评估 LLMs [32, 35]。例如,Singhal et al. [4] 雇佣了5名非医学背景的印度评估者来分析 LLM 对长篇问题的回答的有用性和实用性。这种方法有助于捕捉仅依赖专家视角可能忽视的细节。

5.3. 对比基线

作为一篇综述论文,本文本身不进行实验,因此没有“对比基线”的概念。然而,在论文回顾的各项研究中,LLMs 的性能通常会与以下基线进行比较:

  • 人类水平性能 (Human-level Performance): 这是最常见的基线,特别是在医学考试、问答和临床决策支持等任务中,LLM 的表现会与医生、专家或患者的表现进行比较 [16, 40]
  • 传统 AI 模型 (Traditional AI Models): 在图像分类、报告生成等任务中,LLM 有时会与传统的深度学习模型(如卷积神经网络 CNN)进行比较 [86]
  • 其他 LLM 版本或模型: 不同的 LLM(如 GPT-3.5 vs. GPT-4)之间会进行性能比较 [20, 41]
  • LLM 的基线 (No-LLM Baselines): 在某些信息提取任务中,LLM 的性能可能与没有使用 LLM 的传统 NLP 方法进行比较。

6. 实验结果与分析

本节将根据原文内容,对医疗领域 LLM 评估的任务场景评估维度及其核心发现进行分析。由于本文是一篇综述,其“实验结果”并非指作者自身进行的实验数据,而是对现有文献中评估实践的总结和洞察。

6.1. 核心结果分析

论文从数据源、任务场景和评估维度三个主要方面,系统地总结了 LLM 在医疗领域的评估实践。

6.1.1. 数据源

  • 概述: 评估数据源主要分为现有医疗资源人工策划问题两类。
  • 现有医疗资源:
    • 医学考试: 广泛用于评估 LLM 的医学知识。例如,USMLE、中国国家医学执业考试、以及各种专科考试 (Ophthalmic Knowledge Assessment ProgramABNS 等)。GPT-4 在许多考试中表现出色,甚至超过了及格线,但仍存在偏见(例如,ChatGPT-3.5 在人文科目中准确率高达 93.75%,但在病理学中仅为 37.5%)和对特定专业知识的不足 [20, 41]
    • 医学文献: 用于评估 LLM 更新和整合前沿医学知识的能力。
  • 人工策划问题:
    • 真实世界数据: MultiMedQA、医疗论坛和社交媒体上的互动数据,用于评估 LLM 的对话和咨询技能。
    • 医学图像: 用于构建多模态数据集,评估 LLM 处理复杂视觉和文本信息的能力。
    • 专家制作问题: 弥补标准化数据无法反映的动态临床场景,提供高度专业化和实用的见解,并确保评估数据的独立性。
  • 挑战: 数据集的复杂性和多样性、稀缺学科的数据收集困难、伦理考虑和数据隐私问题。

6.1.2. 任务场景

论文分析了 LLM 在医疗领域中的四种主要任务场景:

6.1.2.1. 封闭式任务 (Closed-ended Tasks)

  • 特点: 通常是选择题 (MCQ),答案明确,易于量化评估,适合大规模模型比较。

  • 应用: 主要用于评估 LLM 的医学知识广度。

  • 发现:

    • MultiMedEval 等工具被开发用于全面评估 MCQ 任务。
    • GPT-4 在某些中文医学考试数据集 (CMedExam) 上的准确率 (61.6%) 仍低于人类水平 (71.6%) [40]
    • ChatGPT-3.5GPT-4 在某些专科考试(如胃肠病学自我评估)中未能达到及格线 [41]
    • ChatGPT 在放射学板式考试中正确回答了 69% 的问题,通过了考试 [42]
    • 模型可能存在偏见,例如对答案位置的敏感性 [44]
  • 局限性: 侧重程序性知识,缺乏对复杂情况的深入评估,无法反映真实世界场景中的性能。 以下是原文 Figure 3 的结果,它展示了封闭式任务和开放式任务的具体示例。

    Figure 3. Examples of closed-ended tasks and various open-ended tasks. 该图像是论文中展示的示意图,展示了封闭式任务和开放式任务的具体示例,包含闭合选择题和开放式的文本摘要、信息抽取以及医学问答任务。

6.1.2.2. 开放式任务 (Open-ended Tasks)

  • 特点: 需要 LLM 生成多样化答案,对自然语言处理 (NLP) 能力要求更高,评估维度更复杂。
  • 主要类型:
    • 摘要 (Summarization):
      • 医学文献摘要: LLMs 可用于总结医学研究证据。Tang et al. [29] 发现 LLMs 在生成摘要时可能产生不正确信息。Hake et al. [47] 评估了 ChatGPT 总结临床研究摘要的能力,发现其在质量、准确性、偏见和相关性方面表现可接受。
      • 电子健康记录 (EHR) 摘要: LLMs 有望减轻医生文档负担。研究显示 ChatGPT 在生成神经外科出院总结和手术报告时显著减少了时间,并保持了高程度的事实正确性 [51]Zaretsky et al. [52] 评估了 LLM 将出院总结转换为患者友好语言的能力,发现其具有潜力,尽管仍有不完美之处。
      • 放射学报告摘要: LLMs 可将复杂的放射学报告总结为通俗易懂的语言,Lyu et al. [53]Chung et al. [54] 均证实了其可行性。Van et al. [55] 甚至发现 LLM 在多任务临床文本摘要中表现优于医学专家。
    • 信息提取 (Information Extraction):
      • 命名实体识别 (Named Entity Recognition, NER): LLMs 能够从文本中识别基因、蛋白质、疾病等命名实体。例如,Gu et al. [58] 训练的 LLM 在从 EHR 中提取卒中严重程度信息时达到了 0.990F1 分数。Guevara et al. [59] 使用 LLM 从临床笔记中提取社会健康决定因素 (Social Determinants of Health, SDoH)。
      • 关系提取 (Relation Extraction): 从文本中提取实体之间的关系(如药物-药物相互作用、基因-疾病关联)。Cinquin et al. [61] 开发的 ChIP-GPT 模型在从生物医学数据库记录中提取数据时,准确率达到 90%-94%
    • 医学问答 (Medical Question Answering, QA):
      • 问题来源: 作者设计的问题 [62-64]、专业学会和机构的问题 [65, 66]、社交媒体 [67, 68],以及真实的或模拟的临床病例 [69-71]
      • 可靠性关注: 主要关注 LLM 回答的可靠性,因其可能影响医疗决策。
      • 专科应用: 在眼科等专科领域,ChatGPT 在回答泪道疾病 [72] 和常见视网膜疾病 [73] 问题时表现出中等至较高的准确性,但在处理治疗选项问题时表现较差 [73, 74]
      • 评估维度: 除了准确性 (Accuracy) / 正确性 (Correctness),还包括完整性 (Completeness) [31,64,65,67,68,7680][31, 64, 65, 67, 68, 76-80]、可读性 (Readability) [64,76,77,8183][64, 76, 77, 81-83]
      • 新兴维度: 安全性 (Safety) [84, 85] 和人文关怀 (Humanistic Care) / 情感支持 (Emotional Support) [64, 68] 也在被探索。例如,Cadamuro et al. [84] 评估了回答的安全性,Menz et al. [85] 发现 LLM 的安全防护在防止健康虚假信息生成方面存在不一致。Yeo et al. [68]Zhu et al. [64] 发现 ChatGPT 在回答癌症患者问题时表现出同情心。

6.1.2.3. 图像处理任务 (Image Processing Tasks)

  • 特点: 结合图像和文本信息,用于疾病诊断和报告生成。
  • 主要类型:
    • 图像分类 (Image Classification):
      • 应用: 识别医学图像内容和疾病模式。
      • 发现: LLMsMIMIC-CXRPad-UFES20 等数据集上表现良好,但在识别细粒度视觉概念方面仍需改进 [16]。视觉-语言模型 (VLM) 在零样本 (Zero-shot) 和少样本 (Few-shot) 场景下表现出潜力 [86]Med-UniC 框架在多个数据集上表现出色,并能处理跨语言评估,减少社区偏见 [87]
    • 报告生成 (Report Generation):
      • 应用: 根据医学图像自动生成诊断报告。
      • 发现: GPT-4V 可以生成描述性报告,但在生成特定医学术语的准确性方面仍有提升空间 [88]R2GenGPTLLM-CXR 模型在放射学报告生成中显示出潜力 [89, 90]ICGA-GPT 模型在眼科报告生成中通过自动化和人工评估均获得满意分数,准确性和完整性高 [91]
    • 视觉问答 (Visual Question Answering, VQA):
      • 特点: 结合医学图像和相关问题,要求 LLM 理解图像和问题上下文,并生成符合临床事实和逻辑的答案。对跨模态理解、语言表达和医学知识推理要求高。
      • 数据集: VQA-Med 系列、VQA-RADPathVQA 等数据集涵盖放射学和病理学 [92]
      • 发现: GPT-4V 在区分问题类型方面表现出色,但在准确性方面未达到现有基准,对医学图像信息利用不足 [93]。在眼科图像 VQA 任务中,ChatGPT-4 在识别检查类型方面准确率为 70%,但在病变识别方面仅为 65% [15]GPT-4V 在眼科检查类型识别方面达到 95.6%,但病变识别准确率仅为 25.6% [7]
      • 幻觉问题: OmniMedVQA 基准测试发现,高性能模型在需要详细观察和专业知识的问题上常产生听起来合理但不正确的幻觉回答 [94]MedVH 框架 [95] 和专门基准数据集 [96] 用于评估幻觉,发现模型在处理否定性问题和多步推理任务时尤其容易产生幻觉。
      • 推理能力: Beler et al. [26] 评估了 GPT-4o 在放射学考试中的表现,突出了 LLMs 在零样本场景下辅助放射科医生评估和管理病例的潜力。
    • 其他:
      • 医学图像分割 (Medical Image Segmentation): LLMs 可以通过解释医疗报告或提示来指导图像分割算法,提高准确性和效率。LLMSeg 模型在放射治疗中的靶区勾画 (Target Delineation) 任务中显著优于纯图像 AI 模型 [97]

      • 跨模态检索 (Cross-modal Retrieval): LLMs 可作为桥梁,将自然语言指令转化为图像处理模型可执行的信号。GPT-CMR 在中文医疗教学视频问答数据集上表现显著优于基线 [98]。 以下是原文 Figure 4 的结果,它展示了医学大模型在图像分类(图A、B)、影像报告生成(图C)、视觉问答(图D)及图像分割(图E)任务中的应用示例和对应文本提示。

        该图像是一幅多模块示意图,展示了医学大模型在图像分类(图A、B)、影像报告生成(图C)、视觉问答(图D)及图像分割(图E)任务中的应用示例和对应文本提示。 该图像是一幅多模块示意图,展示了医学大模型在图像分类(图A、B)、影像报告生成(图C)、视觉问答(图D)及图像分割(图E)任务中的应用示例和对应文本提示。

6.1.2.4. 真实世界多任务场景涉及 LLM 智能体 (Real-world Multitask Scenarios Involving LLM Agents)

  • 特点: 临床工作流需要多个相互依赖子任务的无缝集成(如诊断推理、图像病灶分割、报告生成、多模态问答)。传统的 LLM 应用可能不足,而 LLM 智能体更适合。

  • 智能体架构分级:

    • 一级智能体 (Level 1): 生成器智能体 (Generator Agent),通过检索增强生成 (Retrieval-Augmented Generation, RAG) 实现精确响应。
    • 二级智能体 (Level 2): 集成专家模型工具包,通过工具调用扩展系统功能。
    • 三级智能体 (Level 3): 规划智能体 (Planning Agent),能够使用工具,并运用推理和规划能力根据用户查询构建多步工作流,并根据结果调整执行。
    • 四级智能体 (Level 4): 高度自主,整合工具调用、推理框架和工作流规划能力。
  • 评估框架需求: 鉴于 LLM 智能体的多步、多功能性质,需要专门的评估框架。

    • AgentBench [104]: 首个跨领域基准,评估 LLM 智能体在8个模拟环境中的表现,揭示了开放式决策中的显著性能差距。
    • RadABench [105]: 放射学专用智能体的评估基准,模拟工具丰富的放射学工作流,涵盖解剖结构、成像模态、工具类别和放射学任务。
    • 模拟真实临床工作流: Tu et al. [106] 创新性地以远程客观结构化临床考试 (Objective Structured Clinical Examination, OSCE) 的方式评估 LLM 性能。Johri et al. [107] 提出了 CRAFT-MD 评估框架,强调真实的医患互动、全面的病史采集和开放式提问,结合自动化和专家评估。
  • 未来展望: 需要进一步细化多维度评估,并进行随机对照试验 (RCTs) 来比较 LLM 是否真正辅助患者和临床实践。 以下是原文 Figure 5 的结果,它展示基于医疗大语言模型(LLM)的智能体与患者之间的多轮对话与任务调用流程。

    该图像是一个示意图,展示基于医疗大语言模型(LLM)的智能体与患者之间的多轮对话与任务调用流程,涵盖病史采集、症状分析、诊断推理、图像分析及报告生成等环节,体现了LLM在临床决策支持中的应用。 该图像是一个示意图,展示基于医疗大语言模型(LLM)的智能体与患者之间的多轮对话与任务调用流程,涵盖病史采集、症状分析、诊断推理、图像分析及报告生成等环节,体现了LLM在临床决策支持中的应用。

6.1.3. 评估维度

论文讨论了传统的评估维度以及针对 LLM 智能体的特定评估维度。

6.1.3.1. 传统评估维度 (Traditional Evaluation Dimensions)

  • 准确性 (Accuracy): 最常用维度,通过 MCQ 中的正确答案比例或人工评分衡量。自然语言指标 (BLEUROUGE 等) 也用于评估语义一致性。
  • 完整性 (Completeness): 评估生成内容的全面性。
  • 安全性 (Safety): 评估模型输出是否会导致负面后果或有害影响。
  • 沟通 (Communication): 评估模型的表达清晰度和互动有效性。
  • 用户满意度 (User Satisfaction): 评估用户对模型输出的满意程度。
  • 幻觉 (Hallucination): 评估 LLM 生成不准确信息的倾向。目前缺乏标准化评估方法,但有研究通过错误分类 [9] 或验证引用真实性 [27] 来量化。
  • 偏见 (Bias): 评估模型是否存在不公平或歧视性输出。
  • 稳定性 (Stability): 评估模型在不同输入或重复查询下的输出一致性。
  • 成本效益 (Cost-effectiveness): 评估模型部署和运行的经济效益。
  • 多维评估框架: Singhal et al. [4] 创建了一个包含12个方面的综合评估框架,涵盖科学共识、潜在危害程度、正确理解/检索/推理的证据、不当/不正确内容、缺失内容和偏见可能性等,为未来研究提供了重要参考。

6.1.3.2. LLM 智能体评估维度 (LLM Agent Evaluation Dimensions)

  • 概述: 传统 LLM 评估维度仍然适用,但需要扩展以包含中间过程的额外方面。
  • 特定维度:
    • 工具使用能力 (Tool Usage Capability): 评估智能体调用工具的正确性、工具组合的最佳性(工具排序)以及工具使用的效率(冗余工具调用)。

    • 推理能力 (Reasoning Capability): 评估智能体在多步工作流中连接各步骤所需的逻辑思考。Griot et al. [123] 提出了评估医学推理所需元认知 (Metacognition) 的系统。Xu et al. [124] 将医学推理分为诊断相关和管理导向两类。

    • 工作流管理 (Workflow Management): 评估复杂医疗查询的任务分解合理性以及计划行动的完成率。

    • 自主评估 (Autonomous Assessment): 评估智能体在自主操作中的安全率,通过多轮响应提供持续反馈优化以评估学习效果,并确保智能体能够正确识别边界,避免对无法解决的病例进行猜测性回答。 以下是原文 Figure 6 的结果,它展示了 LLM 智能体特定评估维度。

      Figure 6. LLM Agent specific evaluation dimensions. LLM: large language model. 该图像是图表,展示了论文中图6所示的大型语言模型(LLM)智能体特定评估维度,内容涵盖四个智能体层级及其对应的传统指标、工具使用能力、推理能力、工作流管理和自治评估等方面。

6.2. 数据呈现 (表格)

本综述论文未包含作者自身的实验结果表格。其内容是对其他研究的总结和分析,因此不涉及特定实验结果表格的转录。

6.3. 消融实验/参数分析

本综述论文未进行自身的实验,因此不涉及消融实验或参数分析。这些分析通常存在于其所回顾的原创研究论文中。

7. 总结与思考

7.1. 结论总结

本文全面概述了医疗领域 LLMLLM 智能体的评估实践,并深入分析了当前面临的关键挑战与未来的发展机遇。核心结论包括:

  1. 多源数据的重要性: 评估数据应来源于多方,包括标准化的医学考试、丰富的医学文献,以及由专家和真实世界互动(如医疗论坛、社交媒体)共同策划的专业问题和多模态医学图像。这保证了评估的全面性和真实性。
  2. 任务场景的多样性: 评估需要覆盖 LLM 在医疗实践中的多种任务场景,包括答案明确的封闭式任务、需要复杂语言生成的开放式任务(如摘要、信息提取、医学问答)、处理视觉信息的图像处理任务(如图像分类、报告生成、视觉问答),以及模拟真实临床工作流程的多任务 LLM 智能体场景。
  3. 综合评估方法的必要性: 评估应结合自动化指标(如准确率、精确率、召回率、F1-分数、BLEUROUGE、可读性指数等)和人类专家评估。人工评估在医疗这种高风险领域尤为关键,能够捕捉自动化指标难以量化的质量、准确性和适用性,并处理幻觉、偏见和伦理问题。
  4. 扩展评估维度以适应智能体: 传统的评估维度(如准确性、完整性、安全性)仍是基础,但对于 LLM 智能体,需要引入新的维度,例如工具使用能力、推理能力、工作流管理和自主评估能力,以反映其复杂性和多功能性。
  5. 跨学科合作是关键: 确保 LLMs 在临床实践中安全、道德和有效部署,需要医疗专业人员和计算机科学家之间持续的研究和深入的跨学科合作。

7.2. 局限性与未来工作

论文在第7节“讨论”中明确指出了当前医疗 LLM 评估面临的挑战和未来的发展方向,这些构成了其自身的局限性分析和对未来工作的展望:

  • 数据集构建的挑战与机遇:

    • 高难度数据集缺乏: 尽管分类和报告生成数据集相对丰富,但高质量的医学问答 (QA) 数据集,特别是高质量的视觉问答 (VQA) 数据集严重不足,其构建需要专业的医学图像、多样化的问题类型和答案。
    • 全面性欠缺: 评估数据集应包含对实践应用(如临床推理、偏见测试、拒答安全性测试)的全面测试,而不仅仅是专业医学知识。
    • 医疗专业人员负担: 数据集构建需要大量医疗专业人员的参与,但他们时间和精力有限。
    • 未来方向: 探索人类与 LLM 协作构建和持续优化评估数据集,以提高可扩展性并减轻人工负担。
  • 评估维度和标准的完善:

    • 现有维度不足: 传统维度(准确性、完整性、安全性)虽关键,但医疗领域需要更精细地关注其他方面,如幻觉、同理心 (Empathy) 和可解释性 (Interpretability) [126-128]
    • 幻觉分类: 需要更精确和分层的幻觉分类系统,考虑幻觉的类型和严重程度进行评分。
    • 智能体评估框架: 随着 LLM 智能体的出现,需要将传统 LLM 评估维度与智能体特有维度(如工具使用能力、临床推理)结合,构建针对特定任务的评估框架。
  • 评估指标的局限性与发展:

    • 自动化指标的局限: 当前主要依赖传统分类指标和 NLP 指标。
    • 高级 LLM 作为评估者的潜力: 一些研究尝试利用 GPT-4 等高级 LLM 进行自动化评估 [11, 129],例如 MedLLaMA 提出的自动评估模型用于评估开放临床场景中的正确性、专业性和完整性 [130]
    • 可靠性验证: 这些自动化评估方法的稳定性和鲁棒性仍需进一步验证。
    • 人工评估不可或缺: 短期内无法完全摒弃人工评估,因为模型响应的“适当性”不仅限于“正确性”,还包括在不同情境下的适用性,以及辨别误导性或与真值相似但有偏差的响应。
    • 未来方向: 进一步开发和验证自动化评估系统,以平衡理性评估和减轻人力资源压力,同时促进大规模评估。
  • 临床验证与实践应用:

    • 当前阶段: 大多数研究仍处于临床前验证阶段。

    • 真实世界临床试验需求: 需要设计更多与真实世界临床实践对齐的临床试验,将 LLM 与现有实践(包括其他医疗系统、传统 AI 工具和不同级别的医疗专业人员)进行比较,以评估其在实际应用中的价值 [131]

    • 合适的终点指标: 试验需要设定合适的终点指标,例如降低发病率、提高工作效率和患者/医生满意度。

    • 评估者多样性: 评估框架应确保评估者选择的多样性和个性化,不仅包括医生,还应根据具体应用场景和功能,纳入患者、医学生和其他真实用户的视角。

    • 用户反馈的价值: 通用 LLMs 已通过分析服务日志和直接/间接评估用户满意度来收集用户反馈进行在线评估 [132]。这种方法也应推广到医疗 LLMs,以实现连续的性能监控。 以下是原文 Figure 7 的结果,它展示了医疗领域中大语言模型(LLMs)评估的主要挑战与未来发展方向。

      该图像是一个图表,展示了医学领域中大语言模型(LLMs)评估的主要挑战与未来发展方向。左侧列举了挑战如单一测试数据集和缺乏患者参与,右侧展望了包括推理、安全测试集及自动评估流程等方向。 该图像是一个图表,展示了医学领域中大语言模型(LLMs)评估的主要挑战与未来发展方向。左侧列举了挑战如单一测试数据集和缺乏患者参与,右侧展望了包括推理、安全测试集及自动评估流程等方向。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇综述为我提供了评估 LLM 在医疗领域应用的全面而深刻的视角。它强调了医疗领域的特殊性,即其高风险性对 AI 精确性、安全性和伦理性的极致要求。这启发我,在任何专业领域部署 AI 系统时,都不能仅仅关注技术指标,而必须将该领域的特定需求和风险置于评估框架的核心。

特别是 LLM 智能体概念的引入,以及对其工具使用、推理和工作流管理能力的评估,预示着未来 AI 将不仅仅是信息提供者,更是任务执行者和决策辅助者。这种多模态、多步骤的交互模式,要求我们从系统层面而非单一模型层面去思考 AI 的能力和局限。

此外,论文强调的跨学科合作也极具启发性。医疗 AI 的发展绝非单一技术团队能完成,它需要医学专家对临床需求的深刻理解、伦理专家对风险的审慎考量、以及 AI 专家对技术边界的不断探索。只有这种深度融合,才能确保 AI 技术的安全和有效落地。

7.3.2. 批判

尽管这篇综述非常全面和有价值,但我认为仍有一些方面可以进一步探讨或批判:

  1. 评估幻觉的标准化方法仍是挑战: 论文多次提及幻觉问题在医疗领域的危险性,并指出目前缺乏标准化评估方法。虽然提出了一些量化尝试,但如何系统地、跨领域地定义、识别和量化医疗领域的幻觉,仍然是一个开放性问题。这不仅仅是技术挑战,更是概念定义和医学共识的挑战。未来的研究可能需要一个更细致的幻觉分类学(例如,事实性幻觉、逻辑性幻觉、伦理性幻觉),并设计针对性的检测机制。
  2. 伦理和法律责任的深入探讨不足: 尽管论文提到了伦理考量和安全性,但在 LLM 智能体做出决策甚至执行任务时,一旦出现错误,其法律责任归属问题并未深入探讨。是 LLM 开发者、部署者、还是最终使用者承担责任?这在医疗这种人命关天的领域尤为重要。评估框架应如何纳入对法律和伦理风险的评估,以指导监管和政策制定,这是一个需要更深入研究的空白。
  3. 偏见评估的实践操作性: 论文提到了偏见评估的重要性,但实际操作中,如何有效地检测 LLM 在医疗数据中可能存在的偏见(例如,对特定人群、疾病或治疗方案的隐性偏见),并量化其影响,仍然是一个复杂的问题。医疗数据本身可能就带有历史偏见,LLM 可能会放大或再现这些偏见。评估方法需要更具鲁棒性,以识别和缓解这些复杂偏见。
  4. 成本效益分析的缺乏细节: 论文将成本效益列为一个评估维度,但在其讨论中并未给出具体的评估框架或案例。医疗系统对成本非常敏感,LLM 的部署、维护和持续更新可能涉及高昂的费用。如何在评估中系统地权衡 LLM 带来的效益(如效率提升、错误减少)与其成本,是一个实际但未被充分展开的议题。
  5. 自动化评估和人类评估的融合范式: 论文指出自动化评估的局限性,并强调人工评估的不可或缺。未来的方向是发展平衡两者优点的自动化评估系统。但如何构建一个既能利用 LLM 自身能力进行初步评估,又能有效引导和结合人类专家最终判断的“人机协作评估”范式,是需要进一步探索的。这可能涉及设计智能化的辅助工具来帮助专家更快、更一致地进行评估,而不是简单地用 LLM 替代专家。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。