Use of artificial intelligence and deep learning in fetal ultrasound imaging
TL;DR 精炼摘要
本综述探讨了深度学习在胎儿超声成像中的应用,指出超声成像的准确性受到操作者经验的强烈影响。研究表明,深度学习技术可作为支持工具,提高超声检查的客观性与准确性,覆盖胎儿解剖结构确认及生物特征测量等多个临床领域。
摘要
Deep learning is considered the leading artificial intelligence tool in image analysis in general. Deep-learning algorithms excel at image recognition, which makes them valuable in medical imaging. Obstetric ultrasound has become the gold standard imaging modality for detection and diagnosis of fetal malformations. However, ultrasound relies heavily on the operator’s experience, making it unreliable in inexperienced hands. Several studies have proposed the use of deep-learning models as a tool to support sonographers, in an attempt to overcome these problems inherent to ultrasound. Deep learning has many clinical applications in the field of fetal imaging, including identification of normal and abnormal fetal anatomy and measurement of fetal biometry. In this Review, we provide a comprehensive explanation of the fundamentals of deep learning in fetal imaging, with particular focus on its clinical applicability.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Use of artificial intelligence and deep learning in fetal ultrasound imaging (人工智能和深度学习在胎儿超声成像中的应用)
1.2. 作者
- R. RAMIREZ ZEGARRA (帕尔马大学医学与外科学系,妇产科,意大利帕尔马)
- T. GHI* (通讯作者,帕尔马大学医学与外科学系,妇产科,意大利帕尔马)
1.3. 发表期刊/会议
Ultrasound in Obstetrics & Gynecology (妇产科超声)
1.4. 发表年份
2022年
1.5. 摘要
深度学习 (Deep learning) 被认为是图像分析领域领先的人工智能 (artificial intelligence) 工具。深度学习算法在图像识别方面表现出色,这使其在医学成像中具有重要价值。产科超声已成为检测和诊断胎儿畸形的“金标准”成像模式。然而,超声检查严重依赖操作者的经验,导致在经验不足的操作者手中其可靠性降低。一些研究提出使用深度学习模型作为支持超声医师的工具,以期克服超声固有的这些问题。深度学习在胎儿成像领域有许多临床应用,包括识别正常和异常胎儿解剖结构以及测量胎儿生物特征。在本综述中,我们全面解释了胎儿成像中深度学习的基本原理,并特别关注其临床适用性。
1.6. 原文链接
/files/papers/691aa4e8110b75dcc59ae3e2/paper.pdf (该论文已于2022年11月27日正式发表)
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 尽管产科超声是检测和诊断胎儿畸形的“金标准”成像模式,但其效果高度依赖于操作者的经验。经验不足的操作者可能导致结果不可靠,从而降低对胎儿畸形的整体检出率。此外,超声检查还存在主观性、观察者间变异性 (interobserver variability) 高以及检查耗时等固有问题。
- 重要性: 胎儿畸形对新生儿死亡率和发病率影响巨大,早期准确诊断对改善围产期结局至关重要。目前的超声筛查流程因人为因素而存在局限性,亟需改进。
- 现有挑战或空白:
- 操作者依赖性: 获取正确的扫描平面、评估胎儿解剖结构和做出准确诊断需要多年的培训和丰富的经验。
- 技术挑战: 超声固有的问题,如声影 (acoustic shadows)、散斑噪声 (speckle noise)、运动模糊 (motion blurring) 和不清晰的边界,也影响检测率。
- 变异性: 胎儿生物测量中存在的观察者内 (intra-observer) 和观察者间变异性可能导致胎儿体重估算错误,进而错误分类胎儿大小。
- 切入点或创新思路: 本文提出并综述了将深度学习 (Deep Learning, DL) 作为一种支持工具集成到胎儿超声成像中。DL算法在图像识别和分类方面的卓越能力,使其有望克服目前超声检查中因“人”和“技术”带来的局限性,提高诊断的客观性、准确性和效率。
2.2. 核心贡献/主要发现
- 全面综述: 本文提供了一份关于深度学习在胎儿成像领域应用的全面综述,涵盖了其基本原理和临床适用性。
- DL在胎儿成像中的应用领域: 详细描述了DL在胎儿成像中的多种应用,包括:
- 自动测量胎儿结构: 用于估计胎龄 (gestational age, GA) 和监测胎儿生长。
- 识别正常和异常胎儿解剖: 协助检测胎儿畸形,涵盖中枢神经系统 (CNS)、心脏、胎盘及其他胎儿结构。
- 产时超声: 辅助评估胎头站位 (fetal head station)、屈曲度 (degree of flexion) 和胎位 (position)。
- DL的潜在优势: 强调DL能够通过减少主观性、观察者间变异性、缩短检查时间,并可能在培训年轻医生方面发挥作用,从而克服人类分析的固有问题。
- 临床适用性: 重点关注DL技术如何应用于实际临床场景,以支持超声医师,提高胎儿超声诊断的效率和准确性。
- 挑战与未来展望: 讨论了DL在胎儿成像中应用的局限性(如数据需求、固有偏差、可解释性、伦理挑战)以及未来的发展方向(如多任务模型、前瞻性验证)。
3. 预备知识与相关工作
3.1. 基础概念
- 人工智能 (Artificial Intelligence, AI): 指计算机系统执行通常需要人类智能才能完成的任务的能力,例如学习、决策、视觉感知和语音识别。AI算法擅长识别数据中的复杂模式,以自动提供问题的量化解决方案,其结果通常比人类更准确和可重复。
- 机器学习 (Machine Learning, ML): 是人工智能的一个子集,其算法使计算机能够通过“经验”(使用可用数据)学习并提高性能,而无需进行明确的编程。
- 深度学习 (Deep Learning, DL): 是机器学习中最重要的一种算法类型,在医学成像领域尤为突出。DL模型的架构复杂,包含多层深度的人工神经网络 (artificial neural networks)。它能够以分层、非线性的方式分析大量数据,利用模式识别 (pattern recognition) 来提取具有高度代表性的图像特征,从而对图像进行“标记”(例如,标记为正常或异常)。
- 卷积神经网络 (Convolutional Neural Networks, CNN): 是最常用的深度神经网络类型之一,特别适用于图像分析任务。
- 深度学习训练方法:
- 监督学习 (Supervised Learning): 最常见的DL模型训练方法,要求在训练阶段使用带有标签 (labeled data) 或“真值 (ground-truth)”数据作为神经网络的输入。模型性能随后在未经人类操作者标记的未标记数据上进行测试(例如,正常的脑部扫描或有脑室扩大 (ventriculomegaly) 的扫描)。DL模型将进行预测(输出)并对图像进行分类。
- 无监督学习 (Unsupervised Learning): 不需要标签。DL模型搜索数据(输入)中的主要模式和相似性,以对图像进行分类(输出)。
- 深度学习任务类型 (DL tasks): 深度学习在胎儿成像中的应用通常涉及以下一种或多种任务的组合:
- 分类 (Classification): 为给定图像分配一个二元“类别标签 (class label)”,例如“正常/异常”或“四腔心视图/左心室流出道”。例如,一个分类DL模型被提供一张胎儿大脑轴向经脑室平面 (axial transventricular view) 的脑室扩大图像,它会将其分类为“异常”,但不会提供异常的位置信息。
- 定位 (Localization): 在图像上定位特定物体,并用一个边界框 (bounding box) 指示其位置。这有助于识别解剖标志 (anatomical landmarks) 和自动测量。例如,一个定位DL模型被提供一个正常的胎儿大脑经脑室平面图像,它会提供侧脑室 (lateral ventricles) 前后角、透明隔腔 (cavum septi pellucidi) 和其他解剖标志的位置。
- 目标检测 (Object Detection): 结合了分类和定位,同时确定图像中存在哪些物体以及它们的位置。例如,一个目标检测DL模型被提供一张胎儿心脏四腔心视图图像,它首先会定位该平面中的所有解剖标志(如心房、心室、降主动脉、肺静脉、胎儿脊柱),然后将其分类为四腔心视图。
- 分割 (Segmentation): 对图像中存在的物体进行“分割”或描绘轮廓。这使得可以将感兴趣的物体从其他结构中分离出来,便于评估。分割还可以评估物体的形态(形状、体积和轮廓),并可与分类任务结合,将图像标记为正常或异常。例如,一个分割DL模型被提供一张胎儿生长受限 (fetal growth restriction) 胎儿的四腔心视图图像,它不仅能识别与该视图对应的所有解剖标志,还能评估胎儿心脏的形态(如心腔的形状、面积),这在生长受限胎儿中已知会受到影响。
3.2. 前人工作
- DL算法在图像识别和分类方面表现出色,其性能已被证明可以匹配甚至超越人类在图像分类、检测和分割等任务中的能力 (参考文献 3-5)。
- 一项近期调查显示,超过80%已发表的关于AI在医学成像中应用的研究采用了DL方法 (参考文献 2)。
- 因此,DL被提出作为医学成像领域临床医生的潜在支持工具 (参考文献 1, 6)。
- 在胎儿成像领域,DL近年来获得了广泛关注,这体现在大量已发表的科学研究中 (参考文献 6)。
- 在胎儿成像中,DL有望克服人类分析固有的问题,即主观性 (subjectivity) 和观察者间变异性 (interobserver variability) (参考文献 7-9),并缩短检查时间 (参考文献 10)。
- 此外,它还可以用于指导年轻和经验不足的医生 (参考文献 11-13)。
3.3. 技术演进
深度学习在医学成像领域,特别是胎儿成像中的应用,是一个快速发展的领域。从最初的通用图像识别任务,DL算法逐渐被精细化和优化,以适应医学图像特有的挑战(如噪声、低对比度、解剖结构复杂性)。早期的研究主要集中在简单的分类任务,例如区分正常与异常图像。随着模型架构(如更深层的CNN)和训练技术的进步,DL模型的能力也从简单的分类扩展到更复杂的任务,如精确的目标定位、结构分割以及多任务学习。尤其是在胎儿超声领域,从2D图像分析到3D图像处理,DL技术不断融合,以期更全面、自动化地评估胎儿健康状况。
3.4. 差异化分析
本文作为一篇“最先进综述 (State-of-the-Art Review)”,其核心在于提供一个全面且聚焦于临床适用性的概览。与仅关注某一特定DL技术或特定胎儿器官的研究不同,本综述旨在为读者提供一个宏观视角,解释DL在胎儿成像中的基本原理,并系统性地梳理其在不同临床应用场景中的进展。这包括:
- 深度解释DL基础: 为初学者详细阐释DL的定义、不同算法类型(如CNN)和学习方法(监督/无监督)。
- 应用场景的广度: 涵盖了DL在胎儿生物测量、正常/异常解剖识别(中枢神经系统、心脏、胎盘等)以及产时超声中的具体应用。
- 临床实用性的强调: 不仅介绍技术本身,更着重于这些技术如何解决现有临床问题,支持超声医师,并最终改善患者护理。
- 局限性和未来展望: 批判性地分析了当前DL在胎儿成像中面临的挑战和未解决的问题,并指明了未来的研究方向。
4. 方法论
本论文是一篇综述文章,因此它没有提出新的方法论,而是详细阐述了深度学习 (Deep Learning, DL) 在胎儿超声成像 (fetal ultrasound imaging) 中应用的现有方法及其原理。核心在于DL如何通过不同的任务来改进胎儿成像的诊断流程。
4.1. 方法原理
深度学习在胎儿成像中的核心原理是利用多层人工神经网络 (artificial neural networks) 来学习和识别医学图像中的复杂模式。这些模型能够从大量的超声图像数据中自动提取高层次、有意义的特征,从而执行分类、定位、目标检测和分割等任务。通过这种方式,DL旨在模仿和超越人类专家在图像分析中的能力,提供更客观、可重复且高效的诊断支持。无论是通过监督学习 (supervised learning)(依赖于带有真值 (ground-truth)标签的数据进行训练)还是无监督学习 (unsupervised learning)(通过发现数据中的内在模式进行学习),DL模型都能被训练来识别胎儿的正常和异常解剖结构,并进行精确的生物学测量。
4.2. 核心方法详解
深度学习在胎儿成像中的应用通常涉及以下一种或多种任务的组合,这些任务根据所需的输出类型而定。
4.2.1. 深度学习的四种基本任务
DL模型通常涉及以下四种核心任务,或其组合:
-
分类 (Classification)
- 原理: 这是最基本的DL任务之一,旨在为给定的图像分配一个预定义的类别标签。在胎儿超声中,这可能是一个二元标签(如“正常”或“异常”),或者是一个用于验证扫描平面的标签(如“四腔心视图”或“左心室流出道”)。
- 示例: 如果一个分类DL模型被输入一张显示胎儿大脑经脑室平面 (axial transventricular view) 上存在脑室扩大 (ventriculomegaly) 的图像,模型经过分析后会将其分类为“异常”。但此任务的输出仅限于图像的整体类别,它不会提供异常具体位于图像中的哪个位置。
- 应用目的: 主要用于初步筛查,快速判断图像是否符合特定标准或是否存在潜在异常。
-
定位 (Localization)
- 原理: 该任务的目的是在图像中精确定位特定物体的位置。通常,定位的结果通过绘制一个
边界框 (bounding box)来指示物体的精确范围。在胎儿超声中,这对于识别关键的解剖标志 (anatomical landmarks) 至关重要,进而支持自动测量。 - 示例: 一个定位DL模型被输入一张正常的胎儿大脑经脑室平面图像。经过分析,模型能够准确地提供侧脑室 (lateral ventricles) 的前后角、透明隔腔 (cavum septi pellucidi) 以及其他重要解剖标志的精确位置。
- 应用目的: 为后续的测量或更精细的分析提供准确的起始点,减少人为定位的误差。
- 原理: 该任务的目的是在图像中精确定位特定物体的位置。通常,定位的结果通过绘制一个
-
目标检测 (Object Detection)
- 原理: 目标检测是分类和定位任务的结合体。它不仅能识别图像中存在哪些物体(分类),还能同时指出这些物体在图像中的具体位置(定位)。这意味着模型能够同时输出多个物体的类别和它们各自的边界框。
- 示例: 一个目标检测DL模型被输入一张胎儿心脏的四腔心视图图像。模型经过分析后,首先会定位该平面中的所有解剖标志(如左右心房、左右心室、降主动脉、肺静脉、胎儿脊柱),然后将整个图像分类为“四腔心视图”。
- 应用目的: 用于识别和量化图像中的多个目标结构,是自动生物测量和畸形筛查的关键一步。
-
分割 (Segmentation)
- 原理: 分割任务比定位更进一步,它旨在对图像中感兴趣的物体进行像素级的描绘或“分割”。这不仅仅是绘制一个边界框,而是精确勾勒出物体的轮廓,将其从图像的其余部分中分离出来。分割结果可以提供关于物体形态(形状、体积、轮廓)的详细评估,并可与分类任务结合,将分割出的物体标记为正常或异常。
- 示例: 一个分割DL模型被输入一张显示胎儿生长受限 (fetal growth restriction) 的四腔心视图图像。模型不仅能识别与该视图对应的所有解剖标志,还能额外提供胎儿心脏形态(如心腔的形状、面积)的评估,这些形态特征在生长受限胎儿中常受到影响。
- 应用目的: 提供最精细的解剖结构分析,对于评估器官体积、形状变化以及精确定位病变区域至关重要。
4.2.2. 深度学习如何改进胎儿成像
DL技术通过自动化和辅助功能,有望在以下几个关键方面改进胎儿超声成像:
4.2.2.1. 胎儿结构自动测量
- 背景:
生物测量 (Biometric measurements)是评估胎龄 (gestational age, GA)和监测胎儿生长 (fetal growth)的关键。这涉及对胎儿头部(如头围 (head circumference)、枕额径 (occipitofrontal diameter)、双顶径 (biparietal diameter))、腹部(腹围 (abdominal circumference))、股骨长和头臀长 (crown-rump length, CRL)(妊娠14周前)等标准平面上的多个结构进行测量。这些测量通常耗时且高度依赖操作者,需要操作者正确获取标准平面后手动放置卡尺。 - DL的贡献: 全自动化DL模型有望显著
减少观察者间变异性 (interobserver variability)和检查时间 (examination times),从而优化工作流程。- 头部和股骨: 已有多个DL模型被开发用于自动测量胎儿头部生物特征 (参考文献 30-32) 和股骨长 (参考文献 33)。
- 腹部: 胎儿腹围的自动测量更具挑战性,因为其形状不规则且边界不清晰。研究人员提出使用
目标检测 (object detection)或分割 (segmentation)来识别胎儿腹部的解剖标志(如胃泡、脐静脉、胎儿脊柱),然后再进行测量 (参考文献 34, 35)。 - 多任务模型: 最新的进展允许开发
多任务DL模型 (multitasking DL models),这些模型使用分割 (segmentation)技术,可以在三个胎儿标准平面上同时执行所有生物测量,并同步估计胎龄 (参考文献 36-40)。 - 早期妊娠: 在妊娠早期,DL模型已能实现
头臀长 (CRL)(参考文献 42, 43) 和颈项透明层 (nuchal translucency, NT)(参考文献 44) 的自动测量,常结合3D成像 (3D imaging)和分割 (segmentation)技术。3D超声 (3D ultrasound)的优势在于DL模型可以搜索并选择理想的平面来执行生物测量。
4.2.2.2. 正常和异常胎儿解剖识别
- 背景: 胎儿畸形的诊断流程包括:1) 正确获取
胎儿标准平面 (fetal standard planes);2) 识别/测量胎儿解剖结构 (fetal anatomical structures);3) 将识别出的结构分类为正常或异常。人类操作者掌握这一完整流程需要多年的经验 (参考文献 45)。 - DL的贡献: DL算法可以在相对较短的时间内,使用大量数据进行训练,并展现出与人类操作者相似甚至更优的性能。
- 标准平面获取:
国际妇产科超声学会 (International Society of Ultrasound in Obstetrics and Gynecology, ISUOG)已提出多种标准平面以标准化检查流程并减少变异性。DL算法已被训练以准确检测不同的胎儿标准平面。多项研究开发了DL模型,可以自动识别主要的胎儿标准平面,包括大脑、心脏、面部和腹部 (参考文献 46-55)。- 在标准平面识别方面,执行
目标检测 (object-detection)(参考文献 47, 49, 50) 和分割 (segmentation)(参考文献 52, 54, 55) 任务的DL模型被认为比分类 (classification)模型更准确,因为它们在分类平面之前会定位胎儿解剖标志,与人类操作方式相似。 - 一项研究比较了19种DL算法在正确分配四个解剖标准平面(腹部、大脑、股骨和胸部)方面的性能,发现最佳模型的性能与训练有素的超声医师相似,但分类速度快了25倍 (参考文献 46)。
- 在标准平面识别方面,执行
- 正常胎儿解剖识别: 准确识别正常胎儿解剖结构是排除胎儿畸形的关键。DL模型可以使用
目标检测 (object-detection)和分割 (segmentation)任务在不同标准平面上定位和标记胎儿解剖结构。-
手动结构分割是一项繁重任务,且观察者内和观察者间变异性高 (参考文献 56)。分割DL模型已被证明在这项任务中优于人类和其他AI模型 (参考文献 57)。
-
下图(原文 Figure 2)展示了深度学习在胎儿超声图像中识别和分割解剖标志的例子。
该图像是超声影像的示意图,左侧(a)展示了标注的脑小脑和CSP结构,右侧(b)展示了相应轮廓的深度学习算法识别结果。图中标注有脑小脑及CSP,展示了深度学习在胎儿超声成像中的应用。
-
- 标准平面获取:
图2 深度学习在胎儿超声成像中的应用示例。左侧(a)展示了标注的脑小脑和CSP结构,右侧(b)展示了相应轮廓的深度学习算法识别结果。CSP,透明隔腔。
* **正常与异常解剖鉴别:** 区分正常和异常解剖是产前超声筛查胎儿畸形的最终目标 (参考文献 41, 58)。检出率主要取决于操作者的经验、超声系统质量和孕妇体型。DL模型有潜力作为`筛查工具 (screening tool)`(使用`分类 (classification)`DL模型判断图像是否包含正常或异常解剖)或`诊断工具 (diagnostic tool)`(使用`目标检测 (object-detection)`和`分割 (segmentation)`技术确定畸形位置和类型)来支持操作者。
-
DL算法在主要胎儿系统中的临床适用性概览:
-
胎儿中枢神经系统 (Fetal central nervous system, CNS)
- 背景: 胎儿大脑是最复杂的胎儿结构之一,其在妊娠中期 (second trimester) 的评估需要获取和评估不同的脑标准平面 (参考文献 59)。此外,大脑在整个妊娠期形状和形态快速变化,使其评估更具挑战性。
- DL的应用:
- 平面识别: 已开发出多个DL模型用于自动识别胎儿大脑标准平面,并表现良好 (参考文献 49, 60, 61)。
- 结构识别与测量: DL模型可以高精度地识别多个大脑解剖标志,如
侧脑室 (lateral ventricles)、脉络丛 (choroid plexus)、透明隔腔 (cavum septi pellucidi)、丘脑 (thalami)、小脑 (cerebellum)、大池 (cisterna magna)、外侧裂 (Sylvian fissure)和脑干 (brainstem)(参考文献 62-65)。此外,DL模型可以训练用于胎儿大脑结构的自动测量,如侧脑室或透明隔腔 (参考文献 66, 67)。 - 皮层发育评估: DL模型还可用于评估胎儿
皮层发育 (cortical development)的形态,以估计相应的胎龄 (参考文献 68-70)。如果估计胎龄与实际胎龄不符,操作者将收到皮层发育异常的可能性警报。 - 畸形检测与分类:
中枢神经系统畸形 (CNS malformations)是最常见的先天性畸形之一,但许多畸形不会导致明显的解剖变化,可能在产前超声检查中未被发现 (参考文献 71)。DL可作为诊断支持工具,提高胎儿脑部异常的检测率。DL模型可以训练用于检测胎儿脑部 (参考文献 72, 73) 或脊柱 (参考文献 74) 的结构异常,并提醒操作者可能存在的畸形位置。更重要的是,DL模型还可以标记畸形类型(如脑室扩大 (ventriculomegaly)、脑室内囊肿 (intraventricular cyst)、透明隔腔不显示 (non-visualization of cavum septi pellucidi))。一项研究开发了一个DL算法,能够定位和分类 (localize and classify)九种不同的脑畸形,准确率高达99% (参考文献 75)。
-
胎儿心脏 (Fetal heart)
- 背景: 正确评估胎儿心脏解剖需要在一个明确描述的标准平面上评估不同的胎儿解剖标志和心脏组成部分 (参考文献 41, 76)。
- DL的应用:
- 平面获取: DL模型可以自动获取胎儿心脏标准平面,如
四腔心 (four-chamber)、左心室流出道 (left ventricular outflow tract)、右心室流出道 (right ventricular outflow tract)和三血管气管视图 (three-vessel-and-trachea views)(参考文献 47, 77-79)。 - 结构识别与形态评估: DL模型可以通过
目标检测 (object detection)(参考文献 80-82) 或分割 (segmentation)(参考文献 83-85) 任务识别胎儿心脏结构。例如,除了明确定义的四个心腔,当前的DL模型还可以检测卵圆孔 (foramen ovale)、二尖瓣 (mitral)和三尖瓣 (tricuspid valves)、主动脉、心尖、调节带 (moderator band)、左右心室壁、室间隔 (interventricular septum)和肺静脉。基于房室瓣 (atrioventricular valves)的开放或关闭,DL模型甚至可以确定图像是来自胎儿心动周期的收缩末期 (end-systolic)还是舒张末期 (end-diastolic)(参考文献 82)。 - 生物测量与功能评估: 使用
分割 (segmentation)DL模型还可以评估心脏形态,自动测量胎儿心脏结构,包括胎儿心腔的面积 (参考文献 78)。在许多胎儿疾病中,如胎儿生长受限 (fetal growth restriction),心脏形态可能是病理的指标 (参考文献 86)。DL模型还可以用于胎儿心脏的多普勒评估 (Doppler evaluation)(参考文献 87)。DL算法还可以提供心脏生物测量 (biometric cardiac measurements),如心胸比 (cardiothoracic ratio)或心脏轴角 (angle of the cardiac axis)(参考文献 78, 88, 89)。 - 畸形检测:
先天性心脏病 (congenital heart disease, CHD)是最常见的出生缺陷,与高婴儿死亡率相关 (参考文献 90)。产前识别CHD有助于早期规划和管理,从而改善围产期结局 (参考文献 91-93)。然而,检出率差异很大,主要归因于操作者经验的差异 (参考文献 94, 95)。DL模型的实施可能有助于提高CHD的产前检出率,提供客观且独立于操作者的胎儿心脏图像评估 (参考文献 78, 96, 97)。 - 目前,已使用
目标检测 (object detection)(参考文献 85, 98, 99) 或分割 (segmentation)(参考文献 8, 100, 101) 构建了能够检测左心发育不良综合征 (hypoplastic left heart syndrome)和室间隔缺损 (ventricular septal defects)的DL模型。对于室间隔缺损,分割 (segmentation)DL模型可以描绘和隔离胎儿心间隔上的整个缺损,便于准确测量其大小。
- 平面获取: DL模型可以自动获取胎儿心脏标准平面,如
-
胎盘 (Placenta)
- 背景: 胎盘的常规评估通常包括确定其位置、
回声 (echogenicity)以及寻找异常侵袭性胎盘 (abnormal invasive placentation)的特征。胎盘生物测量 (Placental biometry)与胎儿小、先兆子痫 (pre-eclampsia)和其他不良妊娠结局的发生相关 (参考文献 102, 103),但由于耗时且依赖操作者,因此不常进行。 - DL的应用:
- 自动测量与评估: 全自动DL模型可以
快速可靠地 (rapidly and reliably)执行胎盘生物测量,并可能使其成为有用的影像生物标志物 (imaging biomarker)(参考文献 104-106)。此外,这些算法能够评估胎盘的位置(前置或后置)和外观(正常或异常)。结合3D超声 (3D ultrasound)的分割 (segmentation)DL模型可以提供关于胎盘形态和体积的额外信息 (参考文献 107, 108)。 - 胎盘腔隙检测:
胎盘腔隙 (Placental lacunae)是胎盘内的低回声 (hypoechoic)空间。虽然在大多数妊娠中可见,但大而多或不规则的胎盘腔隙可能与异常侵袭性胎盘 (abnormal invasive placentation)相关,这是一种与高母体发病率和死亡率相关的疾病 (参考文献 109, 110)。分割 (segmentation)DL模型可用于胎盘腔隙的识别和定位,并具有良好的准确性 (参考文献 111)。
- 自动测量与评估: 全自动DL模型可以
- 背景: 胎盘的常规评估通常包括确定其位置、
-
其他胎儿结构 (Other fetal structures)
- 背景: 全面产前超声检查还涉及评估大脑、心脏和胎盘之外的其他胎儿结构。
- DL的应用: DL算法在检测其他胎儿结构方面的应用正在不断扩展,包括胎儿的
头部 (head)和颈部 (neck)(参考文献 112, 113)、面部 (face)(参考文献 114)、脊柱 (spine)(参考文献 115, 116)、肾脏 (kidneys)(参考文献 117)、肺部 (lungs)(参考文献 118-120)、脂肪组织 (adipose tissue)(参考文献 121, 122) 和性器官 (sexual organs)(参考文献 123)。 - 一些超声公司已开始将所需标准平面和胎儿解剖结构的
清单 (checklists)集成到超声机器的软件中,以指导和支持操作者进行检查 (参考文献 124)。
-
4.2.2.3. 深度学习与产时超声 (Deep learning and intrapartum ultrasound)
- 背景: 超声在产房中的应用日益增多,已被证明在评估
胎头站位 (fetal head station)、屈曲度 (degree of flexion)和胎位 (position)方面非常有用 (参考文献 125-129)。在需要快速决策的产房环境中,获取正确的图像并进行必要的测量可能需要几分钟,而延迟决策可能导致不良结局。 - DL的贡献: 实施一个能够同时评估胎头站位、角度和位置的DL模型,可能在日常产房实践中发挥重要作用。
-
胎位评估: 迄今为止,研究工作主要集中于开发DL模型,用于评估第二产程中胎儿枕骨位置,并将其分类为
枕前 (occiput anterior)、枕后 (posterior)或枕横 (transverse)(参考文献 130, 131)。下图(原文 Figure 3)总结了深度学习在胎儿成像中最重要的临床应用。
该图像是一个示意图,展示了深度学习在胎儿超声影像中的应用,包括自动测量胎儿结构、识别正常和异常胎儿解剖、标准平面的自动检测及胎儿畸形的检测等方面。
-
图3 深度学习在胎儿成像中的临床应用概览。图示了DL在胎儿超声影像中的应用,包括自动测量胎儿结构、识别正常和异常胎儿解剖、标准平面的自动检测及胎儿畸形的检测等方面。FL,股骨长;HC,头围;HLHS,左心发育不良综合征。
5. 实验设置
本论文是一篇综述性文章,并未提出新的实验设置或进行自身的实验。因此,本节将根据论文中对深度学习在胎儿成像领域面临的挑战和限制的讨论,来归纳该领域研究中通常涉及的实验设置要素。
5.1. 数据集
- 数据需求: 深度学习模型,特别是用于胎儿成像识别的算法,通常需要大量 (large amount of labeled data) 的
标注数据 (labeled data)才能有效训练模型 (参考文献 6)。这是该领域研究面临的主要障碍之一。 - 数据特点: 由于不同超声平面之间可能存在相似的外观,因此与一些其他AI算法相比,胎儿成像识别算法通常需要更大的数据库。例如,开发一个能从胎儿脑部超声图像中识别
脑室扩大 (ventriculomegaly)的DL算法,由于经脑室平面 (transventricular) 和经丘脑平面 (transthalamic) 的外观相似,需要大量两种平面图像来训练模型准确区分它们。 - 数据增强 (Data Augmentation): 为了生成足够数量的图像以训练模型,而不必识别/检查大量实际病例,一种可能性是使用数据增强 (data augmentation) 技术 (参考文献 6)。这包括对原始图像进行微小更改(例如旋转或调整回声 (echogenicity))来生成新图像。
- 数据获取与偏差:
- 大多数数据库是回顾性 (retrospectively) 构建的,这可能会给基于这些模型的研究带来
固有偏差 (inherent bias)。 - 构建
前瞻性数据库 (prospective databases)来解决特定研究问题是繁琐且耗时的,因为数据标注 (data labeling) 工作量大,导致成本高昂且人力资源投入大。
- 大多数数据库是回顾性 (retrospectively) 构建的,这可能会给基于这些模型的研究带来
- 样本量: 迄今为止,没有标准方法来计算构建准确的胎儿成像DL算法所需的样本量。因此,不同研究中使用的样本量存在显著
异质性 (heterogeneity),从几百到几千张胎儿图像不等 (参考文献 5)。
5.2. 评估指标
本综述没有提出新的评估指标,但根据其讨论的DL任务(如分类、定位、目标检测和分割),以下是医学图像分析领域普遍使用的、且与文章讨论内容相关的评估指标。作为初学者友好指南,我们将对其进行详细解释。
-
准确率 (Accuracy)
- 概念定义: 准确率衡量模型在所有预测中正确预测的比例。它是一个直观的指标,表示模型做出正确判断的频率。在分类任务中,高准确率意味着模型能够很好地区分不同类别。
- 数学公式:
- 符号解释:
- (True Positives):真阳性,实际为阳性且被模型正确预测为阳性的样本数。
- (True Negatives):真阴性,实际为阴性且被模型正确预测为阴性的样本数。
- (False Positives):假阳性,实际为阴性但被模型错误预测为阳性的样本数。
- (False Negatives):假阴性,实际为阳性但被模型错误预测为阴性的样本数。
-
灵敏度 (Sensitivity) / 召回率 (Recall)
- 概念定义: 灵敏度(或召回率)衡量模型正确识别所有实际阳性样本的能力。在医学诊断中,高灵敏度意味着模型能够尽量少地漏掉真正的病变。
- 数学公式:
- 符号解释:
- (True Positives):真阳性。
- (False Negatives):假阴性。
-
特异性 (Specificity)
- 概念定义: 特异性衡量模型正确识别所有实际阴性样本的能力。在医学诊断中,高特异性意味着模型能够尽量少地将健康样本错误地诊断为病变。
- 数学公式:
- 符号解释:
- (True Negatives):真阴性。
- (False Positives):假阳性。
-
精确率 (Precision)
- 概念定义: 精确率衡量模型预测为阳性的样本中,实际也为阳性的比例。在诊断中,高精确率意味着模型报告的阳性结果是真实病变的可靠性高。
- 数学公式:
- 符号解释:
- (True Positives):真阳性。
- (False Positives):假阳性。
-
F1 分数 (F1-Score)
- 概念定义: F1分数是精确率和召回率的调和平均值。它在精确率和召回率之间提供了一个平衡的度量,特别适用于类别不平衡的数据集。
- 数学公式:
- 符号解释:
- :精确率。
- :召回率。
-
Dice 系数 (Dice Coefficient) / IoU (Intersection over Union)
- 概念定义: 这两个指标主要用于
分割 (segmentation)任务,衡量模型预测的分割区域与真值 (ground-truth)分割区域的重叠程度。值越高表示分割效果越好。Dice 系数通常是 IoU 的两倍,它们在数值上接近,但计算方式略有不同。 - 数学公式 (Dice Coefficient):
- 数学公式 (IoU):
- 符号解释:
- :模型预测的分割区域(像素集合)。
- :真值分割区域(像素集合)。
- :区域 A 和区域 B 的交集面积(即重叠的像素数)。
- :区域 A 和区域 B 的并集面积。
- :区域 A 的面积。
- :区域 B 的面积。
- 概念定义: 这两个指标主要用于
5.3. 对比基线
在胎儿超声成像的深度学习研究中,对比基线主要包括:
- 人类操作者 (Human Operators): 大多数研究会将DL模型的性能与经验丰富的超声医师或专家进行比较,以评估DL作为辅助工具的实际临床价值和其是否能达到或超越人类水平。例如,Burgos-Artizzu 等人 (参考文献 46) 比较了DL算法与训练有素的超声医师在标准平面分类上的表现。
- 传统机器学习算法 (Traditional Machine Learning Algorithms): 在深度学习兴起之前,一些传统的图像处理和机器学习方法也被用于医学图像分析,因此它们可能作为DL模型的性能基线。
- 其他深度学习模型 (Other Deep Learning Models): 随着DL技术的发展,新的模型架构和训练策略不断涌现。研究者常常会比较他们提出的DL模型与领域内其他已发表的、具有代表性的DL模型,例如在
分割 (segmentation)任务中,某些DL模型被证明优于其他AI模型 (参考文献 57)。 - 不同DL任务的性能比较: 有时,研究会比较不同DL任务类型(如
分类 (classification)与目标检测 (object detection)或分割 (segmentation))在解决同一问题时的性能差异,以确定最有效的方法。例如,在标准平面识别中,目标检测 (object-detection)和分割 (segmentation)模型被发现比分类 (classification)模型更准确 (参考文献 47, 49, 50, 52, 54, 55)。
6. 实验结果与分析
本论文是一篇综述性文章,并未呈现其自身的实验结果。因此,本节将根据原文中对现有研究发现的总结和讨论,来分析深度学习在胎儿超声成像领域所取得的进展和表现。
6.1. 核心结果分析
论文指出,深度学习模型在胎儿成像领域展现出与人类能力相当甚至超越人类的性能,特别是在图像分类、检测和分割任务中。以下是根据原文内容对DL在不同应用场景中取得的核心成果分析:
-
图像识别与分类的卓越性能:
- DL算法在图像识别和分类方面的表现出色,甚至在某些任务中能够
匹配或超越人类能力 (match or even exceed human capability)(参考文献 3-5)。这为DL作为临床辅助工具奠定了基础。 - 在胎儿标准平面的正确识别上,最佳DL模型的性能
与训练有素的超声医师相似 (similar to that of a fully trained sonographer),但分类速度快了25倍 (25 times faster)(参考文献 46)。这表明DL在提高工作效率方面具有巨大潜力。
- DL算法在图像识别和分类方面的表现出色,甚至在某些任务中能够
-
胎儿结构自动测量:
- DL模型在
自动测量胎儿生物特征 (automatic measurement of fetal structures)方面取得了显著进展,包括胎儿头部生物测量、股骨长、腹围、头臀长 (CRL)和颈项透明层 (NT)(参考文献 30-44)。 - 这种自动化有望
减少观察者间变异性 (interobserver variability)和检查时间 (examination times),从而优化工作流程 (optimizing workflow)(参考文献 7, 8)。长期来看,这也有助于减少疲劳 (decrease fatigue)和减轻工作场所伤害 (mitigate workplace injuries)(参考文献 28, 29)。
- DL模型在
-
正常和异常胎儿解剖识别:
- 标准平面检测: DL算法可以准确检测不同的胎儿标准平面 (参考文献 46-55)。特别地,执行
目标检测 (object-detection)和分割 (segmentation)任务的DL模型被发现比分类 (classification)模型更准确,因为它们能先定位解剖标志再进行分类,这更接近人类操作过程。 - 中枢神经系统 (CNS): DL模型能够
高精度地识别 (good accuracy)多个大脑解剖标志 (参考文献 62-65),并进行自动测量 (automatic measurements)(参考文献 66, 67)。更重要的是,DL算法已被证明能够定位和分类 (localize and classify)多种脑畸形,一项研究报告的总准确率高达99%(参考文献 75)。 - 心脏: DL模型可以
自动获取胎儿心脏标准平面 (acquire automatically standard planes)(参考文献 47, 77-79),识别心脏结构,评估形态 (参考文献 78, 83-85)。在先天性心脏病 (CHD)检测方面,已构建DL模型来识别左心发育不良综合征 (hypoplastic left heart syndrome)和室间隔缺损 (ventricular septal defects)(参考文献 8, 85, 98-101)。分割 (segmentation)DL模型甚至能描绘和隔离 (delineate and isolate)整个室间隔缺损,便于准确测量。 - 胎盘: DL模型能够
快速可靠地 (rapidly and reliably)进行胎盘生物测量 (placental biometry),评估胎盘位置和外观 (参考文献 104-106)。此外,分割 (segmentation)DL模型在识别和定位胎盘腔隙 (placental lacunae)方面也表现出良好准确性 (good accuracy)(参考文献 111),这有助于检测异常侵袭性胎盘 (abnormal invasive placentation)。
- 标准平面检测: DL算法可以准确检测不同的胎儿标准平面 (参考文献 46-55)。特别地,执行
-
产时超声:
-
DL模型在产时超声中,特别是
胎儿枕骨位置 (fetal occiput position)的自动分类方面显示出潜力,能够将胎位分类为枕前 (occiput anterior)、枕后 (posterior)或枕横 (transverse)(参考文献 130, 131)。这有助于在分娩过程中进行快速决策,从而改善结局。总的来说,论文强调了DL作为一种
支持工具 (support tool)的巨大潜力,它能够提高效率 (improve efficiency)、增加胎儿异常的检出率 (increase detection rates of fetal abnormalities),并优化医疗服务质量 (optimize the quality of medical services)。
-
6.2. 数据呈现 (表格)
本论文为综述性文章,并未包含作者自身实验结果的表格数据。文中主要通过文字描述和引用其他研究的发现来支持其论点。
6.3. 消融实验/参数分析
本论文为综述性文章,并未进行具体的消融实验或参数分析。这些类型的实验通常在提出新模型或算法的研究论文中进行,用于验证模型各组件的有效性或关键超参数对结果的影响。本综述主要总结了现有深度学习在胎儿成像领域的研究进展和临床适用性。
7. 总结与思考
7.1. 结论总结
本综述全面探讨了人工智能 (Artificial Intelligence, AI) 和深度学习 (Deep Learning, DL) 在胎儿超声成像中的应用,强调了其作为图像分析领域最先进 (state-of-the-art)工具的地位。论文总结认为,DL在胎儿成像中的常规实施 (routine implementation)是必然趋势,它提供了客观性 (objectivity)、可重复性 (reproducibility)、速度 (speed)和准确性 (accuracy)等显著优势,使其成为产前超声的有力支持工具 (support tool)。DL有望通过自动测量胎儿结构、识别正常与异常胎儿解剖以及辅助产时超声等方式,克服传统超声检查中高度依赖操作者经验的局限性,提高胎儿畸形的检出率,优化医疗服务质量。此外,DL技术对于改善农村地区 (rural areas)或低收入国家 (low-income countries)的医疗可及性具有重要意义。
7.2. 局限性与未来工作
论文也批判性地指出了当前深度学习在胎儿成像领域面临的显著局限性,并提出了未来的研究方向:
-
数据量要求 (Amount of data required):
- 局限性: 训练DL模型需要
大量 (large amount)的标注数据 (labeled data),而胎儿超声图像,特别是包含罕见或复杂畸形的图像,获取和精确标注成本高昂。相似的超声平面(如经脑室和经丘脑平面)需要更大的数据库来区分。回顾性数据库 (retrospective databases)可能引入固有偏差 (inherent bias)。 - 未来工作: 探索
数据增强 (data augmentation)技术以扩充数据集;开发“未锁定算法 (unlocked algorithms)”以在临床实践中持续学习(尽管存在灾难性干扰 (catastrophic interference)的风险);制定样本量 (sample size)计算的标准化方法,以减少研究间的异质性 (heterogeneity)。
- 局限性: 训练DL模型需要
-
图像识别的固有偏差 (Inherent bias of image recognition):
- 局限性: DL模型可能对
正常解剖变异 (normal anatomical variations)产生误解 (misinterpret)。人工标注 (manual annotation)的真值 (ground-truth)数据可能引入偏差 (bias)。目前的DL模型通常不考虑患者病史 (clinical history)、遗传疾病 (genetic disorders)或母体体型 (maternal habitus)等重要的临床变量 (clinical variables),这可能导致诊断不全面或错误。 - 未来工作: 改进模型以更好地处理
解剖变异 (anatomical variations);开发更稳健、偏差更小的标注方法;探索如何将非图像的临床数据 (clinical data)整合到DL模型中,以实现更全面的诊断。
- 局限性: DL模型可能对
-
结果的可解释性 (Interpretability of results):
- 局限性: DL模型存在“
黑箱问题 (black box problem)”,即其决策过程复杂且难以解释。这种缺乏透明度使得医学专业人员难以信任和完全接受这项新技术。 - 未来工作: 发展
可解释人工智能 (explainable AI, XAI)技术,以揭示DL模型做出特定决策的依据,从而提高医生对模型的信任度和采纳度。
- 局限性: DL模型存在“
-
伦理挑战 (Ethical challenges):
- 局限性: 涉及
问责制 (accountability)问题(错误诊断的责任归属);数据隐私 (data privacy)风险(患者敏感数据与第三方共享);以及对算法是否取代人类 (algorithms replacing humans)导致失业的担忧。 - 未来工作: 制定明确的
监管框架 (regulatory framework)和伦理准则 (ethical guidelines)来解决问责、数据保护和就业影响等问题。通过前瞻性研究 (prospective studies)来指导政策制定者和立法者将AI融入医疗环境。
- 局限性: 涉及
-
多任务集成:
- 局限性: 大多数现有DL模型仅专注于单一任务或单一胎儿结构。
- 未来工作: 迫切需要开发更多的
多任务DL模型 (multitasking DL models),能够整合胎儿标准平面检测、解剖结构识别和自动测量。这些集成模型应能处理超声检查中收集到的数据,并在怀疑胎儿畸形时发出警报 (raise a red flag)。
-
临床验证:
- 局限性: 大多数DL算法尚未在
真实生活场景 (real-life scenario)中,用真实患者 (real patients)进行前瞻性验证 (prospectively validated)。它们在面对未训练过的畸形 (malformations)或正常解剖变异 (normal anatomical variations)时的表现尚不清楚。 - 未来工作: 在
前瞻性临床研究 (prospective clinical studies)中严格评估这些算法的性能和鲁棒性 (robustness),这是将其成功实施到临床实践中的强制性步骤。
- 局限性: 大多数DL算法尚未在
7.3. 个人启发与批判
7.3.1. 个人启发
这篇综述深刻揭示了深度学习在医学成像领域,特别是胎儿超声诊断中,所蕴含的巨大潜力和变革力量。
- 突破“人”的局限: 胎儿超声诊断的
操作者依赖性 (operator-dependent)一直是其主要瓶颈。DL提供了一种客观、可量化的解决方案,能够显著减少观察者间变异性 (interobserver variability),提高诊断的一致性 (consistency)和可靠性 (reliability)。这对于初级医师的培训和欠发达地区的医疗普及具有颠覆性意义。 - 效率与精准的结合: 自动化的生物测量、标准平面检测和畸形筛查,不仅能大幅
缩短检查时间 (examination times),提高临床工作流程的效率 (efficiency),还能在早期发现细微异常 (subtle anomaly),从而改善围产期结局。这种效率与精准的结合是传统方法难以企及的。 - 赋能而非取代: 论文明确指出DL并非旨在取代专家,而是作为
支持工具 (support tool)。这种“人机协作”的范式是未来医疗AI发展的核心理念,AI承担重复性、高精度的工作,让医生能更专注于复杂的决策和医患沟通。 - 跨领域借鉴: 胎儿超声作为高噪声、低对比度、动态变化的图像模式,其DL应用经验可为其他医学影像领域(如心脏超声、内镜影像等)提供宝贵的借鉴,尤其是在克服数据标注挑战、处理复杂解剖结构和评估形态变化方面。
7.3.2. 批判性思考与潜在问题
尽管前景广阔,但结合论文的局限性讨论,我认为DL在胎儿超声成像的实际落地中仍存在一些关键问题和挑战:
- 数据鸿沟与普适性问题: 论文强调了训练所需
大量标注数据 (large amount of labeled data)的难题。如果训练数据主要来源于少数几个发达国家的医疗中心,那么模型在面对全球范围内不同人种、不同体型、不同超声设备和不同胎儿发育特征的数据时,其普适性 (generalizability)和鲁棒性 (robustness)将受到严重考验。这可能加剧医疗不平等,而非解决它。如何构建真正多样化 (diverse)、多中心 (multi-center)、高质量 (high-quality)的前瞻性数据库 (prospective databases)是核心。 - 罕见病与非典型表现的挑战: DL模型在识别训练数据中
常见模式 (common patterns)方面表现出色,但对于罕见病 (rare diseases)或非典型表现 (atypical presentations)的识别能力 (detection capability)可能较弱。这些正是最需要专家经验的复杂病例,也是AI最难覆盖的“长尾”问题。如果AI在这些情况下给出假阴性 (false negative)结果,其临床后果可能比假阳性 (false positive)更严重。 - 可解释性与信任壁垒: “
黑箱问题 (black box problem)”是AI在医疗领域推广的根本障碍。医生不仅需要知道AI给出了什么诊断,更需要理解AI为什么给出这个诊断。缺乏可解释性 (explainability)将严重影响医生对AI的信任,也限制了医生从AI中学习和纠正其错误的可能。未来的研究必须在性能和可解释性之间寻求更好的平衡。 - 动态超声的挑战: 超声是实时、动态的成像模式。大多数DL研究可能基于静态图像或短视频片段。如何在实时、连续、探头运动的环境中,提供
稳定 (stable)、低延迟 (low-latency)且鲁棒 (robust)的DL辅助功能,是一个巨大的工程挑战。 - 法规和伦理的滞后性:
问责制 (accountability)、数据隐私 (data privacy)和算法偏见 (algorithmic bias)等伦理问题在技术快速发展的同时,其监管框架 (regulatory framework)和伦理准则 (ethical guidelines)却往往滞后。在这些问题得到明确解决之前,DL在临床实践中的大规模应用将面临巨大的法律和社会阻力。 - 与临床工作流的无缝集成: 仅仅开发出高性能的DL模型是不够的,还需要考虑如何将其
无缝集成 (seamless integration)到现有临床工作流中,使其真正成为医生易于使用 (user-friendly)且高效 (efficient)的工具,而不是增加医生的负担。
7.3.3. 改进方向
未来工作的改进,除了论文中提到的多任务模型和前瞻性验证,还可以重点关注:
-
多模态数据融合: 结合超声图像、患者病史、基因检测结果、血液指标等多种数据源,构建更全面的
多模态AI模型 (multimodal AI models),以提供更准确、更个体化的诊断。 -
联邦学习与隐私保护: 探索
联邦学习 (federated learning)等技术,允许不同医疗机构在不共享原始数据的情况下共同训练模型,以解决数据孤岛和隐私保护问题。 -
主动学习与人机协同: 引入
主动学习 (active learning)机制,让AI识别出自己不确定或认为有挑战性的病例,并将其提交给人类专家进行复核和标注,从而高效地利用专家资源,并迭代优化AI性能。 -
模拟与合成数据: 结合超声物理模型和
生成对抗网络 (Generative Adversarial Networks, GANs)等技术,生成合成超声图像 (synthetic ultrasound images)来扩充训练数据,尤其是在罕见病和非典型表现方面,减少对稀缺真实病例的依赖。总之,深度学习在胎儿超声成像领域的应用前景光明,但其发展需要技术创新、多学科协作、伦理规范以及审慎的临床验证同步推进。
相似论文推荐
基于向量语义检索推荐的相关论文。