Medical image recognition and segmentation of pathological slices of gastric cancer based on Deeplab v3 + neural network
TL;DR 精炼摘要
本研究提出了一种基于Deeplab v3+神经网络的自动胃癌病理切片分割模型。通过多尺度输入策略,对1240张图像进行测试,模型在敏感性、特异性、准确率和Dice系数等指标上表现优异,显著超越其他现有模型,且参数规模显著缩小,具有广泛的临床应用潜力。
摘要
Objective: In order to improve the efficiency of gastric cancer pathological slice image recognition and segmentation of cancerous regions, this paper proposes an automatic gastric cancer segmentation model based on Deeplab v3 + neural network. Methods: Based on 1240 gastric cancer pathological slice images, this paper proposes a multi-scale input Deeplab v3 + network, and compares it with SegNet, ICNet in sensitivity, specificity, accuracy, and Dice coefficient. Results: The sensitivity of Deeplab v3 + is 91.45%, the specificity is 92.31%, the accuracy is 95.76%, and the Dice coefficient reaches 91.66%, which is more than 12% higher than the SegNet and Faster-RCNN models, and the parameter scale of the model is also greatly reduced. Conclusion: Our automatic gastric cancer segmentation model based on Deeplab v3 + neural network has achieved better results in improving segmentation accuracy and saving computing resources. Deeplab v3 + is worthy of further promotion in the medical image analysis and diagnosis of gastric cancer.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
医疗图像识别与分割:基于 Deeplab v3+ 神经网络的胃癌病理切片研究 (Medical image recognition and segmentation of pathological slices of gastric cancer based on Deeplab v3 + neural network)
1.2. 作者
- Jing Wang, Xiuping Liu*: 王晶,刘秀平*
- 隶属机构: 中国医科大学盛京医院普外科 (Department of General Surgery Shengjing Hospital of China Medical University)
- 背景分析: 作者来自国内知名医院的临床科室,表明本研究是典型的医学与人工智能交叉学科研究,旨在利用计算机视觉技术解决临床病理诊断中的实际问题。
1.3. 发表期刊/会议
论文末尾标注 "© 2021 Elsevier B.V. All rights reserved.",表明该论文发表于 爱思唯尔 (Elsevier) 旗下的期刊。爱思唯尔是全球领先的科学、技术和医学信息分析公司,其出版的期刊在学术界具有较高的声誉和影响力。
1.4. 发表年份
2021年。根据论文信息,该文于2021年3月16日收到,并于2021年5月24日被接受。
1.5. 摘要
- 研究目的: 旨在提高胃癌病理切片图像中癌变区域识别与分割的效率。
- 核心方法: 提出了一种基于
Deeplab v3+神经网络的自动胃癌分割模型,并引入了多尺度输入 (multi-scale input) 策略。 - 主要结果: 在1240张胃癌病理切片图像上进行测试,所提出的
Deeplab v3+模型在敏感性 (sensitivity)、特异性 (specificity)、准确率 (accuracy) 和 Dice系数 (Dice coefficient) 等多项指标上均表现出色,分别达到了91.45%、92.31%、95.76%和91.66%。这些结果比SegNet和Faster-RCNN等模型高出12%以上,同时模型的参数规模也显著减小。 - 关键结论: 基于
Deeplab v3+的自动分割模型在提升分割精度和节省计算资源方面效果显著,在胃癌的医学图像分析和诊断领域具有进一步推广的价值。
1.6. 原文链接
-
链接:
/files/papers/691ab690110b75dcc59ae3f0/paper.pdf -
发布状态: 已正式发表。
2. 整体概括
2.1. 研究背景与动机
-
核心问题: 胃癌是全球性的高发病率和高死亡率疾病,但早期发现率较低。病理诊断是诊断胃癌的“金标准” (gold standard),但该过程严重依赖病理医生的专业经验,存在两大挑战:
- 工作负荷大: 病理切片数据量巨大,人工阅片耗时耗力,容易导致医生疲劳,影响诊断的可靠性。
- 资源稀缺: 全球范围内,尤其是中国,病理医生数量严重不足,供需矛盾突出。
-
研究空白 (Gap): 如何利用自动化技术辅助病理医生,提高诊断效率和准确性,缓解医疗资源紧张的现状,是一个亟待解决的关键问题。
-
切入点与创新思路: 本文利用近年来在计算机视觉领域取得巨大成功的卷积神经网络 (Convolutional Neural Networks, CNN) 技术,特别是先进的图像分割 (Image Segmentation) 模型
Deeplab v3+,来自动识别和圈出胃癌病理切片中的癌变区域。其核心思路是训练一个深度学习模型来模仿病理医生的“阅片”过程,从而实现快速、准确的辅助诊断。
2.2. 核心贡献/主要发现
-
方法贡献: 提出并验证了一种基于
Deeplab v3+并结合多尺度输入 (multi-scale input) 策略的胃癌病理切片自动分割模型。多尺度输入策略旨在让模型更好地捕捉不同大小和形态的癌变区域特征。 -
性能验证: 通过与
SegNet、ICNet等其他主流分割模型的全面对比实验,证明了所提方法在分割精度(敏感性、特异性、准确率、Dice系数)和计算效率(显存占用、训练时间)两方面均具有显著优势。 -
实践价值: 研究结果表明,该模型能够有效辅助病理医生进行诊断,有望减轻其工作压力,提高诊断效率和一致性,对推动人工智能技术在病理诊断领域的应用具有重要意义。
3. 预备知识与相关工作
3.1. 基础概念
-
卷积神经网络 (Convolutional Neural Network, CNN): CNN是一种专门用于处理具有网格状拓扑结构数据(如图像)的深度学习模型。它通过模仿人类视觉皮层的工作方式,利用卷积层 (convolutional layer) 来提取图像的局部特征(如边缘、纹理),再通过池化层 (pooling layer) 来降低特征图的维度并保持特征的不变性,最后通过全连接层 (fully connected layer) 进行分类或回归。CNN在图像识别、目标检测和图像分割等任务中取得了革命性的成功。
-
图像分割 (Image Segmentation): 图像分割是计算机视觉中的一项基本任务,其目标是将图像中的每个像素点都划分到一个特定的类别中。与图像分类(判断整张图是什么)和目标检测(用方框框出物体)不同,图像分割要求达到像素级别 (pixel-level) 的精细识别,输出一张与原图大小相同的“分割图”,图中不同颜色代表不同类别。在本文中,任务就是将病理切片图像中的像素分为“癌变区域”和“非癌变区域”两类。
3.2. 前人工作
本文主要提及并比较了以下几种深度学习分割模型:
-
Deeplab v3+: 这是Google团队提出的一个先进的语义分割模型系列。
Deeplab v3+的核心特点是结合了编码器-解码器 (Encoder-Decoder) 架构和空洞空间金字塔池化 (Atrous Spatial Pyramid Pooling, ASPP) 模块。-
编码器 (Encoder): 通常使用一个强大的CNN(如本文中提到的
Xception)作为主干网络 (backbone) 来提取图像深层语义特征。 -
ASPP模块: 为了解决下采样导致的细节信息丢失问题,
Deeplab系列引入了空洞卷积 (atrous convolution),也叫扩张卷积 (dilated convolution)。它可以在不增加计算量的情况下扩大感受野(即卷积核看到的区域范围),从而捕捉多尺度的上下文信息。ASPP模块并行使用多个不同扩张率的空洞卷积,能够有效地融合不同尺度的特征。 -
解码器 (Decoder): 将编码器输出的粗糙特征图(语义信息丰富但空间分辨率低)与主干网络中较浅层的精细特征图(空间细节丰富但语义信息较弱)相结合,通过上采样 (upsampling) 逐步恢复图像的空间分辨率,从而得到精细的物体边界。 下图是
Deeplab v3+的网络结构示意图,清晰地展示了其编码器-解码器结构以及ASPP模块的应用。
该图像是Deeplab v3 +模型的网络结构示意图。左侧为输入的胃癌病理切片图像,右侧为分割结果,中央展示了编码器和解码器的详细结构,包括多个卷积层和上采样过程。
-
-
SegNet:
SegNet是由剑桥大学团队开发的另一个经典的编码器-解码器架构的分割模型。其主要特点是在解码器上采样时,利用了编码器在对应池化层中记录的最大值位置索引 (max-pooling indices)。这样做的好处是,解码器可以更精确地恢复边界信息,而无需学习上采样过程,从而使得模型更高效。 下图展示了SegNet的模型结构。
该图像是一个示意图,展示了输入的胃癌病理切片图像、卷积编码器-解码器网络结构以及分割结果。左侧为输入切片图像,中间为网络结构,右侧为分割结果。 -
ICNet (Image Cascade Network):
ICNet是一个为实时 (real-time) 语义分割设计的模型,特别擅长处理高分辨率图像。它的核心思想是多分辨率输入:将高、中、低三种不同分辨率的图像同时输入到网络的不同分支中。低分辨率分支负责快速提取语义信息,而高分辨率分支则保留了丰富的空间细节。通过级联融合这些分支的特征,ICNet可以在保持高精度的同时实现非常快的推理速度。
3.3. 技术演进
从早期的传统图像处理方法(如阈值分割、边缘检测)到深度学习时代,图像分割技术经历了巨大的变革。基于CNN的分割模型,如全卷积网络 (FCN),首次实现了端到端的像素级预测。此后,U-Net、SegNet等编码器-解码器架构成为主流,它们通过“先压缩再解压”的方式有效结合了深层语义和浅层细节。而Deeplab系列则通过引入空洞卷积和ASPP,进一步提升了模型捕捉多尺度上下文信息的能力,成为语义分割领域的标杆模型之一。
3.4. 差异化分析
本文方法与相关工作的主要区别和创新点在于:
-
模型选择: 选择了性能强大的
Deeplab v3+作为基础模型,它在捕捉多尺度上下文信息方面优于SegNet等早期模型。 -
策略优化: 在
Deeplab v3+的基础上,明确提出了多尺度输入 (multi-scale input) 的策略。虽然ICNet也使用多分辨率输入,但本文将其应用于Deeplab v3+,旨在专门优化对胃癌病理图像中形态大小各异的癌变区域的分割效果。 -
应用领域: 将这些先进的通用分割模型应用于胃癌病理切片这一特定且具有挑战性的医学图像领域,并进行了系统的性能评估和比较。
4. 方法论
4.1. 方法原理
本研究的核心思想是利用 Deeplab v3+ 模型强大的图像分割能力,对胃癌病理切片图像进行像素级的癌变区域识别。为了进一步提升模型对病理图像中不同尺寸、不同形态癌变细胞团块的适应性,作者引入了多尺度输入的策略,让模型在训练时接触到不同分辨率的图像,从而学习到更加鲁棒和泛化的特征。
下图(原文 Figure 1)展示了整个研究的技术流程:
该图像是示意图,展示了胃癌病理切片图像的处理流程。从左侧的输入切片图像开始,经过数据增强后,进行胃切片图像分类、肿瘤目标检测和目标分割,最终输出分割结果。
4.2. 核心方法详解 (逐层深入)
4.2.1. 数据预处理与增强
在将图像送入神经网络之前,需要进行一系列的预处理和增强操作,以提升模型的训练效果和泛化能力。
-
数据增强 (Data Enhancement): 由于医学图像数据通常难以大量获取,为了有效扩充样本数量,防止模型过拟合,研究中采用了多种数据增强技术,包括:
- 镜像 (Mirroring): 水平翻转图像。
- 翻转 (Flipping): 垂直翻转图像。
- 缩放 (Scaling): 改变图像尺寸。
- 旋转 (Rotation): 按一定角度旋转图像。 这些操作可以在不改变图像语义内容的前提下,生成大量新的训练样本,提高模型的鲁棒性。
-
数据归一化 (Data Normalization): 为了加速模型收敛并提高训练稳定性,需要对输入图像的像素值进行归一化处理。本文采用标准化 (Standardization) 方法,其计算公式如下(原文 Eq. (1)):
- 符号解释:
- : 归一化后输出的像素值。
- : 原始输入图像的像素值。
- : 整个训练样本集中所有像素值的均值 (mean)。
- : 整个训练样本集中所有像素值的方差 (variance)。
- 目的分析: 该操作将所有像素值重新缩放到一个均值为0、方差为1的标准正态分布附近。这有助于消除不同图像因光照、染色差异带来的影响,使得模型能够更专注于学习真正的病理特征。
- 符号解释:
4.2.2. 模型训练与优化
- 模型初始化: 采用迁移学习 (Transfer Learning) 的思想,使用在大型自然图像数据集
ImageNet上预训练好的模型权重来初始化网络参数。这可以大大加快模型的收敛速度,并提高在小规模医学数据集上的性能。 - 参数更新: 使用梯度下降法来更新模型参数,初始学习率设置为 0.001。
- 损失函数 (Loss Function): 在图像分割任务中,当正负样本(癌变区域与背景)数量不均衡时,传统的准确率指标可能不适用。因此,本文采用基于 Dice 系数 (Dice Coefficient) 的损失函数。Dice 系数衡量的是预测分割区域与真实标注区域的重合度。损失函数
Loss定义为1 - Dice。 当 Dice 系数接近1时(预测与真实值完美重合),损失值接近0,模型训练效果好。反之,当 Dice 系数接近0时(几乎无重合),损失值接近1,模型需要进一步优化。
5. 实验设置
5.1. 数据集
-
来源与规模: 实验数据集包含 1340张 胃癌病理切片图像。但原文 Table 1 中给出的训练集和测试集数量之和为 1240 (训练集 396 + 测试集 844),与摘要中的1240张吻合,但与正文描述的1340张存在出入。这可能是原文的笔误。
-
数据划分: 数据集被划分为训练集和验证集。原文描述为“70%为测试集,30%为验证集”,但根据 Table 1 的数据,测试集(844张)约占总数(1240张)的68%,而训练集(396张)约占32%。这里的“验证集”在表格中被标注为“训练集”,这可能是术语使用上的混淆,通常数据集划分为训练集、验证集和测试集。此处我们依据表格数据进行分析。
以下是原文 Table 1 的数据划分:
分类 (Classification) 数量 (Quantity) 训练集 (Training set) 396 测试集 (Test set) 844
5.2. 评估指标
为了全面评估模型的分割性能,本文采用了四种常用的评估指标。这些指标的计算都基于一个混淆矩阵 (Confusion Matrix)。
以下是原文 Table 2 展示的混淆矩阵结构:
| 实际值 (Actual value) | 正例 (Positive (P)) | 负例 (Negative (N)) | 总计 (Total) |
| 正例 (Positive (T)) | 真正例 (True Positive, TP) | 真负例 (True Negative, TN) | TP+TN |
| 负例 (Negative (F)) | 假正例 (False Positive, FP) | 假负例 (False Negative, FN) | FP+FN |
| 总计 (Total) | TP+FP | TN+FN | TP+TN+FP+FN |
TP(真正例): 实际为癌变区域,模型也正确预测为癌变区域的像素数。TN(真负例): 实际为背景区域,模型也正确预测为背景区域的像素数。FP(假正例): 实际为背景区域,但模型错误地预测为癌变区域的像素数(误报)。FN(假负例): 实际为癌变区域,但模型错误地预测为背景区域的像素数(漏报)。
5.2.1. 敏感性 (Sensitivity, Sen)
- 概念定义: 也称为召回率 (Recall) 或真阳性率 (True Positive Rate)。它衡量的是在所有实际为正例的样本中,被模型正确预测为正例的比例。在医学诊断中,该指标非常重要,因为它反映了模型“查全”的能力,即找出所有病灶的能力。高敏感性意味着低漏诊率。
- 数学公式: (原文 Eq. (2))
- 符号解释:
TP: 真正例的数量。FN: 假负例的数量。- : 所有实际为正例(癌变区域)的像素总数。
5.2.2. 特异性 (Specificity, Spe)
- 概念定义: 也称为真阴性率 (True Negative Rate)。它衡量的是在所有实际为负例的样本中,被模型正确预测为负例的比例。该指标反映了模型区分阴性样本的能力。高特异性意味着低误诊率(即将健康的区域误判为病灶的概率低)。
- 数学公式: (原文 Eq. (3))
- 符号解释:
FP: 假正例的数量。TP: 真正例的数量。TN: 真负例的数量。
- 注意: 原文给出的该公式 (FP / (TP + TN)) 是一个非标准且不正确的公式。标准的特异性计算公式应为 。此处严格按照原文呈现,但在后续分析中会指出这一问题。
5.2.3. 准确率 (Accuracy, Acc)
- 概念定义: 衡量的是在所有样本中,被模型正确预测(包括正确预测为正例和正确预测为负例)的比例。这是最直观的评估指标,但在样本类别不均衡(如癌变区域远小于背景区域)时,该指标可能会产生误导。
- 数学公式: (原文 Eq. (4))
- 符号解释:
TP, TN, FP, FN: 分别代表真正例、真负例、假正例和假负例的数量。分母是总像素数。
5.2.4. Dice 系数 (Dice Coefficient)
- 概念定义: 这是一种用于评估两个样本相似度的集合度量,在图像分割领域被广泛用于衡量预测分割区域与真实标注区域的重合程度。其值域为 [0, 1],值越接近1,表示分割效果越好。相比准确率,Dice系数对样本不均衡问题不敏感,是分割任务中更核心的评估指标。
- 数学公式: (原文 Eq. (5))
- 符号解释:
- : 真实标注的标签矩阵 (ground truth mask)。
- : 模型预测的标签矩阵 (predicted mask)。
- 公式的直观理解是 2 * (预测区域与真实区域的交集) / (预测区域面积 + 真实区域面积)。
5.3. 对比基线
本文将提出的 Deeplab v3+ 模型与以下两个基线模型 (Baselines) 进行了比较:
- SegNet: 一个经典的基于编码器-解码器架构的语义分割模型。
- ICNet: 一个为实时高分辨率图像分割设计的模型。 这两个基线具有代表性,涵盖了不同设计思路的分割网络,能够有效地验证本文所提方法的优越性。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 定性结果(分割效果图)
下图(原文 Figure 5)直观地展示了不同模型在胃癌病理切片上的分割效果。
该图像是图表,展示了三个病例的胃癌病理切片在不同模型(Deeplab v3+、SegNet 和 ICNet)下的分割结果。左侧显示原始图像,右侧则分别是三种模型的分割效果,表明了不同算法在病变区域识别上的差异。
从图中可以观察到,相较于 SegNet 和 ICNet,Deeplab v3+ 模型预测的癌变区域(图中高亮部分)与原始图像中的病灶区域吻合度更高,边界更清晰,能够更完整地识别出不规则形状的癌变团块,而其他两个模型的分割结果则存在明显的漏识别或边界不准确的问题。
6.1.2. 定量结果(性能指标对比)
下图(原文 Figure 6)和下表(原文 Table 3)从多个量化指标上对比了各模型的性能。

核心发现:
- Deeplab v3+ 的优越性: 无论是否使用多尺度输入,
Deeplab v3+在所有四项指标(Sen, Spe, Acc, Dice)上都显著优于SegNet和ICNet。如图6所示,Deeplab v3+的各项指标均在90%左右,而其他两个模型则在80%左右徘徊。 - 多尺度输入的有效性: 对于所有三种模型,引入多尺度输入 (multi-scale) 策略后,性能都有了进一步的提升。以
Deeplab v3+为例,加入多尺度输入后,Dice系数从89.99%提升至91.66%,其他指标也均有约2%的提升。这证明了多尺度输入策略对于处理病理图像中大小不一的癌变区域是行之有效的。 - 最终模型的卓越性能: 最终提出的
Deeplab v3+ + multi-scale模型取得了最佳性能:敏感性91.45%,特异性92.31%,准确率95.76%,Dice系数91.66%。摘要中提到,该性能比SegNet等模型高出12%以上,与表格数据基本吻合(例如,Dice系数91.66%相比SegNet的80.22%提升了超过11个百分点)。
6.2. 数据呈现 (表格)
以下是原文 Table 3 的结果,详细对比了三种模型在有无多尺度输入结构下的性能:
| 模型 (Model) | Sen (%) | Spe (%) | Acc (%) | Dice (%) |
|---|---|---|---|---|
| Deeplab v3+ | 89.42 | 90.17 | 91.24 | 89.99 |
| Deeplab v3+ +multi-scale | 91.45 | 92.31 | 95.76 | 91.66 |
| SegNet | 78.25 | 78.96 | 79.55 | 80.22 |
| SegNet +multi-scale | 80.12 | 80.05 | 81.22 | 82.01 |
| ICNet | 76.45 | 77.33 | 76.84 | 78.22 |
| ICNet +multi-scale | 79.56 | 80.12 | 79.68 | 80.33 |
6.3. 消融实验/参数分析
6.3.1. 多尺度输入策略的消融分析
Table 3 的对比实验本身可以视为一项消融实验 (Ablation Study)。通过比较“模型+多尺度”与“单独模型”的性能差异,可以验证“多尺度输入”这个组件的有效性。实验结果清晰地表明,多尺度输入对 Deeplab v3+、SegNet 和 ICNet 均有正面提升作用,证明了该策略的通用性和有效性。
6.3.2. 计算资源效率分析
除了分割精度,模型的计算效率也是一个重要的考量因素。以下是原文 Table 4 的结果,对比了三个模型(均采用多尺度输入)在GPU上的运行性能:
| 模型 (Model) | 显存占用 (Video memory, GB) | GPU 使用率 (GPU usage, %) | 训练时间 (Training time, h) |
|---|---|---|---|
| Deeplab v3+ | 2.42 | 86.44 | 12.42 |
| SegNet | 4.16 | 46.58 | 17.89 |
| ICNet | 4.35 | 41.41 | 17.68 |
分析:
-
显存占用与训练时间:
Deeplab v3+模型在性能最佳的同时,计算资源消耗也最低。其显存占用仅为2.42GB,远低于SegNet(4.16GB) 和ICNet(4.35GB)。训练时间也最短,仅需12.42小时。 -
GPU使用率:
Deeplab v3+的GPU使用率高达86.44%,说明其模型结构能够更充分地利用硬件计算能力,并行化程度更高,这也是其训练速度快的原因之一。 -
综合评价:
Deeplab v3+不仅在精度上领先,在效率上也同样出色,实现了精度与效率的双赢,这使其在实际临床部署中更具可行性。
7. 总结与思考
7.1. 结论总结
本文成功地将 Deeplab v3+ 神经网络应用于胃癌病理切片的自动分割任务中。通过引入多尺度输入策略,所提出的模型在分割精度和计算效率方面均取得了优异的成果。实验证明,该模型相比 SegNet 和 ICNet 等基线模型具有明显优势,其在敏感性、特异性、准确率和Dice系数上均达到了91%以上,同时显著降低了对计算资源的需求。这表明,基于深度学习的自动分割技术在辅助病理诊断、提高医生工作效率方面具有巨大的应用潜力。
7.2. 局限性与未来工作
论文作者在“讨论 (Discussion)”部分指出了研究中存在的局限性,并提出了未来可能的研究方向:
- 样本标注问题: 当前模型在训练时,会将一些未被标注的阳性区域(癌变区域)视为阴性区域(背景),这会给模型训练带来一定的误差。未来可以研究使用迭代式 (iterative) 的方法,在训练过程中逐步生成和修正阳性区域的标注,以进一步提升模型性能。
- 特征融合: 病理医生在诊断时会关注细胞核的排列信息。未来可以将细胞核分割算法提取出的细胞核掩码图像(cell nucleus mask)作为额外的输入信息,与原始病理图像一同送入网络进行训练,让模型学习到更丰富的细胞级微观特征,从而提高分割性能。
7.3. 个人启发与批判
-
启发:
- 交叉学科的价值: 本研究是医学与人工智能深度融合的成功案例,展示了AI技术解决临床实际痛点的巨大潜力。
- 模型选择与优化的重要性: 针对特定任务(如病理图像分割),选择合适的模型架构 (
Deeplab v3+)并结合有效的策略(多尺度输入)是取得成功的关键。 - 评估的全面性: 除了精度指标,对计算效率(显存、时间)的评估同样重要,这直接关系到技术能否在资源有限的实际环境中落地应用。
-
批判性思考 (潜在问题):
- 数据描述不一致: 文中对数据集总量的描述(1340 vs 1240)以及训练/测试集划分比例的描述存在前后不一致,这在一定程度上影响了研究的严谨性。
- 方法细节缺失: 论文提出的核心优化点“多尺度输入”并未详细阐述其具体实现方式(例如,使用了哪些尺度?如何融合多尺度特征?),这使得研究的可复现性降低。
- 评估指标公式错误: 如前所述,文中给出的特异性 (Specificity) 计算公式(Eq. 3)是错误的。这属于一个较为严重的笔误,可能会误导不熟悉该领域的读者。正确的公式应为 。
- 摘要与正文不符: 摘要中提到了与
Faster-RCNN模型的比较,但Faster-RCNN是一个目标检测 (object detection) 模型,其输出是边界框而非像素级分割图,直接与分割模型比较性能在技术上是不对等的。更重要的是,在论文的实验结果部分(表格和图表)中,完全没有出现Faster-RCNN的任何数据,这表明摘要中的陈述可能不准确或引用了未在正文中展示的结果。
相似论文推荐
基于向量语义检索推荐的相关论文。