A Comprehensive Survey of Multi‑Level Thresholding Segmentation Methods for Image Processing
TL;DR 精炼摘要
本文全面综述了图像处理中的多级阈值分割方法,强调通过多范围强度分区来捕捉图像复杂性。重点讨论了元启发式算法在优化阈值方面的应用,同时分析了各种方法的优缺点及未来研究方向,如处理复杂图像和自动确定阈值。
摘要
In image processing, multi-level thresholding is a sophisticated technique used to delineate regions of interest in images by identifying intensity levels that differentiate different structures or objects. Multi-range intensity partitioning captures the complexity and variability of an image. The aim of metaheuristic algorithms is to find threshold values that maximize intra-class differences and minimize inter-class differences. Various approaches and algorithms are reviewed and their advantages, limitations, and challenges are discussed in this paper. In addition, the review identifies future research areas such as handling complex images and inhomogeneous data, determining thresholding levels automatically, and addressing algorithm interpretation. The comprehensive review provides insights for future advancements in multilevel thresholding techniques that can be used by researchers in the field of image processing.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
A Comprehensive Survey of Multi‑Level Thresholding Segmentation Methods for Image Processing
1.2. 作者
Mohammad Amiriebrahimabadi, Zhina Rouhil, Najme Mansouri
1.3. 发表期刊/会议
未明确提及具体的期刊名称,但从 Published online: 27 March 2024 以及 Springer Nature 的声明来看,很可能发表在 Springer 旗下的某本期刊。该论文聚焦于图像处理领域的多级阈值分割方法,因此该期刊在图像处理或计算机视觉领域应具有一定影响力。
1.4. 发表年份
2024年
1.5. 摘要
在图像处理中,多级阈值分割(Multi-level Thresholding Segmentation)是一种复杂的图像处理技术,通过识别不同结构或对象之间的强度水平来描绘图像中的感兴趣区域。多范围强度分区(Multi-range Intensity Partitioning)能够捕捉图像的复杂性和变异性。元启发式算法(Metaheuristic Algorithms)旨在找到最大化类内差异(intra-class differences)并最小化类间差异(inter-class differences)的阈值。本文综述了各种方法和算法,并讨论了它们的优点、局限性和挑战。此外,该综述还指出了未来的研究领域,例如处理复杂图像和不均匀数据、自动确定阈值级别以及解决算法解释性(algorithm interpretation)问题。这篇全面的综述为图像处理领域的研究人员提供了多级阈值分割技术未来发展的见解。
1.6. 原文链接
原文链接: /files/papers/692b228e4114e99a4cde874e/paper.pdf 发布状态:已在线发表 (Published online: 27 March 2024)
2. 整体概括
2.1. 研究背景与动机
图像分割(Image Segmentation)是将图像分成有意义的、具有语义连贯性的区域或对象的关键过程,广泛应用于对象识别和理解、医学成像、自主系统和机器人、增强现实(Augmented Reality)和虚拟现实(Virtual Reality)、视频监控和安全、图像编辑和操纵、环境监测以及农业等领域。阈值分割(Thresholding Segmentation)是图像分割的一种简单直接的方法,通过将图像背景与前景分离,并能够从图像中一次性提取多个部分。当处理具有复杂强度分布的图像时,单级阈值分割(Bi-level Thresholding)往往不足以精确区分不同的对象或结构。因此,多级阈值分割(Multi-level Thresholding)应运而生,它通过设置多个阈值来将图像分割成更多的强度级别,从而提高分割的精度,尤其是在适应强度变化和捕捉图像中不同对象或区域的细节方面。
当前研究的动机在于:
-
多级阈值分割的复杂性与挑战: 随着图像复杂性和变异性的增加,确定最佳阈值成为主要挑战。传统方法可能效率低下,或者无法处理高维或非线性复杂计算。
-
元启发式算法的兴起: 元启发式算法(Meta-Heuristic Algorithms,MAs)因其随机搜索能力、无需导数、灵活性高以及能够避免局部最优(Local Optima)等优点,在处理优化问题方面展现出强大潜力,成为多级阈值阈值分割领域的重要工具。
-
缺乏全面系统的综述: 尽管多级阈值分割和元启发式算法在图像处理中应用广泛,但缺乏一篇专门且全面地概述该领域各种方法、技术演进、挑战和未来方向的综述文章。
本文旨在通过对多级阈值分割方法的全面综述,帮助研究人员更好地理解该领域的现状,识别改进空间,并指导未来的研究方向。
2.2. 核心贡献/主要发现
本文作为一篇综述文章,主要贡献在于:
-
全面审查: 对基于多级阈值图像分割的相关综述进行了全面的回顾。
-
详细分类: 提供了阈值分割方法(如 Otsu、Kapur 等)的详细分类。
-
应用与案例研究: 详细分类了阈值分割的应用和案例研究。
-
数据集对比: 对现有图像分割技术进行了描述,并分析了不同数据集,指出了它们的优缺点。
-
仿真环境与评估指标: 介绍了仿真环境、编程语言和案例研究,并详细讨论了评估算法的指标。
-
研究空白与挑战识别: 识别了多级阈值图像分割领域的研究空白和挑战,以指导未来的研究方向。
核心发现包括:
-
多级阈值分割比传统单级方法更具灵活性和适应性,能更准确地处理复杂图像和多样化的强度分布。
-
元启发式算法在寻找最佳阈值方面表现出色,能够有效降低计算成本并提高分割精度。
-
医学成像、遥感、水下图像分析等领域是多级阈值分割的重要应用场景。
-
当前研究面临的主要挑战包括:参数调优的自动化、阈值级别的自动确定、处理复杂和不均匀图像、噪声敏感性、计算复杂度以及结果的可解释性等。
-
PSNR(Peak Signal-to-Noise Ratio) 和SSIM(Structural Similarity Index Method) 是最常用的评估指标,而 Otsu 熵和 Kapur 熵是最广泛使用的目标函数。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 图像分割 (Image Segmentation)
图像分割是将数字图像划分为多个图像区域或“像素集”的过程。这些区域通常对应于图像中不同的对象、部分或背景,使得每个区域内的像素在某种属性(如颜色、亮度、纹理)上具有相似性。图像分割是许多图像分析任务(如对象识别、医学图像分析)的关键预处理步骤。
3.1.2. 阈值分割 (Thresholding Segmentation)
阈值分割是一种简单而有效的图像分割方法,它通过将图像像素的灰度值与一个或多个预设的阈值进行比较,将图像分为前景和背景或不同的区域。
- 单级阈值分割 (Bi-Level Thresholding, BLT): 使用一个单一的阈值将图像像素分为两类。
- 多级阈值分割 (Multi-Level Thresholding, MLT): 使用多个阈值将图像像素分为多个类别或区域。这使得分割能够捕捉更复杂的图像细节和强度变化。
3.1.3. 元启发式算法 (Meta-Heuristic Algorithms, MAs)
元启发式算法是一类用于解决复杂优化问题的算法,它们通过迭代搜索过程来寻找近似最优解。这些算法通常受到自然现象或生物行为的启发,如群体智能(Swarm Intelligence)、进化(Evolution)等。
- 特点: 无需导数信息、灵活、能够避免局部最优(Local Optima)、随机性强。
- 常见示例:
- 粒子群优化 (Particle Swarm Optimization, PSO): 模拟鸟群捕食行为。
- 鲸鱼优化算法 (Whale Optimization Algorithm, WOA): 模拟座头鲸的捕食策略。
- 差分进化 (Differential Evolution, DE): 一种基于种群的进化算法。
- 遗传算法 (Genetic Algorithm, GA): 模拟自然选择和遗传机制。
- 灰狼优化 (Gray Wolf Optimization, GWO): 模拟灰狼的社会等级和捕食行为。
3.1.4. 目标函数 (Objective Functions)
在优化问题中,目标函数用于量化解决方案的“好坏”。在多级阈值分割中,目标函数用于衡量所选阈值的分割质量,优化算法的目标是最大化或最小化这个函数。
- Otsu 方法: 最大化类间方差(Between-Class Variance)。
- Kapur 熵: 最大化不同类别的熵之和。
- Tsallis 熵: Shannon 熵的推广形式,引入了一个可调参数 。
- 最小交叉熵 (Minimum Cross Entropy, MCE): 最小化原始图像与分割图像之间的交叉熵。
3.2. 前人工作
本文在相关工作部分回顾了多篇图像分割领域的综述文章,与本文的区别主要体现在:
- Nakane et al. [55]: 侧重于进化算法(Evolutionary Algorithms, EAs)和群体算法(Swarm Algorithms, SAs)在计算机视觉问题中的应用,特别是遗传算法(GA)、差分进化(DE)、粒子群优化(PSO)和蚁群优化(Ant Colony Optimization, ACO)。
- Zhang et al. [56]: 专注于微生物计数的数字图像分析方法,从经典图像处理到深度学习方法。
- Agrawal and Choudhary [57]: 针对胸部X光片的肺部分割和肺部疾病检测与分类,包括生成对抗网络(Generative Adversarial Networks, GANs)的应用。
- Mittal et al. [58]: 调查了各种基于聚类的图像分割技术,特别是分区聚类(Partitional Clustering)方法。
- Punn and Agarwal [59]: 描述了 U-Net 框架及其变体在生物医学图像分割中的应用。
- Loyola-Gonzalez et al. [60]: 探讨了基于对比模式(Contrast Pattern-based Classification, CP)的监督分类,及其在数据挖掘中的挑战。
- Iqbal et al. [61]: 全面研究了 GANs 在医学图像分割中的应用,包括各种模型、性能指标和数据集。
- Ramadan et al. [62]: 综述了交互式图像分割(Interactive Image Segmentation, IIS)方法。
- Liu et al. [63]: 提供了基于深度学习的对象检测的全面综述。
- Rai et al. [64]: 专注于自然启发优化算法(Nature-Inspired Optimization Algorithms, NIOA)在多级阈值分割中的应用。
- Borji et al. [65]: 综述了显著对象检测(Salient Object Detection)的最新进展。
- Aljuaid and Anwar [66]: 综述了监督学习在医学图像处理中的应用。
- Sasmal and Dhal [67]: 比较了超像素(Superpixel)图像和聚类技术在图像分割中的应用。
- Aliabugah et al. [68]: 调查了基于元启发式优化方法的多级阈值图像分割,并分析了常见问题。
- Bagwari et al. [69]: 对卫星图像分割技术进行了全面分析。
3.3. 技术演进
图像分割技术从早期的基于灰度、纹理等特征的传统方法(如阈值法、边缘检测、区域生长)发展到后来的机器学习方法(如支持向量机、聚类算法),再到近年来深度学习的兴起(如卷积神经网络 CNN、U-Net、GANs)。在多级阈值分割领域,技术演进主要体现在:
- 从手工阈值到自动阈值: 早期阈值分割依赖专家经验手动设置阈值,效率低下且主观性强。Otsu、Kapur 等方法实现了阈值的自动确定。
- 从单一目标到多目标优化: 随着图像复杂性增加,单一目标函数难以满足需求,多目标优化(Multi-objective Optimization)方法被引入,以平衡多个评估标准。
- 从穷举搜索到元启发式优化: 确定多个阈值是一个组合优化问题,计算复杂度随阈值数量呈指数级增长。元启发式算法的引入,使得在高维搜索空间中高效寻找近似最优阈值成为可能。
- 从传统图像到特定领域应用: 多级阈值分割技术从通用图像处理逐步扩展到医学成像、遥感、工业质检等专业领域,并根据各领域特点进行优化。
3.4. 差异化分析
本文的综述与上述相关工作的主要区别在于其针对性和全面性:
- 针对性: 本文专门聚焦于“多级阈值分割方法”,而其他综述可能更侧重于图像分割的某一特定子领域(如深度学习、聚类方法)或某一特定应用(如医学影像、微生物计数)。
- 全面性: 本文不仅综述了多种目标函数(Otsu、Kapur、Tsallis 等),还详细探讨了元启发式算法在其中的应用,并系统地分析了这些方法的优点、局限性、面临的挑战、常用数据集和评估指标。尤其强调了对元启发式算法的分类(进化、群体、物理/化学、人类启发等),这在其他综述中较少见。
- 未来展望: 本文深入讨论了多级阈值分割在自动参数调优、阈值级别自动确定、处理复杂图像、噪声敏感性、计算复杂度、可解释性以及与其他图像处理问题的结合等方面的未来研究方向,提供了更具指导意义的见解。
4. 方法论
本文作为一篇综述文章,其“方法论”主要体现在其研究方法和综述策略,而非提出新的图像分割算法。
4.1. 研究方法与搜索策略
为了撰写一篇知识丰富的综述文章,作者遵循了三个关键过程:
- 搜索 (Searching): 细致地搜索相关学术出版物。
- 检索 (Retrieval): 检索信誉良好的机构发表的相关信息。
- 提取 (Extraction): 从已发表的学术出版物中提取相关信息。
4.1.1. 搜索过程
-
时间范围: 筛选了2017年至2023年期间发表的文章,以关注近年来的最新有效方法和创新。
-
关键词: 使用“Multilevel thresholding segmentation”(多级阈值分割)作为主要关键词。
-
语言限制: 仅筛选英文文章。
以下是原文 Figure 4 的示意图,展示了文章搜索和提取的过程:
该图像是一个示意图,展示了从研究领域的定义到提取79篇相关文章的流程。图中包括关键字准备、应用过滤器和分类准备的步骤,结构清晰,便于理解研究启动过程。
4.1.2. 数据收集来源
作者从 Science Direct、IEEexplore 和 Springer 等在线出版平台收集文章。 以下是原文 Table 3 的结果:
| Publication Name | URL | Articles Received |
| Science Direct | https://www.sciencedirect.com/ | 43 |
| IEEexplore | http://ieeexplore.ieee.org/ | 34 |
| Springer | http://www.springer.com/ | 2 |
| Total Articles | 79 |
以下是原文 Figure 5 的饼图,展示了从这些来源获取的文章分布:
该图像是饼图,展示了不同出版来源的文章分布情况。其中,ScienceDirect占比54%,Springer占比43%,IEEexplore占比仅为3%。
以下是原文 Figure 6 的柱状图,展示了2017-2023年间回顾文章的发表年份分布:
该图像是一个柱状图,展示了2017年至2023年期间发表的文章数量。图中显示,2021年的文章数量最多,为15篇,而2023年的文章数量最低,仅为5篇。
4.2. 多级阈值分割概念与目标函数
多级阈值分割根据所需的属性或目标函数,将图像分割成不同的类别。阈值作为决策变量,用于最大化或最小化目标函数。
4.2.1. Otsu 方法 (Otsu's Method)
Otsu 方法(1979年提出)是一种自动阈值选择方法,通过最大化类间方差(variation between different classes)来选择最佳阈值。
假设图像有 个像素,灰度级别从 1 到 。在灰度级别 上的像素数量为 。则 。
灰度级别 出现的概率可以定义为:
其中:
-
:灰度级别 出现的概率。
-
:灰度级别 的像素数量。
-
:图像的总像素数量。
-
:图像的最大灰度级别。
对于双级阈值分割,累积概率计算如下: 其中:
-
:背景类(灰度值从
1到 )的累积概率。 -
:前景类(灰度值从 到 )的累积概率。
-
:当前阈值。
各类的均值(mean)计算如下: 其中:
-
:背景类的平均灰度值。
-
:前景类的平均灰度值。
整个图像的平均灰度值 为: 其中:
-
:整个图像的平均灰度值。
两类之间的方差(或类间方差)可以表示为: 其中:
-
\sigma_0 = \omega_0 (\mu_0 - \mu_T)^2:背景类对总方差的贡献。 -
\sigma_1 = \omega_1 (\mu_1 - \mu_T)^2:前景类对总方差的贡献。确定最佳阈值 的过程涉及最大化类间方差: 其中:
-
:最大化类间方差的最佳阈值。
对于多级阈值分割,图像可以根据 个阈值划分为 个类。扩展的类间方差计算如下: 其中:
-
:阈值的数量。
-
:第 类的方差贡献。
项由以下公式确定: 其中:
-
:类别的总数 ()。
平均灰度值 计算如下: 其中:
-
:多个阈值。
为了确定最佳阈值,需要最大化类间方差: 其中:
-
:包含所有阈值的向量。
4.2.2. Kapur 熵 (Kapur's Entropy)
Kapur 等人 [49] 提出了一种著名的基于熵的方法。通过最大化每个特征的熵或熵之和来确定最佳阈值。 其中 定义如下: \begin{array} { r l r } & { } & { \omega _ { 0 } = \sum _ { i = 0 } ^ { t _ { 1 } - 1 } P _ { i } , H _ { 0 } = - \sum _ { i = 0 } ^ { t _ { 1 } - 1 } \frac { P _ { i } } { \omega _ { 0 } } \ln \frac { P _ { i } } { \omega _ { 0 } } . } \\ & { } & { \omega _ { 1 } = \sum _ { i = t _ { 1 } } ^ { t _ { 2 } - 1 } P _ { i } , H _ { 1 } = - \sum _ { i = t _ { 1 } } ^ { t _ { 2 } - 1 } \frac { P _ { i } } { \omega _ { 1 } } \ln \frac { P _ { i } } { \omega _ { 1 } } . } \\ & { } & { \omega _ { 2 } = \sum _ { i = t _ { 2 } } ^ { t _ { 3 } - 1 } P _ { i } , H _ { 2 } = - \sum _ { i = t _ { 2 } } ^ { t _ _ { 3 } - 1 } \frac { P _ { i } } { \omega _ { 2 } } \ln \frac { P _ _ { i } } { \omega _ { 2 } } . } \\ & { } & { \omega _ { n } = \sum _ { i = t _ { n } } ^ { L - 1 } P _ { i } , H _ { n } = - \sum _ { i = t _ { n } } ^ { L - 1 } \frac { P _ { i } } { \omega _ { n } } \ln \frac { P _ { i } } { \omega _ { n } } . } \end{array} 其中:
-
:多个阈值。
-
:像素具有灰度值 的概率。
-
:第 个类别的累积概率。
-
:第 个类别的 Shannon 熵。
-
:最大灰度级别。
这个目标函数确定最佳阈值 如下: 其中:
-
代表 个不同区域和类别的熵值,对于灰度图像,灰度级别范围通常是
0到255。 -
表示像素具有强度值 的概率。
4.2.3. Tsallis 熵 (Tsallis Entropy)
Tsallis 熵是 Shannon 熵的推广,用于通过多重分形理论(multi-fractal theory)推广 Boltzmann-Gibbs (BGS) 统计。其表达式为: 其中:
-
:总可能性数量。
-
:非广延性(non-extensivity)程度,是一个熵指数。
Tsallis 双级阈值分割(bi-level thresholding)描述如下: 其中 是熵指数,并且: 其中:
-
:前景类的累积概率。
-
:背景类的累积概率。
-
和 :前景和背景类的 Tsallis 熵。
-
:当前阈值。
该方法最大化对象和背景之间的信息量。对于多级阈值分割,Tsallis 熵准则定义如下: 其中 公式化为: 其中:
-
:多个阈值。
-
:像素具有强度值 的概率。
-
:各个类别的累积概率。
-
:各个类别的 Tsallis 熵。
4.2.4. 模糊熵 (Fuzzy Entropy)
模糊熵(Fuzzy Entropy)使用隶属函数(Membership Functions)代替阈值分割技术。在模糊熵中,隶属函数被视为前景和背景强度的指标。 其中,类别熵 和 计算如下: \begin{array} { l } { { \displaystyle H _ { 1 } ( t h ) = - \sum _ { i = 1 } ^ { t h } \frac { P h _ { i } . \mu _ { 1 } ( t h ) } { w _ { 1 } } \ln \left( \frac { P h _ { i } . \mu _ { 1 } ( t h ) } { w _ { 1 } } \right) } } \\ { { \displaystyle H _ { 2 } ( t h ) = - \sum _ { i = t h + 1 } ^ { L } \frac { P h _ { i } . \mu _ { 2 } ( t h ) } { w _ { 2 } } \ln \left( \frac { P h _ { i } . \mu _ _ { 2 } ( t h ) } { w _ { 2 } } \right) } } \end{array} 其中:
-
th:当前阈值。 -
:像素具有强度值 的概率。
-
和 :隶属函数。
-
和 :累积分布函数。
每个分布函数定义如下: 隶属函数计算如下: \begin{array} { r l } & { \mu _ { 1 } ( t h ) = \left\{ \begin{array} { l l } { 1 } & { t h \leq a _ { 1 } } \\ { \frac { t h - b _ { 1 } } { a _ { 1 } - b _ { 1 } } } & { a _ { 1 } \leq t h \leq b _ { 1 } , \mu _ { 2 } ( t h ) } \\ { 0 } & { k > b _ { 1 } } \end{array} \right. } \\ & { \mu _ { 2 } ( t h ) = \left\{ \begin{array} { l l } { 0 } & { t h \leq a _ { 1 } } \\ { \frac { t h - a _ { 1 } } { b _ _ { 1 } - a _ { 1 } } } & { a _ { 1 } \leq t h \leq b _ { 1 } } \\ { 1 } & { k > b _ { 1 } } \end{array} \right. } \end{array} 其中:
-
:模糊参数。
为了最大化总熵,
th可以根据模糊参数 和 描述为: 多级图像分割的模糊熵目标函数定义如下: 其中 是各类的熵: 以及 其中: -
:类别总数。
-
:多个阈值。
每个类别的累积分布函数 为: 隶属函数计算如下(原文未给出明确的多级隶属函数定义,此处假设其形式与双级类似,但扩展到多类别): 阈值
th的值由以下公式计算:
4.2.5. 最小交叉熵 (Minimum Cross Entropy, MCE)
最小交叉熵(MCE)方法通过最小化原始图像与其分割后的图像之间的交叉熵来工作。 其中: 其中:
-
:多个阈值。
-
:最大灰度级别。
-
:像素具有灰度值 的概率。
-
:第 个类别的平均灰度值。
-
:第 个类别的累积概率。
-
是一个常数。
-
代表不同类别的交叉熵。
公式 (25) 可以表示为: 引入 和 的定义: 则 可以写为: MCE 的目标函数可以通过最小化 来确定最佳阈值: (注:原文公式 (34) 错误地写成了 ,但 MCE 的目标是最小化交叉熵,所以此处修正为 。)
4.2.6. Renyi 熵 (Renyi's Entropy)
Renyi 熵是 Shannon 熵的推广形式,引入了一个可调参数 。当 时,Renyi 熵与 Shannon 熵一致。 假设 是一个待分割的灰度图像, 是每个灰度级别的概率分布。 只有一个阈值 将图像 分割成目标 和背景 。 两个概率 和 分别是 和 出现的概率,且 。 其中:
-
p(i):灰度级别 出现的概率。 -
:当前阈值。
-
:目标类别的累积概率。
-
:背景类别的累积概率。
图像背景和目标的 Renyi 熵定义如下: 其中:
-
:Renyi 熵的参数。
-
和 :目标和背景的 Renyi 熵。
Renyi 熵的总和为: 为了确定最佳阈值 ,需要最大化
T(t): 对于多级阈值分割,假设有 个阈值,表示为 。这将直方图分为 个区域。 第一个区域的灰度概率: 其他阈值的灰度概率和最后一个阈值的灰度概率计算如下: 其中: -
:类别索引,从
1到 。Renyi 熵计算公式为: Renyi 熵的总和为: 选定的最佳阈值 应满足:
4.3. 元启发式算法分类
元启发式算法(Metaheuristic Algorithms)根据其自然启发来源,可以分为五类:
-
基于进化的 (Evolution-Based, EB): 模拟自然选择和遗传的生物进化过程。例如,遗传算法(GA)、差分进化(DE)。
-
基于群体的 (Swarm-Based, SB): 模拟动物群体的社会行为。例如,粒子群优化(PSO)、鲸鱼优化算法(WOA)、蚁群优化(ACO)、灰狼优化(GWO)。
-
基于物理/化学的 (Physics/Chemistry-Based, PCB): 模拟物理或化学定律。例如,模拟退火(Simulated Annealing, SA)。
-
基于人类的 (Human-Based, HB): 模拟人类的社会行为或认知过程。
-
其他 (Others): 不属于上述类别的其他启发式算法。
以下是原文 Figure 7 的示意图,展示了元启发式方法的分类:
该图像是一个示意图,展示了不同类型的元启发式算法的分类,包括基于进化、物理、群体和人类的算法。这些算法在多级阈值分割方法中应用广泛,能够帮助提高图像处理的效果。
4.4. 阈值图像分割框架
多级阈值图像分割的典型框架包括以下步骤:
-
输入原始图像 (Original Image): 待处理的图像。
-
灰度化 (Grayscale Conversion): 如果是彩色图像,通常会转换为灰度图像,以便基于灰度直方图进行阈值计算。
-
直方图生成 (Histogram Generation): 计算图像的灰度直方图,反映各灰度级别像素的数量分布。
-
目标函数选择 (Objective Function Selection): 选择一个用于评估分割质量的目标函数,例如 Otsu 熵、Kapur 熵、Tsallis 熵等。
-
阈值数量定义 (Threshold Number Definition): 确定进行多级分割所需的阈值数量。
-
优化算法 (Optimization Algorithm): 使用元启发式算法(如 PSO、WOA、GA 等)来搜索最佳阈值组合,以最大化或最小化选定的目标函数。
-
输出分割图像 (Segmented Image): 根据找到的最佳阈值对图像进行分割,得到多个区域。
以下是原文 Figure 8 的示意图,展示了阈值图像分割的框架:
该图像是一个示意图,展示了多级阈值分割的框架,包括输入原始图像、定义阈值数、转换为灰度图、输出分割图像等步骤。该框架突出了通过元启发式和目标函数(如Kapur或Otsu)寻找最佳阈值的过程。
5. 实验设置
本节作为综述文章,其“实验设置”主要体现在对现有研究的综合分析,包括所使用的编程语言、评估指标和数据集。
5.1. 编程语言
以下是原文 Figure 9 的图表,展示了所回顾论文中使用的编程语言分布:
该图像是图表,展示了不同编程语言的使用分布情况。可以观察到,MATLAB 的使用频率显著高于 Python 和 Java,而有一部分数据未被记录。
从图中可以看出,MATLAB 是最常用的编程语言,其次是 Python 和 Java。还有一部分研究未记录所使用的编程语言。
5.2. 评估指标
评估指标用于量化分割结果的质量和算法的性能。以下是原文 Figure 10 的图表,展示了所回顾论文中评估指标的分类:
该图像是柱状图,展示了多级阈值分割方法的评估指标分类的结果。图中标出了多个指标(如 PSNR、SSIM、CPU TIME、FSIM 等)对应的分数,反映了各指标在研究中的重要性。柱状图的高度代表了不同评估指标的值,PSNR和SSIM的分数最高,分别为59和45,显示其在图像处理中占据重要地位。其他指标如MSE、准确率和稳定性等的分数则相对较低。
图中最常用的评估指标是 PSNR 和 SSIM。
5.2.1. 均方误差 (Mean Square Error, MSE)
MSE 在统计学中表示估计值和实际值之间平均平方差。它使用欧几里得距离的平方来衡量估计器的质量。较低的 MSE 值表示估计器能更好地估计实际值。
对于两幅图像 f(x, y)(原始图像)和 g(x, y)(测试图像),MSE 定义为:
其中:
- :原始图像在像素
(i, j)处的灰度值。 - :测试图像在像素
(i, j)处的灰度值。 - :图像的行数。
- :图像的列数。
5.2.2. 峰值信噪比 (Peak Signal to Noise Ratio, PSNR)
PSNR 用于计算最大信号功率与影响其表示的失真噪声之间的关系。该比率以分贝(decibels)表示。基于给定图像的 MSE 和比特深度 (Bit Depth, BD),PSNR 可以表示为:
其中:
BD:图像的比特深度(例如,8位图像的 )。MSE:均方误差。
5.2.3. 结构相似性指数 (Structural Similarity Index Method, SSIM)
SSIM 是一种衡量图像相似度的著名质量指标。它与人眼视觉系统(Human Visual System, HVS)的质量感知高度相关。SSIM 使用三个因素(相关性损失、亮度失真和对比度失真)来建模图像失真。
SSIM 定义为:
其中:
其中:
- 和 :两幅待比较的图像。
- 和 :图像 和 的平均亮度。
- 和 :图像 和 的标准差(衡量对比度)。
- :图像 和 之间的协方差(衡量结构相似性)。
- :为避免分母为零而设置的常数。
SSIM指数的值范围在[0, 1]之间。0 表示图像之间没有相关性,1 表示两幅图像完全相同 ()。
5.2.4. 特征相似性指数 (Feature Similarity Index Method, FSIM)
FSIM 通过比较两幅图像的独特特征来评估它们的相似性。FSIM 的两个关键准则是梯度幅度(Gradient Magnitude, GM)和相位一致性(Phase Congruency, PC)。
- 相位一致性 (PC): 能够检测图像特征,即使在照明条件和对比度变化的情况下。它通过强调频域中的特征来识别独特的视觉特性。
- 梯度幅度 (GM): 通过使用卷积掩模计算图像梯度来量化强度变化率。
将这两个准则纳入
FSIM允许在评估图像相似性时考虑广泛的视觉属性和结构特征。
5.2.5. Wilcoxon 检验 (Wilcoxon Test)
Wilcoxon 符号秩检验是一种非参数统计方法,用于比较两个相关样本、匹配样本或对一个样本进行重复测量时的平均秩。当总体不呈正态分布时,它是配对 Student's t 检验、匹配对 t 检验或依赖样本 t 检验的替代方案。此检验可以确定两个样本是否具有相同的分布。
5.3. 目标函数分类
以下是原文 Table 7 的结果,展示了所回顾论文中使用的目标函数分类:
| Objective Functions | Papers |
| Kapur's entropy | [87, 9, 101, 102, 107, 109, 111, 115, 116, 11921, 126, 128, 130, 133, 134, 137139, 141, 147, 19, 15, 153, 155157, 159, 161, 162] |
| Otsu's entropy | [8, 87, 9093, 95, 98100, 102111, 113116, 120, 121, 123127, 129, 134, 137143, 150, 152, 155, 156, 161] |
| Tsallis entropy | [88, 89, 92, 109, 117, 120, 143, 153, 156], |
| Shannon's entropy | [135, 153] |
| Renyi's entropy | [89, 97, 109, 137, 145] |
| Cross entropy | [87, 88, 94, 112, 118, 148, 164] |
| Fuzzy entropy | [109, 122, 123] |
Otsu 熵和 Kapur 熵是研究最广泛的目标函数,分别在 44 篇和 34 篇论文中使用。Tsallis 熵、Renyi 熵、交叉熵和模糊熵的研究相对较少。
5.4. 数据集
以下是原文 Table 9 的结果,展示了所回顾论文中使用的各类数据集:
| Dataset | Data Type | Samples |
| COVID-19 | CT images | 163 |
| TCIA | MRI, CT and digital histopathology | 4 |
| Biomedical images | Digital images | 5000 |
| Insulator infrared images | Real insulator infrared images | 500/201 |
| DCE-MRI | MRIs (2D) | 30 |
| Berkeley segmentation dataset | Ground truth images | 500/300 |
| Weighted brain magnetic resonance images | MRIs | 2 |
| Plant canopy image & Satellite images | Phenotype image & remote sensing data 2/8 | |
| Stomach CT images | CT | 4 |
| Pr eiades satellite imaginary | multi-spectral images | 2 |
| CheX aka CheXpert, OpenI, Google, PC aka PadChest, NIH aka Chest X-ray14, MIMIC- | COVID-19 CT images | 13 |
| CXR SCI image (Taken from Orange image diagnostic centre) | MRIs | 500 |
| Landsat Imagery Courtesy of NASA Goddard Space Flight Center and U.S. Geological | Digital images | 12 |
| Survey 41,004,176,035, 225,017, 241,004, 385,028, 388,016, 2092, 14,037, 55,067, 169,012 | Natural images | 10 |
| DMR-IR | Thermography images | 10 |
| ABIDE (Autism Brain Imaging Data Exchange, International Neuroimaging Data-sharing) | T2-weighted MRI axial brain images | 12 |
| Eyes, Liver, Head and Tongue | Medical images | 6 |
| USC-SIPI | Grayscale images (uint8) | 5 |
| BT10 and BRATS 2019 | T1-weighted contrast-enhanced (T1c) images & FLAIR brain images | 10 |
| Kodim | Color images (JPEG) | 3 |
| Plant leaf disease | Tomato leaf images | 5512 |
| Zigong dinosaur lantern festvial | Color images | 4 |
| Kaggle brain MRI | ||
| (Normal class images & Tumor images) | MRIs | 98/155 |
| Random samples from earthobservatory.nasa.gov | Satellite images | 10 |
| NASA landsat image | Color images (JPG) | 6 |
| Digital Database for Screening Mammography (DDSM) | DICOM | 2500 |
| Real-time DICOM CT images of the abdomen | DICOM | 7 |
| Plant stomata images | Color images | 2 |
| CASIA v3 Interval, MMU1, and UBIRIS | Digital images | 4195 |
| Dental radiographs | Digital images (X-Ray) | 12 |
| MIAS | DICOM | 322 |
| Histopathological image | Digital images | 10 |
| Skin cancer images | Digital images | 10 |
| Art Explosion | Grayscale images | 8 |
数据集涵盖了广泛的领域,包括:
-
医学成像:
COVID-19 CT images、TCIA(包含 MRI、CT 和数字组织病理学图像)、DCE-MRI、ABIDE(脑部 MRI)、DDSM(乳腺钼靶图像)、Dental radiographs(牙科 X 射线图像)、Histopathological image(组织病理学图像)和Skin cancer images(皮肤癌图像)。 -
遥感和自然图像:
Plant canopy image、Satellite images、Pleiades satellite imaginary、Landsat Imagery和Natural images。 -
通用图像:
Berkeley segmentation dataset、USC-SIPI、Kodim和Art Explosion。这些数据集在类型、规模和复杂性上差异很大,从少量样本到数千个样本不等,涵盖了灰度图像、彩色图像、CT 图像、MRI 图像等多种模态。这表明多级阈值分割技术在不同应用场景中具有广泛的适应性。
5.5. 对比基线
综述中评估了众多研究,这些研究将提出的方法与各种基线算法进行了比较。最常提及的基线和比较方法包括:
-
优化算法:
PSO(53次)、WOA(30次)、DE(29次)、SCA(20次)、GWO(21次)、BA(19次)、ABC(17次)、MFO(16次)。这些算法常作为元启发式优化器的基线,用于比较新算法的搜索效率和收敛性能。 -
阈值分割方法:
Otsu和Kapur方法经常被用作基线,尤其是在比较基于不同目标函数(如Otsu方法、Kapur熵)的改进算法时。 -
其他图像处理算法: 在某些特定应用中,还会与
FCM(Fuzzy C-Means)、BF(Bacterial Foraging) 等聚类或传统图像处理方法进行比较。 -
分类器: 在涉及图像分割后分类的任务中,
KNN、SVM、DT、NN等分类器也会被用作基线。这些对比基线有助于验证新方法在分割质量、计算效率和鲁棒性方面的优势。
6. 实验结果与分析
本节对综述文章中总结的实验结果进行分析,主要关注方法的优点、局限性以及执行时间。
6.1. 核心结果分析
6.1.1. 优点总结
以下是原文 Figure 11 的词云图,展示了所回顾论文中总结的优点:
该图像是一个示意图,展示了多级阈值分割方法的优缺点总结。这些缺点包括低效的高级分割、不充分比较、未知的时间复杂度以及对噪声的敏感性等,旨在引导未来的研究方向。
从图中可以看出,多级阈值分割方法的主要优点集中在以下几个方面:
- 更好的性能指标 (Better Performance Metrics): 大多数方法在
PSNR、SSIM、FSIM等量化指标上表现出色。 - 更高的收敛速度 (Efficient Convergence Speed): 许多元启发式算法驱动的方法能够快速找到最优阈值。
- 更好的分割质量 (Better Segmentation Quality): 相比于传统方法,能够提供更精细和准确的图像分割结果。
- 平衡探索与开发 (Balanced Exploration & Exploitation): 优化算法能够在全局搜索(探索)和局部精炼(开发)之间取得良好平衡,避免陷入局部最优。
- 增强搜索能力 (Enhanced Search Capacity): 通过各种策略(如 Levy Flight、OBL 等)增强了优化算法的搜索空间覆盖能力。
- 更优目标函数得分 (Better Objective Function Scores): 在最大化 Kapur 熵或 Otsu 熵等目标函数方面表现更佳。
- 避免局部最优 (Avoids Local Minima/Optima): 元启发式算法的随机性有助于跳出局部最优。
- 高准确度 (High Accuracy): 在许多应用中实现了高准确度的分割。
- 鲁棒性 (Robustness): 对噪声和复杂的图像背景具有一定的鲁棒性。
- 计算时间优化 (Optimized Time Complexity): 尽管有些方法计算复杂,但也有不少研究致力于优化计算时间,实现更高效的分割。
- 高效处理灰度/彩色图像 (High Efficiency on Grayscale and Color Images): 许多方法不仅适用于灰度图像,也能有效处理彩色图像。
6.1.2. 局限性总结
以下是原文 Figure 12 的词云图,展示了所回顾论文中总结的局限性:

尽管有诸多优点,但多级阈值分割方法也面临以下挑战和局限性:
- 静态阈值设置 (Static Thresholding Settings): 许多研究中阈值级别是静态预设的,缺乏自动确定最佳阈值数量的能力,可能导致次优分割。
- 时间复杂度高 (High Time Complexity): 尤其是当阈值级别增多时,计算成本显著增加,限制了实时应用。
- 有限的数据点 (Limited Data Points): 许多方法仅在少量图像上进行测试,可能无法充分反映其在真实世界复杂场景下的性能和泛化能力。
- 不充分的比较 (Inadequate Evaluation/Comparison): 一些研究未能与足够多的现有最先进方法进行比较,难以充分评估其真实优势。
- 局部最优陷阱 (Local Optima Trap): 尽管元启发式算法旨在避免局部最优,但在某些情况下仍可能陷入。
- 噪声敏感性 (Noise Sensitivity): 许多方法对噪声敏感,导致分割精度下降,尤其是在处理不均匀强度或复杂噪声的图像时。
- 无法处理低质量图像 (Unable to Dealing with Low Quality Images): 对图像质量要求较高,难以有效处理模糊、低对比度等低质量图像。
- 参数敏感性 (Parameter Sensitivity): 许多算法的性能高度依赖于参数的精细调优,而手动调优耗时且主观。
- 特征约束 (Feature Constraints): 依赖于特定的图像特征,可能不适用于所有类型的图像。
- 多目标局限性 (Multi-Objective Limitation): 在多目标优化中,平衡不同目标函数可能具有挑战性。
- 限于灰度测试 (Limited to Grayscale Testing): 许多方法仅在灰度图像上进行测试,其在彩色图像上的表现有待验证。
6.2. 执行时间分析
以下是原文 Table 10 的结果,展示了所回顾论文中的执行时间信息:
| Paper | (Min- Max) | Threshold | Average CPU Time (MinMax) | Reference Dataset |
| [86] | Min Max | NR | NR | Four stomach CT images |
| [87] | Min | 4 7 | NR | Ten standard test color images |
| [88] | Max Min | 3 | MCE: 5.4487 and Tsallis entropy: 15.4447 (seconds) Ten different chaotic maps | |
| Max | 5 | MCE: 7.995 and Tsallis entropy: 17.8756 (seconds) | ||
| [89] | Min Max | 2 5 | ≤ 5(s) | Twenty images from |
| [90] | Min | 2 | WOA: 3.74 and MFO: 3.57 (seconds) | Eight grayscale images from BSD |
| Max | 5 | WOA: 4.78 and MFO: 5.60 (seconds) | ||
| [91] | Min Max | 2 5 | Kapur: 34.2 and Otsu: 28.3 (milliseconds) Kapur: 147.3 and Otsu: 106.8 (milliseconds) | Five images from USC-SIPI database and Three images from BSD500 |
| [92] | Min | NR | NR | NR |
| [93] | Max Min | NR | NR | Two sample images |
| Max | ||||
| [94] | Min | 2 | 1.06 (seconds) | Three sample images from BSD dataset |
| [95] | Max Min | 4 | 1.14 in (seconds) | Two sample images (Lena, Port) |
| Max | 2 | 7.779 (NR) 11.992 (NR) | ||
| [96] | 7 | Four sample images | ||
| Min | 7 | 6261 (seconds) | ||
| [97] | Max | 10 | 6527.5 (seconds) | sample images from BSD300 |
| Min | NR | NR | ||
| [98] | Max | Twenty sample images | ||
| Min | 2 | < 1.23 (seconds) | ||
| [99] | Max | 4 | NR | Two sample images from BSD300 |
| Min | NR | |||
| [100] | Max | Three sample images | ||
| Min | 2 | NR | ||
| Max | 5 | |||
| [101] | Min | 2 | NR | Six images from BSD and Six medical images of eyes, liver, head and tongue |
| Max | 5 | |||
| [102] | Min | 2 | Otsu: 3.6812 and Kapur: 4.2291 (seconds) | T2-weighted MRI brain images |
| Max | 5 | Otsu: 6.1672 and Kapur: 7.7805 (seconds) | ||
| [103] | Min | 2 | NR | CASIA v3 interval and UBIRIS and MMU1 |
| Max | 3 | |||
| [104] | Min | 6 | 3.16 (seconds) | Twelve dental radiographs images |
| Max | ||||
| [105] | Min | NR | NR | Set of coins, Cameraman, Circles with different colors an |
| Max | Soil sample | |||
| [106] | 5.1941 (NR) | Three Mammogram images | ||
| Min | 2 | |||
| Max | 8 | 8.5295 (NR) | ||
| [107] | Min | 2 | 0.1779 (seconds) | Four sample images from BSD500 |
| Max | 5 | 0.4053 (seconds) | ||
| [108] | Min | 2 | 0.37 (seconds) | Six images from BSD300 |
| Max | 30 | 0.57 (seconds) | ||
| [109] Min | ||||
| 2 | Around 250 (seconds) | Six grayscale images from BSD | ||
| Max | 20 | |||
| [110] Min | 4 | 1.3090 (seconds) | MRI brain images from ABIDE | |
| Max | 6 | 1.3339 (seconds) | ||
| [111] | Min | 2 | 32.66 (NR) | Eleven grayscale images from BSD |
| Max | 20 | 105.30 (NR) | ||
| [112] | Min | 4 | CC: 2.035 and MLO: 12.129 (seconds) | Digital Database for Screening Mammography (DDSM) |
| Max | 12 | CC: 6.338 and MLO: 97.847 (seconds) | 2,500 studies | |
| [113] Min | 2 | NR | Eight grayscale images from BSD | |
| Max | 5 | |||
| [114] | Min | 2 | 8.5238 (seconds) | DICOM CT images |
| Max | 5 | |||
| [115] | Min | 4 | NR | Five images from Berkeley (BSD) and five satellite images |
| Max | 12 | |||
| [116] Min | 4 | Otsu: 1.1693 and Kapur: 1.5409 (seconds) | Six color images taken from USC-SIPI and Berkeley seg- | |
| Max | 10 | Otsu: 1.3529 and Kapur: 2.5405 (seconds) | mentation dataset (BSDS500) and Four satellite images | |
| [117] | Min | 4 | NR | Eight color test images from BSD300 and plant stomata |
| Max | 12 | images | ||
| [118] Min | 2 | 8.6888 (seconds) | Ten images from BSD and 2 weighted brain magnetic | |
| Max | 5 | 10.960 (seconds) | resonance images | |
| [119] | Min | 4 | 2.237 (NR) | BSD dataset, Satellite images and plant canopy images |
| Max | 12 | |||
| [120] | Min | 3 | NR | Ten images from Berkeley (BSD) |
| Max | 6 | |||
| [121] Min | 2 | NR | Twelve Berkeley images (BSD) and 256 grey levels | |
| Max | 5 | |||
| [122] | Min | 6 | NR | Ten images and CheX aka, OpenI, Google, PC aka Pad- Chest, NIH aka |
| Max | 25 | Chest X-ray14, and MIMIC-CXR | ||
| [123] | Min | 2 | 1.9 (seconds) | Eight images from the Art Explosion database and eleven images from BSD |
| [124] Min | Max | 5 | 4.0 (seconds) | Eight grayscale images from USC-SIPI |
| 2 | NR | |||
| Max | 5 | NR | SCI image database taken from Orange image diagnostic | |
| [125] Min | NR | centre | ||
| Max | Kapur: 0.273 and Otsu: 0.248 (seconds) | Eight sample images from BSD dataset | ||
| [126] | Min | 4 | Kapur: 0.3 and Otsu: 0.264 (seconds) | |
| Max | 5 | 0.253 (seconds) | Twelve sample images from BSD | |
| [127] Min | 6 | |||
| Max | 30 | 0.402 (seconds) | Six original test images | |
| [128] | Min | 2 | 2.53.5 (seconds) | |
| Max | 6 | 3.0661 (seconds) | ||
| [129] | Min | NR | NR | Kaggle brain MRI dataset |
| Max | ||||
| [130] | Min | 8 | NR | Ten satellite images from www.earthobservatory.nasa.gov |
| Max | 10 | |||
| [131] | Min | 4 | 2.941 (seconds) | Two sets of twelve color images are selected from BSD an NASA landsat image |
| Max | 16 | 4.209 (seconds) | ||
| [132] Min | NR | NR | COVID-19 CT images | |
| Max | ||||
| [133] | Min | 4 | 36.83 (seconds) | 201 insulator infrared images |
| Max | 20 | 47.01 (seconds) | ||
| [134] Min | 2 | Otsu: 0.6385 and Kapur: 1.0423 (NR) | Samples from BSD dataset | |
| Max | 5 | Otsu: 1.6707 and Kapur: 2.4884 (NR) | ||
| [135] Min | NR | 2.4959 (seconds) | 300 Sagittal T2-Weighted | |
| Max | DCE-MRI | |||
| 2D slices | ||||
| [136] Min | 5 | NR | BSD and medical images of COPD | |
| Max | 8 | |||
| [137] Min | 2 | Kapur: 2.0507 and Otsu: 2.0408 (seconds) | Six images from BSD300 | |
| Max | 5 | Kapur: 2.1022 and Otsu 2.1005 (seconds) | ||
| [138] | Min | 2 | NR | Six sample images |
| Max | 5 | |||
| [139] Min | 2 | NR | Thermography images (DMR-IR) | |
| Max | 5 | |||
| [140] Min | 2 | 9.440 (seconds) | Eight sample images | |
| Max | 5 | 18.494 (seconds) | ||
| [141] Min | 2 | NR | Ten sample images | |
| Max | 5 | |||
| [142] Min | 5 | Otsu: 7.1835 and Tsallis: 5.6704 (NR) | Three satellite images | |
| Max | 11 | Otsu: 10.8379 and Tsallis: 8.1308 (NR) | ||
| [143] | Min | 2 | NR | Eight grayscale images from BSD |
| Max | 5 | |||
| [144] | Min | 2 | NR | Two images from BSD300 and four color images from Zigong dinosaur lantern festival |
| Max | 5 | |||
| [145] | Min | 2 | NR | Three grayscale images from USC-SIPI and a sport gray- scale image |
| Max | 5 | 2.3824 (seconds) | Fourteen test images selected from the experimental pool | |
| [146] | Min Max | 4 | 37.540 (seconds) | of Harbin Engineering University |
| [147] | Min | 8 | NR | BSDS500 |
| Max | 2 | |||
| [148] | 20 | Twenty complex | ||
| Min | 2 | 9.2229 (seconds) | Background crop images | |
| Max | 16 | 11.0381 (seconds) | BIDC images | |
| [149] | Min | 2 | NR | |
| Max | 20 | 4 grayscale images | ||
| [150] | Min | 2 | 0.1427 (seconds) | |
| Max | 10 | 0.5333 (seconds) | COVID-19 dataset | |
| [151] | Min | 2 | NR | |
| Max | 20 | |||
| [152] | Min | NR | NR | TCIA dataset |
| [153] | Max | 5000 biomedical images and 250 standard test images | ||
| Min | 3 | 6.1698 (seconds) 12.1628 (seconds) | ||
| [154] Min | Max | 9 | Ten images from Berkeley dataset | |
| 3 | NR | |||
| Max | 70 | |||
| [155] | Min | 2 | NR | Three sample images |
| [156] | Min Max | NR | NR | Ten images from brain tumor datasets |
| [157] | Min | 4 | NR | Nine standard benchmark images |
| 158Max 7 | ||||
| [158] | Min Max | 3 10 | 80.64 (NR) 84.35 (NR) | Sample images from Kodim and Berkeley datasets |
| Min | NR | NR | Plant leaf disease dataset | |
| [159] | Max | |||
| [160] | Min | 3 | NR | Ten benchmark images with diverse features and complexi- |
| Max | 7 | ties | ||
| [161] | Min | 2 | Otsu: 0.2 and Kapur: 0.3 (seconds) | Berkeley segmentation dataset |
| Max | 8 | Otsu: 0.7 and Kapur: 0.8 (seconds) | ||
| [162] | Min | 2 | NR | Seven 512×512 |
| Max | 6 | pixels IDC images obtained by hematoxylin -eosin staining | ||
| [163] | Min | 5 | 6.0653 (NR) | Landsat Imagery Courtesy of NASA Goddard Space Flight |
| Max | 11 | 8.9399 (NR) | Center and the U.S. Geological Survey dataset | |
| Min | 4 | NR | Six grayscale images from BSD | |
| [164] | ||||
| Max | 16 |
执行时间分析揭示了多级阈值分割方法在计算效率方面存在显著差异:
-
阈值级别的影响: 通常,随着阈值级别的增加,算法的执行时间也会增加。例如,[91] 中 Kapur 熵从 2 级阈值到 5 级阈值,执行时间从 34.2 ms 增加到 147.3 ms。
-
目标函数的影响: 不同的目标函数可能导致不同的计算复杂度。例如,[88] 中,对于 3 级阈值,
MCE的执行时间为 5.4487 秒,而Tsallis熵为 15.4447 秒。 -
优化算法的影响: 不同的元启发式算法具有不同的收敛速度和计算效率。某些算法(如 [91] 中的
PSO)可能比其他算法更快。 -
数据集和图像大小的影响: 图像的尺寸、复杂性和数据集的特性也会影响执行时间。例如,[97] 在
BSD300数据集上测试时,执行时间达到了数千秒,这可能与图像数量和算法复杂度有关。 -
结果记录不一致: 许多论文未记录或未详细记录执行时间(标记为
NR),或未明确给出使用的单位,这限制了不同研究之间的直接比较。整体而言,尽管许多方法在分割质量上有所提升,但如何有效管理计算复杂度,实现实时或近实时处理,仍然是多级阈值分割领域的一个重要挑战。
7. 总结与思考
7.1. 结论总结
本综述全面回顾了图像处理领域的多级阈值分割方法,深入探讨了其背景、挑战、优势和局限性。研究发现,多级阈值分割作为一种复杂的图像处理技术,通过识别和利用图像中不同结构或对象之间的强度差异,能够实现更灵活、更具适应性的图像分割,从而捕捉图像的复杂性和细节,尤其适用于处理复杂强度分布的图像。
在众多的阈值分割方法中,Otsu 熵和 Kapur 熵是最广泛采用的目标函数,它们通过最大化类间方差或熵和来确定最佳阈值。此外,元启发式算法在此领域发挥着关键作用,它们通过模仿自然或社会现象的优化过程(如粒子群优化、鲸鱼优化算法、遗传算法等),有效地在高维搜索空间中寻找最优阈值组合,从而降低了传统方法的计算成本并提高了分割精度。
研究还揭示了多级阈值分割在医学成像、遥感、水下图像分析、植物病理学和工业质量控制等多个应用领域具有巨大潜力。然而,当前研究仍面临一些共同的挑战,如参数调优的自动化、阈值级别自动确定、处理复杂和不均匀图像、噪声敏感性、计算效率瓶颈以及结果可解释性不足等。
7.2. 局限性与未来工作
作者指出了以下局限性和未来研究方向:
- 手动参数调优: 多数方法需要手动调优参数,耗时且主观。未来需要开发自动化的参数调优方法。
- 阈值级别自动确定: 很少有方法能够自动确定最佳阈值级别。未来的研究应探索自适应阈值方法和统计指标来自动确定。
- 有限的特定数据集测试: 许多算法仅在特定或少量数据集上进行测试,泛化能力有待验证。未来应在更多样化的数据集上进行广泛比较。
- 元启发式算法的混合: 混合多种元启发式算法(如基于对立学习的优化算法)可以增强分割结果。
- 与其他算法的性能比较: 许多研究缺乏与其他最先进方法的全面比较。未来应进行更广泛的对比。
- 噪声敏感性与效率: 现有算法对噪声敏感,且在复杂图像分割任务中效率低下。未来应结合额外的图像特征或先进的图像处理技术来提高鲁棒性和效率。
- 计算复杂度: 某些算法的计算时间较长。未来研究应致力于优化算法的计算复杂度,以缩短处理时间。
- 扩展到其他图像处理问题: 现有算法可以应用于图像配准、去噪和质量增强等其他图像处理问题。
- 最佳聚类数量的确定: 现有方法无法自动设置最佳聚类(thresholding levels)数量。未来应关注根据图像属性动态确定最佳聚类数量。
- 处理不均匀和复杂图像: 阈值分割方法难以处理不均匀和复杂图像。未来研究应开发鲁棒技术来解决这些问题。
- 多目标优化: 多目标优化可以用于改进现有方法,同时考虑多个目标函数,如 Otsu 模糊熵或最小交叉熵。
- 彩色图像分割和纹理分析: 算法需要能够处理彩色图像,并考虑纹理属性。彩色和纹理信息对于区分不同区域和对象至关重要。
- 阈值级别的自动确定: 开发能够无需用户干预自动确定最佳阈值的算法。
- 纵向评估: 医学图像领域缺乏疾病进展的纵向评估。未来需要通过长期跟踪患者状况来评估方法的有效性。
- 结果可解释性: 复杂的图像处理算法需要结果的可解释性。研究人员应开发技术来提供对算法决策过程的洞察。
7.3. 个人启发与批判
这篇综述为我提供了多级阈值分割领域的全面视角,尤其是在理解元启发式算法如何应用于图像分割的优化问题方面。我的个人启发包括:
-
元启发式算法的普适性: 它们在解决组合优化问题(如多阈值选择)方面展现出极强的通用性和有效性,这种思想可以迁移到其他需要高维搜索和避免局部最优的领域。
-
医学影像的巨大潜力: 针对医学影像的分割应用,如 COVID-19 CT、脑部 MRI 等,凸显了精确分割在诊断和治疗中的重要性,也预示着该领域持续的研究投入。
-
计算与质量的权衡: 论文中大量提及计算复杂度与分割质量之间的权衡。这提醒我们在设计算法时,需要根据具体应用场景(例如,实时性要求高的场景)来选择或改进算法,而不是一味追求最高精度。
批判性思考方面:
-
“黑盒”问题: 许多元启发式算法本质上是“黑盒”,虽然能找到好的阈值,但其决策过程缺乏直观解释。随着 AI 可解释性(Explainable AI, XAI)的重要性日益凸显,未来如何让这些算法的分割决策更透明、可信赖是一个关键挑战,尤其在医疗等高风险领域。
-
基准测试的标准化: 综述中提到许多研究在有限数据集上进行测试,且评估指标和对比基线选择不一,使得不同方法之间的公平比较变得困难。未来需要更统一的、多样化的基准数据集和严格的评估协议。
-
现实世界复杂性: 图像处理中的“不均匀数据”、“噪声”、“复杂背景”是永恒的挑战。虽然现有方法有所进步,但离完全鲁棒性还有距离。如何将语义信息、上下文信息与低级像素特征更好地融合,可能是解决这些复杂性的方向。
-
自动阈值级别的重要性: 自动确定最佳阈值级别是该领域的一个主要开放问题。目前的静态设置限制了算法的自适应性。未来的研究应探索结合机器学习或统计模型来动态地确定最佳阈值数量,这将大大提高算法的实用性。
-
跨模态泛化: 虽然综述涵盖了多种数据类型(CT、MRI、卫星图像等),但一种方法在不同模态之间的泛化能力仍需深入研究。特定模态的物理成像原理和噪声特性,可能会对通用算法的有效性构成挑战。
相似论文推荐
基于向量语义检索推荐的相关论文。