摘要

2760 IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS: SYSTEMS, VOL. 51, NO. 5, MAY 2021 Spatial Context Energy Curve-Based Multilevel 3-D Otsu Algorithm for Image Segmentation Ashish Kumar Bhandari , Anurag Singh, and Immadisetty Vinod Kumar Abstract —While yielding satisfactory segmentation results for images with low SNR and poor contrast, one-dimensional (1-D) and two-dimensional (2-D) Otsu’s thresholding methods have the downside of high computational complexity. So far, three- dimensional (3-D) Otsu method has been based on histogram, which has only probability distribution of pixels as an object of interest. Histogram-based segmentation methods do not consider the contextual information which is significant to enrich the qual- ity of segmented image. In this paper, a context-…

1. 论文基本信息

1.1. 标题

空间上下文能量曲线驱动的多层三维Otsu图像分割算法 (Spatial Context Energy Curve-Based Multilevel 3-D Otsu Algorithm for Image Segmentation)

该标题清晰地指出了论文的核心技术要素：

核心方法: 3-D Otsu 算法。
创新点: 基于空间上下文能量曲线 (Spatial Context Energy Curve) 对传统 3-D Otsu 算法进行改进。
应用领域: 多层图像分割 (Multilevel Image Segmentation)。

1.2. 作者

Ashish Kumar Bhandari: 隶属于印度巴特那国家理工学院 (National Institute of Technology Patna)。他的研究兴趣包括图像增强、图像分割、图像去噪和软计算技术。从其个人介绍来看，他在图像处理领域，特别是基于优化算法的阈值分割方面有深入研究。
Anurag Singh: 隶属于印度国际信息技术学院纳亚莱布尔分校 (International Institute of Information Technology Naya Raipur)。其研究兴趣为生物医学信号与图像处理。
Immadisetty Vinod Kumar: 隶属于印度巴特那国家理工学院 (National Institute of Technology Patna)。其研究兴趣包括使用多层阈值和软计算技术的图像分割。

作者团队均有深厚的图像处理和计算智能背景，与论文主题高度契合。

1.3. 发表期刊/会议

期刊: IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS: SYSTEMS (TSMC: Systems)
声誉与影响力: 这是IEEE旗下系统、人与控制论学会的旗舰期刊之一，属于计算机科学、人工智能和控制论领域的顶级期刊。发表在该期刊上的论文通常具有较高的理论深度和实践价值，享有很高的学术声誉。

1.4. 发表年份

论文发表于2021年5月，但在线发布于2019年6月4日。

1.5. 摘要

传统的一维 (1-D) 和二维 (2-D) Otsu阈值分割方法虽然在处理低信噪比和低对比度图像时效果尚可，但计算复杂度较高。现有的三维 (3-D) Otsu方法主要基于直方图，仅关注像素的概率分布，忽略了对分割质量至关重要的空间上下文信息。

为解决此问题，本文提出了一种基于空间上下文的 3-D Otsu 算法。该方法不仅考虑像素的强度值，还融合了空间信息和直方图的特性。作者将该方法与基于直方图的 1-D、2-D、3-D Otsu 方法以及基于能量曲线的 1-D、2-D Otsu 方法进行了全面的性能对比。实验结果表明，本文提出的基于能量曲线的 3-D Otsu 算法在多个性能指标（包括 ME、MSE、PSNR、FSIM、SSIM 和熵）上均优于基于直方图的方法。通过在标准彩色图像上的实验，从主观和客观两个层面证明了该方法的有效性和优越性。

1.6. 原文链接

/files/papers/692bb5a74114e99a4cde875b/paper.pdf (已正式发表)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

图像分割是数字图像处理中的一个基础且关键的任务，其目标是将图像划分为多个有意义的区域。阈值法 (Thresholding) 是其中最简单有效的方法之一，通过设定一个或多个阈值，将像素根据其强度值进行分类。然而，如何选择最佳阈值是一个核心挑战。

2.1.2. 现有挑战与空白 (Gap)

传统Otsu方法的局限性:
- 一维 (1-D) Otsu: 仅利用像素的灰度值信息（即一维直方图）。当图像存在噪声或目标与背景的灰度差异不显著时，其分割效果会大打折扣，因为它完全忽略了像素与其邻域的空间关系。
- 二维 (2-D) Otsu: 为克服 1-D Otsu 的问题，2-D Otsu 引入了像素的邻域平均灰度值，构建了一个二维直方图。这在一定程度上利用了空间信息，提升了抗噪能力，但计算复杂度显著增加。
- 三维 (3-D) Otsu: 进一步扩展了 2-D Otsu，通常在像素灰度值和邻域均值的基础上，再增加一个特征，如邻域中值，构成三维直方图。这能提供更丰富的图像信息，但计算复杂度呈指数级增长，并且仍然是基于直方图的。
直方图方法的根本缺陷: 无论是 1-D、2-D 还是 3-D，基于直方图的方法本质上只关心像素值的统计分布，而没有直接对像素的空间上下文关系 (Spatial Contextual Information) 进行建模。空间上下文信息，即一个像素与其周围像素的关系，对于区分边缘、平滑区域和纹理至关重要，是高质量分割的关键。

2.1.3. 本文的切入点与创新思路

本文的切入点是用一种更能体现空间上下文信息的度量来替代传统的直方图。作者引入了能量曲线 (Energy Curve) 的概念。能量曲线并非简单统计像素值的出现频率，而是计算每个灰度级下的“空间能量”。这种能量是通过衡量图像中像素与其邻域像素在特定灰度阈值下的“一致性”来定义的。

直觉 (Intuition): 如果一个区域内的像素值都相似（例如，都大于或都小于某个阈值），那么这个区域的内部“能量”就低（边界少）。能量曲线的波谷（valleys）通常对应着不同区域之间的自然分界线，因此是寻找最佳阈值的理想位置。
创新思路: 将这种富含空间信息的能量曲线与信息最丰富但计算量也最大的三维Otsu框架相结合。具体来说，将 3-D Otsu 方法中原本基于直方图计算的三个维度（像素灰度、邻域均值、邻域中值）的概率分布，替换为基于能量曲线计算的概率分布，从而提出一种空间上下文能量曲线驱动的多层三维Otsu分割算法。

2.2. 核心贡献/主要发现

方法创新: 首次将能量曲线 (Energy Curve) 的概念与三维Otsu (3-D Otsu) 算法相结合，用于多层彩色图像分割。这是一种范式上的转变，从依赖像素值的统计分布转向依赖像素的空间能量分布。
性能提升: 提出的 3-D Otsu-Energy 方法在分割质量上显著优于传统的基于直方图的 1-D、2-D、3-D Otsu 方法，以及基于能量曲线的 1-D 和 2-D 方法。这通过主观视觉效果和客观性能指标（PSNR, SSIM, FSIM, Entropy 等）得到了全面验证。
信息保持: 新方法能够更好地保留图像的细节和结构信息。实验表明，分割后图像的熵 (Entropy) 更高，意味着损失的信息更少。
详尽的对比分析: 论文提供了一个非常全面的实验对比，系统地评估了 1D/2D/3D Otsu 在结合/不结合能量曲线时的性能差异，为该领域的研究提供了有价值的基准。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 图像分割 (Image Segmentation)

图像分割是指将一幅数字图像划分成多个不相交的区域（像素的集合）的过程。这些区域通常对应于现实世界中的不同物体或物体的不同部分。分割是许多高级计算机视觉任务（如目标检测、场景理解、医学影像分析）的预处理步骤。

3.1.2. 阈值分割 (Thresholding Segmentation)

阈值分割是最简单、最常用的一种图像分割技术。它基于一个假设：图像中不同区域的像素具有不同的强度（灰度）值。

双层阈值 (Bi-level Thresholding): 选择一个阈值 th，将图像中的每个像素 I(x, y) 与 th 比较。如果 $I(x, y) > th$ ，则该像素属于前景（或一个类别）；否则，属于背景（或另一个类别）。
多层阈值 (Multilevel Thresholding): 选择多个阈值 $th_1, th_2, ..., th_n$ ，将图像分割成 $n+1$ 个类别。这适用于需要从图像中分离出多个不同物体的场景。

3.1.3. Otsu方法 (Otsu's Method)

Otsu方法，也称最大类间方差法，是一种自动确定阈值的经典算法。其核心思想是：寻找一个阈值，使得通过该阈值分割成的两个类别（如前景和背景）之间的方差最大。最大化类间方差等价于最小化每个类别内部的方差。这保证了分割后的每个类别内部的像素尽可能相似，而不同类别之间的差异尽可能大。

3.2. 前人工作

3.2.1. 一维Otsu (1-D Otsu)

由 Nobuyuki Otsu 在1979年提出。该方法仅基于图像的灰度直方图 (gray-level histogram)。

工作原理:
1. 计算图像的灰度直方图，并将其归一化得到每个灰度级的概率分布。
2. 遍历所有可能的灰度值作为候选阈值 $t$ 。
3. 对于每个 $t$ ，将像素分为两类： $C_0$ （灰度值 $\le t$ ）和 $C_1$ （灰度值 $> t$ ）。
4. 计算这两类的类间方差 $\sigma_B^2(t)$ 。
5. 选择使 $\sigma_B^2(t)$ 最大的那个 $t$ 作为最佳阈值。
类间方差公式: $\sigma_B^2(t) = \omega_0(t)(\mu_0(t) - \mu_T)^2 + \omega_1(t)(\mu_1(t) - \mu_T)^2$
- $\omega_0(t), \omega_1(t)$ : 类别 $C_0, C_1$ 的像素概率之和。
- $\mu_0(t), \mu_1(t)$ : 类别 $C_0, C_1$ 的平均灰度值。
- $\mu_T$ : 整张图像的总平均灰度值。
缺点: 如前所述，它只考虑灰度值，对噪声敏感，且在目标与背景灰度分布重叠较多时效果不佳。

3.2.2. 二维Otsu (2-D Otsu)

为解决 1-D Otsu 的问题，研究者提出了 2-D Otsu。它同时考虑了像素的灰度值和其邻域的平均灰度值。

工作原理:
1. 对图像中的每个像素 (x, y)，计算其灰度值 f(x, y) 和其 k x k 邻域的平均灰度值 g(x, y)。
2. 构建一个以 $f$ 为x轴， $g$ 为y轴的二维直方图。直方图的每个点 (i, j) 的值表示灰度为 $i$ 且邻域均值为 $j$ 的像素数量。
3. 寻找一个阈值对 (t, s)，将这个二维直方图分割成四个区域（代表背景、前景、边缘和噪声）。
4. 通过最大化类间方差来确定最佳阈值对 (t, s)。
优点: 引入了局部空间信息，抗噪能力更强。
缺点: 计算复杂度从 $O(L)$ (L为灰度级数) 增加到 $O(L^2)$ ，计算量大。

3.2.3. 三维Otsu (3-D Otsu)

3-D Otsu 是对 2-D Otsu 的进一步扩展，旨在利用更丰富的图像特征。

工作原理:
1. 通常在像素灰度值 f(x, y) 和邻域均值 g(x, y) 的基础上，再引入第三个特征，例如邻域中值 (neighborhood median) h(x, y)。中值对椒盐噪声等离群点更不敏感。
2. 构建一个三维直方图。
3. 寻找一个阈值三元组 (t, s, r) 来最大化类间方差。
优点: 拥有更好的噪声免疫力。
缺点: 传统实现的时间复杂度高达 $O(L^3)$ ，计算成本极高。论文提到，已有研究通过查表或迭代等方法将其复杂度降低到 $O(L^2)$ 甚至 $O(L)$ ，但这些方法仍然是基于直方图的。

3.3. 技术演进

图像阈值分割技术的发展脉络清晰地体现了对信息维度和空间上下文日益增长的重视：

1-D Otsu (灰度值) $\rightarrow$ 2-D Otsu (灰度值 + 邻域均值) $\rightarrow$ 3-D Otsu (灰度值 + 邻域均值 + 邻域中值)

这个演进过程的核心是不断增加特征维度来更准确地描述像素，从而提高分割鲁棒性。然而，这一系列方法都停留在基于直方图的统计框架内。

3.4. 差异化分析

本文与上述工作的核心区别在于基础数据源的替换：

传统Otsu系列: 以直方图 (Histogram) 为基础。直方图是像素值的频次统计。
本文方法: 以能量曲线 (Energy Curve) 为基础。能量曲线是像素空间关系的能量度量。

具体来说，本文将 1-D、2-D、3-D Otsu 中用于计算类概率、类均值和类间方差的概率分布函数 (PDF)，从基于直方图的 P(i) 替换为基于能量曲线的 $P_E(i)$ 。这意味着，在Otsu框架下，像素对整体分割的“贡献”不再由其出现次数决定，而是由其在空间上所处的“能量”状态决定。这是一个根本性的创新。

4. 方法论

4.1. 方法原理

本文方法的核心思想是：用一种能够反映像素空间上下文信息的能量曲线 (Energy Curve) 来替代传统 Otsu 算法中使用的灰度直方图 (Histogram)，然后将这种新的数据源整合到信息维度最丰富的 3-D Otsu 框架中，以实现更精确的图像分割。

直方图的局限性： 直方图只统计每个灰度值出现的次数，完全丢失了像素的空间位置信息。一个在平滑区域的像素和一个在边缘的像素，只要灰度值相同，在直方图中就被同等对待。
能量曲线的优势： 能量曲线的计算考虑了每个像素与其邻居的关系。它的值反映了在某个灰度级下，图像的“不均匀”或“边界”程度。平滑的区域能量低，而物体边缘等剧烈变化的区域能量高。因此，能量曲线的波谷（局部最小值）往往是分割不同物体的理想阈值位置，因为它对应于两个稳定区域之间的过渡带。

4.2. 核心方法详解 (逐层深入)

4.2.1. 步骤一：构建能量曲线 (Energy Curve)

这是整个方法的基础。对于一幅尺寸为 M x N、最大灰度级为 $L$ 的图像 $I$ ，能量曲线的计算过程如下：

遍历所有灰度级: 对每一个可能的灰度级 $l$ （从 0 到 L-1），执行以下操作来计算该灰度级下的能量值 $E_l$ 。
生成二值矩阵: 对于当前的灰度级 $l$ ，创建一个与原图像大小相同的二值矩阵 $B_l = \{b_{x,y}\}$ ，其中： $b_{x,y} = \begin{cases} 1, & \text{if } I_{x,y} > l \\ -1, & \text{otherwise} \end{cases}$ 这个矩阵将图像根据阈值 $l$ 分为两部分，并用 $+1$ 和 -1 标记。
定义邻域系统: 论文使用了一个二阶邻域系统 $N_{xy}^2$ ，即一个像素 (x, y) 周围的8个邻居。如下图所示（原文 Figure 1）：

(x-1, y-1) (x-1,y) (x-1, y+1)
(x, y-1) (x, y) (x, y+1)
(x+1, y-1) (x+1, y) (x+1, y+1)
计算能量值 $E_l$ : 灰度级 $l$ 对应的能量值 $E_l$ (原文公式中写作 $E_x$ ，但根据上下文应为 $E_l$ ) 通过以下公式计算： $E_{l} = - \sum_{x=1}^{M} \sum_{y=1}^{N} \sum_{rs \in N_{xy}^{2}} b_{xy} \cdot b_{rs} + \sum_{x=1}^{M} \sum_{y=1}^{N} \sum_{rs \in N_{xy}^{2}} c_{xy} \cdot c_{rs}$
- 公式解释:
  - $b_{xy} \cdot b_{rs}$ $b_{x y} \cdot b_{rs}$ : 计算中心像素 (x, y) 与其邻居 (r, s) 在二值矩阵 $B_l$ $B_{l}$ 中值的乘积。
    - 如果 $b_{xy}$ 和 $b_{rs}$ 符号相同（同为 $+1$ 或 -1），表示它们在阈值 $l$ 的同一侧，该区域是“一致的”，乘积为 $+1$ 。
    - 如果 $b_{xy}$ 和 $b_{rs}$ 符号相反，表示它们跨越了阈值 $l$ ，这里存在一个“边界”，乘积为 -1。
  - $- \sum \sum \sum b_{xy} \cdot b_{rs}$ : 这一项是对所有像素与其邻居的乘积求和再取反。当图像在阈值 $l$ 下被分割成均匀区域时，大多数邻居对的乘积为 $+1$ ，求和后是一个大的正数，取反后得到一个大的负数（能量低）。当阈值 $l$ 恰好穿过物体的自然边界时，很多邻居对的乘积为 -1，求和后是一个负数，取反后得到一个正数（能量高）。因此，这一项衡量了图像在阈值 $l$ 下的“不一致性”或“边界总长度”。
  - $c_{xy}$ : 一个所有元素都为1的常数矩阵。
  - $\sum \sum \sum c_{xy} \cdot c_{rs}$ : 这是一个常数项，其值等于 (总像素数) x (邻居数)，即 $M * N * 8$ 。它的作用是保证最终的能量值 $E_l$ 始终为非负数，即 $E_l \ge 0$ 。
生成能量曲线: 对所有灰度级 $l$ 重复上述步骤，得到一系列能量值 $\{E_0, E_1, ..., E_{L-1}\}$ ，这就构成了能量曲线。

下图（原文 Figure 2）直观对比了直方图和能量曲线。可以看到能量曲线的波峰和波谷比直方图更平滑、更清晰，这有助于更准确地定位阈值。

该图像是图表，展示了不同帧的能量曲线和直方图。图 (a) 至 (e) 代表了三帧图像的能量曲线，分别标记为 (b)、(c)、(d)，而图 (f)、(g)、(h) 显示了相应的直方图；最终 (i) 为三维 Otsu 方法生成的分割图像。

4.2.2. 步骤二：将能量曲线整合进3-D Otsu框架

传统的 3-D Otsu 使用三个特征：像素灰度值 $f$ ，邻域均值 $g$ ，邻域中值 $h$ 。本文提出的方法保留了这三个特征，但将计算其概率分布的基础从直方图替换为能量曲线。

计算特征图像:
- 原始图像 (f): 设为 $I_f$ (即原图)。
- 邻域均值图像 (g): 对原图的每个像素，计算其 $k \times k$ （本文中 $k=3$ ）邻域的平均灰度值，得到均值图像 $I_g$ 。 $g(x, y) = \frac{1}{k^2} \sum_{i=-(k-1)/2}^{(k-1)/2} \sum_{j=-(k-1)/2}^{(k-1)/2} f(x+i, y+j)$
- 邻域中值图像 (h): 对原图的每个像素，计算其 $k \times k$ 邻域的灰度中值，得到中值图像 $I_h$ 。 $h(x, y) = \mathrm{med} \left\{ f(x+i, y+j) : i = -\frac{k-2}{2}, \ldots, \frac{k-2}{2}, j = -\frac{k-2}{2}, \ldots, \frac{k-2}{2} \right\}$ 注意： 原文(13)中中值公式的索引范围 $k/2$ 对于奇数 $k$ (如 $k=3$ ) 不是很精确，应理解为覆盖整个 $k \times k$ 窗口。例如，对于 $k=3$ ，索引 i, j 应为 $-1, 0, 1$ 。
计算各特征的能量曲线:
- 对 $I_f$ 计算其能量曲线，得到能量值序列 $\{E_i^{(f)}\}$ 。
- 对 $I_g$ 计算其能量曲线，得到能量值序列 $\{E_j^{(g)}\}$ 。
- 对 $I_h$ 计算其能量曲线，得到能量值序列 $\{E_k^{(h)}\}$ 。
定义能量概率分布: 将能量值归一化，得到三个独立的能量概率分布 (energy probability distributions)。设图像总像素数为 $N$ 。 $\begin{cases} P_{E_i}^{(f)} = E_i^{(f)} / \sum_i E_i^{(f)} \\ P_{E_j}^{(g)} = E_j^{(g)} / \sum_j E_j^{(g)} \\ P_{E_k}^{(h)} = E_k^{(h)} / \sum_k E_k^{(h)} \end{cases}$ 注意： 原文(14)给出的公式是 $P_{E_i} = E_i / N$ ，这在物理意义上更像是“平均能量”，而不是概率分布（因为其和不为1）。而Otsu算法需要的是概率分布（和为1）。从后续的 $\omega_c$ （类概率）的计算来看，这里的 $P$ 应该是一个和为1的概率质量函数。因此，更合理的解释是原文(14)可能存在表述简化，实际应为归一化后的能量分布。我们将遵循Otsu框架的常规要求，将其理解为归一化概率。
最大化类间方差: 对于多层阈值分割任务，假设需要 $n$ 个阈值，将图像分为 $n+1$ 个类。
- 独立优化: 论文采用了一种简化的 3-D Otsu 策略，即不进行三维联合搜索（这会非常耗时），而是对三个特征维度独立地进行一维Otsu优化。
- 对于每个特征（ $f$ , $g$ , $h$ ），独立地寻找一组 $n$ 个阈值，使得该特征维度下的类间方差最大化。以特征 $f$ 为例，其目标函数为： $\{r_1^*, \dots, r_n^*\} = \arg\max_{0 \le r_1 < \dots < r_n \le L-1} \{\sigma_{(f)}^2(r_1, \dots, r_n)\}$ 其中，类间方差 $\sigma_{(f)}^2$ 的计算方式与标准 1-D Otsu 完全相同，只是将基础的概率分布换成了能量概率分布 $P_{E_i}^{(f)}$ ： $\sigma_{(f)}^2 = \sum_{c=1}^{n+1} \omega_c^{(f)} (\mu_c^{(f)} - \mu_T^{(f)})^2$
  - $\omega_c^{(f)} = \sum_{i=r_{c-1}}^{r_c-1} P_{E_i}^{(f)}$ : 类别 $c$ 的能量概率和。
  - $\mu_c^{(f)} = \sum_{i=r_{c-1}}^{r_c-1} \frac{i \cdot P_{E_i}^{(f)}}{\omega_c^{(f)}}$ : 类别 $c$ 的能量加权平均灰度级。
  - $\mu_T^{(f)} = \sum_{i=0}^{L-1} i \cdot P_{E_i}^{(f)}$ : 总能量加权平均灰度级。
- 同理，可以得到特征 $g$ 的最佳阈值集 $\{s_1^*, \dots, s_n^*\}$ 和特征 $h$ 的最佳阈值集 $\{t_1^*, \dots, t_n^*\}$ 。
融合阈值: 最后，将三个维度上独立找到的最佳阈值进行平均融合，得到最终用于分割的阈值集： $\text{Final Thresholds} = \left\{ \frac{r_1^* + s_1^* + t_1^*}{3}, \dots, \frac{r_n^* + s_n^* + t_n^*}{3} \right\}$
图像分割: 使用这组最终的融合阈值，对原始图像进行多层阈值分割。

4.2.3. 算法流程总结

下图（原文 Figure 3）展示了所提出方法的完整流程：

Fig. 3. Flowchart of proposed method. 该图像是一个示意图，展示了所提出方法的流程图。流程包括载入图像、初始化阈值、找到像素的能量曲线分布、计算适应度值、通过最大化适应度获得最佳阈值以及基于最佳阈值进行图像分割的步骤。该流程图清晰地描述了多级三维Otsu算法进行图像分割的各个环节。

输入图像。
对输入图像分别计算其均值滤波图像和中值滤波图像。
对原始图像、均值图像、中值图像这三者，分别计算它们的能量曲线。
将三条能量曲线归一化，得到三组能量概率分布。
对这三组能量概率分布，独立地使用 Otsu 准则（最大化类间方差）来寻找各自的最佳多层阈值。
将三组最佳阈值平均融合，得到最终的分割阈值。
使用最终阈值对原始图像进行分割，得到输出图像。

5. 实验设置

5.1. 数据集

来源: 实验使用了两个公开的标准图像数据集：
1. 伯克利分割数据集 (The Berkeley Segmentation Dataset, BSDS) [23]: 这是一个在图像分割和边缘检测领域被广泛使用的基准数据集。论文中引用的是 BSDS500，包含500张自然场景的彩色图像。
2. 柯达无损真彩图像套件 (Kodak Lossless True Color Image Suite) [24]: 包含24张高质量的彩色图像。
特点: 这些数据集的图像内容多样，涵盖了动物、人物、自然风光、人造物体等，具有丰富的颜色、纹理和复杂的结构，能有效检验分割算法的普适性和鲁棒性。
数据形态: 所有图像均为JPEG格式，尺寸统一为 256x256 像素。下图（原文 Figure 4）展示了论文中使用的10张测试图像样本。

$Fig. 4. (a)(j) Original test images \[23\], \[24\].$ 该图像是多个原始测试图像的集合，分别标记为（a）至（j）。这些图像展示了多种场景和对象，如动物、植物和建筑等。
选择原因: 选择这些标准数据集有助于确保实验结果的可复现性，并能与其他研究工作进行公平比较。

5.2. 评估指标

论文使用了六个客观指标来定量评估分割图像的质量。

5.2.1. 平均误差 (Mean Error, ME)

概念定义: ME 计算分割后图像与原始图像之间像素值的平均差异。它反映了分割过程引入的整体亮度偏差。一个理想的分割应尽可能保持原始图像的亮度信息，因此 ME 值越小越好。
数学公式: $ME = \frac{1}{J \times K} \sum_{i=1}^{J} \sum_{j=1}^{K} [I(i, j) - I'(i, j)]$
符号解释:
- I(i, j): 原始图像在坐标 (i, j) 处的像素值。
- I'(i, j): 分割后图像在坐标 (i, j) 处的像素值。
- J, K: 图像的高度和宽度。注：原文 Table I 中的公式有误，分子部分写成了 $= N i=$ ，此处根据标准定义进行了修正。

5.2.2. 均方误差 (Mean Square Error, MSE)

概念定义: MSE 计算分割后图像与原始图像之间像素值差异的平方的平均值。与 ME 不同，MSE 对较大的误差给予更高的权重（因为误差被平方了）。它是衡量图像失真度的常用指标，值越小表示失真越小，分割质量越高。
数学公式: $MSE = \frac{1}{J \times K} \sum_{i=1}^{J} \sum_{j=1}^{K} [I(i, j) - I'(i, j)]^2$
符号解释:
- I(i, j): 原始图像在坐标 (i, j) 处的像素值。
- I'(i, j): 分割后图像在坐标 (i, j) 处的像素值。
- J, K: 图像的高度和宽度。

5.2.3. 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)

概念定义: PSNR 是衡量图像质量的经典指标，基于 MSE 计算得出。它表示信号（原始图像）的最大可能功率与失真（噪声）功率之间的比率，通常以分贝 (dB) 为单位。PSNR 值越高，表示分割图像的失真越小，质量越接近原始图像。
数学公式: $PSNR = 20 \log_{10} \left( \frac{\text{MAX}_I}{\sqrt{MSE}} \right)$
符号解释:
- $\text{MAX}_I$ : 图像像素值的最大可能值。对于8位灰度图像，该值为 255。
- MSE: 原始图像与分割图像之间的均方误差。

5.2.4. 结构相似性指数 (Structural Similarity Index, SSIM)

概念定义: SSIM 是一种衡量两幅图像结构相似度的指标，它比 MSE 和 PSNR 更符合人类视觉感知。SSIM 从亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面来评估图像的相似性。其值范围为 $[-1, 1]$ ，越接近 1 表示两幅图像越相似。
数学公式: $SSIM(x, y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)}$
符号解释:
- x, y: 两幅待比较的图像（或图像块）。
- $\mu_x, \mu_y$ : 图像 $x$ 和 $y$ 的平均值。
- $\sigma_x^2, \sigma_y^2$ : 图像 $x$ 和 $y$ 的方差。
- $\sigma_{xy}$ : 图像 $x$ 和 $y$ 的协方差。
- $c_1, c_2$ : 为避免分母为零而设置的稳定常数。

5.2.5. 特征相似性指数 (Feature Similarity Index, FSIM)

概念定义: FSIM 是一种先进的图像质量评估指标，它认为人类视觉系统主要通过提取图像的低层特征来感知图像质量。FSIM 利用相位一致性 (Phase Congruency, PC) 和梯度幅值 (Gradient Magnitude, GM) 作为主要特征来计算两幅图像的相似度。FSIM 值越高，表示特征相似度越高，分割效果越好。
数学公式: $FSIM = \frac{\sum_{x \in \Omega} S_L(x) \cdot PC_m(x)}{\sum_{x \in \Omega} PC_m(x)}$
符号解释:
- $\Omega$ : 整个图像的空间域。
- $S_L(x)$ : 在位置 $x$ 处的局部相似度图。
- $PC_m(x)$ : 两幅图像中相位一致性较大的那个值，用作权重，表示该位置的重要性。注：原文 Table I 中的公式非常简化，此处给出了更完整的概念性公式。

5.2.6. 熵 (Entropy)

概念定义: 在图像处理中，熵是衡量图像信息量丰富程度的一个指标。熵越大，表示图像包含的灰度级分布越均匀，细节和纹理信息越多。在分割任务中，如果分割后图像的熵值与原始图像的熵值接近，说明分割过程保留了大部分原始信息，信息损失小。
数学公式: $\text{Entropy} = - \sum_{i=0}^{L-1} p(i) \log_2 p(i)$
符号解释:
- p(i): 图像中灰度级 $i$ 出现的概率。
- $L$ : 图像的总灰度级数。

5.3. 对比基线

本文将提出的 3-D Otsu-Energy 方法与以下五种基线模型进行了全面比较：

1-D Otsu (Histogram-based): 传统的基于灰度直方图的一维Otsu。
2-D Otsu (Histogram-based): 传统的基于二维直方图的二维Otsu。
3-D Otsu (Histogram-based): 基于三维直方图的三维Otsu。
1-D Otsu-Energy: 将能量曲线应用于一维Otsu框架。
2-D Otsu-Energy: 将能量曲线应用于二维Otsu框架。

这个对比实验设计得非常系统，可以清晰地揭示两个关键问题：

维度增加的效果: 对比 1D, 2D, 3D 方法，可以看出增加特征维度对性能的影响。
能量曲线的效果: 对比 Histogram 和 Energy 版本，可以看出用能量曲线替代直方图带来的性能增益。

6. 实验结果与分析

6.1. 核心结果分析

论文通过大量的表格数据和可视化结果，从主观和客观两个方面证明了其提出方法的优越性。

6.1.1. 客观指标分析 (Tables III, IV, V)

作者在10张测试图像上，针对2、3、5、8个不同的阈值水平 ( $L$ )，对所有6种方法进行了评估。

ME 和 Entropy (Table III):
- ME (Mean Error): 在绝大多数情况下，3-D Otsu-Energy 方法获得了最低的 ME 值（越低越好）。这表明该方法产生的分割图像在整体亮度上与原图最接近，失真最小。
- Entropy (熵): 3-D Otsu-Energy 方法在所有测试用例中都获得了最高的熵值（越高越好）。这说明该方法分割出的图像保留了最多的信息和细节，最接近原始图像的复杂性。
MSE 和 PSNR (Table IV):
- MSE (Mean Square Error): 3-D Otsu-Energy 方法几乎总是得到最低的 MSE 值（越低越好）。
- PSNR (Peak Signal-to-Noise Ratio): 相应地，3-D Otsu-Energy 方法获得了最高的 PSNR 值（越高越好）。
- 这两个指标共同表明，从像素级别的误差来看，3-D Otsu-Energy 的分割结果与原始图像的保真度最高。
SSIM 和 FSIM (Table V):
- SSIM (Structural Similarity): 3-D Otsu-Energy 方法在 SSIM 指标上表现最佳，获得了最高分（越高越好）。这说明其分割结果在结构上与原图最为相似，更符合人类视觉感知。
- FSIM (Feature Similarity): 同样，3-D Otsu-Energy 在 FSIM 指标上也取得了最高分（越高越好），证明其在低层视觉特征（如边缘和相位）的保持上做得最好。

综合分析：

能量曲线 vs. 直方图: 对于相同的维度（如 3-D Otsu vs 3-D Otsu-Energy），基于能量曲线的方法总是显著优于基于直方图的方法。这证明了能量曲线作为空间上下文信息载体的有效性。
维度增加的效果: 在能量曲线系列方法中（1D-Energy vs 2D-Energy vs 3D-Energy），随着维度的增加，各项指标也普遍提升。这说明 3-D 框架确实能利用更丰富的信息。
结论: 提出的 3-D Otsu-Energy 方法结合了高维特征和空间上下文建模两大优势，因此在所有对比方法中脱颖而出。

6.1.2. 主观视觉分析 (Figures 5, 6, 7, 8)

除了冰冷的数字，作者还提供了大量的分割结果可视化图，让读者可以直观地比较不同方法的效果。

下图（原文 Figure 8）集中展示了5张图像在5个阈值水平下的分割结果对比，非常具有说服力。

Fig. 8. Visual comparison of segmentation results at 5-level of thresholding for 1-D Otsu, 2-D Otsu, 3-D Otsu, 1-D Otsu-Energy, 2-D Otsu-Energy, and 3-D Otsu-Energy methods, respectively. 该图像是一个比较图，展示了在5级阈值下分别使用1-D Otsu、2-D Otsu、3-D Otsu、1-D Otsu-Energy、2-D Otsu-Energy和3-D Otsu-Energy方法进行的图像分割结果。各个方法的视觉差异显著，显示了不同算法在分割效果上的优劣。

观察:
- 背景与物体分离: 在“鸟”和“狗”的图像中，基于直方图的方法（前三列）很难将背景（如天空、草地）平滑地分割出来，经常出现斑块或错误的颜色。而 3-D Otsu-Energy 方法（最后一列）能够非常干净地分离出物体轮廓，并且背景区域的颜色和质感也更加均匀、自然。
- 细节保留: 在“飞机”图像中，3-D Otsu-Energy 更好地保留了飞机机身的细节和光影变化。
- 区域一致性: 提出的方法在分割出的每个区域内部，颜色和亮度的一致性更好，视觉效果更佳。
  
  结论： 从主观视觉上看，3-D Otsu-Energy 方法产生的分割结果区域边界更清晰，区域内部更平滑，伪影更少，整体视觉质量远超其他对比方法。

6.2. 数据呈现 (表格)

以下是原文 Table IV 的完整结果，展示了各方法在不同阈值水平下的 MSE 和 PSNR 值。加粗的数值表示该行中的最优结果。

Test Images	L	MSE						PSNR
Test Images	L	1D Otsu	2D Otsu	3D Otsu	1D Otsu-Energy	2D Otsu-Energy	3D Otsu-Energy	1D Otsu	2D Otsu	3D Otsu	1D Otsu-Energy	2D Otsu-Energy	3D Otsu-Energy
1	2	230.6349	224.5916	217.2926	228.6270	224.1713	213.4634	24.5073	24.6203	24.7606	24.5421	24.6289	24.8437
	3	219.2760	209.8285	201.2314	212.4975	200.1266	194.1777	24.7223	24.9206	25.0968	24.8590	25.1229	25.2530
	5	194.8921	185.6409	182.9065	193.7422	182.6051	180.0393	25.2341	25.4452	25.5242	25.2603	25.5310	25.5905
	8	167.0497	166.9930	152.6006	161.0754	155.6322	152.4535	25.9129	25.9143	26.3065	26.0640	26.2215	26.3113
2	2	221.0577	219.5521	215.1610	216.7048	213.0412	211.8282	24.6955	24.7280	24.8043	24.7744	24.8529	24.8778
	3	214.3777	211.4888	208.6311	205.9347	205.7881	200.7416	24.8276	24.8783	24.9374	25.0031	25.0062	25.1110
	5	196.2620	193.3257	174.9195	180.8738	170.2403	169.9008	25.2031	25.2721	25.7038	25.5606	25.8278	25.8365
	8	168.0566	157.2287	154.6631	157.7595	150.2312	149.2126	25.8798	26.1739	26.2486	26.1594	26.3688	26.3989
... (表格中其他图像的数据与此趋势类似，为简洁起见省略) ...

从上表中可以清晰地看到，在图像1和2的各个阈值水平下，3D Otsu-Energy方法均获得了最低的MSE和最高的PSNR值，这与核心结果分析中的结论完全一致。

6.3. 消融实验/参数分析

虽然论文没有设置一个名为“消融实验”的独立章节，但其整体的实验设计本质上就是一组详尽的消融研究：

组件：能量曲线 (Energy Curve)
- 消融方式: 将基于能量曲线的方法 (*-Energy) 与其对应的基于直方图的方法 (*-Histogram) 进行对比。
- 结果: 几乎所有指标都显示，Energy版本的性能远超Histogram版本。这证明了能量曲线这个核心组件是有效的、必要的。
组件：高维特征 (2D/3D Features)
- 消融方式: 在Energy系列方法内部，比较1D-Energy、2D-Energy和3D-Energy的性能。
- 结果: 性能随着维度的增加而提升 ( $3D > 2D > 1D$ )。这证明了引入邻域均值和中值这些高维特征是有效的。
参数：阈值水平 (Number of Thresholds $L$ )
- 分析方式: 作者对比了 $L = 2, 3, 5, 8$ 时的性能。
- 结果: 随着阈值数量的增加，所有方法的性能指标（如PSNR, SSIM）都普遍提高。这是符合预期的，因为更多的阈值可以更精细地划分图像，从而更接近原始图像。这也验证了所提方法在多层阈值分割 (multilevel thresholding) 任务上的有效性。
计算时间分析 (Table VI): 这是一个重要的权衡分析。
- 观察:
  - 1D/2D Otsu (Histogram) 速度非常快（亚秒级）。
  - 3D Otsu (Histogram) 速度显著变慢（10-40秒）。
  - 所有Energy版本的方法都非常耗时（1D-Energy约75秒，3D-Energy约230秒）。
- 分析: 计算能量曲线本身是一个非常耗时的过程，因为它需要对每个灰度级遍历整个图像并计算邻域关系。这是该方法最主要的性能瓶颈。
- 结论: 本文提出的方法用巨大的计算成本换取了显著的分割质量提升。这是一种典型的精度-速度权衡 (Accuracy-Speed Trade-off)。

7. 总结与思考

7.1. 结论总结

本文成功地提出了一种用于彩色图像多层分割的新算法——基于空间上下文能量曲线的三维Otsu方法 (3-D Otsu-Energy)。

核心贡献: 创新性地用能够捕捉像素空间关系的能量曲线替代了传统Otsu算法中依赖的灰度直方图，并将此思想与信息最丰富的3-D Otsu框架结合。
主要发现: 实验结果从主观视觉效果和六个客观性能指标（ME, MSE, PSNR, SSIM, FSIM, Entropy）两方面，均无可辩驳地证明了所提方法相比于传统的基于直方图的1D/2D/3D Otsu方法以及低维的能量曲线方法，具有全面的优越性。它能够生成边界更清晰、区域内一致性更好、信息保留更完整的高质量分割图像。
意义: 该工作为经典的阈值分割领域提供了一个新的、更强大的范式，证明了直接对空间上下文进行建模的重要性，并为需要高质量分割结果的应用（如医学影像、模式识别）提供了一个有价值的备选方案。

7.2. 局限性与未来工作

论文本身指出了其方法的局限性和未来方向：

局限性 (隐性): 最主要的局限性在于计算复杂度高。从 Table VI 的数据可以看出，3-D Otsu-Energy 的计算时间长达数分钟，这对于实时应用或处理大批量图像的场景是不可接受的。
未来工作:
1. 效率提升: 设计更高效的 3-D Otsu 算法来处理复杂图像和计算机视觉问题。这暗示了作者意识到了计算效率是当前方法的一大短板。
2. 探索新目标函数: 探索将能量曲线的概念与其他新的目标函数结合，用于彩色图像的多层阈值分割。

7.3. 个人启发与批判

启发:
1. 范式转换的威力: 这篇论文给我最大的启发是，有时对一个经典算法的重大改进，并不在于对其内部数学细节的修补，而在于改变其最基础的数据输入范式。将Otsu算法的基础从“频次统计”（直方图）切换到“空间能量”（能量曲线），带来了质的飞跃。
2. 信息维度的价值: 实验清晰地展示了“维度越高，信息越丰富，效果越好”的规律。这在机器学习和数据科学中是一个普遍的原则：好的特征工程是成功的一半。
3. 严谨的实验设计: 论文的实验对比非常系统和全面，为验证其核心思想（能量曲线和高维特征）的有效性提供了强有力的支撑。这种实验设计值得学习。
批判与思考:
1. 计算效率问题: 论文虽然在结论中承认了方法的有效性，但对计算成本高昂这一巨大缺陷的讨论显得不足。在实际应用中，一个耗时几分钟的分割算法是很难被采纳的。未来的工作必须重点解决这个问题，例如通过GPU并行计算、算法近似（如快速能量曲线计算）等手段。
2. 3-D Otsu的简化处理: 论文中采用的 3-D Otsu 策略是将三个维度独立优化再融合，而不是在三维空间中进行联合搜索。这是一种为了降低复杂度的次优解。虽然效果已经很好，但理论上，一个真正的三维联合优化可能会找到更好的阈值组合。这种简化是否是导致性能瓶颈的原因之一，或者说，真正的三维搜索是否会带来更大的提升，是一个值得探讨的问题。
3. 与深度学习方法的比较: 论文发表于2019-2021年，当时基于深度学习的语义分割方法（如U-Net, DeepLab）已经非常成熟。论文完全没有将自己的“传统”方法与这些state-of-the-art的深度学习方法进行比较。虽然研究领域不同（阈值分割 vs. 语义分割），但在“图像分割”这个大任务下，缺少这种比较使得我们无法判断该方法在更广阔的的背景下的竞争力。在很多场景下，深度学习方法可能在精度和速度上都更具优势，尽管它们需要大量的标注数据进行训练。本文的方法作为一种无监督方法，其主要优势可能在于无需训练，但这一优势并未在文中被明确强调和利用。

(x-1, y-1)	(x-1,y)	(x-1, y+1)
(x, y-1)	(x, y)	(x, y+1)
(x+1, y-1)	(x+1, y)	(x+1, y+1)

Spatial Context Energy Curve-Based Multilevel 3-D Otsu Algorithm for Image Segmentation

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 25 分钟读完 · 14,336 字