论文状态：已完成

An effective CNN and Transformer complementary network for medical image segmentation

发表：2022/11/30

医疗图像分割 (1)CNN与Transformer互补网络 (1)跨域特征融合块 (1)特征互补模块 (1)Swin Transformer解码器 (1)

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种医学图像分割的CNN与Transformer互补网络（CTC-Net），结合CNN的局部特征与Transformer的长距离依赖。通过Swin Transformer和残差CNN设计的编码器生成互补特征，并采用交叉融合模块和特征互补模块增强表示能力。实验表明，CTC-Net在多器官和心脏分割方面显著优于现有模型。

摘要

The Transformer network was originally proposed for natural language processing. Due to its powerful representation ability for long-range dependency, it has been extended for vision tasks in recent years. To fully utilize the advantages of Transformers and Convolutional Neural Networks (CNNs), we propose a CNN and Transformer Complementary Network (CTC-Net) for medical image segmentation. We first design two encoders by Swin Transformers and Residual CNNs to produce complementary features in Transformer and CNN domains, respectively. Then we cross-wisely concatenate these complementary features to propose a Cross-domain Fusion Block (CFB) for effectively blending them. In addition, we compute the correlation between features from the CNN and Transformer domains, and apply channel attention to the self-attention features by Transformers for capturing dual attention information. We incorporate cross-domain fusion, feature correlation and dual attention together to propose a Feature Complementary Module (FCM) for improving the representation ability of features. Finally, we design a Swin Transformer decoder to further improve the representation ability of long-range dependencies, and propose to use skip connections between the Transformer decoded features and the complementary features for extracting spatial details, contextual semantics and long-range information. Skip connections are performed in different levels for enhancing multi-scale invariance. Experimental results show that our CTC-Net significantly surpasses the state-of-the-art image segmentation models based on CNNs, Transformers, and even Transformer and CNN combined models designed for medical image segmentation. It achieves superior performance on different medical applications, including multi-organ segmentation and cardiac segmentation.

思维导图

论文精读

中文精读约 36 分钟读完 · 25,325 字

1. 论文基本信息

1.1. 标题

An effective CNN and Transformer complementary network for medical image segmentation (用于医学图像分割的有效 CNN 和 Transformer 互补网络)

1.2. 作者

Feiniu Yuan, Zhengxiao Zhang, Zhijun Fang, Fuanchiao, Zhangahiu, C yony hah

1.3. 发表期刊/会议

发表于 Elsevier 期刊。该期刊在医学图像处理和人工智能应用领域具有影响力。

1.4. 发表年份

2022年

1.5. 摘要

Transformer (Transformer) 网络最初是为自然语言处理 (Natural Language Processing, NLP) 提出的。由于其强大的长距离依赖 (long-range dependency) 表示能力，近年来已被扩展应用于视觉任务 (vision tasks)。为了充分利用 Transformer 和卷积神经网络 (Convolutional Neural Networks, CNNs) 的优势，本文提出了一个用于医学图像分割 (medical image segmentation) 的 CNN 和 Transformer 互补网络 (CNN and Transformer Complementary Network, CTC-Net)。作者首先通过 Swin Transformer (Swin Transformer) 和残差 CNN (Residual CNNs) 设计了两个编码器 (encoder)，分别在 Transformer 和 CNN 域中生成互补特征 (complementary features)。然后，这些互补特征被交叉连接，形成一个跨域融合块 (Cross-domain Fusion Block, CFB) 以有效融合它们。此外，作者计算了 CNN 域和 Transformer 域特征之间的相关性 (correlation)，并对 Transformer 生成的自注意力 (self-attention) 特征应用通道注意力 (channel attention)，以捕获双重注意力 (dual attention) 信息。作者将跨域融合、特征相关性和双重注意力结合起来，提出了一个特征互补模块 (Feature Complementary Module, FCM)，以提高特征的表示能力。最后，设计了一个 Swin Transformer 解码器 (decoder) 来进一步增强长距离依赖的表示能力，并提出在 Transformer 解码特征和互补特征之间使用跳跃连接 (skip connections) 来提取空间细节 (spatial details)、上下文语义 (contextual semantics) 和长距离信息。跳跃连接在不同级别执行，以增强多尺度不变性 (multi-scale invariance)。实验结果表明，CTC-Net 显著优于基于 CNN、Transformer 甚至结合了 Transformer 和 CNN 的最先进 (state-of-the-art) 医学图像分割模型。它在多器官分割 (multi-organ segmentation) 和心脏分割 (cardiac segmentation) 等不同的医学应用中取得了卓越的性能。

1.6. 原文链接

/files/papers/6929949b4241c84d8510f9f3/paper.pdf (发布状态: 可在线获取 PDF)

2. 整体概括

2.1. 研究背景与动机

核心问题： 医学图像分割在疾病诊断中至关重要，但精确的像素级分类仍然面临挑战。 重要性与现有挑战：

CNN 的局限性： 传统的 CNN 模型在提取局部上下文信息和保持平移不变性方面表现出色，但由于感受野 (receptive field) 有限，难以有效建模长距离依赖信息。这对于分割大型、细长或边界模糊的器官（如胰腺、肾脏）尤其不利。
Transformer 的局限性： Transformer 模型通过自注意力机制能很好地捕获全局和长距离依赖，但它在捕获局部性 (locality) 和平移不变性 (translation invariance) 方面不如 CNN。此外，原始 Transformer 的计算复杂度随着图像大小呈二次方增长，限制了其在视觉任务中的应用。
现有结合模型的不足： 尽管已有将 CNN 和 Transformer 结合的模型，但它们往往未能充分利用两者的优势，例如，简单地在 CNN 编码器和 CNN 解码器之间插入 Transformer 块 (block)，或者没有在多尺度上进行有效的特征融合。

论文的切入点/创新思路： 本文基于 CNN 和 Transformer 之间天然的互补性，提出了一种深度融合策略。通过设计专门的模块，使 CNN 擅长的局部细节和上下文信息与 Transformer 擅长的长距离依赖信息能够高效地在多尺度、跨域层面进行融合和增强，从而克服单一模型的局限性，提升医学图像分割的精度和鲁棒性。

2.2. 核心贡献/主要发现

双编码路径设计： 提出了由 ResNet34 (ResNet34) 实现的 CNN 编码器和由 Swin Transformer 实现的 Transformer 编码器组成的双编码路径，分别用于提取空间/上下文特征和长距离依赖特征，确保特征的互补性。
有效特征互补模块 (FCM)： 提出了一个 FCM，通过跨域融合块 (CFB)、相关性增强块 (CEB) 和通道注意力块 (CAB) 有效地融合和增强来自 CNN 和 Transformer 域的特征。CFB 采用交叉连接方式融合，CEB 建模跨域特征相关性，CAB 对 Transformer 自注意力特征施加通道注意力以捕获双重注意力信息。
多尺度跳跃连接的 Transformer 解码器： 设计了一个基于 Swin Transformer 的解码器，通过多尺度跳跃连接将 Transformer 解码特征和 FCM 生成的互补特征结合，共同提取上下文和长距离信息，并恢复空间细节。
卓越的性能： 在 Synapse (Synapse) 和 ACDC (Automatic Cardiac Diagnosis Challenge, ACDC) 这两个医学图像数据集上，CTC-Net 显著优于现有的最先进的基于 CNN、Transformer 以及 CNN-Transformer 组合的分割模型，尤其在胰腺、肾脏等分割难度大的器官上表现突出，证明了其在不同医学应用中的优越性和泛化能力。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 卷积神经网络 (Convolutional Neural Networks, CNN)

CNN 是一种深度学习架构，特别适用于处理具有网格状拓扑结构的数据，如图像。其核心组件是卷积层 (convolutional layer)，通过共享权重的卷积核 (kernel) 在输入数据上滑动，提取局部特征。CNN 具有以下优势：

局部性 (Locality)： 卷积核只关注输入数据的局部区域，因此非常善于捕捉图像中的局部模式和纹理。
权值共享 (Weight Sharing)： 同一个卷积核在图像的不同位置使用相同的权重，大大减少了模型的参数数量，降低了过拟合 (overfitting) 的风险。
平移不变性 (Translation Invariance)： 由于权值共享，CNN 对图像中物体位置的微小变化具有一定的不敏感性，即物体在图像中平移后，模型仍能识别出来。然而，CNN 的固有局限性在于其感受野有限，难以有效捕获图像中远距离像素之间的依赖关系，即长距离依赖。

3.1.2. Transformer

Transformer 是一种最初为自然语言处理任务设计的神经网络架构，由 Vaswani 等人于 2017 年提出。它完全摒弃了循环神经网络 (Recurrent Neural Network, RNN) 和卷积神经网络，而是完全依赖自注意力机制来处理输入序列。

自注意力机制 (Self-Attention Mechanism)： 这是 Transformer 的核心。它允许模型在处理序列中的每个元素时，都能权衡序列中所有其他元素的重要性。对于图像处理，这意味着每个图像块 (patch) 可以关注图像中的所有其他图像块，从而捕获全局和长距离依赖。
- Attention (注意力) 机制公式： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释：
  - $Q$ (Query)：查询矩阵，表示当前要关注的元素信息。
  - $K$ (Key)：键矩阵，表示所有可能被关注的元素信息。
  - $V$ (Value)：值矩阵，表示所有可能被关注的元素的内容信息。
  - $K^T$ ：键矩阵的转置。
  - $QK^T$ ：查询与键的点积，表示查询与每个键的相似度。
  - $\sqrt{d_k}$ ：缩放因子，用于防止点积结果过大，使得 softmax 函数在梯度计算时处于稳定区域。 $d_k$ 是键向量的维度。
  - $\mathrm{softmax}(\cdot)$ ：Softmax 函数，将相似度分数转换为权重分布，确保所有权重之和为 1。
  - $V$ ：加权求和的值矩阵，表示根据注意力权重融合后的信息。
多头自注意力 (Multi-head Self-Attention, MSA)： 允许模型同时关注来自不同“表示子空间”的信息，提高了模型的表达能力。
前馈网络 (Feed Forward Network, FFN) / 多层感知机 (Multi-Layer Perceptron, MLP)： 在每个注意力层之后，Transformer 使用 FFN 对每个位置的特征进行独立处理。
层归一化 (Layer Normalization, LN)： 在每个子层（自注意力或 FFN）的输入之后，应用层归一化来稳定训练。
残差连接 (Residual Connections)： 每个子层都使用残差连接，并紧跟层归一化，有助于解决深层网络的梯度消失问题。

Transformer 擅长建模长距离依赖，但缺乏 CNN 的局部归纳偏置 (inductive bias)，这使得它在处理局部结构和保持平移不变性方面可能不如 CNN。

3.1.3. U-Net (U-Net)

U-Net 是一种经典的用于生物医学图像分割的编码器-解码器 (encoder-decoder) 架构，由 Ronneberger 等人于 2015 年提出。其名称来源于其网络结构的“U”形。

编码器 (Encoder)： 通常由一系列卷积层和下采样 (down-sampling) 操作（如最大池化）组成，用于捕获图像的上下文信息和高级语义特征，同时逐渐减小特征图 (feature map) 的空间分辨率 (spatial resolution)。
解码器 (Decoder)： 通常由一系列上采样 (up-sampling) 操作（如反卷积或插值）和卷积层组成，用于逐步恢复特征图的空间分辨率，并结合编码器捕获的语义信息，生成最终的分割掩码 (segmentation mask)。
跳跃连接 (Skip Connections)： U-Net 的关键创新。它将编码器中不同级别的特征图直接连接到解码器中对应级别的特征图。这些连接有助于解码器恢复在下采样过程中丢失的精细空间细节，并将低级特征（细节信息）与高级特征（语义信息）相结合，从而在分割任务中取得优异性能。

3.1.4. Swin Transformer (Swin Transformer)

Swin Transformer (Shifted Windows Transformer) 是一种分层 (hierarchical) 的视觉 Transformer，由 Liu 等人于 2021 年提出，旨在弥合 Transformer 和 CNN 在视觉任务中的差距。它通过以下机制降低了计算复杂度并引入了 CNN 的归纳偏置：

局部窗口注意力 (Local Window Attention)： Swin Transformer 不像原始 ViT (Vision Transformer) 那样在整个图像上计算全局自注意力，而是在非重叠的局部窗口内计算自注意力。这使得计算复杂度从图像大小的二次方降至线性。
移位窗口机制 (Shifted Window Mechanism)： 为了允许不同窗口之间进行信息交互，Swin Transformer 引入了移位窗口机制。在连续的 Swin Transformer 块中，窗口的划分会发生偏移，从而实现跨窗口连接，有效地扩展了感受野并模拟了全局信息交互。
分层特征表示 (Hierarchical Feature Representation)： Swin Transformer 通过“补丁合并 (patch merging)”操作逐步下采样特征图，生成多尺度特征表示，这与 CNN 的特征金字塔 (feature pyramid) 结构类似，能够捕获不同尺度的信息。
补丁展开 (Patch Expanding)： 在解码器中，Swin Transformer 使用“补丁展开”操作来上采样特征图，恢复空间分辨率。

Swin Transformer 结合了 CNN 的归纳偏置和 Transformer 的自注意力优势，使其在各种视觉任务中表现出色。

3.1.5. 跳跃连接 (Skip Connections)

跳跃连接是指在神经网络中，将某一层的输出直接连接到后续某一层（通常是更深层）的输入，跳过中间的一些层。

目的：
- 缓解梯度消失： 在深度网络中，梯度在反向传播过程中可能逐渐减小甚至消失，导致网络难以训练。跳跃连接为梯度提供了“捷径”，使其更容易回流到较浅的层。
- 保留细节信息： 在像 U-Net 这样的编码器-解码器结构中，编码器在下采样过程中会丢失精细的空间细节。跳跃连接允许将编码器的低级、高分辨率特征直接传递给解码器，帮助解码器恢复这些细节，从而生成更精确的输出（如分割掩码）。
- 促进特征重用： 允许网络重用早期层学习到的特征，提高了特征的利用效率。

3.1.6. 通道注意力 (Channel Attention)

通道注意力机制是一种允许模型根据输入特征的重要性动态调整不同通道 (channel) 权重的机制。它通常通过对特征图的每个通道学习一个权重来实现。

工作原理： 通常包括两个步骤：
1. 特征压缩： 通过全局平均池化 (Global Average Pooling, GAP) 将每个通道的空间信息压缩成一个单一的数值，得到一个通道描述符。
2. 特征激励： 通过一个小型网络（如 MLP）根据通道描述符生成每个通道的权重，然后将这些权重乘回到原始特征图上，从而突出重要通道并抑制不重要通道。
目的： 增强模型对重要语义通道的关注，提高特征表示能力。

3.2. 前人工作

3.2.1. CNN 基础方法

全卷积网络 (Fully Convolutional Network, FCN) [2]： Long 等人提出的第一个端到端 (end-to-end) 语义分割网络，将分类网络的最后全连接层替换为卷积层，实现了像素级的预测。
U-Net [3]： Ronneberger 等人提出的 U 形编码器-解码器结构，通过跳跃连接有效融合了多尺度特征，在生物医学图像分割中表现卓越。
VGG [18]、ResNet [17]、DenseNet [19]、HRNet [20]、GoogleNet [21]： 这些是经典的 CNN 主干网络，通过更深、更宽或更有效的结构改进了特征提取能力。
U-Net 变体：
- Res-UNet [22]： 用残差块和密集连接网络替换标准 U-Net 的子模块。
- W-Net [23]： 堆叠多个编码器和解码器形成波浪形网络，通过波峰和波谷之间的跳跃连接提升分割性能。
- 两路径 U 形架构 [24]： 一条深层网络提取全局上下文，一条浅层网络获取细粒度空间细节。
- Attention U-Net [25]： 通过生成门控信号强调不同空间位置的特征注意力。
- 3D U-Net [26] 和 V-Net [27]： 将 U 形结构扩展到 3D 医学图像分割。

3.2.2. Transformer 基础方法

Vision Transformer (ViT) [9]： Alexey 等人首次将标准 Transformer 应用于图像分类任务，将图像分割成小块 (patches) 作为输入序列。证明了 Transformer 在视觉任务中也能取得最先进的性能。
DEtection TRansformer (DETR) [10]： Carion 等人利用 Transformer 的优雅设计构建了第一个完全端到端的目标检测模型。
Swin Transformer [11]： Liu 等人提出的分层视觉 Transformer，通过移位窗口机制和补丁合并实现了局部注意力与多尺度特征，降低了计算复杂度并引入了 CNN 的归纳偏置。
数据高效图像 Transformer (DeiT) [30]： Touvron 等人通过改进训练策略和数据增强，使 ViT 在较小数据集上也能表现良好。
Bottleneck Transformer Network (BoTNet) [32]： Srinivas 等人仅用多头自注意力块替换 ResNet 中的 $3 \times 3$ 卷积，在 ImageNet 上取得了令人惊讶的良好性能。

3.2.3. CNN 和 Transformer 结合方法

TransUnet [40]： 第一个将 Transformer 应用于医学图像分割的方法。核心思想是将一个 Transformer 块插入 CNN 编码器和 CNN 解码器之间。CNN 编码器提取高分辨率空间细节和上下文信息，Transformer 块建模长距离依赖，CNN 解码器恢复特征大小。然而，这种方法未能充分利用 Transformer 的优势，且未在每个特征尺度引入 Transformer。
TransFuse [41]： 具有一个 CNN 编码器、两个 CNN 解码器、一个 Transformer 解码器和一个特征融合模块。但它未利用 Transformer 解码器进一步提升长距离依赖并融合低级空间细节。
其他结合方法：
- Carion 等人 [35] 使用 CNN 提取初步特征，再由 Transformer 处理。
- Valanarasu 等人 [36] 在 Transformer 层引入门控机制以降低复杂度。
- 在多模态脑肿瘤分割 [37,38] 和 3D 医学图像分割 [12,39] 中也有多种结合。

3.3. 技术演进与差异化分析

技术演进： 从最初的 FCN 到 U-Net 及其变体，CNN 模型在医学图像分割中占据主导地位，不断通过更深、更精巧的结构（如残差连接、注意力机制）提升性能，但长距离依赖建模始终是其瓶颈。Transformer 的兴起为视觉任务带来了新的范式，其强大的全局建模能力弥补了 CNN 的不足。Swin Transformer 通过局部注意力、移位窗口和分层结构，使其更适合作为视觉任务的主干网络。将 CNN 和 Transformer 结合是当前的研究热点，旨在集两者之所长，克服各自的短板。

本文与相关工作的差异化分析： 论文在 2.3. CNN and Transformer combined methods 部分通过 Figure 1 对比了五种典型方法：

U-Net (图 1a) 和 W-Net (图 1b)： 纯 CNN 方法，专注于局部特征和上下文。W-Net 额外堆叠了编码器-解码器，但仍受限于 CNN 的长距离依赖。
TransUnet (图 1c)： CNN 编码器 + Transformer 块 + CNN 解码器。其主要缺点是 Transformer 仅在高层特征上工作，未能充分利用 Transformer 的多尺度优势和在解码阶段的作用。
TransFuse (图 1d)： CNN 编码器 + 两个 CNN 解码器 + 一个 Transformer 解码器 + 特征融合模块。虽然引入了 Transformer 解码器，但其融合方式和解码策略并未充分挖掘 Transformer 的潜力，且未能有效融合低级空间细节。
CTC-Net (本文，图 1e)：
- 双编码器： 拥有独立的 CNN 编码器和 Transformer 编码器，分别从不同域生成互补特征，而非简单串联或在一个编码器中混合。
- 特征互补模块 (FCM)： 引入了专门设计的 FCM，通过跨域融合 (CFB)、特征相关性 (CEB) 和双重注意力 (CAB) 来密集且有效地融合和增强来自两个不同域的特征。这比简单的拼接或单一的注意力机制更为复杂和有效。
- 纯 Transformer 解码器： 使用 Swin Transformer 解码器来进一步建模多尺度的长距离依赖，并通过多尺度跳跃连接将 FCM 产生的增强特征送入解码器，以恢复空间细节和长距离信息。这种设计在解码阶段也充分发挥了 Transformer 的优势。
  
  CTC-Net 的核心创新在于其双编码器、精巧的跨域特征互补模块以及多尺度 Transformer 解码器，旨在实现 CNN 局部细节和 Transformer 全局依赖的更深层次、更有效的互补与融合。

4. 方法论

4.1. 方法原理

CTC-Net 的核心思想是充分利用 CNN 在提取局部上下文信息和空间细节方面的优势，以及 Transformer 在建模长距离依赖方面的强大能力。通过设计一个双编码器结构，分别从 CNN 域和 Transformer 域生成互补特征。然后，这些特征通过一个专门的特征互补模块 (FCM) 进行深度融合和增强。最后，一个 Transformer 解码器在多尺度上恢复特征并生成分割结果，同时利用跳跃连接从 FCM 接收增强的互补特征，以提取空间细节、上下文语义和长距离信息。

4.2. 核心方法详解 (逐层深入)

CTC-Net 的整体架构如原文 Figure 2 所示，主要包含四个分支：CNN 编码器、Transformer 编码器、特征互补模块 (FCM) 和 Transformer 解码器。

该图像是示意图，展示了CNN和Transformer互补网络（CTC-Net）的结构框架。图中包含多个模块，包括输入层、特征互补模块、多个Swin Transformer块及CNN编码器，描述了网络的不同级别特征融合和传递过程。通过跳跃连接和最终的输出层，图像可用于有效的医学图像分割。这一结构旨在提升特征表示能力，整合卷积神经网络与Transformer的优势。

图 2. CNN 和 Transformer 互补网络 (CTC-Net) 的结构框架。图中包含多个模块，包括输入层、特征互补模块、多个 Swin Transformer 块及 CNN 编码器，描述了网络的不同级别特征融合和传递过程。通过跳跃连接和最终的输出层，图像可用于有效的医学图像分割。这一结构旨在提升特征表示能力，整合卷积神经网络与 Transformer 的优势。

4.2.1. CNN 编码器

为了获取上下文特征并由卷积神经网络保持一定的空间细节，作者使用 ResNet34 [17] 的四个编码块来构建 CNN 编码器，如 Figure 2a 所示。ResNet34 的四个块被表示为 Conv1x、Conv2x、Conv3x 和 Conv4x，每个块都以 2 的速率进行下采样操作。

为了使 CNN 编码器的特征图大小与 Transformer 编码器完全一致，作者在 Level 1 中采用 Conv1x 和 Conv2x 进行两次下采样。为了保持一致性，Level 1 的 3D 特征图 $f_1$ 的通道数 $C$ 设置为 48。因此，CNN 编码器为第一个级别生成大小为 $H/4 \times W/4 \times C$ 的输出特征图 $f_1$ ，其像素数量与 Transformer 编码器的第一个级别输出相同。对于第二个级别，Conv3x 块用于处理 $f_1$ 以生成另一个 3D 特征图 $f_2$ ，其大小为 $H/8 \times W/8 \times 2C$ 。接下来，使用 Conv4x 过滤 $f_2$ 以获得第三个 3D 特征图 $f_3$ ，其大小为 $H/16 \times W/16 \times 4C$ （原文中此处通道数描述有误，根据 Swin Transformer 编码器和后面 FCM 的描述，应与 Transformer 编码器对应级别通道数相同，即 4C）。

CNN 编码器只包含三个级别来生成三个特征图 $f_1, f_2, f_3$ 。这些特征图包含丰富的空间细节和上下文语义，用于改善 Transformer 解码器的表示。

4.2.2. Transformer 编码器

Transformer 编码器（Figure 2c）由堆叠的 Swin Transformer Block (STB) 和 patch 操作 [11] 构成，是主要特征编码路径。每个 Swin Transformer 块 (STB)（Figure 2e）由两个连续的子块组成：

第一个子块包括层归一化 (Layer Normalization, LN)、基于窗口的多头自注意力 (Window based Multi-head Self Attention, W-MSA)、多层感知机 (Multi-Layer Perceptron, MLP) 和残差连接。
第二个子块操作几乎相同，但将 W-MSA 替换为基于移位窗口的 MSA (Shifted Window based MSA, SW-MSA) [11]。

作者还使用 patch merging [11] 进行特征图的下采样。Swin Transformer 中的 patch merging 通过沿通道方向连接相邻的 $2 \times 2$ 图像块来合并成一个更大的块，从而实现下采样并聚合上下文特征。

根据空间分辨率，Transformer 编码器可以分为四个级别：

Level 1： 包含一个 patch embedding 层和两个 Swin Transformer 块用于特征编码。
Level 2 到 Level 4： 每个级别包含一个 patch merging 用于下采样，以及两个 Swin Transformer 块用于提取长距离依赖。

假设输入 RGB 图像 $x$ 的大小为 $H \times W \times 3$ ，CTC-Net 的输出 $y$ 为 $H \times W \times N$ ，其中 $N$ 是分割的类别数量。Transformer 编码器在四个级别的 2D 输出分别为 $g_1, g_2, g_3, g_4$ 。它们的尺寸分别为：
$g_1$ : $(H/4 \times W/4) \times C$
$g_2$ : $(H/8 \times W/8) \times 2C$
$g_3$ : $(H/16 \times W/16) \times 4C$
$g_4$ : $(H/32 \times W/32) \times 8C$

根据 Swin Transformer [11]，一个大小为 $4 \times 4$ 的 RGB 图像块被视为一个 token，因此每个 token 的特征维度 $C$ 等于 $4 \times 4 \times 3 = 48$ 。

4.2.3. 特征互补模块 (Feature Complementary Module, FCM)

FCM 是为了从 Transformer 编码器和 CNN 编码器中获取相互补充的信息而设计的，因为它两类方法具有完全不同的特征提取方式。FCM 由四个块组成，如 Figure 3 所示：跨域融合块 (CFB)、相关性增强块 (CEB)、通道注意力块 (CAB) 和特征融合块 (FFB)。

该图像是一个示意图，展示了CNN与Transformer互补网络的结构，主要包括跨域融合块（CFB）、特征关联增强块（CEB）和通道注意力块（CAB）。图中使用了全局平均池化（GAP）和Hadamard积等操作，以强化特征融合与表示能力。该网络旨在提高医学图像分割的性能。

图 3. 特征互补模块 (FCM) 的详细结构。该模块旨在通过跨域融合块 (CFB)、特征关联增强块 (CEB) 和通道注意力块 (CAB) 来强化 CNN 和 Transformer 编码器输出特征的互补性。

4.2.3.1. 跨域融合块 (Cross-domain Fusion Block, CFB)

CFB 负责交叉融合和增强来自 Transformer 域和 CNN 编码器域的特征。设 Transformer 编码器的 2D 特征图为 $g_i$ ，CNN 特征图为 $f_i$ 。假设 $g_i$ 的大小为 $(h \times w) \times c$ ，3D CNN 特征图 $f_i$ 的大小为 $h \times w \times c$ 。 CFB 的处理步骤如下：

对 $f_i$ 和 $g_i$ 分别应用全局平均池化 (Global Average Pooling, GAP) 以生成两个大小为 $(1 \times 1) \times c$ 的特征向量。
将 Transformer 输入 $g_i$ 与 CNN 输入 $f_i$ 的全局池化特征向量沿第一个轴（token 维度）进行拼接，生成一个更大的 2D 特征图 $g_i^1$ ，大小为 $(h \times w + 1) \times c$ 。
将 $g_i^1$ 送入一个 Swin Transformer Block (STB) 进行特征融合，得到一个融合后的 2D 特征图 $g_i^2$ ，大小为 $(h \times w) \times c$ 。
将 $g_i^2$ 重塑 (reshape) 成其 3D 版本 $g_i^3$ ，大小为 $h \times w \times c$ 。
同样，将 CNN 输入 $f_i$ 与 Transformer 输入 $g_i$ 的池化特征向量沿第一个轴进行拼接，生成另一个更大的 2D 特征图 $f_i^1$ ，大小为 $(h \times w + 1) \times c$ 。
使用一个 Swin Transformer Block 处理 $f_i^1$ 以生成另一个跨域融合特征图 $f_i^2$ ，并重塑它以获得 3D 特征图 $f_i^3$ 。
最后，将这两个跨域融合的 3D 特征图 $g_i^3$ 和 $f_i^3$ 进行拼接，并使用一个 $1 \times 1$ 卷积 (convolution) 来生成最终的跨域融合特征图 $s_i$ ，大小为 $h \times w \times c$ 。

CFB 的处理公式化如下： $\begin{array} { r l } & { g _ { i } ^ { 1 } = \mathrm{cat} ( \mathrm{GAP} ( f _ { i } ) , g _ { i } ) , } \\ & { f _ { i } ^ { 1 } = \mathrm{cat} ( \mathrm{GAP} ( g _ { i } ) , f _ { i } ) , } \\ & { g _ { i } ^ { 3 } = \mathrm{reshape} \big ( \mathrm{STB} \big ( g _ { i } ^ { 1 } \big ) \big ) , } \\ & { f _ { i } ^ { 3 } = \mathrm{reshape} \big ( \mathrm{STB} \big ( f _ { i } ^ { 1 } \big ) \big ) , } \\ & { s _ { i } = \mathrm{conv} \big ( \mathrm{cat} \big ( g _ { i } ^ { 3 } , f _ { i } ^ { 3 } \big ) \big ) , } \end{array}$ 符号解释：

$\mathrm{GAP}(\cdot)$ ：全局平均池化 (Global Average Pooling) 操作。
$\mathrm{cat}(\cdot, \cdot)$ ：沿指定维度进行拼接 (concatenation) 操作。
$\mathrm{STB}(\cdot)$ ：Swin Transformer Block 操作。
$\mathrm{reshape}(\cdot)$ ：重塑操作。
$\mathrm{conv}(\cdot)$ ：卷积操作，这里特指 $1 \times 1$ 卷积。
$g_i^1, f_i^1$ : 拼接后的 2D 特征图。
$g_i^3, f_i^3$ : 经过 STB 处理并重塑后的 3D 特征图。
$s_i$ : 最终的跨域融合特征图。

公式 (1) 和 (2) 执行来自两个不同域的特征的密集跨域融合。公式 (3) 和 (4) 中的 Swin Transformer 块可以进一步增强长距离依赖的特征表示能力。公式 (5) 最终融合了来自两种交叉方式的特征。

4.2.3.2. 相关性增强块 (Correlation Enhancement Block, CEB)

CEB 旨在建模来自 Transformer 和 CNN 编码器两个转换域的特征之间的跨域相关性。

首先将 2D Transformer 特征图 $g_i$ 重塑为 3D 版本 $g_i^0$ 。
然后将 $g_i^0$ 与 $f_i$ 进行逐点相乘 (point-wisely multiply)，生成一个跨域相关性特征图 $e_i$ ，大小为 $h \times w \times c$ 。 CEB 可以看作是一种特殊的注意力机制，能够增强两个特征图之间重要的信息，并抑制不显著的特征。通过 CEB，在 CNN 和 Transformer 分支中提取相互显著的特征，以进一步提高准确性。其操作可以简化表示为： $e_i = \mathrm{reshape}(g_i) \odot f_i$ 符号解释：

$\mathrm{reshape}(g_i)$ ：将 2D 特征图 $g_i$ 重塑为 3D 形式 $g_i^0$ 。
$\odot$ ：逐点相乘（Hadamard 积）操作。
$f_i$ ：CNN 编码器输出的特征图。
$e_i$ : 最终的相关性增强特征图。

4.2.3.3. 通道注意力块 (Channel Attention Block, CAB)

原始的 Swin Transformer 块内置了自注意力机制用于建模长距离依赖。为了进一步增强注意力特征，作者将 CNN 中常用的通道注意力 [42] 应用于 Transformer 特征。通过这种方式，高效地实现了通道注意力与自注意力的混合，以获得一个双重注意力特征图 $a_i$ ，大小为 $h \times w \times c$ 。换句话说，CAB 实际上是一个混合注意力机制。

4.2.3.4. 特征融合块 (Feature Fusion Block, FFB)

FFB 将跨域特征图 $s_i$ 、相关性特征图 $e_i$ 和双重注意力特征图 $a_i$ 进行拼接 (concatenate)，得到一个特征图 $m_i^1$ ，大小为 $h \times w \times 3c$ 。然后使用残差连接和重塑操作生成 FCM 的输出特征图 $m_i$ ，大小为 $h \times w \times c$ 。 FFB 的处理公式化如下： $\begin{array} { l } { { m _ { i } ^ { 1 } = \mathrm{cat} ( s _ { i } , e _ { i } , a _ { i } ) , } } \\ { { } } \\ { { m _ { i } = \mathrm{reshape} \bigl ( \mathrm{conv} \bigl ( m _ { i } ^ { 1 } \bigr ) + \mathrm{CBR} \bigl ( m _ { i } ^ { 1 } \bigr ) \bigr ) , } } \end{array}$ 符号解释：

$s_i$ ：来自 CFB 的跨域融合特征图。
$e_i$ ：来自 CEB 的相关性特征图。
$a_i$ ：来自 CAB 的双重注意力特征图。
$m_i^1$ : 拼接后的特征图。
$\mathrm{conv}(\cdot)$ : 卷积操作。
$\mathrm{CBR}(\cdot)$ : 一个由卷积 (Conv)、批归一化 (Batch Normalization, BN) 和修正线性单元 (Rectified Linear Unit, ReLU) 组成的块，用于融合拼接特征并同时减少参数数量。
$m_i$ : FCM 的最终输出特征图。

4.2.4. Transformer 解码器

Transformer 解码器（Figure 2d）采用 Swin Transformer 块和 patch expanding 操作来构建一个四级解码路径。

Patch Expanding (补丁展开)： 与 patch merging 相反，patch expanding 用于上采样特征图。它将每个 token 沿通道维度分割，并重塑为 $2 \times 2$ 的图像块，从而增加空间分辨率。
跳跃连接： Transformer 解码器接受来自 Transformer 编码器的特征图进行逐步恢复。此外，FCM 从 CNN 和 Transformer 编码器生成不同级别的互补信息，这些信息也通过跳跃连接馈送到 Transformer 解码器。这些互补特征对于恢复人体中常见的细小和狭窄物体至关重要。

解码器结构详情：
第四解码级别： 仅采用 patch expanding 操作以 2 的速率上采样特征图。
第三和第二解码级别：
1. 首先采用两个 Swin Transformer 块充分融合来自对应 FCM 的跨域增强特征图和来自相邻高级别的上采样特征。
2. 然后使用 patch expanding 上采样融合后的特征图。
第一解码级别： 同样采用两个 Swin Transformer 块进行特征融合和长距离依赖提取。
最终输出： 使用一个最终的 patch expanding 块以上采样特征图，生成与输入图像大小相同的输出掩码。在这个最终的 patch expanding 块中，使用速率为 4 的 patch expanding 来恢复 2D 特征图的大小，一个 $1 \times 1$ 卷积调整其通道数到类别数 $N_*$ ，以及一个重塑操作将 2D 图转换为 3D 特征图，即 CTC-Net 的输出。

Transformer 解码器中的数据处理可以简要公式化如下： $\begin{array} { r l } & { \nu _ { k } = \mathrm{STB} ( \mathrm{STB} ( u _ { k } , m _ { k } ) ) , } \\ & { u _ { k - 1 } = \mathrm{PE} ( \nu _ { k } ) , } \end{array}$ 符号解释：
$k$ : 级别索引。
$\mathrm{STB}(\cdot)$ : Swin Transformer Block。
$\mathrm{PE}(\cdot)$ : patch expanding (补丁展开) 块。
$u_k$ : 来自相邻高级别的上采样特征。
$m_k$ : 来自 FCM 的互补特征。
$\nu_k$ : 经过 Swin Transformer Block 融合和处理后的特征。
$u_{k-1}$ : 经过 patch expanding 后用于下一级别的特征。

5. 实验设置

5.1. 数据集

为了评估方法在医学图像分割方面的性能，作者在两个广泛使用的医学图像数据集上进行了实验：Synapse (Synapse) 数据集和 Automatic Cardiac Diagnosis Challenge (ACDC) 数据集。

5.1.1. Synapse

来源与内容： 包含 30 例腹部器官的 CT 扫描，用于多器官分割。
数据划分： 遵循 TransUnet [40] 的设置，选择 18 例作为训练集，其余 12 例作为测试集。
评估对象： 从 3D 体积中提取的 2211 张 2D 切片，涵盖 8 个类别，包括：主动脉 (aorta)、胆囊 (gallbladder)、脾脏 (spleen)、左肾 (left kidney)、右肾 (right kidney)、肝脏 (liver)、胰腺 (pancreas) 和胃 (stomach)。

5.1.2. ACDC

来源与内容： 包含 100 名不同患者的 MRI 图像，旨在评估左心室 (Left Ventricle, LV)、右心室 (Right Ventricle, RV) 和心肌 (Myocardium, MYO) 的分割性能，用于自动化心脏诊断。
数据划分： 70 例训练集，10 例验证集，20 例测试集。
评估对象： 针对上述 3 个类别。

5.2. 评估指标

论文使用了两个主要的评估指标：平均 Dice 相似系数 (Dice Similarity Coefficient, DSC) 和平均 Hausdorff 距离 (Hausdorff Distance, HD)。这两个指标都用于衡量预测分割与真实标注之间的相似性。

5.2.1. Dice 相似系数 (Dice Similarity Coefficient, DSC)

概念定义： DSC 用于评估预测分割区域与真实标注区域之间的重叠程度。它的值范围在 0 到 1 之间，1 表示完美重叠，0 表示完全没有重叠。通常在分割任务中，DSC 值越高表示分割效果越好。
数学公式： $DSC = \frac { 2 | P \cap G | } { | P | + | G | }$
符号解释：
- $P$ : 预测的分割区域（像素集合）。
- $G$ : 对应的真实标注区域（像素集合）。
- $|P|$ : 预测区域 $P$ 中的像素数量。
- $|G|$ : 真实区域 $G$ 中的像素数量。
- $|P \cap G|$ : 预测区域 $P$ 与真实区域 $G$ 交集部分的像素数量。

5.2.2. Hausdorff 距离 (Hausdorff Distance, HD)

概念定义： HD 用于衡量预测分割边界与真实标注边界之间的最大不匹配距离。它反映了两个集合中最不相似点之间的距离，对分割边界的精度和形状变化非常敏感。HD 值越小表示分割边界越接近真实边界，分割质量越好。
数学公式： $\begin{array} { l } { { \cal H } D ( P , G ) = \mathrm{max} [ \mathcal{D} ( P , G ) , \mathcal{D} ( G , P ) ] , } \\ { { \mathcal{D} ( P , G ) = \operatorname* { max } _ { p \in \mathcal{P} } \operatorname* { min } _ { g \in \mathcal{G} } \| p - g \| , } } \end{array}$
符号解释：
- $\mathcal{H}D(P, G)$ : 预测分割 $P$ 和真实标注 $G$ 之间的 Hausdorff 距离。
- $\mathcal{D}(P, G)$ : 从集合 $P$ 到集合 $G$ 的有向 Hausdorff 距离。
- $\mathcal{P}$ : 预测分割边界的坐标点集。
- $\mathcal{G}$ : 真实标注边界的坐标点集。
- $p \in \mathcal{P}$ : 预测边界上的一个点。
- $g \in \mathcal{G}$ : 真实边界上的一个点。
- $\|p - g\|$ : 点 $p$ 和点 $g$ 之间的 $l_2$ 范数（欧几里得距离）。
- $\operatorname*{max}_{p \in \mathcal{P}} \operatorname*{min}_{g \in \mathcal{G}} \|p - g\|$ : 找到 $P$ 中距离 $G$ 最远的点 $p$ ，并计算该点到 $G$ 中所有点最近距离，取其中最大值。

5.3. 对比基线

论文将 CTC-Net 与以下基线模型进行了比较：

纯 CNN 模型： TransClaw U-Net [43]、R50 U-Net [3]、U-Net [3]、DARR [44]、VNet [45]、ENet [46]、Att-UNet [25]、R50-DeeplabV3+ [47]、ContextNet [48]、FSSNet [49]、R50 Att-Unet [34]、DABNet [50]、EDANet [51]、FPENet [52]、FastSCNN [53]、CGNET [54]。
纯 Transformer 模型： ViT None [9]、ViT CUP [9]。
CNN 和 Transformer 结合模型： R50 ViT CUP [9]、TransUNet [40]、SwinUNet [6]。这些基线模型涵盖了医学图像分割领域最先进的 CNN、Transformer 以及两者的结合方法，具有很强的代表性。

5.4. 实现细节

开发环境： Python 3.8 和 Pytorch 1.7.1。
硬件： Intel i9 PC，配备 Nvidia GTX 3090 (24GB 显存)。
初始化： Transformer 编码器和解码器使用在 ImageNet (ImageNet) 上预训练的 Swin Transformer 权重进行初始化。CNN 编码器的参数使用预训练的 ResNet34 进行初始化。
训练参数：
- 批大小 (batch size)：24。
- 最大迭代次数 (maximum iteration number)：13,950。
- 优化器 (optimizer)：SGD (Stochastic Gradient Descent)。
- 学习率 (learning rate) 初始值 (base_lr)：0.01。
- 动量 (momentum)：0.99。
- 权重衰减 (weight decay)：3e-5。
学习率衰减策略： $lr = base\_lr \cdot \left( 1 - \frac { iter\_num } { max\_iterations } \right) ^ { 0 . 9 }$ 符号解释：
- lr: 当前迭代的学习率。
- $base\_lr$ : 基础学习率。
- $iter\_num$ : 当前迭代索引。
- $max\_iterations$ : 最大迭代次数。
损失函数 (Loss Function)： 模型的总损失定义为交叉熵损失 (cross entropy loss) 和 Dice 损失 (Dice loss) 的加权和。 $L = ( 1 - \alpha ) \ell _ { ce } + \alpha \ell _ { dice }$ 符号解释：
- $L$ : 总损失。
- $\ell_{ce}$ : 交叉熵损失。
- $\ell_{dice}$ : Dice 损失。
- $\alpha$ : 相关重要性权重，经验性地设置为 0.6。
后处理 (Post-processing)： 为了平滑输出结果并去除噪声，对分割结果添加了中值滤波 (median filtering) 后处理。这是基于人体器官表面通常光滑的先验知识。
网络配置： 详细参数如 Table 1 所示。
- Depth_encoder: Transformer 编码器中每个 Swin Transformer 层的深度。
- Depth_decoder: Transformer 解码器中每个 Swin Transformer 层的深度。
- Num_heads: Transformer 编码器和解码器中的注意力头数量。
- Num_heads_FCM: FCM 中的注意力头数量。
  
  以下是原文 Table 1 的结果：
  
  PARAMETERS Level 1 Level 2 Level 3 Level 4
  Input size 224 × 224
  resolution 56 × 56 28× 28 14 × 14 7× 7
  Depth_encoder 2 2 18 2
  Depth_decoder 1 2 2 2
  Num_heads 3 6 12 24
  Num_heads_FCM 3 6 12 N/A

原文 Table 1. CTC-Net 的网络配置。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. Synapse 数据集上的实验结果

以下是原文 Table 2 的结果：

METHODS	Mean Dice Similarity Coefficients in%
METHODS	Average	Aorta	Gallbladder	Kidney(L)	Kidney(R)	Liver	Pancreas	Spleen	Stomach
TransClaw U-Net [43]	78.09	85.87	61.38	84.83	79.36	94.28	57.65	87.74	73.55
R50 U-Net [3]	74.68	87.74	63.66	80.60	78.19	93.74	56.90	85.87	74.16
U-Net [3]	76.85	89.07	69.72	77.77	68.60	93.43	53.98	86.67	75.58
DARR [44]	69.77	74.74	53.77	72.31	73.24	94.08	54.18	89.90	45.96
VNet [45]	68.81	75.34	51.87	77.10	80.75	87.84	40.04	80.56	56.98
ENet [46]	77.63	85.13	64.91	81.10	77.26	93.37	57.83	87.03	74.41
Att-UNet[25]	77.77	89.55	68.88	77.98	71.11	93.57	58.04	87.30	75.75
R50-DeeplabV3+[47]	75.73	86.18	60.42	81.18	75.27	92.86	51.06	88.69	70.19
ContextNet [48]	71.17	79.92	51.17	77.58	72.04	91.74	43.78	86.65	66.51
FSSNet [49]	74.59	82.87	64.06	78.03	69.63	92.52	53.10	85.65	70.86
R50 Att-Unet [34]	75.57	55.92	63.91	79.20	72.71	93.56	49.37	87.19	74.95
DABNet [50]	74.91	85.01	56.89	77.84	72.45	93.05	54.39	88.23	71.45
EDANet [51]	75.43	84.35	62.31	76.16	71.65	93.20	53.19	85.47	77.12
FPENet [52]	68.67	78.98	56.35	74.54	64.36	90.86	40.60	78.30	65.35
FastSCNN [53]	70.53	77.79	55.96	73.61	67.38	91.68	44.54	84.51	68.76
VIT None [9]	61.50	44.38	39.59	67.46	62.94	89.21	43.14	75.45	68.78
VIT CUP [9]	67.86	70.19	45.10	74.70	67.40	91.32	42.00	81.75	70.44
R50 VIT CUP [9]	71.29	73.73	55.13	75.80	72.20	91.51	45.99	81.99	73.95
CGNET [54]	75.08	83.48	63.16	77.91	77.02	91.92	57.37	85.47	77.12
TransUNet [40]	77.48	87.23	63.53	81.87	80.79	93.78	55.86	85.08	72.39
CTC-Net(Ours)	78.41	86.46	63.53	83.71	80.79	94.08	59.73	86.87	72.39

原文 Table 2. Synapse 数据集上的实验结果（平均 Dice 相似系数，单位：%）。

分析：

整体性能： CTC-Net 在 Synapse 数据集上取得了最高的平均 DSC (78.41%)，显著优于所有 20 种对比方法，包括纯 CNN、纯 Transformer 以及 CNN 和 Transformer 结合的模型。这表明 CTC-Net 提出的互补网络结构和特征融合策略非常有效。
对难分割器官的提升： 胰腺 (Pancreas) 的分割难度通常较大，因为其形变大且边界模糊。CTC-Net 在胰腺分割上取得了 59.73% 的最高 DSC，这得益于其对局部细节和全局交互的有效融合能力。
对常见器官的性能： 在肾脏 (Kidney(R) 和 Kidney(L)) 分割上，CTC-Net 分别取得了最高和次高的 DSC，分别为 80.79% 和 83.71%。这说明它能够准确分割大型器官。
与 Transformer 结合模型的对比： 相比于 TransUNet (77.48%)，CTC-Net 的平均 DSC 提升了近 1 个百分点。虽然数值提升看似不大，但考虑到 TransUNet 已经是 SOTA 模型，且 CTC-Net 在多个类别上表现更佳，表明其改进的融合策略和解码器设计带来了实实在在的性能增益。

以下是原文 Table 3 的结果：

METHODS HD↓

R50 U-Net [3] 36.87

U-Net [3] 39.70

Att-UNet[25] 36.02

R50 Att-Unet [34] 36.97

R50 VIT CUP [9] 32.87

TransUNet [40] 31.69

CTC-Net(Ours) 22.52

METHODS	HD↓
R50 U-Net [3]	36.87
U-Net [3]	39.70
Att-UNet[25]	36.02
R50 Att-Unet [34]	36.97
R50 VIT CUP [9]	32.87
TransUNet [40]	31.69
CTC-Net(Ours)	22.52

原文 Table 3. Synapse 数据集上的实验结果（平均 HD）。

分析：

HD 显著降低： CTC-Net 在平均 Hausdorff 距离 (HD) 指标上取得了 22.52 的最佳结果，远低于所有对比方法。这比 TransUNet 的 31.69 降低了近 10 个百分点，是一个非常显著的提升。HD 对边界精度非常敏感，这一结果强烈表明 CTC-Net 在分割边界的准确性方面具有显著优势。这归因于 CNN 编码器提供的局部细节和 FCM 的有效融合。
对边界精度的提升： HD 的显著改善证明了 CTC-Net 能够生成更平滑、更精确的器官边界。

以下是原文 Figure 4 的结果：

该图像是一个示意图，展示了不同方法在 Synapse 数据集上的医学图像分割效果对比。第一行展示了真实标注（Ground Truth）及各算法的分割结果，包括 CTC-Net、Att-Unet、U-Net 和 TransUNet。各个颜色表示不同的器官，其中蓝色为主动脉，绿色为胆囊，红色为左肾，青色为右肾，粉色为肝脏，黄色为胰腺，白色为脾脏，灰色为胃。

图 4. Synapse 数据集上不同方法的视觉化比较。

分析： Figure 4 展示了 CTC-Net 与其他方法在 Synapse 数据集上的视觉分割结果。从图中可以看出，CTC-Net 生成的分割掩码更接近真实标注 (Ground Truth)，边界更清晰，对复杂形状的器官（如胰腺）的分割也更准确，证实了其优越的性能。

6.1.2. ACDC 数据集上的实验结果

以下是原文 Table 4 的结果：

METHODS	Average	RV	MYO	LV
R50 U-Net [3]	87.55	87.10	80.63	94.92
R50 Att-Unet [34]	86.75	87.58	79.20	93.47
VIT CUP [9]	81.45	81.46	70.71	92.18
R50 VIT CUP [9]	87.57	86.07	81.88	94.75
TransUNet [40]	89.71	88.86	84.54	95.73
SwinUNet[6]	90.00	88.55	85.62	95.83
CTC-Net(Ours)	90.77	90.09	85.52	96.72

原文 Table 4. ACDC 数据集上的实验结果（平均 DSC，单位：%）。

分析：

泛化能力和鲁棒性： CTC-Net 在 ACDC 数据集上同样取得了最高的平均 DSC (90.77%)。这表明其模型在不同图像模态（MRI vs CT）和不同身体部位（心脏 vs 腹部器官）上都具有强大的泛化能力和鲁棒性。
对心脏结构的优异表现： CTC-Net 在右心室 (RV) 和左心室 (LV) 两个类别上都超越了所有对比方法，取得了 90.09% 和 96.72% 的最高 DSC。在心肌 (MYO) 类别上取得了 85.52% 的次高 DSC，仅略低于 SwinUNet 的 85.62%。
与 SOTA 模型的对比： 相比于 SwinUNet (90.00%) 和 TransUNet (89.71%)，CTC-Net 仍有显著提升。这再次验证了其互补网络和融合机制的有效性。

6.2. 消融实验/参数分析

6.2.1. FCM 的评估

为了验证 FCM 的有效性，作者对 CTC-Net 进行了多项变体实验，并列出结果于 Table 5。

以下是原文 Table 5 的结果：

Variants	Average	Aorta	Gallbladder	Kidney(L)	Kidney(R)	Liver	Pancreas	Spleen	Stomach
concat+conv	75.52	85.58	60.46	78.86	73.88	93.23	51.24	86.68	74.25
cross attention	72.65	83.56	55.10	81.67	68.66	92.22	44.09	87.17	68.76
Dual CAB	72.70	82.78	53.78	76.86	69.08	91.79	51.68	85.15	70.48
without CAB	76.87	85.36	62.60	79.87	77.66	93.19	54.96	88.59	72.77
without CFB	75.83	85.91	61.11	85.76	79.57	93.51	48.17	86.67	65.99
without CEB	75.13	83.46	60.38	82.40	73.27	92.61	53.49	85.62	69.84
CTC-Net (ours)	78.41	86.46	63.53	83.71	80.79	93.78	59.73	86.87	72.39

原文 Table 5. FCM 的消融实验（平均 Dice 相似系数，单位：%）。

分析：

FCM 的整体重要性：
- $concat+conv$ ：简单地拼接两个编码器的特征并进行 $1 \times 1$ 卷积，其平均 DSC 为 75.52%，远低于完整的 CTC-Net (78.41%)。这表明 FCM 中复杂的融合策略比简单的特征拼接更有效。
- cross attention：使用 Transformer 解码器进行跨注意力融合，平均 DSC 仅为 72.65%，是所有变体中表现最差的。这证明了 FCM 的设计比一般的跨注意力机制更适合本任务。
FCM 各组件的重要性：
- without CAB (不含通道注意力块)：平均 DSC 降至 76.87%。表明 CAB 对增强特征的鲁棒性，尤其是在结合通道和自注意力方面是有效的。
- without CFB (不含跨域融合块)：平均 DSC 降至 75.83%。CFB 是实现 CNN 和 Transformer 域特征深度交叉融合的关键，它的缺失导致性能显著下降。
- without CEB (不含相关性增强块)：平均 DSC 降至 75.13%。CEB 旨在建模跨域特征相关性，其缺失表明这种相关性在增强重要信息方面发挥了作用。
- Dual CAB (双通道注意力块)：在 CNN 和 Transformer 路径都添加通道注意力块，平均 DSC 仅为 72.70%，甚至低于 $concat+conv$ 。这表明并非越多注意力越好，反而可能引入冗余或冲突，影响性能。作者的 CAB 仅对 Transformer 特征应用通道注意力，可能是一种更优的平衡。
  
  总的来说，FCM 的所有组成部分（CFB, CEB, CAB）都对 CTC-Net 的卓越性能至关重要，且其融合方式优于简单的拼接或一般的跨注意力机制。

6.2.2. 编码器的评估

为了探究 CNN 编码器的重要性，作者将其移除，得到一个纯 Transformer 架构的变体，结果如 Table 6 所示。

以下是原文 Table 6 的结果：

Variants	Average	Aorta	Gallbladder	Kidney(L)	Kidney(R)	Liver	Pancreas	Spleen	Stomach
CTC-Net without CNNs	76.38	83.54	63.93	80.73	76.98	93.27	55.71	84.54	72.32
CTC-Net (ours)	78.41	86.46	63.53	83.71	80.79	93.78	59.73	86.87	72.39

原文 Table 6. 编码器的消融实验。

分析：

CNN 编码器的关键性： 移除 CNN 编码器后 (CTC-Net without CNNs)，平均 DSC 从 78.41% 显著下降到 76.38%。这证明了 CNN 编码器作为辅助分支，提供上下文特征和空间细节的重要性。它有效地弥补了纯 Transformer 在捕获局部信息方面的不足。
对各器官分割的影响： 在 8 个类别中，有 6 个类别（主动脉、左肾、右肾、肝脏、胰腺、脾脏）的分割性能在移除 CNN 编码器后下降，尤其是在肾脏和胰腺等器官上。这进一步强调了 CNN 编码器在提供精确局部信息以增强分割精度方面的作用。

6.2.3. 解码器的评估

作者评估了两种解码器变体，以解释为何选择非对称的单 Transformer 解码器结构，结果如 Table 7 所示。

以下是原文 Table 7 的结果：

VAriantS	Average	Aorta	Gallbladder	Kidney(L)	Kidney(R)	Liver	Pancreas	Spleen	Stomach
CTC-Net with two decoders	69.68	73.81	56.85	73.71	66.74	89.55	47.44	83.02	66.35
CTC-Net with cross attention	76.73	85.46	60.36	83.91	77.41	93.23	52.96	86.35	74.39
CTC-Net	78.41	86.46	63.53	83.71	80.79	93.78	59.73	86.87	72.39

原文 Table 7. 解码器的消融实验（平均 Dice 相似系数，单位：%）。

分析：

非对称单解码器的优势：
- CTC-Net with two decoders (具有两个解码器的 CTC-Net)：平均 DSC 仅为 69.68%，远低于 CTC-Net。作者提出两个原因：
  1. 增加 CNN 解码器会大幅增加网络参数，可能导致过拟合 (overfitting)。
  2. 两个解码器独立恢复特征图，缺乏足够的（或有效的）信息交换。这支持了 CTC-Net 采用单一、强大的 Transformer 解码器，并结合 FCM 增强特征的有效性。
- CTC-Net with cross attention (具有跨注意力的 CTC-Net)：该变体用跨注意力机制替代 Swin Transformer 解码器中的 STB 融合方式。它在跳跃连接和上采样特征之间应用跨注意力，查询矩阵来自跳跃连接，键值对来自上采样特征。其平均 DSC 为 76.73%，虽然优于双解码器变体，但仍低于 CTC-Net。这表明作者设计的 Swin Transformer 解码器，结合 FCM 提供的互补特征，比简单的跨注意力融合方式更为有效。
  
  这些实验结果共同证明了 CTC-Net 提出的双编码器、FCM 以及单一 Transformer 解码器的非对称结构在医学图像分割任务中的优越性。

7. 总结与思考

7.1. 结论总结

本文提出了一种新颖的 CNN 和 Transformer 互补网络 (CTC-Net)，用于高效的医学图像分割。该网络的核心思想是充分利用 CNN 在提取局部上下文和空间细节方面的优势，以及 Transformer 在建模长距离依赖方面的能力，并通过精心设计的模块实现两者之间的深度互补融合。具体贡献包括：

双编码器架构： 采用 ResNet34 构建 CNN 编码器以捕获空间和上下文特征，Swin Transformer 构建 Transformer 编码器以捕获长距离依赖特征。
特征互补模块 (FCM)： 提出 FCM，通过跨域融合块 (CFB)、相关性增强块 (CEB) 和通道注意力块 (CAB) 三个子模块，实现 CNN 和 Transformer 域特征的交叉融合、相关性建模和双重注意力增强。
多尺度 Transformer 解码器： 设计基于 Swin Transformer 的解码器，通过多尺度跳跃连接与 FCM 产生的互补特征结合，有效恢复空间细节、上下文语义和长距离信息。

实验结果在 Synapse 和 ACDC 两个医学图像数据集上均验证了 CTC-Net 的卓越性能，显著超越了现有最先进的基于 CNN、Transformer 和混合模型。尤其在分割难度大的器官（如胰腺）以及精确边界（HD 指标）上表现突出，证明了其优越性和在不同医学应用中的泛化能力。

7.2. 局限性与未来工作

局限性： 作者指出当前方法的局限性在于边界细节的提取。主要原因是 CNN 和 Transformer 编码器从 4 倍下采样的特征图开始恢复，这可能已经丢失了详细的空间信息。
未来工作： 作者计划探索不进行特征图下采样的新型网络，以保持高分辨率和丰富的细节，从而进一步改善边界分割的准确性。

7.3. 个人启发与批判

个人启发：

互补性是关键： 这篇论文再次强调了不同模型（CNN 和 Transformer）之间天然的互补性。理解并有效利用这种互补性是设计高性能深度学习架构的关键。将局部归纳偏置与全局关系建模相结合，对于复杂视觉任务（特别是医学图像）至关重要。
深度融合的价值： 论文不仅仅是简单地堆叠或串联 CNN 和 Transformer 模块，而是设计了精巧的 FCM 来实现跨域、多层级的深度融合，包括交叉拼接、特征相关性计算和双重注意力机制。这表明有效的特征交互远比浅层融合更能释放模型的潜力。
非对称设计思维： 在解码器部分的消融实验，验证了非对称的单 Transformer 解码器优于直觉中的对称双解码器。这提醒研究者，架构设计并非越复杂越对称越好，有时更简洁、专注的设计（如单一高性能解码器配以强化的编码器输入）反而能避免过拟合和信息冗余，实现更好的性能。
Swin Transformer 的灵活性： Swin Transformer 不仅可作为编码器，也完全有能力作为高性能解码器。其分层结构和窗口注意力机制使其在多尺度上处理视觉信息非常高效。

批判：

模型复杂度与计算成本： CTC-Net 结合了 ResNet34 和 Swin Transformer，并引入了 FCM，这无疑增加了模型的参数量和计算复杂度。虽然在 GTX 3090 上完成了实验，但对于资源受限的部署环境或实时应用，其效率可能是一个挑战。论文虽然提到 "computation efficiency" 但未提供详细的参数量、FLOPs (浮点运算量) 或推理时间对比数据。
边界细节的进一步提升空间： 作者自己也承认在边界细节提取方面仍有局限性。虽然 HD 指标显著降低，但图像分割的最终质量很大程度上取决于精确的边界。未来的工作需要深入探索如何在不牺牲全局上下文的情况下，更好地保留和恢复最精细的像素级细节。
FCM 内部机制的更深层解释： FCM 的设计非常精巧，包含了 CFB、CEB 和 CAB。虽然论文解释了每个模块的功能，但对于它们之间如何精确协同作用以产生最佳效果，以及为何这种组合优于其他融合方式（例如 Dual CAB 表现不佳），可以提供更深入的理论分析或可视化解释。例如，GAP 在 CFB 中的作用，以及 point-wise multiply 在 CEB 中如何精确捕捉跨域相关性。
超参数敏感性： 复杂的模型通常对超参数敏感。论文提到了学习率衰减策略和损失函数权重 $\alpha$ ，但对于 Swin Transformer 编码器/解码器的深度、注意力头数量，以及 FCM 中各个模块的内部参数配置（如 Table 1），其选择依据和敏感性分析可以更详细。

迁移与应用： CTC-Net 的核心思想——通过设计互补模块深度融合不同归纳偏置的模型——可以迁移到其他需要同时处理局部细节和全局依赖的视觉任务中，例如：

遥感图像分析： 结合 CNN 提取地物纹理和局部结构，Transformer 建模大尺度地物分布和上下文关系。
工业缺陷检测： CNN 识别局部微小缺陷特征，Transformer 关联缺陷分布、模式和上下文。
自动驾驶： CNN 感知车道线、交通标志等局部信息，Transformer 理解整体场景布局、车辆行人交互等全局关系。
多模态融合： 将 CTC-Net 的融合思想扩展到 RGB 图像与深度图、热成像等不同模态数据的融合，进一步提升特征表示能力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

PARAMETERS	Level 1	Level 2	Level 3	Level 4
Input size	224 × 224
resolution	56 × 56	28× 28	14 × 14	7× 7
Depth_encoder	2	2	18	2
Depth_decoder	1	2	2	2
Num_heads	3	6	12	24
Num_heads_FCM	3	6	12	N/A