zhen365
zhen365
发布于 2023-10-11 / 607 阅读
18
0

CVPR2023 | Bidirectional Copy-Paste for Semi-Supervised Medical Image Segmentation

Bidirectional Copy-Paste for Semi-Supervised Medical Image Segmentation-bfyuwqkx.png论文:https://openaccess.thecvf.com/content/CVPR2023/html/Bai_Bidirectional_Copy-Paste_for_Semi-Supervised_Medical_Image_Segmentation_CVPR_2023_paper.html

代码:https://github.com/DeepMed-Lab-ECNU/BCP

摘要

在半监督医学图像分割中,存在标记数据与未标记数据分布不均匀的问题。如果单独或以不一致的方式处理标记和未标记数据,则从标记数据中获得的知识可能在很大程度上被丢弃。本文提出了一种直接的方法来缓解这个问题——在一个简单的 Mean Teacher 架构中双向复制粘贴标记和未标记的数据。该方法鼓励未标记的数据在内向和外向两个方向上从标记的数据中学习全面的公共语义。更重要的是,标记和未标记数据的一致学习过程可以大大减少经验分布差距。详细地说,本文分别将随机裁剪的标记图像(前景)复制粘贴到未标记的图像(背景)和未标记的图像(前景)到标记的图像(背景)上。这两幅混合图像被输入到一个学生网络中,由伪标签和真实的混合监督信号进行监督

本文发现,与各种半监督医学图像分割数据集相比,标记和未标记数据之间双向复制粘贴的简单机制足够好,并且实验显示出足够的收益 (例如,在ACDC数据集上使用 5% 的标记数据,超过 21% 的Dice改进)

引入

从计算机断层扫描(CT)或磁共振成像(MRI)等医学图像中分割内部结构对于许多临床应用至关重要。人们提出了各种基于监督学习的医学图像分割技术,这些技术通常需要大量的标记数据。但是,由于医学图像标注过程繁琐且昂贵的人工轮廓处理,半监督分割近年来受到越来越多的关注,并在医学图像分析领域得到广泛应用

Illustration of the mismatch problem under semisupervised leaning setting-sufudvzv.png

一般来说,在半监督医学图像分割中,标记和未标记的数据取自相同的分布,如图1 (a)所示。但在现实世界中,很难从标记数据中估计出精确的分布,因为它们的数量很少。因此,大量未标记数据与极少量标记数据之间总是存在经验分布不匹配(图1(b)和(c))。半监督分割方法总是试图以一致的方式对称地训练标记和未标记的数据

CutMix是一种简单而强大的数据处理方法,也被称为复制-粘贴(CP),它有可能鼓励未标记的数据从标记的数据中学习共同的语义,因为同一图中的像素共享语义更接近。在半监督学习中,未标记数据的强弱增强对之间的强制一致性被广泛使用,通常使用CP作为强增强。但现有的CP方法只考虑CP交叉未标记数据,或者简单地从标记数据中复制裁剪块作为前景并粘贴到另一个数据中。他们忽略了为标记和未标记数据设计一致的学习策略,这阻碍了它在减少分布差距方面的使用。同时,CP试图通过增加未标记数据的多样性来增强网络的泛化,但由于CutMixed图像仅由低精度的伪标签进行监督,因此很难实现高性能。使用更精确的监督来帮助网络分割被CP切割的退化区域是直观的

为了缓解标记数据和未标记数据之间的经验不匹配问题,一个成功的设计是鼓励未标记数据从标记数据中学习全面的公共语义,同时通过标记数据和未标记数据的一致学习策略进一步促进分布对齐。本文通过提出一种非常简单但非常有效的双向复制-粘贴(BCP)方法来实现这一点,该方法在Mean Teacher框架中实例化

通过将随机作物从标记的图像(前景)复制粘贴到未标记的图像(背景)上来增加输入,反过来,将随机作物从未标记的图像(前景)复制粘贴到标记的图像(背景)上。通过双向复制粘贴来自教师网络的未标记图像的伪标签和标记图像的标签映射,生成的监督信号对学生网络进行监督。这两个混合图像有助于网络双向对称地学习标记和未标记数据之间的共同语义。

相关工作

半监督医学影像分割

在半监督医学图像分割方面已经做了很多努力。熵最小化(EM)和一致性正则化(CR)是两种广泛使用的损失函数。同时,许多作品以不同的方式扩展了均值教师框架。SASSNet[12]利用未标记的数据对分割输出施加几何形状约束。DTC[16]通过明确构建任务级正则化,提出了一种双任务一致性框架。SimCVD[40]明确地建模几何结构和语义信息,并将它们约束在教师和学生网络之间。这些方法使用几何约束来监督网络的输出。UA-MT[41]利用不确定性信息引导学生网络逐步向教师网络中有意义、可靠的目标学习。[46]结合了图像智能和补丁智能表示来探索更复杂的相似性线索,在不同的输入大小下强制输出一致。CoraNet[22]提出了一种可以产生确定和不确定区域的模型,学生网络对来自教师网络的区域给予不同的权重处理。UMCT[37]使用网络的不同视角来预测不同视角下的同一张图像。它利用预测和相应的不确定性生成伪标签,用于监督未标记图像的预测。

这些方法进一步提高了半监督医学图像分割的有效性。但是,他们忽略了如何从标记到未标记的数据中学习通用语义。将标记数据和未标记数据分开处理通常会阻碍从标记数据到未标记数据的知识转移

Copy-Paste

复制粘贴是一种简单但功能强大的数据处理方法,适用于实例分割[7,9]、语义分割[6,25]和目标检测[5]等任务。一般来说,复制-粘贴意味着复制一个图像的片段并将它们粘贴到另一个图像上。Mixup[43]和CutMix[42]分别是混合整体图像和混合图像切片的经典作品。最近的许多工作将它们扩展到解决具体目标。GuidedMix-Net[25]使用mixup将标记数据的知识传递给未标记数据,从而生成更高质量的伪标签。InstaBoost[7]和Contextual Copy-Paste[5]根据周围的视觉环境精心地将裁剪好的前景放置到另一张图像上。CP2[27]提出了一种预训练方法,将随机裁剪的图像复制粘贴到另一幅背景图像上,该方法被证明更适合下游的密集预测任务。[9]对实例分割中的复制粘贴进行了系统的研究。UCC[6]在训练时将属于置信度低的类的像素复制为前景,以缓解分布不匹配和类不平衡问题。以前的方法只考虑复制粘贴交叉未标记数据,或者简单地从标记数据复制切片作为前景并粘贴到另一个数据。他们忽略了为标记和未标记的数据设计一致的学习策略。因此,较大的分布差距仍然是不可避免的

方法

Overview of our bidirectional copy-paste framework in Mean Teacher architecture-tnpdkoau.png

双向复制粘贴

Mean Teacher 与训练策略

本文的 BCP 框架中,有一个教师网络 F_t(X_{p}^{u},X_{q}^{u};\Theta_t) 和学生网络 F_s(X^{in},X^{out};\Theta_s) ,其中 \Theta_t\Theta_s 为网络参数。学生网络使用随机梯度下降 SGD 进行优化,教师网络采用学生网络的指数移动平均 EMA 进行优化

训练过程分为三步:首先,只使用标注数据对模型进行预训练;然后使用预训练的模型作为教师模型为未标注的数据生成伪标签;在每次迭代中,首先使用随机梯度下降优化学生网络参数 \Theta_t ,然后使用学生网络参数 \Theta_t 的 EMA 更新教师网络参数 \Theta_s

通过 CP 预训练

对标注数据使用 Copy-Paste 增强来训练监督模型,监督模型在自我训练时对未标注数据生成伪标签。该策略被证明可以有效地提高分类性能

双向复制粘贴图像

为了在一堆图像中进行复制粘贴,首先生成一个零中心掩码 M\in\{0,1\}^{W \times H \times L} ,表示该体素是来自前景(0)还是背景(1)图像。零值区域的大小为 \beta H\times\beta W\times\beta L ,其中 \beta\in(0,1) 。然后对标记和未标记的图像进行双向复制粘贴,方法如下:

X^{in}=X_{j}^{l}\odot M+X_{p}^{u}\odot(1-M)
X^{out}=X_{q}^{u}\odot M+X_{i}^{l}\odot (1-M)

为了保持输入的多样性,采用了带标记和未标记两种图像

双向复制粘贴监督信号

为了训练学生网络,还通过 BCP 操作产生监督信号。将未标记的图像 X_{p}^{u}X_{q}^{u} 输入到教师网络中,计算它们的概率图:

P_{p}^{u}=F_t(X_p^u;\Theta_t),P_q^u=F_t(X_q^u;\Theta_t)

初始伪标签 \hat{Y}^u 通过对二元分割任务的 P^u 采用共同阈值 0.5 来确定的,或者对多类分割任务的 P^u 采用 argmax 操作来确定的。最终伪标签 \overset{\sim}{Y}^{u} 是通过选择 \hat{Y}^u 的最大连接分量获得的,这将有效的去除离群体素。然后,提出与之前相同的方法,对未标注图像的伪标签和标注图像的真值标签进行双向复制粘贴,得到监督信号:

Y^{in}=Y_{j}^{l}\odot M+\overset{\sim}{Y}_p^u\odot (1-M)
Y^{out}=\overset{\sim}{Y}_{q}^{u}\odot M+Y_i^l\odot (1-M)

Y^{in}Y^{out} 将作为监督来监督学生网络对 X^{in}X^{out} 的预测

损失函数

学生网络的每个输入图像都由标记图像和未标记图像组成。直观上,标记图像的真值掩模通常比未标记图像的伪标签更准确。本文使用 \alpha 来控制未标记图像像素对损失函数的贡献。 X^{in}X^{out} 的损失函数分别如下

L^{in}=L_{seg}(Q^{in},Y^{in})\odot M+\alpha L_{seg}(Q^{in},Y^{in})\odot (1-M)
L^{out}=L_{seg}(Q^{out},Y^{out})\odot M+\alpha L_{seg}(Q^{out},Y^{out})\odot (1-M)

其中, L_{seg} 是 Dice 损失与交叉熵损失的线性组合。 Q^{in}Q^{out} 的计算公式如下

Q^{in}=F_s(X^{in};\Theta_s);Q^{out}=F_s(X^{out};\Theta_s)

在每次迭代中,使用随机梯度下降算法更新学生模型的参数 \Theta_s,然后在 K+1 次迭代时更新教师网络的参数 \Theta_t^{(k+1)}

\Theta_t^{(k+1)}=\lambda\Theta_t^{(k)}+(1-\lambda)\Theta_s^{k}

其中 \lambda 为平滑系数


评论