其他分享
首页 > 其他分享> > 论文阅读——MI2GAN: Generative Adversarial Network for Medical Image Domain Adaptation

论文阅读——MI2GAN: Generative Adversarial Network for Medical Image Domain Adaptation

作者:互联网

论文阅读——MI2GAN: Generative Adversarial Network for Medical Image Domain Adaptation using Mutual Information Constraint
MI2GAN:使用交互信息约束的对抗生成网络用于医学图像的域迁移问题
from MICCAI2020
Tencent Jarvis Lab

摘要

医学图像由于多中心使得域迁移问题仍然是需要解决的一个问题,由于数据分布中心的差异大大降低了深度学习模型的泛化性能。生成对抗网络GAN可以生成真实可信的图像,是该问题的潜在解决方案之一。但是现有的GAN在图图转换过程中很难保存图像内容不变。


本文则提出一种新的生成对抗网络-MI2GAN用于在域迁移任务的图图转换中保存图像内容。尤其是将源域图像和目标域图像的内容特征从域信息中解耦出来,然后最大化两类内容特征上的相关性,从而保存图像中物体的信息。
并且将本文提出的MI2GAN在结肠镜图像的多分割任务以及视杯视盘分割任务中进行了测试,实验结果显示MI2GAN不仅可以生成精细的迁移图像,还可以有效提升已有深度学习模型(如UNet)的泛化性。

Section I Introduction

不同中心的医学影像数据往往具有不同的情况,比如光照和颜色上,因此在一种数据域上训练好的模型往往在另一种数据域上表现不佳,即泛化能力差。域迁移可用于提升模型的泛化性能,而看到GAN在图像合成任务中取得的成功,学者们也开始尝试将GAN用于域迁移的图图转换任务中。



比如[1]使用GAN在测试前将新数据集中的X光图像迁移到训练域的训练图像中,从而提升了测试准确性;[21]Zhang等人提出了一种任务驱动型生成对抗网络(TD-GAN)来解决X光图像的跨域迁移问题。
而现有的一些基于GAN的图图转换框架通常基于循环一致性损失函数,从而降低训练中对图像对的要求。然而近期一些研究表明循环一致性损失容易使得图像转换过程中改变图像内容。




在这里插入图片描述

T表示双射几何变换(一一对应关系,如旋转、缩放甚至非刚性变换等)都有逆变换 ,因此产生的Gab’和Gba’也是满足循环一致性的定义的。
而Gab和Gba就是最开始建立起A-B域之间映射的映射函数。
由于缺乏源域图像和变换域图像之间关于内容不一致的乘法,使得基于循环一致性损失训练得到的变换域中的图像可能会变形,而这在医学图像处理中是不可接受的。

为了解决这一问题,本文提出一种新的生成对抗网络-MI2GAN用来最大化保留图图转换过程中的图像内容(交互信息,Mutual Information)。
本文的思路来自于以下两点观察:


(1)图像的内容特征可以完全从源域的图像信息中解耦分离出来;



(2)交互信息这一衡量两个变量相关性的指标可作为图像物体保存的一种评价指标。



交互信息约束广泛用于多种医学图像处理任务,比如对于X,Y两个变量,其相互信息表述为KL散度:
在这里插入图片描述

虽然其中的后验概率很难估计,但本文最大限度的提高了源域和目标域之间的相似。具体来说就是,源域图像和目标域图像的内容特征首先经过两个成对的对抗自编码器提取得到,然后送到判别器中来估计器相似信息。
在两类实验中均验证了本文提出的MI2GAN网络不仅可以生成更加合理的图像还可以很大程度抑制由于域迁移导致的模型性能下降问题。

Section II MI2GAN

在这里插入图片描述

Fig 1展示了MI2GAN的结构,MI2GAN的框架类似于CycleGAN,但是MI2GAN采用成对的生成器以及成对的判别器,用来完成跨域的图像转换任务。
为了更好的保留图像内容,使用了X型的自编码器结构以及一个用于估计交互信息的判别器。与CycleGAN的结构类似的成对的生成器(Gab和Gba)和判别器(Da和Db),这样可以避开使用成对的图像用于训练。从域信息中提取内容信息是通过X形的双自编码器结构完成,其中编码器部分负责将嵌入在原图像和目标域图像中的内容信息嵌入到隐空间Z,而解码器负责将来自各自域的信息使用域相关的信息进行转化,这样就可以避免在图像变换过程中导致图像变化。
本文只需要做的就是最大化源域图像和目标域图像中的交互信息即可,这是通过本文的交互信息判别器完成的。
接下来将会详细介绍如何解耦内容特征以及如何最大化交互信息。
Part A X形双自编码器

本文的X-shape dual auto-encoder肌肉股包含编码器Enca、Encb和解码器Deca和Decb,主要用来解耦图像内容信息。
因为A域和B域之间的映射是对称的,因此下面以从域A中的图像精炼内容特征为例。主要流程参见Fig2:

在这里插入图片描述

给定输入图像Ia,通过A的自编码器-Enca-Deca将其嵌入到隐空间,公式表述为:
在这里插入图片描述

其中Ia’则是Ia的复原图。其中编码器的输出za中就包含的源域A的域信息也包含了图像Ia的内容信息,为了将内容特征解耦出来,输入到解码器Decb获得za的映射结果Iab’。除此之外看到还有个Gan用于域A和域B之间的转换。
在这里插入图片描述

可以获得生成图像Iab,通过最小化Iab与Iab’之间的像素级差别和Ia与Ia’之间的重建损失,解码器Deca和Decb就可以从隐空间中学习与域有关的信息,因为编码器部分移除了域信息而解码器负责复原回来,这样就可以学习隐向量za到两个域的映射,而za中包含的信息就是高度与图像内容相关的了而没有域带来的偏移。
因此上述两项加起来就组合成了内容信息蒸馏损失(content feature distillation loss):

在这里插入图片描述
Part B Mutual Information Discriminator

使用本文这种X形的双自编码器结构,源域图像Ia以及变换的目标域图像Iab中的内容特征皆可以分别解耦到隐向量za和zab,这一内容特征只保留了图像内容方面的信息,为了完成这一目标,还需要给编码器Encb增加一些统计信息上的限制,要使得Zab的分布与Za的分布匹配,因为Za和Zab都是Z空间的两个子空间。


参考对抗训练,主要就是让生成图像的分布尽可能匹配真实图像的分布,可以通过一个交互信息判别器Dmi完成,来判别样本来自于Za还是Zab。
本文取的是交互信息的下限:
在这里插入图片描述
为了构成真值样本和生成样本,会随机从域B中选择图像以及将其通过编码器编码到隐向量zb,随后将图a经过编码后的隐向量za级联在zb和zab后面,这样就获得了来自联合分布(J)和M的样本。
因此整个MI2GAN的损失函数表示为:
在这里插入图片描述

其中Ladv和Lcyc分别表示对抗损失和循环一直损失,而alpha和beta则是Lcyc和Ldis的权重参数,均给了10.

Part C 实施细节


网络结构
类似CycleGAN,包含两对成对的生成器和判别器,还使用了Instance normalization、LeakyReLU
优化细节
固定自编码器、判别器然后首先优化Gba和Gab,然后分别优化自编码器、Dmi和Da/Db部分。因此类似于判别器,本文的X型双自编码器可以直接将图像内容信息直接传递给生成器,从而有助于保存内容信息,提升图像转换结果。

Section III Experiments

深度神经网络换到新的数据集上往往由于域迁移问题导致性能下降,比如不同数据集的色彩、光照等信息不一致。而MI2GAN则致力于将所有的测试图像迁移到同一个训练域中,这样就可以解决域迁移问题。为了验证这一方法的有效性在一些开源数据集上进行了测试。



Part A Datasets



Colonoscopic Datasets是一个开源的结肠镜视频数据集,包含来自29个序列的612负图像。




ETIS-Larib数据集包含196幅图像,可以手动分成29个序列。由于这些短视频都是从不同中心的不同内镜设备中提取出来的,以及所有的结肠镜视频中都包含息肉,本文将小型的ETIS-Larib数据集作为测试集,将相对较大的CVC-Clinic数据集作为训练和验证集。




REFUGE数据集:包含1200张眼底图像用于视杯和视盘分割,划分情况为train:val:test=400:400:400,这一数据集中的图像来自于两种不同相机(佳能和蔡司)导致训练和验证之间存在差距。由于测试集不可获得,因此本文在训练集和验证集的数据上开展实验,分割比为80:20,yong 公共的验证集作为测试集。




评价指标和对比的框架:





对比的框架包含域迁移常使用的CycleGAN、UNIT以及DRIT。
评价指标则是DSC指标(Dice score)衡量分割结果与真值之间的交叠情况。






Part B 消融实验






内容特征提取
本文邀请三明专家手动将两张CVC图像调整受到ETIS域图像,因此在内容上还一致但是具有完全不同的域信息。随后将图像对送到X型双自编码器中,对于两个编码器编码后的结果进行CAM可视化。






在这里插入图片描述
Fig 3第二行展示了从X自编码器的编码结构中不同域的编码结果,左侧是CVC数据集图像,右侧是专家手动调整后的ETIS域图像。
可以看到CVC和ETIS图像中的内容通过两个编码器编码后得到类似的激活模式,但是不同CVC图像也可以得到不同的激活模式。这就说明X型双自编码器结构确实可以学习域相关的信息,移除掉域相关的信息后得到相似的激活模式。
交互信息判别器
为了确认交互信息判别器的作用还测试了本文MI2GAN结构移除Dmi判别器的效果,结果展示在Table I中,可以看到分割精度从80.79掉到了72.86,视盘分割的性能也有所下降,说明Dmi对于保留图像内容信息还是有用的。
在这里插入图片描述
Part C 与SOTA结果的对比

在结肠镜图像和眼底图像的域迁移任务中采用了不同的图图转换域迁移技术,常见的是将测试图像迁移到训练集缩小二者之间的差距,提升模型的泛化性能。

Fig4可视化了一些不同的域适应方法产生的迁移结果对比,其中大多数方法都看到图像产生了一定的变化/变形,而本文的MI2GAN基本保留了图像内容。
为了定量分析,Table I还展示了不同方法的分割精度,由于前面提到的一些迁移方法没能较好的保留图像内容,因此在两类任务中的分割性能均有所下降其中DRIT框架下降的最多,而本文的MI2GAN则分别将分割精度提升了:息肉(8.53%),OD(1.38%),OC(1.83%)。
在这里插入图片描述

Section IV Conclusion

本文提出了一种新的生成对抗网络,可以有效在图图转换的过程中保留图的内容信息,尤其是将源域和转换域的图像中其内容特征与域相关的信息相互分离,通过最大化互相关信息达到保留图像内容的目的。

标签:本文,Domain,Network,Medical,MI2GAN,编码器,信息,内容,图像
来源: https://blog.csdn.net/qq_37151108/article/details/110405314