Multi-View Spatial Aggregation Framework for Joint Localization and Segmentation of Organs at Risk i
作者:互联网
Multi-View Spatial Aggregation Framework for Joint Localization and Segmentation of
Organs at Risk in Head and Neck CT Images
头颈部CT图像中风险器官的联合定位和分割的多视图空间聚合框架
发表期刊:IEEE Transactions on Medical Imaging
发表时间:2020年
摘要
头颈部 ct 图像中高危器官(OARs)的准确分割对于有效的放射治疗至关重要。然而,现有的深度学习方法往往没有进行端到端的训练,也就是说,它们在器官分割前独立地预先确定目标器官的区域,造成相关任务之间的信息共享有限,从而导致次优的分割结果。此外,当使用传统的分割网络同时分割所有器官时,分割结果往往偏向于大器官多于小器官。因此,现有的方法往往为每个器官训练一个特定的模型,忽略了不同分割任务之间的相关性。为了解决这些问题,我们提出了一种新的多视图空间聚合框架,利用H&N CT 图像对多个器官进行联合定位和分割。我们框架的核心是一个基于感兴趣区域(ROI)的细粒度表示卷积神经网络(CNN) ,用于从 CT 图像的每个二维视图(即轴位、冠状位和矢状位视图)生成多器官概率图。具体来说,我们基于ROI的细粒度表示CNN(1)统一了OARs定位和分割任务,并以端到端的方式对其进行训练,(2)通过一种新的基于ROI的细粒度表示改善了各种大小OARs的分割结果。然后,我们的多视图空间聚合框架对生成的多视图多OAR概率图进行空间聚合和组装,以同时分割所有OAR。我们使用两组H&N CT 图像评估我们的框架,并为各种尺寸的器官实现具有竞争力和高度鲁棒性的分割性能。
关键字:
Image Segmentation,detection,deep learning,convolutional neural network,head and neck cancer
Introduction
头颈部 (H&N) 癌症是全球第五大最常见的诊断癌症,也是第八大最常见的死亡原因 [1]。放射疗法是治疗H&N癌症的最有效方法,需要计算机断层扫描 (CT) 成像的图像为剂量计划提供组织密度信息。在放射治疗期间,将引导高能射线聚焦于肿瘤,同时保留附近的正常危险器官(OAR)。通常包含在 H&N 癌症治疗计划中的 OAR 的一些示例是脑干、视神经、视交叉、腮腺、下颌下腺和下颌骨,其中它们是否包含在治疗计划中高度取决于肿瘤位置和图像视野。为了避免在放疗期间损坏OAR,在治疗计划期间准确分割OAR至关重要。到目前为止,在放疗治疗计划期间仍需手动描述OAR,即使对于有经验的临床医生,这也非常耗时。此外,手动勾画评分者内和评分者间的变异性可直接影响放疗的治疗结果。因此,非常需要一种能够精确地分割多个OAR的有效方法。
然而,由于以下三个主要问题,从 CT 图像中同时分割所有 OAR 具有挑战性:1) OAR 的大小变化很大,导致分割算法容易偏向于大 OAR(如脑干和下颌骨) ) 并导致小 OAR(如视神经和交叉)的大错误; 2)大部分OAR的体积都比较小,在CT图像上只能模糊区分; 3)CT图像中的软组织图像对比度低,导致部分OAR分割困难,如脑干、交叉和颌下腺。为了说明我们的观点,我们在图1(a) 中显示了一个患者的器官的一些示例,在图1(b) 中显示了平均器官大小。如图1(a) 所示,器官仅占据图像的一小部分 (例如,在2D图像中小于1.5%),并且它们在大小上有很大差异。此外,器官与周围组织之间的低对比度导致难以区分器官边界。在图1(b) 中,我们还可以观察到器官的大小变化很大。
Fig.1(a) 在CT扫描的不同切片中,患者的器官的例子,在外观、形状大小和位置上是不同的。每个器官都有手动注释,并以不同的颜色显示。BS=脑干,MD=下颌骨,OC=视交叉,ONs=视神经,PGs=腮腺,SGs=颌下腺。(b) 器官的平均尺寸。可以看出,器官的大小差别很大。[r:右;l:左;误差条:标准偏差]
为了应对这些挑战,人们付出了很多努力。 在[5]中,提出了一种将可变形配准和基于器官特定模型的分割相结合的混合方法,并使用概率细化步骤进一步改进分割结果。Fritscher et al. [6] 提出通过流形学习提取多尺度图像块的特征,可用于辅助训练基于随机森林的分类器进行准确的腮腺分割。Christian等人 [7] 提出将图像块强度值、位置信息和图像特征结合起来作为描述符来指导腮腺分割。Wang等人 [8] 开发了一种新颖的基于先验的方法,该方法可以分层地识别和定位关键边界点,其中前一阶段的临界点用于指导下一个不太关键的边界点的检测,以自动从H&N CT图像中分割器官。上述传统的基于学习的方法的主要限制是需要预先定义特征,例如Haar-like [8],基于滤波器的 [7],Laplacian特征图 [6] 等,以学习分割模型。但是,此类手工制作的特征可能不足以学习准确的分割模型。
最近,深度卷积神经网络(CNN)在各种医学图像计算任务中表现出了出色的表现[9]-[12]。 通过无缝集成分层特征提取和判别模型学习,CNNs 也被应用于开发先进的分割方法,例如使用 H&N CT 图像进行 OARs 分割[13]-[17]。例如,Tong 等人[16] 提出了一种全卷积神经网络 (FCNN),具有用于 H&N 癌症放射治疗的多器官分割的形状表示模型。 然而,由于目标 OAR 通常只占据输入数据的一小部分,因此这种多器官分割网络很容易被背景区域或类似的相邻结构混淆。这促使研究人员提出了定位到分割的方法,其中定位部分提供定位的目标区域,分割部分在定位的区域中进行精确分割。例如,Ibragimov等人[14]提取了局部图像块,开发了一个基于CNN的OARs分割模型。Men[17]和王等人 [13] 提出了一种两步 CNN,分别在 2D 和 3D 图像中结合了 ROIs 识别和精细 OARs 分割。 任等人 [15] 构建了几个 3D-CNN,每个用于不同的组织(例如,交叉和左/右视神经),以根据其周围的 3D 图像块确定单个体素的组织标签。
然而,这些现有的定位-分割的方法有两个局限性。首先,它们需要预先确定信息区域(例如,Ibragimov 等人 [14] 通过使用在颅骨边界计算的梯度定位头部中心,Ren 等人 [15] 通过使用基于多图集的分割定位目标区域 方法)或边界框(例如,Wang 等人 [13] 和 Men 等人 [17] 使用单独的 CNN 检测器来定位边界框)在分割网络训练之前的 CT 图像中。也就是说,目标器官区域的定位与特征提取和分割器构造无关,因此禁止了这两个相关学习任务之间的信息传递,并可能阻碍了相应的分割性能。其次,大多数方法 [13]-[15]、[17] 为每个 OAR 设计了个性化的分割模型。 还不清楚是否可以修改这些算法以同时分割所有具有良好性能的各种大小的 OAR。
在本文中,我们提出了一个新的多视图空间聚合框架,用于使用H&N CT图像对多个OAR进行联合定位和分割。我们的框架由一个新的基于感兴趣区域 (ROI) 的细粒度表示卷积神经网络 (CNN) 组成,它为 CT 图像的每个 2D 正交视图(即轴向、冠状和矢状)生成多 OAR 概率图。具体而言,我们基于ROI的细粒度表示CNN(1)统一了OARs定位和分割任务,以减少分割期间输入数据中背景区域和类似相邻结构的影响,以及(2) 利用一种新的基于ROI的细粒度表示,有效地提高了各种大小器官的分割结果。然后,我们的多视图空间聚合框架通过使用CT图像的三个正交2D视图(即轴向、冠状和矢状)对提出的CNN生成的多OAR概率图执行3D空间聚合和组装,从而获得多OAR分割输出。此外,我们还将自动上下文模型(ACM)[20] 合并到我们提出的框架中,以迭代地提高图像切片内和跨图像切片的分割精度和一致性。
本文的其余部分安排如下。 在第二节中,我们介绍了我们提出的方法的细节。 第三节讨论了实验结果和与相关工作的比较。 最后,我们在第四节讨论并总结我们的论文。
Methods
我们提出了一种基于多视图空间聚合的多器官分割框架,以使用 CT 图像的三个正交 2D 视图(即轴向、冠状和矢状)同时分割多个 OAR。 所提出框架的整个流程如图 2 所示。我们的多视图空间聚合框架中的核心网络是一种新颖的分割网络,称为基于 ROI 的细粒度表示 CNN,其架构如图 3 所示。它包括器官定位和分割子网络,以及一种新的基于ROI的细粒度表示。OARs定位部分的目的是计算边界框,以覆盖任何输入CT扫描的目标OARs,而无需任何手动预处理。分割部分处理深入学习的OAR特征,仅关注目标OAR位置,以预测该目标OAR的分割掩膜。第II-A节将介绍提出的基于ROI的细粒度表示的细节。在提出的多视图空间聚合框架中,我们分别在轴向、冠状和矢状视图中训练基于 ROI 的细粒度表示 CNN,并基于迭代自动上下文细化,并对概率图执行 3D 空间聚合和组装 从这三个正交视图生成分割图,以充分利用 3D 图像的多视图表示,并迭代地提高图像平面内和跨图像平面的分割一致性。 我们的多视图空间聚合框架的细节将在第 II-B 节中介绍。
Fig.2 . 我们提出的多视图空间聚合框架的管道。 所提出框架中的核心网络是一种新颖的分割网络,称为基于 ROI 的细粒度表示 CNN(Our CNN)。 “Ap”、“Sp”和“Cp”分别表示轴向、矢状和冠状视图的分割概率图。 本图中以脑干分割为例。 (“我们的 CNN_a/s/c0I”:‘a’、‘s’ 和 ‘c’ 表示建议的网络分别在轴向、矢状和冠状面上训练;‘iI’ 表示迭代次数,i = 0, 1 , 2)。
Fig.3 我们基于 ROI 的细粒度表示 CNN 的架构,用于 OAR 的联合定位和分割。
ROI-Based Fine-Grained Representation CNN
如图3所示,我们提出的基于ROI的细粒度表示CNN由三个组件组成: 1) 一个RPN,用于为多个目标器官生成ROI; 2) 一个细粒度表示模块,用于增强每个ROI中的局部特征;和3) 用于预测每个ROI中的器官mask (即分割概率图) 的高分辨率分割器。提出网络的体系结构详细如下。
RPN for Multi-Target Localization
如果剪除 CT 体积的不相关区域,则可以提高分割性能。 因此,我们建议按照 Faster R-CNN [18] 中的建议训练 RPN,以生成目标器官提议,即具有高概率包含 OAR 的区域,用于训练和测试图像。
ROI-Based Fine-Grained Representation Module
由于大多数OAR是小的,即仅占据输入图像的小部分(例如,在2D图像中从0.0038%(视神经)to1 0.58%(下颌骨)的范围内),并且尺寸高度可变,因此从整个CT扫描分割它们是非常困难的。当我们想要在CT扫描图像中同时分割不同大小的器官时,这是特别正确的。其中一个原因是,当使用传统卷积网络时,在经过一系列的池化操作之后,高层的输出被高度抽象化,其中微小结构的对象很容易被忽略。例如,原始CT图像中尺寸< 16 × 16的器官将在四次最大合并操作后在输出特征图中消失。为了解决这个问题,我们设计了一个基于ROI的细粒度表示模块,该模块结合了各种大小器官(尤其是小器官)的特征表示,并从低层网络层提取了增强的细粒度表示。
如图 3 所示,基于 ROI 的细粒度表示模块将来自底部卷积层的特征作为输入,以保留具有高分辨率信息的低级细节。 该模块由变换层(由卷积层实现)、ROIAlign 层 [21]、[22] 和深度残差块 [23] 组成。 具体来说,来自底层(“Conv1”)的具有细粒度细节的特征首先被送入变换层,以输出增强的低级特征图,以补充来自相应较高层(“Conv5”)的高级特征图 . 此外,转换层还确保来自底层的特征图的数量与来自较高层的特征图的数量相当。然后,从转换层输出的特征映射和RPN生成的ROI被送入“ROIAllign 1”层。通过ROIAllign操作,特征图的每个ROI(可能大小不同)被汇集到一个固定大小(即7×7)的特征图中,该特征图也被很好地对齐,以忠实地保持与原始图像的显式逐像素空间对应关系。随后,我们将包含原始图像的细粒度信息的固定大小的基于ROI的特征映射馈送到深度残差块中,以学习最终的基于ROI的细粒度表示。并行地,通过“ROIAllign 2”层,并使用RPN生成的同一组ROI,我们从“Conv5”层生成的高级特征图中提取基于ROI的语义表示。然后,我们通过元素求和操作将每个ROI的细粒度和语义表示结合在一起,利用两个部分的优势进行后续的分割网络。
A High-Resolution Segmenter
在最近最先进的实例分割方法[21]中,通常使用一个小的分割掩膜(根据概率图)(例如,14×14 或 28×28)作为输出,然后将其调整为相应的 ROI 大小来表示原始图像中的器官分割掩膜。然而,由于在将小分割掩膜(低分辨率)调整为大分割掩膜(高分辨率)时不可避免的精度损失,这种小尺寸掩膜设置在分割大器官时表现不佳。因此,我们建议不使用小尺寸的掩膜作为输出,而是使用一系列反卷积层来获得更高分辨率的输出掩膜(即 120 × 120),这样我们就可以同时更好地表示多尺寸的器官(尤其是大器官)。
我们在表 I 中展示了基于 ROI 的细粒度表示 CNN 的架构细节。请注意,整流线性单元 (ReLU) 用作每个卷积层之后的激活函数,而 Conv1-5 层(未在表 1) 与 VGG-16 中使用的相同。
TableI.我们提议的网络的详细架构。“Params”包括:1)“Input”,原始输入;2)卷积核大小和通道数;3)“pad”,空间填充数; 和 4)“str”,相应的层的步长数。(CONV = 卷积,DECONV = 去卷积,ELTWISE SUM = 基于元素的总和)
Multi-Task Loss Function
我们将我们的目标 OAR 定位与我们的分割网络构建统一起来,这样两个学习任务可以互相帮助,以实现更好的分割结果。 为此,我们使用多任务损失函数训练我们的网络,以共同学习 OAR 的端到端区域建议和各种大小的 OAR 的同时分割。 多任务损失函数定义为
其中L表示训练样本的三个学习任务(例如,区域建议)的损失函数,并且λ表示控制每个任务的贡献的超参数。方程中有三个损失函数,每一个都与学习任务相关联。具体来说,Lclc|prop(p,p ∗) 是log softmax损失,表示区域建议的分类损失,其中p ∗ 是ground truth标签 (即,1表示正 (前景) 区域建议,0表示负 (背景) 区域建议),p是区域建议为正的预测概率。Lloc|prop(t, t∗) 是从区域提议到目标器官边界框的预测偏移量 t = (tx , ty , tw, th) 和真实偏移量 t∗ = (t∗ x , t∗ y, t* w, t * h) 之间的平滑 L1 损失(回归损失)。 Lseg(s, s∗) 是对数 softmax 损失,表示 K + 1 个类别的区域建议的分割损失,其中 s ={s0, s1, … , sK} 和 s∗ = {s∗ 0, s∗ 1, …, s∗ K} 分别是区域建议的预测概率和真实标签图(120 × 120 )。此外,p∗Lseg 意味着分割损失只对正区域提议激活。使用方程式 (1),整个网络的参数可以通过在一个反向传播过程中同时学习三个任务来更新。
Multi-View Spatial Aggregation Framework
传统上,图 3 中仅使用轴向视图中的 2D 切片来训练我们基于 ROI 的细粒度表示 CNN。然而,轴向视图图像提供的信息通常是有限的,因为器官在不同视图(即轴向、冠状和矢状)中的外观明显不同。 此外,临床上,放射治疗师通常在多视图信息的帮助下描绘 OAR。 受这种做法的启发,我们建议在轴向、冠状和矢状视图中训练我们基于 ROI 的细粒度表示 CNN,并使用空间聚合函数(3D Meanmaxvoting)聚合来自这三个正交视图的所有预测概率图, 做出准确的预测。更具体地,Ap、Sp和Cp分别是轴向视图、矢状视图和冠状视图的3D预测概率图(通过叠加顺序2D概率图),通过从这三个概率图视图计算最大的两个分数的体素平均来获得预测。(没太看懂具体怎么操作)
然而,使用图3中的网络,我们学习CT图像中每个区域建议内每个像素的器官标签,其中每个像素可用的上下文信息非常有限(或不存在),尤其是跨切片,并且为整个CT图像生成的3D标签概率图(由连续2D概率图叠加)通常在空间上不一致。为了确保图像切片内的空间一致性,我们使用 ACM [20] 迭代地合并包含上下文信息的先前分割结果以改进我们的分割结果。具体来说,我们将原始 CT 图像切片与第 i 次迭代中基于 ROI 的细粒度表示 CNN 生成的预测分割图连接起来,并使用它们作为输入来训练第 (i+1)次迭代 中的新网络。此外,为了确保图像切片之间的空间一致性,我们进一步包括相邻的切片来训练我们基于ROI的细粒度表示CNN。例如,第i次迭代中的输入包括 (2i + 1) 顺序切片 (即,在中心切片之前的i个切片和在中心切片之后的i个切片) 与第 (i-1) 次迭代处的相应预测映射串联,并且输出是中心切片的相应预测图。通过这些方式,可以很好地利用上下文和邻域信息来更好地训练基于 ROI 的细粒度表示 CNN。 请注意,基于自动上下文的细化的下一次迭代中的训练必须等到当前迭代完成。 总之,对于我们提出的多视图空间聚合框架,我们分别在轴向、冠状和矢状视图中使用基于迭代自动上下文的细化训练基于 ROI 的细粒度表示 CNN,并在最后一次迭代中从这三个正交视图映射聚合所有预测概率以获得最终的分割结果(见图 2)。
Algorithm Details
Implementation Details
我们采用Caffe [24],这是一个备受瞩目的开源深度学习平台,来实现我们的方法。我们使用标准的随机梯度下降(SGD)算法,以端到端的方式训练所提出的网络,阶跃学习速率从0.01开始,每45000次迭代降低0.1的速率。在每个SGD迭代中,前向路径生成区域提议,并使用这些区域提议来训练分割部分。然后像往常一样进行反向传播,其中反向传播的信号同时考虑定位和分割损失。我们网络的输入是CT图像、ground truth边界框和ground truth掩码,其中边界框是从ground truth掩码中提取的(不是很懂怎么提取的边界框)。我们把动力设定为0.9。用Xavier方法初始化所有网络参数 [26] 。我们不使用任何预先训练的模型,因为它们不满足我们方法所需的输入大小。所有的实验都是使用NVidia Titan X提供的平台进行的。
Weight Setting for Each Learning Task
我们根据经验设置公式(1)中每个学习任务的权重,λ1=1, λ2=1,λ3=2。
Number of Slices as Input for Each Iteration
我们根据经验将基于迭代自动上下文的细化中的迭代次数设置为 2。也就是说,在开始时(第 0 次迭代),我们使用一个 CT 图像切片作为网络的输入;然后,在第 1 次迭代中,我们使用三个连续切片(连同第 0 次迭代生成的分割图)作为网络的输入,以跨切片捕获空间信息;最后,在最后(第 2 次)迭代中,我们使用五个连续切片(连同第 1 次迭代中预测的分割图)作为网络的输入。
Experiment Results
Datasets
我们在两组H&N CT图像上评估了我们提出的方法的性能。
第一个数据集是 miccai 2015头颈部自动分割挑战[27]数据集(简称本文其余部分的挑战)。数据集是计算解剖学的公共领域数据库(pddca)( http://www.imagenglab.com/newsite/pddca )。
原始CT数据来自放射治疗肿瘤组(RTOG)0522研究,这是一项由Kian Ang博士领导的多机构临床试验[28]。1.4版包括48张来自原始数据集的患者CT图像,以及左右腮腺(PG_L和PG_R)、脑干(BS)、视交叉(OC)、视神经(左侧和右侧、ON_L、ON_R)、下颌骨(MD)和下颌下腺(左侧和右侧、SG_L和SG_R)的手动分割。这些图像是根据RTOG和科学文献 [29] 描述的当前最佳实践来形成轮廓的。图像尺寸从512×512×39到512×512×181变化。面内分辨率范围从0.76毫米到1.25毫米,片间厚度范围从1.25毫米到3.0毫米。该数据集被划分用于挑战,33个受试者被用作训练集,15个受试者被用作测试集。
第二个数据集是一个大型数据集,其中包含其他96名受试者,这些受试者是从南方医院获得的,并获得了机构审查委员会的批准,并且放弃了书面知情同意要求。该数据集具有良好的面内分辨率,范围从0.363毫米到0.693毫米,片间厚度3.0毫米。由两位经验丰富的医生划定并同意的器官的轮廓被用作ground truth。
Evaluation Metrics
我们使用两种测量方法来定量评估自动分割的准确性。
- Dice相似系数 (DSC) [30] 测量自动分割 (SEG) 和用作ground truth(GT) 的手动分割之间的重叠程度。
其中 VolGT 是手动分割器官的体素集,VolSEG 是自动分割器官的体素集。
2)平均表面距离(ASD)测量自动和手动分割表面之间的平均距离。
其中d(z,GT)是自动分割器官表面上的体素z到ground truth表面上所有体素的最小距离,d(u,SEG)是GT表面上的体素u到SEG表面上所有体素的最小距离,|·|是集合的基数。
Segmentation Results
使用第一个数据集,我们通过消融研究评估提出的基于 ROI 的细粒度表示 CNN(我们的 CNN),以调查每个组件的贡献。 然后我们评估我们的多视图空间聚合框架的影响。 我们还通过观察检查结果,并将我们提出的框架与最先进的方法进行比较。 最后,为了展示我们提出的框架的普遍性,我们还使用第二个数据集进行了实验。
Ablation Study for the Network Design of Our CNN
a) 网络结构评估:
为了评估我们提出的细粒度模块的贡献,我们在图4中比较了基于ROI的细粒度表示CNN(our CNN)和没有细粒度模块的降级版本(我们的CNN-noFG)。也就是说,我们的CNN-noFG的体系结构与提议的网络的体系结构相同,细粒度模块被删除。从图 4 中分割目标器官的 DSC 结果可以看出,如果没有提出的基于 ROI 的细粒度模块,我们的 CNN-noFG 无法为这一具有挑战性的 H&N CT 分割任务产生合理的结果。这可能是因为 H&N CT 数据集包含多个不同大小的器官,而我们的 CNN-noFG 无法从相对较小的器官中捕获足够的信息。相比之下,在合并了提议的细粒度模块后,我们提议的基于ROI的细粒度表示CNN实现了显著更好的分割结果,尤其是对于相对较小的器官,如视交叉和视神经,如图5所示。这意味着我们提出的细粒度模块在增强来自原始CT图像的目标器官的表示方面的有效性。为了研究联合训练定位部分和分割部分的贡献,我们还对CNN进行了两步训练(即首先对定位部分进行训练,然后使用区域建议来训练分割部分)。使用单独的训练略微降低了分段性能(请参阅我们的CNN-separate的图)。这可能是因为目标器官区域的定位独立于特征提取和分割器构造——禁止两个相关学习任务之间的信息传递可能会妨碍相应的分割性能。
Fig.4 通过我们基于ROI的细粒度表示CNN( our CNN)和它的退化对应物,即我们的CNN-noFG(没有基于ROI的细粒度模块)和我们的CNN-separate(使用单独的训练过程),对分割结果进行比较。
Fig.5 通过使用我们提出的基于ROI的细粒度表示CNN(our CNN)及其没有细粒度模块的降级版本(our CNN-noFG),可视化所有九个OAR的分割结果。分割的概率从蓝色到红色标记,表示从低到高的概率。ground truth分割边界在第1列、第4列和第7列中用红色等高线划定。
b) Impact ofusing different lower layers for learning ROI-based fine-grained details(使用不同的较低层来学习基于 ROI 的细粒度细节的影响:):
基于 ROI 的细粒度表示 CNN 使用较低层的表示来学习小器官的细粒度细节。特别是,我们使用从“Conv1”(Seg-Conv1)中提取的特征作为我们细粒度表示模块的输入。为了研究使用来自不同卷积层的表示对最终分割结果的影响,我们进行了额外的实验,这些实验分别使用从 “Conv2” (Seg-Conv2) 和 “Conv3” (Seg-Conv3) 提取的特征作为基于ROI的细粒度表示模块的输入。表2显示相应的分割结果。我们可以观察到Seg-Conv1的表现优于Seg-Conv2 (p = 0.012 < 0.05) 和Seg-Conv3 (p = 0.004<0.05)。实际上,当使用来自较高层的表示时,尤其是对于小尺寸器官 (例如视神经,交叉和下颌下腺),分割性能始终会降低。这可能是因为较低层可以捕获小器官的更多细节。
表II 使用来自不同卷积层的表示作为基于ROI的细粒度表示模块的输入,对九个目标器官进行分割的DSC。(最佳结果以粗体显示)
表III 使用不同的器官掩膜大小,对九个目标器官进行分割的DSC。(最佳结果以粗体显示)
c) Impact of the size of output organ mask:
为了评估我们的大输出器官掩码(相当于本研究中的高分辨率器官掩码)设计的贡献,我们比较了我们基于 ROI 的细粒度表示 CNN(即,输出掩码大小为 120×120),与 具有常规较小输出掩码大小的网络的情况,表示为 Seg-Mask14(即,输出掩码大小为 14×14)和 Seg-Mask28(即,输出掩码大小为 28×28),它们是通过在分割器中使用参数层为{4×4×512; pad:1; Str: 2} 和 {6×6×512; pad:1; str: 4}的反卷积实现的。表3显示了使用不同大小的输出器官掩模的平均DSC值以及Seg-Mask14和Seg-Mask120、Seg-Mask28和Seg-Mask120的p值的分割结果。结果表明,当使用较大的输出器官掩码时,分割性能逐渐提高。特别地,Seg-Mask14在下颌骨中表现出非常差的结果,因为14×14的输出器官掩膜尺寸太小而不能代表大器官。当使用更大的器官掩膜时,精确度显著提高。本文提出的基于感兴趣区域的细粒度神经网络在输出器官掩模大小为120 × 120的比较网络中表现最佳。 请注意,虽然使用更大的器官掩码图通常会导致更好的分割精度,但我们不能无限地增加输出器官掩码,因为它也增加了网络的参数数量,并且在我们将器官掩码大小增加到一定之后,改进是最小的 等级。 在我们的工作中,我们为提议的网络选择了 120 × 120 的器官图大小,因为它仍然可以使用 Titan X GPU 进行训练,并且可以覆盖所有九个目标器官。
Multi-View Spatial Aggregation Framework for Multi-OAR Segmentation
我们在轴向、冠状和矢状CT图像上训练的基于ROI的细粒度表示cnn将分别在轴向 (AX) 、冠状 (CO) 和矢状 (SA) 视图中生成一系列器官分割掩模 (根据概率图)。然后,我们汇总从这三个视图生成的概率图,并在表IV中显示分割结果 (以DSC表示)。分别计算使用多视图空间聚合操作的分割结果与单个AX,CO,SA之间的p值,并在最右边的列中报告。从表IV中,我们观察到,基于ROI的细粒度表示CNN产生的概率图 (参见表IV中的多视图) 的聚合操作通常优于其单视图对应。
表V显示了使用建议的基于ROI的细颗粒表示法,在轴向CT平面上以基于自动上下文细化的不同迭代次数训练的CNN,根据平均DSC值的器官分割结果。我们的CNN_a1I和CNN_a2I的分割结果的p值,以及我们的CNN_a0I的参考值,计算并报告在最右边的列中(“a”表示在轴平面上训练的提出网络;“iI”表示迭代次数,i=0,1,2)。从表中可以看出,DSC随着每次迭代而改进,并在几次迭代后变得稳定。具体地说,在第一次迭代中,由于用于引导分割的先前估计的器官概率图的集成,每个目标器官的DSC值被大大改进,而在第二次迭代中改进变得最小。在本文其余部分的实验中,根据表V中的结果,我们选择将自动上下文细化的迭代次数设置为2(即,我们的CNN_a2I)。
表IV 利用提出的网络生成的由CT图像的AX、CO和SA视图生成概率图,以及来自所有三个视图的概率图的空间聚合,对九个目标器官的分割的DSC结果。(最佳结果以粗体表示)
表V 在基于自动上下文的改进中,使用不同迭代次数(即0、1和2)对在轴向视图中训练的提出的CNN进行DSC方面的九个目标器官的分割结果。(最佳结果以粗体显示)
本文提出的多视图空间聚合框架 (Proposed Framework) 通过在每个正交视图(即轴向、冠状和矢状)上训练基于ROI的细粒度表示CNN,并对每个正交视图(即轴向、冠状和矢状)进行两次迭代,然后对这三个正交视图的所有预测概率图进行聚合,得到最终的分割结果。提议框架的分割结果如表VI所示。从表格中可以看出,提出的框架有最好的平均DSC值,在脑干为92.3% ±1.0%,下颌骨为94.1 ±0.7%,视交叉为71.3 ± 8.3%,右视神经为73.4 ±5.1%,左视神经为73.8 ± 4.6%,右腮腺为87.0 ± 1.5%,左腮腺为88.2 ± 1.3%,右下颌下腺80.0 ± 3.4%,左下颌下腺81.5±2.9%。此外,通过比较表V和表VI中使用单个视图(即,AX、CO和SA)的分割结果,我们观察到基于自动上下文t的细化也可以改进每个单独视图的分割DSC。总之,通过对多视图生成的概率图进行聚合,可以得到更好的分割结果。然后,将聚合策略与基于自动上下文的细化相结合,进一步改进了分割结果。
表VI 使用“建议框架”和“单个视图(即AX、CO和SA)+ACM”框架,对九个目标器官进行分割的DSC结果。(最佳结果以粗体显示)
Visual Results
图 6 显示了两个随机选择的测试对象的ground truth和自动分割。可以看出,我们提出的框架可以很好地描绘器官边界,尽管 H&N 目标器官的形状变化很大并且 CT 图像中的器官边界不清晰,但自动和真实分割结果的重叠度很高。
Fig.6 对两个随机选择的测试对象,我们提出的框架(黄色)和ground truth(红色)的分割结果之间的视觉比较。
Comparison With the State-of-the-Art Methods
我们将基于 ROI 的细粒度表示 CNN(Our CNN)和提出的多视图空间聚合框架(Proposed framework)在 DSC(表 VIII)和 ASD(表 IX)方面与六种常用的最先进的方法进行比较 ,如表 VII 所示。 由于不同的方法通过不同的数据集、指标和目标器官进行了验证,因此很难与其他方法进行公平比较。 我们将我们的方法与在数据集 PDDCA 上评估的六种方法进行比较。 请注意,方法 [8]、[16] 只是在数据集 PDDCA 的子集上进行了评估。
表VII 简要比较了六种常用的最先进的器官分割方法和我们提出的器官分割方法
为了评价我们在多OAR分割上的定位-分割网络,我们将基于ROI的细粒度表示CNN在DSC和ASD方面与3D-FCN进行了比较。我们的CNN和3D-FCN可以在H&N CT图像中同时分割所有OARs,结果见表VIII和IX。3D-FCN的结果表明,直接使用FCN分割所有的OAR无法产生合理的结果,通过使用建议的定位分割网络,分割性能得到了改善,如表VIII中CNN的结果所示。我们还将我们的多视图空间聚合框架与3D-FCN+形状表示模型(SRM)[16]进行了比较,例如,用形状表示提高3D-FCN分割性能的3D分割网络。我们提出的框架在表VIII和表IX中实现了最佳性能。这证明了定位-分割网络设计和基于ROI的细粒度表示模块在从原始CT图像分割相对较小的OAR (例如视交叉和视神经)方面的有效性,因为可以首先检测器官区域,然后在检测到的区域上分割,从而减少了由背景区域或邻近类似结构引起的混淆。然后,由于使用了多视图空间聚合操作,所提出的框架的结果通常优于单视图的结果。例如,在轴向,矢状和冠状视图中的交叉分割相互补充,并且在空间聚集后分割性能得到显着改善。这可能是因为在冠状和矢状视图中,相对于其他器官的位置视交叉的位置相对稳定 (即,视交叉始终位于垂体腺上方,垂体柄前上方,大脑前动脉后方在矢状图中;视交叉像一条直线,在冠状面上比垂体柄更上方)。此外,由于迭代的自动上下文细化 (鼓励跨切片和平面内的分割一致性),来自先前迭代的器官的高级上下文信息可以帮助细化器官分割,尤其是小器官,例如视交叉,视神经和下颌下腺。
表IX 三种最先进的方法和我们提出的方法之间,从CT图像中对六个靶器官(即脑干、下颌骨、视神经、视交叉、腮腺和颌下腺)的分割的ASD定量比较。(最佳结果以粗体显示)
表 VIII 和 IX 还比较了我们的多器官分割方法与四种器官特异性分割方法的分割性能,其中两种是基于 3D-CNN 的方法 [13]、[15],另外两种是传统方法 [8 ],[31]。 Ren等人在[15]中的方法通过使用基于多图集的分割方法预先确定左/右视神经和交叉的信息区域,并使用迭代自动上下文细化策略在图像块上训练3组3D-CNNs 分别分割左/右视神经和交叉。 与 Ren 等人的方法相比,我们提出的框架在左/右视神经和交叉三个小组织上取得了更好的性能。 Wang 等人在 [13] 中提出了一种基于 3D 的两阶段分割框架来定位每个 OAR 的边界框,并从边界框内的小体积中分割 OAR。 与单独分割每个 OAR 的基于 3D 的框架相比,我们提出的框架是同时分割所有 OAR 的基于 2D 的框架。从表 VIII 中可以看出,与 Wang 等人的方法 [13] 的结果相比,我们提出的框架对所有六个 OAR 的分割都取得了更好的性能,尤其是对交叉、颌下腺和脑干的分割。 Wang 等人在 [8] 中的方法提出了一种基于可变形模型的分层框架,用于联合学习分类器和回归器(类似于 ACM 策略),用于分别分割脑干、下颌骨和腮腺。 Mannion 等人在 [31] 中的方法使用 ACM 分割管道训练了多个主动外观模型 (AAM),用于单独的 OAR 分割。 与这两种传统模型相比,表 VIII 中的结果表明,我们提出的框架的整体性能是最好的。 唯一的例外是下颌骨分割,我们提出的框架具有与 [8] 相当的性能,即 [8] 的平均 DSC 略好(94.4% vs 94.1%),但我们的方法更一致(即标准 0.7 与标准 1.3)。
Results on the Second Dataset
为了显示我们提出的方法的泛化能力,我们进一步与第二个有96个受试者的大型数据集上进行了实验。请注意,我们从96名受试者中随机选择23名受试者进行训练,并使用其余73名受试者进行测试,因为我们的目的是使用较少的训练数据来获得可接受的结果。
为了定量评估分割性能,我们在表 X 中报告了 DSC 和 ASD。如表 X 所示,我们提出的框架在所有 11 个 OAR 中都取得了良好的性能,其中所有 11 个 OAR 的平均 DSC 为 89.4%,平均 ASD 为 1.24 毫米。
表X 我们在第二个数据集中的 11 个 OARS 上提出的框架获得的 DSC 和 ASD 的分割性能(EB=眼球,SC=脊髓,MD=下颌骨,LN=晶状体,ON=视神经,PG=腮腺和 L =左,右=右)
Discussion And Conclusion
我们提出了一种基于多视图空间聚集的多器官分割框架,利用CT图像的三个正交二维视图(即轴向、冠状和矢状)同时分割多个OAR。多视图空间聚合框架中的核心网络是一种新的基于ROI的细粒度表示CNN分割网络,它由器官定位和分割子网络组成,是一种新的基于ROI的细粒度表示。该网络融合了器官定位和分割子网络的学习,减少了分割过程中输入数据中背景区域或相邻相似结构的影响。另一方面,利用基于ROI的细粒度表示来改进各种大小的OAR,特别是小型OAR的分割结果(参见图4和6) 。在多视图空间聚合框架中,利用基于ROI的细粒度表示CNN对CT图像的每个正交二维视图进行处理,得到多个OAR的初始组织概率图。此外,我们将来自初始组织概率图的上下文分割结果作为基于ROI的细粒度表示CNN的输入,以迭代地细化每个图像视图中的组织概率图,从而提高图像切片内和图像切片之间的分割一致性。最后,在最后一次迭代中,利用这三个正交视图对多OAR概率图进行三维空间聚合和集成,得到了该框架的最终分割结果。我们使用两组H&N CT图像对所提出的框架进行了评估,并针对不同大小的OAR获得了具有竞争力且高度鲁棒的分割性能。
尽管我们提出的方法在实验中显示了其有希望的结果,但我们还发现在某些情况下,它可能无法很好地精确分割器官边界。作为一种基于像素的方法,所提出的方法可能在某些特定切片中具有一些分割不足的结果。
今后,我们将从以下三个方面进一步改进我们的方法。首先,在这项工作中,我们通过将先前估计的器官概率图与原始图像集成在一起来训练一组新的分割网络,从而简化了基于自动上下文的迭代细化策略。在我们未来的工作中,我们计划使用递归神经网络将自动上下文细化到深度体系结构中。其次,由于我们在这项工作中处理各种大小的多器官分割问题,因此固定大小的输出器官mask可能会限制性能。因此,我们计划通过使用多尺度输出器官掩膜来进一步研究我们提出的网络,以提高分割性能,无论是在速度还是准确性方面。第三,手动标记的可变性可能会影响所提出方法的结果以及辐射计划。将来,我们计划进行实验,以研究医生 (提供ground truth标签) 与我们的方法之间的划定协议水平的影响,以及它们对辐射计划的临床意义。
标签:ROI,分割,Risk,Multi,视图,Framework,器官,CNN,细粒度 来源: https://blog.csdn.net/Acmer_future_victor/article/details/123542836