首页 > 其他分享> > 2021-03-30

2021-03-30

2021-03-30 22:31:59 作者：互联网

Dual Refinement underwater object Detection Network

摘要

由于复杂的水下环境，水下成像经常会遇到一些问题，例如模糊，缩放比例变化，颜色偏移和纹理失真。当我们直接在水下场景中使用通用检测算法时，它们不能很好地工作。为了解决这些问题，我们提出了一种具有特征增强和锚点细化的水下检测框架。它具有复合连接主干以增强特征表示，并引入了接收场增强模块以利用多尺度上下文特征。所开发的水下物体检测框架还根据六个预测层提供了一种预测细化方案，它可以通过学习偏移量来细化多尺度特征以更好地与锚对齐，从而在一定程度上解决了样本不平衡的问题。我们还构建了一个新的水下检测数据集，称为UWD，该数据集具有10,000多个训练周期并测试水下图像。在PASCAL VOC和UWD上进行的广泛实验证明，在准确性和鲁棒性方面，拟议的水下检测框架相对于最新方法具有良好的性能。
**关键词：**水下物体检测，特征增强，锚点细化，水下数据集
1、Introduction
目前，水下机器人被用于许多领域，例如水下目标捕获，水下调查和水下搜索。作为水下机器人的关键技术，水下物体检测仍然面临严峻挑战（例如，模糊，纹理失真，照明不平衡等）。上述问题限制了水下机器人目标检测的发展。
在这里插入图片描述
近年来，基于卷积神经网络（CNN）[30]的通用目标检测在目标检测研究中占据主导地位。主流物体检测器可分为两类：（1）一级物体检测器和（2）二级物体检测器。一阶段物体检测器可以通过匹配大量先验盒来直接定位物体，这些先验盒以不同的比例和比率在输入图像上进行密集采样。这种方法在效率上有很强的优势，但是准确性通常很低。相比之下，两阶段检测器可以通过首先生成对象建议，然后进一步计算分类分数和回归边界框来获得更准确的结果。在这项工作中，我们将重点放在一个阶段的对象检测框架上。
为了处理一些实时物体检测任务，已经引入了多种单阶段物体检测方法。在这些方法中，单发多盒检测器（SSD）因其出色的性能和高速度而受到欢迎。标准的SSD框架使用VGG16 [27]作为主干，并在其末尾添加了一系列额外的层。这些附加层和几个以前的卷积层用于预测对象。由于使用了金字塔结构，每个预测层在标准SSD中以特定比例进行独立的预测。 SSD具有很高的检测效率，但其准确度性能仍落后于现代两级检测器。
在我们的研究中，我们发现，当许多高级通用对象检测框架直接应用于水下任务时，它们几乎无法保持高精度和鲁棒性。例如，Faster-RCNN受CNN规模不变性的影响。在水下很难解决水垢变化的问题。由于区域建议网络（RPN）的存在，几乎无法满足实时性要求。 SSD 可以高速检测，但是会存在缺少对水下小而模糊物体的检测的问题。尽管通用物体检测器遇到了一些问题，但它们仍为水下场景中的检测研究提供了启发。大多数方法采用自顶向下的金字塔表示，该表示将高级语义信息注入到高分辨率特征图中以解决缩放问题。为了处理遮挡问题，称为Mix up 的数据增强方法变得很流行。该方法可以在训练阶段模拟遮挡样本，从而增强模型区分遮挡物体的能力。在这项工作中，我们致力于改进通用的一阶段目标检测算法，使其适合水下检测任务。
基于以上工作，我们提出了一种称为FERNet的单阶段水下物体检测算法。我们的贡献主要如下：
–为处理水下数据集中的模糊和纹理变形问题，我们引入了复合连接主干（CCB）来增强特征表示，而不是寻找全新的更深层次的主干。
–为解决尺度变化和样本不平衡的问题，我们引入了接收场增强模块（RFAM）来丰富多尺度上下文特征，并提供预测细化方案（PRS）以使特征与锚点对齐。
–我们已经从Internet上收集并整合了大量相关图像，然后形成了一个全新的Underwater数据集。
综上所述，我们整合并扩展了现有的水下数据集。在该算法中，我们连接了两个经过预训练的主干，以增强特征提取功能。自上而下的金字塔结构和感受野增强模块的结合可以将多尺度语义特征注入网络。我们还介绍了RFAM以丰富多尺度上下文特征。最后，PRS首先执行二进制分类以区分背景，然后进行初步定位。然后，完善先前的结果以获得最终的分类分数和边界框回归。
2 Related Work
一阶段物体检测。当前主流的一级检测器大多遵循基于YOLO 或SSD的工作。 YOLO直接使用前向卷积网络来预测密集特征图上的对象类别和位置。这是实现端到端检测的第一项工作。在此基础上，后续行动有很多进展。与YOLO不同，SSD将锚点和密集的多尺度特征图引入到一级对象检测器中。它使用金字塔层次结构进行预测。通过这种结构，可以将浅层纹理信息和深层语义信息结合起来，使网络获得更强的表示能力。同时，密集的锚框也带来了大量容易获得的背景样本限制了一级目标检测器的准确性。为了解决这个问题，RetinaNet 利用一种叫做Focal Loss的新颖性损失函数来权衡简单样本的贡献，并使网络专注于困难样本。 RefineDet提出了一种级联预测方法，以预先去除背景锚，然后细化锚以提高检测性能。 FCOS 使用免锚方法，从根本上避免了密集锚的影响。
水下检测及其挑战。水下物体检测通常是通过声纳，激光和照相机来实现的。声纳对物体的几何信息很敏感，但只能显示扫描点之间的距离差异。它总是忽略其他因素（例如视觉特征）。激光可以提供高性能以准确地对水下物体建模，但价格太昂贵。相比之下，该相机价格低廉，并且可以以高的时间和空间分辨率捕获更多类型的视觉信息。可以通过颜色，纹理和轮廓视觉特征来识别某些突出的对象。随着计算机视觉和水下机器人的发展，基于视觉的水下物体检测变得越来越流行。
水下摄像机获得的图像通常存在诸如对比度低，纹理失真和照明不均匀之类的问题。此外，受生活习惯的影响，水下生物密集分布且大小各异。摄像机的采集将遇到严重的遮挡和比例变化问题，这对具有比例不变性的CNN构成了挑战。处理这些问题。吕等人提出了一种弱监督的目标检测方法，该方法通过先弱拟合前景-背景分割网络并改进建议的策略来提高准确性。通过这种方法已经实现了相当高的精度，但是由于深度特征提取网络的原因，难以实现实时性能。 Lin等改进了Faster-RCNN，并提出了一种称为Roimix的增强策略，以在训练阶段模拟重叠和遮挡的对象。该方法使模型具有更强的泛化能力，并提高了遮挡场景的准确性。但是，这种数据增强策略在一级检测器上的性能受到限制。与上述研究不同，我们希望通过结构方法来改进一级水下探测器。
锚点细化的方法。传统的一级检测器的精度通常不如二级检测器。主要原因是两级检测器对初始锚点进行了微调，但是在一级检测器中省略了此过程。因此，大量的锚造成了锚不平衡的问题。为了解决这个问题，RefineDet 使用两阶段回归来获得更精确的结果。它通过第一次分类过滤掉大量的负锚，以便可以平衡正样本和负样本，然后基于第一次回归对锚进行细化，以获得更准确的结果。尽管RefineDet可以执行多个阶段的回归和分类，但是不同阶段的功能是相同的。实际上，在第一次回归之后，锚点已经发生了变化，并且后续操作应更多地依赖于更新的锚点。因此，AlignDet 通过可变形卷积网络（DCN）了解回归前后的偏移，从而在一定程度上解决了特征未对准的问题。 Reppoints 使用弱监督来定位关键点并预测其偏移量，该点用作DCN的偏移量以卷积原始特征图，从而使特征与对象区域对齐。在这里插入图片描述
3 method
我们改进的水下物体检测算法基于标准的SSD结构，它由以下组件组成（见图2）：（1）复合连接主干（CCB）；（2）感受野增强模块（RFAM）；（3）预测优化方案（PRS）。复合连接骨干网结合了两个常见的骨干网。为了减少寻找新的强大骨干网的时间成本，我们通过一种新的复合连接方式来构成两个现有的骨干网，以最大程度地发挥它们的潜力。强大的组合特征提取网络具有较强的表示水下物体详细特征的能力，主要处理水下模糊问题。 RFAM用于处理提取的信息。通过RFAM，各个内核可以以不同的扩展速率来增加接收场，并且更好地扩展了多尺度上下文特征，这使得预测所涉及的信息更具区分性。我们的预测细化方案用于执行回归和预测锚的分类操作。该方案可以完善锚点和特征。在此步骤中，PRS可以粗略区分前景和背景，给出整体位置，然后细化锚点以获得最终的改善结果。
在这里插入图片描述
在整体架构中可以看到，我们利用复合连接的新结构来替换原始标准SSD中的VGG16，输入图像大小为300×300。在主干之后，RFAM散布在标准SSD的额外层之间。在PRS中，我们使用DCN校正第一次分类和回归之后的锚点偏移，DCN的输出指导第二次分类和回归，最后输出更准确的结果。
3.1 Composite Connection Backbone
水下数据集存在严重的模糊和纹理变形问题。这些问题通常使某些网络难以提取关键特征信息并影响分类器的辨别能力。为此，迫切需要具有更强大表示能力的特征提取网络。我们首先排除使用更深的特征提取主干，因为这会减慢一级检测器的速度，但是重新设计新的有效结构既困难又耗时。因此，我们探索了不同主干的提取特征之间的关系。受CBNet 的启发，我们结合了现有的特征骨干网，并获得了比单个骨干网更高的性能。
所提出的复合连接主干网如图3所示。整个新主干分为两部分：主导主干和辅助主干。主导骨干仍然使用标准的VGG16结构，我们使用ResNet50结构作为辅助主干。我们提出的方法是用这两个基本骨干的复合连接形式替换原始骨干网。在助理主干网中，每个阶段的结果都可以视为更高级别的功能。每个功能级别的输出都是主要骨干网输入的一部分，并流向后续骨干网的并行阶段。这样，将多个高级和低级特征融合在一起以生成更丰富的特征表示。此过程可以表示为：
在这里插入图片描述
其中⊕是特征融合的过程，F1表示当前阶段主干骨干的输出特征，Fa表示辅助骨干的输出特征，我们用Fout表示特征融合的结果，FOUT用作输入潜在客户骨干中下一层的价值。从Fout到FOUT的过程需要进行通道调整。如等式2所示，ε作为1×1的卷积运算。从理论上讲，我们可以在骨干网的每一层使用这种复合连接方法，而我们的实验仅使用一种最基本，最有用的复合连接方法。实际上，可以将主干主干网和辅助主干网之间的连接设计得更加复杂。我们还可以在引导主干和辅助主干上选择不同大小的要素图层，并为组合连接双线性插值至相同大小。这表明我们的复合连接方法不受功能部件大小的限制。为了简化操作，我们在引线主干上选择了150×150、75×75和38×38特征层，这对应于ResNet50的三层输出。
3.2 Receptive Field Augmentation Module
图4显示了我们介绍的感受野增强模块，它再现了RFB的工作[17]。为了模仿ResNext [32]和Inception结构[28]的设计思想，RFAM具有多个分支结构。首先，结构的多个分支并行处理输入数据。每个分支由1×1卷积和其他几个具有不同内核大小的简单卷积组成，最后，每个分支形成类似于瓶颈的结构。每个分支的卷积核大小略有变化，这有利于捕获多尺度上下文信息。为了扩展接收场，我们使用具有不同扩张率的扩张卷积[34]来增强多尺度特征，然后融合多个分支的特征，之后，我们使用1×1卷积来调整通道大小。最后，我们还使用快捷连接方法模拟残差结构，对输入和特征融合结果进行加权，然后通过ReLU获得最终输出。为了适应各种情况，我们提出了两种RFAM结构，即RFAM和RFAM PRO。 RFAM PRO比RFAM具有更多的分支，并使用许多小型卷积内核，这对小物体检测是友好的。
在这里插入图片描述
RFAM PRO用两个叠加的3×3卷积代替了5×5卷积。这可以减少参数的数量以降低计算复杂度，并增加模型的非线性。此外，我们用1×3卷积和3×1卷积替换了原来的3×3卷积。整个过程可以用等式3表示：

这里Xin表示输入特征，Br1，Br2和Br3表示三个分支的输出，⊕是特征融合的操作。我们用来表示通过1×1卷积调整通道数的过程，scale的值是捷径中线性运算的权重，这里取0.1。 ⊗表示逐元素相加，最后，τ是ReLU的激活函数。
3.3 Prediction Refinement Scheme
我们的预测细化方案主要包括两个步骤：预处理和细化。如图2所示，此过程使用两步处理来完善对对象位置和大小的预测，这对于具有挑战性的水下场景特别是小型对象非常有用。预测细化方案主要在预处理阶段进行初始二进制分类和回归，然后细化模块根据预处理结果获得最终结果。主要过程将在下面详细说明。与RefineDet [36]不同，我们的预测细化方案使用六个特征预测层进行细化。此外，PRS可以通过设计的注意力机制来聚合重要特征，并可以通过从偏移量中学习来完善锚点。我们将在以后的实验中证实我们结构的优势。
预处理：在预处理阶段，首先处理由接收场增强模块（RFAM）和额外层获得的预测值。在图2中，从复合连接主干的最后一层conv4 3开始，向下采样通过标准SSD和RFAM的其他层，以达到预测层所需的大小。特殊的是conv4 3之后是RFAM PRO，以增强对小物体的浅层特征的检测能力。我们认为，将RFAM PRO添加到大规模特征图可以充分提取高分辨率特征图的语义信息，因此对高分辨率特征图进行操作有利于水下小物体的检测。最后，对六个增强特征层的信息执行二进制分类和框回归。首先过滤明显的背景，以准备优化模块。输出C1x用于区分前景和背景。 R1x包含四个重要值，用于定位锚点。
改进：在此阶段，我们沿通道轴对预处理结果C1x执行最大池化操作，然后执行Sigmoid函数以获得更好的特征。此过程的结果记录为S1x。通过最大池化和Sigmoid操作获得的S1x可以突出显示对象的位置，该位置用于增强六个预测层的结果Xout。 S1x和Xout逐个元素相乘，然后加到Xout中。结果记录为Xend。一般来说，我们用注意力机制模块替换了RefineDet的TCB模块，从而使网络更加关注对象本身。此过程可以由等式4表示：
到DCN以对齐特征。优化阶段可以达到最佳效果。
其中，是逐元素相乘，⊗表示逐元素相加，Xend表示现有前景位置信息的增强量。在先前的R1x回归中，获得了四个输出值：4x，4y，4h和4w。前两个值（4x，4y）表示锚点中心点的空间偏移，后两个值（4h，4w）表示尺寸的偏移。为了对齐要素，我们通过DCN微调锚框架。具体来说，我们在位置偏移层中计算内核偏移量分别为4x和4y，并与Xend结合作为DCN的输入。我们还在可变形卷积中使用膨胀卷积来增强上下文的语义相关性。关于优化阶段的分类和回归，C2x不再简单地执行二进制分类，而是执行多个分类任务。我们通过DCN的输出获得最终的定位结果R2x。
总体而言，为了获得更细粒度的定位结果，我们采用了类似于RefineDet的策略。我们将DCN应用于此过程，并将预处理阶段的结果用于计算特征偏移量，然后发送到DCN以对齐特征，优化阶段可以达到最佳效果。

标签：03,特征,检测,检测器,30,卷积,2021,RFAM,水下
来源： https://blog.csdn.net/yaopanla/article/details/115336885