首页 > 其他分享> > 【文献阅读】A Region-Based Efficient Network for Accurate Object Detection一种基于区域的高效精确目标检测网络

【文献阅读】A Region-Based Efficient Network for Accurate Object Detection一种基于区域的高效精确目标检测网络

2022-02-28 11:03:32 作者：互联网

0 摘要
针对图像目标检测中对象定位与分类问题，本文提出了一种基于区域的高效网络，用于图像中目标的精确检测。从以下两方面入手：
1.目标区域生成：首先，设计了一个框架来生成高质量的、独立于类别的、准确的候选框。然后，这些候选框，连同它们的输入图像，被输入到网络来学习卷积特征。为了提高检测效率，网络优化模块减少了候选框的数量，只留下少数符合条件的候选区域。
2.目标分类：然后，将提炼后的候选框加载到检测模块中，对目标进行分类。
1 目前存在问题及解决方法
1.1 问题：目前，目标检测系统主要包括两个阶段:在图像中定位目标，并对这些位置进行分类。为了获得理想的检测性能，必须同时改进两个阶段，而不是单阶段优化。目标区域的生成在目标图像中包含感兴趣目标的区域上绘制边界框。该技术仅关注被认为包含所需对象的候选区域，旨在减少求解整个图像中对象之间的逐像素相似性的计算负荷。一个理想的对象区域生成器应该用有限数量的候选框实现高召回率。
1.2 解决方法
1.2.1 方法1：对于两阶段对象检测任务，可以通过Rantalankila的方法（使用全局和局部搜索生成对象分割建议）、测地线对象提议(GOP) 、Rahtu的方法（学习与类别无关的对象检测级联）、图像窗口对象性测量(Objectness) （测量图像窗口的客观性）、二值化赋范梯度(BING) （用于目标估计的二值化赋范梯度）、随机化prim的算法（用随机化prim算法启动对象区域）、选择性搜索（目标识别的选择性搜索）、级联支持向量机(CSVM) （使用两级级联支持向量机的目标区域生成）、学习区域对象(LPO) 、边缘框（边缘框:从边缘定位对象区域）、多尺度组合分组(MCG) 、Endres方法，DeepBox，区域提案网络（RPN），DeepMask，SharpMask和约束参数最小切割（2012至2016年间）。缺点：定位精度低、缺乏评分机制、计算成本高、精度低、类别依赖等。
1.2.2 方法2：深度学习，卷积神经网络（CNN）是物体检测分类阶段的强大框架。最具代表性的CNN包括AlexNet，ResNet，DenseNet，network in network，GoogleNet[28]，VGGNet和其他变体（2016年前后）。这些网络的分类性能已经通过许多正则化方法（Dropout、Batch normalization）进行了优化。缺点：CNN在模型大小，计算成本和内存消耗方面面临限制，并且对于特定的区域生成方法是冗余的和可疑的。
1.2.3 方法3（目前主流）：两阶段（精度高速度慢），CNN (R-CNN) 、空间金字塔池网络(SPPnet) 、Fast R-CNN 、Faster RCNN 、基于区域的全卷积网络(R-FCN) 、Mask R-CNN 和Cascade R-CNN（2015-2018）。一阶段，YOLO 和单次检测器(SSD)（2016-2020）。单级技术比基于区域的CNN更快，但精度较低。
1.2.4 方法4：本文提出了一种基于区域的高效网络，用于自然图像中目标的精确检测。在现有方法的基础上，该方法可以有效地降低目标检测的计算成本，提高检测精度。
2 基于深度学习目标检测方法发展及改进
2.1 两阶段
R-CNN，SPPnet，Fast R-CNN，Fast R-CNN，R-FCN，Mask R-CNN和Cascade R-CNN。这些网络因其在各种检测任务中的卓越性而被广泛认可。但是，这些方法需要大量计算，长时间运行和大磁盘空间。
改进：（2018）《Improving Proposal-Based Object Detection Using Convolutional Context Features：使用卷积上下文特征改进提出的基于对象的检测》，保持较高的检测精度，该模型优于早期的方法，但仅适用于具有不同上下文的类。
（2017）《Study of object detection based on Faster R-CNN：基于更快R-CNN的物体检测研究》，将RPN与Fast R-CNN结合到基于DL的模型中，在物体检测中产生高质量的性能。然而，该模型未能实现高检测精度和速度。
（2019）《 Object detection network based on feature fusion and attention mechanism：基于特征融合和注意机制的对象检测网络》，基于特征融合和注意机制的无锚（AF）R-CNN目标检测模型。该模型比以前的基于区域的方法更准确。然而，它在计算上很复杂，不适合实时物体检测。缓慢的检测速度仍然是该模型的一大挑战。
（2020）《Object Detection Based on Faster R-CNN Algorithm with Skip Pooling and Fusion of Contextual Information：基于快速R-CNN算法的Skip池与上下文信息融合的对象检测》,引入了一种有效的检测模型，该模型保留了基于区域的CNN的遗产。该模型将Skip Pooling与上下文信息而不是RPN集成在一起，从而实现了改进的性能。但它仍然滞后于处理速度。
同样，内外网（ION），Hypernet和在线硬示例挖掘（OHEM）算法（2016年）未能实现良好的真实及时性或高检测精度。这些模型在检测大型数据集方面都没有很好的表现。
**2.2 一阶段，**为了加快检测过程，启动了YOLO和SSD等一阶段算法来预测和分类对象位置。YOLO将目标图像网格化成多个网格，然后执行定位和分类。但是，由于缺乏低级高分辨率信息，它会触发小物体检测。基于特征融合和空间注意的SSD模型。尽管其检测速度很快，但该模型对于大图像的检测是无能为力的:图像大小不影响检测精度，但减慢了检测速度。
改进：（2020）《Mixed YOLOv3-LITE: A lightweight real-time object detection method：混合YOLOv3-LITE:一种轻量级实时目标检测方法》，将YOLO替代品混合到一种新颖的YOLO模型中，可以高效快速地检测物体。但该模型仅适用于非图形处理单元（GPU）设备。
（2016-2019）SSD的变体来提高整体精度。
2.3 在过去的研究中，一阶段或两阶段检测方法都广泛采用锚。传统方法通常产生具有RPN的锚。后来锚点直接分类回归。锚的数量和形状极大地影响了目标检测算法的性能。
（2019）《Region proposal by guided anchoring：通过引导锚定的区域提议》，这种锚从图像特征中导出稀疏的任意形状的数量，并使用这些形状来减少锚的数量并改进它们的形状，同时确保可靠的召回。相比之下，两阶段算法比一阶段算法更慢但更精确。
（2018）《Min-entropy latent model for weakly supervised object
detection：弱监督目标检测的最小熵潜在模型》万等人提出了一个最小熵潜在模型(MELM)的目标定位和分类，并验证了其优于国家的最先进的方法。（2019）《Dissimilarity coefficient based weakly supervised object
detection：基于相异系数的弱监督目标检测》基于相异系数，Arun等人[63]提出了一种能够处理模糊对象位置的概率学习模型，并证明该模型比现有方法更准确。
（2019）《C-mil: Continuation multiple instance learning for
weakly supervised object detection：C-mil:用于弱监督目标检测的连续多示例学习》，该模型通过一系列平滑的损失函数来解决非凸性问题，并证明了该模型良好的整体性能以及在定位方面的优势。
（2019）《Cyclic guidance for weakly supervised joint detection
and segmentation：弱监督联合检测和分割的循环引导》基于语义分割，沈等人提出了一种具有多任务学习机制的对象检测模型，并观察到该模型获得了与其他替代方案相竞争的结果。
（2019）《Towards precise end-to-end weakly supervised object detection network：走向精确的端到端弱监督目标检测网络》，图像对象定位模型，与早期的方法不同，它不受局部最小陷阱的影响。该模型在单个网络中结合了学习和包围盒回归的多个实例，解决了缺少实例级类标签的问题。
（2018）《PCL: Proposal cluster learning for weakly supervised object detection：PCL:用于弱监督目标检测的建议聚类学习》基于提议聚类学习的对象检测模型。该模型显著提高了检测性能，但是不能在变形的非刚性物体上工作。
以上大部分方法纯粹依赖于图像级标签。与其他候选框生成方法相比，这些方法没有边界框标签。这极大地限制了这些方法的定位能力。

3 本文方法
本文提出了一个有用的图像目标检测模型。图1展示了我们模型的功能模块。该模型的不同阶段将在以下小节中讨论，包括对象候选框生成，以及候选框细化和分类。
在这里插入图片描述
3.1 对象候选框生成
第一阶段是生成一些高质量的，独立于类的候选框。先前的研究表明，一小组候选框可以极大地提高对象检测的性能。但现有策略不足以产生数量有限的高质量候选框。
为了解决这个问题，本文首先将目标图像分割成一组初始区域，因为分割可以提高目标检测的效果。与具有丰富信息的像素区域相比，从基于区域的特征中提取对象候选框是一个好主意。这里，初始区域集是通过使用由Felzenszwalb和Huttenlocher提出的图形生成方法分割图像而获得的（Efficient graph-based image segmentation：高效的基于图的图像分割）。这样获得的每个区域被认为是一个簇。基于区域相似性，通过基于聚类的分层策略自下而上对相邻区域进行分组。首先，计算相邻区域之间的相似度，用于将最相似的区域合并为一个区域。然后，计算合并区域之间的相似性，并用于将最相似的区域合并成一个区域。重复执行合并相似区域的过程，直到所有相似区域已经被融合成单个区域以形成图像。
为了获得尽可能多的候选框，使用基于不同颜色空间、改变初始区域和区域相似性创建的聚类技术使区域搜索多样化。将获得的区域分组，并移除相同的区域。此时，分组后获得的区域被称为候选框(图2)。
在这里插入图片描述
接下来的任务是对获得的候选框进行评分和排名。为了实现这一目标，采用结构边缘检测器从原始图像中提取边缘。之后，基于边缘与相邻边缘的方向相似性来连接边缘。方向差之和大于π/2的八个相邻边被组合成一个边组。此外，根据它们的平均位置和方向，计算相邻组之间的亲和力。为了提高计算效果，仅重新训练高于阈值0.05的亲和力。根据边缘组及其相似性，每个候选框的得分计算如下:
对于每个组，根据一组边Si是否包含在候选边界框b中来计算连续值wb(Si)。如果Si没有完全包含在b中，则wb(Si)=0。Si是否完全包含在b中可以由下式判断:
在这里插入图片描述

其中，t是边组的有序路径；|T|是路径T的长度；a是在没有t的情况下两个边组之间的亲和度。该路径始于t1∈ Sb，止于t|T|=Si。如果T不存在，wb(Si)等于1。基于由公式(1)获得的值，得分函数可以建立为:
在这里插入图片描述
其中，bw和bh分别是box的宽度和高度；k是big boxes的偏差。最后，根据公式(2)计算的分数对获得的候选框进行排序，并将其导入主干网络进行候选框提炼和分类。

3.2 候选框细化和分类
目标检测系统希望得到最少数量的高质量候选框。因此，采用了一个候选框提炼系统来提炼前一阶段获得的候选框，为分类奠定基础。在我们的总体设计中，我们的检测器的候选框细化部分和建议分类部分共享卷积特征以实现稳健的性能。
我们的系统是从基线网络EfficientNet-B0扩展而来的EfficientNet-B7，使用复合扩展机制。该网络比其他竞争对手需要更少的计算成本和电池使用。采用EfficientNet是因为它在分类准确性和效率方面优于以前的网络(表1)。该网络由Google团队于2019年提出，是一种新颖的骨干DL架构。规模越大，分类精度越好。如表1所示，EfficientNet-B7在ImageNet和CIFAR-100数据集上分别实现了84.3 %和91.7%的准确率，使用的参数比其他网络少得多。在这里插入图片描述
基线网络EfficientNet-B0由1个卷积层、7个移动反向瓶颈(mobile inverted bottleneck，MBConv)模块、1个平均池层和1个全连接层组成。MBConv是 EfficientNet的主要构建模块，除Swish激活功能外，还增加了挤压和激励模块（squeeze-and-excitation block ）。每个MBConv模块都有不同的设置:第一个MBConv模块有一个单层，内核大小为33，有16个输出通道；第二个MBConv模块有两层，每层的内核大小为33，有24个输出通道；第三个MBConv模块有两层，每层的内核大小为55，有40个输出通道；第四个MBConv模块有三层，每层的内核大小为33，有80个输出通道；第五个MBConv模块有三层，每层的内核大小为33，有112个输出通道；第六个MBConv模块有四层，每层都有大小为55的内核和192个输出通道；第七个也是最后一个MBConv模块为单层，内核大小为33，具有320个输出通道。
需要注意的是，为了对候选框进行细化和分类，最后一个MBConv模块之后的网络通过添加两个分支进行了修改。修改后的模型接收在第一阶段生成的候选框和相应的自然图像。然后，输入图像通过第一到第十五层。为了减少计算成本和时间，采用刘等人开发的候选框精化网络作为精化分支（Refinedbox:为更少、更高质量的对象候选框进行提炼。2020），其适用于外部设置。细化网络添加在最后一个MBConv模块之后，包括两个细化卷积层，其核大小分别为33和5*5。这一增加将前一层的通道数量从320个减少到128个，标志着我们的候选框改进的起点。

接下来，引入了校正线性单元(ReLU)层。之后，添加感兴趣区域(ROI)池层来对每个初始盒子区域进行下采样，产生大小55.的特征图。下采样将输入特征图网格化为宽度和高度相等的各种网格。然后，在每个网格上执行最大池化。随后，另一个全连接层加上一个ReLU层，只输出1024个神经元。此外，由全连接层组成的排序分支被安排来重新计算每个候选框的分数。这个排序分支有两个输出神经元，它们象征着一个对象存在的可能性。同时，box regression的另一个分支(也是全连接层)被部署来捕获初始候选框的位置偏移，并预测box regression值。在网络训练期间，一个二进制类标签也被分配给每个初始候选框，以检查它是否是一个对象。损失函数可以定义为:

其中，p是softmax函数基于全连接层的两个输出计算的值；u是当前盒子的标签。此外，坐标偏移由盒回归层学习。坐标可以参数化为:
其中，x和y是候选框的中心坐标；h和w是候选框的高度和宽度；x、xin和x分别是候选框的预测横坐标、输入横坐标和实际横坐标；与y、h和w相关的参数定义类似；v是回归目标；t是预测的元组。因此，盒回归损失可以描述为:
在这里插入图片描述其中，平滑L1(x)是回归损失函数。因此，联合损失函数可以定义为:

其中，λ=1是平衡参数。
3.3 参数设置
在我们的实验中，提出的模型分别在PASCAL视觉对象类挑战赛2007 (VOC2007)的trainval和测试集上进行训练和测试。使用Adam优化器执行网络训练。从目标图像来看，每个Adam小批量产生128个盒子，作为训练样本。来自每批的128个训练样本被均等地分成正样本和负样本:与基础事实盒的重叠值> 0.7的盒被认为是正样本，而重叠值在[0.1，0.5]中的那些被认为是负样本。实验总共持续了32次迭代。通过将所有32次迭代的学习率固定在0.0001，对模型层进行微调。为了训练我们的模型的检测模块，在每个小批量中为每个图像生成256个对象候选框。在Fast-RCNN中，与基础事实框重叠值为0.5的候选框被视为正样本，即正样本占候选框的25%。同时，重叠值在[0.1，0.5]中的那些被认为是负样本。此外，前1500个候选框被选择用于模型训练，在所有迭代中具有固定的学习率(0.0001)。模型测试是在每幅图像的前100个候选框上进行的，这比以前的方法所需的候选框少得多。
4 评估和结果
我们的模型的有效性在PSCAL VOC2007数据集上进行评估，该数据集是对象检测领域中最流行的基准。该数据集包含9，963幅图像，对象分为20类。这里，数据集被分成2501个图像的训练集、2510个图像的验证集和4952个图像的测试集。这些图像连同它们的边界框标签被分成这些集合。通过诸如平均最佳重叠(MABO)、检测召回(DR)和平均精度(mAP)的度量来评估整体检测性能。选择MABO和DR测量定位精度；选择mAP来评估检测准确度。为了验证该方法的优越性和鲁棒性，采用了大量的先进方法作为对比方案。在这里插入图片描述

与以前的方法相比，我们的模型实现了更高的检测召回率，并且在面对不同数量的候选框时在两个IoU阈值上表现良好。尽管IoU阈值和候选框数量发生了变化，但我们的模型仍然表现强劲。对于100、300、500和1，000个候选框，我们的模型在IoU=0.5时分别实现了92.8%、93.6%、93.9%和94.5%的召回值，在IoU=0.7时分别实现了77.7%、79.6%、82.7%和86.1%的召回值。良好的性能是整个网络共享卷积特性的结果。尽管产生了高质量的候选框，但是由于候选框的数量有限，许多最先进的方法未能实现高召回率。一些相对有竞争力的方法不能达到高召回率，因为这些候选框是松散的。没有一种对比方法在任一IoU阈值下实现稳健的性能。此外，在IoU=0.5时，我们的模型对每幅图像仅100个候选框实现了92.8%的召回率。RPN使用每幅图像1000个候选框实现了相同的召回。我们的模型可以用几个候选框实现高召回率，因为它的候选框是高度多样化的。总的来说，我们的方法在一些候选框上有很好的性能，在许多候选框上有可接受的性能。相反，以前的方法被我们的方法所超越，无论有许多或几个候选框。因此，由于目标候选框的高质量和精细化，本文提出了比现有方法更精确的方法。
在这里插入图片描述

本文提出了一种有效的图像对象检测模型，为对象检测器家族增加了一个简单而引人注目的工具。我们的模型首先生成一些高质量的、独立于类的、精确的对象候选框。然后，基于这些候选框有效地确定每个对象的类别。此外，卷积特性在整个网络中共享，以保持良好的召回率和准确性。这在以前的方法中被认为是一个缺点，因为太多的候选框会妨碍检测效率。通过有效的提议生成和提炼，我们的模型可以实现对真实对象的高召回率，这有助于提议的准确识别和对象的检测。
未来的研究将通过在更高的IoU阈值下产生更多的候选框并选择尽可能多的真实候选框来扩展我们的模型到弱监督对象检测。通过挖掘有区别的硬否定（hard negatives）可以使训练过程更有效。此外，作者打算学习和应用我们的模型在不同的领域。

标签：候选框,Based,Network,Efficient,检测,模型,区域,图像,CNN
来源： https://blog.csdn.net/a1939224213/article/details/123160777