其他分享
首页 > 其他分享> > DDBNet:Anchor-free新训练方法,边粒度IoU计算以及更准确的正负样本 | ECCV 2020

DDBNet:Anchor-free新训练方法,边粒度IoU计算以及更准确的正负样本 | ECCV 2020

作者:互联网

论文针对当前anchor-free目标检测算法的问题提出了DDBNet,该算法对预测框进行更准确地评估,包括正负样本以及IoU的判断。DDBNet的创新点主要在于box分解和重组模块(D&R)和语义一致性模块,分别用于解决中心关键点的回归不准问题以及中心关键点与目标语义不一致问题。从实验来看,DDBNet达到了SOTA,整篇论文可圈可点,但里面的细节还需要等源码公开才知道

来源:晓飞的算法工程笔记 公众号

论文: Dive Deeper Into Box for Object Detection

Introduction


  目前,越来越多的目标检测算法采用anchor-free的策略,尽管性能有一定的提升,但anchor-free方法依然会有准确率约束,主要由于当前bbox的回归方法。这里,论文列举了两个当前anchor-free方法存在的问题:

  为了解决上面的两个问题,论文提出了新的目标检测算法DDBNet,包含box分解/组合模块以及语义一致模块,分别用于解决中心关键点的回归不准问题以及中心关键点与目标的语义不一致问题,结果如图2中的实线框。论文的主要贡献如下:

Our Approach


  DDBNet基于FCOS搭建,如图3所示,创新点主要在于box分解和重组模块(D&R, decomposition and recombination)和语义一致性模块(semantic consistency):

Box Decomposition and Recombination

  给定目标$I$,$I$中的每个像素$i$都回归一个预测框$p_i={l_i, t_i, r_i, b_i}$,预测框的合集为$B_{I}={p_0, p_1, \cdots, p_n}$,4个元素分别为点到左边、上边、右边和下边的距离。常规情况下,IoU回归损失定义为:

  $N_{pos}$为所有目标区域的像素数量,$p^{*}_{I}$为回归目标,而D&R模块的目的是通过IoU损失进行优化,预测更准确的$p_i$。

  如图4所示,D&R模块基于IoU,包含四个步骤:

  在模型训练时,通过IoU损失进行边界预测的优化,损失函数包含两部分:

  对于目标$I$,每条边用其较高的分数进行回传梯度的计算,这里看完会有点疑问,例如$S^{'}I > S{I}$是怎么对比的,原预测框的边界可能组合成了不同的新预测框。相对于原来的公式1,公式2则是以目标的角度进行优化(instance-wise fashion),综合考虑目标相关的box,也就是考虑了目标的上下文信息,而公式1是以box的角度进行优化(local-wise fashion),仅考虑每个box的局部信息。

Semantic Consistency Module

  D&R模块的性能取决于使用了目标中的哪些像素作为正样本,目前的方法大都直接选择固定的中心区域像素作为正样本,而论文提出了自适应的语义一致性判断方法,能够帮助网络学习准确的像素标签空间,可公式化为:

  $R_I$为目标$I$的像素对应的预测框与GT的IoU分数合集,$\overline{R_I}$为$R_I$的平均IoU分数,$\overline{R_{I\downarrow}}$为低于平均IoU分数的像素,$\overline{R_{I\uparrow}}$为高于平均IoU分数的像素。$c_i \in C_I$为$i$像素中分数最高的类别,$g$为总类别数,$\overline{C_I\downarrow}$为低于平均分类分数像素,$\overline{C_I\uparrow}$为低于平均分类分数像素,这里的判断是类不可知的。

  根据公式3将像素归为正负样本,如图5所示,如果一个像素可归于多个目标,一般选择最小的目标。在自动地根据语义一致性对像素进行标签后,论文将每个正样本像素的内在重要性(inner significance)加入到网络训练中,用来提升语义一致性的学习,类似于FCOS的centerness。内在重要性由像素预测框与GT的IoU进行衡量,在网络中添加一个额外的语义一致性分支进行预测与学习,损失函数定义为:

  $r_i$为预测结果。至此,DDBNet的完整损失函数定义为:

Experiments


  在COCO数据集上与其它方法进行对比。

  两个模块的对比实验。

CONCLUSION


  论文针对当前anchor-free目标检测算法的问题提出了DDBNet,该算法对预测框进行更准确地评估,包括正负样本以及IoU的判断。DDBNet的创新点主要在于box分解和重组模块(D&R)和语义一致性模块,分别用于解决中心关键点的回归不准问题以及中心关键点与目标语义不一致问题。从实验来看,DDBNet达到了SOTA,整篇论文可圈可点,但里面的细节还需要等源码公开才知道。



如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

标签:预测,ECCV,IoU,语义,像素,目标,Anchor,DDBNet
来源: https://www.cnblogs.com/VincentLee/p/14029568.html