其他分享
首页 > 其他分享> > 论文阅读|一阶段的目标检测器EfficientDet

论文阅读|一阶段的目标检测器EfficientDet

作者:互联网

目录

论文相关信息

1.论文题目:EfficientDet: Scalable and Efficient Object Detection

2.发表时间:201911

3.文献地址:https://arxiv.org/abs/1911.09070

4.论文源码:https://github.com/google/automl/tree/master/efficientdet

介绍

当前先进的模型大多聚焦于精度提高,但是其模型往往太大且计算量很大,使得模型无法部署到一些硬件条件较差的设备上,如机器人和无人车等。尽管已经有one-stage的anchor-free 的检测器能够提高模型的效率,但是往往这些都是通过牺牲精度换取效率,模型还都只是聚焦于某个特定的或很小范围的资源条件下的,无法适应不同资源条件的设备。

于是本文提出要构建一个具有高精度和高效率的可缩放的检测架构,能够适应一个较大范围的资源限制。论文系统的学习了检测器架构的各种设计选择,在评估骨干网、特征融合、以及head(class/box) network之后提出当前存在的两大挑战:

挑战1:高效的多尺度融合。 以往的特征融合网络结构如FPN、PANet、NAS-FPN等在融合不同的输入特征时,往往只是对这些特征图进行无差别地简单相加,然而不同的输入特征图有不同的分辨率,它们对最终融合的贡献也是不等的。因此,作者提出一种简单高效的weighted bi-directional feature pyramid network (BiFPN)(加权双向特征金字塔网络),该网络引入了可学习的权重来学习不同输入特征图的重要性,同时重复的应用自上而下和自下而上的多尺度特征融合 。

挑战2:模型的缩放。之前的网络通过更大的骨干网和更大的输入图片尺寸来获得更高的精度,而本文观察到通过缩放特征网络和头部预测网络对于精度和效率的提高也是很关键的,于是提出一种混合缩放方法(compound scaling)来缩放目标检测器,能够关联的缩放backbone、neck、head三部分网络的分辨率/深度/宽度。

最终,基于这些优化(BiFPN 和compound scaling)以及更好的backbone(EfficientNets),得到了一个新的one-stage目标检测器家族——EfficientDet,它能够适应不同的资源限制条件,在比较少的参数和浮点运算(FLOPs)条件下取得比以往检测器更高的检测精度。其中Efficient-D7在单个模型和单个测试尺度下,在COCO数据集上得到的SOTA的表现,且只有77M参数和410B FLOPs,可见下图。只要少许的修改,模型就能够应用到实例分割上且性能很好。
在这里插入图片描述

Related Work

One-Stage Detectors: 检测器根据是否有个步骤提出感兴趣区域可划分为two-stage和one-stage。two-stage往往精度更高,one-stage在基于预定义号的anchor下更具简单些和高效性。本文的EfficientDet属于one-stage,通过优化网络架构实现了更好的效率和更高的精度。

Multi-Scale Feature Representations: 目标检测的一个主要难题是高效的表示和处理多尺度特征。FPN提出了top-down的连接方式来实现特征融合,随后PANet继承该思想增加了down-top的连接来聚合特征。STDL提出了一个尺度变换模块来探索跨尺度特征。M2det提出U型模块融合特征。然后最近的与讴歌NAS-FPN提出neural architecture search(神经结构搜索)来自动的设计特征网络(neck network)的拓扑结构,虽然该方法能够获得更好的性能,但是其计算量太大,且最终网络不规则缺少解释性。

Model Scaling: EfficientNets关联的缩放网络的宽度、深度、分辨率显著提高了图像分类的效率,本文提出的目标检测器的混合缩放方法主要是受该方法启示。

BiFPN

连接方式

本节首先分析当前多尺度特征融合存在的问题,然后介绍BiFPN的主要思想:高效的双向跨尺度连接和加权特征融合。下图是四个多尺度特征融合网络的示意图。

在这里插入图片描述

PANet比FPN和NAS-FPN的精度更高,但是其有更多参数和更大的计算量,因此成本更大。为了提高效率,本文提出了针对PANet的几种优化策略:

一、移除只有一个输入的节点。动机是认为一个节点只有一个输入而没有融合,那么它对融合不同尺度的特征作用不大。

二、对于在同一层的原始输入节点和最终输出节点上加一个连接,这样能够融合更多特征但是又不增加过多的成本。

三、把每一个双向的路径视作一个特征网络层(如上图中d的虚线框部分),然后重复同样的层多次来实现高水平的特征融合。使用混合缩放方法来决定对于特定的资源条件下该层重复多少次。

Weighted Feature Fusion

不同分辨率的特征图对融合的输出特征图的贡献是不等的,因此,应该给每一个输入特征图加上一个可学习的权重,让网络来学习不同特征图的重要性。有以下的三种加权方式:

Unbounded fusion(无限融合): O =\sum_iw_i· I_i ,其中w_i 是可学习的权重,可以是一个标量(针对每个特征图),也可是一个向量(针对特征图每个通道),还可以是一个多维的张量(针对每个像素)。我们要寻找一个合适的权重比例使其能达到和其他方法相差不多的精度。但是由于权重是无线的,可能会造成不稳定, 因此需要使用权重归一化来限制每个权重的值。

Softmax-based fusion(基于Softmax的融合)

标签:缩放,EfficientDet,检测器,论文,融合,网络,特征,BiFPN
来源: https://blog.csdn.net/yanghao201607030101/article/details/112040712