其他分享
首页 > 其他分享> > 图像分类相关资料整理 2

图像分类相关资料整理 2

作者:互联网

四、ResNet

论文:《Deep Residual Learning for Image Recognition》

https://arxiv.org/pdf/1512.03385.pdf

ResNet在2015年由微软实验室提出,斩获当年ImageNet竞赛中分类任务第一名,目标检测第一名。获得COCO数据集中目标检测第一名,图像分割第一名。

网络中的亮点:

1)        超深的网络结构(突破1000层)

2)        提出residual模块

3)        使用Batch Normalization加速训练(丢弃dropout)

堆叠网络的缺点

1.网络难以收敛,梯度消失/爆炸在一开始就阻碍网络的收敛。

传统解决办法:

通过标准初始化和中间标准化层在很大程度上解决。这使得数十层的网络能通过具有反向传播的随机梯度下降(SGD)开始收敛。

2.当更深的网络能够开始收敛时,暴露了一个退化问题:随着网络深度的增加,准确率达到饱和(这可能并不奇怪)然后迅速下降。意外的是,这种下降不是由过拟合引起的,并且在适当的深度模型上添加更多的层会导致更高的训练误差。

假设我们训练了一个浅层网络,那么在其后面直接添加多层恒等映射层而构成的一个深层网络,那这个深层网络最起码也不能比浅层网络差(或许是我们在合理的时间内实现不了吧)。所以我们可以得出这一个结论:不是所有的系统都很容易优化,即深层网络不容易被优化(不代表深层网络能做到更好的效果)

网络结构:

 

 

 综述:

Kaiming He(2016)提出残差结构,减轻训练,从而能构建更深网络,实验表明残差网络更容易优化。在ImageNet测试集上达到了3.57%的误差,这一结果在ILSVRC 2015分类任务中获得了第一名。

五、ResNeXt

论文:Aggregated Residual Transformations for Deep Neural Networks

https://arxiv.org/abs/1611.05431

网络中的亮点:

更新了block,采用VGG、ResNet类似的堆叠方式,同时以一种简单,可扩展的方式实现了Inception中的split-transform-merge策略。

网络结构:

 

综述:

Saining Xie(2017)结合VGG、ResNet方法,采用堆叠和内部分支结构,构建ResNeXt架构。实验得出增加分支的数量比增加深度、宽度更高效,该网络在ILSVRC2016分类比赛中获第二名。

六、MobileNet、MobileNet v2、MobileNet v3

论文:《Efficient Convolutional Neural Networks for Mobile Vision Applications》

https://arxiv.org/abs/1704.04861

MobileNet网络是由google团队在2017年提出的,专注于移动端或嵌入式设备中的轻量级CNN网络。相比传统卷积神经网络,在准确率小幅降低的前提下大大减少模型参数与运算量。(相比VGG16准确率减少了0.9%,但模型参数只有VGG的1/32)。

网络中的亮点:

1)        Depthwise Convolution,DW卷积(大大减少运算量和参数数量)。卷积核channel=1;输入特征矩阵channel=卷积核个数=输出特征矩阵channel

2)        增加超参数α、 β

网络结构:

综述:

Andrew G. Howard(2017)利用流线型架构和深度可分离卷积DW,提出了用于移动和嵌入式的MobileNet高效模型,MobileNet与VGG16有相似的精度,参数量和计算量减少了2个数量级,在参数量类似的情况下,精度高了3%。

 

论文:《MobileNetV2: Inverted Residuals and Linear Bottlenecks》

https://arxiv.org/abs/1704.04861

MobileNet v2网络是由google团队在2018年提出的,相比MobileNet V1网

络,准确率更高,模型更小。

 

网络中的亮点:

1)        Inverted Residuals(倒残差结构)

2)        Linear Bottlenecks

网络结构:

 

 

 

综述:

Mark Sandler(2018)利用反向残差结构和deep-wise的卷积方式,构建了一种新的移动端架构MobileNetV2,在计算量,存储空间和准确率方面取得了非常不错的平衡;与VGG16相比,在很小的精度损失情况下,将运算量减小了30倍,刷新了移动端模型的当前最佳性能。

 

论文:《Searching for MobileNetV3》

https://arxiv.org/pdf/1905.02244.pdf

MobileNet V3 = MobileNet v2 + SE结构 + hard-swish activation +网络结构头尾微调。提出了一种激活函数。

网络中的亮点:

1)        提出了一种新的适用于移动端的非线性激活方式
-h-swish

2)        使用NAS搜索参数(Neural Architecture Search)

3)        重新设计耗时层结构

网络结构:

 

综述:

Andrew Howard(2019)利用网络搜索策略NAS,确定网络结构,提出了非线性激活方式h-swish,构建了MobileNet V3网络,MobileNetV3-Large在ImageNet分类上比MobileNetV2准确3.2%,同时减少了15%的延迟。MobileNetV3-Small比MobileNetV2准确4.6%,同时减少了5%的延迟。MobileNetV3-Large检测速度快25%,与MobileNetV2在COCO检测上的准确性大致相同。mobilenetv3 -大型LR-ASPP比MobileNetV2 R-ASPP快30%。

标签:arxiv,MobileNet,MobileNetV2,分类,网络,卷积,图像,整理,网络结构
来源: https://www.cnblogs.com/xmy-0904-lfx/p/14822722.html