其他分享
首页 > 其他分享> > Inception-V1(Going deeper with convolutions)

Inception-V1(Going deeper with convolutions)

作者:互联网

GoogleNet 模型

随着神经网络层数的加深,有不可避免的带来过拟合和计算量增大的困扰,谷歌团队为了减少计算量和避免过拟合,提出了Inception模型,也叫作 GoogLeNet。并在2014年,ImageNet挑战赛(ILSVRC14)中,GoogLeNet获得了第一名。GoogLeNet模型结构的特点是网络层数更深了。随着谷歌团队的研究,Inception历经了V1、V2、V3、V4等多个版本的发展

1. 思想

Inception 以降低参数量为目的,设计了一个稀疏网络结构,但是能够产生稠密的数据,既能增加神经网络表现,又能保证计算资源使用效率的网络结构。

2. 模型结构

模型

GoogleNet虽然降低了维度,计算更加容易了,但是缺点是每一层的卷积都是上一层的输出所得来的,这就使最后一层的卷积所需要的的计算量变得非常大,因此谷歌对其进行了改善,有了正式版的 Inception-V1模型。

Inception-V1(Going deeper with convolutions)

Abstract

1 Introduction

2 Related Work

3 Motivation and High Level Considerations

4 Architectural Details

  1. Inception 架构的主要思想是基于找出卷积视觉网络中的最优局部稀疏结构如何被现成的密集组件逼近和覆盖。请注意,假设平移不变性意味着我们的网络将由卷积构建块构建。我们所需要的只是找到最优的局部构造并在空间上重复它。
  2. 为了避免补丁对齐问题,Inception 架构的当前版本仅限于过滤器大小 1×1、3×3 和 5×5,但是这个决定更多地基于方便而不是必要性。这也意味着建议的架构是所有这些层的组合,它们的输出滤波器组连接成一个单一的输出向量,形成下一阶段的输入。此外,由于池化操作对于当前最先进的卷积网络的成功至关重要,这表明在每个这样的阶段添加替代并行池化路径也应该具有额外的有益效果(见图 2(a))。
    在这里插入图片描述
  3. 这导致了所提出架构的第二个想法:明智地应用降维和投影,否则计算要求会增加太多。
    • 这是基于嵌入的成功:即使是低维嵌入也可能包含有关相对较大图像块的大量信息。
    • 然而,嵌入以密集、压缩的形式表示信息,压缩信息更难建模。
    • 我们希望在大多数地方保持我们的表示稀疏,并且仅在信号必须集体聚合时才压缩信号。也就是说,在昂贵的 3×3 和 5×5 卷积之前,使用 1×1 卷积来计算缩减。除了被用作为reductions之外,它们还包括使用整流线性激活,这使它们具有双重用途。最终结果如图 2(b) 所示。
  4. 通常,**Inception 网络是由上述类型的模块相互堆叠而成的网络,偶尔使用步幅为 2 的最大池化层将网格的分辨率减半。**出于技术原因(训练期间的内存效率),仅在较高层开始使用 Inception 模块而将较低层保持在传统卷积方式中似乎是有益的。
    这不是绝对必要的,只是反映了我们当前实施中的一些基础设施效率低下。
    • 这种架构的主要优点之一是它允许显着增加每个阶段的单元数量,而不会导致计算复杂性不受控制的膨胀。
    • 降维的普遍使用允许将最后阶段的大量输入过滤器屏蔽到下一层,首先降低它们的维度,然后再用大块大小对它们进行卷积
    • 这种设计的另一个实际有用的方面是它符合直觉,即视觉信息应该在不同的尺度上进行处理,然后聚合,以便下一阶段可以同时从不同的尺度提取特征。

5 GoogLeNet

在这里插入图片描述
我们网络中接受域的大小为 224×224,采用均值减法的 RGB 颜色通道。
“#3×3 reduce”和“#5×5 reduce”代表在3×3和5×5卷积之前使用的reduce层中1×1过滤器的数量。
在池项目列中的内置最大池化之后,可以看到投影层中 1×1 过滤器的数量。所有这些减少/投影层也使用整流线性激活。

鉴于网络相对较大的深度,以有效方式将梯度传播回所有层的能力是一个问题。
一个有趣的见解是,相对较浅的网络在此任务上的强大性能表明,网络中间的层产生的特征应该具有很强的辨别力。
过添加连接到这些中间层的辅助分类器,我们希望在分类器的较低阶段鼓励区分,增加传播回来的梯度信号,并提供额外的正则化。
这些分类器采用较小卷积网络的形式,置于 Inception (4a) 和 (4d) 模块的输出之上。
在训练期间,它们的损失以折扣权重添加到网络的总损失中(辅助分类器的损失权重为 0.3)。在inference time,这些辅助网络被丢弃。
侧边额外网络的确切结构,包括辅助分类器,如下:

6 Training Methodology

7 ILSVRC 2014 Classification Challenge Setup and Results

除了本文前面提到的训练技术外,我们在测试过程中还采用了一套技术以获得更高的性能,我们将在下面详细说明。

  1. 我们独立训练了同一个 GoogLeNet 模型的 7 个版本(包括一个更宽的版本),并与它们进行了集成预测。这些模型使用相同的初始化(即使具有相同的初始权重,主要是由于an oversight)和学习率策略进行训练,它们仅在采样方法和它们看到输入图像的随机顺序上有所不同
  2. 在测试过程中,我们采用了比 Krizhevsky 等人更激进的裁剪方法。 具体来说,我们将图像调整为 4 个比例,其中较短的维度(高度或宽度)分别为 256、288、320 和 352,取这些调整大小的图像的左、中和右正方形(在肖像图像的情况下,我们取顶部、中心和底部方块)。对于每个正方形,我们然后采用 4 个角和中心 224×224 裁剪以及调整为 224×224 的正方形及其镜像版本。这导致每张图像 4×3×6×2 = 144 次裁剪。
  3. softmax 概率在多个crops和所有单个分类器上取平均值以获得最终预测。在我们的实验中,我们分析了验证数据的替代方法,例如对作物进行最大池化和对分类器求平均,但它们导致的性能比简单平均差
    在这里插入图片描述
    在这里插入图片描述

8 ILSVRC 2014 Detection Challenge Setup and Results

GoogLeNet 用于检测的方法类似于 R-CNN,但增加了 Inception 模型作为区域分类器。

我们在表 4 中报告了官方分数和每个团队的常用策略:使用外部数据、集成模型或上下文模型。
外部数据通常是 ILSVRC12 分类数据,用于预训练模型,然后在检测数据上进行细化。
一些团队还提到了本地化数据的使用。
由于定位任务边界框的很大一部分不包含在检测数据集中,因此可以使用此数据预训练通用边界框回归器,就像使用分类进行预训练一样。 GoogLeNet 没有使用本地化数据进行预训练。

在表 5 中,我们仅使用单一模型比较结果。
表现最好的模型是 Deep Insight,令人惊讶的是,在 3 个模型的集成中仅提高了 0.3 个百分点,而 GoogLeNet 使用集成获得了明显更强的结果

9 Conclusions

  1. 证明了:通过现成的密集构建块来逼近预期的最佳稀疏结构是改进计算机视觉神经网络的可行方法。
  2. 与较浅和较窄的网络相比,这种方法的主要优点是在适度增加计算要求的情况下显着提高质量
  3. 尽管预计可以通过具有相似深度和宽度的更昂贵的网络来实现相似的结果质量,但我们的方法产生了确凿的证据,表明转向更稀疏的体系结构通常是可行且有用的想法。这表明在[2]的基础上以自动化方式创建更稀疏和更精细的结构的未来工作很有前景。

标签:卷积,模型,网络,分类器,V1,Going,使用,Inception
来源: https://blog.csdn.net/chairon/article/details/117587343