Learning to Zoom: a Saliency-Based Sampling Layer for Neural Networks
作者:互联网
4.2 Fine-Grained Classification
细粒度分类问题提出了一个非常特殊的挑战:区分两类的信息通常隐藏在图像的很小一部分中,有时在低分辨率下无法解析。在这种情况下,显着性采样器可以发挥重要作用:放大图像的重要部分以尽可能多地保留它们的像素并帮助最终决策网络。在这个实验中,我们使用包含 5,089 种动物的 iNaturalist 数据集来研究这个问题 [29]。我们的评估是使用验证集进行的,因为测试集是私有的并且是为挑战而保留的。
在这个实验中,我们将在 ImageNet 数据集 [28] 上预训练的 ResNet-101 [4] 模型用于任务网络 ft,因为它在图像分类中表现出非常好的性能。我们对任务和显着性网络 ft 和 fs 使用了 227×227 的输入分辨率。作为显着网络 fS,我们使用 ResNet-18 的初始 14 层,尽管其他显着网络的性能可以在 Tbl.3 中找到。
作为此任务的基线,我们使用了与之前相同的方法,再次使用 ResNet-101 作为基础模型。对于可变形卷积网络,我们根据原始论文 [14] 中的说明进行了网络修改。我们还测试了 STN 的仿射和 TPS 版本(STN 仿射和 STN TPS)以及直接网格估计器。与我们的方法相同,这些基线可以在训练时间内访问原始 800×800 像素图像。在测试时,该方法获得了 512×512 像素的中心裁剪。为了公平起见,定位网络类似于 fs。为了测试单独的高分辨率输入是否可以提高基线 Resnet-101 网络的性能,我们还使用 [15] 的类激活映射方法(CAM ). 我们选择了最大激活值最大的类,并像原始论文一样计算边界框。然后我们从原始输入图像中裁剪该区域并将其重新缩放为 227×227 分辨率。这些裁剪被用作 ResNet-101 227×227 网络的输入,用于最终分类。
表 2 显示了各种模型的分类准确率比较。我们的模型在 top-1 和 top-5 准确率上分别显着优于 ResNet-101 基线 5% 和 3%。基于 CAM 的方法的性能更接近我们的方法,因为它受益于强调图像细节的相同想法。然而,我们的方法仍然表现得更好,这可能是因为它具有更大的灵活性,可以非均匀地和选择性地放大某些特征而不是其他特征。它还具有能够放大任意数量的非并置图像位置的主要好处,而对作物这样做涉及事先确定作物的数量或具有建议机制。
空间变换器、网格估计器和可变形卷积的性能与 ResNet-101 基线相似或略好。与我们的方法一样,这些方法受益于将注意力集中在图像特定区域的能力。然而,空间变换器的仿射版本在整个图像上应用均匀变形,这可能不是特别适合任务,而更灵活的 TPS 版本和网格估计器,理论上可以更接近地模拟引入的采样通过我们的方法,发现更难优化并且一直被发现表现更差。最后,可变形卷积方法无法访问全分辨率图像,并且使用复杂的参数化,这使得其训练非常不稳定。相比之下,我们的方法受益于这样一个事实,即神经网络具有预测显着图像元素的自然能力 [30],因此优化可能会容易得多。
为了证明我们声称显着采样器可以使不同的任务网络架构受益,我们使用 Inception V3 架构 [31] 重复我们的实验。原始性能已经非常高(top-1 和 top-5 分别为 64% 和 86%),因为它使用了更高分辨率(299)和更深的网络,但是我们的采样器在 top-1 中的性能仍然是 66%前 5 名中有 87%。
显着性网络重要性:在 Tbl.3 中,我们重新训练了 ResNet-101
不同深度的显着网络fs。 我们在实验中使用了 ResNet-18 的不同消融,具有 6、10 或 14 层(相当于一次添加一个块来构建 ResNet-18)。 整个网络的性能随着显着性模型的复杂性而增加,但收益递减。
4.3 CUB-200
为了进一步证明我们的模型在不同数据集上有用,我们在 CUB-200 数据集 [32] (Tbl.4) 中对其进行了评估。 尽管 CUB-200 也是一个细粒度的识别数据集,但与 iNaturalist 数据集相比,它明显更小,并且图像在主体周围的构图更好(见图 6)。
我们使用 ResNet-50 作为我们的任务网络,使用 ResNet-18 的最初 14 层作为我们的显着网络。 通过添加我们的采样层,我们实现了 2.9% 的准确度提升,这低于 iNaturalist 中的提升,这可能是因为在 CUB-200 中感兴趣的对象被更紧密地裁剪。 与 DT-RAM[33](CUB-200 中表现最好的模型之一)相比,我们的方法使用更简单的模型,比 RN-50 DT-RAM 的可比 224×224 版本的性能高 1.7%。 我们的方法不如 448×448 分辨率版本的 DT-RAM 准确,但后者平均使用大约 2 次通过 RN-50 并且更大的输入尺寸导致更高的计算成本。
标签:Layer,Based,Neural,网络,ResNet,图像,227,101,我们 来源: https://blog.csdn.net/weixin_47890036/article/details/121445364