其他分享
首页 > 其他分享> > Deformable DETR要点解读

Deformable DETR要点解读

作者:互联网

最近整理Transformer和set prediction相关的检测&实例分割文章,感兴趣的可以跟一下:

  1. DETR: End-to-End Object Detection with Transformers
  2. Deformable DETR
  3. Rethinking Transformer-based Set Prediction for Object Detection
  4. Instances as Queries
  5. SOLQ: Segmenting Objects by Learning Queries Bin
paperhttps://arxiv.org/abs/2105.01928
codehttps://github.com/fundamentalvision/Deformable-DETR
mmdetection codehttps://github.com/open-mmlab/mmdetection

1. 摘要

DETR的提出消除了在目标检测中许多手工设计的组件的需要,同时有着良好的性能。但由于transformer注意力模块在处理图像特征图时的局限性,导致收敛速度慢,特征空间分辨率有限。为了减轻这些问题,本文提出了Deformable DETR,其注意力模块只关注参考点周围的一部分关键采样点。可变形的DETR比DETR(特别是在小物体上)可以获得更好的性能,训练epoch少10倍

2. Motivation

DETR的问题 :

上述问题的成因分析:造成上述问题的主要原因是transformer在处理图像特征图时存在缺陷。

改进方案:

3. Method

3.1 DETR

3.1.1 DETR attention 结构

在这里插入图片描述

3.1.2 DETR Attention 分析

套用上述分析的复杂度,分别对transformer中的三个attention模块的复杂度分析如下:

模块复杂度
encoder self-attention O ( H 2 W 2 C ) O(H^2W^2C) O(H2W2C)
decoder cross-attention O ( H W C 2 ) + N H W C O(HWC^2)+NHWC O(HWC2)+NHWC
decoder self-attention O ( 2 N C 2 + N 2 C ) O(2NC^2+N^2C) O(2NC2+N2C)

3.2 Deformable DETR Attention

在这里插入图片描述

3.3 Multi-Scale Deformable DETR Attention

给定 { x l } l = 1 L \{x_l\}^L_{l=1} {xl​}l=1L​ 表示输入multi-scale feature maps:
在这里插入图片描述
此时采样点变成了从多尺度feature maps中每层选取K个采样点,共计LK个点, ∑ l = 1 L ∑ k = 1 K A m l q k = 1 \sum_{l=1}^L\sum_{k=1}^KA_{mlqk}=1 ∑l=1L​∑k=1K​Amlqk​=1.

3.4 Deformable DETR Encoder

3.5 Deformable DETR Decoder

4. Deformable DETR改进变体

4.1 Iterative Bounding Box Refinemen

建立了一个简单并且有效的迭代bbox矫正机制来提高检测性能, 每个解码器层根据前一层的预测来refine bbox。

4.2 Two-Stage Deformable DETR

在原始的DETR中,解码器中的object query是随机初始化的。受two-stage检测器的启发,我们探索了一个Deformable DETR的变种来生成候选区域来作为first-stage。生成的候选区域会送进解码器作为object query以进一步优化矫正,从而形成two-stage Deformable DETR。

5. 实验结果

在这里插入图片描述
在这里插入图片描述

标签:Deformable,复杂度,attention,模块,要点,query,DETR
来源: https://blog.csdn.net/xijuezhu8128/article/details/118693939