其他分享
首页 > 其他分享> > FPT:又是借鉴Transformer,这次多方向融合特征金字塔 | ECCV 2020

FPT:又是借鉴Transformer,这次多方向融合特征金字塔 | ECCV 2020

作者:互联网

论文提出用于特征金字塔的高效特征交互方法FPT,包含3种精心设计的特征增强操作,分别用于借鉴层内特征进行增强、借鉴高层特征进行增强以及借鉴低层特征进行增强,FPT的输出维度与输入一致,能够自由嵌入到各种包含特征金字塔的检测算法中,从实验结果来看,效果不错

来源:晓飞的算法工程笔记 公众号

论文: Feature Pyramid Transformer

Introduction


  讲论文前先捋一下CNN网络结构相关的知识,论文的思想主要来自两个,一个是特征金字塔结构,一个是Non-local网络:

  基于上面两个思想,论文提出了FPT(Feature Pyramid Transformer),结构如图1e所示,核心在特征金字塔上进行类似Non-local的特征增强,然后再使用多层特征进行预测。FPT设计了3种特征增强操作,也是论文的主要贡献:

Feature Pyramid Transformer


  FPT的特征转换流程如图2所示,输入为金字塔特征,首先对每层特征分别进行ST、GT、RT特征增强得到多个增强后的特征,然后对增强的特征按尺寸进行排序,将相同大小的特征concate到一起,通过卷积将增强后的特征维度恢复到输入时的相同维度。

Non-Local Interaction Revisited

  由于论文提出的特征增强操作与non-local操作有很大关系,这里需要先介绍下non-local的思想。常规non-local操作的输入为单特征图$X$上的queries(Q), keys(K)和values(V),输出与$X$尺寸相同的增强特征$\hat{X}$:

$q_i=f_q(X_i)\in Q$,$k_j=f_k(X_j)\in K$,$v_j=f_v(X_j)\in V$,$f_q(\cdot)$、$f_k(\cdot)$和$f_v(\cdot)$为对应的线性变换,$X_i$和$X_j$为特征图$X$上的第$i{th}$和$j{th}$位置上的特征,$F_{sim}$为相似度函数,默认为点积,$F_{nom}$为归一化函数,默认为softmax,$F_{mul}$为权重集成函数,默认为矩阵相乘,$\hat{X}_i$为输出特征图$\hat{X}$的第$i^{th}$位置上的特征。

Self-Transformer

  ST为改进版non-local操作,如图1a所示,主要有两点不同:

  基于上述的改进,ST定义为:

Grounding Transformer

  GT是top-down形式的non-local操作,如图2c所示,借用高层的粗粒度特征$Xc$来增强低层的细粒度特征$Xf$。在计算时,相似度计算由点积替换为更高效的欧氏距离$F_{eud}$:

$q_i=f_q(Xf_i)$,$k_j=f_k(Xc_j)$。GT跟ST一样将$q_i$和$k_j$分为$\mathcal{N}$部分,完整的定义为:

  在特征金字塔中,高低层特征分别包含图片的全局和局部信息,而对于语义分割任务,不需要关注过多高层的全局信息,更多的是需要query位置附近的上下文信息,所以图3b的跨层卷积对语义分割任务十分有效。由于GT操作是全局计算,所以论文提出了局部约束(Locality-constrained)的GT操作LGT,如图3c所示,每个$q_i$只与高层局部区域的$k_j$和$v_j$进行计算。高层局部区域以$q_i$对应的位置为中心,边长(square size)为固定值。如果高层的局部区域越出了特征图,则使用0代替。

Rendering Transformer

  与GT相反,RT是bottom-up形式的non-local操作,借用低层的细粒度特征来增强高层的粗粒度特征。RT也是局部约束(Locality-constrained)的,以channel-wise进行计算的,定义高层特征为$Q$,低层特征为$K$和$V$,计算步骤包含如下:

  完整RT的定义为:

$F_{att}(\cdot)$为外积函数,$F_{scov}(\cdot)$为带stride的$3\times 3$卷积,$F_{conv}(\cdot)$为用于调整的$3\times 3$卷积,$F_{add}(\cdot)$为包含$3\times 3$卷积的特征相加函数。

Experiments


  在COCO上与其它算法的对比实验。

  在多个数据集上的进行语义分割性能对比。

Conclusion


  论文提出用于特征金字塔的高效特征交互方法FPT,包含3种精心设计的特征增强操作,分别用于借鉴层内特征进行增强、借鉴高层特征进行增强以及借鉴低层特征进行增强,FPT的输出维度与输入一致,能够自由嵌入到各种包含特征金字塔的检测算法中,从实验结果来看,效果不错。



如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

标签:Transformer,ECCV,特征,增强,FPT,non,local
来源: https://www.cnblogs.com/VincentLee/p/15935501.html