其他分享
首页 > 其他分享> > 【论文阅读】TransReID: Transformer-based Object Re-Identification

【论文阅读】TransReID: Transformer-based Object Re-Identification

作者:互联网

论文代码链接
论文代码链接

摘要

目标重识别的关键就是提取鲁棒的特征!

之前方法的弊端:卷积神经网络(CNN)的方法一次只处理一个局部邻域,并且由于卷积和下采样算子(如池化和跨卷积)导致细节信息丢失。

提出:纯基于transformer的目标ReID框架。 

具体来说:我们首先将图像编码为一系列补丁,并通过一些关键改进构建基于transformer的强baseline,这在使用基于cnn的方法的几个ReID基准上取得了有竞争力的结果。为了进一步增强transformer背景下特征学习,设计了两个新的模块。

(i)提出jigsaw patch module (JPM),通过shift和patch shuffle操作对patch嵌入进行重新排列,生成鲁棒特征辨别能力提高,覆盖面更广。

(ii)引入侧面信息嵌入(SIE),通过插入可学习的嵌入来合并这些非视觉线索,以减轻对摄像机/视图变化的特征偏差。

这是第一个采用纯transformer进行ReID研究的工作。

引言

目标再识别(Object reidentification, ReID)是将一个特定的物体在不同的场景和摄像机视图中关联起来。提取鲁棒性和判别性特征是ReID的一个重要组成部分,基于cnn的方法一直是ReID研究的重点。

cnn有两个问题没有解决:

1 探索全局范围内丰富的结构模式是关键的,但是cnn关注的主要是小的判别区域。注意力机制大多数都嵌入到深层,并不能解决CNN的原则问题。基于注意力的方法仍然偏爱大的连续区域,并且很难提取多种多样的可区分的部分。图一

 2 细粒度信息的重要性,然而,下采样算子(如pooling和stride convolution)的CNN降低了输出特征图的空间分辨率,极大地影响了对外观相似物体的识别能力。图二

 (总之就是全局特征和局部特征,全局特征应该关注范围更广的区域,细粒度特征应该关注两个相似样本的可判别性关系)

Vision Transformer (ViT)可以与基于cnn的特征提取方法一样有效,在基于cnn的ReID中,由于引入了multi-head注意模块,去除了卷积和下采样算子,基于transformer的模型适合解决上述问题,原因如下:

1 与CNN模型相比,多头自我注意捕获了长期的依赖关系,并驱动模型参与不同的人体部位
(如图1中的大腿、肩膀、腰部)

2 没有下采样操作,变压器可以保存更详细的信息。例如,我们可以观察到背包周围的feature map(在图2中用红框标记)上的差异可以帮助模型很容易地区分这两个人。

因此,设计有关于re-id的transformer方法以应对独特的挑战,如图像中的大变化(如遮挡、姿态的多样性、相机视角)。

然而,将刚性条带分割方法从基于cnn的方法扩展到纯基于变压器的方法,可能会由于全局序列分裂成几个独立子序列而破坏长期依赖关系。此外,考虑到额外信息,如摄像机和特定视点的信息,可以构造不变特征空间来减小侧面信息变化带来的偏差。

因此,我们提出了一个新的对象ReID框架,称为TransReID,以学习鲁棒的特征表示。

首先,通过一些关键的适应性调整,我们构建了一个基于纯变压器的强大基线框架

其次,为了扩展长期依赖,增强特征的鲁棒性,我们提出了jigsaw patches模块(JPM),该模块通过shift和shuffle操作对嵌入的patch进行重新排列,并将其重新分组以进行进一步的特征学习。在模型的最后一层采用JPM与全局分支并行提取鲁棒特征。因此,该网络倾向于提取具有全局上下文的扰动不变和鲁棒特征。(这一部分应该是对应全局特征,结合上下文结构)

第三,为了进一步增强鲁棒特征的学习,引入了侧信息嵌入(SIE)。我们提出了一个统一的框架,通过可学习的嵌入有效地整合非视觉线索,以缓解摄像机或视角带来的数据偏差,而不是基于cnn的非视觉线索利用方法的特殊和复杂设计。以相机为例,建议的SIE有助于解决相机间和相机内匹配之间巨大的配对相似性差异(见图6)。SIE还可以很容易地扩展到包括除我们所演示的以外的任何非视觉线索。

贡献:

我们提出了一个强大的基线,它首次为ReID任务使用了纯转换器,并与基于cnn的框架实现了相当的性能。

我们设计了一个jigsaw patches模块(JPM),包括shift和patch shuffle操作,使目标具有扰动不变性和鲁棒的特征表示

我们引入了一种侧信息嵌入(SIE)方法,通过可学习的嵌入对侧信息进行编码,并证明了该方法可以有效地消除学习特征的偏差。

方法

Transformer-based strong baseline

我们的方法有两个主要阶段:特征提取和监督学习

 划分N个patches,一个额外的可学习的[cls]嵌入标记标记为xcls被前置到输入序列。

 

标签:Transformer,嵌入,based,特征,Object,基于,ReID,鲁棒,cnn
来源: https://blog.csdn.net/weixin_43169773/article/details/122186377