其他分享
首页 > 其他分享> > (CVPR-2020)GaitPart:基于时间部分的步态识别模型(一)

(CVPR-2020)GaitPart:基于时间部分的步态识别模型(一)

作者:互联网

文章目录

GaitPart:基于时间部分的步态识别模型

论文题目:GaitPart: Temporal Part-based Model for Gait Recognition

paper是北京科技大学发表在CVPR 2020的工作

论文地址:地址


Abstract

\quad \quad 步态识别是基于视频的生物特征识别技术中最有前途的一种,用于识别长距离的个人行走模式。目前,大多数步态识别方法都是以整个人体为单位建立时空表示。然而,作者观察到,人体不同部位在行走过程中具有明显不同的视觉外观运动模式。在最新的文献中,使用部分特征进行人体描述已被证实有利于个体识别。综上所述,假设人体的每个部分都需要自己的时空表达。然后,作者提出了一种新的基于部分的模型GaitPart,并从两个方面得到了提高性能的效果:一方面,提出了一种新的卷积应用——焦点卷积层,以增强部分级空间特征细粒度学习。另一方面,提出了微动作捕捉模块(MCM),在GaitPart中有几个并行的MCM,分别对应人体的预定义部位。值得一提的是,MCM 是一种新颖的步态任务时间建模方法,它专注于短程时间特征,而不是循环步态的冗余远程特征。在两个最流行的公共数据集CASIA-B和OU-MVLP上的实验充分证明了本文的方法在多个标准基准上达到了最先进水平。源代码地址


1. Introduction

\quad \quad 步态是描述人的行走模式的一种生理行为生物特征。与人脸、指纹和虹膜等其他生物特征识别方式相比,它可以很容易地在远距离捕获,并且不需要目标的明确合作。因此,步态识别在犯罪侦查访问控制社会安全等方面具有巨大的潜力。步态识别作为视觉中的一项识别任务,其基本目标是从人体形状的时间变化特征中学习唯一不变的表示。然而,在现实场景中,诸如背包携带外套穿着相机视角等变化会导致步态外观发生巨大变化,这给步态识别带来了重大挑战。

\quad \quad 为了缓解这些问题,许多基于深度学习的方法提供了有希望的解决方案。Thomas等人利用3D-CNN提取时空信息,试图找到人类步态的通用描述符。GaitNet提出了一种自动编码器框架,用于从原始RGB图像中提取与步态相关的特征,然后使用 LSTM 对步态序列的时间变化进行建模。GaitSet假设轮廓的外观已经包含其位置信息,因此将步态视为提取时间信息的集合。

\quad \quad 这些现有方法将整个人体形状作为一个单元来提取时空信息以进行最终识别。然而,作者观察到人体的不同部位在行走过程中具有明显不同的形状运动模式,如图1(a)所示。来自[6,15,20,5,12,13,19,28]的更多证据表明,人体描述的部分特征可以提供细粒度的信息,有利于个体识别任务。对于时间变化的特征,其中一些最先进的方法没有明确地对时间特征进行建模,这导致了时间序列中重要的不变特征的丢失。其他一些方法通过深度堆叠3D卷积或循环操作对远程依赖关系进行建模,以表示对步态序列的全局理解。然而,这些方法对周期性步态保留了不必要的长程序列约束,从而失去了步态识别的灵活性。

\quad \quad 受上述发现的启发,作者假设人体的每个部分都需要自己的表达方式,其中局部短程时空特征微动作模式)是人类步态最具判别力的特征。因此,作者提出了一种新的基于时间部分的框架,称为 GaitPart。如图 1(b)所示,GaitPart 由两个设计良好的新的组件组成,即帧级部分特征提取器(FPFE)和微动作捕捉模块(MCM)。

图1

图 1. (a):人类步态的不同部分在行走过程中具有明显不同的形状和运动模式。 (b): GaitPart 概述,由帧级部分特征提取器 (FPFE) 和微动作捕捉模块 (MCM) 组成。

\quad \quad GaitPart的输入是一系列步态轮廓。FPFE是一种特殊而简洁的叠加CNN,它首先将每一帧作为输入,然后在输出特征图上进行预定义的水平分割。通过这种方式,可以获得图1(b)中着色的多个部分空间特征序列,每个序列对应于人体的某个预定义部分,其微动作模式将被相应的MCM捕获。注意,这些并行MCM之间的参数是独立的,这反映了GaitPart是一种部分独立的方法。最后的步态表示是通过简单地级联这些MCM的所有输出而形成的。更具体地说,作者作出以下三大贡献:


2. Related Work

Gait Recognition. 大多数最先进的工作都以空间特征提取时间建模为重点。对于第一个问题,先前基于 CNN 的研究通常在整个特征图上执行常规的2-D或3-D卷积操作。虽然这种空间维度上的统一操作自然而广泛地应用,但这些方法忽略了步态任务中人体各部分之间的显著差异

\quad \quad 为了获得时空表示,许多工作倾向于显式地对时间变化进行建模或直接将整个步态序列压缩到一帧中。然而,基于RNN的方法对周期性步态保留了不必要的顺序约束,而另一种基于GEI的方法对现实场景中的变化非常敏感,尽管它们具有简单的优势。

Part-based model. 将特征图分割成条带并将它们汇集到列向量中已普遍用于相关领域。例如,行人重识别。在忽略空间对齐的情况下,这些方法假设每个列向量可以代表人体的某个对应部分

\quad \quad 不同于行人重识别领域,作者认为步态任务中基于部分的模式应该以部分依赖的方式设计。在步态任务中,虽然人体各部位在外观运动模式方面存在显著差异,但人体不同部位完全有可能具有共同的属性,例如Re-ID中的颜色纹理。因此,GaitPart 被设计为一种部分相关的方法,其参数在生成时空表示的阶段是部分相关的。

\quad \quad 此外,本文还提出了焦点卷积(FConv),它是卷积的一种新的应用,构成了FPFE。更具体地说,FConv 首先将输入特征图分割成几个部分,然后分别对这些部分执行常规卷积。当深度堆叠 FConv 时,顶层神经元的感受野会受到限制,预计会集中在输入帧相应部分内的更多局部细节上。

Temporal model. 对步态时间变化进行建模的方法通常可以分为三类:3DCNN-BasedLSTM-basedSet-based。其中,基于3DCNN的方法直接提取用于步态识别的时空特征,但这些方法通常训练困难,不能带来很好的性能。Zhang等人提出了一种新的自动编码器框架,用于从原始RGB视频中提取姿势特征,并使用三层LSTM在时间序列中聚合这些姿势特征以生成最终步态特征。然而,基于LSTM的方法对周期性步态保留了不必要的顺序约束。通过假设轮廓的外观已经包含其位置信息,GaitSet提出将步态视为一个集合,并以时间池化的方式提取时空特征。这种方法足够简洁有效,但没有明确地建模时间变化

\quad \quad 与上述相反,作者观察到具有相似视觉外观的帧可能会周期性地出现在周期性步态中,这表明在完整的步态周期后不会有判别性信息增益。这种现象意味着远程依赖(例如,比完整的步态周期更长)对于步态识别可能是多余且无效的。因此,GaitPart 将注意力转向局部短程时间建模,并提出了微动作捕捉模块。更多细节将在第 3.3 节中讨论。


3. Proposed Method

\quad \quad 在本节中,首先介绍 GaitPart 的流程,然后介绍帧级部分特征提取器 (FPFE),最后介绍时间特征聚合器 (TFA) 和实现细节。框架如图2所示。

3.1. Pipeline


\quad \quad 如图 2 所示,包含 t t t帧的步态轮廓序列被逐帧输入 GaitPart。帧级部分特征提取器(FPFE)是一种专门设计的卷积网络,用于提取每个帧 f i f_i fi​的空间特征 F i F_i Fi​
F i = FPFE ⁡ ( f i ) F_{i}=\operatorname{FPFE}\left(f_{i}\right) Fi​=FPFE(fi​)
其中 i ∈ 1 , 2 , … , t i \in 1,2, \ldots, t i∈1,2,…,t表示帧在步态序列中的索引,FPFE 的细节将在 3.2 节中介绍。这样就可以得到一系列特征图,记为 S F = { F i ∣ i = 1 , … , t } S_{F}=\left\{F_{i} \mid i=1, \ldots, t\right\} SF​={Fi​∣i=1,…,t},其中 F i F_{i} Fi​是一个三维张量,即通道高度宽度维度。

\quad \quad 然后,Horizontal Pooling(HP)模块,旨在提取部分人体的判别性部分形成的特征,将特征图 F i F_{i} Fi​水平分割成 n n n个部分。对于 F i F_{i} Fi​的第 j j j部分, F j , i F_{j, i} Fj,i​,HP模块通过全局平均池化全局最大池化将其下采样成列向量 p j , i p_{j, i} pj,i​
p j , i =  Avgpool2d  ( F j , i ) +  Maxpool2d  ( F j , i ) p_{j, i}=\text { Avgpool2d }\left(F_{j, i}\right)+\text { Maxpool2d }\left(F_{j, i}\right) pj,i​= Avgpool2d (Fj,i​)+ Maxpool2d (Fj,i​)
类似的操作在 [5, 6, 20, 15] 中很常见。

\quad \quad 作为中间结果, S F S_{F} SF​中的每个特征图都可以转化为 n n n个部分级特征向量,从中可以得到部分表示矩阵(PR-Matrix),记为 P = ( p j , i ) n × t P=\left(p_{j, i}\right)_{n \times t} P=(pj,i​)n×t​。如图 2 所示,显然 PR-Matrix 中对应的向量行,记为 P j , ⋅ = { p j , i ∣ i = 1 , 2 , … , t } P_{j, \cdot}=\left\{p_{j, i} \mid i=1,2, \ldots, t\right\} Pj,⋅​={pj,i​∣i=1,2,…,t},期望代表步态变化第 j j j部分。因此,很自然地,可以通过将 P j , ⋅ P_{j,\cdot} Pj,⋅​聚合成特征向量 v j v_{j} vj​来提取第 j 部分的时空特征,公式为
v j = MCM ⁡ j ( P j , ⋅ ) v_{j}=\operatorname{MCM}_{j}\left(P_{j, \cdot}\right) vj​=MCMj​(Pj,⋅​)
其中 M C M j \mathrm{MCM}_{j} MCMj​表示第 j j j个微动作捕捉模块 (MCM)。并且有n个并行的MCM,它们的参数是独立的,组成了时间特征聚合器(TFA)。最后,使用几个独立的FC层将从TFA中提取的特征向量映射到度量空间,以进行最终的个体识别。

图2

图 2. GaitPart 的框架。 Block1、2 和 3 由 FConvs 和池化层组成。 HP 代表 Horizontal Pooling,MCM 代表 Micro-motion Capture Module。特别是, M C M j MCM_j MCMj​负责聚合 Part Representation Matrix 中第 j j j行的所有向量,以生成时空特征 v j v_j vj​用于最终识别。


3.2. Frame-level Part Feature Extractor


\quad \quad 帧级部分特征提取器(FPFE)旨在提取每一帧的部分形成的空间特征,由三个块组成,每个块由两个焦点卷积层(FConv)组成。接下来先详细介绍FConv,然后再详细介绍FPFE的具体结构。

Definition. FConv是卷积的一种新应用,它可以首先将输入特征映射水平分割成几个部分,然后分别对每个部分执行常规卷积。设 p p p为预定义部分的数量,特别是当 p = 1 p=1 p=1时,FConv等效于常规卷积层。

Motivation. 为了加强对部分信息空间特征细粒度学习,作者开发了FConv。如图3(a)所示,随着网络的深入,通过在FConv中设置超参数p,顶层神经元的感受野将限制在比正常情况更窄的范围内,这使得顶层神经元即使在深度网络中也可以关注输入帧相应部分内的更多局部细节。对感受野的这种约束有望为每个部分提取更细粒度和更精确的特征。

Operation. 如图 3(b) 所示,输入的特征图首先被水平分割成 p p p个预定义的部分,然后分别对这些部分执行常规卷积操作。之后,输出的特征图将被水平级联起来,作为FConv的最终输出。此外,FPFE 的确切结构如表1所示,为每个FConv设置超参数 p p p的消融研究将在第 4.3 节中讨论。

图3.(a):深层网络中顶层神经元感受野的扩展。上图:常规情况。底部:使用FConvs。(b):FConv的图示和特征图通过其尺寸显示,例如 C × H × W C\times H\times W C×H×W。

表1. 帧级部分特征提取器的具体结构。In_C、Out_C、Kernel和Pad分别代表FConv的输入通道、输出通道、卷积核大小和填充。特别的, p p p表示FConv中预设的部分数量。

表1


3.3. Temporal Feature Aggregator


\quad \quad 如 3.1 节所述,时间特征聚合器 (TFA) 由 n 个并行微动作捕捉模块 (MCM) 组成,每个 MCM 负责对相应部分的短程时空表示进行建模。接下来,以MCM的细节为重点,忽略预定义部分的索引。

\quad \quad MCM包含两个部分:微动作模板生成器(MTB)和时间池化(TP)。令 S p = S_{p}= Sp​= { p i ∣ i = 1 , 2 , … , t } \left\{p_{i} \mid i=1,2, \ldots, t\right\} {pi​∣i=1,2,…,t}为PR-Matrix的一行,这是一个具有序列通道维度的二维张量。MTB旨在将部分级特征向量 S p S_{p} Sp​序列映射到微动作特征向量序列 S m S_{m} Sm​中,公式为 S m = MTB ⁡ ( S p ) S_{m}=\operatorname{MTB}\left(S_{p}\right) Sm​=MTB(Sp​)。之后,通过对序列 S m S_{m} Sm​的聚合,TP模块将提取出最具判别力的运动特征向量 v v v,公式化为 v = TP ⁡ ( S m ) v=\operatorname{TP}\left(S_{m}\right) v=TP(Sm​),用于最终识别。接下来,将首先详细描述MTB模块,然后是TP模块。

微动作模板生成器

Description.帧级部分信息特征向量映射到微动作特征向量中。
Motivation. 假设短距离的时空表示(微动作特征)是周期性步态的最有判别力的特征,并认为任何特定时刻的微动作模式应该完全由其本身及其相邻帧决定
Operation. 让 R ( p i , r ) = { p k ∣ k = i − r , … , i , … , i + r } R\left(p_{i}, r\right)=\left\{p_{k} \mid k=i-r, \ldots, i, \ldots, i+r\right\} R(pi​,r)={pk​∣k=i−r,…,i,…,i+r}代表由 p i p_{i} pi​及其 r r r相邻帧组成的子序列,然后 i i i时刻的微动作特征可以定义为
m i =  TempFunc  ( R ( p i , r ) ) m_{i}=\text { TempFunc }\left(R\left(p_{i}, r\right)\right) mi​= TempFunc (R(pi​,r))
其中Tempfunc表示微动作模板函数,目的是压缩子序列 R ( p i , r ) R\left(p_{i}, r\right) R(pi​,r)。

\quad \quad 参照GEI将序列中所有帧的平均值作为步态的时空表示的做法,作者将两个统计函数作为模板函数的实例化。如图4所示,对 S p S_{p} Sp​的每一时刻应用模板函数,实际上是在进行一维全局平均池化一维全局最大池化,核大小为 2 r + 1 2 r+1 2r+1。这样就得到了微动作特征向量序列 S m S_{m} Sm​,可以表示为
S m =  Avgpool1d  ( S p ) +  Maxpool1d  ( S p ) S_{m}=\text { Avgpool1d }\left(S_{p}\right)+\text { Maxpool1d }\left(S_{p}\right) Sm​= Avgpool1d (Sp​)+ Maxpool1d (Sp​)

图4

图 4. 微动作捕捉模块(MCM,包括 MTB 和 TP 模块)的详细结构。 MTB模块在序列维度上滑动,将每个相邻的 2 r + 1 2r+1 2r+1列向量聚合成一个微动作特征向量。然后,TP 模块应用一个简单的 max 函数来收集帧和通道维度之间最具判别力的微动作特征,以进行最终识别。

\quad \quad 此外,为了获得对微动作具判别力的表示,引入了通道注意力机制来重新加权每个时刻的特征向量。事实上,采用一维卷积核,重新加权的微动作序列 S m r e S_{m}^{r e} Smre​可以被表述为
S logits  =  Conv1dNet  ( S p ) S m r e = S m ⋅  Sigmoid  ( S logits  ) \begin{aligned} S_{\text {logits }} &=\text { Conv1dNet }\left(S_{p}\right) \\ S_{m}^{r e} &=S_{m} \cdot \text { Sigmoid }\left(S_{\text {logits }}\right) \end{aligned} Slogits ​Smre​​= Conv1dNet (Sp​)=Sm​⋅ Sigmoid (Slogits ​)​
其中Conv1dNet表示一个由两个一维卷积层组成的小网络。

\quad \quad 如图 4 所示,MTB 就像一个滑动窗口检测器。一方面,窗口内的所有帧级特征向量都会被 TempFunc 压缩成一个微动作向量。另一方面,引入了通道注意力机制,使模型能够根据窗口内的特征对微动作向量进行重新加权,从而使更多有判别性的动作表达能够被突出,用于最终的识别。

\quad \quad 实际上,有两个MTB,在MCM中使用不同的窗口大小(3和5),如图5所示。每个 MTB 中 Conv1dNet 的确切结构如表2所示。本设计的目的是在序列维度上融合多尺度信息,从而聚集更丰富的微动作特征。消融研究将在第 4.3 节中显示。

图5

图 5. 实践中微动作捕捉模块的抽象结构,包含 TP 和两个具有不同窗口大小(3 和 5)的并行 MTB 模块。

表 2. MTB1 和 MTB2 的确切结构。在 C 中,In_C、Out_C、Kernel 和 Pad 分别表示一维卷积层的输入通道、输出通道、核大小和填充。特别是,C 和 s 分别表示输入特征图的通道和压缩比。注意,“|”周围的值分别代表 MTB1 和 MTB2 的设置。

表2

时间池化

Description. 聚合微动作特征向量序列, S m r e ( t ) = { m i r e ∣ i = 1 , … , t } S_{m}^{r e}(t)=\left\{m_{i}^{r e} \mid i=1, \ldots, t\right\} Smre​(t)={mire​∣i=1,…,t},表示步态运动模式,公式为
v = T P ( S m r e ( t ) ) v=\mathrm{TP}\left(S_{m}^{r e}(t)\right) v=TP(Smre​(t))
其中 v v v表示TP模块的输出(列向量)。

Principle. 作为一个周期运动,一个完整的周期应该能够完整地代表理想条件下的整个步态序列。因此,令 S m r e ( T ) = { m i r e ∣ i = 1 , … , T } S_{m}^{r e}(T)=\left\{m_{i}^{r e} \mid i=1, \ldots, T\right\} Smre​(T)={mire​∣i=1,…,T}表示完整步态周期内的微动作特征序列(T 表示周期),TP 模块应满足以下公式:
 For  ∀ t > T , ∃ TP ⁡ ( S m r e ( t ) ) = TP ⁡ ( S m r e ( T ) ) \text { For } \forall t>T, \exists \operatorname{TP}\left(S_{m}^{r e}(t)\right)=\operatorname{TP}\left(S_{m}^{r e}(T)\right)  For ∀t>T,∃TP(Smre​(t))=TP(Smre​(T))
这就是步态时间聚合的基本原理,其核心思想是周期性步态经过一个完整的周期后不会有判别性信息增益

Operation. 两个自然而简单的统计函数应用于序列维度,作为TP模块的实例,即 mean ( ⋅ ) \text{mean}(\cdot) mean(⋅)和 max ⁡ ( ⋅ ) \max (\cdot) max(⋅)。

当 T P ( ⋅ ) = mean ( ⋅ ) \mathrm{TP}(\cdot)=\text{mean} (\cdot) TP(⋅)=mean(⋅)
TP ⁡ ( S m r e ( t ) ) = ∑ 1 t m i r e t \operatorname{TP}\left(S_{m}^{r e}(t)\right)=\frac{\sum_{1}^{t} m_{i}^{r e}}{t} TP(Smre​(t))=t∑1t​mire​​
TP ⁡ ( S m r e ( T ) ) = ∑ 1 T m i r e T \operatorname{TP}\left(S_{m}^{r e}(T)\right)=\frac{\sum_{1}^{T} m_{i}^{r e}}{T} TP(Smre​(T))=T∑1T​mire​​

\quad \quad 很明显,当且仅当 t t t是 T T T的整数倍时,上面两式相等(这里 m i r e m_{i}^{r e} mire​不是常数)。然而,真实世界步态视频的长度是不确定的, mean ( ⋅ ) \text{mean}(\cdot) mean(⋅)的统计函数似乎不是一个很好的选择。

当 T P ( ⋅ ) = max ⁡ ( ⋅ ) \mathrm{TP}(\cdot)=\max (\cdot) TP(⋅)=max(⋅)
TP ⁡ ( S m r e ( t ) ) = max ⁡ ( m 1 r e , … , m T r e , … , m t r e ) TP ⁡ ( S m r e ( T ) ) = max ⁡ ( m 1 r e , … , m T r e ) \begin{gathered} \operatorname{TP}\left(S_{m}^{r e}(t)\right)=\max \left(m_{1}^{r e}, \ldots, m_{T}^{r e}, \ldots, m_{t}^{r e}\right) \\ \operatorname{TP}\left(S_{m}^{r e}(T)\right)=\max \left(m_{1}^{r e}, \ldots, m_{T}^{r e}\right) \end{gathered} TP(Smre​(t))=max(m1re​,…,mTre​,…,mtre​)TP(Smre​(T))=max(m1re​,…,mTre​)​

\quad \quad 由于步态是一个周期性动作,显然上两式相等。因此,最终决定采用函数 max ⁡ ( ⋅ ) \max (\cdot) max(⋅)。消融研究将在第 4.3 节中讨论。


3.4. Implementation Details


Network hyper-parameters. 如表中所1示,FPFE 由 FConv LayersMax Pooling LayersLeaky ReLU 激活函数组成。需要指出的是,在FConv中设置了预定义的部分编号 p p p。当 p p p较大时,施加在感受野上的约束更强。而当 p = 1 p=1 p=1时,FConv相当于普通的卷积层,约束会被移除。因此,随着网络的深入,设置 p p p值的经验也在增加。

Loss and Sampler. 如第3.1节所述,GaitPart的输出是n列特征向量。在这项工作中,使用单独的 Batch All (BA+)triplet loss来训练网络,并使用不同样本之间对应的列特征向量来计算损失。训练批大小为 ( p r , k ) (pr,k) (pr,k),其中 p r pr pr表示人数, k k k表示训练一批中每个人的样本数。此外,在测试阶段,原始步态视频将直接输入模型;在训练阶段,由于步态视频的长度不确定,采样器应收集一个固定长度的片段作为输入:先截取一个30-40帧长的片段,然后随机抽取30个排序的帧进行训练。特别的,如果原始视频的长度小于 15 帧,它将被丢弃。并且长度大于15帧小于30帧时,会重复采样。

Testing. 在测试阶段,gallery和probe之间的距离被定义为相应特征向量的欧几里得距离的平均值。

参考文献

[5] Hanqing Chao, Yiwei He, Junping Zhang, and Jianfeng Feng. Gaitset: Regarding gait as a set for cross-view gait recognition. AAAI, 2019. 1, 2, 3, 7, 8

[6] Yang Fu, Yunchao Wei, Yuqian Zhou, Honghui Shi, Gao Huang, Xinchao Wang, Zhiqiang Yao, and Thomas Huang. Horizontal pyramid matching for person re-identification. AAAI, 33, 04 2018. 2, 3

[12] S. Li, S. Bak, P. Carr, and X. Wang. Diversity regularized spatiotemporal attention for video-based person reidentification. In CVPR, pages 369–378, 2018. 2, 5

[13] W. Li, X. Zhu, and S. Gong. Harmonious attention network for person re-identification. In CVPR, pages 2285–2294, 2018. 2

[15] Hao Luo, Youzhi Gu, Xingyu Liao, Shenqi Lai, and Wei Jiang. Bag of tricks and a strong baseline for deep person re-identification. In CVPR Workshops, June 2019. 2, 3

[19] C. Su, J. Li, S. Zhang, J. Xing, W. Gao, and Q. Tian. Posedriven deep convolutional model for person re-identification. In ICCV, pages 3980–3989, 2017. 2

[20] Yifan Sun, Liang Zheng, Yi Yang, and Shengjin Wang. Beyond part models: Person retrieval with refined part pooling. ECCV, 11 2017. 2, 3

[28] H. Yao, S. Zhang, R. Hong, Y. Zhang, C. Xu, and Q. Tian. Deep representation learning with part loss for person reidentification. IEEE Transactions on Image Processing, 28(6):2860–2871, June 2019. 2

标签:right,特征,步态,TP,GaitPart,CVPR,2020,quad,left
来源: https://blog.csdn.net/wl1780852311/article/details/122506801