其他分享
首页 > 其他分享> > 论文翻译:Pose estimation at night in infrared images using a lightweight multi-stage attention network

论文翻译:Pose estimation at night in infrared images using a lightweight multi-stage attention network

作者:互联网

    摘要

目录

 

摘要: 

    1.引言

    2.相关工作

    2.1可见光下单人关键点检测算法

    2.2红外行人检测

3.轻量级multi-stage注意网络(LMANet)

    3.1 LMANet架构概述

    3.2轻量级骨干网特征提取

     3.3 Two-stage learning implicit spatial information sub-network

 3.4特征增强模块

    3.5 困难样本挖掘

4.实验结果

    4.1数据集和处理平台

4.2在我们的数据集上进行相关实验

4.3其他数据集相关实验

    5.总结

References


摘要: 

    人体关键点检测是计算机视觉中一项比较基本的任务;它是人类行为识别、行为分析和人机交互的前置任务。由于大多数异常行为发生在夜间,如何在弱光或完全黑暗的环境中有效地提取关节序列数据对其识别提出了巨大的挑战。本文提出了利用远红外图像检测人体关键点的方法,解决了在完全黑暗、烟雾、恶劣天气和眩光等恶劣天气条件下的人体姿态估计问题。然而,远红外图像具有分辨率低、噪声大、热特性差等缺点,需要实时提供关节数据以备后续任务的需要。基于以上原因,本文提出了一种轻量级多级注意力网络(LMANet)来检测夜间人体的关键点。这种新的网络结构通过大的感受野增加上下文信息,有助于通过这些信息辅助检测相邻关键点,但出于轻量级的考虑,本文仅将网络扩展到两个阶段。此外,本文利用注意力模块,在消除背景干扰的同时,有效地选择信息量大的通道,突出关键点的特征。为了在各种复杂环境中检测出人体关键点,我们采用了困难样本挖掘等技术,提高了关键点的精确度,但置信度较低。我们的网络已经在两个可见光数据集上进行了验证,充分显示了优异的性能。由于目前还没有公开的远红外位姿估计数据集,本文成功地将远红外图像引入位姿估计领域。本文从多个公共远红外目标检测、分割和动作识别数据集中选取700幅图像进行标注,并在该数据集上进行了验证,取得了很好的效果。论文发表后,我们将出版我们的人体注释文档要点。

 

    关键词 姿态估计 远红外图像 LMANet 空间注意机制 通道注意机制

    1.引言

    图1   a是可见光图像,b是远红外图像。

 

    人体姿态估计的任务是从给定的传感器输入中获取人体姿态。近年来,随着深度学习在图像分类[1-4]、目标检测[5,6]、语义分割[7-9]等任务中的良好表现,人体姿态估计也引起了计算机视觉研究者的高度重视。然而,大多数研究仅限于利用可见光摄像机在白天探测人体的关键点。可见光摄像机的性能取决于良好的照明条件,如图1所示,当照明较差时会影响检测效果。在研究过程中发现,在目标检测、目标分割和动作识别中,研究人员都使用了远红外图像进行检测和识别。然而,在姿态估计任务中,很少有研究人员使用远红外摄像机来检测人体关键点。在弱光照条件下,基于远红外的人体姿态检测可以有效地取代基于可见光的人体姿态检测,因为远红外传感器不需要外界光线,而主要依赖于物体的辐射温度。红外检测人体关键点有着广泛的应用。例如,在一些村庄和相对黑暗的环境中,犯罪等危险行为更有可能发生在夜间。在这样的环境下,监控摄像头无法捕捉到清晰的画面,无法进一步识别异常行为。一些虚拟现实游戏场景是在相对黑暗、封闭的环境中进行的。这样的场景不能清晰地捕捉到人,这就影响了进一步的识别。在无人驾驶过程中,需要识别各种环境和天气下的交通标志以及各种运动物体的状态等,特别是各种环境下行人的行为和趋势,从而达到安全驾驶的目的。

    近年来,卷积神经网络的出现使姿态估计得到了快速的发展。本文设计了一种有效的CNN框架,专门用于远红外图像中人体关键点的检测,能够达到最好的性能和速度。在这项研究中,我们开发了一种新的面向注意力的two-stage轻量级卷积神经网络,用于夜间精确的远红外人体姿态估计,称为LMANet。主要包括特征提取阶段和上下文语义估计阶段。

    以下是这项工作的主要贡献。

    (1)许多以前的研究人员检测了人在可见光图像上的关键点。在本研究中,成功​​地提出了使用远红外图像来检测人类的关键点。

    (2)在公开的远红外行人数据集中精心挑选了700幅图像,将人体的关键点标记在数据集中的图像上,并将标记的文件公之于众,以供其他研究人员使用。

    (3)提出了一种适合远红外人体关键点的轻量级网络LMANet,在速度和精度上都能达到最好的效果。

    本文以下列方式排列。第2节简要介绍了以前的相关工作。第3节解释了所提出的LMANet的细节。第4节给出了实验结果和分析。最后,第5节对本文的工作进行了总结,并对下一步的工作进行了展望。

 

    2.相关工作

    由于在远红外图像上还没有相关的人体关键点检测算法,因此我们的研究目标是单人姿态估计。因此,本文分两个部分对相关算法进行说明。第一部分是可见光下的单个人体关键点检测算法;第二部分是远红外图像中的行人检测。

    2.1可见光下单人关键点检测算法

    Deeppose等[10]首次应用深度学习进行姿态估计,利用CNN提取图像特征,然后回归关节点坐标。这种直接回归方法使网络具有高度的非线性,难以收敛。Pfister等人[11]将姿态估计作为一个检测问题,首次提出通过预测heatmap来间接寻找连接点的位置,这种方法比坐标的直接回归更容易收敛,也为后续研究奠定了基础。卡内基梅隆大学(Carnegie Mellon University)的Weet et al.[12]等人提出的CPM(Convolutional Pay Machines)使用顺序卷积结构来表达空间信息和纹理信息,并将网络划分为多个阶段。同年,Alejandro Newell等人提出了堆叠沙漏结构(堆叠沙漏)[13],利用多尺度信息预测节点。该设计考虑到需要结合局部和全局特征的某些连接点的预测。此外,Papandreou et al[14]提出了一种改进的关节位置表示方法,即结合二值激活热图和相应的偏移量。为了在整个网络中保持高分辨率的特征表示,Sun等人[15]提出了一种多尺度特征融合的高分辨率网络(HRNet)。

    为了在保证精度的同时提高运算速度,使得算法可以在移动设备上运行。Tang et al.[16]致力于通过提出密集连接的U-Net和高效使用内存来改善网络结构。Debnath等人[17]通过在移动网络的NAL两层设计分流架构,使移动网络[18]适用于姿态估计。Feng et al.[19]设计了一种轻量级的沙漏网络,并采用快速姿势提取(FPD)训练策略与全指导沙漏(full teacher Hourglass)网络进行了训练。

    2.2红外行人检测

    在过去的几年里,红外行人检测引起了很多研究者的兴趣。最近,Heo et al.[20]利用卷积神经网络结合YOLO[21]和显著性特征图对远红外图像中的行人进行识别。然而,这种方法会导致CVC09数据集中的某些误报或遗漏某些行人对象。Cao et al[22]提出了一种自动区域建议网络(ARPN)。对于环境变化,该方法没有考虑红外图像易受影响的因素,效果不理想。Park et al[23]介绍了红外闭路视觉(CCTV)人员探测器。然而,由于数据集是在特定的时间和位置获得的,因此当应用于不同的数据集时,该方法可能缺乏通用性。在最新的工作中,Chen et al.[24]提出了一种红外摄像系统,并利用一种新颖的注意力引导编解码器卷积神经网络(AED-CNN)来检测行人。他们提出了一个注意力模块来对编解码器模块产生的多尺度特征进行重新加权。

 

3.轻量级multi-stage注意网络(LMANet)

    本文创新性地利用远红外图像检测人体关键点,有效地解决了在弱光照条件下无法检测行人姿态的问题,并设计了LMANet网络对这类图像中的人体关键点进行检测。

    3.1 LMANet架构概述

    LMANet的总体框架如图2所示。网络主要由两部分组成。第一部分是骨干网。它主要提取关键点的细节特征。它主要提取关键点的细节特征。在这部分网络中,采用了轻量级的模型结构,采用了深可分卷积和信道关注机制(通道注意机制)。快速选择最能代表关键点的当前特征通道,增强关键点的特征。经过一系列的特征增强和选择,它进入了网络的下一个部分。这一部分通过不同感受野的特点和关键点之间的关联来识别不明显或隐藏的关键点。

    3.2轻量级骨干网特征提取

    本文的骨干网在MobileNet V3[25]的基础上对网络结构进行了修改,增加了通道关注机制,增加了具有较强表达能力的特征通道。在此基础上,对不同尺度的特征进行融合,提取节点处的局部特征。并将合并后的特征输入到下一阶段。图像上网络的感受野如图3所示

    图3  主干网络的感受野

    骨干网的输入为334*384。为了更有效的提取特征,我们学习Mobilenet V3的第一层结构并使用常规的卷积运算。卷积和的大小为3*3。从第2层到第6层,我们使用经典的瓶颈结构。选择这种结构可以提高梯度在product layers之间的传播能力,具有更好的内存使用效率。在骨干网的第2个瓶颈和第4个瓶颈上增加了通道注意机制。本设计主要是整理出特征通道在特征提取过程中的重要性。通道注意力均匀分布在网络中,有利于网络性能的提高;大量实验证明,这种效果是最好的。为了从整体上设计网络的感受野,本文将主干中各层的特征图大小重采样为48*48。此时,网络的感受野为71*71,是下一个two-stage子网的输入。骨干利用每一层的特征,有效地提取局部特征,使局部特征的关键点得到很好的表达。这一步的完成是整个网络的基础。主干网络的最终输入、输出和感受野如表1所示。

 表1 主干结构说明

 

     3.3 Two-stage learning implicit spatial information sub-network

    Two-stage学习隐式空间信息子网络

    构建LMANet子网的想法来自于CPM。在通过主干提取局部细节特征后,利用通道关注对特征通道进行过滤,利用空间关注对特征图中的联合特征进行增强,然后将输出的特征输入到下一阶段。网络下一阶段的主要任务是利用特征图的上下文信息,通过扩大感受野来识别不明显和被遮挡的关键点。

    网络的第二阶段包含2个子网,每个子网仅包含2个瓶颈。这种设计只需使整个网络覆盖全部感受野。该子网的网络结构和感受野如表2所示。子网stage1的输入来自主干,子网stage2的输入来自主干和stage1的输出。空间注意模块的输出是修改后的特征表示,骨干的特征被输入到下一层。从相应子网的热图输出中得出三种不同的loss。最后,通过3个loss对网络进行优化。图4显示了图像上子网络的感受野范围。

    表2  Two-stage子网结构描述

 

    图4 LMANe子网的感受野

 

 

 3.4特征增强模块

    LMANet骨干网的第二个瓶颈和第四个瓶颈增加了通道注意机制。之后,首先将骨干网络的输出添加到通道注意和空间注意的顺序组合模块。本文利用骨干网中的通道关注来过滤掉需要更多关注的通道。在对骨干网络输出部分的通道进行过滤后,利用空间注意模块对每个特征图的局部特征进行空间级增强。骨干网输出部分的整体注意过程可以用以下公式表示:

    Fi为输入特征图,Ac为通道注意图,As为空间注意图,最终细化输出F。经过一系列的特征提取和优化后,进入Two-stage网络。Two-stage网络的最后一层利用空间注意机制增强最终输出特征。在不断扩大感受野的基础上,对网络的每个特征图进行局部特征增强,最后得到人体14个关键点的heatmap。

    在文献[26]的基础上,我们将特征增强模块引入到远红外姿态估计任务中。该模块计算成本低,易于实现。空间注意机制可视化结果如图5所示。

    图5  空间注意可视化结果。第一行是没有空间注意的网络识别 heat map,第二行是添加空间注意后的网络识别 heat map。其中1、2为头,3、4为左肩,5、6为左腕,7、8为右膝

    3.5 困难样本挖掘

    本文所用的困难样本挖掘思想来源于Shriastava等人提出的困难样本挖掘[27]。本文采用两种策略进行困难样本挖掘训练。

    策略一:挖掘难训练样本。每隔20个时期,执行训练集的推理过程。以头部的点到颈部的点为基准,对训练集的每幅图像进行测试。得到的平均误差小于等于基准值的1%,设定为正样本(易样本);否则,它将被设置为负样本。对训练样本进行采样,对于每个批次大小,对70%的负样本和30%的正样本进行采样。

    策略2:困难的关键点损失挖掘。在计算损失函数时,计算不同关键点的误差值并进行排序。损失较大的样本被反向传播,而损失较小的样本(容易样本)被认为是正确的,不需要反向传播。取第一个k(k=关键点个数*0.7)作为计算损失的困难样本

4.实验结果

    4.1数据集和处理平台

    由于目前还没有公开的远红外图像位姿估计数据集,本文使用的数据集主要分为两部分:第一部分是我们自己提供的数据集;第二部分是可见光人体位姿估计数据集,分别是MPII人体位姿数据集[28]和AI Challenger数据集[29]。

    Our dataset:我们从公开的行人检测数据集中精心挑选了700幅行人的远红外图像,并对其进行了标记。在论文发表后,我们将发布我们的标签数据,供这一领域的研究人员使用。

    图6显示了我们标记的人体关键点的样本

    图6 自行标注的人体关键点样本

    MPII human pose dataset:MPII人体姿势数据集是人体姿势估计的基准。它包括28k训练和11k测试。由于没有提供测试集的标签,我们从训练集中随机抽取3000个样本作为验证集,其余样本作为训练集进行训练。

    AI challenger dataset:训练数据集只包含单人图像,它来自AI Challenger的比赛。该数据集包括22446个训练用例和1,500个测试用例。

    我们使用[0.8,1.2]中的随机尺度变换、[−15°,15°]中的图像旋转度、水平翻转、随机裁剪等算法来随机增加输入样本。该评估基于PCKh指标[23],其中误差容错性对目标头部大小进行了归一化。

    我们使用tensorflow库来定义和实现我们的模型,用于深度学习。训练模型的操作系统为14.04,深度学习的框架为TensorFlow, CPU为Intel(R) Core(R) i5,内存为8GB, GPU为Nvidia(R) GTX(R) 2080TI,为11GB。

4.2在我们的数据集上进行相关实验

    本文隐式空间信息子网络采用Two-stage学习方法,分别训练2、4、6三个不同阶段,并比较姿态估计的平均PCKh值。

    图7  子网络级数对比分析结果  a stages为2、4、6。验证集上的Pckh值。b stages为2、4、6时网络的平均推理时间

 

    图7显示在本文提供的数据集上,当子网的级数为2时,验证集上的PCKh值是最高的,值为83.09347。当级数为2时,时间最短,只有12.0310ms。所以本文的子网络选择了2 stages来进一步检测关键点。

    该数据集上的消融实验如表3所示。

 

    表3  本文中数据集的消融实验

    表中第一行是MobileNetV3小型为骨干网;当子网是Two-stage网络时,PCKh值为81.5914。第二行是在主干网络中修改较小的MobileNetV3,并在改进后的PCKh上增加通道关注。该值为82.1598。第三行在改进骨干网的基础上,在骨干网和子网之间增加了一个关注模块,并在Two-stage子网上增加了通道关注度。改进后的PCKh值为82.7015。第四行在改进骨干网的基础上增加了困样本挖掘,改进后的PCKh值为82.6264。最后,将这三个模块都加入到网络中,最终的PCKh值从81.5914增加到83.0935。

4.3其他数据集相关实验

    本文提出的算法在MPII数据集和 AI Challenger数据集上进行了验证。表4显示了在两个数据集上进行的消融实验。

    表4 表格标题

    原始模型的主干使用MobileNet V2,准确率为85.01。表4显示,MPII改进前后的PCKh值由85.01增加到88.98。AI Challenger数据集改进前后的PCKh值从93.38增加到95.52。在两个数据集上的准确率都得到了提高,验证了网络结构的有效性。

    由于本文研究的是单人姿态估计,所以只对一些经典的单人姿态估计算法进行了比较。本文是对CPM算法的改进。从对比分析结果可以看出,改进后的算法在准确率和速度上都优于CPM算法。虽然HRNet在准确性上有很大的优势,但我们尝试将HRNet的网络结构引入到我们的骨干网中。由于其算法的复杂性,不能在实际中应用。在网络中加入注意机制和困难样本挖掘策略后,LMANet算法PCKh达到88.98,参数个数仅为8.6413M。它可以在不损失精度的情况下达到实时应用的目的(表5)。

 

    表5 LMANet 算法与其他算法的比较分析

    本文提出网络LMANet对人体远红外图像关键点的最终效果如图8所示。

    图8  本文的关键点检测效果

 

    5.总结

    本研究利用远红外图像和深度学习技术对人体关键点进行检测。有效地解决了弱光照下人体关键点的检测问题。本文在公共行人检测远红外数据集中精心选取了700幅图像进行人体关键点标注。其次,设计了一种用于远红外图像人体关键点检测的卷积神经网络算法LMANet。此外,本文利用注意力模块有效选择信息量大的通道,突出关键点的特征,同时消除背景干扰,帮助检测人体在各种复杂环境中的关键点,并利用困难样本挖掘等技术提高低置信度关键点的准确度。我们的网络已经在我们自己的标签数据集和两个可见光数据集上进行了验证,充分显示了优异的性能。今后,我们将比较更多的人体关键点检测方法,使本文的网络结构更具说服力。同时,我们还将努力进一步提高网络的实时性能。

 

References

1. Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification

with deep convolutional neural networks. In: Bartlett, P., Pereira,

F.,Burges,C.,Bottou,L.,Weinberger,K(eds.)AdvancesinNeural

Information Processing Systems pp, 1097–1105 (2012)

2. Simonyan, K., Zisserman, A.: V ery deep convolutional networks

for large-scale image recognition. arXiv:1409.1556 (2014)

3. Szegedy, C., Liu, W., Jia, Y .: Going deeper with convolutions. In:

Proceedings of the IEEE Conference on Computer Vision and Pat-

tern Recognition, pp. 1–9 (2015)

4. He, K., Zhang, X., Ren, S.: Deep residual learning for image recog-

nition. In: Proceedings of the IEEE Conference on Computer Vision

and Pattern Recognition, pp. 770–778 (2016)

5. Redmon, J., Divvala, S., Girshick, R., Farhadi, A.: Y ou only look

once: unified,real-timeobjectdetection.arXiv:1506.02640 (2016)

6. Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu,

C.Y ., Berg, A.C.S.S.D.: Single Shot MultiBox Detector. arXiv:

1512.02325 (2016)

7. Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks

for semantic segmentation. In: Proceedings of the IEEE Conference

on Computer Vision and Pattern Recognition. arXiv:1411.4038

(2015)

8. Badrinarayanan, V ., Kendall, A., Cipolla, R.: Segnet: A deep con-

volutional encoder-decoder architecture for image segmentation.

IEEE Trans. Pattern Anal. Mach. Intell. 39(12), 2481–2495 (2016)

9. Zhao, H., Shi, J., Qi, X., Wang, X., Jia, J.: Pyramid scene parsing

network. In: Proceedings of the IEEE Conference on Computer

Vision and Pattern Recognition. arXiv:1612.01105 (2017)

10. Toshev, A., Sezedy, C.: Deeppose: Human pose estimation via deep

neural networks. In: Proceedings of the IEEE Conference on Com-

puter Vision and Pattern Recognition, pp. 1653–1660 (2014)

11. Pfister, T., Charlse, J., Zisserman, A.: Flowing convnets for human

poseestimationinvideos.In:ProceedingsoftheIEEEInternational

Conference on Computer Vision, pp. 1913–1921 (2015)

12. Wei, S.E., Ramakrishna, V., Kanade, T.: Convolutional pose

machines. In: Proceedings of the IEEE Conference on Computer

Vision and Pattern Recognition, pp. 4724–4732 (2016)

13. Newell, A., Yang, K., Deng, J.: Stacked hourglass networks for

human pose estimation. In: European Conference on Computer

Vision, pp. 483–499 (2016)

14. Papandreou, G., Zhu, T., Kanazawa, N., Toshev, A., Tompson, J.,

Bregler, C., Murphy, K.: Towards accurate multi-person pose esti-

mation in the wild. In: Proceedings of the IEEE Conference on

Computer Vision and Pattern Recognition, pp. 4903–4911 (2017)

15. Sun, K., Xiao, B., Liu, D., Wang, J.: Deep high-resolution repre-

sentation learning for human pose estimation. In: Proceedings of

theIEEEConferenceonComputerVisionandPatternRecognition

(2019)

16. Tang,Z.,Peng,X.,Geng,S.,Wu,L.,Zhang,S.,Metaxas,D.:Quan-

tized densely connected u-nets for efficient landmark localization.

In: Proceedings of the European Conference on Computer Vision,

pp. 339–354 (2018)

17. Debnath, B., O’Brien, M., Yamaguchi, M., Behera, A.: Adapting

mobilenets for mobile based upper body pose estimation. In: Pro-

ceedings of the IEEE Conference on Advanced Video and Signal

Based Surveillance, pp. 1–6 (2018)

18. Howard, A.G., Zhu, M., Chen, B., Kalenichenko, Wang, W.,

Weyand, T., Andreetto, M., Adam, H.: Mobilenets: Ecient con-

volutional neural networks for mobile vision applications. arXiv

preprint arXiv:1704.04861 (2017)

19. Feng, Z., Xiatian, Z., Mao, Y .: Fast human pose estimation. In: Pro-

ceeding of the IEEE Conference on Computer Vision and Pattern

Recognition, pp. 1–8 (2019)

20. Heo, D., Lee, E., Ko, B.C.: Pedestrian detection at night using

deep neural networks and saliency maps. Electron. Imaging 17,

1–9 (2018)

21. Redmon, J., Farhadi, A.: YOLO9000: Better, faster, stronger. In:

Proceedings of the IEEE Conference on Computer Vision and Pat-

tern Recognition, Honolulu, HI, USA, pp. 7263–7271 (2017)

22. Cao, Z., Y ang, H., Zhao, J., Pan, X., Zhang, L., Liu, Z.: A new

region proposal network for far-infrared pedestrian detection. IEEE

Access 7, 135023–135030 (2019)

23. Park, J., Chen, J., Cho, Y .K., Kang, D.Y ., Son, B.J.: CNN-based

person detection using infrared images for night-time intrusion

warning systems. Sensors 20, 34 (2020)

24. Chen, Y ., Shin, H.: Pedestrian detection at night in infrared

images using an attention-guided encoder-decoder convolutional

neural network. Appl. Sci.10, 809 (2020).https://doi.org/10.3390/

app10030809

25. Howard, A., Sandler, M., Chu, G., et al.: Searching for

MobileNetV3. In: IEEE International Conference on Computer

Vision (2019)

26. Woo, S., Park, J., Lee, J.Y ., Kweon, I.S.: CBAM: convolutional

block attention module. European conference on computer vision

(2018)

27. Shrivastava, A., Gupta, A., Girshick, R.: Training regionbased

object detectors with online hard example mining. In: IEEE Con-

ference on Computer Vision and Pattern Recognition, pp. 761–769

(2016)

28. Andriluka, M., PishchulinL, P ., Gehler, Schiele, B.: 2D human pose

estimation: New benchmark and state of the art analysis. In: CVPR

(2014)

29. https://challenger.ai/datasets/keypoint

30. Carreira, J., Agrawal, P ., Fragkiadaki, K., Malik, J.: Human pose

estimation with iterative error feedback. In: Proceedings of the

IEEE Conference on Computer Vision and Pattern Recognition,

pp. 4733–4742 (2016)

31. Sun, X., Shang, J., Liang, S., Wei, Y .: Compositional human pose

regression. In: Proceedings of the IEEE International Conference

on Computer Vision, p. 7 (2017)

32. Tompson, J.J., Jain, A., LeCun, Y ., Bregler, C.: Joint training of a

convolutional network and a graphical model for human pose esti-

mation. In: Cortes, C., Welling, M., Lawrence, N., Ghahramani, Z.,

Weinberger, K (eds.) Advances in Neural Information Processing

Systems pp., 1799–1807 (2014)

 

标签:lightweight,network,检测,Pose,网络,图像,远红外,人体,关键点
来源: https://blog.csdn.net/zzl18681269883/article/details/117638810