其他分享
首页 > 其他分享> > 姿态估计论文笔记|结合检测和跟踪进行视频中的人体姿势估计|Combining detection and tracking for human pose estimation in videos

姿态估计论文笔记|结合检测和跟踪进行视频中的人体姿势估计|Combining detection and tracking for human pose estimation in videos

作者:互联网

文章目录

论文原文地址

摘要

我们提出了一种新颖的自上而下的方法,可以解决视频中多人人体姿势估计和跟踪的问题。 与现有的自上而下的方法相反,我们的方法不受其人员检测器性能的限制,并且可以预测未定位的人员实例的姿势。 它通过在时间上向前和向后传播已知人员的位置并搜索那些区域中的姿势来实现此功能。
我们的方法包括三个部分:
(i)一个剪辑跟踪网络,可以对小视频剪辑同时执行人体关节检测和跟踪;
(ii)视频跟踪管道,该视频跟踪管道将剪辑跟踪网络产生的固定长度的小轨道合并到任意长度的轨道中;
(iii)时空合并程序,可根据空间和时间平滑项精炼关节位置。
得益于我们的剪辑跟踪网络和合并程序的精确性,我们的方法可以产生非常准确的联合预测,并且可以解决棘手的场景(如纠缠不清的人)时的常见错误。 我们的方法在PoseTrack 2017和2018数据集上以及针对所有自上而下和自下而上的方法上实现了联合检测和跟踪方面的最新结果。

一、介绍

(1)本文方法

我们的想法是,如果一个人出现在框架中的特定位置,即使检测器无法找到它们,他们也仍应该位于邻近框架中的那个位置附近。 视频中的时间管以该帧和位置为中心。 然后,我们将此管送入一个新颖的剪辑跟踪网络,该网络会估计该人在管的所有框架中所有身体关节的位置。 为了解决此任务,我们的剪辑跟踪网络同时执行人体关节检测和跟踪。 这有两个好处:(i)通过共同解决这些任务,我们的网络可以更好地处理独特的姿势和遮挡,并且(ii)通过预测时空管所有帧中的关节(甚至对于未检测到人物的镜框。 为了构建此剪辑跟踪网络,我们使用经过精心设计以帮助获得关节之间时间对应的3D卷积,将最新的高分辨率网络(HRNet)[30]体系结构扩展到跟踪任务。

剪辑跟踪网络对固定长度的视频剪辑进行操作,并生成多人姿势小轨迹。 通过首先生成临时重叠的小轨迹,然后在小轨迹重叠的帧中关联和合并姿势检测,将这些小轨迹组合为视频跟踪管道中任意长度视频的姿势轨迹。 当将小轨迹合并到轨迹中时,我们在基于共识的新型时空合并过程中,在每个帧中使用多个姿势检测来估计每个关节的最佳位置。 此过程支持在空间上彼此靠近且暂时平滑的假设。 这种组合能够纠正高度纠缠的人的错误,导致更准确的预测,如图6的第67帧所示 图一:当[30]错误地选择了黄色球员的左膝盖作为绿色球员右膝盖的预测(1a),我们的程序能够纠正此错误并预测正确的位置。
在这里插入图片描述

(2)本文贡献

(i)新颖的剪辑跟踪网络(第3.1节)
(ii)跟踪管道(第3.2节)
(iii)时空合并过程(第3.3节)。

二、相关工作

(1)图片中的人类姿态估计

(2)视频中的人类姿态估计和追踪

三、方法

(1)剪辑跟踪网络

在这里插入图片描述
我们的剪辑跟踪网络在短视频剪辑上同时执行姿势估计和跟踪。 它的体系结构建立在Sun等人 [30]成功的HRNet体系结构的基础上。在下一段中,我们总结了原始的HRNet设计,在下一段中,我们解释了如何将其扩展到跟踪。

用于图像中的人体姿势估计的HRNet。
给定一个图像,这种自上而下的方法将在人体检测器上运行,该检测器将输出一个与轴对齐的边界框列表,每个定位框对应一个人。 这些盒子中的每一个都独立种植,并送入HRNet,后者由四个并行子网的四个阶段组成,这些子网经过训练以定位作物中仅中央人物的所有人的关节。

HRNet的输出是一组热图,每个人体关节一个。 这些热图的每个像素都表示“包含”关节的可能性。与文献[5、7、14、16、21、24]中的其他方法一样,网络在被预测的热图 $H^{pred}$ 和真实的热图 $H^{gt}$之间使用均方误差损失函数训练。
在这里插入图片描述
其中K是身体关节(关键点)的数量,i,j是像素坐标。 H^{gt}是通过在每个关节的带注释位置上卷积2D高斯滤波器而生成的。

在这里插入图片描述

在这里插入图片描述

(2)视频跟踪网络

在这里插入图片描述

(3)姿态假设的时空融合

在这里插入图片描述

为了克服这些局限性,我们提出了一种新的方法来合并这些假设(图4b-c)。我们的直觉是关节的最佳位置应该是在一个帧内的多个候选帧之间一致(空间约束)和连续帧上一致(时间约束)。我们将预测每个帧中每个关节的最佳位置的问题建模为最短路径问题,并使用Dijkstra算法进行求解[10]。我们没有将每个联合检测视为图中的一个节点,而是对通过在联合假设上运行mean-shift算法得到的簇进行操作[8]。这种聚类可以很好地平滑单个假设中的噪声,同时还可以减小图的大小,从而加快优化速度。作为连续帧中簇cta和ct+1之间的一个相似函数φ,我们计算了一个时空加权函数,它遵循了上述直觉:它有利于具有更多假设的簇和那些在时间上运动更平滑的簇。

形式上:
在这里插入图片描述
其中µ(ct),µ(ct+1)是簇中心的位置,| ct |,| ct+1 |它们的大小和| H |假设的数量。最后,我们使用λ来平衡这些空间和时间约束。

四、实验

(1)数据集和评估

我们用PoseTrack[3]进行了实验,这是一个大规模的视频人体姿态估计和跟踪基准。它包含了一系列具有挑战性的高清晰度人群在密集的人群中表演各种各样的活动。我们对这个基准的2017和2018版本进行了实验。PoseTrack2017包含250个用于培训的视频,50个用于验证,214个用于测试。PoseTrack2018进一步增加了2017年版本的视频数量,共593个用于培训,170个用于验证,375个用于测试。这些数据集用15个身体关节进行注释,每个关节都被定义为一个点,并与一个唯一的人id相关联。训练视频用30帧的单一密集序列进行注释,同时验证视频还为每四帧提供注释,以便评估远程跟踪。
[3] Mykhaylo Andriluka, Umar Iqbal, Eldar Insafutdinov, Leonid Pishchulin, Anton Milan, Juergen Gall, and Bernt Schiele. PoseTrack: A benchmark for human pose estimation and tracking. In CVPR, 2018.

我们使用标准的人体姿势估计[19,24,27]和跟踪[3,20]指标评估我们的模型:联合检测性能用平均精度(AP)表示,跟踪性能用多目标跟踪精度(MOTA)表示。我们在每个身体关节上独立计算这些指标,然后通过对关节的平均值来获得我们的最终性能。正如文献[13,30,34]中所做的那样,当我们对这些数据集的验证集进行评估时,我们计算了所有局部身体关节的AP,但是我们在计算MOTA之前对低置信度的预测设置了阈值。在我们的实验中,我们在训练集的保持集上学习每个关节的阈值。此外,我们经常把这些短的轨迹(<5帧),小的背景框(W*H < 3200)(这些通常捕捉不到标签)和一些在背景中的人移走。

(2)实施细节

(3)与最新技术的比较

我们将我们的方法与文献中有关人体关节检测和跟踪的最新方法(SOTA)进行比较,这些方法是在PoseTrack2017(表1和表2)和PoseTrack2018(表3和表4)的验证集上进行的。我们的方法在两个度量、两个数据集以及自顶向下和自底向上方法上都能获得SOTA结果。在某些情况下,相对于SOTA的改进是显著的:PoseTrack2017上的mAP为6.5(误差减少率为28%),PoseTrack2018的MOTA为+3.0(误差减少为9%)。与仅自上而下的方法(这是该方法所属的类别)相比,MOTA的改进更为显著,比上一次PoseTrackChallenge(FlowTrack,65.4 vs 71.6)高出PoseTrack2017的+6.2(误差减少18%),显示了同时执行联合检测和跟踪的重要性。

下一步,我们评估我们的方法在PoseTrack 2017(表5)和PoseTrack 2018(表6)的测试集上。这些集合的注释是私有的,我们通过向评估服务器提交我们的预测结果[1]。同样,我们的方法在两个测试集(+3 MOTA)上都取得了最好的跟踪结果,并且在联合检测方面与SOTA的结果不相上下,尽管我们的模型实际使用的数据少于PoseTrack2018上的竞争对手。

(4)方法分析

我们现在分析我们的方法和超参数选择。为了简单起见,我们只在PoseTrack2017的验证集上运行我们的实验,使用第4.2节中描述的设置。除非特别说明,我们不使用我们的时空合并程序(3.3节)保持我们的分析透明,因为这可以纠正一些错误。

我们的三维HRNet在长度为| C |的时空管上运行。在4.2节,我们将这个值设置为9,这样我们的剪辑跟踪网络和视频跟踪管道都可以从丰富的时间信息中获益。在这里,我们将研究当我们改变这个超参数时性能是如何变化的(图5a)。设置| C |=1相当于运行上一节中介绍的基线2D HRNet,它在所有变体中实现了最低的性能。有趣的是,最大的改进是从1移动到3,这表明很少的时间信息已经足以补偿人检测器的许多故障。进一步增加| C |会导致mAP和MOTA的缓慢但稳定的改进,因为模型可以从更多错误中恢复。我们在图5a中定量地显示了这种恢复,其中假阴性的数量随着| C |的增加而减少。
在这里插入图片描述

在4.2节,我们将其设置为1,这样我们的方法可以使用视频的每一帧作为关键帧,并收集最大的姿势假设集。然而,对于某些应用程序来说,这个过程可能太贵了,在这里,我们通过减少关键帧的数量(即增加步长)来评估性能是如何变化的。增加S的值会导致线性速度提高一个因子S,因为我们的方法中最昂贵的两个组件(person detector和3D HRnet)现在只在每个S帧上运行。正如预期的那样,随着S的增加,联合检测和跟踪的结果(图5b)都会减少,因为模型失去了它的时间效益。然而,它们的下降速度很慢,即使我们用最大的步长进行最快的推断,该模型仍然取得了具有竞争力的性能(mAP 78.9和MOTA 67.2),与许多最先进的模型(表1)不相上下。此外,请注意这些结果如何优于我们的基线2D HRNet(地图77.7和MOTA 65.6,图5a,| C |=1),然而这种三维模型实际上更快,因为它每8帧只运行一次它的人检测器,而不是像2D HRNet那样每8帧运行一次。

我们的3D HRNet架构在其早期的2个阶段使用3D卷积(3.1节),因为这些最适合学习正确连接管道内同一个人关节所需的低层对应关系。在本节中,我们将评估不同的网络设计:我们的设计(早期),一个在其最后阶段(最后一个阶段)带有三维过滤器的三维HRNet架构,它学习在小时间窗口上平滑联合预测,以及一个全3D HRNet架构(All),它良好平衡了学习的时间相关性和空间平滑关节点预测。由于训练一个完整的3D HRNet需要相当多的GPU内存,我们在这里用一个轻量级的设置来进行实验,其中| C |=3。结果见表8。作为参考,我们报告了一个没有任何3D过滤器的标准2dhrnet的mAP性能。无论位置如何,添加3D过滤器总是比简单的2D架构有所改进。在不同的选择中,“早期”在检测和跟踪方面都达到了最佳性能,验证了我们的设计。
在这里插入图片描述

五、结论

我们提出了一种新颖的自上而下的视频多人姿态估计和跟踪方法。我们的方法可以通过传播已知的人的位置并通过搜索其中的姿势来恢复其人检测器的故障。我们的方法包括三个部分。利用视频片段跟踪网络对小视频片段进行联合姿态估计和跟踪。然后,利用视频跟踪管道,将剪辑跟踪网络预测出的属于同一个人的轨迹进行合并。最后,基于时空一致性过程,对同一个人进行多个检测,利用时空融合来优化联合位置。我们证明了这种方法能够正确预测人的姿势,即使在包含严重遮挡和纠缠的非常困难的场景中(图6)。最后,我们通过在PoseTrack 2017和2018数据集以及针对所有自上而下和自下而上方法的联合检测和跟踪方面取得了最先进的结果,展示了我们方法的正确性。
在这里插入图片描述

在这里插入图片描述

六、个人思考

参考

CVPR 2020 论文大盘点-人体姿态估计与动作捕捉篇

标签:视频,tracking,videos,HRNet,估计,跟踪,关节,方法,我们
来源: https://blog.csdn.net/njuptalex/article/details/111544570