其他分享
首页 > 其他分享> > RMPE: Regional Multi-person Pose Estimation

RMPE: Regional Multi-person Pose Estimation

作者:互联网

       alphapose系统是以RMPE区域多人姿态估计为框架的多人姿态估计系统。复杂环境中的多人姿态检测是非常具有挑战性的,现在最好的人体检测算法虽然已经得到了很好的效果,但是依然存在一些错误,这些错误会导致单人检测任务(SPPE)失败,尤其是那些十分依赖人体框检测结果的。

背景

       当前姿态估计主流为两种方法,第一种是两步法,先检测人体边界盒,再单独估计一个盒子内部的姿态,另一种是基于部分的框架,单独估计人体的各个部分,再将这些部分分给各个人,这种方法失去了全局意识。RMPE采用了自顶向下的方法,在两步法的基础上进行了改进来解决问题,最大化SPPE的作用。

框架

 

       RMPE框架主要包含三个部分——SSTN,PGPG,NMS。SSTN主要是解决生成的姿态不够精确的问题。SSTN能够自动调节输入SPPE的图像,再将估计的姿态输出回原空间。主要任务就是在不怎么准确的bounding box中提取高质量的单人姿态。PGPG是由姿态引导的样本生成器, 学习不同姿态下人体检测器的输出分布,模拟人体边界盒的生成,用来增强训练数据。NMS是一个非极大值抑制器,用来消除冗余姿态。

       RMPE应用实验中将人体边界框在长宽方向上延长30%,确保将整个人完整的框起来。经过STN网络将延伸过的图像进行仿射变换,生成一个比较精确的、适合SPPE的输入,把SPPE的输出经过SDTN进行反向变换,把坐标变换回原来的坐标系中,完成识别过程。最终再经过NMS进行改进,消除冗余,得到最终姿态。

 

       SSTN:STN接受一个由定位网络生成的参数θ,通过2D仿射运算生成一个更适合输入SPPE的区域,SPPE输出的姿态形成于STN输入的图像中,再通过SDTN返回原图坐标中,SDTN所需要的参数γ由STN传送过来的θ得到。

       Parallel SPPE:在训练阶段添加一个Parallel SPPE分支,在测试阶段会去除。通常SDTN的补偿会使网络产生更少的错误,从而产生局部最小值,而这些错误是训练STN所必须的。Parallel SPPE相当于一个正则化器,避免局部最小值的出现。正则化防止过拟合,过拟合是指学习的太彻底,将误差也学习进去了。

       PGPG:为了使SSTN+SPPE能够适应检测出来形状奇怪的检测结果,我们已经有了每一个人的真实位置和检测出来的定位框,我们可以通过他们一致的样本生成一个大样本的训练集。通过这种技术,我们可以进一步提高系统的性能。

       Parametric Pose NMS:在定位过程中不可避免会出现冗余现象,一个人体检测出多个姿态。对一个人的姿态P,有m个关节点,其中k和c表示坐标位置和置信度分数。将有最高置信度的姿态作为参考,也就是估计值和总体参数在允许大误差范围内概率大的。靠近它的姿态通过消除标准消除,重复执行直至只剩一个姿态。

实验

 

       实验:将以RMPE为框架的人体姿态识别系统在MPII数据集上进行实验,将3844张图片进行训练,将1758张进行测试,存在遮挡和重叠现象。

       结果:在MPII数据集中,在识别困难的关节比如手腕、手肘、脚踝和膝盖的平均精度实现了72 mAP,比之前的最先进的结果高3.3 mAP。通过使用更强的人体探测器和姿态估计器,我们可以进一步实现82.1 mAP,其中比之前的最佳结果高4.6 mAP。

标签:SPPE,RMPE,Regional,检测,Pose,SSTN,姿态,人体
来源: https://blog.csdn.net/weixin_45436729/article/details/119349926