其他分享
首页 > 其他分享> > PaStaNet: Toward Human Activity Knowledge Engine

PaStaNet: Toward Human Activity Knowledge Engine

作者:互联网

文章:https://arxiv.org/abs/2004.00945

代码:https://github.com/DirtyHarryLYL/HAKE-Action

官网:home


目录

0 思路和贡献

1 要解决什么问题

 2 使用的方法

2.1 PaStaNet数据集 

2.2 模型

 3 结语


0 思路和贡献

本文提出了一种新的姿态估计思路

核心思路:首先推理human part states(即PaSta,形式如<hand,hold,something>),再用part-level的语义去推理动作。首先用一个叫Activity2Vec的模型去提取PaSta特征,再用一个基于PaSta的方法去推理activity(个人理解:提取人动作分为原子级别如手,脚的状态特征,然后通过所有的原子级别状态,推理出人体动作,即单词->句子的方式,本文中的“单词库”就是PaStaNet数据集

一句话总结:提出了一种基于知识驱动(识别人体不同部分以及每个部分的状态,并推理出行为信息)的图像级行为理解方法。

主要贡献:

                1.构建了PaStaNet数据集,这是第一个带有细粒度PaSta标注的大规模活动知识库

                2.提出了一种新的提取零件级活动表示的方法Activity2V ec和一种基于语义的推理方法

1 要解决什么问题

现有的基于图像的活动理解方法主要采用直接映射,即从图像到活动概念的映射,做法通常是基于实例级别,对关键点的定位或者外观来预测人体动作,这种粗粒度(个人理解:比如人体的拉与推手上的动作是很相似的,光靠关节点位置和外观并不能有效识识别到底是推还是拉,于是对动作的识别始终停留在跑,跳等比较粗糙的动作上)的特征提取方法已经到了瓶颈。此外,之前的模型在不同的数据集上性能也会有所不同(可能不同数据集上的同一运动类别的特征不同,导致不能有效地识别

目前基于图像的行为识别方法都是 adopt direct mapping,基于实例级别的特征或知识这种方法目前已经碰到瓶颈了

下图左图就是之前方法实现Human Object Interaction(后文简称HOI)的基本思路。

image-20210318101318991

 2 使用的方法

主要方法就是知识驱动的行为理解

整体思路就是,先检测人的各个部分以及对应的状态,再通过这些状态识别行为类别

2.1 PaStaNet数据集 

下文先开始介绍数据集构建的过程:

1. PaSta Definition:即问题抽象。

2. Data Collection:收集数据,通过众包以及现有数据集获取,最终选择了20万张。
3. Activity Labeling:标注行为。行为类别主要是人类日常行为以及一些常见的HOI行为,最终选择了11.8万张图片以及 156 类HOI标签,具体类别看附录。
4. Body Part Box:先进行姿态估计,再通过姿态结果获取human parts。

5. PaSta Annotation:标注body part states,即人体每一部分的状态。现通过众包标注,大概有22万的标注结果。大概过程如下
        1)根据前文的156类行为以及WordNet,选择200个动词,如手部state包括hold pick,头部state包括eat/talk to。
        2)寻找对迁移学习帮助最大的人体状态。找了150人来标注1万张图片的详细PaSta。
        3)根据标注结果,通过NPMI方法(?)来计算行为以及PaSta的co-occurrence。选择76个NPMI得分高的PaSta。
        4)通过上面1万张图片的标注结果作为引子,自动生成其他图片的 PaSta 标签,让其他210个标注者对自动生成的结果进行改进。
        5)由于每个人同时可能有多个动作,所以标注10个PaSta(?)。
        6)为了确保质量,每张图片标注两次,以及通过自动/手动方式质检。

image-20210318110353038
        最终,获得11.8万图片,28.5万人物bbox,25万物体bbox,72.4万行为标签,7百万PaSta标签。

2.2 模型

image-20210318161637078

 image-20210318170948467

 

image-20210318171322166

 3 结语

(1)本文提出了一种新思路 从图片-human parts-human parts states-行为识别,是一种高效的新思路。

(2)本文是可作为基本研究,可作为其他研究的前置研究。

标签:Engine,Knowledge,特征,human,part,PaStaNet,PaSta,行为,标注
来源: https://blog.csdn.net/qq_41845951/article/details/121678207