2D与3D人体姿态估计数据集
作者:互联网
相关数据集的快速发展促进了基于深度学习的姿态估计方法的发展。公共数据集为不同的方法提供了培训来源和公平的比较。考虑到数据集的规模和姿势和场景的多样性,在本文中,主要介绍了近年来的代表性数据集。它们中大多数都是高质量和大规模的数据集,在不同的拍摄场景中都有良好的注释。
图像级2D单人数据集(待补充)
图像级2D多人数据集(待补充)
视频级2D单人数据集(待补充)
3D单人数据集
Human3.6M
Human3.6M是使用最广泛的多视图单人三维人体姿态基准。该数据集使用4个RGB摄像机、1个飞行时间传感器和10台运动摄像机在4米×3米的室内空间中捕获。它包含了360万个3D人体姿势和15个场景中的相应视频(50FPS),比如讨论、坐在椅子上、拍照等。特别是,三维位置和关键点的角度都是可用的。目前,由于隐私问题,只有7个受试者的数据可用。为了评估,视频通常被每5/64帧向下采样,以消除冗余。方法通常根据两种常用的协议进行评估以进行比较。第一项方案是对5个受试者(S1、S5、S6、S7、S8)进行训练,并对受试者S9和S11进行测试。第二个方案共享相同的训练/测试集,但只评估在正面视图中捕获的图像。
C. Ionescu, D. Papava, V. Olaru, and C. Sminchisescu, “Human3.6M: Large scale datasets and predictive methods for 3D human sensing in natural environments,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 36, no. 7, pp. 1325–1339, 2014.
HumanEva-I
HumanEva-I是一个从3台60Hz摄像机视角拍摄的单人3D姿势数据集。它包含4个主题来执行6个动作。相关方法通常评估由3个参与者S1、S2、S3执行的3个动作、散步、慢跑和拳击。
L. Sigal, A.-O. Balan, and M.-J. Black, “HumanEva: Synchronized video and motion capture dataset and baseline algorithm for evaluation of articulated human motion,” International Journal of Computer Vision, vol. 87, no. 1-2, p. 4, 2010.
MPI-INF-3DHP
MPI-INF-3DHP拍摄在14相机工作室使用商业无标记运动捕捉设备获取地面真相三维姿势。它包含8个演员,表演8个活动。RGB视频从广泛的角度录制。从所有14台相机中都可以捕捉到超过130万像素的帧。除了一个人的室内视频外,他们还提供MATLAB代码,通过混合分段的前景人类外观来生成一个多人数据集MuCo-3DHP。通过提供的身体部分分割,研究人员还可以使用额外的纹理数据来交换衣服和背景。
D. Mehta, H. Rhodin, D. Casas, P. Fua, O. Sotnychenko, W.-P. Xu, and C. Theobalt, “Monocular 3d human pose estimation in the wild using improved cnn supervision,” in 3DV, 2017.
MoVi
MoVi是一个带有3DMoCap注释的大型单人视频数据集。与Human3.6M和MPIINF-3DHP不同,它包含了更多的受试者(60名女性和30名男性)。每个人执行20个预定义的动作和一个自我选择的动作。与运动捕捉同步的视频从正面和侧面两个角度拍摄的。除了三维姿态注释和照相机参数外,MoVi还提供了通过MoSh++获得的SMPL参数。
S. Ghorbani, K. Mahdaviani, A. Thaler, K. Kording, D. J. Cook, G. Blohm, and N.-F. Troje, “MoVi: A large multipurpose motion and video dataset,” arXiv preprint arXiv:2003.01888, 2020.
SURREAL Dataset
SURREAL Dataset是一个大型的合成数据集,通过在背景图像上渲染纹理SMPL模型。SMPL模型由大量的三维运动捕获数据驱动。然而,身体的纹理是有限的和低分辨率的,这使得渲染的二维图像是不现实的。
G. Varol, J. Romero, X. Martin, N. Mahmood, M.-J. Black, I. Laptev, and C. Schmid, “Learning from synthetic humans,” in CVPR, 2017.
AMASS
AMASS是一个大规模的运动捕获(MoCap)数据集。它通过MoSh++将15个MoCap数据集转换为SMPL参数,将这些数据集统一起来。它包含了超过40个小时的运动数据,跨越300多个受试者,和超过110K个运动。通过监督估计的姿态或运动的合理性,积累被广泛用于建立一个先验的人类运动空间。
N. Mahmood, N. Ghorbani, N.-F. Troje, G. Pons-Moll, and M.-J. Black, “Amass: Archive of motion capture as surface shapes,” in ICCV, 2019.
3D多人数据集
3DPW
3DPW 是一个单视图的多人野外3D人体姿势数据集,包含60个视频序列(24个训练、24个测试和12个验证)的丰富活动,如攀岩、高尔夫、在海滩上放松等。这些视频可以在各种场景中拍摄,如森林、街道、操场、购物中心等。尽管场景很复杂,但他们还是利用IMU获得了准确的三维姿态。特别是,3DPW包含了大量的三维注释,包括二维/三维姿态注释、三维身体扫描和SMPL参数。然而,在一些拥挤的场景中(例如。在街道上),3DPW只提供目标人的标签,忽略了路过的行人。通常,整个数据集用于评估,没有任何fine-tuning。
CMU Panoptic Dataset
CMU Panoptic Dataset是一个大规模的多视图和多人三维姿态数据集。目前,它包含65个序列和150万个3D骨架。他们建造了一个令人印象深刻的360度运动捕捉的穹顶,其中包括480台VGA相机(25FPS)、31台高清相机(30FPS)、10台Kinect2传感器(30FPS)和5个DLP投影仪。特别是,它包含了多人的社会场景。多人三维姿态估计方法通常会提取部分数据进行评估。Zanfir等人,和Jiang等人,选择4个社交活动(争吵、黑手党、最后通牒和披萨)中的2个子序列(从高清摄像头16和30中的9600帧)以进行评估。
H. Joo, H. Liu, L. Tan, L. Gui, B. Nabbe, I. Matthews, T. Kanade, S. Nobuhara, and Y. Sheikh, “Panoptic studio: A massively multiview system for social motion capture,” in ICCV, 2015.
H. Joo, T. Simon, X.-L. Li, H. Liu, L. Tan, L. Gui, S. Banerjee, T.-S. Godisart, B. Nabbe, I. Matthews, T. Kanade, S. Nobuhara, and Y. Sheikh, “Panoptic studio: A massively multiview system for social interaction capture,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.
Joint Track Auto (JTA) Dataset
Joint Track Auto (JTA) Dataset是一个用于多人三维姿态评估的逼真的合成数据集。JTA是使用著名的电子游戏《Grand Theft Auto 5》生成的,它包含了512段行人在城市场景中行走的高清视频。每个视频有30秒长,录制为30帧每秒。
标签:视频,.-,三维,2D,数据,姿态,3D 来源: https://blog.csdn.net/m0_50811752/article/details/116356032