【CVPR 2022】 论文阅读:Ray3D: ray-based 3D human pose estimation for monocular absolute 3D localization
作者:互联网
论文地址:https://arxiv.org/abs/2203.11471
Github:https://github.com/YxZhxn/Ray3D
单位:Aibee、北京工商大学
摘要
在本文中,我们提出了一种新的基于单目光线的3D(Ray3D)绝对人体姿势估计方法。从单目二维位姿输入精确且可推广的绝对三维人体位姿估计是一个不适定问题。为了解决这个问题,我们将输入从像素空间转换为3D标准化光线。这种转换使我们的方法对相机固有参数的变化具有鲁棒性。为了处理原始相机外部参数的变化,Ray3D明确地将相机外部参数作为输入,并联合建模3D姿势光线和相机外部参数之间的分布。这种新颖的网络设计是实现Ray3D方法卓越通用性的关键。为了全面了解相机内部和外部参数变化对绝对3D关键点定位精度的影响,我们在三个单人3D benchmark和一个合成benchmark上进行了深入系统的实验。这些实验表明,我们的方法明显优于现有的先进模型。
1&2 Inrtroduction&Related work
这部分还是只写一下作者的出发点,以及研究贡献。
相机内参和外参的介绍:https://zhuanlan.zhihu.com/p/144307108
在相机成像的过程中,三维世界的物体被投影到像素坐标上,是一个三维到二维的过程。人体2D关键点的像素位置(即在像素坐标系下的位置)由世界坐标系下人体大小、相机外部参数、相机内部参数和3D位置共同决定。这些因素为3D姿态估计带来了模糊性。如Figure1所示,(a)中身体大小和到摄影机的距离都放大两倍,则投影在相机上的二维关键点位置保持不变,同理(b)中焦距和距离都扩大两倍,在相机上得到的投影位置也保持不变。这样一来,便可得知在世界坐标系下,不同参数的组合可能得到相同的二维投影,如此一来,仅仅是简单的地学习从2D像素位置映射到3D世界位置的模型可能是错误的。
为了解决这些模糊性,人们提出了许多单目3D人体估计方法,主要分为两种:(1)lifting methods;(2)image based methods。lifting methods 讲2D人体姿势作为输入,将2D姿势提升为3D姿势。一些提升方法根据图像分辨率和相机主点对输入进行标准化。虽然这些归一化方案在一定程度上提高了泛化能力,但由于摄像机固有参数的变化,它们无法完全解决模糊问题。(本质上还是因为图像到2D pose这个过程丢失了深度信息)。image based methods基于身体大小的先验信息估计3D 根位置。还有些方法,基于图像的人体深度估计,进行绝对根关键点定位。这些基于学习的深度估计方法存在的问题是缺乏足够的训练数据,并且存在视点变化。
为了更有效的解决这个问题,作者提出了Ray3D。首先,为了有一个不变的内在参数表示,作者将像素空间中的二维关键点转换为规范化三维空间中的三维光线。通过这种简单的设计,Ray3D方法不受相机内在参数变化的影响,实现了稳定的性能。受Videopose和RIE的启发,作者使用时间卷积来融合连续帧中的3D光线,以进一步解决遮挡带来的模糊性,并提高准确性。这种时间融合机制稳定了输出,并生成更精确的3D位置。其次,作者将摄像机的外部参数联合嵌入到网络中,相机外部参数包含精确的3D人体姿势估计的基本信息。作者认为,利用相机外部参数是解决人体部位尺寸模糊的唯一方法。
主要贡献:
(1)将输入空间从二维像素空间转换为规范化坐标系中的三维光线。这种简单的设计有效地规范化了摄像机固有参数变化以及摄像机俯仰角变化带来的变化。
(2)提出了一种新颖而简单的网络,该网络利用摄像机外部参数学习摄像机嵌入,并联合建模摄像机外部参数和三维光线的分布。
(3)提供了一个全面和系统的基准,现有的3D方法在鲁棒性方面对摄像机姿态的变化,以及跨数据集的泛化。
(4)在三个真实基准数据集和一个合成数据集上的实验清楚地证明了Ray3D方法的优势
标签:摄像机,based,pose,像素,相机,参数,Ray3D,3D 来源: https://www.cnblogs.com/Nothing-is-easy/p/16070844.html