PointRCNN
作者:互联网
PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud
CVPR 2019
Abstract
在本文中,我们提出了PointRCNN用于从原始点云进行3D目标检测。 整个框架由两个阶段组成:第1阶段用于自底向上的生成3D proposal,第2阶段用于在canonical coordinates中refining proposal以获得最终的检测结果。我们的第1阶段子网络不是像以前的方法那样从RGB图像生成proposal或将点云映射到BEV鸟瞰图或voxel,而是通过自底向上的方式将整个场景的点云分为前景点和背景,从而直接生成少量高质量的3D proposal 。第2阶段子网络将每个proposal的pooled points转换为规范坐标,以学习更好的局部空间特征,并与在第1阶段中学习的每个点的全局语义特征相结合,以进行准确的box refinement和confidence prediction。我们提出的网络仅使用点云作为输入,在KITTI数据集的3D检测基准上进行的大量实验,实现了SOTA。
Challenge
- irregular data format
- large search space of 6 Degrees-of-Freedom (DoF) of 3D object
Conrtibution
- 我们提出了一种新颖的bottom-up的基于点云的3D bounding box proposal generation algorithm,该算法通过将点云分为前景和背景来产生少量高质量的3D proposals。从分割中学习到的point representation不仅利于proposal 生成,而且还有助于后续的box refinement。
- 所提出的canonical 3D bounding box refinement利用了我们从stage-1生成的high-recall box proposals,并学会了在canonical coordinates with robust bin-based losses中预测box coordinates refinements。
- 我们提出的3D检测框架PointRCNN以惊人的幅度胜过最新方法,并且在2018年11月16日的KITTI 3D检测上,仅使用点云作为输入,在所有已发表的作品中排名第一。
Dataset
- 3D object detection benchmark of KITTI dataset
网络结构
backbone:PointNet++1
- the bottom-up 3D proposal generation stage
We observe that objects in 3D scenes are naturally separated without overlapping each other.All 3D objects’ segmentation masks could be directly obtained by their 3D bounding box annotations
Foreground point segmentation
用了focal loss
Bin-based 3D bounding box generation
其中**(x(p),y(p), z(p))是感兴趣的前景点的坐标(xp,yp, zp)**是是其相应目标的中心坐标,**bin(p)x和bin(p)z**是沿X和Z轴的ground-truth bin assignments. res(p)x和res(p)z是ground-truth residual,可用于在assigned bin中进一步细化位置,C是归一化的bin长度.S是前景点的search range,每个1D search range均分为相同长度δ的bin,以表示X-Z平面上不同目标的中心(x,z).bin-based classification for the X and Z axes用cross-entropy loss。X或Z轴的(localization loss)定位损失由两个项组成,一个是沿每个X和Z轴的bin classification,另一个是classified bin中的residual regression。 对于沿垂直Y轴的中心位置y,我们直接利用smooth L1 loss进行回归,因为大多数目标的y值都在很小的范围内。
我们将方向2π划分为n个bin,并以与x或z预测相同的方式计算bin classification target **res(p)θ**和residual regression target res(p)θ。 通过计算残差(res(p)h, res(p)w,res(p)l)可以直接回归目标大小(h,w,l)。 w.r.t整个训练集中每个类的平均目标大小。
为了删除多余的proposals,我们从鸟瞰角度出发基于the oriented IoU进行nonmaximum suppression(NMS),以生成少量高质量的proposals。
- the canonical bounding box refinement stage
Canonical transformation:
(1)原点位于the box proposal的中心;
(2)局部的X’和Z’轴大致平行于地面,其中X‘指向proposal的头部方向,而另一个Z’轴垂直于X’;
(3)Y’轴与LiDAR坐标系相同。
note:坐标转换会损失目标的深度信息。引入点距离作为作为点p的特征。对于每个提案,其关联点的local spatial features和额外特征[r(p),m(p), r(p)]首先被串联并馈送到几个fully-connected layers,以将其局部特征编码为全局特征f§的相同维度。 然后根据1的结构将局部特征和全局特征concatenated并接入网络,以得到用于后续的confidence classification和box refinement的discriminative feature vector。(**m(p) **predicted segmentation mask,**r(p)**反射率)
d ( p ) = ( x ( p ) ) 2 + ( y ( p ) ) 2 + ( y ( p ) ) 2 d^{(p)}=\sqrt{(x^{(p)})^2+(y^{(p)})^2+(y^{(p)})^2} d(p)=(x(p))2+(y(p))2+(y(p))2
LOSS
-
we use the focal loss2 to handle the class imbalance problem(Foreground point segmentation)
-
3D bounding box regression loss Lreg
- Losses for box proposal refinement
实验结果
- Evaluation of 3D object detection
- Evaluation of 3D proposal generation
链接
引用
[1] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. In Advances in Neural Information Processing Systems, pages 5099–5108, 2017.
[2] Tsung-Yi Lin, Priyal Goyal, Ross Girshick, Kaiming He, and Piotr Doll´ar. Focal loss for dense object detection. IEEE transactions on pattern analysis and machine intelligence, 2018.# PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud
标签:box,bin,res,点云,proposal,PointRCNN,3D 来源: https://blog.csdn.net/baidu_32284829/article/details/110119698