其他分享
首页 > 其他分享> > 【目标检测与深度学习】基于深度引导卷积的单目3D目标检测(阅读笔记)

【目标检测与深度学习】基于深度引导卷积的单目3D目标检测(阅读笔记)

作者:互联网

引言

单目3D目标检测最大的挑战在于无法得到精确的深度信息,传统的二维卷积算法不适合这项任务,因为它不能捕获局部目标及其尺度信息,而这对三维目标检测至关重要。

论文:https://arxiv.org/pdf/1912.04799v1
代码:https://github.com/dingmyu/D4LCN
参考paddle复现:3D目标检测(单目)D4LCN论文复现(https://aistudio.baidu.com/aistudio/projectoverview/public
参考链接:https://mp.weixin.qq.com/s/uwKzd2ArS-qBPHSdNmoxzg

Abstract

为了更好地表示三维结构,现有技术通常将二维图像估计的位深度转换为伪激光雷达表示,然后应用现有3D点云的物体检测算法。因此他们的结果在很大程度上取决于估计深度图的精度,从而导致性能不佳。在本文中,作者通过提出一种新的称为深度引导的局部卷积网络(LCN),更改了二维全卷积(D4LCN),其中的filter及其感受野可以从基于图像的深度图中自动学习,使不同图像的不同像素具有不同的filter。克服了传统二维卷积的局限性,缩小了图像表示与三维点云表示的差距。D4LCN对于最先进的KITTI的相对改进是9.1%,单目3D检测的SOTA方法。

Introduction

3D目标检测有许多应用,如自动驾驶和机器人技术。LiDAR设备可以获得三维点云,从而获得精确的深度信息。但是,LiDAR高成本和稀疏输出的特点让人们希望寻找到更便宜的替代品,这些替代品的其中之一二维单目相机。虽然单目相机引起了人们的广泛关注,但在很大程度上不能够解决3D目标检测问题。实现上述目标的方法通常是分为基于2D图像的方法和基于伪激光雷达点的方法两种。基于图像的方法通常利用几何约束,包括对象形状、地平面和关键点。这些约束条件在损失函数中用不同的项表示,以提高检测结果。基于伪激光雷达的图像深度变换方法是通过模拟激光雷达信号的点云表示。如图1所示,这两种方法各有缺点,都导致了性能不理想。
在这里插入图片描述
图1.(a)和(b)分别显示了监督深度估计器DORN和无监督单深度生成的伪激光雷达点.绿色框表示groundtruth(GT)3D框.如(b)所示,由于深度不准确而产生的伪激光雷达点与GTbox有较大的偏移量(c)和(d)显示了我们的方法和伪激光雷达使用粗深度图的探测结果.效果在很大程度上取决于估计深度图的精度,而我们的方法在缺少精确深度图的情况下可以获得准确的检测结果

我们的贡献(1)提出了一种新的三维目标检测组件D4LCN,其中深度图指导了单目图像的动态深度扩展局部卷积的学习(2)设计了一个基于D4LCN的单级三维物体检测框架,以更好的学习三维特征,以缩小二维卷积和基于三维点云的运算之间的差距(3)大量实验表明,D4LCN优于最先进的单眼3D检测方法,并在KITTIbenchmark上取得第一名.

网络结构

我们的框架由三个关键组件组成:网络主干、深度引导滤波模块和2D-3D head。
在这里插入图片描述
图3.单目三维物体检测框架.首先从RGB图像中估计出深度图,并与RGB图像一起作为输出两个分支网络的输入.然后利用深度引导滤波模块对每个残差块的信息进行融合.最后,采用一级非最大抑制探测头(NMS)进行预测。

损失函数

在这里插入图片描述
比较结果
我们在kitti数据集的官方测试集和两组验证集上进行了实验.表一包括排名前14位的方法,其中我们的方法排名第一.可以观察到:
(1)我们的方法比第二个最好的竞争对手三维汽车检测的提高9.1%
(2)大多数竞争对手在COCO/KITTI上预先训练的检测器(例如更快的rcnn)或采用多阶段训练来获得更好的2D检测和稳定的3D结果.而我们的模型是使用标准的ImageNet预训练模型进行端到端训练的.然而,我们仍然取得了最优异的三维检测结果,验证了我们的D4LCN学习三维结构的有效性.
在这里插入图片描述
表1.KITTI 3D目标检测数据集的比较结果。
因为人是非刚体.其形状多变,深度信息难以准确估计.因此,对行人和骑自行车的人进行三维检测变得尤为困难,所有基于伪激光雷达的方法都无法检测到这两种类型的传感器,如表2所示.该方法在行人和骑车人的三维检测中仍取得了令人满意的效果.此外,我们还在图4中显示了与我们的D4LCN的不同滤波器相对应的活动映射.我们模型的同一层上的不同滤波器使用不同大小的感受野来处理不同规模的物体,包括行人(小)和汽车(大),以及远处的汽车(小)和附近的汽车(大)。
在这里插入图片描述
表2.D4LCN在三个数据分割上的多类3D检测结果
在这里插入图片描述
图4.D4LCN的不同滤波器对应的活动,分别表示1,2,3的扩张率.不同的滤波器在模型中有不同的函数来自适应地处理尺度问题.

总结

本文提出了一种用于单眼三维目标检测D4LCN,其卷积核和感受野(扩张率)对于不同图像的不同像素和通道是不同的。这些核是在深度映射的基础上动态生成的,以弥补二维卷积的局限性,缩小二维卷积与基于点云的三维算子之间的差距。结果表明,该算法不仅能解决二维卷积的尺度敏感和无意义的局部结构问题,而且能充分利用RGB图像的高级语义信息。而且D4LCN能更好地捕获KITTI数据集上的三维信息,并能在KITTI数据集上进行三维目标检测。

标签:深度图,D4LCN,卷积,检测,三维,单目,深度,3D
来源: https://blog.csdn.net/qq_44703886/article/details/118547344