Stereo R-CNN 3D 目标检测论文解析:
作者:互联网
Stereo R-CNN 3D 目标检测论文解析:
首先提取左右帧图像的特征,在每个刻度上连接左右特征映射,然后将连接的特征提供给立体声RPN网络,最终分别在左右ROI中使用非极大值抑制(NMS)去除冗余框,然后选择前2000进行训练,选择前300进行测试。
(注意这里RPN中是把左右GT框的联合指定为对象分类的目标。如果锚点与联合GT框之一的IOU大于0.7,则为锚点分配正标签,如果其任何联合框的IOU低于0.3,则为负标签。)
这里有如下几个疑问:
疑问一:ROI Pooling的作用到底是什么?相比它,ROI Align的改进有哪些?
ROI Pooling 的作用是根据预选框的位置坐标在特征图中将相应区域池化为固定尺寸的特征图,以便进行后续的分类和包围框回归操作。由于预选框的位置通常是由模型回归得到的,一般来讲是浮点数,而池化后的特征图要求尺寸固定。故ROI Pooling这一操作存在两次量化的过程。
- 将候选框边界量化为整数点坐标值。
- 将量化后的边界区域平均分割成 k x k 个单元(bin),对每一个单元的边界进行量化。
事实上,经过上述两次量化,此时的候选框已经和最开始回归出来的位置有一定的偏差,这个偏差会影响检测或者分割的准确度。在论文里,作者把它总结为“不匹配问题(misalignment)。
ROI Align 的思路很简单:取消量化操作,使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值,从而将整个特征聚集过程转化为一个连续的操作。
- 遍历每一个候选区域,保持浮点数边界不做量化。
- 将候选区域分割成k x k个单元,每个单元的边界也不做量化。
- 在每个单元中计算固定四个坐标位置,用双线性内插的方法计算出这四个位置的值,然后进行最大池化操作。
疑问二:RPN的步骤?为什么 RPN能够预测 groud truth 的位置?锚点是什么?
答案在这里
标签:ROI,Stereo,特征,浮点数,CNN,量化,3D,单元,RPN 来源: https://blog.csdn.net/weixin_43260345/article/details/98483021