深度估计-02-Feature-metric Loss for Self-supervised Learning of Depth and Egomotion
作者:互联网
ECCV2020
提出问题
1、目前的自监督深度估计大多采用光度误差作为约束方式,当存在低纹理区域时,由于在低纹理区域,即使深度图和位姿矩阵估计得不好,算出来的光度误差也会小,因此,光度误差在此时容易陷入局部最小。
Contribtion
1、提出Feature-metric loss,优化深度估计网络和位姿估计网络。
2、采用FeatureNet, 优化输入深度估计网络的特征。结合正则化损失,优化低纹理区域和局部最小区域。
Related Work
问题1:作者认为目前自监督深度估计范式存在的问题有moving object的问题,由于单目深度估计主要是通过预测的位姿图和深度图进行视角合成,然后通过光度误差来约束位姿图和深度图。这个设定是建立在Target view和Source view间只有相机在运动而没有物体在运动的条件下的,如果物体在运动,那么将会出现“无穷远”的预测点。
解决这个问题的方法有几种:(暂时没有深入调研,只翻译总结下,调研后再回来补充)
1)通过光流法,估计并补偿运动像素点。
2)通过预训练网络对运动目标进行分割。
3)额外loss约束,引入几何先验信息;
4)强化特征表征。目前有reconstructing input data、predicting spatial transformations、coloring grayscale input images这几种做法。
Method
Overview
概括主要有三点,
1) Extra regularizers: and
这一部分主要是提出了Discriminative loss 和Convergent loss,作为正则项,前者通过约束低纹理区域对应的loss更大来强调低纹理区域应当具有更大的梯度,而后者通过约束各像素位置区域的二阶导更小,来鼓励梯度优化面变得平滑,从而避免loss进入局部最小。
文中说公式11会鼓励p点有更大的梯度,但按照公式11来看,应该是更小才对,不太理解。
公式12这个项I(p)的一阶偏导,如果较小的话,代表此时是图像低纹理区域,因为梯度表示变化嘛,那此时对应的loss就会变大,使得强调低纹理区域的特征。
公式13是求特征图的二阶偏导,二阶偏导表示梯度的变化速度,约束二阶偏导变小,可以使得优化面变得更平缓,从而避免出现局部最小点。
2) Feature-metric loss
经过FeatureNet的Encoder后,将输出特征图进行视角重构得到,而后计算feature-metirc loss。其实就是对特征图计算光度误差。
此外,采用了monucular2中多视角误差取min得做法,避免遮挡情况出现。
Implementation details
使用了多层decoder的输出生成multi-scale重构图片,其中正则化损失和feature-metric loss只加在最大的feature map上。
使用了类似Depth prediction without the sensors中那样的online refinement策略。在后续的消融实验中有进行公平对比。
标签:02,Loss,误差,Egomotion,loss,区域,纹理,估计,metric 来源: https://blog.csdn.net/qq_40600539/article/details/120833757