其他分享
首页 > 其他分享> > 3D Vision 十讲:第七讲

3D Vision 十讲:第七讲

作者:互联网

目录​​​​​​​

九、Structure from Motion

1、三角测量与相机姿态

2、Structure from Motion

(1)从2D tracks做SFM(用刚体分解封闭形式解做粗解)

(2)使用BA对SFM进行Refine(用非线性优化方法做精细解)


九、Structure from Motion

1、三角测量与相机姿态

首先考虑这样一个问题:假定我们已知相机之间的姿态、图像中二维点坐标。那么我们怎样重建出三维点的位置呢?根据我们上一讲的知识已经知道,我们可以通过三角测量的原理:\textbf{x} = \textbf{P}\textbf{X}可以得到三维坐标\textbf{X}的值。

而反过来,如果我们知道三维空间点的位置以及它们投影到图像平面点的位置,内参已知(在实际应用中通常已知)、那么怎样求出相机投影矩阵\textbf{P}呢?

 我们把方程列出来不就行了?

\left(\begin{array}{c} x \\ y \\ 1 \end{array}\right) \sim\left[\begin{array}{ccc} f x & 0 & c x \\ 0 & f y & c y \\ 0 & 0 & 1 \end{array}\right] \cdot\left[\begin{array}{cccc} r_{11} & r_{12} & r_{13} & t_{1} \\ r_{21} & r_{22} & r_{23} & t_{2} \\ r_{31} & r_{32} & r_{33} & t_{3} \end{array}\right] \cdot\left[\begin{array}{c} X \\ Y \\ Z \\ 1 \end{array}\right]

很显然一个点提供两个方程,而姿态矩阵中有12个未知参数,如果像第四讲那样用6个点解出来,那么实际上是有问题的。因为在第四讲中,相机内参是未知的,而这里通常是已经标定好的相机。所以在这里用6个点求出的解(这就是DLT算法:Direct Linear Transform),并不满足要求,因为在[\textbf{R}|\textbf{t}]中,旋转矩阵只有三个未知数。所以经过6个点求出来的结果,对左边的3×3矩阵用QR分解,求出最接近的旋转矩阵。偏移向量就不用改变。

2、Structure from Motion

那么我们有没有一次性估计三维空间点和相机姿态的方法?

当然有,这就是Structure from Motion方法(在机器人领域通常叫做SLAM,它们其实是一回事)。而在只有二维对应点已知,相机姿态和三维空间点未知均未知的情况,对于上一小节的问题来说是一个鸡生蛋蛋生鸡的问题,但是很幸运,这个问题可解。

SFM的一个前提是三维形状是刚体的,刚体的意思是在每一张图像中,它的形状都不会改变

SFM已知条件:一个单目拍摄视频或者一系列图像

需要求:同时重建出三维形状和相机姿态

 Structure From Motion 的管线 

我们在本文中,主要对最后的两个阶段:粗解和精细解进行介绍

(1)从2D tracks做SFM(用刚体分解封闭形式解做粗解)

考虑一下,我们有M个三维点,投影到N张图像中。那么根据相机投影那一章的介绍,建立三维空间点和二维图像点之间的投影关系\textbf{x} = \textbf{P}\textbf{X}。而我们目前只介绍了不同相机的透视投影,并没有介绍正交投影,但是在这里我们也考虑正交投影的情况。

对于透视投影建立二维平面观测点和三维空间点以及相机矩阵的关系:

\underbrace{\left[\begin{array}{ccc} \mathbf{x}_{1}^{1} & \ldots & \mathbf{x}_{M}^{1} \\ 1 & \ldots & 1 \\ \vdots & \ddots & \vdots \\ \mathbf{x}_{1}^{N} & \ldots & \mathbf{x}_{M}^{N} \\ 1 & \ldots & 1 \end{array}\right]}_{\mathbf{W_{3N\times M}}} = \underbrace{\left[\begin{array}{c} \mathbf{P}^{1} \\ \vdots \\ \mathbf{P}^{N} \end{array}\right]}_{\mathbf{P_{3N\times 4}}} \underbrace{\left[\begin{array}{ccc} \mathbf{X}_{1} & \ldots & \mathbf{X}_{M} \\ 1 & \ldots & 1 \end{array}\right]}_{\mathbf{X_{4 \times M}}}

其中

{\left[\begin{array}{ccc} \mathbf{x}_{1}^{1} & \ldots & \mathbf{x}_{M}^{1} \\ 1 & \ldots & 1 \end{array}\right]}

表示第1张图像中的M个二维观测点坐标,在这里用的是二维坐标的齐次表示。

对于正交投影:

\underbrace{\left[\begin{array}{ccc} \mathbf{x}_{1}^{1} & \ldots & \mathbf{x}_{M}^{1} \\ \vdots & \ddots & \vdots \\ \mathbf{x}_{1}^{N} & \ldots & \mathbf{x}_{M}^{N} \end{array}\right]}_{\mathbf{W_{2N\times M}}}=\underbrace{\left[\begin{array}{c} \mathbf{R}^{1} \\ \vdots \\ \mathbf{R}^{N} \end{array}\right]}_{\mathbf{R_{2N\times 3}}} \underbrace{\left[\begin{array}{lll} \mathbf{X}_{1} & \ldots & \mathbf{X}_{M} \end{array}\right]}_{\mathbf{X_{3\times M}}}

对于正交投影,我们这里不使用齐次坐标的表示。

不管是正交投影还是透视投影,目标都是从一个单目视频中的2D点\textbf{W}当中推测出运动因子(\textbf{P,R}),还要推测出三维点\textbf{X}坐标。

我们从正交投影进行分析:下面的分析和透视投影无关, 上面的矩阵式可以写成下面:

\textbf{W} = \textbf{R}\textbf{X}

因为\textbf{R}是一个2N×3的矩阵,\textbf{X}是一个3×M的矩阵。因为 rank(AB)<= min(rank(A), rank(B)),且在这里矩阵\textbf{R},\textbf{X}的列均独立,所以\textbf{W}矩阵的秩为3。但是观测矩阵\textbf{W}经常含有噪声,因此它的秩很可能小于3,所以实际上要对它进行强制约束秩为3。对观测矩阵进行SVD分解:

\mathbf{W}=\mathbf{U A V}^{\top}=[\mathbf{U} \sqrt{\boldsymbol{A}}]\left[\sqrt{\boldsymbol{A}} \mathbf{V}^{\top}\right]=[\mathbf{U} \sqrt{\boldsymbol{A}} \mathbf{Q}]\left[\mathbf{Q}^{-1} \sqrt{\boldsymbol{A}} \mathbf{V}^{\top}\right]

我们令

\textbf{R}=[\mathbf{U} \sqrt{\boldsymbol{A}} \mathbf{Q}] \\ \\ \qquad \textbf{X}=\left[\mathbf{Q}^{-1} \sqrt{\boldsymbol{A}} \mathbf{V}^{\top}\right]

就是我们要找的解,但是要注意,这里的\textbf{Q}的存在说明了歧义性的问题,而这个矩阵为单位矩阵时就是一种特殊情况。当然这里的\textbf{Q}必须要可逆。

上面的一小段分析都是针对正交投影的,如果是透视投影呢?

  1. 先假定一个正交相机,求得参数后,然后再迭代地进行逼近到透视投影下的解
  2. 同样的对观测矩阵进行SVD分解,并让它的秩强行约束到4就行了,方法和上面SVD分解一模一样。

Missing Tracks的问题:在很多时候,我们对三维空间中的M个点,不能呈现在所有N张图像中(因为相机姿态改变引起的遮挡等原因)。用一个形象的例子,比如下面的例子:

 

解决的方法:

  1. 使用矩阵填充(也叫矩阵恢复)算法对观测矩阵进行恢复,然后再使用上面的SVD分解方法进行求解
  2. 不对矩阵进行填充,使用非线性优化算法,进行迭代地预测相机、三维坐标、缺失观测点。

(2)使用BA对SFM进行Refine(用非线性优化方法做精细解)

因为观测矩阵中存在噪声,所以上述投影方程很难精确的满足。所以这里我们考虑取求\textbf{R},\textbf{X}以便让三维投影到图像平面的点和实际观测点尽可能接近。这就是BA(捆集调整法的来源)

而BA的数学思想是最小化如下的重投影误差:

\min _{\mathbf{R}^{i}, \mathbf{X}_{p}} \sum_{i=1}^{i=N} \sum_{p=1}^{p=M} d\left(\mathbf{R}^{i} \mathbf{X}_{p}, \hat{\mathbf{x}}_{p}^{i}\right)^{2}

其中\textbf{R}^{i}是针对每一张图像进行估计,对每一个二维观测点估计它的三维位置\textbf{X}_{p}。这个方法之所以叫捆集调整法Bundle Adjustment,因为它对相机之间的射线捆和三维点进行调整。它通常作为重建算法的最终步骤。

它的好处是:

  1. 可以处理Missing Tracks问题
  2. 对观测噪声鲁棒
  3. 其它先验约束可以很方便加进来

它的不足是:

  1. 它是一个非凸问题,需要一个很好的初始化解
  2. 很容易因为数据的增加,变成一个大规模的最小化问题

通常情况下,我们使用Levenberg-Marquardt方法用来最小化上述的最小化重投影误差问题。很显然需要计算损失函数相对于待求参数的微分,即雅可比矩阵Jacobian matrix。

减少计算复杂度的方法:

  • 把所有数据分成小的集合,对每个小的集合分别进行BA,然后进行融合
  • \textbf{R},\textbf{X}进行分步迭代计算
  • 对雅可比矩阵的计算很复杂,可以使用一个二值化模式(Binary Pattern)进行逼近

先验知识引入:

对于一段视频使用SFM方法重建出刚体最直观的先验是temporal smoothness(时间平滑)。由于物体是刚体的,很显然只对于运动信息\textbf{R}进行先验约束。当然对于搜集的图片肯定不能使用这种先验。下面第二项是新加入的先验项,它希望相邻两帧的运动信息不会有剧烈变化,这种约束是非常合理有用的。

\min _{\mathbf{R}^{i}, \mathbf{X}_{p}} \sum_{i=1}^{i=N} \sum_{p=1}^{p=M} d\left(\mathbf{R}^{i} \mathbf{X}_{p}, \hat{\mathbf{x}}_{p}^{i}\right)^{2}+\phi \sum_{i=1}^{N-1}\left\|\mathbf{R}^{i}-\mathbf{R}^{i+1}\right\|_{\mathcal{F}}^{2}

标签:正交投影,SFM,矩阵,投影,三维,相机,十讲,Vision,3D
来源: https://blog.csdn.net/u010772377/article/details/118604223