空间金字塔池(SPP)和扩张的卷积被用于扩大接受域。通过这种方式，PSMNet将像素级特征扩展到不同接受场尺度的区域级特征；利用由此得到的全局和局部特征线索来形成成本量，以估计可靠的视差。此外，我们还设计了一个堆叠的沙漏三维CNN与中间监督相结合，以规范成本量。堆叠的沙漏3DCNN以自上而下/自下而上的方式重复处理成本量，以进一步提高全局上下文信息的利用率。

2.相关工作（自己去看）

3. Pyramid Stereo Matching Network

3.1 网络结构

与在其他研究中对第一卷积层应用大滤波器（7×7)相比，三个小卷积滤波器(3×3）被级联来构建一个具有相同接受域的更深的网络。conv1x、conv2x、conv3x和conv4x是学习一元特征提取的基本残余块。对于conv3x和conv4x，应用扩张卷积来进一步扩大接受域。输出特征图尺寸为输入图像尺寸的1/4×1/4，如表1所示。H和W分别表示输入图像的高度和宽度，D表示最大视差。

然后应用SPP模块来收集上下文信息。我们将左右特征图连接到一个成本体积中，并输入一个三维CNN进行正则化。最后，应用回归方法计算了输出视差图。

3.2 Spatial Pyramid Pooling Module

3.3 Cost Volume

采用SPP特征，通过在每个视差级别上连接左特征图与其对应的右特征图来形成一个成本体积，从而得到一个4D体积（高度×宽度×视差×特征大小）。

3.4 3D CNN

为了聚合沿视差维和空间维的特征信息，我们提出了两种用于成本体积正则化的三维CNN架构：基本的和堆叠的沙漏结构。

为了了解更多的上下文信息，我们使用了一个堆叠的沙漏（编码器-解码器）体系结构，包括重复的自上而下/自下而上的处理以及中间监督，如图1所示。堆叠的沙漏结构有三个主要的沙漏网络，每个网络都生成一个视差图。

在训练阶段，将总损失计算为三个损失的加权求和。在测试阶段，最终的视差图是三个输出中的最后一个。

3.5 视差回归

d:视差

cd:视差d的预测成本

σ(−cd)：视差d的概率，softmax operation

d^:预测的视差，是按其概率加权的每个视差d的和

3.6 Loss

由于视差回归，我们采用smooth L1损失函数来训练所提出的PSMNet。与L2损耗相比，L1损耗因其鲁棒性和对异常值的敏感性低，被广泛用于边界盒回归的目标检测。

N是已标记的像素的数量，d是基本的差异，dˆi是预测的差异。

4.实验

4.1 细节

该PSMNet的完整架构如表1所示，包括卷积滤波器的数量。批处理规范化和ReLU的使用与ResNet相同，但PSMNet在总和后不应用ReLU除外。

所有的模型都是用Adam进行的端到端训练（β1=0.9，β2β1=0.999）。我们对整个数据集进行了颜色归一化，以进行数据预处理。在训练过程中，图像被随机裁剪为H=256和W=512的大小。最大视差(D)设定为192。

标签：Stereo,Pyramid,沙漏,菜鸟,堆叠,CNN,上下文,视差
来源： https://blog.csdn.net/qq_42344132/article/details/116931556