其他分享
首页 > 其他分享> > SegNet——论文笔记

SegNet——论文笔记

作者:互联网

1、什么是语义分割(semantic segmentation)?

图像语义分割,简而言之就是对一张图片上的所有像素点进行分类,将所有属于同一类的物体标记为同一像素点。

seg.jpg

SegNet基于FCN,修改VGG-16网络得到的语义分割网络。

2、SegNet(A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation)

在这里插入图片描述

SegNet 有一个编码器网络和一个相应的解码器网络,然后是最终的逐像素分类层。

编码器

在这里插入图片描述

解码器

上采样的方式

目前上采样的方式有两种,一种是反卷积,另一种是双线性插值。但与其他分割网络不一样的是,SegNet采用了带索引的反池化操作,进一步提高的特征传递的准确性。

损失函数

SegNet是逐像素点预测的,因此对于每个像素点来说,Ground Truth不是0就是1,即使分割图像是单通道的(依据分类数给出索引),那也可以变成One-Hot的形式,例如VOC的label就是21通道的。

所以根据像素点的预测方式,使用交叉熵就可以了。当然,后人改进采用了dice loss、focal loss等,在这里就不展开论述了。

预测精度

作者的数据是基于道路场景分割的 CamVid 数据集所训练的结果,SegNet的预测精度如图所示:

在这里插入图片描述

内存和推理时间

在这里插入图片描述

3、总结

SegNet原理非常简单,特点就是采用了带索引的池化层和根据索引的反池化层,网络结构上也是采用了VGG16的backbone。但由于目前主流的神经网络框架没有针对池化和反池化操作进行优化,所以SegNet的推理时间会比较长,而从预测指标上来看,也没有非常惊艳的结果。所以SegNet只能说是在池化操作上提出了一些奇淫技巧。

4、实现代码

标签:卷积,论文,笔记,索引,SegNet,解码器,池化,像素点
来源: https://blog.csdn.net/weixin_42392454/article/details/118460055