其他分享
首页 > 其他分享> > 【语义分割】CVPR2021_Rethinking BiSeNet For Real-time Semantic Segmentation

【语义分割】CVPR2021_Rethinking BiSeNet For Real-time Semantic Segmentation

作者:互联网

文章目录

Paper: https://arxiv.org/abs/2104.13188

Code: https://github.com/MichaelFan01/STDC-Seg
在这里插入图片描述
在这里插入图片描述

一、背景

现有的语义分割方法,如 Deeplabv3、psp、Segnet等,虽然都取得了较好的效果,但都需要很大的计算开销。

在轻量化语义分割方面,有两个主要方向:

二、动机

BiSeNet V1 虽然使用multi-path的结构,将低层的detail和高层的semantic进行了组合,但获得低层信息的分支非常耗时,辅助path经常缺乏低层信息的指导。

三、方法

本文作者提出了一个手工网络来提升推理速度、提升网络可解释性。

STDC module(Fig3(b)):首先提出了一个 STDC 模块,来使用很少的参数获取多尺度和感受野信息

STDC networks:将 STDC module 嵌入U-net里边来得到
在这里插入图片描述

在这里插入图片描述

3.1 Design of Encoding Network

3.1.1 STDC module

特点:

STDC module 的两个优势:

3.1.2 Network Architecture:

network 结构图如图 3(a) 所示,由 6 个 stage 组成,stage1~stage5 都进行了下采样,stage6进行全连接。每个stage里边的第一个STDC会进行二倍下采样,其他STDC将会保持分辨率不变。
在这里插入图片描述
STDC network 如表2所示:
在这里插入图片描述

3.2 Decoder

3.2.1 Segmentation Architecture

在这里插入图片描述
如图4(a)所示,作者使用stage 3、4、5来生成下采样比率分别为 1/8、1/16、1/32的特征图。然后使用全局平均池化来得到语义信息。之后,使用U-shape结构来对全局特征进行上采样,并且和stage4、stage5的进行结合(在encoder阶段)。

context info 和 spatial info 的结合使用:

在最后的语义分割预测阶段,作者使用了 Feature Fusion Module (bisenetv1),来融合来自encoder 的 stage3 (1/8大小) 和 decoder 的stage3的特征,作者认为来自这两个 stage 的特征其实是代表了不同尺度的特征。encoding 的特征有更多的细节信息,decoding的特征有更多的语义信息(由于其来自于 global average pooling)。

Seg Head 的构成:一个 3x3 conv+bn+relu,再跟一个 1x1 卷积,输出维度为类别数量

Loss:cross entropy loss

4、Detail Guidance of Low-level Features

BiSeNet 的spatial path 的特征如图5(b)所示,对比 backbone 的低层特征(如 stage3),spatial path包含了更多细节信息,如边缘、角点。

在这里插入图片描述
因为本文是 single-stream 的,所以作者提出了一个 Detail Guidance Module 来引导低层学习空间信息。

方法:将细节预测建模为一个二值分割任务

Detail gt generation: 如 Fig4© 所示,作者使用 Detail Aggregation module 生成细节真值图:

在这里插入图片描述
Detail loss:

已知细节图像中,detail pixel 远远少于 non-detail pixel,所以 detail 的预测是一个类别不均衡问题,由于weighted cross-entropy loss 是比较粗糙的,所以我们使用binary cross-entropy & dice loss联合学习。

Dice loss 度量预测和真值的重合率,且该 loss 对前景/背景的个数不敏感,可以缓解类别不均衡问题
在这里插入图片描述

在这里插入图片描述
Detail Head:如 Fig4(b) 所示,Detail Head 产生 detail map,detail map 可以指导浅层对空间信息编码

四、实验

4.1 消融实验

1、Effectiveness of STDC module

作者通过实验验证了在 STDC 中使用4个 block 是最优的,多的话 FPS 会急剧下降。

在这里插入图片描述

2、Effectiveness of backbone

在这里插入图片描述

3、Effectiveness of Detail Guidance

stage 3 的 heatmap feature map 如 Fig6 所示,可以明显的看出有 Detail guidance 的(c)列,比(b)列包含了更多的空间细节信息,定量的分析如 Table 4 所示。
在这里插入图片描述
在这里插入图片描述

4.2 和 SOTA 方法对比

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

标签:Real,Rethinking,Semantic,特征,detail,STDC,Detail,使用,所示
来源: https://blog.csdn.net/jiaoyangwm/article/details/116272944