其他分享
首页 > 其他分享> > 论文阅读:Deep Image Matting

论文阅读:Deep Image Matting

作者:互联网

论文地址:https://arxiv.org/pdf/1703.03872.pdf

内容简介

网络结构

在这里插入图片描述
简单来说就是一个Encoder-Decoder + Refine的结构,其中:
在第一阶段,每次Encode下采样将特征图尺寸缩减为原来的1/2,共五次,最终将特征图缩小为1/32;然后再上采样回输入尺寸,获得一个粗分割结果

而第二阶段的意义在于,由于Encoder最终会将特征图尺寸降到很小,不可避免地会丢失细节,最终Decode出来的图是比较“平滑(smooth)”的,并不精细。
这里的细化,说白了就是将原图和预测的alpha matte按通道连接,扔到一个很小(四层)的卷积网络中进行训练。这么做单纯意义就在于因为没有再下采样(基本什么都没有,只有卷积和relu),不会损失细节,便可能对输出结果进行简单的“打磨”,实现更精细的结果。毕竟一开始第一阶段的任务就相当于“用较复杂的结构打磨trimap”,那么这一阶段打磨一下alpha matte就不需要下采样上采样了。

Dataset

在这篇文章之前,能用的数据就基本只有alphamatting.com上的27张训练图像和8张测试图像(要获得高质量的标注实在麻烦)。这就导致一个问题,之前一些表现很好的方法,实际上可能已经都过拟合了…

但是要重新一个个抠又十分麻烦,因此这里采用了个神奇的方法:首先还是自己抠几个(共493个前景),然后从MS COCO和Pascal VOC里面随机抽100张图作为背景,把前景和背景进行合成,就有49300张训练图了。

这里有个问题就是网络有没有可能受到人工合成因素(比如噪声)的影响,不过在作者的实验中并没有发现问题。

Loss

用了两种loss:

最终的loss就是这两个的加权:
L overall  = w l ⋅ L α + ( 1 − w l ) ⋅ L c \mathcal{L}_{\text {overall }}=w_{l} \cdot \mathcal{L}_{\alpha}+\left(1-w_{l}\right) \cdot \mathcal{L}_{c} Loverall ​=wl​⋅Lα​+(1−wl​)⋅Lc​
这儿比较有意思的是没有简单地将所有区域的 w l w_{l} wl​设置成0.5。对于位于trimap未知区域内的像素,将 w l w_{l} wl​设置成1,反之设置成0,本质上是种分类讨论。

Data Augmentation

常规的:

自创的:

其他

标签:采样,loss,Image,wl,Deep,matte,mathcal,alpha,Matting
来源: https://blog.csdn.net/qq_40714949/article/details/114644809