编程语言
首页 > 编程语言> > 20210408论文笔记--4篇彩色化/着色算法

20210408论文笔记--4篇彩色化/着色算法

作者:互联网

/1 A. Deshpande, J. Lu, M.-C. Yeh, M. J. Chong, and D. A. Forsyth, "Learning diverse image colorization.," CVPR 2017   学习多样化的图像着色

着色问题是典型的多模态问题,作者希望对着色问题的本质建模,并生成具有空间连贯性的着色结果。

*1作者通过变分自编码器(VAE)学习平滑的低维嵌入(Embedding)以生成具有高保真度的相应色域。
*2通过在灰度图特征和低维嵌入之间学习多模态条件模型,从而生成多样性的着色。

*3计损失函数来避免模糊的输出结果。

条件模型P(C|G),C是图片的色域,G是灰度图片。在条件模型上画一些样本点C_k可以获得多样的着色结果。然而C和G在高维空间中离散分布,这种详细的条件模型设计起来很难。因此使用了降维的思想。Step 1:使用VAE(变分自编码器),将色域C用低维嵌入结果z来表示;Step 2:使用混合密度网络(MDN)学习多模态条件模型P(z|G),训练P(z|G)以生成灰度图G的特征的低维嵌入(GMM 高斯混合模型)。这些特征将空间结构与逐像素的特征编码。在测试阶段,作者采样多个样本z_k ~ P(z|G),并使用VAE解码器获得对应的着色结果C_k。

本文通过对色域的空间结构进行编码,并通过在条件模型上采样获得空间相关的多样化着色。

VAE(变分自编码器)类似GAN,可做分布变换。

/2 S. Guadarrama, R. Dahl, D. Bieber, M. Norouzi, J. Shlens, and K. Murphy, "Pixcolor: Pixel recursive colorization," BMVC 2017   像素递归彩色化

提出从一灰度图像个自动产生多个彩色版本。首先训练一个条件PixelCNN来为给定的灰度图像生成一个低分辨率的颜色。然后,将生成的低分辨率彩色图像和原始灰度图像作为输入,训练第二个CNN来生成一幅图像的高分辨率彩色化

PixColor方法示意图。我们首先在COCO图像分割上预训练调节网络。然后,调节网络和自适应网络将亮度通道Y转换为一组特征,向PixelCNN提供必要的调节信号。PixelCNN与调节网络和自适应网络联合优化,以在离散空间中预测低空间分辨率的彩色图像。随后,低空间分辨率的图像被提供给一个细化网络,该网络被训练产生一个全分辨率的彩色。

/3 J. Zhao, L. Liu, C. G. Snoek, J. Han, and L. Shao, "Pixellevel semantics guided image colorization," BMVC 2018  像素级语义引导图像着色

许多图像着色算法仍然面临着背景混乱和边缘颜色模糊(context confusion and edge color bleeding)的问题。为了解决上下文混淆,我们提出合并像素级对象语义来引导图像着色。其原理是人类根据物体的语义分类来感知和区分颜色。我们提出了一个具有两个分支的层次神经网络。一个分支学习物体是什么,而另一个分支学习物体的颜色。该网络联合优化了语义分割损失和着色损失。为了解决边缘颜色模糊的问题,我们在推理时通过采用联合双边上采样层(a joint bilateral upsamping layer),生成了更多具有尖锐边缘的连续彩色图map。

层次网络结构包括语义分割和着色。语义分支为灰度图像学习像素级对象类,作为粗分类。着色分支根据所学的语义执行更精细的分类。我们采用多路径反卷积层来改进语义分割。在推断时,添加一个联合双边上采样层来预测颜色。 

底层conv1-conv4由两个用于学习底层特征的任务共享。高级特性包含更多的语义信息。在顶层的conv5、conv6和conv7之后,我们分别添加了三个反卷积层。然后,将反卷积层的特征映射进行语义分割,这适合于捕捉对象的细节。从直观上来说,网络会先识别物体,然后再给物体分配颜色。在训练阶段,我们共同学习这两个任务,在测试阶段,我们添加了一个联合的双边上采样层来产生最终结果。

/4 Bringing Old Photos Back to Life, Ziyu Wan, Bo Zhang, Dongdong Chen, Pan Zhang, Dong Chen, Jing Liao, Fang Wen; CVPR 2020  让旧照片重现生机

老照片修复中面临着许多的图像处理问题,比如填孔洞、去划痕、上色、去噪等图像退化问题,这是真实存在的,但使用深度学习进行训练时往往需要制造样本对,想要通过正常图像模拟出完全符合数据分布的低质量图像几乎是不可能的。

 为了回避样本制造的问题,作者将老照片修复模拟成三域转换的问题,三个域分别是真实的老照片的域 R 、合成的低质照片的域 X 、真实的高质照片(GT)的域 Y 。

从域 X 转换到低维的 latent space Z_x ,同样地,从域 R 可以转换到低维的 latent space Z_r 。虽然合成的退化图像 x 与真实图像 z 在退化方式等方面存在差异,但都是损坏了的图像,有许多相似表现。因此,通过一些约束可以尽量让Z_x和Z_r的分布尽量重合,也就是上图中的虚线的部分。由于 x 是由 y 合成,两者之间存在联系,可以将 z_x 转换到 z_y,再由 z_y 恢复出 y 。这样就形成了一个弱监督,通过拉近Z_x和Z_r,然后借助从 z_x 到 y 的途径来恢复出高质量的 Z 。

模型主要由三个部分组成两个变分自编码器(variational autoencoder,VAE)和一个latent space 映射网络 τ ,每个部分都可以看作是单独的一个模块。映射网络主要是用的是残差模块

标签:20210408,--,语义,网络,着色,灰度,图像,低维
来源: https://blog.csdn.net/OpenSceneGraph/article/details/115691688