【学术报告】阿里巴巴张刚:生成式对抗网络与人脸属性编辑
作者:互联网
不到现场,照样看最干货的学术报告!
嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。
2018年8月4月,由北京理工大学大数据创新学习中心与中国科学院人工智能联盟标准组联合主办的“2018深度强化学习:理论与应用”学术研讨会,学界与业界顶级专家济济一堂,共同分享深度强化学习领域的研究成果。
阿里巴巴达摩院-AI Lab的张刚以生成式对抗网络与人脸属性编辑为主题进行报告,以下分享内容根据嘉宾口头分享整理。
生成式对抗网络与人脸属性编辑
张刚 阿里巴巴达摩院-AI Lab
我是2018年7月毕业以后在阿里巴巴工作,主要方向是无人驾驶,接下来从四个方面介绍我在人脸属性编辑这块做的工作。
首先介绍研究的背景及意义。人脸属性编辑是要修改人脸图片的属性,与此同时要保证人脸身份信息和属性无关区域的不变性。比如图中展示的我们要给人物去掉眼镜,其它地方要保留下来,那么我们只关注和眼睛相关的区域,其它区域包括背景、额头、嘴巴等应该是完整保留下来。这个研究的应用首先是在娱乐、社交领域,比如对人像的美白、减龄、微笑等,另一个就是在人脸识别领域关于人脸数据库的增广,我做了部分工作是通过GAN对人脸数据库做增广,最后达到一个人脸识别准确率的提高。
很多人认为这项工作很简单,就是人脸属性的编辑,为什么不用FCN网络训练?现实中的问题是缺乏成对标注的图片,因此是不能直接采用监督学习的方法。生成对抗网络是在2014年提出的,其实质就是一个由判别器和生成器组成的框架,判别器是要把生成图片和真实图片区分出来,生成器是要尽量生成以假乱真的图片骗过判别器,最后达到生成器生成的图片判别器已经不能区分是真的还是生成的,这就达到了最终的平衡点。
接下来介绍相关领域的研究进展,其中一个和我们相关的工作是AcGAN,因为GAN的目标是生成很真实的图片,但不知道到底生成了什么样的图片,AcGAN就是要用一个Label控制它到底生成了什么样的图片。生成器的输入还有Label C,判别器D上面同时做两个任务:一个是真假分类,一个是标签C的分类,最终达到的平衡结果就是生成器能够生成被C所控制的很真实的图片。用GAN做人脸属性编辑,最早的方法是2016年提出的IcGAN,主要分两个阶段来做训练: 一个阶段是通过属性C和噪声Z,训练一个cGAN,但这个时候只是噪声Z;我们的目标是输入图片和控制向量,然后输出控制向量控制的人脸图片。
另一个阶段就是把图片通过编码器编码成Z,因为第一个阶段就是通过Z到图片,第二个阶段就把它反过来,通过人脸图片回归Z。看起来这项工作很Work,实际上这项工作最大的缺点就是无法保持人脸的身份信息。CycleGAN是另外一项很知名的工作,他做了一个通用的Unpaired Image-to-Image Translation工作,关键点就是引入重构损失函数保证图片内容的一致性,图片内容信息是不丢失的。
另一方面还有对抗的损失函数,保证把不戴眼镜的人脸图片变成戴眼镜的人脸图片,然后用对抗损失函数保证翻译到另外一个域。CycleGAN的一个缺点就是无法保证属性无关区域的不变性。即使是有重构损失函数,实验结果会发现很难保证除了眼镜以外的地方是不被修改的。
StarGAN是比CycleGAN前进了一点,CycleGAN是做了两个域之间的转换,意思就是对多属性编辑的话每个属性都要训练一个GAN,StarGAN更有效是因为他把所有的属性编辑都压缩到一个网络里面,输入和CycleGAN是不一样的,不仅仅是一张人脸图片还有属性控制C,判别器D同时做了两个任务:一个是真假分类,一个是属性C的分类,通过这种对抗的方式,最后生成器就可以生成一张被人脸属性C控制的图片。
再就是ResGAN,原来的生成器是直接生成人脸图片,叠加到原来的图上面,其实这个图是我们自己的结果,但这个方法的效果是比较差的,当时也提出了一个比较好的方向,就是在做图像编辑或者人脸属性编辑的时候一定要保证属性无关的区域是不被修改的。我们后面提出的方法也是基于前面的研究,同时要保证属性无关区域是不被修改的。
为解决前面所说的问题,我们引入空间注意力机制,这个大多应用在图片分类、分割等。我们把注意力网络加到GAN里提出了SaGAN,如图中,我们的Generator就是G网络,主要由两部分组成:空间注意力网络(SAN)和属性编辑网络(AMN)。AMN只负责编辑属性,类似于前面的CycleGAN和StarGAN网络。空间注意力网络主要关注哪些区域是应该被修改的,哪些区域应该被忽略掉。公式中的mask就是生成了注意力网络,可以只关注到眼镜这块,然后就把这一块拿出来和上面的这个做点乘,其余不被修改的部分直接从原图中取出,拼接到一起就是最终生成的图片。
我们这个SaGAN网络主要做两个任务:一个是真假分类,一个是属性分类;考虑到有效性,因为去眼镜和戴眼镜当中Attention Region是一样的,我们也是建立了两个互逆的属性,一个是戴眼镜的网络,一个是去眼镜的网络,一个是微笑的网络,一个是不让微笑的网络,可以在同一个区域当中体现出来。
这里定位了属性相关的区域,属性编辑网络只是负责编辑属性,最终就得到我们的生成器的公式。整个实验也和比较知名的CycleGAN、StarGAN和ResGAN做了对比,主要选择了眼睛、嘴巴、鼻子和胡须,这是对人脸识别当中影响比较大的,我们的工作也是面向人脸识别来做。结果的评价是从视觉效果和属性分类准确率来看,其中两个是我们自己提出的,一个是MAE,一个是人脸识别率,后面也会详细介绍这两个指标。
为了测试我们的方法的有效性,我们在CelebA以及LFW数据集上测试看空间注意力网络到底能学了什么东西以及最终效果。第一行是眼镜的编辑,一个是去眼镜,一个是戴眼镜,mask就是空间注意力网络输出的权重图,相关区域响应特别高,闭嘴张嘴也是Attention嘴巴相关的区域,加胡子去胡子也是,最后的微笑可以达到整张脸,因为微笑的机制比较复杂,整张脸都可以运动。
有人怀疑我们是不是标注了额外的数据,就是训练mask网络,我们的方法在没有标注数据集,类似于弱监督的方式下也很有效。每张人脸旁边黑色的图片是编辑好的图片和输入的图片的绝对差显示,视觉效果上可以看出无关的区域有没修改。我们的方法不仅在视觉上效果好,而且只修改了眼镜相关的Part。
再就是张嘴和闭嘴,视觉效果也是做得比较好的。胡须其实是比较难做的,因为这是和性别关联在一起的,数据集当中没有女生的图片长胡须的,所以很容易把女的贴胡子变成男的,然后把男的去胡子变成女的。不管是给女的加胡子还是给男的去胡子都是不应该改变性别的,这种情况下注意力网络比较Work,就是只关注胡子相关的区域,其它的区域都不去修改。微笑的属性就是人脸参与的很多,我们的结果看起来也是比其它方法更好。这些只是视觉效果,后面会有实际的量化指标。
怎么定义属性无关区域呢?这也是我们自己定义出来的,就是定义眼镜和光头属性,我们把无关的区域定义为下半脸,因为戴眼镜或者去眼镜、光头只是在上半脸。张嘴、胡须、微笑的话更多的是关注在下半脸,我们的无关区域在上半脸,然后对无关区域做MAE,对比了四个方法。这个指标是越小越好,结果如下表,完全优于其它三个方法。
属性分类存在两个点:目标属性一定要被修改,剩余属性不能被修改。我们对比了五个方法,最后一个方法是真实图片,必须要用真实图片来比。目标属性我们只是选择了眼睛、微笑和年龄,就是从分类损失来看我们的效果是最好的,也是最接近于真实图片的。其实真实图片我们做的不好就是因为有些属性分类的准确率也不是特别高,只有百分之九十几。
最后就是对人脸识别率的提升,我们是和其它几个方法做对比,训练器是八千多人的训练集,这也是我们自己划分的,测试集是剩余的人,图中红色实线代表的是我们提出的方法,虚线是Baseline,其它几个颜色就是StarGAN和ResGAN,我们的方法也是比之前的好很多,证明我们的方法可以提高人脸识别率。我们是第一个提出了通过SaGAN做人脸数据库增广的方法,这也是一个很好的应用点。
最后展望一下,我们这项工作主要做的贡献是通过Attention机制保证人脸属性无关的区域,这种方法不仅可以应用在人脸属性,更多的可以应用于通用的属性编辑。目前我们拓展的工作就是把Attention用在图片补全上面,现在主要是用GAN去做,如果是用注意力网络的话是不是可以直接应用到被遮挡的区域, 然后直接对被遮挡的区域进行补全。
另外就是,我们的方法很有效地提高了人脸识别率,在一些百万千万级的数据集上只针对眼镜这个的属性做增广,结果显示可以提高一两个点。我们的方法也存在一些缺点,一是我们的方法不能挖掘多样性,多样性体现在比如给同一个人戴不同类别眼镜,我们这个只能给一个人随机戴眼镜。
再一个多属性是做不到的,之前试过把多属性人脸编辑整合到我们的方法中,但最后实验效果比较差,因为多个属性放进去需要多属性的Attention。我们可遵循人的编辑过程,人在编辑图片时是用一个推敲的机制,改一次看看效果怎样,效果不好就再改,通过序列方式修改,未来我们的工作扩展可以朝这个方向靠拢。
获取完整PPT,请后台回复:学术报告
供稿人:张继
精彩的学术报告背后,是一群优秀的学术人才。都说搞学术的人需要“超凡脱俗”,需要耐得住清贫寂寞,其实……芯君想说:完全不需要这样啊!比如,马上申请2018百度奖学金——是的,百度为每位具有AI才能的“潜力股”学术精英们提供了广阔的平台资源和发展空间,为其提供20万研究资金支持,帮助优秀学子全身心投入科研工作,心无旁骛地进行科学探索。
还等什么,你——未来的学术之星,赶快申请报名吧!
留言 点赞 发个朋友圈
我们一起探讨AI落地的最后一公里
如需转载,请后台留言,遵守转载规范
长按识别二维码可添加关注
读芯君爱你
标签:生成式,网络,区域,人脸,学术报告,属性,我们,图片 来源: https://blog.51cto.com/15057819/2570336