其他分享
首页 > 其他分享> > Adversarial Latent Autoencoders(ALAE)学习笔记

Adversarial Latent Autoencoders(ALAE)学习笔记

作者:互联网

在这里插入图片描述
在这里插入图片描述


原文:https://arxiv.org/abs/2004.04467
代码(官方Pytorch版):https://github.com/podgorskiy/ALAE


文章目录


前言

自动编码器网络(Autoencoder networks)是一种无监督的方法,目的是通过同时学习编码器-生成器映射来结合生成和表示特性。 虽然研究广泛,但它们是否具有GANS相同的生成能力,或学习解耦表征,尚未得到充分解决。


论文核心

  1. 新的ALAE网络
    一种更具通用性的、利用GAN方法的架构,它可以进行更“解耦”的表征学习
  2. 基于MLP encoder的自动编码器
  3. 基于StyleGAN generator的自动编码器 - StyleALAE
    StyleALAE不仅可以产生可以媲美StyleGAN的1024×1024人脸图像,而且在相同的分辨率下还可以对真实人脸图像进行重建和编辑。

模型和优化方法

在这里插入图片描述
把常规的生成器和判别器分拆如下: G = G ∘ F G = G \circ F G=G∘F 且 D = D ∘ E D = D \circ E D=D∘E
假设, F F F和 G G G 、 E E E和 D D D之间的潜在空间 W W W是相同的。

F F F是一个确定性的映射,将噪声 p ( z ) p(z) p(z)编码成隐变量 q F ( w ) q_F(w) qF​(w)。 E E E和 G G G是随机的, G G G可选择地取决于噪声的输入 η \eta η。

G G G的输出分布可以写作:
q ( x ) = ∫ w ∫ η q G ( x ∣ w , η ) q F ( w ) p η ( η ) d η d w q(x)=\int_{w} \int_{\eta} q_{G}(x \mid w, \eta) q_{F}(w) p_{\eta}(\eta) \mathrm{d} \eta \mathrm{d} w q(x)=∫w​∫η​qG​(x∣w,η)qF​(w)pη​(η)dηdw

q G ( x ∣ w , η ) q_{G}(x \mid w, \eta) qG​(x∣w,η) 代指 G G G的条件分布。

所以 E E E的输出分布可以写作:
q E ( w ) = ∫ x q E ( w ∣ x ) q ( x ) d x q_{E}(w)=\int_{x} q_{E}(w \mid x) q(x) \mathrm{d} x qE​(w)=∫x​qE​(w∣x)q(x)dx
同样 q E ( w ∣ x ) q_{E}(w \mid x) qE​(w∣x) 代指 E E E的条件分布。如果我们把上式中的 q ( x ) q(x) q(x)换成真实图像分布 p D ( x ) p_D(x) pD​(x),得到 q E , D ( w ) q_{E,D}(w) qE,D​(w)。与GAN相同,这个式子也可以使生成的分布与真实图像的分布相同,即 q E ( w ) = q E , D ( w ) q_E(w) = q_{E,D}(w) qE​(w)=qE,D​(w)。

此外为了确保 G G G的输入和 E E E的输出相同,需要: q F ( w ) = q E ( w ) q_F(w) = q_{E}(w) qF​(w)=qE​(w)
以这种方式,我们可以将这对网络 ( G , E ) (G,E) (G,E)解释对潜在空间 W W W自动编码的的生成器-编码器网络(generator-encoder network)。

优化方法:

min ⁡ F , G max ⁡ E , D V ( G ∘ F , D ∘ E ) \operatorname { min } _ { F,G }\operatorname { max } _ { E,D }V(G \circ F,D \circ E) minF,G​maxE,D​V(G∘F,D∘E) min ⁡ E , G Δ ( F ∣ ∣ E ∘ G ∘ F ) \operatorname { min } _{E,G} \Delta (F||E \circ G \circ F) minE,G​Δ(F∣∣E∘G∘F)
Δ \Delta Δ左右参数表示网络映射产生的分布 p ( z ) p(z) p(z),式中对应 q F ( w ) q_F(w) qF​(w)和 q E ( w ) q_E(w) qE​(w)。

StyleALAE 网络结构

在这里插入图片描述
网络结构基于StyleGAN。因此, G G G网络是StyleGAN的一部分,如上图右侧(显然这个结构是styleGAN v1)。图左侧是新的编码器 E E E。 W W W同StyleGAN。

E E E和 G G G采用对称设计,这样就可以从相应的图层中提取样式信息。 E E E中使用IN模块得到该层的均值和方差。对于 F F F和 D D D网络,使用MLP来实现它们。 Z Z Z和 W W W空间以及 F F F和 D D D的所有层都具有相同的维度。

算法

在这里插入图片描述
对抗loss使用 S o f t P l u s = l o g ( 1 + e x p ( t ) ) SoftPlus= log(1 + exp(t)) SoftPlus=log(1+exp(t)),R1正则化。
三步更新:

总结

基于MLP和StyleGAN generator的新ALAE网络结构。通过编码器允许学习潜在空间的概率分布。新的解码器使得更少纠缠的学习表征成为可能。由于使用了styleGAN v1的结构,AdaIN和渐进网络绝对会产生水滴伪影和相位问题。

参考

标签:编码器,StyleGAN,Latent,ALAE,Adversarial,网络,circ,eta,qE
来源: https://blog.csdn.net/weixin_39538889/article/details/115004766