Adversarial Latent Autoencoders(ALAE)学习笔记
作者:互联网
原文:https://arxiv.org/abs/2004.04467
代码(官方Pytorch版):https://github.com/podgorskiy/ALAE
文章目录
前言
自动编码器网络(Autoencoder networks)是一种无监督的方法,目的是通过同时学习编码器-生成器映射来结合生成和表示特性。 虽然研究广泛,但它们是否具有GANS相同的生成能力,或学习解耦表征,尚未得到充分解决。
论文核心
- 新的ALAE网络
一种更具通用性的、利用GAN方法的架构,它可以进行更“解耦”的表征学习 - 基于MLP encoder的自动编码器
- 基于StyleGAN generator的自动编码器 - StyleALAE
StyleALAE不仅可以产生可以媲美StyleGAN的1024×1024人脸图像,而且在相同的分辨率下还可以对真实人脸图像进行重建和编辑。
模型和优化方法
把常规的生成器和判别器分拆如下:
G
=
G
∘
F
G = G \circ F
G=G∘F 且
D
=
D
∘
E
D = D \circ E
D=D∘E
假设,
F
F
F和
G
G
G 、
E
E
E和
D
D
D之间的潜在空间
W
W
W是相同的。
F F F是一个确定性的映射,将噪声 p ( z ) p(z) p(z)编码成隐变量 q F ( w ) q_F(w) qF(w)。 E E E和 G G G是随机的, G G G可选择地取决于噪声的输入 η \eta η。
G
G
G的输出分布可以写作:
q
(
x
)
=
∫
w
∫
η
q
G
(
x
∣
w
,
η
)
q
F
(
w
)
p
η
(
η
)
d
η
d
w
q(x)=\int_{w} \int_{\eta} q_{G}(x \mid w, \eta) q_{F}(w) p_{\eta}(\eta) \mathrm{d} \eta \mathrm{d} w
q(x)=∫w∫ηqG(x∣w,η)qF(w)pη(η)dηdw
q G ( x ∣ w , η ) q_{G}(x \mid w, \eta) qG(x∣w,η) 代指 G G G的条件分布。
所以
E
E
E的输出分布可以写作:
q
E
(
w
)
=
∫
x
q
E
(
w
∣
x
)
q
(
x
)
d
x
q_{E}(w)=\int_{x} q_{E}(w \mid x) q(x) \mathrm{d} x
qE(w)=∫xqE(w∣x)q(x)dx
同样
q
E
(
w
∣
x
)
q_{E}(w \mid x)
qE(w∣x) 代指
E
E
E的条件分布。如果我们把上式中的
q
(
x
)
q(x)
q(x)换成真实图像分布
p
D
(
x
)
p_D(x)
pD(x),得到
q
E
,
D
(
w
)
q_{E,D}(w)
qE,D(w)。与GAN相同,这个式子也可以使生成的分布与真实图像的分布相同,即
q
E
(
w
)
=
q
E
,
D
(
w
)
q_E(w) = q_{E,D}(w)
qE(w)=qE,D(w)。
此外为了确保
G
G
G的输入和
E
E
E的输出相同,需要:
q
F
(
w
)
=
q
E
(
w
)
q_F(w) = q_{E}(w)
qF(w)=qE(w)
以这种方式,我们可以将这对网络
(
G
,
E
)
(G,E)
(G,E)解释对潜在空间
W
W
W自动编码的的生成器-编码器网络(generator-encoder network)。
优化方法:
min
F
,
G
max
E
,
D
V
(
G
∘
F
,
D
∘
E
)
\operatorname { min } _ { F,G }\operatorname { max } _ { E,D }V(G \circ F,D \circ E)
minF,GmaxE,DV(G∘F,D∘E)
min
E
,
G
Δ
(
F
∣
∣
E
∘
G
∘
F
)
\operatorname { min } _{E,G} \Delta (F||E \circ G \circ F)
minE,GΔ(F∣∣E∘G∘F)
Δ
\Delta
Δ左右参数表示网络映射产生的分布
p
(
z
)
p(z)
p(z),式中对应
q
F
(
w
)
q_F(w)
qF(w)和
q
E
(
w
)
q_E(w)
qE(w)。
StyleALAE 网络结构
网络结构基于StyleGAN。因此,
G
G
G网络是StyleGAN的一部分,如上图右侧(显然这个结构是styleGAN v1)。图左侧是新的编码器
E
E
E。
W
W
W同StyleGAN。
E E E和 G G G采用对称设计,这样就可以从相应的图层中提取样式信息。 E E E中使用IN模块得到该层的均值和方差。对于 F F F和 D D D网络,使用MLP来实现它们。 Z Z Z和 W W W空间以及 F F F和 D D D的所有层都具有相同的维度。
算法
对抗loss使用
S
o
f
t
P
l
u
s
=
l
o
g
(
1
+
e
x
p
(
t
)
)
SoftPlus= log(1 + exp(t))
SoftPlus=log(1+exp(t)),R1正则化。
三步更新:
- Step I updates the discriminator (i.e., networks E and D).
- Step II updates the generator (i.e., networks F and G).
- Step III updates the latent space autoencoder (i.e., networks G and E).
总结
基于MLP和StyleGAN generator的新ALAE网络结构。通过编码器允许学习潜在空间的概率分布。新的解码器使得更少纠缠的学习表征成为可能。由于使用了styleGAN v1的结构,AdaIN和渐进网络绝对会产生水滴伪影和相位问题。
参考
- https://blog.csdn.net/weixin_42232024/article/details/111387829
- https://blog.csdn.net/lgzlgz3102/article/details/105872908
- https://blog.csdn.net/mzj15101229871/article/details/109235829
标签:编码器,StyleGAN,Latent,ALAE,Adversarial,网络,circ,eta,qE 来源: https://blog.csdn.net/weixin_39538889/article/details/115004766