一篇GAN與AE結合的文章,用於探索AE相較GAN的生成能力和解耦表示。構建了兩種AE:MLP和StyleGAN。結構如下:
把原生GAN中的G分解為F與G的映射,D分解為E與D的映射:
F是一個確定性的映射,將噪聲z編碼成隱變量w。 E和G是隨機的,G同時取決於隱變量w和噪聲的輸入。E將生成的圖像進行編碼,然后約束由F生成的分布與由E生成的分布盡可能詳盡。這樣給定w就可以生成圖像,給定圖像就可以編碼w。在推理時就可以實現重構。可以看到公式7約束的就是隱變量空間w的相似度,而非約束原生AE中的圖像(數據空間)相似度。
上式即為目標函數。相比BiGAN重構效果不太受到label filp的影響:
對比在Z空間插值和直接在W空間插值的結果:后者更平滑,較為分離。
基於StyleGan的結構:
各級風格特征(均值方差)經過一個線性層來聚合后放到GAN里,此時的E就可以編碼風格,重建效果: