StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks
本文將利用 GANs 進行高質量圖像生成,分為兩個階段進行,coarse to fine 的過程。據說可以生成 256*256 的高清圖像。
基於文本生成對應圖像的工作已經有了,比如說 Attribute2Image,以及 最開始的基於文本生成圖像的文章等等。
Stacked Generated Adversarial Networks.
所涉及到的兩個階段分別為:
Stage-I GAN:基於文本描述,我們得到初始的形狀,基礎的色彩;然后從隨機 noise 繪出背景分布,產生低分辨率的圖像;
Stage-II GAN:通過在此的結合文本描述,進行圖像的細致化繪制,產生高質量的 Image。
為了緩解條件文本描述 t 產生的高維的 latent space,但是有限的訓練數據,可能導致 latent data manifold 的非連續性,
這對於訓練產生器來說,可能不是很好。
為了解決這個問題,作者引入了 條件增強技術 來產生更多的條件變量。從一個獨立的高斯分布 N 中隨機的采樣 latent variables,其均值 $\mu$ 和 對角協方差矩陣 是 text embedding 的函數。所提出的公式可以進一步的提升對小的擾動的魯棒性,並且在給定少量 image-text pairs 的條件下,產生更多的訓練樣本。為了進一步的提升平滑性,給產生器的目標函數,添加了一個正則化項:
其中,上式就是 標准高斯分布 和 條件高斯分布的 KL-散度。
基於高斯條件變量 c0,階段一的 GAN 迭代的進行兩個目標函數的訓練:
第二個階段的 GAN 和第一階段的非常類似。
不同的地方,在於產生器不再以 noise Z 作為輸入,而是 s0 = G0(z,c0)。
整體來說,個人感覺並沒有太多的創新,不過這個實驗結果,的確是非常 impressive。