StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 論文筆記

本文轉載自查看原文 2017-01-05 17:19 2149 深度學習/ Generative Adversarial Networks

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks

　　本文將利用 GANs 進行高質量圖像生成，分為兩個階段進行，coarse to fine 的過程。據說可以生成 256*256 的高清圖像。

　　基於文本生成對應圖像的工作已經有了，比如說 Attribute2Image，以及最開始的基於文本生成圖像的文章等等。

　　Stacked Generated Adversarial Networks.

　　　　 所涉及到的兩個階段分別為：

　　　　 Stage-I GAN：基於文本描述，我們得到初始的形狀，基礎的色彩；然后從隨機 noise 繪出背景分布，產生低分辨率的圖像；

　　　　 Stage-II GAN：通過在此的結合文本描述，進行圖像的細致化繪制，產生高質量的 Image。

　　為了緩解條件文本描述 t 產生的高維的 latent space，但是有限的訓練數據，可能導致 latent data manifold 的非連續性，

這對於訓練產生器來說，可能不是很好。

　　為了解決這個問題，作者引入了條件增強技術來產生更多的條件變量。從一個獨立的高斯分布 N 中隨機的采樣 latent variables，其均值 $\mu$ 和對角協方差矩陣是 text embedding 的函數。所提出的公式可以進一步的提升對小的擾動的魯棒性，並且在給定少量 image-text pairs 的條件下，產生更多的訓練樣本。為了進一步的提升平滑性，給產生器的目標函數，添加了一個正則化項：

　　其中，上式就是標准高斯分布和條件高斯分布的 KL-散度。

　　基於高斯條件變量 c0，階段一的 GAN 迭代的進行兩個目標函數的訓練：

　　第二個階段的 GAN 和第一階段的非常類似。

　　不同的地方，在於產生器不再以 noise Z 作為輸入，而是 s0 = G0(z,c0)。

　　整體來說，個人感覺並沒有太多的創新，不過這個實驗結果，的確是非常 impressive。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文筆記之：Generative Adversarial Text to Image Synthesis 論文閱讀之：Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network CVPR2017: SRResNet(SRGAN): Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network 《StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation》論文筆記論文筆記之：Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks 論文筆記之：Semi-Supervised Learning with Generative Adversarial Networks 《Image-to-Image Translation with Conditional Adversarial Networks》論文筆記論文筆記之：Generative Adversarial Nets 《FusionGAN: A generative adversarial network for infrared and visible image fusion》論文筆記 AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 筆記