StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 論文筆記


 

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 

 

  本文將利用 GANs 進行高質量圖像生成,分為兩個階段進行,coarse to fine 的過程。據說可以生成 256*256 的高清圖像。

  基於文本生成對應圖像的工作已經有了,比如說 Attribute2Image,以及 最開始的基於文本生成圖像的文章等等。

  

  Stacked Generated Adversarial Networks.

     所涉及到的兩個階段分別為:

      Stage-I GAN:基於文本描述,我們得到初始的形狀,基礎的色彩;然后從隨機 noise 繪出背景分布,產生低分辨率的圖像;

      Stage-II GAN:通過在此的結合文本描述,進行圖像的細致化繪制,產生高質量的 Image。

 

  為了緩解條件文本描述 t 產生的高維的 latent space,但是有限的訓練數據,可能導致 latent data manifold 的非連續性,

這對於訓練產生器來說,可能不是很好。

  為了解決這個問題,作者引入了 條件增強技術 來產生更多的條件變量。從一個獨立的高斯分布 N 中隨機的采樣 latent variables,其均值 $\mu$ 和 對角協方差矩陣 是 text embedding 的函數。所提出的公式可以進一步的提升對小的擾動的魯棒性,並且在給定少量 image-text pairs 的條件下,產生更多的訓練樣本。為了進一步的提升平滑性,給產生器的目標函數,添加了一個正則化項:

  

  其中,上式就是 標准高斯分布 和 條件高斯分布的 KL-散度。

  基於高斯條件變量 c0,階段一的 GAN 迭代的進行兩個目標函數的訓練:

  

  第二個階段的 GAN 和第一階段的非常類似。

  

 

  不同的地方,在於產生器不再以 noise Z 作為輸入,而是 s0 = G0(z,c0)。

  

  


    

  

  

  

 

  整體來說,個人感覺並沒有太多的創新,不過這個實驗結果,的確是非常 impressive。

   


 

  

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM