論文筆記之:Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks


 

Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks

NIPS 2015 

 

  摘要:本文提出一種 generative parametric model 能夠產生高質量自然圖像。我們的方法利用 Laplacian pyramid framework 的框架,從粗到細的方式,利用 CNN 的級聯來產生圖像。在金字塔的每一層,都用一個 GAN,我們的方法可以產生更高分辨率的圖像。

 

     引言:在計算機視覺領域,構建好的 產生式模型 是自然圖像中比較基層的問題。但是,高分辨率的圖像,仍然很難產生。我們提出一種方法,能夠產生大致看起來很像的場景,分辨率為:32*32 and 64*64 。為了達到這個目的,我們探索了 natural image 的多尺度結構,構建了一系列的產生式模型,每個 GAN 抓住了金字塔特定層的 image structure。這種策略,將原始的問題轉化為 : a sequence of more manageable stages. 在每一種尺寸,我們利用 GAN 的思路構建 CNN 產生式模型。樣本以  coarse-to-fine fashion 進行繪畫,commencing with a low-frequency residual image。第二個階段在下一個 level 采樣 the band-pass structure,在 sampled residual 的基礎上。接下來的 level 繼續這個過程,總是在上一個 scale 的輸出上進行,直到最后一個 level。所以,drawing samples 是一個有效的,直觀的前向傳播的過程:將隨機的向量作為輸入, 經過 deep convolutional networks 前向傳播,然后輸出一張圖像。

 

  Approach 

  本文方法是基於 NIPS 2014 年的 GAN 做的,提出了 LAPGAN model,結合了 a conditional form of GAN model into the framework of a Laplacian pyramid. 

  1. Generative  Adversarial Networks 

  該小節簡單介紹下產生式對抗網絡(GAN),我們所要優化的目標就是:

  The conditional generative adversarial network (CGAN) 是 GAN 的一種拓展。其中,兩個網絡 G and D 都會收到額外的信息向量 $l$ 作為輸入。也可以說,訓練樣本 $l$ 的 class 信息,所以 loss function 變成了:

  其中,$pl(l)$ 是類別的先驗分布(the prior distribution over classes)。這個模型允許產生器的輸出,通過條件變量 l 控制。在我們的方法中,這個 $l$ 將會是從另一個 CGAN model 得到的另一個圖。

  關於 CGAN 更多的信息,請參考: Conditional Generative Adversarial Nets  。

 

  2. Laplacian Pyramid 

  The Laplacian Pyramid 是一個線性可逆的圖像表示方法,由一系列的 band-pass images 構成,spaced an octave apart,plus a low-frequency residual。

  假設 d(*) 是一個 down sampling operation,將 j * j 的 image I ,划分為 j/2 * j/2 。對應的,u(*) 是一個 upsampling operation,使得圖像變成:2j * 2j。

  我們首先構建一個圖像金字塔,$ g(I) = [I_0, I_1, ... , I_K] $,其中,I0 = I and Ik is k repeated operated applications of d(*) to I 。K 表示金字塔的層數。

  圖像金字塔的每一個 level k 的系數 $h_k$ 是通過采取兩個近鄰 level 的不同來構建的,upsampling the smaller one with u(*) so that the sizes are compatible :

  直觀地來說,每一 level 抓住了特定尺寸的圖像結構。Laplacian pyramid 的最后一層 $h_K$ is not a difference image, 而是 一個低頻的 residual ,equal to the final Gaussian pyramid level ,即:$h_K = I_K$ 。從拉普拉斯金字塔系數 $[h_1, ... , h_K]$ 重建,是利用 backward recurrence 執行的:

  其中,重建是從 coarse level 開始的,重復的進行 upsample,在下一個更好的 level 添加不同的image,直到我們得到原始分辨率的圖像。

   

  3. Laplacian Generative Adversarial Networks (LAPGAN) 

  本文所提出的方法,就是將兩個模型進行結合。

  首先考慮 the sampling procedure,我們有一系列的產生式模型 ${G_0, ... , G_K}$,每個產生式模型構建了金字塔不同層次的圖像的系數 $h_k$ 的分布。Sampling an image 類似於 Eq. (4) 的重建過程,除了產生式模型是用於產生 $h_k$ : 

 

  圖 1 展示了 3層金字塔,用 4 個產生式模型構建 64*64 image 的過程:

  

 

  產生式模型 ${G_0, ... , G_K}$ 在圖像金字塔的每一層都用 CGAN 的方法進行訓練。特別的,我們對每一個訓練圖像 I,構建一個 Laplacian Pyramid。在每一層,我們隨機挑選:

  (i) 從 Eq. (3) 采用標准的步驟,構建 the coefficients $h_k$ ,或者 (ii) 用 $G_k$ 產生他們:

  注意到 $G_k$ 是一個 convent,采用一種 coarse scale version of the image $l_k = u(I_{k+1})$ 作為輸入,以及 noise vector $z_k$ 。Dk 就用於判斷當前圖像是產生的,還是原始圖像。圖像金字塔的 final scale,the low frequency residual 已經足夠小了,可以直接用標准的 GAN 進行建模,$D_K$僅僅用 $h_K$ and $h^~_K$ 作為輸入。這個框架見圖 2 。

 

  將產生的過程分解為一系列的過程,是本文的一個重要的創新點。

  

  Model Architecture & Training 

  我們將該方法應用到三個數據集上進行了測試:(1) Cifar-10   (2) STL10  (3) LSUN 。

  作者的開源代碼: http://soumith.ch/eyescream/  

  

 

 


 

 

  Experiments and Discuss : 

  

  

   

 

 

 

  

 

  

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM