生成式對抗網絡論文閱讀整理


 

我對目前GAN經典的及最新的較有影響力的論文進行了閱讀與整理,目前僅完成了論文梗概的總結。后續將會分篇詳細介紹。

 

歸類

題目

發表

貢獻概要

理論

Generative Adversarial Nets

(Ian Goodfellow, Yoshua Bengio)

NIPS2014

發明GAN,生成器與判別器是較簡單的多層感知機,對比了RBM、MCMC、DBN、CAE、GSN等工作,給出經典的二元的優化目標,訓練過程的圖解及算法流程(訓練k次D后更新G,隨機梯度下降法優化),證明了唯一最優解的存在,說明了最優解時分布的情況,在MNIST、TFD、CIFAR-10上展示了生成圖像

Wasserstein Generative Adversarial Networks

(Martin Arjovsky, Soumith Chintala, Leon Bottou)

ICML2017

解決原始GAN訓練困難、loss函數無法指示訓練過程、生成樣本缺乏多樣性的問題。分析了原GAN中度量分布遠近的距離指標:KL散度和JS散度的缺點——訓練過程中出現梯度為零無法學習的情況。引出Wasserstein解決以上問題。將該距離引入訓練過程,同時為了求解推導出其對偶問題,以Lipschitz限制其最大局部浮動程度(直觀上試圖使得輸入的樣本稍微變化后,判別器給出的分數不能發生太過劇烈的變化,實現時僅僅通過限制各參數的變動范圍)。由於擬合的是Wasserstein距離,故去掉最后的sigmoid是問題變為回歸問題。(中山大學鄭華濱分析)

Improved Training of Wasserstein GANs

(Martin Arjovsky)

ArXiv2017

WGAN雖然理論分析完美,但是訓練時發現訓在不收斂的情況。WGAN的一作認為關鍵在於原設計中Lipschitz限制的施加方式不對,使得判別器非常傾向於學習一個簡單的映射函數。其在新論文中提出了相應的改進方案:使用梯度懲罰的方法,加入新的loss項使梯度越接近Lipschitz常數K越好,在采樣時也不需要整個空間上采,而是抓住生成樣本與真實樣本集中的區域進行采樣求取loss。

Towards Principled Methods for Training Generative Adversarial Networks

ICLR2017

是WGAN的前作,詳細分析了GAN存在的問題,最后提出解決方案。其分析了以下幾個問題:為何D越好則更新過程越糟糕(D過好則難以學出正確的梯度信息);為何GAN的訓練非常不穩定(因為G和D的loss優化目標是相反的);梯度消失問題(兩個分布很難有交集,原來的loss函數算出的loss為常數,本文給出一種解決方法是1加入噪聲使兩分布拉近,2使用Wasserstein距離這種連續性度量的距離)

Loss-Sensitive Generative Adversarial Networks on Lipschitz Densities

(Guojun Qi,伊利諾伊大學)

ArXiv2017

與WGAN關系密切,均采用Lipschitz限制。由於GAN未對真實樣本的分布做任何的限定,使得GAN模型具有無限的建模能力,也就導致了過擬合。LSGAN限制其無限建模能力,換成使用按需分配(集中力量優化生成的不好即距離真實樣本較遠的圖像)的建模形式。其引入新的目標函數來實現這一能力。文章給出了LSGAN泛化能力的分析、與WGAN的對比,在第8章給出推廣:CLSGAN使得可以利用類別標簽來讓GAN獲得不同類別的生成能力(c設置為類別標簽只是其模型的一個特例),文中還分析了在給定條件下的解的理論分析結果。

On Unifying Deep Generative Models

(Zhiding Hu,CMU)

ArXiv2017

構建 GAN 和 VAE 深度生成建模方法之間的形式聯系。首先對各自進行綜述,對二者的各個步驟進行對比,認為其有着深刻的聯系。然后提出二者的結合形式,如對抗變分自編碼器。

改進

Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

ArXiv2015

DCGAN,對原始GAN的第一個重要改進。為生成器與判別器引入深度模型,在generator和discriminator上都使用batch normalization,無理論創新,均為深度模型訓練時的改進。

InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets

(Xi Chen)

NIPS2016

條件GAN,使得輸入向量的每個值都有各自對應的含義(可解釋性),如控制生成的類別、控制生成人物的發色等。方法是最大化輸入的隨機向量+條件向量與輸出分布之間的互信息,使得輸入的條件信息與輸出的相關性變大。其在D中給出各個類的概率,然后在loss中也添加相應的loss項(Ls+Lc)。最后展示的結果也是按照各個類別產生的新圖像,在MNIST、3D人臉與3D椅子等數據集上給出了生成圖像的展示。

Improved Techniques for Training GANs

(Tim Salimans,Goodfellow,Xi Chen)

ArXiv2017

提出了訓練GAN時的幾種技巧,主要是一種新的BN方法(原來的BN能夠提高網絡的收斂,但是問題是layer的輸出和本次batch內的其他輸入相關):首先從訓練集中拿出一個batch在訓練開始前固定起來,算出這個特定batch的均值和方差,進行更新訓練中的其他batch。再就是特征匹配,提出以中間特征作為衡量標准,而不是預測的標簽。在MNIST、CIFAR-10、SVHN上得到了目前最好的結果。

Adversarial Feature Learning

ICLR2017

-

與各領域的結合

Unsupervised and Semi-Supervised Learning with Categorical Generative Adversarial Networks

ICLR2016

從未標記或部分標記的樣本中學習判別分類器。在觀測樣本和他們預測的類別分布間trades-off互信息,對生成式聚類、判別式聚類等進行了綜述,通過指派一個標簽y給每個樣本,將數據分類到K個類別中去的分類器,而不是學習一個二分類函數,將問題由“生成器生成屬於數據集的樣本”變為“生成屬於K個中的一個確切的類別的樣本”。在其方法中,會先定性地評估對抗生成器生成的樣本的保真度,然后確定CatGAN目標和判別聚類算法(RIM)之間的聯系。

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

CVPR2017

將生成式對抗網絡(GAN)用於SR問題(引入D來解決不同數據域之間分布不一致的問題),使用GAN生成圖像中的細節。傳統的方法使用的代價函數一般是最小均方差(MSE),即各個像素之間的差值,但這樣做會使得生成的圖像過於平滑。本文的目標函數第一部分是基於內容的代價函數,第二部分是基於對抗學習的代價函數。基於內容的代價函數除了傳統的像素空間的最小均方差以外,又包含了一個基於特征空間的最小均方差。

Semantic Segmentation using Adversarial Networks

(FAIR, Soumith Chintala-WGAN二作)

NIPS2016

 

Generative Adversarial Text to Image Synthesis

ICML2016

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM