DCGAN 論文簡單解讀

本文轉載自查看原文 2018-05-18 09:55 24495 生成對抗網絡/ GAN/ 深度學習/ DCGAN

　　　　　　　　　　　　　　　　　　　圖1

DCGAN all bags of tricks
　　　　　　　　　　　　　　　　　　　圖2

　　　　　　　　　　　　　　　圖3 訓練１輪之后生成的圖片

　　　　　　　　　　　　　　　圖4 訓練5輪之后生成的圖片

　　　　　　　　　　圖5 DCGAN在imagenet-1k上訓練，然后對cifar-10進行分類,和k-means方法進行對比

　　　　　　　　　　　　　　　　圖6 SVHN classification with 1000 labels

　　　　　　　　　　　　　圖7 generated images with and without windows

　　　　　　　　　　　　　圖8 random filters and trained filters

　　　　　　　　　　　　　圖9 remove windows experiment

　　　　　　　　　　　　　圖10 Vector arithmetic for visual concepts

　　　　　　　　　　　　　圖11 looking left vs. looking right

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

DCGAN 論文簡單解讀

DCGAN的全稱是Deep Convolution Generative Adversarial Networks(深度卷積生成對抗網絡)。是2014年Ian J.Goodfellow 的那篇開創性的GAN論文之后一個新的提出將GAN和卷積網絡結合起來，以解決GAN訓練不穩定的問題的一篇paper.

關於基本的GAN的原理，可以參考原始paper,或者其他一些有用的文章和代碼，比如:GAN mnist 數據生成,深度卷積GAN之圖像生成,GAN tutorial等。這里不再贅述。

一. DCGAN 論文簡單解讀

ABSTRACT

INTRODUCTION

- 文中提出並評估了一系列的對於卷積GAN的結構的限制，這些限制確保了在大多數情況下,卷積GAN可以保持穩定。文中將這種結構命名為DCGAN。

- 文中將訓練好的鑒別器應用於圖片分類任務，並和其他的非監督方法進行對比，發現它非常competitive。

- 文中可視化了DCGAN的filters,結果表明特定的filter學習到了特定的object。

- 文中表明生成器具有有趣的向量算數屬性(vector arithmetic property),這使得我們可以對生成的樣本進行語義上的操作(類似於NLP中的word embedding 的性質,文中作者舉了給女性戴墨鏡的例子,詳見下文)。

RELATED WORK

2.1 從未標注的數據學習representation。之前使用的比較多的方法是聚類(層次k-means等),還有auto-endcoders,以及深度信念網絡(deep blief networks)。

2.2 產生自然的圖片。這一任務主要分為參數的和非參數的。

非參數方法

這種方法主要是從圖片數據庫對圖片碎片(pathes)做match,應用在了圖片的紋理合成(texture synthesis)以及超分辨率圖片合成等方面。

參數方法

2.2 對CNN進行可視化

可以使用deconvolution(反卷積)以及對輸入進行梯度下降，這有助於探索CNN內部的每一層到底學到了什么表達。

2.3 DCGAN的方法以及模型架構

- 全卷積網絡。主要就是使用了strided convolution 替代確定性的pooling 操作，從而可以讓網絡自己學習downsampling(下采樣)。作者對generator和discriminator都采用了這種方法，讓它們可以學習自己的空間下采樣。

總結一下，DCGAN的主要的tricks如下圖2所示:

DETAILS OF ADVERSARIAL TRANING(對抗訓練的細節)

3.1 概述

文章主要在LSUN數據集,ImageNet 1k以及一個較新的celebA數據集上進行了實驗。訓練的一些細節如下:

- image preprocessing。我們沒有對圖片進行pre-processing,除了將generator的輸出變換到[-1,1]。

- SGD。訓練使用mini-batch SGD,batch size = 128。

- parameters initialize。所有的參數都采用0均值,標准差為0.02的初始化方式。

- leaky relu。leaky relu 的 \(\alpha\)的取值為０.2。

3.2 LSUN

去重(deduplication)

為了防止模型過擬合,即模型簡單記住輸入的特征，然后生成類似的圖片。作者還對訓練樣本進行了去重處理，即去除相似度較高的圖片。具體的原理可以參考論文。

3.3 FACES

3.4 imagenet-1k

對imagenet-1k的圖片使用32x32的min-resized-center-crops進行訓練。同樣沒有進行data augmentation。

對於DCGAN性能的經驗驗證

4.1 使用DCGAN作為feature extrctor對cifar-10數據進行分類。通常評估非監督表達學習性能的一個常用方法是將它作為特征提取器(feature extrator)應用於監督學習,然后評估linear model 基於這些learned features 的performance。

4.3 使用DCGAN作為feature extrctor對SVHN數據進行分類

5.1 對DCGAN內部的探索和可視化

5.2 探索latent space

5.3 可視化discriminator features

5.4 操作生成器表達

下圖7展示了帶有window的和不帶有window的生成圖片。有意思的是，網絡大部分時候都會忘記繪制在bedrooms中繪制window,而是將window替換成其他的物體。

5.4.2 在人臉樣本中的向量算術性質

CONCLUSION AND FEATURE WORK

免責聲明！