轉自:https://zhuanlan.zhihu.com/p/24767059,感謝分享
生成式對抗網絡(GAN)是近年來大熱的深度學習模型。最近正好有空看了這方面的一些論文,跑了一個GAN的代碼,於是寫了這篇文章來介紹一下GAN。
本文主要分為三個部分:
- 介紹原始的GAN的原理
- 同樣非常重要的DCGAN的原理
- 如何在Tensorflow跑DCGAN的代碼,生成如題圖所示的動漫頭像,附送數據集哦 :-)
一、GAN原理介紹
說到GAN第一篇要看的paper當然是Ian Goodfellow大牛的Generative Adversarial Networks(arxiv:https://arxiv.org/abs/1406.2661),這篇paper算是這個領域的開山之作。
GAN的基本原理其實非常簡單,這里以生成圖片為例進行說明。假設我們有兩個網絡,G(Generator)和D(Discriminator)。正如它的名字所暗示的那樣,它們的功能分別是:
- G是一個生成圖片的網絡,它接收一個隨機的噪聲z,通過這個噪聲生成圖片,記做G(z)。
- D是一個判別網絡,判別一張圖片是不是“真實的”。它的輸入參數是x,x代表一張圖片,輸出D(x)代表x為真實圖片的概率,如果為1,就代表100%是真實的圖片,而輸出為0,就代表不可能是真實的圖片。
在訓練過程中,生成網絡G的目標就是盡量生成真實的圖片去欺騙判別網絡D。而D的目標就是盡量把G生成的圖片和真實的圖片分別開來。這樣,G和D構成了一個動態的“博弈過程”。
最后博弈的結果是什么?在最理想的狀態下,G可以生成足以“以假亂真”的圖片G(z)。對於D來說,它難以判定G生成的圖片究竟是不是真實的,因此D(G(z)) = 0.5。
這樣我們的目的就達成了:我們得到了一個生成式的模型G,它可以用來生成圖片。
以上只是大致說了一下GAN的核心原理,如何用數學語言描述呢?這里直接摘錄論文里的公式:
簡單分析一下這個公式:
- 整個式子由兩項構成。x表示真實圖片,z表示輸入G網絡的噪聲,而G(z)表示G網絡生成的圖片。
- D(x)表示D網絡判斷真實圖片是否真實的概率(因為x就是真實的,所以對於D來說,這個值越接近1越好)。而D(G(z))是D網絡判斷G生成的圖片的是否真實的概率。
- G的目的:上面提到過,D(G(z))是D網絡判斷G生成的圖片是否真實的概率,G應該希望自己生成的圖片“越接近真實越好”。也就是說,G希望D(G(z))盡可能得大,這時V(D, G)會變小。因此我們看到式子的最前面的記號是min_G。
- D的目的:D的能力越強,D(x)應該越大,D(G(x))應該越小。這時V(D,G)會變大。因此式子對於D來說是求最大(max_D)
下面這幅圖片很好地描述了這個過程:
那么如何用隨機梯度下降法訓練D和G?論文中也給出了算法:
這里紅框圈出的部分是我們要額外注意的。第一步我們訓練D,D是希望V(G, D)越大越好,所以是加上梯度(ascending)。第二步訓練G時,V(G, D)越小越好,所以是減去梯度(descending)。整個訓練過程交替進行。
二、DCGAN原理介紹
我們知道深度學習中對圖像處理應用最好的模型是CNN,那么如何把CNN與GAN結合?DCGAN是這方面最好的嘗試之一(論文地址:[1511.06434] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks)
DCGAN的原理和GAN是一樣的,這里就不在贅述。它只是把上述的G和D換成了兩個卷積神經網絡(CNN)。但不是直接換就可以了,DCGAN對卷積神經網絡的結構做了一些改變,以提高樣本的質量和收斂的速度,這些改變有:
- 取消所有pooling層。G網絡中使用轉置卷積(transposed convolutional layer)進行上采樣,D網絡中用加入stride的卷積代替pooling。
- 在D和G中均使用batch normalization
- 去掉FC層,使網絡變為全卷積網絡
- G網絡中使用ReLU作為激活函數,最后一層使用tanh
- D網絡中使用LeakyReLU作為激活函數
DCGAN中的G網絡示意:
三、DCGAN in Tensorflow
好了,上面說了一通原理,下面說點有意思的實踐部分的內容。
DCGAN的原作者用DCGAN生成LSUN的卧室圖片,這並不是特別有意思。之前在網上看到一篇文章 Chainerで顔イラストの自動生成 - Qiita ,是用DCGAN生成動漫人物頭像的,效果如下:
這是個很有趣的實踐內容。可惜原文是用Chainer做的,這個框架使用的人不多。下面我們就在Tensorflow中復現這個結果。
1. 原始數據集的搜集
首先我們需要用爬蟲爬取大量的動漫圖片,原文是在這個網站:http://safebooru.donmai.us/中爬取的。我嘗試的時候,發現在我的網絡環境下無法訪問這個網站,於是我就寫了一個簡單的爬蟲爬了另外一個著名的動漫圖庫網站:konachan.net - Konachan.com Anime Wallpapers。
爬蟲代碼如下:
import requests from bs4 import BeautifulSoup import os import traceback def download(url, filename): if os.path.exists(filename): print('file exists!') return try: r = requests.get(url, stream=True, timeout=60) r.raise_for_status() with open(filename, 'wb') as f: for chunk in r.iter_content(chunk_size=1024): if chunk: # filter out keep-alive new chunks f.write(chunk) f.flush() return filename except KeyboardInterrupt: if os.path.exists(filename): os.remove(filename) raise KeyboardInterrupt except Exception: traceback.print_exc() if os.path.exists(filename): os.remove(filename) if os.path.exists('imgs') is False: os.makedirs('imgs') start = 1 end = 8000 for i in range(start, end + 1): url = 'http://konachan.net/post?page=%d&tags=' % i html = requests.get(url).text soup = BeautifulSoup(html, 'html.parser') for img in soup.find_all('img', class_="preview"): target_url = 'http:' + img['src'] filename = os.path.join('imgs', target_url.split('/')[-1]) download(target_url, filename) print('%d / %d' %