大咖揭秘Java人都栽在了哪？點擊免費領取《大廠面試清單》，攻克面試難關~>>>

過去幾年發表於各大 AI 頂會論文提出的 400 多種算法中，公開算法代碼的僅占 6%，其中三分之一的論文作者分享了測試數據，約 54% 的分享包含“偽代碼”。這是今年 AAAI 會議上一個嚴峻的報告。人工智能這個蓬勃發展的領域正面臨着實驗重現的危機，就像實驗重現問題過去十年來一直困擾着心理學、醫學以及其他領域一樣。最根本的問題是研究人員通常不共享他們的源代碼。

可驗證的知識是科學的基礎，它事關理解。隨着人工智能領域的發展，打破不可復現性將是必要的。為此，PaperWeekly 聯手百度 PaddlePaddle 共同發起了本次論文有獎復現，我們希望和來自學界、工業界的研究者一起接力，為 AI 行業帶來良性循環。

作者丨黃濤

學校丨中山大學數學學院18級本科生

研究方向丨圖像識別、VQA、生成模型和自編碼器

640?

論文復現代碼：

http://aistudio.baidu.com/#/projectdetail/23600

GAN

生成對抗網絡（Generative Adversarial Nets）是一類新興的生成模型，由兩部分組成：一部分是判別模型（discriminator）D(·)，用來判別輸入數據是真實數據還是生成出來的數據；另一部分是是生成模型（generator）G(·)，由輸入的噪聲生成目標數據。GAN 的優化問題可以表示為：

640

其中 Pdata 是生成樣本，noise 是隨機噪聲。而對於帶標簽的數據，通常用潛碼（latent code）c 來表示這一標簽，作為生成模型的一個輸入，這樣我們有：

640?

然而當我們遇到存在潛在的類別差別而沒有標簽數據，要使 GAN 能夠在這類數據上擁有更好表現，我們就需要一類能夠無監督地辨別出這類潛在標簽的數據，InfoGAN 就給出了一個較好的解決方案。

互信息（Mutual Information）

互信息是兩個隨機變量依賴程度的量度，可以表示為：

640?

要去直接優化 I(c;G(z,c)) 是極其困難的，因為這意味着我們要能夠計算后驗概率（posterior probability）P(c|x)，但是我們可以用一個輔助分布（auxiliary distribution）Q(c|x)，來近似這一后驗概率。這樣我們能夠給出互信息的一個下界（lower bounding）：

640?

InfoGAN

在 InfoGAN 中，為了能夠增加潛碼和生成數據間的依賴程度，我們可以增大潛碼和生成數據間的互信息，使生成數據變得與潛碼更相關：

640

640?

▲ 圖1. InfoGAN的整體結構圖

由上面的，對於一個極大化互信息的問題轉化為一個極大化互信息下界的問題，我們接下來就可以定義：

640?

在論文的附錄中，作者證明了：

640?

於是：

640

故 LI (G, Q) 是互信息的一個下界。作者指出，用蒙特卡羅模擬（Monte Carlo simulation）去逼近 LI (G, Q) 是較為方便的，這樣我們的優化問題就可以表示為：

640?

實現

在實現中，D(x)、G(z, c) 和 Q(x) 分別用一個 CNN (Convolutional Neural Networks)、CNN、DCNN (DeConv Neural Networks) 來實現。同時，潛碼 c 也包含兩部分：一部分是類別，服從 Cat(K = N,p = 1/N)，其中 N 為類別數量；另一部分是連續的與生成數據有關的參數，服從 Unif(−1,1) 的分布。

在此應指出，Q(c|x) 可以表示為一個神經網絡 Q(x) 的輸出。對於輸入隨機變量 z 和類別潛碼 c，實際的 LI(G, Q) 可以表示為：

640?

其中 · 表示內積（inner product），c 是一個選擇計算哪個 log 的參數，例如 ci = 1 而 cj = 0(∀j = 1,2,···,i − 1,i + 1,···,n)，那么 z 這時候計算出的 LI(G,Q) 就等於 log(Q(z,c)i)。這里我們可以消去 H(c)，因為 c 的分布是固定的，即優化目標與 H(c) 無關：

640?

而對於參數潛碼，我們假設它符合正態分布，神經網絡 Q(x) 則輸出其預測出的該潛碼的均值和標准差，我們知道，對於均值 μ，標准差 σ 的隨機變量，其概率密度函數為：

640

要計算參數潛碼 c 的 640 ，就是要計算 log p(c)，即：

640

設 Q(x) 輸出的參數潛碼 c 的均值 μ，標准差 σ 分別為 Q(x)μ 和 Q(x)σ，那么對於參數潛碼 c：

640?

同樣的，我們可以消去 H(c)，因為 c 的分布是固定的，那么：

640?

實驗

首先，通過和普通的 GAN 比較 LI ，作者證明了 InfoGAN 確實能夠優化這一互信息的下界 2。

作者在 MNIST 手寫數字數據集（3）、3D 面部數據集（4）、3D 椅子數據集（5）、SVHN 街景房號數據集（6）以及 CelebA 人臉數據集（7）上進行了模型的相關測試。

640?

▲ 圖2. MNIST手寫字符數據集上的結果

640?

▲ 圖3. 3D面部數據集上的結果

640?

▲ 圖4. 3D椅子數據集上的結果

640

▲ 圖5. SVHN街景房號數據集上的結果

640?

▲ 圖6. CelebA人臉數據集上的結果

作者展示了這些數據集上學習到的類別潛碼（從上至下變化）和參數潛碼（從左至右變化，由 -2 到 2），我們可以看出，InfoGAN 不僅能夠很好地學習數據之間的類型差別，也能夠很好地學習到數據本身的一些易於區分的特點，而且生成模型對這些特點的泛化能力還是很好的。

再論InfoGAN的LI

讀完論文，我們發現，對於類別潛碼，這個 LI 本質上是 x 與 G(z, c) 之間的 KL 散度：

640?

也就是說：

640?

而 min DKL(c||Q(G(z, c))) 意味着減小 c 與 Q(G(z, c)) 的差別。

640?

▲ 圖7. 普通GAN和InfoGAN的LI在訓練過程中的比較

如果我們不考慮 Q(x)σ 的影響，LI 的優化過程：

640?

而 640? 也意味着減小 c 與 Q(G(z, c))μ 的差。

再縱觀整個模型，我們會發現這一對 LI 優化的過程，實質上是以 G 為編碼器（Encoder）， Q 為解碼器（Decoder），生成的圖像作為我們要編碼的碼（code），訓練一個自編碼器（Autoencoder），也就是說，作者口中的信息論優化問題，本質上是無監督訓練問題。

關於PaddlePaddle

在 PaddlePaddle 中，一個極為重要的概念即是 fluid.Program()，在官方文檔里常見的 exe.run(program= fluid.default_startup_program())的 fluid.default_startup_program() 就是其中一個例子。

在這一使用中可以了解到，我們要用 exe.run() 中的 program 參數運行指定的 fluid.Program()，而官方文檔指出，當該參數未指定時，會運行 fluid.default_main_program()，而 fluid.default_main_program() 代表的是未指定 fluid.Program() 的所有操作。

注意，這里說的是“所有”，由於 PaddlePaddle 沒有計算依賴檢測機制，即使在計算 fetch_list 中的值的時候不會用到操作也會被計算，這一點與 TensorFlow 極其不同，作者本人在使用過程中踩了很大的坑，還望各位注意。在執行多種任務的時候不要一股腦全部寫在 fluid.default_main_program() 之中，這樣極其浪費資源，也容易造成一些問題。

一個新的 fluid.Program() 被創建之后，可以在 fluid.program_guard() 中指定該 fluid.Program() 中的操作與變量：

 
 PaddlePaddle 中還需要注意的一點是，fluid.Variable 的命名空間是全局的，也就是說在同一或者不同 fluid. Program() 間，同名（fluid.Variable 的 name 屬性相同）的 fluid.Variable 所指向的變量是相同的，所以同一名稱在同一或者不同 fluid.Program () 中可以被使用多次，而不用擔心 TensorFlow 中會出現的 reuse 問題。 
 
 要對一個操作的中的權值的名稱進行定義（權值命名為 W1，偏置命名為 b1）：
 
 
 
 要在之后使用這些 fluid.Variable，例如在 Optimizer 中使用：
 
 
 
 在構建完基本的運算操作后，便可以開始初始化操作了：
 
 
 
 初始化完成后，可以開始訓練啦：
 
 
 
  GAN實現
 
 生成對抗網絡（Generative Adversarial Nets）是一類新興的生成模型，由兩部分組成：一部分是判別模型（discriminator）D(·)，用來判別輸入數據是真實數據還是生成出來的數據；另一部分是是生成模型（generator）G(·)，由輸入的噪聲生成目標數據。GAN 的優化問題可以表示為：
 
 
 
 其中 Pdata 是生成樣本，noise 是隨機噪聲。我們用一個雙層的 MLP 來演示：
 
 
 
 通常，一個 GAN 的訓練由兩部分組成，第一部分是對 D(·) 進行訓練，極大化目標函數：
 
 
 
 第二部分是對 G(·) 進行訓練，極小化目標函數：
 
 
 
 以下是兩部分優化的定義：
 
 
 
 在定義好這些之后，是時候開訓練了：
 
 
 
 若欲測試模型效果，可再定義一個 Inference：
 
 
 
 然后再這樣獲取 samples：
 
 
 
  后記
 
 本文先前於今年 8 月完成，共享於 PaddlePaddle 論文復現群內，在 10 月 LSGAN 的復現公開之 后，參考該復現更改了模型參數命名和參數列表的實現方法，在此感謝 Todd 同學的復現對本文的幫助。
 
 
 
 轉載來源：PaperWeekly

 本文分享 CSDN - 飛槳PaddlePaddle。
如有侵權，請聯系 support@oschina.cn 刪除。
本文參與“OSC源創計划”，歡迎正在閱讀的你也加入，一起分享。

經典論文復現 | InfoGAN：一種無監督生成方法

GAN

互信息（Mutual Information）

InfoGAN

實現

實驗

再論InfoGAN的LI

關於PaddlePaddle

GAN實現

后記

免責聲明！