傳統方法中,如何衡量一個generator ?—— 用 generator 產生數據的 likelihood,越大越好。
但是 GAN 中的 generator 是隱式建模,所以只能從 P_G 中采樣但沒法根據 pdf 算 likelihood。
一個方法是把從 P_G 中采樣得到的點當作是一個高斯分布的 mean,所有的 sample 都共享一樣的 variance,然后就共同構成了 GMM 來估計 pdf ,然后就可以算 likelihood 了。困難是,要sample 幾個點(要幾個高斯)才估計的准?而且也不一定 likelihood 高,生成的質量就高。總之,這個方法問題還是很多的
比較客觀的方法是,拿一個已經訓練好的分類器來做判別
還需要從 diverse 的方向來衡量(避免發現不了 mode collapse 的問題),生成一組數據得到一組不同的 distributions,把它們平均起來。如果分布比較平均說明比較 diverse,不會太單一。
綜合一下這兩個原則,就得到了 inception score:把某個單一的生成數據喂給現成的分類器,屬於某一類的概率越大越好;同時把所有的生成數據喂給現成的分類器,產生一堆 distribution 然后做平均,越平滑越好。