計算 IS 時只考慮了生成樣本,沒有考慮真實數據,即 IS 無法反映真實數據和樣本之間的距離,IS 判斷數據真實性的依據,源於 Inception V3 的訓練集 ------ ImageNet,在 Inception V3 的“世界觀”下,凡是不像 ImageNet 的數據,都是不真實的,都不能保證輸出一個 sharp 的 predition distribution。因此,要想更好地評價生成網絡,就要使用更加有效的方法計算真實分布與生成樣本之間的距離。
基本原理
FID距離計算真實樣本,生成樣本在特征空間之間的距離。首先利用Inception網絡來提取特征,然后使用高斯模型對特征空間進行建模,再去求解兩個特征之間的距離,較低的FID意味着較高圖片的質量和多樣性。具體公式如下:
具體推導公式 https://www.sciencedirect.com/science/article/pii/0047259X8290077X
相比較IS來說,FID對噪聲有更好的魯棒性。因為FID只是把 Inception V3 作為特征提取器,並不依賴它判斷圖片的具體類別,因此不必擔心 Inception V3 的訓練數據和生成模型的訓練數據不同。同時,由於直接衡量生成數據和真實數據的分布之間的距離,也不必擔心每個類別內部只產生一模一樣的圖片這種形式的 mode collapse。
局限性
雖然相比IS,FID的方法有了很大改進,但是對於ImageNet這種大規模數據集上的過擬合問題,仍然沒有解決。除此之外,FID基於特征提取,也就是依賴於某些特征的出現或者不出現,因此無法描述這些特征的空間關系。例如用GAN去生成人臉,如果嘴巴長在眼睛上面,FID可能也會認為它是一張較好地生成結果。
總結
同樣是借助於Inception V3的結構提取特征,所以GAN的論文中經常使用FID作為IS的補充,特別是在多樣性和mode collapse問題上,FID有更好地評價表現,但也有和IS同樣的缺陷,比如不適合在內部差異較大的數據集上使用,無法區分過擬合等。
原文鏈接:https://blog.csdn.net/qq_35586657/article/details/98478508 GAN的幾種評價指標