KL散度的理解(GAN網絡的優化)


 

 

原文地址Count Bayesie
這篇文章是博客Count Bayesie上的文章Kullback-Leibler Divergence Explained 的學習筆記,原文對 KL散度 的概念詮釋得非常清晰易懂,建議閱讀

 

相對熵,又稱KL散度( Kullback–Leibler divergence),是描述兩個概率分布P和Q差異的一種方法。它是非對稱的,這意味着D(P||Q) ≠ D(Q||P)。

 

KL散度的計算

衡量近似分布帶來的信息損失。 
KL散度的計算公式其實是熵計算公式的簡單變形,在原有概率分布 p上,加入我們的近似概率分布 q,計算他們的每個取值對應對數的差:

換句話說,KL散度計算的就是數據的原分布與近似分布的概率的對數差的期望值。 
在對數以2為底時,log⁡2 ,可以理解為“我們損失了多少位的信息” 
寫成期望形式 :

The more common way to see KL divergence written is as follows:

With KL divergence we can calculate exactly how much information is lost when we approximate one distribution with another. 

 

散度不是距離

因為KL散度不具有交換性,所以不能理解為“距離”的概念,衡量的並不是兩個分布在空間中的遠近,更准確的理解還是衡量一個分布相比另一個分布的信息損失(infomation lost)

 

使用KL散度進行優化

通過不斷改變預估分布的參數,我們可以得到不同的KL散度的值。 
在某個變化范圍內,KL散度取到最小值的時候,對應的參數是我們想要的最優參數。 
這就是使用KL散度優化的過程。

 

參考CodenameNC的博客

 

GAN網絡使用KL散度

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM