參考:https://blog.csdn.net/b1055077005/article/details/100152102 (文中所有公式均來自該bolg,侵刪)
信息奠基人香農(Shannon)認為“信息是用來消除隨機不確定性的東西”,我們需要尋找一個量來衡量信息的有用程度。首先要先明確,這里的信息都指的是正確信息。
一件越不可能的事發生了,對其他人的用處就越大。比如:我的cvpr被拒稿了。這是一個極大概率事件,所以我跟你說的話,你會感覺:這還用你說?也就是說這句話對你沒啥用。
但是如果我說:我cvpr被接收了。你肯定內心立刻被‘震’了一下子,說明這句話的信息量很大,所以,我們可以用一個量來描述信息的有用性,它就是信息量:I(x)=−log(P(x))
但是用信息量來衡量一件有一定概率發生的信息的有用程度是不合邏輯的,‘彩票中獎了’,‘太陽從西方升起’這種信息量很大的信息因為發生概率太小使其有用程度大打折扣。
明顯,衡量信息有用程度的這個量需要有這樣的性質:對於越不確定的信息,這個量應該越大。因此,定義一個新的量來衡量一定概率發生的信息,信息熵:
這實際上就是信息量的期望。
因此KL散度又稱為相對熵。在深度學習中,信息熵是個定值,因此大多數情況下KL散度和交叉熵是等價的。