交叉熵
熵/信息熵
假設一個發送者想傳輸一個隨機變量的值給接收者。這個過程中,他們傳輸的平均信息量為:
叫隨機變量
的熵,其中
把熵擴展到連續變量的概率分布
,則熵變為
被稱為微分熵。
在離散分布下,最大熵對應於變量的所有可能狀態的均勻分布。
最大化微分熵的分布是高斯分布
相對熵/KL散度
考慮某個未知分布,假設我們使用一個近似分布
對其進行建模。如果我們使用
來建立一個編碼體系,用來把
傳遞給接收者,由於我們使用了
而不是真實分布
,因此在具體化
時,我們需要一些附加信息。我們需要的附加信息量為:
這被稱為分布與分布
之間的相對熵,或者KL散度。KL散度大於等於零,當兩個分布一致時等於零。
交叉熵
交叉熵本質上可以看成,用一個猜測的分布的編碼去編碼真實的分布,得到的信息量:
對所有訓練樣本取均值得到:
對數損失函數
對數損失函數的表達式為:
參見https://blog.csdn.net/qq_38625259/article/details/88362765
交叉熵和對數損失函數之間的關系
交叉熵中未知真實分布相當於對數損失中的真實標記
,尋找的近似分布
相當於我們的預測值。如果把所有樣本取均值就把交叉熵轉化成了對數損失函數。