交叉熵
熵/信息熵
假設一個發送者想傳輸一個隨機變量的值給接收者。這個過程中,他們傳輸的平均信息量為:
![\large H[x]=-\sum_xp(x){log}_{2}p(x)](/image/aHR0cHM6Ly9wcml2YXRlLmNvZGVjb2dzLmNvbS9naWYubGF0ZXg_JTVDbGFyZ2UlMjBIJTVCeCU1RCUzRC0lNUNzdW1feHAlMjh4JTI5JTdCbG9nJTdEXyU3QjIlN0RwJTI4eCUyOQ==.png)
叫隨機變量
的熵,其中
把熵擴展到連續變量
的概率分布
,則熵變為
![\large H[x]=-\int p(x)lnp(x)dx](/image/aHR0cHM6Ly9wcml2YXRlLmNvZGVjb2dzLmNvbS9naWYubGF0ZXg_JTVDbGFyZ2UlMjBIJTVCeCU1RCUzRC0lNUNpbnQlMjBwJTI4eCUyOWxucCUyOHglMjlkeA==.png)
被稱為微分熵。
在離散分布下,最大熵對應於變量的所有可能狀態的均勻分布。
最大化微分熵的分布是高斯分布

相對熵/KL散度
考慮某個未知分布
,假設我們使用一個近似分布
對其進行建模。如果我們使用
來建立一個編碼體系,用來把
傳遞給接收者,由於我們使用了
而不是真實分布
,因此在具體化
時,我們需要一些附加信息。我們需要的附加信息量為:


這被稱為分布
與分布
之間的相對熵,或者KL散度。KL散度大於等於零,當兩個分布一致時等於零。
交叉熵
交叉熵本質上可以看成,用一個猜測的分布的編碼去編碼真實的分布,得到的信息量:



![\large =-[P_p(x=1)lnP_q(x=1)+P_p(x=0)P_q(x=0)]](/image/aHR0cHM6Ly9wcml2YXRlLmNvZGVjb2dzLmNvbS9naWYubGF0ZXg_JTVDbGFyZ2UlMjAlM0QtJTVCUF9wJTI4eCUzRDElMjlsblBfcSUyOHglM0QxJTI5JnBsdXM7UF9wJTI4eCUzRDAlMjlQX3ElMjh4JTNEMCUyOSU1RA==.png)
![\large =-[plnq+(1-p)ln(1-q)]](/image/aHR0cHM6Ly9wcml2YXRlLmNvZGVjb2dzLmNvbS9naWYubGF0ZXg_JTVDbGFyZ2UlMjAlM0QtJTVCcGxucSZwbHVzOyUyODEtcCUyOWxuJTI4MS1xJTI5JTVE.png)
![\large =-[ylnh_\theta(x)+(1-y)ln(1-h_\theta(x))]](/image/aHR0cHM6Ly9wcml2YXRlLmNvZGVjb2dzLmNvbS9naWYubGF0ZXg_JTVDbGFyZ2UlMjAlM0QtJTVCeWxuaF8lNUN0aGV0YSUyOHglMjkmcGx1czslMjgxLXklMjlsbiUyODEtaF8lNUN0aGV0YSUyOHglMjklMjklNUQ=.png)
對所有訓練樣本取均值得到:

對數損失函數
對數損失函數的表達式為:

參見https://blog.csdn.net/qq_38625259/article/details/88362765
交叉熵和對數損失函數之間的關系
交叉熵中未知真實分布
相當於對數損失中的真實標記
,尋找的近似分布
相當於我們的預測值。如果把所有樣本取均值就把交叉熵轉化成了對數損失函數。
