牛客上總結很好,但是有一些小錯誤與重復,自己再總結一下好了,順便復習。
交叉熵公式
兩個概率分布和
的交叉熵是指,當基於一個“非自然”(相對於“真實”分布
而言)的概率分布
進行編碼時,在事件集合中唯一標識一個事件所需要的平均比特數(bit)。
$ P $ 和 $ Q $ 的KL散度 ,又叫他們之間的相對熵,注意相對熵和交叉熵是不一樣的。
可知,
\[D_{{{\mathrm {KL}}}}(P\|Q)=\sum _{i}P(i)\ln { P(i)}+P(i)\ln {\frac {1}{Q(i)}}.\! \]
因此 交叉熵和KL散度(又稱相對熵)有如下 關系,
互信息的定義
一般地,兩個離散隨機變量 X 和 Y 的互信息可以定義為:
其中 p(x,y) 是 X 和 Y 的聯合概率分布函數,而 和
分別是 X 和 Y 的邊緣概率分布函數。
互信息與KL散度的關系
由KL散度定義可知,互信息與KL散度有如下關系,
記 p(x|y) = p(x, y) / p(y) , 事實上還有一個關系,
互信息與各種熵的關系大匯總。。。
其中 和
是邊緣熵,H(X|Y) 和 H(Y|X) 是條件熵,而 H(X,Y) 是 X 和 Y 的聯合熵。
下面是其中一個的證明,其它應該也不難證明,如果概念搞清楚的話,
logistic回歸推導
參考我之前cs229學習筆記。
人生充滿了巧合。巧就巧在,在我的第一家面試,在上海豪生大酒店三樓,甜橙金融的算法面試。面試官問我的兩個問題就是互信息與KL散度的關系以及邏輯斯蒂克回歸的一些問題。當時一緊張就回答不太好。公式都快忘了,沒有任何准備。
現在正在等面試結果。是2019年10月17號上午10點面的,等得我好慌。
不慌,打不了春招,人生說不定也有驚喜,即使是驚嚇,也練練我的承受力。各項事務匯集在一點,這幾天又要抽送外審的論文。