信息熵:
1. 熱力學中的熱熵是表示分子狀態混亂程度的物理量。香農用信息熵的概念來描述信源的不確定度。
2. ;兩個獨立符號所產生的不確定性應等於各自不確定性之和
3. 在信源中,考慮的不是某一單個符號發生的不確定性,而是要考慮這個信源所有可能發生情況的平均不確定性。
對於當個符號,它的概率為p時,用這個公式衡量它的不確定性:
而信源的平均不確定性,稱為信息熵,用下面的公式表示:
注意:1. 當式中的對數的底為2時,信息熵的單位為比特。它底數為其它時,它對應的單位也不一樣。
2. 信息熵是信息論中用於度量信息量的一個概念。一個系統越是有序,信息熵就越低;反之,一個系統越是混亂,信息熵就越高。所以,信息熵也可以說是系統有序化程度的一個度量。
條件熵:
設X,Y是兩個離散型隨機變量,隨機變量X給定的條件下隨機變量Y的條件熵H(Y|X)表示在已知隨機變量X的條件下隨機變量Y的不確定性。 公式推導如下:
注意:
注意:1. 這個條件熵,不是指在給定某個數(某個變量為某個值)的情況下,另一個變量的熵是多少,而是期望! 因為條件熵中X也是一個變量,意思是在一個變量X的條件下(變量X的每個值都會取),另一個變量Y熵對X的期望。
2. 在計算信息增益的時候,經常需要用到條件熵。信息增益(information gain)是指期望信息或者信息熵的有效減少量(通常用“字節”衡量)。通常表示為:信息熵 - 條件熵;在決策樹中就是根據信息增益選擇特征的;
相對熵 或 K-L散度
設p(x)和q(x)是 X 取值的兩個概率分布,則 p 對於 q 的相對熵為:
它其實吧,有點意思的, 卡式可以寫成這樣子:
KL散度是兩個概率分布P和Q差別的非對稱性的度量。KL散度是用來度量使用基於Q的編碼來編碼來自P的樣本平均所需的額外的位元數。 典型情況下,P表示數據的真實分布,Q 表示數據的理論分布,模型分布,或P的近似分布。
注意:1. KL散度不是對稱的,即:
2. 相對熵的值為非負值。 可以從一個很重要的不等式中推論出來,即吉布斯不等式:
以上內容參考:http://blog.csdn.net/acdreamers/article/details/44657745
交叉熵:
它的公式如下:
它的本質含義為:編碼方案不一定完美時,平均編碼的長度是多少。
通過公式很好理解。。。。 再結合相對熵更容易明白什么含義了。
另外, 我自己補充一點:
在人工神經網絡中,我們有時候會作用交叉熵作為代價函數,此時吧,我們實際上是把輸出看作為一個貝努力分布的的。論文 Extracting and composing robust features with denoising autoencoders里有說明。
上面三者的區別:
下面是一個總結,我在知乎上看到的,我的理解也是這個意思,這里引用過來:
1)信息熵:編碼方案完美時,最短平均編碼長度的是多少。
2)交叉熵:編碼方案不一定完美時(由於對概率分布的估計不一定正確),平均編碼長度的是多少。
平均編碼長度 = 最短平均編碼長度 + 一個增量
3)相對熵:編碼方案不一定完美時,平均編碼長度相對於最小值的增加值。(即上面那個增量)作者:張一山
鏈接:https://www.zhihu.com/question/41252833/answer/140950659
來源:知乎
互信息:
先說點其它的:有兩個變量,分別為X與Y, 則X的信息熵為H(X), Y的信息熵為H(Y), 然后呢,
問: x與y的聯合分布的信息熵,就可以表示為H(X,Y) 。如果 X與Y獨立的話,則有 H(X,Y) = H(X) + H(Y)。如果不獨立的話,則有:H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)。
現在呢,互信息就可以表示為:
I(X,Y) = H(X) + H(Y) – H(X,Y)
這個公式,對應的含義就是:它可以看成是一個隨機變量中包含的關於另一個隨機變量的信息量。
另外,我們還可以把互信息寫為: I(X,Y) = H(X) – H(X|Y) = H(Y) – H(Y|X)
此時,互信息可以說成一個隨機變量由於已知另一個隨機變量而減少的不肯定性。
是不是有點意思??很好理解吧。