熵與條件熵


熵是表示隨機變量不確定性的度量,設X是一個取有限個值的離散隨機變量,其概率分布為image

則隨機變量X的熵定義為 image 若對數以2為底或以e為底,這時熵的單位分別稱為比特或納特。熵只依賴與X的分布,而與X的取值無關,所以也可將X的熵記作image。熵越大,隨機變量的不確定性越大。

若一個隨機變量只有兩個值,那么當X的分別為為P(x1)=P(x2)=0.5的時候,熵最大,變量也最不確定。

 

條件熵

設有隨機變量(X,Y),其聯合概率分布為 image 條件熵H(Y|X)表示在已知隨機變量X的條件下隨機變量Y的不確定性。隨機變量X給定的條件下隨機變量Y的條件熵H(Y|X),定義為X給定條件下,Y的條件概率分布的熵對X的數學期望

image 這里,image

這里注意,這個條件熵,不是指的image,即不是指在給定某個數(某個變量為某個值)的情況下,另一個變量的熵是多少,變量的不確定性是多少?不是這樣的,條件熵中X也是一個變量,意思是在一個變量X的條件下(變量X的每個值都會取),另一個變量Y熵對X的期望。

舉個例子:

一顆小花開花或不開花是一個隨機事件,用隨機變量X表示。現有一些樣本X={開 開 開 開 開 開 開 開 開 不 不 不 不 不 }

可以估計P(X=開)=9/14  P(X=不)=5/14

那么X的熵為-(9/14)log(9/14  ) -(5/14)log(5/14  )

 

現在還有一個變量時Y,是一個天氣的變量(晴 陰 雨),且P(晴)=5/14  P(陰)=4/14  P(雨)=5/14,

並且我們有在天氣的條件下,小花開花的情況(也就是按天氣這個條件,對小花的開花情況分類):

image

我們也就有了在Y情況下,X的概率分布。於是,我們就有了H(Y|X)=image

其實條件熵意思是按一個新的變量的每個值對原變量進行分類,比如上面這個題把開 不 按晴陰雨分成了三類,然后在每一個小類里面,都計算一個小熵,然后每一個小熵乘以各個類別的概率,然后求和。我們用另一個變量對原變量分類后,原變量的不確定性就會減小了,因為新增了Y的信息,可以感受一下。不確定程度減少了多少就是信息的增益。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM