熵
熵是表示隨機變量不確定性的度量,設X是一個取有限個值的離散隨機變量,其概率分布為
則隨機變量X的熵定義為 若對數以2為底或以e為底,這時熵的單位分別稱為比特或納特。熵只依賴與X的分布,而與X的取值無關,所以也可將X的熵記作
。熵越大,隨機變量的不確定性越大。
若一個隨機變量只有兩個值,那么當X的分別為為P(x1)=P(x2)=0.5的時候,熵最大,變量也最不確定。
條件熵
設有隨機變量(X,Y),其聯合概率分布為 條件熵H(Y|X)表示在已知隨機變量X的條件下隨機變量Y的不確定性。隨機變量X給定的條件下隨機變量Y的條件熵H(Y|X),定義為X給定條件下,Y的條件概率分布的熵對X的數學期望
這里注意,這個條件熵,不是指的,即不是指在給定某個數(某個變量為某個值)的情況下,另一個變量的熵是多少,變量的不確定性是多少?不是這樣的,條件熵中X也是一個變量,意思是在一個變量X的條件下(變量X的每個值都會取),另一個變量Y熵對X的期望。
舉個例子:
一顆小花開花或不開花是一個隨機事件,用隨機變量X表示。現有一些樣本X={開 開 開 開 開 開 開 開 開 不 不 不 不 不 }
可以估計P(X=開)=9/14 P(X=不)=5/14
那么X的熵為-(9/14)log(9/14 ) -(5/14)log(5/14 )
現在還有一個變量時Y,是一個天氣的變量(晴 陰 雨),且P(晴)=5/14 P(陰)=4/14 P(雨)=5/14,
並且我們有在天氣的條件下,小花開花的情況(也就是按天氣這個條件,對小花的開花情況分類):
我們也就有了在Y情況下,X的概率分布。於是,我們就有了H(Y|X)=
其實條件熵意思是按一個新的變量的每個值對原變量進行分類,比如上面這個題把開 不 按晴陰雨分成了三類,然后在每一個小類里面,都計算一個小熵,然后每一個小熵乘以各個類別的概率,然后求和。我們用另一個變量對原變量分類后,原變量的不確定性就會減小了,因為新增了Y的信息,可以感受一下。不確定程度減少了多少就是信息的增益。