互信息


一、概念

互信息,Mutual Information,縮寫為MI,表示兩個變量X與Y是否有關系,以及關系的強弱,或者說是X與Y的相關性。

如果 (X, Y) ~ p(x, y), X, Y 之間的互信息 I(X; Y)定義為:

Note: 互信息 I (X; Y)可為正、負或0。

互信息實際上是更廣泛的相對熵的特殊情形

如果變量不是獨立的,那么我們可以通過考察聯合概率分布與邊緣概率分布乘積之間的 Kullback-Leibler 散度來判斷它們是否“接近”於相互獨立。此時, Kullback-Leibler 散度為

這被稱為變量 x 和變量 y 之間的互信息( mutual information )。根據 Kullback-Leibler 散度的性質,我們看到 I[x, y] ≥ 0 ,當且僅當 x 和 y 相互獨立時等號成立。

使用概率的加和規則和乘積規則,我們看到互信息和條件熵之間的關系為

可以把互信息看成由於知道 y 值而造成的 x 的不確定性的減小(反之亦然)(即Y的值透露了多少關於X 的信息量)。

\

\

 

Y的熵指的是衡量的是Y的不確定度,Y分布得越離散,H(Y)的值越高

H(Y|X)則表示在已知X的情況下,Y的不確定度

所以,根據互信息公式的變形: 

可以看出,I(X,Y)可以解釋為由X引入而使Y的不確定度減小的量,這個減小的量為H(Y|X)

所以,如果X,Y關系越密切,I(X,Y)就越大

 

I(X,Y)最大的取值是H(Y),此時H(Y|X)為0,意義為X和Y完全相關,在X確定的情況下Y是個定值,沒有出現其他不確定情況的概率,所以為H(Y|X)為0

I(X,Y)取0時,代表X與Y獨立,此時H(Y)=H(Y|X),意義為X的出現不影響Y

二、性質

I(X;Y)的性質: 
1)I(X;Y)⩾0 
2)I(X;Y)= H(X)−H(X|Y) = I(Y;X)=H(Y)−H(Y|X):這里我們可以得到:當X和Y完全相關時,互信息的取值是H(X),同時H(X)=H(Y);當二者完全無關時,互信息的取值是0
3)當X,Y獨立時,I(X;Y)=0,
4)當X,Y知道一個就能推斷另一個時,I(X;Y)=H(X)=H(Y)

三、互信息、條件熵與聯合熵的區別與聯系

 

\

由於 H(X|X) = 0, 所以, H(X) = H(X) – H(X|X) = I(X; X)

這一方面說明了為什么熵又稱自信息,另一方面說明了兩個完全相互依賴的變量之間的互信息並不是一個常量,而是取決於它們的熵。

從圖中可以看出,條件熵可以通過聯合熵 - 熵( H(X|Y) = H(X, Y) - H(Y) )表示,也可以通過熵 - 互信息( H(X|Y) = H(X) - I(X; Y) )表示。

 

決策樹中的信息增益就是互信息,決策樹是采用的上面第二種計算方法,即把分類的不同結果看成不同隨機事件Y,然后把當前選擇的特征看成X,則信息增益就是當前Y的信息熵減去已知X情況下的信息熵。

通過下圖的刻畫更為直觀一些

这里写图片描述

以上圖可以清楚的看到互信息I(X,Y)I(X,Y)的不同求法

參考:

https://blog.csdn.net/qq_15111861/article/details/80724278

https://www.cnblogs.com/gatherstars/p/6004075.html

https://blog.csdn.net/haolexiao/article/details/70142571


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM