信息論中的熵(信息熵,聯合熵,交叉熵,互信息)和最大熵模型


摘要:

  1.信息的度量

  2.信息不確定性的度量 

內容:

1.信息的度量

  直接給出公式,這里的N(x)是隨機變量X的取值個數,至於為什么這么表示可以考慮以下兩個事實:

  (1)兩個獨立事件X,Y的聯合概率是可乘的,即,而X,Y同時發生的信息量應該是可加的,即,因此對概率取了負對數(保證非負)

  (2)一個時間發生的概率越大,其信息量越小,因此對概率取了負對數(保證非負)

舉兩個例子便於理解:

  一本50w字的史記的最大信息量是-ln(1/50w),2010年世界杯32支隊伍誰會奪冠的最大信息量是-ln(1/32);注意:這里的ln是以2為底的,信息的單位是bit,並且都是假定概率分布都是均勻分布的,之后再解釋為什么假設為均勻分布。

  總結:直觀理解其實就是給信息編碼的過程,比如數字0-9的二進制表示只要ln10

2.信息不確定性的度量

  直接給出公式,也就是信息量的期望;這個值叫做

  以下討論幾個分布:

  對於最簡單的0-1分布,假設p(x=1)=p,則p(x=0)=1-p,計算信息熵:

  

  寫了個程序,打印下兩點分布下概率值和信息熵的關系

  

 

  對於均勻分布,假設p(x=n)=1/N,其中N是隨機變量的取值個數,計算信息熵:

  

  不加證明的給出結論:隨機變量為定值時,熵最小;隨機變量為均勻分布時,熵最大

   

  討論下二元隨機變量的情況,為了直觀解釋和記憶,先給出如下圖解:

 

 先說聯合熵的定義,代表X,Y同時發生的不確定性;公式為,從上圖中理解就是兩個大圓的面積。

再說條件熵,代表在已知一個變量發生的條件下,另一個變量發生所新增的不確定性;公式為:

,有興趣的朋友可以自己推導一下是如何從(1)式到(2)式的,從上圖中理解就是兩個大圓去掉其中一個大圓所剩下的面積。

最后定義互信息,其中的一個定義就是在已知X發生的條件下,Y不確定性減少的程度,這個定義在ID3算法中也叫信息增益,計算公式可以理解為:

,有興趣的朋友可以自己推導一下是如何從(1)式到(2)式的,從上圖理解就是兩個大圓相交的面積,所以互信息是對偶的。

另一個定義是這樣:,等式右邊的值叫做KL散度,相對熵,或者交叉熵等等,所以說理解了交叉熵就理解了互信息的第二個定義。

定義交叉熵,代表兩個概率分布(函數)的相似度,計算公式為:

 

最后要解釋的是最大熵的思想,最大熵原理指出,需要對一個隨機事件的概率分布進行預測是,我們的預測應當滿足全部已知的條件,未知的部分概率應該是均勻的,這樣預測的風險最小,因為這時的信息熵最大,所以稱這種模型為最大熵模型。舉一個例子,如果沒有任何已知條件下問你投一個骰子,出現5點的概率多大,這時假定所有的點數出現的概率是相等的一定是一種最保險的方法,這就是最大熵模型。

ok,最后一步,最大熵的目標函數/模型函數:

最大熵的推導,首先是最大熵模型的數學描述:

簡述推導如下:

 

上面是通過拉格朗日乘數法求解的,也可以通過對數極大似然估計推導

最大熵模型的實現方法:GIS和IIS

最大熵模型的應用:語言標注文本分類語言處理中的其他應用


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM