摘要:
1.信息的度量
2.信息不確定性的度量
內容:
1.信息的度量
直接給出公式
,這里的N(x)是隨機變量X的取值個數,至於為什么這么表示可以考慮以下兩個事實:
(1)兩個獨立事件X,Y的聯合概率是可乘的,即
,而X,Y同時發生的信息量應該是可加的,即
,因此對概率取了負對數(保證非負)
(2)一個時間發生的概率越大,其信息量越小,因此對概率取了負對數(保證非負)
舉兩個例子便於理解:
一本50w字的史記的最大信息量是-ln(1/50w),2010年世界杯32支隊伍誰會奪冠的最大信息量是-ln(1/32);注意:這里的ln是以2為底的,信息的單位是bit,並且都是假定概率分布都是均勻分布的,之后再解釋為什么假設為均勻分布。
總結:直觀理解其實就是給信息編碼的過程,比如數字0-9的二進制表示只要ln10
2.信息不確定性的度量
直接給出公式
,也就是信息量的期望;這個值叫做熵
以下討論幾個分布:
對於最簡單的0-1分布,假設p(x=1)=p,則p(x=0)=1-p,計算信息熵:


對於均勻分布,假設p(x=n)=1/N,其中N是隨機變量的取值個數,計算信息熵:

不加證明的給出結論:隨機變量為定值時,熵最小;隨機變量為均勻分布時,熵最大
討論下二元隨機變量的情況,為了直觀解釋和記憶,先給出如下圖解:

先說聯合熵的定義,代表X,Y同時發生的不確定性;公式為
,從上圖中理解就是兩個大圓的面積。
再說條件熵,代表在已知一個變量發生的條件下,另一個變量發生所新增的不確定性;公式為:
,有興趣的朋友可以自己推導一下是如何從(1)式到(2)式的,從上圖中理解就是兩個大圓去掉其中一個大圓所剩下的面積。
最后定義互信息,其中的一個定義就是在已知X發生的條件下,Y不確定性減少的程度,這個定義在ID3算法中也叫信息增益,計算公式可以理解為:
,有興趣的朋友可以自己推導一下是如何從(1)式到(2)式的,從上圖理解就是兩個大圓相交的面積,所以互信息是對偶的。
另一個定義是這樣:
,等式右邊的值叫做KL散度,相對熵,或者交叉熵等等,所以說理解了交叉熵就理解了互信息的第二個定義。
定義交叉熵,代表兩個概率分布(函數)的相似度,計算公式為:![]()
最后要解釋的是最大熵的思想,最大熵原理指出,需要對一個隨機事件的概率分布進行預測是,我們的預測應當滿足全部已知的條件,未知的部分概率應該是均勻的,這樣預測的風險最小,因為這時的信息熵最大,所以稱這種模型為最大熵模型。舉一個例子,如果沒有任何已知條件下問你投一個骰子,出現5點的概率多大,這時假定所有的點數出現的概率是相等的一定是一種最保險的方法,這就是最大熵模型。
ok,最后一步,最大熵的目標函數/模型函數:
最大熵的推導,首先是最大熵模型的數學描述:
簡述推導如下:

上面是通過拉格朗日乘數法求解的,也可以通過對數極大似然估計推導

最大熵模型的實現方法:GIS和IIS
最大熵模型的應用:語言標注;文本分類;語言處理中的其他應用
