最大熵模型

本文轉載自查看原文 2017-04-11 15:15 6023

最大熵模型預備知識

信息量：一個事件發生的概率越小，信息量越大，所以信息量應該為概率的減函數，對於相互獨立的兩個事有p(xy)=p(x)p(y)，對於這兩個事件信息量應滿足h(xy)=h(x)+h(y)，那么信息量應為對數函數：

對於一個隨機變量可以以不同的概率發生，那么通過信息量期望的方式衡量，即信息熵。

信息熵：一條信息(屬性、特征)的信息量大小和它的不確定性程度有直接的關系，不確定性越大，信息量越大。以e為底單位為nat。公式為：

每個xi表示一種特征。

H(X)在每個p(xi) = 1/N是最大，N為信息的個數。在概率為1/N時信息是最不確定的，所以H(X)越大，信息熵越不確定。

注意：均勻分布的信息熵：

N點離散均勻分布：

連續均勻分布：

聯合熵：兩個隨機變量的X與Y的聯合分布形成的熵稱為聯合熵，記為H(X, Y)。

條件熵：X給定的條件下，Y的信息熵，即H (Y | X )。公式為：

條件熵等於(X, Y)的聯合熵，減去X熵，即：

相對熵：又稱互熵、交叉熵、交叉信息、Kullback熵、Kullback-Leibel散度。設p(x), q(x)是X中的兩個概率分布，p對q的相對熵可以表示為：

相對熵可以度量兩個隨機變量的"距離"。

互信息：兩個隨機變量X，Y的聯合分布與獨立分布乘積的相對熵，即：

幾種熵之間的關系：

最大熵直觀理解：在沒有任何前提條件的時候，我們猜測骰子每個面出現的概率為1/6；當骰子的重心發生變化時，如果我們已知出現1點的概率為1/3，那么我們會猜測剩下的各面出現的概率為(1-1/3)/5=2/15(在沒有任何先驗知識的前提下，我們推測為均勻分布)。這個過程實際就是在運用最大熵原理。

最大熵原理指出：對一個隨機事件的概率分布進行預測時，預測應當滿足全部已知的約束，而對未知的情況不要做任何主觀假設。在這種情況下，概率分布最均勻，預測的風險最小，因此得到的概率分布的熵是最大。

最大熵目標：運用觀測到的實驗樣本如何對實驗數據分布做出合理的推斷。

最大熵模型是建立一個概率判別模型，該模型的任務是對於給定的 X=x以條件概率分布 P(Y|X=x) 預測 Y的取值。

最大熵：

無條件最大熵：若隨機變量退化為定值，熵最小為0，若隨機變量為均勻分布，那么熵最大，所以熵滿足：

有條件最大熵：最大熵模型

如果用歐式空間的單純形(simplex)來描述隨機變量的話，那么可以將隨機變量A，B，C映射到等邊三角形的三個頂點上(等邊三角形的內部任意一點到三條邊的距離之和相等，等於三角形的高)，如(a)所示，這里定義三角形中任意一點到三條邊的距離之和為 1，任給一點p，比如P(A) 等於p到邊 BC 的距離。圖(b)中，P(A)=1, P(B)=P(C)=0。圖(c)中，P(A)=P(B)=P(C)=1/3。