最大熵模型(Maximum Etropy)—— 熵,條件熵,聯合熵,相對熵,互信息及其關系,最大熵模型。。


引入1:隨機變量函數的分布

     給定X的概率密度函數為fX(x), 若Y = aX, a是某正實數,求Y得概率密度函數fY(y).

解:令X的累積概率為FX(x), Y的累積概率為FY(y).

則 FY(y) = P(Y <= y) = P(aX <= y) = P(X <= y/a) = FX(y/a),

則 fY(y) = d(FX(y/a)) / dy = 1/a * fX(x/a)

 

引入2:如何定義信息量

  • 某事件發生的概率小,則該事件的信息量大;
  • 如果兩個事件X和Y獨立,即p(xy) = p(x)p(y),假定X和Y的信息量分別為h(X)和h(Y),則二者同時發生的信息量應該為h(XY) = h(X) + h(Y).
  • 定義事件X發生的概率為:p(x),則X的信息量為:h(p(x)) = -lnp(x)
    • 那么,事件X的信息量的期望如何計算呢?

一句話總結最大熵模型:

1. 我們的假設應當滿足全部已知條件;

2. 對未知的情況不做任何主觀假設。 

 

(一)熵

對隨機事件的信息量求期望,得熵的定義:

H(X) = -Σp(x)lnp(x)

  • 經典熵的定義,底數是2,單位為bit;
  • 為了方便計算可以使用底數e,則單位為nat(奈特)。

可以得到,當一個變量X服從均勻分布時,它所包含的信息熵是最大的。

計算如下:

p(xi) = 1/N, 則熵為:H(p) = -Σpi * lnpi = -Σ1/N * ln(1/N) = lnN

所以,我們可以得到如下結論:

  • 0 <= H(X) <= ln|X|
  • 熵是隨機變量不確定性的度量,不確定性越大,熵值越大;
    • 若隨機變量退化為定值,則熵最小,為0;
    • 鎖隨機分布為均勻分布,熵最大。
  • 這是無條件的最大熵分布,那如果是有條件的,該怎么做呢?
    • 使用最大熵模型
    • 若只給定期望和方差的前提下,最大熵的分布形式是什么?

 

引理:根據函數的形式判斷概率分布

例如:

所以,我們可以得到,正態分布的對數是關於隨機變量x的二次函數:

根據計算過程的可逆性,若某對數分布能夠寫成隨機變量二次形式,則該分布必然是正態分布。

 

再回到我們的問題上來,給定某隨機變量的期望與方差,它的最大熵的分布形式是什么?

已知Var(X) = E(X2) - E(X)2 ,則 E(X2) = Var(X) - E(X)2 = σ2 - μ2,

所以我們將上述目標函數改寫為:

然后,建立Lagrange函數並求駐點:

由於P(x)的對數是關於隨機變量x的二次形式,我們可以根據函數的形式判斷概率分布,所以該分布p(x)必然是正態分布。

如果沒有約束條件,最大熵對應的的分布為均勻分布;

如果給出了一定期望和方差,則最大熵對應的分布為正態分布。

 

 

(二)聯合熵和條件熵

  • 兩個隨機變量X,Y的戀歌分布,可以形成聯合熵(Joint Entropy),用H(X, Y)表示。
    • 即:H(X, Y) = -Σp(x, y) lnp(x, y)
  • H(X, Y) - H(Y)
    • 表示(X, Y)發生所包含的熵,減去Y單獨發生包含的熵:在Y發生的前提下,X發生新帶來的熵。
  • 條件熵:H(X|Y)

 

(三)相對熵/交叉熵/K-L散度

相對熵,又稱互熵,交叉熵,鑒別信息,Kullback-Leible散度等。

相對熵具有如下性質:

  • 相對熵可以度量兩個隨機變量的距離;
  • 一般不具有對稱性,即D(p||q) ≠ D(q||p),當且僅當p = q, 則相對熵為0,二者相等;
  • D(p||q) >= 0,  D(q||p) >= 0.

那么,我們應該使用D(p||q) 還是 D(q||p)呢?

假定已知隨機變量P,求一個隨機變量Q,使得Q盡量接近於P,這樣我們可以使用P和Q的K-L來度量他們的距離。

  • 假定使用KL(Q || P),為了讓距離最小,則要求P為0的地方,Q盡量為0。這樣會得到比較瘦高的分布曲線;
  • 假定使用KL(P || Q),為了讓距離最小,則要求P不為0 的地方,Q也盡量不為0。這樣會得到比較矮胖的分布曲線。

 

(四)互信息

兩個隨機變量X,Y的互信息,定義為X,Y的聯合分布和獨立分布乘積的相對熵。

即: I(X, Y) = D(P(X, Y) || P(X)P(Y))

即: 

可以通過簡單的計算得到:

H(X|Y) = H(X) - I(X, Y), 

互信息為0,則隨機變量X和Y是互相獨立的。

 

(五)各種熵之間的關系

  • H(X|Y) = H(X, Y) - H(Y); H(Y|X) = H(X, Y) - H(X) —— 條件熵的定義
  • H(X|Y) = H(X) - I(X, Y); H(Y|X) = H(Y) - I(X, Y)
  • I(X, Y) = H(X) - H(X|Y) = H(X) + H(Y) - H(X, Y) —— 也可以作為互信息的定義
  • H(X|Y) <= H(X):
    • H(X)表示X的不確定度;H(X|Y)表示給定Y的情況下,X的不確定度。
    • 如果X與Y完全獨立,則二者相等(給不給Y對X能給出多少信息無關);
    • 而如果X與Y不是獨立的,則給定Y之后會降低X的熵,即X的不確定性會降低。

用Venn圖幫助記憶:

              

 

 

(六)最大熵模型

最大熵模型的原則:

  • 承認已知事物(知識);
  • 對未知事物不做任何假設,沒有任何偏見。

對一個隨機事件的概率分布進行預測時,我們的預測應當滿足全部已知條件,而對未知的情況不要做任何主觀假設。在這種情況下,概率分布最均勻,預測的風險最小。

因為這時概率分布的信息熵最大,所以人們把這種模型叫做“最大熵模型”(Maximum Entropy)。

最大熵模型一般是在給定條件下求條件熵,所以我們可以使用Lagrange乘子法來解決。

1)最大熵的一般模型

     

2)Lagrange函數為:

     

 其中,含λi的第一個約束項表示我們的模型要能夠很好的解釋初始數據集,fi(x, y)表示我們選取的第i個特征;含ν0的第二個約束項表示概率加和為1.

p(x, y) = p(y | x) * p(x),而p(x)是已知的,所以我們用p(x)_bar來表示已知量。

 3)對p(y|x)求偏導

    

 其中,為了計算方便,我們令ν= λ0 * p(x). 然后得到其最優解形式,如紅框內所示。

4)歸一化

上面通過求偏導得到的p*是沒有經過歸一化的,加上歸一化因子zλ(x)

 

5)與Logistic/SoftMax回歸的對比

  • Logistic/SoftMax回歸的后驗概率形式:
  • 最大熵模型的后驗概率形式:

Logistic回歸是統計學習中的經典分類方法,可以用於二類分類也可以用於多類分類。

最大熵模型由最大熵原理推導出來,最大熵原理是概率模型學習或估計的一個准則,最大熵原理認為在所有可能的概率模型的集合中,熵最大的模型是最好的模型,最大熵模型也可以用於二類分類和多類分類。

Logistic回歸模型與最大熵模型都屬於對數線性模型。

邏輯回歸跟最大熵模型沒有本質區別。邏輯回歸是最大熵對應類別為二類時的特殊情況

指數簇分布的最大熵等價於其指數形式的最大似然

二項式分布的最大熵解等價於二項式指數形式(sigmoid)的最大似然; 
多項式分布的最大熵等價於多項式分布指數形式(softmax)的最大似然。

求最大熵的問題最后可以化成MLA的問題做,兩者的出發點不同,但是最終的形式是一樣的。

 

中心極限定理:一組有確定方差的獨立隨機變量的和趨近於高斯分布。即給定隨機變量X和Y,則X+Y比X或Y更接近於高斯分布。

 

【總結】

  • 根據最大似然估計的正確性可以斷定:最大熵的解(無偏的對待不確定性)是最符合樣本數據分布的解,即最大熵模型的合理性;
  • 信息熵可以作為概率分布集散程度的度量,使用熵的近似可以推導出gini系數,在統計問題、決策樹等問題中有重要應用;
  • 熵:不確定性的度量;
  • 似然:與知識的吻合程度;
  • 最大熵模型:對不確定度的無偏分配;
  • 最大似然估計:對知識的無偏理解。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM