引入1:隨機變量函數的分布
給定X的概率密度函數為fX(x), 若Y = aX, a是某正實數,求Y得概率密度函數fY(y).
解:令X的累積概率為FX(x), Y的累積概率為FY(y).
則 FY(y) = P(Y <= y) = P(aX <= y) = P(X <= y/a) = FX(y/a),
則 fY(y) = d(FX(y/a)) / dy = 1/a * fX(x/a)
引入2:如何定義信息量
- 某事件發生的概率小,則該事件的信息量大;
- 如果兩個事件X和Y獨立,即p(xy) = p(x)p(y),假定X和Y的信息量分別為h(X)和h(Y),則二者同時發生的信息量應該為h(XY) = h(X) + h(Y).
- 定義事件X發生的概率為:p(x),則X的信息量為:h(p(x)) = -lnp(x)
- 那么,事件X的信息量的期望如何計算呢?
一句話總結最大熵模型:
1. 我們的假設應當滿足全部已知條件;
2. 對未知的情況不做任何主觀假設。
(一)熵
對隨機事件的信息量求期望,得熵的定義:
H(X) = -Σp(x)lnp(x)
- 經典熵的定義,底數是2,單位為bit;
- 為了方便計算可以使用底數e,則單位為nat(奈特)。
可以得到,當一個變量X服從均勻分布時,它所包含的信息熵是最大的。
計算如下:
p(xi) = 1/N, 則熵為:H(p) = -Σpi * lnpi = -Σ1/N * ln(1/N) = lnN
所以,我們可以得到如下結論:
- 0 <= H(X) <= ln|X|
- 熵是隨機變量不確定性的度量,不確定性越大,熵值越大;
- 若隨機變量退化為定值,則熵最小,為0;
- 鎖隨機分布為均勻分布,熵最大。
- 這是無條件的最大熵分布,那如果是有條件的,該怎么做呢?
- 使用最大熵模型
- 若只給定期望和方差的前提下,最大熵的分布形式是什么?
引理:根據函數的形式判斷概率分布
例如:
所以,我們可以得到,正態分布的對數是關於隨機變量x的二次函數:
根據計算過程的可逆性,若某對數分布能夠寫成隨機變量二次形式,則該分布必然是正態分布。
再回到我們的問題上來,給定某隨機變量的期望與方差,它的最大熵的分布形式是什么?
已知Var(X) = E(X2) - E(X)2 ,則 E(X2) = Var(X) - E(X)2 = σ2 - μ2,
所以我們將上述目標函數改寫為:
然后,建立Lagrange函數並求駐點:
由於P(x)的對數是關於隨機變量x的二次形式,我們可以根據函數的形式判斷概率分布,所以該分布p(x)必然是正態分布。
如果沒有約束條件,最大熵對應的的分布為均勻分布;
如果給出了一定期望和方差,則最大熵對應的分布為正態分布。
(二)聯合熵和條件熵
- 兩個隨機變量X,Y的戀歌分布,可以形成聯合熵(Joint Entropy),用H(X, Y)表示。
- 即:H(X, Y) = -Σp(x, y) lnp(x, y)
- H(X, Y) - H(Y)
- 表示(X, Y)發生所包含的熵,減去Y單獨發生包含的熵:在Y發生的前提下,X發生新帶來的熵。
- 條件熵:H(X|Y)
(三)相對熵/交叉熵/K-L散度
相對熵,又稱互熵,交叉熵,鑒別信息,Kullback-Leible散度等。
相對熵具有如下性質:
- 相對熵可以度量兩個隨機變量的距離;
- 一般不具有對稱性,即D(p||q) ≠ D(q||p),當且僅當p = q, 則相對熵為0,二者相等;
- D(p||q) >= 0, D(q||p) >= 0.
那么,我們應該使用D(p||q) 還是 D(q||p)呢?
假定已知隨機變量P,求一個隨機變量Q,使得Q盡量接近於P,這樣我們可以使用P和Q的K-L來度量他們的距離。
- 假定使用KL(Q || P),為了讓距離最小,則要求P為0的地方,Q盡量為0。這樣會得到比較瘦高的分布曲線;
- 假定使用KL(P || Q),為了讓距離最小,則要求P不為0 的地方,Q也盡量不為0。這樣會得到比較矮胖的分布曲線。
(四)互信息
兩個隨機變量X,Y的互信息,定義為X,Y的聯合分布和獨立分布乘積的相對熵。
即: I(X, Y) = D(P(X, Y) || P(X)P(Y))
即:
可以通過簡單的計算得到:
H(X|Y) = H(X) - I(X, Y),
互信息為0,則隨機變量X和Y是互相獨立的。
(五)各種熵之間的關系
- H(X|Y) = H(X, Y) - H(Y); H(Y|X) = H(X, Y) - H(X) —— 條件熵的定義
- H(X|Y) = H(X) - I(X, Y); H(Y|X) = H(Y) - I(X, Y)
- I(X, Y) = H(X) - H(X|Y) = H(X) + H(Y) - H(X, Y) —— 也可以作為互信息的定義
- H(X|Y) <= H(X):
- H(X)表示X的不確定度;H(X|Y)表示給定Y的情況下,X的不確定度。
- 如果X與Y完全獨立,則二者相等(給不給Y對X能給出多少信息無關);
- 而如果X與Y不是獨立的,則給定Y之后會降低X的熵,即X的不確定性會降低。
用Venn圖幫助記憶:
(六)最大熵模型
最大熵模型的原則:
- 承認已知事物(知識);
- 對未知事物不做任何假設,沒有任何偏見。
對一個隨機事件的概率分布進行預測時,我們的預測應當滿足全部已知條件,而對未知的情況不要做任何主觀假設。在這種情況下,概率分布最均勻,預測的風險最小。
因為這時概率分布的信息熵最大,所以人們把這種模型叫做“最大熵模型”(Maximum Entropy)。
最大熵模型一般是在給定條件下求條件熵,所以我們可以使用Lagrange乘子法來解決。
1)最大熵的一般模型
2)Lagrange函數為:
其中,含λi的第一個約束項表示我們的模型要能夠很好的解釋初始數據集,fi(x, y)表示我們選取的第i個特征;含ν0的第二個約束項表示概率加和為1.
p(x, y) = p(y | x) * p(x),而p(x)是已知的,所以我們用p(x)_bar來表示已知量。
3)對p(y|x)求偏導
其中,為了計算方便,我們令ν0 = λ0 * p(x). 然后得到其最優解形式,如紅框內所示。
4)歸一化
上面通過求偏導得到的p*是沒有經過歸一化的,加上歸一化因子zλ(x)。
5)與Logistic/SoftMax回歸的對比
- Logistic/SoftMax回歸的后驗概率形式:
- 最大熵模型的后驗概率形式:
Logistic回歸是統計學習中的經典分類方法,可以用於二類分類也可以用於多類分類。
最大熵模型由最大熵原理推導出來,最大熵原理是概率模型學習或估計的一個准則,最大熵原理認為在所有可能的概率模型的集合中,熵最大的模型是最好的模型,最大熵模型也可以用於二類分類和多類分類。
Logistic回歸模型與最大熵模型都屬於對數線性模型。
邏輯回歸跟最大熵模型沒有本質區別。邏輯回歸是最大熵對應類別為二類時的特殊情況
指數簇分布的最大熵等價於其指數形式的最大似然。
二項式分布的最大熵解等價於二項式指數形式(sigmoid)的最大似然;
多項式分布的最大熵等價於多項式分布指數形式(softmax)的最大似然。
求最大熵的問題最后可以化成MLA的問題做,兩者的出發點不同,但是最終的形式是一樣的。
中心極限定理:一組有確定方差的獨立隨機變量的和趨近於高斯分布。即給定隨機變量X和Y,則X+Y比X或Y更接近於高斯分布。
【總結】
- 根據最大似然估計的正確性可以斷定:最大熵的解(無偏的對待不確定性)是最符合樣本數據分布的解,即最大熵模型的合理性;
- 信息熵可以作為概率分布集散程度的度量,使用熵的近似可以推導出gini系數,在統計問題、決策樹等問題中有重要應用;
- 熵:不確定性的度量;
- 似然:與知識的吻合程度;
- 最大熵模型:對不確定度的無偏分配;
- 最大似然估計:對知識的無偏理解。