為了讓復習不流於形式, 也為了總結自己本學期所學, 擬將復習內容以電子筆記形式記錄.
1. 信息熵
1.1 信息熵的定義
由\(log_ab=\frac{log_cb}{log_ca}\)可知, 采用不同底數只會使得\(C\)不同.因此針對不同情況可選用不同的底數.
理解
自信息量:\(I(x)=-logp(x)\),自信息量衡量了單個事件攜帶的信息量,這與我們對信息量的感性認知是相符的, 即一件事發生概率越高信息量就越低.
而一個系統由隨機事件組成,要衡量這個系統的不確定性就可以用平均信息量來衡量. 平均信息量越大則系統的不確定性越大. 從這個思路出發, 很自然地可以得到熵的定義
熵的定義中\(p(x)\)是這個隨機變量真實分布的概率. 因此可從一方面理解熵:信息熵衡量了系統的不確定性,熵的大小是我們要消除這個不確定性所需要付出的最小努力.(比如編碼長度等)
1.2 熵的性質
-
非負性: \(H(X)\geq0\)
-
單調性:發生概率越高的事件, 其攜帶的信息量就越低. (由\(p(x)logp(x)\)的單調性決定)
-
可加性:\(H(XY)=H(X)+H(Y)\), 證略
2. 信息熵計算
2.1 聯合熵
例題
隨機變量\(X,Y\)的聯合概率分布如下, 計算\(H(X,Y),H(X),H(Y)\). 取對數底為\(2\)
Y|X | ||
---|---|---|
\(\frac{1}{4}\) | \(\frac{1}{4}\) | |
\(\frac{1}{2}\) | 0 |
\(H(X,Y)=-(\frac{1}{4}*(-2)+\frac{1}{4}*(-2)+\frac{1}{2}*(-1)+0)=\frac{3}{2}\)
為了計算\(H(X)\),需要知道\(X\)的邊緣概率密度.
\(H(X)=-(\frac{3}{4}*(log_23-2)+\frac{1}{4}*(-2))\)
\(H(Y)=-(\frac{1}{2}*(-1)+\frac{1}{2}*(-1))=1\)
聯合熵的性質
- \(H(X_1,X_2\dots X_n)\geq max\{H(X_1)\dots H(X_n)\}\)
- \(H(X_1,X_2\dots X_n)\leq H(X_1)+H(X_2)+\dots +H(X_n)\)
2.2 條件熵
Intutive explanation
根據定義, \(H(Y|X)=E(f(X,Y))\) \(f:(x,y)\to -log(p(y|x))\)
條件熵的性質
-
條件熵為0的充要條件是Y完全取決於X, 即\(p(x,y)=p(x)\)
-
若\(X,Y\)獨立, \(H(Y|X)=H(Y)\)
-
鏈式法則:\(H(Y|X)=H(X,Y)-H(X)\)
-
貝葉斯規則:\(H(Y|X)=H(X,Y)-H(X)=H(X|Y)+H(Y)-H(X)\)
2.3 交叉熵
其中,\(p(x)\)是真實分布, \(q(x)\)是非真實分布.
交叉熵用來衡量在給定真實分布下, 采用非真實分布所指定策略消除系統不確定性所需付出的努力大小.
2.4 相對熵
其中\(p(x)\)是數據真實分布, \(q(x)\)是數據理論分布或\(p\)的近似分布
相對熵與交叉熵的關系
結合上式和交叉熵的意義可知, 相對熵用於衡量在真實分布\(p\)上采用\(q(x)\)所指定的策略,需要多付出的努力.
以編碼為例, \(D_{KL}(P||Q)\)就是指對於一個真實分布為\(P\)的字符集,假設為分布\(Q\)制定編碼策略多出來的比特數
在機器學習中, 由於交叉熵更簡單且和相對熵是函數關系, 通常采用交叉熵作為優化的衡量標准.
相對熵的性質
-
非負性, 證略
-
不對稱性, 即\(D_{KL}(P||Q)\neq D_{KL}(Q||P)\)
-
自反性, 即\(D_{KL}(P||P)=0\)
通過上述討論可知相對熵十分類似於“距離”的概念. 但由於其不滿足對稱性,通常采用均值來模擬距離, 即
3. 信息變化
3.1 互信息
互信息是變量間相互依賴性的度量.
性質
\(I(X,Y)=H(Y)-H(Y|X)=H(X)-H(X|Y)\)
直觀理解為一個變量提供的另一個變量的信息量
3.2 信息增益
機器學習常用信息增益來衡量一個策略的有效性.以分類問題為例, 設\(Q\)是分類前的分布,\(P\)是分類后的分布. 則信息增益表示使用策略后減少的熵(不確定性減少, 純度上升)
3.3 基尼系數
直觀理解為熵的離散化近似