【數據科學復習 - 1】熵


為了讓復習不流於形式, 也為了總結自己本學期所學, 擬將復習內容以電子筆記形式記錄.

1. 信息熵

1.1 信息熵的定義

\[H(X)=-C\sum_{x\in X}p(x)logp(x) \]

\(log_ab=\frac{log_cb}{log_ca}\)可知, 采用不同底數只會使得\(C\)​不同.​因此針對不同情況可選用不同的底數.

理解

自信息量:\(I(x)=-logp(x)\)​​,自信息量衡量了單個事件攜帶的信息量,這與我們對信息量的感性認知是相符的, 即一件事發生概率越高信息量就越低.​

而一個系統由隨機事件組成,要衡量這個系統的不確定性就可以用平均信息量來衡量. 平均信息量越大則系統的不確定性越大. 從這個思路出發, 很自然地可以得到熵的定義

\[H(X)=E(I(x))=-C\sum_{x\in X}p(x)logp(x) \]

熵的定義中\(p(x)\)​是這個隨機變量真實分布的概率. 因此可從一方面理解熵:信息熵衡量了系統的不確定性,熵的大小是我們要消除這個不確定性所需要付出的最小努力.(比如編碼長度等)

1.2 熵的性質

  • 非負性: \(H(X)\geq0\)

  • 單調性:發生概率越高的事件, 其攜帶的信息量就越低. (由\(p(x)logp(x)\)的單調性決定)

  • 可加性:\(H(XY)=H(X)+H(Y)\)​, 證略

2. 信息熵計算

2.1 聯合熵

\[H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)logp(x,y) \]

例題

隨機變量\(X,Y\)的聯合概率分布如下, 計算\(H(X,Y),H(X),H(Y)\)​. 取對數底為\(2\)

Y|X
\(\frac{1}{4}\) \(\frac{1}{4}\)
\(\frac{1}{2}\) 0

\(H(X,Y)=-(\frac{1}{4}*(-2)+\frac{1}{4}*(-2)+\frac{1}{2}*(-1)+0)=\frac{3}{2}\)

為了計算\(H(X)\),需要知道\(X\)的邊緣概率密度.

\(H(X)=-(\frac{3}{4}*(log_23-2)+\frac{1}{4}*(-2))\)​​

\(H(Y)=-(\frac{1}{2}*(-1)+\frac{1}{2}*(-1))=1\)

聯合熵的性質

  • \(H(X_1,X_2\dots X_n)\geq max\{H(X_1)\dots H(X_n)\}\)
  • \(H(X_1,X_2\dots X_n)\leq H(X_1)+H(X_2)+\dots +H(X_n)\)

2.2 條件熵

\[H(Y|X)=-\sum_{x\in X,y\in Y}p(x,y)log(\frac{p(x,y)}{p(x)}) \]

Intutive explanation

根據定義, \(H(Y|X)=E(f(X,Y))\) \(f:(x,y)\to -log(p(y|x))\)

詳細推導

條件熵的性質

  • 條件熵為0的充要條件是Y完全取決於X, 即\(p(x,y)=p(x)\)

  • \(X,Y\)獨立, \(H(Y|X)=H(Y)\)

  • 鏈式法則:\(H(Y|X)=H(X,Y)-H(X)\)

  • 貝葉斯規則:\(H(Y|X)=H(X,Y)-H(X)=H(X|Y)+H(Y)-H(X)\)

2.3 交叉熵

\[H(p,q)=-\sum_{x\in X}p(x)logq(x) \]

其中,\(p(x)\)是真實分布, \(q(x)\)是非真實分布.

交叉熵用來衡量在給定真實分布下, 采用非真實分布所指定策略消除系統不確定性所需付出的努力大小.

2.4 相對熵

\[D_{KL}(P||Q)=-\sum_{x\in X}P(x)log\frac{Q(x)}{P(x)} \]

其中\(p(x)\)是數據真實分布, \(q(x)\)​是數據理論分布或\(p\)​的近似分布

相對熵與交叉熵的關系

\[D_{KL}(P||Q)=-\sum_{x\in X}p(x)log\frac{q(x)}{p(x)}=H(p,q)-H(p) \]

結合上式和交叉熵的意義可知, 相對熵用於衡量在真實分布\(p\)上采用\(q(x)\)所指定的策略,需要多付出的努力.

以編碼為例, \(D_{KL}(P||Q)\)就是指對於一個真實分布為\(P\)​的字符集,​假設為分布\(Q\)​制定編碼策略多出來的比特數

在機器學習中, 由於交叉熵更簡單且和相對熵是函數關系, 通常采用交叉熵作為優化的衡量標准.

相對熵的性質

  • 非負性, 證略

  • 不對稱性, 即\(D_{KL}(P||Q)\neq D_{KL}(Q||P)\)

  • 自反性, 即\(D_{KL}(P||P)=0\)

通過上述討論可知相對熵十分類似於“距離”的概念. 但由於其不滿足對稱性,通常采用均值來模擬距離, 即

\[\frac{D_{KL}(P||Q)+D_{KL}(Q||P)}{2} \]

3. 信息變化

3.1 互信息

\[I(X,Y)=\sum_{x\in X, y\in Y}p(x,y)log\frac{p(x,y)}{p(x)*p(y)} \]

互信息是變量間相互依賴性的度量.

性質

\(I(X,Y)=H(Y)-H(Y|X)=H(X)-H(X|Y)\)

直觀理解為一個變量提供的另一個變量的信息量

3.2 信息增益

\[Gain(P,Q)=D_{KL}(P||Q) \]

機器學習常用信息增益來衡量一個策略的有效性.以分類問題為例, 設\(Q\)​是分類前的分布,\(P\)是分類后的分布. 則信息增益表示使用策略后減少的熵(不確定性減少, 純度上升)

3.3 基尼系數

\[Gini(D)=1-\sum_{i=1}^{m}p_i^2 \]

直觀理解為熵的離散化近似


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM