1. 信息熵
熵度量了事物的不確定性,越不確定的事物,它的熵就越大。在沒有外部環境的作用下,事物總是向着熵增大的方向發展,所以熵越大,可能性也越大。
\[H(X)=-\sum_{i=1}^np_{(i)}logp_{(i)} \]
2. 條件熵
X確定時,Y的不確定性度量。
在X發生是前提下,Y發生新帶來的熵。
\[H(Y|X)=H(X,Y)-H(X)=-\sum_{x,y}p(x,y)logp(y|x) \]
3. 聯合熵
(X,Y)在一起時的不確定性度量
\[H(X,Y)=-\sum_{x,y}p(x,y)logp(x,y) \]
4. 互信息(信息增益)
表示兩個變量X與Y是否有關系,以及關系的強弱。
\[I(X,Y)=∫_X∫_YP(X,Y)log\frac{P(X,Y)}{P(X)P(Y)} \]
\[I(X,Y)=H(Y)-H(Y|X) \]
\[I(X,Y)=H(Y)+H(X)-H(X,Y) \]
可以看出,I(X,Y)可以解釋為由X引入而使Y的不確定度減小的量,這個減小的量為H(Y|X)。所以,如果X,Y關系越密切,I(X,Y)就越大,X,Y完全不相關,I(X,Y)為0,所以互信息越大,代表這個特征的分類效果越好。
5. 相對熵
p與q不相似的度量
\[KL(p||q)=-\sum_{x}p(x)log\frac{q(x)}{p(x)} \]
6. 交叉熵
衡量p與q的相似性,常常用在深度學習中的分類的損失函數(深度學習中回歸任務的損失主要是最小二乘法)。p是真實概率,q是預測概率
\[H(p,q)=-\sum_{x}p(x)logq(x) \]
\[KL(p||q)=H(p,q)-H(p) \]
7. 小結
- 信息熵是衡量隨機變量分布的混亂程度,是隨機分布各事件發生的信息量的期望值,隨機變量的取值個數越多,狀態數也就越多,信息熵就越大,混亂程度就越大。當隨機分布為均勻分布時,熵最大;信息熵推廣到多維領域,則可得到聯合信息熵;條件熵表示的是在 X 給定條件下,Y 的條件概率分布的熵對 X的期望。
- 相對熵可以用來衡量兩個概率分布之間的差異。
- 交叉熵可以來衡量在給定的真實分布下,使用非真實分布所指定的策略消除系統的不確定性所需要付出的努力的大小。