信息論(Information Theory)是概率論與數理統計的一個分枝。用於信息處理、信息熵、通信系統、數據傳輸、率失真理論、密碼學、信噪比、數據壓縮和相關課題。本文主要羅列一些基於熵的概念及其意義,注意本文羅列的所有 $\log$ 都是以 2 為底的。
信息熵
在物理界中熵是描述事物無序性的參數,熵越大則越混亂。類似的在信息論中熵表示隨機變量的不確定程度,給定隨機變量 X ,其取值 $x_1, x_2, \cdots ,x_m$ ,則信息熵為:
\[H(X) =\sum_{i=1}^{m} p(x_i) \cdot \log \frac{1}{p(x_i)} = - \sum_{i=1}^{m} p(x_i) \cdot \log p(x_i)\]
這里有一張圖,形象的描述了各種各樣的熵的關系:
條件熵
設 X ,Y 為兩個隨機變量,X 的取值為 $x_1,x_2,...,x_m$ ,Y 的取值為 $y_1,y_2,...y_n$ ,則在X 已知的條件下 Y 的條件熵記做 H(Y|X) :
\begin{aligned}
H(Y|X)
&= \sum_{i=1}^mp(x_i)H(Y|X=x_i) \\
&= -\sum_{i=1}^mp(x_i)\sum_{j = 1}^np(y_j|x_i)\log p(y_j|x_i) \\
&= -\sum_{i=1}^m \sum_{j=1}^np(y_j,x_i)\log p(y_j|x_i) \\
&= -\sum_{x_i,y_j} p(x_i,y_j)\log p(y_j|x_i)
\end{aligned}
聯合熵
設 X Y 為兩個隨機變量,X 的取值為 $x_1,x_2,...,x_m$ ,Y 的取值為 $y_1,y_2,...y_n$ ,則其聯合熵定義為:
\[H(X,Y) = -\sum_{i=1}^m\sum_{j=1}^n p(x_i,y_j)\log p(x_i,y_j) \]
聯合熵與條件熵的關系:
\begin{aligned}
H(Y|X) &= H(X,Y) - H(X) \\
H(X|Y) &= H(X,Y) - H(Y)
\end{aligned}
聯合熵滿足幾個性質 :
1)$H(Y|X) \ge \max(H(X),H(Y))$ ;
2)$H(X,Y) \le H(X) + H(Y)$ ;
3)$H(X,Y) \ge 0$.
相對熵 KL距離
相對熵,又稱為KL距離,是Kullback-Leibler散度(Kullback-Leibler Divergence)的簡稱。它主要用於衡量相同事件空間里的兩個概率分布的差異。其定義如下:
\[D(P||Q) = \sum_{x \in X} P(x) \cdot \log\frac{P(x)}{Q(x)} \]
相對熵(KL-Divergence KL散度): 用來描述兩個概率分布 P 和 Q 差異的一種方法。 它並不具有對稱性,這就意味着:
\[D(P||Q) \ne D(Q||P)\]
KL 散度並不滿足距離的概念,因為 KL 散度不是對稱的,且不滿足三角不等式。
對於兩個完全相同的分布,他們的相對熵為 0 ,$D(P||Q)$ 與函數 P 和函數 Q 之間的相似度成反比,可以通過最小化相對熵來使函數 Q 逼近函數 P ,也就是使得估計的分布函數接近真實的分布。KL 可以用來做一些距離的度量工作,比如用來度量 topic model 得到的 topic 分布的相似性.
互信息
對於隨機變量 $X,Y$ 其互信息可表示為 $MI(X,Y)$:
\[MI(X,Y) = \sum_{i=1}^{m} \sum_{j=1}^{n} p(x_i,y_j) \cdot log_2 {\frac{p(x_i,y_j)}{p(x_i)p(y_j)}} \]
與聯合熵分布的區別:
\[H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)\]
\[MI(X,Y) = H(X) -H(Y|X) = H(Y) - H(X|Y)\]
交叉熵
設隨機變量 X 的真實分布為 p,用 q 分布來近似 p ,則隨機變量 X 的交叉熵定義為:
\[H(p,q) = E_p[-\log q] = -\sum_{i=1}^m{p(x_i) \log{q(x_i)}} \]
形式上可以理解為使用 $q$ 來代替 $p$ 求信息熵了。交叉熵用作損失函數時,$q$ 即為所求的模型,可以得到其與 相對熵的關系:
\begin{aligned}
H(p,q) &= -\sum_x p(x) \log q(x) \\
&= -\sum_x p(x) \log \frac{q(x)}{p(x)}p(x)\\
&= -\sum_x p(x) \log p(x) -\sum_x p(x) \log \frac{q(x)}{p(x)}\\
&= H(p)+ D(p||q)
\end{aligned}
可見分布 p 與 q 的交叉熵等於 p 的熵加上 p 與 q 的KL距離,所以交叉熵越小, $D(P||Q)$ 越小,即 分布 q 與 p 越接近,這也是相對熵的一個意義。
信息增益,是一種衡量樣本特征重要性的方法。 特征A對訓練數據集D的信息增益g(D,A) ,定義為集合D的經驗熵H(D)與特征A在給定條件下D的經驗條件熵H(D|A)之差,即
\[g(D,A) = H(D) – H(D|A)\]
可見信息增益與互信息類似,然后是信息增益比:
\[g_R(D,A) = \frac{g(D,A)}{H(D)}\]
關於信息論中的熵的一系列公式暫時寫到這里,遇到新的內容隨時補充。

