方差和熵
最近在看主成分分析(PCA)時,在對數據進行壓縮時,要求方差最大化,目的是保留數據的更多信息。根據信息論,“信息熵”用於量化信息,那么這樣看來方差和信息熵都可以用於量化信息,那它們有是什么不同呢?為什么它們可以量化信息呢?
一條信息的信息量與其不確定性有着直接的誒關系。比如說,我們要搞清楚意見非常不確定的事,或者我們一無所知的事情,就需要了解大量的信息。所以,從這個角度來看,可以認為信息量就等於不確定性的多少(uncertainty)[1]
因此,方差和熵都是通過描述不確定性的多少來量化信息。
方差
在統計學和金融學上,大家通常用方差或者標准差用來描述不確定度(風險),這很符合直觀的解釋:方差越大數據的波動也就越大,不確定性和風險當然也就越大。方差公式:$$\sigma^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2$$描述了輸出值在平均值周圍的偏差。方差描述不確定度在某些情況下會失效,因為它要求數據均勻分布並且忽略極端事件的發生。
熵
信息熵是信息論中概念,它是信息不確定性的度量,熵越大表示信息的不確定性越大,信息量越大:$$H(x)=-\sum{p_i\log(p_i)}$$可以發現公式中沒有數據\(x_i\)量級大小的表達,也就是說\(x_i\)數據的大小不會直接影響熵的大小。熵的大小只是由樣本數據概率大小決定。
方差和熵比較
先放結論:相比於方差,熵更適合描述信息的不確定度(廢話,這就是熵的定義),方差在某些前提下是可以描述信息的不確定性
下圖是某股票數據的熵和對數標准差關系[2]:
分布 | 熵 | 方差 |
---|---|---|
伯努利 | \(-p\log p-q\log q\) | \(pq\) |
二項分布 | \(-\sum C_n^kp^kq^{n-k}\log{C_n^kp^kq^{n-k}}\) | \(npq\) |
均勻分布 | \(\log(b-a)\) | \(\frac{(b-a)^2}{12}\) |
正態分布 | \(\log\sqrt{2e\pi}\sigma\) | \(\sigma^2\) |
指數分布 | \(\log ea\) | \(a^2\) |
參考文獻:
[1] 《數學之美》
[2] Andreia Dionisio, Entropy and Uncertainty Analysis in Financial Markets.
[3] Yuan Wei, Variance, Entropy and Uncertainty Measure.