方差和熵


方差和熵

最近在看主成分分析(PCA)時,在對數據進行壓縮時,要求方差最大化,目的是保留數據的更多信息。根據信息論,“信息熵”用於量化信息,那么這樣看來方差和信息熵都可以用於量化信息,那它們有是什么不同呢?為什么它們可以量化信息呢?

一條信息的信息量與其不確定性有着直接的誒關系。比如說,我們要搞清楚意見非常不確定的事,或者我們一無所知的事情,就需要了解大量的信息。所以,從這個角度來看,可以認為信息量就等於不確定性的多少(uncertainty)[1]

因此,方差和熵都是通過描述不確定性的多少來量化信息。

方差

在統計學和金融學上,大家通常用方差或者標准差用來描述不確定度(風險),這很符合直觀的解釋:方差越大數據的波動也就越大,不確定性和風險當然也就越大。方差公式:$$\sigma^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2$$描述了輸出值在平均值周圍的偏差。方差描述不確定度在某些情況下會失效,因為它要求數據均勻分布並且忽略極端事件的發生。

信息熵是信息論中概念,它是信息不確定性的度量,熵越大表示信息的不確定性越大,信息量越大:$$H(x)=-\sum{p_i\log(p_i)}$$可以發現公式中沒有數據\(x_i\)量級大小的表達,也就是說\(x_i\)數據的大小不會直接影響熵的大小。熵的大小只是由樣本數據概率大小決定。

方差和熵比較

先放結論:相比於方差,熵更適合描述信息的不確定度(廢話,這就是熵的定義),方差在某些前提下是可以描述信息的不確定性
下圖是某股票數據的熵和對數標准差關系[2]:

![](http://images2015.cnblogs.com/blog/824175/201510/824175-20151018120752944-1286140214.png)
可以看出熵和$\ln(\sigma)$有很強的正相關的關系。 對於常見的分布可以很容易推導出他們的熵和方差。[3]
分布 方差
伯努利 \(-p\log p-q\log q\) \(pq\)
二項分布 \(-\sum C_n^kp^kq^{n-k}\log{C_n^kp^kq^{n-k}}\) \(npq\)
均勻分布 \(\log(b-a)\) \(\frac{(b-a)^2}{12}\)
正態分布 \(\log\sqrt{2e\pi}\sigma\) \(\sigma^2\)
指數分布 \(\log ea\) \(a^2\)
可以從表中發現,在這些分布的情況下,方差和熵描述不去定性都是等價的。 但是當數據的分布有“多峰”(也可以理解為非凸)時方差描述信息不確定度的能力降低,這個時候應該用熵來描述不確定度,這種時候可能熵增大時方差減小。大概就是這樣吧。恩!
![](http://images2015.cnblogs.com/blog/824175/201510/824175-20151018120811507-1157391029.png)

參考文獻:

[1] 《數學之美》
[2] Andreia Dionisio, Entropy and Uncertainty Analysis in Financial Markets.
[3] Yuan Wei, Variance, Entropy and Uncertainty Measure.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM