方差和熵
最近在看主成分分析(PCA)时,在对数据进行压缩时,要求方差最大化,目的是保留数据的更多信息。根据信息论,“信息熵”用于量化信息,那么这样看来方差和信息熵都可以用于量化信息,那它们有是什么不同呢?为什么它们可以量化信息呢?
一条信息的信息量与其不确定性有着直接的诶关系。比如说,我们要搞清楚意见非常不确定的事,或者我们一无所知的事情,就需要了解大量的信息。所以,从这个角度来看,可以认为信息量就等于不确定性的多少(uncertainty)[1]
因此,方差和熵都是通过描述不确定性的多少来量化信息。
方差
在统计学和金融学上,大家通常用方差或者标准差用来描述不确定度(风险),这很符合直观的解释:方差越大数据的波动也就越大,不确定性和风险当然也就越大。方差公式:$$\sigma^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2$$描述了输出值在平均值周围的偏差。方差描述不确定度在某些情况下会失效,因为它要求数据均匀分布并且忽略极端事件的发生。
熵
信息熵是信息论中概念,它是信息不确定性的度量,熵越大表示信息的不确定性越大,信息量越大:$$H(x)=-\sum{p_i\log(p_i)}$$可以发现公式中没有数据\(x_i\)量级大小的表达,也就是说\(x_i\)数据的大小不会直接影响熵的大小。熵的大小只是由样本数据概率大小决定。
方差和熵比较
先放结论:相比于方差,熵更适合描述信息的不确定度(废话,这就是熵的定义),方差在某些前提下是可以描述信息的不确定性
下图是某股票数据的熵和对数标准差关系[2]:
分布 | 熵 | 方差 |
---|---|---|
伯努利 | \(-p\log p-q\log q\) | \(pq\) |
二项分布 | \(-\sum C_n^kp^kq^{n-k}\log{C_n^kp^kq^{n-k}}\) | \(npq\) |
均匀分布 | \(\log(b-a)\) | \(\frac{(b-a)^2}{12}\) |
正态分布 | \(\log\sqrt{2e\pi}\sigma\) | \(\sigma^2\) |
指数分布 | \(\log ea\) | \(a^2\) |
参考文献:
[1] 《数学之美》
[2] Andreia Dionisio, Entropy and Uncertainty Analysis in Financial Markets.
[3] Yuan Wei, Variance, Entropy and Uncertainty Measure.