樣本方差與總體方差

本文轉載自查看原文 2018-12-08 11:59 10016 概率論與統計

一、方差（variance)：衡量隨機變量或一組數據時離散程度的度量。

概率論中方差用來度量隨機變量和其數學期望（即均值）之間的偏離程度。

統計中的方差（樣本方差）是每個樣本值與全體樣本值的平均數之差的平方值的平均數。

概率論中的方差表示方法：

樣本方差，無偏估計、無偏方差（unbiased variance）。對於一組隨機變量，從中隨機抽取N個樣本，這組樣本的方差就是Xi^2平方和除以N-1。

總體方差，也叫做有偏估計，其實就是我們從初高中就學到的那個標准定義的方差，除數是N。

統計中的方差表示方法：

二、為什么樣本方差的分母是n-1？為什么它又叫做無偏估計？

簡單的回答，是因為因為均值你已經用了n個數的平均來做估計在求方差時，只有(n-1)個數和均值信息是不相關的。

而你的第ｎ個數已經可以由前(n-1)個數和均值來唯一確定，實際上沒有信息量。所以在計算方差時，只除以(n-1)。

那么更嚴格的證明呢？

樣本方差計算公式里分母為n-1的目的是為了讓方差的估計是無偏的。

無偏的估計(unbiased estimator)比有偏估計(biased estimator)更好是符合直覺的，盡管有的統計學家認為讓mean square error即MSE最小才更有意義，這個問題我們不在這里探討；

不符合直覺的是，為什么分母必須得是n-1而不是n才能使得該估計無偏。

首先，我們假定隨機變量的數學期望是已知的，然而方差未知。在這個條件下，根據方差的定義我們有

$\mathbb{E}\Big[\big(X_i -\mu\big)^2 \Big]=\sigma^2, \quad\forall i=1,\ldots,n,$

由此可得

$\mathbb{E}\Big[\frac{1}{n} \sum_{i=1}^n\Big(X_i -\mu\Big)^2 \Big]=\sigma^2$

$\frac{1}{n} \sum_{i=1}^n\Big(X_i -\mu\Big)^2$ 是方差 $\sigma^2$ 的一個無偏估計，注意式中的分母不偏不倚正好是！

這個結果符合直覺，並且在數學上也是顯而易見的。

現在，我們考慮隨機變量的數學期望 $\mu$ 是未知的情形。這時，我們會傾向於無腦直接用樣本均值 $\bar{X}$ 替換掉上面式子中的 $\mu$ 。這樣做有什么后果呢？后果就是，

如果直接使用 $\frac{1}{n} \sum_{i=1}^n\Big(X_i -\bar{X}\Big)^2$ 作為估計，那么你會傾向於低估方差！

這是因為：
$\begin{eqnarray}\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2 &=&\frac{1}{n}\sum_{i=1}^n\Big[(X_i-\mu) + (\mu -\bar{X}) \Big]^2\\&=&\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 +\frac{2}{n}\sum_{i=1}^n(X_i-\mu)(\mu -\bar{X})+\frac{1}{n}\sum_{i=1}^n(\mu -\bar{X})^2 \\&=&\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 +2(\bar{X}-\mu)(\mu -\bar{X})+(\mu -\bar{X})^2 \\&=&\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 -(\mu -\bar{X})^2 \end{eqnarray}$
換言之，除非正好 $\bar{X}=\mu$ ，否則我們一定有
$\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2 <\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2$ ,
而不等式右邊的那位才是的對方差的“正確”估計！
這個不等式說明了，為什么直接使用 $\frac{1}{n} \sum_{i=1}^n\Big(X_i -\bar{X}\Big)^2$ 會導致對方差的低估。

那么，在不知道隨機變量真實數學期望的前提下，如何“正確”的估計方差呢？答案是把上式中的分母換成 n-1 ，通過這種方法把原來的偏小的估計“放大”一點點，我們就能獲得對方差的正確估計了：
$\mathbb{E}\Big[\frac{1}{n-1} \sum_{i=1}^n\Big(X_i -\bar{X}\Big)^2\Big]=\mathbb{E}\Big[\frac{1}{n} \sum_{i=1}^n\Big(X_i -\mu\Big)^2 \Big]=\sigma^2.$