概率論中方差用來度量隨機變量和其數學期望之間的偏離程度,也稱為總體方差。
設總體為 $X$,$X_{1},X_{2},\cdots,X_{n}$ 為來自總體的樣本,樣本容量為 $n$,總體的數學期望和方差分別為 $\mu,\sigma^{2}$,樣本均值為 $\bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_{i}$。
總體方差定義為
$$\sigma^{2} = E\left [ (X - \mu)^{2} \right ]$$
其實總體方差就是隨機變量 $Y = (X - \mu)^{2}$ 的均值。將上面這個式子展開就得到我們常用的方差公式:
$$\sigma^{2} = E\left [ (X - \mu)^{2} \right ] = E(X^{2}) - E^{2}(X)$$
上面的式子需要知道 $X$ 的具體分布是什么,這樣才能得到 $X$ 的所有可能取值和其數學期望,但現實中一般不可能會知道。
所以采用樣本方差來估計總體方差,樣本方差的形式如下:
$$S^{2} = \frac{1}{n - 1}\sum_{i=1}^{n}\left ( X_{i} - \bar{X} \right )^{2}$$
為什么前面是 $\frac{1}{n-1}$ 而不是 $\frac{1}{n}$,假設樣本方差的統計量為:
$$S^{2} = \frac{1}{n}\sum_{i=1}^{n}\left ( X_{i} - \bar{X} \right )^{2}$$
先來看看這個統計量的期望:
$$E(S^{2}) = E\left [ \frac{1}{n}\sum_{i=1}^{n}\left ( X_{i} - \bar{X} \right )^{2} \right ] = E\left [ \frac{1}{n}\sum_{i=1}^{n} \bigg( (X_{i} - \mu) - (\bar{X} - \mu) \bigg)^{2} \right ] \\
= E\left [ \frac{1}{n}\sum_{i=1}^{n} \bigg( (X_{i} - \mu)^{2} - 2(X_{i} - \mu)(\bar{X} - \mu) + (\bar{X} - \mu)^{2} \bigg) \right ] \\
= E\left [ \frac{1}{n}\sum_{i=1}^{n}(X_{i} - \mu)^{2} - \frac{2}{n}(\bar{X} - \mu)\sum_{i=1}^{n}(X_{i} - \mu) + (\bar{X} - \mu)^{2} \bigg) \right ] \\
= E\left [ \frac{1}{n}\sum_{i=1}^{n}(X_{i} - \mu)^{2} - \frac{2}{n}(\bar{X} - \mu)n(\bar{X} - \mu) + (\bar{X} - \mu)^{2} \bigg) \right ] \\
= E\left [ \frac{1}{n}\sum_{i=1}^{n}(X_{i} - \mu)^{2} - (\bar{X} - \mu)^{2} \bigg) \right ]$$
因為 $X_{i}$ 和 $X$ 獨立同分布,所以有
$$E\left [ \frac{1}{n}\sum_{i=1}^{n}(X_{i} - \mu)^{2} \right ] = E\left [ \frac{1}{n}\sum_{i=1}^{n} ( X_{i}^{2} - 2X_{i}\mu + \mu^{2} ) \right ] \\
= \frac{1}{n}\sum_{i=1}^{n} \left [ E(X_{i}^{2}) - \mu^{2} \right ] = \sigma^{2}$$
$$E(\bar{X}^{2}) = D(\bar{X}) + E^{2}(\bar{X}) = \frac{1}{n}\sigma^{2} + \mu^{2}$$
$$E\left [ (\bar{X} - \mu)^{2} \right ] = E\left [ \bar{X}^{2} - 2\bar{X}\mu + \mu^{2} \right ] = \frac{1}{n}\sigma^{2}$$
所以有
$$E(S^{2}) = \frac{n-1}{n}\sigma^{2}$$
方差統計量的期望不等於總體的方差,會比真實值低了 $\frac{1}{n}\sigma^{2}$,所以需要進行修正,因此使用下面這個式子進行估計,得到的就是無偏估計:
$$S^{2} = \frac{1}{n - 1}\sum_{i=1}^{n}\left ( X_{i} - \bar{X} \right )^{2}$$