樣本方差\(S^2\)
樣本均值 \(\bar{x}\) 總位於樣本中部,它是總體期望 \(\mu\) 的無偏估計。
各個數據 \(x_i\) 對 \(\bar{x}\) 的偏差 \(x_i - \bar{x}\) 可正可負,其和恆為零,即
由於各個偏差之和恆為零,所以樣本偏差之和不能把偏差積累起來,不能用來度量樣本散布大小。
偏差平方和\(Q\)
偏差平方和 Q 可以把 n 個偏差積累起來,用於度量 n 個數據的散布大小。
記住:在樣本量相等情況下,利用偏差平方和大小可以比較出樣本散布的大小。
例如:
比較下面兩個樣本的散布大小:
樣本一:
樣本均值:
偏差平方和:
樣本二:
樣本均值:
偏差平方和:
直觀上就可以看出,樣本二比樣本一分散(或者說樣本一比樣本二集中),其偏差平方和大小與這個直觀感覺是一致的。
可見,在樣本量相等的情況下,利用偏差平方和大小可以比較出樣本散布的大小。
平均平方差和\(S_{n}^{2}\)
在樣本量不同的場合,偏差平方和 \(Q\) 失去比較樣本散布大小的公平性,因為樣本量大的偏差平方和傾向偏大一些。
為了消除樣本量大小對偏差平方和的干擾,改用平均偏差平方和 \(S_{n}^{2}\) 來度量樣本散布大小,
其計算公式如下:
它表示每個樣本點上平均有多少偏差平方和,這就可在樣本量不同場合下比較其散布大小。
例如:
比較下面兩個樣本的散布大小:
樣本三:
樣本均值:
偏差平方和:
樣本四:
樣本均值:
偏差平方和:
若僅從偏差平方和看,\(Q_4\)>\(Q_3\),但是“樣本四比樣本三更分散顯然是不對的”,\(Q_4\)比較大的原因是樣本四樣本量是樣本三樣本量的3倍。所以兩者不可比較。
為了消除樣本量大小的干擾,改用 平均偏差平方和 \(S_{n}^{2}\) 即可:
樣本三:
樣本四:
所以從 平均偏差平方和 \(S_{n}^{2}\) 可以看出,樣本三更分散一些,計算結果符合直觀。
實際中 \(S_{n}^{2}\) 也被用來做 總體方差 \(σ^2\) 的估計,簡稱 \(S_{n}^{2}\) 為樣本方差
\(S_{}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}(x_i-\bar{x} )^2\) 與 \(S_{n}^{2}=\frac{1}{n} \sum_{i=1}^{n}(x_i-\bar{x} )^2\) 都是平均偏差平方和,都稱為樣本方差。
但是\(S_{}^{2}\)用自由度(n-1)作平均,是無偏的樣本方差;
后者\(S_{n}^{2}\)用自由度(n)作平均,是有偏的樣本方差;
樣本容量n很大的情況下兩者相差無幾,可以忽略不計,但是在小樣本場合,\(S_{}^{2}\)明顯優於\(S_{n}^{2}\)。因此大多數統計學家和實際工作者更願意使用\(S_{}^{2}\)去計算方差。