標准差為什么除以n-1


https://www.jianshu.com/p/a423903ce1fa

title: 標准差為什么除以n-1
date: 2019-10-16 12:10:54
type: "tags"
tags:

  • 統計學
    categories:
  • 生物統計

前言

在學習統計學的時候,我遇到過這么一個問題,也就是說,樣本的標准差公式,如下所示:
s=\sqrt{s^{2}}=\sqrt{\frac{S S}{n-1}}
很多統計學書上都提到,在樣本標准差的計算公式中,平方根中的分子是 n-1,而總體標准差則是 n 。其理由是為了校正樣本變異性而做出的調整,這是對總體標准差的無偏估計。

但是,為什么說這是一種無偏估計,很多書中並沒有提及,或者說是只用了很粗略的語言簡單地說了一下,其實也沒必過於糾結這個問題,記住就行。但是,如果實在是想弄明白這個問題,網上也有人給出了證明過程,但是證明過程對於沒有數學基礎的人來講,還是有點難的,這個完整的證明過程的可以參考知乎上的這個帖子《為什么樣本方差(sample variance)的分子是n-1》

最近我看到了一本統計學的書《行為科學統計》(第七版)作者:[美]FrederickJ Gravetter,這本書中對這個問題的描述很清楚,通過用舉例子的方式說明了一下(並非嚴格證明),為什么在樣本標准差中,使用 n-1 是對總體方差的無偏估計。

另外說明一下,《行為科學統計》這本書原本就是給社會學的學生學習統計學准備的,里面的語言淺顯易懂,沒有復雜的公式,對於數學功底差的學生來說,非常友好,最新一版已經到了第9版。

背景知識

  1. 離差:數據到平均數的距離,例如對於一個 \mu = 50 的分布來說,如果你的一個數據是 X=53 ,那么離差就是 X-\mu = 53 - 50 = 3。如果數據是45,那么離差就是 45-50=-5
  2. 離均差平方和(SS,sum of squares of deviation from mean):由於離差有正有負,最終所有離均差的和即 (X-\mu) 為0,因此離均差的和無法描述一組數據的變異大小。因此將離均差平方后相加得到平方和Var(X)=E(X-\mu)^2,這就是離均差平方和(sum of squares of deviations from mean, SS)。
  3. 方差:方差定義為離均差平方和的平均數,如下所示:
 
image
  1. 標准差:方差的平方根。

計算過程

先來看一組數據,即1, 9, 5, 8, 7,我們把這個數據當作是總體,現在我們計算它的離差,離差的平方等,如下所示:

a <- c(1,9, 5, 8, 7) # 原始數據 a - mean(a) # 離差 (a- mean(a))^2 # 離差的平方 sum((a- mean(a))^2) # 離均差平方和 sum((a- mean(a))^2)/length(a) # 方差 sqrt(sum((a- mean(a))^2)/length(a)) #標准差 

計算結果如下所示:

> a <- c(1,9, 5, 8, 7) # 原始數據 > a - mean(a) # 離差 [1] -5 3 -1 2 1 > (a- mean(a))^2 # 離差的平方 [1] 25 9 1 4 1 > sum((a- mean(a))^2) # 離差的平方和 [1] 40 > sum((a- mean(a))^2)/length(a) # 方差 [1] 8 > sqrt(sum((a- mean(a))^2)/length(a)) #標准差 [1] 2.828427 

總體方差與樣本方差

總體方差的計算公式就是方差的定義:

 
image

總體標准差就是總體方差的平方根,如下所示:

 
image

樣本方差與總體方差有所不同,為了校正樣本變異性,我們需要對方差和標准有效期的公式做出調整,此時樣本方差公式中的分母是 n-1, 如下所示:

 
image

樣本標准差的公式如下所示:

 
image

這里要注意的是,公式使用了 n-1 來代替 n ,這是為了校正樣本變異性的偏誤做出的調整,調整的結果使所得的結果變大,從而使樣本方差成為對總體方差精確的無偏估計(如果是n,則是有偏估計)。

下面我們用不太嚴謹的一個案例來說明一下為什么樣本方差中的分母是 n-1

舉例說明為什么是n-1

現在我們設計一個N=6的總體,它的元素為0, 0, 3, 3, 9, 9,現在我們計算可知它的總體均數為 \mu=4, 方差 \sigma^2 = 14

現在我們從這個總體中選擇一個 n=2 的樣本,我們選出所有可能的組合,並計算出其平均數,有偏方差,無偏方差,如下所示:

樣本編號 第1個數 第2個數 平均數 有偏的方差(n) 無偏的方差(n-1)
1 0 0 0 0 0
2 0 3 1.5 2.25 4.5
3 0 9 4.5 20.25 40.5
4 3 0 1.5 2.25 4.5
5 3 3 3 . 0
6 3 9 6 9 18
7 9 0 4.5 20.25 40.5
8 9 3 6 9 18
9 9 9 9 0 0
    總和 36 63 126

現在我們觀察平均數這一列,原始的總體均數為 \mu = 4。雖然沒有一個樣本的均數恰好為4,但是如果考慮整組樣本,將會發現,9個樣本的平均數總和為36,因此樣本均數數的平均數為 36/9=4,此時樣本平均數恰好等於總體平均數。根據定義,這是一個無偏的統計量,也就是說,樣本精確地代表了總體。

現在我們考慮用除以n得到的存在偏誤的樣本方差這一列。原始的總體方差是 \sigma^2 = 14。 然而,9個樣本方差的總和為63, 這使得63/9=7。注意,這些樣本方差的平均值不等於總體方差,也就是說,如果用除以n得到的樣本方差,得出的結果不能精確估計總體方差, 也就是說,這些樣本方差低估了總體方差,因此是存在偏誤的統計量。

現在我們再考慮除了n-1得到的樣本詳這一列,雖然總體方差為\sigma^2=14,然而沒有一個樣本的方差恰好等於14。但是,如果考慮整組樣本方差,將會發現這9個值總和為126,因此方差的平均值為126/9=14。因此,樣本方差的平均值恰好等於總體方差。也就是說,樣本方差(此時是使用了n-1來代替n)是對總體方差的一個精確的、無偏的估計。

結論就是,樣本平均數和樣本方差(使用n-1)都是無偏估計的例子。這個事實使樣本平均數和樣本方差在推論統計方面變得非常重要。雖然沒有單個樣本恰好具有與總體一樣的平均數和方差,但是,樣本平均數和樣本方差的平均值確實提供了對相應總體參數的精確估計。

參考資料

  1. 行為科學統計 作者: [美] F. J. Gravetter / [美] L. B. Wallnau,出版社: 中國輕工業出版社,原作名: Statistics for the behavioral sciences,譯者: 王愛民 / 李悅,出版年: 2008-7


作者:backup備份
鏈接:https://www.jianshu.com/p/a423903ce1fa
來源:簡書
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM