為什么樣本方差的分母是n-1


為什么樣本方差的分母是n-1?最簡單的原因,是因為因為均值已經用了n個數的平均來做估計在求方差時,只有(n-1)個數和均值信息是不相關的。而你的第n個數已經可以由前(n-1)個數和均值 來唯一確定,實際上沒有信息量。所以在計算方差時,只除以(n-1)。

 總體方差(variance):總體中變量離其平均值距離的平均。一組數據

 

 樣本方差(variance):樣本中變量離其平均值距離的平均。一組數據

 

 

 到這你可能會想:為什么樣本方差中分母是n-1而不是n?我們假設是n看看

 

樣本方差計算公式里分母為   

的目的是為了讓方差的估計是無偏的。

無偏的估計(unbiased estimator)比有偏估計(biased estimator)更好是符合直覺的,盡管有的統計學家認為讓mean square error即MSE最小才更有意義,這個問題我們不在這里探討;不符合直覺的是,為什么分母必須得是

而不是  才能使得該估計無偏。

首先,我們假定隨機變量的數學期望是已知的,然而方差未知。在這個條件下,根據方差的定義我們有

 由此可得

是方差的一個無偏估計,注意式中的分母不偏不倚正好是!這個結果符合直覺,並且在數學上也是顯而易見的。

 

現在,我們考慮隨機變量

的數學期望是未知

的情形。這時,我們會傾向於無腦直接用樣本均值

替換掉上面式子中的

這樣做有什么后果呢?后果就是,如果直接使用

作為估計,那么你會傾向於低估方差。

那么,在不知道隨機變量真實數學期望的前提下,如何“正確”的估計方差呢?答案是把上式中的分母n換成n-1,通過這種方法把原來的偏小的估計“放大”一點點,我們就能獲得對方差的正確估計了:


至於為什么分母是n-1而不是n-2或者別的什么數,原因如下:

所以有

 

我們可以直觀的看到隨着樣本總量n的增加,樣本方差s會越來越接近總體方差。樣本方差等於總體方差減樣本均值的方差。如果用樣本均值去估計總體均值,對總體方差的估計是有偏差的,偏差是樣本均值的方差。需要做Bessel's correction去修正偏差,讓偏差的期望等於0。

當n很大的時候,其實除以n和除以n-1的區別並不大。隨着樣本的增多,兩者都會收斂到真實的總體方差。方差是協方差的特殊情況,就是當兩個變量x與y相等時候的情況。既然我們已經知道樣本方差為什么是除以n-1。那么樣本協方差也是一樣的道理。

總結一下:

  • 分母是m-1的情況下,估計值是總體方差的無偏估計
  • 分母是m的情況下,值是最大似然估計
  • 分母是m+1的情況下,值是最小MSE(Mean Squared Error) 的估計

如果覺得樣本夠大,那么用m-1是不錯的,因為在大樣本下,參數的方差就算大一點兒也不會多多少,影響也不會大到哪兒去。

如果要保證信息利用充分,那我肯定選擇最大似然估計的方差。如果樣本數量較小,我就選擇最小MSE,因為此時無偏性其實不是第一准則,因為無偏導致了大方差是不可取的行為。

 

參考資料:

為什么樣本方差的分母是除以n-1

 

 



作者:圖靈的貓
鏈接:https://zhuanlan.zhihu.com/p/102043269
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM