方差的無偏估計如何計算?


  我們常常被問到"方差的無偏估計如何計算?和有偏估計的區別是什么?",心想"哎呀,又忘了"。本篇回歸問題本質,帶你理解這些名詞背后解決的實際問題(通過總結回顧,無意中解決了一年以來縈繞腦海的遺留問題,開森~~)。

一、基本概念

  解題第一步是理解題意,通過示例首先搞清楚以下幾個概念。

  假如你想調研所在大學女生的身高,你站在廁所門口(女生一般愛上廁所^~^),隨機去問n個女生(獨立同分布),最后通過哪些數值來反映身高呢?一般我們都會使用均值。

  但如果在調研的時候,你發現有的女生特別高(猜測是校籃球隊的),該樣本並不能真實反映女生普遍身高,這就導致采集的樣本存在異常數據,那么你可以通過方差來度量身高的差異。

  由於學校的全體女生身高的均值µ 和方差σ未知,這里通過采樣計算得到的和 S2,都只是對已知分布中的未知參數的一個估計,這就是估計量。在估計時用到的樣本均值和樣本方差是用來描述數據特征的,被叫做是統計量。

  上面示例提到以下概念,嚴格定義如下:

  • 期望

    是指隨機事件中隨機變量和它出現概率的乘積的總和,反映了隨機變量平均取值的大小,又稱"均值"。

    E(X) = Σip(xi)xi

  • 方差

    是用來度量隨機變量和其均值之間的偏離程度,方差越小,偏離程度越小。

    D(X) = E([X-E(X)]2)

  • 統計量

    已知樣本集,由樣本值計算的函數,被稱為統計量,不含未知參數。比如樣本平均值,樣本方差,樣本標准差等。

  • 估計量

    設總體樣本的分布函數已知,參數未知。已知樣本集,需要構造適當的統計量來估計未知參數的近似值,這被稱為估計量。

二、那么問題來了

  以上示例中兩個指標的計算方式如下:

  樣本均值

             

  樣本方差

  為什么方差的計算分母是n-1,而不是n ?

  實際上示例中的統計量是對未知參數的估計,而估計量的選擇是有評價標准的,以下是三種常見的評價指標,這里只考察估計量的無偏性。

三、估計量的評價標准

  1. 無偏性

  若估計量的數學期望存在,且期望等於未知參數,則稱該估計量為參數的無偏估計量。

  估計量的無偏性是指對於某些樣本值來說,得到的估計量和真值相比,有的偏大,有的偏小,但就其平均而言,偏差為0。估計量的期望和真值相差被稱為系統誤差,無偏估計實際上是指無系統誤差。

  2. 有效性

  設有兩個無偏估計量,都是真值的估計,其中方差小的估計量較方差大的更有效。

  估計量的有效性,是希望無偏估計量取值偏離真值的程度越小越好,所以以方差小的估計量更好。

  3. 相合性

  隨着樣本數無限增加,估計量依概率收斂於真值,則被稱為相合估計量。

  以上兩個標准都是以樣本數固定為前提,我們希望隨着樣本的增加,估計量的值趨近於參數的真值。 

四、方差的無偏性

  由以上無偏性標准的定義可知,方差的無偏估計需要估計量的均值等於方差真值,當分母是n時,如下公式可見

  1. 公式推導

       

                

  所以,只有樣本均值等於真值均值時,樣本方差的均值才等於真值方差。由於樣本的隨機性,樣本均值取值不一定,所以分母為n的估計量均值 <= 真值方差,為有偏估計。

      

  即下式是對方差的無偏估計

  2.通俗理解(自由度)

  計算估計量的樣本需要獨立同分布,由於分布參數未知,使用樣本均值來計算樣本方差時,樣本均值是由各樣本計算而來。假設樣本容量為n,已知n-1個樣本值,可由樣本均值推斷出最后一個樣本取值,破壞了樣本獨立性,故該樣本集的自由度為n-1,所以計算樣本方差時樣本數應該減去1。

 

 

參考:

https://www.zhihu.com/question/20099757

《概率論與數理統計》

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM