現實中常常有這樣的問題,比如,想知道全體女性的身高均值μ ,但是沒有辦法把每個女性都進行測量,只有抽樣一些女性來估計全體女性的身高:
那么根據抽樣數據怎么進行推斷?什么樣的推斷方法可以稱為“好”?
1 無偏性
比如說我們采樣到的女性身高分別為:
那么:
是對 μ不錯的一個估計,為什么?因為它是無偏估計。
首先,真正的全體女性的身高均值μ ,我們是不知道,只有上帝才知道,在圖中就畫為虛線:
我們通過采樣計算出 :
會發現,不同采樣得到的是圍繞μ左右波動的:
這有點像打靶,只要命中在靶心周圍,還算不錯的成績:
如果用以下式子去估計方差 σ2:
根據“為什么樣本方差的分母是 n-1?”的解釋,就會產生偏差:
這個偏差經過計算,就是:
這種偏差就好像瞄准鏡歪了,是系統性的:
就此而言,無偏估計要好於有偏估計。
2 有效性
打靶的時候,右邊的成績肯定更優秀:
進行估計的時候也是,估計量越靠近目標,效果越“好”。這個“靠近”可以用方差來衡量。
比如,仍然對μ進行估計,方差越小,估計量的分布越接近 μ:
有效估計和無偏估計是不相關的:
舉個例子,從N(μ,σ2)中抽出10個樣本:
下面兩個都是無偏估計量:
但是后者比前者方差小,后者更有效。
並且在現實中不一定非要選無偏估計量,比如:
如果能接受點誤差,我倒覺得選擇右邊這個估計量更好。
3 一致性
之前說了,如果用以下式子去估計方差 σ2:
會有一個偏差:
可以看到,隨着采樣個數n的增加,這個偏差會越來越小。那么這個估計就是“一致”的。
如果樣本數夠多,其實這種有偏但是一致的估計量也是可以選的。
4 總結
判斷一個估計量“好壞”,至少可以從以下三個方面來考慮:
無偏
有效
一致
實際操作中,要找到滿足三個方面的量有時候並不容易,可以根據情況進行取舍。
---------------------
轉自:https://blog.csdn.net/ccnt_2012/article/details/82715415