樣本方差的分母
隨機變量的方差描述的是變量的離散程度,$$\text{Var}(X)=E[(X-\mu)^2]=E[{1\over n}\sum_{i=1}^n (X_i-\mu)^2]=\sigma^2$$
而樣本方差是對整體方差做的無偏估計:\(s^2={\sum_{i=1}^n(X_i-\bar X)^2\over n-1}\).
無偏估計
上中學時第一次學習樣本方差時便對分母n-1感到疑惑,為什么不是n呢?當年沒有細究.現在消減一些困惑吧^_^.
為什么分母為n不行?
注意到公式中使用了最大似然法,用\(\bar X\)來估算整體的均值\(\mu\),
設\(\mathbb S^2={1 \over n}\sum_{i=1}^n(X_i-\bar X)^2\),則有
其中,$$E[(\bar X-\mu)^2] = \text{Var}(\bar X)=\text{Var}({1\over n}\sum_{i=1}^n X_i)={1\over n^2}\sum_{i=1}^n \text{Var}(X_i)={\sigma^2\over n}$$
可以看到,分母為n時對整體方差的估計可能會變小,只有當\(\bar X=\mu\)時才是無偏估計,因此我們可以將分母變小來使方差更接近真實值. 那么分母該為多少呢?
為什么分母n-1行?
對上式(*)變形得到\(\text{Var}(X) =\sigma^2= \frac{n}{n-1}\mathbb{E}[\mathbb S^2]=\frac{\sum_{i=1}^n(X_i-\bar X)}{n-1}\), 因此\({\sum_{i=1}^n(X_i-\bar X)^2\over n-1}\)是\(\sigma^2\)的無偏估計.
因此樣本方差等於總體方差減樣本均值的方差。如果用樣本均值去估計總體均值,對總體方差的估計是有偏差的,偏差是樣本均值的方差。需要做Bessel's correction去修正偏差,讓偏差的期望等於0。
當然了,當n很大的時候,其實除以n和除以n-1的區別並不大。隨着樣本的增多,兩者都會收斂到真實的總體方差。
方差是協方差的特殊情況,就是當兩個變量x與y相等時候的情況。既然我們已經知道樣本方差為什么是除以n-1。那么樣本協方差也是一樣的道理。
有偏
分母是m-1的情況下,估計值是總體方差的無偏估計。
分母是m的情況下,值是最大似然估計。
分母是m+1的情況下,值是最小MSE(Mean Squared Error) 的估計。
如果覺得樣本夠大,那么用m-1是不錯的,因為在大樣本下,參數的方差就算大一點兒也不會多多少,影響也不會大到哪兒去。
如果要保證信息利用充分,那我肯定選擇最大似然估計的方差。
如果樣本數量較小,我就選擇最小MSE,因為此時無偏性其實不是第一准則,因為無偏導致了大方差是不可取的行為。
統計是一門很靈活的學科,不同的數據,會有不同的方法來處理。