本文主要想說明三個問題:
一是樣本的數字特征,二是樣本方差和樣本均值的方差的區別,三是三大分布怎樣構造抽樣分布。
(一)
為了簡便,假設有一個正態分布總體ξ~N(µ,σ2),設想我們從中隨機抽取n個樣本,ξ1,。。。ξn。
此時就有樣本均值和樣本方差了。
樣本均值很好理解,不就是算術平均:

而樣本方差呢,按之前理解方差不就是:

而實際上樣本方差為:

差別在哪,分母對吧,實際上是n-1。當然肯定有童鞋記得統計學里說過樣本方差的自由度就是n-1
好就算是n-1,那又是為什么呢?
這就要回歸到問題的本質,我們抽樣是為了什么?當然是為了用樣本的性質估計總體的性質。
因此基於無偏估計的考慮,我們就用滿足無偏性的S2作為樣本方差,即S2滿足E(S2)=σ2。數學證明見下面鏈接
PS:樣本方差自由度為n-1的數學證明請復制鏈接 http://www.zhihu.com/question/20099757
(二)
好,我們知道了樣本方差S2
這時候我要問了樣本均值的方差又是什么呢?
回想下我們研究樣本的初衷:即是用樣本統計量T(ξ1,。。。ξn)去推斷總體ξ的分布和數字特征。其中樣本統計量實質上是隨機變量的函數。
而樣本方差和樣本均值的方差差別就在於:
樣本方差:它是
與ξ1,。。。ξn的離差平方和除以n-1形成的樣本統計量,雖然它和一般意義的方差一樣具有離差平方和的形態。
但是,請注意,它其實是按照離差平方和形態構造的樣本統計量,它是一個隨機變量,構造它的目的是估計總體方差;
樣本均值的方差:樣本均值也是個樣本統計量,它是總體均值的無偏估計。而樣本均值的方差其實就是樣本均值這個隨機變量的方差。
假設有總體ξ~N(µ,σ2),ξ1,。。。ξn為來自總體的容量為 n 的樣本,由於是簡單隨機抽樣,樣本相互獨立且每一個都與總體同分布。
則對於正態總體ξ,其樣本均值的分布可以求出,由於獨立正態分布具有可加性,樣本均值服從
~N(µ,σ2/n)。
從分布可知樣本均值的方差為σ2/n。
(三)
說起構造抽樣分布,肯定要先說說統計學的三大分布:
(1)卡方分布
定義:

性質:

(2)T分布
定義:

性質:

(3)F分布
定義:

性質:

三大分布都和標准正態分布有密切關系呢,大家看

好了廢話不多說,構造抽樣分布吧
沿用上文假設:有一個正態分布總體ξ~N(µ,σ2),設想我們從中隨機抽取n個樣本,ξ1,。。。ξn。
則樣本均值服從
~N(µ,σ2/n),標准化后
~N(0,1)。
(1)我們知道卡方分布是標准正態分布的平方和的形式,此時聯想到樣本方差存在平方和形式的隨機變量函數
![]()
我們嘗試把µ,σ2配進去,配成標准正態分布的形式
。
最后得到
即(n-1)S2/σ2~
。這個就是樣本方差的分布。
(2)我們會碰到已知總體ξ的均值µ,而不知道總體方差σ2的時候。
此時,我們自然無法這樣求出
~N(µ,σ2/n)。於是我們構造
,對比下
,就是用S代替了σ來求樣本均值分布而已。
看
造型,想到了吧,T分布。
=
/
~t(n-1)。
(3)還有個F分布,F分布構造的是已知方差σ2的兩總體的樣本方差比的分布
其中n1和n2分別是來自兩總體的樣本的樣本容量。
當然,還可以用三大分布構造其他抽樣分布,這要根據你具體的業務問題定。
