統計量
統計學中最主要的提取信息的方式就是對原始信息進行一定的運算,得出某些代表性的數字,以反映數據某些方面的特征,這種數字被稱為統計量。用統計學語言表述,統計量是樣本的函數,它不依賴於任何未知函數。推斷統計學的重要作用就是,通過從總體中抽取樣本構造適當的統計量。
常用統計量
抽樣分布
在總體X的分布類型已知時,若對任一自然數n都能導出統計量的分布的數學表達式,這種分布稱為精確的抽樣分布。它對樣本量n較小的統計推斷問題非常有用。精確的抽樣分布大多是在正態總體情況下得到的。在正態總體條件下,主要有分布,t分布,F分布,稱為統計三大分布。
卡方分布(Chi-square distribution)
定義:
設隨機變量相互獨立,且服從標准正態分布N(0,1),則它們的平方和服從自由度為n的分布,讀作卡方分布。
自由度是統計學中常用的一個概念,它可以解釋為獨立變量的個數,還可解釋為二次型的秩[2]。例如,是自由度為1的分布,;是自由度為n的分布,。
分布的數學期望為:
分布的方差為:
分布具有可加性,即若,,且獨立,則
當自由度足夠大時,分布的概率密度曲線趨於對稱。當時,分布的極限分布是正態分布。
t分布(t distribution)
定義:
設隨機變量,,且X與Y獨立,則
該分布稱為t分布,記為t(n),其中,n為自由度。
當時,t分布的數學期望。當時,t分布的方差。
從上圖可以看出,t分布的密度函數曲線與標准正態分布的密度函數曲線非常相似,都是單峰偶函數。只是,的密度函數的兩側尾部要比的兩側尾部粗一些。的方差比的方差大一些。
F分布(F distribution)
定義:
設隨機變量Y與Z相互獨立,且Y和Z分別服從自由度為m和n的卡方分布,隨機變量X有如下表達式:
則稱X服從第一自由度為m,第二自由度為n的F分布,記為,簡記為。F分布的密度函數的圖形如下圖。
設隨機變量X服從分布,則數學期望和方差分別為:
樣本均值的分布與中心極限定理
當總體分布為正態分布時,可以得到下面的結果: 的抽樣分布(sampling distribution)仍為正態分布,的數學期望為,方差為,則
上面的結果表明,的期望值與總體均值相同,而方差則縮小為總體方差的。這說明當用樣本均值去估計總體均值時,平均來說沒有偏差(這一點稱為無偏性);當n越來越大時,的散布程度越來越小,即用估計越來越准確。實際問題中,總體的分布並不總是正態分布或近似正態分布,此時的分布將取決於總體分布的情況。不過當抽樣個數n比較大時,人們證明了如下的中心極限定理。該定理告訴我們不管總體的分布是什么,樣本均值的分布總是近似正態分布,只要總體的方差有限。因為無論是什么總體分布,設總體均值為,總體方差為,總有:
所以當n比較大時,近似服從,等價地有
中心極限定理(central limit theorem) 定義:設從均值為、方差為(有限)的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為、方差為的正態分布。
總結
中心極限定理的作用在大樣本情況下,可以認為樣本均值的抽樣分布服從正態分布,從而完成樣本均值概率的計算。
正態總體下的幾個常用統計量的抽樣分布,因為獲得了較為完整的分布數據,一旦確認統計量符合這幾類抽樣分布,可以通過查表的方式對概率值進行計算。
轉自:https://mp.weixin.qq.com/s/vxBYqAFxt0MTBcux1SZlxg