抽樣分布

本文轉載自查看原文 2019-12-08 19:29 394 數據科學

統計量

統計學中最主要的提取信息的方式就是對原始信息進行一定的運算，得出某些代表性的數字，以反映數據某些方面的特征，這種數字被稱為統計量。用統計學語言表述，統計量是樣本的函數，它不依賴於任何未知函數。推斷統計學的重要作用就是，通過從總體中抽取樣本構造適當的統計量。

常用統計量

抽樣分布

在總體X的分布類型已知時，若對任一自然數n都能導出統計量的分布的數學表達式，這種分布稱為精確的抽樣分布。它對樣本量n較小的統計推斷問題非常有用。精確的抽樣分布大多是在正態總體情況下得到的。在正態總體條件下，主要有分布，t分布，F分布，稱為統計三大分布。

卡方分布(Chi-square distribution)

定義：

　　設隨機變量相互獨立，且服從標准正態分布N(0,1)，則它們的平方和服從自由度為n的分布，讀作卡方分布。

自由度是統計學中常用的一個概念，它可以解釋為獨立變量的個數，還可解釋為二次型的秩[2]。例如，是自由度為1的分布，；是自由度為n的分布，。

分布的數學期望為：

分布的方差為：

分布具有可加性，即若，，且獨立，則

當自由度足夠大時，分布的概率密度曲線趨於對稱。當時，分布的極限分布是正態分布。

t分布(t distribution)

定義：

設隨機變量，，且X與Y獨立，則

該分布稱為t分布，記為t(n)，其中，n為自由度。

當時，t分布的數學期望。當時，t分布的方差。

從上圖可以看出，t分布的密度函數曲線與標准正態分布的密度函數曲線非常相似，都是單峰偶函數。只是，的密度函數的兩側尾部要比的兩側尾部粗一些。的方差比的方差大一些。

F分布(F distribution)

定義：

設隨機變量Y與Z相互獨立，且Y和Z分別服從自由度為m和n的卡方分布，隨機變量X有如下表達式：

則稱X服從第一自由度為m，第二自由度為n的F分布，記為，簡記為。F分布的密度函數的圖形如下圖。

設隨機變量X服從分布，則數學期望和方差分別為：

樣本均值的分布與中心極限定理

當總體分布為正態分布時，可以得到下面的結果：的抽樣分布(sampling distribution)仍為正態分布，的數學期望為，方差為，則

上面的結果表明，的期望值與總體均值相同，而方差則縮小為總體方差的。這說明當用樣本均值去估計總體均值時，平均來說沒有偏差（這一點稱為無偏性）；當n越來越大時，的散布程度越來越小，即用估計越來越准確。實際問題中，總體的分布並不總是正態分布或近似正態分布，此時的分布將取決於總體分布的情況。不過當抽樣個數n比較大時，人們證明了如下的中心極限定理。該定理告訴我們不管總體的分布是什么，樣本均值的分布總是近似正態分布，只要總體的方差有限。因為無論是什么總體分布，設總體均值為，總體方差為，總有：

所以當n比較大時，近似服從，等價地有

中心極限定理(central limit theorem) 定義：設從均值為、方差為(有限)的任意一個總體中抽取樣本量為n的樣本，當n充分大時，樣本均值的抽樣分布近似服從均值為、方差為的正態分布。

總結

中心極限定理的作用在大樣本情況下，可以認為樣本均值的抽樣分布服從正態分布，從而完成樣本均值概率的計算。

正態總體下的幾個常用統計量的抽樣分布，因為獲得了較為完整的分布數據，一旦確認統計量符合這幾類抽樣分布，可以通過查表的方式對概率值進行計算。

轉自：https://mp.weixin.qq.com/s/vxBYqAFxt0MTBcux1SZlxg

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。