統計量及其抽樣分布


為了推斷總體的某些特征,我們需要抽取若干個體,這一過程稱為抽樣,所抽取的這部分個體稱為樣本,樣本中包含的個體數量稱為樣本量。但是抽樣得到的樣本是雜亂無章的,雖然包含了一部分總體的信息,卻難以發掘出來。因此,需要對樣本數據進行一定的處理(構造函數),計算出一些具有代表性的、可以反映總體特征的數字,這樣的數字就稱為樣本的統計量。由於樣本來自總體,因此總體的分布也決定了樣本統計量的抽樣分布

所謂推斷統計,就是從總體中抽取樣本,構造適當的統計量,由樣本特征去推斷總體特征。

 

 

統計量

從總體抽取一個樣本量為n的樣本$(X_1,X_2,\cdots ,X_n)$后,為了將分散在樣本中的信息集中起來,需要構造出不同的樣本函數$T(X_1,X_2,\cdots ,X_n)$,稱為統計量。顯然,統計量這個概念完全脫胎於樣本,它是關於樣本的函數,並不依賴於總體的未知參數。

 

由於統計量是人為構造的,所以它有無窮多種,但我們關心的是那些有意義的、能反映總體特征的統計量。我們把經驗分布函數$F_n(x)$的各階矩稱為樣本各階矩,當n充分大時,經驗分布函數$F_n(x)$非常靠近總體分布函數$F(X)$,因此樣本各階矩就反映了總體各階矩的信息。

樣本均值

$m_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k$,稱$m_k$為樣本$k$階矩,顯然$m_1=\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$,所以樣本1階矩即為樣本均值

樣本方差

$\upsilon _k=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^k$,稱$\upsilon _k$為樣本$k$階中心矩,顯然,$\upsilon _2=S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$,所以樣本2階中心矩即為樣本方差

樣本變異系數

$V=\frac{S}{\bar{X}}$稱為樣本變異系數,它反映總體變異系數$C=\frac{\sqrt{D(X)}}{E(X)}$的信息,它消除了均值對總體離散程度的影響,用於刻畫不同均值的不同總體的離散程度。

 

充分統計量

我們用樣本去推測總體時,所使用的“樣本”實際上是樣本統計量,也就是說這個統計量代表了樣本中蘊含的信息。那么我們需要知道,該統計量可以勝任這個角色嗎?它真的能夠代表這個樣本嗎?我們將樣本加工過程(構造統計量的過程)中,把樣本中關於總體的信息一點都不損失地提取出來的統計量稱為充分統計量

從二項分布總體中抽取一個樣本$(X_1,X_2,\cdots ,X_n)$,統計量$\sum_{i=1}^{n}X_i$是總體率$\pi$的充分統計量。

從正態分布總體中抽取一個樣本$(X_1,X_2,\cdots ,X_n)$,若$\mu$已知,則$\sum_{i=1}^{n}(X_i-\mu)^2$是總體方差$\sigma ^2$的充分統計量,若$\sigma^2$已知,則$\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$是總體均值$\mu$的充分統計量。

 

 

 

抽樣分布

抽樣分布、參數估計、假設檢驗是統計推斷的3個中心內容。統計量的性質,完全取決於其所服從的抽樣分布的性質。抽樣分布有3種類型:

1.精確的抽樣分布:可以寫出統計量的分布的數學表達式,它對於樣本量n較小的統計推斷問題非常有用。在正態總體下,樣本統計量的抽樣分布主要有$\chi ^2$分布、$t$分布、$F$分布,稱為統計三大分布。

2.漸近分布:由於求出的精確的抽樣分布並不多,所以應用極限這一工具,可以得到樣本量n充分大時,統計量的極限分布。它在樣本量n較大時有很大的應用價值,中心極限定理揭示的就是樣本均值$\bar{X}$的漸近分布。

3.隨機模擬獲得的近似分布:設有一個統計量$T=T(X_1,X_2,\cdots ,X_n)$,為了獲得其分布函數$F^{(n)}(t)$,可進行一系列試驗,每次從總體中抽取樣本為n的樣本,計算出$T$的值,共抽取$N$次,就得到$T$的$N$個觀測值:$(T_1,T_2,\cdots ,T_N)$,由這$N$個觀測值,可得到$T$的經驗分布函數$F_N^{(n)}(t)$。經驗分布函數$F_N^{(n)}(t)$是分布函數$F^{(n)}(t)$的一個很好的近似。

 

$\chi^2$分布

設隨機變量$X_1,X_2,\cdots,X_n$

(1)相互獨立

(2)$X_i$服從標准正態分布$N(0,1)$,

則它們的平方和$\sum_{i=1}^{n}X_i^2$服從自由度為$n$的$\chi^2$分布,記為$\chi^2 \sim \chi^2(n)$。

1. $\chi^2$的數學期望:

$$E(\chi^2)=n$$

2. $\chi^2$的方差:

$$D(\chi^2)=2n$$

3. $\chi^2$具有可加性:

    若$\chi_1^2 \sim \chi^2(n1)$,$\chi_2^2 \sim \chi^2(n2)$,且獨立,則$\chi_1^2+\chi_2^2 \sim \chi^2(n1+n2)$

4. $\chi^2$分布的極限分布是正態分布(n>45)

 

$t$分布

設隨機變量

(1)$X\sim N(0,1)$,$Y \sim N(0,1)$,

(2)$X$與$Y$獨立

則$t=\frac{X}{\sqrt{Y/n}}$服從自由度為$n$的$t$分布,記為$t \sim t(n)$。

1. 當n≥2時,t分布的數學期望:

$$E(t)=0$$

2. 當n≥3時,t分布的方差:

$$D(t)=\frac{n}{n-2}$$

3. 當n≥30時,t分布與標准正態分布非常接近

 

$F$分布

$F$分布在方差分析、回歸方程的顯著性檢驗中有着重要的地位。

設隨機變量
(1)$X$與$Y$相互獨立
(2)$X \sim \chi^2(m)$,$Y \sim \chi^2(n)$,

則$F=\frac{X/m}{Y/n}$服從第一自由度為$m$,第二自由度為$n$的$F$分布,記為$F \sim F(m,n)$。

1. 如果隨機變量$X \sim F(m,n)$,則

$$E(X)=\frac{n}{n-2},n>2$$

$$D(X)=\frac{2n^2(m+n-2)}{m(n-2)(n-4)},n>4$$

2. F分布中,2個自由度位置不可互換

3. 如果$X \sim t(n)$,則$X^2 \sim F(1,n)$,這在回歸系數顯著性檢驗中有用

 

 

 

關於樣本均值的分布

 

樣本均值的分布

總體分布為正態分布$N(\mu,\sigma^2)$時,樣本均值$\bar{X}$的抽樣分布為正態分布,其均值為$\mu$,方差為$\frac{\sigma^2}{n}$,即
$$X \sim N(\mu,\frac{\sigma^2}{n})$$ 

 

中心極限定理

從均值為$\mu$,方差為$\sigma^2$的任意總體中,抽取樣本量為n的樣本,當n充分大時,樣本均值$\bar{X}$近似服從均值為$\mu$,方差為$\frac{\sigma^2}{n}$的正態分布。這里的充分大通常要求n≥30。

 

兩個樣本均值之差的分布

設從正態總體$X_1 \sim N(\mu_1,\sigma_1^2)$抽取樣本量為$n_1$的樣本,其均值為$\bar{X_1}$;從正態總體$X_2 \sim N(\mu_2,\sigma_2^2)$抽取樣本量為$n_2$的樣本,其均值為$\bar{X_2}$,且這2個樣本獨立,則有
$$E(\bar{X_1}-\bar{X_2})=E(\bar{X_1})-E(\bar{X_2})=\mu_1-\mu_2$$

$$D(\bar{X_1}-\bar{X_2})=D(\bar{X_1})+D(\bar{X_2})=\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}$$

$$\bar{X_1}-\bar{X_2}  \sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})$$

當n1、n2比較大時(n1≥30,n2≥30),可以不要求總體分布為正態分布。

 

 

 

關於樣本比例的分布

 

樣本比例的分布

總體分布為二項分布,總體比例為$\pi$,抽取樣本量為$n$的樣本,其中具有某一特征的個體數為$X$,則樣本比例為:

$$\hat{p}=\frac{X}{n}$$

可以用樣本比例$\hat{p}$來估計總體比例$\pi$。

n充分大時,$\hat{p}$服從均值為$\pi$,方差為$\frac{\pi(1-\pi)}{n}$的正態分布,即
$$\hat{p} \sim N(\pi,\frac{\pi(1-\pi)}{n})$$

 

兩個樣本比例之差的分布

來自2個二項分布總體的2個獨立樣本,其樣本比例之差為:

$$\hat{p_1}-\hat{p_2}=\frac{X_1}{n_1}-\frac{X_2}{n_2}$$

且:

$$E(\hat{p_1}-\hat{p_2})=\pi_1-\pi_2$$

$$D(\hat{p_1}-\hat{p_2})=\frac{\pi_1(1-\pi_1)}{n_1}+\frac{\pi_2(1-\pi_2)}{n_2}$$

$n_1$和$n_2$充分大時,$\hat{p_1}-\hat{p_2}$的抽樣分布近似為正態分布,即:

$$\hat{p_1}-\hat{p_2} \sim N(\pi_1-\pi_2,\frac{\pi_1(1-\pi_1)}{n_1}+\frac{\pi_2(1-\pi_2)}{n_2})$$

 

 

 

關於樣本方差的分布

 

樣本方差的分布

正態分布為$N(\mu,\sigma^2)$,則樣本方差$S^2$的分布為:

$$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$$

 

兩個樣本方差之比的分布

設$X_1,X_2,\cdots,X_{n_1}$來自正態總體$N(\mu_1,\sigma_1^2)$,$Y_1,Y_2,\cdots,Y_{n_2}$來自正態總體$N(\mu_2,\sigma_2^2)$,且$X_i$與$Y_i$相互獨立,則

$$\frac{S_x^2/\sigma_1^2}{S_y^2/\sigma_2^2} \sim F(n_1-1,n_2-1)$$

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM