统计量及其抽样分布


为了推断总体的某些特征,我们需要抽取若干个体,这一过程称为抽样,所抽取的这部分个体称为样本,样本中包含的个体数量称为样本量。但是抽样得到的样本是杂乱无章的,虽然包含了一部分总体的信息,却难以发掘出来。因此,需要对样本数据进行一定的处理(构造函数),计算出一些具有代表性的、可以反映总体特征的数字,这样的数字就称为样本的统计量。由于样本来自总体,因此总体的分布也决定了样本统计量的抽样分布

所谓推断统计,就是从总体中抽取样本,构造适当的统计量,由样本特征去推断总体特征。

 

 

统计量

从总体抽取一个样本量为n的样本$(X_1,X_2,\cdots ,X_n)$后,为了将分散在样本中的信息集中起来,需要构造出不同的样本函数$T(X_1,X_2,\cdots ,X_n)$,称为统计量。显然,统计量这个概念完全脱胎于样本,它是关于样本的函数,并不依赖于总体的未知参数。

 

由于统计量是人为构造的,所以它有无穷多种,但我们关心的是那些有意义的、能反映总体特征的统计量。我们把经验分布函数$F_n(x)$的各阶矩称为样本各阶矩,当n充分大时,经验分布函数$F_n(x)$非常靠近总体分布函数$F(X)$,因此样本各阶矩就反映了总体各阶矩的信息。

样本均值

$m_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k$,称$m_k$为样本$k$阶矩,显然$m_1=\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$,所以样本1阶矩即为样本均值

样本方差

$\upsilon _k=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^k$,称$\upsilon _k$为样本$k$阶中心矩,显然,$\upsilon _2=S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$,所以样本2阶中心矩即为样本方差

样本变异系数

$V=\frac{S}{\bar{X}}$称为样本变异系数,它反映总体变异系数$C=\frac{\sqrt{D(X)}}{E(X)}$的信息,它消除了均值对总体离散程度的影响,用于刻画不同均值的不同总体的离散程度。

 

充分统计量

我们用样本去推测总体时,所使用的“样本”实际上是样本统计量,也就是说这个统计量代表了样本中蕴含的信息。那么我们需要知道,该统计量可以胜任这个角色吗?它真的能够代表这个样本吗?我们将样本加工过程(构造统计量的过程)中,把样本中关于总体的信息一点都不损失地提取出来的统计量称为充分统计量

从二项分布总体中抽取一个样本$(X_1,X_2,\cdots ,X_n)$,统计量$\sum_{i=1}^{n}X_i$是总体率$\pi$的充分统计量。

从正态分布总体中抽取一个样本$(X_1,X_2,\cdots ,X_n)$,若$\mu$已知,则$\sum_{i=1}^{n}(X_i-\mu)^2$是总体方差$\sigma ^2$的充分统计量,若$\sigma^2$已知,则$\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$是总体均值$\mu$的充分统计量。

 

 

 

抽样分布

抽样分布、参数估计、假设检验是统计推断的3个中心内容。统计量的性质,完全取决于其所服从的抽样分布的性质。抽样分布有3种类型:

1.精确的抽样分布:可以写出统计量的分布的数学表达式,它对于样本量n较小的统计推断问题非常有用。在正态总体下,样本统计量的抽样分布主要有$\chi ^2$分布、$t$分布、$F$分布,称为统计三大分布。

2.渐近分布:由于求出的精确的抽样分布并不多,所以应用极限这一工具,可以得到样本量n充分大时,统计量的极限分布。它在样本量n较大时有很大的应用价值,中心极限定理揭示的就是样本均值$\bar{X}$的渐近分布。

3.随机模拟获得的近似分布:设有一个统计量$T=T(X_1,X_2,\cdots ,X_n)$,为了获得其分布函数$F^{(n)}(t)$,可进行一系列试验,每次从总体中抽取样本为n的样本,计算出$T$的值,共抽取$N$次,就得到$T$的$N$个观测值:$(T_1,T_2,\cdots ,T_N)$,由这$N$个观测值,可得到$T$的经验分布函数$F_N^{(n)}(t)$。经验分布函数$F_N^{(n)}(t)$是分布函数$F^{(n)}(t)$的一个很好的近似。

 

$\chi^2$分布

设随机变量$X_1,X_2,\cdots,X_n$

(1)相互独立

(2)$X_i$服从标准正态分布$N(0,1)$,

则它们的平方和$\sum_{i=1}^{n}X_i^2$服从自由度为$n$的$\chi^2$分布,记为$\chi^2 \sim \chi^2(n)$。

1. $\chi^2$的数学期望:

$$E(\chi^2)=n$$

2. $\chi^2$的方差:

$$D(\chi^2)=2n$$

3. $\chi^2$具有可加性:

    若$\chi_1^2 \sim \chi^2(n1)$,$\chi_2^2 \sim \chi^2(n2)$,且独立,则$\chi_1^2+\chi_2^2 \sim \chi^2(n1+n2)$

4. $\chi^2$分布的极限分布是正态分布(n>45)

 

$t$分布

设随机变量

(1)$X\sim N(0,1)$,$Y \sim N(0,1)$,

(2)$X$与$Y$独立

则$t=\frac{X}{\sqrt{Y/n}}$服从自由度为$n$的$t$分布,记为$t \sim t(n)$。

1. 当n≥2时,t分布的数学期望:

$$E(t)=0$$

2. 当n≥3时,t分布的方差:

$$D(t)=\frac{n}{n-2}$$

3. 当n≥30时,t分布与标准正态分布非常接近

 

$F$分布

$F$分布在方差分析、回归方程的显著性检验中有着重要的地位。

设随机变量
(1)$X$与$Y$相互独立
(2)$X \sim \chi^2(m)$,$Y \sim \chi^2(n)$,

则$F=\frac{X/m}{Y/n}$服从第一自由度为$m$,第二自由度为$n$的$F$分布,记为$F \sim F(m,n)$。

1. 如果随机变量$X \sim F(m,n)$,则

$$E(X)=\frac{n}{n-2},n>2$$

$$D(X)=\frac{2n^2(m+n-2)}{m(n-2)(n-4)},n>4$$

2. F分布中,2个自由度位置不可互换

3. 如果$X \sim t(n)$,则$X^2 \sim F(1,n)$,这在回归系数显著性检验中有用

 

 

 

关于样本均值的分布

 

样本均值的分布

总体分布为正态分布$N(\mu,\sigma^2)$时,样本均值$\bar{X}$的抽样分布为正态分布,其均值为$\mu$,方差为$\frac{\sigma^2}{n}$,即
$$X \sim N(\mu,\frac{\sigma^2}{n})$$ 

 

中心极限定理

从均值为$\mu$,方差为$\sigma^2$的任意总体中,抽取样本量为n的样本,当n充分大时,样本均值$\bar{X}$近似服从均值为$\mu$,方差为$\frac{\sigma^2}{n}$的正态分布。这里的充分大通常要求n≥30。

 

两个样本均值之差的分布

设从正态总体$X_1 \sim N(\mu_1,\sigma_1^2)$抽取样本量为$n_1$的样本,其均值为$\bar{X_1}$;从正态总体$X_2 \sim N(\mu_2,\sigma_2^2)$抽取样本量为$n_2$的样本,其均值为$\bar{X_2}$,且这2个样本独立,则有
$$E(\bar{X_1}-\bar{X_2})=E(\bar{X_1})-E(\bar{X_2})=\mu_1-\mu_2$$

$$D(\bar{X_1}-\bar{X_2})=D(\bar{X_1})+D(\bar{X_2})=\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}$$

$$\bar{X_1}-\bar{X_2}  \sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})$$

当n1、n2比较大时(n1≥30,n2≥30),可以不要求总体分布为正态分布。

 

 

 

关于样本比例的分布

 

样本比例的分布

总体分布为二项分布,总体比例为$\pi$,抽取样本量为$n$的样本,其中具有某一特征的个体数为$X$,则样本比例为:

$$\hat{p}=\frac{X}{n}$$

可以用样本比例$\hat{p}$来估计总体比例$\pi$。

n充分大时,$\hat{p}$服从均值为$\pi$,方差为$\frac{\pi(1-\pi)}{n}$的正态分布,即
$$\hat{p} \sim N(\pi,\frac{\pi(1-\pi)}{n})$$

 

两个样本比例之差的分布

来自2个二项分布总体的2个独立样本,其样本比例之差为:

$$\hat{p_1}-\hat{p_2}=\frac{X_1}{n_1}-\frac{X_2}{n_2}$$

且:

$$E(\hat{p_1}-\hat{p_2})=\pi_1-\pi_2$$

$$D(\hat{p_1}-\hat{p_2})=\frac{\pi_1(1-\pi_1)}{n_1}+\frac{\pi_2(1-\pi_2)}{n_2}$$

$n_1$和$n_2$充分大时,$\hat{p_1}-\hat{p_2}$的抽样分布近似为正态分布,即:

$$\hat{p_1}-\hat{p_2} \sim N(\pi_1-\pi_2,\frac{\pi_1(1-\pi_1)}{n_1}+\frac{\pi_2(1-\pi_2)}{n_2})$$

 

 

 

关于样本方差的分布

 

样本方差的分布

正态分布为$N(\mu,\sigma^2)$,则样本方差$S^2$的分布为:

$$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$$

 

两个样本方差之比的分布

设$X_1,X_2,\cdots,X_{n_1}$来自正态总体$N(\mu_1,\sigma_1^2)$,$Y_1,Y_2,\cdots,Y_{n_2}$来自正态总体$N(\mu_2,\sigma_2^2)$,且$X_i$与$Y_i$相互独立,则

$$\frac{S_x^2/\sigma_1^2}{S_y^2/\sigma_2^2} \sim F(n_1-1,n_2-1)$$

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM