總體統計量的估計方法


總體統計量的估計方法

1 點估計量法

可以用點估計量來估計總體的均值、方差或一定比例的精確值。但是無法可定估計完全正確,只是對總體做出假設。

1.1 通過樣本估算總體均值

符號定義:

  • $\mu$:總體均值。
  • $\hat{\mu}$:總體均值的點估計量,在總體均值未知時,其可作為總體均值的估計值。
  • $\bar{x}$:樣本均值,和總體均值的計算方法一樣。

如果想要十分近似的估計總體均值,可以用下列算式估算總體均值:$$\bar{x}=\frac{\sum{x}}{n}$$

即用樣本均值作為總體均值的點估計量:$$\hat{\mu}=\bar{x}$$

1.2 通過樣本估算總體方差

符號定義:

  • $\sigma^{2}$:總體方差。
  • $\hat{\sigma}^{2}$:總體方差的點估計量,在總體方差未知時,其可作為總體方差的估計值。
  • $s^{2}$:總體方差點估計量表示符號

一個數據集的方差度量的是數值與均值的偏離程度。當選擇一個樣本后,相比總體,樣本總的數值數量變少了,因此與總體中數值的偏離程度相比,樣本中的數值,可能更緊密的聚集在數值周圍。極端數值在樣本中出現的可能性下降,這是因為總的來說這樣的數值變少了了。所以用樣本方差來估計總體方差會出現這樣的問題:估計結果會稍微偏低,樣本方差可能會略小於總體方差,差別程度取決於樣本的大小。樣本較小時,樣本方差與總體方差的差別有可能更大。

如果樣本大小為$n$,可以用下列算式估算總體方差:$$s^{2}=\frac{\sum{(x-\bar{x})^{2}}}{n-1}$$

沒有用樣本方差而是用上述算式作為總體方差的點估計量:$$\hat{\sigma}^{2}=s^{2}$$

如果需要計算總體方差的真實值,需要使用如下算式:$$\sigma^{2}=\frac{\sum{(x-\mu})^{2}}{n}$$

1.3 通過樣本估算總體比例

符號定義:

  • $p$:總體成功比例。
  • $\hat{p}$:總體成功比例的點估計量。
  • $P_{s}$:樣本成功比例。

 對於符合二項分布的總體,用$X$表示總體成功事件的數量,參數為$n$和$p$。$n$為總體的人數,$p$為成功事件的比例。

就像總體均值最接近的估計值是樣本均值一樣,總體成功比例最接近的估計值是樣本成功比例。樣本比例算式如下:$$P_{s}=\frac{成功數目}{樣本數目}$$

即用樣本成功比例作為總體成功比例的點估計量:$$\hat{p}=P_{s}$$

1.4 比例的抽樣分布(通過總體計算樣本)

符號定義:

  • $p$:總體成功比例。
  • $P_{s}$:樣本成功比例。

一大盒包裝糖可供數人分享,每盒有100粒糖球,糖球總體中有25%是紅色的。現在要求一大盒特定糖球中有40顆或40顆以上紅色糖球的概率。總體參數已知,需要為某一盒糖球計算概率。也就是說計算的不是總體概率,而是樣本比例的概率。為此,需要得出樣本比例的概率分布:

  • 查看與特定樣本大小相同的所有樣本:如果樣本大小為n,則需要考慮所有大小為n的可能樣本。本例中,樣本單位為盒,樣本大小為100,即n為100。
  • 觀察所有樣本比例形成的分布,然后求出比例的期望和方差:每一個樣本都有自己的情況,因此每個包裝盒里紅色糖球的比例都有可能發生變化。
  • 得出比例分布后,利用分布求出概率:得知一個樣本中”成功比例“的分布后,就能夠利用這個分布求出一個隨機樣本的比例概率,這里的隨機樣本是一大盒糖球。

此例總,$p$總體成功比例代表總體中紅色糖球的比例,即$p=0.25$

每一盒糖球都是從總體中抽取的一個樣本。每盒有100個糖球,因此樣本大小$n$為100。如果用隨機變量$X$表示樣本中紅球的數量,則$X$服從二項分布,表示為$X\sim B(n,p)$,其中$n=100$$p=0.25$

樣本中紅色糖球的比例取決於$X$,樣本中紅色糖球的數目,即比例本身是一個隨機變量,可將其記為$P_{s}$,且$P_{s}=\frac{X}{n}$

可以取出大小為$n$的可能樣本為數眾多,每一個可能樣本包含$n$顆糖球,每個可能樣本中紅色糖球都服從同一分布,即$X\sim B(n,p)$,且樣本中紅色糖球的比例為$P_{s}=\frac{X}{n}$

利用所有可能的樣本,能得出所有樣本比例的 分布,該分布稱作比例的抽樣分布,或者稱作$P_{s}$的分布

利用比例的抽樣分布,能夠求出某一個隨機選擇的、大小為$n$的樣本的"成功比例"的概率(本例中即為,利用比例的抽樣分布,能夠求出某一大盒糖球中紅色糖球比例至少為40%的概率)。

在此之前,還需要知道$P_{s}$分布的期望和方差。

$P_{s}$分布的期望:$$E(P_{s})=E\left ( \frac{X}{n} \right )=\frac{E(X)}{n}$$

上式中$X$為樣本中紅色糖球的數量,其服從二項分布$X\sim B(n,p)$,所以上式的結果為:$$E(P_{s})=E\left ( \frac{X}{n} \right )=\frac{E(X)}{n}=\frac{np}{n}=p$$

可以期望樣本的成功比例和總體的成功比例一樣,上述結果也證明確實如此。

$P_{s}$分布的方差:$$Var(P_{s})=Var(\frac{X}{n})=\frac{Var(X)}{n^{2}}$$

上式中$X$為樣本中紅色糖球的數量,其服從二項分布$X\sim B(n,p)$,所以上式的結果為:$$Var(P_{s})=Var(\frac{X}{n})=\frac{Var(X)}{n^{2}}=\frac{npq}{n^{2}}=\frac{pq}{n}$$

取方差的平方根,可得$P_{s}$的標准差,它指出樣本比例與$p$(樣本比例均值)的可能差距。有時稱作比例標准誤差,因為它能指出樣本比例的可能誤差。$$比例標准誤差=\sqrt{\frac{pq}{n}}$$

在求得$P_{s}$的期望和方差后,發現當$n$足夠大(大於30)時,$P_{s}$的分布越接近正太分布,可表示為:$$P_{s}\sim N(p,\frac{pq}{n})$$

由於當$n>30$時,$P_{s}$接近正太分布,可以用正太分布來解答“某一大盒糖球中紅色糖球比例至少為40%的概率”。最后需要對抽樣分布進行連續性修正。

1.5 均值的抽樣分布(通過總體計算樣本)

符號定義:

  • $\mu$:總體均值。
  • $\sigma^{2}$:總體方差。
  • $X$:一個包裝袋中糖球的數量。
  • $\bar{X}$$n$袋糖球的容量均值。

經過統計,每一袋小包裝袋中糖球數目的均值為10,方差為1。現遭到顧客投訴:買了30袋糖球,結果發現每袋糖球中糖球的平均數目只有8.5。那么,這種事情發生的概率為多大。已知總體的均值和方差,然后抽取幾袋糖球作為樣本,需要計算樣本均值的概率。為此,需要得出樣本均值的概率分布:

  • 查看與所研究樣本大小相同的所有可能樣本:如果樣本大小為$n$則需要考慮所有大小為為$n$的樣本。此例中小包裝糖球有30袋,因此樣本大小$n=30$
  • 查看所有樣本的分布,求出樣本均值的期望和方差:每一個樣本都有各自的特點,每個包裝袋中的糖球數目都有變化。
  • 得知樣本均值的概率分布后,利用該分布求出概率:只要知道所有可能樣本的樣本均值的概率分布,就能利用該分布求得一個隨機樣本的樣本均值的概率。此例中,隨機樣本為小袋包裝糖球。

隨機選出的每一袋糖球都是$X$獨立觀察結果。因此,每一袋糖球都服從同一分布,即如果用$X_{i}$代表隨機抽取一袋糖球中糖球的數量,則每個$X_{i}$的期望都是$\mu$,方差都是$\sigma^{2}$

現在取$n$包糖球作為樣本,用$X_{1}$$X_{n}$標記每袋糖球的數量,每個$X_{i}$都是$X$的獨立觀察結果,且服從上述分布。

$\bar{X}$表示$n$袋糖球的容量均值,$\bar{X}$的公式:$$\bar{X}=\frac{X_{1}+X_{2}+\cdot \cdot \cdot +X_{n}}{n}$$

可以取出大小為$n$的所有可能樣本。每一個樣本都包含$n$袋糖球,即每一個樣本都包含$X$$n$個獨立觀察結果。每個隨機選擇的包裝中的糖球數量都服從相同的正太分布。可以用同樣的方法計算每個樣本的糖球數量均值。

從所有可能的樣本得出的樣本均值形成一個分布,稱作均值的抽樣分布,或稱作$\bar{X}$的分布

均值的抽樣分布提供了一種計算樣本均值概率的方法(本例中,即為在一個30袋糖球的樣本中,求糖球數目均值小於或等於8.5的概率)。

在次之前,需要知道$\bar{X}$分布的期望和方差。

$\bar{X}$分布的期望$$E(\bar{X})=E(\frac{X_{1}+X_{2}+\cdot \cdot \cdot +X_{n}}{n})=E\left ( \frac{X_{1}}{n} \right )+E\left ( \frac{X_{2}}{n} \right )+\cdot \cdot \cdot +E\left ( \frac{X_{n}}{n} \right )=\frac{E(X_{1})+E(X_{2})\cdot \cdot \cdot +E(X_{n})}{n}$$

上式中$X_{i}$服從同一分布,且期望為$\mu$,方差為$\sigma^{2}$。所以上式結果為:$$E(\bar{X})=\frac{\mu+\mu+\cdot \cdot \cdot +\mu}{n}=\frac{n\mu}{n}=\mu$$

$\bar{X}$分布的方差$$Var(\bar{X})=Var(\frac{X_{1}+X_{2}+\cdot \cdot \cdot +X_{n}}{n})=Var\left ( \frac{X_{1}}{n} \right )+Var\left ( \frac{X_{2}}{n} \right )+\cdot \cdot \cdot +Var\left ( \frac{X_{n}}{n} \right )=\frac{Var(X_{1})+Var(X_{2})+\cdot \cdot \cdot +Var(X_{n})}{n^{2}}$$

上式中$X_{i}$服從同一分布,且期望為$\mu$,方差為$\sigma^{2}$。所以上式結果為:$$Var(\bar{X})=\frac{\sigma^{2}+\sigma^{2}+\cdot \cdot \cdot +\sigma^{2}}{n^{2}}=\frac{n\sigma^{2}}{n^{2}}=\frac{\sigma^{2}}{n}$$

取方差的平方根,可得$\bar{X}$的標准差,其指出樣本均值與$\mu$可能偏離的距離,因此也稱作均值標准誤差$$=\sqrt{\frac{\sigma^{2}}{n}}=\frac{\sigma}{\sqrt{n}}$$

$n$越大,均值標准誤差越小。也就是說,樣本中的個體越多,作為總體均值估計量的樣本均值越可靠。

在求得$\bar{X}$的期望和方差后,還需要知道$\bar{X}$是如何分布的:

  • $X$符合正太分布時,即若$X\sim N(\mu,\sigma^{2})$,那么$\bar{X}\sim N(\mu,\frac{\sigma^{2}}{n})$
  • $X$不符合正太分布時,若$n$足夠大(大於30)時,那么$\bar{X}\sim N(\mu,\frac{\sigma^{2}}{n})$

上述第二條結論的依據是中心極限定理:如果從一個非正太總體$X$中取出一個樣本,若樣本足夠大(大於30),則樣本均值$\bar{X}$的分布近似正太分布。

最后此例中求$P(\bar{X}<8.5)$的概率,使用上述$\bar{X}$的概率分布即可。

2 置信區間的構建

點估計量可以估計總體的均值、方差或一定比例的精確值。但無法保證估計完全正確。因為僅依靠一個樣本對總體做出估計,若樣本出現問題,這個估計就會不准確。而置信區間是一種考慮了不確定性的總體統計量的估計方法,用一個區間而不是一個精確值來估計總體統計量。

2.1 認識置信區間

曼帝糖果公司用一個包含100粒糖球的樣本得出口味持續時間均值的點估計量為62.7分鍾,同時總體方差的點估計量為25分鍾。首席執行官在電視節目的黃金時段宣布:糖球口味的平均持續時間為62.7分鍾。這是根據手頭證據可能得出的最可靠的口味持續時間估計值。可要略有差池,該怎么辦?

以上是由精度引起的問題,點估計量很可能接近總體均值,問題是多接近才是夠接近?與其用一個精確值作為總體均值的估計值,不如使用另一種方法。可以指定某一區間而不是一個十分精確的時間,作為糖球口味持續時間的估計。例如,可以說糖球口味的持續時間為55至65分鍾,這仍會讓聽着覺得糖球口味的持續時間接近1小時,卻保留更大的誤差空間。那么,如果為總體均值指定一個區間,而不是一個精確的數值,我們期望糖球口味持續時間的均值介於這個區間內。讓均值的點估計量處於這個區間($(a,b)$)的中央,並將這個區間的上下限設定為均值點估計量加上或減去某個誤差

選擇區間上下限是為了讓總體均值介於$a$和$b$之間這一結果具有特定概率。例如,希望通過選擇$a$$b$,使得該區間包含總體均值的概率為95%。也就是說選擇的$a$$b$使得:$$P(a<\mu<b)=0.95$$

用$(a,b)$表示這個區間,由於$a$和$b$的數值取決於自己對該區間包含總體均值這一結果具有的可信程度(置信度或置信水平),因此,$(a,b)$被稱為置信區間

2.2 求解置信區間

  • 選擇總體統計量:用於構建置信區間的總體統計量。
  • 求出其抽樣分布:比例抽樣分布或均值抽樣分布等。
  • 決定置信水平:置信區間包含該統計量的概率。
  • 求出置信上下限:為了求出上下限,需要知道抽樣分布和置信水平。

求出糖果口味持續時間的置信區間。

2.2.1 選擇總體統計量

在此例中需要為糖球口味持續時間構建一個置信區間,也就是為總體均值$\mu$構建一個置信區間。

2.2.2 求出所選統計量的抽樣分布

為了求出總體均值的抽樣分布,需要知道均值的抽樣分布($\bar{X}$分布)的期望和方差 。根據點估計量法可知:$$E(\bar{X})=\mu$$ $$Var(\bar{X})=\frac{\sigma^{2}}{n}$$

為了利用上述結果求出$\mu$的置信區間,帶入總體方差數值$\sigma^{2}$和樣本大小$n$。但是,現在只知道樣本的均值為100,樣本方差為25,並不知道總體的方差。所以用樣本的方差進行估算。於是均值的抽樣分布的期望和方差為:$$E(\bar{X})=\mu$$  $$Var(\bar{X})=\frac{\sigma^{2}}{n}=\frac{\hat{\sigma}^{2}}{n}=\frac{s^{2}}{n}$$

糖果公司用包含100顆糖球的樣本計算估計值,得到$s^{2}=25$,於是:$$Var(\bar{X})=\frac{s^{2}}{n}=\frac{25}{100}=0.25$$

為了求出$\mu$的置信區間,還需要知道$\bar{X}$的分布。

假定$X\sim N(\mu,\sigma^{2})$,且樣本數量包含很大,那么$$\bar{X}\sim N(\mu,\frac{\sigma^{2}}{n})$$

$$\bar{X}\sim N(\mu,0.25)$$

2.2.3 決定置信水平

置信水平表明對於置信區間包含總體統計量這一結果由多大把握。例如,希望總體均值的置信水平為95%,表示總體均值處於置信區間的概率為95%。常用的置信水平為95%。

Tips:置信水平越高,置信區間越寬,置信區間包含總體統計量的概率越大

2.2.4 求出置信上下限

最后一步求出$a$$b$,即置信上下限。其值確切取決於需要使用的抽樣分布以及需要的置信水平。

此例,讓糖球口味持續時間具有95%的置信水平。即$\mu$位於區間$(a,b)$的概率為95%。則可利用$\bar{X}\sim N(\mu,0.25)$分布求出$a$$b$,例如$P(\bar{X}<a)=0.025$$P(\bar{X}>b)=0.025$

$\bar{X}$進行標准化:$$Z=\frac{\bar{X}-\mu}{\sqrt{0.25}}$$

其中:$$Z\sim N(0,1)$$

標准化后,轉為求$P(z_{a}<Z<z_{b})=0.95$,查詢標准正太分布表得知,$z_{a}=-1.96$$z_{b}=1.96$,即:$$P\left ( -1.96<\frac{\bar{X}-\mu}{0.5}<1.96 \right )=0.95$$

$\mu$改寫不等式,即得到其置信區間:$$P(\bar{X}-0.98<\mu<\bar{X}+0.98)=0.95$$

$\bar{X}$指樣本均值的分布,於是采用糖果公司樣本的$\bar{x}$值(62.7),計算出置信區間為$(61.72,63.68)$。

2.3 置信區間的簡便算法

只需要查看要求的總體統計量、總體分布以及各種條件,然后帶入總體統計量或其估計量,就行了。數值$c$取決於置信水平。

  • 總體統計量$\mu$;總體呈正太分布;$\sigma^{2}$已知、$n$可大可小、$\bar{X}$為樣本均值;則置信區間為:$\left ( \bar{X}-\frac{c\sigma}{\sqrt{n}}, \bar{X}+\frac{c\sigma}{\sqrt{n}}\right )$
  • 總體統計量$\mu$;總體呈非正太分布;$\sigma^{2}$已知、$n$很大(至少30)、$\bar{X}$為樣本均值;則置信區間為:$\left ( \bar{X}-\frac{c\sigma}{\sqrt{n}}, \bar{X}+\frac{c\sigma}{\sqrt{n}}\right )$
  • 總體統計量$\mu$;總體呈正太或非正態;;$\sigma^{2}$未知、$n$很大(至少30)、$\bar{X}$為樣本均值、$s^{2}$為樣本方差;則置信區間為:$\left ( \bar{X}-\frac{cs}{\sqrt{n}}, \bar{X}+\frac{cs}{\sqrt{n}}\right )$
  • 總體統計量為$p$;總體呈二項分布;$n$很大、$p_{s}$為樣本比例、$q_{s}=1-p_{s}$;則置信區間為:$\left ( p_{s}-c\sqrt{\frac{p_{s}q_{s}}{n}},p_{s}+c\sqrt{\frac{p_{s}q_{s}}{n}} \right )$
  • 總體統計量為$\mu$;總體呈正太或非正太;$\sigma^{2}$未知、$n$很小(小於30)、$\bar{X}$為樣本均值、$s^{2}$為樣本方差;則置信區間為:$\left ( \bar{X}-\frac{t(v)s}{\sqrt{n}},\bar{X}+\frac{t(v)s}{\sqrt{n}} \right )$

Tips:$t(v)$是自由度為$v=n-1$的$t$分布。

 $c$值的確定方法:

  • 置信水平90%,則$c=1.64$
  • 置信水平95%,則$c=1.96$
  • 置信水平99%,則$c=2.58$  

一般情況下,置信區間的計算式為:$$統計量\pm(誤差范圍)$$

誤差范圍等於$c$與檢驗統計量標注查的乘積:$$誤差范圍=c\times(統計量的標准差)$$


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM