一、點估計量
點估計量是通過最具代表性的樣本,對總體參數給出的最佳估計。點估計量是有價值的,但總會存在誤差。
二、置信區間
讓總體參數介於a和b之間,使得該區間包含總體參數的概率為p。即:P(a<參數<b) = p
我們用(a,b)表示這個區間,(a,b)稱為置信區間,p稱為置信水平。
那么如何求總體參數的置信區間呢?
三、求解置信區間的四步驟
- 選擇總體統計量(用於構建置信區間)
- 求出其抽樣分布
- 決定置信水平
- 求出置信區間上下限
step 1 選擇總體統計量
選擇用於構建置信區間的統計量,取決於要解決的實際問題,通常是總體均值和比例。
實例:某公司需要為口香糖口味持續時間的均值構建置信區間,於是需要為總體均值𝓊構建置信區間,已知n=100, =25,
= 62.7。
step 2 求的所選統計量的抽樣分布
需要知道所選統計量的抽樣分布,期望方差及分布情況,代入除所選統計量外已知參數。
實例:樣本均值抽樣分布 E() = 𝓊 Var(
) =
/n,為求出𝓊的置信區間,代入總體方差數值
和樣本大小n,然后利用
的分布求出置信區間。
若不知道總體方差,可通過點估計量估計,
=
。最后需要明確
分布情況,這里假定X~N(𝓊,
),那么
也符合正態分布。
step 3 決定置信水平
置信水平越高,區間越寬,置信區間包含總體統計量的幾率越大,但把置信區間弄得太寬的問題會導致置信區間失去意義。
實例:選取置信水平為95%。
step 4 求出置信區間上下限
由於符合正態分布,所以我們可以利用正態分布求置信區間,算出標准分,查詢標准正態分布概率表,得出結果。
實例:已知~N(𝓊,0.25)
則 ,其中Z~N(0,1) 。然后需要利用標准正態分布表求出Za和Zb,其中P(Z<Za) = 0.025且P(Z>Zb) = 0.0255,Za = -1.96,Zb = 1.96。
所以,-1.96<(-𝓊)/0.5<1.96,
-0.98<𝓊<
+0.98,
取
= 62.7,置信區間為(61.72,63.68)。
結論:(61.72,63.68)中包含口味持續時間總體均值的幾率為95%。
四、置信區間簡便算法
總體統計量 | 總體分布 | 已知條件 | 置信區間 |
𝓊(總體均值) | 正態 |
n可大可小
|
(![]() ![]() |
𝓊 | 非正態 |
n很大(至少30)
|
(![]() ![]() |
𝓊 | 正態或非正態 |
n很大(至少30)
|
(![]() ![]() |
p(總體比例) | 二項 | n很大 Ps為樣本比例 qs= 1 - Ps |
(![]() ![]() |
置信區間:統計量+-(誤差范圍)。誤差范圍 = c * (統計量標准差)。c值通過置信水平得到,當置信水平為95%時,c = 1.96。
五、 t分布
上述情況中,樣本統計量(均值和比例)服從正態分布,但並非任何情況都能用正態分布。
當總體X符合正態分布時,一定符合正態分布嗎?
答案是不一定,當總體分布為正態分布,但樣本量小且未知時,
不符合正態分布。實際上,在此情況下,
符合t分布。
t分布外形與正態分布相似,T~t(v) 則T符合t分布且自由度為v,v = n-1,n為樣本大小。
t分布使用方法與正態分布相似,計算標准分,先減去均值然后除以標准差。
t分布的標准分: ,其中
=
。
t分布置信區間:(,
),其中t通過置信水平和t分布表確定。
對於總體均值估計,樣本n很大時,樣本均值分布服從正態分布。
當n不大時,若總體服從正態分布且總體方差已知,樣本均值分布服從正態分布。
當n不大時,若總體服從正態分布且總體方差未知,樣本均值分布服從t分布。
2020.05.14 15:20