一、基本概念
假設檢驗和參數估計解決的是不同的問題,參數估計是對參數$\theta$作出一個估計比如均值為$\mu$,而假設檢驗則是對估計的檢驗,比如均值真的是$\mu$嘛?
1. 定義
假設檢驗指的是使用統計學的方法判定某假設為真的概率. 通常假設檢驗包含以下四個步驟:
1.1 形成零假設null hypothesis $H_0$和備擇假設alternative hypothesis$H_a$
1.2 確定可以用來判斷零假設真假的檢驗統計參數(test statistic)
1.3 計算P-value,P-value代表着null hypothesis為真的概率,P值越小,零假設為真可能性越小,備擇假設為真的可能性越大.
1.4 將P-value和接受閾值比較,如果$p<\alpha$ 則具有統計顯著性,零假設被排除,則備假設為真.
注:零假設也常稱原假設,備擇假設(拋棄原假設之后可以選擇的假設)也常稱原假設
2. 檢驗統計量,接受域,否定域,臨界域,臨界值
3.功效函數
假設總體分布包含若干個未知參數$\theta_1,...,\theta_k.H_0$是關於這些參數的一個原假設,設有了樣本$X_1,...X_n$,而$\phi$是基於這些樣本對$H_0$作的檢驗則$\phi$功效函數為
$\beta_\phi(\theta_1,...\theta_k) = P\theta_1,...,\theta_k(在檢驗\phi之下,H_0被否定)$
4. 兩類錯誤、檢驗的水平
5. 一致最優檢驗
它是未知參數$\theta_1,...,\theta_k$的函數,當某一特定參數值使得$H_0$成立我們希望功效函數盡量小,當都已特定參數值使得備擇假設$H_1$成立我們希望功效函數盡量大(否定零假設)
4. 兩類錯誤
第一類錯誤:H_0正確,被否定;第二類錯誤H_1錯誤,被接受
若$\theta_1,...\theta_k$ 記為總體分布的參數, $\beta_\phi(\theta_1,...\theta_k)記檢驗\phi$的功效函數,則犯第一類,第二列錯誤的概率為
舉例:
假設我們投擲一個四面體的骰子(1,2,3,4)1000次,290次觀察到4. 接下來我們判定這個結果是否是有偏的biased(骰子是否公正).
1. 此問題中如果骰子沒有任何問題: 我們的null hypothesis為$H_0:p = 0.25$
2. 為了證明$H_0$真假,我們接下來要收集evidence來支持或者否定null hypothesis.在此次實驗中我們收集到的evidence為$\hat{p} = \frac{y}{n} = 0.29$.
3. 這一步使用我們evidence來決定是否應該支持/否定(或者說以多大的概率)1中的$H_0$
根據中心極限定理樣本比例:$\hat{p} = \frac{Y}{n}$近似為均值$\mu = 0.25$, 標准差$\sigma = \sqrt{\frac{p_0(1-p_0)}{n}} = 0.01369$
那么:
$$Z = \frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} = 2.92$$
Z服從$N(0,1)$的正態分布
至此我們可以通過正態分布判斷接受$\hat{p} = 0.29$為unbiased的結果的錯誤概率有多大。
有兩種方式可以做出決策,一種是臨界值(critical value)法, 一種是p-value法.
臨界值法:
臨界值法是確定一個判決閾值,如果我們的統計參數在這個閾值之下則認定null hypothesis為假,alternative hypothesis為真.
根據正態分布表$Z服從N(0,1)分布$則,Z>1.654時 我們以0.05的錯誤概率reject null hypothesis, 以0.95的正確概率in favor of alternative hypothesis.
我們前面的檢驗值Z = 2.92>1.654因此我們拒絕null hypothesis
P-value法:
前面我們提到了兩種錯誤類型:$H_0正確被否定,H_1錯誤被接受$,這里記第一種前者為Type I error,后者為Type II error.每次我們在做判斷的時候都不可能百分百做出正確的決策. 臨界法當中我們設置Z >1.654的時候,實際上我們使得P(Type I error)<0.05. 通常我們定義$\alpha = P(Type I error)為“significance level of the test”檢驗的顯著性水平.
而P-value實際上是我們則檢驗的時候得到的參數值(這里是Z = 2.92)對應的檢驗統計性水平(這里我們可以看出P-value法和critical value法是一個問題的兩面,兩種方法固定的閾值不同).通常我們定義P-value為reject假設集的最小統計顯著性水平.
二、重要參數檢驗
1. 正態總體均值檢驗
1.1. 方差$\sigma^2$已知
1.2. 方差$\sigma^2$未知