數理統計17:正態總體參數假設檢驗


現在,我們對正態分布的參數假設檢驗進行討論,這也是本系列的最后一部分內容。由於本系列為我獨自完成的,缺少審閱,如果有任何錯誤,歡迎在評論區中指出,謝謝

Part 1:基本步驟

正態總體\(N(\mu,\sigma^2)\)參數的假設檢驗不外乎遵循以下的步驟:

  1. 找到合適的統計量,用統計量的取值范圍設計拒絕域。
  2. 假定原假設為真,考慮這個條件下統計量的分布。
  3. 根據統計量的分布,根據檢驗的水平要求設置拒絕域的邊界值。

設計檢驗的核心在於假定原假設為真,這是因為檢驗的水平是基於棄真概率定義的,也就是說,要在第三步中寫出檢驗的水平,就必須在\(H_0\)成立的情況下找出小概率事件的發生條件。

比如,對於均值的檢驗一共有三種:

\[1.\quad H_0:\mu=\mu_0\leftrightarrow H_1:\mu\ne \mu_0; \\ 2.\quad H_0:\mu\ge \mu_0\leftrightarrow H_1:\mu<\mu_0; \\ 3.\quad H_0:\mu\le \mu_0\leftrightarrow H_1:\mu>\mu_0. \]

每一種又可以細分為方差\(\sigma^2\)已知和方差\(\sigma^2\)未知兩種情況,但顯然不論方差是否已知,最核心的統計量都應該是\(\bar X\),如果方差未知可能還要用到方差的替代:\(S^2\)。以下,對於這三種問題,拒絕域分別應該是這樣的:

  1. 如果\(H_0\)被接受,則\(\bar X\)既不應該太大,也不應該太小,拒絕域的基礎形式應該是

    \[\{\bar X>c_1 \}\cup\{\bar X<c_2 \}. \]

  2. 如果\(H_0\)被接受,則\(\bar X\)不應該太小,無論多大都可以,拒絕域的基礎形式應該是

    \[\{\bar X<c \}. \]

  3. 如果\(H_0\)被接受,則\(\bar X\)不應該太大,無論多小都可以,拒絕域的基礎形式應該是

    \[\{\bar X>c \}. \]

當然,這只是拒絕域的基礎形式,實際情況下可能不止使用\(\bar X\),但基本思想應該是這樣的。對於方差的檢驗,則將檢驗統計量換成了\(S^2\),或者均值已知情況下的離差平方和\(Q^2\),步驟也和上面的差不多。

現在我們正式提出檢驗的p值的概念。根據拒絕域,我們只能得出接受假設、拒絕假設的二元結論,但沒法給出一個接受假設的力度,是很有自信地接受假設還是勉強能夠接受假設。檢驗的p值就可以解決這個問題,它表示在原假設成立的條件下,統計量還能比當前觀測更極端的概率,是介於\([0,1]\)的數

如果某個檢驗的p值很小,說明如果原假設成立,則當前觀測值出現的概率已經很小(很難出現比這更離譜的觀測值了),因而就更應該拒絕原假設。一個重要結論:如果檢驗的p值小於設定的水平,則拒絕原假設

光靠着這個概念理解p值可能有難度,在下面我們將結合例子解釋p值到底是什么。

接下來,我們先對單參數正態總體進行假設檢驗,並且在實踐中給出一個實用的概念——檢驗的p值。在之前的文章中,我們說過給定置信水平的置信區間與給定水平的假設檢驗是共通的,因此在接下來的程序編寫中,我們將既給出假設檢驗,也給出區間估計。

Part 2:正態分布假設檢驗

先考慮均值的假設檢驗問題。對於雙邊檢驗\(H_0:\mu=\mu_0\),核心統計量\(\bar X\)

\[\bar X\sim N(\mu,\sigma^2/n)\Rightarrow \bar X\stackrel{H_0}\sim N(\mu_0,\sigma^2/n). \]

這里要區分\(\sigma^2\)已知和未知兩種情況,因為這直接關系到\(\bar X\)的分布已知或未知。\(\sigma^2\)已知時顯然是更簡單的,由於我們已知了\(\bar X\)\(H_0\)下的分布,自然也可以將\(\bar X\)標准化為

\[U=\frac{\sqrt{n}(\bar X-\mu_0)}{\sigma}\stackrel{H_0}\sim N(0,1), \]

\(H_0\)成立的情況下\(|U|\)不應該過大,所以拒絕域的形式可改為\(\{|U|>c\}\),結合其棄真概率與檢驗水平,有

\[\mathbb{P}\left(-c<U<c\bigg|H_0 \right)=1-\alpha, \]

所以\(c=u_{\alpha/2}\),即拒絕域是

\[D=\left\{-u_{\alpha/2}<\frac{\sqrt{n}(\bar X-\mu_0)}{\sigma}<u_{\alpha/2} \right\}. \]

在這個問題中,如果我們實際觀測得到的\(U\)值是\(u_0\),則該檢驗的p值就是\(\mathbb{P}(|U|>|u_0|| H_0)\),因為原假設成立的情況下\(U\)應該是越小越好的,所以\(U>u_0\)指的就是比當前觀測更極端這一事件。並且因為\(H_0\)成立的情況下,\(U\)服從標准正態分布,所以結合標准正態分布表這個p值是容易計算的。

接下來是\(\sigma^2\)未知的情況,雖然\(\bar X\)的分布未知,但我們一樣可以對其進行標准化,即構造

\[T=\frac{\sqrt{n}(\bar X-\mu)}{S}\stackrel{H_0}\sim t(n-1). \]

同樣在\(H_0\)成立的情況下\(|T|\)不應該過大,所以檢驗的拒絕域形式是\(\{|T|>t_{\alpha/2}(n-1)\}\),如果\(T\)的觀測值是\(t_0\),則檢驗的p值是\(\mathbb{P}(|T|>|t_0||H_0)\)

對於單邊檢驗,無非是更改拒絕域和邊界值,將\(\alpha/2\)分位數改成\(\alpha\)分位數,p值的計算方式也相應變化,標准化的過程是一致的,這里就不詳細展開了。

現在考慮方差的假設檢驗問題,同樣只考慮雙邊檢驗(因為單邊檢驗的過程類似),並考慮均值已知或未知。當均值已知時,有

\[\chi^2=\frac{1}{\sigma_0^2}\sum_{j=1}^n(X_j-\mu)^2\stackrel{H_0}\sim \chi^2(n), \]

\(H_0\)成立的情況下\(\chi^2\)不應該太大也不應該太小,但是由於\(\chi^2\)分布不對稱,所以其拒絕域是\(\{\chi^2<\chi^2_{1-\alpha/2}(n)\}\cup \{\chi^2>\chi^2_{\alpha/2}(n)\}\),這些都沒有問題。不過這種情況檢驗的p值稍微復雜一些,可以這么思考:不論\(\chi^2\)的觀測值\(\chi^2_0\)是多少,在\(\chi^2(n)\)分布的密度函數上都有另外一個與之對稱的點,所以p值實際是這兩個點以外的概率總和。

如果均值未知,則直接使用\(S^2\),就有

\[\chi^2\xlongequal{def}\frac{(n-1)S^2}{\sigma_0^2}\stackrel{H_0}\sim \chi^2(n-1), \]

類似地可以計算拒絕域和p值。

事實上,由於區間估計與假設檢驗的一致性,在我們討論過正態總體參數區間估計之后,這些假設檢驗都可以直接由區間估計推導出來。對於雙正態總體的相關假設檢驗,也不外乎均值差和方差比,具體參見此鏈接即可。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM