【數理統計基礎】 02 - 統計量和三大分布


1. 樣本和統計量

1.1 樣本和統計量

  數理統計討論的問題不一定都是隨機現象,比如人口信息的統計、具體數據的測量,它們的結果都是確定的。但實際問題的操作並不是數學所關心的,剝離問題的外殼,這些問題都可以用隨機現象來描述,比如人口信息和測量誤差都可以用一個正態分布來近似。建立統計的概率模型,正是數理統計區別於廣義統計學的關鍵,為模型定義統一、明確的對象也是任何數學分支的起點。

  既然這樣,數理統計的研究對象其實還是隨機變量,具體問題中所有可能的取值被稱為全體,而每一個值稱為個體。不同於概率論中研究分布的性質,統計中的分布信息往往是未知的,這樣的隨機變量習慣寫作\(X\)。為了得到\(X\)的更多信息,需要采集它的觀察值\(X_1,X_2,\cdots,X_n\),它們稱為樣本。一般假定\(X_i\)是與\(X\)同分布的獨立隨機變量,具體樣本值則記作\(x_i\)。

  統計問題中的主要信息就是樣本值\(X_i\),能對它進行的處理只有函數計算\(f(X_1,\cdots,X_n)\),這些函數值被稱為樣本統計量。統計量不能任意選取,它需要根據實際需要並一般有直觀意義。比如最常用的統計量是式(1)中的樣本均值\(\bar{X}\)和樣本方差\(S^2\),它們一般作為分布的均值和方差的估計值。

\[\bar{X}=\frac{1}{n}\sum\limits_{i=1}^nX_i;\;\;S^2=\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\bar{X})^2\tag{1}\]

  既然樣本是隨機變量,統計量自然也是隨機變量。如果\(X\)的期望和方差是\((\mu,\sigma^2)\),則易知\(\bar{X}\)是有期望\(\mu\)和方差\(\dfrac{\sigma^2}{n}\)的隨機變量。不難算得,\(S^2\)的期望值正好是\(\sigma^2\),所有系數取\(\frac{1}{n-1}\)是合理的,\(S^2\)的完整稱謂是“修正的樣本方差”。我們暫時可以這樣“直覺”地解釋這個現象:均值\(\bar{X}\)是由\(X_i\)生成的,它會隨着\(X_i\)的變動而變動,這就導致真正自由、有效的變量減少了一個。下面馬上會回來重新討論這個問題。

  更一般的,比較重要的統計量還有樣本原點矩樣本中心距(式(2)),要注意\(k>1\)時,樣本中心距都需要修正,只不過在\(n\)很大時可以近似地使用。其中一階原點矩便是樣本均值,二階中心距便是未修正的樣本方差,其它的統計量使用頻率不高。

\[a_k=\frac{1}{n}\sum\limits_{i=1}^nX_i^k;\;\;m_k=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\bar{X})^k\tag{2}\]

  研究統計量是為了獲取分布的信息,我們有一個很朴素的想法:當樣本數足夠多后,應當能繪制出分布函數\(F(x)\)的圖形。根據分布函數的定義特點,可以定義這樣一個統計量\(v_n(x)\):它表示滿足\(X_i\leqslant x\)的樣本數,並記\(F_n(x)=\dfrac{v_n(x)}{n}\),它稱為經驗分布函數。對於指定的\(x\),\(F_n(x)\)是隨機變量,當把\(x\)也看作變量時,我們只好叫\(F_n(x)\)“隨機函數”。不過不用擔心概念會變復雜,因為\(|F_n(x)-F(x)|\)的最大值才是我們要關心的,而它是一個隨機變量。數理統計中有著名的格里文科定理(式(3)),它說明\(F_n(x)\)以概率\(1\)收斂於\(F(x)\)。

\[P\left\{\lim_{n\to\infty}\sup_{x\in\mathbb{R}}\left|F_n(x)-F(x)\right|=0\right\}=1\tag{3}\]

1.2 統計量的自由度

  在概率論中我們熟知一個結論:如果\(X_1,\cdots,X_n\)互相不相關,則\(Y=X_1+\cdots+X_n\)的期望、方差可以簡單地展開。\(n\)個\(X_i\)對\(Y\)的影響互不相關,這樣的統計量十分易於討論,我們暫且稱它的自由度是\(n\)。下面就來研究一下樣本方差的自由度為什么是\(n-1\)而不是\(n\),不過在此之前,需要先討論一下隨機變量正交變換的性質。

  對互不相關的隨機變量\(X_i\),設對它們做正交線性變換后得到\(Y_i\),則首先容易得到式(4)。然后分別展開\(E(Y_iY_j)\)和\(E(Y_i)E(Y_j)\),根據正交性,以及\(X_i\)獨立同分布,容易有式(5)成立,所以\(Y_i\)互不相關。這個結論對任何隨機變量都成立,且也符合正交變換的一貫性質。

\[(X_1,\cdots,X_n)=(Y_1,\cdots,Y_n)A;\,AA^T=I\;\Rightarrow\;\sum_{i=1}^nX_i^2=\sum_{i=1}^nY_i^2\tag{4}\]

\[E(Y_iY_j)-E(Y_i)E(Y_j)=\sum_{k=1}^na_{ki}a_{kj}(E(X_k^2)-E^2(X_k))=0\tag{5}\]

  特別地,式(6)左的\(Y_1\)可以擴展為一個正交變換,利用式(4)便可得到式(6)右的結論。這不僅說明了\(S^2\)的自由度為\(n-1\),還可以知道\(\bar{X}\)和\(S^2\)是不相關的,這個結論非常重要。

\[Y_1=\sqrt{n}\bar{X}\;\Rightarrow\;\sum_{i=1}^n(X_i-\bar{X})^2=\sum_{i=1}^nX_i^2-Y_1^2=\sum_{i=2}^nY_i^2\tag{6}\]

  對於滿足再生性的隨機變量,\(Y_i\)和\(X_i\)具有相同的分布類型,且可知滿足式(6)的\(Y_1\)有期望\(\sqrt{n}\mu\)和方差\(\sigma^2\),而其它\(Y_i\)有期望\(0\)和方差\(\sigma^2\)。特別地,當\(X_i\)是正態分布時,可以有式(7)成立,且\(\bar{X}\)與\(S^2\)相互獨立。對\(\bar{X}\)的結論,一般寫作式(8),右邊是一個確定的分布(后面會用到)。

\[X_i\sim N(\mu,\sigma^2)\;\Rightarrow\;Y_1\sim N(\sqrt{n}\mu,\sigma^2);\; Y_i\sim N(0,\sigma^2)\tag{7}\]

\[\dfrac{\sqrt{n}(\bar{X}-\mu)}{\sigma}\sim N(0,1)\tag{8}\]

  更一般地,對於自由度為\(n\)的隨機變量\(Q=X_1^2+\cdots+X_n^2\),其中\(X_i\)互不相關。現在把\(Q\)看成\(X_i\)的正定二次型,並記行向量\(\vec{X}=[X_1,\cdots,X_n]\)。假設\(Q\)可以分解為\(r\)個半正定二次型之和(式(9)左),且\(Q_k\)的秩\(n_k\)滿足\(n_1+\cdots+n_r=n\)。由\(A_k\)的秩為\(n_k\)且半正定可知,存在\(n\times n_k\)的矩陣\(B_k\),使得\(Q_k=\vec{X}B_kB_k^T\vec{X}^T\)。

\[Q=Q_1+\cdots+Q_r=\vec{X}BB^T\vec{X}^T=\vec{Y}\vec{Y}^T\tag{9}\]

  令方陣\(B=[B_1,\cdots,B_r]\)和\(\vec{Y}=\vec{X}B\),則有\(Q=\vec{Y}\vec{Y}^T\)(式(9)右),從而\(BB^T=I_n\),\(B\)是一個正交矩陣。因為\(Y_j\)是由\(X_i\)正交變換而來,故根據式(5)知\(Y_j\)互不相關,繼而\(Q_k\)之間是互不相關的。值得提醒的是,當\(Q\)也是一般的半正定二次型時,結論仍然成立,這個條件使用起來會更方便,請自行論證。

  現在利用這個結論再討論\(S^2\)的自由度,首先顯然有式(10)成立,其中的每一項都是關於\(X_i\)的半正定二次型。當半正定二次型具有形式\(\sum\limits_{i=1}^nZ_i^2\),且\(Z_i\)還有\(r\)個線性約束條件時,它本質上是關於\(n-r\)個自由變量的正定二次型,從而秩為\(n-r\)。這個小結論在判定二次型秩時很有用,比如\(S^2\)中設\(Z_i=X_i-\bar{X}\),則有\(1\)個限制條件\(Z_1+\cdots+Z_n=0\),從而\(S^2\)的秩為\(n-1\)。另外顯然式(10)左的秩為\(n\),\(\bar{X}\)的秩為\(1\),滿足以上定理的條件,故有\(S^2,\bar{X}\)不相關。

\[\sum_{i=1}^nX_i^2=n\bar{X}^2+(n-1)S^2\tag{10}\]

2. 統計學三大分布

  統計量也是隨機變量,各種形式的統計量會產生許多新的隨機變量,這些變量中的有些是經常出現的,有必要事先對它們做一些介紹。因為正態分布適用的場合最為廣泛,這里的統計學三大分布都是基於正態分布的。

2.1 \(\chi^2\)(卡方)分布

  在介紹\(\chi^2\)分布之前,先討論一個更一般的分布。將埃爾朗分布中的\(r\)擴展為任意正實數,得到的分布(11)稱為\(\varGamma\)分布,一般記作\(\varGamma(r,\lambda)\)。式子中的\(\varGamma(r)\)確保了\(p(x)\)為密度函數,它被稱為\(\varGamma\)函數。\(\varGamma\)函數在實數域是個\(U\)形函數,它有式(12)的基本結論,由於\(\varGamma(n)=(n-1)!\),它也被看成是階乘概念的擴展。

\[p(x)=\dfrac{\lambda^r}{\varGamma(r)}x^{r-1}e^{-\lambda x},\;\varGamma(x)=\int_{-\infty}^{+\infty}t^{x-1}e^{-t}\,\text{d}t\tag{11}\]

\[\varGamma(x+1)=x\varGamma(x);\;\;\varGamma(1)=1,\;\varGamma(\dfrac{1}{2})=\sqrt{\pi}\tag{12}\]

  \(\varGamma\)分布具有和埃爾朗分布同樣的特征函數,並且也滿足再生性。這里不打算討論\(\varGamma\)分布的更多性質,而是關注它的一類特例。假設\(X\sim N(0,1)\),可以證明\(X^2\sim\varGamma(\dfrac{1}{2},\dfrac{1}{2})\),這是個奇妙的巧合!如果\(X_1,\cdots,X_n\)是獨立的標准狀態分布,利用再生性有式(13)成立,它被稱為自由度為\(n\)的\(\chi^2\)(卡方)分布,記作\(\chi_n^2\)。

\[X_i\sim N(0,1)\;\Rightarrow\;\sum_{i=1}^nX_i^2\sim\varGamma(\dfrac{n}{2},\dfrac{1}{2})=\chi_n^2\tag{13}\]

  上圖是\(\chi^2\)分布的密度函數,\(n=1\)時便是\(X^2\),它有兩條漸近線,\(n=2\)時是指數分布,\(n>2\)時分布曲線類似但越來越扁平。容易算得\(\chi_1^2\)有期望\(1\)和方差\(2\),這就得到\(\chi_n^2\)分布的期望和方差(式(14))。繼續上面對\(S^2\)的討論,由於\(Y_i\sim N(0,\sigma^2)\),可以得到\(S^2\)滿足式(15)。另外如果\(X\)是指數函數,顯然有\(2\lambda X\sim\chi_2^2\)。

\[Y\sim \chi_n^2\;\Rightarrow\;E(Y)=n;\;D(Y)=2n\tag{14}\]

\[\dfrac{(n-1)S^2}{\sigma^2}\sim\chi_{n-1}^2\tag{15}\]

  \(\chi^2\)分布的引入無非是為了討論樣本方差的性質,這個分布中不含有任何未知的參數,這種確定的分布非常便於概率的量化計算。但在量化分析的表達式中,不應該含有未知的參數(樣本值\(X_i\)、樣本容量\(n\)等屬於已知量),這樣的表達式一般稱為樞軸變量。簡單說,樞軸變量由已知量組成,且形成一個確定的分布,這個以后會深入討論。

  一般教材上自由度的概念定義在隨機變量\(Q=X_1^2+\cdots+X_n^2\)上,其中\(X_i\)是獨立的標准正交分布。如果\(Q\)可以分解為\(k\)個半正定二次型,且秩的和為\(n\),則根據前面關於自由度的結論,變換矩陣\(B\)為正交矩陣,從而\(Y_i\)也是互相獨立的正交分布。進而\(Q_k\)是自由度為\(n_k\)的卡方分布,且它們互相獨立。這個結論稱為柯赫倫(Cochran)分解定理,在數理統計中有着非常普遍的應用。

2.2 \(t\)分布

  公式(8)中參數\(\sigma\)往往是未知的,這會給分析帶來困難,這時可以用\(S\)可以做為\(\sigma\)的近似。令\(X,Y\)分別代表式(8)(15)中的變量,消除\(\sigma\)后就形成變量\(\dfrac{X}{\sqrt{Y/(n-1)}}\)。這應當是我們要關心的數軸變量,它的分布是確定,為了便於討論研究,需要為它作個定義。一般地,式(16)中的分布被稱為自由度為\(n\)的\(t\)分布,記作\(t_n\)。下圖是其密度函數,有人已經證明,當\(n\to\infty\)時,\(t\)分布收斂於正態分布,這也是符合直覺的。

\[X\sim N(0,1);\;Y\sim \chi_n^2\;\Rightarrow\;\dfrac{X}{\sqrt{Y/n}}\sim t_n\tag{16}\]

  再回到對式(8)(15)的討論,顯然有式(17)成立,這個結論以后經常用到。關於(17)式我想強調一下,式中好像是用\(S\)取代了\(\sigma\),這只是巧合而已,不要忘了其背后原理還是(8)(15)的結合。是因為\(\sigma\)恰巧被消掉才出現了式(17),遇到更復雜的情況時,要重新仔細計算(下一篇將遇到)。

\[\dfrac{\sqrt{n}(\bar{X}-\mu)}{S}\sim t_{n-1}\tag{17}\]

2.3 \(F\)分布

  還有一種常見的場景,就是比較兩個分布的方差比\(\sigma_1^2/\sigma_2^2\)。同樣利用\(S_i^2\)近似\(\sigma_i^2\),並利用公式(15)可以進行類似的討論。為此,將式(18)中的分布被稱為自由度為\(m,n\)的\(F\)分布,記作\(F_{m,n}\),下圖是它的密度函數。

\[X\sim\chi_m^2;\;Y\sim\chi_n^2\;\Rightarrow\;\dfrac{X/m}{Y/n}\sim F_{m,n}\tag{18}\]

  回到方差的比較,設\(X,Y\)的方差分別為\(\sigma_1^2,\sigma_2^2\),樣本容量分別為\(m,n\),樣本方差分別為\(S_1^2,S_2^2\),容易知道有式(19)成立。

\[\dfrac{S_1^2}{S_2^2}\cdot\dfrac{\sigma_2^2}{\sigma_1^2}\sim F_{m-1,n-1}\tag{19}\]

  數理統計中使用分布函數時,和概率論中是相反的,即根據概率值來確定隨機變量的值。滿足\(P(X>C)=\alpha\)的\(C\)被稱為分布的\(\alpha\)上分位點,對於正態分布和上面的三大分布,\(\alpha\)上分位點分別記作\(u(\alpha),\chi_n^2(\alpha),t_n(\alpha),F_{m,n}(\alpha)\)。其中\(t_n,F_{m,n}\)有式(20)的簡單性質,它們在計算和制表中比較有用,證明比較簡單,請自行驗證。

\[t_n(1-\alpha)+t_n(\alpha)=0;\;\;F_{m,n}(\alpha)\cdot F_{n,m}(1-\alpha)=1\tag{20}\]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM