Catalog:
- 弱大數定理 ------ 辛欽大數定理、伯努利大數定理、切比雪夫大數定理
- 中心極限定理、李雅普諾夫(Lyapunov)定理、棣莫弗-拉普拉斯(De Moivre-Laplace)定理
- 常見統計量:樣本均值、樣本方差、樣本k階矩、樣本k階中心矩、樣本偏度系數、樣本峰度系數
- 二項式分布
- 泊松分布 ------ Possion分布
- 正態分布 ------ normal(中心極限定理)
- Gamma分布族 ------ gamma函數、指數分布、卡方分布
- Beta分布族
- $F$分布
- 正態總體的樣本均值和樣本方差的方差
- Z分布族
- 學生氏分布 ------ t分布
- 評估量的平價指標:均方誤差、無偏估計、相合性、漸近正態性
- 假設檢驗 ------ 基本概念、第一類錯誤、第二類錯誤、紐曼皮爾遜(Neyman—Pearson)顯著性假設檢驗原則、假設檢驗的勢函數、紐曼-皮爾遜(Neyman-Pearson)基本引理、一致最優勢檢驗
大數定律
辛欽大數定理
設隨機變量$X_{1},X_{2},\cdots $是獨立同分布的,且具有數學期望$E\left ( X_{k} \right )= \mu \left ( k= 1,2,\cdots \right )$。作為前$n$個變量的算數平均$\frac{1}{n}\sum_{k=1}^{n}X_{k}$,則對於任意$\varepsilon > 0$,有:
$\lim_{n \to \infty }P\left \{ \left |\frac{1}{n}\sum_{k=1}^{n}X_{k}-\mu \right |< \varepsilon \right \}= 1$
或者稱之為:序列$\bar{X}= \frac{1}{n}\sum_{k=1}^{n}X_{k}$依概率收斂於$\mu$,即$\bar{X}\overset{P}{\rightarrow}\mu $。
伯努利大數定理
設$f_{A}$是$n$次獨立重復實驗中事件$A$發生的次數,$p$是事件$A$在每次實驗中發生的概率,對於任意$\varepsilon > 0$,有:
$\lim_{n \to \infty }P\left \{ \left |\frac{f_{A}}{n}-\mu \right |< \varepsilon \right \}= 1$
Chebyshev大數定律(切比雪夫大數定理)
設隨機變量$X_{1},X_{2},\cdots ,X_{n}$是獨立的(不要求同分布),且隨機變量的方差$D\left ( X_{k} \right )$一致有上界。則有$\bar{X}= \frac{1}{n}\sum_{k=1}^{n}X_{k}$依概率收斂於$\frac{1}{n}\sum_{k=1}^{n}E\left (X_{k} \right )$。即:
$\frac{1}{n}\sum_{k=1}^{n}X_{k} \overset{P}{\rightarrow}\frac{1}{n}\sum_{k=1}^{n}E\left (X_{k} \right )$
中心極限定理
棣莫弗-拉普拉斯(De Moivre-Laplace)定理是中心極限定理的特殊情況,即分布為二項分布的中心極限定理。李雅普諾夫(Lyapunov)定理引入“二階以上中心矩的期望和除以方差和”當$n \to \infty $時,它趨於$0$,以此將同分布推廣到不限制分布。
獨立同分布的中心極限定理
設隨機變量$X_{1},X_{2},\cdots ,X_{n},\cdots $是獨立同分布的,期望和方差分別為:$E\left ( X_{k} \right )= \mu ,D\left ( X_{k} \right )= \sigma ^{2}> 0 \left ( k= 1,2,\cdots \right )$。則隨機變量之和$\sum_{k=1}^{n}X_{k}$的標准化變量
$Y_{n}= \frac{\sum_{k=1}^{n}X_{k}-E\left ( \sum_{k=1}^{n}X_{k} \right )}{\sqrt{D\left ( \sum_{k=1}^{n}X_{k} \right )}}= \frac{\sum_{k=1}^{n}X_{k}-n\mu }{\sqrt{n}\sigma }$
的分布函數$F_{n}\left ( x \right )$對任意$x$,有:
$\lim_{n \to \infty } F_{n}\left ( x \right )= \lim_{n \to \infty } P \left \{ \frac{\sum_{k=1}^{n}X_{k}-n\mu }{\sqrt{n}\sigma} \leq x \right \}\\ \qquad= \int_{-\infty }^{x}\frac{1}{\sqrt{2\pi} }e^{-\frac{t^{2}}{2}}dt\\ \qquad= \Phi \left ( x \right )$
其中是$\Phi \left ( x \right )$標准正態分布。
李雅普諾夫(Lyapunov)定理
設隨機變量$X_{1},X_{2},\cdots ,X_{n},\cdots $是獨立的,期望和方差分別為:$E\left ( X_{k} \right )= \mu_{k} ,D\left ( X_{k} \right )= \sigma_{k} ^{2}> 0 \left ( k= 1,2,\cdots \right )$,記$B_{n}^{2}= \sum_{k=1}^{n} \sigma _{k}^{2}$。若存在正數$\delta $,使得當時$n \to \infty $,
$\frac{1}{B_{n}^{2+\delta }}\sum_{k=1}^{n}E\left \{ \left | X_{k}-\mu _{k} \right |^{2+\delta } \right \}\rightarrow 0$
則隨機變量之和$\sum_{k=1}^{n}X_{k}$的標准化變量
$Y_{n}= \frac{\sum_{k=1}^{n}X_{k}-E\left ( \sum_{k=1}^{n}X_{k} \right )}{\sqrt{D\left ( \sum_{k=1}^{n}X_{k} \right )}}= \frac{\sum_{k=1}^{n}X_{k}-\sum_{k=1}^{n}\mu_{k} }{B_{n}}$
的分布函數$F_{n}\left ( x \right )$對任意$x$,有:
$\lim_{n \to \infty } F_{n}\left ( x \right )= \lim_{n \to \infty } P \left \{ \frac{\sum_{k=1}^{n}X_{k}-\sum_{k=1}^{n}\mu _{k} }{B_{n}} \leq x \right \}\\ \qquad= \int_{-\infty }^{x}\frac{1}{\sqrt{2\pi} }e^{-\frac{t^{2}}{2}}dt\\ \qquad= \Phi \left ( x \right )$
棣莫弗-拉普拉斯(De Moivre-Laplace)定理
設隨機變量$\eta _{n}\left ( n=1,2,\cdots \right )$服從參數為$n,p\left ( 0< p< 1 \right )$的二項分布,則對於任意$x$,有:
$\lim_{n \to \infty }P\left \{ \frac{\eta _{n}-np}{\sqrt{np\left ( 1-p \right )}} \leq x \right \}= \int_{-\infty }^{x}\frac{1}{\sqrt{2\pi} }e^{-\frac{t^{2}}{2}}dt\\ \qquad= \Phi \left ( x \right )$
常見統計量
樣本均值:$\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}$
樣本方差:$s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left ( X_{i}-\bar{X} \right )^{2}$
樣本$k$階矩:$A_{k}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{k},k=1,2,\cdots $
樣本$k$階中心矩:$B_{k}=\frac{1}{n}\sum_{i=1}^{n}\left (X_{i}-\bar{X} \right )^{k},k=1,2,\cdots $
樣本偏度系數:$\beta _{1}= \frac{\sqrt{n}\sum_{i=1}^{n}\left (X_{i}-\bar{X} \right )^{3}}{\left [ \sum_{i=1}^{n}\left (X_{i}-\bar{X} \right )^{2} \right ]^{\frac{3}{2}}}$
樣本偏度系數可以看作:$\beta_{1}= \frac{B_{3}}{\left (B_{2} \right )^{\frac{3}{2}}}$。樣本偏度系數這個統計量描述的是樣本分布的對稱情況,若數據分布是對稱的,$\beta_{1}$為$0$。若$\beta_{1}> 0$,則分布為右偏,有一條長尾在右;若$\beta_{1}< 0$,則分布為左偏,有一條長尾在左。同時偏度的模越大,說明分布的偏移程度越嚴重。
樣本峰度系數:$\beta_{2}= \frac{n\sum_{i=1}^{n}\left (X_{i}-\bar{X} \right )^{4}}{\left [ \sum_{i=1}^{n}\left (X_{i}-\bar{X} \right )^{2} \right ]^{2}}-3$
樣本峰度系數可以看作:$\beta_{2}= \frac{B_{4}}{\left (B_{2} \right )^{2}}-3$。樣本峰度系數描述的是分布的平滑或陡峭程度的統計量,減去$3$是為什么呢?因為標准正態分布的峰度就是$0$,即:$\frac{B_{4}}{\left (B_{2} \right )^{2}}=3$,所以是將正態分布作為基准。
二項式分布
二項分布是由伯努利提出的概念,指的是重復n次獨立的伯努利試驗。基本假設條件為:重復實驗之間相互獨立。若單次實驗成功的概率為p,失敗為1-p,那么n次實驗成功k次的概率為:
$\binom{n}{k}p^{k}\left ( 1-p \right )^{n-k}$
泊松分布
泊松分布在統計學的角度上可以看作二項式分布從離散到連續的推廣。假設隨機事件發生的時間超級短,我們認為它是瞬時發生的,且在時間軸上是連續的,那么從二項式分布的角度有如下思考:事件要么發生要么不發生,發生的概率為p,不發生的概率為1-p,假設我們將時間軸划分為n份,每一份發生概率為p,不發生概率為1-p,那么總共發生k次的概率為:
$P\left ( X= k \right )=\binom{n}{k}p^{k}\left ( 1-p \right )^{n-k}$
此時的時間軸是離散的,因為我們為了和二項式分布靠攏,分成了n份,如果n趨向於無窮大呢?首先p值會變小,因為區間越大,質量分布應該越大。對分割取極限有:
$P\left ( X= k \right )= \lim_{n \to \infty }\binom{n}{k}p^{k}\left ( 1-p \right )^{n-k}$
若n份切割的發生期望為$\mu $,那么我們可以將p寫為$\frac{\mu }{n}$。上式可以分割為兩部分的乘積:
$P\left ( X= k \right )= \lim_{n \to \infty }\binom{n}{k}\left (\frac{\mu }{n} \right )^{k}\cdot \lim_{n \to \infty }\left ( 1-\frac{\mu }{n} \right )^{n-k}$
其中:
$\lim_{n \to \infty }\binom{n}{k}\left (\frac{\mu }{n} \right )^{k}= \lim_{n \to \infty}\frac{\mu ^{k}}{k!}\frac{n}{n}\frac{n-1}{n}\cdots \frac{n-k+1}{n}= \frac{\mu ^{k}}{k!}$
$\lim_{n \to \infty }\left ( 1-\frac{\mu }{n} \right )^{n-k}= \lim_{n \to \infty}\left ( 1-\frac{\mu }{n} \right )^{n}\cdot \left ( 1-\frac{\mu }{n} \right )^{-k}= e^{-\mu }$
所以有,連續軸上發生k次的概率為:
$P\left ( X= k \right )= \frac{\lambda^{k}}{k!}\cdot e^{-\lambda}$
注意這里的$\lambda$和$\mu$是等價的,上式我們稱之為泊松分布的分布率。
二項分布與泊松分布的關系
當n很大,p很小時,二項分布可以由泊松分布近似計算。
$P\left ( X= k \right )= \binom{n}{k}p^{k}\left ( 1-p \right )^{n-k}= \frac{\lambda^{k}}{k!}\cdot e^{-\lambda}$
參考文獻:泊松分布的現實意義是什么,為什么現實生活多數服從於泊松分布?
正態分布
正態分布又名高斯分布,是自然界常見的一個分布。概率密度函數為:
$P\left ( x \right )= \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left ( x-\mu \right )^{2}}{2\sigma ^{2}}}$
中心極限定理:
假設隨機變量$X_{1}$、$X_{2}$、$\cdots$、$X_{n}$、$\cdots$獨立同分布,對於:
$F_{n}\left ( x \right )= P\left ( \frac{\sum_{i=1}^{n}X_{i}-n\mu }{\sigma \sqrt{n}} \leq x\right )$
有,當n趨向於無窮大時,$F_{n}\left ( x \right )$服從正態分布,即:$Y_{n}= \frac{\sum_{i=1}^{n}X_{i}-n\mu }{\sigma \sqrt{n}}$服從標准正態分布$N\left ( 0,1 \right )$。
Gamma分布族
Gamma分布族表示為:$Ga\left ( \alpha ,\lambda \right )$。其中$\alpha$為形狀參數,$\lambda$為尺度參數。概率密度函數為:
$p\left ( x;\alpha, \lambda \right )= \frac{\lambda ^{\alpha }}{\Gamma\left ( \alpha \right ) }x^{\alpha -1}e^{-\lambda x}$
其中gamma函數為:$\Gamma\left ( \alpha \right )= \int_{0}^{+\infty }t^{\alpha -1}e^{-t}dt$,若n為正整數,則有$\Gamma\left ( n \right )= \left (n-1 \right )!$。當$0\leq \alpha \leq 1$時,概率密度函數是嚴格的遞減函數;當$1< \alpha \leq 2$時,概率密度函數為先上凸,再下凸;當$\alpha > 2$時,概率密度函數為先下凸,再上凸,最后再下凸,此時有兩個拐點。如圖所示:
屬於Gamma族的幾種常見分布:
指數分布:當$\alpha = 1$時,概率密度函數為:$p\left ( x \right )= \lambda e^{-\lambda x}, x\geq 0$。
卡方分布:$Ga\left ( \frac{n}{2},\frac{1}{2} \right )= \chi ^{2}\left ( n \right )$。
在$\lambda$相同時,關於形狀參數具有可加性:$Ga\left ( \alpha_{1},\lambda \right )+Ga\left ( \alpha_{2},\lambda \right )=Ga\left ( \alpha_{1}+\alpha_{2},\lambda \right )$。
Beta分布族
beta分布族的定義域為:$D=\left ( 0,1 \right )$,記為:$Be\left ( a,b \right )$。概率密度函數為:
$p\left ( x;a,b \right )= \frac{\Gamma \left ( a+b \right )}{\Gamma \left ( a \right )\Gamma \left ( b \right )}x^{a-1}\left ( 1-x \right )^{b-1}$
概率密度曲線如下圖所示:
Beta變量$X$的$k$階矩為:
$E\left ( X^{k} \right )= \frac{a\left ( a+1 \right )\left ( a+2 \right )\cdots \left ( a+k-1 \right )}{\left ( a+b \right )\left ( a+b+1 \right )\cdots \left ( a+b+k-1 \right )}$
Beta變量$X$的期望和方差分別為:
$E\left ( X \right )= \frac{a}{a+b}$
$Var\left ( X \right )=\frac{ab}{\left ( a+b \right )^{2}\left ( a+b+1 \right )}$
F分布
設$u\sim \chi^{2}\left ( n \right )$,$v\sim \chi^{2}\left ( m \right )$,$u,v$相互獨立,$Y= \frac{\frac{u}{n}}{\frac{v}{m}}$的分布稱為自由度為$\left ( n,m \right )$的$F$分布,記為:$Y\sim F\left ( n,m \right )$。
性質:$F\left ( n,m \right )= \frac{1}{F\left ( m,n \right )}$。
正態總體的樣本均值和樣本方差的方差
設$X_{1},X_{2},\cdots ,X_{n}$是取自$N\left ( \mu ,\sigma \right )$的樣本,有:$\frac{X_{i}-\mu }{\sigma }\sim N\left ( 0,1 \right ),i=1,2,\cdots ,n$。
結論一:
由卡方分布的定義知:$\frac{\left (X_{i}-\mu \right )^{2} }{\sigma^{2} }\sim \chi^{2}\left ( n \right )$。
結論二:
由假設知:$\sum_{i=1}^{n}X_{i}\sim N\left ( n\mu ,n\sigma ^{2} \right )$,$\frac{1}{n}\sum_{i=1}^{n}X_{i}\sim N\left ( \mu ,\frac{\sigma ^{2}}{n} \right )$,$s^{2}= \frac{1}{n-1}\sum_{i=1}^{n}\left ( X_{i}-\bar{X} \right )^{2}$。
------------------------------------------------------------------------------------------------------------
結論:$\frac{\left ( n-1 \right )s^{2}}{\sigma^{2}}= \frac{\sum_{i=1}^{n}\left ( X_{i}-\bar{X} \right )^{2}}{\sigma^{2}}\sim \chi ^{2}\left ( n-1 \right )$。
$s^{2}$與$\bar{X}$相互獨立。
------------------------------------------------------------------------------------------------------------
證明:
令$Z_{i}= \frac{X_{i}-\mu}{\sigma },\quad i=1,2,\cdots ,n$,獨立同分布,都服從標准正態分布:$N\left ( 0,1 \right )$;期望為:$\bar{Z}= \frac{1}{n}\sum_{i=1}^{n}Z_{i}= \frac{\bar{X}-\mu }{\sigma }$。則有:
$\frac{\left (n-1 \right )s^{2}}{\sigma ^{2}}= \frac{\sum_{i=1}^{n}\left (X_{i}-\bar{X} \right )^{2}}{\sigma ^{2}}\\ \qquad = \sum_{i=1}^{n} \left [\frac{\left ( X_{i}-\mu \right )-\left ( \bar{X}-\mu \right )}{\sigma } \right ]^{2}\\ \qquad = \sum_{i=1}^{n}\left ( Z_{i}-\bar{Z} \right )^{2} \\ \qquad = \sum_{i=1}^{n}Z_{i}^{2}-n\bar{Z}^{2}$
將$Z_{i},i=1,\cdots ,n$看作 一組空間中的正交基,此時其平方和應該服從自由度為n的卡方分布。但是$\frac{\left (n-1 \right )s^{2}}{\sigma ^{2}}$,還有一項$n\bar{Z}^{2}$,這怎么辦呢?解決辦法是用正交變化將這項放縮到基向量上,假設這一項映射到$Y_{1}$上,根據高等代數的知識有:$\sum_{i=1}^{n}Z_{i}^{2}=\sum_{i=1}^{n}Y_{i}^{2}$,所以我們希望$Y_{1}^{2}=n\bar{Z}^{2}$。因此設置正交矩陣$A= \left ( a_{ij} \right )$,第一行元素為:$\frac{1}{\sqrt{n}}$,對原始正交基做正交變換得到新的正交基:
$Y= AZ$,其中$Y= \begin{pmatrix} Y_{1}\\ Y_{2}\\ \cdots \\ Y_{n} \end{pmatrix}$,$Z= \begin{pmatrix} Z_{1}\\ Z_{2}\\ \cdots \\ Z_{n} \end{pmatrix}$。
現在我們來證明經過正交變換的新基是相互獨立且服從標准正態分布的。
首先,由於$Y_{i}= \sum_{j=1}^{n}a_{ij}Z_{j},i=1,2,\cdots ,n$,所以$Y_{1},Y_{2},\cdots ,Y_{n}$任然是正態隨機變量,因為標准正態分布的隨機變量的線性組合任然是正態分布。即:
$E\left (Y_{i} \right )=E\left ( \sum_{j=1}^{n}a_{ij}Z_{j} \right )=\sum_{j=1}^{n}a_{ij}E\left (Z_{j} \right )=0$
$Cov\left ( Y_{i},Y_{k} \right )= Cov\left ( \sum_{j=1}^{n}a_{ij}Z_{j},\sum_{l=1}^{n}a_{kl}Z_{l} \right ) \\ \qquad = \sum_{j=1}^{n}\sum_{l=1}^{n}a_{ij}a_{kl}Cov\left ( Z_{j},Z_{l} \right ) \\ \qquad = \sum_{j=1}^{n}a_{ij}a_{kj} \\ \qquad = \delta_{ik}$
注意正交矩陣的性質:有若$A= \left [ \vec{a_{1}},\vec{a_{2}},\cdots ,\vec{a_{n}} \right ]^{T}$,則有:
$\vec{a_{i}}\cdot \vec{a_{k}}= \left\{\begin{matrix} 1,\quad if \quad i=k\\ 0, \qquad else \quad \end{matrix}\right.$
所以有:
$Cov\left ( Y_{i},Y_{k} \right )= \left\{\begin{matrix} 1,\quad if \quad i=k\\ 0, \qquad else \quad \end{matrix}\right.$
通過協方差我們可以知道,新的基$Y_{i}$的方差為1,不同基$Y_{i}$, $Y_{k}$之間相互獨立,協方差為0。而均值已經證明為0,且變換后是仍然是正態分布,所以$Y_{i}\sim N\left ( 0,1 \right )$,即仍然是標准正態分布。那么有:
$\frac{\left (n-1 \right )s^{2}}{\sigma ^{2}}=\sum_{i=1}^{n}Z_{i}^{2}-n\bar{Z}^{2}\\ \qquad = \sum_{i=1}^{n}Y_{i}^{2}-Y_{1}^{2}\\ \qquad = \sum_{i=2}^{n}Y_{i}^{2}$
因為$Y_{i}\sim N\left ( 0,1 \right )$,所以有:
$\frac{\left (n-1 \right )s^{2}}{\sigma ^{2}}\sim \chi ^{2}\left ( n-1 \right )$
$s^{2}$與$\bar{X}$相互獨立的證明。$\bar{X}= \sigma \bar{Z}+\mu = \frac{\sigma Y_{1}}{\sqrt{n}}+\mu$,而$s^{2}= \frac{\sigma ^{2}}{n-1}\sum_{i=2}^{n}Y_{i}^{2}$,即樣本均值只與$Y_{1}$有關,而方差與$Y_{2}, \cdots ,Y_{n}$有關,所以兩者之間相互獨立。
證畢。
結論三:
結論:$\frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}}\sim t\left ( n-1 \right )$。
證明:
由$s^{2}= \frac{\sigma ^{2}}{n-1}\sum_{i=2}^{n}Y_{i}^{2}$有:$s= \sigma \sqrt{\frac{\sum_{i=2}^{n}Y_{i}}{n-1}}$。因此有:
$\frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}} = \frac{\sqrt{n}\left ( \bar{X}-\mu \right )}{\sigma \sqrt{\frac{\sum_{i=2}^{n}Y_{i}}{n-1}}}\\ \qquad = \frac{\frac{\sqrt{n}\left ( \bar{X}-\mu \right )}{\sigma }}{ \sqrt{\frac{\sum_{i=2}^{n}Y_{i}}{n-1}}}$
而:$\frac{\sqrt{n}\left ( \bar{X}-\mu \right )}{\sigma }= Y_{1}\sim N\left ( 0,1 \right )$,$\sum_{i=2}^{n}Y_{i}^{2}\sim \chi^{2}\left ( n-1 \right )$。所以由t分布的定義(正態分布除以根號下卡方分布除以它的自由;卡方分布的自由度就是t分布的自由度)知:
$\frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}}\sim t\left ( n-1 \right )$
證畢。
Z分布族
Z分布又稱 Fisher Z 分布,記為:$Z\left ( a,b \right )$。概率密度函數為:
$p\left ( x;a,b \right )= \frac{\Gamma \left ( a+b \right )}{\Gamma \left ( a \right )\Gamma \left ( b \right )}\frac{x^{a-1}}{\left ( 1+x \right )^{a+b}}$
Z分布的概率密度曲線為:
Z分布的$k$階矩為:
$E\left ( X^{k} \right )=\frac{\left ( a+k-1 \right ) \left ( a+k-2 \right )\cdots a}{\left ( b-1 \right )\left ( b-2 \right )\cdots \left ( b-k \right )},k< b$
期望和方差分別為:
$E\left ( X \right )=\frac{a}{b-1},b> 1$
$Var\left ( X \right )= \frac{a\left ( a+b-1 \right )}{\left ( b-1 \right )^{2} \left ( b-2 \right )},b> 2$
Z分布與Beta分布之間的關系:
若:$X\sim Be\left ( a,b \right )$,則$Y= \frac{X}{1-X}\sim Z\left ( a,b \right )$。
若:$X\sim Z\left ( a,b \right )$,則$Y= \frac{X}{1+X}\sim Be\left ( a,b \right )$。
Z分布與F分布之間的關系:
若$X\sim Z\left ( \frac{n_{1}}{2},\frac{n_{2}}{2} \right )$,則容易導出$Y= \left ( \frac{n_{2}}{n_{1}} \right )X$的概率密度函數為:
$p\left ( y;n_{1},n_{2} \right )= \frac{\Gamma \left ( \frac{n_{1}+n_{2}}{2} \right )}{\Gamma \left ( \frac{n_{1}}{2} \right )\Gamma \left ( \frac{n_{2}}{2} \right )} \left ( \frac{n_{1}}{n_{2}} \right )^{\frac{n_{1}}{2}} \frac{y^{\frac{n_{1}}{2}-1}}{\left ( 1+\frac{n_{1}}{n_{2}}y \right )^{\frac{n_{1}+n_{2}}{2}}}, y> 0$
這就是自由度為$n_{1}$和$n_{2}$的$F$分布,記為:$F\left ( n_{1},n_{2} \right )$。$F$分布的期望和方差分別為:
$E\left ( Y \right )= \frac{n_{2}}{n_{2}-2},n_{2}> 2$
$Var\left ( Y \right )= \frac{2n_{2}^{2}\left ( n_{1}+n_{2}-2 \right )}{n_{1}\left ( n_{2}-2 \right )^{2}\left ( n_{2}-4 \right )},n_{2}> 4$
學生氏分布------t分布族
若隨機變量$X\sim N\left ( 0,1 \right )$與$Y\sim \chi _{n}^{2}$相互獨立,則稱$T= \frac{X}{\sqrt{\frac{Y}{n}}}$服從自由度為n的$t$分布,記為:$T\sim t_{n}$。它的分布曲線和正態分布類似。概率密度函數為:
$p\left ( x;\alpha \right )= \frac{\Gamma \left ( \frac{\alpha +1}{2} \right )}{\sqrt{\alpha \pi }\Gamma \left ( \frac{\alpha }{2} \right )}\left ( 1+\frac{x^{2}}{\alpha } \right )^{-\frac{\alpha +1}{2}}$
柯西分布
自由度為1的$t$分布就是柯西分布,它以期望和方差都不存在而著名。其概率密度函數為:
$p\left ( x \right )= \frac{1}{\pi \left ( 1+x^{2} \right )},x\in R$
更一般的形式為:
$p\left ( x \right )= \frac{b}{\pi \left ( b^{2}+\left (x-a \right )^{2} \right )},x\in R$
估計量的評價指標
MSE均方誤差
公式:$MSE_{\theta }\left ( \hat{\theta} \right )= E\left ( \hat{\theta}-\theta \right )^{2}$。
無偏估計、漸近無偏估計
參數真值是確定的,但是我們未知。則稱估計為無偏估計,若$E\left [ \hat{\theta}\left ( X_{1},\cdots ,X_{n} \right ) -\theta \right ]= 0$。估計為漸近無偏估計,若$\lim_{n \to \infty }E_{\theta }\left [ \hat{\theta}\left ( X_{1},\cdots ,X_{n} \right ) \right ]= \theta$。
相合性估計
弱相合性:若$\hat{\theta}\left ( X_{1},\cdots ,X_{n} \right )\xrightarrow[n \to \infty ]{P}\theta $則稱$\hat{\theta}\left ( X_{1},\cdots ,X_{n} \right )$作為$\theta $的估計量,具有弱相合性。
強相合性:若$\hat{\theta}\left ( X_{1},\cdots ,X_{n} \right )\xrightarrow[n \to \infty ]{a.s.}\theta $則稱$\hat{\theta}\left ( X_{1},\cdots ,X_{n} \right )$作為$\theta $的估計量,具有強相合性。其中$a.s.$表示依概率1收斂or幾乎必然收斂。
漸近正態估計
若,$\frac{\hat{\theta}\left ( X_{1},\cdots ,X_{n} \right ) -\theta}{\sigma _{n}\left ( \theta \right )}\xrightarrow[n \to \infty ]{L}N\left ( 0,1 \right )$,其中$\sigma _{n}\left ( \theta \right )$為漸近方差。
假設檢驗
基本概念
記$H_{0}:\theta \in \Theta_{0}$為原假設;$H_{1}:\theta \in \Theta_{1}$為備擇假設。為了對$H_{0}$的正確性做出判斷,需要構造一個檢驗統計量$T\left ( X_{1},X_{2},\cdots ,X_{n} \right )$。當參數$\theta$給定時,檢驗統計量的分布也能相應確定,樣本的取值大小與原假設是否成立有密切聯系。假設檢驗中有一個重要的概念為:接受域、拒絕域。用$W$表示拒絕域,即$W= \left \{ x_{1},x_{2},\cdots ,x_{n}|T\left ( x_{1},x_{2},\cdots ,x_{n} \right )\in G \right \}$,$G$表示檢驗統計量在原假設下不合理的取值范圍。
則有:若$\left ( x_{1},x_{2},\cdots ,x_{n} \right )\in W$則拒絕原假設$H_{0}$,反之接受。原假設是否成立我們是不知道的,但是我們可以根據樣本判斷其是否落入拒絕域,因此檢驗規則就是落入就拒絕,不落入就接受,此時就會出現下面的Bug。
第一類錯誤、第二類錯誤
第一類錯誤(拒真):在原假設$H_{0}$成立時,$\left ( x_{1},x_{2},\cdots ,x_{n} \right )$一般不會落入$W$,但由於樣本的隨機性,也有可能落入$W$。此時按規則將做出拒絕$H_{0}$的錯誤判斷,我們稱之為第一類錯誤(拒真)。
第二類錯誤(采偽):在原假設$H_{0}$不成立時,$\left ( x_{1},x_{2},\cdots ,x_{n} \right )$一般都會落入$W$,但由於樣本的隨機性,也有可能不落入$W$。此時按規則將做出接受$H_{0}$的錯誤判斷,我們稱之為第二類錯誤(采偽)。
原假設的拒絕域$W$一旦確定,檢驗規則也就隨之確定了,由於樣本的隨機性,這兩類錯誤率無法徹底避免。
紐曼皮爾遜(Neyman—Pearson)顯著性假設檢驗原則
優先保證犯第一類錯誤的概率$\alpha \left ( \theta \right )= P_{H_{0}成立}\left ( 拒絕H_{0} \right )$不超過預先設定的顯著性水平(常取0.1、0.05、0.01),在此前提下,使犯第二類錯誤的概率$\beta \left ( \theta \right )= P_{H_{0}不成立}\left ( 接受H_{0} \right )$盡可能小。
假設檢驗的勢函數
定義勢函數為:$g\left ( \theta \right )= P_{\theta }\left \{ \left ( X_{1},X_{2},\cdots ,X_{n} \right )\in W \right \}$。
顯然,當$\theta \in \Theta_{0}$時,則$\alpha \left ( \theta \right )= g\left ( \theta \right )$就是犯第一類錯誤的概率;
當$\theta \in \Theta_{1}$時,有$P_{\theta }\left \{ \left ( X_{1},X_{2},\cdots ,X_{n} \right )\notin W \right \}= 1-P_{\theta }\left \{ \left ( X_{1},X_{2},\cdots ,X_{n} \right )\in W \right \}$,即$\beta \left ( \theta \right )=1- g\left ( \theta \right )$為犯第二類錯誤的概率。
所以,在$Theta_{0}$中我們希望勢函數越小越好,在$Theta_{1}$上希望勢函數越大越好。
如圖所示,第三個勢函數要比第一個、第二個勢函數好。實際上,我們希望在$Theta_{0}$中,勢函數盡可能小,但是在邊界點上可以達到$\alpha$,在$Theta_{1}$中,要盡可能大。
當參數$theta$對應的分布是離散型時,勢函數$g\left ( \theta \right )$在$Theta_{0}$上的最大值正好等於$\alpha$可能是辦不到的,為此引入“隨機化檢驗”,先引入“檢驗函數”的概念。
非隨機化檢驗函數:將原假設的拒絕域的示性函數:
$\phi \left ( x_{1},x_{2},\cdots ,x_{n} \right ) = \left\{\begin{matrix} 1,\quad if\quad \left ( x_{1},x_{2},\cdots ,x_{n} \right )\in W\\ 0,\quad if\quad \left ( x_{1},x_{2},\cdots ,x_{n} \right )\notin W \end{matrix}\right.$
稱為非隨機化檢驗函數。
隨機化檢驗函數:在接受域與拒絕域的邊界以概率$r$拒絕原假設,以概率$1-r$接受原假設。隨機化檢驗函數為:
$\phi \left ( x_{1},x_{2},\cdots ,x_{n} \right ) = \left\{\begin{matrix} 1,\quad if\quad \left ( x_{1},x_{2},\cdots ,x_{n} \right )\in W\\ 0,\quad if\quad \left ( x_{1},x_{2},\cdots ,x_{n} \right )\notin W \\ r,\quad if\quad \left ( x_{1},x_{2},\cdots ,x_{n} \right )\in W的邊界 \end{matrix}\right.$
紐曼-皮爾遜(Neyman-Pearson)基本引理
如果$\phi_{1}\left ( \vec{X} \right ),\phi_{2}\left ( \vec{X} \right )$是顯著性水平$\alpha$的兩個檢驗函數,即$E_{\theta_{0}}\left [ \phi_{1}\left ( \vec{X} \right ) \right ]\leq \alpha$,$E_{\theta_{0}}\left [ \phi_{2}\left ( \vec{X} \right ) \right ]\leq \alpha $,若有$E_{\theta_{1}}\left [ \phi_{1}\left ( \vec{X} \right ) \right ]\geq E_{\theta_{1}}\left [ \phi_{2}\left ( \vec{X} \right ) \right ]$,則稱$\phi_{1}\left ( \vec{X} \right )$不比$\phi_{2}\left ( \vec{X} \right )$差。
如果$\phi_{1} \left ( \vec{X} \right )$是顯著性水平為$\alpha$下的任意檢驗函數,如果有$E_{\theta_{1}}\left [ \phi \left ( \vec{X} \right ) \right ]\geq E_{\theta_{1}}\left [ \phi_{1}\left ( \vec{X} \right ) \right ]$,則稱$\phi \left ( \vec{X} \right )$是此假設檢驗的最優勢檢驗(MPT)。
Neyman-Pearson基本引理:若$P_{\Theta_{0}},P_{\Theta_{1}}$是兩個不同的概率測度,原假設的MPT一定存在,且可以由似然比給出如下:
$\phi \left ( \vec{X} \right )= \left\{\begin{matrix} 1,\quad P\left ( \vec{X};\theta_{1} \right )> k\cdot P\left ( \vec{X};\theta_{0} \right )\\ 0,\quad P\left ( \vec{X};\theta_{1} \right )< k\cdot P\left ( \vec{X};\theta_{0} \right )\\ r,\quad P\left ( \vec{X};\theta_{1} \right )= k\cdot P\left ( \vec{X};\theta_{0} \right ) \end{matrix}\right.$
由此定理得到就是最優勢函數(MPT)。
額,什么?你感覺勢函數和檢驗函數差不多?嗯,實際上確實是,勢函數是介紹的連續隨機變量分布的情況,主要是用於樞軸量分布的選擇,使得第一類錯誤率不超過顯著性水平的情況下,犯第二類錯誤的概率盡可能小。而檢驗函數有點類似於離散版的勢函數。那么上面的公式用圖表示出來是什么樣呢?如下圖所示:
紅色的階梯線表示離散的檢驗函數,這里將$\vec{X},\theta,W$對應起來了,若$\vec{X}\in W\rightarrow \vec{X}\in \Theta_{1}$;$\vec{X}\notin W\rightarrow \vec{X}\in \Theta_{0}$。不難發現這個極致的情況是真的極端,就因為是離散函數就可以這么吊嗎?當然這里屬於拒絕域時,檢驗函數值必須為1,不屬於必須為0,邊界上的值可以變動,$k$和$r$由$E_{\theta _{0}}\left ( \phi \left ( \vec{X} \right ) \right )= \alpha $來確定。
一致最優勢檢驗
定義:設$\phi \left ( \vec{X} \right )$是顯著性水平為$\alpha$的檢驗,如果對任意一個水平為$\alpha$的檢驗$\phi_{1} \left ( \vec{X} \right )$,都有:
$E_{\theta}\left [ \phi \left ( \vec{X} \right ) \right ]\geq E_{\theta}\left [ \phi_{1}\left ( \vec{X} \right ) \right ],\forall \theta \in \Theta_{1}$
則,稱$\phi \left ( \vec{X} \right )$水平為$\alpha$的一致最優勢檢驗(UMPT)。
此時,你是不是想問MPT與UMPT的定義公式一模一樣啊?兩者之間有什么區別?MPT是指假設檢驗為“$H_{0}:\theta= \theta_{0};\quad H_{1}:\theta= \theta_{1}$”這種簡單假設的最優勢檢驗,而UMPT是指假設檢驗為“$H_{0}:\theta= \Theta_{0};\quad H_{1}:\theta= \Theta_{1}$”這種復合假設檢驗的一致最優勢檢驗,差別就在原假設、備擇假設是否有多個選擇。
定理一:設$\phi \left ( \vec{X} \right )$是$\left ( \alpha,\Theta_{0},\Theta_{1} \right)$檢驗,$\Theta_{01}$是$\Theta_{0}$的子集。如果$\phi \left ( \vec{X} \right )$是$\left ( \alpha,\Theta_{01},\Theta_{1} \right)$的UMPT,則$\phi \left ( \vec{X} \right )$是$\left ( \alpha,\Theta_{0},\Theta_{1} \right)$的UMPT。
這里不做證明,原因很簡單,接受域中的子集$\Theta_{01}$與完整的拒絕域$\Theta_{1}$結合的UMPT,那么在$\Theta_{0}$和$\Theta_{1}$上也是UMPT,因為我們的條件是在$\Theta_{1}$啊!由$\phi \left ( \vec{X} \right )$是$\left ( \alpha,\Theta_{0},\Theta_{1} \right)$檢驗有:$E_{\theta _{0}}\left ( \phi \left ( \vec{X} \right ) \right )\leq \alpha,\theta \in \Theta_{0}$。所以條件都是滿足的。
定理二:假如對某個$\theta_{0} \in \Theta_{0}$和對每一個$\theta_{1} \in \Theta_{1}$,$\phi \left ( \vec{X} \right )$都是的MPT,則$\phi \left ( \vec{X} \right )$也是$\left ( \alpha,\Theta_{0},\Theta_{1} \right)$的UMPT。
根據定理一及UMPT的定義不難證明其正確性。
未完待續,轉載請注明出處……