目錄
點估計的概念與無偏性
- 點估計:設\(x_1,x_2,x_3...x_n\)是來自總體的一個樣本,則用於估計未知參數的估計量\(\hat \theta=\hat \theta(x_1,x_2...x_n)\)稱為統計量\(\theta\)的點估計。
例如,樣本平均值是總體均值的點估計,樣本方差是總體方差的點估計。
- 無偏性:
- 漸近無偏估計:
- 有效性:設\(\hat \theta_1,\hat \theta_2\)都是\(\theta\)的無偏估計,若對於任意樣本,
且至少存在一組樣本使不等號嚴格成立,則稱\(\hat \theta_1\)比\(\hat \theta_2\)有效。
矩估計及相合性
-
矩估計:用樣本矩(如均值方差等)估計未知變量的方法。
-
相合性:\(\theta\)為未知參數,\(\hat \theta\)是\(\theta\)的一個估計量,\(n\)是樣本容量,弱對於任意的\(\epsilon>0\),有
則稱\(\hat\theta\)是\(\theta\)的一個相合估計。
- 定理:設\(\hat\theta\)是\(\theta\)的一個估計量,若
則\(\hat\theta\)是\(\theta\)的一個相合估計。
- 定理:若\(\hat\theta_1,\hat\theta_2,\hat\theta_3...\hat\theta_k\)是\(\theta_1,\theta_2,\theta_3...\theta_k\)的相合估計,\(\eta=\eta(\theta_1,\theta_2...\theta_k)\)是連續函數,則\(\hat\eta=\hat\eta(\hat\theta_1,\hat\theta_2,\hat\theta_3...\hat\theta_k)\)是\(\eta\)的相合估計
相合性被認為是估計量的一個基本要求。
最大似然估計與EM算法
最大似然估計(MLE,maximum likelihood estimation)
- 最大似然估計:設總體的概率密度函數為\(f(x;\theta)\),\(\theta\)為未知參數,樣本的聯合概率密度函數
稱為樣本的似然函數,對於統計量\(\hat\theta\)滿足
稱\(\hat\theta\)是\(\theta\)的最大似然估計。
最大似然估計基於這樣一個想法:在一次抽樣中獲得該組數據的概率應當是最大的,因此,取使得聯合概率最大的\(\hat\theta\)為\(\theta\)的估計值。
EM算法(Expectation-maximization algorithm)
- EM算法流程
輸入:觀察數據 \(x=(x_1,x_2,…x_n)\),聯合分布$ p(x,z|\theta)$,條件分布 \(p(z|x,\theta)\), 極大迭代次數 J。
-
隨機初始化模型參數\(\theta\)的初值\(\theta_0\)
-
\(for\space j \space in \space range(1,J+1)\):
-
a) E步:計算聯合分布的條件概率期望:
\[Q_i(z^{(i)}) = P( z^{(i)}|x^{(i)},\theta) \] -
b) M步:極大化 \(L(\theta)\),得到 \(\theta\):
\[\theta = arg \max \limits_{\theta}\sum\limits_{i=1}^m\sum\limits_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)}, z^{(i)}|\theta)} \] -
c) 重復E、M步驟直到\(\theta\)收斂
輸出:模型參數\(\theta\)
EM算法針對含有隱含分布的數據,可以看作最大似然估計的一種計算方法,詳細見其它文章。
最小方差無偏估計
均方誤差(MSE,mean square error)
相合性是大樣本下評價估計好壞的一個重要標准,小樣本下使用均方誤差。
注意到
因此,MSE由點估計的方差和偏差平方兩部分組成。
最小方差無偏估計
對於參數估計問題,設\(\hat\theta\)是\(\theta\)的一個無偏估計,對於任意的一個\(\theta\)的無偏估計\(\widetilde{\theta}\),若有
則稱\(\hat\theta\)是\(\theta\)的一致最小方差無偏估計,記為UMVUE(Uniformly Minimum-Variance Unbiased Estimator)
有限總體的抽樣分布
對於無限總體,或有放回的抽樣,由中心極限定理可知,當樣本容量\(n\)較大時,有隨機變量\(X\sim N(\mu,\frac {\sigma^2}{n})\),當總體有限,並且抽樣為無放回抽樣時,各樣本不滿足獨立同分布的要求,因此,不服從上述分布,均值、方差與上述計算方法不同。
比率p的抽樣分布
考慮以下有限總體的場景,總體容量為\(N\),其中事件\(A\)的個體數為\(M\),樣本容量為\(n\),其中事件\(A\)的個體數為\(m\),總體中事件A發生的概率為\(p=\frac MN\),樣本中,事件\(A\)的比率為\(\widehat p=\frac mn\),則\(\widehat p\)是\(p\)的點估計。
有放回抽樣
當抽樣為有放回抽樣時,顯然有
證明見https://www.cnblogs.com/lifz-ml/p/15105108.html 常用離散分布
顯然有
無放回抽樣
當無放回抽樣時,\(X\)不再服從\(n\)重伯努利分布,服從超幾何分布
以上證明見https://www.cnblogs.com/lifz-ml/p/15105108.html 常用離散分布
其中,\(\sqrt{\frac{N-n}{N-1}}\)被稱為有限總體修正系數。
均值\(\bar x\)的抽樣分布
考慮如下場景,對於有限總體\(X\),其分布為離散型,可描述為以下分布列:
取值 | 概率 | 頻數 |
---|---|---|
\(x_1\) | \(p_1\) | \(f_1\) |
\(x_2\) | \(p_2\) | \(f_2\) |
\(x_3\) | \(p_3\) | \(f_3\) |
\(x_4\) | \(p_4\) | \(f_4\) |
... | ... | ... |
\(x_k\) | \(p_k\) | \(f_k\) |
同樣,總體容量為\(N\),樣本容量為\(n\),總體均值為\(\mu\),總體方差為\(\sigma^2\)。
有放回抽樣
顯然每個樣本\(X_i\)獨立同分布於\(X\),當樣本數\(n\)較大時,有
無論樣本數大小,都有
無放回抽樣
區間估計
- 置信區間:設\(\theta\)是總體的一個參數,對於給定的\(\alpha(0<\alpha<1)\),設有兩個統計量\(\hat\theta_{L}\)和\(\hat\theta_{U}\),對任意的\(\theta\),有
則稱\([\hat\theta_{L},\hat\theta_{U}]\)為置信度為\(1-\alpha\)的置信區間
置信區間的一個解釋:在次抽樣中,每次抽樣所得的\(\hat\theta\)有\(1-\alpha\)的概率落在置信區間中。
- 樞軸量法
- 構造樣本和待預測變量的函數\(G(x_1,x_2,..x_n,\theta)\)
- 適當選擇兩常數,使得
\[P(c\geq G \geq d)=1-\alpha \]- 若\(c\geq G \geq d\)能變形為\(\hat\theta_{L}\leq\theta\leq\hat\theta_{U}\),則置信區間可得。
單正態總體的置信區間
\(\sigma\)已知時\(\mu\)的置信區間
由於
因此,構造樞軸量
由標准正態分布表查得,置信度為\(1-\alpha\)的雙側置信區間為\([-z_{1-\frac \alpha 2},z_{1-\frac \alpha 2}]\),則\(\mu\)的置信區間為
\(\sigma\)未知時\(\mu\)的置信區間
由於
故,構造樞軸量
則置信區間為
\(\sigma^2\)的置信區間
以以下統計量為樞軸量
由於\(\chi^2\)是恆為非負的偏態分布,因此,樞軸量區間為
故\(\sigma^2\)的置信區間為
大樣本置信區間
以上是正態分布下的樞軸量法,當分布不是正態分布時,尋找樞軸量及其分布會比較困難,因此,當數據量較大時,可用漸近分布構建近似置信區間。以上述抽樣比率\(p\)為例,\(X\sim B(1,p)\),由中心極限定理,有以下近似分布
構造樞軸量
令\(\lambda = z^2_{1-\frac \alpha 2}\),則
上式兩根為
當n較大時,可得近似區間
兩正態總體下的置信區間
\(x_1,x_2,...x_m\)是\(N(\mu_1,\sigma^2_1)\)的樣本,\(y_1,y_2,...y_n\)是\(N(\mu_2,\sigma^2_2)\)的樣本,\(s_x\),\(s_y\)分別是兩樣本的方差。
\(\mu_1-\mu_2\)的置信區間
\(\sigma_1^2,\sigma^2_1\)已知時
此時有
樞軸量
則\(\mu_1-\mu_2\)的置信區間為
\(\sigma_1^2=\sigma^2_2=\sigma^2\)未知時
構造樞軸量
令
則置信區間為
\(\sigma_2^2=c\sigma^2_1\)且c已知時
方法同上,置信區間為
m,n都很大時的近似置信區間
由中心極限定理,可得以下近似分布
近似置信區間
\(\sigma_1^2/\sigma_2^2\)的置信區間
由
構造樞軸量
\(\sigma_1^2/\sigma_2^2\)的置信區間為