參數估計


目錄

點估計的概念與無偏性

  • 點估計:設\(x_1,x_2,x_3...x_n\)是來自總體的一個樣本,則用於估計未知參數的估計量\(\hat \theta=\hat \theta(x_1,x_2...x_n)\)稱為統計量\(\theta\)的點估計。

例如,樣本平均值是總體均值的點估計,樣本方差是總體方差的點估計。

  • 無偏性

\[E(\hat\theta)=\theta \]

  • 漸近無偏估計

\[\lim_{n\rightarrow\infty}E(\hat \theta)=\theta \]

  • 有效性:設\(\hat \theta_1,\hat \theta_2\)都是\(\theta\)的無偏估計,若對於任意樣本,

\[D(\hat \theta_1)\leq D(\hat \theta_2) \]

且至少存在一組樣本使不等號嚴格成立,則稱\(\hat \theta_1\)\(\hat \theta_2\)有效。

矩估計及相合性

  • 矩估計:用樣本矩(如均值方差等)估計未知變量的方法。

  • 相合性\(\theta\)為未知參數,\(\hat \theta\)\(\theta\)的一個估計量,\(n\)是樣本容量,弱對於任意的\(\epsilon>0\),有

\[\lim_{n\rightarrow\infty} P(|\hat\theta-\theta|\geq\epsilon)=0 \]

則稱\(\hat\theta\)\(\theta\)的一個相合估計。

  • 定理:設\(\hat\theta\)\(\theta\)的一個估計量,若

\[\lim_{n\rightarrow\infty}E\hat\theta=\theta,\lim_{n\rightarrow\infty}D\hat\theta=0 \]

\(\hat\theta\)\(\theta\)的一個相合估計。

  • 定理:若\(\hat\theta_1,\hat\theta_2,\hat\theta_3...\hat\theta_k\)\(\theta_1,\theta_2,\theta_3...\theta_k\)的相合估計,\(\eta=\eta(\theta_1,\theta_2...\theta_k)\)是連續函數,則\(\hat\eta=\hat\eta(\hat\theta_1,\hat\theta_2,\hat\theta_3...\hat\theta_k)\)\(\eta\)的相合估計

相合性被認為是估計量的一個基本要求。

最大似然估計與EM算法

最大似然估計(MLE,maximum likelihood estimation)

  • 最大似然估計:設總體的概率密度函數為\(f(x;\theta)\)\(\theta\)為未知參數,樣本的聯合概率密度函數

\[L(\theta)=\prod f(x_i;\theta) \]

稱為樣本的似然函數,對於統計量\(\hat\theta\)滿足

\[L(\hat\theta)=max L(\theta) \]

\(\hat\theta\)\(\theta\)的最大似然估計。

  最大似然估計基於這樣一個想法:在一次抽樣中獲得該組數據的概率應當是最大的,因此,取使得聯合概率最大的\(\hat\theta\)\(\theta\)的估計值。

EM算法(Expectation-maximization algorithm)

  • EM算法流程

輸入:觀察數據 \(x=(x_1,x_2,…x_n)\),聯合分布$ p(x,z|\theta)$,條件分布 \(p(z|x,\theta)\), 極大迭代次數 J。

  1. 隨機初始化模型參數\(\theta\)的初值\(\theta_0\)

  2. \(for\space j \space in \space range(1,J+1)\)

  • a) E步:計算聯合分布的條件概率期望:

    \[Q_i(z^{(i)}) = P( z^{(i)}|x^{(i)},\theta) \]

  • b) M步:極大化 \(L(\theta)\),得到 \(\theta\):

    \[\theta = arg \max \limits_{\theta}\sum\limits_{i=1}^m\sum\limits_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)}, z^{(i)}|\theta)} \]

  • c) 重復E、M步驟直到\(\theta\)收斂

輸出:模型參數\(\theta\)

  EM算法針對含有隱含分布的數據,可以看作最大似然估計的一種計算方法,詳細見其它文章。

最小方差無偏估計

均方誤差(MSE,mean square error)

  相合性是大樣本下評價估計好壞的一個重要標准,小樣本下使用均方誤差。

\[MSE(\hat \theta)=E(\hat\theta-\theta)^2 \]

  注意到

\[\begin{split}MSE(\hat\theta)&=E(\hat\theta-E\hat\theta+E\hat\theta-\theta)^2\\&=E(\hat\theta-E\hat\theta)^2+(E\hat\theta-\theta)^2+2E(\hat\theta-E\hat\theta)(E\hat\theta-\theta)\\&=D(\hat\theta)+(E\hat\theta-\theta)^2\end{split} \]

因此,MSE由點估計的方差和偏差平方兩部分組成。

最小方差無偏估計

對於參數估計問題,設\(\hat\theta\)\(\theta\)的一個無偏估計,對於任意的一個\(\theta\)的無偏估計\(\widetilde{\theta}\),若有

\[D(\hat\theta)\leq D(\widetilde{\theta}) \]

則稱\(\hat\theta\)\(\theta\)一致最小方差無偏估計,記為UMVUE(Uniformly Minimum-Variance Unbiased Estimator)

有限總體的抽樣分布

  對於無限總體,或有放回的抽樣,由中心極限定理可知,當樣本容量\(n\)較大時,有隨機變量\(X\sim N(\mu,\frac {\sigma^2}{n})\),當總體有限,並且抽樣為無放回抽樣時,各樣本不滿足獨立同分布的要求,因此,不服從上述分布,均值、方差與上述計算方法不同。

比率p的抽樣分布

  考慮以下有限總體的場景,總體容量為\(N\),其中事件\(A\)的個體數為\(M\),樣本容量為\(n\),其中事件\(A\)的個體數為\(m\),總體中事件A發生的概率為\(p=\frac MN\),樣本中,事件\(A\)的比率為\(\widehat p=\frac mn\),則\(\widehat p\)\(p\)的點估計。

有放回抽樣

當抽樣為有放回抽樣時,顯然有

\[A\sim B(n,p) \]

\[EA=np \]

\[DA =np(1-p) \]

證明見https://www.cnblogs.com/lifz-ml/p/15105108.html 常用離散分布

顯然有

\[E\widehat p=E(\frac mn)=\frac {Em}n=p \]

\[D\widehat p=\frac{Dm}{n^2}=\frac{p(1-p)}{n} \]

無放回抽樣

當無放回抽樣時,\(X\)不再服從\(n\)重伯努利分布,服從超幾何分布

\[A\sim h(n,N,M) \]

\[EA=n\frac MN \]

\[DA=\frac{nM(N-M)(N-n)}{N^2(N-1)} \]

以上證明見https://www.cnblogs.com/lifz-ml/p/15105108.html 常用離散分布

\[E\widehat p=\frac {Em}n=\frac MN=p \]

\[D\widehat p=\frac {Dm}{n^2}=\frac{M(N-M)(N-n)}{nN^2(N-1)}=\frac {p(1-p)}n\frac{N-n}{N-1} \]

其中,\(\sqrt{\frac{N-n}{N-1}}\)被稱為有限總體修正系數

均值\(\bar x\)的抽樣分布

  考慮如下場景,對於有限總體\(X\),其分布為離散型,可描述為以下分布列:

取值 概率 頻數
\(x_1\) \(p_1\) \(f_1\)
\(x_2\) \(p_2\) \(f_2\)
\(x_3\) \(p_3\) \(f_3\)
\(x_4\) \(p_4\) \(f_4\)
... ... ...
\(x_k\) \(p_k\) \(f_k\)

  同樣,總體容量為\(N\),樣本容量為\(n\),總體均值為\(\mu\),總體方差為\(\sigma^2\)

有放回抽樣

  顯然每個樣本\(X_i\)獨立同分布於\(X\),當樣本數\(n\)較大時,有

\[\bar x \sim N(\mu,\frac {\sigma^2}n) \]

無論樣本數大小,都有

\[E\bar x =\mu \]

\[D\bar x = \frac {\sigma^2}n \]

無放回抽樣

\[E\bar x=E\frac {\sum_{i=1}^{n} X_i}{n}=EX_i=\mu \]

\[D\bar x = \frac {N-n}{N-1}\frac {\sigma^2}n \]

區間估計

  • 置信區間:設\(\theta\)是總體的一個參數,對於給定的\(\alpha(0<\alpha<1)\),設有兩個統計量\(\hat\theta_{L}\)\(\hat\theta_{U}\),對任意的\(\theta\),有

\[P(\hat\theta_{L}\leq\theta\leq\hat\theta_{U})\geq1-\alpha \]

則稱\([\hat\theta_{L},\hat\theta_{U}]\)置信度為\(1-\alpha\)的置信區間

置信區間的一個解釋:在次抽樣中,每次抽樣所得的\(\hat\theta\)\(1-\alpha\)的概率落在置信區間中。

  • 樞軸量法
    • 構造樣本和待預測變量的函數\(G(x_1,x_2,..x_n,\theta)\)
    • 適當選擇兩常數,使得

    \[P(c\geq G \geq d)=1-\alpha \]

    • \(c\geq G \geq d\)能變形為\(\hat\theta_{L}\leq\theta\leq\hat\theta_{U}\),則置信區間可得。

單正態總體的置信區間

\(\sigma\)已知時\(\mu\)的置信區間

由於

\[\bar x\sim N(\mu,\frac {\sigma^2}{n}) \]

因此,構造樞軸量

\[G=\frac{\bar x-\mu}{\sigma/\sqrt{n}}\sim N(0,1) \]

由標准正態分布表查得,置信度為\(1-\alpha\)的雙側置信區間為\([-z_{1-\frac \alpha 2},z_{1-\frac \alpha 2}]\),則\(\mu\)的置信區間為

\[-z_{1-\frac \alpha 2}\leq\frac{\bar x-\mu}{\sigma/\sqrt{n}}\leq z_{1-\frac \alpha 2} \]

\[\bar x - z_{1-\frac \alpha 2} \frac\sigma{\sqrt{n}}\leq \mu\leq \bar x + z_{1-\frac \alpha 2}\frac\sigma{\sqrt{n}} \]

\(\sigma\)未知時\(\mu\)的置信區間

由於

\[\frac{\bar x-\mu}{\sigma/\sqrt{n}}\sim N(0,1) \]

\[\frac{(n-1)s^2}{\sigma^2}\sim\chi^2(n-1) \]

故,構造樞軸量

\[t=\frac{\bar x-\mu}{s/\sqrt{n}}\sim t(n-1) \]

則置信區間為

\[\bar x - t_{1-\frac \alpha 2}(n-1) \frac s{\sqrt{n}}\leq \mu\leq \bar x + t_{1-\frac \alpha 2}(n-1)\frac s{\sqrt{n}} \]

\(\sigma^2\)的置信區間

以以下統計量為樞軸量

\[\frac{(n-1)s^2}{\sigma^2}\sim\chi^2(n-1) \]

由於\(\chi^2\)是恆為非負的偏態分布,因此,樞軸量區間為

\[[\chi^2_{\frac \alpha 2},\chi^2_{1-\frac \alpha 2}] \]

\(\sigma^2\)的置信區間為

\[[\frac{(n-1)s^2}{\chi^2_{1-\alpha /2}},\frac{(n-1)s^2}{\chi^2_{\alpha /2}}] \]

大樣本置信區間

  以上是正態分布下的樞軸量法,當分布不是正態分布時,尋找樞軸量及其分布會比較困難,因此,當數據量較大時,可用漸近分布構建近似置信區間。以上述抽樣比率\(p\)為例,\(X\sim B(1,p)\),由中心極限定理,有以下近似分布

\[\bar x\sim N(p,\frac {p(1-p)}n) \]

構造樞軸量

\[G=\frac {\bar x-p}{\sqrt{p(1-p)/n}}\sim N(0,1) \]

\(\lambda = z^2_{1-\frac \alpha 2}\),則

\[(\frac {\bar x-p}{\sqrt{p(1-p)/n}})^2\leq \lambda \]

\[(1-\frac \lambda n)p^2-(2p+\frac \lambda n)p+\bar x^2\leq 0 \]

上式兩根為

\[\frac 1{1+\lambda/n}(\bar x +\frac \lambda{2n}\pm\sqrt{\frac{\bar x(1-\bar x)}{n}\lambda+\frac {\lambda^2}{4n^2}}) \]

當n較大時,可得近似區間

\[[\bar x-z_{1-\frac \alpha 2}\sqrt{\frac {\bar x(1-\bar x)}{n}},\bar x+z_{1-\frac \alpha 2}\sqrt{\frac {\bar x(1-\bar x)}{n}}] \]

兩正態總體下的置信區間

  \(x_1,x_2,...x_m\)\(N(\mu_1,\sigma^2_1)\)的樣本,\(y_1,y_2,...y_n\)\(N(\mu_2,\sigma^2_2)\)的樣本,\(s_x\)\(s_y\)分別是兩樣本的方差。

\(\mu_1-\mu_2\)的置信區間

\(\sigma_1^2,\sigma^2_1\)已知時

此時有

\[\bar x-\bar y\sim N(\mu_1-\mu_2,\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}) \]

樞軸量

\[G=\frac {\bar x-\bar y-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}}}\sim N(0,1) \]

\(\mu_1-\mu_2\)的置信區間為

\[\bar x-\bar y\pm z_{1-\frac \alpha 2}\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}} \]

\(\sigma_1^2=\sigma^2_2=\sigma^2\)未知時

\[\bar x-\bar y\sim N(\mu_1-\mu_2,(\frac1{m}+\frac1{n}){\sigma^2}) \]

\[\frac{(m-1)s_x^2+(n-1)s_y^2}{\sigma^2}\sim \chi^2(m+n-2) \]

構造樞軸量

\[t=\sqrt{\frac{mn(m+n-2)}{m+n}}\frac{\bar x-\bar y-(\mu_1-\mu_2)}{\sqrt{(m-1)s^2_x+(n-1)s^2_y}}\sim t(m+n-2) \]

\[s_w^2=\frac{(m-1)s_x^2+(n-1)s_y^2}{m+n-2} \]

則置信區間為

\[\bar x-\bar y \pm \sqrt{\frac {m+n}{mn}}s_wt_{1-\frac \alpha 2}(m+n-2) \]

\(\sigma_2^2=c\sigma^2_1\)且c已知時

方法同上,置信區間為

\[\bar x-\bar y \pm \sqrt{\frac {cm+n}{mn}}s_wt_{1-\frac \alpha 2}(m+n-2) \]

m,n都很大時的近似置信區間

由中心極限定理,可得以下近似分布

\[\frac{\bar x-\bar y-(\mu_1-\mu_2)}{\sqrt{\frac{s_x^2}m+\frac{s_y^2}n}}\sim N(0,1) \]

近似置信區間

\[\bar x-\bar y\pm z_{1-\frac \alpha 2}\sqrt{\frac{s_x^2}m+\frac{s_y^2}n} \]

\(\sigma_1^2/\sigma_2^2\)的置信區間

\[\frac {(m-1)s_x^2}{\sigma_1^2}\sim\chi^2(m-1) \]

\[\frac {(n-1)s_y^2}{\sigma_2^2}\sim\chi^2(n-1) \]

構造樞軸量

\[F=\frac{s_x^2/\sigma^2_1}{s_y^2/\sigma^2_2}\sim F(m-1,n-1) \]

\(\sigma_1^2/\sigma_2^2\)的置信區間為

\[[\frac{s_x^2}{s_y^2}\frac1 {F_{1-\frac\alpha2}(m-1,n-1)},\frac{s_x^2}{s_y^2}\frac1 {F_{\frac\alpha2}(m-1,n-1)}] \]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM