【概率論與數理統計】小結9-2 - 點估計


:點估計是參數估計中的一種。點估計常用的方法有兩種:矩估計和最大似然估計。之所以要做估計,最本質的問題是我們能獲得的信息量(樣本的數量)有限,因此只能在有限的信息中,用合理的方法、在可接受的精度或置信度下做近似計算,以便對總體有一個大概的認識,也就是將某種在有限樣本中獲得的規律,推廣到更大的樣本量上。

 

0. 矩估計


0.1 引例

某大學新生有4000人參加第一學期的《微積分》考試。現隨機選出100名同學,計算得到他們的平均成績為68.5分,標准差為12.2分,試估計全體同學的平均成績。

如果我們使用這100名同學的平均成績來估計全體同學的平均成績,那么我們就完成了一次矩估計。

  • 記總體(所有4000名學生)的平均成績為$\mu$,此時的$\mu$就是總體的一階原點矩$\alpha_1$;
  • 100名學生的平均成績就是樣本的一階原點矩$A_1$;
  • 用樣本的一階原點矩估計總體的一階原點矩,得到$\hat{\mu} = 68.5$.

根據小結5中的約定,我們使用以下符號表示不同的矩:

  • $\alpha_k$: 總體k階原點矩;
  • $\beta_k$: 總體k階中心矩;
  • $A_k$: 樣本k階原點矩;
  • $B_k$: 樣本k階中心矩.

 

0.2 統計思想

矩估計是英國統計學家卡爾·皮爾遜於1894年提出的。是基於一種簡單的 “替換” 思想建立起來的一種估計方法。其基本思想是以樣本矩估計總體矩,以樣本矩的函數估計總體矩的函數。

 

0.3 理論依據

辛欽大數定律和依概率收斂的性質。

假設$\alpha_j = E(X^j)$存在,其中$j = 1, 2, ..., k$. 則

$$\hat{\alpha_j} = A_j = \frac{1}{n}\sum_{i=1}^{n}{X_i^j}, \ j = 1, 2, ..., k, \  \to \ \alpha_j \ with \ probability \ p , \ j = 1, 2, ..., k$$

$$h(\hat{\alpha_1}, \ \hat{\alpha_2}, \ ..., \ \hat{\alpha_k}) = h(A_1, \ A_2, \ ..., \ A_k) \ \to \ h(\alpha_1, \ \alpha_2, \ ..., \ \alpha_k) \ with \ probability \ p$$

上面用公式表示了用樣本的原點矩估計總體的原點矩或用樣本原點矩的函數估計總體原點矩的函數,將原點矩換成中心矩也同樣成立。

 

0.4 建立矩估計的步驟

簡單來說,只要可以將一個待估計的參數用總體矩(單個矩或不同矩的函數)表示出來,然后用對應的樣本矩替換總體矩就可以了。

設總體有k個未知參數,$\theta_1, \theta_2, ..., \theta_k$, $X_1, X_2, ..., X_n$是來自總體$X$的樣本,假設總體的前k階矩存在。

矩估計步驟:

(1)建立$(\theta_1, ..., \theta_k)$與$(\alpha_1, .., \alpha_k)$的聯系:求總體前$k$階原點矩關於$k$個參數的函數(即,用未知參數表示總體矩),

$$\alpha_i = E(X^{(i)}) = h_i(\theta_1, ..., \theta_k), i = 1, ..., k.$$

(2)求各參數關於$k$階原點矩的反函數(即,用總體距表示未知參數),

$$\theta_i = g_i(\alpha_1, ..., \alpha_k), i = 1, ..., k$$

(3)以樣本各階矩$A_1, ..., A_k$代替總體$X$各階矩$\alpha_1, ..., \alpha_k$,得到各參數的矩估計:

$$\hat{\theta_i} = g_i(A_1, ..., A_k)$$

在實際應用時,為求解方便,也可用總體中心矩$\beta_i$替換總體原點矩$\alpha_i$,相應的,以樣本中心矩$B_i$估計總體中心矩$\beta_i$.

Notice: 采用的矩不同,得出的矩估計也可能不同。

 

0.5 常見的矩估計量

參考小結7,part2部分,總結了常見的統計量(所有的樣本矩都是統計量,有些統計量本身也是樣本矩)以及使用樣本矩估計總體矩的例子。

 

0.6 總體方差的估計

總體方差的估計是一個比較特殊的例子,值得單獨拿出來說一說。這是因為總體方差與總體的二階中心矩相同,但是樣本方差的計算公式與樣本的二階中心矩並不相同。

設$X$是一個隨機變量,且方差存在,總體和樣本的均值分別為$\mu, \ \bar{X}$. 則下面是該隨機變量4種不同的數字特征的計算方式:

  • 總體方差用$\sigma^2$表示,按照方差的定義可得$\sigma^2 = E[X - E(X)]^2 = \frac{1}{n}\sum_{i=1}^{n}{(X_i - \mu)^2}$;
  • 按照中心矩的定義可得,總體二階中心矩$\beta_2 = E[X - E(X)]^2 = \frac{1}{n}\sum_{i=1}^{n}{(X_i - \mu)^2}$,同$\sigma^2$;
  • 同樣,樣本二階中心矩$B_2 = E[X - \bar{X}]^2 = \frac{1}{n}\sum_{i=1}^{n}{(X_i - \bar{X})^2}$;
  • 樣本方差$S^2 = \frac{1}{n - 1}\sum_{i=1}^{n}{(X_i - \bar{X})^2}$,參考小結5中,2.3 樣本方差的計算.

此時我們有兩種方式來對總體方差進行估計,樣本的二階中心矩(矩估計)或樣本方差(非矩估計)。那么哪一個估計更好呢?此時可以使用小結9中"點估計的評價"來比較這兩種方法。參考wiki中的證明過程,我們可以知道:

  • 使用樣本的二階中心矩估計總體方差時,估計量的期望$E(B_2) = (1 - \frac{1}{n})\sigma^2 \leq \sigma^2$,由此可以看到該方法的估計始終是偏小的,存在系統性誤差;
  • 使用樣本的方差估計總體方差時,估計量的期望$E(S^2) = \sigma^2 = \sigma^2$,因此樣本的方差是總體方差的無偏估計,比樣本的二階中心矩更優。

樣本二階中心矩與樣本方差之間,只有分母上有差別,當n比較小的時候,$n$與$(n-1)$之間的差別對結果的影響很大,但是當$n \to +\infty$時,這種差異就可以忽略了。以上就是我們為什么使用樣本方差而不是樣本二階中心矩來估計總體方差的原因(此時並不是矩估計)。

 

1. 最大似然估計


1.1 引例(基本原理)

考察以下例子:假設一個罐中放着許多白球和黑球,並假定已經知道兩種球的數目之比是$1 : 3$,但不知道哪種顏色的球多。如果采用有放回抽樣方法從罐中取5個球,觀察結果為:黑、白、黑、黑、黑,估計取到黑球的概率$p$.

在該題目中,總體服從參數為p的伯努利分布。

:設$X = 1, 取到黑球; X = 0, 取到白球$, 則$X \sim B(1, p)$.

        p為取到黑球的概率,未知,$p = 1/4 或 3/4$.

        抽取容量為5的樣本$X_1, ..., X_5$,觀察值為$1, 0, 1, 1, 1$.

        當$p = 1/4$時,出現本次觀察結果的概率為$(\frac{1}{4})^4(\frac{3}{4}) = \frac{3}{1024}$;

        當$p = 3/4$時,出現本次觀察結果的概率為$(\frac{3}{4})^4(\frac{1}{4}) = \frac{81}{1024}$.

        由於$3/1024 < 81/1024$, 因此認為$p = 3/4$比$p = 1/4$更有可能,於是$\hat{p} = 3/4$更為合理.

由上面的求解過程可以看到,我們嘗試了所有可能的取值($p = 1/4$或$p = 3/4$),然后選擇了一個最有可能產生出觀察到的樣本($1, 0, 1, 1, 1$)的取值($p = 3/4$)。

 

1.2 定義

設離散型總體$X \sim p(x; \theta), \theta 未知$. $X_1, ..., X_n$為樣本,其觀察值為$x_1, ..., x_n$,則事件$\{X_1 = x_1, ..., X_n = x_n\}$發生的概率為:

$$p(X_1,X_2, ..., X_n) = L(\theta) = \prod_{i=1}^{n}p(x_i; \theta)  \quad  \cdots \ (1-1)$$

式1-1表示所有觀察值$x_1, ..., x_n$同時發生的概率(所有單個觀察值發生概率的乘積). 這個乘積有一個專門的名字:似然函數.

參考1.1中的例子,我們希望參數$\theta$的估計值$\hat{\theta}$能夠使得所有觀察值同時發生的概率最大,也就是似然函數取到最大值:

$$L(\hat{\theta}(x_1, ..., x_n)) = max L(\theta) \quad  \cdots \ (1-2)$$

 式子1-2就是極大似然估計的基本原理:將似然函數取到最大值時參數的取值作為最優的估計值;反過來也可以嘗試參數所有可能的取值,使得似然函數取到最大值的取值就是最優估計值。

上面的不同思路也反映了求解的兩種方式:第一種是直接求似然函數的極大值;第二種是帶入所有參數比較函數值的大小。

 

1.3 求最大似然估計的一般步驟(以下以離散總體為例)

1.3.1 寫出似然函數

$L = L(\theta_1, \theta_2, ..., \theta_m) = L(x_1, x_2, ..., x_n; \theta_1, \theta_2, ..., \theta_m) = \prod_{i=1}^{n}p(X_i = x_i; \theta_1, \theta_2, ..., \theta_m) $

由於每個樣本之間都是獨立同分布的,因此這些樣本的聯合概率密度函數就是所有單個樣本概率密度函數的乘積(即,這些樣本所代表的事件同時發生)

1.3.2 對似然函數取對數

$ln L = \sum_{i=1}^{n}{ln P(X_i = x_i; \theta_1, \theta_2, ..., \theta_m)}$

取對數是為了計算方便(對多項式加法求導比對多項連乘求導簡單)

1.3.3 建立似然方程

$$\frac{\partial lnL(\theta_1, ..., \theta_m)}{\partial \theta_j} = 0, (j = 1, ..., m)$$

對各個參數求偏導,令偏導數等於0.

1.3.4 解似然方程

解上面的方程,就可以求出參數$\theta_j$的最大似然估計。若似然函數不可微,需要用定義求。

 

1.4 幾點說明

  •  極大似然估計值是一個數值,極大似然估計量是一個隨機變量(同時也是一個統計量);
  • 似然函數是能夠反映試驗結果發生的概率大小的函數;
  • 從極大似然估計的定義可以看出來,使用該方法時總體的概率密度函數形式是明確的(包含未知參數);
  • 未知參數可能不止一個,設為$\theta = (\theta_1, \theta_2, ..., \theta_k)$;
  • 若$L(\theta)$關於某個$\theta_i$是單調遞增(減)函數,則$\theta_i$的極大似然估計為$\theta_i$的最大(小)值(與樣本無關)。

 

1.5 經典例題

例1

設$X$的概率密度為$f(x, \theta) = \sqrt{\theta} x^{\sqrt{\theta} - 1}, 0 \leq x \leq 1; f(x, \theta) = 0, 其他$. $X_1, ..., X_n$是樣本,求$\theta$的極大似然估計量.

若已獲得$n = 10$的樣本值如下:

0.43, 0.01, 0.30, 0.04, 0.54, 0.14, 0.99, 0.18, 0.98, 0.02

求$\theta$的極大似然估計值.

:$L(\theta) = \prod_{i=1}^{n} f(x_i; \theta) = \prod_{i=1}^{n} \sqrt{\theta} x_i^{\sqrt{\theta} - 1} = \theta^{\frac{n}{2}} (\prod_{i=1}^{n} x_i)^{\sqrt{\theta} - 1}$

取對數后,$ln \ L(\theta) = \frac{n}{2} ln \ \theta + (\sqrt{\theta} - 1) \sum_{i=1}^{n}{ln \ x_i}$

建立似然方程,$\frac{d \ ln \ L(\theta)}{d \theta} = \frac{n}{2} \cdot \frac{1}{\theta} + \frac{1}{2 \sqrt{\theta}} \sum_{i=1}^{n}{ln \ x_i} = 0$

$\Rightarrow \frac{n}{\sqrt{\theta}} = - \sum_{i=1}^{n}{ln \ x_i} \Rightarrow \sqrt{\theta} = -n / \sum_{i=1}^{n}{ln \ x_i}$ 

最終可以得到參數$\theta$的極大似然估計量為:$\hat{\theta} = \frac{n^2}{(\sum_{i=1}^{n}{ln \ X_i})^2}$

將上面的樣本值帶入估計量,可以得到$\theta$的極大似然估計值為:$\hat{\theta} = 0.305$

例2

設總體$X \sim N(\mu, \sigma^2) $, $X_1, ..., X_n$是樣本,$\mu, \sigma^2$均未知. 求$\mu, \sigma^2$的極大似然估計.

解:$L(\mu, \sigma^2) = (\frac{1}{\sqrt{2\pi\sigma^2}})^n \cdot e^{- \sum_{i=1}^{n}{\frac{(x_i - \mu)^2}{2\sigma^2}}}$

取對數得,$ln \ L(\mu, \sigma^2) = n \ ln\frac{1}{\sqrt{2\pi}} - \frac{n}{2}ln \ \sigma^2 - \sum_{i=1}^{n}{\frac{(x_i - \mu)^2}{2\sigma^2}}$

建立似然方程,$\frac{\partial }{\partial \mu}\ ln \ L(\mu, \sigma^2) = \frac{1}{\sigma^2} \sum_{i=1}^{n}(x_i - \mu) = 0$, 

$\frac{\partial }{\partial \sigma^2}\ ln \ L(\mu, \sigma^2) = \frac{n}{2\sigma^2}  + \frac{1}{2\sigma^4} \sum_{i=1}^{n}(x_i - \mu)^2 = 0$

解方程得,$\hat{\mu} = \bar{X}, \hat{\sigma^2} = B_2$

這里利用最大似然估計得到的結果與矩估計得到的結果相同。

 

2. 矩估計與最大似然估計的比較


矩估計和最大似然估計是兩個不同的點估計方法。有時候這兩種方法得到的結果相同,有時候不同。

使用矩估計時,不需要知道隨機變量的概率密度函數(有些情況可以假設為正態分布),需要將未知參數表示為總體矩的函數;

使用最大似然估計時,需要知道隨機變量概率密度函數的確定形式(可以包含參數),然后通過求似然函數的極值的方式得到最優解。

從它們的定義和求解過程來看,矩估計更簡單一些但是適用范圍也比較窄(無法表示為總體矩的函數就無法使用該方法);最大似然估計需要的條件更多,適用范圍也更廣一些。

 

 歡迎閱讀“概率論與數理統計及Python實現”系列文章

 

Reference


https://en.wikipedia.org/wiki/Bias_of_an_estimator#Sample_variance

https://zh.wikipedia.org/wiki/%E7%9F%A9%E4%BC%B0%E8%AE%A1

中國大學MOOC:浙江大學&哈工大,概率論與數理統計 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM