1 前言
- 極大似然估計方法(Maximum Likelihood Estimate,MLE)也稱為最大概似估計或最大似然估計,是求估計的另一種方法,極大似然估計是1821年首先由德國數學家高斯(C. F. Gauss)提出,但是這個方法通常被歸功於英國的統計學家。羅納德·費希爾(R. A. Fisher)。
- 極大似然估計,通俗來說,就是利用已知的樣本結果信息,反推最具有可能(最大概率)導致這些樣本結果出現的模型參數值!
- 換句話說,極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”。假設我們要統計全國人口的身高,首先假設這個身高服從服從正態分布,但是該分布的均值與方差未知。我們沒有人力與物力去統計全國每個人的身高,但是可以通過采樣,獲取部分人的身高,然后通過最大似然估計來獲取上述假設中的正態分布的均值與方差。
- 最大似然估計中采樣需滿足一個很重要的假設,就是所有的采樣都是獨立同分布的。
2 求解步驟及例子
2.1 一般步驟
求極大似然函數估計值的一般步驟:
- 寫出似然函數;
- 對似然函數取對數,並整理;
- 求導數 ;
- 解似然方程 。
以下極大似然估計法的具體做法:
根據總體的分布,建立似然函數$L(x_1,x_2,...,x_n;\theta_1,\theta_2 ,...,\theta_n)$ ;
當 $L$ 關於 可微時,(由微積分求極值的原理)可由方程組
$\frac{\partial L}{\partial \theta_i } =0,i=1,2,...,k$
定出 $\widehat{\theta } _i(i=1,2,...,k)$,稱以上方程組為似然方程。
因為 $L$ 與$ln \ L$有相同的極大值點,所以 $\widehat{\theta } _i(i=1,2,...,k)$ 也可以由方程組
$\frac{\partial lnL}{\partial \theta_i } =0,i=1,2,...,k$
定出 $\widehat{\theta } _i(i=1,2,...,k)$,稱以上方程組為對數似然方程;$\widehat{\theta } _i(i=1,2,...,k)$ 就是所求參數 $\theta _i(i=1,2,...,k)$ 的極大似然估計量。
2.2 離散型極大似然估計求解
- 若總體 $X$ 為離散型,其概率分布列為 $P(X=x)=p(x;\theta )$ ,其中 $\theta$ 為未知參數。
- 設 $(X_1,X_2,...,X_n)$ 是取自總體的樣本容量為 $n$ 的樣本,則 $(X_1,X_2,...,X_n)$ 的聯合分布律為 $\prod \limits _{i=1}^{n}p(x_i,\theta ) $ 。
- 設 $(X_1,X_2,...,X_n)$ 的一組觀測值為 $(x_1,x_2,...,x_n)$ 。
- 易知樣本 $X_1,X_2,...,X_n$ 取到觀測值 $x_1,x_2,...,x_n$ 的概率為
$L(\theta )=L(x_1,x_2,...,x_n;\theta )=\prod \limits _{i=1}^{n}p(x_i;\theta ) $
這一概率隨 $\theta$ 的取值而變化,它是 $\theta$ 的函數,稱 $L(\theta )$ 為樣本的似然函數。
- 極大似然估計法原理就是固定樣本觀測值 $(x_1,x_2,...,x_n)$ ,挑選參數 $\theta$ 使
$L(x_1,x_2,...,x_n; \widehat{\theta} )=max \ L(x_1,x_2,...,x_n;\theta)$
- 得到的 $ \widehat{\theta} $ 與樣本值有關,$\widehat{\theta } (x_1,x_2,...,x_n)$ 稱為參數 $\theta$ 的極大似然估計值,其相應的統計量 $\widehat{\theta }(X_1,X_2,...,X_n)$ 稱為 $\theta$ 的極大似然估計量。極大似然估計簡記為 MLE 或 $\widehat{\theta }$ 。
- 問題是如何把參數 $\theta$ 的極大似然估計 $\widehat{\theta }$ 求出。更多是利用 $lnL(\theta)$是$ln(\theta)$ 的增函數,故 $lnL(\theta)$ 與 $L(\theta)$ 在同一點處達到最大值,於是對似然函數 $L(\theta)$ 取對數,利用微分學知識轉化為求解對數似然方程
$\frac{\partial \ ln \ L(\theta )}{\partial \theta_i} =0,\ j=1,2...,k$
- 解此方程並對解做進一步的判斷。但由最值原理,如果最值存在,此方程組求得的駐點即為所求的最值點,就可以很到參數的極大似然估計。極大似然估計法一般屬於這種情況,所以可以直接按上述步驟求極大似然估計。
總結起來,最大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。
例1:有兩外形相同的箱子,各裝100個球,一箱99個白球1個紅球,一箱1個白球99個紅球,現從兩箱中任取一箱,並從箱中任取一球,問:所取的球來自哪一箱 ? 答:第一箱。
由於樣本集中的樣本都是獨立同分布,可以只考慮一類樣本集 D,來估計參數向量 θ。記已知的樣本集為:
$D=\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}$
似然函數(linkehood function):聯合概率密度函數 $p(D \mid \theta)$ 稱為相對於 $\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}$ 的 θ 的似然函數。
$l(\theta)=p(D \mid \theta)=p\left(x_{1}, x_{2}, \cdots, x_{N} \mid \theta\right)=\prod \limits _{i=1}^{N} p\left(x_{i} \mid \theta\right)$
如果 $\hat{\theta}$ 是參數空間中能使似然函數 $l(\theta)$ 最大的 $\theta$ 值,則 $\hat{\theta}$ 應該是“最可能"的參數值, 那么 $\hat{\theta}$ 就是 $\theta$ 的極大似然估計 量。它是樣本集的函數,記作:
$\hat{\theta}=d\left(x_{1}, x_{2}, \cdots, x_{N}\right)=d(D)$
$\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{N}\right) $ 稱作極大似然函數估計值
求解極大似然函數
ML估計:求使得出現該組樣本的概率最大的 θ 值。
$\hat{\theta}= \underset{\theta}{arg \ max} \ l(\theta)=\underset{\theta}{arg \ max}\prod \limits _{i=1}^{N} p\left(x_{i} \mid \theta\right)$
實際中為了便於分析,定義了對數似然函數:
$H(\theta)=\ln l(\theta)$
$\hat{\theta}= \underset{\theta}{arg \ max} \ H(\theta)= \underset{\theta}{arg \ max} \ \ln l(\theta)= \underset{\theta}{arg \ max} \ \sum \limits _{i=1}^{N} \ln p\left(x_{i} \mid \theta\right)$
例2:設 $X\sim b(1, p)$ 即 $(0-1)$ 分布; $X_1,X_2,...,X_n$ 是來自 $X$ 的一個樣本,求參數 $P$ 的最大似然估計值。
解:設 $x_1,x_2,...,x_n$ 是一個樣本值,$X$ 的分布律為
$P\{X=x \}=p^x(1-p)^{1-x},\quad x=0,1$
得出似然函數為
$L(p)=\prod \limits _{i=1}^{n}p^{x_i} (1-p)^{1-x_i} =p^{\ \sum \limits _{i=1}^{n}x_i } (1-p)^{\ n-\sum \limits _{i=1}^{n}x_i }$
對似然函數取 $ln$ 對數得
$ln \ L(p)=(\sum \limits _{i=1}^{n}{x_i})ln\ p+(n-\sum \limits _{i=1}^{n}x_i )ln\ (1-p)$
使$ln \ L(p)$對概率求導得
$\frac{d}{dp} ln \ L(p)=\frac{1}{p}\sum\limits _{i=1}^{n} x_i-\frac{1}{1-p}(n-\sum\limits _{i=1}^{n}x_i)$
令導數等於 $0$得
$\frac{d}{dp} ln \ L(p)=0$
解得 $p$ 的最大似然估計值
$\widehat{p}=\frac{1}{n} \sum \limits _{i=1}^{n}x_i=\bar{x} $
則 $p$ 的最大似然估計量為
$\widehat{p}=\frac{1}{n} \sum \limits _{i=1}^{n}X_i=\bar{X} $
它與矩估計量是相同的。
2.3 連續型極大似然估計求解
- 若總體 $X$ 為連續型,其概率密度函數為 $f(x;\theta )$,其中 $\theta $ 為未知參數。
- 設 $(X_1,X_2,...,X_n)$ 是取自總體的樣本容量為 $n$ 的簡單樣本,則 $(X_1,X_2,...,X_n)$ 的聯合概率密度函數為 $\prod \limits _{i=1}^{n}f(x_i;\theta )$ 。
- 設 $(X_1,X_2,...,X_n)$ 的一組觀測值為 $(x_1,x_2,...,x_n)$ ,則隨機點 $(X_1,X_2,...,X_n)$ 落在點 $(x_1,x_2,...,x_n)$ 的鄰邊(邊長分別為 $dx_1,dx_2,...,dx_n$ 的 $n$ 維立方體)內的概率近似地為 $\prod \limits _{i=1}^{n}f(x_i;\theta )dx_i$。
- 考慮函數
$L(\theta )=L(x_1,x_2,...,x_n;\theta )=\prod \limits _{i=1}^{n}f(x_i;\theta )$
同樣, $L(\theta )$ 稱為樣本的似然函數。
- 得到的 $ \widehat{\theta} $ 與樣本值有關,$\widehat{\theta } (x_1,x_2,...,x_n)$ 稱為參數 $\theta$ 的極大似然估計值,其相應的統計量 $\widehat{\theta }(X_1,X_2,...,X_n)$ 稱為 $\theta$ 的極大似然估計量。極大似然估計簡記為 MLE 或 $\widehat{\theta }$ 。
- 問題是如何把參數 $\theta$ 的極大似然估計 $\widehat{\theta }$ 求出。更多是利用 $lnL(\theta)$ 是 $ln(\theta)$ 的增函數,故 $lnL(\theta)$ 與 $L(\theta)$ 在同一點處達到最大值,於是對似然函數 $L(\theta)$ 取對數,利用微分學知識轉化為求解對數似然方程
$\frac{\partial \ ln \ L(\theta )}{\partial \theta_i} =0,\ j=1,2...,k$
- 解此方程並對解做進一步的判斷。但由最值原理,如果最值存在,此方程組求得的駐點即為所求的最值點,就可以很到參數的極大似然估計。極大似然估計法一般屬於這種情況,所以可以直接按上述步驟求極大似然估計。
例:設 $X\sim N(\mu,\sigma ^2)$ ;$\mu,\sigma ^2$ 為未知參數,$x_1,x_2,...,x_n$ 是來自 $X$ 的一個樣本值,求: $\mu,\sigma ^2$ 的最大似然估計。
解:$X$ 的概率密度為:
$f(x;\mu,\sigma ^2)=\frac{1}{\sqrt{2\pi } \sigma } e^{-\frac{1}{2\sigma ^2}(x-\mu)^2 }$
聯合概率密度為
$p(x_1,x_2,...,x_n)=\prod \limits _{i=1}^{n} \frac{1}{\sqrt{2\pi } \sigma } e^{-\frac{1}{2\sigma ^2}(x_i-\mu)^2 }$
於是得似然函數為
$L(\mu,\sigma ^2)=\prod \limits _{i=1}^{n} \frac{1}{\sqrt{2\pi } \sigma } e^{-\frac{1}{2\sigma ^2}(x_i-\mu)^2 }$
似然函數取對數
$ln \ L=-\frac{n}{2}ln\ (2\pi)- \frac{n}{2}ln\ (\sigma ^2)-\frac{1}{2\sigma ^2} \sum \limits _{i=1}^{n}(x_i-\mu)^2 $
似然方程組為:
$\frac{\partial }{\partial x} ln \ L=\frac{1}{\sigma ^2} \sum \limits _{i=1}^{n} (x_i-\mu)=0$
$\frac{\partial }{\partial \sigma ^2} ln \ L = \frac{1}{2(\sigma ^2)^2} \sum \limits _{i=1}^{n} (x_i-\mu)-\frac{n}{2(\sigma ^2)} =0$
得出:
$\widehat{\mu}_{mle}=\frac{1}{n} \sum \limits _{i=1}^{n}x_i=\bar{x} $
$\widehat{\sigma ^2}_{mle}=\frac{1}{n} \sum \limits _{i=1}^{n}(x_i-\bar{x} )^2$
故 $\mu ,\sigma ^2$ 的極大似然估計量分別為
$\frac{1}{n}\sum_\limits {i=1}^{n}X_i=\bar{X} ,\frac{1}{n}\sum_\limits {i=1}^{n}(X_i-\bar{X} )^2=S_{n}^{2}$