機器學習——極大似然估計


1 前言

  • 極大似然估計方法(Maximum Likelihood Estimate,MLE)也稱為最大概似估計或最大似然估計,是求估計的另一種方法,極大似然估計是1821年首先由德國數學家高斯(C. F. Gauss)提出,但是這個方法通常被歸功於英國的統計學家。羅納德·費希爾(R. A. Fisher)。
  • 極大似然估計,通俗來說,就是利用已知的樣本結果信息,反推最具有可能(最大概率)導致這些樣本結果出現的模型參數值!
  • 換句話說,極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”。假設我們要統計全國人口的身高,首先假設這個身高服從服從正態分布,但是該分布的均值與方差未知。我們沒有人力與物力去統計全國每個人的身高,但是可以通過采樣,獲取部分人的身高,然后通過最大似然估計來獲取上述假設中的正態分布的均值與方差。
  • 最大似然估計中采樣需滿足一個很重要的假設,就是所有的采樣都是獨立同分布的。

2 求解步驟及例子

2.1 一般步驟  

  求極大似然函數估計值的一般步驟:

  1. 寫出似然函數;
  2. 對似然函數取對數,並整理;
  3. 求導數 ;
  4. 解似然方程 。

  以下極大似然估計法的具體做法

  根據總體的分布,建立似然函數$L(x_1,x_2,...,x_n;\theta_1,\theta_2 ,...,\theta_n)$ ;
  當 $L$ 關於 可微時,(由微積分求極值的原理)可由方程組
    $\frac{\partial L}{\partial \theta_i } =0,i=1,2,...,k$
  定出 $\widehat{\theta } _i(i=1,2,...,k)$,稱以上方程組為似然方程。
  因為 $L$ 與$ln \  L$有相同的極大值點,所以 $\widehat{\theta } _i(i=1,2,...,k)$ 也可以由方程組

    $\frac{\partial lnL}{\partial \theta_i } =0,i=1,2,...,k$

  定出 $\widehat{\theta } _i(i=1,2,...,k)$,稱以上方程組為對數似然方程;$\widehat{\theta } _i(i=1,2,...,k)$ 就是所求參數 $\theta _i(i=1,2,...,k)$ 的極大似然估計量。

2.2 離散型極大似然估計求解

  • 若總體 $X$ 為離散型,其概率分布列為 $P(X=x)=p(x;\theta )$ ,其中 $\theta$ 為未知參數。
  • 設 $(X_1,X_2,...,X_n)$ 是取自總體的樣本容量為 $n$ 的樣本,則 $(X_1,X_2,...,X_n)$ 的聯合分布律為 $\prod \limits _{i=1}^{n}p(x_i,\theta ) $ 。
  • 設 $(X_1,X_2,...,X_n)$ 的一組觀測值為 $(x_1,x_2,...,x_n)$ 。
  • 易知樣本 $X_1,X_2,...,X_n$ 取到觀測值 $x_1,x_2,...,x_n$ 的概率為

    $L(\theta )=L(x_1,x_2,...,x_n;\theta )=\prod \limits _{i=1}^{n}p(x_i;\theta ) $

   這一概率隨 $\theta$ 的取值而變化,它是 $\theta$ 的函數,稱 $L(\theta )$ 為樣本的似然函數。

  • 極大似然估計法原理就是固定樣本觀測值 $(x_1,x_2,...,x_n)$ ,挑選參數 $\theta$ 使

     $L(x_1,x_2,...,x_n; \widehat{\theta} )=max \ L(x_1,x_2,...,x_n;\theta)$

  • 得到的 $ \widehat{\theta} $ 與樣本值有關,$\widehat{\theta } (x_1,x_2,...,x_n)$ 稱為參數 $\theta$ 的極大似然估計值,其相應的統計量 $\widehat{\theta }(X_1,X_2,...,X_n)$ 稱為 $\theta$ 的極大似然估計量。極大似然估計簡記為 MLE 或 $\widehat{\theta }$ 。
  • 問題是如何把參數 $\theta$ 的極大似然估計 $\widehat{\theta }$ 求出。更多是利用 $lnL(\theta)$是$ln(\theta)$ 的增函數,故 $lnL(\theta)$ 與 $L(\theta)$ 在同一點處達到最大值,於是對似然函數 $L(\theta)$ 取對數,利用微分學知識轉化為求解對數似然方程

    $\frac{\partial \  ln \ L(\theta )}{\partial \theta_i} =0,\ j=1,2...,k$

  • 解此方程並對解做進一步的判斷。但由最值原理,如果最值存在,此方程組求得的駐點即為所求的最值點,就可以很到參數的極大似然估計。極大似然估計法一般屬於這種情況,所以可以直接按上述步驟求極大似然估計。

  總結起來,最大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。

  例1:有兩外形相同的箱子,各裝100個球,一箱99個白球1個紅球,一箱1個白球99個紅球,現從兩箱中任取一箱,並從箱中任取一球,問:所取的球來自哪一箱 ?  答:第一箱。

    

  由於樣本集中的樣本都是獨立同分布,可以只考慮一類樣本集 D,來估計參數向量 θ。記已知的樣本集為:

    $D=\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}$

   似然函數(linkehood function):聯合概率密度函數 $p(D \mid \theta)$ 稱為相對於 $\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}$ 的 θ 的似然函數。

    $l(\theta)=p(D \mid \theta)=p\left(x_{1}, x_{2}, \cdots, x_{N} \mid \theta\right)=\prod \limits _{i=1}^{N} p\left(x_{i} \mid \theta\right)$

  如果  $\hat{\theta}$  是參數空間中能使似然函數  $l(\theta)$ 最大的  $\theta$ 值,則  $\hat{\theta}$   應該是“最可能"的參數值, 那么  $\hat{\theta}$  就是  $\theta$  的極大似然估計 量。它是樣本集的函數,記作:

    $\hat{\theta}=d\left(x_{1}, x_{2}, \cdots, x_{N}\right)=d(D)$

    $\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{N}\right) $  稱作極大似然函數估計值 

  求解極大似然函數

  ML估計:求使得出現該組樣本的概率最大的 θ 值。

     $\hat{\theta}= \underset{\theta}{arg \  max}  \   l(\theta)=\underset{\theta}{arg \  max}\prod \limits _{i=1}^{N} p\left(x_{i} \mid \theta\right)$

  實際中為了便於分析,定義了對數似然函數:

    $H(\theta)=\ln l(\theta)$

    $\hat{\theta}= \underset{\theta}{arg \  max} \  H(\theta)= \underset{\theta}{arg \  max} \  \ln l(\theta)= \underset{\theta}{arg \  max} \  \sum \limits _{i=1}^{N} \ln p\left(x_{i} \mid \theta\right)$

  例2:設 $X\sim b(1, p)$ 即 $(0-1)$ 分布; $X_1,X_2,...,X_n$ 是來自 $X$ 的一個樣本,求參數 $P$ 的最大似然估計值。

  解:設 $x_1,x_2,...,x_n$  是一個樣本值,$X$ 的分布律為

    $P\{X=x \}=p^x(1-p)^{1-x},\quad x=0,1$

  得出似然函數為

    $L(p)=\prod \limits _{i=1}^{n}p^{x_i} (1-p)^{1-x_i} =p^{\ \sum \limits _{i=1}^{n}x_i }  (1-p)^{\ n-\sum \limits _{i=1}^{n}x_i }$

  對似然函數取 $ln$ 對數得

    $ln \ L(p)=(\sum \limits _{i=1}^{n}{x_i})ln\ p+(n-\sum \limits _{i=1}^{n}x_i )ln\ (1-p)$

  使$ln \  L(p)$對概率求導得

    $\frac{d}{dp} ln \ L(p)=\frac{1}{p}\sum\limits _{i=1}^{n} x_i-\frac{1}{1-p}(n-\sum\limits _{i=1}^{n}x_i)$

  令導數等於 $0$得

    $\frac{d}{dp} ln \ L(p)=0$

  解得 $p$ 的最大似然估計值

    $\widehat{p}=\frac{1}{n} \sum \limits _{i=1}^{n}x_i=\bar{x} $

  則 $p$ 的最大似然估計量為

    $\widehat{p}=\frac{1}{n} \sum \limits _{i=1}^{n}X_i=\bar{X} $

  它與矩估計量是相同的。

2.3 連續型極大似然估計求解

  • 若總體 $X$ 為連續型,其概率密度函數為 $f(x;\theta )$,其中 $\theta $ 為未知參數。
  • 設 $(X_1,X_2,...,X_n)$ 是取自總體的樣本容量為 $n$ 的簡單樣本,則 $(X_1,X_2,...,X_n)$ 的聯合概率密度函數為 $\prod \limits _{i=1}^{n}f(x_i;\theta )$ 。
  • 設 $(X_1,X_2,...,X_n)$ 的一組觀測值為 $(x_1,x_2,...,x_n)$ ,則隨機點 $(X_1,X_2,...,X_n)$ 落在點 $(x_1,x_2,...,x_n)$ 的鄰邊(邊長分別為 $dx_1,dx_2,...,dx_n$ 的 $n$ 維立方體)內的概率近似地為 $\prod \limits _{i=1}^{n}f(x_i;\theta )dx_i$。
  • 考慮函數

     $L(\theta )=L(x_1,x_2,...,x_n;\theta )=\prod \limits _{i=1}^{n}f(x_i;\theta )$
     同樣, $L(\theta )$ 稱為樣本的似然函數。

  • 得到的 $ \widehat{\theta} $ 與樣本值有關,$\widehat{\theta } (x_1,x_2,...,x_n)$ 稱為參數 $\theta$ 的極大似然估計值,其相應的統計量 $\widehat{\theta }(X_1,X_2,...,X_n)$ 稱為 $\theta$ 的極大似然估計量。極大似然估計簡記為 MLE 或 $\widehat{\theta }$ 。
  • 問題是如何把參數 $\theta$ 的極大似然估計 $\widehat{\theta }$ 求出。更多是利用 $lnL(\theta)$ 是 $ln(\theta)$ 的增函數,故 $lnL(\theta)$ 與 $L(\theta)$ 在同一點處達到最大值,於是對似然函數 $L(\theta)$ 取對數,利用微分學知識轉化為求解對數似然方程

    $\frac{\partial \  ln \ L(\theta )}{\partial \theta_i} =0,\ j=1,2...,k$

  • 解此方程並對解做進一步的判斷。但由最值原理,如果最值存在,此方程組求得的駐點即為所求的最值點,就可以很到參數的極大似然估計。極大似然估計法一般屬於這種情況,所以可以直接按上述步驟求極大似然估計。 

  例:設 $X\sim N(\mu,\sigma ^2)$ ;$\mu,\sigma ^2$ 為未知參數,$x_1,x_2,...,x_n$ 是來自 $X$ 的一個樣本值,求: $\mu,\sigma ^2$ 的最大似然估計。
  解:$X$ 的概率密度為:

    $f(x;\mu,\sigma ^2)=\frac{1}{\sqrt{2\pi } \sigma } e^{-\frac{1}{2\sigma ^2}(x-\mu)^2 }$

  聯合概率密度為

    $p(x_1,x_2,...,x_n)=\prod \limits _{i=1}^{n} \frac{1}{\sqrt{2\pi } \sigma } e^{-\frac{1}{2\sigma ^2}(x_i-\mu)^2 }$

  於是得似然函數為

    $L(\mu,\sigma ^2)=\prod \limits _{i=1}^{n} \frac{1}{\sqrt{2\pi } \sigma } e^{-\frac{1}{2\sigma ^2}(x_i-\mu)^2 }$

  似然函數取對數

    $ln \ L=-\frac{n}{2}ln\ (2\pi)- \frac{n}{2}ln\ (\sigma ^2)-\frac{1}{2\sigma ^2} \sum \limits _{i=1}^{n}(x_i-\mu)^2 $

  似然方程組為:

    $\frac{\partial }{\partial x} ln \ L=\frac{1}{\sigma ^2} \sum \limits _{i=1}^{n} (x_i-\mu)=0$
    $\frac{\partial }{\partial \sigma ^2} ln \ L = \frac{1}{2(\sigma ^2)^2} \sum \limits _{i=1}^{n} (x_i-\mu)-\frac{n}{2(\sigma ^2)} =0$

  得出:

    $\widehat{\mu}_{mle}=\frac{1}{n} \sum \limits _{i=1}^{n}x_i=\bar{x} $
    $\widehat{\sigma ^2}_{mle}=\frac{1}{n} \sum \limits _{i=1}^{n}(x_i-\bar{x} )^2$

  故 $\mu ,\sigma ^2$ 的極大似然估計量分別為

    $\frac{1}{n}\sum_\limits {i=1}^{n}X_i=\bar{X} ,\frac{1}{n}\sum_\limits {i=1}^{n}(X_i-\bar{X} )^2=S_{n}^{2}$

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM