機器學習——極大似然估計

本文轉載自查看原文 2021-06-24 10:49 1701 機器學習

1 前言

極大似然估計方法(Maximum Likelihood Estimate，MLE)也稱為最大概似估計或最大似然估計，是求估計的另一種方法，極大似然估計是1821年首先由德國數學家高斯(C. F. Gauss)提出，但是這個方法通常被歸功於英國的統計學家。羅納德·費希爾(R. A. Fisher)。
極大似然估計，通俗來說，就是利用已知的樣本結果信息，反推最具有可能(最大概率)導致這些樣本結果出現的模型參數值！
換句話說，極大似然估計提供了一種給定觀察數據來評估模型參數的方法，即：“模型已定，參數未知”。假設我們要統計全國人口的身高，首先假設這個身高服從服從正態分布，但是該分布的均值與方差未知。我們沒有人力與物力去統計全國每個人的身高，但是可以通過采樣，獲取部分人的身高，然后通過最大似然估計來獲取上述假設中的正態分布的均值與方差。
最大似然估計中采樣需滿足一個很重要的假設，就是所有的采樣都是獨立同分布的。

2 求解步驟及例子

2.1 一般步驟　　

　　求極大似然函數估計值的一般步驟：

寫出似然函數；
對似然函數取對數，並整理；
求導數；
解似然方程。

　　以下極大似然估計法的具體做法：

　　根據總體的分布，建立似然函數$L(x_1,x_2,...,x_n;\theta_1,\theta_2 ,...,\theta_n)$ ;
　　當 $L$ 關於可微時，(由微積分求極值的原理）可由方程組
　　　　$\frac{\partial L}{\partial \theta_i } =0,i=1,2,...,k$
　　定出 $\widehat{\theta } _i(i=1,2,...,k)$，稱以上方程組為似然方程。
　　因為 $L$ 與$ln \ L$有相同的極大值點，所以 $\widehat{\theta } _i(i=1,2,...,k)$ 也可以由方程組

　　　　$\frac{\partial lnL}{\partial \theta_i } =0,i=1,2,...,k$

　　定出 $\widehat{\theta } _i(i=1,2,...,k)$，稱以上方程組為對數似然方程；$\widehat{\theta } _i(i=1,2,...,k)$ 就是所求參數 $\theta _i(i=1,2,...,k)$ 的極大似然估計量。

2.2 離散型極大似然估計求解

若總體 $X$ 為離散型，其概率分布列為 $P(X=x)=p(x;\theta )$ ，其中 $\theta$ 為未知參數。
設 $(X_1,X_2,...,X_n)$ 是取自總體的樣本容量為 $n$ 的樣本，則 $(X_1,X_2,...,X_n)$ 的聯合分布律為 $\prod \limits _{i=1}^{n}p(x_i,\theta ) $ 。
設 $(X_1,X_2,...,X_n)$ 的一組觀測值為 $(x_1,x_2,...,x_n)$ 。
易知樣本 $X_1,X_2,...,X_n$ 取到觀測值 $x_1,x_2,...,x_n$ 的概率為

　　　　$L(\theta )=L(x_1,x_2,...,x_n;\theta )=\prod \limits _{i=1}^{n}p(x_i;\theta ) $

　　這一概率隨 $\theta$ 的取值而變化，它是 $\theta$ 的函數，稱 $L(\theta )$ 為樣本的似然函數。

極大似然估計法原理就是固定樣本觀測值 $(x_1,x_2,...,x_n)$ ，挑選參數 $\theta$ 使

　　　　 $L(x_1,x_2,...,x_n; \widehat{\theta} )=max \ L(x_1,x_2,...,x_n;\theta)$

得到的 $ \widehat{\theta} $ 與樣本值有關，$\widehat{\theta } (x_1,x_2,...,x_n)$ 稱為參數 $\theta$ 的極大似然估計值，其相應的統計量 $\widehat{\theta }(X_1,X_2,...,X_n)$ 稱為 $\theta$ 的極大似然估計量。極大似然估計簡記為 MLE 或 $\widehat{\theta }$ 。

問題是如何把參數 $\theta$ 的極大似然估計 $\widehat{\theta }$ 求出。更多是利用 $lnL(\theta)$是$ln(\theta)$ 的增函數，故 $lnL(\theta)$ 與 $L(\theta)$ 在同一點處達到最大值，於是對似然函數 $L(\theta)$ 取對數，利用微分學知識轉化為求解對數似然方程

　　　　$\frac{\partial \ ln \ L(\theta )}{\partial \theta_i} =0,\ j=1,2...,k$

解此方程並對解做進一步的判斷。但由最值原理，如果最值存在，此方程組求得的駐點即為所求的最值點，就可以很到參數的極大似然估計。極大似然估計法一般屬於這種情況，所以可以直接按上述步驟求極大似然估計。

　　總結起來，最大似然估計的目的就是：利用已知的樣本結果，反推最有可能（最大概率）導致這樣結果的參數值。

　　例1：有兩外形相同的箱子，各裝100個球，一箱99個白球1個紅球，一箱1個白球99個紅球，現從兩箱中任取一箱，並從箱中任取一球，問：所取的球來自哪一箱 ? 答：第一箱。

　　由於樣本集中的樣本都是獨立同分布，可以只考慮一類樣本集 D，來估計參數向量 θ。記已知的樣本集為：

　　　　$D=\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}$

　　似然函數（linkehood function）：聯合概率密度函數 $p(D \mid \theta)$ 稱為相對於 $\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}$ 的 θ 的似然函數。

　　　　$l(\theta)=p(D \mid \theta)=p\left(x_{1}, x_{2}, \cdots, x_{N} \mid \theta\right)=\prod \limits _{i=1}^{N} p\left(x_{i} \mid \theta\right)$

　　如果 $\hat{\theta}$ 是參數空間中能使似然函數 $l(\theta)$ 最大的 $\theta$ 值，則 $\hat{\theta}$ 應該是“最可能"的參數值，那么 $\hat{\theta}$ 就是 $\theta$ 的極大似然估計量。它是樣本集的函數，記作:

　　　　$\hat{\theta}=d\left(x_{1}, x_{2}, \cdots, x_{N}\right)=d(D)$

　　　　$\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{N}\right) $ 稱作極大似然函數估計值

　　求解極大似然函數

　　ML估計：求使得出現該組樣本的概率最大的 θ 值。

　　　　$\hat{\theta}= \underset{\theta}{arg \ max} \ l(\theta)=\underset{\theta}{arg \ max}\prod \limits _{i=1}^{N} p\left(x_{i} \mid \theta\right)$

　　實際中為了便於分析，定義了對數似然函數：

　　　　$H(\theta)=\ln l(\theta)$

　　　　$\hat{\theta}= \underset{\theta}{arg \ max} \ H(\theta)= \underset{\theta}{arg \ max} \ \ln l(\theta)= \underset{\theta}{arg \ max} \ \sum \limits _{i=1}^{N} \ln p\left(x_{i} \mid \theta\right)$

　　例2：設 $X\sim b(1, p)$ 即 $(0-1)$ 分布； $X_1,X_2,...,X_n$ 是來自 $X$ 的一個樣本，求參數 $P$ 的最大似然估計值。

　　解：設 $x_1,x_2,...,x_n$ 是一個樣本值，$X$ 的分布律為

　　　　$P\{X=x \}=p^x(1-p)^{1-x},\quad x=0,1$

　　得出似然函數為

　　　　$L(p)=\prod \limits _{i=1}^{n}p^{x_i} (1-p)^{1-x_i} =p^{\ \sum \limits _{i=1}^{n}x_i } (1-p)^{\ n-\sum \limits _{i=1}^{n}x_i }$

　　對似然函數取 $ln$ 對數得

　　　　$ln \ L(p)=(\sum \limits _{i=1}^{n}{x_i})ln\ p+(n-\sum \limits _{i=1}^{n}x_i )ln\ (1-p)$

　　使$ln \ L(p)$對概率求導得

　　　　$\frac{d}{dp} ln \ L(p)=\frac{1}{p}\sum\limits _{i=1}^{n} x_i-\frac{1}{1-p}(n-\sum\limits _{i=1}^{n}x_i)$

　　令導數等於 $0$得

　　　　$\frac{d}{dp} ln \ L(p)=0$

　　解得 $p$ 的最大似然估計值

　　　　$\widehat{p}=\frac{1}{n} \sum \limits _{i=1}^{n}x_i=\bar{x} $

　　則 $p$ 的最大似然估計量為

　　　　$\widehat{p}=\frac{1}{n} \sum \limits _{i=1}^{n}X_i=\bar{X} $

　　它與矩估計量是相同的。

2.3 連續型極大似然估計求解

若總體 $X$ 為連續型，其概率密度函數為 $f(x;\theta )$，其中 $\theta $ 為未知參數。
設 $(X_1,X_2,...,X_n)$ 是取自總體的樣本容量為 $n$ 的簡單樣本，則 $(X_1,X_2,...,X_n)$ 的聯合概率密度函數為 $\prod \limits _{i=1}^{n}f(x_i;\theta )$ 。
設 $(X_1,X_2,...,X_n)$ 的一組觀測值為 $(x_1,x_2,...,x_n)$ ，則隨機點 $(X_1,X_2,...,X_n)$ 落在點 $(x_1,x_2,...,x_n)$ 的鄰邊（邊長分別為 $dx_1,dx_2,...,dx_n$ 的 $n$ 維立方體）內的概率近似地為 $\prod \limits _{i=1}^{n}f(x_i;\theta )dx_i$。
考慮函數

　　　　 $L(\theta )=L(x_1,x_2,...,x_n;\theta )=\prod \limits _{i=1}^{n}f(x_i;\theta )$
　　同樣， $L(\theta )$ 稱為樣本的似然函數。

得到的 $ \widehat{\theta} $ 與樣本值有關，$\widehat{\theta } (x_1,x_2,...,x_n)$ 稱為參數 $\theta$ 的極大似然估計值，其相應的統計量 $\widehat{\theta }(X_1,X_2,...,X_n)$ 稱為 $\theta$ 的極大似然估計量。極大似然估計簡記為 MLE 或 $\widehat{\theta }$ 。
問題是如何把參數 $\theta$ 的極大似然估計 $\widehat{\theta }$ 求出。更多是利用 $lnL(\theta)$ 是 $ln(\theta)$ 的增函數，故 $lnL(\theta)$ 與 $L(\theta)$ 在同一點處達到最大值，於是對似然函數 $L(\theta)$ 取對數，利用微分學知識轉化為求解對數似然方程

　　　　$\frac{\partial \ ln \ L(\theta )}{\partial \theta_i} =0,\ j=1,2...,k$

解此方程並對解做進一步的判斷。但由最值原理，如果最值存在，此方程組求得的駐點即為所求的最值點，就可以很到參數的極大似然估計。極大似然估計法一般屬於這種情況，所以可以直接按上述步驟求極大似然估計。

　　例：設 $X\sim N(\mu,\sigma ^2)$ ；$\mu，\sigma ^2$ 為未知參數，$x_1,x_2,...,x_n$ 是來自 $X$ 的一個樣本值，求： $\mu,\sigma ^2$ 的最大似然估計。
　　解：$X$ 的概率密度為:

　　　　$f(x;\mu,\sigma ^2)=\frac{1}{\sqrt{2\pi } \sigma } e^{-\frac{1}{2\sigma ^2}(x-\mu)^2 }$

　　聯合概率密度為

　　　　$p(x_1,x_2,...,x_n)=\prod \limits _{i=1}^{n} \frac{1}{\sqrt{2\pi } \sigma } e^{-\frac{1}{2\sigma ^2}(x_i-\mu)^2 }$

　　於是得似然函數為

　　　　$L(\mu,\sigma ^2)=\prod \limits _{i=1}^{n} \frac{1}{\sqrt{2\pi } \sigma } e^{-\frac{1}{2\sigma ^2}(x_i-\mu)^2 }$

　　似然函數取對數

　　　　$ln \ L=-\frac{n}{2}ln\ (2\pi)- \frac{n}{2}ln\ (\sigma ^2)-\frac{1}{2\sigma ^2} \sum \limits _{i=1}^{n}(x_i-\mu)^2 $

　　似然方程組為：

　　　　$\frac{\partial }{\partial x} ln \ L=\frac{1}{\sigma ^2} \sum \limits _{i=1}^{n} (x_i-\mu)=0$
　　　　$\frac{\partial }{\partial \sigma ^2} ln \ L = \frac{1}{2(\sigma ^2)^2} \sum \limits _{i=1}^{n} (x_i-\mu)-\frac{n}{2(\sigma ^2)} =0$

　　得出：

　　　　$\widehat{\mu}_{mle}=\frac{1}{n} \sum \limits _{i=1}^{n}x_i=\bar{x} $
　　　　$\widehat{\sigma ^2}_{mle}=\frac{1}{n} \sum \limits _{i=1}^{n}(x_i-\bar{x} )^2$

　　故 $\mu ,\sigma ^2$ 的極大似然估計量分別為

　　　　$\frac{1}{n}\sum_\limits {i=1}^{n}X_i=\bar{X} ,\frac{1}{n}\sum_\limits {i=1}^{n}(X_i-\bar{X} )^2=S_{n}^{2}$

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 （轉）從最大似然估計開始，你需要打下的機器學習基石機器學習基礎知識筆記（一）-- 極大似然估計、高斯混合模型與EM算法機器學習--邏輯回歸_LR(內附細說極大似然估計，梯度下降法) 4.機器學習——統計學習三要素與最大似然估計、最大后驗概率估計及L1、L2正則化機器學習-單高斯分布參數估計機器學習中的MLE、MAP、貝葉斯估計極大似然估計機器學習 LR中的參數迭代公式推導——極大似然和梯度下降機器學習 —— 概率圖模型（學習：貝葉斯估計）【機器學習基本理論】詳解最大后驗概率估計（MAP）的理解