最大似然估計


最大似然估計

最大似然估計(Maximum likelihood estimation)可以簡單理解為我們有一堆數據(數據之間是獨立同分布的.iid),為了得到這些數據,我們設計了一個模型,最大似然估計就是求使模型能夠得到這些數據的最大可能性的參數,這是一個統計(statistics)問題

與概率(probability)的區別:概率是我們已知參數\(\theta\)來預測結果,比如對於標准高斯分布\(X~N(0, 1)\),我們知道了確切的表達式,那么最終通過模型得到的結果我們大致也可以猜測到。但是對於統計問題,我們預先知道了結果,比如我們有10000個樣本(他們可能服從某一分布,假設服從高斯分布),我們的目的就是估計\(\mu \& \sigma\)使得我們假設的模型能夠最大概率的生成我們目前知道的樣本

一、似然函數定義

似然函數是一種關於統計模型中的參數的函數,表示模型參數中的似然性,用\(L\)表示,給定輸出\(x\)時,關於參數\(\theta\)的似然函數\(L(\theta|x)\)在數值上等於給定參數\(\theta\)后變量X的概率

\[L(\theta|x) = P(X=x|\theta) \]

在統計學習中,我們有\(N\)個樣本\(x_{1}, x_{2}, x_{3}...x_{N}\),假設他們之間是相互獨立的,那么似然函數

\[L(\theta) = P(X_{1}=x_{1}, X_{2}=x_{2}...X_{N}=x_{N}) = \prod_{i=1}^{N}p(X_{i}=x_{i}) = \prod_{i=1}^{N}p(x_{i},\theta) \]

最大似然函數的目的就是求解一個\(\theta\)使得\(L(\theta)\)最大化

二、最大似然估計的無偏性判斷

這里用一維高斯分布來判斷\(\mu\)\(\sigma^2\)的無偏性及有偏性,一維高斯分布函數

\[f(x|\theta)=f(x|\mu, \sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma ^2}} \]

其中最大似然估計

\[MLE:\hat\theta = \underset {\theta}{\operatorname {arg\,max}}~lnL(X|\mu, \sigma) \]

分為三種情況

(1)已知\(\sigma^{2}\),未知\(\mu\),求\(\mu\)的最大似然估計量\(\hat\mu\)

似然函數:\(L(X|\mu)=\prod_{i=1}^{N}p(x_{i}|\mu)=\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_{i}-\mu)^2}{2\sigma ^2}}\)

兩邊分別取對數:\(lnL(X|\mu)=ln\prod_{i=1}^{N}p(x_{i}|\mu)=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_{i}-\mu)^2\)

兩邊對\(\mu\)求導

\[\frac{dlnL(X|\mu)}{d\mu}=\sum_{i=1}^{N}\frac{1}{\sigma^2}(x_{i}-\mu)=0 \\ \sum_{i=1}^{N}(x_{i}-\mu)=0 \rightarrow \sum_{i=1}^{N}x_{i}-N\mu=0 \\ \hat \mu = \frac{1}{N}\sum_{i=1}^{N}x_{i}= \overline{X} \]

可以發現,當\(\sigma^{2}\)已知時,\(\mu\)的最大似然估計量只受樣本的影響,\(\hat \mu\)\(\mu\)的無偏估計

\(E[\hat \mu]=E[\frac{1}{N}\sum_{i=1}^{N}x_{i}]=\frac{1}{N}\sum_{i=1}^{N}E[x_{i}]=\frac{1}{N}N\mu=\mu\)

(2)已知\(\mu\),未知\(\sigma^{2}\),求\(\sigma^{2}\)的最大似然估計量\(\hat\sigma^{2}\)

似然函數:\(L(X|\sigma^{2})=\prod_{i=1}^{N}p(x_{i}|\sigma^{2})=\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_{i}-\mu)^2}{2\sigma ^2}}\)

兩邊分別取對數:\(lnL(X|\sigma^{2})=ln\prod_{i=1}^{N}p(x_{i}|\sigma^{2})=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_{i}-\mu)^2\)

兩邊對\(\sigma^{2}\)求導

\[\frac{dlnL(X|\sigma^{2})}{d\sigma^{2}}=\sum_{i=1}^{N}\frac{1}{\sigma^2}(x_{i}-\mu)=0 \\ -\frac{N}{2\sigma^{2}}+\frac{1}{2\sigma^{4}}\sum_{i=1}^{N}(x_{i}-\mu)^{2}=0 \\ \hat \sigma^{2} = \frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu)^2 \]

可以發現,當\(\mu\)已知時,\(\hat \sigma^{2}\)的最大似然估計量受到樣本以及樣本均值的影響,\(\hat \sigma^{2}\)\(\sigma^{2}\)的無偏估計

\(E[\hat \sigma^{2}]=E[\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu)^{2}]=E[\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\frac{1}{N}\sum_{i=1}^{N}2x_{i}\mu+\frac{1}{N}\sum_{i=1}^{N}\mu^{2}] = E[\frac{1}{N}\sum_{N}^{i=1}x_{i}^{2}-2\mu^{2}+\mu^{2}] \\ = E[\frac{1}{N}\sum_{i=1}^{N}x_{i}^2-\mu^{2}] = \frac{1}{N}\sum_{i=1}^{N}(E(x_{i}^2)-E^{2}(x_{i})) = D(x_{i}) = \sigma^{2}\)

(3)\(\mu\)\(\sigma^{2}\)均未知,求\(\mu\)\(\sigma^{2}\)的最大似然估計量\(\hat\mu\)\(\hat\sigma^{2}\)

似然函數:\(L(X|\mu, \sigma^{2})=\prod_{i=1}^{N}p(x_{i}|\mu, \sigma^{2})=\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_{i}-\mu)^2}{2\sigma ^2}}\)

兩邊分別取對數:\(lnL(X|\mu, \sigma^{2})=ln\prod_{i=1}^{N}p(x_{i}|\mu, \sigma^{2})=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_{i}-\mu)^2\)

  • 兩邊對\(\mu\)求導

\[\frac{dlnL(X|\mu)}{d\mu}=\sum_{i=1}^{N}\frac{1}{\sigma^2}(x_{i}-\mu)=0 \\ \sum_{i=1}^{N}(x_{i}-\mu)=0 \rightarrow \sum_{i=1}^{N}x_{i}-N\mu=0 \\ \hat \mu = \frac{1}{N}\sum_{i=1}^{N}x_{i}= \overline{X} \]

  • 兩邊對\(\sigma^{2}\)求導

\[\frac{dlnL(X|\sigma^{2})}{d\sigma^{2}}=\sum_{i=1}^{N}\frac{1}{\sigma^2}(x_{i}-\mu)=0 \\ -\frac{N}{2\sigma^{2}}+\frac{1}{2\sigma^{4}}\sum_{i=1}^{N}(x_{i}-\mu)^{2}=0 \\ \hat \sigma^{2} = \frac{1}{N}\sum_{i=1}^{N}(x_{i}-\hat \mu)^2 = \frac{1}{N}\sum_{i=1}^{N}(x_{i}-\overline X)^2 \]

可以發現,當\(\mu\)的最大似然估計量\(\hat \mu\)只受樣本的影響(因為在計算時\(\sigma^{2}\)被消去了),\(\hat \mu\)\(\mu\)的無偏估計

\(E[\hat \mu]=E[\overline X]=E[\frac{1}{N}\sum_{i=1}^{N}x_{i}]=\frac{1}{N}\sum_{i=1}^{N}E[x_{i}]=\frac{1}{N}N\mu=\mu\)

但是在計算\(\sigma^{2}\)的最大似然估計量\(\hat \sigma^{2}\)不僅受到樣本的影響,還受到\(\mu\)的影響,其中\(\mu\)未知,只能用計算出的\(\hat \mu\)來替代,通過下面計算可以發現\(\hat \sigma^{2}\)是$ \sigma^{2}$的有偏估計

\[\begin{aligned} E[\hat \sigma^{2}] &= E[\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\overline X)^{2}] = E[\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\frac{1}{N}\sum_{i=1}^{N}2x_{i}\overline X+\frac{1}{N}\sum_{i=1}^{N}\overline X^{2}] \\ & = E[\frac{1}{N}\sum_{N}^{i=1}x_{i}^{2}-2\overline X^{2}+\overline X^{2}] = E\{(\frac{1}{N}\sum_{i=1}^{N}x_{i}^2-\overline X^{2})-(\overline X^{2}-\overline X^{2})\} \\ & = E[(\frac{1}{N}\sum_{i=1}^{N}x_{i}^2-\overline X^{2})]-E(\overline X^{2}-\overline X^{2}) \\ & = \frac{1}{N}\sum_{i=1}^{N}[E(x_{i}^2)-E^{2}(x_{i})]-[E(\overline X^{2})-E^{2}(\overline X)] \\ & = D(x_{i})-D(\overline X) = \sigma^{2}-\frac{\sigma^{2}}{N} =\frac{N-1}{N}\sigma^{2} \end{aligned} \]

所以在計算樣本的方差\(S^{2}\)時,需要在在前面乘上一個系數,即\(S^{2}=\frac{N}{N-1}E[\hat \sigma^{2}]\)

三、最大似然和最小二乘的關系

當數據為高斯分布時,最大似然和最小二乘相同

假設一個模型為線性回歸模型,噪聲為高斯噪聲

已知\(f_{\theta}(\mathbf{x}) = f(y|x,w) = \sum_{i=1}^{N}x_{i}w_{i}^{T}+\epsilon = \mathbf{x} \mathbf{w^{T}}+\mathbf{\epsilon}\),設\(\epsilon_{i}~N(0, \sigma^{2})\)\(f(y_{i}|x_{i},w_{i})=y_{i}~N(x_{i}w_{i}^{T}, \sigma^{2})\)

由上面推導的最大似然函數求解:\(\underset {w}{\operatorname {arg\,max}}~lnL(w)=ln\prod_{i=1}^{N}p(y_{i}|x_{i},w_{i})=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(y_{i}-x_{i}w_{i}^{T})^2\)

由於前兩項都與\(w\)無關,因此可以將上式簡化為:\(\underset {w}{\operatorname {arg\,max}}~lnL(w)=-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(y_{i}-x_{i}w_{i}^{T})^2~\sum_{i=1}^{N}(y_{i}-x_{i}w_{i}^{T})^2\)

而最小二乘法的公式也是如此:\(\underset {w}{\operatorname {arg\,min}}~f(w)=\sum_{i=1}^{N}(y_{i}-x_{i}w_{i}^{T})^2 = \vert\vert Y-XW^{T}\vert\vert_{2}^{2}\)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM