最大似然估計
最大似然估計(Maximum likelihood estimation)可以簡單理解為我們有一堆數據(數據之間是獨立同分布的.iid),為了得到這些數據,我們設計了一個模型,最大似然估計就是求使模型能夠得到這些數據的最大可能性的參數,這是一個統計(statistics)問題
與概率(probability)的區別:概率是我們已知參數\(\theta\)來預測結果,比如對於標准高斯分布\(X~N(0, 1)\),我們知道了確切的表達式,那么最終通過模型得到的結果我們大致也可以猜測到。但是對於統計問題,我們預先知道了結果,比如我們有10000個樣本(他們可能服從某一分布,假設服從高斯分布),我們的目的就是估計\(\mu \& \sigma\)使得我們假設的模型能夠最大概率的生成我們目前知道的樣本
一、似然函數定義
似然函數是一種關於統計模型中的參數的函數,表示模型參數中的似然性,用\(L\)表示,給定輸出\(x\)時,關於參數\(\theta\)的似然函數\(L(\theta|x)\)在數值上等於給定參數\(\theta\)后變量X的概率
在統計學習中,我們有\(N\)個樣本\(x_{1}, x_{2}, x_{3}...x_{N}\),假設他們之間是相互獨立的,那么似然函數
最大似然函數的目的就是求解一個\(\theta\)使得\(L(\theta)\)最大化
二、最大似然估計的無偏性判斷
這里用一維高斯分布來判斷\(\mu\)和\(\sigma^2\)的無偏性及有偏性,一維高斯分布函數
其中最大似然估計
分為三種情況
(1)已知\(\sigma^{2}\),未知\(\mu\),求\(\mu\)的最大似然估計量\(\hat\mu\)
似然函數:\(L(X|\mu)=\prod_{i=1}^{N}p(x_{i}|\mu)=\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_{i}-\mu)^2}{2\sigma ^2}}\)
兩邊分別取對數:\(lnL(X|\mu)=ln\prod_{i=1}^{N}p(x_{i}|\mu)=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_{i}-\mu)^2\)
兩邊對\(\mu\)求導
可以發現,當\(\sigma^{2}\)已知時,\(\mu\)的最大似然估計量只受樣本
的影響,\(\hat \mu\)是\(\mu\)的無偏估計
\(E[\hat \mu]=E[\frac{1}{N}\sum_{i=1}^{N}x_{i}]=\frac{1}{N}\sum_{i=1}^{N}E[x_{i}]=\frac{1}{N}N\mu=\mu\)
(2)已知\(\mu\),未知\(\sigma^{2}\),求\(\sigma^{2}\)的最大似然估計量\(\hat\sigma^{2}\)
似然函數:\(L(X|\sigma^{2})=\prod_{i=1}^{N}p(x_{i}|\sigma^{2})=\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_{i}-\mu)^2}{2\sigma ^2}}\)
兩邊分別取對數:\(lnL(X|\sigma^{2})=ln\prod_{i=1}^{N}p(x_{i}|\sigma^{2})=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_{i}-\mu)^2\)
兩邊對\(\sigma^{2}\)求導
可以發現,當\(\mu\)已知時,\(\hat \sigma^{2}\)的最大似然估計量受到樣本以及樣本均值
的影響,\(\hat \sigma^{2}\)是\(\sigma^{2}\)的無偏估計
\(E[\hat \sigma^{2}]=E[\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu)^{2}]=E[\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\frac{1}{N}\sum_{i=1}^{N}2x_{i}\mu+\frac{1}{N}\sum_{i=1}^{N}\mu^{2}] = E[\frac{1}{N}\sum_{N}^{i=1}x_{i}^{2}-2\mu^{2}+\mu^{2}] \\ = E[\frac{1}{N}\sum_{i=1}^{N}x_{i}^2-\mu^{2}] = \frac{1}{N}\sum_{i=1}^{N}(E(x_{i}^2)-E^{2}(x_{i})) = D(x_{i}) = \sigma^{2}\)
(3)\(\mu\)和\(\sigma^{2}\)均未知,求\(\mu\)、\(\sigma^{2}\)的最大似然估計量\(\hat\mu\)和\(\hat\sigma^{2}\)
似然函數:\(L(X|\mu, \sigma^{2})=\prod_{i=1}^{N}p(x_{i}|\mu, \sigma^{2})=\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_{i}-\mu)^2}{2\sigma ^2}}\)
兩邊分別取對數:\(lnL(X|\mu, \sigma^{2})=ln\prod_{i=1}^{N}p(x_{i}|\mu, \sigma^{2})=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_{i}-\mu)^2\)
- 兩邊對\(\mu\)求導
- 兩邊對\(\sigma^{2}\)求導
可以發現,當\(\mu\)的最大似然估計量\(\hat \mu\)只受樣本的影響(因為在計算時\(\sigma^{2}\)被消去了),\(\hat \mu\)是\(\mu\)的無偏估計
\(E[\hat \mu]=E[\overline X]=E[\frac{1}{N}\sum_{i=1}^{N}x_{i}]=\frac{1}{N}\sum_{i=1}^{N}E[x_{i}]=\frac{1}{N}N\mu=\mu\)
但是在計算\(\sigma^{2}\)的最大似然估計量\(\hat \sigma^{2}\)不僅受到樣本的影響,還受到\(\mu\)的影響,其中\(\mu\)未知,只能用計算出的\(\hat \mu\)來替代,通過下面計算可以發現\(\hat \sigma^{2}\)是$ \sigma^{2}$的有偏估計
所以在計算樣本的方差\(S^{2}\)時,需要在在前面乘上一個系數,即\(S^{2}=\frac{N}{N-1}E[\hat \sigma^{2}]\)
三、最大似然和最小二乘的關系
當數據為高斯分布時,最大似然和最小二乘相同
假設一個模型為線性回歸模型,噪聲為高斯噪聲
已知\(f_{\theta}(\mathbf{x}) = f(y|x,w) = \sum_{i=1}^{N}x_{i}w_{i}^{T}+\epsilon = \mathbf{x} \mathbf{w^{T}}+\mathbf{\epsilon}\),設\(\epsilon_{i}~N(0, \sigma^{2})\),\(f(y_{i}|x_{i},w_{i})=y_{i}~N(x_{i}w_{i}^{T}, \sigma^{2})\)
由上面推導的最大似然函數求解:\(\underset {w}{\operatorname {arg\,max}}~lnL(w)=ln\prod_{i=1}^{N}p(y_{i}|x_{i},w_{i})=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(y_{i}-x_{i}w_{i}^{T})^2\)
由於前兩項都與\(w\)無關,因此可以將上式簡化為:\(\underset {w}{\operatorname {arg\,max}}~lnL(w)=-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(y_{i}-x_{i}w_{i}^{T})^2~\sum_{i=1}^{N}(y_{i}-x_{i}w_{i}^{T})^2\)
而最小二乘法的公式也是如此:\(\underset {w}{\operatorname {arg\,min}}~f(w)=\sum_{i=1}^{N}(y_{i}-x_{i}w_{i}^{T})^2 = \vert\vert Y-XW^{T}\vert\vert_{2}^{2}\)