極大似然估計(MLE)和極大后驗估計(MAP)分別是頻率學派和貝葉斯學派(統計學者分為兩大學派,頻率學派認為參數是非隨機的,而貝葉斯學派認為參數也是隨機變量)的參數估計方法,下面我們以線性回歸分析為例,分別簡要介紹MLE和MAP,兩者的關系以及分別與最小二乘回歸、正則化最小二乘回歸分析的關系。(非常不專業和嚴謹,只希望通過最直接的方式幫助初學者理解這兩種估計)。
線性回歸問題:
給定觀測數據(機器學習中通常叫做訓練集)$S=\{x_i,y_i\}_{i=1}^N,x_i\in R^m, y_i\in R$,我們希望利用$S$通過某種方式獲得一個從$R^m$到$R$的函數以表達$x$與$y$之間的關系,進一步實現給定任意$x$值,預測出對應的$y$值。為了簡單化,我們通常假設這個函數具有如下表達式$$ y = w^Tx + \epsilon, \epsilon \sim N(0,\sigma^2),$$ 其中$w\in R^m$是我們需要利用$S$來確定的參數。這里我們先不考慮偏置項,或者偏置也可以通過對$x$擴充1納入這個模型。下面我們分別通過MLE和MAP來確定$w$的值。
極大似然估計(MLE):
極大似然估計的認為觀測值$y_i$是由分布$p(y|x,w)$采樣產生的,也就是一個$w$的取值就可以確定一個$p(y|x,w)$,進而確定一種$y_i$的采樣。因此可以認為$y_i$是結果,而$w$是原因。現在結果已經發生了,我們需要確定原因。所以我們就找最可能使得這個結果發生的原因,即極大化結果發生的概率。由於我們通常假設不同的$y_i$是獨立同分布的,因此其發生的概率為$\prod_{i=1}^N{p(y_i|x_i,w)}$,則尋找最優$w$的模型為$$\max_w\prod_{i=1}^N{p(y_i|x_i,w)}.$$上述模型不容易求導優化,通常對目標函數(似然函數)取對數在優化,即求解如下模型$$\max_w\sum_{i=1}^N\log{p(y_i|x_i,w)}.$$由我們之間假設的模型,可以得到$p(y_i|x_i,w)=N(w^Tx_i,\sigma^2)$,於是帶入表達式很容易得到等價的優化模型如下$$\min_w\sum_{i=1}^N{(y_i-w^Tx_i)^2}.$$熟悉最小二乘估計的同學一下就看到這就是最小二乘模型,也就是說假設噪聲為高斯噪聲時,極大似然模型等價於最小二乘估計。
極大后驗估計(MAP):
極大后驗估計(MAP)認為$w$也是隨機變量,而且具有先驗分布$p(w)$。數據產生機制為先從分布$p(w)$產生$w$,在從分布$p(y|x,w)$產生$y_i$。因此$w$和$y_i$是互相關聯的隨機變量,現在$y_i$已經發生了,我們想要尋找最可能的$w$的值,也就是極大化$p(w|y_1,..,y_N;x_1,..,x_N)$,即$$\max_wp(w|y_1,..,y_N;x_1,..,x_N).$$由於$p(w|y_1,..,y_N;x_1,..,x_N)=\frac{p(y_1,..,y_N|x_1,..,x_N,w)p(w)}{p(y_1,..,y_N)}$,由獨立同分布假設,模型等價於$$\max_w(\prod_{i=1}^Np(y_i|x_i,w))p(w).$$取對數后變為$$\max_w\sum_{i=1}^N\log p(y_i|x_i,w)+\log p(w).$$假設先驗也是高斯分布$p(w)=N(0,\lambda)$,則模型變為$$\min_w\frac{1}{\sigma^2}\sum_{i=1}^N{(y_i-w^Tx_i)^2}+\frac{1}{\lambda}w^Tw.$$這其實就是正則化的最小二乘估計模型,所謂正則化的最小二乘估計模型就是在最小二乘中加入對$w$的正則,即$$\min_w\sum_{i=1}^N{(y_i-w^Tx_i)^2}+\eta R(w),$$其中,$R(w)$是正則項,比如二范數正則,$\eta$為正則項系數。顯然,MAP是上述模型的特例。