最小二乘與最大似然估計之間的關系


          1、結論

              測量誤差(測量)服從高斯分布的情況下, 最小二乘法等價於極大似然估計。

          2、最大似然估計概念

                                           \max{L(\theta;X)}     (1)

              最大似然估計就是通過求解最大的(1)式得到可能性最大的\theta作為真\theta的估計,其中 L 函數稱為參數\theta的似然函數,是一個概率分布函數。

              似然估計的思想是:測量值 X 是服從概率分布的,求概率模型中的參數,使得在假設的分布下獲得該組測量出現概率最大:

              例如:通過一次測量得到1.9、1.9、2.0、2.1、2.0、1.9、1.5、2.5、2.0、2.0,

                      通過直覺我們發現這組測量比較符合期望為2的高斯分布。

                      要不然,為什么取值都在2附近呢,為啥測量數據中沒有(很少)1.0、5.0呢?也就是說,可以認為我的這些測量

                      是符合某個概率分布的(這個例子中為高斯分布),測量值中得到2附近值的概率比較大。

               例如:一個箱子里有紅球和黑球,通過10次放回抽取實驗得到的結果為:8次黑球、2次紅球。問箱子中黑球的比例?

                      這個例子中箱子里只有紅球和黑球,可以假設黑球的比例為 p ,那么紅球的概率為(1-p),

                      那么10次實驗中8次黑球、兩次紅球的概率為:L(p;8,2)={p^8}*{(1-p)^2}。通過\maxL\max{L}即可求出 p = 0.8。

          3、最大似然估計求法

              a、樣本從高斯分布中采樣獲得。高斯概率分布函數為:

                                           f=\frac{1}{{\sqrt{2\pi}\sigma}}{e^{-\frac{{{{(x-\mu)}^2}}}{{2{\sigma^2}}}}}         (2)

                  通過測量獲得 N 個測量值,{x_1}...{x_n},它們符合高斯概率分布,此時它們的似然估計為:

                       L(\mu,{\sigma^2})=\frac{1}{{\sqrt{2\pi}\sigma}}{e^{-\frac{{{{({x_1}-\mu)}^2}}}{{2{\sigma^2}}}}}*....\frac{1}{{\sqrt{2\pi}\sigma}}{e^{-\frac{{{{({x_n}-\mu)}^2}}}{{2{\sigma^2}}}}}=\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}{e^{-\frac{{{{({x_i}-\mu)}^2}}}{{2{\sigma^2}}}}}}   (3)

                  通過最大化似然估計函數 L ,即可求出\mu\sigma

                                          \max{L(\mu,{\sigma^2})}      (4)

                  但是,(4)式中目標函數為乘積的形式,求導結果復雜,這里對目標函數取對數,這樣做不影響單調性:

                       \log{L(\mu,{\sigma^2})}=-\frac{n}{2}\log(2\pi)-\frac{n}{2}\log({\sigma^2})-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({x_i}-\mu)}^2}}     (4)

                 (4)中似然函數取對數后的函數稱為似然函數,通過對似然函數取對數可以簡化似然函數的求解。

                 對似然函數求導並等於0,即可求出最大似然下的\mu\sigma

                            \left\{\begin{array}{l}
\frac{{\partial\log{L(\mu,{\sigma^2})}}}{{\partial\mu}}=\frac{1}{{{\sigma^2}}}\sum\limits_{i=1}^n{({x_i}-\mu)}=0\\
\frac{{\partial\log{L(\mu,{\sigma^2})}}}{{\partial{\sigma^2}}}=-\frac{n}{{2{\sigma^2}}}+\frac{1}{{2{\sigma^4}}}\sum\limits_{i=1}^n{{{({x_i}-\mu)}^2}}=0
\end{array}\right.     (5)

                 得到:

                            \left\{\begin{array}{l}
{\mu^*}=\bar{x}=\frac{1}{n}\sum\limits_{i=1}^n{{x_i}}\\
{\sigma^2}=\frac{1}{n}\sum\limits_{i=1}^n{{{({x_i}-\bar{x})}^2}}
\end{array}\right.      (6)

              b、服從泊松分布均勻分布下的最大似然估計可參閱:http://blog.sciencenet.cn/blog-491809-400893.html

              c、最大對數似然估計一般求解過程:

                   寫出最大似然估計表達式:

                                \log{L(\theta)}=\sum\limits_{i=1}^n{\log{f({x_i};{\theta_1}...{\theta_k})}}     (7)

                   對每個\theta求偏導並等於0:

                                \frac{{\log{L(\theta)}}}{{\partial{\theta_i}}}=0,i=1...k    (8) 

              d、與最大似然估計對等的還有一個 矩估計方法

                  矩估計法,是利用樣本矩來估計總體中相應的參數。矩估計法的基本思想是用樣本矩代替總體矩。

                  最簡單的矩估計法是用一階樣本原點矩來估計總體的期望而用二階樣本中心矩來估計總體的方差。

          4、最大似然估計與最小二乘之間的關系 

               這部分內容來自:http://www.zhihu.com/question/20447622

               本部分內容需要以下知識:

               a、高斯分布、拉普拉斯分布、最大似然估計、最大后驗估計(MAP)

               b、按照李航博士的觀點,機器學習三要素為:模型策略算法。一個模型有多種求解策略,

                   每一種求解策略可能最終又有多種計算方法。下面的內容主要講解算法。

               從概率論的角度:

               a、最小二乘(Least Square)的解析解可以用Gaussian分布以及最大似然估計求得

               b、Ridge回歸可以用Gaussian分布和最大后驗估計解釋

               c、LASSO回歸可以用Lapace分布和最大后驗估計解釋

 

               假設線性回歸模型具有如下形式:

                f(x)=\sum\limits_{j=1}^d{{x_j}{w_j}+\varepsilon}=x{w^T}+\varepsilon

                其中x\in{R^{1{\times}{d}}}w\in{R^{1{\times}{d}}},誤差\varepsilon{\in}{R}

                當前已知X={({x_1}...{x_n})^T}{\in}{R^{n{\times}{d}}}y{\in}{R^{n{\times}{1}}},如何求w呢?

 

                策略1:假設{\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2}),即{y_i}{\sim}N({x_i}{w^T},{\sigma^2}),那么用最大似然估計推導:

                          \arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2})         (9)

                          \arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-n\ln\sigma\sqrt{2\pi}}      (10)

                          \arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}=||y-X{w^T}||_2^2       (11)

                          公式(11)式就是最小二乘。

               

                策略2:假設{\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2}){w_i}{\sim}N(0,{\tau^2}),那么用最大后驗估計推導:

                          \arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2}).\prod\limits_{j=1}^d{\frac{1}{{\sqrt{2\pi}\tau}}\exp}(-\frac{1}{2}{(\frac{{{w_j}}}{\tau})^2})    (12)

                          \arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-\frac{1}{{2{\tau^2}}}\sum\limits_{j=1}^d{{w_j}^2-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}}  

                          \arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{w_j^2}=||y-X{w^T}||_2^2+\lambda||w||_2^2   (14)

                          公式(14)式就是Ridge回歸。

                策略3:假設{\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2}){w_i}{\sim}Lapace(0,b),同樣采用后驗估計推導:

                          \arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2}).\prod\limits_{j=1}^d{\frac{1}{{2b}}\exp}(-\frac{{\left|{{w_j}}\right|}}{\tau})   (15)

                          \arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-\frac{1}{{2{\tau^2}}}\sum\limits_{j=1}^d{\left|{{w_j}}\right|-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}}   (16)

                          \arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{\left|{{w_j}}\right|}=||y-X{w^T}||_2^2+\lambda||w|{|_1}   (17)

                          公式(17)式LASSO。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM