使用最大似然法來求解線性模型（2）-為什么是最大化似然函數？

本文轉載自查看原文 2017-03-26 18:43 1705 線性模型/ 機器學習/ 最大似然函數/ machine learning

第x_n年的百米賽跑的時間t_n，與兩個參數有關：一個是w，另一個則是該年對應的一個誤差值(noise)

在求解w和 ξ 之前，先觀察一下誤差值的特點：

因此，關於errors（noise）的假設如下：

更進一步，假設errors(noise)服從高斯分布，模型表示如下：顯然這個模型由兩個參數來決定：w 和 σ²，只要確定這兩個參數，就確定了這個模型。

這N個誤差的聯合概率密度為：p(ξ₁，ξ₂，...，ξ_N)，由於它們相互獨立，故有：

現在，t_n 表示成了一個常數(w₀+w₁*x_n) 加上一個服從高斯分布的隨機變量ξ_n，故t_n 也相當於一個服從正態分布的隨機變量了。根據正態分布性質：

得出：

那t_n為什么是個條件概率呢？

根據上面t_n的表達式，在給定的w和ξ_n之后，我們就知道了t_n。而ξ_n服從正態分布，由σ²來確定。故t_n可表示成如上的條件概率形式。

現在不妨假設已經求得了w=[36.416,-0.0133]^T和σ²=0.05，在x_n=1980年時，上面的條件概率公式表示如下：

隨機變量的均值由w^T*x_n計算得到，均值u=10.02，而方差是0.05

故它的概率密度函數如下：

在概率密度函數中有三個點A，B，C。其中B點對應的時間t約是t_B=10.1，C點對應的時間t是t_C=10.25

從圖中可以看出：在A，B，C三個點中，B點對應的概率密度最大(y軸的值最高)，根據正態分布的概率密度性質，說明隨機變量取B點處的值的概率最大，也即：隨機變量t_n最可能的取值是10.1秒

但是，我們實際觀察到的1980年奧林匹克競賽男子100m賽跑的時間是：10.25秒，這是實際的樣本值，也即上面概率密度函數中C點對應的值。

因此，問題就來了：

我們需要修改(重新求解)w和的σ²值(原來的值為：w=[36.416,-0.0133]^Tσ²=0.05)，使得：根據w和σ²畫出的概率密度函數在t=10.25處最高，也即在t=10.25處取值的概率最大。

換句話說：我們需要尋找合適的w和σ²，讓模型的概率密度函數在實際值10.25秒時，對應的概率密度最大。

我們把實際的樣本值t=10.25 稱為樣本點x_n=1980 所對應的似然值(likelihood of data point 1980)。

目標是：尋找合適的w和σ²讓概率密度函數在真實值10.25秒時對應的概率密度最大。而這就是最大化似然函數的思想。

參考：《A First Course of Machine Learning》第二章

原文：http://www.cnblogs.com/hapjin/p/6623431.html

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用最大似然法來求解線性模型（4）-最大化似然函數背后的數學原理使用最大似然法來求解線性模型（3）-求解似然函數使用最大似然法來求解線性模型（1）最大似然估計與期望最大化（EM）算法線性回歸——最大似然函數最大似然估計法最大似然函數最大似然函數最大似然函數估計似然函數、最大似然估計簡單理解