使用最大似然法來求解線性模型(2)-為什么是最大化似然函數?


根據 使用最大似然法來求解線性模型(1),待求解的線性模型如下式:

  • tn=wT*xnn

第xn年的百米賽跑的時間tn,與兩個參數有關:一個是w,另一個則是該年對應的一個誤差值(noise)

在求解w和 ξ 之前,先觀察一下誤差值的特點:

 

  1. 誤差有正有負,是一個隨機變量。
  2. 誤差與年份無關,每一個年份對應的誤差之間相互獨立

 

因此,關於errors(noise)的假設如下:

 

更進一步,假設errors(noise)服從高斯分布,模型表示如下:顯然這個模型由兩個參數來決定:w 和 σ2,只要確定這兩個參數,就確定了這個模型。

 

這N個誤差的聯合概率密度為:p(ξ1,ξ2,...,ξN),由於它們相互獨立,故有:

 

 

現在,tn 表示成了一個常數(w0+w1*xn) 加上 一個服從高斯分布的隨機變量ξn故tn 也相當於一個服從正態分布的隨機變量了。根據正態分布性質:

得出:

 

那tn為什么是個條件概率呢?

根據上面tn的表達式,在給定的w和ξn之后,我們就知道了tn。而ξn服從正態分布,由σ2來確定。故tn可表示成如上的條件概率形式。

 

現在不妨假設已經求得了w=[36.416,-0.0133]T和σ2=0.05,在xn=1980年時,上面的條件概率公式表示如下:

 

隨機變量的均值由wT*xn計算得到,均值u=10.02,而方差是0.05

 

故它的概率密度函數如下:

 

在概率密度函數中有三個點A,B,C。其中B點對應的時間t約是tB=10.1,C點對應的時間t是tC=10.25

從圖中可以看出:在A,B,C三個點中,B點對應的概率密度最大(y軸的值最高),根據正態分布的概率密度性質,說明隨機變量取B點處的值的概率最大,也即:隨機變量tn最可能的取值是10.1秒

但是,我們實際觀察到的1980年奧林匹克競賽男子100m賽跑的時間是:10.25秒,這是實際的樣本值,也即上面概率密度函數中C點對應的值

因此,問題就來了:

我們需要修改(重新求解)w和的σ2值(原來的值為:w=[36.416,-0.0133]T  σ2=0.05),使得:根據w和σ2畫出的概率密度函數在t=10.25處最高,也即在t=10.25處取值的概率最大。

換句話說:我們需要尋找合適的w和σ2,讓模型的概率密度函數在 實際值10.25秒 時,對應的概率密度最大。

我們把實際的樣本值t=10.25 稱為樣本點xn=1980 所對應的 似然值(likelihood of data point 1980)。

目標是:尋找合適的w和σ讓概率密度函數在真實值10.25秒 時對應的概率密度最大。而這就是最大化似然函數的思想。

 

參考:《A First Course of Machine Learning》第二章

 

原文:http://www.cnblogs.com/hapjin/p/6623431.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM