根據 使用最大似然法來求解線性模型(1),待求解的線性模型如下式:
- tn=wT*xn+ξn
第xn年的百米賽跑的時間tn,與兩個參數有關:一個是w,另一個則是該年對應的一個誤差值(noise)
在求解w和 ξ 之前,先觀察一下誤差值的特點:

- 誤差有正有負,是一個隨機變量。
- 誤差與年份無關,每一個年份對應的誤差之間相互獨立
因此,關於errors(noise)的假設如下:

更進一步,假設errors(noise)服從高斯分布,模型表示如下:顯然這個模型由兩個參數來決定:w 和 σ2,只要確定這兩個參數,就確定了這個模型。

這N個誤差的聯合概率密度為:p(ξ1,ξ2,...,ξN),由於它們相互獨立,故有:

現在,tn 表示成了一個常數(w0+w1*xn) 加上 一個服從高斯分布的隨機變量ξn,故tn 也相當於一個服從正態分布的隨機變量了。根據正態分布性質:

得出:

那tn為什么是個條件概率呢?
根據上面tn的表達式,在給定的w和ξn之后,我們就知道了tn。而ξn服從正態分布,由σ2來確定。故tn可表示成如上的條件概率形式。
現在不妨假設已經求得了w=[36.416,-0.0133]T和σ2=0.05,在xn=1980年時,上面的條件概率公式表示如下:

隨機變量的均值由wT*xn計算得到,均值u=10.02,而方差是0.05

故它的概率密度函數如下:

在概率密度函數中有三個點A,B,C。其中B點對應的時間t約是tB=10.1,C點對應的時間t是tC=10.25
從圖中可以看出:在A,B,C三個點中,B點對應的概率密度最大(y軸的值最高),根據正態分布的概率密度性質,說明隨機變量取B點處的值的概率最大,也即:隨機變量tn最可能的取值是10.1秒
但是,我們實際觀察到的1980年奧林匹克競賽男子100m賽跑的時間是:10.25秒,這是實際的樣本值,也即上面概率密度函數中C點對應的值。
因此,問題就來了:
我們需要修改(重新求解)w和的σ2值(原來的值為:w=[36.416,-0.0133]T σ2=0.05),使得:根據w和σ2畫出的概率密度函數在t=10.25處最高,也即在t=10.25處取值的概率最大。
換句話說:我們需要尋找合適的w和σ2,讓模型的概率密度函數在 實際值10.25秒 時,對應的概率密度最大。
我們把實際的樣本值t=10.25 稱為樣本點xn=1980 所對應的 似然值(likelihood of data point 1980)。
目標是:尋找合適的w和σ2 讓概率密度函數在真實值10.25秒 時對應的概率密度最大。而這就是最大化似然函數的思想。

參考:《A First Course of Machine Learning》第二章
原文:http://www.cnblogs.com/hapjin/p/6623431.html
