(整理自AndrewNG的課件,轉載請注明。整理者:華科小濤@http://www.cnblogs.com/hust-ghtao/)
在遇到線性回歸問題時,我們總是令
。可是我們為什么這樣選擇代價函數呢?我們提到過是為了使目標變量(指
)的真實值和預測值的距離最小,想想也算合理。但是本篇博文將從概率的角度解釋為什么這么選擇代價函數,相信大家看完之后就會明白這個選擇之后蘊含的更加深層次的原因。
首先,讓我們假設:輸入變量和目標變量滿足等式
,其中誤差
表示在建模過程中沒有考慮到的,但是對預測結果有影響的因素或者是指隨機的噪聲。根據實際觀測和中心極限定理知,這些因素都服從正態分布,進一步假設這些誤差之間是獨立同分布的,則它們的和也服從正態分布,且均值為0,方差為
。上述結論可以寫成:
,這表明
:
,其中符號
表示以
為參數,給定
時
的分布。如果給定
(設計矩陣,包括所有的
)和
,則目標變量的分布可以寫成:
,對於給定的
,我們可以將它看成關於
的函數。從另一個角度,我們也可以把它看成是關於
的函數,稱為似然函數:
,現在已經得出表示
和
之間關系的概率模型,現在回到最初的問題,如何學習參數
?最大似然函數原理:我們應該選擇使似然函數最大時對應的
值,因為這么選擇,訓練集中的對應的樣本發生的概率是最大的。就是說,事件發生了,我們就認為此事件發生的概率是最大的。
所以我們要求出使
取得最大值時的
:為方便計算,一般對似然函數取對數:
,顯然,使
最大化,等價於是
最小化,這不就是我們最初選擇的代價函數么?任務完成。
總結一下:通過對數據作出合理的概率假設,得出最小二乘回歸可以使得似然函數取得最大值的結論。另外,在前面的回歸方法中,我們沒有考慮到方差
的影響,此文章證明
的選擇確實與
無關。在沒有提出概率解釋之前,我們用距離的概念解釋了選擇代價函數為最小二乘的合理性,本文又通過概率進行了解釋,兩方面互相呼應,使理解更加深刻。一點點小體會:要多讀書,只有博采眾長,才可以相互印證。
