Linear Regression(線性回歸)(三)—代價函數J(θ)選擇的概率解釋


    (整理自AndrewNG的課件,轉載請注明。整理者:華科小濤@http://www.cnblogs.com/hust-ghtao/

     在遇到線性回歸問題時,我們總是令。可是我們為什么這樣選擇代價函數呢?我們提到過是為了使目標變量(指)的真實值和預測值的距離最小,想想也算合理。但是本篇博文將從概率的角度解釋為什么這么選擇代價函數,相信大家看完之后就會明白這個選擇之后蘊含的更加深層次的原因。

    首先,讓我們假設:輸入變量和目標變量滿足等式,其中誤差表示在建模過程中沒有考慮到的,但是對預測結果有影響的因素或者是指隨機的噪聲。根據實際觀測和中心極限定理知,這些因素都服從正態分布,進一步假設這些誤差之間是獨立同分布的,則它們的和也服從正態分布,且均值為0,方差為。上述結論可以寫成:

,這表明

image ,其中符號表示以為參數,給定的分布。如果給定(設計矩陣,包括所有的)和,則目標變量的分布可以寫成:

image ,對於給定的,我們可以將它看成關於image 的函數。從另一個角度,我們也可以把它看成是關於的函數,稱為似然函數:

 

image ,由於已經假設之間獨立同分布,這個公式可以寫成:

 

image ,現在已經得出表示之間關系的概率模型,現在回到最初的問題,如何學習參數?最大似然函數原理:我們應該選擇使似然函數最大時對應的值,因為這么選擇,訓練集中的對應的樣本發生的概率是最大的。就是說,事件發生了,我們就認為此事件發生的概率是最大的。

    所以我們要求出使取得最大值時的:為方便計算,一般對似然函數取對數:

image ,顯然,使最大化,等價於是最小化,這不就是我們最初選擇的代價函數么?任務完成。

 

    總結一下:通過對數據作出合理的概率假設,得出最小二乘回歸可以使得似然函數取得最大值的結論。另外,在前面的回歸方法中,我們沒有考慮到方差的影響,此文章證明的選擇確實與無關。在沒有提出概率解釋之前,我們用距離的概念解釋了選擇代價函數為最小二乘的合理性,本文又通過概率進行了解釋,兩方面互相呼應,使理解更加深刻。一點點小體會:要多讀書,只有博采眾長,才可以相互印證


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM