在我們遇到回歸問題時,例如前面提到的線性回歸,我們總是選擇最小而成作為代價函數,形式如下:
這個時候,我們可能就會有疑問了,我們為什么要這樣來選擇代價函數呢?一種解釋是使我們的預測值和我們訓練樣本的真實值之間的距離最小,下面我們從概率的角度來進行解釋。
首先假設輸入變量和目標變量滿足下面的等式
ε(i)指的是誤差,表示我們在建模過程中沒有考慮到的,但是它對預測的結果又有影響。它是獨立同分布(IID:independently and identically distributed)的高斯分布。(可以看看中心極限定理)
所以我們可以得到
將現行回歸方程代入我們可以得到
其中符號 表示以θ 為參數,給定
時
的分布。如果給定
(設計矩陣,包括所有的
)和 ,則目標變量的分布可以寫成
,所以我們可以將它看成是關於
的函數。同樣,從另外一個角度,我們可以把它看成是關於θ的函數,這個函數稱之為似然函數(likelihood function),形式如下:
由於已經假設 獨立同分布,所以我們可以寫成如下形式
這樣我們就得到了y(i) 和x(i)之間的關系模型,這樣問題就來了,我們該怎么去學習參數θ 呢?
在運用似然函數求解時候,我們一般運用最大似然估計,它的思想是:已知某個參數能使這個樣本出現的概率最大,我們當然不會再去選擇其他小概率的樣本,所以干脆就把這個參數作為估計的真實值。也即,我們取L(θ)最大時候的θ值。
求解過程:
先對似然函數取對數,然后求解
所以對於取最大,則要求
取最小,也即我們的代價函數。
至此,我們最大化似然函數l(Θ),等價於最小化損失函數J(Θ),這也說明了在我們的推導中,最后結果與我們假設的高斯分布的方差σ是沒有關系的。
回過頭來再考慮一下,我們假設了什么,我們假設誤差項服從高斯分布,這個假設對於線性回歸模型來說非常形象,其實我們一開始就假設了這個模型是一個線性模型,那么很自然的我們會考慮誤差一定是離線性函數越近可能性越大,離線性函數越遠可能性越小。所以在機器學習模型中,假設對於我們來說相當重要。