吳恩達“機器學習”——學習筆記二


定義一些名詞

欠擬合(underfitting):數據中的某些成分未被捕獲到,比如擬合結果是二次函數,結果才只擬合出了一次函數。

過擬合(overfitting):使用過量的特征集合,使模型過於復雜。

參數學習算法(parametric learning algorithms):用固定的參數進行數據的擬合。比如線性回歸。

非參數學習算法(non-parametric learning algorithms):使用的參數隨着訓練樣本的增多而增多。

局部加權回歸(locally weighted regression)

一種非參數學習算法。

算法思想:尋找到theta,使得

, 最小,其中w(i)稱為權值,tau稱為波長參數。由公式可知,我們在進行局部加權回歸時,對離x較近的訓練樣本賦予了較大的權重,對離x遠的樣本賦予了較小的權重。可以這樣說,我們在對某一個x進行局部加權回歸時,只使用x周圍的數據。

對線性模型的概率解釋

解釋為何要在線性回歸中選擇最小二乘法

,其中varepsilon為誤差項(error),假設該誤差項服從均值為0,方差為sigma的正態分布,且varepsilon是IID,即獨立同分布的。

,將y用varepsilon換掉,則

 

,則

定義似然函數為

求出最大似然估計即可

最小,此處隱含sigma對我們的運算無影響。

 

所以最小二乘法的目的實際上是假設誤差項滿足高斯分布且獨立同分布的條件下使似然性最大化。

第一個分類算法

可以采用線性回歸解決分類問題,但是有時候結果是好的,有時候結果是糟糕的,一般不這樣做。

討論二元分類,即y只能取0和1。那么我們的h,即預測值可以假定在0與1之間。所以可以選擇logistic(sigmoid)函數來表示我們的h。即

對分類算法模型的概率解釋

假設我們估計的是y=1的時候的概率,那么

我們可以將兩個式子寫在一塊

同樣進行最大似然估計

可以用梯度上升

 

算法進行最大似然估計

 

那么學習過程就變成了

這與在線性回歸中使成本函數J最小的學習過程一樣!!!

感知器算法(perceptron algorithm)

感知器算法不是使用logistics函數,而是使用以下函數

同樣可以得到相同的學習過程。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM