目錄:
1、簡述
2、數學表達
3、總結
1、簡述
線性回歸是一種 parametric learning algorithm,而局部加權線性回歸是一種 non-parametric learning algorithm。Parametric learning algorithm 有固定的(指的是:值的大小是固定)、有限的參數,通過訓練樣本,找到合適的參數后,對於之后未知的輸入,我們可以直接利用這組參數得出其相應的預測輸出。而 non-parametric learning algorithm 需要的計算量與輸入的訓練集大小成正比,對於每次新的輸入,需重新計算相應參數后,才能求取相應的預測輸出。
“局部加權回歸”名稱中,之所以叫“局部”是因為目標函數的逼近僅僅根據查詢點附近的數據,之所以叫“加權”是因為每一個訓練樣例的貢獻是由它與查詢點間的距離加權的,之所以叫“回歸”是因為統計學習界廣泛使用這個術語來表示逼近實數值函數的問題。
2、數學表達
對於線性回歸算法:
- 對於訓練集,求取θ,使得其
最小。
- 對於新輸入x,其預測輸出為θTx
對於局部線性加權算法:
- 對於輸入x,找到訓練集中與x鄰域的訓練樣本
- 對於其鄰域的訓練樣本,求取θ,使得其
( x(i)∈x的鄰域 )最小。其中w(i)為權重值
- 預測輸出為θTx
- 對於新輸入,重復1-3過程。
其中
τ 為帶寬(bandwidth)常量,距離輸入越遠,權重越小,反之越大。
3、總結
若對於,若x(i)為整個訓練集,則這種方法所需的計算量隨着訓練樣例數量線性增長,若x(i)∈x的鄰域,計算開銷獨立於訓練樣例總數,而僅依賴於所考慮的最近鄰數。
在大多數情況下,h(x)是通過一個常量、線性函數或二次函數來局部逼近目標函數。更復雜的函數形式不太常見,原因是
(1)對每個查詢實例用更復雜的函數來擬合,其代價十分高昂
(2)在足夠小的實例空間子域上,使用這些簡單的近似已能相當好地模擬目標函數。
對於θ的求解過程,可以采用梯度下降的方法,方法與上一節線性回歸中介紹的梯度下降方法一樣。
參考資料:
1.斯坦福大學公開課課件:http://www.stanford.edu/class/cs229/notes/cs229-notes1.pdf
2.Tom M. Mitchell 《Machine Learning》Chapter8.3