局部加權線性回歸(Locally weighted linear regression)


首先我們來看一個線性回歸的問題,在下面的例子中,我們選取不同維度的特征來對我們的數據進行擬合。

 

QQ截圖20160813063513

 

對於上面三個圖像做如下解釋:

選取一個特征來擬合數據,可以看出來擬合情況並不是很好,有些數據誤差還是比較大

針對第一個,我們增加了額外的特征,這時我們可以看出情況就好了很多。

這個時候可能有疑問,是不是特征選取的越多越好,維度越高越好呢?所以針對這個疑問,如最右邊圖,我們用5揭多項式使得數據點都在同一條曲線上,為。此時它對於訓練集來說做到了很好的擬合效果,但是,我們不認為它是一個好的假設,因為它不能夠做到更好的預測。

 

針對上面的分析,我們認為第二個是一個很好的假設,而第一個圖我們稱之為欠擬合underfitting),而最右邊的情況我們稱之為過擬合overfitting

 

所以我們知道特征的選擇對於學習算法的性能來說非常重要,所以現在我們要引入局部加權線性回歸,它使得特征的選擇對於算法來說沒那么重要,也就是更隨性了。

 

在我們原始的線性回歸中,對於輸入變量,我們要預測,通常要做:

QQ截圖20160813065442

 

 

而對於局部加權線性回歸來說,我們要做:

QQ截圖20160813065643

為權值,從上面我們可以看出,如果很大,我們將很難去使得小,所以如果很小,則它所產生的影響也就很小。

 

通常我們選擇的形式如下所示:

QQ截圖20160813070325

上式中參數為新預測的樣本特征數據,它是一個向量,參數控制了權值變化的速率,的圖像如下

image

可以看到

(1)如果,則

(2)如果,則

也即,很近的樣本,權值接近於1,而對於離很遠的樣本,此時權值接近於0,這樣就是在局部構成線性回歸,它依賴的也只是周邊的點

image

圖中紅色直線使用線性回歸做的結果,黑色直線使用LWR做的結果,可以看到局部加權回歸的效果較好。

 

注意:

的形式跟高斯函數很像,但是它和高斯函數一點關系都沒有,是波長參數,越大遠距離樣本權值下降更快。

IMG_20160813_072027_1471044038085

局部加權回歸在每一次預測新樣本時都會重新的確定參數,從而達到更好的預測效果當數據規模比較大的時候計算量很大,學習效率很低。並且局部加權回歸也不是一定就是避免underfitting。

 

對於線性回歸算法,一旦擬合出適合訓練數據的參數θi’s,保存這些參數θi’s,對於之后的預測,不需要再使用原始訓練數據集,所以是參數學習算法

對於局部加權線性回歸算法,每次進行預測都需要全部的訓練數據(每次進行的預測得到不同的參數θi’s),沒有固定的參數θi’s,所以是非參數算法


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM