局部加權線性回歸


目錄:

1、簡述

2、數學表達

3、總結


 

1、簡述

  線性回歸是一種 parametric learning algorithm,而局部加權線性回歸是一種 non-parametric learning algorithm。Parametric learning algorithm 有固定的(指的是:值的大小是固定)、有限的參數,通過訓練樣本,找到合適的參數后,對於之后未知的輸入,我們可以直接利用這組參數得出其相應的預測輸出。而 non-parametric learning algorithm 需要的計算量與輸入的訓練集大小成正比,對於每次新的輸入,需重新計算相應參數后,才能求取相應的預測輸出。

  “局部加權回歸”名稱中,之所以叫“局部”是因為目標函數的逼近僅僅根據查詢點附近的數據,之所以叫“加權”是因為每一個訓練樣例的貢獻是由它與查詢點間的距離加權的,之所以叫“回歸”是因為統計學習界廣泛使用這個術語來表示逼近實數值函數的問題。

2、數學表達

  對於線性回歸算法:

  1. 對於訓練集,求取θ,使得其最小。
  2. 對於新輸入x,其預測輸出為θTx

  對於局部線性加權算法:

  1. 對於輸入x,找到訓練集中與x鄰域的訓練樣本
  2. 對於其鄰域的訓練樣本,求取θ,使得其( x(i)∈x的鄰域 )最小。其中w(i)為權重值
  3. 預測輸出為θTx
  4. 對於新輸入,重復1-3過程。

其中

τ 為帶寬(bandwidth)常量,距離輸入越遠,權重越小,反之越大。

3、總結

  若對於,若x(i)為整個訓練集,則這種方法所需的計算量隨着訓練樣例數量線性增長,若x(i)∈x的鄰域,計算開銷獨立於訓練樣例總數,而僅依賴於所考慮的最近鄰數。

  在大多數情況下,h(x)是通過一個常量、線性函數或二次函數來局部逼近目標函數。更復雜的函數形式不太常見,原因是

    (1)對每個查詢實例用更復雜的函數來擬合,其代價十分高昂

    (2)在足夠小的實例空間子域上,使用這些簡單的近似已能相當好地模擬目標函數。

   對於θ的求解過程,可以采用梯度下降的方法,方法與上一節線性回歸中介紹的梯度下降方法一樣。


 

參考資料:

1.斯坦福大學公開課課件:http://www.stanford.edu/class/cs229/notes/cs229-notes1.pdf

2.Tom M. Mitchell 《Machine Learning》Chapter8.3

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM