機器學習筆記—局部權重線性回歸

本文轉載自查看原文 2016-03-17 21:36 2657 機器學習

看下面三幅圖，x 軸是房間面積，y 軸是房價。

左圖是 y = θ₀ + θ₁x 擬合數據集的結果。可以看到數據並不貼靠在直線上，所以擬合並不好。

中圖是 y = θ₀ + θ₁x + θ₂x² 擬合數據集的結果，擬合得還不錯。

右圖是 y = θ₀ + θ₁x + θ₂x² + θ₃x³ + θ₄x⁴ + θ₅x⁵擬合數據集的結果，雖然曲線跟數據擬合得極好，但我們這是一個好的預測。

左圖被稱為欠擬合，數據並沒有被模型捕獲。右圖被稱為過擬合。

由以上例子可見，特征的選擇對於保證學習算法好的性能是很重要的。當我們講到模型選擇時，會看到自動選擇特征集合的算法。

這次我們先講局部權重線性回歸算法，使得特征的選擇沒那么重要，怎么做到的呢？請往下看。

在原始的線性回歸算法中，要在 x 點做一個預測，我們會執行：

1、變動 θ 以最小化 ∑_i(y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)²

2、輸出 θ^TX

在局部權重線性回歸算法中，做法稍有不同：

1、變動 θ 以最小化 ∑_iw⁽ⁱ⁾(y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)²

2、輸出 θ^TX

多了個 w⁽ⁱ⁾，是做什么用的呢？

w⁽ⁱ⁾是非負值的權重，直觀上看，當 w⁽ⁱ⁾ 很大時，那么在選擇 θ 時，我們會盡量使 x⁽ⁱ⁾點的值 (y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)²小，也就是更加重視 x⁽ⁱ⁾點的預測准確度，當 w⁽ⁱ⁾ 很小時，那么 x⁽ⁱ⁾點的准確度我們就不那么在乎， (y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)²的誤差大也無所謂，也可以說不在乎 x⁽ⁱ⁾點。

權重通常定義為：

可以看到權重大小決定於我們要評估的 x 點的位置，當 x⁽ⁱ⁾ 離 x 點很近，即 |x⁽ⁱ⁾-x| 很小接近於 0 時，那么 w⁽ⁱ⁾ 就接近 1；當 x⁽ⁱ⁾ 離 x 點很遠，即 |x⁽ⁱ⁾-x| 很大時，那么 w⁽ⁱ⁾ 就變得很小。所以在 θ 的選擇上給予查詢點 x 附近的訓練集更高的權重。τ 是控制 x⁽ⁱ⁾ 的權重隨着離 x 距離變遠而變小的速度。

局部權重線性回歸算法是我們介紹的第一個非參數算法。之前我們介紹的線性回歸算法是參數學習算法，因為它有固定、有限個數的參數 θ，一旦我們找到合適的 θ，在預測新數據是，就不再需要訓練數據集。而局部權重線性回歸算法，做預測時，就需要用到整個訓練集。術語 ”非參數“ 實際上就是為了表示假設 h，我們需要保持的負擔量隨訓練集大小呈線性增長。

參考資料：

1、http://cs229.stanford.edu/notes/cs229-notes1.pdf

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習-線性回歸和局部加權線性回歸《機器學習》學習筆記（一）：線性回歸、邏輯回歸機器學習之線性回歸機器學習之線性回歸機器學習筆記（三）決策樹、線性回歸機器學習 | 算法筆記- 線性回歸（Linear Regression） Stanford機器學習筆記-1.線性回歸機器學習公開課筆記(2)：多元線性回歸吳恩達機器學習筆記 —— 2 單變量線性回歸機器學習筆記(2)：線性回歸-使用gluon