線性回歸 Linear Regression


一、主要思想

在 L2-norm 的誤差意義下尋找對所有觀測目標值 Y 擬合得最好的函數 f(X) = WTX 。

其中 yi 是 scalar,xi 和 W 都是 P 維向量(比實際的 xi 多一維,添加一維 xi(0) = 1,用於將偏置 b 寫入 W 中)

1. 定義模型:f(X) = WTX

2. 目標函數:L2-norm 損失(均方誤差損失)

3. 尋優:梯度下降(迭代)或 最小二乘(解析解)

 

引入高維可以使得線性回歸模型更加復雜,可以在 training data 上擬合的更好,但要考慮 overfitting ,真正關心的應該是模型在 testing data 上的效果

 

 

 

 

 

二、正則化

約束參數空間,改善過擬合

 

通過梯度下降來分析兩種正則的區別(Hung-yi Lee) 

1. L1 正則的線性回歸:Lasso

  L1-norm regularization 讓參數變小的機制,是每次都減去(if w >= 0)或者加上(if w < 0)一個值(即 λ*learning_rate),不管哪種情況,最后都是讓參數往反方向變化。

 
等價於對參數 w 引入拉普拉斯分布先驗。f(x | μ, b) = exp(-|x-μ| / b) / 2b

  

2. L2 正則的線性回歸:Ridge
  L2-norm regularization 的機制是每次在更新參數之前,都先直接乘上一個小於1的數。這樣也是不管參數正負都會更接近0,但是L1 norm 中每次減掉的值是固定的,而 L2 norm 參數變小的速度跟其本身的大小相關。
小結:
  1. 用 L1 正則得到的參數比較 sparse,有大的也有很接近 0 的;而 L2 正則就會使得所有的參數都接近 0 。
  2. 使用正則化讓參數變小會使得模型表示的函數更加平滑(對噪聲不那么敏感,改善過擬合),但正則化程度也會使得損失函數太過於考慮W而原本的損失項影響很小,導致模型變差(最極端情況:就是一條水平線,啥都擬合不了)。所以正則化系數由小變大,存在一個令模型測試集表現由好至差的轉折點。
  3. 正則化項是不需要作用在偏置項上的,因為偏置只會上下平移函數不會影響平滑程度。

 

加上L2正則化的最小二乘估計  等價於  噪聲 ε 為高斯(0,σ2)、參數 w 先驗也為高斯(0, σ02)的最大后驗估計

最小二乘法的解析解中 XTX 不可逆怎么處理?

—— XTX + λI (也正是L2正則的效果)

 

 
 
 
加入 L2 norm 正則化項會使得參數傾向於變小,進而使得模型表示的函數更加平滑。
為什么使得模型函數平滑一些會比較好?—— 使得模型輸出對輸入中的噪聲不那么敏感。

 

過於平滑會怎樣?—— 極端情況下最平滑就是一條水平線,那就啥都擬合不了,所以平滑程度太大會導致模型在測試集上表現差。

 

 
正則化項系數太大也不行,會導致 loss 太過於考慮 w 的項而過於弱化原本的損失函數項的影響。正則化項系數從小到大對模型的測試集表現的影響,會有一個從好至壞的轉折點;而對訓練集來說,誤差隨之總是越來越大的。

 

 

正則化不需要作用在 bias 上,因為偏置項和模型(映射函數)的平滑程度無關,只會上下平移函數。

 

 

三、從把誤差分散到 P 維的角度考慮線性回歸模型

把 f(X) 理解為 P 維向量 X 的線性組合 X·ß

任務:要在 X 所在的 P 維空間里找到一個離Y最近的 X·ß

顯然是 Y 在這個 P 維空間的投影,所以 Y-X·ß 垂直於 X,直接求得解析解

 

 

四、從概率視角理解線性回歸模型

隨機變量 X 和 Y 分別表示樣本和觀測,令 Y = WTX + ε,噪聲 ε 服從高斯分布 N(0, σ2)

則 Y | W, X, ε 服從均值偏移 WTX、方差不變的高斯分布 N(WTX, σ2)

 

MLE:用極大似然估計來尋找參數 W 的值(令似然函數 P(Y | W, X, ε) 最大的 W)

   可以發現 argmin 的函數和最小二乘估計中的平方誤差損失函數一致

最小二乘估計 等價於 噪聲為高斯的最大似然估計

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM