一、主要思想
在 L2-norm 的誤差意義下尋找對所有觀測目標值 Y 擬合得最好的函數 f(X) = WTX 。
其中 yi 是 scalar,xi 和 W 都是 P 維向量(比實際的 xi 多一維,添加一維 xi(0) = 1,用於將偏置 b 寫入 W 中)
1. 定義模型:f(X) = WTX
2. 目標函數:L2-norm 損失(均方誤差損失)
3. 尋優:梯度下降(迭代)或 最小二乘(解析解)
引入高維可以使得線性回歸模型更加復雜,可以在 training data 上擬合的更好,但要考慮 overfitting ,真正關心的應該是模型在 testing data 上的效果
二、正則化
約束參數空間,改善過擬合
通過梯度下降來分析兩種正則的區別(Hung-yi Lee)
1. L1 正則的線性回歸:Lasso
L1-norm regularization 讓參數變小的機制,是每次都減去(if w >= 0)或者加上(if w < 0)一個值(即 λ*learning_rate),不管哪種情況,最后都是讓參數往反方向變化。





加上L2正則化的最小二乘估計 等價於 噪聲 ε 為高斯(0,σ2)、參數 w 先驗也為高斯(0, σ02)的最大后驗估計
最小二乘法的解析解中 XTX 不可逆怎么處理?
—— XTX + λI (也正是L2正則的效果)


正則化不需要作用在 bias 上,因為偏置項和模型(映射函數)的平滑程度無關,只會上下平移函數。
三、從把誤差分散到 P 維的角度考慮線性回歸模型
把 f(X) 理解為 P 維向量 X 的線性組合 X·ß
任務:要在 X 所在的 P 維空間里找到一個離Y最近的 X·ß
顯然是 Y 在這個 P 維空間的投影,所以 Y-X·ß 垂直於 X,直接求得解析解
四、從概率視角理解線性回歸模型
隨機變量 X 和 Y 分別表示樣本和觀測,令 Y = WTX + ε,噪聲 ε 服從高斯分布 N(0, σ2)
則 Y | W, X, ε 服從均值偏移 WTX、方差不變的高斯分布 N(WTX, σ2)
MLE:用極大似然估計來尋找參數 W 的值(令似然函數 P(Y | W, X, ε) 最大的 W)
可以發現要 argmin 的函數和最小二乘估計中的平方誤差損失函數一致
最小二乘估計 等價於 噪聲為高斯的最大似然估計