線性回歸的一般形式

過擬合問題及其解決方法
- 問題:以下面一張圖片展示過擬合問題

- 解決方法:(1):丟棄一些對我們最終預測結果影響不大的特征,具體哪些特征需要丟棄可以通過PCA算法來實現;(2):使用正則化技術,保留所有特征,但是減少特征前面的參數θ的大小,具體就是修改線性回歸中的損失函數形式即可,嶺回歸以及Lasso回歸就是這么做的。
嶺回歸與Lasso回歸
嶺回歸與Lasso回歸的出現是為了解決線性回歸出現的過擬合以及在通過正規方程方法求解θ的過程中出現的x轉置乘以x不可逆這兩類問題的,這兩種回歸均通過在損失函數中引入正則化項來達到目的,具體三者的損失函數對比見下圖:
![]()
其中λ稱為正則化參數,如果λ選取過大,會把所有參數θ均最小化,造成欠擬合,如果λ選取過小,會導致對過擬合問題解決不當,因此λ的選取是一個技術活。
嶺回歸與Lasso回歸最大的區別在於嶺回歸引入的是L2范數懲罰項,Lasso回歸引入的是L1范數懲罰項,Lasso回歸能夠使得損失函數中的許多θ均變成0,這點要優於嶺回歸,因為嶺回歸是要所有的θ均存在的,這樣計算量Lasso回歸將遠遠小於嶺回歸。
![]()
![]()
可以看到,Lasso回歸最終會趨於一條直線,原因就在於好多θ值已經均為0,而嶺回歸卻有一定平滑度,因為所有的θ值均存在。摘自:https://blog.csdn.net/hzw19920329/article/details/77200475
