嶺回歸和Lasso回歸以及norm1和norm2


norm代表的是距離,兩個向量的距離;下圖代表的就是p-norm,其實是對向量里面元素的一種運算;

最簡單的距離計算(規范)是歐式距離(Euclidean distance),兩點間距離是如下來算的,屬於L2-norm:

另外一種就是出租車距離(也稱之為曼哈頓距離):這是一種1-norm:

L1-norm對應的就是1-norm,L2-norm對應的是2-norm;

注意上面的x代表的是兩個向量的差值,x=v1-v2;x1=v1【1】-v2【1】。

下面的就是嶺回歸(L2-norm)和Lasso回歸(L1-norm)的成本公式:

在健壯性上面(抵御異常值),L1是優於L2的,因為L1是線性的,L2是曲線,后者對於離群值(outlier)的判斷是要更加困難的;

在穩定性上面(水平調整的抵抗力,和健壯性相反),L2是優於L1的;

在解決方案層面上,L2只有一個,比如歐氏距離中,因為是多元的,所以當且僅當x和y同時滿足才能夠實現距離最短(比如線性回歸里面的梯度下降,里面就是對x,y同時求導);但是,L1只有則有多個解,下面的就是曼哈頓路線圖,可以看到其實是有多條路可以到對角。

計算困難度上面,L2是要高於L1,毫無疑問,L2是平方計算,L1是一次方計算;

稀疏性(Sparsity)上面,L1要高於L2的;

這里講述的L1,L2其實是擴展講述,其實在嶺回歸以及Lasso回歸中重要的應用場景是如果線性回回模型導致了過擬合,此時需要進行正則化,這個時候可以選擇嶺回歸和Lasso回歸來進行正則化,所謂的正則化其實就是講規則公式增加一些噪聲,其中就是通過添加L1或者L2的噪聲。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM