L1正則化與稀疏性


2020-04-21 22:32:57

問題描述:L1正則化使得模型參數具有稀疏性的原理是什么。

問題求解:

稀疏矩陣指有很多元素為0,少數參數為非零值。一般而言,只有少部分特征對模型有貢獻,大部分特征對模型沒有貢獻或者貢獻很小,稀疏參數的引入,使得一些特征對應的參數是0,所以就可以剔除可以將那些沒有用的特征,從而實現特征選擇,提高模型的泛化能力,降低過擬合的可能。

L1正則化使得參數稀疏可以從函數的角度來看,僅考慮一維的情況,多維情況是類似的,如圖所示。假設棕線是原始目標函數L(w)的曲線圖,顯然最小值點在藍點處,且對應的w*值非0。

 

首先,考慮加上L2正則化項,目標函數變成L(w)+Cw2,其函數曲線為黃色。

此時,最小值點在黃點處,對應的w*的絕對值減小了,但仍然非0。 然后,考慮加上L1正則化項,目標函數變成L(w)+C|w|,其函數曲線為綠色。

此時,最小值點在紅點處,對應的w是0,產生了稀疏性。

產生上述現象的原因也很直觀。加入L1正則項后,對帶正則項的目標函數求導,正則項部分產生的導數在原點左邊部分是−C,在原點右邊部分是C,因此,只要原目標函數的導數絕對值小於C,那么帶正則項的目標函數在原點左邊部分始 終是遞減的,在原點右邊部分始終是遞增的,最小值點自然在原點處。相反,L2 正則項在原點處的導數是0,只要原目標函數在原點處的導數不為0,那么最小值 點就不會在原點,所以L2只有減小w絕對值的作用,對解空間的稀疏性沒有貢獻。 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM