1. 正則化概述(Regularization)
監督學習可以簡單的理解為在最小化loss function 的同時,保證模型的復雜度盡可能的低,防止出現過擬合(overfitting)。常用的loss函數有square loss(Regression),Hinge Loss(SVM),exp-loss(adaBoost) 等。關於正則化(Regularization),它一方面可用於控制模型的復雜度,提高模型的范化能力;另一方面還可以用於約束模型的特性,例如稀疏、平滑特性等。在數學上公式體現為在最優化loss Funcition后面加上正則化項(regularizer)也稱為懲罰項(penalty term),用於限制模型參數w。實際中常使用模型參數w的范數來約束w,0范數、1范數、2范數分別稱為L0正則化、L1正則化、L2正則化。
2. L0、L1正則化
向量的0范數是指向量中非零元素的個數。L0正則化的值是模型中非零參數的個數,L0正則化可以實現模型參數的的稀疏化。模型參數稀疏化使得模型能自動的選擇比較重要的特征屬性進行yi的預測,去掉沒用的信息項。模型自動選擇的比較少的特征屬性一般會有比較好的解釋性,例如1000維的患病樣本,到底是怎么影響患病的?1000維的解釋性遠不如模型參數稀疏化后選擇的幾個重要的維度。遺憾的是,L0正則化是個NP難問題,很難求解,這才有了我們常見的L1正則化,L1也能達到模型參數稀疏化的效果。向量的1范數是指向量中所有元素的絕對值之和。L1正則化用於替代L0正則化,也稱為lasso Regularizer。
3. L1、L2正則化
向量的2范數是指向量的模值||W|,向量所有元素的平方和然后求均值。L2正則項不是像L1正則化中通過稀疏模型參數來降低模型復雜度,而是通過減少模型參數的權值來控制過擬合的效果,因此L2正則化也被稱為“權值衰減 weight decay”,在回歸分析中也有人稱為“嶺回歸 Ridge Regression”。L2正則化中模型參數W中每個元素都很小,接近於0,一般不會等於0。在實際中正則化中感覺使用L2的會更多一些,因為L1 會趨向於產生少量的有效特征項,L2會選擇更多的特征。在所有特征中只有少量特征其重要作用的情況,可以選擇lasso來自動選擇比較合適的特征屬性。而如果所有的特征中,大部分的特征都能起到一定的作用,還是使用L2會比較合適。
參考資料:http://blog.csdn.net/vividonly/article/details/50723852