http://blog.sina.com.cn/s/blog_4a1853330102w2en.html
http://blog.csdn.net/oppoa113/article/details/22102103
正則化,歸一化(標准化和正規化):對數據進行預處理的兩種方式,目的是讓數據更便於計算和獲得更加泛化的結果,但並不改變問題的本質。
正則化:要求一個邏輯回歸問題,假設一個函數,覆蓋所有可能:y=wx,其中w為參數向量,x為已知樣本的向量,用yi表示第i個樣本的真實值,用f(xi)表示樣本的預測值,從而確定損失函數L(yi,f(xi))=yi−sigmoid(xi)。該損失函數代表一種誤差。對於該模型y=wx的所有樣本的損失平均值,我們稱為經驗損失(empirical loss)。
顯然,經驗損失(或稱經驗風險)最小化(empirical risk minimization)就是求解最優模型的原則。為了達到這個目的,模型的設定會越來越復雜,最后可能造成模型只適用於當前的樣本集,即出現過擬合(over fitting)問題。
為了解決過擬合問題,通常有兩種辦法,第一是減少樣本的特征維度;第二就是正則化(又稱懲罰“penalty”)。正則化的一般形式是在整個平均損失函數后增加一個正則項(常見L2范數正則化,也有其他形式的正則化,它們的作用也不同。詳見http://blog.csdn.net/zouxy09/article/details/24971995/)
λ=0代表不進行正則化;=1通常代表合適的懲罰;舉個例子=100的時候,會因為過度懲罰而造成“欠擬合”問題
歸一化:主要看模型是否具有伸縮不變性。有些模型在各個維度進行不均勻伸縮后,最優解和原來不等價,例如SVM。
對於這樣的模型,除非本來各維數據的分布范圍就比較接近,否則必須進行標准化,以免模型參數被分布范圍較大或較小的數據支配。
有些模型在各個維度進行不均勻伸縮后,最優解和原來等價,例如logistic regression(邏輯回歸)。
對於這樣的模型,是否標准化理論上不會改變最優解。但是,由於實際求解往往使用迭代算法,如果目標函數的形狀太扁,迭代算法可能收斂得很慢甚至不收斂。所以對於具有伸縮不變性的模型,最好也進行數據標准化。
https://www.zhihu.com/question/20455227