博主學習的源頭,感謝!https://www.jianshu.com/p/95a8f035c86c
歸一化 (Normalization)、標准化 (Standardization)和中心化/零均值化 (Zero-centered)
歸一化:1)把數據變成(0,1)或者(1,1)之間的小數。
標准化:使每個特征中的數值平均變為0(將每個特征的值都減掉原始資料中該特征的平均)、標准差變為1
中心化:平均值為0,對標准差無要求
歸一化和標准化的區別:歸一化是將樣本的特征值轉換到同一量綱下把數據映射到[0,1]或者[-1, 1]區間內,僅由變量的極值決定,因區間放縮法是歸一化的一種。標准化是依照特征矩陣的列處理數據,其通過求z-score的方法,轉換為標准正態分布,和整體樣本分布相關,每個樣本點都能對標准化產生影響。
標准化和中心化的區別:標准化是原始分數減去平均數然后除以標准差,中心化是原始分數減去平均數。 所以一般流程為先中心化再標准化。
什么時候用歸一化?什么時候用標准化?
??(1)如果對輸出結果范圍有要求,用歸一化。
??(2)如果數據較為穩定,不存在極端的最大最小值,用歸一化。
??(3)如果數據存在異常值和較多噪音,用標准化,可以間接通過中心化避免異常值和極端值的影響。
哪些模型必須歸一化/標准化?SVM KNN 神經網絡(數值問題、求解需要【初始化、梯度、學習率、搜索軌跡】) PCA