什么時候需要做數據標准化


哪些模型對標准化處理比較敏感?

     機器學習中有部分模型是基於距離度量進行模型預測和分類的。由於距離對特征之間不同取值范圍非常敏感,所以基於距離讀量的模型是十分有必要做數據標准化處理的。

     最典型基於距離度量的模型包括k近鄰、kmeans聚類、感知機和SVM。另外,線性回歸類的幾個模型一般情況下也是需要做數據標准化處理的。決策樹、基於決策樹的Boosting和Bagging等集成學習模型對於特征取值大小並不敏感。所以這類模型一般不需要做數據標准化處理。另外有較多類別變量的數據也是不需要做標准化處理的。

結論

     結論就是當數據特征取值范圍或單位差異較大時,最好是做一下標准化處理。k近鄰、kmeans聚類、感知機、SVM和線性回歸類的模型,一般也是需要做數據標准化處理的。另外最好區分一下數據標准化和數據歸一化


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM