什么時候需要做數據標准化

本文轉載自查看原文 2020-09-08 15:13 990 監督學習

哪些模型對標准化處理比較敏感？

機器學習中有部分模型是基於距離度量進行模型預測和分類的。由於距離對特征之間不同取值范圍非常敏感，所以基於距離讀量的模型是十分有必要做數據標准化處理的。

最典型基於距離度量的模型包括k近鄰、kmeans聚類、感知機和SVM。另外，線性回歸類的幾個模型一般情況下也是需要做數據標准化處理的。決策樹、基於決策樹的Boosting和Bagging等集成學習模型對於特征取值大小並不敏感。所以這類模型一般不需要做數據標准化處理。另外有較多類別變量的數據也是不需要做標准化處理的。

結論

結論就是當數據特征取值范圍或單位差異較大時，最好是做一下標准化處理。k近鄰、kmeans聚類、感知機、SVM和線性回歸類的模型，一般也是需要做數據標准化處理的。另外最好區分一下數據標准化和數據歸一化

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據什么時候需要做中心化和標准化處理？為什么需要做歸一化或者標准化為什么要做特征歸一化/標准化？數據標准化三、標准化數據數據標准化 python數據標准化 sklearn——數據標准化數據0-1標准化標准化數據-StandardScaler