哪些模型對標准化處理比較敏感?
機器學習中有部分模型是基於距離度量進行模型預測和分類的。由於距離對特征之間不同取值范圍非常敏感,所以基於距離讀量的模型是十分有必要做數據標准化處理的。
最典型基於距離度量的模型包括k近鄰、kmeans聚類、感知機和SVM。另外,線性回歸類的幾個模型一般情況下也是需要做數據標准化處理的。決策樹、基於決策樹的Boosting和Bagging等集成學習模型對於特征取值大小並不敏感。所以這類模型一般不需要做數據標准化處理。另外有較多類別變量的數據也是不需要做標准化處理的。
結論
結論就是當數據特征取值范圍或單位差異較大時,最好是做一下標准化處理。k近鄰、kmeans聚類、感知機、SVM和線性回歸類的模型,一般也是需要做數據標准化處理的。另外最好區分一下數據標准化和數據歸一化