第四十九篇 入門機器學習——數據歸一化(Feature Scaling)


 

 

 

No.1. 數據歸一化的目的
數據歸一化的目的,就是將數據的所有特征都映射到同一尺度上,這樣可以避免由於量綱的不同使數據的某些特征形成主導作用。
 
No.2. 數據歸一化的方法
數據歸一化的方法主要有兩種:最值歸一化和均值方差歸一化。
 
最值歸一化的計算公式如下:

 

最值歸一化的特點是,可以將所有數據都映射到0-1之間,它適用於數據分布有明顯邊界的情況,容易受到異常值(outlier)的影響,異常值會造成數據的整體偏斜。
 
均值方差歸一化的計算公式如下:
均值方差歸一化的特點是,可以將數據歸一化到均值為0方差為1的分布中,不容易受到異常值(outlier)影響。
 
No.3. 向量和矩陣的最值歸一化
 
向量的最值歸一化

矩陣的最值歸一化

 

No.4. 向量和矩陣的均值方差歸一化
 
向量的均值方差歸一化

矩陣的均值方差歸一化

 
No.5. sklearn中對數據集歸一化的流程

 

No.6. 使用鳶尾花數據集進行數據歸一化

 

No.7. 簡單實現一個自己的StandardScaler類

 

No.8. 機器學習流程回顧:
首先我們需要將數據集分成訓練數據集和測試數據集兩部分;對於kNN這種算法,我們需要保證數據在同一尺度下,因此要進行數據的歸一化,訓練數據集通過一個Scaler進行數據的歸一化;將歸一化后的數據進行訓練,訓練過程中要使用網格搜索來尋找最好的超參數,訓練后得到最終的模型;之后,對於測試數據集,需要使用相同的Scaler進行歸一化,然后送進用訓練數據集得到的模型,得到模型分類的准確度,這樣就可以確定訓練數據集得到的模型的優劣。

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM