No.1. 數據歸一化的目的
數據歸一化的目的,就是將數據的所有特征都映射到同一尺度上,這樣可以避免由於量綱的不同使數據的某些特征形成主導作用。
No.2. 數據歸一化的方法
數據歸一化的方法主要有兩種:最值歸一化和均值方差歸一化。
最值歸一化的計算公式如下:

最值歸一化的特點是,可以將所有數據都映射到0-1之間,它適用於數據分布有明顯邊界的情況,容易受到異常值(outlier)的影響,異常值會造成數據的整體偏斜。
均值方差歸一化的計算公式如下:

均值方差歸一化的特點是,可以將數據歸一化到均值為0方差為1的分布中,不容易受到異常值(outlier)影響。
No.3. 向量和矩陣的最值歸一化
向量的最值歸一化

矩陣的最值歸一化
No.4. 向量和矩陣的均值方差歸一化
向量的均值方差歸一化

矩陣的均值方差歸一化
No.5. sklearn中對數據集歸一化的流程
No.6. 使用鳶尾花數據集進行數據歸一化
No.7. 簡單實現一個自己的StandardScaler類
No.8. 機器學習流程回顧:
首先我們需要將數據集分成訓練數據集和測試數據集兩部分;對於kNN這種算法,我們需要保證數據在同一尺度下,因此要進行數據的歸一化,訓練數據集通過一個Scaler進行數據的歸一化;將歸一化后的數據進行訓練,訓練過程中要使用網格搜索來尋找最好的超參數,訓練后得到最終的模型;之后,對於測試數據集,需要使用相同的Scaler進行歸一化,然后送進用訓練數據集得到的模型,得到模型分類的准確度,這樣就可以確定訓練數據集得到的模型的優劣。
