第四十九篇入門機器學習——數據歸一化（Feature Scaling）

本文轉載自查看原文 2018-07-18 21:33 8073

No.1. 數據歸一化的目的

數據歸一化的目的，就是將數據的所有特征都映射到同一尺度上，這樣可以避免由於量綱的不同使數據的某些特征形成主導作用。

No.2. 數據歸一化的方法

數據歸一化的方法主要有兩種：最值歸一化和均值方差歸一化。

最值歸一化的計算公式如下：

最值歸一化的特點是，可以將所有數據都映射到0-1之間，它適用於數據分布有明顯邊界的情況，容易受到異常值（outlier）的影響，異常值會造成數據的整體偏斜。

均值方差歸一化的計算公式如下：

均值方差歸一化的特點是，可以將數據歸一化到均值為0方差為1的分布中，不容易受到異常值（outlier）影響。

No.3. 向量和矩陣的最值歸一化

向量的最值歸一化

矩陣的最值歸一化

No.4. 向量和矩陣的均值方差歸一化

向量的均值方差歸一化

矩陣的均值方差歸一化

No.5. sklearn中對數據集歸一化的流程

No.6. 使用鳶尾花數據集進行數據歸一化

No.7. 簡單實現一個自己的StandardScaler類

No.8. 機器學習流程回顧：

首先我們需要將數據集分成訓練數據集和測試數據集兩部分；對於kNN這種算法，我們需要保證數據在同一尺度下，因此要進行數據的歸一化，訓練數據集通過一個Scaler進行數據的歸一化；將歸一化后的數據進行訓練，訓練過程中要使用網格搜索來尋找最好的超參數，訓練后得到最終的模型；之后，對於測試數據集，需要使用相同的Scaler進行歸一化，然后送進用訓練數據集得到的模型，得到模型分類的准確度，這樣就可以確定訓練數據集得到的模型的優劣。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【WPF學習】第四十九章基本動畫 Linux性能優化實戰學習筆記：第四十九講機器學習-數據歸一化及哪些算法需要歸一化機器學習之數據歸一化問題機器學習：數據歸一化（Scaler） Scratch第四十九講：完美的下落和反彈（一）線性回歸與特征歸一化(feature scaling) 機器學習之歸一化機器學習歸一化數據歸一化Scaler-機器學習算法

第四十九篇 入門機器學習——數據歸一化（Feature Scaling）

免責聲明！

第四十九篇入門機器學習——數據歸一化（Feature Scaling）