數據歸一化

本文轉載自查看原文 2017-11-29 19:43 1587

參考博客：https://www.cnblogs.com/chaosimple/archive/2013/07/31/3227271.html

數據標准化（歸一化）處理是數據挖掘的一項基礎工作，不同評價指標往往具有不同的量綱和量綱單位，這樣的情況會影響到數據分析的結果，為了消除指標之間的量綱影響，需要進行數據標准化處理，以解決數據指標之間的可比性。原始數據經過數據標准化處理后，各指標處於同一數量級，適合進行綜合對比評價。以下是兩種常用的歸一化方法：

1、min-max標准化（Min-Max Normalization）

也稱為離差標准化，是對原始數據的線性變換，使結果值映射到[0 - 1]之間。轉換函數如下：

其中max為樣本數據的最大值，min為樣本數據的最小值。這種方法有個缺陷就是當有新數據加入時，可能導致max和min的變化，需要重新定義。

2、Z-score標准化方法

這種方法給予原始數據的均值（mean）和標准差（standard deviation）進行數據的標准化。經過處理的數據符合標准正態分布，即均值為0，標准差為1，轉化函數為：

其中為所有樣本數據的均值，為所有樣本數據的標准差，其在取值就在（-1,1）之間.

為什么取值會在（-1,1）之間呢？

設樣本為X1,X2,X3...平均值是X0 那么方差=（X1-X0）^2+(X2-X0)^2+.,因為平方是大於或等於0的數,所以每一項減去平均值的平方都要小於或者等於方差.而方差等於1 ,平均值是0,所以可以知道X1^2,X2^2,X3^3.都要小於等於1,所以取值在（-1,1）之間

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據歸一化數據歸一化淺談數據歸一化數據歸一化 NumPy數據的歸一化 python 對矩陣的數據歸一化數據歸一化方法（轉） MATLAB數據歸一化【zz】 knn算法--數據歸一化機器學習-數據歸一化及哪些算法需要歸一化