數據歸一化


參考博客:https://www.cnblogs.com/chaosimple/archive/2013/07/31/3227271.html

數據標准化(歸一化)處理是數據挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指標之間的 量綱影響,需要進行數據標准化處理,以解決數據指標之間的可比性。原始數據經過數據標准化處理后,各指標處於同一數量級,適合進行綜合對比評價。以下是兩 種常用的歸一化方法:

1、min-max標准化(Min-Max Normalization)

也稱為離差標准化,是對原始數據的線性變換,使結果值映射到[0 - 1]之間。轉換函數如下:

https://images0.cnblogs.com/blog/407700/201307/31105200-6bd5002661114e40ba1ee5d7d3377015.gif

其中max為樣本數據的最大值,min為樣本數據的最小值。這種方法有個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。

2、Z-score標准化方法

這種方法給予原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。經過處理的數據符合標准正態分布,即均值為0,標准差為1,轉化函數為:

https://images0.cnblogs.com/blog/407700/201307/31105201-a6fe07c7a6764af0ac554988a3468917.gif

其中clip_image006為所有樣本數據的均值,clip_image008為所有樣本數據的標准差,其在取值就在(-1,1)之間.

為什么取值會在(-1,1)之間呢?

設樣本為X1,X2,X3...平均值是X0 那么方差=(X1-X0)^2+(X2-X0)^2+.,因為平方是大於或等於0的數,所以每一項減去平均值的平方都要小於或者等於方差.而方差等於1 ,平均值是0,所以可以知道X1^2,X2^2,X3^3.都要小於等於1,所以取值在(-1,1)之間


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM