數據歸一化和兩種常用的歸一化方法
一、總結
一句話總結:
min-max標准化:x* =(x-min)/(max-min):新數據加入,需重新計算max和min
Z-score標准化:x* =(x-μ)/σ:μ為所有樣本數據的均值,σ為所有樣本數據的標准差
1、為什么要對數據進行歸一化處理?
不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指標之間的量綱影響,需要進行數據標准化處理
二、數據歸一化和兩種常用的歸一化方法
轉自或參考:數據歸一化和兩種常用的歸一化方法
https://www.cnblogs.com/chaosimple/p/3227271.html
數據標准化(歸一化)處理是數據挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指標之間的量綱影響,需要進行數據標准化處理,以解決數據指標之間的可比性。原始數據經過數據標准化處理后,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一化方法:
一、min-max標准化(Min-Max Normalization)
也稱為離差標准化,是對原始數據的線性變換,使結果值映射到[0 - 1]之間。轉換函數如下:
其中max為樣本數據的最大值,min為樣本數據的最小值。這種方法有個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。
二、Z-score標准化方法
這種方法給予原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。經過處理的數據符合標准正態分布,即均值為0,標准差為1,轉化函數為:
參考文獻:
http://webdataanalysis.net/data-analysis-method/data-normalization/