常用的數據標准化方法


統計指標是數據分析的基本元素,變量之間的對比分析和綜合分析是最基本、最常用的統計分析方法。當統計指標的量綱不同或性質不同時,如果直接用原始數據進行數據分析,往往會得到不合理的結論。

為什么要進行數據標准化

對單個指標進行比較,假設對3名新生嬰兒體重(5,6,7)和3名成年人的體重(150,151,152)差異的大小進行對比分析,從表面上看,兩組人員的平均差異均為1斤,由此便得出兩組人員的體重差異程度相同顯然是不合適,因為兩者的體重水平不在同一等級上,即量綱不同;

對多個指標進行綜合分析,假設對商品的運營指標銷售量、銷售額、瀏覽量進行綜合評價或聚類分析,由於各指標間的水平相差很大,如果直接進行分析會突出數值較高的指標在綜合分析中的作用,從而使各個指標以不等權參與運算。

因此,常常需要先對數據進行標准化,對各統計指標進行無量綱化處理,消除量綱影響和變量自身變異大小和數值大小的影響。

常見的數據標准化方法

1、 Max-Min標准化/離差標准化

該方法將某個變量的觀察值減去該變量的最小值,然后除以該變量的離差,其標准化的數值落到[0,1]區間,轉換函數為:x=(x-min)/(max-min),其中max為樣本的最大值,min為樣本的最小值。

該方法對原始數據進行線性變換,保持原始數據之間的聯系,其缺陷是當有新數據加入時,可能導致max或min的變化,轉換函數需要重新定義。

2、Z-score 標准化/標准差標准化/零均值標准化

該方法將某變量中的觀察值減去該變量的平均數,然后除以該變量的標准差,標准化后的數據符合標准正態分布,即均值為0,標准差為1,轉化函數為:x=(x-μ)/σ,其中μ為所有樣本數據的均值,σ為所有樣本數據的標准差。

該方法對離群點不敏感,當原始數據的最大值、最小值未知或離群點左右了Max-Min標准化時非常有用,Z-Score標准化目前使用最為廣泛的標准化方法。

3、小數定標(decimal scaling)標准化

該方法通過移動數據的小數點位置來進行標准化。小數點移動多少位取決於變量取值中的最大絕對值。將某變量的原始值x使用小數定標標准化到x’的轉換函數為:x’=x/(10^j),其中,j是滿足使max(|x’|)<1成立的最小整數。假設變量X的值由-986到917,它的最大絕對值為986,為使用小數定標標准化,我們用1000(即,j=3)除以每個值,這樣,-986被標准化為-0.986。

【轉自:http://www.dearopinion.com/data/%E5%B8%B8%E7%94%A8%E7%9A%84%E6%95%B0%E6%8D%AE%E6%A0%87%E5%87%86%E5%8C%96%E6%96%B9%E6%B3%95

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM