12種數據量綱化處理方式


在進行數據分析時,數據具有單位是非常常見的,比如說GDP可以以億作為單元,也可以以百萬作為單位,那么此時就會出現由於單位問題導致的數字大小問題;這種情況對於分析可能產生影響,因此需要對其進行處理,但是處理的前提是不能失去數字的相對意義,即之前數字越大代表GDP越高,處理后的數據也不能失去這個特性,類似這樣的處理我們統稱為量綱化。

也或者計算距離,數字1和2的距離可以直接相減得到距離值為1; 另外一組數據為10000和20000,兩個數字直接相減得到距離值為10000。如果說距離數字越大代表距離越遠,那么明顯的10000大於1,但這種情況僅僅是由於數據單位導致的,而並非實際希望如何,因此就需要進行量綱化處理。

量綱化有很多種方式,但具體應該使用那一種方式,並沒有固定的標准,而應該結合數據情況或者研究算法,選擇最適合的量綱化處理方式,SPSSAU共提供12種量綱化處理方法,如下圖。

 

 

1 量綱化基本說明

關於量綱化,其具體的公式計算如下,接下來會逐一說明。

12種量綱化類型

備注:表格中,X表示某數據,Mean表示平均值,Std表示標准差;Min表示最小值,Max表示最大值,Sum表示求和,Sqrt表示開根號。

 

1) 標准化(S)

標准化是一種最為常見的量綱化處理方式。其計算公式為:(X-Mean)/ Std。

此種處理方式會讓數據呈現出一種特征,即數據的平均值一定為0,標准差一定是1。針對數據進行了壓縮大小處理,同時還讓數據具有特殊特征(平均值為0標准差為1)。

在很多研究算法中均有使用此種處理,比如聚類分析前一般需要進行標准化處理,也或者因子分析時默認會對數據標准化處理。

比如聚類分析時,其內部算法原理在於距離大小來衡量數據間的聚集關系,因此默認SPSSAU會選中進行標准化處理。

除此之外,還有一些特殊的研究方法,比如社會學類進行中介作用,或者調節作用研究時,也可能會對數據進行標准化處理。

 

2) 中心化(C)

中心化這種量綱處理方式可能在社會科學類研究中使用較多,比如進行中介作用,或者調節作用研究。其計算公式為:X - Mean。

此種處理方式會讓數據呈現出一種特征,即數據的平均值一定為0。針對數據進行了壓縮大小處理,同時還讓數據具有特殊特征(平均值為0)。

平均值為0是一種特殊情況,比如在社會學研究中就偏好此種量綱處理方式,調節作用研究時可能會進行簡單斜率分析,那么平均值為0表示中間狀態,平均值加上一個標准差表示高水平狀態;也或者平均值減一個標准差表示低水平狀態。

 

3) 歸一化(MMS)

歸一化的目的是讓數據壓縮在【0,1】范圍內,包括兩個邊界數字0和數字1;其計算公式為(X - Min)/ (Max - Min)。

當某數據剛好為最小值時,則歸一化后為0;如果數據剛好為最大值時,則歸一化后為1。

歸一化也是一種常見的量綱處理方式,可以讓所有的數據均壓縮在【0,1】范圍內,讓數據之間的數理單位保持一致。

 

4) 均值化(MC)

均值化在綜合評價時有可能使用,比如進行灰色關聯法研究時就常用此種處理方式;其計算公式為X / Mean,即以平均值作為單位,全部數據均去除以平均值。

需要特別說明一點是,此種處理方式有個前提,即所有的數據均應該大於0,否則可能就不適合用此種量綱方式。

 

5) 正向化(MMS)

正向化的目的是對正向指標保持正向且量綱化,什么意思呢。比如這樣一些指標GDP增長率、科研產出數量、失業率共3個指標;明顯的,GDP增長率、科研產出數量是數字越大越好,而失業率是數字越小越好。

正向化的目的就是讓數字越大越好的意思,而且同時其還讓數據壓縮在【0,1】范圍內即進行了量綱處理。其計算公式為(X - Min)/ (Max - Min)。

當某數據剛好為最小值時,則歸一化后為0;如果數據剛好為最大值時,則歸一化后為1。

正向化和歸一化的公式剛好完全相等,但正向化強調讓數字保持越大越好的特性且對數據單位壓縮,而歸一化僅強調數字壓縮在【0,1】之間。

正向化的使用情況為:當指標中有正向指標,又有負向指標時;此時使用正向化讓正向指標全部量綱化;也或者指標全部都是正向指標,讓所有正向指標都量綱化處理。

 

6) 逆向化(NMMS)

逆向化的目的是對逆向指標正向且量綱化,什么意思呢。比如這樣一些指標GDP增長率、科研產出數量、失業率共3個指標;明顯的,GDP增長率、科研產出數量是數字越大越好,而失業率是數字越小越好。

逆向化的目的就是讓數字越小越好的意思,而且同時其還讓數據壓縮在【0,1】范圍內即進行了量綱處理。其計算公式為(Max - X)/ (Max - Min)。

從公式就可以看出,分母永遠是大於0,隨着X的增大,分子會越來越小,那么就對逆向指標逆向化處理之后就會得到一個這樣的特征,即數字越大越好(數字越大時,其實X是越小)。

相當於將逆向指標逆向化后,新的數據為數字越大越好,這樣便於進行方向的統一,尤其是在指標同時出現正向指標和逆向指標時,針對逆向指標進行逆向處理,是非常常見的處理方式。

 

7) 區間化(Interval)

區間化的目的是讓數據壓縮在【a,b】范圍內,a和b是自己希望的區間值,如果a=0,b=1,那么其實就是一種特殊情況即歸一化;其計算公式為a + (b - a) * (X - Min)/(Max - Min)。

此公式會讓數據永遠的保持在【a,b】之間,SPSSAU默認a為1,b為2,即將數據壓縮在【1,2】之間,當然研究者根據需要進行設置即可。它的目的僅僅是對數據進行壓縮在固定的區間,保持數據數理單位的一致性。

 

8) 初值化(Init)

初值化在綜合評價時有可能使用,比如進行灰色關聯法研究時就常用此種處理方式;其計算公式為X / 該列第1個不為空的數據,即以數據中第1個不為空的數據作為參照標准,其余的數據全部去除以該值。

比如說2000,2001,2002,2003,一直到2020共計21年的GDP數據,第1個數據就是2000年的GDP,所有的數據都去除以2000年的GDP,相當於以2000年GDP作為參照標准,所有數據全部除以2000年的GDP(包括2000年GDP除以自己得到數字1)。

一般來說,初值化這種處理方式適用於有着一種趨勢或規律性的數據,比如上述2000~2020年的GDP等,而且數據正常情況下都是全部大於0,因為出現負數,通常會失去其特定意義。

 

9) 最小值化(MinS)

最小值化,其目的是讓最小值作為參照標准,所有的數據全部除以最小值;其計算公式為X / Min,即以最小值作為單位,全部數據全部去除以最小值。需要特別說明一點是,此種處理方式時一般都是要求數據全部大於0,否則可能就不適合用此種量綱方式。

 

10) 最大值化(MaxS)

最大值化,其目的是讓最大值作為參照標准,所有的數據全部除以最大值;其計算公式為X / Max,即以最大值作為單位,全部數據全部去除以最大值。需要特別說明一點是,此種處理方式時一般都是要求數據全部大於0,否則可能就不適合用此種量綱方式。

 

11) 求和歸一化(SN)

求和歸一化,其目的是讓‘求和值’作為參照標准,所有的數據全部除以求和值,得到的數據相當於為求和的占比;其計算公式為X / Sum(X),即以所有數據的‘求和值’作為單位,全部數據全部去除以‘求和值’。

需要特別說明一點是,此種處理方式時一般都是要求數據全部大於0,否則可能就不適合用此種量綱方式。TOPSIS法的時候使用此種處理方式較多。

 

12) 平方和歸一化(SSN)

平方和歸一化,其目的是讓‘平方和值’作為參照標准,所有的數據全部除以平方和值,得到的數據相當於為平方和的占比;其計算公式為X / Sqrt(Sum(X^2)),即以所有數據的‘平方和值’作為單位,全部數據全部去除以‘平方和值’。

需要特別說明一點是,此種處理方式時一般都是要求數據全部大於0,否則可能就不適合用此種量綱方式。TOPSIS法的時候使用此種處理方式較多。

 

2 如何使用SPSSAU進行量綱化操作

關於使用SPSSAU進行量綱化相關操作上,其位置在SPSSAU儀表盤->數據處理->生成變量中,截圖如下:

SPSSAU可批量進行某種類型的量綱化操作,默認SPSSAU會在處理的名稱前加上字母進行標識,比如名稱為“A”的標題進行標准化操作,那么SPSSAU會輸出“S_A”。“S”表示進行了標准化處理。

 

3 量綱化如何使用

量綱化按是否具有實際意義可分為兩類,一類是量綱處理方式有着一定的實際意義,另一類是僅數理角度的量綱處理方式;如下圖:

 

 

量綱化的目的是將數據進行量綱單位統一化,有的量綱化具有實際意義,比如均值化,初值化,最小值化,最大值化,和求和歸一化,平方和歸一化共6種。分別代表數據除以平均值,數據除以第1個數,數據除以最小值,數據除以最大值,數據除以求和值,數據除以平方和值。相當於說,它們都找到一個參照標准項,然后所有數據去除以參照標准項。此6種方式的特點在於,一般要求數據全部都大於0,如果出現小於0或者等於0就有可能出問題,比如剛好分母為0,那么就出現無法相除。

除此之外,僅數理化的量綱處理,包括標准化,中心化,歸一化,正向化,逆向化,區間化,均在於讓數據保持在一定的區間范圍內,而且處理后帶有一定的數理特征,比如標准化后數據的平均值為0標准差為1;中心化后數據平均值為0;歸一化后數據最小為0最大為1;正向化后數據最小為0最大為1;逆向化后數據最小為0最大為1;區間化是研究者自行設定處理后數據壓縮在對應的范圍內。

 

 

在研究時具體應該使用那一種處理方式呢,其實並沒有固定的要求,而是結合實際情況或者實際研究進行。比如社會學類的中介作用和調節作用偏好於使用中心化或標准化這種處理方式;聚類分析或者因子分析等使用默認會使用標准化;綜合評價時比如灰色關聯法偏好於使用均值化或初值化;TOPSIS法時偏好於使用求和歸一化或者平方和歸一化。如果想對數據的指標方向進行統一,那么就會使用正向化或者逆向化。

如果單獨想對數據量綱進行處理(且沒有分析方法上的常用習慣),那么通常默認是使用標准化或者歸一化最多,標准化直接把數據壓縮且數據有一種特質即平均值為0標准差為1的特質;歸一化把數據壓縮在【0,1】之間。也或者使用中心化讓數據有一種特質即平均值為0。

如果數據中有負數,正常情況下不能使用‘有實際意義的量綱處理’即均值化,初值化,最小值化,最大值化,求和歸一化,平方和歸一化。

特別說明,正向化和逆向化這兩種處理方式,其目的有2個,一是對數據進行量綱單位處理,最終讓數據壓縮在【0,1】之間。除此之外,其還可以對正向或負向指標進行方向上的統一;如果數據包括正向和逆向指標,那么正向指標進行正向化處理,負向指標進行負向化處理,最終讓所有的指標都壓縮在【0,1】之間,而且都讓指標有一個物質即數字越大越好。如果說指標全部都是正向指標那么全部正向化即可,正向化后數字還是越大越好;如果說指標全部都是逆向指標那么全部逆向化即可,逆向化后數字就代表越大越好。

 

以上就是本次分享的內容,登錄SPSSAU官網了解更多。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM