大部分的數據分析都希望原始數據是滿足正態分布的定距變量。然而,顯示是殘酷的,在各種研究中,常常需要面對非正態分布的定距數據。為了解決數據的正態性問題,數學家們總結了很多轉化方法,但是沒有萬能神葯,都需要對症下葯(根據數據的實際分布情況,選擇合適的轉化方法)。
下面不會介紹具體的轉化方法,只是幫助大家理順正態轉化的思路,明白正態轉化的邏輯,不至於將正態轉化看做神秘領域,高不可攀。
正態轉化四步驟
第一步:計算數據的分布狀況及兩個參數:偏度(Skewness)和峰度(Kurtosis)。
第二步:根據變量的分布形狀和參數,決定是否做轉換。
1、對稱判斷
看Skewness(偏差度)的取值。如果偏度為0,則是完全對稱(但罕見);如果偏度為正值,則說明該變量的分布為正偏態;如果偏度為負值,則說明該變量的分布為負偏態。然而,偏度值還不能完全判斷偏態的分布是否與正態分布有顯著差別,所以還需要做顯著性檢驗。如果檢驗結果顯著,我們可能(注意是“可能”)可以通過轉換來達到或接近對稱。

2、峰度檢驗
Kurtosis(峰度)是判斷曲線陡峭和平緩的指標。如果峰度為0,說明該變量分布合適(但罕見);如果峰度為正值,說明該變量的分布陡峭;反之,如果峰度為負值,說明變量的分布平緩。峰度也需要通過顯著檢驗來判斷與正態分布是否有顯著差別。我們可能可以通過轉換來達到或接近正態分布。

第三步:如果需要做正態轉換,根據變量的分布形狀,確定相應的轉換公式。下面簡單介紹3種常見的正態轉換方法
1、如果是中度偏態
如果偏度為其標准誤差的2-3倍,可以考慮取根號值來轉換。
2、如果高度偏態
如果偏度為其標准誤差的3倍以上,則可以取對數,其中又可分為自然對數和以10為基數的對數。
3、對於雙峰或多峰數據
秩分的正態得分的轉化方法,SPSS軟件中常用,請關注SPSS視頻教程。
第四步:再次檢驗轉換后變量的分布形狀。如果沒有解決問題,或者甚至惡化,需要再從第二或第三步重新做起,然后再回到第一步的檢驗。直至達到比較令人滿意的結果。
數據正態化注意點
1、偏度和峰度的標准誤差與樣本量直接有關。具體說來,偏度的標准誤差約等於6除以n后的開方,而峰度的標准誤差約等於24除以n后的開方,n為樣本量。由此可見,樣本量越大,標准誤差越小。
2、數據的正態轉化方法不是通用的,要根據不同的數據分布情況,選擇合適的或創造合適的轉化公式,轉化后必須驗證轉化效果,最終達到轉化的目的。
3、不是所有的非正態分布的數據都能夠通過正態轉化而轉化為正態分布數據。非正態分布的數據也可以使用非參數方法進行分析。數據分析師培訓
