轉化非正態分布數據


在對數據進行線性擬合時,常常要求該變量滿足正態分布,通常變量不滿足或者正態分布擬合的不是很好。

如何把這些數據轉換成正態分布的數據?

1.使用log()函數通常能使數據集向正態分布靠近。

若數據集中數據存在負數,則需要對數據進行預處理:

大致預處理如下:1)對數據進行歸一化,即把數據映射到[0,1]上

2)防止數據出現0,可以使用log(x+1)進行數據映射

 

2.使用box-cox對數據進行轉換

Box-Cox變換是統計建模中常用的一種數據變換,用於連續的響應變量不滿足正態分布的情況。

Box-Cox變換,變換之后,可以一定程度上減小不可觀測的誤差和預測變量的相關性。

BoxCox變換

在回歸模型號中,Box-Cox變換是對因變量Y作如下變換:

clip_image002            (1.1)

這里clip_image004是一個待定變換參數。對不同的clip_image004[1],所做的變換自然就不同,所以是一個變換族。它包括了對數變換(clip_image004[2]=0),平方根變換(clip_image008)和倒數變換(clip_image004[3]=-1)等常用變換。

clip_image011

圖1. 變換前變量的分布

clip_image013

圖2.變換后變量分布


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM