在對數據進行線性擬合時,常常要求該變量滿足正態分布,通常變量不滿足或者正態分布擬合的不是很好。
如何把這些數據轉換成正態分布的數據?
1.使用log()函數通常能使數據集向正態分布靠近。
若數據集中數據存在負數,則需要對數據進行預處理:
大致預處理如下:1)對數據進行歸一化,即把數據映射到[0,1]上
2)防止數據出現0,可以使用log(x+1)進行數據映射
2.使用box-cox對數據進行轉換
Box-Cox變換是統計建模中常用的一種數據變換,用於連續的響應變量不滿足正態分布的情況。
Box-Cox變換,變換之后,可以一定程度上減小不可觀測的誤差和預測變量的相關性。
1 Box-Cox變換
在回歸模型號中,Box-Cox變換是對因變量Y作如下變換:
這里是一個待定變換參數。對不同的
,所做的變換自然就不同,所以是一個變換族。它包括了對數變換(
=0),平方根變換(
)和倒數變換(
=-1)等常用變換。
圖1. 變換前變量的分布
圖2.變換后變量分布