一直對數據特征歸一化有點模糊,今天借復習算法的過程,總結了一下歸一化的具體目的和方式。
概念:歸一化特征值,消除特征之間量級不同導致的影響。歸一化就是要把你需要處理的數據經過處理后(通過某種算法)限制在你需要的一定范圍內。首先歸一化是為了后面數據處理的方便,其次是保正程序運行時收斂加快。
方式:
1.線性函數轉換
y=(x-MinValue)/(MaxValue-MinValue)
說明:x、y分別為轉換前、后的值,MaxValue、MinValue分別為樣本的最大值和最小值。
2.對數函數轉換,表達式如下:
y=log10(x),說明:以10為底的對數函數轉換。
3.反余切函數轉換,表達式如下:
y=arctan(x)*2/PI
在統計學中,歸一化的具體作用是歸納統一樣本的統計分布性。歸一化在0-1之間是統計的概率分布,歸一化在-1--+1之間是統計的坐標分布。
數據歸一化是很有必要的,可以講數據的不同特征歸一到一個范圍下,方便數據的處理。