一直对数据特征归一化有点模糊,今天借复习算法的过程,总结了一下归一化的具体目的和方式。
概念:归一化特征值,消除特征之间量级不同导致的影响。归一化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。
方式:
1.线性函数转换
y=(x-MinValue)/(MaxValue-MinValue)
说明:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。
2.对数函数转换,表达式如下:
y=log10(x),说明:以10为底的对数函数转换。
3.反余切函数转换,表达式如下:
y=arctan(x)*2/PI
在统计学中,归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。
数据归一化是很有必要的,可以讲数据的不同特征归一到一个范围下,方便数据的处理。