数据归一化/标准化/缩放


在处理多维特征问题的时候,需要保证特征具有相近的尺度,这有助于梯度下降算法更快的收敛。
以预测房屋价格为例,假设有两个特征,房屋的尺寸和房屋的数量,尺寸的值为 0-
2000 平方英尺,而房间数量的值则是 0-5,以两个参数分别为横纵坐标,绘制代价函数的等
高线图能,看出图像会显得很扁,梯度下降算法需要非常多次的迭代才能收敛。

归一化方法

1.最大值最小值归一化:

\[\frac{x-\min}{\max-\min} \]

  • 优点:所有数据都能缩放到0~1之间,消除量纲的影响
  • 缺点:当min,max为离群值或异常值时,缩放后数据分布不均匀

均值归一化

\[x-\min \]

将所有数据缩放至0两边, 这样做的好处是方便01标准化,而且像sigmoid的导数也是以0为中心

标准化方法

1. 01标准化(均值0 方差1)

\[\frac{x-mean}{var} \]

优点: 有时候, 如NN模型, 假设数据服从0 1 分布, 所以我们需要对数据标准化, 图像取均值也是标准化的手段之一, 不过因为图像的方差都差不多, 所以一般只减去均值

总结

  • 归一化:缩放仅仅跟最大、最小值的差别有关。 输出范围在0-1之间
  • 标准化:缩放和每个点都有关系,通过方差(variance)体现出来。与归一化对比,标准化中所有数据点都有贡献(通过均值和标准差造成影响,标准化也可以消除量纲


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM