數據歸一化/標准化/縮放


在處理多維特征問題的時候,需要保證特征具有相近的尺度,這有助於梯度下降算法更快的收斂。
以預測房屋價格為例,假設有兩個特征,房屋的尺寸和房屋的數量,尺寸的值為 0-
2000 平方英尺,而房間數量的值則是 0-5,以兩個參數分別為橫縱坐標,繪制代價函數的等
高線圖能,看出圖像會顯得很扁,梯度下降算法需要非常多次的迭代才能收斂。

歸一化方法

1.最大值最小值歸一化:

\[\frac{x-\min}{\max-\min} \]

  • 優點:所有數據都能縮放到0~1之間,消除量綱的影響
  • 缺點:當min,max為離群值或異常值時,縮放后數據分布不均勻

均值歸一化

\[x-\min \]

將所有數據縮放至0兩邊, 這樣做的好處是方便01標准化,而且像sigmoid的導數也是以0為中心

標准化方法

1. 01標准化(均值0 方差1)

\[\frac{x-mean}{var} \]

優點: 有時候, 如NN模型, 假設數據服從0 1 分布, 所以我們需要對數據標准化, 圖像取均值也是標准化的手段之一, 不過因為圖像的方差都差不多, 所以一般只減去均值

總結

  • 歸一化:縮放僅僅跟最大、最小值的差別有關。 輸出范圍在0-1之間
  • 標准化:縮放和每個點都有關系,通過方差(variance)體現出來。與歸一化對比,標准化中所有數據點都有貢獻(通過均值和標准差造成影響,標准化也可以消除量綱


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM