機器學習:樣本去中心化目的


作者:Spark
鏈接:https://www.zhihu.com/question/37069477/answer/132387124
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。

在回歸問題和一些機器學習算法中,以及訓練神經網絡的過程中,通常需要對原始數據進行中心化(Zero-centered或者Mean-subtraction)處理和標准化(Standardization或Normalization)處理。
  • 目的:通過中心化和標准化處理,得到均值為0,標准差為1的服從標准正態分布的數據。
  • 計算過程由下式表示:x^{'}=\frac{x-\mu }{\sigma }
  • 下面解釋一下為什么需要使用這些數據預處理步驟。
在一些實際問題中,我們得到的樣本數據都是多個維度的,即一個樣本是用多個特征來表征的。比如在預測房價的問題中,影響房價 y的因素有房子面積 x_{1}、卧室數量 x_{2}等,我們得到的樣本數據就是 (x_{1},x_{2})這樣一些樣本點,這里的 x_{1}x_{2}又被稱為特征。很顯然,這些特征的量綱和數值得量級都是不一樣的,在預測房價時,如果直接使用原始的數據值,那么他們對房價的影響程度將是不一樣的,而通過標准化處理,可以使得不同的特征 具有相同的尺度(Scale)。這樣,在使用梯度下降法學習參數的時候,不同特征對參數的影響程度就一樣了。
  • 簡言之,當原始數據不同維度上的特征的尺度(單位)不一致時,需要標准化步驟對數據進行預處理。
  • 下圖中以二維數據為例:左圖表示的是原始數據;中間的是中心化后的數據,數據被移動大原點周圍;右圖將中心化后的數據除以標准差,得到為標准化的數據,可以看出每個維度上的尺度是一致的(紅色線段的長度表示尺度)。

其實,在不同的問題中,中心化和標准化有着不同的意義,
  • 比如在訓練神經網絡的過程中,通過將數據標准化,能夠加速權重參數的收斂。
  • 另外,對於主成分分析(PCA)問題,也需要對數據進行中心化和標准化等預處理步驟。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM