作者:Spark
鏈接:https://www.zhihu.com/question/37069477/answer/132387124
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
鏈接:https://www.zhihu.com/question/37069477/answer/132387124
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
在回歸問題和一些機器學習算法中,以及訓練神經網絡的過程中,通常需要對原始數據進行中心化(Zero-centered或者Mean-subtraction)處理和標准化(Standardization或Normalization)處理。
的因素有房子面積
、卧室數量
等,我們得到的樣本數據就是
這樣一些樣本點,這里的
、
又被稱為特征。很顯然,這些特征的量綱和數值得量級都是不一樣的,在預測房價時,如果直接使用原始的數據值,那么他們對房價的影響程度將是不一樣的,而通過標准化處理,可以使得不同的特征
具有相同的尺度(Scale)。這樣,在使用梯度下降法學習參數的時候,不同特征對參數的影響程度就一樣了。
其實,在不同的問題中,中心化和標准化有着不同的意義,
- 目的:通過中心化和標准化處理,得到均值為0,標准差為1的服從標准正態分布的數據。
- 計算過程由下式表示:
- 下面解釋一下為什么需要使用這些數據預處理步驟。






- 簡言之,當原始數據不同維度上的特征的尺度(單位)不一致時,需要標准化步驟對數據進行預處理。
- 下圖中以二維數據為例:左圖表示的是原始數據;中間的是中心化后的數據,數據被移動大原點周圍;右圖將中心化后的數據除以標准差,得到為標准化的數據,可以看出每個維度上的尺度是一致的(紅色線段的長度表示尺度)。

其實,在不同的問題中,中心化和標准化有着不同的意義,
- 比如在訓練神經網絡的過程中,通過將數據標准化,能夠加速權重參數的收斂。
- 另外,對於主成分分析(PCA)問題,也需要對數據進行中心化和標准化等預處理步驟。