機器學習：樣本去中心化目的

本文轉載自查看原文 2017-07-06 16:14 4957 算法通論

作者：Spark
鏈接：https://www.zhihu.com/question/37069477/answer/132387124
來源：知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請注明出處。

在回歸問題和一些機器學習算法中，以及訓練神經網絡的過程中，通常需要對原始數據進行中心化（Zero-centered或者Mean-subtraction）處理和標准化（Standardization或Normalization）處理。

目的：通過中心化和標准化處理，得到均值為0，標准差為1的服從標准正態分布的數據。
計算過程由下式表示： $x^{'}=\frac{x-\mu }{\sigma }$
下面解釋一下為什么需要使用這些數據預處理步驟。

在一些實際問題中，我們得到的樣本數據都是多個維度的，即一個樣本是用多個特征來表征的。比如在預測房價的問題中，影響房價

的因素有房子面積 $x_{1}$ 、卧室數量 $x_{2}$ 等，我們得到的樣本數據就是 $(x_{1},x_{2})$ 這樣一些樣本點，這里的 $x_{1}$ 、 $x_{2}$ 又被稱為特征。很顯然，這些特征的量綱和數值得量級都是不一樣的，在預測房價時，如果直接使用原始的數據值，那么他們對房價的影響程度將是不一樣的，而通過標准化處理，可以使得不同的特征 具有相同的尺度（Scale）。這樣，在使用梯度下降法學習參數的時候，不同特征對參數的影響程度就一樣了。

簡言之，當原始數據不同維度上的特征的尺度（單位）不一致時，需要標准化步驟對數據進行預處理。
下圖中以二維數據為例：左圖表示的是原始數據；中間的是中心化后的數據，數據被移動大原點周圍；右圖將中心化后的數據除以標准差，得到為標准化的數據，可以看出每個維度上的尺度是一致的（紅色線段的長度表示尺度）。

其實，在不同的問題中，中心化和標准化有着不同的意義，

比如在訓練神經網絡的過程中，通過將數據標准化，能夠加速權重參數的收斂。
另外，對於主成分分析（PCA）問題，也需要對數據進行中心化和標准化等預處理步驟。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習數據特征歸一化的目的及方式 [機器學習]-[數據預處理]-中心化縮放 KNN（一）機器學習樣本標記示意代碼機器學習中的正/負樣本機器學習中的正負樣本機器學習中的正負樣本機器學習——標准化/歸一化的目的、作用和場景機器學習套路 —— 樣本集的拆分（正樣本、負樣本）機器學習-樣本不均衡問題處理機器學習，基於labelme的圖像訓練樣本制作