數據什么時候需要做中心化和標准化處理?
以PCA為例說下中心化的作用。
下面兩幅圖是數據做中心化(centering)前后的對比,可以看到其實就是一個平移的過程,平移后所有數據的中心是(0,0).
在做PCA的時候,我們需要找出矩陣的特征向量,也就是主成分(PC)。比如說找到的第一個特征向量是a = [1, 2],a在坐標平面上就是從原點出發到點(1,2)的一個向量。
如果沒有對數據做中心化,那算出來的第一主成分的方向可能就不是一個可以“描述”(或者說“概括”)數據的方向了。還是看圖比較清楚。
黑色線就是第一主成分的方向。只有中心化數據之后,計算得到的方向才能比較好的“概括”原來的數據。