數據標准化的幾種方法:
1.標准化:
數據標准化是指數據的各維度減均值除以標准差,這是最常用的標准化方法。
公式:(xi−μ)/σ 其中μ指的是樣本的均值,σ指的是樣本的標准差。
2.歸一化:
數據歸一化是指數據減去對應維度的最小值除以維度最大值減去維度最小值,這樣做可以將數值壓縮到[0,1]的區間。
公式:(xi−min(x))/(max(x)−min(x))
3.白化:
白化的目的是去除輸入數據的冗余信息。
例如:訓練數據是圖像,由於圖像中相鄰像素之間具有很強的相關性,因此輸入是冗余的。白化的目的就是降低輸入的冗余性。
輸入數據集,經過白化處理后,生成的新數據集滿足兩個條件:一是特征相關性較低;二是特征具有相同的方差。
白化算法的實現過程:第一步操作是PCA,求出新特征空間中的新坐標,第二步是對新的坐標進行方差歸一化操作。
PCA預處理:


左圖表示原始數據X,然后我們通過協方差矩陣可以求得特征向量u1、u2,然后把每個數據點,投影到這兩個新的特征向量(這兩個特征向量是不變且正交的),得到進行坐標如下:

這就是pca處理。
PCA白化
pca白化是指對上面的pca的新坐標X’,每一維的特征做一個標准差歸一化處理。
從上面我們看到在新的坐標空間中,(x1,x2)兩個坐標軸方向的數據明顯標准差不同,因此我們接着要對新的每一維坐標做一個標注差歸一化處理。
