幾種歸一化方法(Normalization Method)python實現
1、(0,1)標准化:
這是最簡單也是最容易想到的方法,通過遍歷feature vector里的每一個數據,將Max和Min的記錄下來,並通過Max-Min作為基數(即Min=0,Max=1)進行數據的歸一化處理:
Python實現:
def MaxMinNormalization(x,Max,Min): x = (x - Min) / (Max - Min); return x
找大小的方法直接用np.max()和np.min()就行了,盡量不要用python內建的max()和min()
2、Z-score標准化:
這種方法給予原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。經過處理的數據符合標准正態分布,即均值為0,標准差為1,這里的關鍵在於復合標准正態分布,個人認為在一定程度上改變了特征的分布,關於使用經驗上歡迎討論,我對這種標准化不是非常地熟悉,轉化函數為:
Python實現:
def Z_ScoreNormalization(x,mu,sigma): x = (x - mu) / sigma; return x
這里一樣,mu(即均值)用np.average(),sigma(即標准差)用np.std()即可
3、Sigmoid函數:
Sigmoid函數是一個具有S形曲線的函數,是良好的閾值函數,在(0, 0.5)處中心對稱,在(0, 0.5)附近有比較大的斜率,而當數據趨向於正無窮和負無窮的時候,映射出來的值就會無限趨向於1和0,是個人非常喜歡的“歸一化方法”,之所以打引號是因為我覺得Sigmoid函數在閾值分割上也有很不錯的表現,根據公式的改變,就可以改變分割閾值,這里作為歸一化方法,我們只考慮(0, 0.5)作為分割閾值的點的情況:
Python實現:
def sigmoid(X,useStatus): if useStatus: return 1.0 / (1 + np.exp(-float(X))); else: return float(X)
這里useStatus管理是否使用sigmoid的狀態,方便調試使用。