特征歸一化方法之選取


特征歸一化主要有兩種方法:

1、線性函數歸一化(Min-Max scaling)

線性函數將原始數據線性化的方法轉換到[0 1]的范圍,歸一化公式如下:

該方法實現對原始數據的等比例縮放,其中Xnorm為歸一化后的數據,X為原始數據,Xmax、Xmin分別為原始數據集的最大值和最小值。
 

 2、0均值標准化(Z-score standardization)

0均值歸一化方法將原始數據集歸一化為均值為0、方差1的數據集,歸一化公式如下:
其中,μ、σ分別為原始數據集的均值和方法。該種歸一化方式要求原始數據的分布可以近似為高斯分布,否則歸一化的效果會變得很糟糕。
 

以上為兩種比較普通但是常用的歸一化技術,那這兩種歸一化的應用場景是怎么樣的呢?什么時候第一種方法比較好、什么時候第二種方法比較好呢?下面做一個簡要的分析概括:
1、在分類、聚類算法中,需要使用距離來度量相似性的時候、或者使用PCA技術進行降維的時候,第二種方法(Z-score standardization)表現更好。
2、在不涉及距離度量、協方差計算、數據不符合正太分布的時候,可以使用第一種方法或其他歸一化方法。比如圖像處理中,將RGB圖像轉換為灰度圖像后將其值限定在[0 255]的范圍


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM