數據標准化總結(數據預處理)

本文轉載自查看原文 2019-04-22 14:10 489 data normalization/ 數據預處理/ EDA/ Data Mining/ Languages/ 數據標准化/ machine learning/ ML

[轉載請注明出處]

數據標准化總的來說分為兩種。

其一：

    一種為對分布的標准化，即對一維隨機變量的標准化。比如說我們有好幾個隨機變量，X~N(u1, d1), Y~N(u2, d2), Z~N(u3, d3)。均值和方差的不同通常是由於個人對樣本賦值，樣本量崗，樣本來源等因素導致的。
    當我們需要把這幾個變量放在同一個樣本里時，比如需要把X，Y，Z均作為標簽變量用於模型訓練時，就需要進行標准化。該情況下的標准化通常有，極大極小標准化，Z-Score標准化等，具體參見百度百科[數據標准化]

其二：

    第二種是對樣本空間的特征維度進行標准化。比如一個N×d維的樣本空間（N個樣本，d維特征），我們需要針對該樣本空間，對各個特征進行Normalize. 具體參見scikit-learn preprocessing 模塊。

其實第二種是第一種的推廣，但側重點又有所不同。

對比softmax函數:

x=Softmax(x) softmax函數是將向量各個分量壓縮至[0,1]區間，其分量和等於1。乍一看很像標准化，其實兩者完全不同。數據標准化是對分布的一次再調整，是針對樣本量的“縱向”的再調整。
而softmax函數是對向量各個分量的一次“橫向"的再調整，此處的分量具有明確意義。通常情況下的意義為各分量代表類別的概率分布。還有一種情況是針對樣本情況下：假設x是一個樣本有d維，那么我們可以這樣理解：w=softmax(x)，即softmax(x)可以得到各個特征的權重值。
關於這一點，Attention機制是其最好的說明。具體請參閱論文：Attention is all you need.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據預處理之標准化數據預處理PCA，標准化數據預處理之歸一化和標准化研究｜數據預處理｜歸一化（標准化）數據預處理—標准化/歸一化方法（scaler）數據的預處理（標准化、歸一化）數據預處理--數據變換（標准化、離散化、分層）、數據歸約（AIC准則）數據預處理之數據無量綱化(標准化/歸一化) 數據預處理之中心化（零均值化）與標准化（歸一化）數據預處理之中心化（零均值化）與標准化（歸一化）