數據歸一化和兩種常用的歸一化方法

本文轉載自查看原文 2017-06-16 16:18 24155 算法/ 機器學習/ 數據處理

數據標准化（歸一化）處理是數據挖掘的一項基礎工作，不同評價指標往往具有不同的量綱和量綱單位，這樣的情況會影響到數據分析的結果，為了消除指標之間的量綱影響，需要進行數據標准化處理，以解決數據指標之間的可比性。原始數據經過數據標准化處理后，各指標處於同一數量級，適合進行綜合對比評價。以下是兩種常用的歸一化方法：

一、min-max標准化（Min-Max Normalization）

也稱為離差標准化，是對原始數據的線性變換，使結果值映射到[0 – 1]之間。轉換函數如下：

x * =(x - m i n)/( m a x - m i n)

其中max為樣本數據的最大值，min為樣本數據的最小值。這種方法有個缺陷就是當有新數據加入時，可能導致max和min的變化，需要重新定義。

二、Z-score標准化方法

這種方法給予原始數據的均值（mean）和標准差（standard deviation）進行數據的標准化。經過處理的數據符合標准正態分布，即均值為0，標准差為1，轉化函數為：

x * =(x - μ)/ σ

其中 μ為所有樣本數據的均值，σ為所有樣本數據的標准差。

三 Z-scores 簡單化

模型如下：

x * = 1/( 1 + x)

x越大證明x∗ 越小，這樣就可以把很大的數規范在[0-1]之間了。

總結

以上1，2方法都需要依賴樣本所有數據，而3方法只依賴當前數據，可以動態使用，好理解。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據歸一化和兩種常用的歸一化方法數據歸一化和兩種常用的歸一化方法數據歸一化的兩種方法：最值歸一化和0均值歸一化數據歸一化方法（轉）【轉】常用數據標准化（歸一化）的方法矩陣常用歸一化特征歸一化的方法線性歸一化零均值歸一化 python歸一化方法數據歸一化數據歸一化