歸一化、標准化、正則化的概念和區別(總結)
一、總結
一句話總結:
歸一化(Normalization):【把數據變為(0,1)之間的小數,比如min-max歸一化】。主要是為了方便數據處理,因為將數據映射到0~1范圍之內,可以使處理過程更加便捷、快速。
標准化(Standardization):【數據的標准化是將數據按比例縮放,使之落入一個小的特定區間。z-score標准化,即零-均值標准化(常用方法),y=(x-μ)/σ】
正則化(Regularization):【用一組與原不適定問題相“鄰近”的適定問題的解,去逼近原問題的解,這種方法稱為正則化方法。】
1、歸一化、標准化、正則化 各自要點?
【消除不同數據之間的量綱】:歸一化是為了消除不同數據之間的量綱,方便數據比較和共同處理,比如在神經網絡中,歸一化可以加快訓練網絡的收斂性;
【方便數據的下一步處理】:標准化是為了方便數據的下一步處理,而進行的數據縮放等變換,並不是為了方便與其他數據一同處理或比較,比如數據經過零-均值標准化后,更利於使用標准正態分布的性質,進行處理;
【先驗知識】:正則化而是利用先驗知識,在處理過程中引入正則化因子(regulator),增加引導約束的作用,比如在邏輯回歸中使用正則化,可有效降低過擬合的現象。
二、歸一化,標准化,正則化的概念和區別
轉自或參考:歸一化,標准化,正則化的概念和區別
https://blog.csdn.net/tianguiyuyu/article/details/80694669
歸一化(Normalization)
1.把數據變為(0,1)之間的小數。主要是為了方便數據處理,因為將數據映射到0~1范圍之內,可以使處理過程更加便捷、快速。
2.把有量綱表達式變換為無量綱表達式,成為純量。經過歸一化處理的數據,處於同一數量級,可以消除指標之間的量綱和量綱單位的影響,提高不同數據指標之間的可比性。
主要算法:
1.線性轉換,即min-max歸一化(常用方法)
y=(x-min)/(max-min)
2. 對數函數轉換
y=log10(x)
3.反余切函數轉換
y=atan(x)*2/PI
標准化(Standardization)
數據的標准化是將數據按比例縮放,使之落入一個小的特定區間。
主要方法:
1.z-score標准化,即零-均值標准化(常用方法)
y=(x-μ)/σ
是一種統計的處理,基於正態分布的假設,將數據變換為均值為0、標准差為1的標准正態分布。但即使數據不服從正態分布,也可以用此法。特別適用於數據的最大值和最小值未知,或存在孤立點。
2.小數定標標准化
y=x/10^j (j確保max(|y|)<1)
通過移動x的小數位置進行標准化
3.對數Logistic模式
y=1/(1+e^(-x))
正則化(Regularization)
用一組與原不適定問題相“鄰近”的適定問題的解,去逼近原問題的解,這種方法稱為正則化方法。如何建立有效的正則化方法是反問題領域中不適定問題研究的重要內容。通常的正則化方法有基於變分原理的Tikhonov 正則化、各種迭代方法以及其它的一些改進方法。
總的來說,歸一化是為了消除不同數據之間的量綱,方便數據比較和共同處理,比如在神經網絡中,歸一化可以加快訓練網絡的收斂性;標准化是為了方便數據的下一步處理,而進行的數據縮放等變換,並不是為了方便與其他數據一同處理或比較,比如數據經過零-均值標准化后,更利於使用標准正態分布的性質,進行處理;正則化而是利用先驗知識,在處理過程中引入正則化因子(regulator),增加引導約束的作用,比如在邏輯回歸中使用正則化,可有效降低過擬合的現象。