正則化、歸一化含義解析

本文轉載自查看原文 2014-12-12 15:30 4253 機器學習

正則化（Regularization）、歸一化（也有稱為正規化/標准化，Normalization）是對數據盡心預處理的方式，他們的目的都是為了讓數據更便於我們的計算或獲得更加泛化的結果，但並不改變問題的本質，下面對他們的作用分別做一下科普，如有不正確之處，求指正！

需要注意的是，這些名詞在不同的領域含義也有點區別，這里僅僅指的是在進行機器學習研究的時候所使用的意義。

李航博士在《統計學習方法》中提到，統計學習的三要素是模型、策略和算法，在機器學習領域，這個“模型”就是我們要求解的概率分布或決策函數。

假設我們現在要求一個邏輯回歸問題，首先我們要做的是假設一個函數，可以覆蓋所有的可能：

L (y i, f (x i)) = y i - s i g m o i d (x i)

這里可以不用關心這個函數是什么意思，就知道代表誤差就行了。對於該模型

為了解決過擬合問題，通常有兩種辦法，第一是減少樣本的特征（即維度），第二就是我們這里要說的”正則化“（又稱為”懲罰“,penalty）。

正則化的一般形式是在整個平均損失函數后增加一個正則項(L2范數正則化，也有其他形式的正則化，他們的作用也不同)：

R e r m = 1 N ( \sum i N L ( y i , f ( x i ) ) + \sum i n

后面的$\sum{i}^{n}\lambda w{i}^2

從下面的圖中，可以很明顯的看出正則化函數的作用：

上面提到，我們還有其他形式的正則化，如L1范式正則化，可以用來篩選參數，這個日后再通過額外的文章來介紹。

我們在對數據進行分析的時候，往往會遇到單個數據的各個維度量綱不同的情況，比如對房子進行價格預測的線性回歸問題中，我們假設房子面積（平方米）、年代（年）和幾居室（個）三個因素影響房價，其中一個房子的信息如下：

假設我們把該問題作為一個邏輯回歸問題

效率比較高的梯度下降方法中，每次下降應該盡可能的往最優點靠近，假設下降距離函數為：

$$distance = \lambda

\Delta^*

其中$

\Delta^*

我們的梯度在尋找最優值的時候，由於圖像“細長”，所以要來回找垂直線，兩個維度范圍相差的越大，梯度下降的越慢，還可能永遠無法收斂。

為了解決這個問題，假如我們把所有的數據范圍都是用歸一化處理在0到1的區間內（也可以是0到10等其他范圍，但一般是0到1），如使用以下歸一化公式：

x\*i=xi−x¯xmax−xmin

我們的圖像就會變得更加“正圓”一些：

我們可以很清楚的看到，梯度會更加快速的找到最優點。

其實這篇文章寫之前，我還糾結了很久“標准化（Standardization）”這個概念，最后請教了很多人，發現大家最常用的還是歸一化和正則化兩個概念。不同的場合大家的稱謂也不同，總結起來還是按照英文來說比較沒有歧義：Normalization和Regularization兩個概念。

轉載自http://sobuhu.com/ml/2012/12/29/normalization-regularization.html

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 正則化和歸一化歸一化、標准化、正則化的區別標准化,歸一化和正則化特征歸一化、特征映射、正則化【轉】規范化、標准化、歸一化、正則化利用sklearn對數據預處理：標准化，歸一化，正則化歸一化、標准化、正則化的概念和區別（總結） Python數據預處理—歸一化，標准化，正則化 sklearn數據預處理：歸一化、標准化、正則化【原】關於使用sklearn進行數據預處理 —— 歸一化/標准化/正則化