機器學習中防止過擬合的處理方法

本文轉載自查看原文 2017-09-27 11:39 7175 機器學習

原文地址：一只鳥的天空，http://blog.csdn.net/heyongluoyao8/article/details/49429629，http://blog.csdn.net/ztf312/article/details/50894115

防止過擬合的處理方法

過擬合

我們都知道，在進行數據挖掘或者機器學習模型建立的時候，因為在統計學習中，假設數據滿足獨立同分布（i.i.d，independently and identically distributed），即當前已產生的數據可以對未來的數據進行推測與模擬，因此都是使用歷史數據建立模型，即使用已經產生的數據去訓練，然后使用該模型去擬合未來的數據。但是一般獨立同分布的假設往往不成立，即數據的分布可能會發生變化（distribution drift），並且可能當前的數據量過少，不足以對整個數據集進行分布估計，因此往往需要防止模型過擬合，提高模型泛化能力。而為了達到該目的的最常見方法便是：正則化，即在對模型的目標函數（objective function）或代價函數（cost function）加上正則項。
在對模型進行訓練時，有可能遇到訓練數據不夠，即訓練數據無法對整個數據的分布進行估計的時候，或者在對模型進行過度訓練（overtraining）時，常常會導致模型的過擬合（overfitting）。如下圖所示：
這里寫圖片描述
通過上圖可以看出，隨着模型訓練的進行，模型的復雜度會增加，此時模型在訓練數據集上的訓練誤差會逐漸減小，但是在模型的復雜度達到一定程度時，模型在驗證集上的誤差反而隨着模型的復雜度增加而增大。此時便發生了過擬合，即模型的復雜度升高，但是該模型在除訓練集之外的數據集上卻不work。
為了防止過擬合，我們需要用到一些方法，如：early stopping、數據集擴增（Data augmentation）、正則化（Regularization）、Dropout等。

Early stopping

對模型進行訓練的過程即是對模型的參數進行學習更新的過程，這個參數學習的過程往往會用到一些迭代方法，如梯度下降（Gradient descent）學習算法。Early stopping便是一種迭代次數截斷的方法來防止過擬合的方法，即在模型對訓練數據集迭代收斂之前停止迭代來防止過擬合。
Early stopping方法的具體做法是，在每一個Epoch結束時（一個Epoch集為對所有的訓練數據的一輪遍歷）計算validation data的accuracy，當accuracy不再提高時，就停止訓練。這種做法很符合直觀感受，因為accurary都不再提高了，在繼續訓練也是無益的，只會提高訓練的時間。那么該做法的一個重點便是怎樣才認為validation accurary不再提高了呢？並不是說validation accuracy一降下來便認為不再提高了，因為可能經過這個Epoch后，accuracy降低了，但是隨后的Epoch又讓accuracy又上去了，所以不能根據一兩次的連續降低就判斷不再提高。一般的做法是，在訓練的過程中，記錄到目前為止最好的validation accuracy，當連續10次Epoch（或者更多次）沒達到最佳accuracy時，則可以認為accuracy不再提高了。此時便可以停止迭代了（Early Stopping）。這種策略也稱為“No-improvement-in-n”，n即Epoch的次數，可以根據實際情況取，如10、20、30……

數據集擴增

在數據挖掘領域流行着這樣的一句話，“有時候往往擁有更多的數據勝過一個好的模型”。因為我們在使用訓練數據訓練模型，通過這個模型對將來的數據進行擬合，而在這之間又一個假設便是，訓練數據與將來的數據是獨立同分布的。即使用當前的訓練數據來對將來的數據進行估計與模擬，而更多的數據往往估計與模擬地更准確。因此，更多的數據有時候更優秀。但是往往條件有限，如人力物力財力的不足，而不能收集到更多的數據，如在進行分類的任務中，需要對數據進行打標，並且很多情況下都是人工得進行打標，因此一旦需要打標的數據量過多，就會導致效率低下以及可能出錯的情況。所以，往往在這時候，需要采取一些計算的方式與策略在已有的數據集上進行手腳，以得到更多的數據。
通俗得講，數據機擴增即需要得到更多的符合要求的數據，即和已有的數據是獨立同分布的，或者近似獨立同分布的。一般有以下方法：

從數據源頭采集更多數據
復制原有數據並加上隨機噪聲
重采樣
根據當前數據集估計數據分布參數，使用該分布產生更多數據等

正則化方法

正則化方法是指在進行目標函數或代價函數優化時，在目標函數或代價函數后面加上一個正則項，一般有L1正則與L2正則等。

L1正則
L1正則是基於L1范數，即在目標函數后面加上參數的L1范數和項，即參數絕對值和與參數的積項，即：
$C = C 0 + λ n \sum w | w |$ $\partial C \partial w = \partial C 0 \partial$ $w : = w + α \partial C 0 \partial w + β λ n$ $b : = b + α \partial C 0 \partial b$ $s g n (w) | w > 0 = 1, s g n (w) | w < 0$
L2正則
L2正則是基於L2范數，即在目標函數后面加上參數的L2范數和項，即參數的平方和與參數的積項，即：
$C = C 0 + λ 2 n \sum w w$ $w : = w + α \partial C 0 \partial w + β λ n$ $b : = b + α \partial C 0 \partial b$ $λ m \sum w | w |$ $λ 2 m \sum w w 2$
總結
正則項是為了降低模型的復雜度，從而避免模型區過分擬合訓練數據，包括噪聲與異常點（outliers）。從另一個角度上來講，正則化即是假設模型參數服從先驗概率，即為模型參數添加先驗，只是不同的正則化方式的先驗分布是不一樣的。這樣就規定了參數的分布，使得模型的復雜度降低（試想一下，限定條件多了，是不是模型的復雜度降低了呢），這樣模型對於噪聲與異常點的抗干擾性的能力增強，從而提高模型的泛化能力。還有個解釋便是，從貝葉斯學派來看：加了先驗，在數據少的時候，先驗知識可以防止過擬合；從頻率學派來看：正則項限定了參數的取值，從而提高了模型的穩定性，而穩定性強的模型不會過擬合，即控制模型空間。
另外一個角度，過擬合從直觀上理解便是，在對訓練數據進行擬合時，需要照顧到每個點，從而使得擬合函數波動性非常大，即方差大。在某些小區間里，函數值的變化性很劇烈，意味着函數在某些小區間里的導數值的絕對值非常大，由於自變量的值在給定的訓練數據集中的一定的，因此只有系數足夠大，才能保證導數的絕對值足夠大。如下圖（引用知乎）：

另外一個解釋，規則化項的引入，在訓練（最小化cost）的過程中，當某一維的特征所對應的權重過大時，而此時模型的預測和真實數據之間距離很小，通過規則化項就可以使整體的cost取較大的值，從而，在訓練的過程中避免了去選擇那些某一維（或幾維）特征的權重過大的情況，即過分依賴某一維（或幾維）的特征（引用知乎）。
L2與L1的區別在於，L1正則是拉普拉斯先驗，而L2正則則是高斯先驗。它們都是服從均值為0，協方差為
L1與L2正則的區別

題目

關於支持向量機SVM,下列說法錯誤的是（）

A. L2正則項，作用是最大化分類間隔，使得分類器擁有更強的泛化能力

B. Hinge 損失函數，作用是最小化經驗分類錯誤

C. 分類間隔為1/||w||，||w||代表向量的模

D. 當參數C越小時，分類間隔越大，分類錯誤越多，趨於欠學習(錯誤)

在Logistic Regression 中,如果同時加入L1和L2范數,會產生什么效果（）

A. 可以做特征選擇,並在一定程度上防止過擬合

B. 能解決維度災難問題

C. 能加快計算速度

D. 可以獲得更准確的結果(正確答案)

----------------------------------------------------------------------------------------------

L1正則化和L2正則化

正則化項即罰函數，該項對模型向量進行“懲罰”，從而避免單純最小二乘問題的過擬合問題。訓練的目的是最小化目標函數，則C越小，意味着懲罰越小，分類間隔也就越小，分類錯誤也就越少。

正則化項本質上是一種先驗信息，整個最優化問題從貝葉斯觀點來看是一種貝葉斯最大后驗估計，其中正則化項對應后驗估計中的先驗信息，損失函數對應后驗估計中的似然函數，兩者的乘積即對應貝葉斯最大后驗估計的形式，如果你將這個貝葉斯最大后驗估計的形式取對數，即進行極大似然估計，你就會發現問題立馬變成了損失函數+正則化項的最優化問題形式。

(1) 避免出現過擬合（over-fitting）。經驗風險最小化 + 正則化項 = 結構風險最小化。

(2) 從模型求解上看，正則化提供了一種唯一解的可能。光用最小二乘擬合可能出現無數組解，加個L1或L2正則化項能有唯一解。

L1范數是指向量中各個元素絕對值之和，用於特征選擇;

L2范數是指向量各元素的平方和然后求平方根，用於防止過擬合，提升模型的泛化能力

L1與L2區別：使用L1可以得到稀疏的權值；用L2可以得到平滑的權值

L1 regularization（往0方向靠）

在原始的代價函數后面加上一個L1正則化項，即所有權重w的絕對值的和，乘以λ/n（這里不像L2正則化項那樣，需要再乘以1/2，具體原因上面已經說過。）

技術分享

同樣先計算導數：

技術分享

上式中sgn(w)表示w的符號。那么權重w的更新規則為：

技術分享

比原始的更新規則多出了η * λ * sgn(w)/n這一項。當w為正時，更新后的w變小。當w為負時，更新后的w變大

因此它的效果就是讓w往0靠，使網絡中的權重盡可能為0，也就相當於減小了網絡復雜度，防止過擬合。

L2 regularization（權重衰減）

L2正則化就是在代價函數后面再加上一個正則化項：

技術分享

C0代表原始的代價函數，后面那一項就是L2正則化項，它是這樣來的：所有參數w的平方的和，除以訓練集的樣本大小n。λ就是正則項系數，權衡正則項與C0項的比重。另外還有一個系數1/2，1/2經常會看到，主要是為了后面求導的結果方便，后面那一項求導會產生一個2，與1/2相乘剛好湊整。

L2正則化項是怎么避免overfitting的呢？我們推導一下看看，先求導：

技術分享

可以發現L2正則化項對b的更新沒有影響，但是對於w的更新有影響.

Dropout

正則是通過在代價函數后面加上正則項來防止模型過擬合的。而在神經網絡中，有一種方法是通過修改神經網絡本身結構來實現的，其名為Dropout。該方法是在對網絡進行訓練時用一種技巧（trick），對於如下所示的三層人工神經網絡：
這里寫圖片描述
對於上圖所示的網絡，在訓練開始時，隨機得刪除一些（可以設定為一半，也可以為1/3，1/4等）隱藏層神經元，即認為這些神經元不存在，同時保持輸入層與輸出層神經元的個數不變，這樣便得到如下的ANN：
這里寫圖片描述
然后按照BP學習算法對ANN中的參數進行學習更新（虛線連接的單元不更新，因為認為這些神經元被臨時刪除了）。這樣一次迭代更新便完成了。下一次迭代中，同樣隨機刪除一些神經元，與上次不一樣，做隨機選擇。這樣一直進行瑕疵，直至訓練結束。
Dropout方法是通過修改ANN中隱藏層的神經元個數來防止ANN的過擬合。具體可參見這里。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習算法中的過擬合與欠擬合深度學習中防止過擬合的方法機器學習中過擬合的解決辦法 4-機器學習-多項式回歸+過擬合&欠擬合的處理、模型保存與加載機器學習-多項式回歸+過擬合&欠擬合的處理機器學習判斷是過擬合還是欠擬合-學習曲線機器學習:形如拋物線的散點圖在python和R中的非線性回歸擬合方法機器學習中數據預處理——標准化/歸一化方法（scaler）機器學習（二十二）— 數據缺失處理方法機器學習-過擬合與增強模型的泛化能力