正則化--Lambda


模型開發者通過以下方式來調整正則化項的整體影響:用正則化項的值乘以名為 lambda(又稱為正則化率)的標量。也就是說,模型開發者會執行以下運算:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

執行 L2 正則化對模型具有以下影響:

  • 使權重值接近於 0(但並非正好為 0)
  • 使權重的平均值接近於 0,且呈正態(鍾形曲線或高斯曲線)分布。

增加 lambda 值將增強正則化效果。 例如,lambda 值較高的權重直方圖可能會如圖 2 所示。

image

降低 lambda 的值往往會得出比較平緩的直方圖,如圖 3 所示。

image

在選擇 lambda 值時,目標是在簡單化和訓練數據擬合之間達到適當的平衡:

  • 如果您的 lambda 值過高,則模型會非常簡單,但是您將面臨數據欠擬合的風險。您的模型將無法從訓練數據中獲得足夠的信息來做出有用的預測。
  • 如果您的 lambda 值過低,則模型會比較復雜,並且您將面臨數據過擬合的風險。您的模型將因獲得過多訓練數據特點方面的信息而無法泛化到新數據。
  • 將 lambda 設為 0 可徹底取消正則化。 在這種情況下,訓練的唯一目的將是最小化損失,而這樣做會使過擬合的風險達到最高。

理想的 lambda 值生成的模型可以很好地泛化到以前未見過的新數據。 遺憾的是,理想的 lambda 值取決於數據,因此您需要手動或自動進行一些調整。


了解 L2 正則化和學習速率

學習速率和 lambda 之間存在密切關聯。強 L2 正則化值往往會使特征權重更接近於 0。較低的學習速率(使用早停法)通常會產生相同的效果,因為與 0 的距離並不是很遠。 因此,同時調整學習速率和 lambda 可能會產生令人混淆的效果。

早停法指的是在模塊完全收斂之前就結束訓練。在實際操作中,我們經常在以在線(連續)方式進行訓練時采取一些隱式早停法。也就是說,一些新趨勢的數據尚不足以收斂。

如上所述,更改正則化參數產生的效果可能會與更改學習速率或迭代次數產生的效果相混淆。一種有用的做法(在訓練一批固定的數據時)是執行足夠多次迭代,這樣早停法便不會起作用。


引用

簡化正則化 (Regularization for Simplicity):Lambda


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM