Pytorch學習筆記09----SGD的參數幾個重要的參數:學習率 (learning rate)、Weight Decay 權值衰減、Momentum 動量


1.學習率 (learning rate)

學習率 (learning rate),控制模型的學習進度 :

學習率(Learning Rate,常用η表示。)是一個超參數,考慮到損失梯度,它控制着我們在多大程度上調整網絡的權重。值越低,沿着向下的斜率就越慢。雖然這可能是一個好主意(使用低學習率),以確保我們不會錯過任何局部最小值;但也有可能意味着我,將耗費很久的時間來收斂——特別是當我們陷入平坦區(plateau region)的時候。

通常,學習率是由用戶隨機配置的。在最好的情況下,用戶可以利用過去的經驗(或者其他類型的學習材料)來獲得關於設置學習率最佳值的直覺。

因此,很難做到這一點。下圖演示了配置學習率時可能會遇到的不同場景。

 

此外,學習率會影響模型收斂到局部最小值的速度(也就是達到最佳的精度)。因此,在正確的方向做出正確的選擇,意味着我們只需更少的時間來訓練模型。

訓練時,學習率的下降過程:

學習率大小的影響:

  學習率 大 學習率 小
學習速度
使用時間點 剛開始訓練時 一定輪數過后
副作用 1.易損失值爆炸;2.易振盪。 1.易過擬合;2.收斂速度慢。

學習率設置

在訓練過程中,一般根據訓練輪數設置動態變化的學習率。

  • 剛開始訓練時:學習率以 0.01 ~ 0.001 為宜。
  • 一定輪數過后:逐漸減緩。
  • 接近訓練結束:學習速率的衰減應該在100倍以上。

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM