Pytorch學習筆記09----SGD的參數幾個重要的參數：學習率 (learning rate)、Weight Decay 權值衰減、Momentum 動量

本文轉載自查看原文 2020-07-30 17:04 3259 Pytorch自然語言處理

1.學習率 (learning rate)

學習率 (learning rate)，控制模型的學習進度 ：

學習率（Learning Rate，常用η表示。）是一個超參數，考慮到損失梯度，它控制着我們在多大程度上調整網絡的權重。值越低，沿着向下的斜率就越慢。雖然這可能是一個好主意（使用低學習率），以確保我們不會錯過任何局部最小值；但也有可能意味着我,將耗費很久的時間來收斂——特別是當我們陷入平坦區（plateau region）的時候。

通常，學習率是由用戶隨機配置的。在最好的情況下，用戶可以利用過去的經驗（或者其他類型的學習材料）來獲得關於設置學習率最佳值的直覺。

因此，很難做到這一點。下圖演示了配置學習率時可能會遇到的不同場景。

此外，學習率會影響模型收斂到局部最小值的速度（也就是達到最佳的精度）。因此，在正確的方向做出正確的選擇，意味着我們只需更少的時間來訓練模型。

訓練時，學習率的下降過程：

學習率大小的影響：

	學習率大	學習率小
學習速度	快	慢
使用時間點	剛開始訓練時	一定輪數過后
副作用	1.易損失值爆炸；2.易振盪。	1.易過擬合；2.收斂速度慢。

學習率設置

在訓練過程中，一般根據訓練輪數設置動態變化的學習率。

剛開始訓練時：學習率以 0.01 ~ 0.001 為宜。
一定輪數過后：逐漸減緩。
接近訓練結束：學習速率的衰減應該在100倍以上。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 調參過程中的參數學習率，權重衰減，沖量(learning_rate , weight_decay , momentum) weight decay（權值衰減）、momentum（沖量）和normalization pytorch learning rate decay [深度學習] pytorch學習筆記（3）(visdom可視化、正則化、動量、學習率衰減、BN) weight_decay(權重衰減) PyTorch余弦學習率衰減深度學習: 學習率 (learning rate) PyTorch 中 weight decay 的設置深度學習Momentum(動量方法) 機器學習之學習率 Learning Rate