1.學習率 (learning rate)
學習率 (learning rate),控制模型的學習進度 :
學習率(Learning Rate,常用η表示。)是一個超參數,考慮到損失梯度,它控制着我們在多大程度上調整網絡的權重。值越低,沿着向下的斜率就越慢。雖然這可能是一個好主意(使用低學習率),以確保我們不會錯過任何局部最小值;但也有可能意味着我,將耗費很久的時間來收斂——特別是當我們陷入平坦區(plateau region)的時候。
通常,學習率是由用戶隨機配置的。在最好的情況下,用戶可以利用過去的經驗(或者其他類型的學習材料)來獲得關於設置學習率最佳值的直覺。
因此,很難做到這一點。下圖演示了配置學習率時可能會遇到的不同場景。

此外,學習率會影響模型收斂到局部最小值的速度(也就是達到最佳的精度)。因此,在正確的方向做出正確的選擇,意味着我們只需更少的時間來訓練模型。
訓練時,學習率的下降過程:

學習率大小的影響:
| 學習率 大 | 學習率 小 | |
|---|---|---|
| 學習速度 | 快 | 慢 |
| 使用時間點 | 剛開始訓練時 | 一定輪數過后 |
| 副作用 | 1.易損失值爆炸;2.易振盪。 | 1.易過擬合;2.收斂速度慢。 |
學習率設置
在訓練過程中,一般根據訓練輪數設置動態變化的學習率。
- 剛開始訓練時:學習率以 0.01 ~ 0.001 為宜。
- 一定輪數過后:逐漸減緩。
- 接近訓練結束:學習速率的衰減應該在100倍以上。
