學習率設置原則(在這主要以遷移學習為主):
由於模型已經在原始數據上收斂,所以應該設置較小學習率,在新數據上微調。若非遷移學習則先將學習率設置在0.01~0.001為宜,一定輪數之后再逐漸減緩,接近訓練結束學習率的衰減應在100倍以上。
目標函數損失值 曲線(理想狀態應該為綠色滑梯式下降曲線):
- 曲線 初始時 上揚 【紅線】:
Solution:初始 學習率過大 導致 振盪,應減小學習率,並 從頭 開始訓練 。 - 曲線 初始時 強勢下降 沒多久 歸於水平 【紫線】:
Solution:后期 學習率過大 導致 無法擬合,應減小學習率,並 重新訓練 后幾輪 。 - 曲線 全程緩慢 【黃線】:
Solution:初始 學習率過小 導致 收斂慢,應增大學習率,並 從頭 開始訓練 。