1、
train loss 不斷下降,test loss不斷下降:說明網絡仍在學習;
train loss 不斷下降,test loss趨於不變:說明網絡過擬合;
train loss 趨於不變,test loss不斷下降:說明數據集100%有問題;
train loss 趨於不變,test loss趨於不變:說明學習遇到瓶頸,需要減小學習率或批量數目;或者是數據集有問題(數據集標注錯誤數據比較多)
train loss 不斷上升,test loss不斷上升:說明網絡結構設計不當,訓練超參數設置不當,數據集經過清洗等問題。
2、訓練時損失出現nan的問題,可能導致梯度出現nan的三個原因:
梯度爆炸。也就是說梯度數值超出范圍變成nan. 通常可以調小學習率、加BN層或者做梯度裁剪來試試看有沒有解決。
損失函數或者網絡設計。比方說,出現了除0,或者出現一些邊界情況導致函數不可導,比方說log(0)、sqrt(0).
臟數據。可以事先對輸入數據進行判斷看看是否存在nan.