之前訓練模型,認為網絡圖構建完成,Loss肯定是呈現下降的,就沒有太留心,知識關注F1的變化情況,找到最優的F1訓練就停止了,認為模型就ok。
但實際中發現,我們要時刻關注網絡的損失變化情況,batch size過小(6,8)都會導致模型不收斂,此時你就看不到損失的變化,只能根據F1優劣判斷模型。
那么,我們可以將batc size調的大一些(128),可以觀察到損失是平滑降低的,F1的性能也在慢慢變好。這就是通常大家用128的原因。關於迭代停止條件,
一般選20個epochs的迭代,每一次迭代后保存模型,最終你可以選擇你Loss最小的那個模型作為后期使用。
