在訓練的過程中經常會出現loss=NaN的情況,在網上查了查一般做法是減小學習速率或者增大batch_size。嘗試了一下減小學習速率,可以解決問題。但是不明白為什么。所以整理了一下loss為nan的問題。
現在依然不清楚為什么減小學習速率會解決這個問題,請各位不吝賜教。
如果一開始loss就為nan, 可以考慮自己的輸入是否有問題。
參考:https://stackoverflow.com/questions/33962226/common-causes-of-NaNs-during-training