在训练的过程中经常会出现loss=NaN的情况,在网上查了查一般做法是减小学习速率或者增大batch_size。尝试了一下减小学习速率,可以解决问题。但是不明白为什么。所以整理了一下loss为nan的问题。
现在依然不清楚为什么减小学习速率会解决这个问题,请各位不吝赐教。
如果一开始loss就为nan, 可以考虑自己的输入是否有问题。
参考:https://stackoverflow.com/questions/33962226/common-causes-of-NaNs-during-training