学习率设置原则(在这主要以迁移学习为主):
由于模型已经在原始数据上收敛,所以应该设置较小学习率,在新数据上微调。若非迁移学习则先将学习率设置在0.01~0.001为宜,一定轮数之后再逐渐减缓,接近训练结束学习率的衰减应在100倍以上。
目标函数损失值 曲线(理想状态应该为绿色滑梯式下降曲线):
- 曲线 初始时 上扬 【红线】:
Solution:初始 学习率过大 导致 振荡,应减小学习率,并 从头 开始训练 。 - 曲线 初始时 强势下降 没多久 归于水平 【紫线】:
Solution:后期 学习率过大 导致 无法拟合,应减小学习率,并 重新训练 后几轮 。 - 曲线 全程缓慢 【黄线】:
Solution:初始 学习率过小 导致 收敛慢,应增大学习率,并 从头 开始训练 。