由于显卡限制batch size,通过梯度累积优化弥补。
在训练的时候先累积多个batch的梯度,然后进行反向传播。
网络中的bn层会对梯度累积造成一定的影响。
pytorch网络,如果bn层对整体模型影响不大,可以在训练时也用model.eval()冻结bn层。
由于显卡限制batch size,通过梯度累积优化弥补。
在训练的时候先累积多个batch的梯度,然后进行反向传播。
网络中的bn层会对梯度累积造成一定的影响。
pytorch网络,如果bn层对整体模型影响不大,可以在训练时也用model.eval()冻结bn层。
本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。