torch.cuda.amp.GradScaler


https://zhuanlan.zhihu.com/p/375224982
梯度縮放
如果特定op的正向傳遞具有浮點16輸入,則該op的反向傳遞將產生浮點16梯度。具有小幅度的梯度值可能無法在浮點16中表示。這些值將刷新為零(“下溢”),因此相應參數的更新將丟失。
為了防止下溢,"梯度縮放"將網絡的損失(es)乘以比例因子,並調用縮放損失(es)的反向傳遞。然后,通過網絡向后流動的梯度將按相同的系數縮放。換句話說,梯度值的幅度更大,因此它們不會刷新為零。
在優化器更新參數之前,每個參數的梯度(.grad屬性)都應取消縮放,因此縮放因子不會干擾學習速率。

使用
https://zhuanlan.zhihu.com/p/165152789


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM