為什么需要每次計算梯度都要清空

根據pytorch中的backward()函數的計算，當網絡參量進行反饋時，梯度是被積累的而不是被替換掉；但是在每一個batch時毫無疑問並不需要將兩個batch的梯度混合起來累積，因此這里就需要每個batch設置一遍zero_grad 了。

其實這里還可以補充的一點是，如果不是每一個batch就清除掉原有的梯度，而是比如說兩個batch再清除掉梯度，這是一種變相提高batch_size的方法，對於計算機硬件不行，但是batch_size可能需要設高的領域比較適合，比如目標檢測模型的訓練。

————————————————
版權聲明：本文為CSDN博主「xiaoxifei」的原創文章，遵循 CC 4.0 BY-SA 版權協議，轉載請附上原文出處鏈接及本聲明。
原文鏈接：https://blog.csdn.net/xiaoxifei/article/details/83474724

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 為啥每次都要npm install 梯度計算 word每次打開都要選擇文檔類型每次打開 excel2010 都要配置如何解決解決 Webstorm 每次更新 Git 代碼都要輸入密碼的問題 Mac 每次啟動都要執行 source ~/.bash_profile 如何讓Git記住你的GitHub Token，避免每次都要重復輸入？ Office2010每次啟動都要配置的解決辦法解決git每次提交推送都要輸入密碼解決linux下 sudo每次都要輸入用戶密碼問題