SGD的動量(Momentum)算法


引入動量(Momentum)方法一方面是為了解決“峽谷”和“鞍點”問題;一方面也可以用於SGD 加速,特別是針對高曲率、小幅但是方向一致的梯度。

  • 如果把原始的 SGD 想象成一個紙團在重力作用向下滾動,由於質量小受到山壁彈力的干擾大,導致來回震盪;或者在鞍點處因為質量小速度很快減為 0,導致無法離開這塊平地。
  • 動量方法相當於把紙團換成了鐵球;不容易受到外力的干擾,軌跡更加穩定;同時因為在鞍點處因為慣性的作用,更有可能離開平地。
  • 動量方法以一種廉價的方式模擬了二階梯度(牛頓法)

 Momentum 梯度下降法,就是計算了梯度的指數加權平均數,並以此來更新權重,它的運行速度幾乎總是快於標准的梯度下降算法。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM