引入動量(Momentum)方法一方面是為了解決“峽谷”和“鞍點”問題;一方面也可以用於SGD 加速,特別是針對高曲率、小幅但是方向一致的梯度。
- 如果把原始的 SGD 想象成一個紙團在重力作用向下滾動,由於質量小受到山壁彈力的干擾大,導致來回震盪;或者在鞍點處因為質量小速度很快減為 0,導致無法離開這塊平地。
- 動量方法相當於把紙團換成了鐵球;不容易受到外力的干擾,軌跡更加穩定;同時因為在鞍點處因為慣性的作用,更有可能離開平地。
- 動量方法以一種廉價的方式模擬了二階梯度(牛頓法)

Momentum 梯度下降法,就是計算了梯度的指數加權平均數,並以此來更新權重,它的運行速度幾乎總是快於標准的梯度下降算法。
