深度學習中momentum參數的作用

本文轉載自查看原文 2021-08-26 17:04 135

訓練網絡時，通常先對網絡的初始權值按照某種分布進行初始化，合適的網絡初始權值能夠使得損失函數在訓練過程中的收斂速度更快，從而獲得更好的優化結果。但是按照某類分布隨機初始化網絡權值時，存在一些不確定因素，並不能保證每一次初始化操作都能使得網絡的初始權值處在一個合適的狀態。不恰當的初始權值可能使得網絡的損失函數在訓練過程中陷入局部最小值，達不到全局最優的狀態。因此，如何消除這種不確定性，是訓練深度網絡是必須解決的一個問題。

momentum 動量主要用在權重更新的時候。

一般，神經網絡在更新權值時，采用如下公式:

w = w - learning_rate * dw

引入momentum后，采用如下公式：

v = mu * v - learning_rate * dw

w = w + v

其中，v初始化為0，mu是設定的一個超變量，最常見的設定值是0.9。可以這樣理解上式：如果上次的momentum(v)與這次的負梯度方向是相同的，那這次下降的幅度就會加大，從而加速收斂。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 深度學習Momentum(動量方法) 深度學習（九）深度學習最全優化方法總結比較（SGD，Momentum，Nesterov Momentum，Adagrad，Adadelta，RMSprop，Adam）調參過程中的參數學習率，權重衰減，沖量(learning_rate , weight_decay , momentum) 【深度學習】CNN 中 1x1 卷積核的作用深度學習面試題03：改進版梯度下降法Adagrad、RMSprop、Momentum、Adam 深度學習中常見的優化方法——SGD，Momentum，Adagrad，RMSprop， Adam 深度學習——優化器算法Optimizer詳解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）深度學習的優化器選擇（SGD、Momentum、RMSprop、Adam四種）深度學習常見的優化方法(Optimizer)總結:Adam,SGD,Momentum,AdaGard等深度學習中是否考慮過樣本量和參數的關系?