幾種優化方法的整理（SGD，Adagrad，Adadelta，Adam）

本文轉載自查看原文 2019-03-13 19:48 1101 機器學習

參考自：
https://zhuanlan.zhihu.com/p/22252270

常見的優化方法有如下幾種：SGD，Adagrad，Adadelta，Adam，Adamax，Nadam

1. SGD

SGD就是每一次迭代計算mini-batch的梯度，然后對參數進行更新，是最常見的優化方法了。即：

缺點：
1. 選擇合適的learning rate 較難，對所有參數更新使用同樣的learning rate。
2. 容易收斂到局部最優，並且在某些情況下可能被困在鞍點。

2. Momentum

momentum是模擬物理動量的概念，積累之前的動量來替代真正的梯度。公式如下：

其中 u是動量因子
特點：
下降初期時，使用上一次參數更新，下降方向一致，乘上較大的動量因子能夠進行很好的加速
下降中后期時，在局部最小值來回震盪的時候，梯度接近0，動量因子使得更新幅度增大，跳出陷阱
在梯度改變方向的時候，動量因子能夠減少更新總而言之，momentum項能夠在相關方向加速SGD，抑制振盪，從而加快收斂

3. Adagrad、Adadelta、RMSprop

這三者都是對學習率加以調整的優化方法。

4. Adam

Adam(Adaptive Moment Estimation)本質上是帶有動量項的RMSprop，它利用梯度的一階矩估計和二階矩估計動態調整每個參數的學習率。Adam的優點主要在於經過偏置校正后，每一次迭代學習率都有個確定范圍，使得參數比較平穩。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 深度學習——優化器算法Optimizer詳解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）【python實現卷積神經網絡】優化器的實現（SGD、Nesterov、Adagrad、Adadelta、RMSprop、Adam）優化方法總結以及Adam存在的問題(SGD, Momentum, AdaDelta, Adam, AdamW，LazyAdam) 神經網絡優化方法總結：SGD，Momentum，AdaGrad，RMSProp，Adam 各種優化器SGD，AdaGrad，Adam，LBFGS都做了什么？最優化方法系列：Adam+SGD—>AMSGrad 機器學習中幾種優化算法的比較（SGD、Momentum、RMSProp、Adam）深度學習優化算法總結——從SGD到Adam 深度學習常見的優化方法(Optimizer)總結:Adam,SGD,Momentum,AdaGard等梯度下降算法(SGD, Momentum, NAG, Adagrad, RMProp, Adam)及其收斂效果比較