Adam優化器與其他優化器比較【詳細，清楚】

本文轉載自查看原文 2021-01-13 11:43 776 模型算法

https://www.jianshu.com/p/aebcaf8af76e

1、sgd

2、動量(Momentum)

3、adagrad

大多數的框架實現采用默認學習率α=0.01即可完成比較好的收斂。

4、RMSprop

，

其中：

γ是遺忘因子（或稱為指數衰減率），依據經驗，默認設置為0.9。

5、adam

，

其中：

m0 初始化為0。

β1 系數為指數衰減率，控制權重分配（動量與當前梯度），通常取接近於1的值。

默認為0.9。

由於m0初始化為0，會導致mt偏向於0，尤其在訓練初期階段。

所以，此處需要對梯度均值mt進行偏差糾正，降低偏差對訓練初期的影響。 vt同理。

v0初始化為0。

β2 系數為指數衰減率，控制之前的梯度平方的影響情況。

類似於RMSProp算法，對梯度平方進行加權均值。

默認為0.999

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。