Adam優化器與其他優化器比較【詳細,清楚】


https://www.jianshu.com/p/aebcaf8af76e

1、sgd

 

 

2、動量(Momentum)

 

 

3、adagrad

大多數的框架實現采用默認學習率α=0.01即可完成比較好的收斂。 

 

4、RMSprop

 

其中:

  

 

          

γ是遺忘因子(或稱為指數衰減率),依據經驗,默認設置為0.9。 

 

 

5、adam

其中:

 

            

 

                

 

m0 初始化為0。

β1 系數為指數衰減率,控制權重分配(動量與當前梯度),通常取接近於1的值。

默認為0.9。

由於m0初始化為0,會導致mt偏向於0,尤其在訓練初期階段。

所以,此處需要對梯度均值mt進行偏差糾正,降低偏差對訓練初期的影響。 vt同理。

                    

 

                     

v0初始化為0。

β2 系數為指數衰減率,控制之前的梯度平方的影響情況。

類似於RMSProp算法,對梯度平方進行加權均值。

默認為0.999

 

                        

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM