Adam算法及相關Adaptive Learning Rate 自適應學習率


目錄

  • 前言
  • 1.adagrad
  • 2.動量(Momentum)
  • 3.RMSProp
  • 4.Adam
  • 附1 基於梯度的優化算法前后關系

  • 附二 Gradient Descent補充

 

前言:

https://www.zhihu.com/question/323747423/answer/790457991

Adam本質上實際是RMSProp+動量。但如果你對隨機梯度下降SGD的知識,以及Adam之前的幾個更新方法一無所知。那么當你看到一個“復雜的”Adam看了就頭大(請不要嘲笑初學者,當年我也覺得深度學習各個地方都超復雜)。

現在假設你對反向傳播的計算梯度的內容比較了解,一旦能使用反向傳播計算解析梯度,梯度就能被用來進行參數更新了

 

 

 

 

 

 

1.adagrad

 

 

 

 

 

 

 

 

2.動量(Momentum)

 

 

 

 

  

 

 

 

 

3.RMSProp

  

 

 4.Adam

 

 

 

 

附1 基於梯度的優化算法前后關系


 

附二 Gradient Descent補充

https://www.jianshu.com/p/8b7105a2c242

 

 

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM