目錄
- 前言
- 1.adagrad
- 2.動量(Momentum)
- 3.RMSProp
- 4.Adam
附1 基於梯度的優化算法前后關系
- 附二 Gradient Descent補充
前言:
https://www.zhihu.com/question/323747423/answer/790457991
Adam本質上實際是RMSProp+動量。但如果你對隨機梯度下降SGD的知識,以及Adam之前的幾個更新方法一無所知。那么當你看到一個“復雜的”Adam看了就頭大(請不要嘲笑初學者,當年我也覺得深度學習各個地方都超復雜)。
現在假設你對反向傳播的計算梯度的內容比較了解,一旦能使用反向傳播計算解析梯度,梯度就能被用來進行參數更新了
1.adagrad
2.動量(Momentum)
3.RMSProp
4.Adam
附1 基於梯度的優化算法前后關系
附二 Gradient Descent補充
https://www.jianshu.com/p/8b7105a2c242