梯度下降算法(SGD, Momentum, NAG, Adagrad, RMProp, Adam)及其收斂效果比較
1. 梯度下降 沿着目標函數梯度的反方向搜索極小值。 式中,$\theta$是模型參數,$J(\theta)$目標函數(損失函數),$\eta$是學習率。 2. 隨機梯度下降(SGD) ...
1. 梯度下降 沿着目標函數梯度的反方向搜索極小值。 式中,$\theta$是模型參數,$J(\theta)$目標函數(損失函數),$\eta$是學習率。 2. 隨機梯度下降(SGD) ...
參考 https://ruder.io/optimizing-gradient-descent/ 。 本文不是簡單地翻譯,而是真的花了一天的時間和心思來寫,這一過程中我也重新復習了一遍,而且 ...