梯度下降算法(SGD, Momentum, NAG, Adagrad, RMProp, Adam)及其收敛效果比较
1. 梯度下降 沿着目标函数梯度的反方向搜索极小值。 式中,$\theta$是模型参数,$J(\theta)$目标函数(损失函数),$\eta$是学习率。 2. 随机梯度下降(SGD) ...
1. 梯度下降 沿着目标函数梯度的反方向搜索极小值。 式中,$\theta$是模型参数,$J(\theta)$目标函数(损失函数),$\eta$是学习率。 2. 随机梯度下降(SGD) ...
参考 https://ruder.io/optimizing-gradient-descent/ 。 本文不是简单地翻译,而是真的花了一天的时间和心思来写,这一过程中我也重新复习了一遍,而且 ...