梯度下降算法(SGD, Momentum, NAG, Adagrad, RMProp, Adam)及其收斂效果比較
1. 梯度下降 沿着目標函數梯度的反方向搜索極小值。 式中,$\theta$是模型參數,$J(\theta)$目標函數(損失函數),$\eta$是學習率。 2. 隨機梯度下降(SGD) ...
1. 梯度下降 沿着目標函數梯度的反方向搜索極小值。 式中,$\theta$是模型參數,$J(\theta)$目標函數(損失函數),$\eta$是學習率。 2. 隨機梯度下降(SGD) ...