https://www.jianshu.com/p/aebcaf8af76e
1、sgd
2、動量(Momentum)
3、adagrad
大多數的框架實現采用默認學習率α=0.01即可完成比較好的收斂。
4、RMSprop
,
其中:
γ是遺忘因子(或稱為指數衰減率),依據經驗,默認設置為0.9。
5、adam
,
其中:
m0 初始化為0。
β1 系數為指數衰減率,控制權重分配(動量與當前梯度),通常取接近於1的值。
默認為0.9。
由於m0初始化為0,會導致mt偏向於0,尤其在訓練初期階段。
所以,此處需要對梯度均值mt進行偏差糾正,降低偏差對訓練初期的影響。 vt同理。
v0初始化為0。
β2 系數為指數衰減率,控制之前的梯度平方的影響情況。
類似於RMSProp算法,對梯度平方進行加權均值。
默認為0.999