Adam优化器与其他优化器比较【详细，清楚】

本文转载自查看原文 2021-01-13 11:43 776 模型算法

https://www.jianshu.com/p/aebcaf8af76e

1、sgd

2、动量(Momentum)

3、adagrad

大多数的框架实现采用默认学习率α=0.01即可完成比较好的收敛。

4、RMSprop

，

其中：

γ是遗忘因子（或称为指数衰减率），依据经验，默认设置为0.9。

5、adam

，

其中：

m0 初始化为0。

β1 系数为指数衰减率，控制权重分配（动量与当前梯度），通常取接近于1的值。

默认为0.9。

由于m0初始化为0，会导致mt偏向于0，尤其在训练初期阶段。

所以，此处需要对梯度均值mt进行偏差纠正，降低偏差对训练初期的影响。 vt同理。

v0初始化为0。

β2 系数为指数衰减率，控制之前的梯度平方的影响情况。

类似于RMSProp算法，对梯度平方进行加权均值。

默认为0.999

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 简单认识Adam优化器 Pytorch中adam优化器的参数问题 Pytorch实现MNIST（附SGD、Adam、AdaBound不同优化器下的训练比较） adabound实现 Adam优化算法详细解析各种优化器的比较 torch.optim.Adam优化器参数学习 keras.opimizers里面的Adam优化器参数各种优化器SGD，AdaGrad，Adam，LBFGS都做了什么？各种优化器Optimizer的总结与比较 Tensorflow-各种优化器总结与比较