梯度下降更新算法

本文转载自查看原文 2019-01-25 17:17 861 深度学习

梯度更新是要同时更新，如下图所示：θ0和θ1同时更新，而不是更新完一个后再更新另一个。

学习率α过小，梯度下降较慢，训练时间增长。若学习率α过大，梯度下降会越过最低点，难以得到最优的结果，导致难以收敛或发散。

如果参数值已是局部最优，进行梯度下降计算时导数是0，梯度下降不会作任何操作，参数不改变

在梯度下过程中无需修改学习率，因为在接近局部最有点时导数项会变小，梯度下降的步幅也会随之比变小。

梯度下降中batch:指计算一次梯度下降就使用全部的训练集数据

mini batch :指计算一次梯度下降时使用了一小部分训练集数据

多元特征的梯度下降时，进行特征缩放，可将梯度下降的速度提高，通常将特征的取值缩放至大约-1到1之间

使用小的学习率，一般0.001，0.003，0.01，0.03，0.1，0.3，1等

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 随机梯度下降算法近端梯度下降算法梯度下降算法优化算法—梯度下降梯度算法之梯度上升和梯度下降随机梯度下降优化算法-----批量梯度下降，随机梯度下降，小批量梯度下降梯度下降算法理解（梯度的含义）梯度下降算法(1) - Python实现梯度下降算法详解及案例对梯度下降算法的理解和实现