花费 17 ms
Adam 算法

简介 Adam 优化算法的基本机制 Adam 算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率(即 alpha)更新所有的权重,学习率在训练过程中并不会改变。而 Adam 通过计算梯度的 ...

Wed Jan 03 22:25:00 CST 2018 1 38321
Armijo-Goldstein准则与Wolfe-Powell准则

Armijo-Goldstein准则与Wolfe-Powell准则是不精确的一维搜索的两大准则。 之所以要遵循这些准则是为了能使算法收敛(求最优解)。即要使我们的不精确的一维搜索的步长满足一定的规则 ...

Sun Dec 24 00:31:00 CST 2017 0 5240
超参数优化

什么是超参数 所谓超参数,就是机器学习模型里面的框架参数,比如聚类方法里面类的个数,或者话题模型里面话题的个数等等,都称为超参数。它们跟训练过程中学习的参数(权重)是不一样的,通常是手工设定,不断试 ...

Fri Jan 05 18:24:00 CST 2018 0 3729
梯度下降算法(gradient descent)

简述 梯度下降法又被称为最速下降法(Steepest descend method),其理论基础是梯度的概念。梯度与方向导数的关系为:梯度的方向与取得最大方向导数值的方向一致,而梯度的模就是函数在该点 ...

Tue Jan 02 04:05:00 CST 2018 0 3270
拟牛顿法与最速下降法

拟牛顿法 拟牛顿法是求解非线性优化问题最有效的方法之一。DFP、BFGS、L-BFGS算法都是重要的拟牛顿法。 求函数的根 对f(x)在Xn附近做一阶泰勒展开 f(x)=f(Xn)+f’( ...

Sat Dec 23 23:23:00 CST 2017 0 3224

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM