花费 7 ms
L1、L2损失函数、Huber损失函数

L1范数损失函数,也被称为最小绝对值偏差(LAD),最小绝对值误差(LAE) L2范数损失函数,也被称为最小平方误差(LSE) L2损失函数 L1损失函数 ...

Sat Jun 29 03:25:00 CST 2019 0 2512
什么是梯度爆炸?怎么解决?

梯度的衰减是有连续乘法导致的,如果在连续乘法中出现一个非常大的值,最后计算出的梯度就会很大,就想当优化到断崖处是,会获得一个很大的梯度值,如果以这个梯度值进行更新,那么这次迭代的步长就很大,可能会一下 ...

Mon Jul 01 00:41:00 CST 2019 0 2421
BP算法

sigmoid函数 神经网络激活函数是sigmoid函数。 定义为: sigmoid函数是一个非线性函数,值域是(0,1)。函数图像如下图所示: sigmoid导数: 可以看得出 ...

Fri Jun 28 00:42:00 CST 2019 0 665
BN和正则化一起使用的后果

就是因为 batch norm 过后, weight 影响没那么重了,所以 l2 weight decay 的效果就不明显了。 证明了L2正则化与归一化相结合时没有正则化效应。相反,正则化会影响权重 ...

Sat Jun 29 03:40:00 CST 2019 0 588
局部最优怎么办?

1、使用模拟退火算法SA(Simulate Anneal) 贪心算法是,在求最优解时,从a点开始试探,如果函数值继续减少,那么试探过程继续,到达b点时,试探过程结束(因为无论朝哪个方向努力,结果只会 ...

Mon Jul 01 02:05:00 CST 2019 0 561
bagging和boosting的区别

bagging是从样本集中抽样出子训练集,训练处多个基模型,然后通过投票表决决定最重的越策结果;而boost是每一轮都是用的是同一个数据集,但是样本的权重不同,训练多个基分类器,最终将多个基分类器 ...

Mon Jul 22 01:29:00 CST 2019 0 447

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM