标签【记录1】 - 码上欢乐

L1、L2损失函数、Huber损失函数

L1范数损失函数，也被称为最小绝对值偏差（LAD），最小绝对值误差（LAE） L2范数损失函数，也被称为最小平方误差（LSE） L2损失函数 L1损失函数 ...

什么是梯度爆炸？怎么解决？

梯度的衰减是有连续乘法导致的，如果在连续乘法中出现一个非常大的值，最后计算出的梯度就会很大，就想当优化到断崖处是，会获得一个很大的梯度值，如果以这个梯度值进行更新，那么这次迭代的步长就很大，可能会一下 ...

BP算法

sigmoid函数神经网络激活函数是sigmoid函数。定义为： sigmoid函数是一个非线性函数，值域是(0,1)。函数图像如下图所示： sigmoid导数：可以看得出 ...

BN和正则化一起使用的后果

就是因为 batch norm 过后， weight 影响没那么重了，所以 l2 weight decay 的效果就不明显了。证明了L2正则化与归一化相结合时没有正则化效应。相反，正则化会影响权重 ...

局部最优怎么办？

1、使用模拟退火算法SA（Simulate Anneal）贪心算法是，在求最优解时，从a点开始试探，如果函数值继续减少，那么试探过程继续，到达b点时，试探过程结束（因为无论朝哪个方向努力，结果只会 ...

bagging和boosting的区别

bagging是从样本集中抽样出子训练集，训练处多个基模型，然后通过投票表决决定最重的越策结果；而boost是每一轮都是用的是同一个数据集，但是样本的权重不同，训练多个基分类器，最终将多个基分类器 ...