原文:L1比L2更稀疏

. 简单列子: 一个损失函数L与参数x的关系表示为: 则 加上L 正则化,新的损失函数L为: 蓝线 最优点在黄点处,x的绝对值减少了,但依然非零。 如果加上L 正则化,新的损失函数L为: 粉线 最优点为红点,变为 ,L 正则化让参数的最优值变为 ,更稀疏。 L 在江湖上人称Lasso,L 人称Ridge。 两种正则化,能不能将最优的参数变为 ,取决于最原始的损失函数在 点处的导数,如果原始损失函 ...

2017-07-02 03:47 0 2836 推荐指数:

查看详情

为什么L1稀疏L2平滑?

使用机器学习方法解决实际问题时,我们通常要用L1L2范数做正则化(regularization),从而限制权值大小,减少过拟合风险。特别是在使用梯度下降来做目标函数优化时,很常见的说法是, L1正则化产生稀疏的权值, L2正则化产生平滑的权值。为什么会这样?这里面的本质原因是什么呢?下面 ...

Wed Sep 26 05:51:00 CST 2018 0 1654
什么是L1/L2/L3 Cache?

什么是L1/L2/L3 Cache? Cache Memory也被称为Cache,是存储器子系统的组成部分,存放着程序经常使用的指令和数据,这就是Cache的传统定义。从广义的角度上看,Cache是快设备为了缓解访问慢设备延时的预留的Buffer,从而可以在掩盖访问延时的同时,尽可能地提高 ...

Fri Aug 13 14:20:00 CST 2021 0 390
机器学习笔记-L2正则化、L1正则化与稀疏

L2正则化、L1正则化与稀疏性 [抄书] 《百面机器学习:算法工程师带你去面试》 为什么希望模型参数具有稀疏性呢?稀疏性,说白了就是模型的很多参数是0。这相当于对模型进行了一次特征选择,只留下一些比较重要的特征,提高模型的泛化能力,降低过拟合的可能。在实际应用中,机器学习模型的输入 ...

Tue Jun 02 00:15:00 CST 2020 0 705
L1正则化比L2正则化更易获得稀疏解的原因

  我们知道L1正则化和L2正则化都可以用于降低过拟合的风险,但是L1正则化还会带来一个额外的好处:它比L2正则化更容易获得稀疏解,也就是说它求得的w权重向量具有更少的非零分量。   为了理解这一点我们看一个直观的例子:假定x有两个属性,于是无论是采用L1正则化还是采用L2正则化,它们解出的w ...

Sat Sep 16 17:45:00 CST 2017 0 3881
L1L2范数理解

读了博主https://blog.csdn.net/a493823882/article/details/80569888的文章做简要的记录。 范数可以当作距离来理解。 L1范数: 曼哈顿距离,公式如下: ,机器学习中的L1范数应用形式为:,为L1范数。 L2范数: 欧式距离 ...

Tue Mar 12 19:12:00 CST 2019 0 855
L1范数与L2范数​

L1范数与L2范数​ ​ L1范数与L2范数在机器学习中,是常用的两个正则项,都可以防止过拟合的现象。L1范数的正则项优化参数具有稀疏特性,可用于特征选择;L2范数正则项优化的参数较小,具有较好的抗干扰能力。 1. 防止过拟合 ​ L2正则项优化目标函数时,一般倾向于构造构造较小参数,一般 ...

Sat Mar 30 19:10:00 CST 2019 0 569
L1 正则 和 L2 正则的区别

L1L2正则都可以看成是 条件限制,即 $\Vert w \Vert \leq c$ $\Vert w \Vert^2 \leq c$ 当w为2维向量时,可以看到,它们限定的取值范围如下图: 所以它们对模型的限定不同 而对于一般问题来说,L1 正则往往取到 ...

Fri May 29 19:58:00 CST 2015 0 5013
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM