weight_decay(權重衰減)

本文轉載自查看原文 2018-12-04 20:34 2212

權重衰減等價於L2范數正則化。正則化通過為模型損失函數添加懲罰項使得學習的模型參數值較小，是常用的過擬合的常用手段
L2范數正則化是在模型原損失函數基礎上添加L2范數懲罰項，其中L2范數懲罰項指的是模型權重參數每個元素的平方和與一個正的常數的乘積。比如，對於線性回歸損失函數：

$\iota(w_1, w_2, b) = \frac{1}{2}(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)})^2$
其中$w_1, w_2$為權重參數，樣本數為n, 將權重參數用向量$w = [w_1, w_2]$表示，帶有L2范數懲罰項的新的損失函數為

$\iota(w_1, w_2, b) + \frac{\lambda}{2n}\Vert w \Vert ^2$

上式中L2范數的$\Vert w \Vert ^2$展開后得到 $w_1^2+w_2^2$

$\overline r_a + \frac{\sum_{b\in N}sim(a, b) *(r_{a, b} - \overline r_b)}{\sum_{b\in N} sim(a, b)}$

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 權重衰減（weight decay）與學習率衰減（learning rate decay）權重衰減（weight decay), L2正則調參過程中的參數學習率，權重衰減，沖量(learning_rate , weight_decay , momentum) weight_decay in Pytorch optimizer中weight_decay參數理解 weight decay（權值衰減）、momentum（沖量）和normalization caffe 中base_lr、weight_decay、lr_mult、decay_mult代表什么意思？深度學習中，使用regularization正則化(weight_decay)的好處，loss=nan caffe 中base_lr、weight_decay、lr_mult、decay_mult代表什么意思？權重衰減和學習率衰減