損失函數-激活函數-正則化


1、損失函數主要分為回歸損失函數和分類損失函數。

回歸:

(1)L2損失(均方誤差)MSE

(2)L1損失(平均絕對值誤差)MAE---考慮方向---->平均偏差MBE

(3)Huber損失(平滑的平均絕對誤差)

(4)Log-Cosh損失

(5)分位數損失。更關注區間預測

分類:

(1)對數損失函數

(2)Focal loss.解決one-stage中正負樣本比例失衡

(3)相對熵(relative  entropy)

(4)指數損失

(5)合頁損失

(6)0-1損失

(7)Logistic loss

詳情可見:

https://www.jiqizhixin.com/articles/2018-06-21-3 

https://www.cnblogs.com/massquantity/p/8964029.html 

2、激活函數

(1)sigmoid函數。缺陷:軟飽和性--->梯度消失;偏置現象(輸出均值不為0)

(2)tanh函數。收斂速度比sigmoid函數快

(3)Relu函數----改進--->Leaky Relu

優點:相比於sigmoid,計算量小;不會出現梯度消失的情況;一部分輸出為0-->網絡稀疏性-->減少參數相互依存-->緩解過擬合。

缺陷:偏移;神經元死亡現象。

(4)Elu函數

融合了sigmoid和ReLU,左側具有軟飽和性,右側無飽和性。
右側線性部分使得ELU能夠緩解梯度消失,而左側軟飽能夠讓ELU對輸入變化或噪聲更魯棒。
ELU的輸出均值接近於零,所以收斂速度更快。
在 ImageNet上,不加 Batch Normalization 30 層以上的 ReLU 網絡會無法收斂,PReLU網絡在MSRA的Fan-in (caffe )初始化下會發散,而 ELU 網絡在Fan-in/Fan-out下都能收斂。

(5)softplus函數

可以看作Relu的平滑。

(6)恆同映射

(7)Maxout

(8)Leaky Relu函數

3、正則化(降低模型復雜度,防止過擬合)

(1)L1范數: 原目標函數+所有特征系數絕對值的和。更適用於特征選擇

(2)L2范數:原目標函數+所有特征系數的平方和。更適用於防止模型過擬合

(3)訓練集增強:小幅旋轉、平移、放大、縮小、給圖片加波動

(4)dropout

(5)earlystopping

梯度爆炸解決方法:

Smooth L1損失替換L2損失;減少學習率;使用Relu函數;使用正則化,懲罰較大權重。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM