1、損失函數主要分為回歸損失函數和分類損失函數。
回歸:
(1)L2損失(均方誤差)MSE
(2)L1損失(平均絕對值誤差)MAE---考慮方向---->平均偏差MBE
(3)Huber損失(平滑的平均絕對誤差)
(4)Log-Cosh損失
(5)分位數損失。更關注區間預測
分類:
(1)對數損失函數
(2)Focal loss.解決one-stage中正負樣本比例失衡
(3)相對熵(relative entropy)
(4)指數損失
(5)合頁損失
(6)0-1損失
(7)Logistic loss
詳情可見:
https://www.jiqizhixin.com/articles/2018-06-21-3
https://www.cnblogs.com/massquantity/p/8964029.html
2、激活函數
(1)sigmoid函數。缺陷:軟飽和性--->梯度消失;偏置現象(輸出均值不為0)
(2)tanh函數。收斂速度比sigmoid函數快
(3)Relu函數----改進--->Leaky Relu
優點:相比於sigmoid,計算量小;不會出現梯度消失的情況;一部分輸出為0-->網絡稀疏性-->減少參數相互依存-->緩解過擬合。
缺陷:偏移;神經元死亡現象。
(4)Elu函數
右側線性部分使得ELU能夠緩解梯度消失,而左側軟飽能夠讓ELU對輸入變化或噪聲更魯棒。
ELU的輸出均值接近於零,所以收斂速度更快。
在 ImageNet上,不加 Batch Normalization 30 層以上的 ReLU 網絡會無法收斂,PReLU網絡在MSRA的Fan-in (caffe )初始化下會發散,而 ELU 網絡在Fan-in/Fan-out下都能收斂。
(5)softplus函數
可以看作Relu的平滑。
(6)恆同映射
(7)Maxout
(8)Leaky Relu函數
3、正則化(降低模型復雜度,防止過擬合)
(1)L1范數: 原目標函數+所有特征系數絕對值的和。更適用於特征選擇
(2)L2范數:原目標函數+所有特征系數的平方和。更適用於防止模型過擬合
(3)訓練集增強:小幅旋轉、平移、放大、縮小、給圖片加波動
(4)dropout
(5)earlystopping
梯度爆炸解決方法:
Smooth L1損失替換L2損失;減少學習率;使用Relu函數;使用正則化,懲罰較大權重。