損失函數-激活函數-正則化

本文轉載自查看原文 2019-07-25 15:25 382 損失函數/ 正則化/ 激活函數

1、損失函數主要分為回歸損失函數和分類損失函數。

回歸：

（1）L2損失（均方誤差）MSE

（2）L1損失（平均絕對值誤差）MAE---考慮方向---->平均偏差MBE

（3）Huber損失（平滑的平均絕對誤差）

（4）Log-Cosh損失

（5）分位數損失。更關注區間預測

分類：

（1）對數損失函數

（2）Focal loss.解決one-stage中正負樣本比例失衡

（3）相對熵（relative entropy)

（4）指數損失

（5）合頁損失

（6）0-1損失

（7）Logistic loss

詳情可見：

https://www.jiqizhixin.com/articles/2018-06-21-3

https://www.cnblogs.com/massquantity/p/8964029.html

2、激活函數

（1）sigmoid函數。缺陷：軟飽和性--->梯度消失；偏置現象（輸出均值不為0）

（2）tanh函數。收斂速度比sigmoid函數快

（3）Relu函數----改進--->Leaky Relu

優點：相比於sigmoid，計算量小；不會出現梯度消失的情況；一部分輸出為0-->網絡稀疏性-->減少參數相互依存-->緩解過擬合。

缺陷：偏移；神經元死亡現象。

（4）Elu函數

融合了sigmoid和ReLU，左側具有軟飽和性，右側無飽和性。
右側線性部分使得ELU能夠緩解梯度消失，而左側軟飽能夠讓ELU對輸入變化或噪聲更魯棒。
ELU的輸出均值接近於零，所以收斂速度更快。
在 ImageNet上，不加 Batch Normalization 30 層以上的 ReLU 網絡會無法收斂，PReLU網絡在MSRA的Fan-in （caffe ）初始化下會發散，而 ELU 網絡在Fan-in/Fan-out下都能收斂。

（5）softplus函數

可以看作Relu的平滑。

（6）恆同映射

（7）Maxout

（8）Leaky Relu函數

3、正則化（降低模型復雜度，防止過擬合）

（1）L1范數：原目標函數+所有特征系數絕對值的和。更適用於特征選擇

（2）L2范數：原目標函數+所有特征系數的平方和。更適用於防止模型過擬合

（3）訓練集增強：小幅旋轉、平移、放大、縮小、給圖片加波動

（4）dropout

（5）earlystopping

梯度爆炸解決方法：

Smooth L1損失替換L2損失；減少學習率；使用Relu函數；使用正則化，懲罰較大權重。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 練習：給Keras ResNet50源碼加上正則化參數, 修改激活函數為Elu 激活函數，損失函數，優化器損失函數公式推導以及L2正則化 L1與L2損失函數和正則化的區別 L1和L2：損失函數和正則化深度學習：激活函數、損失函數、優化函數的區別機器學習中常用激活函數和損失函數 tensorflow中常用激活函數和損失函數 TensorFlow激活函數+歸一化-函數數據預處理中歸一化（Normalization）與損失函數中正則化（Regularization）解惑