常用激活函數比較

本文轉載自查看原文 2018-10-10 21:47 997 Machine Learning 筆記

本文結構：

什么是激活函數
為什么要用
都有什么
sigmoid、ReLU、softmax的比較
如何選擇

1. 什么是激活函數

如下圖，在神經元中，輸入的inputs通過加權，求和后，還被作用了一個函數，這個函數就是激活函數 Activation Function。

2. 為什么用

如果不用激勵函數，每一層輸出都是上層輸入的線性函數，無論神經網絡有多少層，輸出都是輸入的線性組合。

如果使用的話，激活函數給神經元引入了非線性因素，使得神經網絡可以任意逼近任何非線性函數，這樣神經網絡就可以應用到眾多的非線性模型中。

3. 都有什么

（1） sigmoid函數

公式：

曲線：

也叫Logistic函數，用於隱層神經元輸出

取值范圍為（0， 1）

它可以將一個實數映射到(0, 1)的區間，可以用來作為二分類。

在特征相差比較復雜或相差不是特別大時效果比較好。

下面解釋為何會出現梯度消失：

反向傳播算法中，要對激活函數求導，sigmoid的導數表達式為：

sigmoid原函數及導數圖形如下：

由圖可知，導數從0開始很快又趨近於0了，易造成“梯度消失”現象

（2） Tanh函數

公式

曲線

也稱為雙切正切函數

取值范圍為[-1, 1]

tanh在特征相差明顯時的效果會很好，在循環過程中會不斷擴大特征效果。

與sigmoid的區別是，tanh是0均值的，因此實際應用中tanh會比sigmoid更好

（3） ReLU

Rectified Linear Unit(ReLU) - 用於隱層神經元輸出

公式

曲線

輸入信號<0時，輸出都是0，>0的情況下，輸出等於輸入

Krizhevsky et al. 發現使用 ReLU 得到的 SGD 的收斂速度會比 sigmoid/tanh 快很多

ReLU的缺點：

訓練的時候很“脆弱”，很容易就“die”了

例如，一個非常大的梯度流過一個ReLU神經元，更新過參數后，這個神經元再也不會對任何數據有激活現象了，那么這個神經元的梯度就永遠都會是0

如果learning rate很大，那么很有可能網絡中的40%的神經元都“dead”了

（4） softmax函數

softmax - 用於多分類神經網絡輸出

公式

舉個例子來看看公式的意思：

如果某一個zj大過其他z，那這個映射的分量就逼近於1，其他就逼近於0，主要應用就是多分類。

為什么要取指數，第一個原因就是要模擬max的行為，所以要讓大的更大。

第二個原因是需要一個可導的函數。

4. sigmoid，ReLU，softmax的比較

sigmoid和ReLU的比較：

sigmoid的梯度消失問題，ReLU的導數就不存在這樣的問題，它的函數表達式如下：

曲線如圖所示

對比sigmoid類函數主要變化是：

單側抑制
相對寬廣的興奮邊界
稀疏激活性

sigmoid和softmax的區別：

softmax is a generalization of logistic function that “squashes”(maps) a K-dimensional vector z of arbitrary real values to a K-dimensional vector σ(z) of real values in the range (0, 1) that add up to 1.

sigmoid將一個real value映射到（0,1）的區間，用來做二分類。

而 softmax 把一個 k 維的real value向量（a1,a2,a3,a4….）映射成一個（b1,b2,b3,b4….）其中 bi 是一個 0～1 的常數，輸出神經元之和為 1.0，所以相當於概率值，然后可以根據 bi 的概率大小來進行多分類的任務。

二分類問題時 sigmoid 和 softmax 是一樣的，求的都是 cross entropy loss，而 softmax 可以用於多分類問題

softmax是sigmoid的擴展，因為，當類別數 k＝2 時，softmax 回歸退化為 logistic 回歸。具體地說，當 k＝2 時，softmax 回歸的假設函數為：

利用softmax回歸參數冗余的特點，從兩個參數向量中都減去向量θ1 ，得到:

最后，用 θ′ 來表示 θ2−θ1，上述公式可以表示為 softmax 回歸器預測其中一個類別的概率為

另一個類別概率的為

這與 logistic回歸是一致的。

softmax建模使用的分布是多項式分布，而logistic則基於伯努利分布
　　
多個logistic回歸通過疊加也同樣可以實現多分類的效果，但是 softmax回歸進行的多分類，類與類之間是互斥的，即一個輸入只能被歸為一類；多個logistic回歸進行多分類，輸出的類別並不是互斥的，即”蘋果”這個詞語既屬於”水果”類也屬於”3C”類別。

5. 如何選擇

選擇的時候，就是根據各個函數的優缺點來配置，例如：

如果使用 ReLU，要小心設置 learning rate，注意不要讓網絡出現很多 “dead” 神經元，如果不好解決，可以試試 Leaky ReLU、PReLU 或者 Maxout.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 常用的激活函數常用激活函數常用激活函數總結激活函數的比較，sigmoid，tanh，relu 深度學習激活函數比較深度學習中常用的激活函數深度學習常用激活函數神經元與常用的激活函數神經網絡中各種激活函數比較機器學習中常用激活函數和損失函數