神經網絡與深度學習之激活函數


激活函數:

傳統神經網絡中最常用的兩個激活函數,Sigmoid系(Logistic-Sigmoid、Tanh-Sigmoid)被視為神經網絡的核心所在.從數學上來看,非線性的Sigmoid函數對中央區的信號增益較大,對兩側區的信號增益小,在信號的特征空間映射上,有很好的效果,通過對加權的輸入進行非線性組合產生非線性決策邊界.從神經科學上來看,中央區酷似神經元的興奮態,兩側區酷似神經元的抑制態,因而在神經網絡學習方面,可以將重點特征推向中央區,將非重點特征推向兩側區.

Relu函數為現在深度學習使用比較廣泛的激活函數,相比前面兩個,其優點在於計算簡單,導數簡單,收斂快,單側抑制 ,相對寬闊的興奮邊界 ,稀疏激活性;缺點在於在訓練的時候,網絡很脆弱,很容易出現很多神經元值為0,從而再也訓練不動.一般將學習率設置為較小值來避免這種情況的發生.

 

比較:

激活函數的一些可取的屬性包括:

非線性:當激活函數是非線性的,然后一個兩層神經網絡可以證明是一個通用函數近似值.而identity激活函數不滿足這個屬性.當多層網絡使用identity激活函數,整個網絡就相當於一個單層模型.

連續可微的:這個屬性對基於梯度優化方法是必要的.二進制激活函數在0點沒有可微性,它在其他值上全部可導為0,基於梯度優化方法對於它毫無進展.

范圍:當激活函數的范圍是有限的,基於梯度的訓練方法往往更穩定,因為模式顯著影響幾個有限權重.當范圍是無限的,訓練通常更有效率,因為模式顯著影響大部分權重.在后一種情況下,較小的學習利率通常是必要的.

單調:當激活函數是單調時,與單層模型相關的錯誤表面是凸的.

平滑性:有單調導數的平滑函數已經被證明在某些情況下推廣地更好.這些屬性表明這些激活函數和Occam's razor更一致.

原點附近近似identity當激活函數有這個屬性,對於小的隨機值初始化權重,神經網絡將有效地學習.當激活函數沒有這個屬性,在初始化權值必須使用特殊例子.在下面的表中,激活函數,表明有該屬性.

 

常見函數:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM