ReLU激活函數


參考:https://blog.csdn.net/cherrylvlei/article/details/53149381

首先,我們來看一下ReLU激活函數的形式,如下圖: 

這里寫圖片描述
   單側抑制,當模型增加N層之后,理論上ReLU神經元的激活率將降低2的N次方倍, ReLU實現稀疏后的模型能夠更好地挖掘相關特征,擬合訓練數據。此外,相比於其它激活函數來說,ReLU有以下優勢:對於線性函數而言,ReLU的表達能力更強,尤其體現在深度網絡中;而對於非線性函數而言,ReLU由於非負區間的梯度為常數,因此不存在梯度消失問題(Vanishing Gradient Problem),使得模型的收斂速度維持在一個穩定狀態。這里稍微描述一下什么是梯度消失問題: 當梯度小於1時,預測值與真實值之間的誤差每傳播一層會衰減一次,如果在深層模型中使用sigmoid作為激活函數,這種現象尤為明顯,將導致模型收斂停滯不前。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM