ReLU 和sigmoid 函數對比



詳細對比請查看:http://www.zhihu.com/question/29021768/answer/43517930


. 激活函數的作用:

是為了增加神經網絡模型的非線性。否則你想想,沒有激活函數的每層都相當於矩陣相乘。就算你疊加了若干層之后,無非還是個矩陣相乘罷了。所以你沒有非線性結構的話,根本就算不上什么神經網絡。

2. 為什么ReLU效果好:

重點關注這章6.6節:Piecewise Linear Hidden Units


總結如下:
發現ReLU效果顯著的論文:

Jarrett, K., Kavukcuoglu, K., Ranzato, M., and LeCun, Y. (2009a). What is the best multi-stage architecture for object recognition?



發現ReLU更容易學習優化。因為其分段線性性質,導致其前傳,后傳,求導都是分段線性。而傳統的sigmoid函數,由於兩端飽和,在傳播過程中容易丟棄信息:

Glorot, X., Bordes, A., and Bengio, Y. (2011b). Deep sparse rectifier neural networks. In JMLR W&CP: Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics (AISTATS 2011). 130, 297


缺點是不能用Gradient-Based方法。同時如果de-active了,容易無法再次active。不過有辦法解決,使用maxout激活函數:

Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A., and Bengio, Y. (2013a). Maxout networks. In S. Dasgupta and D. McAllester, editors, ICML’13, pages 1319–1327. 130, 152, 243


除了幫助傳播信息,便於優化的優點以外,分段線性函數可以讓regularize變得更加容易。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM