詳細對比請查看:http://www.zhihu.com/question/29021768/answer/43517930
. 激活函數的作用:
是為了增加神經網絡模型的非線性。否則你想想,沒有激活函數的每層都相當於矩陣相乘。就算你疊加了若干層之后,無非還是個矩陣相乘罷了。所以你沒有非線性結構的話,根本就算不上什么神經網絡。
2. 為什么ReLU效果好:
重點關注這章6.6節:Piecewise Linear Hidden Units
http://www.iro.umontreal.ca/~bengioy/dlbook/mlp.html
總結如下:
發現ReLU效果顯著的論文:
發現ReLU更容易學習優化。因為其分段線性性質,導致其前傳,后傳,求導都是分段線性。而傳統的sigmoid函數,由於兩端飽和,在傳播過程中容易丟棄信息:
是為了增加神經網絡模型的非線性。否則你想想,沒有激活函數的每層都相當於矩陣相乘。就算你疊加了若干層之后,無非還是個矩陣相乘罷了。所以你沒有非線性結構的話,根本就算不上什么神經網絡。
2. 為什么ReLU效果好:
重點關注這章6.6節:Piecewise Linear Hidden Units
http://www.iro.umontreal.ca/~bengioy/dlbook/mlp.html
總結如下:
發現ReLU效果顯著的論文:
Jarrett, K., Kavukcuoglu, K., Ranzato, M., and LeCun, Y. (2009a). What is the best multi-stage architecture for object recognition?
發現ReLU更容易學習優化。因為其分段線性性質,導致其前傳,后傳,求導都是分段線性。而傳統的sigmoid函數,由於兩端飽和,在傳播過程中容易丟棄信息:
Glorot, X., Bordes, A., and Bengio, Y. (2011b). Deep sparse rectifier neural networks. In JMLR W&CP: Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics (AISTATS 2011). 130, 297
缺點是不能用Gradient-Based方法。同時如果de-active了,容易無法再次active。不過有辦法解決,使用maxout激活函數:
Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A., and Bengio, Y. (2013a). Maxout networks. In S. Dasgupta and D. McAllester, editors, ICML’13, pages 1319–1327. 130, 152, 243
除了幫助傳播信息,便於優化的優點以外,分段線性函數可以讓regularize變得更加容易。
