這其實是一個理解上的誤區:
陷入局部最優其實不是神經網絡的問題,在一個非常高維的空間中做梯度下降,這時的local minimum是很難形成的,因為局部最小值要求函數在所有維度上都是局部最小的。實際情況是,函數會落在一個saddle-point上。
在saddle-point上會有一大片很平坦的平原,讓梯度幾乎為0,導致無法繼續下降。
但是saddle-point並不是一個局部極小值點,因為它還是有可以下降的方向,只不過現在這些優化算法都很難去找到這個方向罷了。
通過以下圖來感受以下saddle-points

NN的設計激活函數是為了引入非線性變換,凸不凸都可以。
其次在神經網絡的變換中,其實是對原始空間的不斷的擠壓或者拉伸,但是不會切斷。tanh這個激活函數能夠保證原始空間和變換后的空間的同胚性。(有待研究)colah的博客中提到的。
Ref:
[1]Dauphin Y, Pascanu R, Gulcehre C, et al. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization[J]. Mathematics, 2014, 111(6 Pt 1):2475-2485.
[2]http://colah.github.io/posts/2014-03-NN-Manifolds-Topology/
