
假設有如上圖所示的神經網絡實例圖
網絡描述如下:
1)有2個輸入,即圖中的x1、x2
2)有3個神經元,即途中的b1、b2、b3
3)共2層網絡。第1層的神經元是b1、b2,第2層的神經元是b3.可將中間層稱為隱層。例如途中的b1、b2就屬於隱層
4)有6個權重(w11到w23)。最終輸出為OUT。
神經元b1的輸出是: x1w11+x2w21+b1
神經元b2的輸出是:x1w12+x2w22+b2
如果沒有非線性激活,那么最終的輸出OUT的計算公式是:
OUT=(x1w11 + x2w21 + b1)* w13 + (x1w12 + x2w22 + b2)*w23 + b3
=x1*(w11w13 + w12w23) + x2 * (w21w13 + w22w23)+(b1w13 +b2w23 +b3)
從上面的公式可以看出,雖然用了3個神經元,但這個網絡對於x1和x2仍然是線性的,完全等價於1個神經元的效果。
如下圖:

因此,如果只是把神經元簡單的連接在一起,不加入非線性處理,最終得到的仍然是線性函數,無法完成描述各種復雜的現象,可看出在神經元的輸出時需要一個非線性函數是必要的。
若非線性激活函數對於中間層神經元是f,對於最終輸出神經元是g,那么,對於此前的網絡,最終的輸出會變為:
OUT=g(f(x1w11 + x2w21 + b1)* w13 + f(x1w12 + x2w22+b2)*w23 + b3)
由於f和g都是非線性的,於是最終可得到非線性的網絡輸出,即可擬合出復雜的數據。
