1多層感知機
定義:多層感知機是在單層神經網絡上引入一個或多個隱藏層,即輸入層,隱藏層,輸出層
2多層感知機的激活函數:
如果沒有激活函數,多層感知機會退化成單層
多層感知機的公式: 隱藏層 H=XWh+bh
輸出層 O=HW0+b0=(XWh+bh)W0+b0=XWhW0+b0W0+b0
其中XWhW0相當於W,b0W0+b0相當於b,即WX+b的形式,與單層的同為一次函數,因此重新成為了單層
3激活函數的作用
(1)讓多層感知機成為了真正的多層感知機,否則等於一層的感知機
(2)引入非線性,使網絡逼近了任意的非線性函數,彌補了之前單層的缺陷
4激活函數的特質
(1) 連續可導(允許少數點不可導),便於數值優化的方法學習網絡參數
(2)激活函數盡可能簡單,提高計算效率
(3)激活函數的導函數的導函數的值域要在合適的區間,否則影響訓練的穩定和效率
5 常見的激活函數
1 sigmod型
常見於早期的神經網絡,RNN和二分類項目,值域處於0到1,可以用來輸出二分類的概率
弊端:處於飽和區的函數無法再更新梯度,向前傳播困難
2 tahn(雙曲正切)
3 ReLu(修正線性單元)
最常用的神經網絡激活函數,不存在飽和區,雖然再z=0上不可導,但不違背激活函數的特質(允許在少數點上不可導),廣泛運用於卷積網絡等