PReLU激活函數,方法來自於何凱明paper 《Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification》
PReLU激活
PReLU(Parametric Rectified Linear Unit), 顧名思義:帶參數的ReLU。二者的定義和區別如下圖:
如果ai=0,那么PReLU退化為ReLU;如果ai是一個很小的固定值(如ai=0.01),則PReLU退化為Leaky ReLU(LReLU)。 有實驗證明,與ReLU相比,LReLU對最終的結果幾乎沒什么影響。
PReLU的幾點說明
(1) PReLU只增加了極少量的參數,也就意味着網絡的計算量以及過擬合的危險性都只增加了一點點。特別的,當不同channels使用相同的ai時,參數就更少了。
(2) BP更新ai時,采用的是帶動量的更新方式,如下圖:
上式的兩個系數分別是動量和學習率。
需要特別注意的是:更新ai時不施加權重衰減(L2正則化),因為這會把ai很大程度上push到0。事實上,即使不加正則化,試驗中ai也很少有超過1的。
(3) 整個論文,ai被初始化為0.25。