PReLU與ReLU


PReLU激活函數,方法來自於何凱明paper 《Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification》

PReLU激活

PReLU(Parametric Rectified Linear Unit), 顧名思義:帶參數的ReLU。二者的定義和區別如下圖: 
PReLU vs. ReLU

如果ai=0,那么PReLU退化為ReLU;如果ai是一個很小的固定值(如ai=0.01),則PReLU退化為Leaky ReLU(LReLU)。 有實驗證明,與ReLU相比,LReLU對最終的結果幾乎沒什么影響。

PReLU的幾點說明

(1) PReLU只增加了極少量的參數,也就意味着網絡的計算量以及過擬合的危險性都只增加了一點點。特別的,當不同channels使用相同的ai時,參數就更少了。

(2) BP更新ai時,采用的是帶動量的更新方式,如下圖:

帶動量更新

上式的兩個系數分別是動量和學習率。 
需要特別注意的是:更新ai時不施加權重衰減(L2正則化),因為這會把ai很大程度上push到0。事實上,即使不加正則化,試驗中ai也很少有超過1的。

(3) 整個論文,ai被初始化為0.25。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM