PReLU


  PReLU全名Parametric Rectified Linear Unit. PReLU-nets在ImageNet 2012分類數據集top-5上取得了4.94%的錯誤率,首次超越了人工分類的錯誤率(5.1%)。PReLU增加的計算量和過擬合的風險幾乎為零。考慮了非線性因素的健壯初始化方法使得該方法可以訓練很深很深的修正模型(rectified model)來研究更深更大的網絡結構。

  ReLU和PReLU圖像:

  PReLU的數學表達式(i代表不同的通道,即每一個通道都有參數不相同的PReLU函數):

 

  如果ai是一個很小且確定的值時,PReLU就變成了LReLU。LReLU的目的是為了避免梯度為零提出來的。實驗表明,LReLU在精確度上與ReLU相差無幾。然而,PReLU是通過在訓練中自學習參數ai的。PReLU只引進了n(n為通道數量)個參數,這和整個模型的權重數量比起來是微不足道的。因此我們預料這不會增加過擬合的風險。作者也考慮了通道共享的參數,即所有通道的ai都相等,這樣就只引進了一個參數。

 PReLU可以通過反向傳播算法來更新參數。a的梯度為:

 

其中μ是動量,e代表學習速率,ε代表目標函數,ai初始值為0.25。值得注意的是,不使用權重衰減(L2正則化)來更新ai,因為這會使得ai趨向於0,變為ReLU。即使沒有正則化,ai在實驗中也沒有超過1。作者沒有限制ai的范圍,因此激活函數可能是非單調的。

  當參數為通道共享時,a 的梯度為:

,其中∑i 表示該層所有通道相加。 

參考論文:【1】Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM