激活函數--GeLU


Habana對常見的激活函數(Sigmoid, GeLU, Tanh)用專用硬件做了加速:

Dedicated Hardware and “TPC ISA” for special functions acceleration:eg. Sigmoid, GeLU, Tanh. 

 

 

 

 

  • Bert Transfromer結構中使用了激活函數---GELU(Gaussian error linear units,高斯誤差線性單元)。
  • Gelu在論文中已被驗證,是一種高性能的神經網絡激活函數,其非線性變化是一種符合預期的隨機正則變換方式,論文中提到在好幾個深度學習任務中都優於Relu的效果。
  • 相比Relu:Relu將小於0的數據映射到0,將大於0的數據不變,雖然性能比sigmoid好,但是缺乏數據的統計特性,而Gelu則在relu的基礎上加入了統計的特性。  
  • 激活函數的作用:給網絡模型加入非線性因子,這個非線性因子的實際操作就是在wx+b這樣的線下變化后面加入一個非線性變化的函數fun。

參考:

【1】:https://blog.csdn.net/eunicechen/article/details/84774047

【2】Gaussian Error Linear Units (GELUs), Dan Hendrycks, Kevin Gimpel  (Submitted on 27 Jun 2016 (v1), last revised 11 Nov 2018 (this version, v3))  https://arxiv.org/abs/1606.08415

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM