激活函数--GeLU


Habana对常见的激活函数(Sigmoid, GeLU, Tanh)用专用硬件做了加速:

Dedicated Hardware and “TPC ISA” for special functions acceleration:eg. Sigmoid, GeLU, Tanh. 

 

 

 

 

  • Bert Transfromer结构中使用了激活函数---GELU(Gaussian error linear units,高斯误差线性单元)。
  • Gelu在论文中已被验证,是一种高性能的神经网络激活函数,其非线性变化是一种符合预期的随机正则变换方式,论文中提到在好几个深度学习任务中都优于Relu的效果。
  • 相比Relu:Relu将小于0的数据映射到0,将大于0的数据不变,虽然性能比sigmoid好,但是缺乏数据的统计特性,而Gelu则在relu的基础上加入了统计的特性。  
  • 激活函数的作用:给网络模型加入非线性因子,这个非线性因子的实际操作就是在wx+b这样的线下变化后面加入一个非线性变化的函数fun。

参考:

【1】:https://blog.csdn.net/eunicechen/article/details/84774047

【2】Gaussian Error Linear Units (GELUs), Dan Hendrycks, Kevin Gimpel  (Submitted on 27 Jun 2016 (v1), last revised 11 Nov 2018 (this version, v3))  https://arxiv.org/abs/1606.08415

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM