Habana對常見的激活函數(Sigmoid, GeLU, Tanh)用專用硬件做了加速:
Dedicated Hardware and “TPC ISA” for special functions acceleration:eg. Sigmoid, GeLU, Tanh.
- Bert Transfromer結構中使用了激活函數---GELU(Gaussian error linear units,高斯誤差線性單元)。
- Gelu在論文中已被驗證,是一種高性能的神經網絡激活函數,其非線性變化是一種符合預期的隨機正則變換方式,論文中提到在好幾個深度學習任務中都優於Relu的效果。
- 相比Relu:Relu將小於0的數據映射到0,將大於0的數據不變,雖然性能比sigmoid好,但是缺乏數據的統計特性,而Gelu則在relu的基礎上加入了統計的特性。
- 激活函數的作用:給網絡模型加入非線性因子,這個非線性因子的實際操作就是在wx+b這樣的線下變化后面加入一個非線性變化的函數fun。
參考:
【1】:https://blog.csdn.net/eunicechen/article/details/84774047
【2】Gaussian Error Linear Units (GELUs), Dan Hendrycks, Kevin Gimpel (Submitted on 27 Jun 2016 (v1), last revised 11 Nov 2018 (this version, v3)) https://arxiv.org/abs/1606.08415