Mish：一個新的SOTA激活函數，ReLU的繼任者

本文轉載自查看原文 2019-11-14 14:46 659 深度學習

Mish：一個新的SOTA激活函數，ReLU的繼任者

CVer 昨天

以下文章來源於AI公園，作者ronghuaiyang

AI公園

專注分享干貨的AI公眾號，圖像處理，NLP，深度學習，機器學習，應有盡有。希望大家能在AI的樂園中快樂玩耍。

點擊上方“CVer”，選擇加"星標"或“置頂”

重磅干貨，第一時間送達

本文轉載自：AI公園

作者：Less Wright

編譯：ronghuaiyang

導讀

對激活函數的研究一直沒有停止過，ReLU還是統治着深度學習的激活函數，不過，這種情況有可能會被Mish改變。

Diganta Misra的一篇題為“Mish: A Self Regularized Non-Monotonic Neural Activation Function”的新論文介紹了一個新的深度學習激活函數，該函數在最終准確度上比Swish(+.494%)和ReLU(+ 1.671%)都有提高。

我們的小型FastAI團隊使用Mish代替ReLU，打破了之前在FastAI全球排行榜上准確性得分記錄的一部分。結合Ranger優化器，Mish激活，Flat + Cosine 退火和自注意力層，我們能夠獲得12個新的排行榜記錄！

我們12項排行榜記錄中的6項。每條記錄都是用Mish而不是ReLU。(藍色高亮顯示，400 epoch的准確率為94.6，略高於我們的20 epoch的准確率為93.8:)

作為我們自己測試的一部分，對於ImageWoof數據集的5 epoch測試，我們可以說：

Mish在高顯著性水平上優於ReLU (P < 0.0001)。(FastAI論壇@ Seb)

Mish已經在70多個基准上進行了測試，包括圖像分類、分割和生成，並與其他15個激活函數進行了比較。

ReLU和Mish的對比，Mish的梯度更平滑

我做了一個Mish的PyTorch實現，用它替換了ReLU，沒有做任何其他更改，並在困難的ImageWoof數據集上使用廣泛的優化器(Adam、Ranger、RangerLars、Novograd等)對它進行了測試。

我發現Mish在訓練穩定性、平均准確率(1-2.8%)、峰值准確率(1.2% - 3.6%)等方面都有了全面的提高，與本文的結果相匹配或超過。

下面是Ranger Optimizer + Mish與FastAI排行榜相比：

Ranger優化器(RAdam和前瞻性)+ Mish激活超過當前的FastAI 排行榜評級。注意平穩、穩定的訓練曲線。

FastAI排行榜為5和20個epochs，ImageWoof數據集(難)。

這是通過簡單地在FastAI的XResNet50中使用Mish替換ReLU，並使用各種優化器(上面的Ranger結果)運行來實現的。沒有任何其他變化，包括學習率。注意：優化Mish的學習率很可能會獲得更好的結果。本文提出了相對於ReLU而言，較低的學習率供參考。

Mish檢查了理想的激活函數應該是什么(平滑、處理負號等)的所有內容，並提出了一套泛化的初始測試。在過去的一年里，我測試了大量新的激活函數，其中大多數都失敗了，從基於MNIST的論文，到基於更真實的數據集的測試。因此，Mish可能最終會為深度學習實踐者提供一種新的激活功能，並有很大的機會超過長期占據主導地位的ReLU。