SWATS算法剖析（自動切換adam與sgd）

搬磚、碼磚、代查水表....

SWATS是ICLR在2018的高分論文，提出的一種自動由Adam切換為SGD而實現更好的泛化性能的方法。

論文名為Improving Generalization Performance by Switching from Adam to SGD，下載地址為：https://arxiv.org/abs/1712.07628。

作者指出，基於歷史梯度平方的滑動平均值的如adam等算法並不能收斂到最優解，因此在泛化誤差上可能要比SGD等方法差，因此提出了一種轉換機制，試圖讓算法自動在經過一定輪次的adam學習后，轉而由SGD去執行接下來的操作。

算法本身思想很簡單，就是采用adam這種無需操心learning rate的方法，在開始階段進行梯度下降，但是在學習到一定階段后，由SGD接管。這里前面的部分與常規的adam實現區別不大，重要的是在切換到sgd后，這個更新的learning rate如何計算。整個算法步驟流程如下：

熟悉adam的應該能熟悉藍色的部分，這個就是adam的原生實現過程。

作者比較trick的地方就是14行到24行這一部分。這一部分作者做了部分推導， $\Lambda=\lambda_k/(1-{\beta_2}^k)$ 作為最后的切換learning rate。

算法的整個實現邏輯並不復雜，這里列出自己實現時遇到的一些問題。

填坑 & 問題

在上面的算法流程第12行，有個 $\alpha_k$ ，這個在整個流程中未介紹如何實現，本人閱讀論文后，發現應該是學習率衰減的設計。一如很多深度學習策略一樣，這里可以設置經過若干輪迭代后，學習率降為原來的1/N。在論文中，作者使用了在150輪后，將學習速率減少10倍。即 $\alpha_{k+1}=\left\{\begin{matrix} {\alpha_k/10}& if(k\%150==0)\\ \alpha_k & \alpha_0=\alpha \end{matrix}\right.$ 。
上面說了 $\alpha_k$ 的更新，我們通過公式推導，其實能發現 $\lambda_k$ 和 $\alpha_k$ 有一定的關系，自己代碼實現的版本，發現切換的時機很大程度上和 $\alpha_k$ 有關，因為切換涉及到第17行的一個比較過程， $\lambda_k$ 和 $\gamma_k$ 本身都與 $\alpha_k$ 相關，當 $\alpha_k$ 降一個量級時， $|\frac{\lambda_k}{1-{\beta_2}^k}-\gamma_k$ |本身也會更接近 $\epsilon$ 。其有些類似正比關系，因此一般都是在經過一定輪次的衰減后，才能觸發SGD切換時機。這一點目前本人實現驗證是這樣，未深入推理。
這個 $\alpha_k$ 還有個坑，就是實現該算法，開始不太清楚這個k到底指的是epoch，還是指的經歷的batch數量。最后按照常規學習率衰減應該是按照epoch來算的，因此推測其k應該為epoch。
還有和大坑是 $\Lambda$ 作為學習率，在切換到SGD后應一直不變，該值為標量，因此應該如常用eta等學習率一樣，為正值，因此需要在17行加個約束，即 $\frac{\lambda_k}{1-{\beta_2}^k}>0$ 。（該場景難以復現，之前有次更新發現不設置為正值時，導致切換sgd后准確度大減）

總結

通過若干的對比，該論文變相增加了一些超參數，所以實際使用有待商榷。自己的數據集上經常就在還未滿足切換條件就已經收斂了。目前已做了相應的實現，放在scalaML中，位置為https://github.com/sloth2012/scalaML/blob/master/src/main/scala/com/lx/algos/ml/optim/GradientDescent/SWATS.scala，使用見https://github.com/sloth2012/scalaML/blob/master/src/test/scala/com/lx/algos/ml/GradientDescentTest.scala。最后想要查看切換過程的話，建議將early_stop設置為false，然后將學習率衰減系數設置低一點。代碼目前僅支持二分類。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 從 SGD 到 Adam —— 常見優化算法總結優化器算法Optimizer詳解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam） Adam 算法【深度學習】深入理解優化器Optimizer算法（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）如何關閉 AirPods 自動切換？梯度下降與優化方法（BGD & SGD & Momentum & AdaGrad & RMSProp & Adam） SGD的動量（Momentum）算法鼠標點擊按鈕圖片切換+自動切換+左右按鈕點擊切換效果 Mycat實現主從自動切換實現自動切換主題的 VSCode 擴展