一個框架看懂優化算法之異同 SGD/AdaGrad/Adam

本文轉載自查看原文 2019-07-03 21:16 584

Adam那么棒，為什么還對SGD念念不忘 (1) —— 一個框架看懂優化算法

機器學習界有一群煉丹師，他們每天的日常是：

拿來葯材（數據），架起八卦爐（模型），點着六味真火（優化算法），就搖着蒲扇等着丹葯出爐了。

不過，當過廚子的都知道，同樣的食材，同樣的菜譜，但火候不一樣了，這出來的口味可是千差萬別。火小了夾生，火大了易糊，火不勻則半生半糊。

機器學習也是一樣，模型優化算法的選擇直接關系到最終模型的性能。有時候效果不好，未必是特征的問題或者模型設計的問題，很可能就是優化算法的問題。

說到優化算法，入門級必從SGD學起，老司機則會告訴你更好的還有AdaGrad/AdaDelta，或者直接無腦用Adam。可是看看學術界的最新paper，卻發現一眾大神還在用着入門級的SGD，最多加個Moment或者Nesterov ，還經常會黑一下Adam。比如 UC Berkeley的一篇論文就在Conclusion中寫道：

Despite the fact that our experimental evidence demonstrates that adaptive methods are not advantageous for machine learning, the Adam algorithm remains incredibly popular. We are not sure exactly as to why ……

無奈與酸楚之情溢於言表。

這是為什么呢？難道平平淡淡才是真？

一個框架回顧優化算法

首先我們來回顧一下各類優化算法。

深度學習優化算法經歷了 SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 這樣的發展歷程。Google一下就可以看到很多的教程文章，詳細告訴你這些算法是如何一步一步演變而來的。在這里，我們換一個思路，用一個框架來梳理所有的優化算法，做一個更加高屋建瓴的對比。

首先定義：待優化參數： $w$ ，目標函數： $f(w)$ ，初始學習率 $\alpha$ 。

而后，開始進行迭代優化。在每個epoch $t$ ：

計算目標函數關於當前參數的梯度： $g_t=\nabla f(w_t)$
根據歷史梯度計算一階動量和二階動量： $m_t = \phi(g_1, g_2, \cdots, g_t); V_t = \psi(g_1, g_2, \cdots, g_t)$ ，
計算當前時刻的下降梯度： $\eta_t = \alpha \cdot m_t / \sqrt{V_t}$
根據下降梯度進行更新： $w_{t+1} = w_t - \eta_t$

掌握了這個框架，你可以輕輕松松設計自己的優化算法。

我們拿着這個框架，來照一照各種玄乎其玄的優化算法的真身。步驟3、4對於各個算法都是一致的，主要的差別就體現在1和2上。

SGD

先來看SGD。SGD沒有動量的概念，也就是說：

$m_t = g_t; V_t = I^2$

代入步驟3，可以看到下降梯度就是最簡單的

$\eta_t = \alpha \cdot g_t$

SGD最大的缺點是下降速度慢，而且可能會在溝壑的兩邊持續震盪，停留在一個局部最優點。

SGD with Momentum

為了抑制SGD的震盪，SGDM認為梯度下降過程可以加入慣性。下坡的時候，如果發現是陡坡，那就利用慣性跑的快一些。SGDM全稱是SGD with momentum，在SGD基礎上引入了一階動量：

$m_t = \beta_1 \cdot m_{t-1} + (1-\beta_1)\cdot g_t$

一階動量是各個時刻梯度方向的指數移動平均值，約等於最近 $1/(1-\beta_1)$ 個時刻的梯度向量和的平均值。

也就是說，t時刻的下降方向，不僅由當前點的梯度方向決定，而且由此前累積的下降方向決定。 $\beta_1$ 的經驗值為0.9，這就意味着下降方向主要是此前累積的下降方向，並略微偏向當前時刻的下降方向。想象高速公路上汽車轉彎，在高速向前的同時略微偏向，急轉彎可是要出事的。

SGD with Nesterov Acceleration

SGD 還有一個問題是困在局部最優的溝壑里面震盪。想象一下你走到一個盆地，四周都是略高的小山，你覺得沒有下坡的方向，那就只能待在這里了。可是如果你爬上高地，就會發現外面的世界還很廣闊。因此，我們不能停留在當前位置去觀察未來的方向，而要向前一步、多看一步、看遠一些。

NAG全稱Nesterov Accelerated Gradient，是在SGD、SGD-M的基礎上的進一步改進，改進點在於步驟1。我們知道在時刻t的主要下降方向是由累積動量決定的，自己的梯度方向說了也不算，那與其看當前梯度方向，不如先看看如果跟着累積動量走了一步，那個時候再怎么走。因此，NAG在步驟1，不計算當前位置的梯度方向，而是計算如果按照累積動量走了一步，那個時候的下降方向：

$g_t=\nabla f(w_t-\alpha \cdot m_{t-1} / \sqrt{V_{t-1}})$

然后用下一個點的梯度方向，與歷史累積動量相結合，計算步驟2中當前時刻的累積動量。

AdaGrad

此前我們都沒有用到二階動量。二階動量的出現，才意味着“自適應學習率”優化算法時代的到來。SGD及其變種以同樣的學習率更新每個參數，但深度神經網絡往往包含大量的參數，這些參數並不是總會用得到（想想大規模的embedding）。對於經常更新的參數，我們已經積累了大量關於它的知識，不希望被單個樣本影響太大，希望學習速率慢一些；對於偶爾更新的參數，我們了解的信息太少，希望能從每個偶然出現的樣本身上多學一些，即學習速率大一些。

怎么樣去度量歷史更新頻率呢？那就是二階動量——該維度上，迄今為止所有梯度值的平方和：

$V_t = \sum_{\tau=1}^{t} g_\tau^2$