動量梯度下降法、RMSprop、Adam 優化算法

本文轉載自查看原文 2021-07-25 20:14 234 深度學習/ 動量梯度下降法、RMSprop、Adam 優化算法

1.1 動量梯度下降法（Gradient descent with Momentum）

優化成本函數J，還有一種算法叫做 Momentum，或者叫做動量梯度下降法，運行速度幾乎總是快於標准的梯度下降算法，簡而言之，基本的想法就是計算梯度的指數加權平均數，並利用該梯度更新你的權重。

使用動量梯度下降法，你需要做的是，在每次迭代中，確切來說在第t次迭代的過程中，需要計算微分dw，db，用現有的 mini-batch 計算dw，db，v_dw=βv_dw+(1-β)dw，接着同樣地計算vdb ，v_db=βv_db+(1-β)db，然后重新賦值權重，w: = w − av_dw，同樣b: =a−av_db，這樣就可以減緩梯度下降的幅度。所以有兩個超參數，學習率α以及參數β，β控制着指數加權平均數，β最常用的值是0.9，我們之前平均了過去十天的溫度，所以現在是平均了前十次迭代的梯度，v_dw初始值是 0，要注意到這是和dw擁有相同維數的零矩陣，也就是跟w擁有相同的維數，v_db的初始值也是向量零，所以和db擁有相同的維數，也就是和b是同一維數，這個算法要好於沒有 Momentum 的梯度下降算法。

1.2 RMSprop

動量（Momentum）可以加快梯度下降，還有一個叫做 RMSprop 的算法，全稱是 root mean square prop 算法，它也可以加速梯度下降，減緩b方向的學習，即縱軸方向，同時加快橫軸方向的學習，RMSprop 算法可以實現這一點。

在第t次迭代中，該算法會照常計算當下 mini-batch 的微分dw，db，所以我會保留這個指數加權平均數，我們用到新符號S_dw，因此S_dw=βS_dw+(1-β)dw²，同樣S_db=βS_db+(1-β)db²，接着 RMSprop 會這樣更新參數值：，在橫軸方向或者在例子中的w方向，我們希望學習速度快，而在垂直方向，也就是例子中的b方向，我們希望減緩縱軸上的擺動，所以有了S_dw和S_db，RMSprop 的影響就是你的更新最后會變成縱軸方向上擺動較小，而橫軸方向繼續推進。

1.3 Adam 優化算法(Adam optimization algorithm)

Adam 優化算法基本上就是將 Momentum 和 RMSprop 結合在一起，使用 Adam 算法，首先你要初始化，v_dw= 0，S_dw= 0，v_db= 0，S_db= 0，在第t次迭代中，你要計算微分，用當前的 mini-batch 計算dw，db；接下來計算 Momentum 指數加權平均數，所以：v_dw=β₁v_dw+(1-β₁)dw （使用β1，這樣就不會跟超參數β2混淆，因為后面 RMSprop 要用到β2），同樣：v_dwb=β₁v_db+(1-β₁)db ；接着你用 RMSprop 進行更新，即用不同的超參數β₂，S_dw=β₂S_dw+(1-β₂)dw²，S_db=β₂S_db+(1-β₂)db²。相當於 Momentum 更新了超參數β1，RMSprop 更新了超參數β2，一般使用 Adam 算法的時候，要計算偏差修正，，同樣，，S也使用偏差修正，也就是：，，，最后更新權重，所以w更新后是，根據類似的公式更新b值。

Adam 算法結合了 Momentum 和 RMSprop 梯度下降法，並且是一種極其常用的學習算法，被證明能有效適用於不同神經網絡，適用於廣泛的結構。β₁常用的缺省值為 0.9，這是 dW 的移動平均數，也就是dW 的加權平均數，這是 Momentum 涉及的項；超參數β₂推薦使用 0.999，這是在計算(dw)²以及(db)²的移動加權平均值，的取值建議為10^-8，但你並不需要設置它，因為它並不會影響算法表現。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 神經網絡優化算法：梯度下降法、Momentum、RMSprop和Adam 改善深層神經網絡的優化算法：mini-batch梯度下降、指數加權平均、動量梯度下降、RMSprop、Adam優化、學習率衰減梯度下降與優化方法（BGD & SGD & Momentum & AdaGrad & RMSProp & Adam）基於動量(momentum)的梯度下降法 2-5 動量梯度下降法深度學習面試題03：改進版梯度下降法Adagrad、RMSprop、Momentum、Adam 動量梯度下降法(gradient descent with momentum) 深度學習優化算法（牛頓法-->梯度下降法-->Nadam） 15、優化算法之Mini-batch 梯度下降法『科學計算_理論』優化算法：梯度下降法&牛頓法