【深度學習】：梯度下降，隨機梯度下降（SGD），和mini-batch梯度下降

本文轉載自查看原文 2020-08-09 16:42 776 Deep Learning

一.梯度下降

梯度下降就是最簡單的用於神經網絡當中用於更新參數的用法，計算loss的公式如下：

有了loss function之后，我們立馬通過這個loss求解出梯度，並將梯度用於參數theta的更新，如下所示：

這樣做之后，我們只需要遍歷所有的樣本，就可以得到一個最終的參數theta了，這個參數可能是全局最小值，也可能不是，因為很有可能走入了一個loss的局部最小值當中。

二.隨機梯度下降（SGD）

隨機梯度下降與梯度下降相比，其實也會遍歷全部的樣本，但是只會梯度在遍歷同樣樣本數量的情況下會下降得更快。因為我們首先將全部樣本切分成m個樣本，然后對這m個樣本進行遍歷，更新參數，用一個一個切分后的樣本更新完參數之后，保留目前的theta的值，基於這個theta的值，繼續用下一個樣本進行參數theta的優化。

下面是梯度下降的loss在圖像當中的表示：

這是SGD，將樣本進行切分之后的loss的變化：

三.mini-batch梯度下降

mini-batch和SGD稍微有點不同，那就是mini-batch每次進行參數更新的同時，使用了多個樣本繼續參數的更新，loss下降的速度會比SGD更慢，但是結果回避SGD更加准確。

這就是我們常用的用於梯度下降的方法啦！希望大家有所收獲，有疑問的話可以在下方的疑問區提出！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 隨機梯度下降、mini-batch梯度下降以及batch梯度下降梯度下降法（BGD & SGD & Mini-batch SGD）深度學習筆記之【隨機梯度下降（SGD）】梯度下降算法對比（批量下降/隨機下降/mini-batch）優化-最小化損失函數的三種主要方法：梯度下降(BGD)、隨機梯度下降(SGD)、mini-batch SGD 15、優化算法之Mini-batch 梯度下降法 2-2 理解 mini-batch 梯度下降法【深度學習】梯度下降算法和隨機梯度下降算法梯度下降與隨機梯度下降【stanford】梯度、梯度下降，隨機梯度下降