優化-最小化損失函數的三種主要方法：梯度下降(BGD)、隨機梯度下降(SGD)、mini-batch SGD - 碼上歡樂

相關內容簡體繁體

優化-最小化損失函數的三種主要方法：梯度下降(BGD)、隨機梯度下降(SGD)、mini-batch SGD

本文轉載自查看原文 2018-08-30 14:27 7033 machine learning

優化函數

損失函數

BGD

我們平時說的梯度現將也叫做最速梯度下降，也叫做批量梯度下降(Batch Gradient Descent)。

對目標(損失)函數求導

沿導數相反方向移動參數

在梯度下降中，對於參數的更新，需要計算所有的樣本然后求平均，其計算得到的是一個標准梯度(這是一次迭代，我們其實需要做n次迭代直至其收斂)。因而理論上來說一次更新的幅度是比較大的。

SGD

與BGD相比，隨機也就是說我每次隨機采用樣本中的一個例子來近似我所有的樣本，用這一個隨機采用的例子來計算梯度並用這個梯度來更新參數，即SGD每次迭代僅對一個隨機樣本計算梯度，直至收斂。

由於SGD每次迭代只使用一個訓練樣本，因此這種方法也可用作online learning。
每次只使用一個樣本迭代，若遇上噪聲則容易陷入局部最優解。

mini-batch SGD

他用了一些小樣本來近似全部的，其本質就是既然SGD中1個樣本的近似不一定准，那就用更大的30個或50(batch_size)個樣本來近似，即mini-batch SGD每次迭代僅對n個隨機樣本計算題都，直至收斂。

隨機在訓練集中選取一個mini-batch，每個mini-batch包含n個樣本；（n<N，N為總訓練集樣本數）
在每個mini-batch里計算每個樣本的梯度，然后在這個mini-batch里求和取平均作為最終的梯度來更新參數；（注意雖然這里好像用到了BGD，但整體整體mini-batch的選擇是用到了SGD）
以上兩步可以看做是一次迭代，這樣經過不斷迭代，直至收斂

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 15、優化算法之Mini-batch 梯度下降法梯度下降法的三種形式-BGD、SGD、MBGD 三種梯度下降算法的區別(BGD, SGD, MBGD) 梯度下降算法對比（批量下降/隨機下降/mini-batch） 2-2 理解 mini-batch 梯度下降法 [Machine Learning] 梯度下降法的三種形式BGD、SGD以及MBGD 監督學習——隨機梯度下降算法（sgd）和批梯度下降算法（bgd）各種梯度下降 bgd sgd mbgd adam 梯度下降做做優化（batch gd、sgd、adagrad ）梯度下降之隨機梯度下降 -minibatch 與並行化方法

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM