批量梯度下降(BGD)、隨機梯度下降(SGD)以及小批量梯度下降(MBGD)的理解 - 碼上歡樂

相關內容簡體繁體

批量梯度下降(BGD)、隨機梯度下降(SGD)以及小批量梯度下降(MBGD)的理解

本文轉載自查看原文 2019-07-14 09:51 757

https://www.cnblogs.com/lliuye/p/9451903.html

梯度下降法作為機器學習中較常使用的優化算法，其有着三種不同的形式：批量梯度下降（Batch Gradient Descent）、隨機梯度下降（Stochastic Gradient Descent）以及小批量梯度下降（Mini-Batch Gradient Descent）。其中小批量梯度下降法也常用在深度學習中進行模型的訓練。接下來，我們將對這三種不同的梯度下降法進行理解。
為了便於理解，這里我們將使用只含有一個特征的線性回歸來展開。此時線性回歸的假設函數為：

h θ (x (i)) = θ 1 x (i) + θ 0

其中 $i = 1, 2, . . ., m$

J (θ 0, θ 1) = 1 2 m \sum i = 1 m ( h θ ( x ( i ) ) - y

$i = 1, 2, . . ., m$

1、批量梯度下降（Batch Gradient Descent，BGD）

批量梯度下降法是最原始的形式，它是指在每一次迭代時使用所有樣本來進行梯度的更新。從數學上理解如下：
（1）對目標函數求偏導：

Δ J ( θ 0 , θ 1 ) Δ θ j = 1 m \sum i = 1 m ( h θ ( x ( i

$i = 1, 2, . . ., m$

θ j := θ j - α 1 m \sum i = 1 m ( h θ ( x ( i ) ) - y ( i ) )

$i = 1, 2, . . ., m$

2、隨機梯度下降（Stochastic Gradient Descent，SGD）

隨機梯度下降法不同於批量梯度下降，隨機梯度下降是每次迭代使用一個樣本來對參數進行更新。使得訓練速度加快。
對於一個樣本的目標函數為：

J (i) (θ 0, θ 1) = 1 2 ( h θ ( x ( i ) ) - y ( i ) ) 2

$i = 1, 2, . . ., m$

Δ J ( i ) ( θ 0 , θ 1 ) θ j = ( h θ ( x ( i ) ) - y ( i )

$i = 1, 2, . . ., m$

θ j := θ j - α (h θ (x (i)) - y (i)) x (i) j

$i = 1, 2, . . ., m$

3、小批量梯度下降（Mini-Batch Gradient Descent, MBGD）

小批量梯度下降，是對批量梯度下降以及隨機梯度下降的一個折中辦法。其思想是：每次迭代 使用 ** batch_size** 個樣本來對參數進行更新。
這里我們假設 $b a t c h_{s} i z e = 10$

引用及參考：
[1] https://www.cnblogs.com/maybe2030/p/5089753.html
[2] https://zhuanlan.zhihu.com/p/37714263
[3] https://zhuanlan.zhihu.com/p/30891055
[4] https://www.zhihu.com/question/40892922/answer/231600231

寫在最后：本文參考以上資料進行整合與總結，文章中可能出現理解不當的地方，若有所見解或異議可在下方評論，謝謝！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 批量梯度下降(BGD)、隨機梯度下降(SGD)以及小批量梯度下降(MBGD)的理解隨機梯度下降優化算法-----批量梯度下降，隨機梯度下降，小批量梯度下降深度學習面試題04：隨機梯度下降法、批量梯度下降法、小批量梯度下降【深度學習】線性回歸（Linear Regression）——原理、均方損失、小批量隨機梯度下降 SGD/BGD/MBGD使用python簡單實現【stanford】梯度、梯度下降，隨機梯度下降深度學習——優化器算法Optimizer詳解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）隨機梯度下降法隨機梯度下降實現隨機梯度下降算法

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM