梯度下降法——得到的結果可能是局部最優值,如果凸函數則可保證梯度下降得到的是全局最優值


摘自:http://www.wengweitao.com/ti-du-xia-jiang-fa.html

梯度下降法(Gradient Descent)是一種常見的最優化算法,用於求解函數的最大值或者最小值。

梯度下降

在高數中,我們求解一個函數的最小值時,最常用的方法就是求出它的導數為0的那個點,進而判斷這個點是否能夠取最小值。但是,在實際很多情況,我們很難求解出使函數的導數為0的方程,這個時候就可以使用梯度下降。

舉一個具體的例子,假如你在一座山的山頂准備下山,往哪一個方向走下山最快呢?下山最快的方向是最陡的那個方向,每一步你都應該朝最陡的那個方向走,直到到達山底,學習速率就表示你每一步邁的步伐有多大。

為什么從函數的梯度方向下降可以得到函數的最小值

梯度下降法,基於這樣的觀察:如果實值函數F(x)在點a 處可微且有定義,那么函數 F(x)在a點沿着梯度相反的方向−▽F(a)下降最快。

見下圖,如果順利的話序列最終可以收斂到期望的極值。

梯度下降描述

注意:梯度下降得到的結果可能是局部最優值。如果F(x)F(x)是凸函數,則可以保證梯度下降得到的是全局最優值。

 

當然,可能梯度下降的最終點並非是全局最小點,可能是一個局部最小點,可能是下面的情況:

image

 

可以進一步參考實例:https://ctmakro.github.io/site/on_learning/gd.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM