摘自:http://www.wengweitao.com/ti-du-xia-jiang-fa.html
梯度下降法(Gradient Descent)是一種常見的最優化算法,用於求解函數的最大值或者最小值。
梯度下降
在高數中,我們求解一個函數的最小值時,最常用的方法就是求出它的導數為0的那個點,進而判斷這個點是否能夠取最小值。但是,在實際很多情況,我們很難求解出使函數的導數為0的方程,這個時候就可以使用梯度下降。
舉一個具體的例子,假如你在一座山的山頂准備下山,往哪一個方向走下山最快呢?下山最快的方向是最陡的那個方向,每一步你都應該朝最陡的那個方向走,直到到達山底,學習速率就表示你每一步邁的步伐有多大。
為什么從函數的梯度方向下降可以得到函數的最小值
梯度下降法,基於這樣的觀察:如果實值函數F(x)在點a 處可微且有定義,那么函數 F(x)在a點沿着梯度相反的方向−▽F(a)下降最快。
見下圖,如果順利的話序列最終可以收斂到期望的極值。
注意:梯度下降得到的結果可能是局部最優值。如果F(x)F(x)是凸函數,則可以保證梯度下降得到的是全局最優值。
當然,可能梯度下降的最終點並非是全局最小點,可能是一個局部最小點,可能是下面的情況:
可以進一步參考實例:https://ctmakro.github.io/site/on_learning/gd.html