從wiki上面摘錄下來
http://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95
這個方法的作用是, 通過迭代, 迅速取得的最小值所在的坐標, 這樣就可以作為一些懲罰函數的優化方法
梯度下降法,基於這樣的觀察:如果實值函數 在點
處可微且有定義,那么函數
在
點沿着梯度相反的方向
下降最快。
因而,如果
對於 為一個夠小數值時成立,那么
。
考慮到這一點,我們可以從函數 的局部極小值的初始估計
出發,並考慮如下序列
使得
因此可得到
如果順利的話序列 收斂到期望的極值。注意每次迭代步長
可以改變。
下側的圖片示例了這一過程,這里假設 定義在平面上,並且函數圖像是一個碗形。藍色的曲線是等高線(水平集),即函數
為常數的集合構成的曲線。紅色的箭頭指向該點梯度的反方向。(一點處的梯度方向與通過該點的等高線垂直)。沿着梯度下降方向,將最終到達碗底,即函數
值最小的點。
之所以學到這個算法, 是因為模式識別中的感知器算法, 應用了這個方法去獲得最快收斂到最小值的懲罰函數