梯度下降（Gradient descent）

在有監督學習中，我們通常會構造一個損失函數來衡量實際輸出和訓練標簽間的差異。通過不斷更新參數，來使損失函數的值盡可能的小。梯度下降就是用來計算如何更新參數使得損失函數的值達到最小值（可能是局部最小或者全局最小）。

梯度下降計算流程

假設我們模型中的參數為，損失函數為，則計算過程為

其中為學習率。通過不斷求參數的偏導數來更新函數，直到（1）中的參數不在發生變化，就達到收斂狀態。由於（1）的表達形式比較繁雜，因此可以簡化如（3）；其中（2）稱作梯度

梯度下降數學解釋

梯度下降的目的就是為了更新參數使達到極小值。這個的過程如圖1-1所示，①我們先隨機初始化參數，就相當於在圖1-1上任意取一點；②如果我們想要更新參數取到極小值的話，對於這一點可以尋找該點附近下降最快的方向，並沿着該方向移動一定距離；③移動距離后到達另外一個點，重復步驟②，直到該點沒有可下降的方向，就取到極小值；

圖1-1 梯度下降直觀圖

方向導數

上述的步驟②中，我們需要在某個點找到其附近下降最快的方向，這就需要先討論方向導數；偏導數反應的是函數沿坐標軸變化率。但是，有時候我們考慮函數沿某個方向的變化率。便於討論，以方向向量代替方向。而向量的本質就是其在各個坐標軸（更嚴格點可以稱作標准正交基）上的投影的值。因此，計算方向導數，可以轉化為求解該方向向量在各個坐標軸上的投影的偏導數的總和。因此，對於函數f(x,y)在點p(x₀,y₀)可微分，那么函數在該點的任意方向的方向導數為

其中為方向跟x軸的余弦值，為方向跟y軸的余弦值。

梯度

方向導數是函數f(x,y)在點p(x₀,y₀)任意方向的變化率，而當在點的變化率取到最大值的方向就稱為梯度，記作

其中i=(1,0)，j=(0,1)；f(x,y)在梯度方向上取得變化率最大值的證明如下：

對於（4）可以拆解成為兩個向量的內積，設，，則

其中都為定值；a就是梯度（5），b為方向的單位向量，即b跟方向相同；當a,b方向相同時，，（6）取到最大值。因此，當方向向量與梯度相同時，f(x,y)在點p(x₀,y₀)的方向導數最大。

學習率

學習率控制着梯度下降收斂的速度，甚至影響到你的函數能否取到極小值。假設學習率跟損失函數值的關系如圖1-2所示，當學習率設置的剛剛好（紅色線段），那么剛好能夠取到極小值，而且迭代次數也不多；當學習率設置太小的話（藍色線段），也能夠取到極小值，只是迭代的次數就增加；而但你的學習率設置過大的話（綠色線段），由於步長太大，無論如何都取不到極小值。