梯度下降算法原理講解


1. 概述

梯度下降(gradient descent)在機器學習中應用十分的廣泛,不論是在線性回歸還是Logistic回歸中,它的主要目的是通過迭代找到目標函數的最小值,或者收斂到最小值。
本文將從一個下山的場景開始,先提出梯度下降算法的基本思想,進而從數學上解釋梯度下降算法的原理,解釋為什么要用梯度,最后實現一個簡單的梯度下降算法的實例!

2. 梯度下降算法
2.1 場景假設

梯度下降法的基本思想可以類比為一個下山的過程。
假設這樣一個場景:一個人被困在山上,需要從山上下來(找到山的最低點,也就是山谷)。但此時山上的濃霧很大,導致可視度很低;因此,下山的路徑就無法確定,必須利用自己周圍的信息一步一步地找到下山的路。這個時候,便可利用梯度下降算法來幫助自己下山。怎么做呢,首先以他當前的所處的位置為基准,尋找這個位置最陡峭的地方,然后朝着下降方向走一步,然后又繼續以當前位置為基准,再找最陡峭的地方,再走直到最后到達最低處;同理上山也是如此,只是這時候就變成梯度上升算法了
在這里插入圖片描述

2.2 梯度下降

梯度下降的基本過程就和下山的場景很類似。

首先,我們有一個可微分的函數。這個函數就代表着一座山。我們的目標就是找到這個函數的最小值,也就是山底。根據之前的場景假設,最快的下山的方式就是找到當前位置最陡峭的方向,然后沿着此方向向下走,對應到函數中,就是找到給定點的梯度 ,然后朝着梯度相反的方向,就能讓函數值下降的最快!因為梯度的方向就是函數之變化最快的方向(在后面會詳細解釋)
所以,我們重復利用這個方法,反復求取梯度,最后就能到達局部的最小值,這就類似於我們下山的過程。而求取梯度就確定了最陡峭的方向,也就是場景中測量方向的手段。那么為什么梯度的方向就是最陡峭的方向呢?接下來,我們從微分開始講起:

2.2.1 微分

看待微分的意義,可以有不同的角度,最常用的兩種是:

  • 函數圖像中,某點的切線的斜率
  • 函數的變化率
    幾個微分的例子:

1.單變量的微分,函數只有一個變量時
在這里插入圖片描述
2.多變量的微分,當函數有多個變量的時候,即分別對每個變量進行求微分
在這里插入圖片描述

2.2.2 梯度

梯度實際上就是多變量微分的一般化。
下面這個例子:
在這里插入圖片描述
我們可以看到,梯度就是分別對每個變量進行微分,然后用逗號分割開,梯度是用<>包括起來,說明梯度其實一個向量。

梯度是微積分中一個很重要的概念,之前提到過梯度的意義

  • 在單變量的函數中,梯度其實就是函數的微分,代表着函數在某個給定點的切線的斜率
  • 在多變量函數中,梯度是一個向量,向量有方向,梯度的方向就指出了函數在給定點的上升最快的方向

**這也就說明了為什么我們需要千方百計的求取梯度!**我們需要到達山底,就需要在每一步觀測到此時最陡峭的地方,梯度就恰巧告訴了我們這個方向。梯度的方向是函數在給定點上升最快的方向,那么梯度的反方向就是函數在給定點下降最快的方向,這正是我們所需要的。所以我們只要沿着梯度的方向一直走,就能走到局部的最低點!

2.3 數學解釋

首先給出數學公式:
在這里插入圖片描述
此公式的意義是:J是關於Θ的一個函數,我們當前所處的位置為Θ0點,要從這個點走到J的最小值點,也就是山底。首先我們先確定前進的方向,也就是梯度的反向,然后走一段距離的步長,也就是α,走完這個段步長,就到達了Θ1這個點!
在這里插入圖片描述

2.3.1 α

α在梯度下降算法中被稱作為學習率或者步長,意味着我們可以通過α來控制每一步走的距離,以保證不要步子跨的太大扯着蛋,哈哈,其實就是不要走太快,錯過了最低點。同時也要保證不要走的太慢,導致太陽下山了,還沒有走到山下。所以α的選擇在梯度下降法中往往是很重要的!α不能太大也不能太小,太小的話,可能導致遲遲走不到最低點,太大的話,會導致錯過最低點!

2.3.2 梯度要乘以一個負號

梯度前加一個負號,就意味着朝着梯度相反的方向前進!我們在前文提到,梯度的方向實際就是函數在此點上升最快的方向!而我們需要朝着下降最快的方向走,自然就是負的梯度的方向,所以此處需要加上負號;那么如果時上坡,也就是梯度上升算法,當然就不需要添加負號了。

3. 實例

我們已經基本了解了梯度下降算法的計算過程,那么我們就來看幾個梯度下降算法的小實例,首先從單變量的函數開始,然后介紹多變量的函數。

3.1 單變量函數的梯度下降

我們假設有一個單變量的函數
在這里插入圖片描述
函數的微分,直接求導就可以得到
在這里插入圖片描述
初始化,也就是起點,起點可以隨意的設置,這里設置為1
在這里插入圖片描述
學習率也可以隨意的設置,這里設置為0.4
在這里插入圖片描述
根據梯度下降的計算公式
在這里插入圖片描述
我們開始進行梯度下降的迭代計算過程:
在這里插入圖片描述
如圖,經過四次的運算,也就是走了四步,基本就抵達了函數的最低點,也就是山底
在這里插入圖片描述

3.2 多變量函數的梯度下降

我們假設有一個目標函數
在這里插入圖片描述
現在要通過梯度下降法計算這個函數的最小值。我們通過觀察就能發現最小值其實就是 (0,0)點。但是接下來,我們會從梯度下降算法開始一步步計算到這個最小值!
我們假設初始的起點為:
在這里插入圖片描述
初始的學習率為:
在這里插入圖片描述
函數的梯度為:
在這里插入圖片描述
進行多次迭代:
在這里插入圖片描述
我們發現,已經基本靠近函數的最小值點
在這里插入圖片描述

原網址:https://blog.csdn.net/qq_41800366/article/details/86583789


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM