機器學習與深度學習:微積分知識匯總


微積分是現代數學的基礎,線性代數,矩陣論,概率論,信息論,最優化方法等數學課程都需要用到微積分的知識。單就機器學習和深度學習來說,更多用到的是微分。積分基本上只在概率論中被使用,概率密度函數、分布函數等概念和計算都要借助於積分來定義或計算。

 


幾乎所有的機器學習算法在訓練或者預測時都是求解最優化問題,因此需要依賴於微積分來求解函數的極值,而模型中某些函數的選取,也有數學性質上的考量。對於機器學習而言,微積分的主要作用是:

 

1.求解函數的極值

 

2.分析函數的性質

 

下面列出機器學習和深度學習中所需的微積分知識點,顯然,不是課本里所講的所有內容都是需要的,我們只列出所必須的!

 

極限:極限是高等數學和初等數學的分水嶺,也是微積分這座大廈的基石,是導數、微分、積分等概念的基礎。雖然在機器學習里不直接用到極限的知識,但要理解導數和積分,它是必須的。

 

上確界與下確界:這一對概念對工科的微積分來說是陌生的,但在機器學習中會經常用到,不要看到論文或書里的sup和inf不知道什么意思。

 

導數:其重要性眾所周知,求函數的極值需要它,分析函數的性質需要它。典型的如梯度下降法的推導,logistic函數導數的計算。熟練地計算函數的導數是基本功。

 


Lipschitz連續性:這一概念在工科教材中同樣沒有提及,但對分析算法的性質卻很有用,在GAN,深度學習算法的穩定性、泛化性能分析中都有用武之地。

 

導數與函數的單調性:某些算法的推導,如神經網絡的激活函數,AdaBoost算法,都需要研究函數的單調性。

 

導數與函數的極值:這個在機器學習中處於中心地位,大部分優化問題都是連續優化問題,因此可以通過求導數為0的點而求函數的極值,以實現最小化損失函數,最大化似然函數等目標。

 


導數與函數的凹凸性:在凸優化,Jensen不等式的證明中都有它的應用。

 

泰勒公式:又一個核心知識點。在優化算法中廣泛使用,從梯度下降法,牛頓法,擬牛頓法,到AdaBoost算法,梯度提升算法,XGBoost的推導都離不開它。

 

不定積分:積分在機器學習中使用的相對較少,主要用於概率的計算中,它是定積分的基礎。

 

定積分:包括廣義積分,被用於概率論的計算中。機器學習中很大一類算法是概率型算法,如貝葉斯分類器,概率圖模型,變分推斷等。這些地方都涉及到對概率密度函數進行積分。

 


變上限積分:分布函數是典型的變上線積分函數,同樣主要用於概率計算中。

 

牛頓-萊布尼茲公式:在機器學習中很少直接使用,但它是微積分中最重要的公式之一,為定積分的計算提供了依據。

 

常微分方程:在某些論文中會使用,但一般算法用不到。

 

偏導數:重要性不用多說,機器學習里絕大部分函數都是多元函數,要求其極值,偏導數是繞不開的。

 


梯度:決定了多元函數的單調性和極值,梯度下降法的推導離不開它。幾乎所有連續優化算法都需要計算函數的梯度值,且以尋找梯度為0的點作為目標。

 

高階偏導數:確定函數的極值離不開它,光有梯度值還無法確定函數的極值。

 

鏈式法則:同樣使用廣泛,各種神經網絡的反向傳播算法都依賴於鏈式法則。

 

Hessian矩陣:決定了函數的極值和凹凸性,對使用工科教材的同學可能是陌生的。

 


多元函數的極值判別法則:雖然不直接使用,但對理解最優化方法至關重要。

 

多元函數的凹凸性判別法則:證明一個問題是凸優化問題是離不開它的。

 

Jacobian矩陣:工科教材一般沒有介紹這一概念,但和Hessian矩陣一樣,並不難理解,使用它可以簡化多元復合函數的求導公式,在反向傳播算法中廣泛使用。

 


向量與矩陣求導:常見的一次函數,二次函數的梯度,Hessian矩陣的計算公式要爛熟於心,推導並不復雜。

 

泰勒公式:理解梯度下降法,牛頓法的優化算法的基石。

 

多重積分:主要用於概率論中,計算隨機向量的積分,如正態分布。

 

偏微分方程:在某些理論推導中可能會使用,如變分法中的歐拉-拉格朗日方程。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM