機器學習與深度學習：微積分知識匯總

本文轉載自查看原文 2019-09-18 16:28 769

微積分是現代數學的基礎，線性代數，矩陣論，概率論，信息論，最優化方法等數學課程都需要用到微積分的知識。單就機器學習和深度學習來說，更多用到的是微分。積分基本上只在概率論中被使用，概率密度函數、分布函數等概念和計算都要借助於積分來定義或計算。

幾乎所有的機器學習算法在訓練或者預測時都是求解最優化問題，因此需要依賴於微積分來求解函數的極值，而模型中某些函數的選取，也有數學性質上的考量。對於機器學習而言，微積分的主要作用是：

1.求解函數的極值

2.分析函數的性質

下面列出機器學習和深度學習中所需的微積分知識點，顯然，不是課本里所講的所有內容都是需要的，我們只列出所必須的！

極限：極限是高等數學和初等數學的分水嶺，也是微積分這座大廈的基石，是導數、微分、積分等概念的基礎。雖然在機器學習里不直接用到極限的知識，但要理解導數和積分，它是必須的。

上確界與下確界：這一對概念對工科的微積分來說是陌生的，但在機器學習中會經常用到，不要看到論文或書里的sup和inf不知道什么意思。

導數：其重要性眾所周知，求函數的極值需要它，分析函數的性質需要它。典型的如梯度下降法的推導，logistic函數導數的計算。熟練地計算函數的導數是基本功。

Lipschitz連續性：這一概念在工科教材中同樣沒有提及，但對分析算法的性質卻很有用，在GAN，深度學習算法的穩定性、泛化性能分析中都有用武之地。

導數與函數的單調性：某些算法的推導，如神經網絡的激活函數，AdaBoost算法，都需要研究函數的單調性。

導數與函數的極值：這個在機器學習中處於中心地位，大部分優化問題都是連續優化問題，因此可以通過求導數為0的點而求函數的極值，以實現最小化損失函數，最大化似然函數等目標。

導數與函數的凹凸性：在凸優化，Jensen不等式的證明中都有它的應用。

泰勒公式：又一個核心知識點。在優化算法中廣泛使用，從梯度下降法，牛頓法，擬牛頓法，到AdaBoost算法，梯度提升算法，XGBoost的推導都離不開它。

不定積分：積分在機器學習中使用的相對較少，主要用於概率的計算中，它是定積分的基礎。

定積分：包括廣義積分，被用於概率論的計算中。機器學習中很大一類算法是概率型算法，如貝葉斯分類器，概率圖模型，變分推斷等。這些地方都涉及到對概率密度函數進行積分。

變上限積分：分布函數是典型的變上線積分函數，同樣主要用於概率計算中。

牛頓-萊布尼茲公式：在機器學習中很少直接使用，但它是微積分中最重要的公式之一，為定積分的計算提供了依據。

常微分方程：在某些論文中會使用，但一般算法用不到。

偏導數：重要性不用多說，機器學習里絕大部分函數都是多元函數，要求其極值，偏導數是繞不開的。

梯度：決定了多元函數的單調性和極值，梯度下降法的推導離不開它。幾乎所有連續優化算法都需要計算函數的梯度值，且以尋找梯度為0的點作為目標。

高階偏導數：確定函數的極值離不開它，光有梯度值還無法確定函數的極值。

鏈式法則：同樣使用廣泛，各種神經網絡的反向傳播算法都依賴於鏈式法則。

Hessian矩陣：決定了函數的極值和凹凸性，對使用工科教材的同學可能是陌生的。

多元函數的極值判別法則：雖然不直接使用，但對理解最優化方法至關重要。

多元函數的凹凸性判別法則：證明一個問題是凸優化問題是離不開它的。

Jacobian矩陣：工科教材一般沒有介紹這一概念，但和Hessian矩陣一樣，並不難理解，使用它可以簡化多元復合函數的求導公式，在反向傳播算法中廣泛使用。

向量與矩陣求導：常見的一次函數，二次函數的梯度，Hessian矩陣的計算公式要爛熟於心，推導並不復雜。

泰勒公式：理解梯度下降法，牛頓法的優化算法的基石。

多重積分：主要用於概率論中，計算隨機向量的積分，如正態分布。

偏微分方程：在某些理論推導中可能會使用，如變分法中的歐拉-拉格朗日方程。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MLAPP——概率機器學習知識匯總機器學習數學筆記|微積分梯度jensen不等式機器學習深度學習框架使用問題匯總機器學習&深度學習視頻資料匯總機器學習和深度學習視頻資料匯總「04」機器學習、深度學習需要哪些數學知識？機器學習-Pandas 知識點匯總(吐血整理) 《普林斯頓微積分讀本》中英文PDF+《機器學習周志華》PDF課件習題學習筆記+《最優化導論第4版》PDF習題題解機器學習算法匯總：人工神經網絡、深度學習及其它機器學習的入門指南，李宏毅2021機器學習課程知識點框架(從深度學習開始了解機器學習）