雅可比矩陣與線性近似

一元函數的線性近似

現在有一個共識：函數在某一點處的導數是它在這一點處的切線的斜率

設有一點x*，在x *附近構造函數f(x)的一個近似：

其中，f'（x*）是函數在x * 處的導數。

該近似函數其實是以f'（x*）為斜率的直線，直線在x *處於原函數重合，具有相同的斜率，故稱其是原函數在x *處的線性近似

當離開x *這點時，線性近似就與原函數不完全吻合了。那么離開之后的變化形式是什么樣的呢？

這里直接說結果（跳過格式整理和推導）：

線性近似的誤差與自變量之差的比值隨着x趨近於x * 而趨近於0。

即:隨着自變量向x *靠近，線性近似與原函數的誤差趨近於0。你可能已經看出來了，線性近似的誤差就是自變量之差在x趨近於x *時的高階無窮小

那么我們現在可以知道，一元函數在某位置可導的定義：該一元函數在某位置可被直線‘很好的’近似

對應到多元函數，我們有以下式子：

多元函數在w *處的梯度▽f(w *)的對應概念是一元函數f(x)在x *處的導數 f'（x *），同樣表示對於原函數的線性近似。

對多元函數來說，

若自變量是二維向量，那么近似函數的圖像就是三維空間（以函數值作為第三維）中的平面；

若自變量是n維向量，則近似函數就是n+1維空間中的超平面；

我們可以做如下的想象：

在一個類似於山谷的圖形上，有一個點w *，由二維向量表示，在這個位置時，“山谷”函數可以被平面很好的擬合，這個平面就是原函數的線性近似。

當我們遠離w *時，線性近似與原函數的誤差就開始變大。換句話說，離w *越近線性近似誤差越小，平面越能擬合原函數。

假設我們現在在w1處，此時該處的線性近似肯定沒有w *處的線性近似誤差小，因此我們要向w * 靠近

怎么靠近？在w1處求原函數的方向導數，此時因為原函數是三維的，那么方向導數的結果會指向三個方向，我們知道在方向導數最大的方向上函數變化最快。此時變化最快的方向一定是指向w * 方向的。

其余方向的梯度可以類比理解為泰勒展開中的次要項，它們雖然有值但很小，不能決定總體的變化（因此一般會舍去），因此線性近似只能是近似而不能是擬合，它有一個學名：仿射變換

再進一步，如果此時因變量也變成多個值（即向量），我們仍可以在w * 附近構建原函數的近似

此時我們對每個因變量在w * 處都求一個方向導數，這些方向導數會構成一個矩陣，這個矩陣就是雅可比矩陣

雅可比矩陣的每一行是原函數的分量的梯度，即

因此之前構建的映射是一個多對多的線性映射，其與原函數的誤差是一個向量，這個誤差向量的每個分量都是自變量之差的高階無窮小。

總之，我們有了一個可以近似擬合多元函數的方法，而這個方法的實現依賴於雅克比矩陣的應用，因此我們可以說：雅可比矩陣蘊含着映射的局部線性近似特征(信息)。

有了之前的基礎，我們似乎可以討論為什么要在梯度下降的過程中使用雅可比矩陣了

簡述一下損失函數的優化過程：

首先，梯度下降的過程是在尋找一個最優點，也就是“山谷函數的最低點”，這要使用梯度實現，而在尋找的過程中，更新更靠近最優點的位置點這件事是由反向傳播實現的。

下面以計算圖的反向傳播過程作為舉例進行說明

從計算圖中作為結果節點的節點開始，該節點是由正向傳播計算得到的，我們計算該節點對於自己的雅克比矩陣，（結果是一個單位矩陣）

然后再計算出結果節點對它的父節點（也就是上一個或者多個節點）的雅可比矩陣。

將這兩個矩陣傳給父節點，父節點用這兩個矩陣相乘得到自己對於結果節點的雅可比矩陣，

我們把父節點的上一個節點稱為祖父節點，

然后父節點在計算自己與祖父節點的雅可比矩陣，

將這兩個矩陣傳給祖父節點，重復上述過程。這就是計算圖中反向傳播的過程。

由之前關於雅可比矩陣與線性近似的討論我們可以進一步理解計算圖中反向傳播的過程：

因為攜帶了對多元函數（也就是損失函數）做線性近似的局部特征，因此可以由雅克比矩陣作為依據來更新參與訓練的參數節點的值以達到讓其更加擬合原函數的目的（這個原函數就是損失函數）

說白了，雅克比矩陣就是告訴模型要如何更新並且更新多少參數值的一個工具

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 深度學習中Embedding的理解深度學習中Embedding的理解如何理解深度學習中的embedding? Jacobian矩陣和Hessian矩陣---雅克比和黑森深度學習中dropout策略的理解深度學習—BN的理解（二） 2.深度學習中的batch_size的理解【AI in 美團】深度學習在OCR中的應用深度學習淺層理解（一） [摘抄]簡要理解矩陣計算在向量空間變換中的應用