導數、偏導數、方向導數、梯度、梯度下降


導數

設有一元函數
\(\normalsize y=f(x)\)

則函數在點 \(\normalsize x_{0}\) 處的導數為

\(\normalsize f^{'}(x_{0})=\lim_{\Delta x\rightarrow 0}\frac{f(x_{0}+\Delta x)-f(x_{0})}{\Delta x}\)

求出來的值是 \(\normalsize y\)\(\normalsize x_{0}\) 處沿 \(\normalsize x\) 方向的變化率即

\(\normalsize \Delta y=\Delta x f^{'}(x_{0})\)

也是 \(\normalsize f(x)\)\(\normalsize x_{0}\) 處的切線的斜率

如果函數有極小值,那么使 \(\normalsize x\) 不斷沿着切線方向減少,可以得到使 \(\normalsize y\) 最小的 \(\normalsize x\)
即通過下面的迭代,算出來的 \(\normalsize x\) 可以使 \(\normalsize y\) 最小

\(\normalsize x := x - \alpha f^{'}(x)\)

其中 \(\normalsize \alpha\) 是步長,即沿切線方向變化的大小,必須取一個很小的值

偏導數

設有多元函數
\(\normalsize y=f(X)=f(x_{1},…,x_{i},…,x_{n})\)

則函數在點 \(\normalsize X^{0}=(x_{1}^{0},...,x_{i}^{0},...,x_{n}^{0})\) 處沿 \(\normalsize x_{i}\) 方向的偏導數為

\(\normalsize \frac{\partial f(X^{0})}{\partial x_{i}^{0}}=\lim_{\Delta x_{i}\rightarrow 0}\frac{f(x_{1}^{0},...,x_{i}^{0}+\Delta x_{i},...,x_{n}^{0})-f(X^{0})}{\Delta x_{i}}\)

求出來的值是 \(\normalsize y\)\(\normalsize X^{0}\) 處沿 \(\normalsize x_{i}\) 方向的變化率即

\(\normalsize \Delta y=\Delta x_{i} \frac{\partial f(X^{0})}{\partial x_{i}^{0}}\)

也是 \(\normalsize f(X)\)\(\normalsize X^{0}\) 處沿 \(\normalsize x_{i}\) 方向的切線的斜率(函數在 \(\normalsize X^{0}\) 處有不同方向的多條切線)
計算過程是只把一個坐標軸當成變量,其他軸當成常量,這樣變成對一元函數求導
其實偏導就是對多元函數的某個二維切面求導

舉個簡單的例子
\(\normalsize z = x^{2} + y^{2}\)

該函數是一個以坐標原點為頂點的旋轉拋物面


求在 \(\normalsize x\) 方向的偏導,就是把 \(\normalsize y^{2}\) 當常數然后求導,結果為
\(\normalsize \frac{\partial z}{\partial x}=2x\)

實際上固定 \(\normalsize y\) 得到的是一個二維切面,這個切面實際上是一條拋物線
該拋物線形狀不受 \(\normalsize y\) 取值的影響,\(\normalsize y\) 的變化影響的是拋物線的位置
就像 \(\normalsize y=x^{2}+b\)\(\normalsize x\) 處的導數即切線斜率不受 \(\normalsize b\) 值的影響

可以看到導數和偏導數本質上是一樣的,都是求函數值沿某個坐標軸方向的變化率
只不過導數針對一元函數,偏導數針對多元函數

方向導數

偏導數只能求函數值在某個坐標軸方向的變化率,方向導數則是求函數值在任意方向的變化率

設有多元函數
\(\normalsize y=f(X)=f(x_{1},...,x_{i},...,x_{n})\)

則函數在點 \(\normalsize X^{0}=(x_{1}^{0},...,x_{i}^{0},...,x_{n}^{0})\) 處沿任意方向 \(\normalsize l\) 的導數為

\(\normalsize \frac{\partial f(X^{0})}{\partial l}=\lim_{\Delta \rho\rightarrow 0}\frac{f(x_{1}+\Delta x_{1},...,x_{i}+\Delta x_{i},...,x_{n}+\Delta x_{n})-f(X^{0})}{\Delta\rho}\)

其中
\(\normalsize \Delta\rho=\sqrt{(\Delta x_{1})^2+...+(\Delta x_{i})^2+...+(\Delta x_{n})^2}\)
\(\normalsize l= (\Delta x_{1},...,\Delta x_{i},...,\Delta x_{n})\)
\(\normalsize l\) 的方向由 \(\normalsize (\Delta x_{1},...,\Delta x_{i},...,\Delta x_{n})\) 各個值的比例關系決定

可以看到偏導數是方向導數的一個特例,即 \(\normalsize l\) 只在一個方向上有值的話就是偏導數

\(\normalsize l\) 轉換為余弦向量,可以通過偏導數求出方向導數
比如

\(\normalsize g = f(x,y,z) = x^{2} + y^{3} + z^{4}\)

要求導的點為

\(\normalsize (1,1,1)\)

要求導的方向為

\(\normalsize l = (2,-2,1)\)

\(\normalsize l\) 的長度為

\(\normalsize \sqrt{(2)^{2}+(-2)^{2}+(1)^{2}} = 3\)

轉為余弦向量

\(\normalsize l = (cos\alpha,cos\beta,cos\gamma) = (\frac{2}{3},-\frac{2}{3},\frac{1}{3})\)

則有

\(\normalsize \frac{\partial f}{\partial l}=\frac{\partial f}{\partial x}cos\alpha +\frac{\partial f}{\partial y}cos\beta +\frac{\partial f}{\partial z}cos\gamma\)
   \(\normalsize =2xcos\alpha + 3y^{2}cos\beta + 4z^{3}cos\gamma\)
   \(\normalsize =2\times1\times \frac{2}{3} + 3\times1\times (-\frac{2}{3}) + 4\times1\times \frac{1}{3}\)
   \(\normalsize =\frac{2}{3}\)

梯度

方向導數是為了求函數值在某個點沿某個方向的變化率
梯度則是為了求函數值在某個點處變化率最大的方向,梯度由各個軸的偏導函數組成

設有多元函數

\(\normalsize y=f(X)=f(x_{1},...,x_{i},...,x_{n})\)

其在 \(\normalsize X^{0}=(x_{1}^{0},...,x_{i}^{0},...,x_{n}^{0})\) 處的梯度為

\(\normalsize \nabla f(X^{0}) = (\frac{\partial f(X^{0})}{\partial x_{1}^{0}},..., \frac{\partial f(X^{0})}{\partial x_{i}^{0}},...,\frac{\partial f(X^{0})}{\partial x_{n}^{0}})\)

可以看到梯度是一個向量,代表函數值變化率最大的方向

並且該梯度向量在每個軸的分量是函數在該軸的偏導數

梯度下降

如果函數有極小值,那么使 \(\normalsize X\) 不斷沿着梯度方向減小,可以得到使 \(\normalsize y\) 最小的 \(\normalsize X\)
即通過下面的迭代,算出來的 \(\normalsize X\) 可以使 \(\normalsize y\) 最小

  \(\normalsize X := X - \alpha \nabla f(X)\)

其中 \(\normalsize \alpha\) 是步長,即沿梯度方向變化的大小,必須取一個很小的值




免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM