導數
設有一元函數
\(\normalsize y=f(x)\)
則函數在點 \(\normalsize x_{0}\) 處的導數為
\(\normalsize f^{'}(x_{0})=\lim_{\Delta x\rightarrow 0}\frac{f(x_{0}+\Delta x)-f(x_{0})}{\Delta x}\)
求出來的值是 \(\normalsize y\) 在 \(\normalsize x_{0}\) 處沿 \(\normalsize x\) 方向的變化率即
\(\normalsize \Delta y=\Delta x f^{'}(x_{0})\)
也是 \(\normalsize f(x)\) 在 \(\normalsize x_{0}\) 處的切線的斜率
如果函數有極小值,那么使 \(\normalsize x\) 不斷沿着切線方向減少,可以得到使 \(\normalsize y\) 最小的 \(\normalsize x\)
即通過下面的迭代,算出來的 \(\normalsize x\) 可以使 \(\normalsize y\) 最小
\(\normalsize x := x - \alpha f^{'}(x)\)
其中 \(\normalsize \alpha\) 是步長,即沿切線方向變化的大小,必須取一個很小的值
偏導數
設有多元函數
\(\normalsize y=f(X)=f(x_{1},…,x_{i},…,x_{n})\)
則函數在點 \(\normalsize X^{0}=(x_{1}^{0},...,x_{i}^{0},...,x_{n}^{0})\) 處沿 \(\normalsize x_{i}\) 方向的偏導數為
\(\normalsize \frac{\partial f(X^{0})}{\partial x_{i}^{0}}=\lim_{\Delta x_{i}\rightarrow 0}\frac{f(x_{1}^{0},...,x_{i}^{0}+\Delta x_{i},...,x_{n}^{0})-f(X^{0})}{\Delta x_{i}}\)
求出來的值是 \(\normalsize y\) 在 \(\normalsize X^{0}\) 處沿 \(\normalsize x_{i}\) 方向的變化率即
\(\normalsize \Delta y=\Delta x_{i} \frac{\partial f(X^{0})}{\partial x_{i}^{0}}\)
也是 \(\normalsize f(X)\) 在 \(\normalsize X^{0}\) 處沿 \(\normalsize x_{i}\) 方向的切線的斜率(函數在 \(\normalsize X^{0}\) 處有不同方向的多條切線)
計算過程是只把一個坐標軸當成變量,其他軸當成常量,這樣變成對一元函數求導
其實偏導就是對多元函數的某個二維切面求導
舉個簡單的例子
\(\normalsize z = x^{2} + y^{2}\)
該函數是一個以坐標原點為頂點的旋轉拋物面
求在 \(\normalsize x\) 方向的偏導,就是把 \(\normalsize y^{2}\) 當常數然后求導,結果為
\(\normalsize \frac{\partial z}{\partial x}=2x\)
實際上固定 \(\normalsize y\) 得到的是一個二維切面,這個切面實際上是一條拋物線
該拋物線形狀不受 \(\normalsize y\) 取值的影響,\(\normalsize y\) 的變化影響的是拋物線的位置
就像 \(\normalsize y=x^{2}+b\) 在 \(\normalsize x\) 處的導數即切線斜率不受 \(\normalsize b\) 值的影響
可以看到導數和偏導數本質上是一樣的,都是求函數值沿某個坐標軸方向的變化率
只不過導數針對一元函數,偏導數針對多元函數
方向導數
偏導數只能求函數值在某個坐標軸方向的變化率,方向導數則是求函數值在任意方向的變化率
設有多元函數
\(\normalsize y=f(X)=f(x_{1},...,x_{i},...,x_{n})\)
則函數在點 \(\normalsize X^{0}=(x_{1}^{0},...,x_{i}^{0},...,x_{n}^{0})\) 處沿任意方向 \(\normalsize l\) 的導數為
\(\normalsize \frac{\partial f(X^{0})}{\partial l}=\lim_{\Delta \rho\rightarrow 0}\frac{f(x_{1}+\Delta x_{1},...,x_{i}+\Delta x_{i},...,x_{n}+\Delta x_{n})-f(X^{0})}{\Delta\rho}\)
其中
\(\normalsize \Delta\rho=\sqrt{(\Delta x_{1})^2+...+(\Delta x_{i})^2+...+(\Delta x_{n})^2}\)
\(\normalsize l= (\Delta x_{1},...,\Delta x_{i},...,\Delta x_{n})\)
\(\normalsize l\) 的方向由 \(\normalsize (\Delta x_{1},...,\Delta x_{i},...,\Delta x_{n})\) 各個值的比例關系決定
可以看到偏導數是方向導數的一個特例,即 \(\normalsize l\) 只在一個方向上有值的話就是偏導數
將 \(\normalsize l\) 轉換為余弦向量,可以通過偏導數求出方向導數
比如
\(\normalsize g = f(x,y,z) = x^{2} + y^{3} + z^{4}\)
要求導的點為
\(\normalsize (1,1,1)\)
要求導的方向為
\(\normalsize l = (2,-2,1)\)
\(\normalsize l\) 的長度為
\(\normalsize \sqrt{(2)^{2}+(-2)^{2}+(1)^{2}} = 3\)
轉為余弦向量
\(\normalsize l = (cos\alpha,cos\beta,cos\gamma) = (\frac{2}{3},-\frac{2}{3},\frac{1}{3})\)
則有
\(\normalsize \frac{\partial f}{\partial l}=\frac{\partial f}{\partial x}cos\alpha +\frac{\partial f}{\partial y}cos\beta +\frac{\partial f}{\partial z}cos\gamma\)
\(\normalsize =2xcos\alpha + 3y^{2}cos\beta + 4z^{3}cos\gamma\)
\(\normalsize =2\times1\times \frac{2}{3} + 3\times1\times (-\frac{2}{3}) + 4\times1\times \frac{1}{3}\)
\(\normalsize =\frac{2}{3}\)
梯度
方向導數是為了求函數值在某個點沿某個方向的變化率
梯度則是為了求函數值在某個點處變化率最大的方向,梯度由各個軸的偏導函數組成
設有多元函數
\(\normalsize y=f(X)=f(x_{1},...,x_{i},...,x_{n})\)
其在 \(\normalsize X^{0}=(x_{1}^{0},...,x_{i}^{0},...,x_{n}^{0})\) 處的梯度為
\(\normalsize \nabla f(X^{0}) = (\frac{\partial f(X^{0})}{\partial x_{1}^{0}},..., \frac{\partial f(X^{0})}{\partial x_{i}^{0}},...,\frac{\partial f(X^{0})}{\partial x_{n}^{0}})\)
可以看到梯度是一個向量,代表函數值變化率最大的方向
並且該梯度向量在每個軸的分量是函數在該軸的偏導數
梯度下降
如果函數有極小值,那么使 \(\normalsize X\) 不斷沿着梯度方向減小,可以得到使 \(\normalsize y\) 最小的 \(\normalsize X\)
即通過下面的迭代,算出來的 \(\normalsize X\) 可以使 \(\normalsize y\) 最小
\(\normalsize X := X - \alpha \nabla f(X)\)
其中 \(\normalsize \alpha\) 是步長,即沿梯度方向變化的大小,必須取一個很小的值