什么是梯度?
首先梯度是一個向量,其次梯度是多元函數對各個分量求偏導數得到的向量,但是這里很容易和切向量混淆。切向量是對各個分量對共同的自變量求偏導,這是不同之處。
為什么梯度垂直於切平面?
首先引入等值面的概念,對於函數W,比如說W = c的所有解是一個等值面。
在c等值面上假設任意一條曲線$\vec r = \vec r (t)$,其中$\vec v = \frac{dr}{dt} $是曲線的切向量方向, 因為每個分量對t求偏導就得到切向量。
那么根據鏈式法則,對t求導
$$\frac{dW}{dt} =\nabla W * \frac{dr}{dt} $$
因為W = c, 等式左邊為0,所以有$\nabla W * v = 0$,即某點上的梯度與任意切線垂直,也就與切平面垂直。
為什么負梯度方向函數下降最快?
首先定義任意一個方向向量$\vec u$,如果函數W在u方向取一個截面,那么問題轉化為對於某一個點,哪個截面的曲線下降最快?
對於每個截面的自變量向量$\vec r = \vec r (s)$,s是在這個方向上的步長,有$\vec r (s) = \vec r_{0} + s * \vec u$,所以$\frac {dr}{ds} =\vec u$
同樣地通過鏈式法則,W在u方向對s求導
$$\frac{dW}{ds_{u}} =\nabla W * \frac{dr}{ds} $$
於是
$$\frac{dW}{ds_{u}} =\nabla W * \vec u $$
通過向量點乘公式
$$\frac{dW}{ds_{u}} =||\nabla W|| * ||\vec u|| cos\theta $$
$\vec u$為單位向量,模長為1
$$\frac{dW}{ds_{u}} =||\nabla W|| * cos\theta $$
也就是說,W在任一方向的導數就是梯度在這個方向的投影的長度,所以導數最大的方向就是在梯度方向,反之在負梯度方向導數最小
參考:
1. https://blog.csdn.net/silence1214/article/details/8875809