設兩個向量 $x,y$ 分別為
$$x = (x_{1},x_{2},\cdots, x_{m})^{T}$$
$$y = (y_{1},y_{2},\cdots, y_{n})^{T}$$
雖然是多變量對多變量求偏導,但最終都是歸結於一個單變量對另一個單變量求偏導,只是函數和自變量都寫成了向量形式。
我們要做的就是找到求偏導的結果所對應的形式。
形狀規則:向量 $y$ 對向量 $x$ 求導,分兩步:
1)向量 $y$ 的每個元素是標量,先做 $y$ 的每個元素對向量 $x$ 求導,這里按照標量對向量的求導規則進行。
2)第一步做好后,將求導結果按 $y$ 的形狀排列。
觀察下面這個圖,向量對向量求導就只有這四種情況,求導結果其實是個多維數組(張量)。
1. 行向量對列向量求導
向量 $y^{T}$ 是一個 $1 \times n$ 的行向量,現在它對自變量 $x$ 求導,其中 $x$ 是一個 $ m \times 1$ 的列向量,向量 $y^{T}$ 中的每個元素都是向量 $x$ 的函數。
那這個結果會是什么形式呢?每個元素 $y_{j}$ 對向量 $x$ 都有 $m$ 個偏導數,而向量 $y^{T}$ 有 $n$ 個元素,所以結果必然有 $mn$ 個元素。
標量對向量求偏導,結果是個列向量,所以每個元素標量 $y_{j}$ 對向量 $x$ 的導數為
$$\frac{d y_{j}}{d x} = \begin{bmatrix}
\frac{\partial y_{j}}{\partial x_{1}} \\
\frac{\partial y_{j}}{\partial x_{2}} \\
\cdots \\
\frac{\partial y_{j}}{\partial x_{m}}
\end{bmatrix}$$
所以
$$\frac{d y^{T}}{d x} = \begin{bmatrix}
\frac{d y_{1}}{d x} & \frac{d y_{2}}{d x} & \cdots & \frac{d y_{n}}{d x}
\end{bmatrix} =
\begin{bmatrix}
\frac{\partial y_{1}}{\partial x_{1}} & \frac{\partial y_{2}}{\partial x_{1}} & \cdots & \frac{\partial y_{n}}{\partial x_{1}} \\
\frac{\partial y_{1}}{\partial x_{2}} & \frac{\partial y_{2}}{\partial x_{2}} & \cdots & \frac{\partial y_{n}}{\partial x_{2}}\\
\cdots & \cdots & \cdots & \cdots \\
\frac{\partial y_{1}}{\partial x_{m}} & \frac{\partial y_{2}}{\partial x_{m}} & \cdots & \frac{\partial y_{n}}{\partial x_{m}}
\end{bmatrix}$$
所以結果就是一個 $m \times n$ 矩陣。
進一步地:行向量 $(Ax)^{T}$ 對列向量 $x$ 的導數為
$$\frac{d (Ax)^{T}}{d x} = A^{T}$$
推導:設 $A = (a_{ij})_{n \times m}$,$Ax = c$,則 $c$ 的第 $k$ 個元素的值為
$$c_{k} = \sum_{j = 1}^{m}a_{kj}x_{j}$$
$c_{k}$ 對列向量 $x$ 求偏導有
$$\frac{d c_{k}}{d x} = \begin{bmatrix}
\frac{\partial c_{k}}{\partial x_{1}} \\
\frac{\partial c_{k}}{\partial x_{2}} \\
\cdots \\
\frac{\partial c_{k}}{\partial x_{m}}
\end{bmatrix} = \begin{bmatrix}
a_{k1} \\
a_{k2} \\
\cdots \\
a_{km}
\end{bmatrix}$$
所以
$$\frac{d c^{T}}{d x} = A^{T}$$
2. 列向量對行向量求導
向量 $y$ 是一個 $n \times 1$ 的矩陣,現在它對向量 $x^{T}$ 求導,其中 $x^{T}$ 是一個 $1 \times m$ 的矩陣,向量 $y$ 中的每一個元素都是向量 $x^{T}$ 的函數。
同上分析,這結果也有 $mn$ 個偏導數。標量對行向量求導,結果是個行向量,所以每個元素標量 $y_{j}$ 對向量 $x^{T}$ 的導數為
$$\frac{d y_{j}}{d x^{T}} = \begin{bmatrix}
\frac{\partial y_{j}}{\partial x_{1}} & \frac{\partial y_{j}}{\partial x_{2}} & \cdots & \frac{\partial y_{j}}{\partial x_{m}}
\end{bmatrix}$$
所以
$$\frac{d y}{d x^{T}} = \begin{bmatrix}
\frac{\partial y_{1}}{\partial x_{1}} & \frac{\partial y_{1}}{\partial x_{2}} & \cdots & \frac{\partial y_{1}}{\partial x_{m}}\\
\frac{\partial y_{2}}{\partial x_{1}} & \frac{\partial y_{2}}{\partial x_{2}} & \cdots & \frac{\partial y_{2}}{\partial x_{m}}\\
\cdots & \cdots & \cdots & \cdots \\
\frac{\partial y_{n}}{\partial x_{1}} & \frac{\partial y_{n}}{\partial x_{2}} & \cdots & \frac{\partial y_{n}}{\partial x_{m}}
\end{bmatrix}$$
顯然有
$$\frac{d y}{d x^{T}} = \left ( \frac{d y^{T}}{d x} \right )^{T}$$
進一步地:列向量 $Ax$ 對行向量 $x^{T}$ 的導數為
$$\frac{d (Ax)}{d x^{T}} = A$$
推導:設 $A = (a_{ij})_{n \times m}$,$Ax = c$,則 $c$ 的第 $k$ 個元素的值為
$$c_{k} = \sum_{j = 1}^{m}a_{kj}x_{j}$$
$c_{k}$ 對行向量 $x^{T}$ 求偏導有
$$\frac{d c_{k}}{d x^{T}} = \begin{bmatrix}
\frac{\partial c_{k}}{\partial x_{1}} & \frac{\partial c_{k}}{\partial x_{2}} & \cdots & \frac{\partial c_{k}}{\partial x_{m}}
\end{bmatrix} = \begin{bmatrix}
a_{k1} & a_{k2} & \cdots & a_{km}
\end{bmatrix}$$
顯然有
$$\frac{d c}{d x^{T}} = A$$