一、一般線性變換
1、對於一個典型的線性變換:
$y=A\boldsymbol x=\left[ \begin{array}{cc} \boldsymbol w_1 & \boldsymbol w_2\end{array} \right]\left[ \begin{array}{cc} x_1 \\ x_2\end{array} \right]=x_1\boldsymbol w_1+x_2\boldsymbol w_2$
在空間上可以看作每個$x_1$單位拉伸了一個$\boldsymbol w_1$,每個$x_2$單位拉伸成了一個$\boldsymbol w_2$。
2、$\boldsymbol x=A^{-1}\boldsymbol y$,即反變換。得出的是$\boldsymbol y$由多少個$\boldsymbol w_1$和$\boldsymbol w_2$組合而成。
二、線性變換的特征分解:
1、特征向量和特征值的定義
對於矩陣$A$,總有一些特殊的向量$\boldsymbol x$,用A對它進行線性變換后,相當於在原方向上拉伸了$\lambda$倍:
$A\boldsymbol x=\lambda \boldsymbol x$
(注意:特征向量本身放大$k$倍后依然是特征向量,但是它對應的特征值是不變的。)
2、特征向量和特征值的用途
對於任意向量$\boldsymbol x$,如果我們能將它表示為一系列特征向量的線性組合:
$\boldsymbol x=y_1\boldsymbol v_1 + y_2\boldsymbol v_2$
那么我們用$A$對$\boldsymbol x$進行線性變換,就相當於把它的各個分量往兩個方向上分別進行拉伸:
$A\boldsymbol x=A(y_1\boldsymbol v_1 + y_2\boldsymbol v_2)=\lambda_1 y_1\boldsymbol v_1+\lambda_2 y_2\boldsymbol v_2$
3、矩陣表示
如果一個$n\times n$矩陣A擁有$n$個線性無關的特征向量,那么這些特征向量就組成了$\boldsymbol R^n$的一個基。也就是用這些特征向量可以線性組合出任一$\boldsymbol R^n$中的向量。這個基我們用$P$表示。
$A\boldsymbol x=PDP^{-1}\boldsymbol x=\left[ \begin{array}{cc} \boldsymbol v_1 & \boldsymbol v_2\end{array} \right]\left[ \begin{array}{cc} \lambda_1 & 0 \\ 0 & \lambda_2 \end{array} \right]\left[ \begin{array}{cc} \boldsymbol v_1 & \boldsymbol v_2\end{array} \right]^{-1}\boldsymbol x$
我們從右向左結合:
(1)左乘$P^{-1}$,將$\boldsymbol x$變換為特征坐標系下的坐標:$\boldsymbol y=\left[ \begin{array}{cc} y_1 \\ y_2\end{array} \right]$
(2)左乘特征值對角矩陣$D$,即每個分量按各自的特征值拉伸,結果記為$\boldsymbol y'=\left[ \begin{array}{cc} \lambda_1y_1 \\ \lambda_2y_2\end{array} \right]$
(3)左乘$P$,將拉伸后各個分量轉換為原坐標系,結果為:$A(y_1\boldsymbol v_1 + y_2\boldsymbol v_2)=\lambda_1 y_1\boldsymbol v_1+\lambda_2 y_2\boldsymbol v_2$
三、二次型
1、表示
二次型是形如$y=\boldsymbol x^TA\boldsymbol x=\displaystyle \sum_{i=1}^N\sum_{i=1}^N x_ix_ja_{i,j}$的表達式。二次型在現實中有很多例子。例如多元正態分布的密度函數:
$p(x)=\frac{1}{(2\pi)^{\frac{k}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{(x-\mu)^T\Sigma^{-1}(x-\mu)}{2})$
其中指數部分$y=(x-\mu)^T\Sigma^{-1}(x-\mu)$就是一個典型的二次型。
2、二次型的分類
(1)正定矩陣:對任意$\boldsymbol x$,有$y=\boldsymbol x^TA\boldsymbol x>0$
(2)負定矩陣:對任意$\boldsymbol x$,有$y=\boldsymbol x^TA\boldsymbol x<0$
類似的還有半正定矩陣和半負定矩陣,分別是把上述條件的大於(小於)號改為大於等於(小於等於)。
2、當$A$為對角矩陣
特別地,當$A$為對角矩陣時,有$\boldsymbol x^TA\boldsymbol x=\sum_{i=1}^N\lambda_ix_i^2$
(1)當所有對角線元素$\lambda_i>0$時,恆有$y>0$,因此$A$為正定矩陣。
(2)當所有對角線元素$\lambda_i<0$時,恆有$y<0$,因此$A$為負定矩陣。
二次型有很多應用,一個典型的應用是約束優化。當$A$為對角矩陣時,很容易求得約束條件下$y$的極值。這里討論從略。
3、當$A$為對稱矩陣
如果限定$A$為對角矩陣,那么二次型的應用就大打折扣。我們希望對角矩陣的二次型的性質能應用到其他矩陣上。一個最常見的例子是對稱矩陣,對稱矩陣有一個特點:它能進行正交分解。(事實上,對稱矩陣是矩陣能夠進行正交分解的充分必要條件)
設$A=PDP^{-1}$是$A$的一個正交分解,其中$P$是單位正交基。根據單位正交基的性質:$P^TP=I$,我們有$P^T=P^{-1}$,因此$P^{-1}$可以和$P^T$互換使用。
$y=\boldsymbol x^TA\boldsymbol x=\boldsymbol x^TPDP^T\boldsymbol x=(P^T\boldsymbol x)^TD(P^T\boldsymbol x)=(P^{-1}\boldsymbol x)^TD(P^{-1}\boldsymbol x)$
這里發現,當把$x$轉換到特征坐標系下后,$y$就變成了一個標准的對角矩陣的二次型。
λ 1