特征向量

本文轉載自查看原文 2021-12-11 11:14 145 線代輔導（學線代，認識線代）

特征值是線性代數中一個十分重要且有用的內容，其用途並不僅僅在於解線代期末試卷上的一道道題，而更在於每根被撥動的吉他弦上，在於搜索引擎的網頁分級算法和潛語義索引里，在於生物學上對種群變遷的研究中，在於數字位圖的壓縮處理里……在后續的研究中，我們將揭開這些應用場景的面紗，逐漸體會特征值的強大之處。

一、重復作用問題

很多應用問題都涉及到將一個線性變換重復作用到某個向量上。我們來看下面的情景：

在某個小鎮中，據統計，每年有30%的已婚女性離婚，並有20%的未婚女性結婚；且小鎮中現共有8000名已婚女性和2000名未婚女性。為簡單起見，我們假定結婚率、離婚率永久不變，且沒有女性出生、死亡、遷入或遷出。在這些假設下，我們來研究未來一年、十年或更長時間后小鎮內這兩種女性的數量分布。

容易知道，若設第 $n$ 年的已婚女性和未婚女性數量分別為 $x_n,y_n$ ，則有

$x_{n+1}=0.7·x_n+0.2·y_n\\ y_{n+1}=0.3·x_n+0.8·y_n$

這兩個關系式可以寫成矩陣的形式

$\begin{bmatrix}x_{n+1}\\y_{n+1}\end{bmatrix}=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}\begin{bmatrix}x_{n}\\y_{n}\end{bmatrix}\\$

代入 $x_0=8000$ 和 $y_0=2000$ ，就可以算出一年后已婚女性和未婚女性的數量分別為6000人和4000人。

設女性分布向量 $\boldsymbol{w}_n=\begin{bmatrix}x_{n}\\y_{n}\end{bmatrix}$ ， $A=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}$ ，並令 $\boldsymbol{w}_0=\begin{bmatrix}8000\\2000\end{bmatrix}$ ，則我們可以求出 $n$ 年后的女性分布向量

$\\\boldsymbol{w}_n=A\boldsymbol{w}_{n-1}=A^2\boldsymbol{w}_{n-2}=\cdots=A^n\boldsymbol{w}_0$

如果將每個 $\boldsymbol{w}$ 的元素四舍五入到最近的整數，那么通過計算可以得到

$\\\boldsymbol{w}_{10}=\begin{bmatrix}4004\\5996\end{bmatrix},\:\:\:\boldsymbol{w}_{20}=\begin{bmatrix}4000\\6000\end{bmatrix},\:\:\:\boldsymbol{w}_{30}=\begin{bmatrix}4000\\6000\end{bmatrix}$

我們會發現，當有某個 $\boldsymbol{w}_n=\begin{bmatrix}4000\\6000\end{bmatrix}$ 時，對於下一個分布向量

$\\\boldsymbol{w}_{n+1}=A\boldsymbol{w}_n=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}\begin{bmatrix}4000\\6000\end{bmatrix}=\begin{bmatrix}4000\\6000\end{bmatrix}$

於是這個向量后面的所有向量就會保持不變，從而向量 $\begin{bmatrix}4000\\6000\end{bmatrix}$ 稱為上述過程的穩態向量。

如果我們保持總人數不變，而應用不同的初始值 $\boldsymbol{w}_0$ ，比如說 $\boldsymbol{w}_0=\begin{bmatrix}10000\\0\end{bmatrix}$ ，會發現在 $n$ 足夠大的時候，分布向量 $\boldsymbol{w}_n$ 仍會趨於同一個穩態向量 $\begin{bmatrix}4000\\6000\end{bmatrix}$ （例如，對於剛才舉的例子，有 $\boldsymbol{w}_{14}=\begin{bmatrix}4000\\6000\end{bmatrix}$ ），這是為什么呢？

為了看到這一現象背后的原因，讓我們來試驗兩個初始值，它們分別是 $\boldsymbol{x}_1=\begin{bmatrix}2\\3\end{bmatrix}$ 和 $\boldsymbol{x}_2=\begin{bmatrix}1\\-1\end{bmatrix}$ ：

$A\boldsymbol{x}_1=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}\begin{bmatrix}2\\3\end{bmatrix}=\begin{bmatrix}2\\3\end{bmatrix}=\boldsymbol{x}_1\\A\boldsymbol{x}_2=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}\begin{bmatrix}1\\-1\end{bmatrix}=\begin{bmatrix}0.5\\-0.5\end{bmatrix}=\frac12\boldsymbol{x}_1$

可以發現，若我們將 $A$ 作用在 $\boldsymbol{x}_1$ 上，則 $\boldsymbol{x}_1$ 將“紋絲不動”，說明 $\boldsymbol{x}_1$ 也是一個穩態向量；而當我們將 $A$ 作用在 $\boldsymbol{x}_2$ 上時，等於把 $\boldsymbol{x}_2$ “縮放”到了原來的一半。

而這兩個向量的共同點便是， $A$ 在它們上所產生的作用，相當於把他們變為自己原來的 $\lambda$ 倍（對於 $\boldsymbol{x}_1$ 有 $\lambda=1$ ；對於 $\boldsymbol{x}_2$ 有 $\lambda=\frac12$ ）。換句話說， $A$ 作為一個線性變換，並不改變這兩個向量的“方向”，而只改變它們的“長度”，從而研究這個兩個向量的行為將變得十分簡單。

進一步地， $\boldsymbol{x}_1$ 和 $\boldsymbol{x}_2$ 這兩個向量線性無關，這意味着它們構成了 $\bold{R}^2$ 的一組基。注意到我們前面的初始分布向量 $\boldsymbol{w}_0$ 就位於這個向量空間（的子空間）中，所以我們可以將初始向量寫為 $\boldsymbol{x}_1$ 和 $\boldsymbol{x}_2$ 的線性組合：

$\\\boldsymbol{w}_0=c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2$

那么，

$\\\begin{aligned}\boldsymbol{w}_n=A^n\boldsymbol{w}_0&=A^n(c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2)\\&=c_1A^n\boldsymbol{x}_1+c_2A^n\boldsymbol{x}_2\\&=c_1\boldsymbol{x}_1+(\frac12)^nc_2\boldsymbol{x}_2\end{aligned}$

由於 $\lim_{n\rightarrow\infty}(\frac12)^n=0$ ，所以

$\\\lim_{n\rightarrow\infty}\boldsymbol{w}_n=\lim_{n\rightarrow\infty}\left[c_1\boldsymbol{x}_1+(\frac12)^nc_2\boldsymbol{x}_2\right]=c_1\boldsymbol{x}_1$

也就是說，穩態向量必然是 $\boldsymbol{x}_1$ 的某個倍數 $c_1$ ，而這個倍數與初始向量 $\boldsymbol{w}_0$ 有關。對於情境中的假設（女性總人數為10000人），我們可以求解出這個倍數 $c_1$ 。設 $\boldsymbol{w}_0=\begin{bmatrix}p\\10000-p\end{bmatrix}$ ，則方程 $\boldsymbol{w}_0=c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2$ 意味着

$\\\begin{aligned}2c_1-c_2&=p\\3c_1+c_2&=10000-p\end{aligned}$

只需將兩式相加就可以得到 $c_1=2000$ ，從而穩態向量

$\\\lim_{n\rightarrow\infty}\boldsymbol{w}_n=c_1\boldsymbol{x}_1=\begin{bmatrix}4000\\6000\end{bmatrix}$

與前面的計算相符。

二、特征值與特征向量

從上面的例子可以看到，當我們在面對將線性變換重復作用的問題時，如果我們能取一組恰當的基向量，使得這個線性變換在基向量上的作用非常簡單（只有伸縮沒有旋轉），那么我們對空間中其它向量的研究將變得非常簡單：將它分解為基向量的和，將線性變換重復作用在這些基向量上——而這只需要在基向量前重復乘上一個系數。

基於這一理由，我們引入特征值和特征向量的概念。

定義令 $A$ 為一 $n×n$ 矩陣，若存在一個非零向量 $\boldsymbol{x}\in\bold{R}^n$ 和一個標量 $\lambda$ 使得

$\\A\boldsymbol{x}=\lambda\boldsymbol{x}\tag{1}$

成立，則 $\lambda$ 稱為矩陣 $A$ 的特征值（eigenvalue，characteristic value）， $\boldsymbol{x}$ 稱為屬於 $\lambda$ 的特征向量（eigenvector，characteristic vector）。

上述定義中需要注意兩點：一是我們只對方陣定義特征值，否則（1）式永遠不會成立（左右兩邊向量的維數不同）；二是特征值 $\lambda$ 允許為零，這意味着矩陣 $A$ 的零空間 $N(A)$ 中的任何非零向量（如果有）是屬於特征值 $0$ 的特征向量。因此，一個方陣可逆當且僅當 $0$ 不是它的特征值。

明確了概念之后，最重要的問題就是如何找到一個矩陣的特征值和特征向量。為了解決這一點，我們要對式（1）進行變形：

$\\(A-\lambda I)\boldsymbol{x}=\boldsymbol{0}$

注意此處需要添加一個 $I$ ，否則 $A-\lambda$ （矩陣減標量）是未定義的。觀察變形后的方程，我們就可以建立特征值的一系列等價條件：

定理18.1 令 $A$ 為一 $n×n$ 矩陣，且 $\lambda$ 為一標量，則下列命題是等價的：

$\lambda$ 為 $A$ 的特征值；
方程 $(A-\lambda I)\boldsymbol{x}=\boldsymbol{0}$ 有非平凡解；
$N(A-\lambda I)\ne\{\boldsymbol{0}\}$ ；
矩陣 $A-\lambda I$ 為奇異的；
$\det(A-\lambda I)=0$ 。

這些條件大多是矩陣奇異的等價判別條件。其中第五點 $\det(A-\lambda I)=0$ 稱為矩陣 $A$ 的特征方程，多項式 $p(\lambda)=\det(A-\lambda I)$ 稱為矩陣的特征多項式。若 $\lambda$ 為 $A$ 的特征值，則零空間 $N(A-\lambda I)$ 也被稱為矩陣 $A$ 相應於 $\lambda$ 的特征空間。

借助定理18.1，我們就能知道在前面提出的問題中，特殊初始向量 $\boldsymbol{x}_1$ 和 $\boldsymbol{x}_2$ 是如何求得的。

求矩陣 $A=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}$ 的特征值和對應的特征向量。

矩陣 $A$ 的特征方程為

$\\\begin{vmatrix}0.7-\lambda&0.2\\0.3&0.8-\lambda\end{vmatrix}=\lambda^2-\frac32\lambda+\frac12=0$

求得特征方程的兩個解為 $\lambda_1=1,\;\lambda_2=\frac12$ ，此即 $A$ 的兩個特征值。為求解屬於 $\lambda_1$ 的特征向量，考慮方程

$\\(A-\lambda_1I)\boldsymbol{x}=\begin{bmatrix}-0.3&0.2\\0.3&-0.2\end{bmatrix}\boldsymbol{x}=\boldsymbol{0}$

解得 $\boldsymbol{x}=\begin{bmatrix}2k\\3k\end{bmatrix}\;(k\in R)$ ，這些向量都是矩陣 $A$ 屬於 $\lambda_1$ 的特征向量，它們的集合即為矩陣 $A-\lambda_1I$ 的零空間，也就是 $A$ 相應於 $\lambda_1$ 的特征空間。特別地， $k=1$ 時即為初始向量 $\boldsymbol{x}_1$ 。

同樣地由 $(A-\lambda_2I)\boldsymbol{x}=\boldsymbol{0}$ ，得到 $\boldsymbol{x}=\begin{bmatrix}k\\-k\end{bmatrix}\;(k\in R)$ 均為屬於 $\lambda_2$ 的特征向量，其中取 $k=1$ 即得初始向量 $\boldsymbol{x}_2$ 。

然而，不是所有矩陣的特征方程都有實根（即使其元素都是實數），因此我們需要引入復特征值的概念。例如，矩陣 $A=\begin{bmatrix}0&1\\-1&0\end{bmatrix}$ 的特征方程為 $\lambda^2+1=0$ ，其在復數域的根為 $+i$ 和 $-i$ ，對應的特征子空間分別為 $\{(k,ki)|k\in R\}$ 和 $\{(ki,k)|k\in R\}$ ，為此我們還要引入復數域上的矩陣（復矩陣）。

定義令 $A=(a_{ij})$ 為一矩陣，若其每個元素 $a_{ij}\in\mathbb{C}$ ，則稱 $A$ 為復矩陣。

定義令 $A=(a_{ij})$ 為一復矩陣，則定義 $A$ 的共軛為 $\bar{A}=(\bar{a}_{ij})$ ，其中 $\bar{x}$ 意味着對復數 $x$ 取共軛。

定義令 $A$ 為一復矩陣，若 $A=\bar{A}$ ，則稱 $A$ 為實矩陣。

事實上，剛才提出的矩陣 $\begin{bmatrix}0&1\\-1&0\end{bmatrix}$ 是旋轉矩陣 $\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{bmatrix}$ 在 $\theta=-\frac{\pi}{2}$ 的特殊情形。而借助旋轉矩陣和特征值二者的幾何意義，就不難看出一個旋轉矩陣有實特征值當且僅當 $\theta=k\pi\,(k\in\mathbb{Z})$ ，嚴謹的證明也容易由讀者自行完成。

在后面的研究中，我們將時常將目光由實矩陣轉向復矩陣。

類似於多項式的根，對於實矩陣的復特征值和復特征向量，有如下性質：

定理18.2 令 $A$ 為一 $n×n$ 實矩陣， $\lambda$ 為 $A$ 的復特征值，且 $\boldsymbol{z}$ 為屬於 $\lambda$ 的復特征向量，則 $\bar{\boldsymbol{z}}$ 為屬於 $\bar{\lambda}$ 的復特征向量。

證由條件， $A=\bar{A}$ 且 $A\boldsymbol{z}=\lambda\boldsymbol{z}$ ，故

$\\A\bar{\boldsymbol{z}}=\bar{A}\bar{\boldsymbol{z}}=\overline{A\boldsymbol{z}}=\overline{\lambda\boldsymbol{z}}=\bar{\lambda}\bar{\boldsymbol{z}}$

這就說明了 $\bar{\boldsymbol{z}}$ 為屬於 $\bar{\lambda}$ 的復特征向量。

三、特征值的性質

為方便后續研究，我們需要導出特征值的一些常用性質。讓我們先從簡單的開始：

若 $\lambda$ 為矩陣 $A$ 的特征值， $\boldsymbol{x}$ 為屬於 $\lambda$ 的特征向量，則：

對任意標量 $k\ne0$ ， $k\boldsymbol{x}$ 為屬於 $\lambda$ 的特征向量；
$\lambda$ 為矩陣 $A^T$ 的特征值；
若 $A$ 可逆，則 $\lambda^{-1}$ 為矩陣 $A^{-1}$ 的特征值，且 $\boldsymbol{x}$ 為相應的特征向量；
對任意多項式 $p(x)$ ， $p(\lambda)$ 為矩陣 $p(A)$ 的特征值（我們並未嚴格定義矩陣多項式，但就讓我們按常規的方法理解），且 $\boldsymbol{x}$ 為相應的特征向量；
對任意正整數 $m$ ， $A^m\boldsymbol{x}$ 也是屬於 $\lambda$ 的特征向量；
若 $\lambda\ne0$ ，則 $A$ 相應於 $\lambda$ 的特征空間是 $R(A)$ 的子空間，否則該特征空間為 $N(A)$ 。

第二點利用行列式的轉置不變性即得，而其它的性質利用特征向量的定義便容易證明，以第三點為例，若 $A\boldsymbol{x}=\lambda\boldsymbol{x}$ 且 $A$ 可逆（這意味着 $\lambda\ne0$ ），則兩邊左乘 $\lambda^{-1}A^{-1}$ 就有 $\lambda^{-1}\boldsymbol{x}=A^{-1}\boldsymbol{x}$ ，即證。

以下是有關一些特殊矩陣的特征值的性質，其中第一點十分重要：

若 $A$ 為三角矩陣，則 $\lambda$ 為 $A$ 的特征值當且僅當 $A$ 對角線上有元素等於 $\lambda$ ；
若 $A$ 為冪等矩陣（即 $A^2=A$ ），且 $\lambda$ 為 $A$ 的特征值，則 $\lambda=0$ 或 $\lambda=1$ ；
若 $A$ 為對合矩陣（即 $A^2=I$ ），且 $\lambda$ 為 $A$ 的特征值，則 $\lambda=-1$ 或 $\lambda=1$ ；
若 $A$ 為冪零矩陣（即存在正整數 $m$ 使得 $A^m=O$ ），則只有 $0$ 是 $A$ 的特征值；
若 $A$ 為正交矩陣，且 $\lambda$ 為 $A$ 的特征值，則 $\left|\lambda\right|=1$ 。

同樣利用定義即證。以第一點為例，由已知可導出 $\lambda^2\boldsymbol{x}=A^2\boldsymbol{x}=A\boldsymbol{x}=\lambda\boldsymbol{x}$ ，進而 $(\lambda^2-\lambda)\boldsymbol{x}=\boldsymbol{0}$ ，由 $\boldsymbol{x}$ 非零可知 $\lambda=0$ 或 $\lambda=1$ 。第四點的證明中需要利用正交變換的保歐幾里得長度性。

接下來，我們需要探討相似矩陣的特征值和特征向量之間的性質，這對我們后續的研究有重要意義：

定理18.3 若 $A$ 和 $B$ 相似，則它們有相同的特征多項式，從而有也有完全相同的特征值。進一步地，若 $B=S^{-1}AS$ ，且 $\boldsymbol{x}$ 為 $B$ 屬於特征值 $\lambda$ 的特征向量，則 $S\boldsymbol{x}$ 為 $A$ 屬於特征值 $\lambda$ 的特征向量。

證由假設，有

$\\\begin{aligned}\det(B-\lambda I)&=\det(S^{-1}AS-\lambda I)\\&=\det(S^{-1}(A-\lambda I)S)\\&=\det(S^{-1})\det(A-\lambda I)\det(S)\\&=\det(A-\lambda I)\end{aligned}$

因此 $A$ 和 $B$ 有相同的特征多項式。由於特征值是特征多項式的根，所以 $A$ 和 $B$ 有完全相同的特征值。

若 $\lambda\boldsymbol{x}=B\boldsymbol{x}=S^{-1}AS\boldsymbol{x}$ ，則 $A(S\boldsymbol{x})=S\lambda\boldsymbol{x}=\lambda (S\boldsymbol{x})$ ，這就了證得定理的后半部分。

若一個矩陣 $A$ 相似於某個對角陣 $D$ （或更一般地， $D$ 為三角陣），則定理18.3將 $A$ 的特征值與 $D$ 的對角元素聯系了起來：結合第二組性質的第一點（三角矩陣的特征值），就可以知道 $A$ 的特征值與 $D$ 的對角元素完全相同。我們在后面將會詳細探討“對角化”的話題，這將是一個十分強有力的工具。

最后，由於一個矩陣的特征值是其特征多項式的根，我們還可以從特征多項式的角度來探討特征值的整體性質。設 $A=(a_{ij})$ 為一 $n×n$ 矩陣，則其特征多項式為

$\\p(\lambda)=\begin{vmatrix}a_{11}-\lambda&a_{12}&\cdots&a_{1n}\\a_{21}&a_{22}-\lambda&\cdots&a_{2n}\\\vdots&\vdots&\ddots&\vdots\\a_{n1}&a_{n2}&\cdots&a_{nn}-\lambda\end{vmatrix}$

若根據行列式的逆序數定義，則容易看出這是一個關於 $\lambda$ 的 $n$ 次多項式，且其最高次項 $\lambda^n$ 的系數為 $(-1)^n$ （選取所有主對角線上的元素）；而這點用拉普拉斯展開也不難歸納地證明。

由於這是一個 $n$ 次多項式，故由代數基本定理，它在復數域內必有 $n$ 個根 $\lambda_1,\lambda_2,…,\lambda_n$ ，此即矩陣 $A$ 的 $n$ 個特征值（不一定互不相同，因此相同的特征值記重數），因此 $A$ 的特征多項式也可以寫成下面的形式：

$\\p(\lambda)=(-1)^n\prod_{i=1}^n(\lambda-\lambda_i)=\prod_{i=1}^n(\lambda_i-\lambda)$

特別地，結合特征多項式的兩種表示法，就有

$\\p(0)=\lambda_1\lambda_2\cdots\lambda_n=\det(A)$

這就得到了極其重要的特征值乘積公式。

接下來這個公式需要一些多項式分析技巧：利用第一行對 $p(\lambda)$ 作拉普拉斯展開

$\\p(\lambda)=(a_{11}-\lambda)M_{11}+\sum_{i=2}^n{a_{1i}M_{1i}}$

留意到求和項中的每個余子式 $M_{1i}(i=2,3,…,n)$ 中都必然划去了原行列式中的第一行和第 $i$ 列，從而划去了 $a_{11}-\lambda_1$ 和 $a_{ii}-\lambda_i$ 兩項，因此每個 $a_{1i}M_{1i}$ 展開后 $\lambda$ 的次數都不超過 $n-2$ ，則 $\lambda^{n-1}$ 次項只可能在項 $(a_{11}-\lambda)M_{11}$ 中出現；對余子式 $M_{11}$ 重復該推理，可知 $\lambda^{n-1}$ 次項只能由唯一一個乘積

$\\(a_{11}-\lambda)(a_{22}-\lambda)\cdots(a_{nn}-\lambda)$

生成。展開該乘積，就可以得到 $\lambda^{n-1}$ 次項（在上面的 $n-1$ 個括號中選擇 $-\lambda$ ，剩下的一個括號中選擇 $a_{kk}$ ，對所有這樣可能的選擇求和）的系數為

$\\(-1)^{n-1}(a_{11}+a_{22}+\cdots+a_{nn})$

則由推廣的韋達定理（對 $n$ 次多項式）可知 $p(\lambda)$ 的 $n$ 個根滿足

$\\\lambda_1+\lambda_2+\cdots+\lambda_n=-\cfrac{(-1)^{n-1}\sum\limits_{i=1}^n a_{ii}}{(-1)^n}=\sum_{i=1}^n a_{ii}=tr(A)$

這里第一個等號后的分式的分母為 $\lambda^n$ 的系數，而分子則為 $\lambda^{n-1}$ 的系數， $tr(A)$ 為先前定義過的矩陣的跡（預習自學筆記-11）： $tr(A)=a_{11}+a_{22}+\cdots+a_{nn}$ 。

由是，我們通過研究特征多項式的行列式展開，導出了與有關特征值的和與積的兩個對稱的式子：

$\\\begin{aligned}\prod_{i=1}^n\lambda_n&=\det(A) \\\sum_{i=1}^n\lambda_n&=tr(A)\end{aligned}$

這揭示了矩陣的特征值與兩個矩陣上的可交換函數——行列式和跡之間的不平凡關系，而這似乎說明了，行列式與跡在某種意義上表征了其作為線性變換的特征；或者反過來說，矩陣的特征值與其作為線性變換的縮放倍率（行列式）與初始瞬間變化率（跡）有着千絲萬縷的聯系。

至此我們已經得到了有關特征值足夠多的性質，其中有些將在我們后續的研究中發揮重大作用。下一篇中，我們將引入“對角化”這一矩陣研究工具，並具體探討其應用。

一、相似對角化

事實上，有了特征值和特征向量的鋪墊，對角化這個概念現在離我們只有一步之遙。上一篇中我們曾經講到：

當我們在面對將線性變換重復作用的問題時，如果我們能取一組恰當的基向量，使得這個線性變換在基向量上的作用非常簡單（只有伸縮沒有旋轉），那么我們對空間中其它向量的研究將變得非常簡單：將它分解為基向量的和，將線性變換重復作用在這些基向量上——而這只需要在基向量前重復乘上一個系數。

當然，既然這個線性變換可以重復作用，因此它的作用空間和像空間必然是同一個空間，這就意味着這個線性變換是一個線性算子。而我們這里所說的“一組恰當的基向量”，就是指一組特征向量。

若對線性變換及其矩陣表示不熟悉的讀者，可以跳過下面的闡釋，直接跳到本文的第一個定義處。但仍強烈希望讀者能掌握線性變換的相關概念並借助這些概念來理解相似對角化，這將有利於幾何直覺的建立和后續深入的學習。

在學習線性變換（預習自學筆記-10）時我們知道，每個矩陣都是某個線性變換在基下的具體表示。因此只要選定了向量空間 $V$ 的一組基 $\{\boldsymbol{b}_1,\boldsymbol{b}_2,…,\boldsymbol{b}_n\}$ （簡記為 $B$ ），那么每個方陣 $A$ 就對應了一個作用在 $V$ 上的線性算子 $L$ 。

假設 $\boldsymbol{x}_i$ 是 $A$ 的特征向量，並令 $A\boldsymbol{x}_i=\lambda_i\boldsymbol{x}_i$ 。再令 $\boldsymbol{v}_i=\sum_{k=0}^nx_{ik}\boldsymbol{b}_k\in V$ ，即 $[\boldsymbol{v}_i]_B=\boldsymbol{x}_i$ ，每個 $\boldsymbol{v}_i$ 在基 $B$ 下的坐標都是 $A$ 的特征向量。那么就有：

$\\ [L(\boldsymbol{v}_i)]_B=A\boldsymbol{x}_i=\lambda_i\boldsymbol{x}_i=\lambda_i[\boldsymbol{v}_i]_B$

其中，第一個等號成立是因為 $A$ 是 $L$ 在 $B$ 下的表示矩陣。結合基向量分解的唯一性，上式就意味着

$\\L(\boldsymbol{v}_i)=\lambda_i\boldsymbol{v}_i$

這和矩陣的特征值及特征向量的定義十分相似，只不過這里的對象換成了線性算子。事實上，我們完全可以定義線性變換的特征值和特征向量：

定義令 $L:V\to V$ 為一線性算子。若存在一個非零向量 $\boldsymbol{v}\in V$ 和一個標量 $\lambda$ 使得

$\\L(\boldsymbol{v})=\lambda\boldsymbol{v}$

成立，則 $\lambda$ 稱為線性算子 $L$ 的特征值， $\boldsymbol{v}$ 稱為屬於 $\lambda$ 的特征向量。

這樣一來，在一組給定的基下，矩陣 $A$ 的特征向量也就對應了線性算子 $L$ 的特征向量。也就是說，類似於“矩陣是線性變換在一組基下的表示”，方陣的特征向量是線性算子的特征向量在一組基下的表示（特征值則是相同的，與選取的基無關）；線性算子的特征向量是算子本身內秉的屬性，而矩陣的特征向量則是該屬性的一種表現。

由特征向量的對應性，如果一 $n×n$ 矩陣 $A$ 有 $n$ 個線性無關的特征向量，則 $L$ 在 $V$ 中也就有 $n$ 個線性無關的特征向量（設為 $\boldsymbol{v}_1,\boldsymbol{v}_2,…,\boldsymbol{v}_n$ ），又由於 $n$ 階方陣所對應的線性算子必然作用在 $n$ 維向量空間上，故這些特征向量可以構成 $V$ 的一組基（記為 $B^\prime$ ）。

進而對任意 $\boldsymbol{v}\in V$ ，可以設 $\boldsymbol{v}=c_1\boldsymbol{v}_1+c_2\boldsymbol{v}_2+\cdots+c_n\boldsymbol{v}_n$ ，即 $[\boldsymbol{v}]_{B^\prime}=\boldsymbol{c}$ ，那么

$\\\begin{aligned}L(\boldsymbol{v})&=c_1L(\boldsymbol{v}_1)+c_2L(\boldsymbol{v}_2)+\cdots+c_n\boldsymbol{v_n}\\&=c_1\lambda_1\boldsymbol{v}_1+c_2\lambda_2\boldsymbol{v}_2+\cdots+c_n\lambda_n\boldsymbol{v}_n\end{aligned}$

從而

$\\\begin{aligned}\left[L(\boldsymbol{v})\right]_{B^\prime}&=c_1\lambda_1[\boldsymbol{v}_1]_{B^\prime}+c_2\lambda_2[\boldsymbol{v}_2]_{B^\prime}+\cdots+c_n\lambda_n[\boldsymbol{v}_n]_{B^\prime} \\&=c_1\lambda_1\boldsymbol{e}_1+c_2\lambda_2\boldsymbol{e}_2+\cdots+c_n\lambda_n\boldsymbol{e}_n \\&=\begin{bmatrix}c_1\lambda_1\\c_2\lambda_2\\\vdots\\c_n\lambda_n\end{bmatrix}=\begin{bmatrix}c_1\\c_2\\\vdots\\c_n\end{bmatrix}\begin{bmatrix}\lambda_1&0&\cdots&0\\0&\lambda_2&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&\lambda_n\end{bmatrix}\\&=D\boldsymbol{c}=D[\boldsymbol{v}]_{B^\prime}\end{aligned}$

其中
$\\D=\begin{bmatrix}\lambda_1&0&\cdots&0\\0&\lambda_2&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&\lambda_n\end{bmatrix}$

並由上式可以得出， $D$ 就是 $L$ 在基 $B^\prime$ 下的表示矩陣，而它是一個十分簡潔的對角陣。

也就是說，如果我們選取線性算子的特征向量作為基向量，那么線性算子在這組基下的表示將變得十分簡單，因為在這組基下，該線性算子的作用，用“對每個基向量進行不同程度的伸縮”就可以完全描述出來。對角陣 $D$ 以最簡單的方式，將線性算子的作用展現得一覽無遺。

例如，在預習自學筆記-11中，我們就曾提出過一個具體例子：

令 $L$ 為 $\bold{R}^3$ 上的線性算子，其關於標准基的表示矩陣為

$\\A=\begin{bmatrix}2&2&0\\1&1&2\\1&1&2\end{bmatrix}$

則 $L$ 關於基 $(\boldsymbol{y}_1,\boldsymbol{y}_2,\boldsymbol{y}_3)$ 的表示矩陣為

$\\D=\begin{bmatrix}0&0&0\\0&1&0\\0&0&4\end{bmatrix}$

其中 $\boldsymbol{y}_1=\begin{bmatrix}1\\-1\\0\end{bmatrix}$ ， $\boldsymbol{y}_2=\begin{bmatrix}-2\\1\\1\end{bmatrix}$ ， $\boldsymbol{y}_2=\begin{bmatrix}1\\1\\1\end{bmatrix}$ 。這就是說，

$\\\begin{aligned}L(\boldsymbol{y}_1)=A\boldsymbol{y}_1&=0·\boldsymbol{y}_1\\ L(\boldsymbol{y}_2)=A\boldsymbol{y}_2&=1·\boldsymbol{y}_2\\ L(\boldsymbol{y}_3)=A\boldsymbol{y}_3&=4·\boldsymbol{y}_3\end{aligned}$

我們也在是這一篇文章中，得到了同一線性變換在不同基下的表示矩陣的關系。特別地，線性算子在其作用空間（同時也是像空間）的不同基下的表示矩陣互為相似矩陣。因此可以斷定，上面的線性算子 $L$ 的兩個表示矩陣 $A$ 和 $D$ 應當是相似的，即存在可逆矩陣 $X$ ，使得 $A=XDX^{-1}$ 。而特別之處在於，這里的 $D$ 是對角矩陣。

定義令 $A$ 為一 $n×n$ 矩陣，若存在對角矩陣 $D$ ，使得 $A$ 與 $D$ 相似，則稱 $A$ 是可對角化的。具體地，若 $A=XDX^{-1}$ ，則稱 $X$ 對角化 $A$ 。

對角化的過程就是將線性算子的作用效果以最簡單的方式表達出來的過程。

由前面的推演過程不難得到下面的定理：

定理19.1 一個 $n×n$ 矩陣 $A$ 可對角化當且僅當它有 $n$ 個線性無關的特征向量。

證先證充分性。設 $A$ 的 $n$ 個線性無關的特征向量分別為 $\boldsymbol{x}_i\,(i=1,2,…n)$ ，對應的特征值分別為 $\lambda_i$ ，設 $X=\begin{bmatrix}\boldsymbol{x}_1&\boldsymbol{x}_2&\cdots&\boldsymbol{x}_n\end{bmatrix}$ ，且設

$\\D=\begin{bmatrix}\lambda_1&0&\cdots&0\\0&\lambda_2&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&\lambda_n\end{bmatrix}$

則

$\\\begin{aligned}AX&=A\begin{bmatrix}\boldsymbol{x}_1&\boldsymbol{x}_2&\cdots&\boldsymbol{x}_n\end{bmatrix}\\&=\begin{bmatrix}A\boldsymbol{x}_1&A\boldsymbol{x}_2&\cdots&A\boldsymbol{x}_n\end{bmatrix}\\&=\begin{bmatrix}\lambda_1\boldsymbol{x}_1&\lambda_2\boldsymbol{x}_2&\cdots&\lambda_n\boldsymbol{x}_n\end{bmatrix}\\&=\begin{bmatrix}\boldsymbol{x}_1&\boldsymbol{x}_2&\cdots&\boldsymbol{x}_n\end{bmatrix}\begin{bmatrix}\lambda_1&0&\cdots&0\\0&\lambda_2&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&\lambda_n\end{bmatrix}\\&=XD\end{aligned}$

由於這 $n$ 個特征向量線性無關，因此 $X$ 可逆，故 $A=XDX^{-1}$ ，即 $A$ 可對角化。

再證必要性，若存在可逆矩陣 $X$ 和對角矩陣 $D$ 使得 $A=XDX^{-1}$ ，則 $AX=XD$ ，設 $X$ 的第 $i$ 個列向量為 $\boldsymbol{x}_i$ ，且 $D$ 同前設，則同上可得 $A\boldsymbol{x}_i=\lambda_i\boldsymbol{x}_i$ ，即 $\boldsymbol{x}_i$ 是屬於 $\lambda_i$ 的 $A$ 的特征向量，由 $X$ 可逆知這些特征向量線性無關。

由定理的證明過程可知：

若 $A$ 可對角化，則對角化矩陣 $X$ 各列是 $A$ 的特征向量，對角矩陣 $D$ 對角線上各元素是 $A$ 的特征值，且 $X$ 的第 $k$ 列是屬於 $D$ 的第 $k$ 個對角元素的特征向量；
對角矩陣 $D$ 和對角化矩陣 $X$ 都不是唯一的，因為可以重排順序，或將特征向量乘上一個非零倍數。

不難證明，矩陣 $A$ 和與其相似的對角矩陣 $D$ ，擁有相同的特征值、行列式和跡，因此，在矩陣的對角化分解中，對角化矩陣和對角矩陣包含了有關矩陣 $A$ 本身的信息。

事實上，對角矩陣所揭示的關於原矩陣的信息可不止於此，這些我們將在稍后繼續深入，而在目前更重要的，是了解對角化的一些精彩應用，而它們都與馬爾科夫過程有關。

二、對角化的應用：馬爾科夫過程

馬爾科夫過程本身是一個隨機過程理論中的一個概念，有着一個嚴謹的數學定義，但若要說清楚這個嚴謹定義，則勢必要花去大量篇幅在相關性並不高的內容上；因此這里只對其進行通俗的描述，而這並不會影響我們后面的研究過程。

對一個試驗序列，若其每一步的輸出都取決於概率，則稱其為一個隨機過程。
馬爾科夫過程是滿足下列三個性質的隨機過程：
1.可能的輸出集合（或稱狀態）是有限的；
2.下一步的輸出僅依賴於前一步輸出；
3.概率相對於時間是常數。

我們在上一篇中提到的女性離婚/結婚問題就是一個馬爾科夫過程。其中“每一步的輸出”就是每一年的女性分布向量 $\boldsymbol{w}_n=\begin{bmatrix}x_{n}\\y_{n}\end{bmatrix}$ ，而矩陣 $A=\begin{bmatrix}0.7&0.2\\0.3&0.8\end{bmatrix}$ 可以看作這個馬爾科夫過程的“概率”。

這個馬爾科夫過程利用矩陣方程

$\\\boldsymbol{w}_{n+1}=A\boldsymbol{w}_n$

來產生下一步的“輸出”。我們稱每個向量 $\boldsymbol{w}_n$ 為狀態向量，狀態向量的集合 $\{\boldsymbol{w}_n\}$ 為馬爾科夫鏈，矩陣 $A$ 稱為轉移矩陣，且它具有性質

一列每一個元素均為非負的；
每一列元素的和為 $1$ 。

稱滿足這兩個性質的矩陣為隨機矩陣，隨機矩陣每個列向量滿足元素的和為1，這樣的向量稱為概率向量。

這里的“轉移矩陣”和基變換中的“轉移矩陣”不是同一個概念，這里的“轉移”是指每個研究對象會在不同 的“狀態”之間轉移。 其每一列為概率向量，因為每個列向量的元素都說明了上一次輸出中某一“狀態”的對象在下一次輸出時變為 所有可能的“狀態”的概率。例如上面的例子中第一列向量0.7和0.3說明了“已婚”狀態的女性在下一年變為“已婚” 和“未婚”的概率。 隨機矩陣的性質保證了所研究對象的總數是不變的。

我們下面用對角化來研究一個相對更復雜的馬爾科夫過程：

一個汽車出租商出租四種類型的汽車：轎車、運動車、小貨車和SUV。一開始出租的車中，轎車占40%，其余車型各占20%。假設沒有新顧客，且每個顧客在其汽車租期結束時都會續簽出租協議，並以一定的概率選擇一輛新汽車，概率表如下所示：

$\\\begin{array}{cccc|c} \hline \bold{當}&\bold{前}&\bold{租}&\bold{用}\quad&\bold{下次租用}\\ \hline 轎車&運動車&小貨車&SUV&\\ \hline 0.80&0.10&0.05&0.05&轎車\\ 0.10&0.80&0.05&0.05&運動車\\ 0.05&0.05&0.80&0.10&小貨車\\ 0.05&0.05&0.10&0.80&SUV\\ \hline \end{array}$

要研究第 $n$ 次租期結束時出租的車中各車型占的比例，構造轉移矩陣和初始狀態向量（同時也是一個概率向量）

$\\A=\begin{bmatrix}0.80&0.10&0.05&0.05\\ 0.10&0.80&0.05&0.05\\ 0.05&0.05&0.80&0.10\\ 0.05&0.05&0.10&0.80\\\end{bmatrix},\quad \boldsymbol{w}_0=\begin{bmatrix}0.4\\0.2\\0.2\\0.2\end{bmatrix}$

則 $\boldsymbol{w}_n=A^n\boldsymbol{w}_0$ 。可以求得 $A$ 的特征值為

$\\\lambda_1=1,\quad\lambda_2=0.8,\quad\lambda_3=\lambda_4=0.7$

並且 $A$ 可對角化為

$\\A=XDX^{-1}=\begin{bmatrix}1&-1&0&1\\ 1&-1&0&-1\\ 1&1&1&0\\ 1&1&-1&0\\\end{bmatrix} \begin{bmatrix}1&0&0&0\\ 0&0.8&0&0\\ 0&0&0.7&0\\ 0&0&0&0.7\\\end{bmatrix} \begin{bmatrix}0.25&0.25&0.25&0.25\\ -0.25&-0.25&0.25&0.25\\ 0&0&0.5&-0.5\\ 0.5&-0.5&0&0\\\end{bmatrix}$

注意到

$\\A^2=XDX^{-1}XDX^{-1}=XD^2X^{-1},\quad A^n=XD^nX^{-1}$

上面的等式說明了對角化在處理重復作用問題時的方便之處，因為計算對角陣的n次方只需將其對角線上的所有元素都自乘n次。

因此

$\\\begin{aligned}\boldsymbol{w}_n&=XD^nX^{-1}\boldsymbol{w}_0\\&=XD^n\begin{bmatrix}0.25&-0.05&0&0.1\end{bmatrix}^T\\&=X\begin{bmatrix}1^n·0.25&0.8^n·(-0.05)&0.8^n·0&0.7^n·0.1\end{bmatrix}^T\\&=0.25\boldsymbol{x}_1-0.8^n·0.05\boldsymbol{x}_2+0.7^n·0.1\boldsymbol{x}_3\end{aligned}$

從而得到 $\lim_{n\to\infty}\boldsymbol{w}_n=0.25\boldsymbol{x}_1=\begin{bmatrix}0.25\\0.25\\0.25\\0.25\end{bmatrix}$ ，即出租的車型比例最終會趨向於這個穩態向量，它是屬於特征值 $\lambda_1=1$ 的特征向量 $\boldsymbol{x}_1$ 的某個倍數，與直接分解向量得到的結果是一樣的。

比較前面所提出的這兩個馬爾科夫過程，可以發現，其轉移矩陣都是隨機矩陣，且都具有特征值 $\lambda_1=1$ ，而其余特征值都滿足 $|\lambda|<1$ ；而馬爾科夫鏈則最終都趨向於一個屬於特征值 $\lambda_1=1$ 的特征向量 $\boldsymbol{x}_1$ 的某個倍數。

事實上，我們可以先證明這樣一個結論，以說明每個轉移矩陣都有特征值1：

定理19.2 若 $n×n$ 方陣 $A$ 的每列元素之和都為標量 $s$ ，則 $s$ 是 $A$ 的特征值。

這個定理有兩個較為巧妙證明方法，因此都在此列出。

證1 由特征值的等價條件，只需證明矩陣 $A-sI$ 奇異，即其 $n$ 個列向量線性相關。由假設可得 $A-sI$ 的每列元素之和均為 $0$ ，因此其列向量都屬於向量空間 $\{\boldsymbol{x}|\sum_{i=1}^nx_i=0\}$ ，而這個向量空間的維數為 $n-1$ ，因此這 $n$ 個列向量必然線性相關。

證2 設有 $n$ 維列向量 $\boldsymbol{y}$ ，其各元素均為1，則 $\boldsymbol{a}_i^T\boldsymbol{y}=\sum_{k=1}^na_{ki}·1=s$ ，因此 $A^T\boldsymbol{y}=s\boldsymbol{y}$ ，這說明 $s$ 是 $A^T$ 的特征值，則由特征值的性質， $s$ 也是 $A$ 的特征值。

通過觀察所舉的兩個馬爾科夫過程的例子，我們容易證明下面的定理：

定理19.3 若隨機矩陣 $A$ 可對角化，並有一個特征值 $\lambda_1=1$ ，且其它所有特征值 $\lambda_k\;(k=2,3,…)$ （重復的特征值計重數）都滿足 $|\lambda_k|<1$ ，則轉移矩陣為 $A$ 的馬爾科夫鏈將收斂到穩態向量，且該穩態向量是屬於特征值 $\lambda_1=1$ 的特征向量 $\boldsymbol{x}_1$ 的某個倍數。

事實上，這一定理在 $A$ 不可對角化時依然成立，但這需要用到更為強大的工具——若爾當標准型來證明，它是對角化的一種推廣，因而該推廣的定理在此述而不證。

不是所有馬爾科夫過程都收斂到穩態向量，但只要馬爾科夫過程的轉移矩陣的所有元素均為正，則可以證明對於任何初始概率向量，該馬爾科夫過程都會收斂於同一穩態向量，這一點將在之后會有一定的解釋。借助這個結果，我們就可以對網頁的搜索和分級算法進行初步的探討。

三、馬爾科夫過程的應用：網頁搜索

這是一個更加貼近我們生活的例子。實際上，網頁的搜索和分級算法和馬爾科夫過程息息相關。我們在網上使用搜索引擎尋找信息的時候，搜索引擎會根據我們鍵入的關鍵字搜索網頁，並將所得的結果一條一條列出來。顯然，網頁顯示的位置越前，說明搜索引擎越認為這個網頁符合搜索要求的結果。但是，搜索引擎是如何評估網頁“符合搜索要求”的程度，從而對它找到的網頁進行分級的呢？

用於網頁分級的PageRank算法是依賴於網絡連接結果的巨大的馬爾科夫過程，其最初構想由斯坦福大學的兩名大學生提出，他們在該算法的基礎上開發了如今被廣泛使用的Google搜索引擎。如此成功的引擎背后的算法可不是那么容易說清楚的，所以為了便於理解，下面介紹的PageRank算法是經過了一定的簡化后的版本。

PageRank算法將上網沖浪看成是馬爾科夫過程，其轉移矩陣是一個 $n×n$ 的方陣 $A=(a_{ij})$ ，其中 $n$ 為要搜索的網站總數，元素 $a_{ij}$ 表示在隨機沖浪過程中從網站 $j$ 跳轉到網站 $i$ 的概率。目前的 $n$ 超過了200億，因此有人稱網頁分級計算為“世界上最大的矩陣計算”。

“網頁分級模型”假設若用戶處於在一個網頁中，則該用戶將以一個固定概率沿着當前網頁中的鏈接跳轉到所鏈接的網頁，否則隨機地跳轉到其它網頁（包括能通過當前網頁中的鏈接到達的網頁）。

例如，網頁 $j$ 有 $f(j)$ 個到其他網頁的鏈接，並假設用戶以 $p$ 的概率隨機跳轉到其它網頁，以 $1-p$ 的概率沿着這五個鏈接瀏覽。若網頁 $j$ 與網頁 $i$ 之間沒有鏈接，則

$\\a_{ij}=\frac {1-p}n$

若網頁 $j$ 與網頁 $i$ 之間有鏈接，則

$\\a_{ij}=\frac{p}{f(j)}+\frac {1-p}n$

設 $m_{ij}=\cases{\frac1{f(j)}&有從j到i的鏈接\\0&沒有從j到i的鏈接}$ ，則上面兩式可統一為

$\\a_{ij}=pm_{ij}+(1-p)\frac 1n$

由上式知轉移矩陣 $A$ 的元素都是正的，根據上一節最后一段中的說明，知對於任意初始的隨機向量，該馬爾科夫過程必然收斂到唯一的穩態隨機向量 $\boldsymbol{x}$ ，它是一個 $n$ 維列向量，其第 $k$ 個分量對應於長時間沖浪后到達網站 $k$ 的概率。因此，搜索引擎只需根據穩態向量每個元素的大小對網頁進行排序——概率越大的網頁分級越前，然后將網頁按分級遞減的順序列出來即可。

令 $M=(m_{ij})$ ，且 $\boldsymbol{e}\in\bold{R}^n$ ，其各分量均為 $1$ ，則 $E=\boldsymbol{e}\boldsymbol{e}^T$ 是一個全部元素為 $1$ 的矩陣。這樣我們有方程

$\\A=pM+\frac {1-p}nE$

為求穩態向量，需要從初始隨機向量 $\boldsymbol{w}_0$ 開始，計算乘法 $\boldsymbol{w}_{n+1}=A\boldsymbol{w}_n$ 。由於 $A$ 的規模十分大，因此該乘法的計算量是巨大的。但注意到在實際操作中，相對於網頁的數量，網頁之間的鏈接是非常少的，這意味着 $M$ 的很多元素都是 $0$ （稱這樣的矩陣為稀疏矩陣），這樣一來，上面的矩陣乘法可以被簡化。

為此，先注意到若初始向量 $\boldsymbol{w}_0$ 為隨機向量，則馬爾科夫鏈中的任意向量 $\boldsymbol{w}_n$ 都是隨機向量，這樣就有 $E\boldsymbol{w}_n=\boldsymbol{e}$ 對任意非負整數 $n$ 成立。若 $M$ 是稀疏的，則乘法 $M\boldsymbol{w}_n$ 是容易計算的，因此

$\\\boldsymbol{w}_{n+1}=A\boldsymbol{w}_n=pM\boldsymbol{w}_n+\frac {1-p}nE\boldsymbol{w}_n=pM\boldsymbol{w}_n+\frac {1-p}n\boldsymbol{e}$

前一個被加項容易計算，而后一個被加項是一個常量，因此可以通過預計算來儲存它的值，在后續計算中直接使用。這樣一來，網頁分級算法的計算量就被大大減小了。

對角化的應用還有很多，例如計算伴性基因的攜帶率，但由於篇幅有限，所以暫先列舉到這里；在下一篇中，我們將討論更多與矩陣對角化有關的概念，展現對角化的更多（數學上的）實用之處。

一、特征空間的性質

我們已經了解到，對角化是將線性算子的表達化為最簡形式的過程，但是不是所有線性算子都有對角陣這么簡潔的表達方式呢？定理19.1告訴我們， $n$ 階方陣 $A$ 可對角化當且僅當它有 $n$ 個線性無關的特征向量——意味着矩陣所對應的線性算子也得有這么多線性無關的特征向量；但可惜的是，不是所有矩陣都滿足這個條件。

考察矩陣 $A=\begin{bmatrix}1&1\\0&1\end{bmatrix}$ ，它的特征多項式為 $(\lambda-1)^2=0$ ，從而得到 $A$ 的特征值為 $\lambda_1=\lambda_2=1$ （到目前為止，我們都是對重復的特征值計重數），而對應的特征空間——即 $A-I=\begin{bmatrix}0&1\\0&0\end{bmatrix}$ 的零空間——為 $\{\boldsymbol{x}=\begin{bmatrix}0\\k\end{bmatrix}\,|\,k\in\mathbb{R}\}$ 。這是個一維向量空間，從中只能選出一個線性無關的特征向量，因此矩陣 $A$ 就是不可對角化的一個例子。

再看矩陣 $B=\begin{bmatrix}2&0&0\\0&4&0\\1&0&2\end{bmatrix}$ 和 $C=\begin{bmatrix}2&0&0\\-1&4&0\\-3&6&2\end{bmatrix}$ ，它們都是三角矩陣，因此特征值均為其對角線上的元素： $\lambda_1=4,\;\lambda_2=\lambda_3=2$ 。 $B$ 對應於 $\lambda_1=4$ 的特征空間由單位向量 $\boldsymbol{e}_2$ 張成， $\lambda_2=\lambda_3=2$ 的特征空間由 $\boldsymbol{e}_3$ 張成，因此 $B$ 最多只有兩個線性無關特征向量。

但 $C$ 不一樣，盡管其特征值與 $B$ 完全相同，但可以驗證， $\begin{bmatrix}0\\1\\3\end{bmatrix}$ 是屬於 $\lambda_1$ 的特征向量，而 $\begin{bmatrix}2\\1\\0\end{bmatrix}$ 和 $\begin{bmatrix}0\\0\\1\end{bmatrix}$ 則是屬於 $\lambda_2=\lambda_3$ 的特征向量。這三個向量線性無關，這說明 $C$ 可對角化。

因此，不是所有矩陣都滿足對角化的條件，我們稱有少於 $n$ 個線性無關的特征向量的 $n×n$ 矩陣為退化的（defective）。（顯然，不可能多於 $n$ 個線性無關的特征向量，為什么？）

在此給一個簡單的命題：
證明：非零的冪零矩陣都是退化的。（考慮冪零矩陣的所有特征值都為零，並用反證法。）

如果再多考察一些矩陣，就會發現退化的矩陣總是有重復的特征值（如 $A$ 和 $B$ ），但有重復特征值的矩陣不一定退化的（如 $C$ ）；同時，若一個矩陣的特征值全部各不相同，那么它總能化成對角形式。用命題語言來說，這就是：

有重復的特征值是矩陣不可對角化（也就是退化）的必要條件。（或等價地，特征值各不相同是矩陣可對角化的充分條件。）

事實上，上述猜想是正確的；為看到這一點，我們只需證明下面的定理。

定理20.1 令 $A$ 為一 $n×n$ 矩陣，若 $\lambda_1,\lambda_2,…,\lambda_k\,(1<k\leq n)$ 是 $A$ 各不相同的特征值，且 $\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k$ 分別為相應的特征向量，則 $\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k$ 線性無關。

證設由 $\boldsymbol{x}_1,\boldsymbol{x}_2,…\boldsymbol{x}_k$ 張成空間的維數為 $r$ ，則 $r \leq k$ ，定理即要證 $r=k$ 。用反證法，若 $r<k$ ，那么不妨設 $\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_r$ 線性無關而 $\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_r,\boldsymbol{x}_{r+1}$ 線性相關，因此存在不全為零的標量 $c_1,c_2,…,c_{r+1}$ 使得

$\\c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2+\cdots+c_r\boldsymbol{x}_r+c_{r+1}\boldsymbol{x}_{r+1}=\boldsymbol{0}\tag{1}$

且 $c_{r+1}\ne 0$ （否則 $\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_r$ 線性相關），所以 $c_{r+1}\boldsymbol{x}_{r+1}\ne\boldsymbol{0}$ ，故為使上式成立， $c_1,c_2,…,c_r$ 也不全為零。將（1）式左右兩端同時左乘 $A$ ，就得到

$\\c_1A\boldsymbol{x}_1+c_2A\boldsymbol{x}_2+\cdots+c_rA\boldsymbol{x}_r+c_{r+1}A\boldsymbol{x}_{r+1}=\boldsymbol{0}$

即

$\\c_1\lambda_1\boldsymbol{x}_1+c_2\lambda_2\boldsymbol{x}_2+\cdots+c_r\lambda_r\boldsymbol{x}_r+c_{r+1}\lambda_{r+1}\boldsymbol{x}_{r+1}=\boldsymbol{0}$

上式減去（1）式的 $\lambda_{r+1}$ 倍，則有

$\\c_1(\lambda_1-\lambda_{r+1})\boldsymbol{x}_1+c_2(\lambda_2-\lambda_{r+1})\boldsymbol{x}_2+\cdots+c_r(\lambda_r-\lambda_{r+1})\boldsymbol{x}_r=\boldsymbol{0}$

上式中 $r+1$ 個特征值各不相同，說明 $\lambda_m-\lambda_{r+1}\ne0$ 對所有 $m=1,2,…,r$ 成立；又因為 $c_1,c_2,…,c_r$ 不全為零，故各 $c_m(\lambda_m-\lambda_{r+1})$ 也不全為零，而這說明 $\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_r$ 線性相關，與假設矛盾。故只能有 $r=k$ 。

結合定理19.1（對角化的充要條件）就可以得到如下推論：

推論令 $A$ 為一 $n\times n$ 矩陣，若 $A$ 有 $n$ 個互不相同的特征值，則 $A$ 可對角化。

特別地，在定理20.1中取 $k=2$ ，就知道一線性算子任意兩個不同的特征值所屬的特征向量是不相關的。從幾何上理解，就是說一個線性算子不可能把一條直線上的某些向量放大 $k_1$ 倍，而同時又把同一直線上的另一些向量放大 $k_2$ 倍，且 $k_1\ne k_2$ 。

而定理20.1是比這個結論更強一些的定理，它是說，只要一個向量在一個線性算子的某些不同特征值的特征空間的“和”中，除非它完全處於某個特征值的特征空間中，否則它就不會是特征向量。

通俗地說，若將一個向量的某些分量伸縮不同的倍數，那么伸縮后各分量重新加和起來得到的新向量不可能和原向量在同一直線上。

這里插入另一個有趣的結論，它指明的是一個矩陣和它的轉置矩陣之間，兩個不同特征值所屬的特征向量的關系——這是一種比線性無關還要特殊的關系。

定理20.2 令 $A$ 為一 $n×n$ 矩陣，且 $\lambda_1$ 和 $\lambda_2$ 是 $A$ 的不同特征值（因而也就是 $A^T$ 的不同特征值），設 $\boldsymbol{x}$ 是 $A$ 屬於 $\lambda_1$ 的特征向量，而 $\boldsymbol{y}$ 是 $A^T$ 屬於 $\lambda_2$ 的特征向量，則 $\boldsymbol{x}\,\bot\,\boldsymbol{y}$ 。

證由假設，我們有

$\\\begin{aligned}\boldsymbol{y}^TA\boldsymbol{x}=\lambda_1\boldsymbol{y}^T\boldsymbol{x}\\\boldsymbol{x}^TA^T\boldsymbol{y}=\lambda_2\boldsymbol{x}^T\boldsymbol{y}\end{aligned}$

由於 $\boldsymbol{x},\boldsymbol{y}\in\bold{R}^n$ ，因此若使用內積的符號，上式就可以寫為

$\\\begin{aligned}\langle A\boldsymbol{x},\boldsymbol{y}\rangle=\lambda_1\langle\boldsymbol{x},\boldsymbol{y}\rangle\\\langle\boldsymbol{x},A^T\boldsymbol{y}\rangle=\lambda_2\langle\boldsymbol{x},\boldsymbol{y}\rangle\end{aligned}$

（這里用到了內積的對稱性）應用內積的性質

$\\\langle A\boldsymbol{x},\boldsymbol{y}\rangle=\langle \boldsymbol{x},A^T\boldsymbol{y}\rangle$

結合 $\lambda_1\ne\lambda_2$ ，就有 $\boldsymbol{x}^T\boldsymbol{y}=\langle\boldsymbol{x},\boldsymbol{y}\rangle=\boldsymbol{0}$ ，即 $\boldsymbol{x}\,\bot\,\boldsymbol{y}$ 。要證明內積的上述性質，只需注意到內積的結果是一個數，因此轉置后不變：

$\\\langle A\boldsymbol{x},\boldsymbol{y}\rangle=\boldsymbol{y}^TA\boldsymbol{x}=(\boldsymbol{x}^TA^T\boldsymbol{y})^T=(\langle \boldsymbol{x},A^T\boldsymbol{y}\rangle)^T=\langle \boldsymbol{x},A^T\boldsymbol{y}\rangle$

即可。

這一定理說明 $A$ 和 $A^T$ 屬於不同特征值的特征空間是 $\bold{R}^n$ 中的正交子空間。

雖然這一定理與本篇文章沒有直接關系，但是該證明過程的技巧是值得學習的；證明中所引入的結構 $\boldsymbol{y}^TA\boldsymbol{x}$ 是線性代數中的一個研究主題，而這一結構也將會在以后派上用場。

這個主題就是雙線性型。

實際上，關於特征空間，還有一個性質，是在學習對角化的“升級版”工具——若爾當標准型時會接觸到的概念。

定義令 $L:V\to V$ 為一線性算子，而 $W$ 是 $V$ 的子空間，若對任意 $\boldsymbol{w}\in W$ ，都有 $L(\boldsymbol{w})\in W$ ，則稱 $W$ 在 $L$ 下是不變的，或 $W$ 是 $L$ 的不變子空間，簡稱 $L$ -子空間。

這就是說，即使 $L$ 有把 $V$ 的某個子空間中的元素映射到其外的可能，但對 $W$ 來說，其中的元素在被映射后仍在 $W$ 中；即， $W$ 具有一定的“穩定性”。

令 $V=\bold{R}^n$ ， $L$ 為 $n×n$ 矩陣，就得到了 $n×n$ 矩陣的不變子空間的概念，接下來的定理就是關於這種不變子空間的。

定理20.3 令 $A$ 為一 $n×n$ 矩陣，且 $\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k\$ 是 $A$ 的特征向量，則 $S=\mathrm{Span}(\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k)$ 在 $A$ 下不變。

證設 $\boldsymbol{x}\in S$ ，這意味着存在 $c_1,c_2,…,c_k$ 使得

$\\\boldsymbol{x}=c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2+\cdots+c_k\boldsymbol{x}_k$

則

$\\A\boldsymbol{x}=c_1A\boldsymbol{x}_1+c_2A\boldsymbol{x}_2+\cdots+c_kA\boldsymbol{x}_k=c_1\lambda_1\boldsymbol{x}_1+c_2\lambda_2\boldsymbol{x}_2+\cdots+c_k\lambda_k\boldsymbol{x}_k$

由 $S$ 的定義即知 $A\boldsymbol{x}\in S$ 。

可以看到，定理20.3的證明是直接且簡單的；類似地，還有下面兩個簡單的命題可供鞏固概念（均為之后會用到的結論）：

令 $A$ 為一 $n×n$ 矩陣， $\lambda$ 為 $A$ 的特征值，並設矩陣 $B$ 滿足 $AB=BA$ ，證明： $N(A-\lambda I)$ 在 $B$ 下不變。（當 $B=A$ 時，這是定理20.3的直接推論。）
令 $A$ 為一實矩陣， $\lambda=a+bi\,(a,b\in\mathbb{R})$ 為 $A$ 的特征值，且滿足 $b\ne0$ ，而 $\boldsymbol{z}=\boldsymbol{x}+i\boldsymbol{y}\;(\boldsymbol{x},\boldsymbol{y}\in\bold{R}^n)$ 是 $A$ 屬於 $\lambda$ 的特征值，證明： $S=\mathrm{Span}(\boldsymbol{x},\boldsymbol{y})$ 在 $A$ 下不變。（還可以證明 $\dim S=2$ ，即 $\boldsymbol{x}$ 與 $\boldsymbol{y}$ 線性無關。）

二、代數重數與幾何重數

如果進一步觀察特征空間和特征值之間的關系，還會發現一個有趣的現象：如果矩陣 $A$ 的某個特征值 $\lambda$ 總共出現了 $k$ 次，即在該矩陣的所有特征值中，總共存在 $k$ 個特征值，滿足

$\\\lambda_1=\lambda_2=\cdots=\lambda_k=\lambda$

那么，對應於 $\lambda$ 的特征空間 $N(A-\lambda I)$ 中線性無關的特征向量不會多於 $k$ 個。換句話說， $n(A-\lambda I)\leq k$ 。

前面我們曾經給出過 $n\times n$ 矩陣的特征多項式的一種寫法：

$\\p(\lambda)=\prod_{i=1}^n(\lambda_i-\lambda)\tag{2}$

在這種寫法中，相同的特征值可能重復出現（也就是說可能存在兩個特征值 $\lambda_i,\lambda_j$ 滿足 $\lambda_i=\lambda_j$ ）；而如果我們在上式中把相同的特征值進行“合並”，就可以得到另一種表示方法：

$\\p(\lambda)=\prod_{i=1}^k(\lambda_i-\lambda)^{m_i}\tag{3}$

其中，各 $\lambda_i$ 相異， $1\leq k\leq n$ （至多有 $n$ 個不同的特征值）； $m_i$ 就是其中的每個特征值在（2）式中出現的次數， $1\leq m_i\leq n$ 且 $m_1+m_2+\cdots+m_k=n$ （按重數計，總的特征值個數必然是 $n$ 個）。

定義令 $A$ 為一 $n×n$ 矩陣，有 $k$ 個各不相同的特征值 $\lambda_1,\lambda_2,…,\lambda_k$ ，且特征多項式為 $p(\lambda)=\prod_{i=1}^k(\lambda_i-\lambda)^{m_i}$ ，其中 $1\leq m_i\leq n$ 且 $m_1+m_2+\cdots+m_k=n$ ，則稱 $m_i$ 為特征值 $\lambda_i$ 的代數重數（algebraic multiplicity）。若 $n(A-\lambda_i I)=n_i$ ，則稱 $n_i$ 為特征值 $\lambda_i$ 的幾何重數（geometric multiplicity）。

當我們省略前綴稱“重數”時，基本上都是指代數重數。

一個特征值的代數重數就是它在特征多項式中作為根出現的次數，幾何重數就是它對應的特征空間的維數。

我們觀察到的現象就等價於這樣一個式子： $n_i\leq m_i$ 。

我們這里先采取一個比較快速的做法證明這個結論，而相應地，這個方法的缺點是無法揭示代數重數和幾何重數之間的關系。下一篇中，我們將介紹更加本質的證明方法。

定理20.4 令 $A$ 為一 $n×n$ 矩陣， $\lambda_0$ 是 $A$ 的一個幾何重數為 $k\,(1\leq k\leq n)$ 的特征值，則 $\lambda_0$ 的代數重數大於等於 $k$ 。

證1（需要一定的線性變換基礎）設 $\lambda_0$ 的特征空間的一組基為 $\{\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k\}$ ，注意到 $\lambda_0$ 的特征空間是 $\bold{R}^n$ 的子空間，因此可以將這組基擴充為 $\bold{R}^n$ 的一組基 $\{\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k,\boldsymbol{x}_{k+1},…,\boldsymbol{x}_n\}$ 。設 $A$ 在標准基下所對應的線性算子為 $L$ ，則 $L$ 在這組基上的作用為

$\\\begin{aligned}L(\boldsymbol{x}_i)&=A\boldsymbol{x}_i=\lambda_0\boldsymbol{x}_i\,(1\leq i\leq k) \\L(\boldsymbol{x}_i)&=A\boldsymbol{x}_i=\boldsymbol{y}_i\quad\,\,(k+1\leq i\leq n)\end{aligned}$

其中 $\boldsymbol{y}_i\in\bold{R}^n$ 是某個向量。因此，設 $B$ 是 $L$ 在基 $\{\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_n\}$ （簡記為 $X$ ）下的表示矩陣，就有

$\\\begin{aligned}{}\left[L(\boldsymbol{x}_i)\right]_X&=B\boldsymbol{e}_i=\lambda_0\boldsymbol{e}_i\,(1\leq i\leq k) \\\left[L(\boldsymbol{x}_i)\right]_X&=B\boldsymbol{e}_i=\boldsymbol{w}_i\quad(k+1\leq i\leq n)\end{aligned}$

注意到 $B\boldsymbol{e}_i=\boldsymbol{b}_i$ 就是矩陣 $B$ 的第 $i$ 列，因此

$\\\begin{aligned}B&=\begin{bmatrix}{}\lambda_0\boldsymbol{e}_1&\lambda_0\boldsymbol{e}_2&\cdots&\lambda_0\boldsymbol{e}_k&\boldsymbol{w}_{k+1}&\cdots&\boldsymbol{w}_n\end{bmatrix} \\&=\left[\begin{array}{cccc|ccc}\lambda_0&0\quad&\cdots&0&w_{1,k+1}&\cdots&w_{1,n}\\0&\lambda_0\quad&\cdots&0&w_{2,k+1}&\cdots&w_{2,n}\\\vdots&\vdots\quad&\ddots&\vdots&\vdots&\ddots&\vdots\\0&0\quad&\cdots&\lambda_0&w_{k,k+1}&\cdots&w_{k,n}\\ \hline0&0\quad&\cdots&0&w_{k+1,k+1}&\cdots&w_{k+1,n}\\0&0\quad&\cdots&0&w_{k+2,k+1}&\cdots&w_{k+2,n}\\\vdots&\vdots\quad&\ddots&\vdots&\vdots&\ddots&\vdots\\0&0\quad&\cdots&0&w_{n,k+1}&\cdots&w_{n,n}\end{array}\right]\end{aligned}\tag{4}$

由於 $A$ 和 $B$ 是 $L$ 在不同基下的表示矩陣，因此 $A$ 和 $B$ 相似（事實上 $B=X^{-1}AX$ ）。

故由定理18.3，它們有完全相同的特征多項式。而 $B$ 的特征多項式 $|B-\lambda I|$ 的乘積式（3）中必然含有 $(\lambda_0-\lambda)^k$ 這一因子（對行列式沿第一列展開后只有一項 $(\lambda_0-\lambda)M_{11}$ ，然后對余子式 $M_{11}$ 沿第一列展開，以此類推），因此 $\lambda_0$ 是 $B$ 的代數重數至少為 $k$ 的特征值，從而也是 $A$ 的代數重數至少為 $k$ 的特征值。

證2 設 $\lambda_0$ 的特征空間的一組基為 $\{\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k\}$ ，注意到 $\lambda_0$ 的特征空間是 $\bold{R}^n$ 的子空間，因此可以將這組基擴充為 $\bold{R}^n$ 的一組基 $\{\boldsymbol{x}_1,\boldsymbol{x}_2,…,\boldsymbol{x}_k,\boldsymbol{x}_{k+1},…,\boldsymbol{x}_n\}$ 。令 $X=\begin{bmatrix}\boldsymbol{x}_1&\boldsymbol{x}_2&\cdots&\boldsymbol{x}_n\end{bmatrix}$ ，並令 $B=X^{-1}AX$ ，則通過 $XB=AX$ 可以驗證 $B$ 有證1中（4）式的形式。又由 $X$ 可逆知 $A$ 與 $B$ 相似，之后的過程同證1的最后一段。

上述兩個證明的核心都在於，說明 $A$ 所對應的線性算子 $L$ 在 $\lambda_0$ 的特征空間的基上的表示矩陣是一個對角元素都為 $\lambda_0$ 的 $k×k$ 對角陣，這從特征值和表示矩陣的幾何意義出發是十分好理解的。在此基礎上，證1忠實地展現了這一思路，而證2則是直接給出結論並進行驗證，隱去了中間的思考過程。

因此我們就證明了：一個矩陣的任一特征值的幾何重數小於等於其代數重數，即 $n_i\leq m_i$ 。

利用這個結論，若一 $n\times n$ 矩陣有 $k$ 個相異的特征值，則 $\sum_{i=1}^kn_i\leq\sum_{i=1}^km_i=n$ ，等號成立當且僅當對每一 $i=1,2,…k$ ，都有 $n_i=m_i$ ，這一論斷等價於下面的定理：

定理20.5 令 $A$ 為一 $n×n$ 矩陣，則 $A$ 可對角化當且僅當 $A$ 的所有相異的特征值的幾何重數等於其代數重數。

這是判斷一個方陣是否可對角化的又一充要條件。

定理20.6 令 $A$ 為一 $n×n$ 矩陣，且 $\lambda=0$ 是 $A$ 的特征值，則 $\lambda=0$ 的代數重數大於等於 $n(A)$ ，等號成立當且僅當 $A$ 可對角化。

定理20.6是定理20.4和定理20.5的推論，只需注意到 $\lambda=0$ 的幾何重數就是 $n(A)$ 。

定理20.7 令 $A$ 為一 $n×n$ 矩陣，則 $A$ 的非零特征值的代數重數之和小於等於 $r(A)$ ，等號成立當且僅當 $A$ 可對角化。

定理20.7則是定理20.6的推論，這意味着可對角化矩陣的非零特征值的總個數（按代數重數計數）就是矩陣的秩。

最后，讓我們用一條較為綜合性的定理作為結尾；這條定理的重要性在於，它說明了可以從矩陣的對角化分解的形式中直接得到關於該矩陣的兩個基本子空間的信息。

定理20.8 令 $A$ 為一可對角化矩陣，且 $A=X^{-1}DX$ ，其中 $D$ 為對角陣，則對應於 $A$ 的非零特征值的 $X$ 的所有列向量構成了 $R(A)$ 的一組基；若 $\lambda=0$ 是 $A$ 的特征值，則對應於 $\lambda=0$ 的 $X$ 的所有列向量構成了 $N(A)$ 的一組基。

證只對定理的前半進行證明，后半部分證明完全類似。由於 $A$ 可對角化，因此 $A$ 的非零特征值的代數重數之和等於 $r(A)$ （定理20.7），從而幾何重數之和也等於 $r(A)$ （定理20.4），而 $X$ 的列向量均為 $A$ 的特征向量（定理19.1），因此對應於 $A$ 的非零特征值的 $X$ 的列向量總共有 $r(A)$ 個，且它們線性無關（定理20.1），而 $A$ 的非零特征值的特征向量都屬於 $R(A)$ （特征向量的性質），故它們構成了 $R(A)$ 的一組基（定理8.3）。

從而我們就可以看出，對角化作為矩陣的一種分解，揭示了矩陣非常多信息：所有特征值和特征向量、行列式和跡、列空間和零空間（包括其維數與基）等。但可惜的是，從前面的所有探究來看，不是所有矩陣都可以應用這么有用的工具；因此，尋找一種比對角化更為通用的工具就成為了接下來的探索目標——若爾當標准型，就將會是其中的一個成果。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 左右特征向量特征向量的數值求法矩陣的特征值和特征向量特征值和特征向量特征向量與特征值及其應用特征值和特征向量的性質特征值與特征向量及其應用特征值和特征向量方陣的特征值與特征向量特征值和特征向量