教材是 Linear Algebra (4th edition) Stephen H. Friedberg, Arnold J. Insel, Lawrence E. Spence \(\newcommand{\b}{\beta}\newcommand{\l}{\lambda}\DeclareMathOperator{\span}{span}\newcommand{\lin}[1]{\left\langle #1 \right\rangle} \newcommand{\norm}[1]{ \Vert #1 \Vert}\)
Diagonalization
對於一個 \(V\) 上的線性變換 \(T\),我們希望能夠選取一組合適的 ordered basis \(\b\),使得 \([T]_\b\) 足夠的簡單,也就是說將 \(T\) 做 diagonalization。
這誘導我們關注一類特別的向量 \(v\in V\),滿足 \(Tv = \l v\)。我們稱這樣的 \(v\) 為 eigenvector,這樣的 \(\l\) 為 eigenvalue。如何找出他們?移項,得到 \((T-\l I) v = 0\),由此我們知道 \(v \in \ker (T - \l I)\),后者非平凡,所以應當有 \(\det( T - \l I) = 0\)。稱這個多項式 \(p(\l) = \det(T-\l I)\) 為 characteristic polynomial。
接下來就輪到了 Cayley-Hamilton 定理:\(P(T) = O\),如果 \(T\) is diagonalizable 那么自然是正確的,但是其余情況我們可以考慮一個初等做法。對每個向量 \(v\),考慮 \(W = \span \{v,Tv,\dots,T^{p-1}v\}\),其中 \(p\) 是最大的整數使得該集合構成一組基,設這組基為 \(\b\),那么下一個向量就有 \(T^p v = \sum_{i=0}^{p-1} c_i T^i v\)。易見 \(W\) 是 \(T\)-invariant 的,那么將 \(T\) 限制在 \(W\) 上就有
易見這個矩陣的特征多項式是 \(t^p - c_{p-1}t^{p-1} - \dots - c_0\),且是 \(T\) 的特征多項式的一個因子,故有 \(p(T)v =0\),對所有的 \(v\) 都成立,因此必有 \(p(T)=O\)。
回到我們對於 diagonalizability 的討論。特征多項式 \(p(t)\) 無疑是重要的,我們稱 \(\l_i\) 的重根數量為 \(m_i\),也即它的 algebraic multiplicity。記 eigenspace \(E_{\l} = \ker (T-\l I)\),那么我們可以通過基的選取證明 \(1\le \dim E_{\l_i}\le m_i\)。
只有當 \(p(t)\) 在我們考慮的 \(F\) 上 splits 的時候,才有 \(\sum_i m_i = \dim V\),所以 \(p(t)\) splits 且 \(\dim E_{\l_i} = m_i, \forall i\) 是一個可對角化的必要條件。那么它是不是充分的呢?我們就需要證明 \(E_{\l_1} + \cdots + E_{\l_p} = V\) 了,由於此時 \(\dim\) 之和相等,我們只需要證明這個空間的和就等於他們的 direct sum。也即 \(v_1 + \cdots + v_p = 0, v_i \in E_{\l_i}\) 沒有非零解。這是通過對 \(p\) 歸納不難得到的。由此,我們只需要從每個 eigenspace \(E_{\l_i}\) 中選取一組基 \(\b_i\),此時 \(\b = \b_1 \cup \cdots \cup \b_p\) 就給出了一個 diagonalization。
Inner product space
對於線性空間 \(V\) 在其上裝配內積 \(\lin{x,y}\),滿足對第一個分量的線性性和 \(\lin{y,x} = \overline{\lin {x,y}}\),以及 \(\lin{x,x} > 0, \forall x \neq 0\),此時我們發現定義 \(\norm x = \sqrt{\lin{x,x}}\),這就是符合我們平時定義的距離。
首先它能導出 Cauchy-Schwarz 不等式:\(|\lin{x,y}|\le \norm x \cdot \norm y\)。固定 \(x\) 看 \(y\),這就是說只有 \(x,y\) 平行的時候能達到等號。因此我們可以考慮 \(\norm{x + cy} \ge 0\),取 \(c = -\frac{\lin{x,y}}{\lin{y,y}}\) 即證。進一步推出三角不等式。
對於線性變換 \(T\),我們稱 \(\lin{Tx,y} = \lin{x,T^*y}, \forall x,y\in V\) 的 \(T^*\) 為 \(T\) 的 adjoint。易見,選取 standard ordered orthogonal basis 的情況下,\(T^*\) 就是 \(T\) 的共軛轉置。但為了讓任意 \(T\) 有 \([T^*]_\b = ([T]_\b)^*\),我們還需要讓這組基是 orthonomal 的,也即 \(\lin{v_i,v_j} = \delta_{ij}\)。
因此,我們很自然地想問:如何得到這樣的基?在這樣的基的限制之下,\(T\) 是否還能有 diagonalization?
對於如何得到這樣的基,我們可以將一個已有的 ordered basis 首先變得 orthogonal,然后歸一化。這個變得 orthogonal 的過程就叫做 Gram-Schmidt orthogonalization,其實就是類似高斯消元的過程:
在 \(\C\) 上,我們有 \(T\) orthonormal diagonalizable \(\iff T T^* = T^*T\),也即 \(T\) normal。這可以通過 Schur 定理給出的上三角矩陣進一步得到。在 \(\R\) 上,我們有 \(T\) orthonormal diagonalizable \(\iff T = T^*\),也即 self-adjoint (Hermitian)。
正交性同時讓我們可以給空間定義唯一的 orthogonal completement \(W^\perp = \{ v \mid \lin{x,w} = 0, \forall w\in W\}\)。在幾何直觀上,對於任何向量 \(x = w + v, w\in W, v \in W^\perp\) 就給出了 \(x\) 距離 \(W\) 最近的向量 \(w\)。
這進一步幫助我們計算最小二乘法:給定 \(y\) 和矩陣 \(A\),要求最小化 \(\norm{Ax - y}\)。這實際上就是讓我們找到 \(\lin{y-Ax,Ax'}=0, \forall x'\),也即解方程 \(A^* y = A^* Ax\)。當 \(A\) 列滿秩,必有 \(A^*A\) 滿秩,此時有唯一解。
同時,我們也可以計算一個 equation 的 minimal solution:對於方程 \(Ax=b\),我們希望找到 \(\norm x\) 最小的解。那么對於任意 \(Ax'=0\),應有 \(\lin{x,x'}=0\)。由此推得 \(x \in \image A^*\)。設 \(x= A^*u\),我們首先解方程 \(AA^*u=b\),然后取 \(x = A^*u\)。
對於一般的 diagonalization,反映在矩陣上即為 \(A \mapsto Q^{-1}AQ\),而對於 orthogonal diagonalization,則需要 \(QQ^*=I\),稱為 unitary matrix,在 \(\R\) 上則退化為 \(QQ^t=I\),稱為 orthogonal matrix。其另一個等價條件是 \(\norm{T(x)} = \norm x, \forall x\in V\)。
orthogonal diagonalization 的另一個表述為 spectral theorem,也即對於一個 normal (self-adjoint) 的線性變換 \(T\),可以分解為正交空間 \(W_1,\dots,W_k\) 的直和,滿足 \(T = \l_1 T_1 + \cdots + \l_k T_k\),其中 \(T_i\) 是在 \(V\) 在 \(W_i\) 上的 orthogonal projection。進一步地,我們可以通過 Lagrange 插值證明,\(T\) 是 normal 的當且僅當 \(T\) 是 \(T^*\) 的多項式。
由此,我們可以稱一個 self-adjoint 的線性映射是 positive (semi)definite 的當且僅當 \(\forall x\neq 0, \lin{Tx,x} > 0 (\ge 0)\)。根據 orthogonal diagonalization,我們有 \(A\) positive (semi)definite \(\iff A = B^*B\)。
我們還試圖刻畫裝備了內積的空間之間的線性映射。設 \(T: V \to W\),我們可以找到 \(V\) 上的 orthogonal basis \(v_1,\dots,v_n\) 和 \(W\) 上的 orthogonal basis \(u_1,\dots,u_m\)。使得對於 \(i\le k\),有 \(T v_i = \sigma_i u_i\),更大的 \(i\) 有 \(T v_i = 0\)。將 \(\sigma_i\) 從大到小排列時,稱為這個線性變換的 Singular Value Decomposition,又寫作 \(T = U \Sigma V^*\)。考慮 \(A = T^*T\) 是 positive semidefinite 的,對其取 orthogonal basis \(v_1,\dots,v_n\) 必然有 \(A v_i = \l_i v_i\),則可取 \(\sigma_i = \sqrt{\l_i}\),\(u_i = \frac 1{\sigma_i} Tv_i\),然后擴展出剩下的部分即得。
我們考慮 \(V\) 上的雙線性函數,選取一組基之后,雙線性函數無非就是一個 \(n\times n\) 的方陣。但換基的變換是 \(Q^tAQ\),與相似變換有所不同。當 bilinear form \(H\) 是對稱的,那么在 characteristic 不為 \(2\) 的域上,我們總能經過適當的消元將其對角化。如果 \(V\) 上裝配了內積,那么由於我們有 orthogonal diagonalization,有對角化 \(Q^{-1}HQ = Q^tHQ\)。
Canonical forms
雖然我們在矩陣的 diagonalization 上已經得到了很多結果,但是我們依然希望在不可對角化的矩陣上取得一定結果。假設 \(p(t)\) 在 \(F\) 上 split,對重數為 \(m\) 的 eigenvalue \(\l\),我們令 \(K_{\l} = \ker (T - \l I)^{m}\),注意到對 \(\mu \neq \l\),\(T-\mu I\) 是在 \(K_\l\) 上的雙射,進一步可以歸納得到,\(K_{\l_1} + K_{\l_2} + \cdots + K_{\l_k} = V\),進而給出了 \(V\) 的一個直和分解。接下來,我們就只需研究 \(T\) 在每個 \(K_\l\) 上的效果了。
在 \(K_\l\) 中,對每個向量 \(v\),我們有 \(T\)-invariant subspace \(W = \span \{(T-\l I)^{p-1}v, \dots, (T-\l I)v, v \}\),其中 \((T-\l I)^p v = 0\)。我們稱這組基 \(\gamma\) 為一個 cycle。我們發現有
這被稱為一個 Jordan block。令 \(W = \image (T-\l I)\),由於 \(W\) 是一個更小的空間,歸納假設 \(W\) 可以由若干個 cycle 組成一組基,由於最后一個向量 \(v\in \image (T-\l I)\),我們可以解出 \((T-\l I)x = v\),得到新的 end vector,再添上額外的 eigenvector,就得到了 \(K_\l\) 的一組基。因此,每個 \(p(t)\) splits 的矩陣都存在這樣一個 Jordan canonical form,cycles 的大小集合一定是唯一的,這可以通過簡單的算 \(\dim\) 得到。
Jordan canonical form 還直接給出了一個矩陣的 minimal polynomial。對於每個 eigenvalue,只需取其最大的 Jordan block 的大小 \(l\),\(\prod (x- \l_i)^{l_i}\) 即為 minimal polynomial。