第七大題 設 $A$ 為 $n$ 階復方陣, 證明: 存在復數 $c_1,\cdots,c_{n-1}$, 使得 $$A-c_1e^A-c_2e^{2A}-\cdots-c_{n-1}e^{(n-1)A}$$ 是可對角化矩陣.
本題是復旦大學數學學院 18 級高等代數 II 期中考試的第七大題, 雖然結論涉及矩陣的多項式表示和可對角化矩陣, 但考察的重點其實是矩陣 Jordan 標准型的應用. 本題有三種證法, 第一種證法就是 Jordan 標准型的應用, 整個證明過程類似於 Jordan-Chevalley 分解定理的證明. 注意在“三段論法”的第一步, 我們並非只證明單個 Jordan 塊的情形, 而需要將相差 $2k\pi\mathrm{i}\,(k\in\mathbb{Z})$ 的特征值的所有 Jordan 塊放在一起考慮. 第二種證法 (由但暉博士后提供) 直接利用 Jordan-Chevalley 分解定理來證明, 先處理冪零矩陣的情形, 再處理一般的情形. 第三種證法 (由 18 級周爍星同學提供) 另辟蹊徑, 只利用 Jordan 塊的基本性質和 Hermite-Lagrange 多重插值公式就給出了一個簡潔的證明.
定義 兩個復數 $\lambda,\mu$ 稱為等價的, 如果 $e^\lambda=e^\mu$, 即 $\lambda-\mu=2k\pi\mathrm{i}\,(k\in\mathbb{Z})$.
證法一 (Jordan 標准型的應用) 設 $P$ 為非異陣, 使得 $P^{-1}AP=J=\mathrm{diag}\{J_1,J_2,\cdots,J_k\}$ 為 Jordan 標准型, 其中 $[\lambda_1],[\lambda_2],\cdots,[\lambda_k]$ 是 $A$ 的特征值的等價類全體, 與 $\lambda_i$ 等價的所有特征值的 Jordan 塊拼成的分塊對角陣為 $J_i$, 其階數設為 $n_i\,(1\leq i\leq k)$. 以下按照“三段論法”來進行討論 (參考高代白皮書的第 7.2.8 節).
Step 1 任取 $J_i$ 中某一 Jordan 塊 $J_{r_i}(\lambda_i)$, 由高代教材第 333 頁的第二行公式可得: $$e^{jJ_{r_i}(\lambda_i)}=e^{j\lambda_i}\cdot\begin{pmatrix} 1 & \dfrac{j}{1!} & \dfrac{j^2}{2!} & \cdots & \dfrac{j^{r_i-1}}{(r_i-1)!} \\ & 1 & \dfrac{j}{1!} & \ddots & \vdots \\ & & \ddots & \ddots & \dfrac{j^2}{2!} \\ & & & \ddots & \dfrac{j}{1!} \\ & & & & 1\\ \end{pmatrix}.$$ 若設 $$(1)\quad J_{r_i}(\lambda_i)=c_0I_{r_i}+c_1e^{J_{r_i}(\lambda_i)}+c_2e^{2J_{r_i}(\lambda_i)}+\cdots+c_{n-1}e^{(n-1)J_{r_i}(\lambda_i)},$$ 則 (1) 式等價於如下線性方程組, 其中 $d=e^{\lambda_i}\neq 0$: $$(2)\quad\left\{\begin{array}{rcl} c_0+c_1d+c_2d^2+\cdots+c_{n-1}d^{n-1}&=&\lambda_i, \\ c_1\dfrac{d}{1!}+c_2\dfrac{2d^2}{1!}+\cdots+c_{n-1}\dfrac{(n-1)d^{n-1}}{1!}&=&1, \\ c_1\dfrac{d}{2!}+c_2\dfrac{2^2d^2}{2!}+\cdots+c_{n-1}\dfrac{(n-1)^2d^{n-1}}{2!}&=&0, \\ \cdots\cdots&=&0, \\ c_1\dfrac{d}{(r_i-1)!}+c_2\dfrac{2^{r_i-1}d^2}{(r_i-1)!}+\cdots+c_{n-1}\dfrac{(n-1)^{r_i-1}d^{n-1}}{(r_i-1)!}&=&0, \\ \end{array}\right.$$ 其矩陣形式為 $$(3)\quad\begin{pmatrix} 1 & d & d^2 & \cdots & d^{n-1} \\ 0 & \dfrac{d}{1!} & \dfrac{2d^2}{1!} & \cdots & \dfrac{(n-1)d^{n-1}}{1!} \\ 0 & \dfrac{d}{2!} & \dfrac{2^2d^2}{2!} & \cdots & \dfrac{(n-1)^2d^{n-1}}{2!} \\ \vdots & \vdots & \vdots & & \vdots \\ 0 & \dfrac{d}{(r_i-1)!} & \dfrac{2^{r_i-1}d^2}{(r_i-1)!} & \cdots & \dfrac{(n-1)^{r_i-1}d^{n-1}}{(r_i-1)!} \\ \end{pmatrix}\cdot\begin{pmatrix} c_0 \\ c_1 \\ c_2 \\ \vdots \\ c_{n-1} \end{pmatrix}=\begin{pmatrix} \lambda_i \\ 1 \\ 0 \\ \vdots \\ 0 \end{pmatrix}.$$ 設方程組 (3) 的系數矩陣為 $M_{r_i\times n}$, 通過 Vandermonde 行列式易證 $r(M)=r_i$, 即 $M$ 是行滿秩陣, 從而由 $M$ 誘導的線性映射是滿射, 於是方程組 (3) 必有解, 這等價於存在復數 $c_0,c_1,c_2,\cdots,c_{n-1}$, 使得 (1) 式成立, 即每個 Jordan 塊 $J_{r_i}(\lambda_i)$ 都可表示為 $e^{J_{r_i}(\lambda_i)}$ 的多項式.
一般地, 取 $J_i$ 中階數最大的 Jordan 塊 $J_{r_i}(\lambda_i)$ 以及滿足 (1) 式的復數 $c_0,c_1,c_2,\cdots,c_{n-1}$. 注意到方程組 (3) 中的矩陣 $M_{r_i\times n}$ 只依賴於 $d=e^{\lambda_i}$, 故對 $J_i$ 中另一 Jordan 塊 $J_{r_j}(\lambda_j)$, 其中 $\lambda_i$ 與 $\lambda_j$ 等價且 $r_i\geq r_j$, 則 $M_{r_j\times n}$ 是 $M_{r_i\times n}$ 的子矩陣. 換言之, Jordan 塊 $J_{r_j}(\lambda_j)$ 對應的方程組 (2), 除了第一個方程右端是 $\lambda_j$ 之外, 其余方程都是 Jordan 塊 $J_{r_i}(\lambda_i)$ 對應的方程組 (2) 的一部分. 由此可得 $$(4)\quad J_{r_j}(\lambda_j)=(c_0+\lambda_j-\lambda_i)I_{r_j}+c_1e^{J_{r_j}(\lambda_j)}+c_2e^{2J_{r_j}(\lambda_j)}+\cdots+c_{n-1}e^{(n-1)J_{r_j}(\lambda_j)}.$$ 令 $$g_i(\lambda)=c_0+c_1\lambda+c_2\lambda^2+\cdots+c_{n-1}\lambda^{n-1}\in\mathbb{C}[\lambda],$$ 則由 (1) 式和 (4) 式可知 $J_i-g_i(e^{J_i})=\Lambda_i$ 為對角陣, 且主對角線上的元素為 $2k\pi\mathrm{i}\,(k\in\mathbb{Z})$.
Step 2 注意到 $e^{J_i}$ 的特征多項式為 $(\lambda-e^{\lambda_i})^{n_i}\,(1\leq i\leq k)$, 它們兩兩互素, 故由中國剩余定理可知, 存在 $g(\lambda)\in\mathbb{C}[\lambda]$, 使得 $$g(\lambda)=(\lambda-e^{\lambda_i})^{n_i}q_i(\lambda)+g_i(\lambda),\quad 1\leq i\leq k.$$ 設 $e^J=\mathrm{diag}\{e^{J_1},e^{J_2},\cdots,e^{J_k}\}$ 的特征多項式為 $f(\lambda)=\prod\limits_{i=1}^k(\lambda-e^{\lambda_i})^{n_i}$, 則由帶余除法可得 $$g(\lambda)=f(\lambda)q(\lambda)+h(\lambda),\quad \deg h(\lambda)<\deg f(\lambda)=n.$$ 由 Cayley-Hamilton 定理可知 $h(e^{J_i})=g(e^{J_i})=g_i(e^{J_i})$, 於是 $J_i-h(e^{J_i})=\Lambda_i$. 令 $\Lambda=\mathrm{diag}\{\Lambda_1,\Lambda_2,\cdots,\Lambda_k\}$, 則 $\Lambda$ 為對角陣, 主對角線上的元素為 $2k\pi\mathrm{i}\,(k\in\mathbb{Z})$, 並且 $$J-h(J)=\mathrm{diag}\{J_1-h(e^{J_1}),J_2-h(e^{J_2}),\cdots,J_k-h(e^{J_k})\}=\Lambda.$$
Step 3 最后, 我們有 $A-h(A)=P(J-h(J))P^{-1}=P\Lambda P^{-1}$, 這是一個可對角化矩陣, 其特征值為 $2k\pi\mathrm{i}\,(k\in\mathbb{Z})$.
證法二 (Jordan-Chevalley 分解定理) 我們分兩步來證明, 先處理冪零陣的情形, 再利用 Jordan-Chevalley 分解定理處理一般的情形.
Step 1 先假設 $A$ 為冪零陣, 即 $A^n=0$, 從而有 $$\left\{\begin{array}{ccl} I_n&=&I_n, \\ e^A&=&I_n+A+\dfrac{A^2}{2!}+\cdots+\dfrac{A^{n-1}}{(n-1)!}, \\ e^{2A}&=&I_n+2A+\dfrac{2^2A^2}{2!}+\cdots+\dfrac{2^{n-1}A^{n-1}}{(n-1)!}, \\ \vdots&=&\vdots \\ e^{(n-1)A}&=&I_n+(n-1)A+\dfrac{(n-1)^2A^2}{2!}+\cdots+\dfrac{(n-1)^{n-1}A^{n-1}}{(n-1)!}, \\ \end{array}\right.$$ 即有形式列向量的矩陣乘法: $$(5)\quad \begin{pmatrix} I_n \\ e^A \\ e^{2A} \\ \vdots \\ e^{(n-1)A} \\ \end{pmatrix}=\begin{pmatrix} 1 & 0 & 0 & \cdots & 0 \\ 1 & 1 & \dfrac{1}{2!} & \cdots & \dfrac{1}{(n-1)!} \\ 1 & 2 & \dfrac{2^2}{2!} & \cdots & \dfrac{2^{n-1}}{(n-1)!} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & n-1 & \dfrac{(n-1)^2}{2!} & \cdots & \dfrac{(n-1)^{n-1}}{(n-1)!} \\ \end{pmatrix}\cdot\begin{pmatrix} I_n \\ A \\ A^2 \\ \vdots \\ A^{n-1} \\ \end{pmatrix}.$$ 注意到 (5) 式右邊的 $n$ 階方陣 $T$ 是一個非異陣 (因其行列式可化為 Vandermonde 行列式), 故可將 $T$ 從 (5) 式的右邊移至左邊變為 $T^{-1}$. 特別地, 對應形式列向量的矩陣乘法告訴我們: $A$ 可表示為 $e^A$ 的多項式, 從而結論得證.
Step 2 對於一般的情形, 考慮 $A$ 的 Jordan-Chevalley 分解 $A=B+C$, 其中 $B$ 為可對角化矩陣, $C$ 為冪零矩陣, $BC=CB$, 且 $B,C$ 均可表示為 $A$ 的多項式. 根據題目的結論, 我們只要證明 $C$ 可表示為 $e^A$ 的多項式即可 (注意: Step 1 只是證明了: $C$ 可表示為 $e^C$ 的多項式, 並非 $e^A$ 的多項式). 由於題目的條件和結論在同時相似關系下不改變, 並由 Jordan-Chevalley 定理的證明過程 (參考高代教材的第 324 頁), 故不妨設 $A$ 為 Jordan 標准型, $B=\mathrm{diag}\{\lambda_1,\lambda_2,\cdots,\lambda_n\}$ 為對角陣, $C=\mathrm{diag}\{C_1,C_2,\cdots,C_k\}$ 為分塊對角陣, 其中 $\lambda_1,\lambda_2,\cdots,\lambda_n$ 是 $A$ 的全體特征值, $C_i$ 是 $n_i$ 階冪零陣, $$\mu_1=e^{\lambda_1}=\cdots=e^{\lambda_{n_1}}, \mu_2=e^{\lambda_{n_1+1}}=\cdots=e^{\lambda_{n_1+n_2}}, \cdots, \mu_k=e^{\lambda_{n_1+\cdots+n_{k-1}+1}}=\cdots=e^{\lambda_n},$$ 並且 $\mu_1,\mu_2,\cdots,\mu_k$ 互不相同. 由 $BC=CB$ 可知 $$e^A=e^{B+C}=e^B\cdot e^C=\begin{pmatrix} \mu_1e^{C_1} & & & \\ & \mu_2e^{C_2} & & \\ & & \ddots & \\ & & & \mu_ke^{C_k} \\ \end{pmatrix}.$$ 由 Step 1 可知, $C$ 的每個分塊 $C_i$ 都是 $e^{C_i}$ 的多項式, 從而是 $\mu_ie^{C_i}$ 的多項式. 注意到 $e^A$ 的每個分塊 $\mu_ie^{C_i}$ 的特征值 $\mu_i$ 互不相同, 故由高代白皮書的例 7.24 (中國剩余定理的應用) 可知, $C$ 是 $e^A$ 的多項式, 從而結論得證.
證法三 (多重插值公式) 令 $f(z)=z-c_1e^z-c_2e^{2z}-\cdots-c_{n-1}e^{(n-1)z}$, 則 $$f'(z)=1-c_1e^z-2c_2e^{2z}-\cdots-(n-1)c_{n-1}e^{(n-1)z}.$$ 令 $g(x)=1-c_1x-2c_2x^2-\cdots-(n-1)c_{n-1}x^{n-1}\in\mathbb{C}[x]$, 則 $f'(z)=g(e^z)$. 本題的結論為: 確定函數 $f(z)$ (即確定常數 $c_1,c_2,\cdots,c_{n-1}$), 使得 $f(A)$ 為可對角化矩陣. 注意到確定函數 $f(z)$ 等價於確定多項式 $g(x)$.
由於題目的條件和結論在相似關系下不改變, 故不妨設 $A=\mathrm{diag}\{J_{r_1}(\lambda_1),J_{r_2}(\lambda_2),\cdots,J_{r_k}(\lambda_k)\}$ 為 Jordan 標准型, 於是 $f(A)=\mathrm{diag}\{f(J_{r_1}(\lambda_1)),f(J_{r_2}(\lambda_2)),\cdots,f(J_{r_k}(\lambda_k))\}$, 其中 $$f(J_{r_i}(\lambda_i))=\begin{pmatrix} f(\lambda_i) & f'(\lambda_i) & \dfrac{f^{(2)}(\lambda_i)}{2!} & \cdots & \dfrac{f^{(r_i-1)}(\lambda_i)}{(r_i-1)!} \\ & f(\lambda_i) & f'(\lambda_i) & \cdots & \dfrac{f^{(r_i-2)}(\lambda_i)}{(r_i-2)!} \\ & & f(\lambda_i) & \cdots & \dfrac{f^{(r_i-3)}(\lambda_i)}{(r_i-3)!} \\ & & & \ddots & \vdots \\ & & & & f(\lambda_i)\\ \end{pmatrix}.$$ 由 Hermite-Lagrange 多重插值公式 (參考 [3] 的第 12 章或 [4] 的第 1 章), 可取到次數小於等於 $n-1$ 的多項式 $g(x)\in\mathbb{C}[x]$, 使得 $$g(0)=1,\quad g^{(j)}(e^{\lambda_i})=0,\quad 0\leq j\leq r_i-2,\,\,1\leq i\leq k,$$ 由此便確定了函數 $f(z)$. 進一步, 由 $f'(z)=g(e^z)$ 以及求導法則可知 $$f^{(j)}(\lambda_i)=0,\quad 1\leq j\leq r_i-1,\,\,\,\,1\leq i\leq k.$$ 由此即得 $f(J_{r_i}(\lambda_i))=\mathrm{diag}\{f(\lambda_i),f(\lambda_i),\cdots,f(\lambda_i)\}$ 為對角陣, 從而 $f(A)$ 也為對角陣. $\Box$
我們可得如下兩個推論, 其中推論 1 是本題的推廣, 推論 2 給出了 $A$ 表示為 $e^A$ 的多項式的充要條件.
推論 1 設 $A$ 為 $n$ 階復方陣, 則存在次數小於等於 $n-1$ 的復系數多項式 $h(x)$, 使得 $A-h(e^A)$ 是一個可對角化矩陣, 其特征值為 $2k\pi\mathrm{i}\,(k\in\mathbb{Z})$.
證明 由證法一的 Step 3 即得. $\Box$
推論 2 設 $A$ 為 $n$ 階復方陣, 則 $A$ 可表示為 $e^A$ 的多項式的充要條件為, 如果 $A$ 有兩個特征值等價, 則它們必相等. 特別地, 若 $A$ 的全體特征值的虛部都在 $[0,2\pi)$ 中, 則 $A$ 可表示為 $e^A$ 的多項式.
證明 充分性由推論 1 即得. 至於必要性, 設 $A=h(e^A)$, 其中 $h(x)$ 為復系數多項式, $\lambda,\mu$ 是 $A$ 的兩個等價特征值, 則它們也適合方程式 $x=h(e^x)$, 從而 $\lambda=h(e^{\lambda})=h(e^{\mu})=\mu$. $\Box$
點評 證法一作為 Jordan 標准型的應用, 相對於其他兩種證法更易於入手. 雖然證法一篇幅較長, 但證明過程中的分析比較徹底, 由此也得到了更加深刻的結果 (兩個推論). 證法二從本質上看應該和證法一是類似的, 比如它們都與 Jordan-Chevalley 分解定理有關聯, 在構造多項式表示時都用到了中國剩余定理. 由於證法二是直接引用 Jordan-Chevalley 分解和高代白皮書的例 7.24, 從而證明過程顯得更加簡潔; 而證法一相當於利用類似的思想去處理新的問題, 所以證明的篇幅較長. 證法三的確十分巧妙, 但從推廣的角度來看, 並非是本質的證明. 最后, 在推論 2 中, 若記 $B=e^A$, 則 $A=\mathrm{ln}B$ (取定了對數函數的一個單值分支) 可表示為 $B$ 的多項式, 這也是矩陣函數理論中的一個簡單結論 (參考 [4] 的第 1 章).
參考文獻
[1] 高代教材: 姚慕生, 吳泉水, 謝啟鴻 編著, 高等代數學 (第三版), 復旦大學出版社, 2014.
[2] 高代白皮書: 姚慕生, 謝啟鴻 編著, 學習方法指導書: 高等代數 (第三版), 復旦大學出版社, 2015.
[3] 樓紅衛 編著, 數學分析 要點 難點 拓展, 高等教育出版社, 2020.
[4] N. J. Higham, Functions of Matrices, Theory and Computation, SIAM, 2008.