【線性代數】 09 - 正規變換和二次型


1. 正規變換

1.1 伴隨變換

  在上一篇的最后我們看到,滿足一定內積性質的線性變換可以有很好的不變子空間分割,現在對更一般的形式進行討論。設內積空間中有\(V=W\oplus W^{\perp}\),且\(W\)是線性變換\(\mathscr{A}\)的不變子空間,任取\(\alpha\in W,\beta\in W^{\perp}\)。在酉變換中,其實是利用了等式\((\mathscr{A}^{-1}\alpha)\cdot\beta=\alpha\cdot(\mathscr{A}\beta)\)和\(\mathscr{A}\)的可逆性,得到的不變子空間的性質。

  更一般地,如果對任意的\(\alpha,\beta\),存在線性變換\(\mathscr{A}^*\)滿足式(1),則在上段的條件下易知\(\alpha\cdot(\mathscr{A}^*\beta)=0\),從而\(W^{\perp}\)是\(\mathscr{A}^*\)的不變子空間。另外,當選定\(\beta\)時,易知\((\mathscr{A}\alpha)\cdot\beta\)是關於\(\alpha\)的線性函數。由於內積是非退化的雙線性函數,故存在唯一的\(\beta'\),使得\(\alpha\cdot\beta'=(\mathscr{A}\alpha)\cdot\beta\)。

\[(\mathscr{A}\alpha)\cdot\beta=\alpha\cdot(\mathscr{A}^*\beta)\tag{1}\]

  記映射\(\beta\mapsto\beta'\)為\(\mathscr{A}^*\),容易驗證\(\mathscr{A}^*\)是一個線性變換。剛才的結論說明,滿足式(1)的線性變換\(\mathscr{A}^*\)是存在且唯一的,它也叫\(\mathscr{A}\)的伴隨變換。根據伴隨變換的定義,容易得到\(\mathscr{A}+\mathscr{B},\mathscr{AB},k\mathscr{A},\mathscr{A}^*,\mathscr{A}^{-1}\)的伴隨變換具有式(2)(3)的性質,請自行驗證。

\[(\mathscr{A}+\mathscr{B})^*=\mathscr{A}^*+\mathscr{B}^*;\quad(\mathscr{AB})^*=\mathscr{B}^*\mathscr{A}^*\tag{2}\]

\[(k\mathscr{A})^*=\overline{k}\mathscr{A}^*;\quad (\mathscr{A}^*)^*=\mathscr{A};\quad (\mathscr{A}^{-1})^*=(\mathscr{A}^*)^{-1}\tag{3}\]

  在有限維內積空間中,為了得到\(\mathscr{A}\)和\(\mathscr{A}^*\)矩陣\(A,B\)的關系,最好是要用到式(1)。線性變換矩陣的元素其實就是一些坐標,想到標准正交基下的坐標可用內積表示,我們便在一組標准正交基\(\{\eta_1,\cdots,\eta_n\}\)下考察矩陣。而根據式(4)的推導,容易知道\(B=\overline{A'}\)。回顧酉變換在標准正交基下的矩陣為酉矩陣\(A\),那么它的伴隨變換的矩陣便是\(\overline{A'}=A^{-1}\),這與我們開始的論述相符。

\[b_{ij}=(\mathscr{A}^*\eta_i)\cdot\eta_j=\eta_i\cdot (\mathscr{A}\eta_j)=\overline{(\mathscr{A}\eta_j)\cdot\eta_i}=\overline{a_{ji}}\tag{4}\]

  注意,當單獨談論矩陣\(A\)時,完全可以構造一個線性變換,使其在某個標准正交基下的變換矩陣是\(A\),所以伴隨矩陣的概念對任何矩陣都存在。同樣,下面在討論相似矩陣時,可以默認它是在某個標准正交基下的變換矩陣(此時內積等價於坐標向量的內積),這樣某些結論就不會困惑了。

1.2 正規變換

  現在接着伴隨變換的概念,繼續討論線性變換的可對角化問題,當然這里還要限定在標准正交基下。先來構造一個可對角化的充分條件,回顧酉變換可對角化的過程,需要先找到單位特征向量\(\eta\),使得\(W=\left<\eta\right>\)和\(W^{\perp}\)都是\(\mathscr{A}\)的不變子空間。\(W\)是不變子空間是顯然的,而由上面的結論知\(W^{\perp}\)是\(\mathscr{A}^*\)的不變子空間,只需要求\(W\)也是\(\mathscr{A}^*\)的不變子空間,便可證\(W^{\perp}\)是\(\mathscr{A}\)的不變子空間。

  如果\(W\)也是\(\mathscr{A}^*\)的不變子空間,可假設\(\lambda,\lambda'\)分別是\(\eta\)在\(\mathscr{A},\mathscr{A}^*\)上的特征值,由\((\mathscr{A}\eta)\cdot\eta=\eta\cdot(\mathscr{A}^*\eta)\)可知\(\lambda'=\overline{\lambda}\)(有矩陣關系也知道\(\overline{\lambda}\)是\(\mathscr{A}^*\)的特征值)。為了將問題向內積轉化,\(W\)也是\(\mathscr{A}^*\)的不變子空間的要求可以強化為(4)式左邊(\(\alpha\)任意),用內積展開並整理可得(4)式右邊成立。利用伴隨變換的定義,等式兩邊分別變形為\(\alpha\cdot(\mathscr{A}^*\mathscr{A}\alpha)\)和\(\alpha\cdot(\mathscr{AA}^*\alpha)\)。為此,如果要求式(5)成立,且特征值總存在,則由歸納法可證\(\mathscr{A}\)存在一組正交特征向量組成的基。

\[\left\|\mathscr{A}\alpha-\lambda\alpha\right\|=\left\|\mathscr{A}^*\alpha-\overline{\lambda}\alpha\right\|\quad\Leftrightarrow\quad (\mathscr{A}\alpha)\cdot(\mathscr{A}\alpha)=(\mathscr{A}^*\alpha)\cdot(\mathscr{A}^*\alpha)\tag{4}\]

\[\mathscr{A}^*\mathscr{A}=\mathscr{AA}^*\quad\Leftrightarrow\quad A\overline{A'}=\overline{A'}A\tag{5}\]

  我們將滿足式(5)的線性變換稱為正規變換,其對應的矩陣被稱為正規矩陣。上面的證明中,其實還暗含了正規變換的兩個性質,作為下面的習題,請自行論證。另外,由於等式(4)成立,正規變換在特征值(特征向量)上的性質總結為:\(\lambda\)為\(\mathscr{A}\)的特征值的充要條件為\(\overline{\lambda}\)為\(\mathscr{A}^*\)的特征值,同時,\(\eta\)為\(\mathscr{A}\)屬於\(\lambda\)的特征向量的充要條件是\(\eta\)為\(\mathscr{A}^*\)屬於\(\overline{\lambda}\)的特征向量。

   如果\(\mathscr{A}\)為正規變換,求證:對任意\(\alpha\)總有:\(\left\|\mathscr{A}\alpha\right\|=\left\|\mathscr{A}^*\alpha\right\|\);

   如果\(\mathscr{A}\)為正規變換,\(c\)為任意復數,求證:\(c\mathscr{I}-\mathscr{A}\)也是正規變換。

  設\(\{\eta_i\}\)就是一組正交特征向量組成的基(對應特征值為\(\{\lambda_i\}\)),把它們單位化后的坐標列向量組成一個酉矩陣(正交矩陣)\(P^{-1}\),利用\(A\eta_i=\lambda_i\eta_i\)即有式(6)左成立,即正規矩陣可被一個正交矩陣對角化。反之,如果任一矩陣\(A\)可被正交矩陣對角化,即存在酉矩陣(正交矩陣)\(P\)使得(6)式左邊成立,等式兩邊取共軛轉置便得(6)式右邊,結合這兩個式子容易證明\(A\)為正規矩陣。從而可以總結:\(A\)可正交對角化的充要條件是,\(A\)是正規矩陣且有\(n\)個特征值(包括重數)。這個結論放到線性變換上便是:\(\mathscr{A}\)有一組正交特征向量組成的基的充要條件是,\(\mathscr{A}\)是正規變換且有\(n\)個特征值(包括重數)。注意,在復數域上總是有\(n\)個特征值的,故結論在復數域的表述更加簡單。

\[PAP^{-1}=\text{diag}\,\{\lambda_1,\cdots,\lambda_n\}\quad\Leftrightarrow\quad P\overline{A'}P^{-1}=\text{diag}\,\{\overline{\lambda_1},\cdots,\overline{\lambda_n}\}\tag{6}\]

1.3 Hermite變換

  現在來看一類特殊的正規變換,就是滿足\(\mathscr{A}^*=\mathscr{A}\)的線性變換,將其帶入式(1)可得式(7)。其實還容易驗證,對任意滿足式(7)的變換,它都是線性變換,為此我們把滿足式(7)的變換稱為Hermite變換自伴隨變換。當然Hermite變換是正規變換,且滿足\(\mathscr{A}^*=\mathscr{A}\),它在任意標准正交基下的矩陣\(A\)顯然還滿足\(A=\overline{A'}\),這樣的矩陣也稱為Hermite矩陣自伴隨矩陣

\[(\mathscr{A}\alpha)\cdot\beta=\alpha\cdot(\mathscr{A}\beta)\tag{7}\]

  從式(6)可知,Hermite矩陣的特征值一定為實數,從而它(在復數域)對角化后是實矩陣。為了對角化線性變換(求得對角矩陣),只要先求得所有特征值,再求得對應的特征向量。最后對同一個特征值的特征向量正交化和單位化,以這些正交的單位特征向量作為標准正交基,即可對角化線性變換。以這個標准正交基的坐標作為列向量的矩陣\(P\),便是對角化矩陣的過渡矩陣。顯然,這個方法對一般正規變換也使用。

  特別地,在實數域上,Hermite矩陣顯然是實對稱矩陣,所以實內積空間中滿足式(7)的變換也叫對稱變換。因為Hermite矩陣的特征值都是實數,故實對稱矩陣就有\(n\)個特征值(包括重數),所以式對稱矩陣總可以在某個標准正交基(實數域)下對角化。設\(P\)為正交矩陣,實數域上滿足\(B=PAP^{-1}\)的\(A,B\)也稱為正交相似,所以實對稱矩陣正交相似於對角矩陣(式(8))。

\[A=A'\quad\Leftrightarrow\quad PAP^{-1}=\text{diag}\,\{\lambda_1,\cdots,\lambda_n\}\tag{8}\]

2. 二次型

2.1 二次型及其標准型

  本篇的最后,我們來看一個雙線性函數的應用。你可能已經留意到,有限維空間中的雙線性函數其實是一個關於向量坐標的二次函數,特別地,\(f(\alpha,\alpha)\)是一個\(n\)元二次齊次函數\(\sum\limits_{i}{a_{ii}x_i^2}+\sum\limits_{i\ne j}(a_{ij}+a_{ji})x_ix_j\)。注意到\(a_{ij}+a_{ji}\)相同的二次函數也相同,由此我們只需關注對稱雙線性函數,即要求\(a_{ij}=a_{ji}\)。反之每個\(n\)元二次其次函數(9)都可以對應到一個對稱矩陣,這兩者可以看出是等價的,一般稱之為\(n\)元二次型

\[f(x_1,\cdots,x_n)=\sum_{i=1}^n{a_{ii}x_i^2}+\sum_{1\leqslant i<j\leqslant n}{2a_{ij}x_ix_j}=[x_1,\cdots,x_n]\begin{bmatrix}a_{11}&\cdots&a_{1n}\\\vdots&\ddots&\vdots\\a_{n1}&\cdots&a_{nn}\end{bmatrix}\begin{bmatrix}x_1\\\vdots\\x_n\end{bmatrix}\tag{9}\]

  既然二次型是對稱雙線性函數的一個特殊值,對稱矩陣的所有結論就可以直接用在二次型上。首先對稱矩陣有合同矩陣\(PAP'=B\),對應到二次型就是說,如果將\(X=[x_1,\cdots,x_n]\)非退化線性替換為\(Y=[y_1,\cdots,y_n]=XP\),將得到關於\(y_i\)的二次型,而它的矩陣就是\(B\)。非退化線性替換是可逆的,替換前后的二次型等價,所以可以用合同標准型的結論來化簡二次型。由於對稱矩陣存在對角化的合同矩陣,故二次型也可以通過非退化線性替換轉換為只含平方項的簡單二次型(公式(10)),它也稱為二次型的標准型,標准型的非零項數也稱為二次型的

\[XAX'=YBY'=d_1y_1^2+\cdots+d_ry_r^2,\quad (Y=XP,\:r=\text{rank}\,A)\tag{10}\]

  具體到實數域中,我們可以有二次型的更簡潔形式(11),而在復數域中有形式(12)。這樣的標准型是唯一的,它們又稱為規范型。實數域二次型中同樣可以定義正定負定等概念,並且有慣性定律,這里不作贅述。在實數域中,由公式(8)可知,存在以正交矩陣\(P\)為替換矩陣的正交替換,得到另外一個標准型(13),它的系數是\(A\)的所有特征值。

\[YAY'=y_1^2+\cdots+y_p^2-y_{p+1}^2-\cdots-y_{p+q}^2,\quad (p+q=\text{rank}\,A,\:all\:in\,\Bbb{R})\tag{11}\]

\[YAY'=y_1^2+y_2^2+\cdots+y_r^2,\quad (r=\text{rank}\,A,\:all\:in\,\Bbb{C})\tag{12}\]

\[YAY'=\lambda_1y_1^2+\lambda_2y_2^2+\cdots+\lambda_ny_n^2,\quad (Y=XP,\,all\:in\,\Bbb{R})\tag{13}\]

2.2 求解標准型

  那么在具體問題中,如何將二次型標准化呢?又如何求得替換矩陣\(P\)呢?先來看看如何標准化,標准化就是要轉變為平方項之和,而說到平方其實大家都熟悉配方法。如果二次型沒有平方項,則任意選定一個非零項,比如是\(a_{12}x_1x_2=0\),先用\(y_1+y_2,y_1-y_2\)替換\(x_1,x_2\)得到非零的平方項。有了平方項后(比如是\(a_{11}x_1^2\)),將二次型整理為關於\(x_1\)的二次函數(14),並對其進行配方。配方后的余項顯然是關於\(x_2,\cdots,x_n\)的二次型,這個過程可以遞歸下去,直到所有項都是平方項。記錄配方和替換的過程,也可以得到替換矩陣\(P\)。

\[a_{11}x_1^2+2(a_{12}+\cdots+a_{1n})x_1+\sum_{i=2}^n{a_{ii}x_i^2}+\sum_{2\leqslant i<j\leqslant n}{2a_{ij}x_ix_j}\tag{14}\]

  配方法雖然直觀,但不便於機械化操作,尤其是替換矩陣的計算比較麻煩。回看合同表達式\(PAP'=B\),由於可逆矩陣\(P\)可以分解為一系列初等矩陣的乘積,從而考慮到使用類似初等變換的方法得到標准型和替換矩陣。初等變換的轉置有式(15)的關系,它們共同作用於矩陣的兩側,其實是對矩陣在行、列方向做了對稱的操作,這個共同作用稱為初等行列變換。使用初等行列變換的同時,對\(I\)做對應的初等行變換,當把\(A\)轉換為\(B\)時,\(I\)也被變換為了\(P\)。

\[P(i,j(c))'=P(j,i(c)),\quad P(i,j)'=P(i,j),\quad P(i(c))'=P(i(c))\tag{15}\]

  以上對矩陣的初等行列變換同樣適用於分塊矩陣,容易驗證對於分塊對稱矩陣可有式(16)成立,其中\(A\)可逆對稱方陣,\(B\)為對稱方陣。配方法和初等變換法並不僅適用於二次型,它同樣適用於求對稱矩陣(對稱雙線性函數)的合同標准型以及其轉換矩陣。

\[\begin{bmatrix}A&C'\\C&B\end{bmatrix}\:\cong\:\begin{bmatrix}A&0\\0&B-CA^{-1}C'\end{bmatrix}\tag{16}\]

2.3 正定判別法

  表達式符號的判定在數學中很常見,因此式正定(負定)矩陣的判定是比較重要的。最簡單的判別方法當然是求得標准型(11),或者由公式(13)可知,實對稱矩陣正定(負定)的充要條件是:矩陣的特征值都是正數(負數)。這兩種方法都有一定的計算量,且過於精確,有沒有更簡單的方法呢?正定二次型要求對任意子空間都是正定的,那么矩陣的任意主子式的行列式都應當大於\(0\),這是正定矩陣的必要條件。由於合同矩陣的正定性保持不變,所以矩陣正定的充要條件是它有一個合同的正定矩陣。

  考慮式(17)左邊的矩陣,如果它是正定的,則\(A_{n-1}\)必是可逆的。根據公式(16)知它合同於右邊的矩陣。矩陣正定的充要條件是\(A_{n-1}\)正定,並且\(a_{nn}-\alpha A_{n-1}^{-1}\alpha'>0\)。而后一個條件可以換成\(A\)的行列式大於\(0\),並且這個條件可以遞歸下去。如果把\(A_k\)(對角元為\(a_{11},\cdots,a_{kk}\)的主子式)稱為\(A\)的\(k\)階順序主子式,那么\(A\)正定的充要條件是:\(A\)的所有順序主子式都大於\(0\)。

\[\begin{bmatrix}A_{n-1}&\alpha'\\\alpha&a_{nn}\end{bmatrix}\:\cong\:\begin{bmatrix}A_{n-1}&0\\0&a_{nn}-\alpha A_{n-1}^{-1}\alpha'\end{bmatrix}\tag{17}\]

2.4 Hermite型

  在內積空間中,可定義類似二次型的函數(式(18)),它被稱為Hermite型。由公式(8)可知,存在以酉矩陣\(P\)為替換矩陣的酉替換,使得Hermite型有標准型(19)。式(19)的系數是\(A\)的所有特征值,都為實數,從而Hemite型的值也總為實數。

\[f(x_1,\cdots,x_n)=[x_1,\cdots,x_n]\begin{bmatrix}a_{11}&\cdots&a_{1n}\\\vdots&\ddots&\vdots\\a_{1n}&\cdots&a_{nn}\end{bmatrix}\begin{bmatrix}\overline{x_1}\\\vdots\\\overline{x_n}\end{bmatrix}\tag{18}\]

\[f(x_1,\cdots,x_n)=\lambda_1y_1\overline{y_1}+\lambda_2y_2\overline{y_2}+\cdots+\lambda_ny_n\overline{y_n},\quad (Y=XP)\tag{19}\]

  Hermite型同樣可以定義正定(負定)的概念,且易知正定(負定)的充要條件是其矩陣特征值皆為正數(負數)。當\(A\)正定時,既有\(PA\overline{P'}=\text{diag}\,\{\lambda_1,\cdots,\lambda_n\}\),等式兩邊分別左乘和右乘\(D_0=\text{diag}\,\{\sqrt{\lambda_1},\cdots,\sqrt{\lambda_n}\}\),便有\((D_0P)A\overline{(D_0P)'}=I\),從而對正定Hermite矩陣有式(20)成立。

\[A=Q\overline{Q'},\quad (|Q|\ne 0)\tag{20}\]

  另外,類似實對稱正定矩陣的判定條件,也可以證明Hermite矩陣正定的充要條件是:它的所有順序主子式都大於\(0\),請自行論證。


【全篇完】


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM