本文地址:https://www.cnblogs.com/faranten/p/15845928.html
轉載請注明作者與出處
1 基本信息
1.1 矩陣理論基本概念
矩陣理論是一門研究矩陣在數學上的應用的科目。矩陣理論本來是線性代數的一個小分支,但其后由於陸續在圖論、代數、組合數學和統計上得到應用,漸漸發展為一門獨立的學科。在矩陣理論的應用過程中,主要涉及到的有各種計算及其方法,其中常用的計算主要有:特征值與特征向量的計算、矩陣的最小多項式的計算、矩陣的Schmidt正交化、向量范數與矩陣范數的計算、矩陣譜半徑的計算、矩陣函數的計算、矩陣的微分與積分、矩陣分解以及廣義逆矩陣的計算。使用的計算方法主要來自線性代數的基礎知識及其推廣。
1.2 本專題主要思路
這一小節將說明本專題的敘述思路,首先我們需要明確區分兩個概念:函數矩陣和矩陣函數。函數矩陣指的是一個矩陣,其中的每個元素都是一個已經定義的函數,常用在線性系統的分析過程中;而矩陣函數則是指一個函數,其自變量與因變量都是一個確定大小的矩陣,實際上是一種映射法則,實現的結果是一種廣義上的線性變換。
與高等數學引入函數概念的過程類似,此處引入矩陣函數之前,我們首先介紹矩陣序列和矩陣級數的概念,由此得到極限與收斂在矩陣領域對應的概念,之后可以自然地引入矩陣函數的定義和概念。在本專題中,矩陣函數的求法從根本上來說是基於矩陣函數的冪級數展開,具體的方法主要有以下四種:待定系數法、數項級數求和法、對角型法以及Jordan標准型法。
在本專題中除矩陣函數外,另一個涉及到的重要概念就是矩陣分解。矩陣分解的一個重要的作用就是減小計算量,通過將復雜矩陣進行分解、進而得到某些確定結構下的矩陣,這種操作使得復雜矩陣以數個較為簡單矩陣的乘積形式來呈現,從而在后續的計算中大大減少計算量,這是非常有意義的。矩陣分解從根本上來說是基於一些基本操作與已知結論,具體的分解方法主要有以下四種:矩陣的LU分解、矩陣的QR分解、矩陣的滿秩分解、以及矩陣的奇異值分解,其中矩陣的奇異值分解還可以用來求解矩陣的廣義逆矩陣,這在實際應用中是非常有意義的。
本專題主要基於《矩陣論》(張凱院、徐仲,西北工業大學出版社2017版),並結合北京郵電大學計算機學院(國家示范性軟件學院)的課程《矩陣理論與方法》的課程PPT(2021年秋季)進行敘述。本專題將從矩陣理論的基本概念與方法出發,簡要介紹基本概念與方法之后,引入矩陣函數的概念,並對矩陣函數的常見求法進行研究和總結,並在每種求法的理論推導之后給出一個具體的例子加以說明。之后本專題將總結矩陣分解的常見方法,並在每種方法的理論推導之后給出一個具體的例子加以說明。最后總結本專題的全部內容。
2 歐式空間與線性變換
2.1 歐式空間與線性變換介紹
歐氏空間(Euclidean space)是一類特殊的向量空間,一般來說就是我們所熟悉的三維空間,對其中的向量可以討論長度、夾角等幾何性質,並且這里的長度、夾角等是我們熟知的、具有直觀印象的概念。但實際上歐氏空間可以拓展到更一般的情況,也就是線性空間。這里對歐式空間的一般化實際上是將三維空間的維度進行了增加,從而得到更高維度的空間,雖然從幾何上難以直觀理解這種高維空間的形態,但這種空間在代數上具有很好的一般意義,對於許多問題給出了嚴格的理論表述。線性空間的具體概念如下:對於給定的數域\(K\)和一個非空集合\(V\),用\(x\),\(y\),\(z\)表示\(V\)中的元素、用\(l\),\(m\),\(n\)表示\(K\)的元素,並定義此時的加法運算和數乘運算,如果以下性質滿足:
則稱\(V\)為數域\(K\)上的線性空間。
線性空間的意義在於給出了一個關於向量以及其他諸多數學概念的抽象的代數系統,使得許多問題均可以在線性空間的討論下進行求解,這種一般性的方法作為一種處理問題的手段在數學的許多領域有着重要的應用,比如,為了更好、更嚴格地討論相應問題,數學家發展出了多項式空間和矩陣空間。視非空集合\(V\)中的元素為向量,則與線性代數的概念類似,此時也可以引出線性組合、線性相關與線性無關、基與維數、坐標、子空間與子空間的交與和、同構、商空間、線性變換等概念,對於這些概念的詳細數學討論不是本專題的主要目的,故此處略去,詳細信息可以參考《矩陣論》一書。下面討論線性變換的概念。
線性空間中的任意元素都可以看作是基底的線性組合。對於給定的映射法則\(T\),如果\(T\)滿足:
則稱\(T\)為\(V\)的一個線性變換或線性算子。這個式子的實質是映射法則\(T\)對向量的線性運算是封閉的,也就是如果該式子對所有的基底成立,那么就容易證明對任意向量都是成立的。又,容易證明:線性相關的向量組經線性變換后仍為線性相關。
線性變換也具有可運算性。線性變換的兩個最基本的變換是單位變換和恆等變換,單位變換\(T_e\)滿足\(T_ex=x\),恆等變換\(T_0\)滿足\(T_0x=0\),接下來定義線性變換的運算如下:
通過坐標,可以將線性變換用矩陣表示出來,從而可將抽象的線性變換轉化為具體的矩陣來處理。由於線性空間中的任意元素都可以視為基向量的線性組合,因此只要能夠確定基向量在線性變換下的象,就能夠確定線性空間中任意元素在線性變換下的象。對於基向量\(x_1,x_2,\dots,x_n\),線性變換\(T\)有:
采用矩陣乘法形式,可將上述方程組表示為:
其中
這時就將矩陣\(A\)稱為線性變換\(T\)在\(V^n\)的基\((x_1,x_2,\dots,x_n)\)下的矩陣,簡稱\(A\)為\(T\)的矩陣。一些常見的線性變換的矩陣在形式上是簡單的,如零變換\(T_0\)的矩陣是零矩陣\(O\)、單位變換的矩陣是單位矩陣\(I\)、數乘變換的矩陣是數量矩陣\(mI\)等。
2.2 Jordan標准型的求解
將一個矩陣轉化為其Jordan標准型,意義在於選擇適當的線性空間的基或坐標系,從而優化矩陣的結構、使得后續的計算過程變得簡單,Jordan標准型的求解和之后的矩陣函數與矩陣分解兩個內容有很強的關聯性。在線性代數課程中已經學過特征值與特征向量的概念和求解方法,下面將以此為基礎討論線性變換對應矩陣的Jordan標准型的求解。
首先在理論上可以證明,線性變換對應的矩陣的特征多項式與基的選擇無關,它直接被線性變換所決定,這保證了線性變換矩陣特征多項式的唯一性。先定義最小多項式:首項系數是\(1\),次數最小,且以矩陣\(A\)為根的\(\lambda\)的多項式稱為\(A\)的最小多項式。借助Hamilton-Cayley定理可以得到如下結論:\(A\)的最小多項式是其特征多項式的因式,也就是:矩陣\(A\)的最小多項式\(m(\lambda)\)可整除以\(A\)為根的任意首\(1\)多項式\(\psi(\lambda)\),且\(m(\lambda)\)在形式上是唯一的。
Jordan標准型從結構上來說是一個准對角矩陣:
其中
稱為一個Jordan塊。
為計算矩陣的Jordan標准型,需要先用初等變換將矩陣化為標准形,其中初等變換指的是要把矩陣的某一行(列)的乘以數域\(K\)上的\(\lambda\)多項式的結果加到另一行(列)對應元素上去,標准形是指一個對角矩陣(對角線上的元素是首\(1\)多項式且前面的元素可以整除后面的元素)。可以證明標准形對角線上的非零元素\(d_i(\lambda)\)不隨矩陣的初等變換而改變,因此稱\(d_i(\lambda)\)為矩陣的不變因子或不變因式。若將每個次數大於零的不變因子\(d_i(\lambda)\)分解為不可約因式的乘積,那么這樣的不可約因式(連同它們的冪指數)稱為矩陣的一個初等因子,初等因子的全體稱為初等因子組。下面給出求解Jordan標准型的具體步驟:
2.3 歐式空間中線性變換的求法
在實際應用中,常見的問題涉及到線性變換的一些性質,下面以《矩陣論》書例1.36為例說明常見問題的處理方法。
例1.36 在歐氏空間\(R^{2\times2}\)中,矩陣\(A\)與\(B\)的內積定義為\((A,B)=\text{tr}(A^TB)\),子空間
\[V=\{X= \begin{bmatrix} x_1 & x_2\\ x_3 & x_4 \end{bmatrix}|x_3-x_4=0\} \]\(V\)中的線性變換為
\[T(X)=XB_0\quad(\forall X\in V),\quad B_0= \begin{bmatrix} 1 & 2\\ 2 & 1 \end{bmatrix} \](1)求非空集合\(V\)的一組標准正交基
(2)驗證\(T\)是\(V\)中的對稱變換
(3)求\(V\)的一個標准正交基,使\(T\)在該基下的矩陣為對角矩陣
(1)要求非空集合\(V\)的一組標准正交基,思路是先求一組基,再進行正交化(如有需要再進行單位化)。對於本題:
所以\(V\)的一個(單位)標准正交基為(正交性容易驗證):
(2)對稱變換的判定方法是看相應的矩陣是否是對稱矩陣,本題(1)問中已經求得了一組標准正交基,現在的問題就是如何用這組標准正交基求出線性變換對應的矩陣。通過計算基向組就可以得到這個矩陣,也就是通過等式\(T(X_1,X_2,X_3)=(X_1,X_2,X_3)A\)計算得到線性變換對應的矩陣\(A\)為:
這樣就可以證明,這個線性變換確實是對稱變換。
(3)要求\(V\)的一個標准正交基,使\(T\)在該基下的矩陣為對角矩陣。題目的要求實際上就是求一組新的標准正交基\((Y_1,Y_2,Y_3)\)使得等式\(T(Y_1,Y_2,Y_3)=(Y_1,Y_2,Y_3)\Lambda\)成立,其中\(\Lambda\)為對角矩陣。根據線性代數的知識可以知道,線性變換對應的矩陣\(A\)可以通過左乘和右乘某矩陣從而化為僅由特征值構成的對角矩陣,因此容易得到
下面的問題就在於求出新的標准正交基\((Y_1,Y_2,Y_3)\),下面先進行線性變換的推導,然后得到答案:
其中
由此便可以求得符合題意的新的標准正交基\((Y_1,Y_2,Y_3)\):
3 向量范數與矩陣范數
3.1 向量范數介紹
在向量空間中,長度的度量是向量的模,對於一般的線性空間,起到長度度量的概念是范數概念,范數是比長度更為一般的概念。對於數域\(K\)上的線性空間\(V\),對任意的\(x\in V\),定義一個實值函數\(||x||\),如果該實值函數滿足
則稱\(||x||\)為\(V\)上的向量\(x\)的范數,簡稱向量范數。下面給出一些常見的向量范數:
需要指出的是,向量范數通常和向量空間中基的選取有關,但是有定理保證線性空間上向量范數的等價性,也就是說,如果存在有限維線性空間\(V\)上的任意兩種向量范數\(||x||_\alpha\)和\(||x||_\beta\),且滿足:
那么就稱這兩種向量范數是等價的。
3.2 矩陣范數介紹
在以矩陣為元素的線性空間中,起到長度度量作用的概念是范數概念,也就是矩陣范數。和向量范數類似,設\(A\in C^{n\times n}\),定義一個實值函數\(||A||\),對於下面的四條性質
如果該實值函數滿足前三條性質,則稱\(||A||\)為\(A\)的廣義矩陣范數;如果該實值函數滿足全部的四條性質,則稱\(||A||\)為\(A\)的矩陣范數。下面給出一些常見的矩陣范數:
實際上,矩陣范數和向量范數是緊密相關的,有什么樣的向量范數就有什么樣的矩陣范數,由向量范數導出的矩陣范數簡稱為從屬范數,上述三種常見矩陣范數就是對應的向量范數的從屬范數。
3.3 矩陣可逆性條件、譜半徑和條件數介紹
在有了矩陣范數的概念之后,下面介紹范數的某些應用場合和一些新的概念。
在判斷矩陣的可逆性時,可以根據范數\(||A||\)的大小來判斷矩陣\(I-A\)是否為可逆矩陣。對於\(A\in C^{n\times n}\)以及相應的某種矩陣范數\(||\cdot||\),如果有\(||A||<1\),那么矩陣\(I-A\)可逆,且有
這條定理給出了矩陣可逆性的判斷方法。
譜半徑在諸多理論中都有着重要的應用,稱\(\rho(A)=\max_{i}|\lambda_i|\)為矩陣\(A\)的譜半徑,其中\(\lambda_i\)為矩陣\(A\)的特征值。就方陣而言,矩陣范數就是矩陣譜半徑的上界,對於任意給定的矩陣都可以構造出一種矩陣范數使得該范數與譜半徑充分接近,這在科學計算中應用廣泛。
條件數是求矩陣逆的攝動的一個重要量。設\(\text{cond}(A)=||A||~||A^{-1}||\),則當\(||A^{-1}~||\delta A||<1\)時,稱\(\text{cond}(A)\)為矩陣\(A\)的條件數。一般來說,條件數越大,\((A+\delta A)^{-1}\)和\(A^{-1}\)的相對誤差就越大。
4 矩陣函數介紹
4.1 矩陣序列介紹
同數學分析一樣,矩陣分析理論的建立也是基於極限理論的,因此此處先介紹矩陣序列的相關概念。按照正整數\(k\)的順序,將\(C^{m\times n}\)中的矩陣排成一列,\(A_1,A_2,\cdots,A_k,\cdots\),稱這列有序的矩陣為矩陣序列,稱\(A_k\)為矩陣序列的一般項。下面給出矩陣序列收斂的定義:設有矩陣序列\(\{A^{(k)}\}\),其中\(A^{(k)}=(a_{ij}^{(k)})_{m\times n}\in C^{m\times n}\),當\(a_{ij}^{(k)}\rightarrow a_{ij}\)時,稱\(\{A^{(k)}\}\)收斂,或稱矩陣\(A=(a_{ij})_{m\times n}\)為\(\{A^{(k)}\}\)的極限,或稱\(\{A^{(k)}\}\)收斂於\(A\),記為
且不收斂的矩陣序列稱為發散。和數列收斂的性質類似,矩陣序列收斂也有一些有用的性質:
在判斷矩陣序列的收斂性的時候,有一些常用的結論,比如:\(A^{(k)}\rightarrow O\)的充分必要條件是\(||A^{(k)}||\rightarrow0\)、\(A^{(k)}\rightarrow A\)的充分必要條件是\(||A^{(k)}-A||\rightarrow0\),其中\(||\cdot||\)為任意一種矩陣范數。在實際應用中,一種常見的矩陣序列是由方陣構成的矩陣序列,如果有\(A^{(k)}\rightarrow O\),則稱\(A\)為收斂矩陣,且\(A\)為收斂矩陣的兩個充分必要條件是\(\rho(A)<1\)或者\(||A||<1\),其中\(||\cdot||\)為任意一種矩陣范數,明顯地,這兩個充分必要條件由范數的等價性所保證。
4.2 矩陣級數介紹
矩陣級數是建立矩陣函數理論的基礎,稱矩陣序列形成的無窮項和\(A^{(0)}+A^{(1)}+\cdots+A^{(k)}+\cdots\)為矩陣級數,記為\(\sum^{\infty}_{k=0}A^{(k)}\),可稱為矩陣級數式。記\(S^{(N)}=\sum^{N}_{k=0}A^{(k)}\)為矩陣級數式的部分和,如果矩陣序列\(\{S^{(N)}\}\)收斂,且有極限\(S\),則有\(\lim_{N\rightarrow\infty}S^{(N)}=S\),那么就稱矩陣級數式收斂,且有和\(S\)。不收斂的矩陣級數稱為是發散的。最后給出矩陣級數絕對收斂的概念,矩陣級數絕對收斂指的是其中的每個數項級數都是絕對收斂的。下面給出矩陣級數收斂性的一些性質:
對於矩陣級數而言,有一種常見的矩陣級數,即矩陣冪級數。對於方陣冪級數(Neumann級數)而言,方陣\(A\)的冪級數\(\sum^{\infty}_{k=0}A^{k}=I+A+A^2+\cdots+A^k+\cdots\)收斂的充分必要條件是\(A\)為收斂矩陣,並且在收斂時,其和為\((I-A)^{-1}\)。對於矩陣冪級數\(\sum^{\infty}_{k=0}c_kA^{k}\)而言,其對應的純量冪級數\(f(z)=\sum^{\infty}_{k=0}c_kz^k\)的收斂半徑為\(r\),則如果方陣\(A\)滿足\(\rho(A)<r\),則矩陣冪級數是絕對收斂的;如果\(\rho(A)>1\),則矩陣冪級數是發散的。並且,如果純量冪級數式在整個復平面上是收斂的,那么不論\(A\)是何種矩陣,矩陣冪級數式總是絕對收斂的。
4.3 矩陣函數介紹
矩陣函數是以\(n\)階矩陣為自變量和因變量的一種函數。如果一元函數\(f(z)\)能展開為\(z\)的冪級數\(f(z)=\sum^{\infty}_{k=0}c_kz^k\quad(|z|<r)\),其中\(r\)為收斂半徑,則當\(n\)階矩陣\(A\)的譜半徑\(\rho(A)<r\)時,把收斂的矩陣冪級數\(\sum^{\infty}_{k=0}c_kA^{k}\)的和稱為矩陣函數,記為\(f(A)\),即
4.4 函數矩陣對矩陣的導數
在數學分析課程中,建立起函數概念之后便開始討論函數的導數概念,在矩陣分析領域也是如此。函數矩陣是指以變量\(t\)的函數\(a_{ij}(t)\)為元素的矩陣,在形式上可以認為是由函數作為元素所構成的一個矩陣。函數矩陣的微分和積分就是指作為其中每個元素的函數各自的微分和積分,運算所得的結果仍是一個函數矩陣。除了函數矩陣的導數以外,還有純量對向量、向量對向量、矩陣對向量、矩陣對矩陣的導數問題,此處略去更加深入的討論。
函數對矩陣的導數:設\(X=(\xi_{ij})_{m\times n}\),\(mn\)元函數\(f(X)=f(\xi_{11},\xi_{12},\cdots,\xi_{1n},\xi_{21},\cdots,\xi_{mn})\),則:
如上所示,函數對矩陣的導數所得到的結果是一個矩陣,該矩陣的行數和列數與矩陣\(X\)一樣,其中的每個元素都是函數對矩陣\(X\)相應位置上的元素的偏導數。
函數矩陣對矩陣的導數:設\(X=(\xi_{ij})_{m\times n}\),\(mn\)元函數\(f_{ij}(X)=f_{ij}(\xi_{11},\xi_{12},\cdots,\xi_{1n},\xi_{21},\cdots,\xi_{mn})\),其中\(i=1,2,\cdots,r;j=1,2,\cdots,s\),則:
其中
可以認為函數矩陣對矩陣的導數是基於函數對矩陣的導數的:函數矩陣中的每個元素對矩陣進行導數,就是函數對矩陣的導數。
5 參考資料
- 《矩陣論》,張凱院,徐仲,西北工業大學出版社