特征值特征向量在機器視覺中很重要,很基礎,學了這么多年數學一直不理解特征值特征向量到底表達的物理意義是什么,在人工智能領域到底怎么用他們處理數據,當然筆者並不打算把文章寫成純數學文章,而是希望用直觀和易懂的方式進行解釋。
在數學上,特別是線性代數中,對於一個給定的線性變換,它的特征向量(eigenvector,也譯固有向量或本征向量)
經過這個線性變換之后,得到的新向量仍然與原來的
保持在同一條直線上,但其長度或方向也許會改變。即,
為標量,即特征向量的長度在該線性變換下縮放的比例,稱
為其特征值(本征值)。如果特征值為正,則表示
在經過線性變換的作用后方向也不變;如果特征值為負,說明方向會反轉;如果特征值為0,則是表示縮回零點。但無論怎樣,仍在同一條直線上。
可對角化矩陣是:如果一個
方塊矩陣 A 相似於對角矩陣,也就是說,如果存在一個可逆矩陣 P 使得 P −1AP 是對角矩陣,則它就被稱為可對角化的。對角化是找到可對角化矩陣或映射的相應對角矩陣的過程。
線性代數中的正交化指的是:從內積空間(包括常見的歐幾里得空間)中的一組線性無關向量v1,...,vk出發,得到同一個子空間上兩兩正交的向量組u1,...,uk。如果還要求正交化后的向量都是單位向量,那么稱為標准正交化。一般在數學分析中采用格拉姆-施密特正交化作正交化的計算:
對於一個N階方陣進行特征分解,然后正交化,就會產生該空間的N個標准正交基,然后矩陣投影到這N個基上,N個特征向量就是N個標准正交基。而特征值得模,則代表矩陣在每個基上的投影長度。特征值越大,說明矩陣在對應的特征向量上的方差越大,信息量越多。
最優化中,意思是對R的二次型,自變量在這個方向的上變化的時候對函數的影響最大,也就是該方向上的方向導數最大。
在數據挖掘和機器學習中,最大的特征值對應的特征向量方向上包含最多的信息量,如果幾個特征值很小,說明這幾個方向信息量很小,可以用來降維,也就是刪除小特征值對應方向的數據,只保留大特征值方向對應的數據,這樣做以后,數據量減小,但信息量變化不大。
特征向量相互正交(相當於歐式幾何坐標基軸)
數據維度與特征個數相對應。