降維的兩種方式:
(1)特征選擇(feature selection),通過變量選擇來縮減維數。
(2)特征提取(feature extraction),通過線性或非線性變換(投影)來生成縮減集(復合變量)。
主成分分析(PCA):降維。
-
將多個變量通過線性變換(線性相加)以選出較少個數重要變量。
-
力求信息損失最少的原則。
-
主成分:就是線性系數,即投影方向。
-
通常情況下,變量之間是有一定的相關關系的,即信息有一定的重疊。將重復的變量刪除。
-
基本思想:將坐標軸中心移到數據的中心,然后旋轉坐標軸,使得數據在C1軸上的上的方差最大,即全部n個數據個體在該方向上的投影最為分散。意味着更多的信息被保留下來。C1成為第一主成分。
C2第二主成分:找一個C2,使得C2與C1的協方差(相關系數)為0,以免與C1信息重疊,並且使數據在該方向的方差盡量最大。
以此類推,找到第三主成分,第四主成分。。。。第p個主成分。p個隨機變量就有p個主成分。
-
通過協方差對特征值、特征向量進行分析。
-
特征向量(特征臉)。
- 它是一個線性變換。這個變換把數據變換到一個新的坐標系統中, 使得任何數據投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差 在第二個坐標(第二主成分)上,依次類推。主成分分析經常用減少數據集的維數, 同時保持數據集的對方差貢獻最大的特征。
- 主成分分析法是一種降維的統計方法,它借助於一個正交變換,將其分量相關的原隨機向量轉化成其分量不相關的新隨機向量,這在代數上表現為將原隨機向量的協方差陣變換成對角形陣,在幾何上表現為將原坐標系變換成新的正交坐標系,使之指向樣本點散布最開的p個正交方向,然后對多維變量系統進行降維處理,使之能以一個較高的精度轉換成低維變量系統,再通過構造適當的價值函數,進一步把低維系統轉化成一維系統。
主成分分析的定義:
主成分分析的性質:
主成分分析的推導
主成份分析(PCA, Principal Component Analysis)有多種推導方法,最大化方差是一種比較直觀的方法。比如給出一坨數據,如果你想給出一條坐標軸可以盡量清晰的描述這些數據,即更容易把它們分類,那么直觀來看,肯定會選擇與數據方差最大的那條直線,才能最大化數據的差異性。
實際的做法就是將數據的高維坐標投影到這條直線,也就是向量上去,然后最大化投影后的方差。
很明顯上式的含義是u1
是矩陣S
的特征向量,即特征向量即為投影向量。這就轉換成一個矩陣特征值分解問題。我們將特征值從大到小排列,保留前M個特征向量,即實現了從原來N維空間到M維新空間的降維。
主成分數目的選取
設有p個隨機變量,便有p個主成分。由於總方差不增不減,C1, C2等前幾個綜合變量的方差較大,而Cp,Cp-1等后幾個綜合變量的方差較小, 嚴格 說來,只有前幾個綜合變量才稱得上主(要)成份,后幾個綜合變量實為“次 ”(要) 成份。實踐中總是保留前幾個,忽略后幾個。 保留多少個主成分取決於保留部分的累積方差在方差總和中所占百分比(即累計貢獻率),它標志着前幾個主成分概括信息之多寡。實踐中,粗略規定一個百分比便可決定保留幾個主成分;如果多留一個主成分,累積方差增加無幾,便不再多留。
主成分分析的主要作用
- 降維
- 多維數據的一種圖形表示方法。我們知道當維數大於3時便不能畫出幾何圖形,多元統計研究的問題大都多於3個變量。要把研究的問題用圖形表示出 來是不可能的。然而,經過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進而還可以對樣本進行分類處理,可以由圖形發現遠離大多數樣本點的離群點。
- 由主成分分析法構造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。
- 用主成分分析篩選回歸變量。回歸變量的選擇有着重要的實際意義,為了使模型本身易於做結構分析、控制和預報,好從原始變量所構成的子集合中選擇最佳變量,構成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇變量,獲得選擇最佳變量子集合的效果。
主成分分析的計算步驟
對 m 個主成分進行加權求和,即得最終評價值,權數為每個主成分的方差 貢獻率。
主成分分析的缺點
在有些情況下,PCA算法的性能很差,如下圖:
用不同的顏色標注C1,C2兩個不同類別的數據。根據PCA算法,數據應該映射到方差最大的那個方向,亦即Y軸方向,但是如果映射到Y軸方向,C1,C2兩個不同類別的數據將完全混合在一起,很難區分開,所以使用PCA算法進行降維后再進行分類的效果會非常差。
Reference:
淺談對主成分分析(PCA)算法的理解
特征值分解和主成份分析