主成分分析(Principal Component Analysis, PCA),將多個變量通過線性變換以選出較少個數重要變量的一種多元統計分析方法。
在實際生活中,為了全面的分析問題,往往提出很多相關的變量因素,因為每個變量都在不同程度上反映了這個課題的某些信息。
指標/變量:在實證問題研究中,為了全面、系統地分析問題,我們必須考慮眾多影響因素。這些涉及的因素一般稱作指標,在多元統計分析中也稱為變量。
主成分:由原始指標綜合形成的幾個新指標。依據主成分所含信息量大小成為第一主成分,第二主成分等;
主成分與原始變量之間的關系:
1. 主成分保留了原始變量的絕大多數信息;
2. 主成分的個數大大少於原始變量的數目(變量太多會增加計算量和分析問題的復雜性);
3. 各主成分之間互不相關;
4. 每個主成分都是原始變量的線性組合;
簡單來說,主成分分析類似於降維,就是使用一定的方法把原來的 m 個變量線性擬合為 n 個新的綜合指標(m<=n);
一個講的很好的博客:https://www.matongxue.com/madocs/1025/
PCA核心思想:1. 降維(合並重復信息,但不損失重要信息);
2. 得到新的綜合指標;
即對於一個群體,找到使這個群體之間的個體區分度最大的維度;(就是旋轉坐標軸了~)
對於新的綜合指標:1. 是原指標的線性組合;
2. 新指標之間的信息不重合 → 互不相關,即協方差=0;
3. 按“重要性”排序 → “重要性/信息量”通過方差衡量;
1. 線性組合 Z = aY(我用加粗表示這個變量是向量),那么求Z就是求a;
根據線性代數知識,得知要使方差aTΣa(方差公式)最大,就要求協方差矩陣Σ的特征值特征向量;特征向量e即為所求a,對應特征值λ即為方差值;
2. 協方差矩陣為對稱矩陣,對稱矩陣的特征向量之間互相正交,故協方差=0;
3. 方差 s2=1/(n-1) * Σ(xi-x平)2,至於為什么分母是n-1而不是n,看這個 https://www.matongxue.com/madocs/607
除了這些基本的,還要避免量綱的影響,也就是解決數據單位不統一的問題,所以就要歸一化了;
歸一化就是把坐標原點平移到x,y平均值的那個中心點(中心化,方便計算方差和協方差),再對兩個坐標軸按比例縮放(統一量綱了);
對所有樣本點作變化 xi=(xi-x平)/標准差,標准差就是方差開平方根。