主成分分析 Principle Component Analysis


 

一、主要思想

利用正交變換把可能線性相關變量表示的觀測數據,轉換為由少數幾個線性無關變量(主成分)表示的數據。(重構原始特征空間;線性降維)

要盡可能保留原始數據中的信息,兩個思路:最大投影方差、最小投影距離。

完全的無監督,只需要通過方差來衡量信息量(但也是一種局限性)。各個主成分正交,降維后不同維度特征之間不再有相關性(但失去維度的具體含義)。

 

二、數據矩陣的SVD分解

對樣本方差矩陣的特征值分解  等價於  對數據矩陣的SVD分解

也就是說,要用 PCA 降維直接對 HX 做 SVD 分解就行了

 

三、主坐標分析

主成分分析是先找到各主成分方向,再求原數據在主成分方向的坐標(對 P x P 維的樣本方差矩陣 S = XTX 特征值分解)

主坐標分析是直接求原數據在主成分方向的坐標(對 N x N 維的 T = XXT 特征值分解,其特征向量就是數據在對應主成分方向上的坐標)

 

四、概率PCA

重構的變量 Z 看作隱變量,從概率角度理解PCA。(屬於線性高斯模型)

先把 Z,X | Z,X 的分布搞清楚了(假設 Z 和 ε 服從高斯,令X = WZ + μ + ε,則X|Z,X 都服從高斯分布,通過 MLE 或者 EM 估計參數 W,μ,σ)。

降維就是求P(Z|X),在給定X的情況下找到概率最大的 Z 作為降維的結果。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM