一、主要思想
利用正交變換把可能線性相關變量表示的觀測數據,轉換為由少數幾個線性無關變量(主成分)表示的數據。(重構原始特征空間;線性降維)
要盡可能保留原始數據中的信息,兩個思路:最大投影方差、最小投影距離。
完全的無監督,只需要通過方差來衡量信息量(但也是一種局限性)。各個主成分正交,降維后不同維度特征之間不再有相關性(但失去維度的具體含義)。
二、數據矩陣的SVD分解
對樣本方差矩陣的特征值分解 等價於 對數據矩陣的SVD分解
也就是說,要用 PCA 降維直接對 HX 做 SVD 分解就行了
三、主坐標分析
主成分分析是先找到各主成分方向,再求原數據在主成分方向的坐標(對 P x P 維的樣本方差矩陣 S = XTX 特征值分解)
主坐標分析是直接求原數據在主成分方向的坐標(對 N x N 維的 T = XXT 特征值分解,其特征向量就是數據在對應主成分方向上的坐標)
四、概率PCA
重構的變量 Z 看作隱變量,從概率角度理解PCA。(屬於線性高斯模型)
先把 Z,X | Z,X 的分布搞清楚了(假設 Z 和 ε 服從高斯,令X = WZ + μ + ε,則X|Z,X 都服從高斯分布,通過 MLE 或者 EM 估計參數 W,μ,σ)。
降維就是求P(Z|X),在給定X的情況下找到概率最大的 Z 作為降維的結果。