一、為什么要降維:
1、避免維數災難,高維情況下容易產生過擬合
2、特征之間如果存在明顯的相關性(也叫共線性),此時就需要降維
3、降維可以提取數據中的有效信息,去除噪音數據
4、降維可以降低數據的復雜性,減少模型的訓練時間
5、可以方便對數據進行可視化處理,因為維數很高的話,無法可視化
二、PCA降維思想
尋找某個軸線,使得樣本映射到該軸線后,能夠有最大的可區分度,衡量可區分度的指標就是求方差,現在的問題是如何求得這個軸線,使方差最大。
用方差來定義樣本間的間距,方差越大表示數據越稀松,方差越小則表示數據分布越密集,下圖即方差公式。

在求解最大方差前,為方便計算,可先對數據進行去均值處理。

去均值后,求最大方差公式可以減少計算的復雜度。
求滿足最大方差的軸線可用梯度上升法求解。
PCA和LDA都是降維算法,他們的主要區別是:
PCA為無監督方法,主要是主成分分析方法,Principal Component Analysis, 簡稱PCA。
PCA可以降到任意維度。
LDA是有監督方法,主要是線性判別分析法,Linear Discriminant Analysis ,簡稱LDA。
LDA最多只能降到數據類別 -1
