PCA與LDA


 一、為什么要降維:

  1、避免維數災難,高維情況下容易產生過擬合

  2、特征之間如果存在明顯的相關性(也叫共線性),此時就需要降維

  3、降維可以提取數據中的有效信息,去除噪音數據

  4、降維可以降低數據的復雜性,減少模型的訓練時間

  5、可以方便對數據進行可視化處理,因為維數很高的話,無法可視化

二、PCA降維思想

  尋找某個軸線,使得樣本映射到該軸線后,能夠有最大的可區分度,衡量可區分度的指標就是求方差,現在的問題是如何求得這個軸線,使方差最大。

  用方差來定義樣本間的間距,方差越大表示數據越稀松,方差越小則表示數據分布越密集,下圖即方差公式。

  

 

在求解最大方差前,為方便計算,可先對數據進行去均值處理。

  去均值后,求最大方差公式可以減少計算的復雜度。

  求滿足最大方差的軸線可用梯度上升法求解。

 

  PCA和LDA都是降維算法,他們的主要區別是:

  PCA為無監督方法,主要是主成分分析方法,Principal Component Analysis, 簡稱PCA。

PCA可以降到任意維度。

  LDA是有監督方法,主要是線性判別分析法,Linear Discriminant Analysis ,簡稱LDA。

LDA最多只能降到數據類別 -1

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM