主成分分析(PCA)與線性判別分析(LDA)


主成分分析

  • 線性、非監督、全局的降維算法

PCA最大方差理論

  • 出發點:在信號處理領域,信號具有較大方差,噪聲具有較小方差

  • 目標:最大化投影方差,讓數據在主投影方向上方差最大

  • PCA的求解方法:

    • 對樣本數據進行中心化處理

    • 求樣本協方差矩陣

    • 對協方差矩陣進行特征分解,將特征值從大到小排列

    • 取特征值前d大對應的特征向量\(w_1, w_2, \cdots, w_d\),通過以下變換將n維樣本映射到d維

      \[x^{'}_i = \begin{bmatrix} w_1^{T}x_i \\ w_2^Tx_i \\ \cdots \\ w_d^Tx_i \end{bmatrix} \]

      新的\(x^{'}_i\) 的第d維就是\(x_i\)在第d個主成分\(w_d\)方向上的投影

  • 局限性:

    • 線性降維
    • 通過核映射對PCA進行擴展得到核主成分分析(KPCA)

PCA最小平方誤差理論

  • 出發目標:找到一個d維超平面,使得數據點到這個超平面的距離平方和最小

  • 優化目標:

    \[\begin{aligned} \mathop{\arg\min}_{w_1, \dots, w_d} \sum \limits_{k=1}^{n}||x_k - \tilde{x}_k||_2 \\ s.t. \quad w_i^Tw_j = \begin{cases} 1, i = j \\ 0, i \neq j \end{cases} \end{aligned} \]

    \(\tilde{x}_k\)是投影向量

線性判別分析

二分類

  • 監督降維方法(LDA)

  • PCA算法沒有考慮到數據標簽,可能會導致映射后無法進行分類

  • 中心思想:最大化類間距離和最小化類內距離

  • 對於二分類

    • 類間散度矩陣:\(S_B = (\mu_1 - \mu_2)(\mu_1 - \mu_2)^T\)

    • 類內散度矩陣:\(S_w = \sum \limits_{x \in C_i}(x - \mu_i)(x - \mu_i)^T\)

    • 優化目標:

      \[J(w) = \frac{w^T S_B w}{w^T S_w w} = \lambda \]

    • \(S_w^{-1}S_Bw = \lambda w\) \(J(w)\)對應了矩陣\(S_w^{-1}S_B\)最大的特征值,而投影方向就是這個特征值對應的特征向量

  • 對數據分布做了強假設:每個類數據都是高斯分布、各個類的協方差相等

  • 優點:線性模型對噪聲的魯棒性比較好

  • 缺點:模型簡單也有假設,可以通過引入核函數處理分布較復雜的數據

具有多個類別標簽的高維數據LDA方法

  • 計算數據集每個類別的均值\(\mu_j\) 和總體均值\(\mu\)

  • 計算類內散度矩陣\(S_w\) ,全局散度矩陣\(S_t\) ,並得到類間散度矩陣\(S_B = S_t - S_w\)

  • \(S_w^{-1}S_B\)矩陣進行特征值分解,將特征值從大到小排列

  • 取特征值前d大對應的特征向量\(w_1, w_2, \cdots, w_d\),通過以下變換將n維樣本映射到d維

    \[x^{'}_i = \begin{bmatrix} w_1^{T}x_i \\ w_2^Tx_i \\ \cdots \\ w_d^Tx_i \end{bmatrix} \]

    新的\(x^{'}_i\) 的第d維就是\(x_i\)在第d個主成分\(w_d\)方向上的投影

PCA和LDA的區別與聯系

  • 聯系:求解過程很類似

  • 區別:

    • 數學原理
    • 優化目標
    • 應用場景:對無監督任務使用PCA降維,對有監督則使用LDA。
      • 從音頻中提取語音信號,用PCA過濾掉噪聲
      • 聲紋識別,用LDA使每個人的聲音信號具有區分性


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM