主成分分析
- 線性、非監督、全局的降維算法
PCA最大方差理論
-
出發點:在信號處理領域,信號具有較大方差,噪聲具有較小方差
-
目標:最大化投影方差,讓數據在主投影方向上方差最大
-
PCA的求解方法:
-
對樣本數據進行中心化處理
-
求樣本協方差矩陣
-
對協方差矩陣進行特征分解,將特征值從大到小排列
-
取特征值前d大對應的特征向量\(w_1, w_2, \cdots, w_d\),通過以下變換將n維樣本映射到d維
\[x^{'}_i = \begin{bmatrix} w_1^{T}x_i \\ w_2^Tx_i \\ \cdots \\ w_d^Tx_i \end{bmatrix} \]新的\(x^{'}_i\) 的第d維就是\(x_i\)在第d個主成分\(w_d\)方向上的投影
-
-
局限性:
- 線性降維
- 通過核映射對PCA進行擴展得到核主成分分析(KPCA)
PCA最小平方誤差理論
-
出發目標:找到一個d維超平面,使得數據點到這個超平面的距離平方和最小
-
優化目標:
\[\begin{aligned} \mathop{\arg\min}_{w_1, \dots, w_d} \sum \limits_{k=1}^{n}||x_k - \tilde{x}_k||_2 \\ s.t. \quad w_i^Tw_j = \begin{cases} 1, i = j \\ 0, i \neq j \end{cases} \end{aligned} \]\(\tilde{x}_k\)是投影向量
線性判別分析
二分類
-
監督降維方法(LDA)
-
PCA算法沒有考慮到數據標簽,可能會導致映射后無法進行分類
-
中心思想:最大化類間距離和最小化類內距離
-
對於二分類
-
類間散度矩陣:\(S_B = (\mu_1 - \mu_2)(\mu_1 - \mu_2)^T\)
-
類內散度矩陣:\(S_w = \sum \limits_{x \in C_i}(x - \mu_i)(x - \mu_i)^T\)
-
優化目標:
\[J(w) = \frac{w^T S_B w}{w^T S_w w} = \lambda \] -
\(S_w^{-1}S_Bw = \lambda w\) \(J(w)\)對應了矩陣\(S_w^{-1}S_B\)最大的特征值,而投影方向就是這個特征值對應的特征向量
-
-
對數據分布做了強假設:每個類數據都是高斯分布、各個類的協方差相等
-
優點:線性模型對噪聲的魯棒性比較好
-
缺點:模型簡單也有假設,可以通過引入核函數處理分布較復雜的數據
具有多個類別標簽的高維數據LDA方法
-
計算數據集每個類別的均值\(\mu_j\) 和總體均值\(\mu\)
-
計算類內散度矩陣\(S_w\) ,全局散度矩陣\(S_t\) ,並得到類間散度矩陣\(S_B = S_t - S_w\)
-
對\(S_w^{-1}S_B\)矩陣進行特征值分解,將特征值從大到小排列
-
取特征值前d大對應的特征向量\(w_1, w_2, \cdots, w_d\),通過以下變換將n維樣本映射到d維
\[x^{'}_i = \begin{bmatrix} w_1^{T}x_i \\ w_2^Tx_i \\ \cdots \\ w_d^Tx_i \end{bmatrix} \]新的\(x^{'}_i\) 的第d維就是\(x_i\)在第d個主成分\(w_d\)方向上的投影
PCA和LDA的區別與聯系
-
聯系:求解過程很類似
-
區別:
- 數學原理
- 優化目標
- 應用場景:對無監督任務使用PCA降維,對有監督則使用LDA。
- 從音頻中提取語音信號,用PCA過濾掉噪聲
- 聲紋識別,用LDA使每個人的聲音信號具有區分性