主成分分析(PCA)簡介及sklearn參數

本文轉載自查看原文 2018-09-20 16:48 6244 機器學習

1. PCA簡介

　　PCA作為降維最重要的方法之一，在數據壓縮消除冗余和數據噪音消除等領域都有廣泛的應用。PCA的思想就是將高維數據投影到低維，一般基於兩個標准選擇投影方向：

基於最小投影距離

　　　　樣本點到投影超平面的距離足夠近

基於最大投影方差

　　　　樣本點投影在超平面上的方差足夠大，能夠竟可能的分開，即方差最大方向的分解

　　ps：什么情況下需要進行降維？

　　　　數據集特征數較多，導致數據在每個特征維度上的分布稀疏；

　　　　特征自相關。

2.PCA算法流程

　　　　1) 對所有的樣本進行中心化：樣本的每個特征減去該特征均值； $x^{(i)} = x^{(i)} - \frac{1}{m} \sum_{j = 1}^{m} x^{(j)}$

　　　　2) 計算樣本的協方差矩陣； $X X^{T}$

　　　　3) 對協方差矩陣 $X X^{T}$

　　　　4) 取出最大的n'個特征值對應的特征向量， $(w_{1}, w_{2}, . . ., w_{n^{'}})$

　　　　5) 用特征向量矩陣乘以樣本集中的每一個樣本 $x^{(i)}$

$x^{(i)}$ $x^{(i)}$ $x^{(i)}$

$x^{(i)}$

$x^{(i)}$

- $x^{(i)}$
- $x^{(i)}$
- $x^{(i)}$
- $x^{(i)}$

$x^{(i)}$

- $x^{(i)}$
- $x^{(i)}$
- $x^{(i)}$
- $x^{(i)}$

$x^{(i)}$ n_components == 'mle'時，需要和參數svd_solver一起使用，且svd_solver需要選擇 'full' 參數；即pca = PCA(n_components = 'mle',svd_solver='full')；同時要保證輸入數據的樣本數多於特征數才可執行成功。

　　另外，有兩個PCA類的成員值得關注。第一個是explained_variance_，它代表降維后的各主成分的方差值，方差值越大，則說明越是重要的主成分。第二個是explained_variance_ratio_，它代表降維后的各主成分的方差值占總方差值的比例，這個比例越大，則越是重要的主成分。

參考：https://www.cnblogs.com/pinard/p/6239403.html

$x^{(i)}$

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 sklearn.decomposition.PCA 主成分分析參數詳解 sklearn之PCA(主成分分析) 運用sklearn進行主成分分析(PCA)代碼實現 PCA——主成分分析主成分分析（PCA）主成分分析 —PCA 主成分分析-PCA PCA（主成分分析）主成分分析(PCA) 主成分分析PCA（1）