1.導包
2.提取數據
3.PCA降維
提取兩個主成分的累計貢獻率達到了0.9777,說明主成分的解釋效果較好。
當參數n_components中不填寫任何值時,默認返回min(X.shape)個特征。一般來說,樣本量都會大於特征數目,所以什么都不填就相當於轉換了新特征空間,但沒有減少特征的個數。一般不會使用這種輸入⽅式。但我們可以使用這種⽅式來畫出累計可解釋⽅差貢獻率曲線,以此選擇最好的n_components取值。
從累計貢獻率曲線可以看出提取兩個主成分的累計貢獻率達到0.9777,提取四個主成分的累計貢獻率為0.9948,增加兩個主成分累計貢獻率只增加0.0171,但同時卻增加了模型復雜度,加大計算量,增加運行時間,所以提取二個主成分最為合適。