對鳶尾花數據集采用主成分分析方法,使數據降維。
如下圖所示為數據集的格式:
數據集中前4列數據分別代表花萼長度,花萼寬度,花瓣長度,花瓣寬度,最后一列為標簽。共有150條數據。
我們對此數據集利用主成分分析方法,取出數據集的前4列特征組成矩陣X, 矩陣X的維度為150*4,對其進行轉置后變為4*150.
第二步用X.T*X得到4*4維度的對稱矩陣,我們就可以求這個對稱矩陣的特征值lambda1,lambda2,lambda3,lambda4和對應的特征向量u1,u2,u3,u4。特征值一定是實數,特征向量之間是相互正交的。每個特征向量都是4*1的向量。
第三步把特征值做一個從大到小的排列,取出前兩個最大的特征值和對應的特征向量。如果說lambda1最大,也就是說u1是最主要的方向,是最主要的主成分。次大的特征值對應的特征向量是第二主成分,依次往下排列。
假如說u1,u2是排列前2的主成分,那么就把樣本數據都投影到u1和u2這個方向上,這是只有兩維的數據了,並且u1,u2還是垂直的。可以把他看成新的特征選擇或組合。效果如下:
由上圖可知,投影后的數據可以很容易的對其進行分類。如下圖所示: