描述出其本身的含義
特征選擇
特征選擇對於數據科學家、機器學習從業者來說非常重要。好的特征選擇能夠提升模型的性能,更能幫助我們理解數據的特點、底層結構,這對進一步改善模型、算法都有着重要作用。
特征選擇主要有兩個功能:
(1)減少特征數量、降維,使模型泛化能力更強,減少過擬合
(2)增強對特征和特征值之間的理解
拿到數據集,一個特征選擇方法,往往很難同時完成這兩個目的。
PCA
PCA是一種數學降維方法,利用正交變換把一系列可能線性相關的變量轉換為一組線性不相關的新變量,也稱為主成分,從而利用新變量在更小的維度下展示數據的特征。
主成分是原有變量的線性組合,其數目不多於原始變量。組合之后,相當於我們獲得了一批新的觀測數據,這些數據的含義不同於原有數據,但包含了之前數據的大部分特征,並且有着較低的維度,便於進一步的分析。
主成分分析的意義:
(1)簡化運算
(2)去除數據噪音
(3)可視化高維數據(利用散點圖實現高維數據可視化)
(4)發現隱性相關變量
闡述出兩者的主要區別
PCA可用於簡化運算,可視化高維數據,發現隱性相關變量,就拿畫散點圖來說特征選擇是通過與實際值相關性強弱選擇出最大相關性的特征如朝向和房價、建築面積和房價,顯然建築面積和房價相關性高些,所以特征選擇的橫坐標選擇建築面積最為合適;而PCA可以將朝向和建築面積兩個特征合為一個特征,當為散點圖的橫坐標,這體現出PCA的實用性。