在學習的過程中,關於特征選擇和降維都是防止數據過擬合的有效手段,但是兩者又有本質上的區別。
降維
降維本質上是從一個維度空間映射到另一個維度空間,特征的多少別沒有減少,當然在映射的過程中特征值也會相應的變化。
舉個例子,現在的特征是1000維,我們想要把它降到500維。降維的過程就是找個一個從1000維映射到500維的映射關系。原始數據中的1000個特征,每一個都對應着降維后的500維空間中的一個值。假設原始特征中有個特征的值是9,那么降維后對應的值可能是3。
特征選擇
特征選擇就是單純地從提取到的所有特征中選擇部分特征作為訓練集特征,特征在選擇前和選擇后不改變值,但是選擇后的特征維數肯定比選擇前小,畢竟我們只選擇了其中的一部分特征。
舉個例子,現在的特征是1000維,現在我們要從這1000個特征中選擇500個,那個這500個特征的值就跟對應的原始特征中那500個特征值是完全一樣的。對於另個500個沒有被選擇到的特征就直接拋棄了。假設原始特征中有個特征的值是9,那么特征選擇選到這個特征后它的值還是9,並沒有改變。