特征降維其實從大的方面來講有兩種思路可以走:
- 基於原有的特征進行降維
- 基於原有的特征進行篩選
第一種降維方法中,常見的有:PCA、LDA、SVD、稀疏自編碼、word2vec等
第二種篩選的方法主要是對原有特征和目標label進行重要性分析,將那些不重要的特征進行剔除,比如使用gbdt、random forest等模型進行簡單的模型訓練,並輸出特征的權重,繼而進行篩選
但有時為了能更有效地找出輸入數據內部的結構和模式,會尋找一組超完備基向量,其維度可能比輸入的特征維度還要高。
補充一下特征降維的好處:
- 數據維度降低,存儲所需的空間減少
- 減少計算和訓練模型的時間
- 剔除無用或關系不大的特征,減小對模型的影響,提高模型可用性
- 刪除冗余特征(比如某幾維特征存在多重共線性)
- 便於數據可視化