什么是組合特征?如何處理高維組合特征?


 

 

 

 

特征降維其實從大的方面來講有兩種思路可以走:

  • 基於原有的特征進行降維
  • 基於原有的特征進行篩選

第一種降維方法中,常見的有:PCA、LDA、SVD、稀疏自編碼、word2vec等

第二種篩選的方法主要是對原有特征和目標label進行重要性分析,將那些不重要的特征進行剔除,比如使用gbdt、random forest等模型進行簡單的模型訓練,並輸出特征的權重,繼而進行篩選

但有時為了能更有效地找出輸入數據內部的結構和模式,會尋找一組超完備基向量,其維度可能比輸入的特征維度還要高。

補充一下特征降維的好處:

  • 數據維度降低,存儲所需的空間減少
  • 減少計算和訓練模型的時間
  • 剔除無用或關系不大的特征,減小對模型的影響,提高模型可用性
  • 刪除冗余特征(比如某幾維特征存在多重共線性)
  • 便於數據可視化


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM