特征挖掘之對二階特征的提取


在進行有監督的機器學習時,特征工程顯得尤其重要,本文介紹的是在人工提取一些特征之后,怎樣對這些特征進行二階組合提取;

在進行一系列的摸索之后,得到3個基本點:

  1. 對連續的特征進行離散化處理:
    • 最優分箱(見前面的博文
    • 進行WOE變換(將原特征用分箱后的WOE值替換)
  2. 離散特征:
    • 如果離散特征的維度較低(低到多少自己定,可根據前面的博文輸出結果決定),沒有必要對其進行WOE變換
  3. 二階組合要有一定的針對性
    • 待組合的兩個特征的重要性(或者IV)都比較低
    • 待組合的兩個特征的重要性(或者IV)一高一低
    • 不建議對重要性很高的特征進行操作,當然也可以使用,但最后一定要評測好

二階特征組合更多的應該是在給定某特征條件下的組合,而不是盲目的對所有的特征進行WOE變換之后進行簡單的組合,這樣會出問題,組合出來完全沒意義(其實是在吐槽上面瞎指導的人)

 未完待續...


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM