在進行有監督的機器學習時,特征工程顯得尤其重要,本文介紹的是在人工提取一些特征之后,怎樣對這些特征進行二階組合提取;
在進行一系列的摸索之后,得到3個基本點:
- 對連續的特征進行離散化處理:
- 最優分箱(見前面的博文)
- 進行WOE變換(將原特征用分箱后的WOE值替換)
- 離散特征:
- 如果離散特征的維度較低(低到多少自己定,可根據前面的博文輸出結果決定),沒有必要對其進行WOE變換
- 二階組合要有一定的針對性
- 待組合的兩個特征的重要性(或者IV)都比較低
- 待組合的兩個特征的重要性(或者IV)一高一低
- 不建議對重要性很高的特征進行操作,當然也可以使用,但最后一定要評測好
二階特征組合更多的應該是在給定某特征條件下的組合,而不是盲目的對所有的特征進行WOE變換之后進行簡單的組合,這樣會出問題,組合出來完全沒意義(其實是在吐槽上面瞎指導的人)
未完待續...