為什么要進行數據分箱?(轉)


一般在建立分類模型時,需要對連續變量離散化,特征離散化后,模型會更穩定,降低了模型過擬合的風險。比如在建立申請評分卡模型時用logsitic作為基模型就需要對連續變量進行離散化,離散化通常采用分箱法。

分箱的重要性及其優勢

  1. 離散特征的增加和減少都很容易,易於模型的快速迭代;
  2. 稀疏向量內積乘法運算速度快,計算結果方便存儲,容易擴展;
  3. 離散化后的特征對異常數據有很強的魯棒性:比如一個特征是年齡>30是1,否則0。如果特征沒有離散化,一個異常數據“年齡300歲”會給模型造成很大的干擾;
  4. 特征離散化后,模型會更穩定,比如如果對用戶年齡離散化,20-30作為一個區間,不會因為一個用戶年齡長了一歲就變成一個完全不同的人。當然處於區間相鄰處的樣本會剛好相反,所以怎么划分區間是門學問;
  5. 特征離散化以后,起到了簡化了邏輯回歸模型的作用,降低了模型過擬合的風險。
  6. 可以將缺失作為獨立的一類帶入模型。

 

 

原文鏈接:https://blog.csdn.net/pylady/article/details/78882220


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM