為什么要進行數據分箱？（轉）

本文轉載自查看原文 2018-07-16 11:01 6429 互聯網金融與廣告行業

一般在建立分類模型時，需要對連續變量離散化，特征離散化后，模型會更穩定，降低了模型過擬合的風險。比如在建立申請評分卡模型時用logsitic作為基模型就需要對連續變量進行離散化，離散化通常采用分箱法。

分箱的重要性及其優勢

離散特征的增加和減少都很容易，易於模型的快速迭代；
稀疏向量內積乘法運算速度快，計算結果方便存儲，容易擴展；
離散化后的特征對異常數據有很強的魯棒性：比如一個特征是年齡>30是1，否則0。如果特征沒有離散化，一個異常數據“年齡300歲”會給模型造成很大的干擾；
特征離散化后，模型會更穩定，比如如果對用戶年齡離散化，20-30作為一個區間，不會因為一個用戶年齡長了一歲就變成一個完全不同的人。當然處於區間相鄰處的樣本會剛好相反，所以怎么划分區間是門學問；
特征離散化以后，起到了簡化了邏輯回歸模型的作用，降低了模型過擬合的風險。
可以將缺失作為獨立的一類帶入模型。

原文鏈接：https://blog.csdn.net/pylady/article/details/78882220

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 如何進行數據變換(轉) 數據分箱對數據集進行最優分箱和WOE轉換【轉】使用sklearn優雅地進行數據挖掘特征工程－數據分箱數據離散化-分箱數據分箱：等頻分箱，等距分箱，卡方分箱，計算WOE、IV 如何高效地進行數據建模 Oracle 只有.dbf數據文件進行數據庫恢復 (轉) 並行數據的並行轉串行