連續型數據離散化處理

本文轉載自查看原文 2020-04-06 17:30 1696 Machine Learning

轉載：
Python利用pandas/sklearn處理類別型特征；手動分段與離散化處理連續型特征
 連續屬性離散化與sklearn.preprocessing.KBinsDiscretizer

第一篇使用numpy對連續數據分桶，然后使用sklearn的OneHotEncoder編碼為OneHot編碼，第二篇直接使用sklearn的KBinsDiscretizer一步到位。

參考知乎李沐回答
在工業界，很少直接將連續值作為邏輯回歸模型的特征輸入，而是將連續特征離散化為一系列0、1特征交給邏輯回歸模型，這樣做的優勢有以下幾點:

離散特征的增加和減少都很容易，易於模型的快速迭代；
稀疏向量內積乘法運算速度快，計算結果方便存儲，容易擴展；
離散化后的特征對異常數據有很強的魯棒性：比如一個特征是年齡>30是1，否則0。如果特征沒有離散化，一個異常數據“年齡300歲”會給模型造成很大的干擾；
邏輯回歸屬於廣義線性模型，表達能力受限；單變量離散化為N個后，每個變量有單獨的權重，相當於為模型引入了非線性，能夠提升模型表達能力，加大擬合；
離散化后可以進行特征交叉，由M+N個變量變為M*N個變量，進一步引入非線性，提升表達能力；
特征離散化后，模型會更穩定，比如如果對用戶年齡離散化，20-30作為一個區間，不會因為一個用戶年齡長了一歲就變成一個完全不同的人。當然處於區間相鄰處的樣本會剛好相反，所以怎么划分區間是門學問；
特征離散化以后，起到了簡化了邏輯回歸模型的作用，降低了模型過擬合的風險。

李沐曾經說過：模型是使用離散特征還是連續特征，其實是一個“海量離散特征+簡單模型” 同 “少量連續特征+復雜模型”的權衡。既可以離散化用線性模型，也可以用連續特征加深度學習。就看是喜歡折騰特征還是折騰模型了。通常來說，前者容易，而且可以n個人一起並行做，有成功經驗；后者目前看很贊，能走多遠還須拭目以待。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 連續屬性離散化處理 sklearn連續型數據離散化五、離散化處理離散型變量和連續型變量的區別數學期望（離散型和連續型） pandas學習(數據分組與分組運算、離散化處理、數據合並) 獨立性檢驗|適應性檢驗|卡方檢驗|離散型數據|連續型數據數據連續屬性離散化數據處理：2.異常值處理 & 數據歸一化 & 數據連續屬性離散化數據的歸一化處理