常用特征離散化方法


1規定划分區間的參數,取定長的間隔將特征放入不同的箱子中,這種方法對異常點比較敏感。(等寬)

2 根據頻率划分箱子,會出現特征相同卻不在一個箱子中的情況,需要在划分完成后進行微調。(等頻)先對特征值進行sort,然后評估分割點,划分或者合並

3 1R方法:將前面的m個實例放入箱子中如果后面實例放入箱子時,比對當前實例的標簽是否與箱子中大部分實例標簽相同,如果相同就放入,如果不相同就形成下一個m大小的新箱子,將實例全部放入箱子后,將箱子中大多數實例標簽作為箱子的標簽,再將標簽相同的箱子合並

4 基於卡方的離散方法:將數值特征的每個不同值看做一個區間對每個相鄰的區間計算卡方統計量,如果大就合並,如果不大於閾值就停止。
5 或者基於熵的離散方法:使用合成或者分裂的方法根據熵計算和閾值判定來JUDGE是合成還是分裂。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM