特征離散化處理
問題抽象
假設訓練樣本集合D中有n個樣本,考察對連續屬性a的最佳分段點/划分點。
若屬性a在這n個樣本中有m個不同的取值(m<=n),對這m個值兩兩之間取中點,可獲得m-1個中點作為候選划分點。
選擇過程
接下來的選擇最佳划分點過程和離散屬性的虛選擇過程類似,以基尼系數或信息增益作為度量,選擇使度量值最大的候選划分點作為最佳划分點。
假設我把這0~5的值分成5份,0~1,1~2,2~3,3~4,4~5,那么,我們就有5個離散化的范圍了,對每個分類點計算信息增益,(也就是一共計算五次),取最大的一個作為分段點。