决策树如何对连续性特征进行分段?


特征离散化处理

问题抽象
假设训练样本集合D中有n个样本,考察对连续属性a的最佳分段点/划分点。
若属性a在这n个样本中有m个不同的取值(m<=n),对这m个值两两之间取中点,可获得m-1个中点作为候选划分点。

选择过程
接下来的选择最佳划分点过程和离散属性的虚选择过程类似,以基尼系数或信息增益作为度量,选择使度量值最大的候选划分点作为最佳划分点。

假设我把这0~5的值分成5份,0~1,1~2,2~3,3~4,4~5,那么,我们就有5个离散化的范围了,对每个分类点计算信息增益,(也就是一共计算五次),取最大的一个作为分段点。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM