决策树(三):常见算法及剪枝策略


主要算法

ID3 算法

核心思路:在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树。
具体方法:(1)从根结点(root node)开始,对结点计算所有可能的特征的信息增益,然后选择信息增益最大的特征作为结点的特征,并由该特征的不同取值建立子结点;(2)再对子结点递归地调用以上方法,构建决策树。

决策树构建停止条件:直到所有的信息增益均很小或没有特征可以选择为止。
ID3相当于用极大似然法进行概率模型的选择.

缺点:ID3算法只有树的生成,所以该算法生成的树容易产生过拟合。

C4.5 算法

** 采用信息增益比来选择特征。**

CART(classification and regression)算法

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率。既可以用于分类也可以用于回归。

  • 分类决策树
    CART假定决策树是二叉树。 分类决策树就是递归地构建二叉决策树地过程。
  • 回归决策树

决策树剪枝

剪枝的目的在于:缓解决策树的"过拟合",降低模型复杂度,提高模型整体的学习效率
(决策树生成学习局部的模型,而决策树剪枝学习整体的模型)

基本策略:

  • 预剪枝:是指在决策树生成过程中,对每一个结点在划分前进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶子结点。
    优点:降低了过拟合地风险,并显著减少了决策树地训练时间开销和测试时间开销。
    缺点:有些分支地当前划分虽不能提升泛化性能、甚至可能导致泛化性能下降,但是在其基础上进行地后续划分却可能导致性能显著提高;
    预剪枝基于'贪心'本质禁止这些分支展开,给预剪枝决策树带来了欠拟合的风险。

  • 后剪枝:先从训练集生成一棵完整的决策树,然后自底向上地对非叶子结点进行考察,若将该结点对应地子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。
    优点:一般情况下后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树。
    缺点:自底向上的注意考察,时间开销较高。

现有的后剪枝方法

  1. 基于极小化损失函数或代价函数的剪枝(李航:《统计学习方法》)。
    设树T的叶结点个数为|T|,t是树T的叶结点,该叶节点有\(N_t\)个样本,其中k类的样本
    有N_(tk)个,\(k=1,2,...,V\),\(H_t(T)\)为叶结点t上的经验熵,α>=0为参数,则决策树的
    损失函数可以定义为:

2.其它方法
文献:决策树的剪枝策略研究

参考文献:

1.周志华.《机器学习》,2016版.

2.李航.《统计学习方法》.

3.机器学习实战

4.黎娅,郭江娜.决策树的剪枝策略研究[J].河南科学,2009,27(03):320-323


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM