决策树(三)：常见算法及剪枝策略

本文转载自查看原文 2020-04-24 11:16 1080 机器学习

核心思路：在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。
具体方法：(1)从根结点(root node)开始，对结点计算所有可能的特征的信息增益，然后选择信息增益最大的特征作为结点的特征，并由该特征的不同取值建立子结点；(2)再对子结点递归地调用以上方法，构建决策树。

决策树构建停止条件：直到所有的信息增益均很小或没有特征可以选择为止。
ID3相当于用极大似然法进行概率模型的选择.

缺点：ID3算法只有树的生成，所以该算法生成的树容易产生过拟合。

** 采用信息增益比来选择特征。**

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率。既可以用于分类也可以用于回归。

剪枝的目的在于：缓解决策树的"过拟合"，降低模型复杂度，提高模型整体的学习效率
(决策树生成学习局部的模型，而决策树剪枝学习整体的模型)

基本策略：

预剪枝：是指在决策树生成过程中，对每一个结点在划分前进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶子结点。
优点：降低了过拟合地风险，并显著减少了决策树地训练时间开销和测试时间开销。
缺点：有些分支地当前划分虽不能提升泛化性能、甚至可能导致泛化性能下降，但是在其基础上进行地后续划分却可能导致性能显著提高；
预剪枝基于'贪心'本质禁止这些分支展开，给预剪枝决策树带来了欠拟合的风险。
后剪枝：先从训练集生成一棵完整的决策树，然后自底向上地对非叶子结点进行考察，若将该结点对应地子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。
优点：一般情况下后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。
缺点：自底向上的注意考察，时间开销较高。

现有的后剪枝方法

基于极小化损失函数或代价函数的剪枝(李航：《统计学习方法》)。
设树T的叶结点个数为|T|,t是树T的叶结点，该叶节点有\(N_t\)个样本，其中k类的样本
有N_(tk)个，\(k=1,2,...,V\),\(H_t(T)\)为叶结点t上的经验熵，α>=0为参数，则决策树的
损失函数可以定义为：

参考文献：

1.周志华.《机器学习》，2016版.

2.李航.《统计学习方法》.

3.机器学习实战

4.黎娅,郭江娜.决策树的剪枝策略研究[J].河南科学,2009,27(03):320-323

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 决策树-剪枝算法（二）决策树剪枝算法决策树剪枝机器学习--决策树之回归树及剪枝算法决策树剪枝问题决策树及其剪枝原理决策树系列（二）——剪枝决策树的优化-剪枝优化浅析决策树的生长和剪枝决策树如何做剪枝