主要算法
ID3 算法
核心思路:在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树。
具体方法:(1)从根结点(root node)开始,对结点计算所有可能的特征的信息增益,然后选择信息增益最大的特征作为结点的特征,并由该特征的不同取值建立子结点;(2)再对子结点递归地调用以上方法,构建决策树。
决策树构建停止条件:直到所有的信息增益均很小或没有特征可以选择为止。
ID3相当于用极大似然法进行概率模型的选择.
缺点:ID3算法只有树的生成,所以该算法生成的树容易产生过拟合。
C4.5 算法
** 采用信息增益比来选择特征。**
CART(classification and regression)算法
CART是在给定输入随机变量X条件下输出随机变量Y的条件概率。既可以用于分类也可以用于回归。
- 分类决策树
CART假定决策树是二叉树。 分类决策树就是递归地构建二叉决策树地过程。
- 回归决策树
决策树剪枝
剪枝的目的在于:缓解决策树的"过拟合",降低模型复杂度,提高模型整体的学习效率
(决策树生成学习局部的模型,而决策树剪枝学习整体的模型)
基本策略:
-
预剪枝:是指在决策树生成过程中,对每一个结点在划分前进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶子结点。
优点:降低了过拟合地风险,并显著减少了决策树地训练时间开销和测试时间开销。
缺点:有些分支地当前划分虽不能提升泛化性能、甚至可能导致泛化性能下降,但是在其基础上进行地后续划分却可能导致性能显著提高;
预剪枝基于'贪心'本质禁止这些分支展开,给预剪枝决策树带来了欠拟合的风险。 -
后剪枝:先从训练集生成一棵完整的决策树,然后自底向上地对非叶子结点进行考察,若将该结点对应地子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。
优点:一般情况下后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树。
缺点:自底向上的注意考察,时间开销较高。
现有的后剪枝方法
- 基于极小化损失函数或代价函数的剪枝(李航:《统计学习方法》)。
设树T的叶结点个数为|T|,t是树T的叶结点,该叶节点有\(N_t\)个样本,其中k类的样本
有N_(tk)个,\(k=1,2,...,V\),\(H_t(T)\)为叶结点t上的经验熵,α>=0
为参数,则决策树的
损失函数可以定义为:
2.其它方法
文献:决策树的剪枝策略研究
参考文献:
1.周志华.《机器学习》,2016版.
2.李航.《统计学习方法》.
3.机器学习实战
4.黎娅,郭江娜.决策树的剪枝策略研究[J].河南科学,2009,27(03):320-323