本博客只包含3-9章代码编程课后习题的伪代码,仅作参考。
第三章 对数几率回归
3.3 编程实现对率回归,并给出西瓜数据集3.0α上的结果
输入:数据集3.0a
输出:测试集上的准确率
3.4 选择两个 UCI 数据集,比较 10 折交叉验证法和留一法所估计出的对率回归的错误率。
3.3+数据集的改变方式
- 留一法:
有m个数据样本,k折交叉验证是把样本划分为10等份,留一法就是k=m时的场景,即每次留1个样本做测试集,剩余的全部做训练集 - 10折交叉验证法:
十折交叉验证,把样本分成10等分,在这10份数据中依次抽取一份做测试集,剩余9份做训练集,重复10次
3.5 编辑实现线性判别分析,并给出西瓜数据集 3.0α 上的结果.
输入:数据集3.0a
输出:线性判别分析
第四章 决策树
4.3 试编程实现基于信息熵进行划分选择的决策树算法,并为表 4.3 中数据生成一棵决策树。
采用ID3实现决策树,伪代码如下:
输入:训练集D,属性集A
输出:决策树
4.4 试编程实现基于基尼指数进行划分选择的决策树算法,为表 4.2 中数据生成预剪枝、后剪枝决策树并与未剪枝决策树进行比较.
未剪枝
输入:训练集D,属性集A
输出:决策树
预剪枝
策略:若验证集精度没有提升,则不再划分
输入:训练集D,测试集T, 属性集A
输出:预剪枝后的决策树
后剪枝
后剪枝是先从训练集生成一颗完整的决策树,然后自底向上地对非叶节点进行考察,若将该节点对应的子树完全替换为叶节点能带来决策树繁花性的提升,则将该子树替换为叶节点。
首先构造一个未剪枝的决策树,而后进行如下剪枝步骤:
4.5 试编程实现基于对率回归进行划分选择的决策树算法,并为表 4.3 中数据生成一棵决策树.
很多篇博客没有详细说明,觉得考的优先级不是很高,暂时放在这里
有兴趣可以看这篇的代码:https://blog.csdn.net/qq_36949278/article/details/89597491