在使用机器学习算法过程中,针对不同的问题需要不用的模型评估标准,这里统一汇总。主要以两大类分类与回归分别阐述。 一、分类问题 1、混淆矩阵 混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类 ...
在使用机器学习算法过程中,针对不同的问题需要不用的模型评估标准,这里统一汇总。主要以两大类分类与回归分别阐述。 一、分类问题 1、混淆矩阵 混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类 ...
无论是利用模型对信用申请人进行违约识别,还是对授信申请人进行逾期识别……在各种各样的统计建模中,永远必不可少的一步是对模型的评价,这样我们就可以根据模型评价指标的取值高低,来决定选取哪个模型。本篇主要 ...
说明: KMeans 聚类中的超参数是 K,需要我们指定。K 值一方面可以结合具体业务来确定,另一方面可以通过肘方法来估计。K 参数的最优解是以成本函数最小化为目标,成本函数为各个类畸变程度之和,每 ...
用于回归问题 决定系数R2 ,衡量模型预测能力好坏(真实和预测的 相关程度百分比) Y_true是真实的数据,y_pred是预测的数据。 使用r2_score()方法可以看到,预测数据和 ...
一、基尼指数的概念 基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。注意:Gini指数越小表示集合中被选中 ...
面试的时候经常被问的一个问题是 AUC和F1 score有什么区别。笔者看了很多博文,感觉相当一部分在分析混淆矩阵和auc、f1的定义上花了太多笔墨,但对于两者的区别和联系,有 ...
文章从模型评估的基本概念开始,分别介绍了常见的分类模型的评估指标和回归模型的评估指标以及这些指标的局限性。部分知识点举例加以阐述,以便加深理解。思维导图如下: 1 基本概念 模 ...
更多大数据分析、建模等内容请关注公众号《bigdatamodeling》 将代码封装在函数PlotKS_N里,Pred_Var是预测结果,可以是评分或概率形式;labels_Var是好坏标签,取值为 ...
1. 准确率/召回率/f1分数 2. Auc(一般用于二分类) 3. kappa系数(一般用于多分类) 3.1 简单kappa(simple kappa) Kappa系数用于一致性检验,代表 ...
GridSearchCV网格搜索算法, 经常用于调优模型参数,遍历多个模型参数,带入模型,进行训练,从中找出评分最高的模型。 GridSearchCV(参数1,参数2,参数3,参数4=none) ...