原文:【风控算法】二、SQL->Python->PySpark计算KS,AUC及PSI

KS,AUC 和 PSI 是风控算法中最常计算的几个指标,本文记录了多种工具计算这些指标的方法。 生成本文的测试数据: 一 KS KS 指标来源于 Kolmogorov Smirnov 检验,通常用于比较两组样本是否来源于同一分布。在建模中划分训练集与测试集后,通常运用 KS 检验来检验训练集与测试集的分布差异,如果分布差异过大,那可能就会因为训练集 测试集划分不合理而降低模型的泛化性。 关于 K ...

2021-12-14 16:21 0 2682 推荐指数:

查看详情

算法】一、变量分箱、WOE和IV值计算

一、变量分箱 变量分箱常见于逻辑回归评分卡的制作中,在入模前,需要对原始变量值通过分箱映射成woe值。举例来说,如”年龄“这一变量,我们需要找到合适的切分点,将连续的年龄打散到不同的”箱“中,并按年 ...

Fri Aug 20 05:56:00 CST 2021 0 516
【转】中的特征评价指标(三)——KS

转自:https://zhuanlan.zhihu.com/p/79934510 业务背景 在中,我们常用KS指标来评估模型的区分度(discrimination)。这也是模型同学最为追求的指标之一。那么,有多少人真正理解KS背后的内涵?本文将从区分度的概念、KS计算方法、业务 ...

Tue Jan 05 01:22:00 CST 2021 0 738
auc ks 新理解

转https://www.zybuluo.com/frank-shaw/note/152851 新理解:我认为auc,和ks异曲同工。auc是根据预测概率(由大到小排序)作为阈值,可分割为不多于样本个数n个阈值。即可得到n个recall和precision把这些点连成线即为roc曲线。auc即为 ...

Sun Sep 30 08:14:00 CST 2018 0 1664
Python计算AUC

AUC(Area under curve)是机器学习常用的二分类评测手段,直接含义是ROC曲线下的面积。另一种解释是:随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。 在有M个正样本,N个负样本的数据集里,利用公式 ...

Mon Oct 21 18:14:00 CST 2019 0 1540
python计算auc指标

1.安装scikit-learn 1.1Scikit-learn 依赖 Python (>= 2.7 or >= 3.3), NumPy (>= 1.8.2), SciPy (>= 0.13.3). 分别查看上述三个依赖的版本 ...

Thu Jul 13 03:13:00 CST 2017 0 9342
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM