评分卡常用模型与算法(应用了解模型,原理了解算法)
模型:逻辑回归模型、决策树模型、神经网络模型、模型融合
算法:MLE、Gradient Descent、RF、GBDT、XGboost、LGBM、BP算法、Stacking、Blending
信用风险评分卡全流程:
一、模型设计
业务理解:进一步理解业务部门的业务需求、业务发展目标和需要解决的问题。
排除规则:根据业务实际情况,制定样本排除规则。
目标定义:根据业务实际情况,结合坏账率分析、滚动率分析、好坏客群数量比例分析,定义目标变量。
样本选取:决定样本的观察期、表现期,同时将样本分为训练集、同时间测试集、跨时间测试集。
1.排除规则(A卡):黑名单客户、欺诈客户、政策影响、VIP、资产变卖、产品变更
2.目标定义→转移矩阵:看初始状态变到更差的比例来选择逾期多少天
3.样本窗口:看累计坏账百分比确定观察期多长
二、客群细分分析(国内不常见)
1.不同组别的个体行为不同
2.已知变量的预测能力对不同组别的作用表现也不同
3.对不同组别分别进行模型开发,体现预测变量的差异性
4.最终结果是在所有目标子群体中增加预测能力
三、拒绝推断(实现法:花钱买数据、直接赋值法、模型扩展法)
申请客群→拒绝黑名单与欺诈客户(F卡)→拒绝高信用风险客户+审批通过(A卡 信用评分卡的目标客群)
四、评分卡开发
数据备份
单变量分析 → 变量分布,异常值分析等
缺失值补全 → 均值、中位数、分箱、模型
数据拆分 → 训练集、测试集、跨时间测试集
变量分箱+逻辑回归 / 树形分类器 → 变量选择,模型拟合
模型评估 → 计算KS、ROC、GINI等统计指标
转换评分卡 → 将概念转换为分数,选择阈值,并计算混淆矩阵
1.单变量分析——异常值处理(极大或极小值、不符合逻辑数据、分布)
2.单变量分析——缺失值处理:缺失值补全
a.单一值补全(数值型:均值/中位数;分类型:新增类别)
b.分组补全(数值型:均值/中位数)
c.模型预测(利用多变量模型预测)
d.WOE补全(仅限LR模型,直接计算WOE)
五、特征变量——衍生变量(特征工程) 先增加后减少
六、特征变量——降维流程
业务理解 → 覆盖率 → IV值筛选 → PSI筛选 → 算法降维 → 多重共线性
1.覆盖率:看缺失值,超过一定比例删掉
2.IV值:WOE组内好坏差异和全局好坏差异的比较
IV(各组好坏差异*权重)再求和
3.PSI衡量两组样本偏评分或分布是否有显著差异
4.算法降维
5.VIF查看多重共线性
七、模型评估——混淆矩阵
准确率、召回率、精准率、F1 Score
模型评估——统计指标
1.K-S:分类能力,累计好样本比例与累计坏样本比例的差值,也可FPR-TPR
2.ROC/AUC/GINI:排序能力
八、分数转换