我想通过几篇文章,给评分卡的全流程一个中等粒度的介绍。另外我的本职工作不是消费金融的数据分析,所以本系列的文章会偏技术一些。 数据分析工具主要有Python3及pandas、sklearn等科学计算包,另外也会有自己的工具包reportgen。 信用记录数据采用Lending Club ...
时间:JSong 时间: . . 文章很长,理论和实现都讲的很细,大家可以先收藏,有时间再看。 在上一篇文章中,我们对LendingClub的数据有了一个大致的了解,这次我将带大家把 万多条 个字段的原始数据一步一步处理成建模所需输入的数据。 我们先按照上次一样导入数据,这里我将逾期 天以上的都当作正类 评分卡简介 在进行下一步操作之前,我们先来解构一下评分卡。 贷款机构 含银行 信用卡 互联网金 ...
2018-01-14 19:37 4 11810 推荐指数:
我想通过几篇文章,给评分卡的全流程一个中等粒度的介绍。另外我的本职工作不是消费金融的数据分析,所以本系列的文章会偏技术一些。 数据分析工具主要有Python3及pandas、sklearn等科学计算包,另外也会有自己的工具包reportgen。 信用记录数据采用Lending Club ...
作者:JSong 时间:2017.12 我想通过几篇文章,给评分卡的全流程一个中等粒度的介绍。另外我的本职工作不是消费金融的数据分析,所以本系列的文章会偏技术一些。 数据分析工具主要有Python3及pandas、sklearn等科学计算包,另外也会有自己的工具包reportgen ...
有的时候,已有的特征可能并没有有效的表征特征,尤其是针对特殊的业务的时候,极有可能需要对已有的特征进行变换,从而让特征更加能够表征特有的业务。这里介绍几种常用的特征构造方法。 (1) 统计量构造 使用常用的统计量构造特征,常用的统计量有: 四分位数、中位数、平均值、标准差、偏差、偏度 ...
本文为根据风控课程总结 个人信贷产品的信用评分 商业银行三大风险流动性风险、市场风险(利率、信用)和操作风险,其他(欺诈风险) 信用风险:在合约到期日不完全履约 信用风险重要参数:PD(违约概率)、LGD(违约条件下的损失率)、EAD(违约风险下的敞口暴露)、RWA(风险权重资产)、EL ...
评分卡常用模型与算法(应用了解模型,原理了解算法) 模型:逻辑回归模型、决策树模型、神经网络模型、模型融合 算法:MLE、Gradient Descent、RF、GBDT、XGboost、LGBM、BP算法、Stacking、Blending 信用风险评分卡全流程 ...
数据对齐 Z分数标准化 将数据转换成服从标准正太分布的数据 $$ \hat x = \frac{x-\mu}{\sigma} $$ 归一化 将数据 ...
1.定义 分箱就是将连续变量离散化,将多状态的离散变量合并成少状态。 2.分箱的用处 离散特征的增加和减少都很容易,易于模型的快速迭代; 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展; 列表内容离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30 ...
特征工程系列:GBDT特征构造以及聚类特征构造 本文为数据茶水间群友原创,经授权在本公众号发表。 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~ 0x00 前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限 ...