变量的KS值 KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估,指标衡量的是好坏样本累计部分之间的差距 。KS值越大,表示该变量越能将正,负客户的区分程度越大。通常来说,KS>0.2即表示特征有较好的准确率。强调一下,这里的KS值是变量的KS值,而不是模型的KS值 ...
.定义 分箱就是将连续变量离散化,将多状态的离散变量合并成少状态。 .分箱的用处 离散特征的增加和减少都很容易,易于模型的快速迭代 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展 列表内容离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄 gt 是 ,否则 。如果特征没有离散化,一个异常数据 年龄 岁 会给模型造成很大的干扰 列表内容逻辑回归属于广义线性模型,表达能力受限 单变量 ...
2019-03-17 16:24 1 4476 推荐指数:
变量的KS值 KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估,指标衡量的是好坏样本累计部分之间的差距 。KS值越大,表示该变量越能将正,负客户的区分程度越大。通常来说,KS>0.2即表示特征有较好的准确率。强调一下,这里的KS值是变量的KS值,而不是模型的KS值 ...
卡方分箱 卡方分箱原理 数据分析与数据挖掘之四大分布三大检验 python自带分箱函数 -- 无法实现对分类型数据的分箱,可借助卡方分箱算法实现 import numpy as np import pandas as pd data = np.random.randint ...
建模数据的预处理的过程中,变量分箱(即变量离散化)往往是较为核心一环。变量分箱的优劣往往会影响模型评分效果. 一,数据分箱的重要性 1.对异常数据有比较好的鲁棒性. 2.在逻辑回归模型中,单个变量分箱之后每个箱有自己独立的权重,相当于给模型加入了非线性的能力,能够提升模型的表达能力 ...
总结 IV (信息价值,或者信息量) 作用:可以用来衡量自变量(特征)的预测能力 公式: 对每组的IV值求和就可以求出一个特征的IV值 系数(py-pn):这个系数很好的考虑了这个分组中样本占整体样本的比例,比例越低,这个分组对特征整体预测能力的贡献越低 ...
卡方分布—chi-square distribution, χ2-distribution: 若k个独立的随机变量Z1, Z2,..., Zk 满足标准正态分布 N(0,1) , 则这k个随机变量的平方和: 为服从自由度为k的卡方分布,记作: 或者 卡方检验—χ2检验是以 ...
1.离散的优势: (1)离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是 ...
。这里要注意的是,不仅仅是连续变量要分箱,状态多的离散变量也需要分箱,之前接触过公司内特征工程的项目,里边就将超 ...
开源地址见Github:https://github.com/datawhalechina/team-learning 学习目标 学习特征工程的基本概念 学习topline代码的特征工程构造方法,实现构建有意义的特征工程 完成相应学习打卡任务 内容介绍 ...