最近看了一本《Python金融大数据风控建模实战:基于机器学习》(机械工业出版社)这本书,看了其中第6章:变量分箱方法 内容,总结了主要内容以及做了代码详解,分享给大家。 一、 主要知识点: 1. 变量分箱是一种特征工程方法,意在增强变量的可解释性与预测能力。变量分箱方法主要用于连续变量 ...
最近看了一本 Python金融大数据风控建模实战:基于机器学习 机械工业出版社 这本书,看了其中第 章:变量选择 内容,总结了主要内容以及做了代码详解,分享给大家。 . 主要知识点 变量选择是特征工程中非常重要的一部分。特征工程是一个先升维后降维的过程。升维的过程是结合业务理解尽可能多地加工特征,是一个非常耗时且需要发散思维的过程。而变量选择就是降维的过程,因为传统评分卡模型为了保证模型的稳定性 ...
2021-10-25 11:08 0 917 推荐指数:
最近看了一本《Python金融大数据风控建模实战:基于机器学习》(机械工业出版社)这本书,看了其中第6章:变量分箱方法 内容,总结了主要内容以及做了代码详解,分享给大家。 一、 主要知识点: 1. 变量分箱是一种特征工程方法,意在增强变量的可解释性与预测能力。变量分箱方法主要用于连续变量 ...
最近看了一本《Python金融大数据风控建模实战:基于机器学习》(机械工业出版社)这本书,看了其中第5章:变量编码的方法 内容,总结了主要内容以及做了代码详解,分享给大家。 1. 主要知识点 在统计学中,将变量按照取值是否连续分为离散变量和连续变量。例如性别就是离散变量,变量中只有男、女 ...
/datasets/Statlog+%28German+Credit+Data%29 。 该数据集包含 100 ...
基于数据集Airbnb的数据分析 链接:https://pan.baidu.com/s/1Tz0e9WowqGQ6gam4LhWC3g 提取码:nqtq 开发环境:PyCharm 写在前面:数据的分析形式多种多样,本篇文章仅供参考。在python中可以不用打分号,纯属个人习惯 ...
经常用到数据分析常用的数据集,收集挺麻烦的。取之于网络,还之于人民 数据集名称 下载地址 数据集介绍 天池二手车价格预测 链接:https://pan.baidu.com/s ...
这一节我想对使用 Python 和 Pandas 的数据分析做一些扩展. 假设我们是亿万富翁, 我们会想要多元化地进行投资, 比如股票, 分红, 金融市场等, 那么现在我们要聚焦房地产市场, 做一些这方面的调研. 首先, 决定房价的因素有哪些呢? 经济, 利率和人口特征.这些是影响放假的主要因素 ...
1、折线图 作用:适合于随时间变化的递增或递减变量,有规律可循,需要了解某变量在一段时间的趋势变化,就用折线图。 注意:折线图条数过多不宜放在一张图内 具体例子:公司的A商品的年销售趋势。 2、柱状图 作用:各类别之间的对比。 注意:垂直柱状图最多12个分类,横向 ...
sklearn中的datasets数据集 sklearn的数据集库datasets提供很多不同的数据集,主要包含以下几大类: 玩具数据集 真实世界中的数据集 样本生成器 样本图片 svmlight或libsvm格式的数据 从http ...