原文:数据分析中的变量分箱——德国信贷数据集(variable bin in data analysis -German credit datasets)

最近看了一本 Python金融大数据风控建模实战:基于机器学习 机械工业出版社 这本书,看了其中第 章:变量分箱方法 内容,总结了主要内容以及做了代码详解,分享给大家。 一 主要知识点: . 变量分箱是一种特征工程方法,意在增强变量的可解释性与预测能力。变量分箱方法主要用于连续变量,对于变量取值较稀疏的离散变量也应该进行分箱处理。 . 变量分箱的好处: 降低异常值的影响,增加模型的稳定性。 缺失 ...

2021-10-15 17:53 0 990 推荐指数:

查看详情

数据分析变量选择——德国信贷数据集variable selection in data analysis-German credit datasets

最近看了一本《Python金融大数据风控建模实战:基于机器学习》(机械工业出版社)这本书,看了其中第7章:变量选择 内容,总结了主要内容以及做了代码详解,分享给大家。 1. 主要知识点 变量选择是特征工程中非常重要的一部分。特征工程是一个先升维后降维的过程。升维的过程是结合业务理解尽可 ...

Mon Oct 25 19:08:00 CST 2021 0 917
数据分析变量编码——德国信贷数据集data coding in data analysis-German credit datasets

最近看了一本《Python金融大数据风控建模实战:基于机器学习》(机械工业出版社)这本书,看了其中第5章:变量编码的方法 内容,总结了主要内容以及做了代码详解,分享给大家。 1. 主要知识点 在统计学,将变量按照取值是否连续分为离散变量和连续变量。例如性别就是离散变量变量只有男、女 ...

Wed Oct 06 01:44:00 CST 2021 0 134
数据分析常用数据集下载

经常用到数据分析常用的数据集,收集挺麻烦的。取之于网络,还之于人民 数据集名称 下载地址 数据集介绍 天池二手车价格预测 链接:https://pan.baidu.com/s ...

Wed Mar 04 05:35:00 CST 2020 0 3665
基于 Python 和 Pandas 的数据分析(4) --- 建立数据集

这一节我想对使用 Python 和 Pandas 的数据分析做一些扩展. 假设我们是亿万富翁, 我们会想要多元化地进行投资, 比如股票, 分红, 金融市场等, 那么现在我们要聚焦房地产市场, 做一些这方面的调研. 首先, 决定房价的因素有哪些呢? 经济, 利率和人口特征.这些是影响放假的主要因素 ...

Fri Feb 15 06:36:00 CST 2019 0 638
基于数据集Airbnb的数据分析

基于数据集Airbnb的数据分析 链接:https://pan.baidu.com/s/1Tz0e9WowqGQ6gam4LhWC3g 提取码:nqtq 开发环境:PyCharm 写在前面:数据分析形式多种多样,本篇文章仅供参考。在python可以不用打分号,纯属个人习惯 ...

Mon Nov 08 07:02:00 CST 2021 0 1155
sklearndatasets数据集

sklearndatasets数据集 ​ sklearn的数据集datasets提供很多不同的数据集,主要包含以下几大类: 玩具数据集 真实世界数据集 样本生成器 样本图片 svmlight或libsvm格式的数据 从http ...

Tue Feb 08 23:42:00 CST 2022 0 1384
Python 探索性数据分析(Exploratory Data Analysis,EDA)

探索性数据分析,主要针对原始数据进行初次了解。了解数据的分布情况、了解分析方向、排除该单个变量的异常值 等。此脚本读取的是 SQL Server ,只需给定表名或视图名称,如果有数据,将输出每个字段符合要求的每张数据分布图。 显示图分为字符型(离散型)和数值型(连续型),示例结果如下: ...

Sat Jan 13 00:11:00 CST 2018 0 9995
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM