机器学习的基本步骤

本文转载自查看原文 2019-12-24 10:00 964

包括缺失值处理、重复值处理、数据类型的转换、字符串数据的规整

缺失值处理（标签数据无需填充缺失）：
- 数值数据：用平均值取代： data[A].fillna(data[A].mean())
- 分类数据：data[A].value_counts()；data[A].fillna("占比最多的类别")；data[A].fillna("U")缺失比较多时，填充代表未知的字符串
- 使用模型预测缺失值，例如：K-NN
数据归一化/标准化：
- 模型具有伸缩可变性，如SVM，最好进行标准化，避免模型参数受极值影响；伸缩不变模型，如逻辑回归，最好也进行标准化，可以加快训练速度
- 归一化/标准化常见两种方法：
1. min-max，化为[0,1]：(x-min(x))/(max(x)-min(x))/preprocessing.MinMaxScaler；适合分别在有限范围内的数据，数值较集中，但min/max不稳定会影响结果
2. Z-core，化为均值为0，方差为1：(x-mean(x))/std(x)/sklearn.preprocessing.scale()，适合最大/最小值未知，或者有超出取值范围的离散值

数值型数据处理：一般可直接使用，或通过运算转化为新的特征
- 通过家庭人数可划分大小家庭：df.家庭人数=df.A+df.B+1(自己)；df.小家庭=df.家庭人数.map(lambda s : 1 if 2 <= s <= 4 else 0)
分类型数据处理：
- 两个类别：性别数据分别填充为1、0：df.A=df.A.map({"male":1;"female":0})
- 超过两个类别：one-hot编码，data'=pd.get_dummies(df.A , prefix='前缀' )；pd.concat([data,data'],axis=1)
- 字符串型-姓名：每一个姓名中都包含了称谓，利用split函数将称谓提取出来；.strip用于移除空格；将称谓进行归类，定义对应字典，利用map函数替换；进行one_hot编码
- 字符串型-客舱号：a[n]可以取到字符串数据第“n”个字符；提取之后进行one_hot编码
时间序列数据，一段时间定期收集的数据-可转成年月日

- 欢迎关注我的公众号，了解一个学设计却做了运营最后成了数据分析师并努力成为大数据工程师的女程序员的成长之路。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 机器学习的三个步骤机器学习（三十）— 机器学习项目一般步骤 7个步骤建立可用的机器学习模型如何通过7个步骤构建机器学习模型机器学习算法一般步骤机器学习框架MXnet安装步骤机器学习算法一般步骤机器学习机器学习是什么机器学习基础