原文:python大战机器学习——数据预处理

数据预处理的常用流程: 去除唯一属性 处理缺失值 属性编码 数据标准化 正则化 特征选择 主成分分析 去除唯一属性 如id属性,是唯一属性,直接去除就好 处理缺失值 直接使用含有缺失值的特征 如决策树算法就可以直接使用含有缺失值的特征 删除含有缺失值的特征 缺失值补全 均值插补 若样本属性的距离是可度量的,则该属性的缺失值就以该属性有效值的平均值来插补缺失的值。如果样本的属性的距离是不可度量的, ...

2017-09-28 22:37 0 1509 推荐指数:

查看详情

python大战机器学习——数据降维

注:因为公式敲起来太麻烦,因此本文中的公式没有呈现出来,想要知道具体的计算公式,请参考原书中内容       降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中 1、主成分分析(PCA)   将n维样本X通过投影矩阵W,转换为K维矩阵Z   输入:样本集D,低维空间d ...

Sat Sep 16 06:29:00 CST 2017 1 12216
python大战机器学习——聚类和EM算法

  注:本文中涉及到的公式一律省略(公式不好敲出来),若想了解公式的具体实现,请参考原著。 1、基本概念   (1)聚类的思想:     将数据集划分为若干个不想交的子集(称为一个簇cluster),每个簇潜在地对应于某一个概念。但是每个簇所具有现实意义由使用者自己决定,聚类算法仅仅会进行 ...

Sun Sep 17 01:39:00 CST 2017 0 3333
python大战机器学习——半监督学习

  半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。它是一类可以自动地利用未标记的数据来提升学习性能的算法 1、生成式半监督学习   优点:方法简单,容易实现。通常在有标记数据极少时,生成式半监督学习方法比其他方法性能更好   缺点:假设的生成式模型必须与真实数据 ...

Sun Sep 24 04:57:00 CST 2017 0 3072
python大战机器学习——模型评估、选择与验证

1、损失函数和风险函数 (1)损失函数:常见的有 0-1损失函数 绝对损失函数 平方损失函数 对数损失函数 (2)风险函数:损失函数的期望 经验风险:模型在数据集T上的平均损失   根据大数定律,当N趋向于∞时,经验风险趋向于风险函数 2、模型评估方法 (1)训练误差 ...

Sat Oct 21 06:33:00 CST 2017 0 2174
机器学习数据预处理

在sklearn之数据分析中总结了数据分析常用方法,接下来对数据预处理进行总结 当我们拿到数据集后一般需要进行以下步骤: (1)明确有数据集有多少特征,哪些是连续的,哪些是类别的 (2)检查有没有缺失值,对缺失的特征选择恰当的方式进行弥补,使数据完整 (3)对连续的数值型特征进行 ...

Fri Jun 21 00:23:00 CST 2019 0 3542
机器学习数据预处理

归一化处理 from sklearn.preprocessing import StandardScaler X_scaler = StandardScaler() y_scaler = StandardScaler() X_train = X_scaler.fit_transform ...

Mon Nov 14 01:11:00 CST 2016 0 3569
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM