原文:python大战机器学习——数据降维

注:因为公式敲起来太麻烦,因此本文中的公式没有呈现出来,想要知道具体的计算公式,请参考原书中内容 降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中 主成分分析 PCA 将n维样本X通过投影矩阵W,转换为K维矩阵Z 输入:样本集D,低维空间d 输出:投影矩阵W 算法步骤: 对所有样本进行中心化操作 计算样本的协方差矩阵 对协方差矩阵做特征值分解 取最大的d个特征值对应的特征向量 ...

2017-09-15 22:29 1 12216 推荐指数:

查看详情

python大战机器学习——数据预处理

  数据预处理的常用流程:     1)去除唯一属性     2)处理缺失值     3)属性编码     4)数据标准化、正则化     5)特征选择     6)主成分分析 1、去除唯一属性   如id属性,是唯一属性,直接去除就好 2、处理缺失值 (1)直接使用含有缺失值 ...

Fri Sep 29 06:37:00 CST 2017 0 1509
python大战机器学习——聚类和EM算法

  注:本文中涉及到的公式一律省略(公式不好敲出来),若想了解公式的具体实现,请参考原著。 1、基本概念   (1)聚类的思想:     将数据集划分为若干个不想交的子集(称为一个簇cluster),每个簇潜在地对应于某一个概念。但是每个簇所具有现实意义由使用者自己决定,聚类算法仅仅会进行 ...

Sun Sep 17 01:39:00 CST 2017 0 3333
python大战机器学习——半监督学习

  半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。它是一类可以自动地利用未标记的数据来提升学习性能的算法 1、生成式半监督学习   优点:方法简单,容易实现。通常在有标记数据极少时,生成式半监督学习方法比其他方法性能更好   缺点:假设的生成式模型必须与真实数据 ...

Sun Sep 24 04:57:00 CST 2017 0 3072
python大战机器学习——模型评估、选择与验证

1、损失函数和风险函数 (1)损失函数:常见的有 0-1损失函数 绝对损失函数 平方损失函数 对数损失函数 (2)风险函数:损失函数的期望 经验风险:模型在数据集T上的平均损失   根据大数定律,当N趋向于∞时,经验风险趋向于风险函数 2、模型评估方法 (1)训练误差 ...

Sat Oct 21 06:33:00 CST 2017 0 2174
python机器学习——PCA降维算法

背景与原理: PCA(主成分分析)是将一个数据的特征数量减少的同时尽可能保留最多信息的方法。所谓降维,就是在说对于一个$n$维数据集,其可以看做一个$n$维空间中的点集(或者向量集),而我们要把这个向量集投影到一个$k<n$维空间中,这样当然会导致信息损失,但是如果这个$k$维空间的基底 ...

Thu Mar 31 04:51:00 CST 2022 0 1719
机器学习算法之降维

  在机器学习的过程中,我们经常会遇见过拟合的问题。而输入数据或features的维度过高就是导致过拟合的问题之一。。维度越高,你的数据在每个特征维度上的分布就越稀疏,这对机器学习算法基本都是灾难性的。所有出现了很多降维的方法。今天我们要讨论的就是LDA降维。 LDA降维的思路是:如果两类数据 ...

Fri Jun 29 20:46:00 CST 2018 0 2230
机器学习降维方法

数据降维的目的:数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。 数据降维的好处:降维可以方便数据可视化+数据分析+数据压缩+数据提取等。 降维方法 __ 属性选择:过滤法;包装法;嵌入法;       |_ 映射方法 _线性映射 ...

Fri Feb 24 03:51:00 CST 2017 0 9398
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM