半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。它是一类可以自动地利用未标记的数据来提升学习性能的算法 1、生成式半监督学习 优点:方法简单,容易实现。通常在有标记数据极少时,生成式半监督学习方法比其他方法性能更好 缺点:假设的生成式模型必须与真实 ...
注:本文中涉及到的公式一律省略 公式不好敲出来 ,若想了解公式的具体实现,请参考原著。 基本概念 聚类的思想: 将数据集划分为若干个不想交的子集 称为一个簇cluster ,每个簇潜在地对应于某一个概念。但是每个簇所具有现实意义由使用者自己决定,聚类算法仅仅会进行划分。 聚类的作用: 可以作为一个单独的过程,用于寻找数据的一个分布规律 作为分类的预处理过程。首先对分类数据进行聚类处理,然后在聚类 ...
2017-09-16 17:39 0 3333 推荐指数:
半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。它是一类可以自动地利用未标记的数据来提升学习性能的算法 1、生成式半监督学习 优点:方法简单,容易实现。通常在有标记数据极少时,生成式半监督学习方法比其他方法性能更好 缺点:假设的生成式模型必须与真实 ...
的特征 如决策树算法就可以直接使用含有缺失值的特征 (2)删除含有缺失值的特征 (3)缺失值 ...
1、损失函数和风险函数 (1)损失函数:常见的有 0-1损失函数 绝对损失函数 平方损失函数 对数损失函数 (2)风险函数:损失函数的期望 经验风险:模型在数据集T上的平均损失 ...
输出:投影矩阵W 算法步骤: 1)对所有样本进行中心化操作 2)计算 ...
)了。如果找到的y能够使P(x,y)最大,那么我们找到的y就是样例x的最佳类别了,x顺手就聚类了。但是我们 ...
,是很多机器学习领域的基础,比如隐式马尔科夫算法(HMM),LDA主题模型的变分推断算法等等。本文对于EM算 ...
一 矩阵求导 复杂矩阵问题求导方法:可以从小到大,从scalar到vector再到matrix。 x is a column vector, A is a matrix d(A&am ...
背景与原理: 聚类问题与分类问题有一定的区别,分类问题是对每个训练数据,我给定了类别的标签,现在想要训练一个模型使得对于测试数据能输出正确的类别标签,更多见于监督学习;而聚类问题则是我们给出了一组数据,我们并没有预先的标签,而是由机器考察这些数据之间的相似性,将相似的数据聚为一类,是无监督学习 ...