上学期花了一个多月读完了李航老师的《统计学习方法》,现在带着新入团队的新同学以读书会的形式读这本书,书里边全是干货,对于我理解基本的机器学习算法很有帮助,也笔头做了一些总结(不完全基于此书),现将其摘录于此作为在博客园的第一篇博客。因为并不是为了扫盲,所以仅仅是抓出脉络以及关键点,方便以后快速温习 ...
概率潜在语义分析 probabilistic latent semantic analysis,PLSA 是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。 跟潜在语义分析相似,而其特点是基于概率模型,用隐变量表示话题 整个模型表示文本生成话题,话题生成单词,从而得到单词 文本共现数据的过程。 概率潜在语义分析模型有生成模型,以及等价的共现模型。 假定n个文本的集合,文本中所有单词的集 ...
2020-03-24 22:18 0 852 推荐指数:
上学期花了一个多月读完了李航老师的《统计学习方法》,现在带着新入团队的新同学以读书会的形式读这本书,书里边全是干货,对于我理解基本的机器学习算法很有帮助,也笔头做了一些总结(不完全基于此书),现将其摘录于此作为在博客园的第一篇博客。因为并不是为了扫盲,所以仅仅是抓出脉络以及关键点,方便以后快速温习 ...
统计学习方法是基于训练数据构建统计模型,从而对数据进行预测和分析。 统计学习分为,监督学习(supervised learning),非监督学习,半监督学习和强化学习(reinforcement learning),其中以监督学习最为常见和重要,所以这里只讨论监督学习 统计学习的过程如下, 1. ...
潜在语义分析通过矢量语义空间来分析文档和词的关系。 基本假设:如果两个词多次出现在同个文档中,则两个词在语义上具有相似性。 LSA使用大量文本构成矩阵,每行表示一个词,一列表示一个文档,矩阵元素可以是词频或TF-IDF,然后使奇异值分解SVD进行矩阵降维,得到原矩阵的近似,此时两个词的相似性 ...
统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statical machine learning)。 统计学习的方法是基于数据构建统计模型从而对数据进行预测和分析。统计学习由监督学习、非监督学习、半监督学习和强化学习 ...
提升方法 简述:提升方法(boosting)是一种常用的统计学习方法,应用广泛且有效。在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。 本章 (1)介绍boosting方法的思路和代表性的boosting算法AdaBoost (2)通过训练 ...
KNN算法 基本模型:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例。这k个实例的多数属于某个类,就把输入实例分为这个类。 KNN没有显式的学习过程。 KNN使用的模型实际上对应于特征空间的划分。特征空间中,对每个训练实例点\(x_i\),距离该点比其它点更近 ...
1.1 统计学习 统计学习也称统计机器学习 主要特点: 以计算机及网络为平台,建立在计算机及网络之上 以数据为研究对象,是数据驱动的学科 统计学习的目的是对数据进行预测和分析 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测和分析 统计学习是概率论、统计学 ...
朴素贝叶斯法,就是使用贝叶斯公式的学习方法,朴素就是它假设输入变量(向量)的各个分量之间是相互独立的。所以对于分量之间不独立的分布,如果使用它学习和预测效果就不会很好。 简化策略 它是目标是通过训练数据集学习联合概率分布$P(X, Y)$用来预测。书上说,具体是先学习到先验概率 ...