原文:(数据科学学习手札08)系统聚类法的Python源码实现(与Python,R自带方法进行比较)

聚类分析是数据挖掘方法中应用非常广泛的一项,而聚类分析根据其大体方法的不同又分为系统聚类和快速聚类,其中系统聚类的优点是可以很直观的得到聚类数不同时具体类中包括了哪些样本,而Python和R中都有直接用来聚类分析的函数,但是要想掌握一种方法就得深刻地理解它的思想,因此自己从最底层开始编写代码来实现这个过程是最好的学习方法,所以本篇前半段是笔者自己写的代码,如有不细致的地方,望指出。 一 仅使用nu ...

2018-03-15 23:24 0 2172 推荐指数:

查看详情

数据科学学习手札16)K-modes聚类的简介&PythonR实现

我们之前经常提起的K-means算法虽然比较经典,但其有不少的局限,为了改变K-means对异常值的敏感情况,我们介绍了K-medoids算法,而为了解决K-means只能处理数值型数据的情况,本篇便对K-means的变种算法——K-modes进行简介及PythonR实现: K-modes ...

Tue Mar 20 04:29:00 CST 2018 0 3540
数据科学学习手札14)Mean-Shift聚类简单介绍及Python实现

不管之前介绍的K-means还是K-medoids聚类,都得事先确定聚类簇的个数,而且肘部法则也并不是万能的,总会遇到难以抉择的情况,而本篇将要介绍的Mean-Shift聚类就可以自动确定k的个数,下面简要介绍一下其算法流程:   1.随机确定样本空间内一个半径确定的高维球及其球心 ...

Mon Mar 19 02:47:00 CST 2018 0 5144
数据科学学习手札13)K-medoids聚类算法原理简介&PythonR实现

前几篇我们较为详细地介绍了K-means聚类实现方法和具体实战,这种方法虽然快速高效,是大规模数据聚类分析中首选的方法,但是它也有一些短板,比如在数据集中有脏数据时,由于其对每一个类的准则函数为平方误差,当样本数据中出现了不合理的极端值,会导致最终聚类结果产生一定的误差,而本篇将要介绍 ...

Sun Mar 18 23:17:00 CST 2018 12 12391
数据科学学习手札29)KNN分类的原理详解&PythonR实现

一、简介   KNN(k-nearst neighbors,KNN)作为机器学习算法中的一种非常基本的算法,也正是因为其原理简单,被广泛应用于电影/音乐推荐等方面,即有些时候我们很难去建立确切的模型来描述几种类别的具体表征特点,就可以利用天然的临近关系来进行分类; 二、原理   KNN ...

Thu Apr 26 06:11:00 CST 2018 0 1109
数据科学学习手札26)随机森林分类器原理详解&PythonR实现

一、简介   作为集成学习中非常著名的方法,随机森林被誉为“代表集成学习技术水平的方法”,由于其简单、容易实现、计算开销小,使得它在现实任务中得到广泛使用,因为其来源于决策树和bagging,决策树我在前面的一篇博客中已经详细介绍,下面就来简单介绍一下集成学习与Bagging; 二、集成 ...

Sat Apr 14 04:04:00 CST 2018 0 6244
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM