原文:(数据科学学习手札14)Mean-Shift聚类法简单介绍及Python实现

不管之前介绍的K means还是K medoids聚类,都得事先确定聚类簇的个数,而且肘部法则也并不是万能的,总会遇到难以抉择的情况,而本篇将要介绍的Mean Shift聚类法就可以自动确定k的个数,下面简要介绍一下其算法流程: .随机确定样本空间内一个半径确定的高维球及其球心 .求该高维球内质心,并将高维球的球心移动至该质心处 .重复 ,直到高维球内的密度随着继续的球心滑动变化低于设定的阈值,算 ...

2018-03-18 18:47 0 5144 推荐指数:

查看详情

数据科学学习手札16)K-modes聚类的简介&Python与R的实现

我们之前经常提起的K-means算法虽然比较经典,但其有不少的局限,为了改变K-means对异常值的敏感情况,我们介绍了K-medoids算法,而为了解决K-means只能处理数值型数据的情况,本篇便对K-means的变种算法——K-modes进行简介及Python、R的实现: K-modes ...

Tue Mar 20 04:29:00 CST 2018 0 3540
数据科学学习手札08)系统聚类Python源码实现(与Python,R自带方法进行比较)

聚类分析是数据挖掘方法中应用非常广泛的一项,而聚类分析根据其大体方法的不同又分为系统聚类和快速聚类,其中系统聚类的优点是可以很直观的得到聚类数不同时具体类中包括了哪些样本,而Python和R中都有直接用来聚类分析的函数,但是要想掌握一种方法就得深刻地理解它的思想,因此自己从最底层开始编写代码来实现 ...

Fri Mar 16 07:24:00 CST 2018 0 2172
数据科学学习手札13)K-medoids聚类算法原理简介&Python与R的实现

前几篇我们较为详细地介绍了K-means聚类实现方法和具体实战,这种方法虽然快速高效,是大规模数据聚类分析中首选的方法,但是它也有一些短板,比如在数据集中有脏数据时,由于其对每一个类的准则函数为平方误差,当样本数据中出现了不合理的极端值,会导致最终聚类结果产生一定的误差,而本篇将要介绍 ...

Sun Mar 18 23:17:00 CST 2018 12 12391
数据科学学习手札54)Python中retry的简单用法

一、简介   retry是一个用于错误处理的模块,功能类似try-except,但更加快捷方便,本文就将简单介绍一下retry的基本用法。 二、基本用法 retry:   作为装饰器进行使用,不传入参数时功能如下例所示:   我们编写了每次运行都会通过raise报错 ...

Sat Feb 02 07:54:00 CST 2019 0 1217
数据科学学习手札65)利用Python实现Shp格式向GeoJSON的转换

一、简介   Shp格式是GIS中非常重要的数据格式,主要在Arcgis中使用,但在进行很多基于网页的空间数据可视化时,通常只接受GeoJSON格式的数据,众所周知JSON(JavaScript Object Nonation)是利用键值对+嵌套来表示数据的一种格式,以其轻量、易解析的优点 ...

Tue Jul 09 20:16:00 CST 2019 0 868
数据科学学习手札29)KNN分类的原理详解&Python与R实现

一、简介   KNN(k-nearst neighbors,KNN)作为机器学习算法中的一种非常基本的算法,也正是因为其原理简单,被广泛应用于电影/音乐推荐等方面,即有些时候我们很难去建立确切的模型来描述几种类别的具体表征特点,就可以利用天然的临近关系来进行分类; 二、原理   KNN ...

Thu Apr 26 06:11:00 CST 2018 0 1109
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM