原文:(数据科学学习手札15)DBSCAN密度聚类法原理简介&Python与R的实现

DBSCAN算法是一种很典型的密度聚类法,它与K means等只能对凸样本集进行聚类的算法不同,它也可以处理非凸集。 关于DBSCAN算法的原理,笔者觉得下面这篇写的甚是清楚练达,推荐大家阅读: https: www.cnblogs.com pinard p .html DBSCAN的主要优点有: 可以对任意形状的稠密数据集进行聚类,相对的,K Means之类的聚类算法一般只适用于凸数据集。 可以 ...

2018-03-19 16:31 0 924 推荐指数:

查看详情

数据科学学习手札16)K-modes聚类简介&PythonR实现

我们之前经常提起的K-means算法虽然比较经典,但其有不少的局限,为了改变K-means对异常值的敏感情况,我们介绍了K-medoids算法,而为了解决K-means只能处理数值型数据的情况,本篇便对K-means的变种算法——K-modes进行简介PythonR实现: K-modes ...

Tue Mar 20 04:29:00 CST 2018 0 3540
数据科学学习手札13)K-medoids聚类算法原理简介&PythonR实现

前几篇我们较为详细地介绍了K-means聚类实现方法和具体实战,这种方法虽然快速高效,是大规模数据聚类分析中首选的方法,但是它也有一些短板,比如在数据集中有脏数据时,由于其对每一个类的准则函数为平方误差,当样本数据中出现了不合理的极端值,会导致最终聚类结果产生一定的误差,而本篇将要介绍 ...

Sun Mar 18 23:17:00 CST 2018 12 12391
数据科学学习手札29)KNN分类的原理详解&PythonR实现

一、简介   KNN(k-nearst neighbors,KNN)作为机器学习算法中的一种非常基本的算法,也正是因为其原理简单,被广泛应用于电影/音乐推荐等方面,即有些时候我们很难去建立确切的模型来描述几种类别的具体表征特点,就可以利用天然的临近关系来进行分类; 二、原理   KNN ...

Thu Apr 26 06:11:00 CST 2018 0 1109
数据科学学习手札08)系统聚类Python源码实现(与PythonR自带方法进行比较)

聚类分析是数据挖掘方法中应用非常广泛的一项,而聚类分析根据其大体方法的不同又分为系统聚类和快速聚类,其中系统聚类的优点是可以很直观的得到聚类数不同时具体类中包括了哪些样本,而PythonR中都有直接用来聚类分析的函数,但是要想掌握一种方法就得深刻地理解它的思想,因此自己从最底层开始编写代码来实现 ...

Fri Mar 16 07:24:00 CST 2018 0 2172
数据科学学习手札14)Mean-Shift聚类简单介绍及Python实现

不管之前介绍的K-means还是K-medoids聚类,都得事先确定聚类簇的个数,而且肘部法则也并不是万能的,总会遇到难以抉择的情况,而本篇将要介绍的Mean-Shift聚类就可以自动确定k的个数,下面简要介绍一下其算法流程:   1.随机确定样本空间内一个半径确定的高维球及其球心 ...

Mon Mar 19 02:47:00 CST 2018 0 5144
数据科学学习手札26)随机森林分类器原理详解&PythonR实现

一、简介   作为集成学习中非常著名的方法,随机森林被誉为“代表集成学习技术水平的方法”,由于其简单、容易实现、计算开销小,使得它在现实任务中得到广泛使用,因为其来源于决策树和bagging,决策树我在前面的一篇博客中已经详细介绍,下面就来简单介绍一下集成学习与Bagging; 二、集成 ...

Sat Apr 14 04:04:00 CST 2018 0 6244
数据科学学习手札23)决策树分类原理详解&PythonR实现

  作为机器学习中可解释性非常好的一种算法,决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树 ...

Fri Apr 06 22:47:00 CST 2018 0 1726
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM