原文:(數據科學學習手札08)系統聚類法的Python源碼實現(與Python,R自帶方法進行比較)

聚類分析是數據挖掘方法中應用非常廣泛的一項,而聚類分析根據其大體方法的不同又分為系統聚類和快速聚類,其中系統聚類的優點是可以很直觀的得到聚類數不同時具體類中包括了哪些樣本,而Python和R中都有直接用來聚類分析的函數,但是要想掌握一種方法就得深刻地理解它的思想,因此自己從最底層開始編寫代碼來實現這個過程是最好的學習方法,所以本篇前半段是筆者自己寫的代碼,如有不細致的地方,望指出。 一 僅使用nu ...

2018-03-15 23:24 0 2172 推薦指數:

查看詳情

數據科學學習手札16)K-modes聚類的簡介&PythonR實現

我們之前經常提起的K-means算法雖然比較經典,但其有不少的局限,為了改變K-means對異常值的敏感情況,我們介紹了K-medoids算法,而為了解決K-means只能處理數值型數據的情況,本篇便對K-means的變種算法——K-modes進行簡介及PythonR實現: K-modes ...

Tue Mar 20 04:29:00 CST 2018 0 3540
數據科學學習手札14)Mean-Shift聚類簡單介紹及Python實現

不管之前介紹的K-means還是K-medoids聚類,都得事先確定聚類簇的個數,而且肘部法則也並不是萬能的,總會遇到難以抉擇的情況,而本篇將要介紹的Mean-Shift聚類就可以自動確定k的個數,下面簡要介紹一下其算法流程:   1.隨機確定樣本空間內一個半徑確定的高維球及其球心 ...

Mon Mar 19 02:47:00 CST 2018 0 5144
數據科學學習手札13)K-medoids聚類算法原理簡介&PythonR實現

前幾篇我們較為詳細地介紹了K-means聚類實現方法和具體實戰,這種方法雖然快速高效,是大規模數據聚類分析中首選的方法,但是它也有一些短板,比如在數據集中有臟數據時,由於其對每一個類的准則函數為平方誤差,當樣本數據中出現了不合理的極端值,會導致最終聚類結果產生一定的誤差,而本篇將要介紹 ...

Sun Mar 18 23:17:00 CST 2018 12 12391
數據科學學習手札29)KNN分類的原理詳解&PythonR實現

一、簡介   KNN(k-nearst neighbors,KNN)作為機器學習算法中的一種非常基本的算法,也正是因為其原理簡單,被廣泛應用於電影/音樂推薦等方面,即有些時候我們很難去建立確切的模型來描述幾種類別的具體表征特點,就可以利用天然的臨近關系來進行分類; 二、原理   KNN ...

Thu Apr 26 06:11:00 CST 2018 0 1109
數據科學學習手札26)隨機森林分類器原理詳解&PythonR實現

一、簡介   作為集成學習中非常著名的方法,隨機森林被譽為“代表集成學習技術水平的方法”,由於其簡單、容易實現、計算開銷小,使得它在現實任務中得到廣泛使用,因為其來源於決策樹和bagging,決策樹我在前面的一篇博客中已經詳細介紹,下面就來簡單介紹一下集成學習與Bagging; 二、集成 ...

Sat Apr 14 04:04:00 CST 2018 0 6244
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM