K-means聚類算法


K-means聚類算法(K-平均/K-均值算法)是最為經典也是使用最為廣泛的一種基於距離的聚類算法。基於距離的聚類算法是指采用距離作為相似性量度的評價指標,也就是說當兩個對象離得近時,兩者之間的距離比較小,那么它們之間的相似性就比較大。

算法的主要思想是通過迭代過程把數據集划分為不同的類別,使得評價聚類性能的准則函數達到最優,從而使生成的每個聚類(又稱簇)緊湊且獨立。

K-means聚類算法的缺點:對於 離群點是敏感的,一個很大極端值的數據對象可能會顯著地扭曲數據的分布。
 

常見的相似度/距離評價准則有:

  • 歐幾里得距離

其意義就是兩個元素在歐氏空間中的集合距離,因為其直觀易懂且可解釋性強,被廣泛用於標識兩個標量元素的相異度。

常用數據挖掘算法從入門到精通 第二章 K-means聚類算法

  • 曼哈頓距離

常用數據挖掘算法從入門到精通 第二章 K-means聚類算法

  • 閔可夫斯基距離

常用數據挖掘算法從入門到精通 第二章 K-means聚類算法

 

聚類性能評價准則:

K-means聚類算法通常使用誤差平方和准則函數(等同於歐幾里得距離)來評價聚類性能。給定數據集X,其中只包含描述屬性,不包含類別屬性。假設X包含K個聚類子集X1,X2,…XK;各個聚類子集中的樣本數量分別為n1,n2,…,nk;各個聚類子集的均值代表點(也稱聚類中心)分別為m1,m2,…,mk。

  • 誤差平方和准則函數公式

常用數據挖掘算法從入門到精通 第二章 K-means聚類算法

 

å¸¸ç¨æ°æ®ææç®æ³ä»å¥é¨å°ç²¾é 第äºç« <wbr> K-meansèç±»ç®æ³

 

 

K-means聚類算法實例

初始數據集,共5條記錄,每條數據記錄包含兩個屬性x和y。

常用數據挖掘算法從入門到精通 第二章 K-means聚類算法

作為一個聚類分析的二維樣本,要求的簇的數量K=2。

常用數據挖掘算法從入門到精通 第二章 K-means聚類算法

 
 
學習參考:

https://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html#!comments示例計算有誤,思路沒問題。

https://www.toutiao.com/i6451161136644489742/加了對數據[0,1]規格化處理的環節,中心思想還是一樣的。

https://blog.csdn.net/leaf_zizi/article/details/82684921文本聚類,可以做輿情信息匯總,分詞軟件rost cm6。

https://www.toutiao.com/i6452271711302713870/K-medoids聚類,K-means基礎上的改良。對小數據集有效。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM