本文轉載自查看原文 2019-10-23 09:32 603 機器學習算法

K-means聚類算法（K-平均/K-均值算法）是最為經典也是使用最為廣泛的一種基於距離的聚類算法。基於距離的聚類算法是指采用距離作為相似性量度的評價指標，也就是說當兩個對象離得近時，兩者之間的距離比較小，那么它們之間的相似性就比較大。

算法的主要思想是通過迭代過程把數據集划分為不同的類別，使得評價聚類性能的准則函數達到最優，從而使生成的每個聚類（又稱簇）緊湊且獨立。

K-means聚類算法的缺點：對於 離群點是敏感的，一個很大極端值的數據對象可能會顯著地扭曲數據的分布。

常見的相似度/距離評價准則有：

其意義就是兩個元素在歐氏空間中的集合距離，因為其直觀易懂且可解釋性強，被廣泛用於標識兩個標量元素的相異度。

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

聚類性能評價准則：

K-means聚類算法通常使用誤差平方和准則函數（等同於歐幾里得距離）來評價聚類性能。給定數據集X，其中只包含描述屬性，不包含類別屬性。假設X包含K個聚類子集X1,X2,…XK；各個聚類子集中的樣本數量分別為n1，n2,…,nk;各個聚類子集的均值代表點（也稱聚類中心）分別為m1，m2,…,mk。

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

K-means聚類算法實例

初始數據集，共5條記錄，每條數據記錄包含兩個屬性x和y。

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

作為一個聚類分析的二維樣本，要求的簇的數量K=2。

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

學習參考：

https://www.toutiao.com/i6451161136644489742/加了對數據[0,1]規格化處理的環節，中心思想還是一樣的。

https://blog.csdn.net/leaf_zizi/article/details/82684921文本聚類，可以做輿情信息匯總，分詞軟件rost cm6。

https://www.toutiao.com/i6452271711302713870/K-medoids聚類，K-means基礎上的改良。對小數據集有效。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 K-Means 聚類算法 K-means聚類算法 K-Means聚類算法聚類算法：K-Means 聚類算法(K-means聚類算法) K-Means聚類算法原理淺談K-means聚類算法聚類算法之划分方法（k-means）聚類-K-Means K-均值（K-means）聚類算法