K-means聚類算法(K-平均/K-均值算法)是最為經典也是使用最為廣泛的一種基於距離的聚類算法。基於距離的聚類算法是指采用距離作為相似性量度的評價指標,也就是說當兩個對象離得近時,兩者之間的距離比較小,那么它們之間的相似性就比較大。
算法的主要思想是通過迭代過程把數據集划分為不同的類別,使得評價聚類性能的准則函數達到最優,從而使生成的每個聚類(又稱簇)緊湊且獨立。
常見的相似度/距離評價准則有:
-
歐幾里得距離
其意義就是兩個元素在歐氏空間中的集合距離,因為其直觀易懂且可解釋性強,被廣泛用於標識兩個標量元素的相異度。

-
曼哈頓距離

-
閔可夫斯基距離

聚類性能評價准則:
K-means聚類算法通常使用誤差平方和准則函數(等同於歐幾里得距離)來評價聚類性能。給定數據集X,其中只包含描述屬性,不包含類別屬性。假設X包含K個聚類子集X1,X2,…XK;各個聚類子集中的樣本數量分別為n1,n2,…,nk;各個聚類子集的均值代表點(也稱聚類中心)分別為m1,m2,…,mk。
-
誤差平方和准則函數公式
![]()

K-means聚類算法實例
初始數據集,共5條記錄,每條數據記錄包含兩個屬性x和y。

作為一個聚類分析的二維樣本,要求的簇的數量K=2。

https://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html#!comments示例計算有誤,思路沒問題。
https://www.toutiao.com/i6451161136644489742/加了對數據[0,1]規格化處理的環節,中心思想還是一樣的。
https://blog.csdn.net/leaf_zizi/article/details/82684921文本聚類,可以做輿情信息匯總,分詞軟件rost cm6。
