K-Means算法

本文轉載自查看原文 2018-10-09 16:09 4554

聚類與分類的區別

分類

類別是已知的，通過對已知分類的數據進行訓練和學習，找到這些不同類的特征，再對未分類的數據進行分類。屬於監督學習。

聚類

事先不知道數據會分為幾類，通過聚類分析將數據聚合成幾個群體。聚類不需要對數據進行訓練和學習。屬於無監督學習。

關於監督學習和無監督學習，這里給一個簡單的介紹：是否有監督，就看輸入數據是否有標簽，輸入數據有標簽，則為有監督學習，否則為無監督學習。

k-means 聚類

聚類算法有很多種，K-Means 是聚類算法中的最常用的一種，算法最大的特點是簡單，好理解，運算速度快，但是只能應用於連續型的數據，並且一定要在聚類前需要手工指定要分成幾類。

K-Means 聚類算法的大致意思就是“物以類聚，人以群分”：

1、首先輸入 k 的值，即我們指定希望通過聚類得到 k 個分組；

2、從數據集中隨機選取 k 個數據點作為初始大佬（質心）；

3、對集合中每一個小弟，計算與每一個大佬的距離，離哪個大佬距離近，就跟定哪個大佬。

4、這時每一個大佬手下都聚集了一票小弟，這時候召開選舉大會，每一群選出新的大佬（即通過算法選出新的質心）。

5、如果新大佬和老大佬之間的距離小於某一個設置的閾值（表示重新計算的質心的位置變化不大，趨於穩定，或者說收斂），可以認為我們進行的聚類已經達到期望的結果，算法終止。

6、如果新大佬和老大佬距離變化很大，需要迭代3~5步驟。

說了這么多，估計還是有點糊塗，下面舉個非常形象簡單的例子：

舉例

有6個點，從圖上看應該可以分成兩堆，前三個點一堆，后三個點另一堆。現在我手工地把 k-means 計算過程演示一下，同時檢驗是不是和預期一致：

1.設定 k 值為2

2.選擇初始大佬（就選 P1 和 P2）

3.計算小弟與大佬的距離：

從上圖可以看出，所有的小弟都離 P2 更近，所以次站隊的結果是：

A 組：P1
B 組：P2、P3、P4、P5、P6

4.召開選舉大會：

A 組沒什么可選的，大佬就是自己
B 組有5個人，需要重新選大佬，這里要注意選大佬的方法是每個人 X 坐標的平均值和 Y 坐標的平均值組成的新的點，為新大佬，也就是說這個大佬是“虛擬的”。因此，B 組選出新大哥的坐標為：P 哥（（1+3+8+9+10）/5，（2+1+8+10+7）/5）=（6.2，5.6）。
綜合兩組，新大哥為 P1（0，0），P哥（6.2，5.6），而P2-P6重新成為小弟。

5.再次計算小弟到大佬的距離：

這時可以看到P2、P3離P1更近，P4、P5、P6離P哥更近，所以第二次站隊的結果是：

A 組：P1、P2、P3
B 組：P4、P5、P6（虛擬大哥這時候消失）

6.第二屆選舉大會：
同樣的方法選出新的虛擬大佬：P哥1（1.33，1），P哥2（9，8.33），P1-P6都成為小弟。

7.第三次計算小弟到大佬的距離：

這時可以看到 P1、P2、P3 離 P哥1 更近，P4、P5、P6離 P哥2 更近，所以第二次站隊的結果是：
A 組：P1、P2、P3
B 組：P4、P5、P6

我們可以發現，這次站隊的結果和上次沒有任何變化了，說明已經收斂，聚類結束，聚類結果和我們最開始設想的結果完全一致。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 K-means 算法 k-means算法總結 K-means聚類算法 K-means聚類算法 K-Means算法Demo K-means聚類算法與EM算法 GMM算法k-means算法的比較關於k-means聚類算法的matlab實現 K-means算法的matlab程序（初步）淺談聚類算法（K-means）