K-means聚類算法及python代碼實現


K-means聚類算法(事先數據並沒有類別之分!所有的數據都是一樣的

1、概述

K-means算法是集簡單和經典於一身的基於距離的聚類算法

采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。

該算法認為類簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作為最終目標。

 

2、核心思想

通過迭代尋找k類簇的一種划分方案,使得用這k類簇的均值來代表相應各類樣本時所得的總體誤差最小。

k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開

 k-means算法的基礎是最小誤差平方和准則,

其代價函數是:

    

       式中,μc(i)表示第i個聚類的均值。

類簇內的樣本越相似,其與該類均值間的誤差平方越小,對所有類所得到的誤差平方求和,即可驗證分為k類時,各聚類是否是最優的。

上式的代價函數無法用解析的方法最小化,只能有迭代的方法。

 

3、算法步驟圖解

下圖展示了對n個樣本點進行K-means聚類的效果,這里k2

 

 

4、算法實現步驟

k-means算法是將樣本聚類成 k個簇(cluster),其中k是用戶給定的,其求解過程非常直觀簡單,具體算法描述如下:

1) 隨機選取 k個聚類質心點

2) 重復下面過程直到收斂  {

      對於每一個樣例 i,計算其應該屬於的類:

        

      對於每一個類 j,重新計算該類的質心:

         

  }

   

其偽代碼如下:

******************************************************************************

創建k個點作為初始的質心點(隨機選擇)

當任意一個點的簇分配結果發生改變時

       對數據集中的每一個數據點

              對每一個質心

                     計算質心與數據點的距離

              將數據點分配到距離最近的簇

       對每一個簇,計算簇中所有點的均值,並將均值作為質心

********************************************************

 

5、K-means聚類算法python實戰

需求:

對給定的數據集進行聚類

本案例采用二維數據集,共80個樣本,有4個類。

 1 #!/usr/bin/python
 2 # coding=utf-8
 3 from numpy import *
 4 # 加載數據
 5 def loadDataSet(fileName):  # 解析文件,按tab分割字段,得到一個浮點數字類型的矩陣
 6     dataMat = []              # 文件的最后一個字段是類別標簽
 7     fr = open(fileName)
 8     for line in fr.readlines():
 9         curLine = line.strip().split('\t')
10         fltLine = map(float, curLine)    # 將每個元素轉成float類型
11         dataMat.append(fltLine)
12     return dataMat
13 
14 # 計算歐幾里得距離
15 def distEclud(vecA, vecB):
16     return sqrt(sum(power(vecA - vecB, 2))) # 求兩個向量之間的距離
17 
18 # 構建聚簇中心,取k個(此例中為4)隨機質心
19 def randCent(dataSet, k):
20     n = shape(dataSet)[1]
21     centroids = mat(zeros((k,n)))   # 每個質心有n個坐標值,總共要k個質心
22     for j in range(n):
23         minJ = min(dataSet[:,j])
24         maxJ = max(dataSet[:,j])
25         rangeJ = float(maxJ - minJ)
26         centroids[:,j] = minJ + rangeJ * random.rand(k, 1)
27     return centroids
28 
29 # k-means 聚類算法
30 def kMeans(dataSet, k, distMeans =distEclud, createCent = randCent):
31     m = shape(dataSet)[0]
32     clusterAssment = mat(zeros((m,2)))    # 用於存放該樣本屬於哪類及質心距離
33     # clusterAssment第一列存放該數據所屬的中心點,第二列是該數據到中心點的距離
34     centroids = createCent(dataSet, k)
35     clusterChanged = True   # 用來判斷聚類是否已經收斂
36     while clusterChanged:
37         clusterChanged = False;
38         for i in range(m):  # 把每一個數據點划分到離它最近的中心點
39             minDist = inf; minIndex = -1;
40             for j in range(k):
41                 distJI = distMeans(centroids[j,:], dataSet[i,:])
42                 if distJI < minDist:
43                     minDist = distJI; minIndex = j  # 如果第i個數據點到第j個中心點更近,則將i歸屬為j
44             if clusterAssment[i,0] != minIndex: clusterChanged = True;  # 如果分配發生變化,則需要繼續迭代
45             clusterAssment[i,:] = minIndex,minDist**2   # 並將第i個數據點的分配情況存入字典
46         print centroids
47         for cent in range(k):   # 重新計算中心點
48             ptsInClust = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]]   # 去第一列等於cent的所有列
49             centroids[cent,:] = mean(ptsInClust, axis = 0)  # 算出這些數據的中心點
50     return centroids, clusterAssment
51 # --------------------測試----------------------------------------------------
52 # 用測試數據及測試kmeans算法
53 datMat = mat(loadDataSet('testSet.txt'))
54 myCentroids,clustAssing = kMeans(datMat,4)
55 print myCentroids
56 print clustAssing

 

運行結果:

 

6、K-means算法補充

K-means算法的缺點改進方法

1k值的選擇是用戶指定的,不同的k得到的結果會有挺大的不同,如下圖所示,左邊是k=3的結果,這個就太稀疏了,藍色的那個簇其實是可以再划分成兩個簇的。而右圖是k=5的結果,可以看到紅色菱形和藍色菱形這兩個簇應該是可以合並成一個簇的:

改進:

k的選擇可以先用一些算法分析數據的分布,如重心和密度等,然后選擇合適的k

 

 

2k個初始質心的選擇比較敏感,容易陷入局部最小值例如,我們上面的算法運行的時候,有可能會得到不同的結果,如下面這兩種情況。K-means也是收斂了,只是收斂到了局部最小值:

改進:

 

有人提出了另一個成為二分k均值(bisecting k-means)算法,它對初始的k個質心的選擇就不太敏感

 

 

3存在局限性,如下面這種非球狀的數據分布就搞不定了

 

4數據比較大的時候,收斂會比較慢

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM