1.Kmeans聚類算法原理

1.1 概述

K-means算法時集簡單和經典於一身的基於距離的聚類算法。采用距離作為相似度的評價指標，即認為兩個對象的距離越近，其相似度就越大。該算法認為類簇是由距離靠近的對象組成的，因此把得到緊湊且獨立的簇作為最終目標。

1.2 算法圖示

假設我們的n個樣本點分布在圖中所示的二維空間。

從數據點的大致形狀可以看出它們大致聚為三個cluster，其中兩個緊湊一些，剩下那個松散一些，如圖所示：

我們的目的是為這些數據分組，以便能區分出屬於不同的簇的數據，給它們標上不同的顏色，如圖：

1.3 算法要點

1.3.1 核心思想

通過迭代尋找k個類簇的一種划分方案，使得用這k個類簇的均值來代表相應各類樣本時所得的總體誤差最小。

k個聚類具有以下特點：各聚類本身盡可能的緊湊，而各聚類之間盡可能的分開。

k-means算法的基礎是最小誤差平方和准則，

其代價函數是：

式中，μc(i)表示第i個聚類的均值。

各類簇內的樣本越相似，其與該類均值間的誤差平方越小，對所有類所得到的誤差平方求和，即可驗證分為k類時，各聚類是否是最優的。上式的代價函數無法用解析的方法最小化，只能有迭代的方法。

1.3.2 算法步驟圖解

下圖展示了對n個樣本點進行K-means聚類的效果，這里k取2。

1.3.3 算法實現步驟

k-means算法是將樣本聚類成k個簇(cluster)，其中k是用戶給定的，其求解過程非常直觀簡單，具體算法描述如下：

1) 隨機選取k個聚類質心點

2) 重復下面過程直到收斂｛

對於每一個樣例i，計算其應該屬於的類：

對於每一個類j，重新計算該類的質心：

｝

其偽代碼如下：

********************************************************************

創建k個點作為初始的質心點（隨機選擇）

當任意一個點的簇分配結果發生改變時

對數據集中的每一個數據點

對每一個質心

計算質心與數據點的距離

將數據點分配到距離最近的簇

對每一個簇，計算簇中所有點的均值，並將均值作為質心

********************************************************************

1.4 Kmeans分類算法Python實戰

1.4.1 需求

對給定的數據集進行聚類

本案例采用二維數據集，共80個樣本，有4個類。樣例如下：

testSet.txt

1.658985     4.285136
-3.453687    3.424321
4.838138        -1.151539
-5.379713    -3.362104
0.972564        2.924086
-3.567919    1.531611
0.450614      -3.302219
-3.487105    -1.724432
2.668759     1.594842
-3.156485    3.191137
3.165506     -3.999838
-2.786837    -3.099354
4.208187     2.984927
-2.123337    2.943366
0.704199     -0.479481
-0.392370    -3.963704
2.831667     1.574018
-0.790153    3.343144
2.943496     -3.357075

1.4.2 python代碼實現

1.4.2.1 利用numpy手動實現

from numpy import *
#加載數據
def loadDataSet(fileName):
    dataMat = []
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = map(float, curLine)    #變成float類型
        dataMat.append(fltLine)
    return dataMat

# 計算歐幾里得距離
def distEclud(vecA, vecB):
    return sqrt(sum(power(vecA - vecB, 2)))

#構建聚簇中心，取k個(此例中為4)隨機質心
def randCent(dataSet, k):
    n = shape(dataSet)[1]
    centroids = mat(zeros((k,n)))   #每個質心有n個坐標值，總共要k個質心
    for j in range(n):
        minJ = min(dataSet[:,j])
        maxJ = max(dataSet[:,j])
        rangeJ = float(maxJ - minJ)
        centroids[:,j] = minJ + rangeJ * random.rand(k, 1)
    return centroids

#k-means 聚類算法
def kMeans(dataSet, k, distMeans =distEclud, createCent = randCent):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))    #用於存放該樣本屬於哪類及質心距離
    centroids = createCent(dataSet, k)
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False;
        for i in range(m):
            minDist = inf; minIndex = -1;
            for j in range(k):
                distJI = distMeans(centroids[j,:], dataSet[i,:])
                if distJI < minDist:
                    minDist = distJI; minIndex = j
            if clusterAssment[i,0] != minIndex: clusterChanged = True;
            clusterAssment[i,:] = minIndex,minDist**2
        print centroids
        for cent in range(k):
            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]]   # 去第一列等於cent的所有列
            centroids[cent,:] = mean(ptsInClust, axis = 0)
    return centroids, clusterAssment

1.4.2.2 利用scikit庫實現

Scikit-Learn是基於python的機器學習模塊，基於BSD開源許可證。

scikit-learn的基本功能主要被分為六個部分，分類、回歸、聚類、數據降維、模型選擇、數據預處理。包括SVM、決策樹、GBDT、KNN、KMEANS等等。

Kmeans在scikit包中即已有實現，只要將數據按照算法要求處理好，傳入相應參數，即可直接調用其kmeans函數進行聚類。

#################################################
# kmeans: k-means cluster
#################################################
from numpy import *
import time
import matplotlib.pyplot as plt
## step 1:加載數據
print "step 1: load data..."
dataSet = []
fileIn = open('E:/Python/ml-data/kmeans/testSet.txt')
for line in fileIn.readlines():
    lineArr = line.strip().split('\t')
    dataSet.append([float(lineArr[0]), float(lineArr[1])])
## step 2: 聚類
print "step 2: clustering..."
dataSet = mat(dataSet)
k = 4
centroids, clusterAssment = kmeans(dataSet, k)
## step 3:顯示結果
print "step 3: show the result..."
showCluster(dataSet, k, centroids, clusterAssment)