基於R實現k-means法與k-medoids法

本文轉載自查看原文 2018-03-11 21:17 2372 R

k-means法與k-medoids法都是基於距離判別的聚類算法。本文將使用iris數據集，在R語言中實現k-means算法與k-medoids算法。

k-means聚類

首先刪去iris中的Species屬性，留下剩余4列數值型變量。再利用kmeans()將數據歸為3個簇

names(iris)
iris2 <- iris[,-5]  #刪去species一列
kmeans_result <- kmeans(iris2,3)   #將數據歸為3個簇
str(kmeans_result)    #查看數據結構
table(iris$Species,kmeans_result$cluster)  #查看聚類結果和觀測值的對比

從聚類結果可看出，'versicolor‘類與'virginica’類之間存在小范圍的重疊。有2個versicolor被錯誤歸類為第一類，有14個'virginica’被歸為第三類。

1 plot(iris2[c('Sepal.Length','Sepal.Width')],col=kmeans_result$cluster)
2 points(kmeans_result$centers[,c('Sepal.Length','Sepal.Width')],col=1:3,pch=10,cex=3)

數據集有四個維度，而繪圖只用了前兩個維度的數據，
圖中所示的一些靠近綠色中心的黑點實際在四維空間中更靠近黑色中心
需注意的是多次運行得到的K-means聚類結果可能不同，這是因為初始的簇中心是隨機選擇的

k-medoids聚類

先使用fpc包中的pamk()實現K-中心聚類，優點是不要求用戶輸入K的值

2 #而是自動調用pam()或函數clara()更具最優平均陰影寬度估計的聚類簇個數來划分數據
3 library(fpc)
4 pamk.result <- pamk(iris2)
5 str(pamk.result)

1 pamk.result$nc #推薦使用兩個簇

1 table(iris$Species,pamk.result$pamobject$clustering)

layout(matrix(c(1,2),1,2))   #圖形顯示為一行兩列
plot(pamk.result$pamobject)

在上面的例子中，函數 pamk() 生成了兩個簇：一個是 “ setosa ” ，另一個是 “ versicolor ”
和 “ virgrnica " 的 混合 。在圖 6 ． 2 中，左邊的圖像為 兩個簇 的 2 維聚類圖像（ “ clusplot " ），
兩個簇中間的直線表示距離；右邊的圖像顯示了這兩個簇的附影。當的值比較大時（接近
1 ）表明相應的觀測點能夠准確地划分到相似性較大的簇中，當的值比較小時（接近 0 ）表
明觀測點位於這兩個簇重疊的部分。如果觀測點的鑿值為負數，則說明觀測點被划分到錯誤
的族中。由於在上面的陰影圖中， 兩個簇的均值分別為 0 ， 81 和 0 ． 62 ，所以這表明這兩個
簇的划分結果很好

接下來使用cluster包中的pam()函數

library(cluster)
pam.result <- pam(iris2,3)
table(pam.result$clustering,iris$Species)

對比上面兩個聚類的結果，很難說函數 pamk() 和 pam() 哪一個能獲得更好的聚類結果，
結果質量的好壞依賴於目標問題以及領域知識和經驗。在這個例子中，函數 pam() 得到的聚
類結果似乎更好，這是因為它識別出 3 個不同的簇，分別對應於 3 個不同的種類。因此，使
用啟發式方法來識別簇個數的函數 pamk() 並不意味着總是能得到更好的聚類結果 。還需要注
意的是，由於 事先已經知道 Species 屬性確實只包含了 3 個種類，因此在使用函數 pam() 時將
設置為 3 也具有一定的投機性。

兩種聚類算法的對比

　層次聚類

使用iris數據集，抽取40個樣本

1 set.seed(1234)
2 idx  <- sample(1:nrow(iris),40) #抽取40個數
3 iris_sample <- iris[idx,-5]     #抽取40個樣本且刪去species一列

out.dist <- dist(iris_sample,method = 'euclidean')#dist()將數據轉化為兩點之間的距離

1 hc <- hclust(out.dist,method='average') #代入兩點距離(out.dist)，method='ave'指使用類平均法聚類

1 plot(hc,hang=-1,labels=iris$Species[idx]) #labels:根據目測值添加標簽

1 rect.hclust(hc,k=3) #歸為三類

1 groups <- cutree(hc,k=3) #查看分類

基於密度的聚類

1 library(fpc)
2 iris2 <- iris[,-5]
3 ds <- dbscan(iris2,eps = 0.42,MinPts = 5)   #設置可達距離和最小數目的對象點
4 table(ds$cluster,iris$Species)

‘1’-‘3’指被識別出來的三個聚類簇，‘0’表示噪聲數據或離散點，即不屬於任何簇的對象，繪制的圖中使用黑色小圓圈表示

1 plot(ds,iris2[c(1,4)]) #展示第一列和第四列的聚類結果

1 plot(ds,iris2)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用肘部法確定k-means均值的k值 K-means算法Java實現 K-means聚類的Python實現 k-means算法的Python實現 mahout下的K-Means Clustering實現 K-means聚類的 Python 實現機器學習-K-means聚類及算法實現（基於R語言） K-means Algorithm 聚類-K-Means R語言-層次聚類、k-means聚類、PAM