聚類的基本思想
俗話說"物以類聚,人以群分"
聚類(Clustering)是一種無監督學習(unsupervised learning),簡單地說就是把相似的對象歸到同一簇中。簇內的對象越相似,聚類的效果越好。
定義:給定一個有個對象的數據集,聚類將數據划分為個簇,而且這個划分滿足兩個條件:(1)每個簇至少包含一個對象;(2)每個對象屬於且僅屬於一個簇。
基本思想:對給定的,算法首先給出一個初始的划分方法,以后通過反復迭代的方法改變划分,使得每一次改進之后的划分方案都較前一次更好。
監督學習(supervised learning):是對具有概念標記(分類)的訓練樣本進行學習,以盡可能對訓練樣本集外的數據進行標記(分類)預測。【神經網絡和決策樹】
無監督學習(unsupervised learning):是對沒有概念標記(分類)的訓練樣本進行學習,以發現訓練樣本集中的結構性知識。【聚類】
K-均值(K-means)聚類算法
聚類分析(cluster analysis)試圖將相似對象歸入同一簇,將不相似對象歸到不同簇。
K-Means: K-均值聚類也稱為快速聚類法,在最小化誤差函數的基礎上將數據划分為預定的類數K。該算法原理簡單並便於處理大量數據。
K-中心點:K-均值算法對孤立點的敏感性,K-中心點算法不采用簇中對象的平均值作為簇中心,而選用簇中離平均值最近的對象作為簇中心。
系統聚類:也稱為層次聚類,分類的單位由高到低呈樹形結構,且所處的位置越低,其所包含的對象就越少,但這些對象間的共同特征越多。該聚類方法只適合在小數據量的時候使用,數據量大的時候速度會非常慢。
K-Means算法
K-Means算法是最為經典的基於划分的聚簇方法,是十大經典數據挖掘算法之一。簡單的說K-Means就是在沒有任何監督信號的情況下將數據分為K份的一種方法。聚類算法就是無監督學習中最常見的一種,給定一組數據,需要聚類算法去挖掘數據中的隱含信息。聚類算法的應用很廣:顧客行為聚類,google新聞聚類等。
K值是聚類結果中類別的數量。簡單的說就是我們希望將數據划分的類別數
一、K-Means算法基本思想
在數據集中根據一定策略選擇K個點作為每個簇的初始中心,然后觀察剩余的數據,將數據划分到距離這K個點最近的簇中,也就是說將數據划分成K個簇完成一次划分,但形成的新簇並不一定是最好的划分,因此生成的新簇中,重新計算每個簇的中心點,然后在重新進行划分,直到每次划分的結果保持不變。在實際應用中往往經過很多次迭代仍然達不到每次划分結果保持不變,甚至因為數據的關系,根本就達不到這個終止條件,實際應用中往往采用變通的方法設置一個最大迭代次數,當達到最大迭代次數時,終止計算。
二、算法實現
具體的算法步驟如下:
- 隨機選擇K個中心點
- 把每個數據點分配到離它最近的中心點;
- 重新計算每類中的點到該類中心點距離的平均值
- 分配每個數據到它最近的中心點;
- 重復步驟3和4,直到所有的觀測值不再被分配或是達到最大的迭代次數(R把10次作為默認迭代次數)。
K-means聚類能處理比層次聚類更大的數據集。另外,觀測值不會永遠被分到一類中,當我們提高整體解決方案時,聚類方案也會改動。不過不同於層次聚類的是,K-means會要求我們事先確定要提取的聚類個數
適用范圍及缺陷
K-Menas算法試圖找到使平方誤差准則函數最小的簇。當潛在的簇形狀是凸面的,簇與簇之間區別較明顯,且簇大小相近時,其聚類結果較理想。對於處理大數據集合,該算法非常高效,且伸縮性較好。
但該算法除了要事先確定簇數K和對初始聚類中心敏感外,經常以局部最優結束,同時對“噪聲”和孤立點敏感,並且該方法不適於發現非凸面形狀的簇或大小差別很大的簇。
克服缺點的方法:使用盡量多的數據;使用中位數代替均值來克服outlier的問題。
三、K-Means R語言實戰
一般情況下,沒有必要自己實現K-Means算法,有很多成熟的軟件包實現了K-Means算法,R語言提供了kmeans方法進行聚類分析。
kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("Hartigan-Wong", "Lloyd", "Forgy", "MacQueen"), trace=FALSE)
# centers為提取的聚類數目
進行K-Means划分時,首先要確定划分簇數K,如果對數據有先驗性認知可根據對數據的認知確定K,在對數據沒有先驗性認知的情況下,通常通過數據可視化方法確定K值。我們以機器學習中常用的iris數據集為例演示如何進行K-Means聚類分析。首先使用主成分分析(PCA)等降維方法將數據將降維投影到二維平面上,通過人工觀察確定划分數。
library(ggplot2) library(ggfortify) #使用ggfortify包進行聚類結果的可視化展示 newiris <- iris; newiris$Species <- NULL; autoplot(prcomp(newiris))
通過上面的圖形可清晰的看到,數據被划分成兩部分,所以K至少大於2,盡管左右兩邊的數據被清晰的分開,但每部分數據是否還可以進一步划分成小聚簇呢,從圖上看不出來。回顧一下K-Means的思想,每個簇內間距盡可能小,我們嘗試使用不同划分數K進行K-Means聚類,看看不同划分的簇內間距變化情況。
wss <- c(1:15) for(i in 1:15) wss[i] <- sum(kmeans(newiris,i)$withinss) plot(wss)
從圖中可見,划分數在4-15之間,簇內間距變化很小,基本上是水平直線,因此可以選擇K=4(拐點附近位置)作為划分數。聚類計算完成后,我們使用mds方法觀察一下聚類結果。
newiris <- iris; newiris$Species <- NULL; dist.e <- dist(newiris,method='euclidean') #
計算各觀測值之間的歐式距離
mds <- cmdscale(dist.e, k=2, eig=T) #cmdscale()
計算MDS,為可視化,取前兩個主坐標
x <- mds$points[,1]
y <- mds$points[,2]
k <- kmeans(newiris, 4)
ggplot(data.frame(x,y), aes(x,y)) + geom_point(aes(colour = factor(k$cluster)))
從圖中可以觀察到,數據被清晰的划分為4個不同的區域。
r語言中使用dist(x, method = "euclidean",diag = FALSE, upper = FALSE, p = 2) 來計算距離。其中x是樣本矩陣或者數據框。method表示計算哪種距離。method的取值有:
euclidean 歐幾里德距離,就是平方再開方。
maximum 切比雪夫距離
manhattan 絕對值距離
canberra Lance 距離
minkowski 明科夫斯基距離,使用時要指定p值
binary 定性變量距離.
定性變量距離: 記m個項目里面的 0:0配對數為m0 ,1:1配對數為m1,不能配對數為m2,距離=m1/(m1+m2);
diag 為TRUE的時候給出對角線上的距離。upper為TURE的時候給出上三角矩陣上的值。
四、更進一步
從上面的內容中,我們知道K-Means通過數據間距遠近來進行划分操作,對於數值型數據而言,很容易通過歐幾里得距離計算數據間的距離,對於分類等類型的數據則無法通過歐幾里得距離計算數據的距離。韓家煒教授所著的《數據挖掘 概念與技術》2.4 度量數據的相似性和相異性章節中給出了計算數據間距的具體方法,需要時可按照書中方法進行數據間距計算。
需要說明的是,R語言中的kmeans函數只能接受數值型數據,如果需要對分類等類型的數據進行聚類計算,只能自己實現K-Means算法了,先計算數據距離,然后在編寫K-Means算法進行聚類計算。值得一提的是在R語言中使用edit(kmeans)可以查看kmeans方法的源代碼,可以參照源代碼實現定制的K-Means算法。
歐幾里德距離矩陣
K-Means的細節問題
-
K值怎么定?我怎么知道應該幾類?
答:這個真的沒有確定的做法,分幾類主要取決於個人的經驗與感覺,通常的做法是多嘗試幾個K值,看分成幾類的結果更好解釋,更符合分析目的等。或者可以把各種K值算出的SSE做比較,取最小的SSE的K值。 -
初始的K個質心怎么選?
答:最常用的方法是隨機選,初始質心的選取對最終聚類結果有影響,因此算法一定要多執行幾次,哪個結果更reasonable,就用哪個結果。 當然也有一些優化的方法,第一種是選擇彼此距離最遠的點,具體來說就是先選第一個點,然后選離第一個點最遠的當第二個點,然后選第三個點,第三個點到第一、第二兩點的距離之和最小,以此類推。第二種是先根據其他聚類算法(如層次聚類)得到聚類結果,從結果中每個分類選一個點。 -
K-Means會不會陷入一直選質心的過程,永遠停不下來?
答:不會,有數學證明K-Means一定會收斂,大致思路是利用SSE的概念(也就是誤差平方和),即每個點到自身所歸屬質心的距離的平方和,這個平方和是一個函數,然后能夠證明這個函數是可以最終收斂的函數。 -
判斷每個點歸屬哪個質心的距離怎么算?
答:這個問題必須不得不提一下數學了……
第一種,歐幾里德距離(歐幾里德這位爺還是很厲害的,《幾何原本》被稱為古希臘數學的高峰,就是用5個公理推導出了整個平面幾何的結論),這個距離就是平時我們理解的距離,如果是兩個平面上的點,也就是(X1,Y1),和(X2,Y2),那這倆點距離是多少初中生都會,就是√( (x1-x2)^2+(y1-y2)^2) ,如果是三維空間中呢?√( (x1-x2)^2+(y1-y2)^2+(z1-z2)^2 ;推廣到高維空間公式就以此類推。可以看出,歐幾里德距離真的是數學加減乘除算出來的距離,因此這就是只能用於連續型變量的原因。
第二種,余弦相似度,余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小。相比距離度量,余弦相似度更加注重兩個向量在方向上的差異,而非距離或長度上。下圖表示余弦相似度的余弦是哪個角的余弦,A,B是三維空間中的兩個向量,這兩個點與三維空間原點連線形成的角,如果角度越小,說明這兩個向量在方向上越接近,在聚類時就歸成一類:
cosine看一個例子(也許不太恰當):歌手大賽,三個評委給三個歌手打分,第一個評委的打分(10,8,9) 第二個評委的打分(4,3,2),第三個評委的打分(8,9,10)
如果采用余弦相似度來看每個評委的差異,雖然每個評委對同一個選手的評分不一樣,但第一、第二兩個評委對這四位歌手實力的排序是一樣的,只是第二個評委對滿分有更高的評判標准,說明第一、第二個評委對音樂的品味上是一致的。
因此,用余弦相似度來看,第一、第二個評委為一類人,第三個評委為另外一類。
如果采用歐氏距離, 第一和第三個評委的歐氏距離更近,就分成一類人了,但其實不太合理,因為他們對於四位選手的排名都是完全顛倒的。
總之,如果注重數值本身的差異,就應該用歐氏距離,如果注重的是上例中的這種的差異(我概括不出來到底是一種什么差異……),就要用余弦相似度來計算。
還有其他的一些計算距離的方法,但是都是歐氏距離和余弦相似度的衍生,簡單羅列如下:明可夫斯基距離、切比雪夫距離、曼哈頓距離、馬哈拉諾比斯距離、調整后的余弦相似度、Jaccard相似系數…… -
還有一個重要的問題是,大家的單位要一致!
比如X的單位是米,Y也是米,那么距離算出來的單位還是米,是有意義的
但是如果X是米,Y是噸,用距離公式計算就會出現“米的平方”加上“噸的平方”再開平方,最后算出的東西沒有數學意義,這就有問題了。
還有,即使X和Y單位一致,但是如果數據中X整體都比較小,比如都是1到10之間的數,Y很大,比如都是1000以上的數,那么,在計算距離的時候Y起到的作用就比X大很多,X對於距離的影響幾乎可以忽略,這也有問題。
因此,如果K-Means聚類中選擇歐幾里德距離計算距離,數據集又出現了上面所述的情況,就一定要進行數據的標准化(normalization),即將數據按比例縮放,使之落入一個小的特定區間。去除數據的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行計算和比較。
標准化方法最常用的有兩種:- min-max標准化(離差標准化):對原始數據進行線性變換,是結果落到【0,1】區間,轉換方法為 X'=(X-min)/(max-min),其中max為樣本數據最大值,min為樣本數據最小值。
- z-score標准化(標准差標准化):處理后的數據符合標准正態分布(均值為0,方差為1),轉換公式:X減去均值,再除以標准差
-
每一輪迭代如何選出新的質心?
答:各個維度的算術平均,比如(X1,Y1,Z1)、(X2,Y2,Z2)、(X3,Y3,Z3),那就新質心就是【(X1+X2+X3)/3,(Y1+Y2+Y3)/3,(Z1,Z2,Z3)/3】,這里要注意,新質心不一定是實際的一個數據點。 -
關於離群值?
答:離群值就是遠離整體的,非常異常、非常特殊的數據點,在聚類之前應該將這些“極大”“極小”之類的離群數據都去掉,否則會對於聚類的結果有影響。但是,離群值往往自身就很有分析的價值,可以把離群值單獨作為一類來分析。 -
用SPSS作出的K-Means聚類結果,包含ANOVA(單因素方差分析),是什么意思?
答:答簡單說就是判斷用於聚類的變量是否對於聚類結果有貢獻,方差分析檢驗結果越顯著的變量,說明對聚類結果越有影響。對於不顯著的變量,可以考慮從模型中剔除。
參考:https://my.oschina.net/polaris16/blog/801889
http://blog.csdn.net/yucan1001/article/details/23123043
http://www.jianshu.com/p/fc91fed8c77b