(1)k-mean聚類
k-mean聚類比較容易理解就是一個計算距離,找中心點,計算距離,找中心點反復迭代的過程,
給定樣本集D={x1,x2,...,xm},k均值算法針對聚類所得簇划分C={C1,C2,...,Ck}最小化平方誤差
μi表示簇Ci的均值向量,在一定程度上刻畫了簇內樣本圍繞均值向量的緊密程度,E值越小則簇內樣本相似度越高。
下邊是k均值算法的具體實現的算法
k均值算法的缺點是:(1)對於離群點和孤立點敏感;(2)k值選擇; (3)初始聚類中心的選擇; (4)只能發現球狀簇。
k均值問題用於分布式的環境下:
分布式環境下肯定是在一塊一塊的計算的,如果在每個塊中都加入選擇的k個點,則在每個塊中都進行簡單的聚類。之后,,,,,
(2)k-mean++
k-mean算法有各種缺陷問題,比如上邊的缺點(3)初始聚類中心的選擇,選擇不同的初始聚類中心點可能得到不同的結果,雖然可以多次選擇不同的初始點,多次計算,但是這樣無意中增加了更多的計算量,因此提出了k-mean++算法,k-mean++算法主要是針對初始時選擇聚類中心的問題,
k-means++算法選擇初始seeds的基本思想就是:初始的聚類中心之間的相互距離要盡可能的遠。wiki上對該算法的描述是如下:
- 從輸入的數據點集合中隨機選擇一個點作為第一個聚類中心
- 對於數據集中的每一個點x,計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x)
- 選擇一個新的數據點作為新的聚類中心,選擇的原則是:D(x)較大的點,被選取作為聚類中心的概率較大
- 重復2和3直到k個聚類中心被選出來
- 利用這k個初始的聚類中心來運行標准的k-means算法
從上面的算法描述上可以看到,算法的關鍵是第3步,如何將D(x)反映到點被選擇的概率上,一種算法如下(詳見此地):
- 先從我們的數據庫隨機挑個隨機點當“種子點”
- 對於每個點,我們都計算其和最近的一個“種子點”的距離D(x)並保存在一個數組里,然后把這些距離加起來得到Sum(D(x))。
- 然后,再取一個隨機值,用權重的方式來取計算下一個“種子點”。這個算法的實現是,先取一個能落在Sum(D(x))中的隨機值Random,然后用Random -= D(x),直到其<=0,此時的點就是下一個“種子點”。
- 重復2和3直到k個聚類中心被選出來
- 利用這k個初始的聚類中心來運行標准的k-means算法
可以看到算法的第三步選取新中心的方法,這樣就能保證距離D(x)較大的點,會被選出來作為聚類中心了。至於為什么原因很簡單,如下圖 所示:
假設A、B、C、D的D(x)如上圖所示,當算法取值Sum(D(x))*random時,該值會以較大的概率落入D(x)較大的區間內,所以對應的點會以較大的概率被選中作為新的聚類中心。So it's work!
更過關於k-mean++的實現可以參見 http://blog.chinaunix.net/uid-24774106-id-3412491.html
duiyuk-mean算法的每個缺點的改進算法 http://blog.csdn.net/u010536377/article/details/50884416