特注:這里所講的模糊聚類不等同於FCM。(小提一下:如果將Kmeans聚類作為硬均值聚類(HCM),那么FCM就是軟均值聚類。兩者之間最大的區別在於硬均值聚類中每個數據是只能明確歸屬於一個類別。而軟均值聚類則是每個數據可以歸屬於多個類別,並且使用隸屬度來衡量隸屬度。)。
本文要談及模糊聚類,主要從以下幾個方面進行講解:
(1)與模糊聚類相關一些數學概念;
(2)模糊聚類過程;
(3)模糊聚類的一個應用。
一、與模糊聚類相關的一些數學概念
談及模糊聚類,就不得不談及模糊數學。模糊數學是在模糊集合、模糊邏輯的基礎上發展起來的模糊拓撲、模糊測度論等數學領域的統稱。模糊集理論是對傳統集合理論的一種推廣,在傳統集合理論中,一個元素或者屬於一個集合,或者不屬於;而對於模糊集來說,每一個元素都是以一定的程度屬於某個集合,也可以同時以不同的程度屬於幾個集合。以下是幾個較為重要的定義:
定義1:隸屬函數:表示一個對象X隸屬於集合的程度的函數,通常記作
,其自變量范圍是所有可能屬於集合
的對象,取值范圍是[0,1]。
定義2:隸屬度:表示一個對象隸屬於一個集合的程度。例如,35歲的人可以認為是以隸屬程度為0.7屬於中年人這個概念,其隸屬度就是0.7。
定義3:模糊子集:對於任意,都確定了一個數
,稱
為X對
的隸屬度。比如對象集合{a,b,c,d,e}5個人年齡,對於“中年人”這個模糊概念的隸屬程度為:
,則其所確定的模糊子集為{1,0.1,0.5,1,0},可寫為
。
定義4:模糊矩陣:對於U,V兩個論域,則U和V的笛卡爾乘積集,可記作。笛卡爾乘積集是兩個集合元素間的無約束搭配。若對這種搭配加以一定的限制,便表現了U,V之間的某種特殊關系,稱為U、V的模糊關系R。
,表示U、V具有關系R的程度。模糊關系R可以用矩陣形式來表示,即:
模糊矩陣旨在表示兩個論域之間的關系。因而,在對象不明的情況下,其將失去意義。
定義5:設R是U上的一個關系。
當R具有自反性,對稱性和傳遞性時,稱R為模糊等價矩陣。
當R具有自反性,對稱性時,則稱R是模糊相似矩陣。
在實際情況中,一般難於直接地給出一個模糊矩陣是模糊等價矩陣,但是如果要給出一個矩陣是模糊相似矩陣,則其難度相對而言就較小。而通過模糊相似矩陣來求得模糊等價矩陣是有相應的算法。一般采用是平方法[3]進行計算獲得:即。在經過有限次運算后,一定會有
。至此,就可以得到一個模糊等價矩陣
。可以證明的是,
,(其中n為模糊相似矩陣的維數。)
二、模糊聚類過程
將模糊集理論引入傳統的聚類分析問題中,就可以得到模糊聚類分析。比較典型的模糊聚類方法有:基於相似性和模糊關系的方法、基於模糊等價掛系的傳遞壁報方法、基於模糊圖論最大樹方法以及基於數據集的凸分解、動態規划和難以辨識關系等方法。本文主要講解的模糊聚類過程是基於模糊等價關系的傳遞閉包方法。
基於模糊等價關系的傳遞閉包方法的過程如下:
(1)構建模糊矩陣
模糊聚類分析的應用細節和所應用的領域有關。一般是根據實際情況,建立分類對象和設定屬性之間的所屬關系矩陣。這個可以從之后的例子中看出,在這里先不進行明確。
(2)矩陣數據標准化:
由於(1)中所構建的模糊矩陣,是根據其所屬於的應用領域進行構建,矩陣的元素中的數值情況與具體情況相關。因而,有時為了更好地進行分析,需要對該矩陣數據進行標准化處理。矩陣數據標准化是指對原始數據進行無量綱處理,將矩陣中的元素數值壓縮在[0,1]區間內,進而構建模糊矩陣。目前,對於數據標准化有兩種常見的變換:
(a)平移標准差變換:
經過標准差變換后,每個變量的均值都為0,標准差為1,並且消除了量綱的影響。但是,這樣得到的
還不一定在[0,1]上,所以還要作下一個變換,即平移極差變換。
(a)平移極差變化:
(3)建立模糊相似矩陣:
模糊相似矩陣:具有自反性和對稱性的模糊矩陣。對於模糊相似矩陣的構造方法有13種。在此列舉其中常用的8種。(其中,
(
,
)為模糊矩陣中的元素,
(
)為生成的模糊相似矩陣中的元素)
【1】海明距離法:
【2】切比雪夫距離法:
【3】絕對指數法:
【4】歐氏距離法:
【5】蘭式距離法:
【6】夾角余弦法:
【7】最大最小法:
【8】幾何平均法最小法:
選擇構造模糊相似矩陣時,需要遵行三個原則:正確性原則、不變性原則、可區分性原則;並且對常用的模糊矩陣構造方法在整體分辨率和類間分辨率兩個指標上進行比較,從而才能選擇一個合適的構造模糊相似矩陣的方法。
(4)構建模糊等價矩陣
與模糊相似矩陣相比,模糊等價矩陣會更多一個性質,傳遞性。
使用傳遞閉包法可以將模糊相似矩陣轉化為模糊等價矩陣。方法如下:
(5)聚類
對於模糊等價矩陣,進行聚類主要是使用分割值λ,獲得在該分割值情況下等價類。動態直接聚類法是直接在模糊相似矩陣上進行聚類分析。給出不同的分割值λ。從而得到不同的相似類。在分割值λ=1時,所得到的相似類,取其的並集就可以得到傳遞閉包在此分割值λ時得到的等價類。而在分割值λ不為1的情況下,要獲得在該分割值下的由傳遞閉包才可求得的等價類,是將在該分割值λ情況下獲得的相似元素對,對在上一個分割值所獲得的等價類含有該元素對的歸並操作。一直到獲得的等價類為全集。
三、模糊聚類的一個應用
(1)假設有8個用戶和6個網頁。根據用戶訪問各個網頁的情況,如圖1所示,建立用戶與網頁之間的矩陣關系。並將此矩陣關系作為用戶與網頁之間的模糊矩陣,記為H,如圖2所示:
圖1
圖2
(2)將模糊矩陣H采用最大最小法轉換為模糊相似矩陣R,用來表示用戶之間的模糊相似程度,所得到的模糊相似矩陣R如圖3所示:
圖3
(3)采用傳遞閉包法,來進行聚類分析。在進行聚類分析之前,需要將模糊相似矩陣R轉化為模糊等價矩陣T。所得到的模糊等價矩陣T如圖4所示:
圖4
(4)設定合適的分割值λ,令其由1降至0。得到相應的,然后進行聚類[5][6]。其中用戶
與用戶
歸為一類的充分必要條件是:
。在此,只是取分割值λ的值為1,0.8,07,0.6這些值,從而分別得到的
和聚類結果如下:
因為現實情況的復雜性,因而對於在模糊聚類分析的過程中,采用何種方法進行分類是難於確定的。一般情況下,是將所有的方法對一些樣本實例進行嘗試過之后,再從中選擇一個較優結果的方法。但是有時即使是嘗試過所有的方法也找不到一個合適的模糊聚類方法,此時需要根據具體情況,設計一些新的方法進行聚類分析。
(5)分割值λ的確定
在模糊聚類分析中,一個合適的分割值λ對分類的結果的影響是十分大的。因而,現實情況的復雜性和多樣性,因而在實際情況中,一般是采用人為設定的方法來確定的分割值λ。有時為了慎重起見,會讓多人進行設定分割值λ。
基於專家團的設定的分割值λ確定方法[7]:
假設有p個專家組成一個專家團,其中:
通過此就可以求出;
,其中
為第k個專家給出的分割值λ,通過此就可以得到最終的分割值λ。
四、小結
經過如上的處理方法,就可以實現一個簡單的模糊聚類。可以看出使用基於傳遞閉包等價矩陣進行模糊聚類的原理雖然簡單,但是所花費的代價卻是極大的。特別是在將模糊相似矩陣轉為模糊等價矩陣