
聚類分析中存在一種方法:‘模糊C均值’,模糊C均值的發現,要感謝模糊數學之父“扎德”老爺子,他老人家當年提出了“模糊集合論”和“模糊邏輯”,介紹算法之前,先簡單的補充一些相關的知識點.
所謂模糊集合論,就是一種處理結果不確定、不能精確量化的方法。例如:存在一句話“今天估計會下雨”,這就是典型的模糊,我們不能精確的表示這句話的值,今天估計會下雨,那下雨的程度是多少呢?我們此時就用【0,1】來表示此句話為真的程度,例如,今天50%會下雨,則今天下雨為真的程度就是0.5,0.5叫做“隸屬度”,當然,今天不下雨的隸屬度為1-0.5=0.5.
所謂模糊C均值算法,是指該算法的聚類(簇)的定義(界限)是模糊的,不同於K均值(K均值中的簇是確定的,以質心為中心,確定的簇),意思就是說:模糊C均值中,每個數據點(元素)到每個簇都存在一個隸屬度,但是每個數據點到所有簇的隸屬度之和為1(這個當然很明顯)。其中,隸屬度又叫做隸屬權值(用W表示)。
它的思想是:先人工隨機指定每個數據到各個簇的隸屬度(模糊偽划分),然后根據隸屬度計算每一個簇的質心,接着重新進行偽划分(更新隸屬度矩陣),直到質心不變化(嚴格意義說:知道所有隸屬度的變化的絕對值都低於所設定閾值)
偽代碼:
Wij表示數據點i關於簇j的隸屬度
1 選擇一個初始模糊偽划分,即對所有的Wij賦值
2 Repeat
3 根據模糊偽划分,計算每個簇的質心
4 重新計算模糊偽划分,即Wij
5 Until 簇的質心不發生變化,(嚴格意義說:知道所有隸屬度的變化的絕對值都低於所設定閾值)
其中涉及的數學公式:
是第j個簇

Wij表示數據點i關於簇j的隸屬度

SSE是誤差平方和,也稱散布,我們先計算每一個數據點的誤差(即點到簇的歐式距離),然后計算誤差的平方和,他是一個評價指數,SSE越小,說明聚類的原型可以代表簇中點。

公式中的P是確定權值影響的指數,一般取P值為2,簡單介紹就是P增大,划分變得越來越模糊。
FCM與K均值思想是基本一致的,,它產生任意點屬於簇的程度的聚類。
