聚類分析之模糊C均值算法核心思想


        

          聚類分析中存在一種方法:‘模糊C均值’,模糊C均值的發現,要感謝模糊數學之父“扎德”老爺子,他老人家當年提出了“模糊集合論”和“模糊邏輯”,介紹算法之前,先簡單的補充一些相關的知識點.

         所謂模糊集合論,就是一種處理結果不確定、不能精確量化的方法。例如:存在一句話“今天估計會下雨”,這就是典型的模糊,我們不能精確的表示這句話的值,今天估計會下雨,那下雨的程度是多少呢?我們此時就用【0,1】來表示此句話為真的程度,例如,今天50%會下雨,則今天下雨為真的程度就是0.5,0.5叫做“隸屬度”,當然,今天不下雨的隸屬度為1-0.5=0.5.

         所謂模糊C均值算法,是指該算法的聚類(簇)的定義(界限)是模糊的,不同於K均值(K均值中的簇是確定的,以質心為中心,確定的簇),意思就是說:模糊C均值中,每個數據點(元素)到每個簇都存在一個隸屬度,但是每個數據點到所有簇的隸屬度之和為1(這個當然很明顯)。其中,隸屬度又叫做隸屬權值(用W表示)。

它的思想是:先人工隨機指定每個數據到各個簇的隸屬度(模糊偽划分),然后根據隸屬度計算每一個簇的質心,接着重新進行偽划分(更新隸屬度矩陣),直到質心不變化(嚴格意義說:知道所有隸屬度的變化的絕對值都低於所設定閾值)

偽代碼:

Wij表示數據點i關於簇j的隸屬度

1    選擇一個初始模糊偽划分,即對所有的Wij賦值

2   Repeat

3  根據模糊偽划分,計算每個簇的質心

4   重新計算模糊偽划分,即Wij

5    Until 簇的質心不發生變化,(嚴格意義說:知道所有隸屬度的變化的絕對值都低於所設定閾值)

其中涉及的數學公式:

 

是第j個簇


Wij表示數據點i關於簇j的隸屬度


SSE是誤差平方和,也稱散布,我們先計算每一個數據點的誤差(即點到簇的歐式距離),然后計算誤差的平方和,他是一個評價指數,SSE越小,說明聚類的原型可以代表簇中點。


公式中的P是確定權值影響的指數,一般取P值為2,簡單介紹就是P增大,划分變得越來越模糊。

FCM與K均值思想是基本一致的,,它產生任意點屬於簇的程度的聚類。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM