聚類分析之模糊C均值算法核心思想

本文轉載自查看原文 2016-06-27 13:13 12260

聚類分析中存在一種方法:‘模糊C均值’，模糊C均值的發現，要感謝模糊數學之父“扎德”老爺子，他老人家當年提出了“模糊集合論”和“模糊邏輯”，介紹算法之前，先簡單的補充一些相關的知識點.

所謂模糊集合論，就是一種處理結果不確定、不能精確量化的方法。例如：存在一句話“今天估計會下雨”，這就是典型的模糊，我們不能精確的表示這句話的值，今天估計會下雨，那下雨的程度是多少呢？我們此時就用【0，1】來表示此句話為真的程度，例如，今天50%會下雨，則今天下雨為真的程度就是0.5，0.5叫做“隸屬度”，當然，今天不下雨的隸屬度為1-0.5=0.5.

所謂模糊C均值算法，是指該算法的聚類（簇）的定義(界限)是模糊的，不同於K均值(K均值中的簇是確定的，以質心為中心，確定的簇)，意思就是說:模糊C均值中，每個數據點（元素）到每個簇都存在一個隸屬度，但是每個數據點到所有簇的隸屬度之和為1（這個當然很明顯）。其中，隸屬度又叫做隸屬權值（用W表示）。

它的思想是：先人工隨機指定每個數據到各個簇的隸屬度（模糊偽划分），然后根據隸屬度計算每一個簇的質心，接着重新進行偽划分(更新隸屬度矩陣)，直到質心不變化（嚴格意義說：知道所有隸屬度的變化的絕對值都低於所設定閾值）

偽代碼：

Wij表示數據點i關於簇j的隸屬度

1 選擇一個初始模糊偽划分，即對所有的Wij賦值

2 Repeat

3 根據模糊偽划分，計算每個簇的質心

4 重新計算模糊偽划分，即Wij

5 Until 簇的質心不發生變化，（嚴格意義說：知道所有隸屬度的變化的絕對值都低於所設定閾值）

其中涉及的數學公式:

是第j個簇