聚類——認識KFCM算法
作者:凱魯嘎吉 - 博客園 http://www.cnblogs.com/kailugaji/
一、KFCM概述
KFCM:基於核的改進的模糊c均值聚類算法。它是通過核函數將原始空間中的點映射到特征空間中,考慮到原始空間中的點無法用一個線性函數進行划分,於是將其變換到一個更高維度的空間中,可以在這個高維空間中找到一個線性函數,容易對原始數據進行划分。這個高維空間就叫特征空間。從低維到高維空間的映射函數的內積就叫核函數。將核函數引入機器學習的一個重要原因是:當特征空間維數很高而核函數計算量較之特征空間內的內積運算計算量相對很小時,這樣做可以提高計算效率。
基於目標函數的FCM聚類算法存在兩大缺陷:一方面,隸屬度和為1的約束條件易造成它對對孤立點和噪聲敏感;另一方面它本身是一種迭代下降的算法,使得它初始聚類中心敏感且不易收斂於全局最優。KFCM算法提高了聚類性能,使算法對噪聲和孤立點具有較好的魯棒性。
核函數的定義如下:
通過核函數改變模糊c均值聚類算法中的距離函數,定義如下目標函數:
利用拉格朗日的極值必要條件,推出U ,V的迭代式如下:
二、算法的步驟
這種方法通過核函數形成一種映射關系,將原始空間中的點轉換到特征空間進行計算與分析,最后得到原始空間的最優划分。將上述基於核的模糊C均值聚類算法記為KFCM。