一、思想
聚類:人以群分、物以類聚,使得簇內的距離接近,簇間距離遠。
可以做推薦冷啟動,區域推薦熱榜、用戶畫像
二、算法步驟:
- 1、隨機設置K個特征空間內的點作為初始的聚類中心
- 2、對於其他每個點計算到K個中心的距離,從中選出距離最近的⼀個點作為⾃⼰的標記
- 3、接着對着標記的聚類中心之后,重新計算出每個聚類的新中心點(平均值或切尾均值)
- 4、如果計算得出的新中心點與原中心點一樣,那么結束,否則重新進行第二步
如何排除初始值落在異常值的影響:
可以把數據分為K堆,對每一堆都排序,去掉最小的和最大的25%,取中間的50%的數據取均值作為初始的聚類中心
三、優缺點:
優點:
1)原理比較簡單,實現也是很容易,收斂速度快。
2)聚類效果較優。
3)算法的可解釋度比較強。
4)主要需要調參的參數僅僅是簇數k
缺點:
1)K值的選取不好把握
2)對於不是凸的數據集比較難收斂
3)如果各隱含類別的數據不平衡,比如各隱含類別的數據量嚴重失衡,或者各隱含類別的方差不同,則聚類效果不佳。
4) 采用迭代方法,得到的結果只是局部最優。
5) 對噪音和異常點比較的敏感
四、評估指標
參考:1、非監督學習-k-means