K-means聚類算法


一、思想

聚類:人以群分、物以類聚,使得簇內的距離接近,簇間距離遠。

可以做推薦冷啟動,區域推薦熱榜、用戶畫像

二、算法步驟:

  • 1、隨機設置K個特征空間內的點作為初始的聚類中心
  • 2、對於其他每個點計算到K個中心的距離,從中選出距離最近的⼀個點作為⾃⼰的標記
  • 3、接着對着標記的聚類中心之后,重新計算出每個聚類的新中心點(平均值或切尾均值)
  • 4、如果計算得出的新中心點與原中心點一樣,那么結束,否則重新進行第二步

如何排除初始值落在異常值的影響:

可以把數據分為K堆,對每一堆都排序,去掉最小的和最大的25%,取中間的50%的數據取均值作為初始的聚類中心

三、優缺點:

優點:
1)原理比較簡單,實現也是很容易,收斂速度快。
2)聚類效果較優。
3)算法的可解釋度比較強。
4)主要需要調參的參數僅僅是簇數k

缺點:
1)K值的選取不好把握
2)對於不是凸的數據集比較難收斂
3)如果各隱含類別的數據不平衡,比如各隱含類別的數據量嚴重失衡,或者各隱含類別的方差不同,則聚類效果不佳。
4) 采用迭代方法,得到的結果只是局部最優。
5) 對噪音和異常點比較的敏感

四、評估指標

 

 

 

 

參考:1、非監督學習-k-means

      2、【機器學習】K-means(非常詳細)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM