機器學習之分類和聚類的區別


一、概念

分類:通過訓練集訓練出來一個模型,用於判斷新輸入數據的類型,而在訓練的過程中,一定需要有標簽的數據,即訓練集本身就帶有標簽。簡單來說,用已知的數據來對未知的數據進行划分。這是一種有監督學習。

聚類:對於一組數據,你根本不知道數據之間的關系,不知道他們是否屬於同一類,抑或屬於不同類別,也不知道到底可以分為多少類。這個時候,我們就需要聚類算法來對數據進行一個關系分析,通過聚類,我們可以把未知類別的數據,分為一類或者多類,這個過程是不需要標簽的,這是一種無監督學習。

二、區別

給出一張圖簡要道出兩者區別,圖片來源:https://www.zhihu.com/question/42044303/answer/470589507

 

 

解釋一下第五條:步數問題

對於分類問題,首先需要使用帶標簽的訓練集來訓練一個分類器出來,然后再將要分類的數據輸入到分類器進行類別划分,所以說是兩步。

對於聚類問題,只需要直接對數據進行處理,尋找數據之間相同之處來對數據進行划分類別,相對於分類來說這里只有一步。

 

三、常用對應算法

1.分類算法:

  • K近鄰(KNN)
  • 邏輯回歸
  • 支持向量機
  • 朴素貝葉斯
  • 決策樹
  • 隨機森林

2.聚類算法 :

  • K均值(K-means)
  • FCM(模糊C均值聚類)
  • 均值漂移聚類
  • DBSCAN
  • DPEAK
  • Mediods
  • Canopy


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM