一、概念
分類:通過訓練集訓練出來一個模型,用於判斷新輸入數據的類型,而在訓練的過程中,一定需要有標簽的數據,即訓練集本身就帶有標簽。簡單來說,用已知的數據來對未知的數據進行划分。這是一種有監督學習。
聚類:對於一組數據,你根本不知道數據之間的關系,不知道他們是否屬於同一類,抑或屬於不同類別,也不知道到底可以分為多少類。這個時候,我們就需要聚類算法來對數據進行一個關系分析,通過聚類,我們可以把未知類別的數據,分為一類或者多類,這個過程是不需要標簽的,這是一種無監督學習。
二、區別
給出一張圖簡要道出兩者區別,圖片來源:https://www.zhihu.com/question/42044303/answer/470589507
解釋一下第五條:步數問題
對於分類問題,首先需要使用帶標簽的訓練集來訓練一個分類器出來,然后再將要分類的數據輸入到分類器進行類別划分,所以說是兩步。
對於聚類問題,只需要直接對數據進行處理,尋找數據之間相同之處來對數據進行划分類別,相對於分類來說這里只有一步。
三、常用對應算法
1.分類算法:
- K近鄰(KNN)
- 邏輯回歸
- 支持向量機
- 朴素貝葉斯
- 決策樹
- 隨機森林
2.聚類算法 :
- K均值(K-means)
- FCM(模糊C均值聚類)
- 均值漂移聚類
- DBSCAN
- DPEAK
- Mediods
- Canopy