分類和聚類(Machine Learning Algorithm)


分類:

分類(classification),對於一個分類員來說,通常需要你告訴它“這個東西被分為某某類”,理想情況下,一個分類員會從它得到的訓練集何總進行“學習”,從而具備對未知數據進行分類的能力,這種提供訓練數據的過程通常叫做supervised learning(監督學習)。

聚類:

聚類(clustering),簡單的說就是把相似的東西分到一組,聚類的時候,我們並不關心某一類是什么,我們需要實現的目標只是把相似的東西聚到一起,因此,一個聚類算法通常只需要知道如何計算相似度就可以開始工作了(距離矩陣),因此clustering通常並不需要使用訓練數據進行學習,這在Machine Learning中被稱作unsupervised learning(無監督學習)。

常見的分類與聚類算法:

所謂分類,簡單來說,就是根據文本的特征或屬性,划分到已有的類別中。如在自然語言處理NLP中,我們經常提到的文本分類便是一個分類問題,一般的模式分類方法可用於文本分類研究。常用的分類算法包括:決策樹分類法,朴素的貝葉斯分類算法(native bayesian classifier),基於支持向量機(SVM)的分類器,神經網絡法,K-近鄰法(k-nearest neighbor,kNN),模糊分類法等等。

分類法作為一種監督學習方法,要求必須事先明確知道各個類別的信息,並且斷言所有待分類項都有一個類別與之對應。但是很多時候上述條件得不到滿足,尤其是在處理海量數據的時候,如果通過預處理使得數據滿足分類算法的要求,則代價非常大,這時候可以考慮使用聚類算法。

K均值(K-means clustering)聚類則是最典型的聚類算法。除此之外,還有諸多,屬於划分法K-MEDOIDS算法、CLARANS算法;屬於層次法的BIRCH算法、CURE算法、CHAMELEON算法等;基於密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法等;基於網格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法。

機器學習發展到現在,一般分為監督學習(supervised learning)、半監督學習(semi-supervised learning)和無監督學習(unsupervised learning)三類。

上面介紹的分類算法屬於監督學習,聚類則屬於無監督學習。但是反過來說,監督學習屬於分類算法則不准確,監督學習的關鍵在於給樣本打上標簽,然后進行相應的學習任務,如果學習任務是分類的話,那么就是分類,否則不是。很容易理解。

——————————————————————————————————————————————————————————

參考博客:

http://blog.csdn.net/v_july_v/article/details/7577684

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM