分類和聚類（Machine Learning Algorithm）

本文轉載自查看原文 2013-01-07 21:26 3066 Machine Learning Algorithm

分類：

分類（classification），對於一個分類員來說，通常需要你告訴它“這個東西被分為某某類”，理想情況下，一個分類員會從它得到的訓練集何總進行“學習”，從而具備對未知數據進行分類的能力，這種提供訓練數據的過程通常叫做supervised learning（監督學習）。

聚類：

聚類（clustering），簡單的說就是把相似的東西分到一組，聚類的時候，我們並不關心某一類是什么，我們需要實現的目標只是把相似的東西聚到一起，因此，一個聚類算法通常只需要知道如何計算相似度就可以開始工作了（距離矩陣），因此clustering通常並不需要使用訓練數據進行學習，這在Machine Learning中被稱作unsupervised learning（無監督學習）。

常見的分類與聚類算法：

所謂分類，簡單來說，就是根據文本的特征或屬性，划分到已有的類別中。如在自然語言處理NLP中，我們經常提到的文本分類便是一個分類問題，一般的模式分類方法可用於文本分類研究。常用的分類算法包括：決策樹分類法，朴素的貝葉斯分類算法（native bayesian classifier），基於支持向量機（SVM）的分類器，神經網絡法，K-近鄰法（k-nearest neighbor，kNN），模糊分類法等等。

分類法作為一種監督學習方法，要求必須事先明確知道各個類別的信息，並且斷言所有待分類項都有一個類別與之對應。但是很多時候上述條件得不到滿足，尤其是在處理海量數據的時候，如果通過預處理使得數據滿足分類算法的要求，則代價非常大，這時候可以考慮使用聚類算法。

K均值（K-means clustering）聚類則是最典型的聚類算法。除此之外，還有諸多，屬於划分法K-MEDOIDS算法、CLARANS算法；屬於層次法的BIRCH算法、CURE算法、CHAMELEON算法等；基於密度的方法：DBSCAN算法、OPTICS算法、DENCLUE算法等；基於網格的方法：STING算法、CLIQUE算法、WAVE-CLUSTER算法。

機器學習發展到現在，一般分為監督學習（supervised learning）、半監督學習（semi-supervised learning）和無監督學習（unsupervised learning）三類。

上面介紹的分類算法屬於監督學習，聚類則屬於無監督學習。但是反過來說，監督學習屬於分類算法則不准確，監督學習的關鍵在於給樣本打上標簽，然后進行相應的學習任務，如果學習任務是分類的話，那么就是分類，否則不是。很容易理解。

——————————————————————————————————————————————————————————

參考博客：

http://blog.csdn.net/v_july_v/article/details/7577684

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [Machine Learning & Algorithm] 隨機森林（Random Forest） [Machine Learning & Algorithm] 朴素貝葉斯算法（Naive Bayes） Machine Learning 23 -- 文本分類實例 Machine Learning 22 二分類實例 [Machine Learning] 機器學習常見算法分類匯總 CheeseZH: Stanford University: Machine Learning Ex4:Training Neural Network(Backpropagation Algorithm) [Machine Learning & Algorithm]CAML機器學習系列2：深入淺出ML之Entropy-Based家族機器學習---用python實現朴素貝葉斯算法（Machine Learning Naive Bayes Algorithm Application） [Machine Learning & Algorithm]CAML機器學習系列1：深入淺出ML之Regression家族 [Machine Learning & Algorithm] 決策樹與迭代決策樹（GBDT）