用最少的字介紹最常用的機器學習分類算法


在搞笑諾貝爾獎Ig Nobel Prize頒獎典禮上, 有一個節目叫24/7,先讓科研者先用24秒完整講解科研工作,然后再用讓所有人都明白的7個單詞總結。有人講,如果一個人不能把深奧的理論描述清楚得讓跳廣場舞的大媽明白,就不能算真正理解中這個理論。雖然凡事都有例外,但是跟外行人聊天或者面試時,我們經常會遇到要把深奧的專業知識講解出來,讓非專業人士都明白其中的精髓。這篇博客將斗膽挑戰講解機器學習中的幾個常用的分類算法,字數不得超五十,越容易理解越好越好,越少越好。為了使文章做到通俗易懂,有基本的數學知識就能理解,我省略很多專業稱謂。如果說錯了或者讀者有更好的講解,請不吝賜教。

 

KNN K Nearest Neighbour K近鄰算法
版本一:在多維特征空間里,一個數據點的類別,與跟它最近的K個數據點的類別,是一樣的概率很大。
版本二:如果要了解一個人是什么樣的,最有可能從他身邊的親人,朋友,鄰居的特性中找到答案。比如一個人的親近的朋友都會打麻將,那么極大可能他也會打麻將。
版本三:“近朱者赤,近墨者黑”的概率大於“出淤泥而不染,濁清漣而不妖”。

 

K Means K均值
在特征空間中,隨機選k個中心,其他所有點找到距離最近的中心,形成k個聚類。然后聚類的中心點成為空間中新的中心,其他所有點再次根據距離形成新的聚類。重復這個過程,直到中心不在變化時。

 

SVM Support Vector Machine 支持矢量機
在特征空間中,畫不同的邊界,找出距離所有點總距離最遠的邊界。

 

Decision Tree 決策樹
數據點的每一個特征都用來一層一層地進行判斷是否屬某一類別,就像一個棵樹,從樹根經過樹干,大小不同樹枝到每片葉子。

 

Naive Bayes 朴素貝葉斯
假設某一類別的數據點的所有特性都是不相關的,某一特征判定為某類別的概率是相互獨立的。根據貝葉斯,計算出新的數據點各種特征條件下為各類別的概率,最終類別為概率最大者。

 

Random Forest 隨機森林
很多的決策樹隨機地建立一個森林,決策樹之間是沒有關聯的。讓森林中的每一棵決策樹分別進行一下判斷數據點類型,然后看看哪一類被選擇最多,就預測該數據點為那一類。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM