淺談機器學習分類算法

本文轉載自查看原文 2017-12-19 15:01 3639

目前隨着人工智能的發展，機器學習的應用領域日益寬泛，各種機器學習適應不同的應用場景，而機器學習差別的關鍵點之一就在於所使用算法的不同，今天就為大家介紹 4 種主要的分類算法。

朴素貝葉斯分類

朴素貝葉斯分類是基於貝葉斯定理與特征條件獨立假設的分類方法，發源於古典數學理論，擁有穩定的數學基礎和分類效率。它是一種十分簡單的分類算法，當然簡單並不一定不好用。通過對給出的待分類項求解各項類別的出現概率大小，來判斷此待分類項屬於哪個類別，而在沒有多余條件的情況下，朴素貝葉斯分類會選擇在已知條件下，概率最大的類別。

貝葉斯分類算法的實質就是計算條件概率的公式。在事件 B 發生的條件下，事件 A 發生的概率為 P（A | B）來表示。

P（A | B）的概率為

在日常應用中，我們經常可以直接得出 P（A | B），而 P（B | A）直接得到比較困難，通過貝葉斯定理就可以通過 P（A | B）獲得 P（B | A）。

而朴素貝葉斯分類的正式定義則如下：

朴素貝葉斯算法在執行文本分類等工作是會有很好的效果，比如朴素貝葉斯算法常被使用於垃圾郵件的過濾分類中。

SVM算法

支持向量機（Support Vector Machine，常簡稱為 SVM）是一種監督式學習的方法，可廣泛地應用於統計分類以及回歸分析。支持向量機屬於一般化線性分類器，它能夠同時最小化經驗誤差與最大化幾何邊緣區，因此支持向量機也被稱為最大邊緣區分類器。

同時支持向量機將向量映射到一個更高維的空間里，在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面，分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大，分類器的總誤差越小。

SVM 算法雖然存在難以訓練和難以解釋的問題，但是在非線性可分問題上的表現十分優秀，在非線性可分問題中常選擇 SVM 算法。

基於 KNN 的算法

K - 近鄰算法，簡稱 KNN（k-Nearest Neighbor），它同樣是一個比較簡單的分類、預測算法。對選取與待分類、待預測數據的最相似的 K 個訓練數據，通過對這 K 個數據的結果或者分類標號取平均、取眾數等方法得到待分類、待預測數據的結果或者分類標號。

K - 近鄰算法如上圖所示，有兩類不同的樣本數據，分別用藍色的小正方形和紅色的小三角形表示，而圖正中間的那個綠色的圓所標示的數據則是待分類的數據。在不知道中間那個綠色的數據是從屬於哪一類（藍色小正方形or紅色小三角形）的情況下，我們可以從它的臨近的樣本進行判斷。

如果 K=3，綠色圓點最近的 3 個鄰居是 2 個紅色小三角形和 1 個藍色小正方形，少數從屬於多數，基於統計的方法，判定綠色的這個待分類點屬於紅色的三角形一類。

如果 K=5，綠色圓點的最近的 5 個鄰居是 2 個紅色三角形和 3 個藍色的正方形，還是少數從屬於多數，基於統計的方法，判定綠色的這個待分類點屬於藍色的正方形一類。

從上文我們看到，當無法判定當前待分類點是從屬於已知分類中的哪一類時，可以依據統計學的理論看它所處的位置特征，衡量它周圍鄰居的權重，而把它歸為(或分配)到權重更大的那一類，這就是 K 近鄰算法的核心思想。

KNN 算法相比其他算法也更加簡單，並且易於理解、實現，無需估計參數與訓練。適合對稀有事件進行分類和多分類方面的問題，在這類問題方面 KNN 算法的表現比 SVM 更好。

人工神經網絡算法

人工神經網絡，簡稱神經網絡或類神經網絡，是一種模仿生物神經網絡結構和功能的數學模型或計算模型，用於對函數進行估計或近似。神經網絡由大量的人工神經元聯結進行計算。大多數情況下人工神經網絡能在外界信息的基礎上改變內部結構，是一種自適應系統。

下圖為人工神經網絡示意圖，人工神經網絡由很多的層組成，最前面這一層叫輸入層，最后面一層叫輸出層，最中間的層叫隱層，並且每一層有很多節點，節點之間有邊相連的，每條邊都有一個權重。對於文本來說輸入值是每一個字符，對於圖片來說輸入值就是每一個像素。

人工神經網絡是如何工作的？

1.前向傳播：對於一個輸入值，將前一層的輸出與后一層的權值進行運算，再加上后一層的偏置值得到了后一層的輸出值，再將后一層的輸出值作為新的輸入值傳到再后面一層，一層層傳下去得到最終的輸出值。

2.反向傳播：前向傳播會得到預測值，但是這個預測值不一定是真實的值，反向傳播的作用就是修正誤差，通過與真實值做對比修正前向傳播的權值和偏置。

人工神經網絡在語音、圖片、視頻、游戲等各類應用場景展現出了優異的性能，但是存在需要大量的數據進行訓練來提高准確性的問題。

又拍雲內容識別服務

又拍雲內容識別中使用的便是人工神經網絡算法，通過上傳圖片到樣本管理平台，首先進行人工標注圖片是否為性感圖、色情圖、廣告圖或者是暴恐圖片，標注完成后將它放到線下處理平台訓練，得出訓練模型和結果，再將模型發回線上進行智能鑒別。

人工神經網絡算法在測試中表現出了識別迅速、准確率高的特性，目前又拍雲內容識別應用於色情識別的正確率高達 99.7%。

總結

本文主要介紹了 4 種應用比較普遍的的機器學習算法，但是機器學習算法還有其他很多不同的算法，大家感興趣的可以自己去了解。除此之外，又拍雲圖像識別服務推出永久免費套餐，提供總量 2000 次 / 天的圖片檢測，等效於2000 條 / 天的文本鑒別，或 120 分鍾 / 天的視頻點播與視頻直播檢測。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習——算法分類機器學習算法分類機器學習分類算法之隨機森林【機器學習】分類算法——Logistic回歸機器學習常見算法分類與簡述關於機器學習算法分類與經典算法綜述 Python之ML--機器學習分類算法機器學習算法分類及其評估指標筆記 python機器學習（四）分類算法-決策樹機器學習常見的分類算法的優缺點