目前隨着人工智能的發展,機器學習的應用領域日益寬泛,各種機器學習適應不同的應用場景,而機器學習差別的關鍵點之一就在於所使用算法的不同,今天就為大家介紹 4 種主要的分類算法。
朴素貝葉斯分類
朴素貝葉斯分類是基於貝葉斯定理與特征條件獨立假設的分類方法,發源於古典數學理論,擁有穩定的數學基礎和分類效率。它是一種十分簡單的分類算法,當然簡單並不一定不好用。通過對給出的待分類項求解各項類別的出現概率大小,來判斷此待分類項屬於哪個類別,而在沒有多余條件的情況下,朴素貝葉斯分類會選擇在已知條件下,概率最大的類別。
貝葉斯分類算法的實質就是計算條件概率的公式。在事件 B 發生的條件下,事件 A 發生的概率為 P(A | B)來表示。

P(A | B)的概率為

在日常應用中,我們經常可以直接得出 P(A | B),而 P(B | A)直接得到比較困難,通過貝葉斯定理就可以通過 P(A | B)獲得 P(B | A)。
而朴素貝葉斯分類的正式定義則如下:

朴素貝葉斯算法在執行文本分類等工作是會有很好的效果,比如朴素貝葉斯算法常被使用於垃圾郵件的過濾分類中。
SVM算法
支持向量機(Support Vector Machine,常簡稱為 SVM)是一種監督式學習的方法,可廣泛地應用於統計分類以及回歸分析。支持向量機屬於一般化線性分類器,它能夠同時最小化經驗誤差與最大化幾何邊緣區,因此支持向量機也被稱為最大邊緣區分類器。
同時支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面,分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。

SVM 算法雖然存在難以訓練和難以解釋的問題,但是在非線性可分問題上的表現十分優秀,在非線性可分問題中常選擇 SVM 算法。
基於 KNN 的算法
K - 近鄰算法,簡稱 KNN(k-Nearest Neighbor),它同樣是一個比較簡單的分類、預測算法。對選取與待分類、待預測數據的最相似的 K 個訓練數據,通過對這 K 個數據的結果或者分類標號取平均、取眾數等方法得到待分類、待預測數據的結果或者分類標號。

K - 近鄰算法如上圖所示,有兩類不同的樣本數據,分別用藍色的小正方形和紅色的小三角形表示,而圖正中間的那個綠色的圓所標示的數據則是待分類的數據。在不知道中間那個綠色的數據是從屬於哪一類(藍色小正方形or紅色小三角形)的情況下,我們可以從它的臨近的樣本進行判斷。
如果 K=3,綠色圓點最近的 3 個鄰居是 2 個紅色小三角形和 1 個藍色小正方形,少數從屬於多數,基於統計的方法,判定綠色的這個待分類點屬於紅色的三角形一類。
如果 K=5,綠色圓點的最近的 5 個鄰居是 2 個紅色三角形和 3 個藍色的正方形,還是少數從屬於多數,基於統計的方法,判定綠色的這個待分類點屬於藍色的正方形一類。
從上文我們看到,當無法判定當前待分類點是從屬於已知分類中的哪一類時,可以依據統計學的理論看它所處的位置特征,衡量它周圍鄰居的權重,而把它歸為(或分配)到權重更大的那一類,這就是 K 近鄰算法的核心思想。
KNN 算法相比其他算法也更加簡單,並且易於理解、實現,無需估計參數與訓練。適合對稀有事件進行分類和多分類方面的問題,在這類問題方面 KNN 算法的表現比 SVM 更好。
人工神經網絡算法
人工神經網絡,簡稱神經網絡或類神經網絡,是一種模仿生物神經網絡結構和功能的數學模型或計算模型,用於對函數進行估計或近似。神經網絡由大量的人工神經元聯結進行計算。大多數情況下人工神經網絡能在外界信息的基礎上改變內部結構,是一種自適應系統。
下圖為人工神經網絡示意圖,人工神經網絡由很多的層組成,最前面這一層叫輸入層,最后面一層叫輸出層,最中間的層叫隱層,並且每一層有很多節點,節點之間有邊相連的,每條邊都有一個權重。對於文本來說輸入值是每一個字符,對於圖片來說輸入值就是每一個像素。

人工神經網絡是如何工作的?
1.前向傳播:對於一個輸入值,將前一層的輸出與后一層的權值進行運算,再加上后一層的偏置值得到了后一層的輸出值,再將后一層的輸出值作為新的輸入值傳到再后面一層,一層層傳下去得到最終的輸出值。
2.反向傳播:前向傳播會得到預測值,但是這個預測值不一定是真實的值,反向傳播的作用就是修正誤差,通過與真實值做對比修正前向傳播的權值和偏置。
人工神經網絡在語音、圖片、視頻、游戲等各類應用場景展現出了優異的性能,但是存在需要大量的數據進行訓練來提高准確性的問題。
又拍雲內容識別服務
又拍雲內容識別中使用的便是人工神經網絡算法,通過上傳圖片到樣本管理平台,首先進行人工標注圖片是否為性感圖、色情圖、廣告圖或者是暴恐圖片,標注完成后將它放到線下處理平台訓練,得出訓練模型和結果,再將模型發回線上進行智能鑒別。
人工神經網絡算法在測試中表現出了識別迅速、准確率高的特性,目前又拍雲內容識別應用於色情識別的正確率高達 99.7%。

總結
本文主要介紹了 4 種應用比較普遍的的機器學習算法,但是機器學習算法還有其他很多不同的算法,大家感興趣的可以自己去了解。除此之外,又拍雲圖像識別服務推出永久免費套餐,提供總量 2000 次 / 天的圖片檢測,等效於2000 條 / 天的文本鑒別,或 120 分鍾 / 天的視頻點播與視頻直播檢測。
推薦閱讀:
