淺談機器學習分類算法


目前隨着人工智能的發展,機器學習的應用領域日益寬泛,各種機器學習適應不同的應用場景,而機器學習差別的關鍵點之一就在於所使用算法的不同,今天就為大家介紹 4 種主要的分類算法。

朴素貝葉斯分類

朴素貝葉斯分類是基於貝葉斯定理與特征條件獨立假設的分類方法,發源於古典數學理論,擁有穩定的數學基礎和分類效率。它是一種十分簡單的分類算法,當然簡單並不一定不好用。通過對給出的待分類項求解各項類別的出現概率大小,來判斷此待分類項屬於哪個類別,而在沒有多余條件的情況下,朴素貝葉斯分類會選擇在已知條件下,概率最大的類別。

貝葉斯分類算法的實質就是計算條件概率的公式。在事件 B 發生的條件下,事件 A 發生的概率為 P(A | B)來表示。

 

P(A | B)的概率為

 

 

在日常應用中,我們經常可以直接得出 P(A | B),而 P(B | A)直接得到比較困難,通過貝葉斯定理就可以通過 P(A | B)獲得 P(B | A)。

而朴素貝葉斯分類的正式定義則如下:

朴素貝葉斯算法在執行文本分類等工作是會有很好的效果,比如朴素貝葉斯算法常被使用於垃圾郵件的過濾分類中。

SVM算法

支持向量機(Support Vector Machine,常簡稱為 SVM)是一種監督式學習的方法,可廣泛地應用於統計分類以及回歸分析。支持向量機屬於一般化線性分類器,它能夠同時最小化經驗誤差與最大化幾何邊緣區,因此支持向量機也被稱為最大邊緣區分類器。

同時支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面,分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。

 

SVM 算法雖然存在難以訓練和難以解釋的問題,但是在非線性可分問題上的表現十分優秀,在非線性可分問題中常選擇 SVM 算法。

基於 KNN 的算法

K - 近鄰算法,簡稱 KNN(k-Nearest Neighbor),它同樣是一個比較簡單的分類、預測算法。對選取與待分類、待預測數據的最相似的 K 個訓練數據,通過對這 K 個數據的結果或者分類標號取平均、取眾數等方法得到待分類、待預測數據的結果或者分類標號。

 

K - 近鄰算法如上圖所示,有兩類不同的樣本數據,分別用藍色的小正方形和紅色的小三角形表示,而圖正中間的那個綠色的圓所標示的數據則是待分類的數據。在不知道中間那個綠色的數據是從屬於哪一類(藍色小正方形or紅色小三角形)的情況下,我們可以從它的臨近的樣本進行判斷。

如果 K=3,綠色圓點最近的 3 個鄰居是 2 個紅色小三角形和 1 個藍色小正方形,少數從屬於多數,基於統計的方法,判定綠色的這個待分類點屬於紅色的三角形一類。

如果 K=5,綠色圓點的最近的 5 個鄰居是 2 個紅色三角形和 3 個藍色的正方形,還是少數從屬於多數,基於統計的方法,判定綠色的這個待分類點屬於藍色的正方形一類。

從上文我們看到,當無法判定當前待分類點是從屬於已知分類中的哪一類時,可以依據統計學的理論看它所處的位置特征,衡量它周圍鄰居的權重,而把它歸為(或分配)到權重更大的那一類,這就是 K 近鄰算法的核心思想。

KNN 算法相比其他算法也更加簡單,並且易於理解、實現,無需估計參數與訓練。適合對稀有事件進行分類和多分類方面的問題,在這類問題方面 KNN 算法的表現比 SVM 更好。

人工神經網絡算法

人工神經網絡,簡稱神經網絡或類神經網絡,是一種模仿生物神經網絡結構和功能的數學模型或計算模型,用於對函數進行估計或近似。神經網絡由大量的人工神經元聯結進行計算。大多數情況下人工神經網絡能在外界信息的基礎上改變內部結構,是一種自適應系統。

下圖為人工神經網絡示意圖,人工神經網絡由很多的層組成,最前面這一層叫輸入層,最后面一層叫輸出層,最中間的層叫隱層,並且每一層有很多節點,節點之間有邊相連的,每條邊都有一個權重。對於文本來說輸入值是每一個字符,對於圖片來說輸入值就是每一個像素。

 

 

 

人工神經網絡是如何工作的?

1.前向傳播:對於一個輸入值,將前一層的輸出與后一層的權值進行運算,再加上后一層的偏置值得到了后一層的輸出值,再將后一層的輸出值作為新的輸入值傳到再后面一層,一層層傳下去得到最終的輸出值。

2.反向傳播:前向傳播會得到預測值,但是這個預測值不一定是真實的值,反向傳播的作用就是修正誤差,通過與真實值做對比修正前向傳播的權值和偏置。

人工神經網絡在語音、圖片、視頻、游戲等各類應用場景展現出了優異的性能,但是存在需要大量的數據進行訓練來提高准確性的問題。

又拍雲內容識別服務

又拍雲內容識別中使用的便是人工神經網絡算法,通過上傳圖片到樣本管理平台,首先進行人工標注圖片是否為性感圖、色情圖、廣告圖或者是暴恐圖片,標注完成后將它放到線下處理平台訓練,得出訓練模型和結果,再將模型發回線上進行智能鑒別。

人工神經網絡算法在測試中表現出了識別迅速、准確率高的特性,目前又拍雲內容識別應用於色情識別的正確率高達 99.7%。

 

總結

本文主要介紹了 4 種應用比較普遍的的機器學習算法,但是機器學習算法還有其他很多不同的算法,大家感興趣的可以自己去了解。除此之外,又拍雲圖像識別服務推出永久免費套餐,提供總量 2000 次 / 天的圖片檢測,等效於2000 條 / 天的文本鑒別,或 120 分鍾 / 天的視頻點播與視頻直播檢測。

 

推薦閱讀:

性感與色情有多遠——你不知道的圖片鑒黃那些事兒

深度學習詳解及在圖片鑒別的實踐應用


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM