朴素貝葉斯法是基於貝葉斯定理與特征條件獨立假設的分類方法
定義
貝葉斯方法
貝葉斯方法是以
貝葉斯原理為基礎,使用概率統計的知識對樣本數據集進行分類。由於其有着堅實的數學基礎,貝葉斯分類算法的誤判率是很低的。貝葉斯方法的特點是結合先驗概率和后驗概率,即避免了只使用先驗概率的主觀偏見,也避免了單獨使用樣本信息的過擬合現象。貝葉斯分類算法在數據集較大的情況下表現出較高的准確率,同時算法本身也比較簡單。
朴素貝葉斯算法
朴素貝葉斯算法(Naive Bayesian algorithm) 是應用最為廣泛的分類算法之一。
朴素貝葉斯方法是在
貝葉斯算法的基礎上進行了相應的簡化,即假定給定目標值時屬性之間相互條件獨立。也就是說沒有哪個屬性變量對於決策結果來說占有着較大的比重,也沒有哪個屬性變量對於決策結果占有着較小的比重。雖然這個簡化方式在一定程度上降低了貝葉斯分類算法的分類效果,但是在實際的應用場景中,極大地簡化了貝葉斯方法的復雜性。
算法原理
朴素貝葉斯分類(NBC)是以貝葉斯定理為基礎並且假設特征條件之間相互獨立的方法,先通過已給定的訓練集,以特征詞之間獨立作為前提假設,學習從輸入到輸出的聯合概率分布,再基於學習到的模型,輸入
求出使得后驗概率最大的輸出
。





優缺點
優點
朴素貝葉斯算法假設了數據集屬性之間是相互獨立的,因此算法的邏輯性十分簡單,並且算法較為穩定,當數據呈現不同的特點時,朴素貝葉斯的分類性能不會有太大的差異。換句話說就是朴素貝葉斯算法的健壯性比較好,對於不同類型的數據集不會呈現出太大的差異性。當數據集屬性之間的關系相對比較獨立時,朴素貝葉斯分類算法會有較好的效果。 [3]
缺點
屬性獨立性的條件同時也是朴素貝葉斯分類器的不足之處。數據集屬性的獨立性在很多情況下是很難滿足的,因為數據集的屬性之間往往都存在着相互關聯,如果在分類過程中出現這種問題,會導致分類的效果大大降低。 [3]
應用
文本分類
分類是數據分析和
機器學習領域的一個基本問題。文本分類已廣泛應用於網絡信息過濾、信息檢索和信息推薦等多個方面。數據驅動分類器學習一直是近年來的熱點,方法很多,比如
神經網絡、
決策樹、支持向量機、朴素貝葉斯等。相對於其他精心設計的更復雜的分類算法,朴素貝葉斯分類算法是學習效率和分類效果較好的分類器之一。直觀的文本分類算法,也是最簡單的貝葉斯分類器,具有很好的可解釋性,朴素貝葉斯算法特點是假設所有特征的出現相互獨立互不影響,每一特征同等重要。但事實上這個假設在現實世界中並不成立:首先,相鄰的兩個詞之間的必然聯系,不能獨立;其次,對一篇文章來說,其中的某一些代表詞就確定它的主題,不需要通讀整篇文章、查看所有詞。所以需要采用合適的方法進行特征選擇,這樣朴素貝葉斯分類器才能達到更高的分類效率。 [5]
其他
朴素貝葉斯算法在文字識別, 圖像識別方向有着較為重要的作用。 可以將未知的一種文字或圖像,根據其已有的分類規則來進行分類,最終達到分類的目的。
現實生活中朴素貝葉斯算法應用廣泛,如文本分類,垃圾郵件的分類,信用評估,釣魚網站檢測等等。