1. 前言

說到朴素貝葉斯算法，首先牽扯到的一個概念是判別式和生成式。

判別式：就是直接學習出特征輸出\(Y\)和特征\(X\)之間的關系，如決策函數\(Y=f(X)\),或者從概率論的角度，求出條件分布\(P(Y|X)\)。代表算法有決策樹、KNN、邏輯回歸、支持向量機、隨機條件場CRF等
生成式：就是直接找出特征輸出Y和特征X的聯合分布\(P(X,Y)\)，然后用\(P(Y|X)=\frac{P(X,Y)}{P(X)}\)得出。代表算法有朴素貝葉斯、隱式馬爾可夫鏈等。

2. 朴素貝葉斯原理

朴素貝葉斯算法基於貝葉斯定理和特征條件獨立假設。

貝葉斯定理
特征條件獨立：特征條件獨立假設\(X\)的\(n\)個特征在類確定的條件下都是條件獨立的。大大簡化了計算過程，但是因為這個假設太過嚴格，所以會相應犧牲一定的准確率。這也是為什么稱呼為朴素的原因。

輸入：訓練集為\(m\)個樣本\(n\)個維度\(T={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}\),共有K個特征輸出類別，分別為\(y\in{\{c_1,c_2,...,c_K}\}\).

輸出:為實例\(x_{(test)}\)的分類。

算法流程如下：

\[P(Y=c_k) \]

\[P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_k) \]

由於上式的參數是指數級別，無法計算。所以根據特征條件獨立假設，可以化簡為下式。

\[P(X=x|Y=c_k)=\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k) \]

\[P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_kP(X=x|Y=c_k)P(Y=c_k)} \]

帶入\(P(X=x|Y=c_k)=\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)\)
得到

\[P(Y=c_k|X=x)=\frac{\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)P(Y=c_k)}{\sum_k\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)P(Y=c_k)} \]

由於分母相同，上式再變為如下：

\[P(Y=c_k|X=x)=\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)P(Y=c_k) \]

\[y_{(test)}=arg\ max_{c_k}\prod_{j=1}^nP(X^{(j)}=x_{(test)}^{(j)}|Y=c_k)P(Y=c_k) \]

從上面的計算可以看出，沒有復雜的求導和矩陣運算，因此效率很高。

朴素貝葉斯算法的主要原理基本已經做了總結，這里對朴素貝葉斯的優缺點做一個總結。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 朴素貝葉斯算法（Naive Bayes） [Machine Learning & Algorithm] 朴素貝葉斯算法（Naive Bayes） Python機器學習算法 — 朴素貝葉斯算法（Naive Bayes） [機器學習] 分類 --- Naive Bayes（朴素貝葉斯）朴素貝葉斯方法（Naive Bayes Method）朴素貝葉斯分類法 Naive Bayes ---R 手寫朴素貝葉斯（naive_bayes）分類算法機器學習---用python實現朴素貝葉斯算法（Machine Learning Naive Bayes Algorithm Application）【十大算法實現之naive bayes】朴素貝葉斯算法之文本分類算法的理解與實現分類算法之朴素貝葉斯分類（Naive Bayesian Classification）