最大似然概率估計和朴素貝葉斯分類


極大似然估計和朴素貝葉斯都是運用概率的思想對參數進行估計去解決問題的,二者具有一定的相似性,在初學時經常會搞不清二者的,在這里首先對二者的分類原理進行介紹,然后比較一下二者的異同點。

 


1.極大似然估計(maximum likelihood estimation)

貝葉斯公式

事件A和事件B,事件A發生的概率記為P(A),事件B發生的概率記為P(B),事件A發生的情況下B發生的概率記為:P(B|A),事件B發生的情況下A發生的概率記為P(A|B),那么:

 

如下圖,有兩個箱子裝有小球,第一個箱子有4顆藍球和1顆綠球,第二個箱子有2顆藍球和3顆綠球,已知選第一個箱子的概率是⅔,選第二個箱子的概率是⅓,隨機從兩個箱子取出一顆球,若取出的是一顆藍球,問它從第一個箱子取出的概率是多大?

             

  根據上述問題,假設兩個箱子記為B1,B2,藍球記為b,綠球記為g,那么p(B1)=⅔,P(B2)=⅓,從B1中取出一顆藍球的概率P(b|B1)=0.8,取出一個綠球的概率為P(g|B1)=0.2,同理從B2中取出一顆藍球的概率P(b|B2)=0.4,取出一個綠球的概率為P(g|B2)=0.6。那么問題及時求P(B1|b),根據貝葉斯公式:

  代入上式概率值,即可求得P(B1|b)。

  當把上述問題轉化為二分類問題,對於訓練樣本,樣本特征用X表示,樣本類別分別為Class1和Class2,那么給定一個樣本x,x屬於Class1的概率表示為P(C1|x),它可以表示為:

   因此需要通過訓練樣本分別求解出P(C1)、P(C2)、P(x|C1)、P(x|C2)。

  在監督學習中P(C1)、P(C2)可以通過樣本標簽計算得到,而對於P(x|C1)和P(x|C2)可以理解為分別從Class1和Class2中產生一個x的概率,也就是說知道了Class1和Class2的樣本的分布,就可以根據概率密度函數求得P(x|C1)和P(x|C2)。

  那么我們假設Class1和Class2都服從高斯分布(其他任何分布都可以),高斯分布的概率密度函數可以表示為:

 

   假設Class1的參數為μ1、Σ1,Class2的樣本分布參數為μ2、Σ2。如圖所示。

 

 

 

 

  那么每一類的樣本,分類的正確率越高越好,即每個樣本屬於對應類別的概率越大越好,因此:

  那么通過求解使得L最大的參數值,即為最優解,即:

   通過求解上式(求偏導,令其等於0),可以求得:

  上述即為極大似然估計的過程,根據估計得到的參數,即可計算P(x|C1)、P(x|C2),即:

  代回原式即可求得P(C1|x),此為利用極大似然估計進行分類的算法過程,而在實際應用中,考慮到計算速度和算法的准確性,往往將兩個類別的樣本分類共用一個方差Σ,那么原似然函數變為:

 

  同樣最終求得:

  至此,極大似然估計的內容已基本完畢,極大似然估計與Logistic Regression和linear Model存在一定的關系,在后面回顧到這一部分會進一步說明。

2.朴素貝葉斯

  朴素貝葉斯是基於各個條件相互獨立的假設,當上述x存在多個特征時,用X表示特征集合,當每個特征相互獨立時,則就變成了朴素貝葉斯:

  而在朴素貝葉斯中,貝葉斯派認為參數並非固定不變的,參數也是隨機變量的觀點,根據給定的樣本數據使用極大似然估計估計先驗概率和條件概率,即:

  若變量是連續變量,則根據高斯分布(或其他分布)直接估計樣本參數,即

   那么對於預測樣本x',分別計算其屬於每一類的概率,取概率最大者,即:

   其中C即為x'所屬類別。上述即為朴素貝葉斯的分類算法過程。

  從上述算法的過程可以看出,二者最大的區別就是參數的估計的過程,極大似然估計的參數估計是認為參數固定不變的,只要求出符合樣本數據分布的最優參數即可,不需要考慮先驗:

  而貝葉斯估計中認為參數是一個變量,不僅關注樣本當前的情況,還考慮了已經發生過的先驗知識,在對參數估計時考慮先驗概率,運用最大后驗概率,將先驗概率加入模型中進行參數估計(在朴素貝葉斯中沒有用到最大后驗估計,因為Θ在朴素貝葉斯中就是樣本的類別)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM