《機器學習(周志華)》筆記--貝葉斯分類器(2)--朴素貝葉斯分類器:先驗概率、后驗概率、條件概率、朴素貝葉斯表達式、拉普拉斯平滑


二、朴素貝葉斯分類器

1、相關三概率

  給定 N 個類別,設隨機樣本向量x={x1,x2,…,xd} ,相關的三個概率:

  (1)先驗概率P(c) :根據以前的知識和經驗得出的c類樣本出現的概率,與現在無關。

  (2)后驗概率P(c|x) :相對於先驗概率而言,表示x 屬於c類的概率。

  (3)條件概率P(x|c) :已知屬於c類的樣本中發生x的概率。

2、朴素貝葉斯表達式

   貝葉斯公式:

      

   貝葉斯決策:

      

  朴素的貝葉斯分類器:假設所有的屬性都相互獨立。基於屬性條件獨立性假設,P(c|x) 可寫作:

       

  可得出朴素貝葉斯分類器的表達式:

       

   先驗概率:

      

  條件概率:

      

   例:

        

    一個銷售顧客的數據庫如右表所示,利用貝葉斯法則預測,符合下列條件的人員購買計算機的可能性x=(年齡<30,收入=中,學生否=Y,信用=一般)。

  解:

    假定C1={購買計算機},C2={不購買計算機},

    先驗概率:

        P(C1)=9/14=0.643,

                        P (C2)=5/14=0.357,

    條件概率:

        P(年齡<30|C1)=2/9,        P(年齡<30|C2)=3/5

        P(收入=中|C1)=4/9,           P(收入=中|C2)=2/5

        P(學生否=Y|C1)=6/9,           P(學生否=Y|C2)=1/5

        P(信用=一般|C1)=6/9,          P(信用=一般|C2)=2/5

    因此

        P(x|C1)=(2/9)*(4/9)*(6/9)*(6/9)=0.044

                P(x|C2)=(3/5)*(2/5)*(1/5)*(2/5)=0.019

    最后計算:

      P(x|C1)*P(C1) =0.044*0.643=0.028

                      P(x|C2)*P(C2)=0.019*0.357=0.007

    因為P(x|C1)*P(C1)>P(x|C2)*P(C2) ,顧客x購買計算機的可能性比較大。

 3、拉普拉斯平滑 

  拉普拉斯平滑:為了避免其他屬性攜帶的信息被其他未出現過的屬性值“抹去”,在估計概率值時通常要進行平滑。具體的說,令N表示訓練集D中的類別數,Ni表示第i個屬性可能的取值數,則:

                  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM