二、朴素貝葉斯分類器
1、相關三概率
給定 N 個類別,設隨機樣本向量x={x1,x2,…,xd} ,相關的三個概率:
(1)先驗概率P(c) :根據以前的知識和經驗得出的c類樣本出現的概率,與現在無關。
(2)后驗概率P(c|x) :相對於先驗概率而言,表示x 屬於c類的概率。
(3)條件概率P(x|c) :已知屬於c類的樣本中發生x的概率。
2、朴素貝葉斯表達式
貝葉斯公式:
貝葉斯決策:
朴素的貝葉斯分類器:假設所有的屬性都相互獨立。基於屬性條件獨立性假設,P(c|x) 可寫作:
可得出朴素貝葉斯分類器的表達式:
先驗概率:
條件概率:
例:
一個銷售顧客的數據庫如右表所示,利用貝葉斯法則預測,符合下列條件的人員購買計算機的可能性x=(年齡<30,收入=中,學生否=Y,信用=一般)。
解:
假定C1={購買計算機},C2={不購買計算機},
先驗概率:
P(C1)=9/14=0.643,
P (C2)=5/14=0.357,
條件概率:
P(年齡<30|C1)=2/9, P(年齡<30|C2)=3/5
P(收入=中|C1)=4/9, P(收入=中|C2)=2/5
P(學生否=Y|C1)=6/9, P(學生否=Y|C2)=1/5
P(信用=一般|C1)=6/9, P(信用=一般|C2)=2/5
因此
P(x|C1)=(2/9)*(4/9)*(6/9)*(6/9)=0.044
P(x|C2)=(3/5)*(2/5)*(1/5)*(2/5)=0.019
最后計算:
P(x|C1)*P(C1) =0.044*0.643=0.028
P(x|C2)*P(C2)=0.019*0.357=0.007
因為P(x|C1)*P(C1)>P(x|C2)*P(C2) ,顧客x購買計算機的可能性比較大。
3、拉普拉斯平滑
拉普拉斯平滑:為了避免其他屬性攜帶的信息被其他未出現過的屬性值“抹去”,在估計概率值時通常要進行平滑。具體的說,令N表示訓練集D中的類別數,Ni表示第i個屬性可能的取值數,則: