第七章 貝葉斯分類器
7.1 貝葉斯決策論
貝葉斯決策論就是在概率框架下實施決策的基本方法。類比於最小二乘法。對於分類任務,在所有相關概率已知的情況下,貝葉斯決策輪考慮如何基於概率和誤判損失來選擇最優的類別標記。
對於有N種可能的標記類別的預測,
是將一個真實標記為cj的樣本誤分類為ci樣本所產生的損失,所以可以得到期望損失為(被分錯損失的期望,也叫條件風險):
我們希望得到一個分類方法(判定准則)h,使得這個判定准則對每一個樣本,預測錯的期望損失最小。那么這個h就叫做貝葉斯最優分類器 。這時總體的期望損失(風險)稱為貝葉斯風險。
當每種誤判損失類似時,不妨設:
此時條件風險就變成:
,所以最優貝葉斯分類器為:
,也即對於每個樣本x,選擇能使后驗概率最大的類別標記。
1.判別式模型,通過建模
直接預測c。(決策樹、BP神經網絡、SVM等)
7.2 生成式模型
考慮
(其中P(c)是先驗概率,如果訓練集包含足夠的獨立同分布的樣本,可以頻率作為概率;對於給定樣本,P(x)可以忽略。)
對於公式中,最重要的就是條件概率
。它的意義是在c類中樣本的所有屬性的聯合概率,涉及到聯合概率分布,無法通過由頻率估計概率來估計。此時我們通過假設這個概率有某種特定的分布,通過參數估計確定分布情況,從而拿到此概率,而對於參數的估計有兩種方法可以對此概率進行估計。
兩種參數估計方法:
極大似然估計
頻率主義學派認為參數是固定的,可以通過極大似然估計來估計得出。
優勢:易計算
缺點:估計結果准確性嚴重依賴於我們假設的這個概率的分布(分布不對,結果可能極具誤導性)。所以需要使用者擁有足夠的經驗知識來支撐假設。
貝葉斯估計
貝葉斯學派認為既然是假設的分布,那么參數也應該是個隨機變量,因此可以先假定參數服從某個先驗分布,再通過數據計算出后驗分布。
7.3 朴素貝葉斯分類器
由於條件概率
涉及屬性的聯合分布,那么朴素貝葉斯分類器添加了一個假設,“屬性條件獨立性假設”,使得每個屬性獨立的對分類器產生影響。所以我們可以吧公式改寫一下:
(即在各個屬性獨立時改寫條件聯合概率
)
在有足夠獨立同分布的樣本的情況下,先驗概率可以寫成:
,其中Dc是表示訓練集D中第c類樣本組成集合。(頻率代替概率)
但當屬性是連續值時,還需假定概率密度函數是正態分布密度函數:
,其中
,而
分別是第c類樣本在第i個屬性上取值的均值和方差。
修正:
有時存在原本屬性的信息被訓練集中未出現的屬性值‘抹去’,即出現x3這個屬性在c1類中沒有出現,則條件概率
=0的這種不正常的情況。這時我們引入“拉普拉斯修正”,則先驗概率和條件概率修正為:
最后,通過對訓練樣本的計算,結果由貝葉斯准則
判斷,即可得到貝葉斯分類結果。
——————————————————————————————————————————————————————————————————————
注:現實中朴素貝葉斯分類器有多種使用方案:
1.若任務對預測速度要求高,則對給定的訓練集,可以將朴素貝葉斯分類器涉及的所有概率估值先計算好,這樣方便判別。
2.若任務數據更替頻繁,可采用懶惰學習方法,只在收到預測請求時候才開始對訓練集中數據進行概率估值。
3.若數據不斷增加,可以在現有的基礎上,對新增樣本的屬性進行概率估值修正,就可以實現增量學習。






