貝葉斯分類器——機器學習(西瓜書)讀書筆記


第七章 貝葉斯分類器

7.1 貝葉斯決策論

貝葉斯決策論就是在概率框架下實施決策的基本方法。類比於最小二乘法。對於分類任務,在所有相關概率已知的情況下,貝葉斯決策輪考慮如何基於概率和誤判損失來選擇最優的類別標記。

對於有N種可能的標記類別的預測,是將一個真實標記為cj的樣本誤分類為ci樣本所產生的損失,所以可以得到期望損失為(被分錯損失的期望,也叫條件風險):

期望損失(條件風險)為:

 

我們希望得到一個分類方法(判定准則)h,使得這個判定准則對每一個樣本,預測錯的期望損失最小。那么這個h就叫做貝葉斯最優分類器 。這時總體的期望損失(風險)稱為貝葉斯風險

當每種誤判損失類似時,不妨設:此時條件風險就變成:,所以最優貝葉斯分類器為:,也即對於每個樣本x,選擇能使后驗概率最大的類別標記。

兩種策略獲得

1.判別式模型,通過建模直接預測c。(決策樹、BP神經網絡、SVM等)

2.生成式模型,對聯合概率分布建模,由此推出

7.2 生成式模型

考慮 (其中P(c)是先驗概率,如果訓練集包含足夠的獨立同分布的樣本,可以頻率作為概率;對於給定樣本,P(x)可以忽略。)

對於公式中,最重要的就是條件概率。它的意義是在c類中樣本的所有屬性的聯合概率,涉及到聯合概率分布,無法通過由頻率估計概率來估計。此時我們通過假設這個概率有某種特定的分布,通過參數估計確定分布情況,從而拿到此概率,而對於參數的估計有兩種方法可以對此概率進行估計。

兩種參數估計方法:

極大似然估計

頻率主義學派認為參數是固定的,可以通過極大似然估計來估計得出。

優勢:易計算

缺點:估計結果准確性嚴重依賴於我們假設的這個概率的分布(分布不對,結果可能極具誤導性)。所以需要使用者擁有足夠的經驗知識來支撐假設。

貝葉斯估計

貝葉斯學派認為既然是假設的分布,那么參數也應該是個隨機變量,因此可以先假定參數服從某個先驗分布,再通過數據計算出后驗分布。

7.3 朴素貝葉斯分類器

由於條件概率涉及屬性的聯合分布,那么朴素貝葉斯分類器添加了一個假設,“屬性條件獨立性假設”,使得每個屬性獨立的對分類器產生影響。所以我們可以吧公式改寫一下:     (即在各個屬性獨立時改寫條件聯合概率

新的貝葉斯准則也可以改寫為:

 

在有足夠獨立同分布的樣本的情況下,先驗概率可以寫成: ,其中Dc是表示訓練集D中第c類樣本組成集合。(頻率代替概率)

對於 來說,

當屬性xi是離散值時,同樣可以用頻率估計概率:

但當屬性是連續值時,還需假定概率密度函數是正態分布密度函數:,其中,而分別是第c類樣本在第i個屬性上取值的均值和方差。

修正:

有時存在原本屬性的信息被訓練集中未出現的屬性值‘抹去’,即出現x3這個屬性在c1類中沒有出現,則條件概率=0的這種不正常的情況。這時我們引入“拉普拉斯修正”,則先驗概率和條件概率修正為:

 

 

最后,通過對訓練樣本的計算,結果由貝葉斯准則判斷,即可得到貝葉斯分類結果。

——————————————————————————————————————————————————————————————————————

注:現實中朴素貝葉斯分類器有多種使用方案:

1.若任務對預測速度要求高,則對給定的訓練集,可以將朴素貝葉斯分類器涉及的所有概率估值先計算好,這樣方便判別。

2.若任務數據更替頻繁,可采用懶惰學習方法,只在收到預測請求時候才開始對訓練集中數據進行概率估值。

3.若數據不斷增加,可以在現有的基礎上,對新增樣本的屬性進行概率估值修正,就可以實現增量學習


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM