統計學習方法 4 貝葉斯判別


簡述

利用觀測到的x,利用先驗概率和類條件概率,決定x屬於哪一類

后驗概率無法直接獲得,因此我們需要找到方法來計算它,而解決方法就是引入貝葉斯公式。

貝葉斯理論

image

可以看出,貝葉斯公式是“由果溯因”的思想,當知道某件事的結果后,由結果推斷這件事是由各個原因導致的概率為多少。

  • 先驗概率:執因求果,這是一個根據以往經驗和分析統計得到的,或自身依據經驗得出的一個概率。
  • 后驗概率:知果求因。指某件事已經發生,想要計算這件事發生的原因是由某個因素引起的概率
  • 極大似然概率:知果求最可能的原因,最可能三字體現出極大的涵義。

已知車禍有一定概率會導致堵車,此處車禍是因,堵車是果。我們可以假設有以下三種情況作為堵車的原因:

  • A 警察查酒駕
  • B 下班高峰
  • C 車禍

\[P(車禍|堵車) = \frac{P(堵車|車禍)*P(車禍)}{P(堵車)}=\frac{P(堵車|車禍)*P(車禍)}{P(堵車|A)+P(堵車|B)+P(堵車|C)} \]

  • 先驗概率:P(A),P(B),P(C);
  • 后驗概率:P(A|堵車),P(B|堵車),P(C|堵車),即已經發生了堵車,是由哪個事件(A,B,C)引起的概率;
  • 似然概率:P(堵車|A),P(堵車|B),P(堵車|C),即以上三個事件(A,B,C)發生時,發生堵車的概率。

准則:

最小錯誤概率准則,最小風險准則

朴素貝葉斯分類器

概念

朴素貝葉斯分類(NBC)是以貝葉斯定理為基礎並且假設特征條件之間相互獨立的方法,先通過已給定的訓練集,以特征詞之間獨立作為前提假設,學習從輸入到輸出的聯合概率分布,再基於學習到的模型,輸入\(X\) 求出使得后驗概率最大的輸出\(Y\)

設有樣本數據集

image

對應樣本數據的特征屬性集為

image

類變量

image

\(D\)可以分為\(y_m\)類, 此時\(x_1,x_2,...x_d\)相互獨立且隨機,則\(Y\)先驗概率\(P_{prior}=P(Y)\)后驗概率\(P_{post}=P(Y|X)\),由朴素貝葉斯算法可得,后驗概率可以由先驗概率\(P_{prior} = P(Y)\)、證據\(P(X)\) 、類條件概率\(P(X|Y)\)

計算出:

image

朴素貝葉斯基於各特征之間相互獨立,在給定類別為\(y\) 的情況下,上式可以進一步表示為下式:

image

由以上兩式可以計算出后驗概率為:

image

由於\(P(X)\)的大小是固定不變的,因此在比較后驗概率時,只比較上式的分子部分即可。因此可以得到一個樣本數據屬於類別\(y_i\)的朴素貝葉斯計算:

image

優缺點

優點

朴素貝葉斯算法假設了數據集屬性之間是相互獨立的,因此算法的邏輯性十分簡單,並且算法較為穩定,當數據呈現不同的特點時,朴素貝葉斯的分類性能不會有太大的差異。換句話說就是朴素貝葉斯算法的健壯性比較好,對於不同類型的數據集不會呈現出太大的差異性。當數據集屬性之間的關系相對比較獨立時,朴素貝葉斯分類算法會有較好的效果。

缺點

屬性獨立性的條件同時也是朴素貝葉斯分類器的不足之處。數據集屬性的獨立性在很多情況下是很難滿足的,因為數據集的屬性之間往往都存在着相互關聯,如果在分類過程中出現這種問題,會導致分類的效果大大降低。

決策規則

最小錯誤

以兩類問題為例,當獲得觀測值x之后,有兩種決 策可能:決定\(x\)\(\omega1\),或者\(x\)\(\omega2\) 條件錯誤率為:

image

Bayes最小錯誤率決策: 選擇后驗概率\(P(\omega_1|x)\)\(P(\omega2|x)\) 中大的i作為決 策,使得在觀測值\(x\)下的條件錯誤率最小:

\[D(x) = argmax_i P(\omega_i|x) \]

此時的條件錯誤率為

\[P(e|x) = 1 - max_iP(\omega_i|x) \]

錯誤率為

\[P(e) = E(P(e|x)) \]

基於最小錯誤准則的貝葉斯判別規律

\(P(\omega_i|x)>P(\omega_j|x),j=1,2,...,c\)\(j\neq i\),則\(x\in \omega_i\)

\(p(x|\omega_i)P(\omega_i)>p(x|\omega_j)P(\omega_j)\)\(j=1,2,...,c\)\(j \neq i\),則 \(x \in \omega_i\)

\(l(x) = \frac{p(x|\omega_i)}{x|\omega_j}>\frac{P(\omega_j)}{P(\omega_i)}\)\(j=1,2,...,c\)\(j \neq i\),則\(x \in \omega_i\)

\(ln(p|\omega_i)+lnP(\omega_i)>lnp(x|\omega_j)+lnP(\omega_j)\)\(j=1,2,...,c\)\(j \neq i\),則\(x \in \omega_i\)

一般來說,此類判別函數稱為\(g(x)\),判別的規則是選取最大的\(g(x)\)

示例:以二分類為例

image

最小風險准則

根據貝葉斯公式:

image

其中:

image

在在引入損失函數后, 對應於決策\(a_i\),λ可以在c個\(\lambda(a_i,\omega_j)\) ,j=1,2,..c中任意選取一個,相應的后驗 概率為\(P(\omega_j|x)\)

故采用決策\(a_i\)時的條件期望損失是:

\[R(a_i|x) =E[\lambda(a_i,\omega_j)]=\sum_{j=1}^{c}\lambda(a_i,\omega_j)P(\omega_j|x) \]

例題

image

image

此時用貝葉斯最小錯誤估計

image

用貝葉斯最小誤差估計

引入風險函數后:

image

此時認為應選擇\(a_2\),即認為異常

總結

最小風險的貝葉斯決策相當於通過給定期望損失的形式給判別數加權


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM