貝葉斯分類器(Bayesian decision theory)
一、知識脈絡
二、基本原理
貝葉斯決策論通過相關概率已知的情況下利用誤判損失來選擇最優的類別分類。
“風險”(誤判損失)= 原本為cj的樣本誤分類成ci產生的期望損失(如下式,概率乘以損失為期望損失)
為了最小化總體風險,只需在每個樣本上選擇能夠使條件風險R(c|x)最小的類別標記。
h*稱為貝葉斯最優分類器,與之對應的總體風險為貝葉斯風險,另lambda等於1時,最優貝葉斯分類器是使后驗概率P(c|x)最大。
利用貝葉斯判定准則來最小化決策風險,首先要獲得后驗概率P(c|x),機器學習則是基於有限的訓練樣本集盡可能准確的估計出后驗概率P(c|x)。通常有兩種模型:1.“判別式模型”: 通過直接建模P(c|x)來預測(決策樹,BP神經網絡,支持向量機)。2.“生成式模型”:通過對聯合概率模型P(x,c)進行建模,然后再獲得P(c|x)。
P(c)是類“先驗”概率,P(x|c)是樣本x相對於類標記條件概率,或稱似然。似然函數定義(對同一個似然函數,如果存在一個參數值,使得它的函數值達到最大的話,那么這個值就是最為“合理”的參數值。可參考http://www.cnblogs.com/kevinGaoblog/archive/2012/03/29/2424346.html)
對於P(c)而言代表樣本空間中各類樣本所占的比例,根據大數定理當訓練集包含充足的獨立同分布樣本時,可通過各類樣本出現的頻率進行估計。對於P(x|c)而言,涉及關於所有屬性的聯合概率,無法根據樣本出現的頻率進行估計。
7.2極大似然估計
假設P(x|c)具有確定的形式並且被參數向量唯一確定,則我們的任務是利用訓練集估計參數Qc,將P(x|c)記為P(x|Qc)。令Dc表示訓練集D第c類樣本的集合,假設樣本獨立同分布,則參數Qc對於數據集Dc的似然是
連乘容易造成下溢,通常使用對數似然
注意。這種參數化的方法雖然能使類條件概率估計變得相對簡單,但是估計結果的准確性嚴重依賴所假設的概率分布形式是否符合潛在的真實數據分布。有限的數據集合難以直接估計其聯合概率分布。故此我們提出朴素貝葉斯分類器。
三、朴素貝葉斯分類器
為了避開聯合概率分布這一障礙,朴素貝葉斯分類器采用了“屬性條件獨立性假設”:對已知類別,假設所有屬性相互獨立。
若存在某個屬性值在訓練的過程中沒有與某個類同時出現過,直接利用式子進行概率估計將會出錯。因為會存在某一屬性為概率0,導致無論其他屬性多好都將為零。為了避免上述產生的將某種未出現的屬性值抹去,在估計概率時可進行“平滑”(smoothing),常用“拉普拉斯修正”。具體來說可以令N表示訓練集D中可能的類別數,Ni表示第i個屬性可能的取值數。
拉普拉斯修正避免了因訓練集樣本不充分而導致概率估值為零的問題,並且在訓練集變大時,修正過程所引入的先驗(prior)的影響也會逐漸變得可忽略,使得估值逐漸趨於實際的概率值。
在現實任務中朴素貝葉斯分類器有很多種使用方式。對預測速度要求較高的,將所有概率的估計值事先計算好存儲起來,這樣在進行預測是只需要查表就可以進行判別。若任務數據更替頻繁,則可采用懶惰學習(lazy learning),收到數據進行概率估計,若數據不斷增加,則可在現有的估值基礎上,僅對新增樣本屬性值所涉及的概率估值進行技術修正即可實現增量學習。
四、半朴素貝葉斯分類器
朴素貝葉斯分類器采用屬性完全獨立的假設,在現實生活中通常難以成立,對屬性條件獨立性假設進行一定程度的放松,由此產生一類“半朴素被夜色分類器”(semi-naive Bayes classifiers)的學習方法,不需要進行完全聯合概率計算,又不至於徹底忽略了比較強的屬性依賴關系。
“獨依賴估計”(One dependent Estimator, ODE),假設每個屬性在類別之外最多依賴一個其他的屬性
pai為屬性xi所依賴的屬性,稱為xi的父屬性。若對每個屬性xi,其父屬性已知,則可用類似如下的方法進行估計概率
因此我們將問題轉化成確定每個屬性的父屬性。1. SPODE:確認一個超父屬性,其余屬性都依賴該屬性。2.TAN(最大帶全生成樹)