朴素貝葉斯算法主要用來解決分類問題,比如通常的二分類,多分類。
1、數學知識:
貝葉斯定理:
特征條件獨立:
1、朴素貝葉斯
輸入空間:
輸出空間:y={C1,C2,…,CK}。
訓練集:T={(x1,y1),(x2,y2),…,(xN,yN)}。
對於每個實例,其P(X,Y)獨立同分布。在進行分類之前,需要先將計算先驗概率和條件概率然后據此計算出后驗概率。
1)先驗概率分布:
P(Y=Ck),k=1,2,..,K。
先驗概率的極大似然估計:
2)條件概率分布:
設第j個特征可能取值的集合為:{aj1,aj2,..,asj}
則極大似然估計:
說明:每個實例有n個特征,分別為x1,x2,..,xn,每個特征分別有s1,s2,…,sn種取值,即特征xi有si種取值。則計算該條件概率分布的時間復雜度為:O(s1*s2*…*sn *K)。時間復雜度非常的高。
3)對新的實例進行分類:
為了計算將新的實例進行分類,我們需要計算該實例屬於每類的后驗概率,最終將此實例分給后驗概率最大的類。
后驗概率為:
在此需要用到條件獨立的假設,即在分類確定的情況下,x的各特征相互獨立。因為用到了此假設故而在貝葉斯前面加了朴素二字。於是有:
所以有:
由於對同一個實例,P(X=x)的概率相通同,故而只需考慮分子部分即可。
2、朴素貝葉斯的改進
在計算條件概率時,有可能出現極大似然函數為0的情況,這時需要在分子分母上添加上一個正數,使得其值不為0.
同樣,先驗概率的貝葉斯估計也需要改進:
3、后驗概率最大化
朴素貝葉斯將實例分到后驗概率最大的類中,等價於0-1損失函數時期望風險最小化。
0-1損失函數為:
期望風險為:
為了使期望風險最小化,只需對X=x逐個極小化,
即通過期望風險最小化,得到了后驗概率最大化。
最后附加一些基本概念:
概率:已知一些參數,預測接下來的觀測結果;
似然性:已知某些觀測結果,預測其參數;
似然函數:統計模型中關於參數的函數;
最大似然估計:在已知試驗結果的情況下,用來估計滿足這些樣本分布的參數,把可能性最大的參數作為真實的參數,即似然函數取最大值時相應的參數最為合理。
參考文獻:
[1] 李航,統計學習方法。
[2] 皮果提, http://blog.csdn.net/itplus/article/details/26549871
[3] http://blog.csdn.net/yanqingan/article/details/6125812