朴素貝葉斯算法 推導


朴素貝葉斯算法主要用來解決分類問題,比如通常的二分類,多分類。

1、數學知識:

貝葉斯定理:

特征條件獨立:

1、朴素貝葉斯

輸入空間:

輸出空間:y={C1,C2,…,CK}。

訓練集:T={(x1,y1),(x2,y2),…,(xN,yN)}。

對於每個實例,其P(X,Y)獨立同分布。在進行分類之前,需要先將計算先驗概率和條件概率然后據此計算出后驗概率。

1)先驗概率分布:

P(Y=Ck),k=1,2,..,K。

先驗概率的極大似然估計:

2)條件概率分布:

設第j個特征可能取值的集合為:{aj1,aj2,..,asj}

則極大似然估計:

  說明:每個實例有n個特征,分別為x1,x2,..,xn,每個特征分別有s1,s2,…,sn種取值,即特征xi有si種取值。則計算該條件概率分布的時間復雜度為:O(s1*s2*…*sn *K)。時間復雜度非常的高。

3)對新的實例進行分類:

         為了計算將新的實例進行分類,我們需要計算該實例屬於每類的后驗概率,最終將此實例分給后驗概率最大的類。

后驗概率為:

在此需要用到條件獨立的假設,即在分類確定的情況下,x的各特征相互獨立。因為用到了此假設故而在貝葉斯前面加了朴素二字。於是有:

所以有:

由於對同一個實例,P(X=x)的概率相通同,故而只需考慮分子部分即可。

2、朴素貝葉斯的改進

         在計算條件概率時,有可能出現極大似然函數為0的情況,這時需要在分子分母上添加上一個正數,使得其值不為0.

同樣,先驗概率的貝葉斯估計也需要改進:

3、后驗概率最大化

         朴素貝葉斯將實例分到后驗概率最大的類中,等價於0-1損失函數時期望風險最小化。

0-1損失函數為:

期望風險為:

為了使期望風險最小化,只需對X=x逐個極小化,

即通過期望風險最小化,得到了后驗概率最大化。

 

最后附加一些基本概念:

概率:已知一些參數,預測接下來的觀測結果;

似然性:已知某些觀測結果,預測其參數;

似然函數:統計模型中關於參數的函數;

最大似然估計:在已知試驗結果的情況下,用來估計滿足這些樣本分布的參數,把可能性最大的參數作為真實的參數,即似然函數取最大值時相應的參數最為合理。

 

參考文獻:

[1] 李航,統計學習方法。

[2] 皮果提, http://blog.csdn.net/itplus/article/details/26549871

[3] http://blog.csdn.net/yanqingan/article/details/6125812


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM