機器學習--朴素貝葉斯分類，以及拉普拉斯校准

很傻很天真卻很很好很強大的貝葉斯定理。。。

機器學習算法中，有種依據概率原則進行分類的朴素貝葉斯算法，正如氣象學家預測天氣一樣，朴素貝葉斯算法就是應用先前事件的有關數據來估計未來事件發生的概率

基於朴素貝葉斯的垃圾郵件分類

BoW（詞袋）模型

Bag-of-words model (BoW model) 最早出現在自然語言處理（Natural Language Processing）和信息檢索（Information Retrieval）領域.。該模型忽略掉文本的語法和語序等要素，將其僅僅看作是若干個詞匯的集合，文檔中每個單詞的出現都是獨立的。BoW使用一組無序的單詞(words)來表達一段文字或一個文檔。

假設我們詞庫中只有四個單詞I,don’t,love,you,分別用符號w1,w2,w3,w4意義對應表示，那么一封郵件就可以由這四個單詞是否出現來表示，如：$w1\bigcap \neg w2 \bigcap w2 \bigcap w3$就表示文檔I love you,而$w1\bigcap w2 \bigcap w2 \bigcap w3$就表示文檔I don't love you。

我們將單詞出現的頻率視為它出現的概率，如下圖則P(Viagra)=5%。
如果我們知道P(垃圾郵件)和P(Viagra)是相互獨立的，則容易計算P(垃圾郵件&Viagra)，即這兩個事件同時發生的概率。20%*5%=1%

獨立事件我們可以簡單的應用這個方法計算，但是在現實中， P(垃圾郵件)和P(Viagra)更可能是高度相關的，因此上述計算是不正確的，我們需要一個精確的公式來描述這兩個事件之間的關系。

貝葉斯公式

垃圾郵件中的朴素貝葉斯公式

P(spam)為先驗概率，P(spam|Viagra)為在Viagra單詞出現后的后驗概率。如果你不懂什么是先驗概率和后驗概率，請戳那些年被教科書繞暈的概率論基礎

計算貝葉斯定理中每一個組成部分的概率，我們必須構造一個頻率表

計算貝葉斯公式

P(垃圾郵件|Viagra)=P(Viagra|垃圾郵件)*P(垃圾郵件)/P(Viagra)=(4/20)*(20/100)/(5/100)=0.8
因此，如果電子郵件含有單詞Viagra，那么該電子郵件是垃圾郵件的概率為80%。所以，任何含有單詞Viagra的消息都需要被過濾掉。
當有額外更多的特征是，這一概念如何被使用呢？

利用貝葉斯公式，我們得到概率如下:

雖然我們寫作時，相鄰單詞之間其實是有關聯的，但是為了方便建立模型，我們假設單詞的出現是相互獨立，這也是Naive Bayes的Naive之處，很傻很天真，但是在實際應用中卻發現其效果很好很強大。由於相互獨立，那么就可以轉化為接下來的公式：

• 分母可以先忽略它，垃圾郵件的總似然為:
(4/20)*(10/20)*(20/20)*(12/20)*(20/100)=0.012
• 非垃圾郵件的總似然為:
(1/80)*(66/80)*(71/80)*(23/80)*(80/100)=0.002
• 將這些值轉換成概率，我們只需要一步得到垃圾郵件概率為 0.012/(0.012+0.002)=85.7%

存在的問題

另一個例子包含了4個單詞的郵件呢?
• 我們可以計算垃圾郵件的似然如下:
(4/20)*(10/20)*(0/20)*(12/20)*(20/100)=0
• 非垃圾郵件的似然為:
(1/80)*(14/80)*(8/80)*(23/80)*(80/100)=0.00005
• 因此該消息是垃圾郵件的概率為0/(0+0.00005)=0
• 該消息是非垃圾郵件的概率為0.00005/(0+0.00005)=1
• 問題出在Groceries這個單詞，所有單詞Grogeries有效抵消或否決了所有其他的證據。

拉普拉斯估計

而這個錯誤的造成是由於訓練量不足，會令分類器質量大大降低。為了解決這個問題，我們引入Laplace校准（這就引出了我們的拉普拉斯平滑），它的思想非常簡單，就是對沒類別下所有划分的計數加1，這樣如果訓練樣本集數量充分大時，並不會對結果產生影響，並且解決了上述頻率為0的尷尬局面。

引入拉普拉斯平滑的公式如下：

其中ajl，代表第j個特征的第l個選擇， $S_{j}$ 代表第j個特征的個數，K代表種類的個數。

$\lambda$ 為1，這也很好理解，加入拉普拉斯平滑之后，避免了出現概率為0的情況，又保證了每個值都在0到1的范圍內，又保證了最終和為1的概率性質！

本文的情況是，由於詞袋里一共是4個詞，因此Sj = 4. 由於最終結果有兩個分類，因此K = 2.

理解：

拉普拉斯估計本質上是給頻率表中的每個計數加上一個較小的數，這樣就保證了每一類中每個特征發生概率非零。
通常情況下，拉普拉斯估計中加上的數值設定為1，這樣就保證每一類特征的組合至少在數據中出現一次。
• 然后，我們得到垃圾郵件的似然為:
(5/24)*(11/24)*(1/24)*(13/24)*(20/100)=0.0004
• 非垃圾郵件的似然為:
(2/84)*(15/84)*(9/84)*(24/84)*(80/100)=0.0001
• 這表明該消息是垃圾郵件的概率為80%，是非垃圾郵件的概率為20%。