Atitit 貝葉斯算法的原理以及垃圾郵件分類的原理
1.1. 最開始的垃圾郵件判斷方法,使用contain包含判斷,只能一個關鍵詞,而且100%概率判斷1
1.5. 。這時我們還需要一個用於比較的門檻值。Paul Graham的門檻值是0.9,概率大於0.9,2
1.1. 文氏圖,可以很清楚地看到在事件B發生的情況下,事件A發生的概率就是P(A∩B)除以P(B)。
1.2. 最開始的垃圾郵件判斷方法,使用contain包含判斷,只能一個關鍵詞,而且100%概率判斷
那么肯定不適用。。所以使用概率算法,出現一個垃圾詞語,比如發票,則會判斷概率為90%。。比如在出現另外一個垃圾詞,比如購買,那么判斷概率就會上升 達到9x%...
1.3. 元件部件串聯定律
當一個元件可靠性為70%的時候,那么倆個元件串聯起來可靠性就降低了達到70%*70%=49%..
元件並聯定律。可以提高可靠性,具體提升的百分點以下計算方法。。
1.4. 垃圾郵件關鍵詞串聯定律 表格法可視化貝葉斯定律
比如 如果出現 發票 這個詞,那么此文件垃圾文件的概率為 90%。。
如果 出現 購買 這個詞,垃圾文件概率為 80%
得到以下表格----------表格開始----------
|   詞匯  |  
             垃圾郵件概率  |  
             正常郵件概率  |  
          
|   發票  |  
             90%  |  
             10%  |  
          
|   購買  |  
             80%  |  
             20%  |  
          
|   購買發票  |  
             90*80=72%(舍棄掉此錯誤結構  |  
             10*20=2%  |  
          
|   購買發票  |  
             1-2%=98%(根據正常郵件概率反向計算垃圾郵件概率  |  
             10*20=2%  |  
          
--------表格結束=-------
表格解說。。幾條規則
第一,如果只是出現發票一詞,則垃圾郵件概率為90%,正常郵件概率自然為1-90%==10%
第2,如果只是出現購買一詞,則垃圾郵件概率為80%,正常郵件概率自然為1-80%==20%
第三部,如果出現購買發票倆個次,則初步判斷垃圾郵件概率為90%*80%=72%,正常郵件概率自然為10%*20%=2%
很明顯,如果同時出現多個垃圾關鍵詞。垃圾郵件的概率應該上升才對。。所以舍棄掉72%的錯誤計算結果。。
第四步。。那么得到正常郵件概率就是2%。。自然垃圾郵件概率就是1-2%==98%了。。。
1.5. 十一、最終的計算公式
將上面的公式擴展到15個詞的情況,就得到了最終的概率計算公式:
P=1-(1-p1)*(1-p2)*(1-p3);
一封郵件是不是垃圾郵件,就用這個式子進行計算
1.6. 。這時我們還需要一個用於比較的門檻值。Paul Graham的門檻值是0.9,概率大於0.9,
表示15個詞聯合認定,這封郵件有90%以上的可能屬於垃圾郵件;概率小於0.9,就表示是正常郵件。
有了這個公式以后,一封正常的信件即使出現sex這個詞,
1.7. 解決F1和F2是連續變量,不適宜按照某個特定值計算概率。
但是這里有一個問題:F1和F2是連續變量,不適宜按照某個特定值計算概率。
一個技巧是將連續值變為離散值,計算區間的概率。比如將F1分解成[0, 0.05]、(0.05, 0.2)、[0.2, +∞]三個區間,然后計算每個區間的概率。在我們這個例子中,F1等於0.1,落在第二個區間,所以計算的時候,就使用第二個區間的發生概率。
參考資料
朴素貝葉斯分類器的應用 - 阮一峰的網絡日志.html
作者:: 綽號:老哇的爪子 ( 全名::Attilax Akbar Al Rapanui 阿提拉克斯 阿克巴 阿爾 拉帕努伊 )
漢字名:艾提拉(艾龍), EMAIL:1466519819@qq.com
轉載請注明來源: http://www.cnblogs.com/attilax/
Atiend
