Atitit 貝葉斯算法的原理以及垃圾郵件分類的原理

本文轉載自查看原文 2016-10-23 02:11 1587 lang編程語言/ ide lib frmwk 工具類庫框架ide

1.1. 最開始的垃圾郵件判斷方法，使用contain包含判斷，只能一個關鍵詞，而且100%概率判斷1

1.2. 元件部件串聯定律1

1.3. 垃圾郵件關鍵詞串聯定律表格法可視化貝葉斯定律1

1.4. 十一、最終的計算公式2

1.5. 。這時我們還需要一個用於比較的門檻值。Paul Graham的門檻值是0.9，概率大於0.9，2

1.1. 文氏圖，可以很清楚地看到在事件B發生的情況下，事件A發生的概率就是P(A∩B)除以P(B)。

1.2. 最開始的垃圾郵件判斷方法，使用contain包含判斷，只能一個關鍵詞，而且100%概率判斷

那么肯定不適用。。所以使用概率算法，出現一個垃圾詞語，比如發票，則會判斷概率為90%。。比如在出現另外一個垃圾詞，比如購買，那么判斷概率就會上升達到9x%...

1.3. 元件部件串聯定律

當一個元件可靠性為70%的時候，那么倆個元件串聯起來可靠性就降低了達到70%*70%=49%..

元件並聯定律。可以提高可靠性，具體提升的百分點以下計算方法。。

1.4. 垃圾郵件關鍵詞串聯定律表格法可視化貝葉斯定律

比如如果出現發票這個詞，那么此文件垃圾文件的概率為 90%。。

如果出現購買這個詞，垃圾文件概率為 80%

得到以下表格----------表格開始----------

詞匯	垃圾郵件概率	正常郵件概率
發票	90%	10%
購買	80%	20%
購買發票	90*80=72%（舍棄掉此錯誤結構	10*20=2%
購買發票	1-2%=98%（根據正常郵件概率反向計算垃圾郵件概率	10*20=2%

--------表格結束=-------

表格解說。。幾條規則

第一，如果只是出現發票一詞，則垃圾郵件概率為90%，正常郵件概率自然為1-90%==10%

第2，如果只是出現購買一詞，則垃圾郵件概率為80%，正常郵件概率自然為1-80%==20%

第三部，如果出現購買發票倆個次，則初步判斷垃圾郵件概率為90%*80%=72%,正常郵件概率自然為10%*20%=2%

很明顯，如果同時出現多個垃圾關鍵詞。垃圾郵件的概率應該上升才對。。所以舍棄掉72%的錯誤計算結果。。

第四步。。那么得到正常郵件概率就是2%。。自然垃圾郵件概率就是1-2%==98%了。。。

1.5. 十一、最終的計算公式

將上面的公式擴展到15個詞的情況，就得到了最終的概率計算公式：

P=1-(1-p1)*(1-p2)*(1-p3);

一封郵件是不是垃圾郵件，就用這個式子進行計算

1.6. 。這時我們還需要一個用於比較的門檻值。Paul Graham的門檻值是0.9，概率大於0.9，

表示15個詞聯合認定，這封郵件有90%以上的可能屬於垃圾郵件；概率小於0.9，就表示是正常郵件。

有了這個公式以后，一封正常的信件即使出現sex這個詞，

1.7. 解決F1和F2是連續變量，不適宜按照某個特定值計算概率。

但是這里有一個問題：F1和F2是連續變量，不適宜按照某個特定值計算概率。

一個技巧是將連續值變為離散值，計算區間的概率。比如將F1分解成[0, 0.05]、(0.05, 0.2)、[0.2, +∞]三個區間，然后計算每個區間的概率。在我們這個例子中，F1等於0.1，落在第二個區間，所以計算的時候，就使用第二個區間的發生概率。

參考資料

朴素貝葉斯分類器的應用 - 阮一峰的網絡日志.html

作者:: 綽號:老哇的爪子（全名：：Attilax Akbar Al Rapanui 阿提拉克斯阿克巴阿爾拉帕努伊）

漢字名：艾提拉（艾龍）， EMAIL:1466519819@qq.com

轉載請注明來源： http://www.cnblogs.com/attilax/

Atiend

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習實戰1：朴素貝葉斯模型:文本分類+垃圾郵件分類機器學習實戰-朴素貝葉斯垃圾郵件分類高斯朴素貝葉斯（Gaussian Naive Bayes）原理與實現——垃圾郵件識別實戰朴素貝葉斯算法應用——垃圾短信分類朴素貝葉斯算法，貝葉斯分類算法，貝葉斯定理原理垃圾郵件分類朴素貝葉斯算法原理及實現 SparkMLib分類算法之朴素貝葉斯分類貝葉斯算法算法——貝葉斯