機器學習入門-貝葉斯垃圾郵件過濾(原理)


貝葉斯里面的參數原理

最大似然: 即最符合觀測數據的最有優勢,即p(D|h)最大

奧卡姆剃刀:即越常見的越有可能發生,即p(h) 表示的是先驗概率

最大似然:

當我們投擲一枚硬幣,觀測到的是正面,那么我們猜測投擲正面的概率為1,即最大似然值的概率是最大的

奧卡姆剃刀:

如果平面上有N個點,我們使用n-1階的函數可以擬合出任何一個點,但是越高階的曲線越不常見,因此p(N-1) << p(1) 和p(2) 一階和二階的概率

實例:垃圾分類的實例

p(h+|D) = p(D|h+) * p(h+) / p(D)  h+ 表示的是垃圾郵件, D表示的是一封郵件里面的詞

這個公式表示的含義: p(h+) 表示的是垃圾郵件的概率, p(D|h+) 表示是郵件里面的詞與垃圾郵件的相似度,這里使用的可以是詞頻化的向量也可以tf-dif的向量

相似度的比較的話,這里使用的余弦定理

p(d1, d2, d3...|h+) = p(d1|h+) * p(d2|d1, h+)... 

為了方便計算我們使用朴素貝葉斯來進行計算

p(d1, d2, d3..|h+) = p(d1|h+) * p(d2|h+) * p(d3|h+) .... p(d3|h+) 表示這個詞在垃圾郵件出現的概率, 我們可以使用相似度來進行計算

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM