貝葉斯相關(概率論)論文


貝葉斯公式及朴素貝葉斯分類算法應用初探

 

【摘要】

貝葉斯公式在現代發展中扮演着越來越重要的角色,本文通過生動有趣的應用實例詳細介紹了貝葉斯公式、貝葉斯推理和朴素貝葉斯分類算法的原理和使用方法。

【關鍵詞】

    貝葉斯公式、貝葉斯推理、朴素貝葉斯分類算法

引言  

貝葉斯公式是英國學者托馬斯·貝葉斯最早發現的,首次發表在1763年,當時貝葉斯已經去世,其結果沒有受到應有的重視,法國數學家拉普拉斯再一次總結了這一結果.此后,人們逐漸認識到這個著名概率公式的重要性。[3]

現代社會,貝葉斯理論在人們生活中扮演着越來越重要的角色。貝葉斯理論及應用分支眾多,其在數學領域,有例如貝葉斯分類算法、貝葉斯風向、貝葉斯統計等,在工程領域,有例如貝葉斯分析、貝葉斯邏輯、貝葉斯網絡等,在其他領域,有貝葉斯主義、有信息的貝葉斯決策方法等。

特別是人工智能和機器學習越來越受歡迎的今天,貝葉斯定理、貝葉斯網絡、貝葉斯算法、貝葉斯學習等在人工智能和模式識別中有相當大的應用。

本文我們將從概率論中所學的貝葉斯公式出發,對貝葉斯思想進行一個初步了解,從而對以后的工程思想有一定的幫助。

1.定理內容及內涵解析

1.1貝葉斯公式[1]

若A1,A2,…,An為完備事件組,那么對任一事件B,若P(B)>0,P(Ai)>0,i=1,2,…,n,則有

P(Ak|B)=,k=1,2,…,n.

1.2內涵解析

貝葉斯公式再概率論和數理統計中有着廣泛的應用,其中的B通常被看作隨機試驗的某一結果,A1 ,A2 ,…,An 是導致B發生的原因。P(Ai)(i=1,2,…,n)成為先驗概率,而條件概率P(Ai|B)(i=1,2,…,n)成為后驗概率。貝葉斯公式在一定程度上可以幫助人們分析事情發生的原因,如果將全概率公式和貝葉斯公式作一比較會發現,全概率公式是由因溯果,而貝葉斯公式則是由果溯因。

    1.3趣味實例認識條件概率公式和貝葉斯公式

        假設小美抱着一只小狗,那么所抱的小狗可愛的概率很大,若是以這個作為條件概率分析結果,當假設小美抱着一個可愛的東西,那么這個東西是小狗的概率就很小了,因為這個可愛的東西可能是小狗,小貓,小兔子,甚至是個可愛的寶寶,這個便是對應的貝葉斯推理分析結果,豈不是差異明顯?

2.貝葉斯公式應用

實例[5]

“狼來了”的故事想必大家都知道,小孩子第三次對村民說狼來了的時候,村民們沒有相信他的話,從而釀成小孩子被狼吃掉的結局,這個故事告訴我們做人要誠信。小時候,我們都能感性地認識到隨着小孩子撒謊次數增加,村民對小孩子越來越不信任了,但村民對小孩子的信任度如何用理性的數學來刻畫,讓我們從更深層次理解小孩子的結局呢?

解答:設事件A表示小孩子說謊,事件B1表示小孩子可信,B2表示小孩子不可信。

由於本問題是實際問題,我們做如下假設:假設開始村民對小孩子的信任度為0.8,即P(B)=0.8,假設可信的小孩子說謊的概率為0.1,即P(A|B1)=0.1,不可信的小孩子說謊的概率為0.5,即P(A|B2)=0.5

第一次小孩子說了謊,村民上山白跑一趟,由貝葉斯公式知:

這時村民對小孩子的信任度為:

P(B|A)=≈0.44

第二次小孩子又說了謊,村民上山又白跑一趟,由貝葉斯公式知:

這時村民對小孩子的信任度為:

P(B|A)=≈0.13

由此可見,第二次小孩子說謊后,村民對他的信任度已經下降到0.13,他已經是一個非常不可信的孩子了,誰還會去救他呢?

3.應用貝葉斯公式進行貝葉斯推理

實例:

假設在電子科技大學某學期體檢中,男生在一個體檢室,女生在一個體檢室,由於效率有限,你作為一個男生排在浩浩盪盪的男生體檢室門口的隊伍里。突然,你眼前一亮,前方有一個長發“小姐姐”?不,實際上你並不知道是他還是她,但是排隊實在無聊,如果是長發小姐姐的話,你正在預謀這一場搭訕,雖然她極有可能是正在等待她男朋友。那么,你將應用概率論的知識進行一場貝葉斯推理(靠常識和背景知識判斷之外的數學實現方式,以實現更精准的預測)來決定是否要去搭訕。

解答:由於是在男生體檢室門前,我們假設有100人正在門口等候,其中98個男生,2個是女生,正在等待其男朋友。假設女生中長發、短發人數之比為1:1,男生中短發與長發之比為24:1,記男生體檢室門口,女生出現的事件為A1,男生出現的事件為A2,某個人是長發的事件為B,根據假設,則有P(B|A1)=0.5,P(B|A2)=0.04,P(A1)=0.02,P(A2)=0.98.

根據聯合概率得:

P(A1B)=P(A1)P(B|A1)=0.02×0.5=0.01

P(A2B)=P(A2)P(B|A2)=0.98×0.04=0.0392

根據貝葉斯公式:

P(A1|B)=

      =

      =0.20

由於0.20<0.25(竟然小於某高校女男比例!),所以不建議前去搭訕,況且在男生體檢時門口等候的女生極有可能是有男朋友的,故0.20再乘以某一極小值(搭訕成功系數)得到的必是極小值,故不如拿這時間看看概率論。

4.朴素貝葉斯分類算法初探

4.1貝葉斯分類器表達式[2]

假設有N種可能的類別標記,即y={c1,c2,…,cN}.在機器學習中,基於有限的訓練樣本集盡可能准確地估計出后驗概率P{c|x},大體來說,有兩種策略,一種是“判別式模型”,例如決策樹、BP神經網絡、支持向量機等,一種是生成式模型,而對生成式模型,必然考慮

P(c|x)=,                       (4.1.1)

其中,P(c|x)是類“先驗”概率;P(x|c)是樣本x相對於類標記c的類條件概率,或稱為“似然”;P(x)是用於歸一化的“證據因子”。

朴素貝葉斯分類器采用了“屬性條件獨立性假設”,對已知類別,假設所有屬性相互獨立。則4.1.1式可寫為

P(c|x)==              (4.1.2)

其中d為屬性數目,xi為x在第i個屬性上的取值。

由於對所有類別來說P(x)相同,因此基於貝葉斯判定准則有

hnb(x)=argmaxc∈y p(c)

這就是朴素貝葉斯分類器的表達式。

4.2朴素貝葉斯分類算法核心公式

朴素貝葉斯分類算法是貝葉斯分類中最簡單、最常用的一種算法。分類算法的任務就是構造分類器,分類算法的內容是要求給定特征,讓我們得出類別,這也是所有分類問題的關鍵。

簡單明了的表達形式如下:

P(類別|特征)=

上式就是我們的“貝葉斯公式”!

4.3實例演示

某大學生小蔣暗戀一個女同學小江,暗戀了三年之后,對方好像並沒有注意到他!到了大四,他覺得有必要主動去表白了,但是他不知道能不能成功。好在在這三年里,小蔣暗中收集到了小江收到的12次表白和戀愛數據(如圖4.3.1),而且單身三年的小蔣專心學習,概率論學的也不錯,故他想要先分析一下,小蔣照了下鏡子,默默寫下自己的四個條件:不帥、性格不好、身高矮、上進。

男生序號

帥?

性格好?

身高?

上進?

接受?

1

不好

不上進

不接受

2

不帥

上進

不接受

3

上進

接受

4

不帥

上進

接受

5

不好

上進

不接受

6

不帥

不好

不上進

不接受

7

不上進

接受

8

不帥

上進

接受

9

上進

接受

10

不帥

不好

上進

接受

11

不上進

不接受

12

不上進

不接受

(圖4.3.1)

解答:根據朴素貝葉斯算法要求,假設上述各特征相互獨立,即每個特征獨立地對分類結果產生影響。

待求概率:

P(接受|不帥、性格不好、身高矮、上進)

=                             =,                    (4.3.2)

P(不接受|不帥、性格不好、身高矮、上進)

=

                                  =,             (4.3.3)

根據訓練數據集,對每個中間參量的值進行求解得:

P(接受)=6/12=0.5

P(不接受)=6/12=0.5

P(不帥|接受)=3/6=0.5

P(性格不好|接受)=1/6=0.1667

P(身高矮|接受)=1/6=0.1667

P(上進|接受)=5/6=0.8333

P(不帥|不接受)=1/6=0.1667

P(性格不好|不接受)=3/6=0.5

P(身高矮|不接受)=6/6=1

P(上進|不接受)=3/6=0.5

P(不帥)=4/12=0.3333

P(性格不好)=4/12=0.3333

P(身高矮)=7/12=0.5833

P(上進)=8/12=0.6667

將以上概率值分別代入式4.3.2和4.3.3得

P(接受|不帥、性格不好、身高矮、上進)

==

=

=0.1340

P(不接受|不帥、性格不好、身高矮、上進)                            =

=

=0.4823

顯然,0.4823>0.1340,且P(不接受|不帥、性格不好、身高矮、上進)是P(接受|不帥、性格不好、身高矮、上進)的3.5993倍!扎心了,老鐵!

結論:暗戀是成功的啞劇,說出來就成了悲劇。

5.結語

本文通過詳實有趣的實例介紹了貝葉斯公式、貝葉斯推理和朴素貝葉斯算法,沒有涉及較深層次的數學和機器學習知識,更偏向於理解原理和實際應用。為以后發展此方面的興趣提供了開端。

 

參考文獻

[1]徐全智,呂恕,概率論與數理統計(第2版),高等教育出版社,2010

[2]周志華,機器學習,清華大學出版社,2016

[3]李春娥,王景艷,貝葉斯公式及其應用的教學研究,大學數學,2015,第31卷第2期,119-121

[4]段智力,全概率公式與貝葉斯公式的推廣及應用,長春大學學報,2013,第23卷第10期,1277-1282

[5]任芳玲,劉瑞,全概率公式和貝葉斯公式教學新探,西昌學院學報·自然科學版,2015年,第29卷第1期,14-16


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM