這里用文氏圖(Venn diagram)來推導一下貝葉斯定理。
假設A和B為兩個不相互獨立的事件。
交集(intersection):
上圖紅色部分即為事件A和事件B的交集。
並集(union):
由Venn diagram可以看出,在事件B已經發生的情況下,事件A發生的概率為事件A和事件B的交集除以事件B:
同理,在事件A已經發生的情況下,事件B發生的概率為事件A和事件B的交集除以事件A:
注:表示 A,B 事件同時發生的概率,如果 A 和 B 是相互獨立的兩個事件,那么:
。
由上面的公式可以得到:
然后,我們就可以得到貝葉斯定理:
其中: 是先驗概率(prior probability),
是條件概率(conditional probability),
是后驗概率(posterior probability)。
是聯合概率(joint probability),通常寫成P(A,B)。
注:條件概率 P(B|A) ---> 給定事件A,事件B發生的概率(probability of event B occuring given event A)。
又根據Law of Total Probability:
注:表示事件A不發生的概率。
這個可以用probability tree來幫助理解一下:
因此,貝葉斯定理可以擴展為:
貝葉斯定理通常用於由已知的先驗概率和條件概率,推算出后驗概率。
舉一個簡單的例子:某地平時下雨的概率是0.3,小明平時帶傘的概率是0.4,小明下雨天帶傘的概率是0.8。某一天小明帶了傘,請問這天下雨的概率是多少?
解答:也就是需要求P(下雨|小明帶傘),把上面的數字代入公式即:
這個例子的先驗概率是平時下雨的概率0.3,由於我們已知小明帶了傘這一信息,因此我們可以估算出后驗概率,也就是當天下雨的概率是0.6。
先驗概率是怎么得來的呢?通常是人們的經驗總結或者說是估算,比如說某地一個月里面下了3天雨,我們就估算某地平時下雨的概率是0.3。
如果條件不止一個呢?讓我們把上面的例子改一下:某地平時下雨的概率是0.3,平時刮風的概率是0.4,下雨天刮風的概率是0.6,小明平時帶傘的概率是0.4,小明下雨天帶傘的概率是0.8。某一天小明帶了傘,且當天在刮風,請問這天下雨的概率是多少?
解答:也就是需要求P(下雨|小明帶傘,刮風),把上面的數字代入公式即:
注:這里假設小明帶傘和刮風之間沒有關聯,兩條件互不影響(條件獨立假設),因此屬於朴素貝葉斯的范疇。
長久以來,人們信奉的是頻率主義。比如把一枚硬幣拋10000次,有5000次正面朝上,5000次反面朝上,那么我們就可以得知拋這枚硬幣,其正面朝上的概率是0.5。通常,我們需要某一事件發生足夠多的次數,我們才可以觀察到它的規律。
在現實生活中,很多事件並不會在相對較短的時間內多次發生。這時候,貝葉斯定理就發揮作用了。比如說我們想知道刮風天下雨的概率是多少,我們不用等10000個刮風天,看其中有幾天下了雨。我們只需要估算出下雨天會刮風的概率,平時下雨的概率,平時刮風的概率,就可以估算出刮風天會下雨的概率是多少了。先驗概率估算得不准確並沒有關系,人們可以通過未來事件的發生情況,不斷對后驗概率做出調整。