其實這是我之前最想第一篇來寫的隨筆了,今天就先把這一部分寫一寫吧。
1.問題
一個醫療診斷問題有兩個可選的假設:病人有癌症、病人無癌症可用數據來自化驗結果:陰性和陽性。有先驗知識:在所有人口中,患病率是0.008,對確實有病的患者的化驗准確率為98%,對確實無病的患者的化驗准確率為97% 。
問題:假定有一個新病人,化驗結果為陽性,是否應將病人斷定為有癌症?
我們先把問題簡單描述一下,用事件Y表示檢測為陽性,用事件N表示檢測為陰性,用A表示患有癌症,用B表示健康。那么有:
$$p(A) = 0.008$$ $$p(B) = 0.992$$ $$p(Y|A) = 0.98$$ $$p(N|B) = 0.97$$ $$p(N|A) = 0.02$$ $$p(Y|B) = 0.03$$
然后讓我們求\(p(A|Y)\)
讓我們求已知檢測為陽性的情況下,病人患有癌症的條件概率,根據條件概率的定義有$$p(A|Y) = \frac{p(A,Y)}{p(Y)}$$
而:$$p(A,Y) = p(Y|A)p(A)$$
那么\(p(Y)\)怎么求呢?
我們發現A和B是互斥事件,且\(p(A) + p(B) = 1\),根據聯合概率和邊緣概率的關系,有:$$p(Y,A) + p(Y,B) = p(Y)$$
再次利用聯合概率和條件概率:$$p(Y,A) = p(Y|A)p(A)$$ $$p(Y,B) = p(Y|B)p(B)$$
最終得到:$$p(A|Y) = \frac{P(Y|A)p(A)}{p(Y|A)p(A) + p(Y|B)p(B)}$$
帶入得\(p(A|Y) = 0.208\),這好像和直覺相差甚遠,明明對有病患者准確率高達98%,為什么檢測結果為陽性但是可信度只有21%左右?
我們來看看這種檢測方法診斷結果為陽性的概率\(p(Y) = 0.0376\),發現了什么,該癌症發病率只有0.008,有0.0376的概率的概率是結果為陽性。假設隨機10000個人來檢查,其中癌症患者的期望為80,但是檢測結果為陽性的期望為376。這表明檢測結果為陽性時,假陽性概率很大,在0.008的發病率看來,對正常病人3%的誤差反而大得多,這也是陽性結果可信度低的最主要原因。
我們直接看上面的公式,發現待求的條件概率等於對應的聯合概率占所有對應聯合概率總和(這個總和就是邊緣概率)的比值,例題中正常病人卻檢測出陽性結果占總陽性結果的比例過大(准確率太低),導致最終可信度小,這與上面的描述是等價的。
2.貝葉斯估計公式
$$p(A|B) = \frac{p(B|A)p(A)}{p(B)}$$
貝葉斯估計公式本質是條件概率和邊緣概率的聯系,它提供了根據當前觀測結果以及先驗知識來估計新的分布的方法。在上式中,\(p(A)\)和\(p(B)\)就是先驗知識,或者叫先驗概率,\(p(B|A)\)是當前的觀測結果,通常稱之為后驗概率。
3.新的問題
貝葉斯估計提供了估計方法,但是需要我們如何通過觀測獲得具體的分布呢?那就是分布估計方法啦。