貝葉斯估計


其實這是我之前最想第一篇來寫的隨筆了,今天就先把這一部分寫一寫吧。

1.問題

  一個醫療診斷問題有兩個可選的假設:病人有癌症、病人無癌症可用數據來自化驗結果:陰性和陽性。有先驗知識:在所有人口中,患病率是0.008,對確實有病的患者的化驗准確率為98%,對確實無病的患者的化驗准確率為97% 。

  問題:假定有一個新病人,化驗結果為陽性,是否應將病人斷定為有癌症?

  我們先把問題簡單描述一下,用事件Y表示檢測為陽性,用事件N表示檢測為陰性,用A表示患有癌症,用B表示健康。那么有:

$$p(A) = 0.008$$ $$p(B) = 0.992$$ $$p(Y|A) = 0.98$$ $$p(N|B) = 0.97$$ $$p(N|A) = 0.02$$ $$p(Y|B) = 0.03$$

  然后讓我們求\(p(A|Y)\)

  讓我們求已知檢測為陽性的情況下,病人患有癌症的條件概率,根據條件概率的定義有$$p(A|Y) = \frac{p(A,Y)}{p(Y)}$$ 

  而:$$p(A,Y) = p(Y|A)p(A)$$

  那么\(p(Y)\)怎么求呢?

  我們發現A和B是互斥事件,且\(p(A) + p(B) = 1\),根據聯合概率和邊緣概率的關系,有:$$p(Y,A) + p(Y,B) = p(Y)$$

  再次利用聯合概率和條件概率:$$p(Y,A) = p(Y|A)p(A)$$ $$p(Y,B) = p(Y|B)p(B)$$

  最終得到:$$p(A|Y) = \frac{P(Y|A)p(A)}{p(Y|A)p(A) + p(Y|B)p(B)}$$

  帶入得\(p(A|Y) = 0.208\),這好像和直覺相差甚遠,明明對有病患者准確率高達98%,為什么檢測結果為陽性但是可信度只有21%左右?

  我們來看看這種檢測方法診斷結果為陽性的概率\(p(Y) = 0.0376\),發現了什么,該癌症發病率只有0.008,有0.0376的概率的概率是結果為陽性。假設隨機10000個人來檢查,其中癌症患者的期望為80,但是檢測結果為陽性的期望為376。這表明檢測結果為陽性時,假陽性概率很大,在0.008的發病率看來,對正常病人3%的誤差反而大得多,這也是陽性結果可信度低的最主要原因。

  我們直接看上面的公式,發現待求的條件概率等於對應的聯合概率占所有對應聯合概率總和(這個總和就是邊緣概率)的比值,例題中正常病人卻檢測出陽性結果占總陽性結果的比例過大(准確率太低),導致最終可信度小,這與上面的描述是等價的。

2.貝葉斯估計公式

$$p(A|B) = \frac{p(B|A)p(A)}{p(B)}$$

  貝葉斯估計公式本質是條件概率和邊緣概率的聯系,它提供了根據當前觀測結果以及先驗知識來估計新的分布的方法。在上式中,\(p(A)\)和\(p(B)\)就是先驗知識,或者叫先驗概率,\(p(B|A)\)是當前的觀測結果,通常稱之為后驗概率

3.新的問題

  貝葉斯估計提供了估計方法,但是需要我們如何通過觀測獲得具體的分布呢?那就是分布估計方法啦。

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM