概率 貝葉斯公式 先驗概率 后驗概率


先驗概率,后驗概率,似然概率,條件概率,貝葉斯,最大似然
總是搞混,這里總結一下常規的叫法:

 

先驗概率:

事件發生前的預判概率。可以是基於歷史數據的統計,可以由背景常識得出,也可以是人的主觀觀點給出。一般都是單獨事件概率,如P(x),P(y)。

后驗概率:

事件發生后求的反向條件概率;或者說,基於先驗概率求得的反向條件概率。概率形式與條件概率相同。

條件概率:

一個事件發生后另一個事件發生的概率。一般的形式為P(x|y)表示y發生的條件下x發生的概率。P(A|B) 事件B已經發生的情況下,事件A發生的條件概率 =P(AB)/P(B)

 

后驗概率就是一種條件概率,但是與其它條件概率的不同之處在於,它限定了目標事件為隱變量取值,而其中的條件為觀測結果 
一般的條件概率,條件和事件都可以是任意的。

貝葉斯公式就是由先驗概率求后驗概率的公式 

 

舉例區分普通條件概率與后驗概率的區別

1)那么如果我們出門之前我們聽到新聞說今天路上出了個交通事故,那么我們想算一下堵車的概率,這個就叫做條件概率 。也就是P(堵車|交通事故)。這是有因求果

2)如果我們已經出了門,然后遇到了堵車,那么我們想算一下堵車時由交通事故引起的概率有多大,那這個就叫做后驗概率 (其實也是條件概率,但是通常習慣這么說) 。也就是P(交通事故|堵車)。這是有果求因

 

 

貝葉斯公式:

 

P(A|B)=P(A)P(B|A)/P(B) 

P(A) A為真的概率,先驗概率,是貝葉斯主義者引以為優勢的“主觀偏見”

P(B) B為真的概率,也稱邊緣概率或配分函數,是難計算的一項

P(B|A) A為真時B的概率,也稱為似然度

 

 

 

在生信的consensus calling and snp detection 步驟如SOAPsnp ,則

 

 Ti   即某位點locus的genotype 概率

 D  測序reads觀測到的allele type

 S genotypes 的數量, 對於單倍型 haploid genotype 有四種{A,C,G,T} ;對於diploid genome 有10種{AA,CC,GG,TT,AC,AG,AT,CG,CT,GT} 

 在每個genomic location, 基因型 T的prior probability P(Ti) 依據參考序列的genotype和SNP rate(在測序個體和參考基因組間的estimated SNP rate)設置。

如基因型Ti的 P(D|Ti)由測序reads的observed allele types 統計。 定義一個haploid genotype(H)對應觀測的allele dk的likelihood為P(dk|H)。假定一個基因組的兩條染色體的集合是獨立的,一個二倍體基因組某位點的likelihood P(dk|T) 可以統計為

 

,那么,某位點n個觀測到的allels,D={d1, d2, . . ., dn}, P(D|T)為

 

 因此,后驗概率posterior probability可以由貝葉斯公式所得,選擇后驗概率最高的基因型Ti 作為consensus。phred-like的質量值統計為

􏱫-10 log10[1 - P(Ti|D)] 

 

 

 

 

x,y表述:

P(y|x) = ( P(x|y) * P(y) ) / P(x)。   

P(y|x) 是后驗概率,一般是我們求解的目標。

P(x|y) 是條件概率,又叫似然概率,一般是通過歷史數據統計得到。一般不把它叫做先驗概率,但從定義上也符合先驗定義。

P(y) 是先驗概率,一般都是人主觀給出的。貝葉斯中的先驗概率一般特指它。

P(x) 其實也是先驗概率,只是在貝葉斯的很多應用中不重要(因為只要最大后驗不求絕對值),需要時往往用全概率公式計算得到。

 

實例:假設y是文章種類,是一個枚舉值;x是向量,表示文章中各個單詞的出現次數。

在擁有訓練集的情況下,顯然除了后驗概率P(y|x)中的x來自一篇新文章無法得到,p(x),p(y),p(x|y)都是可以在抽樣集合上統計出的。

 

最大似然理論:

認為P(x|y)最大的類別y,就是當前文檔所屬類別。即Max P(x|y) = Max p(x1|y)*p(x2|y)*...p(xn|y), for all y

貝葉斯理論:

認為需要增加先驗概率p(y),因為有可能某個y是很稀有的類別幾千年才看見一次,即使P(x|y)很高,也很可能不是它。

所以y = Max P(x|y) * P(y), 其中p(y)一般是數據集里統計出來的。

 

從上例來講,貝葉斯理論顯然更合理一些;但實際中很多先驗概率是拍腦袋得出的(不准),有些甚至是為了方便求解方便生造出來的(硬湊),那有先驗又有什么好處呢?一般攻擊貝葉斯都在於這一點。

基於貝葉斯理論,GTAK統計genotype:https://gatk.broadinstitute.org/hc/en-us/articles/360035890511

GT/PL folumn for genotype and its likelihood values.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM