FDR校正


一、假設檢驗

假設檢驗的基本思路是:

設立零假設(null hypothesis)H0,以及與零假設H0相對應的非零假設(alternative hypothesis)H1,在假設H0成立的前提下,計算出H0發生的概率,若H0的發生概率很低,基於小概率事件幾乎不可能發生,所以可以拒絕零假設。

科學研究一般會把我們希望得到的結論當作非零假設,而期望否定的結論當作零假設。只要我們證明零假設發生的概率很小,我們就有理由拒絕零假設,從而接受非零假設。

例如,我希望得到的結論是早上能夠八點起床。那么零假設可以設為:早上八點起不來,如果我計算出來早上八點起不來床的概率非常低,我們就可以接受非零假設:我能夠八點起床。

二、假陽性

假陽性:簡單打個比喻,就是你本來健健康康的,卻被辣雞醫院檢測出來你得了病,這就是假陽性。

假陽性率:是對於所有陽性的樣本而言,其中是假陽性的有多少。比如,公司體檢100個人,檢測出來10個人有病,但真正有病的是8個人,那么假陽性率就是0.2。

三、 p值和q值

p值衡量的是原本我們應該接受H0,但實際接受的是H1的概率,它是針對單次統計推斷的一個置信度評估。還是之前的例子,如果p=0.05,意味着:能夠八點起床 這個假設出錯的概率為5%。

q值衡量的是在進行多次統計推斷后的假陽性率。

四、 FDR校正

之前的例子中,如果我們檢驗次數多達10000次,那么犯錯的概率將500多次。這里雖然犯錯的概率沒變(5%),但是隨着檢驗次數的增多,我們犯錯的次數增多了。因此就需要多重檢驗校正來減低假陽性的次數。

FDR校正就是為了控制假陽性率。例如,對應於腦網絡研究中,假設大腦總共有10000個體素,通過假設檢驗發現有2000個體素的P<0.05。那么FDR<0.02說的是在2000個激活的體素中,假陽性的體素不超過2000*0.02=40個。

五、 如何計算FDR

使用最多的是Benjaminiand Hochberg的方法,簡稱BH法。
BH 方法首先對p值進行升序排列,對於給定的閾值的,找到最大的k值,使得:q = (p*m)/k <α成立

其中的p為p值,m為檢驗次數,k為此次檢驗的p值在所有檢驗次數中的排名。

假設檢驗了5次 ,閾值α=0.05 ,按p值的大小升序排列

p(1) = 0.01 p(2) = 0.015 p(3) = 0.02 p(4) = 0.025 p(5) = 0.03

q(1) = (0.01*5)/1 = 0.05 q(2) = (0.015*5)/2 = 0.0375

q(3) = (0.02*5)/3 = 0.0333 q(4) = (0.025*5)/4 = 0.03125

q(5) = (0.03*5)/5 = 0.03

所以最大的k為3,即認為在FDR<0.05的情況下,1、2、3可以視作為真陽性。對應於腦網絡中的那個例子,原本是五個體素都激活,但

經過FDR校正之后,只有3個激活了。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM