一、假設檢驗
假設檢驗的基本思路是:
設立零假設(null hypothesis)H0,以及與零假設H0相對應的非零假設(alternative hypothesis)H1,在假設H0成立的前提下,計算出H0發生的概率,若H0的發生概率很低,基於小概率事件幾乎不可能發生,所以可以拒絕零假設。
科學研究一般會把我們希望得到的結論當作非零假設,而期望否定的結論當作零假設。只要我們證明零假設發生的概率很小,我們就有理由拒絕零假設,從而接受非零假設。
例如,我希望得到的結論是早上能夠八點起床。那么零假設可以設為:早上八點起不來,如果我計算出來早上八點起不來床的概率非常低,我們就可以接受非零假設:我能夠八點起床。
二、假陽性
假陽性:簡單打個比喻,就是你本來健健康康的,卻被辣雞醫院檢測出來你得了病,這就是假陽性。
假陽性率:是對於所有陽性的樣本而言,其中是假陽性的有多少。比如,公司體檢100個人,檢測出來10個人有病,但真正有病的是8個人,那么假陽性率就是0.2。
三、 p值和q值
p值衡量的是原本我們應該接受H0,但實際接受的是H1的概率,它是針對單次統計推斷的一個置信度評估。還是之前的例子,如果p=0.05,意味着:能夠八點起床 這個假設出錯的概率為5%。
q值衡量的是在進行多次統計推斷后的假陽性率。
四、 FDR校正
之前的例子中,如果我們檢驗次數多達10000次,那么犯錯的概率將500多次。這里雖然犯錯的概率沒變(5%),但是隨着檢驗次數的增多,我們犯錯的次數增多了。因此就需要多重檢驗校正來減低假陽性的次數。
FDR校正就是為了控制假陽性率。例如,對應於腦網絡研究中,假設大腦總共有10000個體素,通過假設檢驗發現有2000個體素的P<0.05。那么FDR<0.02說的是在2000個激活的體素中,假陽性的體素不超過2000*0.02=40個。
五、 如何計算FDR
使用最多的是Benjaminiand Hochberg的方法,簡稱BH法。
BH 方法首先對p值進行升序排列,對於給定的閾值的,找到最大的k值,使得:q = (p*m)/k <α成立
其中的p為p值,m為檢驗次數,k為此次檢驗的p值在所有檢驗次數中的排名。
假設檢驗了5次 ,閾值α=0.05 ,按p值的大小升序排列
p(1) = 0.01 p(2) = 0.015 p(3) = 0.02 p(4) = 0.025 p(5) = 0.03
q(1) = (0.01*5)/1 = 0.05 q(2) = (0.015*5)/2 = 0.0375
q(3) = (0.02*5)/3 = 0.0333 q(4) = (0.025*5)/4 = 0.03125
q(5) = (0.03*5)/5 = 0.03
所以最大的k為3,即認為在FDR<0.05的情況下,1、2、3可以視作為真陽性。對應於腦網絡中的那個例子,原本是五個體素都激活,但
經過FDR校正之后,只有3個激活了。