假設檢驗:p-value,FDR,q-value


來源:http://blog.sina.com.cn/s/blog_6b1c9ed50101l02a.html,http://wenku.baidu.com/link?url=3mRTbARl0uPHHRFO9CdqhBNeUj-nb8dRwtqRN2oGqu8u1kN6IsqgYy-H8ggB7jOkPXhx703oM9YW9ftfOlh2dz7KJmlliOhDa4-WZFEEus_,http://www.dxy.cn/bbs/thread/28263194#28263194

 

一、假設檢驗基礎:p-value相關
 
0. 單個假設檢驗中主要依靠p值(或統計量t)做出是否拒絕零假設H0的決定:p-value和預先設定的檢驗水准alpha做對比,如果p-value小於等於alpha,拒絕原假設,否則不拒絕原假設。
1. p-value:表征了在原假設成立的條件下,重復進行當前的試驗,獲得現有統計量t及其更極端情況的概率。
2. 給定檢驗水准alpha時,可得出對應的拒絕域;根據當前試驗,可以計算出p-value。當p-value越小時,表示此時試驗得到的統計量t越落在拒絕域。因此基於p-value的結果等價於基於t值的結果。因此,p-value越小,拒絕原假設的信心越大。
3. 假陽性率:false positive rate, FPR。檢驗水准alpha給出了事先犯I-型錯誤的最大概率。
 
自己重新翻了一下書(《現代教育與心理統計學》,第八章),筆記如下:
· 差異是否顯著:從平均數為x0的總體重人意抽取的樣本平均數x1(這里為了打字方便就用這兩個記號表示了),只要x1落在下圖(網絡來源)左上非陰影區域,那么就認為當x1與x0不重合時,其的差異是抽樣誤差所致,即“差異不顯著”,此時接受H0。
 
· alpha(顯著性水平)
如果上圖左上兩邊陰影面積加起來占全面積1%,等價於alpha = 0.01。
· 兩類錯誤(假設alpha = 0.01)
Ⅰ型錯誤(“棄真”):當x1落入陰影面積,我們的錯x1與x0差異顯著的結論,但與此同時,這個結論也有可能是錯的,即有1%的可能犯錯。這種錯誤發生是因為H0本來是正確的,但我們錯誤地拒絕了它。可以看到Ⅰ型錯誤的發生概率等於alpha。
Ⅱ型錯誤(“取偽”):H0本來是錯誤的,但我們錯誤地接受了它,此時犯錯誤的概率,一般記為beta。
==> 為了即以方便,我們只要記住“棄真”“取偽”中的“真”和“偽”都是說H0的,並且行為都是和理論行為相反(“真”時反而拋棄,“偽”時反而接受)。
==> alpha + beta並不等於1,因為兩類錯誤的前提不同:Ⅰ類錯誤中H0為真,那么所有討論應當在類似於上圖左上的正態分布中討論;而在Ⅱ類錯誤中,H0為假等價於H1為真,那么就應當在H1的正態分布中討論,此時beta和之前的alpha是沒有關系的兩個量。
==> 統計檢驗力(1 - beta):如果x1真實值與x0很小,某個檢驗仍然可以以較大把握接受它,那么就說這個檢驗的統計檢驗力很大(即(1 - beta)增大,即beta減小)。
· 單側檢驗與雙側檢驗
 (這圖網上搜的...也是醉了)
從上到下依次為右側(right-tailed)、左側(left-tailed)以及雙側(two-tailed)檢驗。
··· 右側檢驗(拒絕域在右側):
H0:μ ≤ μ0,H1:μ > μ0
陰影部分面積:alpha;
··· 左側檢驗(拒絕域在左側):
H0:μ ≥ μ0,H1:μ < μ0
陰影部分面積:alpha;
··· 雙側檢驗(拒絕域在兩側)
H0:μ = μ0,H1:μ ≠ μ0
陰影部分面積:alpha/2。
==>由以上內容可以看出:alpha一定的情況下,相比於單側檢驗,雙側檢驗的臨界點要更遠離μ0,即beta增大,即“取偽”錯誤概率增大。所以一個問題如果可以用單側檢驗,就不要用雙側檢驗。(當然必須用雙側檢驗的,不要強行用單側檢驗)
 
“一般認為雙側檢驗較保守和穩妥,而單側檢驗由於充分利用了另一側的不可能性,更易得出有差異性的結論,但應慎用。單側檢驗和雙側檢驗中計算統計量的過程是相同的,先確定概率P值時的‘顯著界限值’是不同的。如alpha = 0.05,自由度v = 14,取單側顯著性界限值t = 1.761,而雙側顯著界限值t = 2.145,可見單側檢驗界值比雙側檢驗界值小,以為着進行單側檢驗時,統計量易達到界限水平,即易得P < 0.05的結論。”
 
 
二、多重假設檢驗和總體錯誤率
 
0. 在進行多重假設檢驗時,每個單獨的假設都具有其本身的I型錯誤。在這種情況下,如果不進行任何的控制,犯I-型錯誤的概率會隨着假設檢驗的個數而迅速增加。

(嚴超贛老師在DPARSF的教學視頻中對為什么要進行FDR校正進行了詳細的舉例說明:

“單個體素,p = 0.05,即犯錯概率為5%。但如果要對五個體素一起校正,那么犯錯誤概率就會變成 p = 1 - (0.95)^5 = 0.23。這樣的話很容易就會出現“假陽性(false positive)”,即H0被錯誤拒絕的情況。再換句話說,隨着體素數目增多,Ⅰ型錯誤(“棄真”錯誤)的概率增大了。但這種情況下,即使出現H0被拒絕,我們也不能說H0為假。為了控制這種情況。最簡單的方法是把每個體素p值都減小,例如bonferroni's correction:假設需要所有5個體素犯錯誤概率為0.05,那么控制每個體素p = 0.05/5 = 0.01。但這種方法太嚴格,如果體素較多,例如100個,那么控制每個體素p = 0.005已經很難,更別說大腦中動輒上萬個體素了。所以我們一般考慮其他更靈活的矯正方式,如FWE、FDR以及AlphaSim。”)

1. 多重假設檢驗中,廣泛使用的錯誤控制指標是總體錯誤率(family-wise error rate,FWER),即至少出現一次錯誤地拒絕真實H0的可能性;FWER小於等於alpha。而研究者更關心的是能否盡量多地識別出差異表達的基因,並且能夠容忍和允許總的拒絕中發生少量的錯誤識別,稱為錯誤發現false discovery。即需要在錯誤發現和總的拒絕次數R之間尋找一種平衡,即在檢驗出盡可能多的候選變量的同時將錯誤發現率控制在一個可以接受的范圍。
2. 錯誤發現率(False Discovery Rate,FDR),表示了在所有R次拒絕中錯誤發現的期望比例。錯誤發現率和假陽性率之間有着本質的差別。錯誤發現率將范圍限定在總的拒絕次數中;而假陽性率則針對所有變量數而言。
3. 給定FDR的控制水平alpha,多重假設檢驗次數M,通過求得拒絕H0的次數N,可得出多重檢驗M次中,有多少次是被錯誤識別的(=alpha * N)。Benjamini和Hochberg給出了一個基於p-value的逐步向下控制程序,用於求出拒絕H0的次數N的值。並且證明在BH控制下,FDR 小於等於 alpha。

 

三、pFDR和q值

 

0. pFDR陽性錯誤拒絕率,是基於至少拒絕一個H0的事實。經過一系列的推導,pFDR的實際意義是,在pFDR錯誤率控制下,當拒絕一個H0時,該假設為真實的概率;pFDR反應了已經在拒絕H0的情況下H0 = 0的概率。可以認為pFDR是貝葉斯后驗p值。

1. 按照和p-value類似的定義,Storey給出了q-value的定義

2. q-value量化了在觀察統計量T = t時,拒絕H0所犯的最小pFDR。p-value的定義基於H0=0的條件而量化T屬於Talpha的概率,顯然q值是p值定義的一個逆過程,q值是基於T屬於Talpha的條件而量化H0=0的概率。

3. 和BH控制不同,q值和pFDR正好相反,即通過選定的拒絕域Talpha去估計對應的q值,當q小於等於alpha時,可保證FDr小於等於alpha。Storey給出了關於q值和pFDR的估計算法。

4. 根據p-value或q-value可以計算對應的FDR,多重假設檢驗中拒絕H0的次數。

5. BH計算錯誤發現率時具有保守性,即在降低假陽性的同時,也減少了正確的假設。為此可采用q-value用於FDR計算。

 

在此加入嚴超贛老師在DPARSF教學視頻中對FDR講解(下圖來自於視頻PPT):

V:本來無顯著差別的“宣布為”有顯著差別,即錯誤判斷的個數;R:總共報告有顯著差別的個數。

則V/R代表:犯錯誤的幾率。

那么FDR = E(V/R)表示:在所有報告有顯著差異的個體中可能誤報的比例,即Q value。

舉例:Q = 0.05,那么報告了100個顯著差異體素,其中最多有5個是實際上無顯著差異的。

====================================================================

FDR錯誤控制法是Benjamini於1995年提出一種方法,通過控制FDR(False Discovery Rate)來決定P值的域值. 假設你挑選了R個差異表達的基因,其中有S個是真正有差異表達的,另外有V個其實是沒有差異表達的,是假陽性的。實踐中希望錯誤比例Q=V/R平均而言不能超過某個預先設定的值(比如0.05),在統計學上,這也就等價於控制FDR不能超過5%.
對所有候選基因的p值進行從小到大排序,則若想控制fdr不能超過q,則只需找到最大的正整數i,使得 p(i)<= (i*q)/m.然后,挑選對應p(1),p(2),...,p(i)的基因做為差異表達基因,這樣就能從統計學上保證fdr不超過q。因此,FDR的計算公式如下:

q-value(i)=p(i)*length(p)/rank(p)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM