RNA-seq數據分析中,為了鑒定兩個group 差異表達的基因,會針對每一個基因分別做假設檢驗(例如T-test),這里會出來一個P-value,但是往往R中專門做差異表達的package,還會有Adjusted-P 這么一個P-value。或者我們經常會碰到FDR這個概念。這些說的都是Multiple Testing。
1. 首先當我們要針對多個特征(例如基因)做假設檢驗時,由於每次檢驗都有一定幾率會發生第一類錯誤(Type I errors/false positives),所以每進行一次假設檢驗,就會降低整體(所有假設檢驗)的結果的可信度,隨着檢驗次數的增加,至少出現一次錯誤的可能性也在增加。這里用拋不同硬幣的例子很形象,這個案例也很好。
2. 所以就要對P-value進行調整(上調),以減小整體的FDR。比較溫和的方法是Holm-Bonferroni。見下圖。


3. 那么如何在python中做multiple testing呢
首先要對自己的數據每一個feature做testing (T-test/ Wilkson 等),然后再用statsmodels 中的multipletests方法,詳見該鏈接。
