Multiple Testing | 多重假設檢驗 | FDR


RNA-seq數據分析中,為了鑒定兩個group 差異表達的基因,會針對每一個基因分別做假設檢驗(例如T-test),這里會出來一個P-value,但是往往R中專門做差異表達的package,還會有Adjusted-P 這么一個P-value。或者我們經常會碰到FDR這個概念。這些說的都是Multiple Testing。

1. 首先當我們要針對多個特征(例如基因)做假設檢驗時,由於每次檢驗都有一定幾率會發生第一類錯誤(Type I errors/false positives),所以每進行一次假設檢驗,就會降低整體(所有假設檢驗)的結果的可信度,隨着檢驗次數的增加,至少出現一次錯誤的可能性也在增加。這里用拋不同硬幣的例子很形象這個案例也很好

2. 所以就要對P-value進行調整(上調),以減小整體的FDR。比較溫和的方法是Holm-Bonferroni。見下圖。

3. 那么如何在python中做multiple testing呢

首先要對自己的數據每一個feature做testing (T-test/ Wilkson 等),然后再用statsmodels 中的multipletests方法,詳見該鏈接

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM