GWAS研究中case和control的比例是有講究的?


GWAS研究中,表型分兩種。第一種是線性的表型,如果身高、體重、智力等;第二種是二元的表型,比如患病和未患病,即通常所說的case和control。對於表型是線性的樣本來說,是不存在case和control比例不平衡的情況的,但是對於表型是二元的樣本,比如疾病和對照組(健康人群),case和control比例失衡,可能會出現N多的假陽性結果。具體看看下面的例子。

 

例子1:case和control比例在稍微正常的情況下,比如冠心病(coronaryartery disease,case:control =1:12, N = 408,458),此時,用什么模型計算關聯分析結果都OK.

下面分別用三個不同算法(BOLT-LMM, SAIGE-NoSPA 和 SAIGE)計算的GWAS結果,從圖下可以看出,當case和control的數量比例不是嚴重失衡的情況下,這個時候用哪種方法結果都沒有區別。

 

例子2:case和control比例在比較失衡的情況下,比如結直腸癌 (colorectal cancer , case:control = 1:84, N = 387,318),此時,BOLT-LMM和SAIGE-NoSPA顯然出現了很多假陽性位點,而SAIGE模型下的GWAS結果則比較正常

 

 

 

例子3:case和control比例在嚴重失衡的情況下,比如青光眼(glaucoma, case:control = 1:89, N = 402,223),此時,BOLT-LMM和SAIGE-NoSPA顯然出現了很多假陽性位點,而SAIGE模型下的GWAS結果則比較正常。

 

 

例子4:case和control比例在極其嚴重失衡的情況下,比如甲狀腺癌(thyroid cancer, case:control = 1:1,138, N = 407,757),此時,BOLT-LMM和SAIGE-NoSPA顯然出現了非常多的假陽性位點,而SAIGE模型下的GWAS結果則比較正常。

 

綜上,說了這么多,是想告訴大家當手頭的case和control比例差別比較懸殊的時候,不要一上來就跑GWAS,而是先考慮一下你的樣本適合的模型。像這篇文章里的SAIGE模型就很適合case和control比例嚴重失衡的情況。

 

 

SAIGE的具體用法請參照:

https://github.com/weizhouUMICH/SAIGE

 

圖片出處及參考文獻:https://www.nature.com/articles/s41588-018-0184-y


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM