GWAS研究中,表型分兩種。第一種是線性的表型,如果身高、體重、智力等;第二種是二元的表型,比如患病和未患病,即通常所說的case和control。對於表型是線性的樣本來說,是不存在case和control比例不平衡的情況的,但是對於表型是二元的樣本,比如疾病和對照組(健康人群),case和control比例失衡,可能會出現N多的假陽性結果。具體看看下面的例子。
例子1:case和control比例在稍微正常的情況下,比如冠心病(coronaryartery disease,case:control =1:12, N = 408,458),此時,用什么模型計算關聯分析結果都OK.
下面分別用三個不同算法(BOLT-LMM, SAIGE-NoSPA 和 SAIGE)計算的GWAS結果,從圖下可以看出,當case和control的數量比例不是嚴重失衡的情況下,這個時候用哪種方法結果都沒有區別。
例子2:case和control比例在比較失衡的情況下,比如結直腸癌 (colorectal cancer , case:control = 1:84, N = 387,318),此時,BOLT-LMM和SAIGE-NoSPA顯然出現了很多假陽性位點,而SAIGE模型下的GWAS結果則比較正常
例子3:case和control比例在嚴重失衡的情況下,比如青光眼(glaucoma, case:control = 1:89, N = 402,223),此時,BOLT-LMM和SAIGE-NoSPA顯然出現了很多假陽性位點,而SAIGE模型下的GWAS結果則比較正常。
例子4:case和control比例在極其嚴重失衡的情況下,比如甲狀腺癌(thyroid cancer, case:control = 1:1,138, N = 407,757),此時,BOLT-LMM和SAIGE-NoSPA顯然出現了非常多的假陽性位點,而SAIGE模型下的GWAS結果則比較正常。
綜上,說了這么多,是想告訴大家當手頭的case和control比例差別比較懸殊的時候,不要一上來就跑GWAS,而是先考慮一下你的樣本適合的模型。像這篇文章里的SAIGE模型就很適合case和control比例嚴重失衡的情況。
SAIGE的具體用法請參照:
https://github.com/weizhouUMICH/SAIGE
圖片出處及參考文獻:https://www.nature.com/articles/s41588-018-0184-y