GWAS研究中case和control的比例是有講究的？

本文轉載自查看原文 2019-03-29 14:38 927 每日文獻/ GWAS

GWAS研究中，表型分兩種。第一種是線性的表型，如果身高、體重、智力等；第二種是二元的表型，比如患病和未患病，即通常所說的case和control。對於表型是線性的樣本來說，是不存在case和control比例不平衡的情況的，但是對於表型是二元的樣本，比如疾病和對照組（健康人群），case和control比例失衡，可能會出現N多的假陽性結果。具體看看下面的例子。

例子1：case和control比例在稍微正常的情況下，比如冠心病（coronaryartery disease，case:control =1:12, N = 408,458），此時，用什么模型計算關聯分析結果都OK.

下面分別用三個不同算法（BOLT-LMM, SAIGE-NoSPA 和 SAIGE）計算的GWAS結果，從圖下可以看出，當case和control的數量比例不是嚴重失衡的情況下，這個時候用哪種方法結果都沒有區別。

例子2：case和control比例在比較失衡的情況下，比如結直腸癌 (colorectal cancer , case:control = 1:84, N = 387,318)，此時，BOLT-LMM和SAIGE-NoSPA顯然出現了很多假陽性位點，而SAIGE模型下的GWAS結果則比較正常

例子3：case和control比例在嚴重失衡的情況下，比如青光眼(glaucoma, case:control = 1:89, N = 402,223)，此時，BOLT-LMM和SAIGE-NoSPA顯然出現了很多假陽性位點，而SAIGE模型下的GWAS結果則比較正常。

例子4：case和control比例在極其嚴重失衡的情況下，比如甲狀腺癌(thyroid cancer, case:control = 1:1,138, N = 407,757)，此時，BOLT-LMM和SAIGE-NoSPA顯然出現了非常多的假陽性位點，而SAIGE模型下的GWAS結果則比較正常。

綜上，說了這么多，是想告訴大家當手頭的case和control比例差別比較懸殊的時候，不要一上來就跑GWAS，而是先考慮一下你的樣本適合的模型。像這篇文章里的SAIGE模型就很適合case和control比例嚴重失衡的情況。

SAIGE的具體用法請參照：

https://github.com/weizhouUMICH/SAIGE

圖片出處及參考文獻：https://www.nature.com/articles/s41588-018-0184-y

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 GWAS：拒絕假陽性之case和control數量比例嚴重失衡的解決方案（SAIGE模型的應用） GWAS研究可利用的數據庫（20200424更新） mysql 中 case 的使用 scala中case用法 SQL中IF和CASE語句 java中的switch case mysql 中sum (if())與case 貼春聯的講究與禁忌 mysql 中 select中用case 默認的Sublime 3中沒有Package Control