全基因組關聯分析(GWAS):為何我的QQ圖那么飄


前段時間有位小可愛問我,為什么她的QQ圖特別飄,如果你不理解怎樣算飄,請看下圖:
ZMHPW6.md.jpg

理想的QQ圖應該是這樣的:

ZMHIXD.md.jpg

我當時的第一反應是:1)群體分層造成的;2)表型分布有問題。因此讓她檢查一下數據的群體分層情況,如果沒有問題就看一下表型分布。

這段時間有空了,我覺得有必要梳理一下這個飄逸的QQ圖,到底是怎么回事兒以及如何確定這么飄逸的QQ圖有沒有問題。

1.產生飄逸的QQ圖的原因

產生飄逸的qq圖的原因有很多,比如我們喜聞樂見的:基因多效性(polygenicity)。也有可能是混淆偏倚,比如群體分層,假如樣本中混合了歐洲、非洲、亞洲等各個地方的群體,本身各個群體的SNP頻率差異就很大,如果不加以群體分層控制,關聯分析的時候就會產生很多偏離預期值的SNP位點。

很久以前,出現飄逸的QQ圖的話,我們可以搭配膨脹系數(膨脹系數的計算)一起看,膨脹系數如果接近1(比如1.01,1.2這種不算接近1),那么也還算過得去。

但,膨脹系數接近1這種是比較理想的情況。實際情況是,很多人的QQ圖不僅飄逸,膨脹系數還老高

這就尷尬了,連膨脹系數都無法確定這個QQ圖飄的正不正常了。

所以呢,接下來還有什么方法確定我們的基因組數據有沒有問題呢?

2.怎么確定是基因多效性還是混淆偏倚呢

接下來我要介紹一款神人工具LDSC (LD SCore),全稱是LD Score regression

這款工具就是幫我們實現如何區分飄逸的QQ圖正不正常

具體來說,就是通過LDSC工具計算基因組數據的LD回歸截距,如果是基因多效性,那么截距會接近1(比如1.004),如果是群體分層等混淆因素引起的,那么LD回歸截距就會遠離1(比如1.30)。

除了看截距數值,我們還可以通過畫LD Score的圖來確定數據是否有問題。

2.1基因多效性

如果畫出來的LDscore圖是下面這種形式,說明GWAS結果是沒有問題的,QQ圖飄逸就讓它飄逸吧。

2.2混淆偏倚

如果畫出來的LDscore圖是下面這種形式,說明QQ圖是有問題的。

3.總結

總之,看截距。

截距很接近1,就不用管QQ圖好不好看了。

遠離1(1.3這種),說明基因組數據是有問題的,檢查一下PCA加夠了沒有、群體分層有沒有控制好、是否混了很多有親緣關系的樣本在里面。

如果你想了解怎么用LDSC計算截距,請見下回解析。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM