post-GWAS:使用coloc進行共定位分析(Colocalization)


GWAS找到顯著信號位點后,需要解釋顯著信號位點如何影響表型。
常見的一個解釋方法是共定位分析。

主流的共定位分析包括:

  • 1)GWAS和eQTL共定位;
  • 2)GWAS和sQTL共定位;
  • 3)GWAS和meQTL共定位;
  • 4)GWAS和pQTL共定位;

其中,GWAS和eQTL共定位應用最為廣泛。

具體來說,當檢測到GWAS信號和eQTL共定位時,我們會認為GWAS信號上的位點可能通過改變基因表達的生物學過程影響表型。

共定位分析有四種設想:

  第一種設想 H0: 表型1(GWAS)和 表型2 (以eQTL為例)與某個基因組區域的所有SNP位點無顯著相關;  
  第二種設想 H1/H2: 表型1(GWAS)或表型2(以eQTL為例)與某個基因組區域的SNP位點顯著相關;
  第三種設想 H3: 表型1(GWAS)和 表型2 (以eQTL為例)與某個基因組區域的SNP位點顯著相關,但由不同的因果變異位點驅動;
   第四種設想 H4: 表型1(GWAS)和 表型2 (以eQTL為例)與某個基因組區域的SNP位點顯著相關,且由同一個因果變異位點驅動;

基於以上四種設想,我們希望第四種設想 H4 在統計學上概率更高,這樣就能解釋顯著信號位點如何影響表型;

所以共定位分析,本質上是在檢驗第四種的后驗概率;

講完共定位分析的相關概念,接下來我們以“GWAS和eQTL共定位”為例講一下如何使用coloc進行共定位分析。

1 下載、安裝coloc

if(!require("remotes"))
  install.packages("remotes")
  install.packages("dplyr")
library(remotes)
install_github("chr1swallace/coloc",build_vignettes=TRUE)
library("coloc")
library(dplyr)

2 下載測試數據

測試數據請在公眾號“bio生物信息”后台回復"coloc"獲取。

3 分析

3.1 導入表型1(GWAS)數據:

gwas <- read.table(file="E:/path_to_GWAS/GWAS.txt", header=T);

GWAS數據包括:rs編號rs_id,P值pval_nominal等:

注意事項:如果表型是二分類變量(case和control),輸入文件二選一:

1)rs編號rs_id、P值pval_nominal、SNP的效應值beta、效應值方差varbeta

2)rs編號rs_id、P值pval_nominal、case在所有樣本中的比例s

3.2 導入表型2(eQTL)數據:

eqtl <- read.table(file="E:/path_to_eqtl/eQTL.txt", header=T);

eQTL數據包括:rs編號rs_id,基因gene_id,次等位基因頻率maf、P值pval_nominal等:

注意事項:如果表型是連續型變量,輸入文件三選一:

1)rs編號rs_id、P值pval_nominal、表型的標准差sdY

2)rs編號rs_id、P值pval_nominal、效應值beta,效應值方差 varbeta, 樣本量N,次等位基因頻率 MAF

3)rs編號rs_id、P值pval_nominal、次等位基因頻率 MAF

3.3 合並GWAS和eQTL數據:

input <- merge(eqtl, gwas, by="rs_id", all=FALSE, suffixes=c("_eqtl","_gwas"))
head(input)

3.4 共定位分析

result <- coloc.abf(dataset1=list(pvalues=input$pval_nominal_gwas, type="cc", s=0.33, N=50000), dataset2=list(pvalues=input$pval_nominal_eqtl, type="quant", N=10000), MAF=input$maf)

dataset1的type="cc"指的是GWAS的表型是二分類(case和control);

dataset2的type="quant"指的是eQTL的表型(基因表達量)是連續型

N指樣本量;

3.5 篩選共定位的位點

通常情況下,很多文獻認為PPA > 0.95的位點是共定位位點,也有一些文獻會放松要求到0.75。

這里假定后驗概率大於0.95為共定位位點:

library(dplyr)
need_result=result$results %>% filter(SNP.PP.H4 > 0.95)

結果如下:

從圖上可以看出,SNP.4811位點的后驗概率為1。怎么找到這個位點呢?可以通過對應的P值(1.81e-42)找到這個位點的rs號;

4 結果解讀

對於輸出結果,我們只需要關注最后一列信息SNP.PP.H4,對應推文前面提到的第四種設想 H4。

SNP.PP.H4表示的是GWAS顯著信號和eQTL位點為同一個位點的后驗概率,范圍在0-1之間,0表示概率為0%,1表示概率為100%。后驗概率越高越好。

5 注意事項

1)由於共定位分析是基於某個基因組區域進行計算,所以請不要把全基因組的信息都丟進去(偷懶該打),這么做一個是沒意義,另外一個特別耗時,給計算機增加工作負擔;

2)雖然我們沒必要把基因組的全部信息丟進去,但也不意味着只放一個變異位點信息就行。

3)因此,正確的做法是,先提取GWAS中顯著變異位點上下游區域(這個區域多大自己定,沒有金標准)的GWAS summary數據,理想情況下,提取后顯著變異位點所在基因組區域的SNP數量在1,000-10,000之間。

4)該方法的設想是只有一個causal 位點,所以如果表型1(GWAS)和 表型2 (以eQTL為例)在某個區域有多個顯著位點的話,用該方法是定位不出結果的,這是該方法的局限,所以如果某個基因組區域存在多個顯著位點,請考慮其他工具(允許多個causal 位點共定位的工具)

特別鳴謝:
https://chr1swallace.github.io/coloc/FAQ.html
https://hanruizhang.github.io/GWAS-eQTL-Colocalization/
https://rpubs.com/Charleen_D_Adams/743547


致謝橙子牛奶糖(陳文燕),請用參考模版:We thank the blogger (orange_milk_sugar, Wenyan Chen) for XXX

感謝小可愛們多年來的陪伴, 我與你們一起成長~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM