GWAS找到顯著信號位點后,需要解釋顯著信號位點如何影響表型。
常見的一個解釋方法是共定位分析。
主流的共定位分析包括:
- 1)GWAS和eQTL共定位;
- 2)GWAS和sQTL共定位;
- 3)GWAS和meQTL共定位;
- 4)GWAS和pQTL共定位;
其中,GWAS和eQTL共定位應用最為廣泛。
具體來說,當檢測到GWAS信號和eQTL共定位時,我們會認為GWAS信號上的位點可能通過改變基因表達的生物學過程影響表型。
共定位分析有四種設想:
第一種設想 H0: 表型1(GWAS)和 表型2 (以eQTL為例)與某個基因組區域的所有SNP位點無顯著相關;
第二種設想 H1/H2: 表型1(GWAS)或表型2(以eQTL為例)與某個基因組區域的SNP位點顯著相關;
第三種設想 H3: 表型1(GWAS)和 表型2 (以eQTL為例)與某個基因組區域的SNP位點顯著相關,但由不同的因果變異位點驅動;
第四種設想 H4: 表型1(GWAS)和 表型2 (以eQTL為例)與某個基因組區域的SNP位點顯著相關,且由同一個因果變異位點驅動;
基於以上四種設想,我們希望第四種設想 H4 在統計學上概率更高,這樣就能解釋顯著信號位點如何影響表型;
所以共定位分析,本質上是在檢驗第四種的后驗概率;
講完共定位分析的相關概念,接下來我們以“GWAS和eQTL共定位”為例講一下如何使用coloc進行共定位分析。
1 下載、安裝coloc
if(!require("remotes"))
install.packages("remotes")
install.packages("dplyr")
library(remotes)
install_github("chr1swallace/coloc",build_vignettes=TRUE)
library("coloc")
library(dplyr)
2 下載測試數據
測試數據請在公眾號“bio生物信息”后台回復"coloc"獲取。
3 分析
3.1 導入表型1(GWAS)數據:
gwas <- read.table(file="E:/path_to_GWAS/GWAS.txt", header=T);
GWAS數據包括:rs編號rs_id
,P值pval_nominal
等:
注意事項:如果表型是二分類變量(case和control),輸入文件二選一:
1)rs編號
rs_id
、P值pval_nominal
、SNP的效應值beta
、效應值方差varbeta
;2)rs編號
rs_id
、P值pval_nominal
、case在所有樣本中的比例s
3.2 導入表型2(eQTL)數據:
eqtl <- read.table(file="E:/path_to_eqtl/eQTL.txt", header=T);
eQTL數據包括:rs編號rs_id
,基因gene_id
,次等位基因頻率maf
、P值pval_nominal
等:
注意事項:如果表型是連續型變量,輸入文件三選一:
1)rs編號
rs_id
、P值pval_nominal
、表型的標准差sdY
;2)rs編號
rs_id
、P值pval_nominal
、效應值beta
,效應值方差varbeta
, 樣本量N
,次等位基因頻率MAF
;3)rs編號
rs_id
、P值pval_nominal
、次等位基因頻率MAF
;
3.3 合並GWAS和eQTL數據:
input <- merge(eqtl, gwas, by="rs_id", all=FALSE, suffixes=c("_eqtl","_gwas"))
head(input)
3.4 共定位分析
result <- coloc.abf(dataset1=list(pvalues=input$pval_nominal_gwas, type="cc", s=0.33, N=50000), dataset2=list(pvalues=input$pval_nominal_eqtl, type="quant", N=10000), MAF=input$maf)
dataset1的type="cc"指的是GWAS的表型是二分類(case和control);
dataset2的type="quant"指的是eQTL的表型(基因表達量)是連續型
N指樣本量;
3.5 篩選共定位的位點
通常情況下,很多文獻認為PPA > 0.95的位點是共定位位點,也有一些文獻會放松要求到0.75。
這里假定后驗概率大於0.95為共定位位點:
library(dplyr)
need_result=result$results %>% filter(SNP.PP.H4 > 0.95)
結果如下:
從圖上可以看出,SNP.4811位點的后驗概率為1。怎么找到這個位點呢?可以通過對應的P值(1.81e-42)找到這個位點的rs號;
4 結果解讀
對於輸出結果,我們只需要關注最后一列信息SNP.PP.H4
,對應推文前面提到的第四種設想 H4。
SNP.PP.H4
表示的是GWAS顯著信號和eQTL位點為同一個位點的后驗概率,范圍在0-1之間,0表示概率為0%,1表示概率為100%。后驗概率越高越好。
5 注意事項
1)由於共定位分析是基於某個基因組區域進行計算,所以請不要把全基因組的信息都丟進去(偷懶該打),這么做一個是沒意義,另外一個特別耗時,給計算機增加工作負擔;
2)雖然我們沒必要把基因組的全部信息丟進去,但也不意味着只放一個變異位點信息就行。
3)因此,正確的做法是,先提取GWAS中顯著變異位點上下游區域(這個區域多大自己定,沒有金標准)的GWAS summary數據,理想情況下,提取后顯著變異位點所在基因組區域的SNP數量在1,000-10,000之間。
4)該方法的設想是只有一個causal 位點,所以如果表型1(GWAS)和 表型2 (以eQTL為例)在某個區域有多個顯著位點的話,用該方法是定位不出結果的,這是該方法的局限,所以如果某個基因組區域存在多個顯著位點,請考慮其他工具(允許多個causal 位點共定位的工具)
特別鳴謝:
https://chr1swallace.github.io/coloc/FAQ.html
https://hanruizhang.github.io/GWAS-eQTL-Colocalization/
https://rpubs.com/Charleen_D_Adams/743547
致謝橙子牛奶糖(陳文燕),請用參考模版:We thank the blogger (orange_milk_sugar, Wenyan Chen) for XXX
感謝小可愛們多年來的陪伴, 我與你們一起成長~