SNP x SNP 上位效應(epistasis)分析


傳統的全基因組關聯分析(GWAS)計算的是單個SNP與表型的相關性,除此之外,我們還可以進行SNP之間的互作效應與表型的相關性分析。

本推文主要介紹的是SNP間的上位效應與表型的相關性分析。

上位效應的公式為:Y ~ b0 + b1.A + b2.B + b3.AB + e

Y為表型,A和B分別為兩個變異位點,在GWAS中通常指SNP,如果b3為顯著,則說明存在上位效應。

1、准備基因型文件

基因型文件:文件格式可以是ped/map或者bed/bim/fam,本教程的格式為ped/map

具體格式准備可參考教程:全基因組關聯分析(Genome-Wide Association Study,GWAS)流程(網址 https://www.cnblogs.com/chenwenyan/p/6095531.html)

基因型文件test.ped

基因型文件test.map

2、准備表型文件

表型分為二分類和非二分類表型(多分類或者連續型表型)。

二分類表型文件phenocc.txt: 第一列為FID(可以是群體等),第二列為IID(個體唯一ID),第三列為表型(1是control,2是case)

多分類或者連續型表型文件phenoq.txt: 第一列為FID(可以是群體等),第二列為IID(個體唯一ID),第三列為表型

3、全基因組所有SNP的上位效應分析

二分類表型的命令如下:

/plink-1.07-x86_64/plink --file test --pheno phenocc.txt --epistasis --epi1 1 --noweb --out test

--epi1參數表示設定輸出的P的閾值,這里設定為1,指的是輸出所有值,PLINK默認輸出的P閾值為1e-4。當SNP數量比較多時,建議用PLINK的默認參數或者適當提高閾值,比如1e-5,以此減少輸出文件大小。

生成test.epi.cctest.epi.cc.summary兩個文件。

test.epi.cc文件如下所示:

不同列所代表的意思:

 CHR1    Chromosome of first SNP   
 SNP1    Identifier for first SNP
 CHR2    Chromosome of second SNP
 SNP2    Identifier for second SNP
 OR_INT  Odds ratio for interaction
 STAT    Chi-square statistic, 1df
 P       Asymptotic p-value

test.epi.cc.summary文件如下所示:

不同列所代表的意思:

 CHR        Chromosome
 SNP        SNP identifier
 N_SIG      # significant epistatic tests (p <= "--epi2" threshold)
 N_TOT      # of valid tests (i.e. non-zero allele counts, etc)
 PROP       Proportion significant of valid tests
 BEST_CHISQ Highest statistic for this SNP 
 BEST_CHR   Chromosome of best SNP
 BEST_SNP   SNP identifier of best SNP

多分類或連續型表型的命令如下:

/plink-1.07-x86_64/plink --file test --pheno phenoq.txt --epistasis --epi1 1 --noweb --out test

生成test.epi.qttest.epi.qt.summary兩個文件

test.epi.qt文件如下所示:

test.epi.qt.summary文件如下所示:

每列所代表的意思同二分類表型結果文件。

4、指定SNP之間的上位效應分析

指定三個SNP之間的上位效應分析,假定三個SNP的文件為epi.set1,內容如下:

指定的三個SNP放中間,以STARTEND作為開頭和結尾。

命令如下:

/plink-1.07-x86_64/plink --file test --pheno phenoq.txt --epistasis --set-test --set epi.set1 --epi1 1 --epi2 0.3 --noweb --out testset1set1

--epi2指的是對顯著的test進行計數,閾值可以是0.05,0.01等,這里設定為0.3,該值針對N_SIG一列設定的。
​示例代碼是PLINK的1.07版本,如果是1.9版本,則將--set-test改為set-by-set

生成的結果如下所示:

5、指定SNP與其他SNP的上位效應分析

指定rs11260575、rs4018608、rs3737723rs56673092、rs6689813的上位效應分析,需要文件epi.set2,格式如下:

上位效應分析:

/plink-1.07-x86_64/plink --file test --pheno phenoq.txt --epistasis --set-test --set epi.set2 --epi1 1 --epi2 0.3 --noweb --out testset1set2

結果如下所示:

6、指定SNP與全基因組的上位效應分析

指定SNP與全基因組上位效應分析命令:

/plink-1.07-x86_64/plink --file test --pheno phenoq.txt --epistasis --set-test --set epi.set1 --set-by-all --epi1 1 --epi2 1 --noweb --out testset1

結果如下:

需要用到這批測試數據的公眾號“bio生物信息”后台回復“epis”。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM