全基因組關聯分析(Genome-Wide Association Study,GWAS)流程


 
        

全基因組關聯分析流程:

 
        

一、准備plink文件

 
        

1、准備PED文件

 
        

PED文件至少有六列,內容如下:

 
        

Family ID

 
        

Individual ID

 
        

Paternal ID

 
        

Maternal ID

 
        

Sex (1=male; 2=female; other=unknown)

 
        

Phenotype(-9 missing 0 missing 1 unaffected 2 affected)

genotype( 1,2,3,4 or A,C,G,T missing 0)

PED文件是空格(空格或制表符)分隔的文件。

 
        

PED文件長這個樣:

 
        

 

 
        

2、准備MAP文件

 
        

MAP文件有四列,四列內容如下:

 
        

chromosome (1-22, X, Y or 0 if unplaced)

 
        

rs# or snp identifier

 
        

Genetic distance (morgans)

 
        

Base-pair position (bp units)

 
         
         
        

MAP文件長這個樣:

 
        

3、生成bed、fam、bim、文件

 
        

輸入命令

plink --file mydata --out mydata --make-bed

注:plink指的是plink軟件,如果軟件安裝在某個指定的路徑的話,前面還要加上路徑,比如安裝在路徑為/your/pathway/的文件夾下,則命令應該為“/your/pathway/plink --file mydata --out mydata --make-bed”

 
        

mydata指的是1和2生成的PED和MAP文件名,不需要寫.ped和.map后綴

 
        

二、准備表型文件(Alternate phenotype files)

 
        

一般表型文件為txt格式,表型文件有三列,分別為:

 
        

Family ID

 
        

Individual ID

 
        

Phenotype

 
        

假如有多種表型,第一列和第二列還是Family ID、Individual ID,第三列及以后的每列都是表型,例如以下:

 
        

Family ID

 
        

Individual ID

 
        

Phenotype A

 
        

Phenotype B

 
        

Phenotype C

 
        

Phenotype D

 
        

Phenotype E

 
        

……

 
        

表型文件長這樣:

 

缺失值的處理:缺失值的表型用-9表示;
case和control的處理:通常情況下,1表示control,2表示case,0表示缺失,但如果你加上--1的參數,則0表示control,1表示case。


三、准備協變量文件(Covariate files)

 
        

協變量文件同表型文件類似,第一列和第二列是Family ID、Individual ID,第三列及以后的每列都是協變量

 
        

Family ID

 
        

Individual ID

 
        

Covariate A

 
        

Covariate B

 
        

Covariate C

 
        

Covariate D

 
        

Covariate E

 
        

……

 
        

協變量文件長這個樣(這里有三個協變量,分別為Sex,Age,temperature):

 
        

 

 
        

四、plink進行表型和基因型以及協變量的關聯分析

 
        

命令如下:

plink --bfile mydata --linear --pheno pheno.txt --mpheno 1 --covar covar.txt --covar-number 1,2,3 --out mydata –noweb
 
        

生成的文件為mydata.assoc.linear

 
        

注:“mydata”mydata文件不需要后綴,“--mpheno 1”指的是表型文件的第三列(即第一個表型)

 
        

“--covar-number 1,2,3”指的是協變量文件的第三列、第四列、第五列(即第一個、第二個、第三個協變量)

 
        

“--linear”指的是用的連續型線性回歸,如果表型為二項式(即0、1)類型,則用“--logistic”

 

五、畫曼哈頓圖

 
        

安裝R語言的CpGassoc包,其中的manhattan(),即可畫曼哈頓圖,或者參照本文R語言畫全基因組關聯分析中的曼哈頓圖(manhattan plot)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM